Основы психоакустики. Cлух и речь. Cубъективные и объективные методы оценки разборчивости речи
В настоящее время разработано достаточно большое количество объективных методов, основные из которых: AI (articulation Index) - индекс артикуляции; %ALcons (percentage Articulation Loss of Consonants) - процент артикуляционных потерь согласных; STI (speech transmission index) - индекс передачи речи; RASTI (rapid speech transmission index) - быстрый индекс передачи речи; SII (speech intelligibility index) - индекс разборчивости речи и др. (стандарты ISO/TR-4870, ANSI S3.2, S3.5; IEC 268-16 и др. ).

На их анализе остановимся более подробно в данной статье, поскольку применение современных методов компьютерной оценки разборчивости речи является очень полезным при работе звукорежиссера в студиях и театрально-концертных залах (особенно если в них установлена система звукоусиления), а также при оценке качества речевых сигналов при передаче по каналам радиовещания, телефонии, в системах перевода речей и пр.

Объективные методы оценки разборчивости речи

Многолетний опыт проектирования залов различного назначения (аудиторий, лекционных залов, кинозалов, театральных залов и др.) и результаты многочисленных исследований показали, что разборчивость речи в помещении определяют следующие акустические характеристики:

- уровень прямого речевого сигнала во всех точках зала;

- уровень внешних и внутренних шумов;

- время реверберации;

- структура, уровень и направление прихода отраженных сигналов.

При этом для хорошей разборчивости речи требуются: достаточно высокий уровень отношения полезного сигнала к уровню шума (для студий звукозаписи он должен соответствовать кривой NC-15) (рис.1), небольшое время реверберации (в пределах до 1,1 с) и структура отражений, характеризующаяся отсутствием эха и наличием интенсивных ранних отражений при низком уровне поздних.

Рис. 1 Стандартизированные кривые уровня шумов NC


Влияние реверберационного процесса на структуру речевого сигнала можно отчетливо увидеть на примере осциллограмм, записанных в заглушенной камере и в помещении с большим значением реверберации (рис.2). Естественно, что при таком существенном изменении временной структуры речевого сигнала процесс его распознавания существенно ухудшается.


Рис. 2 Осциллограмма речевого сигнала
в заглушенной камере и в помещении


Существующие в настоящее методы объективной оценки разборчивости в той или иной степени связаны с перечисленными акустическими характеристиками. Кроме того, на разборчивость речи влияют параметры системы звукоусиления, если она установлена в зале (рис.3), о чем уже было сказано в первой части статьи.


Рис. 3 Параметры системы звукоусиления,
влияющие на разборчивость


Объективные методы оценки разборчивости можно разделить на две группы.

Первая аддитивная группа базируется на том предположении, что результирующая разборчивость речи определяется суммой вкладов в отдельных частотных полосах, а величина вклада зависит от отношения сигнала к шуму в каждой полосе.

К этой группе относится несколько методов.

1. AI - Индекс артикуляции.

Использование индекса артикуляции было предложено Г. Флетчером в лаборатории Bell Telephone Laboratories (США) в 1940 году.

Идея заключается в том, что весь частотный диапазон речевого сигнала разделяется на некоторое количество полос (обычно на 20), в пределах которых определяется отношение сигнала к шуму. Предполагается , что каждая частотная полоса вносит свой независимый вклад в разборчивость речи. Ширина полос выбрана таким образом, чтобы вклад каждой полосы в результирующую разборчивость был одинаковый.

В каждой полосе рассчитывается отношение "сигнал/шум", взвешивается и суммируется для получения индекса артикуляции: АI = ∑AIj, где AI - индекс артикуляции, 0< АI <1; АIj - вклад в индекс в j-той полосе частот, 0 < АIj < 0,05. Причем, для отношения "сигнал/шум" больше 30 дБ значение АIj принимается равным 0,05, а для отношения "сигнал/шум" меньше 30 дБ эти значения определяются как: АIj = 0,05(S/N)j/30. Отношение сигнала к шуму в отдельных полосах частот определяется по пиковым значениям речевого сигнала и по эффективным величинам шума. Причем, в шум включаются все мешающие передаче речи сигналы: шумовой фон помещения, реверберационная составляющая речевого сигнала и шум электроакустического тракта.


Рис. 4 Соотношение между разборчивостью
и индексом артикуляции AI


Значения AI ниже 0,3 соответствуют плохой разборчивости; от 0,3 до 0,5 - удовлетворительной; 0,5...0,7 - хорошей; выше 0,7 - очень хорошей. Соотношение между артикуляционным индексом и словесной разборчивостью для английской речи показано на рисунке 4. Как следует из определения, основное влияние на величину индекса артикуляции оказывает уровень шумов в помещении, примеры распределения значений AI в разных точках аудитории при уровне шумов, соответствующих кривым NC-50 и NC-35, представленных на рис.1, показаны на рис.5а и 5б.



Рис. 5 Распределение индекса артикуляции AI
в разных точках аудитории
при разном уровне шумов: a-NC-50; б-NC-35

Видно, что в первом случае, значение индекса артикуляции падает от 0,93 (93%) вблизи оратора до 0,18 (18%) в дальней точке, то есть помещение имеет в основной зоне плохую разборчивость ниже 0,7 (70%). Во втором случае AI падает от 93% до 62%, в основной зоне помещения он превышает 70%, следовательно, только уровень шумов ниже NC-35 позволяет обеспечить приемлемую разборчивость речи в аудитории без звукоусиления.

Необходимо отметить, что в России этот метод был подробно разработан в трудах М.А. Сапожкова и др., он получил название "метода формантной разборчивости", при этом методика его определения приобрела некоторые изменения. Для расчетов выбирается частотная полоса речевого сигнала 150...7000 Гц, поскольку внутри этой полосы располагаются практически все форманты гласных и согласных русской речи. (Определение формант как частотных полос, где имеются максимумы акустической энергии, и их расположение в частотной области было рассмотрено в предыдущих частях этой статьи). Эта полоса делится на 20 подполос, вероятность появления формант в каждой полосе равна 0,05.


Рис. 6.а. Определение коэффициента Кф

В результате маскировки шумом уменьшается вероятность восприятия формант (в первую очередь для согласных звуков, потому что они ниже по уровню), а следовательно и уровень разборчивости речи. Общий коэффициент формантной разборчивости также определяется как АI = ∑AIj, где AIj = 0,05Кф. Коэффициент Кф называется коэффициентом восприятия формант (или коэффициентом разборчивости в к-полосе). Он определяется следующим образом: рассчитывается разница Еф между средним уровнем речи в каждой полосе Вр и средним уровнем шумов и помех в этой же полосе Вш: Еф = Вр-Вш. Из полученного значения Еф в каждой полосе определяется по графику значение коэффициента Кф (рис.6а). Отсюда по вышеуказанной формуле для каждой полосы рассчитывается коэффициент AIj, и затем суммарный коэффициент формантной разборчивости (индекс артикуляции). Связь этого коэффициента с величиной слоговой разборчивости для русской речи показана на рис.6б. Интересно, что при потере почти половины формантной разборчивости слоговая разборчивость составляет 80%, то есть речь обладает достаточным запасом по информационной избыточности.


Рис. 6.б. Соотношение между слоговой
разборчивостью и индексом артикуляции AI
(русская речь)


Несмотря на простоту применения, метод расчета артикуляционного индекса имеет ряд существенных недостатков: он учитывает только влияние шума на разборчивость, и не учитывает влияния других факторов (времени реверберации, структуры отражений и др.). Поэтому он больше подходит для оценки разборчивости в системах связи, а при оценке разборчивости в помещении с временем реверберации Трев > 0,5 с он дает не очень хорошее совпадение с субъективными оценками. Этот метод считается устаревшим, и в современной практике используются в основном другие критерии.

2. SII - индекс разборчивости речи. Он был предложен как дальнейшее развитие метода AI и даже включен в американский стандарт для оценки разборчивости речи ANSI S3.5-1997.

В стандарте предлагается четыре измерительные процедуры, каждая использует различное число и размер частотных полос в пределах диапазона 150...8500 Гц:

- критические полосы (21 полоса);

- третьоктавные полосы (18 полос);

- равные по вкладу критические полосы (17 полос);

- октавные полосы (6 полос).

В каждой из них вычисляется отношение "сигнал/шум" и затем рассчитывается суммарный коэффициент SII, который может изменяться в пределах от 0 до 1.

Поскольку здесь используются критические полосы (о них было написано в предыдущих статьях по психоакустике), метод дает несколько лучшую корреляцию с субъективными экспертизами. Однако, проблемы учета искажений во временной области(реверберация, эхо и др.) по-прежнему остаются.


3. %ALcons - процент артикуляционных потерь согласных (percentage Articulation Loss of Consonants).

Этот метод был разработан В. Пьютцем из Голландии - его первая статья была опубликована в 1971 году в JAES. С того времени он опубликовал много работ по данному направлению, в 1984 году разработал алгоритм для измерений с помощью TEF-анализатора. Идея заключается в том, что для объективной оценки разборчивости вычисляется процент потери согласных, которые в основном и определяют смысловое содержание речи. Чем больше этот процент, тем хуже разборчивость речи в помещении. Максимально допустимое значение - 10% (при условии, что помещение относительно свободно от маскирующего шума). Для помещений, используемых для целей обучения, и для систем оповещения он должен составлять не больше 5%.

Первая из предложенных Пьютцем формул для расчета процента потери согласных ALcons имела следующий вид:

%ALcons= 200D2RT602(N)/VQM, где:

D - расстояние от источника звука (оратора, певца или громкоговорителя) до самого удаленного слушателя, м;

RT60 - стандартное время реверберации, с;

V - объем помещения, м3;

Q - фактор направленности источника звука для расчетной точки;

М - поправочный коэффициент, учитывающий влияние различных акустических и электроакустических эффектов (как правило равен единице);

N - коэффициент, учитывающий использование в системе нескольких источников.

В случае, если используется несколько излучателей для озвучивания помещения и все они одинаковы, то N определяется как отношение общего количества акустических систем к числу систем, обеспечивающих прямой звук в расчетной точке.

Как следует из этой формулы, в ней учитывается влияние объема помещения, расстояние до источника звука, коэффициенты направленности источников звука, отношение прямой энергии к реверберирующей и т.д. Из нее также следует, что для достижения уровня %ALcons = 10% время реверберации не должно быть больше 1,1 с. Было также установлено, что повышение уровня давления, создаваемого громкоговорителями, приводит к улучшению разборчивости до тех пор, пока уровень сигнала не достигает значения +25 дБ по отношению к уровню фонового шума. Дальнейшее повышение уровня давления (излучаемой акустической мощности) вопреки обычным представлениям не сказывается на степени разборчивости, так как это приводит к росту уровня как прямого, так и диффузного звуков.

Этот метод широко используется на практике (особенно в США), он позволяет учесть влияние реверберации на разборчивость речи и дает хорошую корреляцию в ряде случаев с субъективными оценками.

Примеры расчета значений %ALcons для разных точек помещения (речевой аудитории) при времени реверберации 3,5 и 1,2 с (рис.7а,б) показывают, что при большом времени реверберации значения %ALcons достигают 26% процентов в дальних точках помещения, что недопустимо. В то же время в более заглушенной аудитории, на большей части площади %ALcons не превышает 10%, что обеспечивает вполне удовлетворительную разборчивость речи.




Рис. 7 Распределение в помещении
значений %ALcons: a-T=3,5; б-T=1,2 c


Но у этого метода есть свои недостатки: он основан на измерении в одной третьоктавной полосе вокруг 2000 Гц, поскольку здесь сосредоточена основная энергия согласных звуков. Все другие частоты обычно не используются, что может приводить к значительным погрешностям, в частности, за счет частотной зависимости коэффициента направленности источника звука от частоты и соответствующего изменения по частотному диапазону отношения уровня прямого звука к реверберирующему. Кроме того, этот метод не учитывает целый ряд важных для разборчивости параметров: отношение "сигнал/шум", поздние отражения и эхо, спектр фонового шума и др. Правда, позднее Пьютцем была предложена новая методика, позволяющая учесть фоновый шум. При этом предлагается значения %ALcons, вычисленные по вышеприведенной формуле, умножить на коэффициент, учитывающий уровень шумов в помещении:

%AL'cons = %ALcons(1,071Т-0,0285)25+(Ln-Ls), где:

Ln - уровень шума в помещении, дБ; Ls - уровень речевого сигнала, дБ.

Однако проблемы, связанные с применением этого критерия (возможность эффективного применения в основном в помещениях сравнительно небольшого объема, неучитывание ранних отражений, эхо и др.) остаются, поэтому работы по усовершенствованию этого критерия все время продолжаются.

Вторая группа методов для объективной оценки разборчивости построена на оценке модуляционной передаточной функции системы. К их числу относятся методы STI, RASTI, STIPA и др.

1. STI - Индекс передачи речи (speech transmission index).

Особая группа методов, позволяющая объективно оценить разборчивость речи в помещении, была разработана на основе использования модуляционной передаточной функции MTF (The Modulation Transfer Function).

Идея методов заключается в том, что, как было рассмотрено в предыдущих частях этой статьи, речевой сигнал представляет собой свертку импульсной характеристики звукового сигнала источника (для гласных звуков это импульсный сигнал с почти гармоническим спектром, для согласных это шумовой сигнал различной формы) с импульсной характеристикой голосового тракта. Как показывает анализ рис.8, речевой сигнал можно приближенно рассматривать как некоторый широкополосный сигнал (с полосой 125...8000 Гц), модулированный другим сигналом с низкой частотой. Частота модуляции определяется скоростью, с которой человек произносит форманты (скоростью артикуляции). Эксперименты показали, что частоты модуляции в обычной речи находятся в диапазоне от 0,63 до 16 Гц, причем наиболее вероятные частоты модуляции находятся в области 5...7 Гц.

Уменьшение глубины модуляции делает речевой сигнал более похожим на шумовой и, следовательно, приводит к уменьшению его разборчивости. При прохождении речевого сигнала через любой тракт передачи или помещение за счет реверберации, искажений и шумов происходит уменьшение разборчивости сигнала, что может быть оценено по степени уменьшения его глубины модуляции (изменения формы огибающей сигнала).


Рис. 8 Осциллограмма речевого сигнала


Поэтому в работах Хоутгаса и Стинекена в 1971 году был предложен следующий метод оценки разборчивости: весь речевой диапазон от 125 Гц до 8000 Гц разбивается на семь октавных полос. На вход испытываемой системы, например, на акустическую систему, установленную в точке помещения, где должен находится диктор (оратор), подается октавный шумовой сигнал с центральными частотами 125; 250; 500 Гц; 1; 2; 4 и 8 кГц, распределение интенсивности которого по октавным полосам совпадает с распределением интенсивности речевого сигнала. Сигнал этот модулируется гармоническим сигналом со стопроцентным индексом модуляции (рис.9): I(t) = I0(1+cos2πFt). При этом характеристика направленности акустической системы, через которую сигнал излучается в помещение, должна быть близка к характеристике направленности ротового отверстия. Частоты модулирующего сигнала меняются в пределах от 0,63 до 12,5 Гц с третьоктавным интервалом (всего четырнадцать частот). В точке, где должен располагаться слушатель, сигнал принимается ненаправленным микрофоном, при этом за счет шумов и процессов реверберации в помещении форма сигнала изменяется, и глубина его модуляции уменьшается.


Рис. 9 Вид модулированного сигнала


Сигнал теперь может быть представлен в форме: I(t) = I0(1+mcos(2πFt+ φ)), где:

m - коэффициент, характеризующий уменьшение глубины модуляции. Он является функцией частоты модуляции F и зависит от времени реверберации в помещении и отношения "сигнал/шум" (зависимость величины 20lg(m(F)) от частоты F называется модуляционной передаточной функцией);

I0 - амплитудное значение сигнала;

F - частота сигнала;

t - время;

φ - начальная фаза.


Рис. 10 Шкала CIS


В предлагаемом методе измерения проводятся для 98 точек для семи октавных полос подаваемого шума и 14 значений частот модуляции. Полученная матрица из 98 точек используется для расчета STI (speech transmission index) путем взвешивания среднего значения m(F) в каждой полосе частот в соответствии с их общим вкладом в разборчивость. Пример такой матрицы, полученной с помощью компьютерной станции MLSSA, приведен ниже на

Методы измерения разборчивости с помощью STI введены в международный стандарт IEC 268-16. Этот метод предполагает проведение измерений в широком диапазоне частот и поэтому учитывает частотную зависимость времени реверберации, неравномерность АЧХ и другие частотно-зависимые эффекты, что в результате дает достаточно хорошую корреляцию с субъективными оценками.

Для того, чтобы была возможность сравнить результаты оценок разборчивости, полученных различными методами, была разработана общая шкала разборчивости CIS (стандарт IEC-60849), позволяющая пересчитывать значения разборчивости, полученной разными методами (как субъективными, так и объективными) одна в другую (рис.10). Например, значение STI равное 0,7, соответствует значению %ALcons 3,8%, что соответствует 94% слоговой разборчивости и обеспечивает хорошую разборчивость в помещении. Пределы изменения STI для обеспечения хорошей разборчивости составляют 0,6...1,0.


2. RASTI - быстрый индекс передачи речи (rapid speech transmission index).

Поскольку расчет разборчивости вышеуказанным методом представляет собой довольно трудоемкую процедуру, фирмой Bruel & Kjaer был разработан альтернативный упрощенный метод, предусматривающий измерения только в двух октавных полосах 500 Гц при частотах модуляции 1,02/2,03/4,07/8,14 Гц, а также 2 кГц при частотах модуляции 0,73/1,45/2,90/5,81/11,63 Гц. Дальше процедура измерений происходит как и в предыдущем случае, строится матрица, рассчитывается усредненное значение модуляционной передаточной функции в полосах частот и по нему определяется нормализованный индекс RASTI.

Для реализации этого метода фирмой Bruel & Kjaer были разработаны соответствующая аппаратура (B&K3361 RASTI Meter) и программное обеспечение, поэтому эта методика принята практически во всех европейских стандартах. Однако поскольку измерения проводятся только в двух октавных полосах, то они дают несколько завышенные значения, поскольку не учитывают неравномерность АЧХ и ФЧХ в системе. С целью еще большего ускорения процедуры измерений фирма предложила метод, при котором сигналы предъявляются одновременно в двух октавных полосах со всеми модулирующими сигналами одновременно.

Измерения производятся в непрерывном режиме и позволяют производить параллельный анализ в двух октавных полосах. Интервал времени для анализа требуется не менее 8 с. Для хорошей разборчивости требуется, чтобы значения RASTI в разных точках помещения были не ниже 0,6. Для его оценки измерения проводятся в разных точках помещения и строятся кривые его распределения. Пример показан на рис.11.


Рис. 11 Пример распределения RASTI значений в помещении


Следует отметить, что, строго говоря, методы оценки разборчивости с помощью модуляционных передаточных функций применимы только к линейным системам. Большинство же реальных систем нелинейны, особенно если речь идет об оценке разборчивости в системах коммуникаций (в телефонных каналах, например). Воздушное пространство в помещении можно считать линейной средой, но надо строго контролировать линейность измерительной аппаратуры.

Поиски простых и надежных методов для оценки разборчивости все время продолжаются. В 2001 году фирмой Bose была предложена методика измерений STI со специальным оптимизированным тестовым сигналом, представляющим собой модулированный шум в шести октавных полосах с двумя одновременными частотами модуляции в каждой октаве. Эта методика получила название STI-РА (то есть предназначенная для оценки систем звукоусиления РА).

Кроме того, развитие цифровых методов обработки звука и увеличение скорости компьютерной обработки позволило создать методику (она была предложена Шредером), с помощью которой значения модуляционной передаточной функции можно рассчитать из импульсных измерений сигнала с его соответствующей фильтрацией. Современные компьютерные метрологические станции TEF, MLSSA и др. используют именно эти методы для расчета разборчивости.

Необходимо отметить, что, кроме наиболее распространенных сейчас методов оценки разборчивости речи, использующих модуляционную передаточную функцию, достаточно широко используются при оценке помещений и другие методы, например, оценка разборчивости речи по коэффициенту четкости (ясности).

С50 - коэффициент четкости. Коэффициент С50 определяет четкость (ясность) звучания музыки, и вычисляется как отношение ранней к поздней энергии отраженных звуков в помещении. В 1996 году Маршалл предложил использовать этот коэффициент для оценки разборчивости речи, для этого необходимо измерять отношение Еран/Епозд в нескольких частотных полосах, со специальным взвешиванием для речевого сигнала. Измерения проводятся с помощью анализа импульсной характеристики с последующим компьютерной обработкой - к ранней относится энергия сигнала в пределах первых 50 мс. Несмотря на простоту измерений, метод дает неплохую корреляцию с субъективными оценками, но он также обладает определенными недостатками: учитывает только влияние реверберационного процесса, слабо учитывает структуру мешающей части отклика, в которой могут быть поздние отражения большой интенсивности.

Эти отражения часто приводят к появлению эха, снижающему разборчивость речи. Указанные недостатки в значительной мере ликвидированы в критерии, предложенном Низе, и названным "степенью эха". Низе ввел новую 33 мс границу между полезной и мешающей энергией, причем полезная энергия берется с весовой функцией, смягчающей резкую границу деления импульсного отклика. Мешающей же считается не вся энергия, а только энергия отражений, превышающих экспоненциальную кривую процесса реверберации данного помещения. Известны и другие модификации этого метода.

В настоящее время созданием международных рекомендации по оценке разборчивости речи занимается специальная группа Комитета Стандартов AES (председатель П. Мапп). Специалисты этой группы занимаются сравнительным анализом различных методов оценки разборчивости. В процессе этих работ были получены, в частности, достаточно простые аналитические соотношения между разными коэффициентами по оценке разборчивости речи, которые могут быть полезны в практической работе по оценке помещений.

В заключение следует отметить, что проблема оценка разборчивости речи чрезвычайна сложна, поскольку она зависит не только от факторов, которые поддаются объективным измерениям (время реверберации, уровень шумов, структура ранних отражений и др.), но и от таких субъективных факторов, как степень владения языком, дикция оратора, степень знакомства слушателя с содержанием сообщения, состоянием его слуха и др. Поэтому создание автоматизированной компьютерной системы объективной оценки разборчивости речи - проблема трудная, но, поскольку она чрезвычайно важна для развития коммуникационных систем, и к ее решению привлечены значительные силы специалистов в различных странах, можно надеяться, что такая достаточно надежная система будет создана.




49000, г. Днепр, проспект Гагарина, оф. 502, тел./ф.: 067 560 31 51, e-mail: office@soundhouse.com.ua
Copyright© 2024 SoundHousePro.com All rights reserved
Использование материалов soundhousepro.com разрешается при условии ссылки (для интернет-изданий - гиперссылки) на soundhousepro.com.