РАЗБОРЧИВОСТЬ РЕЧИ В РАБОЧЕЙ ОБСТАНОВКЕ

В современном обзоре исследований по разборчивости синтезированной с помощью ЭВМ речи определено три типа условий, которые оказывают влияние на речевой сигнал, производя в результате то, что авторы называют «оперативной разборчивостью» речи. Оперативная разборчивость применительно к определенному алгоритму генерации речевых сигналов — это понятность генерируемой с его помощью речи. В конкретном множестве физических, прагматических и лингвистических контекстов она может существенно отличаться от степени разборчивости речи на уровне фонем. На рис. 3.4 изображены четыре главных фактора (физический сигнал и три типа контекста), которые влияют на оперативную разборчивость. На физическом уровне речевой сигнал может зависеть от принадлежности голоса женщине или мужчине, речевых характеристик говорящего, скорости речи, основной частоты, амплитуды, точности произношения и просодии, акцента, диалекта и других параметров. Физический контекст включает в себя факторы физической среды, такие, как шум, посторонние звуковые сигналы, вибрация и др. Прагматический контекст — это в основном ситуация реального мира, в которой должно звучать сообщение. Этот контекст включает в себя текущие события, выполняемую задачу, время и место, предысторию и логически возможные будущие события. Характеристики прагматического контекста должны «фильтроваться» воспринимающим его лицом. Лингвистический контекст речевого сигнала влияет на разборчивость речи через обеспечение «подсказок и намеков», которые ограничивают круг возможных интерпретаций приходящего речевого сигнала. Это ограничение являет собой сложный тип замкнутого множества ответных реакций. Давно известно, что по мере сужения допустимой совокупности действий понятность речи человека, воспринимаемой в условиях шума, возрастает, если все другие факторы остаются постоянными. Лингвистический контекст ограничивает множество реакций более сложным образом по сравнению с простым ограничением совокупности возможных сообщений. Это объясняется взаимовлиянием ограничений, действующих на различных уровнях лингвистического кодирования^ В работе приведены эти уровни и даны ссылки на литера-

4. Факторы, оказывающие влияние на разборчивость речи в рабочих условиях.

4. Факторы, оказывающие влияние на разборчивость речи в рабочих условиях.

туру по влиянию разных типов лингвистического контекста на разборчивость человеческой речи.

Данные лингвистического контекста фильтруются лицом, воспринимающим речевое сообщение, в соответствии с его лингвистическими знаниями о языке, на котором звучит сообщение. Например, человек, недавно изучивший шведский язык, не будет способен использовать лингвистический контекст, чтобы воспринимать шведскую речь столь же эффективно, как человек, для которого шведский является родным языком. На лексическом уровне правильности восприятия речи может способствовать знакомство с определенным словарем и фразеологией.

Часто влияние факторов, обеспечивающих понимание речевых сообщений, оказывается для синтезированной речи сильнее, чем для естественной [50, 66]. В работе отмечено, что при достаточно интенсивном привлечении факторов, улучшающих разборчивость речи, речь, синтезированная стандартными речевыми устройствами, характеризуется 100%-ной разборчивостью, а без такой интенсификации уровень понятности составляет только 19%. Факторы, трактуемые как физические характеристики речевого сигнала, — это собственная (основная) частота, скорость речи, просодия, интонация, обнарживаемость речевого акцента, тип голоса и фонетическая точность синтезированной речи. В физическом контексте авторы рассматривают исследования по влиянию фонового шума и посторонних разговоров. К факторам прагматического контекста относятся знакомство лица, воспринимающего сообщение, с характерным акцентом речи, фразеологией и словарем, а также с ситуацией реального мира, в которой звучат речевые сообщения. Факторы лингвистического контекста— это семантический и синтаксический контексты и число слогов.

При идеальных условиях слухового восприятия, характеризующихся высоким значением отношения сигнал/шум, отсутствием посторонних разговоров или иных звуковых сигналов, привычностью для слушающего акцента машинной речи, разборчивость синтезированных фраз может составить 99—100%. Уменьшение максимального отношения сигнал/шум до уровня — 10 дБ-;—23 дБ при прежнем действии других факторов показало малое уменьшение или сохранение прежнего уровня оперативной разборчивости, по крайней мере применительно к сообщениям, звучащим в кабине пилота. Высокая разборчивость (99—100%) была получена для коротких, знакомых фраз, произносимых в условиях моделирования шума в пилотской кабине, и при использовании как речи, представленной в цифровой форме линейного кодирования с предсказанием, так и речи, синтезированной по правилам.

В табл. 3.5 обобщены результаты изучения разборчивости речи, представленные в обзорной работе. Однако читатель должен избегать прямых сравнений между этими исследованиями, так как в большинстве случаев они отличались более чем одним параметром.

Понятность оцифрованной речи зависит от пола говорящего субъекта. Речь женщины, закодированная с использованием методов линейного предиктивного кодирования и адаптивного предиктивного кодирования, более чувствительна к ошибкам в отдельных разрядах двоичного кода, чем речь мужчины, закодированная с помощью тех же самых алгоритмов. Это различие действует в широком диапазоне частот битовых ошибок.

Таблица 3.5. Некоторые результаты изучения оперативной

Факторы, определяющие разборчивость Условия эксперимента
Физический сигнал Речь, синтезированная из Речь, синтезированная из
  фонетических сегментов фонетических сегментов,
    в сравнении с речью,
    синтезированной с по
    мощью линейного пре-
    диктивного кодирования
Физический коитекст Шум вертолета при отно Шум вертолета при от
  шении сигнал/шум, рав ношении сигнал/шум.
  ном —23 дБ равном —23 дБ
Прагматический контекст Сведения, передаваемые Отсутствует
  во время полета (пре  
  дупреждение об опасных  
  объектах)  
Лингвистический кои Фразы длиной от четы Сообщения в виде при
текст рех до восьми слов вычных слов
Разборчивость 98,7—99,8% Синтез.: 44%
    Линейное предиктивное
    кодирование: 19%

Литература

Аналогичные сравнения необходимо провести для синтезированных женского и мужского голосов.

Если ухудшаются лингвистический и прагматический контексты, а не отношение сигнал/шум, то происходит значительное ухудшение разборчивости речи.

В связи с этим рекомендуется использовать для предупреждений или для других

разборчивости

Речь, синтезированная нз Речь, синтезированная из Речь, сиитезироваиная из
фонетических сегментов фонетических сегментов, фонетических сегментов
  в сравнении с высокока  
  чественной записью речи  
  человека  
Шум широкофюзеляжно Шум отсутствует Мешающая человеческая
го реактивного самолета   речь, записанная по ра
прн отношении снг-   диовещанию (сообщения
нал/шум, равном   о погоде); отношение
—10 дБ   сигнал/помеха +8 дБ
Сведения, относящиеся Сообщения, имеющие от Касающиеся полета со
ж полету (ответные сооб ношение к полету (пре общения (предупрежде
щения о высоте полета) дупреждения и команды ния в кабине пилота)
  управления воздушным Субъекты: незнакомые с
  движением), в сравнении сообщениями пилоты
  с обычными повседнев  
  ными сообщениями  
  Субъекты: незнакомые с  
  сообщениями; пилоты по  
  сравнению с непнлотами  
Сообщение в виде цело Сообщение в виде пред Два ключевых слова в
го предложения; пре ложения одно- и многосложном
дупреждения в летной   контекстах в сравнении
терминологии   с теми же словами в кон
    тексте предложения
99,7% Пилоты: Многосложный контекст
  сообщения о полете ключевые слова: 94%
  синтез.: 96% предложения: 93%
  человек: >99% Односложный контекст
  обычные сообщения ключевые слова: 78%
  синтез.: 93% предложения: 96%
  человек: >99%  
  Непилоты:  
  сообщения о полете  
  синтез.: 86%  
  человек: 96%  
  обычные сообщения  
  синтез.: 93%  
  человек: >99%  
[671

неожиданных речевых сообщений минимум четыре слога1).

Превосходная разборчивость речи, описанная в работе , была достигнута за счет применения фонетического редактирования закодированной речи экспертами по речевой акустике. Понятность речи, сгенерированной алгоритмами речевого вос-

‘> Эта рекомендация касается английского языка, в котором средняя Длина слова существенно меньше, чем в русском. — Прим. ред.

произведения текста, была плохой и зависела от конкретного алгоритма. Например, разборчивость фраз в исследованиях, выполненных в Гарвардской психоакустической лаборатории ’22], составила 93,2% применительно к одной речевой системе 54] и 87% для того же набора речевых фрагментов в другой 49].

К основным недостаткам алгоритмов речевого воспроизведения текста можно отнести: 1) фонетические ошибки произношения слов, которые являются исключениями для речевых сообщений на английском языке, и 2) неадекватные правила для корректной расстановки ударений в словах и интонации в предложении применительно к некоторым синтаксическим, семантическим и речевым структурам. Пока эти недостатки не будут устранены, будет сохраняться необходимость в использовании Упомянутого ранее ручного редактирования кодированных индивидуальных речевых сообщений.

Полнота восприятия речевых сообщений

Хотя синтезированная речь может быть на 100% понятна слушателям, знакомым с ее акцентом, фразеологией и практически возможными сообщениями, необходимы дальнейшие исследования проблем обеспечения разборчивости синтезированных речевых сообщений в сравнении с естественной человеческой речью. В работе были отмечены ограниченные возможности обработки речевых сигналов, синтезированных с помощью системы воспроизведения речи по тексту, по сравнению с речью человека, когда люди дополнительно нагружались выполнением задач, требующих «запоминания в кратковременной памяти» с последующим воспроизведением. Авторы интерпретировали эти результаты в предположении, что синтезированная речь повышает требования и к процессу кодирования, и к процессу запоминания в «кратковременной памяти» человека, и привели доводы в пользу того, что синтезированная речь не должна применяться для выдачи сообщений в кабине пилота. Однако их испытуемые не были знакомы до эксперимента с акцентом синтезатора. Поэтому приложимость их выводов к пониманию пилотом знакомых сообщений, закодированных вместе с лингвистическим контекстом на уровне предложений и в знакомом прагматическом контексте, остается под вопросом. Существуют экспериментальные подтверждения гипотезы о том, что пилоты способны запоминать информацию, представленную синтезированной речью, а позже воспроизводить ее по памяти (исследования проводились путем моделирования полета при высокой рабочей нагрузке пилота). Однако имеются лишь ограниченные сведения относительно того, насколько хорошо можно запомнить информацию, содержащуюся в синтезированном речевом сообщении, и при каких обстоятельствах будет перегружаться канал слухового восприятия. Вообще утверждения относительно эффективности систем синтеза речи следует делать осторожно, е учетом тех условий, при которых были получены результаты.

Январь 24, 2019 Психология труда, инженерная психология, эргономика
Еще по теме
СКОРОСТЬ ПЕРЕДАЧИ ДАННЫХ, РАЗБОРЧИВОСТЬ И ЕСТЕСТВЕННОСТЬ СИНТЕЗИРУЕМОЙ РЕЧИ
11.3.2. СТЕПЕНЬ ИЗВЕСТНОСТИ СООБЩЕНИЯ И РАЗБОРЧИВОСТЬ РЕЧИ
8.2.4. ПРОИЗВОДСТВЕННАЯ ОБСТАНОВКА
10.4.4. ОБСТАНОВКА
11.3.1. АРТИКУЛЯЦИЯ И РАЗБОРЧИВОСТЬ
11.3. РАЗБОРЧИВОСТЬ В КАНАЛЕ СВЯЗИ И КАЧЕСТВО
15.5. Влияние состояния сознания и обстановки на эффективность работы
7.5 . Проектирование рабочего пространства и рабочего места
Рабочее место и рабочая зона
РАБОЧИЕ ХАРАКТЕРИСТИКИ
3.4.3. ВЫБОР ХАРАКТЕРИСТИК СИСТЕМ ГЕНЕРАЦИИ РЕЧИ
3.4.4. ИЗМЕРЕНИЕ РАБОЧИХ ХАРАКТЕРИСТИК ЧЕЛОВЕКО-МАШИННЫХ СИСТЕМ
11.3.4. ГРОМКОСТЬ РЕЧИ
8.4. ЧЕЛОВЕЧЕСКИЕ ФАКТОРЫ В ОБЕСПЕЧЕНИИ БЕЗОПАСНОСТИ НА РАБОЧЕМ МЕСТЕ
Добавить комментарий