СНИЖЕНИЕ СКОРОСТИ ПЕРЕДАЧИ БИТОВ

Выбор частоты выборки и точности квантования зависит от конкретной практической задачи. Для высококачественной записи и воспроизведения музыки цифровым способом можно было бы использовать частоту выборки в 50 000 отсчет/с и квантование 16 бит/отсчет. Для передачи таких сигналов потребовалась бы скорость передачи 50000X16, или 800000, бит/с. Персональная ЭВМ может обладать памятью 262 000 байт (по 8 разрядов), или примерно 2Х106 бит. Таким образом, при использовании такой ЭВМ можно было бы хранить в памяти высококачественную оцифрованную запись музыки длительностью только 2.5 с. К счастью, канал для передачи речи может иметь гораздо меньшую полосу пропускания, чем канал, по которому нужно передавать высококачественную запись музыки. При использовании 8-бит квантования и частоты отсчетов оООО Гц можно получить вполне приемлемое качество речи. В этом случае скорость передачи битов составит 5000X8 = -40000 бит/с. Таким образом, с помощью персональной ЭВМ можно хранить в памяти почти минутную запись речи.

На самом деле последнюю цифру можно несколькими способами уменьшить. Мы можем уменьшить точность квантования (вспомним, что клиппироваиие речевого сигнала по амплитуде мало влияет на разборчивость речи). Поэтому можно использовать квантование гораздо меньше 8 бит/отсчет (еще до перевода сигнала в цифровую форму можно осуществить сжатие диапазона интеисивностей сигнала путем логарифмического преобразования). Более изящный способ заключается з ограничении диапазона интеисивностей (в битах) каждой выборки некоторым предельным приращением или уменьшением, которое зависит от интенсивности предыдущего отсчета. Преимущество этого способа в том, что имеется корреляция между последовательными отсчетами речевого сигнала. Механизм речеобразования можно описать с помощью физической системы, обладающей массой и инерцией, поэтому на звуки, возникающие сразу же за другими звуками, накладываются определенные физические ограничения. Это соображение привело к разработке специальной методики импульсной кодовой модуляции, в которой используется факт прогнозируемости речевых сигналов. Данная ироиедура может быть еще более усовершенствована, если прибегнуть к одному хитроумному приему: квантовать только тс участки речевого сигнала, которые невозможно прогнозировать на основе уже закодированного участка сигнала. Подобная система позволяет генерировать речевые сигналы со скорост!.!о передачи 2400 бит/с н даже меньше.

Можно добиться еще меньшей скорости передачи, если произвести над входным сигналом еще и другие преобразования. Например, можновыделитьинформацию относительно конкретной последовательности фонем, передать эти данные на место назначения, где затем уже восстанавливать речевой сигнал по этой последовательности. В начале настоящей главы мы упоминали, что частота появления фонем в обычной речи составляет примерно 12 фонема/с.

Если для кодирования каждой фонемы использовать, скажем, 6 бит, то легко сообразить, что для передачи речи достаточно будет скорости 72 бит/с. При такой скорости передачи битов в памяти емкостью 2G2 000 байт можно записать примерно 8 ч непрерывной речи.

Вполне вероятно, что потребуется оценивание эффективности разрабатываемых и существующих систем кодирования и генерации речи при низких скоростях передачи битов. В на- сюящее время трудно предложить сколько-нибудь точную формулу для этого (наподобие способа вычисления АИ), которая позволила бы прогнозировать эффективность работы систем. Два подхода к решению проблемы разработки объективных мер оценки качества каналов для подобных систем были предложены Баривелом и Мермелстейном [15J. В журнале «Труды ТИИЭР по акустике, речи и обработке сигналов» можно получить дополнительную информацию по этому вопросу. Когда используется передача речи с низкой скоростью, возможно проявление существенных перцептивных и когнитивных ограничений. Например, в некоторых задачах для обработки синтезированной речи требуется больше времени, чем для естественной речи. Может возникнуть необходимость непосредственной оценки проектируемых систем с помощью подходящих артикуляционных тестов или тестов на разборчивость примерно тех же типов, которые мы рассматривали, а также оценки эффективности системы в конкретной прикладной задаче. В настоящее время такое оценивание, предваряющее собственно проектирование определенной системы, может оказаться гораздо более легким, чем раньше, если проектируемая система может быть представлена компьютерной моделью.

Можно генерировать разборчивую речь на основе имеющегося текста. Для этого необходимо задать те операции, которые позволяют генерировать определенные последовательности фонем с помощью синтезатора речи иа базе ЭВМ. В течение последних 30 лет системы такого рода действительно были разработаны. В наиболее перспективных системах генерации речи используются определенные правила, описывающие акустические переходы между отдельными фонемами, а также правила, позволяющие изменить высоту или временной масштаб каждого сегмента речевого сигнала в зависимости от фонемного контекста. Естественным следующим этапом была попытка разработки такой программы для ЭВМ, которая позволила бы генерировать речь по имеющемуся печатному тексту. Чтобы реализовать эту идею, было разработано несколько систем. Задача, противоположная синтезу речи, — автоматическое распознавание устно произносимых слов. Оба этих направления дополнительно обсуждаются в гл. 3, т. 6. Некоторые задачи использования синтетических речевых сигналов обсуждаются также в гл. 3, т. 3.

Январь 24, 2019 Психология труда, инженерная психология, эргономика
Еще по теме
СКОРОСТЬ ПЕРЕДАЧИ ДАННЫХ, РАЗБОРЧИВОСТЬ И ЕСТЕСТВЕННОСТЬ СИНТЕЗИРУЕМОЙ РЕЧИ
КОСТНАЯ ПЕРЕДАЧА ЗВУКА.
НЕЙРОННАЯ ПЕРЕДАЧА
11.4. ТЕХНИКА ПЕРЕДАЧИ РЕЧИ
СОГЛАСОВАНИЕ ПО СКОРОСТИ.
СКОРОСТЬ ПОЗНАВАТЕЛЬНОЙ ДЕЯТЕЛЬНОСТИ.
СКОРОСТЬ ДВИЖЕНИЯ В РЕАЛЬНОСТИ
ПРИМЕР 2. СКОРОСТЬ РЕАКЦИИ
ЭФФЕКТ ПЕРЕДАЧИ
СЕТЧАТОЧНАЯ ЭКСПАНСИЯ И СКОРОСТЬ ДВИЖЕНИЯ
Родионова ПЕРЕДАЧА ИНФОРМАЦИИ СМК И ЕЕ ВОЗДЕЙСТВИЕ
ИНТЕЛЛЕКТУАЛЬНОЕ СНИЖЕНИЕ
РОСТ И СНИЖЕНИЕ
Добавить комментарий