ES 202 211-2003 Обработка речи @ Аспекты передачи и качества (STQ); Распределенное распознавание речи; Расширенный алгоритм извлечения функций внешнего интерфейса; Алгоритмы сжатия; Внутренний алгоритм восстановления речи (V1.1.1)

Стандартный №: ES 202 211-2003
Дата публикации: 2003
Разместил: ETSI - European Telecommunications Standards Institute
Последняя версия: ES 202 211-2003

сфера применения: «Настоящий документ определяет алгоритмы для расширенного извлечения внешних функций @ их передачи @ внутреннего отслеживания и сглаживания высоты звука @ и внутренней реконструкции речи, которые являются частью системы распределенного распознавания речи. Спецификация охватывает следующие компоненты: ) алгоритм извлечения внешних признаков для создания параметров Mel-Cepstrum; б) алгоритм извлечения дополнительных параметров@, а именно @ основная частота F0 и класс голосовости; в) алгоритм сжатия этих признаков для обеспечения более низкой передачи данных скорость; d) форматирование этих функций с защитой от ошибок в битовый поток для передачи; e) декодирование битового потока для генерации внешних функций в приемнике вместе с соответствующими алгоритмами для уменьшения ошибок в канале; f) алгоритм для отслеживание и сглаживание высоты тона на внутренней стороне для минимизации ошибок высоты тона;g) алгоритм реконструкции речи на внутренней стороне для синтеза разборчивой речи. ПРИМЕЧАНИЕ. Компоненты (a)@ (c)@ (d)@ и (e) уже описаны в ES 201 108 [1]. Помимо этих (четырех) компонентов@ настоящий документ охватывает компоненты (b)@ (f)@ и (g) для обеспечения внутренней реконструкции речи и расширенных возможностей распознавания тонального языка. Если эти возможности не представляют интереса, читателю лучше подойдет (нерасширенный) ES 201 108 [1]. Настоящий документ не охватывает «внутренние» алгоритмы распознавания речи, которые используют полученные внешние функции DSR. Алгоритмы определяются в математической форме@ псевдокоде@ или в виде блок-схем. Программное обеспечение, реализующее эти алгоритмы, написанное на языке программирования C, будет предоставлено вместе с окончательной опубликованной версией настоящего документа. Тесты на соответствие не указаны как часть стандарта. Качество распознавания собственных реализаций стандарта можно сравнить с показателями, полученными с использованием эталонного кода «C» в соответствующих речевых базах данных. Ожидается, что битовый поток DSR будет использоваться в качестве полезной нагрузки в других протоколах более высокого уровня при их развертывании в конкретных системах, поддерживающих приложения DSR. Стандарт Extended Front-End (XFE) включает в себя тональную информацию@, а именно основную частоту F0 и класс вокализации@ в качестве дополнительных параметров. Эту информацию можно использовать для повышения точности распознавания тональных языков@, например мандаринского@ кантонского@ и тайского. Стандарт Extended Front-End (XFE) включает информацию о голосовой активности как часть информации о классе голосовой связи. Это можно использовать для сегментации (или обнаружения конечной точки) речевых данных для повышения эффективности распознавания».

ES 202 211-2003 История

2003 ES 202 211-2003 Обработка речи @ Аспекты передачи и качества (STQ); Распределенное распознавание речи; Расширенный алгоритм извлечения функций внешнего интерфейса; Алгоритмы сжатия; Внутренний алгоритм восстановления речи (V1.1.1)