ES 202 212-2003 Обработка речи @ Аспекты передачи и качества (STQ); Распределенное распознавание речи; Расширенный алгоритм извлечения функций интерфейса; Алгоритмы сжатия; Внутренний алгоритм реконструкции речи (V1.1.1; содержит дискету)

Стандартный №: ES 202 212-2003
Дата публикации: 2003
Разместил: ETSI - European Telecommunications Standards Institute
состояние: быть заменен 2005-11
быть заменен: ES 202 212-2005
Последняя версия: ES 202 212-2005

сфера применения: «Настоящий документ определяет алгоритмы для расширенного извлечения функций внешнего интерфейса @ их передачи @ внутреннего отслеживания и сглаживания высоты звука @ и внутренней реконструкции речи, которые являются частью системы распределенного распознавания речи. Спецификация охватывает следующие компоненты: а) алгоритм расширенного извлечения признаков внешнего интерфейса для создания параметров Mel-Cepstrum; б) алгоритм извлечения дополнительных параметров@, а именно основной частоты F0 и класса вокализации; в) алгоритм сжатия этих признаков для обеспечения более низкого скорость передачи данных; d) форматирование этих функций с защитой от ошибок в битовый поток для передачи; e) декодирование битового потока для создания расширенных функций внешнего интерфейса в приемнике вместе с соответствующими алгоритмами для уменьшения ошибок в канале; f) алгоритм отслеживания и сглаживания высоты тона на внутренней стороне для минимизации ошибок высоты тона;g) алгоритм восстановления речи на внутренней стороне для синтеза разборчивой речи. ПРИМЕЧАНИЕ. Компоненты a)@c)@d) и e) уже описаны в ES 202 050 [2]. Помимо этих (четырех) компонентов@ настоящий документ охватывает компоненты b)@f) и g) для обеспечения внутренней реконструкции речи и расширенных возможностей распознавания тонального языка. Если эти возможности не представляют интереса, читателю лучше воспользоваться (нерасширенным) ES 202 050 [2]. Настоящий документ не охватывает «внутренние» алгоритмы распознавания речи, которые используют полученные расширенные внешние функции DSR. Алгоритмы определяются в математической форме@ псевдокоде@ или в виде блок-схем. Программное обеспечение, реализующее эти алгоритмы, написанное на языке программирования C, содержится в ZIP-файле es_202212v010101p0.zip, который прилагается к настоящему документу. Тесты на соответствие не указаны как часть стандарта. Качество распознавания собственных реализаций стандарта можно сравнить с показателями, полученными с использованием эталонного кода «C» в соответствующих речевых базах данных. Ожидается, что битовый поток DSR будет использоваться в качестве полезной нагрузки в других протоколах более высокого уровня при их развертывании в конкретных системах, поддерживающих приложения DSR. В частности,@ для пакетной передачи данных@ предполагается, что определение полезной нагрузки IETF AVT RTP DSR (см. библиографию) будет использоваться для транспортировки функций DSR с использованием формата пары кадров, описанного в пункте 7. Расширенный расширенный стандарт DSR предназначен для использования с прерывистую передачу и поддерживать передачу информации о речевой активности. В Приложении А описан алгоритм VAD, который рекомендуется использовать в сочетании со стандартом Advanced DSR@, однако он не является частью настоящего документа, и производители могут выбрать использование альтернативного алгоритма VAD. Расширенный расширенный интерфейс (XAFE) включает в себя тональную информацию@, а именно основную частоту F0 и класс вокализации@ в качестве дополнительных параметров. Эту информацию можно использовать для повышения точности распознавания тональных языков@, например мандаринского@ кантонского@ и тайского».

ES 202 212-2003 История

2005 ES 202 212-2005 Обработка речи @ Аспекты передачи и качества (STQ); Распределенное распознавание речи; Расширенный алгоритм извлечения функций интерфейса; Алгоритмы сжатия; Внутренний алгоритм реконструкции речи (V1.1.2; включает дискету)
2003 ES 202 212-2003 Обработка речи @ Аспекты передачи и качества (STQ); Распределенное распознавание речи; Расширенный алгоритм извлечения функций интерфейса; Алгоритмы сжатия; Внутренний алгоритм реконструкции речи (V1.1.1; содержит дискету)