ETSI TS 146 082 V18.0.0 — это 18-й выпуск технической спецификации 3GPP, специально предназначенный для детектора голосовой активности в расширенном полноскоростном канале голосового трафика. Выпущенный в мае 2024 года, этот стандарт отражает текущее состояние технологий обнаружения голосовой активности для систем GSM.
Детекторы голосовой активности играют важную роль в системах мобильной связи, особенно в режиме прерывистой передачи. Начиная с начальной системы Фазы 2+ и до текущей версии 18, алгоритм VAD претерпел несколько крупных улучшений:
| Версия | Время выпуска | Основные улучшения | Технические характеристики |
|---|---|---|---|
| Выпуск 4 | Март 2001 г. | Базовый алгоритм VAD | Базовое обнаружение энергии |
| Выпуск 7 | Июнь 2007 г. | Расширенный спектральный анализ | Улучшенное сравнение спектров |
| Выпуск 12 | Сентябрь 2014 г. | Адаптивная настройка порога | Механизм динамического порога |
| Выпуск 18 | Май 2024 г. | Полная оптимизация алгоритма | Комплексное улучшение производительности |
Алгоритм VAD, определенный в стандарте, использует многоступенчатую архитектуру обнаружения, которая в основном включает следующие восемь основных модулей:
Сначала алгоритм выполняет Блочная фильтрация 8-го порядка на входном сигнале и вычисление энергии кадра отфильтрованного сигнала:
pvad = rvad[0] * acf[0] + 2 * Σ(rvad[i] * acf[i]), где i принимает значения от 1 до 8
Этот метод вычисления эквивалентен выполнению операции блочной фильтрации на входных отсчетах фильтра речевого кодера. Подробный принцип описан в Приложении A стандарта.
Чтобы получить спектральные характеристики длиннее кадра 20 мс, алгоритм усредняет значения ACF нескольких последовательных кадров:
av0{n}[i] = Σ(acf{nj}[i]), где j изменяется от 0 до кадров-1
Константа кадров равна 4 для обеспечения точности спектрального анализа.
Значение предиктора фильтра aav1 рассчитывается из значения автокорреляции av1 с использованием матричного уравнения a = R⁻¹p. R — матрица автокорреляции 8×8, а p — вектор автокорреляции.
Спектр предикторного значения сравнивается со спектром, представленным средним значением автокорреляции, с использованием метрики искажения dm:
dm = (rav1[0]*av0[0] + 2*Σ(rav1[i]*av0[i])) / av0[0]
Стационарность спектра определяется путем сравнения разницы между последовательными значениями dm с пороговым значением thresh(0,056).
Информационный тон отличается от шума путем анализа коэффициента усиления краткосрочного предсказания:
prederr = Π(1 - rc[i]²), где i находится в диапазоне от 1 до 4
Когда prederr меньше predth(0,0447), то он определяется как информационный тон, что эквивалентно порогу усиления предсказания 13,5 дБ.
| Тип обнаружения | Технические индикаторы | Пороговый параметр | Точность обнаружения |
|---|---|---|---|
| Спектральная стационарность | Значение разности dm | thresh=0,056 | Диапазон погрешности ±2% |
| Обнаружение информационного тона | Ошибка прогнозирования | predth=0,0447 | Усиление 13,5 дБ |
| Периодический Обнаружение | Разница задержек | lthresh=2 | Порог количества кадров в 4 кадра |
Порог решения VAD thvad адаптивно настраивается каждые 20 мс для обеспечения оптимальной эффективности обнаружения в различных условиях окружающего шума:
Условия настройки включают: энергию входного сигнала ниже pth(130000), гладкий спектр без периодических компонентов и отсутствие информационного тона. Пороговые значения ускорения и замедления контролируются константами inc(16) и dec(32).
Чтобы повысить точность реализации с фиксированной точкой, алгоритм использует представление с псевдоплавающей точкой для обработки ключевых переменных:
pvad = 2e_pvad × (m_pvad/32768)
Этот метод представления обеспечивает большой динамический диапазон, сохраняя при этом 16-битную точность.
В мобильных средах, особенно при использовании в транспортных средствах, отношение голосового сигнала к шуму относительно низкое. Рекомендуется:
Для сценариев применения с высокими требованиями к реальному времени:
Проверить в соответствии с тестовыми векторами, предоставленными GSM 06.54, чтобы убедиться:
С развитием 5G и будущих технологий связи технология VAD будет продолжать развиваться:
ETSI TS 146 082 V18.0.0, как наиболее полная в настоящее время техническая спецификация VAD, доступная, обеспечивает прочную техническую основу для обработки голоса в системах мобильной связи. Его конструктивные решения и техническая реализация продолжат оказывать влияние на будущее развитие технологий обработки голоса.

© 2025. Все права защищены.