ETSI TS 146 082-2024 Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP TS 46.082 версия 18.0.0 выпуск 18) - Стандарты и спецификации PDF

ETSI TS 146 082-2024
Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP TS 46.082 версия 18.0.0 выпуск 18)

Стандартный №
ETSI TS 146 082-2024
Дата публикации
2024
Разместил
European Telecommunications Standards Institute (ETSI)
Последняя версия
ETSI TS 146 082-2024
 

сфера применения

Обзор технического стандарта детектора голосовой активности GSM EFR

ETSI TS 146 082 V18.0.0 — это 18-й выпуск технической спецификации 3GPP, специально предназначенный для детектора голосовой активности в расширенном полноскоростном канале голосового трафика. Выпущенный в мае 2024 года, этот стандарт отражает текущее состояние технологий обнаружения голосовой активности для систем GSM.

Предпосылки разработки стандарта и технологическое развитие

Детекторы голосовой активности играют важную роль в системах мобильной связи, особенно в режиме прерывистой передачи. Начиная с начальной системы Фазы 2+ и до текущей версии 18, алгоритм VAD претерпел несколько крупных улучшений:

Версия Время выпуска Основные улучшения Технические характеристики
Выпуск 4 Март 2001 г. Базовый алгоритм VAD Базовое обнаружение энергии
Выпуск 7 Июнь 2007 г. Расширенный спектральный анализ Улучшенное сравнение спектров
Выпуск 12 Сентябрь 2014 г. Адаптивная настройка порога Механизм динамического порога
Выпуск 18 Май 2024 г. Полная оптимизация алгоритма Комплексное улучшение производительности

Анализ архитектуры основного алгоритма VAD

Алгоритм VAD, определенный в стандарте, использует многоступенчатую архитектуру обнаружения, которая в основном включает следующие восемь основных модулей:

Адаптивная фильтрация и расчет энергии

Сначала алгоритм выполняет Блочная фильтрация 8-го порядка на входном сигнале и вычисление энергии кадра отфильтрованного сигнала:

pvad = rvad[0] * acf[0] + 2 * Σ(rvad[i] * acf[i]), где i принимает значения от 1 до 8

Этот метод вычисления эквивалентен выполнению операции блочной фильтрации на входных отсчетах фильтра речевого кодера. Подробный принцип описан в Приложении A стандарта.

Усреднение ACF

Чтобы получить спектральные характеристики длиннее кадра 20 мс, алгоритм усредняет значения ACF нескольких последовательных кадров:

av0{n}[i] = Σ(acf{nj}[i]), где j изменяется от 0 до кадров-1

Константа кадров равна 4 для обеспечения точности спектрального анализа.


Углубленный анализ основных технических характеристик

Вычисление значения предиктора

Значение предиктора фильтра aav1 рассчитывается из значения автокорреляции av1 с использованием матричного уравнения a = R⁻¹p. R — матрица автокорреляции 8×8, а p — вектор автокорреляции.

Механизм сравнения спектра

Спектр предикторного значения сравнивается со спектром, представленным средним значением автокорреляции, с использованием метрики искажения dm:

dm = (rav1[0]*av0[0] + 2*Σ(rav1[i]*av0[i])) / av0[0]

Стационарность спектра определяется путем сравнения разницы между последовательными значениями dm с пороговым значением thresh(0,056).

Алгоритм обнаружения информационного тона

Информационный тон отличается от шума путем анализа коэффициента усиления краткосрочного предсказания:

prederr = Π(1 - rc[i]²), где i находится в диапазоне от 1 до 4

Когда prederr меньше predth(0,0447), то он определяется как информационный тон, что эквивалентно порогу усиления предсказания 13,5 дБ.

Тип обнаружения Технические индикаторы Пороговый параметр Точность обнаружения
Спектральная стационарность Значение разности dm thresh=0,056 Диапазон погрешности ±2%
Обнаружение информационного тона Ошибка прогнозирования predth=0,0447 Усиление 13,5 дБ
Периодический Обнаружение Разница задержек lthresh=2 Порог количества кадров в 4 кадра

Механизм адаптивной настройки порога

Порог решения VAD thvad адаптивно настраивается каждые 20 мс для обеспечения оптимальной эффективности обнаружения в различных условиях окружающего шума:

Условия настройки включают: энергию входного сигнала ниже pth(130000), гладкий спектр без периодических компонентов и отсутствие информационного тона. Пороговые значения ускорения и замедления контролируются константами inc(16) и dec(32).

Реализация с псевдоплавающей точкой

Чтобы повысить точность реализации с фиксированной точкой, алгоритм использует представление с псевдоплавающей точкой для обработки ключевых переменных:

pvad = 2e_pvad × (m_pvad/32768)

Этот метод представления обеспечивает большой динамический диапазон, сохраняя при этом 16-битную точность.


Рекомендации по реализации и передовой опыт

Адаптивность к мобильной среде

В мобильных средах, особенно при использовании в транспортных средствах, отношение голосового сигнала к шуму относительно низкое. Рекомендуется:

  • Соответствующим образом настроить константу fac (2.1) для повышения чувствительности обнаружения
  • Оптимизировать параметр margin (69333340) в соответствии с фактическими характеристиками окружающего шума
  • Регулярно калибровать нижний порог plev (346667)

Стратегия вычислительной оптимизации

Для сценариев применения с высокими требованиями к реальному времени:

  • Использовать инструкции SIMD для ускорения матричных операций
  • Использовать табличный поиск для упрощения вычислений сложных функций
  • Оптимизировать шаблоны доступа к памяти для уменьшения задержки

Метод тестирования и проверки

Проверить в соответствии с тестовыми векторами, предоставленными GSM 06.54, чтобы убедиться:

  • Работает нормально в диапазоне от -5 дБ до +35 дБ Диапазон отношения сигнал/шум
  • Обеспечивает стабильную производительность обнаружения для различных типов голосов (мужские, женские и детские голоса)
  • Поддерживает стабильность в различных шумных средах (город, шоссе и офис)

Тенденции и перспективы развития технологий

С развитием 5G и будущих технологий связи технология VAD будет продолжать развиваться:

  • Применение технологии глубокого обучения еще больше повысит точность обнаружения
  • Мультимодальное слияние (объединение визуальной информации) станет новым направлением исследований
  • Оптимизация с низким энергопотреблением особенно важна для устройств IoT

ETSI TS 146 082 V18.0.0, как наиболее полная в настоящее время техническая спецификация VAD, доступная, обеспечивает прочную техническую основу для обработки голоса в системах мобильной связи. Его конструктивные решения и техническая реализация продолжат оказывать влияние на будущее развитие технологий обработки голоса.

ETSI TS 146 082-2024 История

  • 2024 ETSI TS 146 082-2024 Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP TS 46.082 версия 18.0.0 выпуск 18)
  • 2022 ETSI TS 146 082-2022 Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP TS 46.082 версия 17.0.0 выпуск 17)
  • 2020 ETSI TS 146 082:2020 Цифровая система сотовой связи (Фаза 2+) (GSM); Детектор голосовой активности (VAD) для каналов речевого трафика с расширенной полной скоростью (EFR) (3GPP TS 46.082, версия 16.0.0, выпуск 16)
  • 2018 ETSI TS 146 082-2018 Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP TS 46.082 версия 15.0.0 выпуск 15)
  • 2017 ETSI TS 146 082-2017 Цифровая система сотовой связи (Фаза 2+) (GSM); Детектор речевой активности (VAD) для каналов речевого трафика с расширенной полной скоростью (EFR) (V14.0.0; 3GPP TS 46.082, версия 14.0.0, выпуск 14)
  • 2016 ETSI TS 146 082-2016 Цифровая система сотовой связи (Этап 2+); Детектор речевой активности (VAD) для каналов речевого трафика с расширенной полной скоростью (EFR) (V13.0.0; 3GPP TS 46.082, версия 13.0.0, выпуск 13)
  • 2014 ETSI TS 146 082-2014 Цифровая система сотовой связи (Этап 2+); Детектор речевой активности (VAD) для каналов речевого трафика с расширенной полной скоростью (EFR) (V12.0.0; 3GPP TS 46.082, версия 12.0.0, выпуск 12)
  • 2012 ETSI TS 146 082-2012 Цифровая сотовая телекоммуникационная система (Фаза 2+); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP TS 46.082 версия 11.0.0 выпуск 11)
  • 2011 ETSI TS 146 082-2011 Цифровая сотовая телекоммуникационная система (Фаза 2+); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP TS 46.082 версия 10.0.0 выпуск 10)
  • 2010 ETSI TS 146 082-2010 Цифровая система сотовой связи (Этап 2+); Детектор речевой активности (VAD) для каналов речевого трафика с расширенной полной скоростью (EFR) V9.0.0; 3GPP TS 46.082 версия 9.0.0 выпуск 9
  • 2009 ETSI TS 146 082-2009 Цифровая система сотовой связи (Этап 2+); Детектор речевой активности (VAD) для каналов речевого трафика с расширенной полной скоростью (EFR) V8.0.0; 3GPP TS 46.082 версия 8.0.0 выпуск 8
  • 2007 ETSI TS 146 082-2007 Цифровая система сотовой связи (Этап 2+); Детектор голосовой активности (VAD) для каналов речевого трафика с улучшенной полноскоростной передачей (EFR) V7.0.1; 3GPP TS 46.082 версия 7.0.1 выпуск 7
  • 2004 ETSI TS 146 082-2004 Цифровая система сотовой связи (Этап 2+); Обнаружение голосовой активности (VAD) для расширенных полноскоростных каналов речевого трафика 3GPP TS 46.082 Версия 6.0.0 Выпуск 6
  • 2002 ETSI TS 146 082-2002 Цифровая система сотовой связи (Этап 2+); Обнаружение речевой активности (VAD) для расширенных полноскоростных каналов речевого трафика 3GPP TS 46.082, версия 5.0.0, выпуск 5
  • 2001 ETSI TS 146 082-2001 Цифровая система сотовой связи (Этап 2+); Детектор речевой активности (VAD) для каналов речевого трафика с расширенной полной скоростью (EFR) 3GPP TS 46.082, версия 4.0.0, выпуск 4
Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP TS 46.082 версия 18.0.0 выпуск 18)

стандарты и спецификации

ETSI TS 146 082 V18.0.0 (2024-05)-2024 Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP TS 46.082 версия 18.0.0 выпуск 18) ETSI TS 146 082 V17.0.0 (2022-05)-2022 Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP ETSI TS 146 082-2011 Цифровая сотовая телекоммуникационная система (Фаза 2+); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP TS ETSI TS 146 054-2024 Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); Тестовые последовательности для речевого кодека GSM Enhanced Full Rate (EFR) (3GPP TS 46.054 ETSI TS 146 053-2012 Цифровая сотовая телекоммуникационная система (Фаза 2+); Код ANSI-C для речевого кодека GSM Enhanced Full Rate (EFR) (3GPP TS 46.053 версия 11.0.0 выпуск 11 ETSI TS 146 053-2011 Цифровая сотовая телекоммуникационная система (Фаза 2+); Код ANSI-C для речевого кодека GSM Enhanced Full Rate (EFR) (3GPP TS 46.053 версия 10.0.0 выпуск 10 ETSI TS 146 053-2020 Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); код ANSI-C для речевого кодека GSM Enhanced Full Rate (EFR) (3GPP TS 46.053 версия 16.0.0 выпуск ETSI TS 146 082-2018 Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); Детектор голосовой активности (VAD) для каналов речевого трафика Enhanced Full Rate (EFR) (3GPP ETSI TS 146 054-2020 Цифровая сотовая телекоммуникационная система (фаза 2+) (GSM); Тестовые последовательности для речевого кодека GSM Enhanced Full Rate (EFR) (3GPP TS 46.054



© 2025. Все права защищены.