Voice Activity Detection

Voice Activity Detection

VAD (англ. Voice Activity Detection), а также Silence Suppresion (англ. подавление тишины) — обнаружение голосовой активности во входном акустическом сигнале для отделения активной речи от фонового шума или тишины. Голос, интерпретированный как шум, может порождать «вырезки» из разговора (chipping). Фон, интерпретируемый как голос, приводит к снижению эффективности компрессии (например, в DTX).

Содержание

Преимущества и использование

При оцифровке голоса, фрагменты сигнала, классифицируемые как активная речь, могут в дальнейшем кодироваться и сжиматься любым аудиокодеком (например, CELP) при использовании в ПО для различения в кодируемой речи человеческого голоса и фонового шума.

Использование механизма VAD (или Silence Suppression) позволяет экономить на передаче данных по каналу связи, так как перерыв в речи (определяется по уровню сигнала) не оцифровывается и не кодируется и таким образом «пустые» пакеты с тишиной не передаются по сети. Это очень важно для пакетной передачи (каковой является передача в сетях TCP/IP), так как кроме самих данных каждый протокол всех уровней модели OSI (транспортный, сетевой и т.д.) дописывает свою собственную служебную информацию в каждый пакет с данными. В результате размер пакета значительно вырастает. Таким образом исключение «пустых» пакетов с мелкими шумами - простой способ экономить трафик и, как следствие, увеличить пропускную способность канала. По этой причине механизм VAD довольно часто применяется наряду с различными кодеками эффективного сжатия в IP-телефонии.

Недостатки и метод их устранения

Проблема VAD в том, что в результате подавления тишины (на самом деле звука низкого уровня) слушающий не слышит вообще никаких опознавательных сигналов (дыхания, сопения и других мелких шумов, сопровождающих живую речь). Это создаёт некоторые проблемы, ведь в обычной разговорной речи слышно всё. Отсутствие привычного шума во время воспроизведения голоса вызывает неприятные ощущения и снижает уровень восприятия, понимания.

Для решения данной проблемы на стороне второго абонента (или слушателя) может применяться эмуляция сопроводительных звуков, получившая название генерации комфортного шума (CNG) (обратный процесс для VAD).

см. также

ссылки


Wikimedia Foundation. 2010.

Игры ⚽ Поможем написать реферат

Полезное


Смотреть что такое "Voice Activity Detection" в других словарях:

  • Voice activity detection — (also known as speech activity detection or, more simply, speech detection) is an algorithm used in speech processing wherein the presence or absence of human speech is detected in regions of audio. The main uses of VAD are in speech coding and… …   Wikipedia

  • Voice stress analysis — (VSA) technology is said to record psychophysiological stress responses that are present in human voice, when a person suffers psychological stress in response to a stimulus (question) and where the consequences may be dire for the subject being… …   Wikipedia

  • Activity recognition — aims to recognize the actions and goals of one or more agents from a series of observations on the agents actions and the environmental conditions. Since the 1980s, this research field has captured the attention of several computer science… …   Wikipedia

  • Lie detection — is the practice of determining whether someone is lying. Activities of the bodynot easily controlled by the conscious mind are compared under different circumstances. Usually this involves askingthe subject control questions where the answers are …   Wikipedia

  • VAD — Voice Activity Detection (Computing » Telecom) Voice Activity Detection (Computing » Networking) Voice Activity Detection (Community » Law) * Vitamin A Deficiency (Medical » Physiology) * Voluntary Aid Detachment (Governmental » United Nations) * …   Abbreviations dictionary

  • Speex — Filename extension .spx Internet media type audio/x speex, audio/speex, audio/ogg Developed by Xiph.Org Foundation, Jean Marc Valin Type of format Audio Contained by Ogg …   Wikipedia

  • Comfort noise — (or comfort tone) is synthetic background noise used in radio and wireless communications to fill the artificial silence in a transmission resulting from voice activity detection or from the audio clarity of modern digital lines. Some modern… …   Wikipedia

  • Silence suppression — The term silence suppression is used in telephony to describe the process of not transmitting information over the network when one of the parties involved in a telephone call is not speaking, thereby reducing bandwidth usage.Voice is carried… …   Wikipedia

  • Clipping (audio) — For shortening of voice snippets due to failures in voice activity detection, see squelch and voice activity detection. The altered peaks and troughs of the sinusoidal waveform displayed on this oscilloscope indicate the signal has been clipped.… …   Wikipedia

  • Speex — Vorlage:Infobox Dateiformat/Wartung/MagischeZahl fehltVorlage:Infobox Dateiformat/Wartung/Website fehlt Speex Dateiendung: .spx MIME Type: audio/x speex …   Deutsch Wikipedia


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»