Сжатие аудиоданных

Толкование

Сжатие аудиоданных: В Википедии есть портал
«Цифровой звук»

Сжатие (компрессия) аудиоданных представляет собой процесс уменьшения скорости цифрового потока за счет сокращения статистической и психоакустической избыточности цифрового звукового сигнала.

Методы сокращения статистической избыточности аудиоданных также называют сжатием без потерь, а, соответственно, методы сокращения психоакустической избыточности - сжатием с потерями.

Содержание

1 Сжатие без потерь

2 Сжатие с потерями

2.1 Структура кодера сжатия аудиоданных с потерями

3 Субъективная оценка качества

4 См. также

5 Ссылки

Сжатие без потерь

Основная статья: Сжатие звука без потерь

Сокращение статистической избыточности основано на учете свойств самих звуковых сигналов. Она определяется наличием корреляционной связи между соседними отсчетами цифрового звукового сигнала, устранение которой позволяет сокращать объем передаваемых данных на 15...25% по сравнению с их исходной величиной. Для передачи сигнала необходимо получить более компактное его представление, что возможно осуществить с помощью ортогонального преобразования. Важными условиями применения такого метода преобразования являются:

возможность восстанавливать исходный сигнал без искажений

способность обеспечивать наибольшую концентрацию энергии в небольшом числе коэффициентов преобразования

быстрый вычислительный алгоритмом

Этим требованиям отвечает модифицированное дискретно-косинусное преобразование (МДКП).

Уменьшить скорость цифрового потока позволяют методы кодирования, учитывающие статистику звуковых сигналов, например, вероятности появления уровней разной величины. Одним из таких методов является код Хаффмана, где наиболее вероятным значениям сигнала приписываются более короткие кодовые слова, а значения отсчетов, вероятность появления которых мала, кодируются кодовыми словами большей длины. Именно в силу этих двух причин в наиболее эффективных алгоритмах компрессии цифровых аудиоданных кодированию подвергаются не сами отсчеты звукового сигнала, а коэффициенты МДКП.

Подобные методы применяются при архивации файлов.

Сжатие с потерями

Сжатие аудиоданных с потерями основывается на несовершенстве человеческого слуха при восприятии звуковой информации. Неспособность человека в определенных случаях различать тихие звуки в присутствии более громких, называемая эффектом маскировки, была использована в алгоритмах сокращения психоакустической избыточности. Эффекты слухового маскирования зависят от спектральных и временных характеристик маскируемого и маскирующего сигналов и могут быть разделены на две основные группы:

частотное (одновременное) маскирование

временное (неодновременное) маскирование

Эффект маскирования в частотной области связан с тем, что в присутствии больших звуковых амплитуд человеческое ухо нечувствительно к малым амплитудам близких частот. То есть, когда два сигнала одновременно находятся в ограниченной частотной области, то более слабый сигнал становится неслышимым на фоне более сильного.

Маскирование во временной области характеризует динамические свойства слуха, показывая изменение во времени относительного порога слышимости (порог слышимости одного сигнала в присутствии другого), когда маскирующий и маскируемый сигналы звучат не одновременно. При этом следует различать явления послемаскировки (изменение порога слышимости после сигнала высокого уровня) и предмаскировки (изменение порога слышимости перед приходом сигнала максимального уровня). Более слабый сигнал становится неслышимым за 5 − 20 мс до включения сигнала маскирования и становится слышимым через 50 − 200 мс после его включения.

Наилучшим методом кодирования звука, учитывающим эффект маскирования, оказывается полосное кодирование. Сущность его заключается в следующем. Группа отсчетов входного звукового сигнала, называемая кадром, поступает на блок фильтров который разделяет сигнал на частотные поддиапазоны. На выходе каждого фильтра оказывается та часть входного сигнала, которая попадает в полосу пропускания данного фильтра. Далее, в каждой полосе с помощью психоакустической модели, анализируется спектральный состав сигнала и оценивается, какую часть сигнала следует передавать без сокращений, а какая лежит ниже порога маскирования и может быть переквантована на меньшее число бит. Для сокращения максимального динамического диапазона определяется максимальный отсчет в кадре и вычисляется масштабирующий множитель, который приводит этот отсчет к верхнему уровню квантования. Эта операция аналогична компандированию в аналоговом вещании. На этот же множитель умножаются и все остальные отсчеты. Масштабирующий множитель передается к декодеру вместе с кодированными данными для коррекции коэффициента передачи последнего. После масштабирования производится оценка порога маскирования и осуществляется перераспределение общего числа битов между всеми полосами.

Очевидно, что после устранения психоакустической избыточности звуковых сигналов их точное восстановления при декодировании оказывается уже невозможным. Методами устранения психофизической избыточности можно обеспечить сжатие цифровых аудиоданных в 10 − 12 раз без существенных потерь в качестве.

Структура кодера сжатия аудиоданных с потерями

Обобщенная структура кодера звукового сигнала с компрессией цифровых аудиоданных

Исходный цифровой звуковой сигнал разделяется на частотные поддиапазоны и сегментируется по времени в блоке временной и частотной сегментации.

Длина кодируемой выборки зависит от формы временной функции звукового сигнала. При отсутствии резких выбросов по амплитуде используется так называемая длинная выборка, обеспечивающая высокое разрешение по частоте. В случае же резких изменений амплитуды сигнала длина кодируемой выборки резко уменьшается, что дает более высокое разрешение по времени. Решение об изменении длины кодируемой выборки принимает блок психоакустического анализа, вычисляя значение психоакустической энтропии сигнала.

После сегментации сигналы частотных поддиапазонов нормируются, квантуются и кодируются. В наиболее эффективных алгоритмах компрессии кодированию подвергаются не сами отсчеты выборки звукового сигнала, а соответствующие им коэффициенты МДКП.

Учет закономерностей слухового восприятия звукового сигнала выполняется в блоке психоакустического анализа. Здесь по специальной процедуре для каждого частотного поддиапазона рассчитывается максимально допустимый уровень искажений (шумов) квантования, при котором они еще маскируются полезным сигналом данного поддиапазона.

Блок динамического распределения бит в соответствии с требованиями психоакустической модели для каждого поддиапазона кодирования выделяет такое минимально возможное их количество при котором уровень искажений, вызванных квантованием, не превышал порога их слышимости, рассчитанного психоакустической моделью.

Также могут использоваться:

матрицирование стерео - сложение и вычитание левого и правого канала для устранения повторяющейся информации

специальные процедуры итерационных циклов, позволяющие управлять величиной энергии искажений квантования в поддиапазонах при недостаточном числе доступных для кодирования бит

процедуры линейного и обратного адаптивного предсказаний

техника сглаживания переходных шумов во временной области (Temporal Noise Shaping - TNS), позволяющая управлять микроструктурой искажений квантования внутри каждого поддиапазона кодирования

Многие другие приёмы могут послужить способом сократить объём данных звуковой информации. Даже простое сужение полосы частот сигнала вместе с уменьшением динамического диапазона может уже называться сжатием аудиоданных. Например, в стандарте сжатия звука в сотовой связи используется и то и другое. Стремясь удалить избыточность из звука, кодек при плохом качестве сигнала становится избирателен к определённым словам, упорно проглатывая их.

Субъективная оценка качества

Для сжатых аудиоданных существует субъективная оценка качества, оцениваемая как процент людей, почувствовавших разницу с оригиналом.

Соответствие битрейта кодека MP3 в режиме стерео и процента людей заметивших разницу с оригиналом
Приблизительное количество людей, услышавших разницу между оригинальной и сжатой записями, % Битрейт сжатой записи, кбит/сек

0…1 320

5…30 256

30…40 192

40…70 128

Следует учесть тот факт, что качество получившегося материала зависит от характера сжимаемых данных, от жанра, наличия фона, помех. После сжатия, например MP3, на средних битрейтах, слушатели отмечают оловянность перкуссионных. А на голосе сжатие (даже сильное) отражается мало.

См. также

Аудиокодек

Сжатие без потерь

Сжатие звука без потерь

Сжатие данных с потерями

Цифровой звук

Цифровые звуковые форматы

Voice Activity Detection

Ссылки

Компрессия цифрового звука: психоакустические основы и алгоритмы. Юрий Ковалгин

Сжатие речевых сигналов на основе психоакустической модели слухового анализатора человека. Киркоров С.И., Борискевича А.А

Феномен временной маскировки и его учет при кодировании звуковых сигналов. Максим Зырянов, Юрий Ковалгин

Основы мультимедиа звук и видео. Глава 4. Cжатие звуковой информации. Г.П. Катунин

Для улучшения этой статьи желательно^?:

Викифицировать статью.

Найти и оформить в виде сносок ссылки на авторитетные источники, подтверждающие написанное.

  Сжатие аудио (форматы • сравнение)

Кодеки

ATRAC • Dolby Digital/AC3 • DTS • Musepack • Opus • TwinVQ (VQF) • Vorbis • WMA

Речь/голос

AMBE • iLBC • IMBE • iSAC • Nellymoser • QCELP • RTAudio • SILK • Siren • Speex • SVOPC • Truespeech

Без потерь

Apple Lossless • FLAC • La • Monkey’s Audio • OptimFROG • TAK • True Audio/TTA • WavPack • WMA Lossless

Стандарты
и форматы

AAC • AMR • G. (711 • 718 • 719 • 722 • 723 • 723.1 • 726 • 728 • 729 • 729.1 • 729A) • HE-AAC • MLP • MPEG-1 Audio (Layer I • Layer II • Layer III/MP3) • MT9 • RealAudio • SHN (англ.)

  Медиаконтейнеры

Видео/аудио

3GP • ASF • AVI • Bink • DMF • DPX • EVO • FLV • Matroska (MKV) • WebM • MPEG-PS • MPEG-TS • MP4 • MXF • NUT • Ogg • Ogg Media • QuickTime • RealMedia • Smacker • RIFF • VOB • сравнение • сжатие

Аудио

AIFF • APE • AU • DSD • DXD • MLP • MP3 • FLAC • SHN (англ.) WAV • WMA • сравнение • сжатие

Графические форматы (сжатие)

Растровые

Без потерь: BMP • FPX • GIF • ICO • ILBM • JBIG • PCX • PNG • PNM • PSD • RAW • TGA • WBMP • XCF • Включая сжатие с потерями: EXR • ICER • JBIG2 • JPEG / JP2 / JPEG-LS • JPEG XR (HD Photo) • PGF (англ.) • TIFF • WebP • Анимационные: APNG • GIF • MNG

Векторные

AI • CDR • EMF • EPS • PS • SVG • WMF • XPS • Анимационные: SVG • SWF • 3D: 3DS • VRML • X3D

Комплексные

CGM • DjVu • PDF

  Методы сжатия

Теория

Информация Собственная · Взаимная · Энтропия · Условная энтропия · Сложность · Избыточность

Единицы измерения Бит · Нат · Ниббл · Хартли · Формула Хартли

Без потерь

Энтропийное сжатие Алгоритм Хаффмана · Адаптивный алгоритм Хаффмана · Алгоритм Шеннона — Фано · Арифметическое кодирование (Интервальное) · Коды Голомба · Дельта · Универсальный код (Элиаса · Фибоначчи)

Словарные методы RLE · Deflate · LZ (LZ77/LZ78 · LZSS · LZW · LZWL · LZO · LZMA · LZX · LZRW · LZJB · LZT)

Прочее RLE · CTW · BWT · MTF · PPM · DMC

Аудио

Теория Свёртка · PCM · Алиасинг · Дискретизация · Теорема Котельникова

Методы LPC (LAR · LSP) · WLPC · CELP · ACELP · A-закон · μ-закон · MDCT · Преобразование Фурье · Психоакустическая модель

Прочее Компрессор аудиосигнала · Сжатие речи · Полосное кодирование

Изображения

Термины Цветовое пространство · Пиксель · Субдискретизация насыщенности · Артефакты сжатия

Методы RLE · DPCM · Фрактальный · Вейвлетный · EZW · SPIHT · LP · ДКП · ПКЛ

Прочее Битрейт · Test images · PSNR · Квантование

Видео

Термины Характеристики видео · Кадр · Типы кадров · Качество видео

Методы Компенсация движения · ДКП · Квантование · Вейвлетный

Прочее Видеокодек · Rate distortion theory (CBR · ABR · VBR)

Категории:
Цифровой звук
Сжатие данных

Соответствие битрейта кодека MP3 в режиме стерео и процента людей заметивших разницу с оригиналом
Приблизительное количество людей, услышавших разницу между оригинальной и сжатой записями, %	Битрейт сжатой записи, кбит/сек
0…1	320
5…30	256
30…40	192
40…70	128

Игры ⚽ Поможем решить контрольную работу

Полезное

Смотреть что такое "Сжатие аудиоданных" в других словарях:

Цифровые аудиоформаты — Цифровой аудиоформат формат представления звуковых данных, используемый при цифровой звукозаписи, а также для дальнейшего хранения записанного материала на компьютере и других электронных носителях информации, так называемых звуковых… … Википедия
Bink — Расширение .bik Разработан RAD Game Tools Тип формата медиаконтейнер, видеокодек, аудиокодек Содержит Bink video Bink проприетарный формат файла, медиаконтейнер, разработанный американ … Википедия
Цифровая звукозапись — Схема прохождения звука от источника через микрофон, АЦП, процессор, ЦАП, громкоговоритель и снова в звук Цифровой звук кодирование аналогового звукового сигнала в виде битовой последовательности. Простейшая форма кодирова … Википедия
LAME — LAME … Википедия
Цифровой проигрыватель — Портативный цифровой плеер Цифровой плеер (в некоторых случаях «MP3 плеер») музыкальный плеер устройство, которое хранит, организовы … Википедия
FLAC — Свободный аудиокодек, обеспечивающий сжатие без потерь … Википедия
OptimFROG — Тип Audio compression Encoder Разработчик Florin Ghido Операционная система Linux, Darwin, Microsoft Windows Последняя версия 4.520b1 (26 апреля 2006) Тестовая версия 4.910b *only Windows* (12 февраля … Википедия
MPEG-4 — MPEG 4 это международный стандарт, используемый преимущественно для сжатия цифрового аудио и видео. Он появился в 1998 году и включает в себя группу стандартов сжатия аудио и видео и смежные технологии, одобренные ISO Международной… … Википедия
Аудиокодек — (англ. Audio codec; аудио кодер/декодер) компьютерная программа или аппаратное средство, предназначенное для кодирования или декодирования аудиоданных. Содержание 1 Программный кодек 2 Аппаратный кодек … Википедия
WavPack — Тип Аудиокодек … Википедия

Словари и энциклопедии на Академике

Сжатие аудиоданных

Содержание

Сжатие без потерь

Сжатие с потерями

Структура кодера сжатия аудиоданных с потерями

Субъективная оценка качества

См. также

Ссылки

Полезное

Смотреть что такое "Сжатие аудиоданных" в других словарях:

Поделиться ссылкой на выделенное

Сжатие аудио (форматы • сравнение)
Кодеки	ATRAC • Dolby Digital/AC3 • DTS • Musepack • Opus • TwinVQ (VQF) • Vorbis • WMA
Речь/голос	AMBE • iLBC • IMBE • iSAC • Nellymoser • QCELP • RTAudio • SILK • Siren • Speex • SVOPC • Truespeech
Без потерь	Apple Lossless • FLAC • La • Monkey’s Audio • OptimFROG • TAK • True Audio/TTA • WavPack • WMA Lossless
Стандарты и форматы	AAC • AMR • G. (711 • 718 • 719 • 722 • 723 • 723.1 • 726 • 728 • 729 • 729.1 • 729A) • HE-AAC • MLP • MPEG-1 Audio (Layer I • Layer II • Layer III/MP3) • MT9 • RealAudio • SHN (англ.)

Медиаконтейнеры
Видео/аудио	3GP • ASF • AVI • Bink • DMF • DPX • EVO • FLV • Matroska (MKV) • WebM • MPEG-PS • MPEG-TS • MP4 • MXF • NUT • Ogg • Ogg Media • QuickTime • RealMedia • Smacker • RIFF • VOB • сравнение • сжатие
Аудио	AIFF • APE • AU • DSD • DXD • MLP • MP3 • FLAC • SHN (англ.) WAV • WMA • сравнение • сжатие
Графические форматы (сжатие)
Растровые	Без потерь: BMP • FPX • GIF • ICO • ILBM • JBIG • PCX • PNG • PNM • PSD • RAW • TGA • WBMP • XCF • Включая сжатие с потерями: EXR • ICER • JBIG2 • JPEG / JP2 / JPEG-LS • JPEG XR (HD Photo) • PGF (англ.) • TIFF • WebP • Анимационные: APNG • GIF • MNG
Векторные	AI • CDR • EMF • EPS • PS • SVG • WMF • XPS • Анимационные: SVG • SWF • 3D: 3DS • VRML • X3D
Комплексные	CGM • DjVu • PDF

Словари и энциклопедии на Академике

Википедия

Сжатие аудиоданных

Содержание

Сжатие без потерь

Сжатие с потерями

Структура кодера сжатия аудиоданных с потерями

Субъективная оценка качества

См. также

Ссылки

Полезное

Смотреть что такое "Сжатие аудиоданных" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: