Хухра И.В. Теоретические основы кодирования звуковой информации

В этом разделе помещены интересные, на наш взгляд, материалы. 
NB Мнение АНО "Лингва-Эксперт" может не совпадать с точкой зрения авторов публикаций. 

Мир наполнен самыми разнообразными звуками: тиканье часов и гул моторов, завывание ветра и шелест листьев, пение птиц и голоса людей.
Для передачи и приема информации многие организмы, в том числе высшие животные и человек, используют волны. Глаз воспринимает световые волны, ухо – звуковые. При всей несхожести природы этих двух видов волн, у них все же много общего. Волна – это распространение колебательного движения. Если изобразить ее в виде графика, то получится синусоида. Но такая волна еще не информация, она только носитель информации. Собственно информацией являются искажения правильной синусоидальной волны. В приемнике эта информация снимается со своего носителя, сам носитель отбрасывается, а информация выделяется и прочитывается.
Нужно отметить, что при распространении звуковой волны среда в целом не движется. В ней лишь несколько смещаются вперед-назад составляющие среду частицы – молекулы воздуха, воды, атомы в твердых телах. Передача колебаний происходит как бы эстафетой – от одних частиц к другим.
Ухо – довольно совершенный приемник звука: у природы были в запасе миллионы лет, чтобы сделать его чувствительным к определению громкости звука и его высоты. Тренированное ухо улавливает очень малые изменения силы и высоты звука.
На слух человек воспринимает упругие волны, имеющие частоту где-то в пределах от 16 Гц до 20 кГц (1 Гц - 1 колебание в секунду). В соответствии с этим упругие волны в любой среде, частоты которых лежат в указанных пределах, называют звуковыми волнами или просто звуком.
В учении о звуке важны такие понятия, как тон и тембр звука. Всякий реальный звук, будь то игра музыкальных инструментов или голос человека, – это своеобразная смесь многих гармонических колебаний с определенным набором частот. Колебание, которое имеет наиболее низкую частоту, называют основным тоном, другие – обертонами. Обертоны в свою очередь создают тембр.
Тембр – разное количество обертонов, присущих тому или иному звуку, которое придает ему особую окраску. Именно по тембру мы легко можем отличить звуки рояля и скрипки, гитары и флейты, узнать голос знакомого человека.
Восприятие звука органом слуха характеризуется также высотой звука и его громкостью.
Громкость звука зависти от давления, возникающего при прохождении звуковой волны в жидкой и газообразной среде, которое непосредственно воспринимается ухом. Громкие звуки создают большое давление, тихие – малое. Давление измеряется в Паскалях, однако в акустике звуковое давление обычно измеряется в децибелах (дБ) относительно порога слышимости. По определению, величина порога принята равной pt=0,00002Па=20мкПа. Порог слышимости принимается за 0дБ, а громкость вычисляется как
l=20*log10(p/pt)
где l [дБ] - громкость (в смысле звукового давления),
p [Па]- звуковое давление,
pt [Па]- порог слышимости.
При этом: все слышимые звуки имеют положительную величину громкости; неслышимые (ниже порога громкости) - отрицательную; изменение громкости на 6дБ соответствует двукратному изменению давления; изменение на 20дБ - изменению давления в 10 раз.

Таблица 1. Некоторые типичные значения громкости

таблица 1.JPG

Это интересно: полет сверхзвукового реактивного самолета вызывает крайне негативное явление - звуковой удар. Это резкий «хлопок», беспокоящий людей и животных на земле, даже когда самолет пролетает на высоте более 10 тысяч метров. Влияние звукового удара столь серьезно, что трассы действующих сверхзвуковых рейсов проложены над океаном или горными областями. Таким образом, наличие звукового удара тормозит развитие коммерческой сверхзвуковой авиации. Снижение уровня звукового удара представляется весьма важной задачей в сверхзвуковой авиации.
Для изучения звуков, в результате которого мы получали бы объективные характеристики, а не субъективные оценки, нужны, конечно, специальные приборы. Такие приборы измеряют силу звука и его частоту.
Как же происходит кодирование звука? В настоящее время существует два основных способах записи звука: аналоговый и цифровой. Для того чтобы записать звук на какой-нибудь носитель, его нужно преобразовать в электрический сигнал. Это делается с помощью микрофона. Самые простые микрофоны имеют мембрану, которая колеблется под воздействием звуковых волн. К мембране присоединена катушка, перемещающаяся синхронно с мембраной в магнитном поле. В катушке возникает переменный электрический ток. Изменения напряжения тока точно отражают звуковые волны.
Переменный электрический ток, который появляется на выходе микрофона, называется аналоговым сигналом. Применительно к сигналу «аналоговый» обозначает, что этот сигнал непрерывен по времени и амплитуде. Виниловая пластинка является примером аналогового хранения звуковой информации, так как звуковая дорожка свою форму изменяет непрерывно. Но у аналоговых записей есть большой недостаток – старение носителя. Виниловые пластинки при проигрывании их несколько раз теряют качество. Поэтому преимущество отдают цифровой записи.
Для кодирования непрерывного звукового сигнала производится его дискретизация по времени (временная дискретизация, оцифровка). Непрерывная звуковая волна разбивается на отдельные короткие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды. Это выполняется устройством, называемым аналогово-цифровым преобразователем (АЦП), который измеряет напряжение поступающего с микрофона звукового сигнала через равные промежутки времени и записывает полученные значения (в виде многоразрядных двоичных чисел) в память компьютера. В результате непрерывная зависимость амплитуды сигнала от времени заменяется на дискретную последовательность значений уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность «ступенек» (см. рисунок). Для того, чтобы воспроизвести закодированный таким образом звук, нужно выполнить обратное преобразование, для которого служит цифро-аналоговый преобразователь (ЦАП), а затем сгладить получившийся ступенчатый сигнал (через аналоговый фильтр).

рисунок 1.jpg

Качество кодирования зависит от количества измерений уровня сигнала в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования звуковой информации. 
Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000 (у некоторых современных звукозаписывающих устройств частота дискретизации может быть гораздо выше указанной), то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции или качеству звукового сигнала сотовой связи, а при частоте 48 кГц - качеству звучания аудио-CD. Следует также учитывать, что возможны как моно-, так и стерео-режимы.
Помимо частоты дискретизации, важным показателем при кодировании звука является глубина кодирования. Например, если звуковая карта обеспечивает 16-битную глубину кодирования звука, то количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по следующей формуле:
N = 2I = 216 = 65536, где I - глубина звука.
Таким образом, данная звуковая карта может обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.
Можно оценить информационный объем стерео аудио-файла длительностью звучания 1 секунда при качестве звука 16 битов, 48 кГц. Для этого количество битов, приходящихся на одну выборку, необходимо умножить на количество выборок в 1 секунду и умножить на 2 (стерео):
16 бит × 48 000 × 2 = 1 536 000 бит = 192 000 байт = 187,5 Кбайт.
Наиболее распространенным форматом закодированных звуковых файлов является Wave-формат (расширение файлов - .wav). Такой способ кодирования звуковой информации достаточно универсален, он позволяет представить любой звук и преобразовывать его самыми разными способами. Но существуют и другие способы кодирования звука.
В исходном звуковом файле (например, в .wav-файле) хранится полная информация об оцифрованном звуке. При высоком качестве звука объем таких файлов чрезвычайно велик (около 15 Мб на 1 минуту звучания). Поэтому разработаны различные способы сжатия звуковых файлов. Наиболее популярным форматом, обеспечивающим высокую степень сжатия звуковых файлов при сохранении высокого качества звучания является формат MP3 (MPEG Layer-3) (расширение файлов - .mp3), разработанный учеными из немецкого университета им. Фраугофера. Принципы сжатия основаны на удалении невоспринимаемых или плохо воспринимаемых человеком звуков.
Вычислительные операции, связанные с обработкой звука, выполняет звуковая карта, подключаемая к материнской плате. Основной характеристикой звуковой карты является разрядность, определяющая количество битов, используемых при преобразовании сигналов из аналоговой в цифровую форму, и наоборот. Чем выше разрядность, тем меньше погрешность, связанная с оцифровкой, и выше качество звучания. Минимальным требованием в настоящее время являются 16 разрядов.

Напоследок, хотелось бы отметить, что исследование звуковой волны является приоритетным направлением для разных сфер деятельности.
Например, для разработчиков систем автоматического распознавания голоса.
Кроме того, исследование звуковой волны в целом, а также голоса и звучащей речи является основной задачей при производстве судебной фоноскопической экспертизы, или экспертизы звукозаписи.

Источники:

1. «О современной акустике», В.И. Рыдник
2. «Кодирование звука», http://spo.licey-serpuhov.ru/p24aa1.html
3. Кодирование звуковой информации
http://inf777.narod.ru/inf_posobie_popova/razdel_4/4.6.htm
4. http://inf.1september.ru/2007/16/00.htm
5. http://www.5byte.ru/11/0012.php

Возврат к списку

   

  Наверх