Теоретические основы кодирования звука

 12 сен 2013

Звуковая волна – это упругие колебания воздуха. Восприятие звука органом слуха характеризуется высотой звука и его громкостью. За единицу громкости принимается 1 Б (Бел). Однако практически удобно выражать громкость в децибелах. Сильный удар грома, вызывающий боль в ушах, имеет громкость около 120 дБ. Громкость уличного шума на оживленной магистрали составляет около 80 дБ. Громкий разговор – это 60 дБ, шепот – 30 дБ. Приведенные величины, конечно, приблизительны, поскольку весьма разнообразны условия, в которых мы воспринимаем звуки: близко или далеко от источника, на открытом воздухе или в закрытом помещении и т.д.

Ухо – довольно совершенный приемник звука: у природы были «в запасе» миллионы лет, чтобы сделать его чувствительным к определению громкости звука и его высоты. Тренированное ухо улавливает очень малые изменения силы и высоты звука.

Для изучения звуков, в результате которого мы получали бы объективные характеристики, а не субъективные оценки нужны, конечно, специальные приборы. Такие приборы измеряют силу звука и его частоту.

Для кодирования непрерывного звукового сигнала производится его дискретизация по времени (временная дискретизация, оцифровка). Непрерывная звуковая волна разбивается на отдельные короткие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды. Это выполняется устройством, называемым аналогово-цифровым преобразователем (АЦП), который измеряет напряжение поступающего с микрофона звукового сигнала через равные промежутки времени и записывает полученные значения (в виде многоразрядных двоичных чисел) в память компьютера. В результате непрерывная зависимость амплитуды сигнала от времени заменяется на дискретную последовательность значений уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность «ступенек» (см. рисунок). Для того чтобы воспроизвести закодированный таким образом звук, нужно выполнить обратное преобразование, для которого служит цифро-аналоговый преобразователь (ЦАП), а затем сгладить получившийся ступенчатый сигнал (через аналоговый фильтр).

Качество кодирования зависит от количества измерений уровня сигнала в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования звуковой информации.

Наиболее распространенным форматом закодированных звуковых файлов является Wave-формат (расширение файлов - .wav). Такой способ кодирования звуковой информации достаточно универсален, он позволяет представить любой звук и преобразовывать его самыми разными способами. Но существуют и другие способы кодирования звука.

В исходном звуковом файле (например, в wav-файле) хранится полная информация об оцифрованном звуке. При высоком качестве звука объем таких файлов чрезвычайно велик (около 15Мб на 1 минуту звучания). Поэтому разработаны различные способы сжатия звуковых файлов. Наиболее популярным форматом, обеспечивающим высокую степень сжатия звуковых файлов при сохранении высокого качества звучания, является формат MP3 (MPEG Layer-3) (расширение файлов - .mp3), разработанный учеными из немецкого университета им. Фраугофера. Принципы сжатия основаны на удалении невоспринимаемых или плохо воспринимаемых человеком звуков.

Вычислительные операции, связанные с обработкой звука, выполняет звуковая карта, подключаемая к материнской плате. Основной характеристикой звуковой карты является разрядность, определяющая количество битов, используемых при преобразовании сигналов из аналоговой в цифровую форму, и наоборот. Чем выше разрядность, тем меньше погрешность, связанная с оцифровкой, и выше качество звучания. Минимальным требованием в настоящее время являются 16 разрядов, а наиболее распространены 32-разрядные и 64-разрядные звуковые карты.

Источники используемой литературы:

1. «О современной акустике», В.И. Рыдник

2. «Кодирование звука».
Автор - И.В. Хухра



Теоретические основы кодирования звука

Обратный звонок