Какие пункты должны входить в аннотацию звукового файла

Обновлено: 02.07.2024

Файлы с оцифрованным звуком (digitized sound files) — звуковые файлы, в которых исходная непрерывная («аналоговая») форма сигнала записана в виде последовательности коротких дискретных значений амплитуд звукового сигнала, измеренных («выбранных») через одинаковые промежутки времени и имеющих между собой весьма малый интервал. Процесс замены непрерывного сигнала последовательностью его значений называют дискретизацией (sampling), а такую форму записи — импульсно-кодовой (pulse code). Аппаратная реализация обработки оцифрованного звука состоит в том, что аналого-цифрового преобразователь (АЦП) преобразует аналоговый сигнал в множество цифровых замеров, а при воспроизведении цифро-аналоговый преобразователь (ЦАП) осуществляет обратный процесс — преобразование цифрового сигнала в аналоговый. Файлы с оцифрованным звуком бывают двух видов: с заголовком и без заголовка.

Основные понятия и термины, связанные с оцифровкой звука:
Выборка, отсчет звукового сигнала (sample) — дискретное («мгновенное») значение, соответствующее минимальному фрагменту исходного звукового сигнала, который подается на вход аналого-цифрового преобразователя (АЦП) при записи звука или получается с использованием цифро-аналогового преобразователя (ЦАП) при его воспроизведении. Выборка характеризует амплитуду звукового сигнала, обычно представляет собой целое число (8 или 16 бит). Выборка может производиться по одному каналу (моно), двум (стерео) или большему числу каналов. Процесс разделения сигнала на выборки называется квантованием (quantizing).
Разрядность дискретизации (sample size) — величина, определяющая количество бит на один канал. Разрядность дискретизации определяет точность замера и качество записи звука. В частности, она влияет на величину отношения сигнала к шуму (signal-to-noise-ratio). Чем выше разрядность дискретизации, тем выше качество записи и воспроизведения звука. Однако при увеличении ее значения растет и объем записи.
Частота дискретизации (sampling rate) — величина, которая определяет, сколько раз в секунду производится считывание выборок из аналогового сигнала. При цифровой записи звуков частота дискретизации измеряется в герцах и килогерцах. Чем выше частота дискретизации, тем выше качество звука. Однако соответственно увеличивается и объем записи. Для определения оптимальной частоты и разрядности необходимо найти компромисс между звуковым качеством и размером данных. В соответствии с Теоремой Котельникова, в сигнале, измеряемом с частотой дискретизации fд, не должны содержаться гармонические компоненты с частотами выше fд/2, иначе цифровое представление сигнала не будет адекватно аналоговому. Частоту fн = fд/2 называют частотой Найквиста. Это предельная частота, выше которой во входном сигнале не должно быть спектральных компонентов. Если в аналоговом сигнале присутствуют частоты выше fн, возникает эффект наложения спектров (aliasing). Поэтому полосу частот входных сигналов необходимо ограничить фильтром низких частот (ФНЧ), который в этом случае называется anti-aliasing фильтром. На практике максимально допустимая частота сигнала определяется частотой подавления ФНЧ (граничная частота, с которой начинается полоса подавления). Поскольку амплитудная характеристика фильтра за частотой среза спадает до нуля не перпендикулярно, а с некоторым наклоном, fд и частота среза должны разниться более чем вдвое.

Наиболее часто встречающиеся частоты дискретизации (Значение fд, Гц — Область применения и/или принцип выбора значения):
5500 — 1/4 частоты дискретизации ПК Macintosh.
7333 — 1/3 частоты дискретизации ПК Macintosh.
8000 — используется для ИКМ-канала телефонного сигнала с A-, мю-законами компандирования (Рекомендации G.711 и G.712 МККТТ). Рабочие станции NeXT используют частоту дискретизации 8012, 82 Гц.
11025 — 1/2 частоты дискретизации ПК Macintosh, 1/4 частоты дискретизации компакт-диска (CD).
16000 — используется при сжатии в соответствии с Рекомендацией МККТТ G.722
18900 — стандарт CD-ROM/XA.
22050 — 1/2 частоты дискретизации компакт-диска, частота дискретизации Macintosh (последняя в действительности 22254, 54 Гц).
31250 — цифровая запись звука в видеомагнитофонах системы Video-8 (PAL)
31500 — цифровая запись звука в видеомагнитофонах системы Video-8 (NTSC).
32000 — цифровое радиовещание, цифровые магнитофоны DAT (Digital Audio Tape).
34629 — звуковой канал телевидения.
37800 — стандарт CD-ROM/XA (высокое качество).
44056 — ИКМ-приставка к видеомагнитофону NTSC для записи звука.
44100 — частота дискретизации компакт-диска, цифровых магнитофонов DAT, ИКМ-приставки к видеомагнитофону PAL/SECAM для записи звука.
48000 — цифровые магнитофоны DAT.

Некоторые форматы звуковых файлов поддерживают произвольную частоту дискретизации (например, VOC-файлы в диапазоне от 5000 до 44100 Гц); другие — только определенные частоты дискретизации (WAV-файлы могут быть оцифрованы с частотами 11025, 22050, 44100 Гц). Поэтому конвертирование (преобразование) файла одного формата в другой не всегда возможно. Наиболее гибкое средство преобразования звуковых файлов различных форматов — программа SOX (Sound Exchange), которая допускает кроме конвертирования введение различных эффектов (добавление эха, фильтрацию, изменение частоты дискретизации).

Файлы с заголовком (files with heading) — один из двух видов файлов с оцифрованным звуком. В заголовке указываются параметры, которые характеризуют оцифрованный звук, включая: частоту дискретизации; количество битов на отсчет (8 или 16); количество каналов — моно (1) или стерео (2); ASCII-символы, описывающие тип файла; длину записанных данных в байтах; номер версии формата; метод компрессии; величину смещения блока данных относительно начала файла.

Некоторые звуковые редакторы (GoldWave, CoolEdit) позволяют импортировать файлы с оцифрованным звуком без заголовка. При этом запрашиваются: частота дискретизации, количество битов на отсчет, количество каналов. Затем информацию можно экспортировать (сохранить) в файле с заголовком (.wav, .voc). Заголовок .voc можно дополнить и утилитой VOCHDR, а полученный файл конвертировать в .wav утилитой VOC2WAV (VOCHDR и VOC2WAV входят в поставку Sound Blaster 16).

Перечень и области применения наиболее распространенных форматов звуковых файлов с заголовком (Расширение — Краткие сведения о форматах):
*.aiff, *.aif — формат AIF (AIFF, Audio Interchange File Format), распространен в системах Apple Macintosh и Silicon Graphics; заключает в себе сочетание MOD и WAV. Формат AIFC (AIFF-С, Audio Interchange File Format-Compressed) — AIFF с заданными параметрами сжатия (компрессии); используется в ПК фирмы Apple.
*.au*.snd — формат AU, предназначен для работы со звуком в рабочих системах SUN, NeXT, DEC, Linux, FreeBSD; обеспечивает экономию памяти, нашел широкое распространение в Интернете. Структура файла проще, чем wav, где указан метод кодирования данных. Наиболее часто используются параметры m-Law 8 кГц – моно, но существуют 16-битные стереофайлы с частотами 22050 и 44100 Гц. SND бывает двух видов: один — AU для SUN и NeXT; другой — восьмибитный монофайл для РС и ПК фирмы Apple с различной частотой дискретизации.
*.avr — предложен фирмой Audio Visual Research (заголовок — 128 байтов).
*.hcom — ПК фирмы Apple.
*.iff — формат IFF (Interchange File Format), имеет сходство с RIFF (Resource Interchange File Format), являющимся универсальным для записи любых структурированных данных. Основное отличие заключается в поддержке программно-сэмплерной эмуляции музыкальных инструментов. Звук в файле делится на две части: то, что должно звучать вначале, и элемент того, что идет за началом. В результате вторая часть звукового фрагмента повторяется за начальной столько раз, сколько нужно пользователю и нота может звучать сколь угодно долго. IFF используется в системах типа IFF/8SVX на компьютерах фирмы Amiga.
*.mp3 — формат MР3, в котором использованы параметры сжатия, имеющие сходство с форматом jpeg для изображений. Коэффициент сжатия составляет 10-12, однако специалистами он считается сложным («навороченным») и не обеспечивающим высокое качество звука. Основным недостатком является эффект контурности звука. При отсутствии строгих требований к качеству звучания его потери считаются неощутимыми.
*.nsp — формат для записи на аппаратуре CSL Model 4300B (фирма Kay Elemetrics).
*.sf — IRCAM Sound Files; программы CSound, MixView.
*.smp — программа SampleVision (фирма Turtle Beach).
*.snd — компьютеры Sun, NeXT.
*.voc — восьмибитный моноформат VOC (Voice File) семейства звуковых карт SoundBlaster фирмы Creative Labs; используется в старых немузыкальных программах. HСОМ — то же самое, что и VOC (8 бит, моно), но для ПК фирмы Apple Macintosh.
*.vqf — формат записи звуковых файлов VQF — альтернативы МР3. К недостаткам VQF относят длительность кодирования и малое число бесплатных программ-приложений, что стало причиной его незначительного распространения.
*.wav — формат WAVE (Waveform Audio File), разработанный фирмой Microsoft; один из простейших для записи и хранения дискретных данных. WAVE относится к одному из вариантов файлов семейства RIFF (Resource Interchange File Format) и является жестко структурированным. В заголовке помимо обычных значений (разрядность, уровни громкости) в WAV могут быть указаны и другие параметры (метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения частей звукового файла, текстовая информация). PCM WAVE — версия WAVE формата данных PCM.

Перечень и области применения наиболее распространенных форматов звуковых файлов без заголовка (Расширение — Краткие сведения о форматах):
*.pcm — PCM (Pulse Code Modulation — буквально Импульсно-кодовая модуляция, ИКМ). Хотя файлы с таким расширением встречаются редко (в основном на аудио-CD), принцип импульсно-кодовой модуляции характерен для всех звуковых файлов. Метод записи и хранения аудиоинформации в формате PCM неэкономный, однако объемы современных устройств внешней памяти (в том числе винчестеров и оптических дисков) позволяют его использовать несмотря на связанные с этим потери, которые могут составлять десятки мегабайт.

*.dpcm — DPCM (Difference Pulse Code Modulation) — вариант формата PCM, в котором с целью повышения экономии хранения звуковых данных на диске использован метод сжатия записи, получивший наименования «разностного РСМ». Эта схема сжатия с фиксированной скоростью преобразовывает последовательность измерений, сохраняя только разницу между последующим и предыдущим значениями сигналов. Сохранение дискового пространства происходит за счет того, что значение разности меньше самих измерений.
*.adpcm — ADPCM (Adaptive DPCM, адаптивный DPCM) — формат DPCM, дополненный использованием коэффициента масштабируемости, что обусловлено требованием исключения искажений звука, вызванных ошибками измерения разности амплитуд сигналов, которые связаны со значительными перепадами громкости отдельных составляющих звука.
*.sb — signed byte (байт со знаком); по умолчанию 8000 Гц, моно.
*.sw — signed word (слово со знаком); по умолчанию 8000 Гц, моно.
*.ub — unsigned byte (байт без знака); по умолчанию 8000 Гц, моно.
*.ul — UL, стандартный формат U-Law (мю-закон). По умолчанию 8 кГц, 8 бит, моно.
*.uw — Unsigned word (слово без знака); по умолчанию 8000 Гц, моно.


В данный момент вы не можете посмотреть или раздать видеоурок ученикам

Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет, приобрев в каталоге.

Получите невероятные возможности



2. Раздавайте видеоуроки в личные кабинеты ученикам.


3. Смотрите статистику просмотра видеоуроков учениками.

Конспект урока "Звуковые файлы"

В начале урока мы с вами вспомним, что такое файл.

Файл – это информация, которая хранится как единое целое и имеет своё название – имя файла. В каждом файле хранится однотипная информация: графическая, звуковая и прочие.

Сегодня мы с вами узнаем о том, что такое звук, какие существуют расширения звуковых файлов, познакомимся с историей звукозаписи.

Звук – это колебания воздуха или любой другой среды, в которой он распространяется.

Звук попадает в компьютер при помощи микрофона. А чтобы компьютер смог работать со звуком, его нужно преобразовать в последовательность нулей и единиц, ведь компьютер умеет работать только с такой информацией. Этим занимается звуковая карта. Для прослушивания звука используются наушники или колонки.

Витя: «Но если звук в компьютере находится в виде нулей и единиц, то как же его можно прослушать?»

Здесь нам снова поможет звуковая карта. Когда мы даём команду компьютеру на воспроизведение, звуковая карта преобразует нули и единицы обратно в звук, который выводится через колонки или наушники.

Вся музыка и звуки в компьютере, телефоне и на прочих устройствах хранения информации являются звуковыми файлами.

Как мы с вами знаем, у каждого файла есть своё расширение. Звуковые файлы не являются исключением.

Витя: «Давайте узнаем, какие существуют расширения звуковых файлов».

Рассмотрим наиболее популярные из них.

«MIDI». Формат файлов «MIDI»был разработан для того, чтобы позволить музыкантам и композиторам копировать данные «MIDI»из одного приложения в другое. В таких файлах содержится информация о расположении нот, скорости игры и прочих параметрах звука.

«MP3». В наше время это одно из стандартных расширений звуковых файлов. Большинство музыкальных плееров, смартфонов, компьютеров и прочих устройств воспроизводят музыку именно из файлов «MP3». При сохранении звукового файла с таким расширением происходит его сжатие. А при сжатии, в свою очередь, – потеря качества. В этом есть и свои плюсы. При хранении файлов с расширением «MP3» наблюдается значительная экономия места на диске.

Расширение «WMA». Популярность этого формата была достигнута за счёт его использования при воспроизведении видеофайлов на DVD-плеерах, а также на портативных устройствах и мобильных телефонах.

Ну и в заключение рассмотрим формат «WAV». Файлы «WAV» были созданы компаниями IBM и Microsoft. Они содержат различные аудиоданные: звуки, звуковые эффекты, музыку, а также записи голоса. По размерам файлы с расширением «WAV» значительно больше файлов с расширением «MP3», и именно поэтому они не пользуются популярностью.

Витя: «Какие существуют программы для прослушивания звука?»

Программ для прослушивания звуковых файлов огромное количество. Стандартным же проигрывателем в операционной системе Windows является Windows Media. Этот проигрыватель позволяет воспроизводить все популярные форматы аудио- и видеофайлов. Можно записать диск из понравившихся композиций, или наоборот, скопировать его к себе на жёсткий диск.

Следующий проигрыватель, который мы с вами рассмотрим, AIMP. Он является бесплатным, поддерживает огромное количество форматов. В данном проигрывателе можно создавать несколько плейлистов. Эту программу устанавливают не только на компьютер или ноутбук, но и на телефоны с операционной системой Андроид.

Идём дальше. Рассмотрим проигрыватель Winamp. С его помощью можно не только слушать музыку, но и смотреть видеозаписи. Также в Winamp можно искать нужные аудиозаписи, создавать свои списки звуковых файлов. Ну и, конечно же, с помощью этого проигрывателя можно прослушивать звуковые файлы с различными расширениями.

Tomahawk. Отличительной особенностью этого проигрывателя является то, что его можно устанавливать в операционных системах Windows, Linux и Mac OS. После того, как приложение было установлено, оно собирает всю музыку, которая находится на компьютере, в одну библиотеку. Это позволяет сразу же после установки начать её прослушивание.

Витя: «Может, немного поговорим об истории звукозаписи?»

К первым устройствам для записи звука относятся механические устройства. В то же время они не могли записывать и воспроизводить голос. На такие устройства записывалась только мелодия. Мелодии записывались на бумагу, дерево, металлические валики, перфорированные диски и другие приспособления. Эти инструменты могли приводиться в движение не только при помощи человеческих рук, но и при помощи воды, песка, электричества и прочих средств.

К примерам таких устройств относятся шарманки, музыкальные часы, шкатулки, ящики.


Все они воспроизводили различные сохранённые мелодии, но в то же время на них нельзя было записать живые выступления, звуки. Количество же мелодий было ограничено.

В 1857 г. де Мартенвиль изобрёл фоноавтограф.


Минус этого устройства был в том, что оно не могло воспроизводить сделанную запись.

А вот в 1877 г. Томас Эдисон изобрёл фонограф, который уже мог воспроизводить свою запись.


В 1887 г. Эмиль Берлинер изобрёл граммофон.


Звуки записывались на пластинки.


Но аудиодорожки могли вмещать в себя только до 5 минут аудиозаписи.

В 1907 г. Гильон Кеммлер предложил усовершенствовать граммофон. Так, на замену ему пришёл патефон.


Главное отличие патефона заключалось в том, что он был скомпонован в виде чемоданчика и его можно было переносить в застёгнутом виде за специальную ручку.

В 1925 г. появляется запись через микрофон. Таким образом был изобретён электрофон. Он отличается от граммофона и патефона принципом действия, который основан на электрических колебаниях. Более подробно об этом вы узнаете в старших классах. В быту такое устройство очень часто называли проигрывателем. Электрофоны до сих пор используются в домашних условиях. Но продажа граммофонных пластинок практически прекратилась, так как на смену пришли цифровые средства воспроизведения звука.

Далее в 1931 г. Шорин Александр Фёдорович создал шоринофон. Запись в таком устройстве производилась с помощью иглы на киноленту.

В тысяча девятьсот тридцать втором году компания AEG начала производство «Магнетофон-К1». А в 1941 г. эта же фирма выпускает магнитофон нового образца.

В дальнейшем в 1963 г. появляются первые компакт-кассеты. Они производились фирмой Philips.

В 1971 г. компания Advent Corporation выпускает кассету с магнитной лентой на основе оксида хрома.


Витя: «А что такое оксид хрома?»

Об этом вы узнаете в старших классах на уроках химии.

Качество звука на таких носителях информации было намного выше. На такие кассеты можно записывать в фабричных условиях фонограммы. Также кассеты начали использоваться для самостоятельной записи музыки.

С появлением оптических дисков появляется лазерная (оптическая) запись. При помощи лазерного луча на вращающийся оптический диск записываются сигналы. В результате записи на диске образуется спиральная дорожка. При воспроизведении лазерный луч перемещается по поверхности оптического диска и считывает записанные на него данные.

В 1980 г. компании Philips и Sony создают международный стандарт хранения оцифрованного звука на компакт-дисках. А в апреле 1982 г. Philips представила свой первый проигрыватель компакт-дисков.

Витя: «Перед записью звук же как-то редактируется?»

Верно. Прежде, чем получить нужную аудиозапись, необходимо записать несколько различных вариантов, например, песни. После чего песня обрабатывается, редактируется и записывается на носитель информации.

Для работы со звуковыми дорожками существуют специальные программы. К примерам относятся Audacity, WavePad Sound Editor, Wavosaur, Traverso, FREE Wave MP3 Editor. Все эти программы являются бесплатными.

В самой операционной системе Windows также есть стандартная программа для записи звука. Она называется «Запись голоса». Рассмотрим её интерфейс.


При открытии появляется окно с микрофоном. Для начала записи нужно на него нажать.


Как только началась запись звука, её можно поставить на паузу, сделать метку в нужном месте и остановить запись.


После того, как запись остановлена, её можно прослушать, добавить или удалить метку на дорожке, удалить запись, поделиться, переименовать, а также обрезать. Для обрезки файла нужно нажать на соответствующую кнопку и при помощи маркеров указать начало и конец дорожки. После чего нажать на «OK». При этом изменения можно сохранить в исходном файле или же копию в новом. Если вы не хотите применять изменения к звуковой дорожке, то нужно нажать на кнопку «Отмена». Файл сохранится автоматически в папку, которую система выделила для этой программы. Чтобы посмотреть, где находятся файлы, нужно из меню выбрать пункт «Открыть папку с файлом». При удалении файла он автоматически удаляется из папки.

Витя: «Какая простая программа!»

А сейчас давайте рассмотрим интерфейс программы «Аудиомастер».


При запуске программы появляется окно, с помощью которого можно открыть файл для редактирования, извлечь звук из видео, записать звук с микрофона и прочие действия. Выберем пункт «Записать звук с микрофона».


Появится окно, в котором нужно нажать на кнопку «Начать новую запись». После остановки записи необходимо нажать на кнопку «Сохранить». Откроется окно для редактирования.


Сверху находится строка меню, с помощью которой можно задать эффекты для звуковой дорожки, отредактировать её и выполнить с ней прочие действия.

Чуть ниже находится панель быстрого доступа. С её помощью можно вырезать, скопировать или вставить фрагмент. Прежде, чем вырезать или скопировать фрагмент, его нужно выделить.

В области слева находятся эффекты, которые можно применить к аудиозаписи. Снизу же находится строка, с помощью которой можно воспроизвести, остановить файл, перейти в конец или в начало дорожки, а также записать звук с микрофона. Самую большую часть окна занимает область непосредственно с самой звуковой дорожкой.

Мы с вами вкратце рассмотрели интерфейс программы «АудиоМастер».

А сейчас пришла пора подвести итоги урока.

Сегодня мы с вами познакомились с различными расширениями звуковых файлов.

Узнали, какие существуют программы для прослушивания аудиозаписей.

Познакомились с историей звукозаписи.

В конце урока рассмотрели интерфейс стандартной программы Windows для записи звука, а также программы «АудиоМастер».


Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.

Чем отличается цифровой аудиосигнал от аналогового?

Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).



Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).



Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.

Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).



Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).



Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).



Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).



Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)



Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).



Данная формула позволяет вычислить количество уровней квантования:

Если N — количество уровней квантования,
n — разрядность, то

Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.

При n = 1 аудиосигнал превратится в азбуку Морзе: либо есть «стук», либо нету. Существует также разрядность 32 бит с плавающей запятой. Обычный компактный Аудио-CD имеет разрядность 16 бит. Чем ниже разрядность, тем больше округляются значения и тем больше ошибка квантования.

Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением ()

Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).

Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).



Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).

рис. 10. Интенсивность шумов при разрядности 6 бит и 8 бит

Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.



амплитуда сигнала при разрядности 1 бит (сверху) и 4 бит



50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.







Теперь о дискретизации.

Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то


Чтобы аналоговый сигнал можно было преобразовать обратно из цифрового сигнала (точно реконструировать непрерывную и плавную функцию из дискретных, «точечных» значении), нужно следовать теореме Котельникова (теорема Найквиста — Шеннона).

Теорема Котельникова гласит:

Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.

Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.

Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?

Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.



Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.

Аудиопример 4: Линейно возрастающая частота от

100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.



Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг



Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.

Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.

Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):

Битрейт = Частота дискретизации * Разрядность * Количество каналов

Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s

При постоянном битрейте (constant bitrate, CBR) передача объема потока данных в единицу времени не изменяется на протяжении всей передачи. Главное преимущество — возможность довольно точно предсказать размер конечного файла. Из минусов — не оптимальное соотношение размер/качество, так как «плотность» аудиоматериала в течении музыкального произведения динамично изменяется.

При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.

Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.

При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.

ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.

Существуют 3 метода хранения цифрового аудиоматериала:

  • Несжатые («сырые») данные
  • Данные, сжатые без потерь
  • Данные, сжатые с потерями

Несжатый (RAW) формат данных

содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).

Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.

Аудиоформаты с сжатием без потерь

Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.

Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.

Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).



Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…

При сжатии с потерями

акцент делается не на избежание потерь информации, а на спекуляцию с субъективными восприятиями (Психоакустика). Например, ухо взрослого человек обычно не воспринимает частоты выше 16kHz. Используя этот факт, кодек сжатия с потерями может просто жестко срезать все частоты выше 16kHz, так как «все равно никто не услышит разницу».

Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.

Одной из основных задач информатики является представление данных в виде удобном для хранения и передачи. Эти данные могут быть разного типа – звуковые, текстовые, графические и т.д. В этой статье мы расскажем про кодирование звуковой информации. Из этой статьи Вы узнаете основные принципы и определения. Также после прочтения сможете посчитать объем аудио файла. Читайте!

Основные определения

Для того чтобы разобраться в теме надо знать, что представляет собой звуковая информация (звук).

Звук – это непрерывная аналоговая волна, которая распространяется в окружающей среде. В роли среды может выступать воздух, жидкость, твердое тело, электричество и т.д.

Звук, как непрерывную волну, характеризуют две характеристики – частота и амплитуда.

От амплитуды зависит громкость аудио сигнала . Чем выше амплитуда, тем громкость больше.

Частота же характеризует тональность аудиоинформации . Чем больше частота, тем тональность выше. Человеческий слух улавливает волны от 20 Гц до 20 кГц. 1 Гц равен 1 колебанию аудио сигнала в секунду.

Это интересно Программное обеспечение (ПО) 💾 что это такое простыми словами

Представление и кодирование звуковой информации в компьютере

Для представления и кодирования звука используются специальное оборудование и программы. Рассмотрим весь процесс более подробно.

  1. Аудиоинформация, поступая из окружающей среды (например, по воздуху), преобразуется в электрический сигнал. Для этого используется такое устройство, как микрофон.
  2. После этого звук поступает на АЦП (аналого-цифровой преобразователь), где подвергается оцифровке.
  3. На последнем этапе информация (уже в двоичном виде) кодируется при помощи специальной программы – аудиокодека. На выходе получается файл в специальном формате (например, mp3), который можно хранить, воспроизводить и передавать.

Кодирование звуковой информации

Наибольший интерес представляет процесс оцифровки, также называемым аналого-цифровым преобразованием. В результате него аналоговый сигнал заменяется на цифровой.

Основной принцип аналогово-цифрового преобразования заключается в том, что через равные промежутки времени измеряется амплитуда волны. Также этот процесс называется дискретизация.

Дискретизация – это процесс в результате, которого непрерывная функция представляется в виде дискретной последовательности её значений. Схематично дискретизацию можно представить так:

Кодирование звуковой информации

Дискретизация характеризуется двумя такими величинами, как:

  • Частота шага по времени;
  • Шаг квантования.

Первая величина отображает, как часто берутся дискреты и измеряется в Герцах (количество измерений за одну секунду). Частота шага по времени находится по теореме Котельникова.

Шаг квантования характеризуется количеством уровней , до которых округляются величины амплитуды волны.

Количество уровней (ступенек) до которых округляются значения сигнала, зависит от аналого-цифрового преобразователя. На данный момент используются 16, 32 и 64 битные устройства.

Количество бит, затрачиваемое для номеров уровней, называется глубиной кодирования звуковой информации.

Глубина кодирования связано с количеством уровней по формуле:

Где i разрядность АЦП в битах.

Чем чаще берутся дискреты за единицу времени и больше глубина кодирования, тем выше качество звуковых данных на выходе и дороже АЦП.

Расчет объема аудио файла

​ \[V = 60*1*8000*8=3840000 \ бит \] ​

Форматы аудио

Форматов для хранения аудио много, однако, все они делятся на две большие группы в зависимости от того, какой из методов сжатия используется – LOSELESS или LOSSY.

  1. LOSELESS – метод сжатия без потерь. Качество звуковой информации остается без изменений, однако за него приходится платить большим объемом компьютерной памяти. Используется для хранения музыки и других данных, где важно качество. Форматы, которые основаны на данном методе сжатия: FLAC, APE, TAC, ALAC и другие. На данный момент зарабатывают все большую популярность в связи с увеличением дискового пространства.
  2. LOSSY – сжатие с потерями. При таком методе файл сохраняются с искажениями относительно оригинала. В основном эти искажения не воспринимаются человеческим слухом, а также не замечаются при плохом аудио оборудовании. LOSSY позволяет существенно сэкономить дисковое пространство. На данный момент этот метод сжатия является доминирующим.

Форматы кодирования использующие алгоритмы LOSSY:

  • MP3 (MPEG-1,2,2.5) – самый популярный аудио формат. Проигрывается на всех аудио и видео системах, по умолчанию поддерживается всеми операционными системами. Искажения заметны на высокоточной дорогостоящей аппаратуре.
  • AAC – формат, который разрабатывался и позиционировался, как приемник mp3. Не получил широкого распространения. Преимущества перед mp3: большая гибкость кодирования, возможность использовать до 48 звуковых каналов.
  • HE-AAC (High-Efficiency Advanced Audio Coding) – используется в цифровом радио и телевиденье.

Заключение

Читайте также: