Как обозначается музыкальный файл

Обновлено: 07.07.2024

Мало кто знает все существующие форматы аудиофайлов. В данной статье мы расскажем о них и их особенностях.

Все форматы аудио можно разделить на 3 большие группы:

1. нет сжатия, нет потерь (AIFF, WAV);

2. есть сжатие, нет потерь (FLAC, Apple Lossless);

3. есть сжатие, есть потери (MP3, OGG, AAC).

Сжатие аудиофайлов происходит для того, чтобы уменьшать их размер. Например, существует некий аудиофайл длительностью 3:39. В WAV 24 бит данный файл будет занимать объём в 76 Мб, в FLAC 24 бит - 52 Мб, а в MP3 320кбит/с - всего 8 Мб. Разница значительно ощутима.

Сжатием называется процесс уменьшения цифрового потока за счёт показателей сигнала. Большинство методов сжатия основаны на несовершенстве человеческого слуха. При сжатии из аудиофайлов убираются те компоненты, которые особо неразличимы.

Конечно, существуют общества аудиофилов, которые прослушивают музыку исключительно в самом высоком качестве воспроизведения, но для некоторых это перебор. (Извиняемся, господа аудиофилы)

Существуют определённые показатели, отвечающие за качество звука:

  • битность и частота дискретизации (звук без потерь)
  • битрейт (звук с потерями)
Точность по вертикали (шаг квантования) определяется битностью. Точность по горизонтали (шаг дискретизации) определяется частотой дискретизации. Точность по вертикали (шаг квантования) определяется битностью. Точность по горизонтали (шаг дискретизации) определяется частотой дискретизации.

Отсюда следует, чем выше битность и частота дискретизации, тем более качественным будет звук. Например, звук 32 бит и 192 кГц будет очень качественным, только разницу мало кто заметит. Услышать её можно лишь на очень качественной аппаратуре, и то не всегда.

Нынешним стандартом является 16 бит и 44,1 кГц. В DVD применяется 48 кГц, а в DVD-Audio - 96 кГц и 192 кГц.

Битрейтом называется количество бит, использованных для передачи данных в секунду. Здесь всё то же самое, чем выше битрейт, тем больше бит используется для передачи информации, тем выше качество звука и больше объём файла.

Теперь немного о форматах:

AIFF (.aiff; .aif)

Битность: 8 - 32 бит; Частота дискретизации: 11 - 192 кГц; Количество каналов: до 6; Битрейт: до 6 Мбит/с
Битность: 8 - 32 бит; Частота дискретизации: 11 - 192 кГц; Количество каналов: до 6; Битрейт: до 6 Мбит/с
Битность: 4 - 32 бит; Частота дискретизации: 1 Гц - 655 кГц; Количество каналов: 1 - 8; Сжатие до 4:1

Apple Lossless (.m4a)

Битность: 16, 24 бит; Частота дискретизации: 44 - 192 кГц; Количество каналов: до 6; Сжатие до 2,5:1
Частота дискретизации: 8 - 48 кГц; Количество каналов: до 2; Битрейт: 8 - 320 кбит/с
Частота дискретизации: 8 - 192 кГц; Количество каналов: до 255; Битрейт: до 1000 кбит/с
Частота дискретизации: 8 - 192 кГц; Количество каналов: до 48; Битрейт: 8 - 529 кбит/с

Большинство виртуальных студий позволяет сохранять проекты в разнообразных форматах аудио. Отныне каждый из Вас будет знать на что влияет битрейт, битность и частота дискретизации.

Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:

1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.

2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.

3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.

4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.

Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом). Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене. Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и скрупулезная проработка всех нюансов звучания. Существует множество различных операций над звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме .

Аналоговый и дискретный способы представления звука

Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.

При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.

При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.


Примером аналогового хранения звуковой информации является виниловая пластин­ка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).

Восприятие звука человеком

Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.

Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.

В аналоговой форме звук представляет собой волну, которая характеризуется:

  • Высота звука определяется частотой колебаний вибрирующего тела.
  • Г ромкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
  • Длительность звука - продолжительность колебаний.
  • Тембром звука называется окраска звука.

Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с

Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).



Кодирование звуковой информации

Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).


  • В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
  • Таким образом, при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.

Качество кодирования звуковой информации зависит от :

1)частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

2)глубиной кодирования, т.е. количества уровней сигнала.

Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.

Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.

Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-С D . Следует также учитывать, что возможны как моно-, так и стерео-режимы.

РСМ. РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.

WAV. Самое простое хранилище дискретных данных. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости, в wav может быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали - это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.

RIFF. Resource Interchange File Format. Уникальная система хранения любых структурированных данных.

IFF. Эта технология хранения данных проистекает от Amiga-систем. Interchange File Format. Почти то же, что и RIFF, только имеются некоторые нюансы. Начнем с того, что система Amiga - одна из первых, в которой стали задумываться о программно-сэмплернойэмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.

MOD. Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.

AIF или AIFF. Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.

МР3. Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для "обычных немузыкальных" людей потери не ощутимы явно.

VQF. Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF - процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.

RA. Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.


В данный момент вы не можете посмотреть или раздать видеоурок ученикам

Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет, приобрев в каталоге.

Получите невероятные возможности



2. Раздавайте видеоуроки в личные кабинеты ученикам.


3. Смотрите статистику просмотра видеоуроков учениками.

Конспект урока "Звуковые файлы"

В начале урока мы с вами вспомним, что такое файл.

Файл – это информация, которая хранится как единое целое и имеет своё название – имя файла. В каждом файле хранится однотипная информация: графическая, звуковая и прочие.

Сегодня мы с вами узнаем о том, что такое звук, какие существуют расширения звуковых файлов, познакомимся с историей звукозаписи.

Звук – это колебания воздуха или любой другой среды, в которой он распространяется.

Звук попадает в компьютер при помощи микрофона. А чтобы компьютер смог работать со звуком, его нужно преобразовать в последовательность нулей и единиц, ведь компьютер умеет работать только с такой информацией. Этим занимается звуковая карта. Для прослушивания звука используются наушники или колонки.

Витя: «Но если звук в компьютере находится в виде нулей и единиц, то как же его можно прослушать?»

Здесь нам снова поможет звуковая карта. Когда мы даём команду компьютеру на воспроизведение, звуковая карта преобразует нули и единицы обратно в звук, который выводится через колонки или наушники.

Вся музыка и звуки в компьютере, телефоне и на прочих устройствах хранения информации являются звуковыми файлами.

Как мы с вами знаем, у каждого файла есть своё расширение. Звуковые файлы не являются исключением.

Витя: «Давайте узнаем, какие существуют расширения звуковых файлов».

Рассмотрим наиболее популярные из них.

«MIDI». Формат файлов «MIDI»был разработан для того, чтобы позволить музыкантам и композиторам копировать данные «MIDI»из одного приложения в другое. В таких файлах содержится информация о расположении нот, скорости игры и прочих параметрах звука.

«MP3». В наше время это одно из стандартных расширений звуковых файлов. Большинство музыкальных плееров, смартфонов, компьютеров и прочих устройств воспроизводят музыку именно из файлов «MP3». При сохранении звукового файла с таким расширением происходит его сжатие. А при сжатии, в свою очередь, – потеря качества. В этом есть и свои плюсы. При хранении файлов с расширением «MP3» наблюдается значительная экономия места на диске.

Расширение «WMA». Популярность этого формата была достигнута за счёт его использования при воспроизведении видеофайлов на DVD-плеерах, а также на портативных устройствах и мобильных телефонах.

Ну и в заключение рассмотрим формат «WAV». Файлы «WAV» были созданы компаниями IBM и Microsoft. Они содержат различные аудиоданные: звуки, звуковые эффекты, музыку, а также записи голоса. По размерам файлы с расширением «WAV» значительно больше файлов с расширением «MP3», и именно поэтому они не пользуются популярностью.

Витя: «Какие существуют программы для прослушивания звука?»

Программ для прослушивания звуковых файлов огромное количество. Стандартным же проигрывателем в операционной системе Windows является Windows Media. Этот проигрыватель позволяет воспроизводить все популярные форматы аудио- и видеофайлов. Можно записать диск из понравившихся композиций, или наоборот, скопировать его к себе на жёсткий диск.

Следующий проигрыватель, который мы с вами рассмотрим, AIMP. Он является бесплатным, поддерживает огромное количество форматов. В данном проигрывателе можно создавать несколько плейлистов. Эту программу устанавливают не только на компьютер или ноутбук, но и на телефоны с операционной системой Андроид.

Идём дальше. Рассмотрим проигрыватель Winamp. С его помощью можно не только слушать музыку, но и смотреть видеозаписи. Также в Winamp можно искать нужные аудиозаписи, создавать свои списки звуковых файлов. Ну и, конечно же, с помощью этого проигрывателя можно прослушивать звуковые файлы с различными расширениями.

Tomahawk. Отличительной особенностью этого проигрывателя является то, что его можно устанавливать в операционных системах Windows, Linux и Mac OS. После того, как приложение было установлено, оно собирает всю музыку, которая находится на компьютере, в одну библиотеку. Это позволяет сразу же после установки начать её прослушивание.

Витя: «Может, немного поговорим об истории звукозаписи?»

К первым устройствам для записи звука относятся механические устройства. В то же время они не могли записывать и воспроизводить голос. На такие устройства записывалась только мелодия. Мелодии записывались на бумагу, дерево, металлические валики, перфорированные диски и другие приспособления. Эти инструменты могли приводиться в движение не только при помощи человеческих рук, но и при помощи воды, песка, электричества и прочих средств.

К примерам таких устройств относятся шарманки, музыкальные часы, шкатулки, ящики.


Все они воспроизводили различные сохранённые мелодии, но в то же время на них нельзя было записать живые выступления, звуки. Количество же мелодий было ограничено.

В 1857 г. де Мартенвиль изобрёл фоноавтограф.


Минус этого устройства был в том, что оно не могло воспроизводить сделанную запись.

А вот в 1877 г. Томас Эдисон изобрёл фонограф, который уже мог воспроизводить свою запись.


В 1887 г. Эмиль Берлинер изобрёл граммофон.


Звуки записывались на пластинки.


Но аудиодорожки могли вмещать в себя только до 5 минут аудиозаписи.

В 1907 г. Гильон Кеммлер предложил усовершенствовать граммофон. Так, на замену ему пришёл патефон.


Главное отличие патефона заключалось в том, что он был скомпонован в виде чемоданчика и его можно было переносить в застёгнутом виде за специальную ручку.

В 1925 г. появляется запись через микрофон. Таким образом был изобретён электрофон. Он отличается от граммофона и патефона принципом действия, который основан на электрических колебаниях. Более подробно об этом вы узнаете в старших классах. В быту такое устройство очень часто называли проигрывателем. Электрофоны до сих пор используются в домашних условиях. Но продажа граммофонных пластинок практически прекратилась, так как на смену пришли цифровые средства воспроизведения звука.

Далее в 1931 г. Шорин Александр Фёдорович создал шоринофон. Запись в таком устройстве производилась с помощью иглы на киноленту.

В тысяча девятьсот тридцать втором году компания AEG начала производство «Магнетофон-К1». А в 1941 г. эта же фирма выпускает магнитофон нового образца.

В дальнейшем в 1963 г. появляются первые компакт-кассеты. Они производились фирмой Philips.

В 1971 г. компания Advent Corporation выпускает кассету с магнитной лентой на основе оксида хрома.


Витя: «А что такое оксид хрома?»

Об этом вы узнаете в старших классах на уроках химии.

Качество звука на таких носителях информации было намного выше. На такие кассеты можно записывать в фабричных условиях фонограммы. Также кассеты начали использоваться для самостоятельной записи музыки.

С появлением оптических дисков появляется лазерная (оптическая) запись. При помощи лазерного луча на вращающийся оптический диск записываются сигналы. В результате записи на диске образуется спиральная дорожка. При воспроизведении лазерный луч перемещается по поверхности оптического диска и считывает записанные на него данные.

В 1980 г. компании Philips и Sony создают международный стандарт хранения оцифрованного звука на компакт-дисках. А в апреле 1982 г. Philips представила свой первый проигрыватель компакт-дисков.

Витя: «Перед записью звук же как-то редактируется?»

Верно. Прежде, чем получить нужную аудиозапись, необходимо записать несколько различных вариантов, например, песни. После чего песня обрабатывается, редактируется и записывается на носитель информации.

Для работы со звуковыми дорожками существуют специальные программы. К примерам относятся Audacity, WavePad Sound Editor, Wavosaur, Traverso, FREE Wave MP3 Editor. Все эти программы являются бесплатными.

В самой операционной системе Windows также есть стандартная программа для записи звука. Она называется «Запись голоса». Рассмотрим её интерфейс.


При открытии появляется окно с микрофоном. Для начала записи нужно на него нажать.


Как только началась запись звука, её можно поставить на паузу, сделать метку в нужном месте и остановить запись.


После того, как запись остановлена, её можно прослушать, добавить или удалить метку на дорожке, удалить запись, поделиться, переименовать, а также обрезать. Для обрезки файла нужно нажать на соответствующую кнопку и при помощи маркеров указать начало и конец дорожки. После чего нажать на «OK». При этом изменения можно сохранить в исходном файле или же копию в новом. Если вы не хотите применять изменения к звуковой дорожке, то нужно нажать на кнопку «Отмена». Файл сохранится автоматически в папку, которую система выделила для этой программы. Чтобы посмотреть, где находятся файлы, нужно из меню выбрать пункт «Открыть папку с файлом». При удалении файла он автоматически удаляется из папки.

Витя: «Какая простая программа!»

А сейчас давайте рассмотрим интерфейс программы «Аудиомастер».


При запуске программы появляется окно, с помощью которого можно открыть файл для редактирования, извлечь звук из видео, записать звук с микрофона и прочие действия. Выберем пункт «Записать звук с микрофона».


Появится окно, в котором нужно нажать на кнопку «Начать новую запись». После остановки записи необходимо нажать на кнопку «Сохранить». Откроется окно для редактирования.


Сверху находится строка меню, с помощью которой можно задать эффекты для звуковой дорожки, отредактировать её и выполнить с ней прочие действия.

Чуть ниже находится панель быстрого доступа. С её помощью можно вырезать, скопировать или вставить фрагмент. Прежде, чем вырезать или скопировать фрагмент, его нужно выделить.

В области слева находятся эффекты, которые можно применить к аудиозаписи. Снизу же находится строка, с помощью которой можно воспроизвести, остановить файл, перейти в конец или в начало дорожки, а также записать звук с микрофона. Самую большую часть окна занимает область непосредственно с самой звуковой дорожкой.

Мы с вами вкратце рассмотрели интерфейс программы «АудиоМастер».

А сейчас пришла пора подвести итоги урока.

Сегодня мы с вами познакомились с различными расширениями звуковых файлов.

Узнали, какие существуют программы для прослушивания аудиозаписей.

Познакомились с историей звукозаписи.

В конце урока рассмотрели интерфейс стандартной программы Windows для записи звука, а также программы «АудиоМастер».


Однажды мне понадобилось решить простенькую (как мне тогда казалось) задачу – в PHP-скрипте узнать длительность mp3-файла. Я слышал о ID3 тегах и сразу подумал, что информация о длительности хранится либо в тегах, либо в заголовках mp3-файла. Поверхностные поиски в интернете показали что за пару-тройку минут решить эту задачу не получится. Поскольку от природы я довольно любопытен а время не поджимало — решил не использовать сторонние инструменты а разобраться в одном из самых популярных форматов самостоятельно.

Если Вам интересно, что там внутри – добро пожаловать под кат (трафик).

В данной статье мы не будем подробно останавливаться на извлечении ID3v2 тегов – это можно вынести в отдельную статью, так как там есть различные нюансы. А так же на фрагментах заголовков, которые практически не используются в настоящее время (например, часть Emphasis заголовка mp3-фрейма). Так же мы не рассматриваем структуру самих аудиоданных — тех самых, которые слышим из колонок.

ID3 (от англ. Identify a MP3) — формат метаданных, наиболее часто используемый в звуковых файлах в формате MP3. ID3 подпись содержит данные о названии трека, альбома, имени исполнителя и т. д., которые используются мультимедиапроигрывателями и другими программами, а также аппаратными проигрывателями, для отображения информации о файле и автоматического упорядочивания аудиоколлекции.

Существует две абсолютно разных версии ID3-данных: ID3v1 и ID3v2.

ID3v1 – имеет фиксированный размер в 128 байт, которые дописываются в конец mp3-файла. Там можно хранить: название трека, исполнитель, альбом, год, комментарий, номер трека (для версии 1.1) и жанр.


Довольно быстро всем стало понятно, что 128 байт – очень уж небольшое место для хранения таких данных. И поэтому, со временем, появилась и успешно используется вторая версия данных – ID3v2.
В отличии от первой версии, теги v2 имеют переменную длину и размещаются в начале файла, что позволяет поддерживать потоковое воспроизведение. (Формат ID3v2.4 позволяет так же хранить данные и в конце файла).
Данные ID3v2 состоят из заголовка и последующих фреймов ID3v2. Например, в версии ID3v2.3 существует более 70 типов фреймов.

  • маркер всегда равен ‘ID3’
  • В данный момент имеются три версии ID3v2.2, ID3v2.3 и ID3v2.4
    Версия v2.2 считается устаревшей.
    v2.3 – самая популярная версия.
    v2.4 – набирает популярность. Одно из отличий от v2.3 в том, что позволяет использовать кодировку UTF-8 (а не только UTF-16)
  • Флаги. В настоящее время используются только три (5,6,7) бита:
    bin: %abc00000
    a ‘unsynchronisation’ – используется только с MPEG-2 и MPEG-2.5 форматами.
    b ‘Extended header’ – указывает на наличие расширенного заголовка
    с ‘Experimental indicator’ – эксперементальный индикатор
  • Длина. Особенность указания длины данных ID3v2 в том, что в каждом байте 7-й бит не используется и всегда установлен в 0.


В данном случае вместе с заголовком ID3v2 (10 байт) – данные ID3v2 занимают 1024 байта.

После ID3v2-заголовка идут собственно теги. Подробный разбор чтения тегов ID3v2, как сказано выше, я решил не включать в эту статью.

Теперь у нас есть информация о наличии и длине тегов ID3 и мы можем приступать в разбору mp3-фрейма и понять-таки – где же хранится длительность. А заодно понять и всё остальное.

Весь mp3-файл состоит из фреймов, которые можно извлекать только последовательно. Фрейм содержит в себе заголовок и аудио-данные. Поскольку мы не ставим себе целью написать прошивку для магнитофона – нас интересует именно заголовок фрейма.

О нем подробнее (куча таблиц и сухой информации)

Размер заголовка – 4 байта.


  • 10 Маркер – 11 бит, заполненные единицами (Frame sync)
  • 12 Индекс версии MPEG (Audio version ID)
  • 14 Индекс версии Layer (Layer index)

    Кстати, MP3 – это MPEG-1 Layer III
  • [15] Бит защиты (Protection bit)
    1 – нет защиты
    0 – заголовок защищен 16-бит. CRC (следует за заголовком)
  • 19 Индекс битрейта (Bitrate index)

    В таблице хранятся значения битрейта в килобит/сек. Однако в данном формате подразумевается, что 1 килобит = 1000 бит, а не 1024. Таким образом 96 Кбит/сек = 96000 бит/сек.
  • 21 Индекс частоты дискретизации (Sampling rate index)
  • [22] Бит смещения (Padding bit)
    Если он установлен, то данные смещаются на 1 байт. Это важно для расчета размера фрейма.
  • [23] Бит private (только для информации)
  • 24 Режим канала (Channel mode)
  • 27 Расширение режима канала. (Mode extension) Используется только с Joint stereo
  • [28] Копирайт (Copyright bit) – только для информации
  • [29] Оригинал (Original bit) – только для информации.
  • 31 Акцент (Emphasis) – в данный момент практически не используется.

Режимы сжатия данных или какой бывает битрейт

Существует 3 режима сжатия данных:

CBR (constant bitrate) – постоянный битрейт. Не меняется на всем протяжении трека.

VBR (variable bitrate) – переменный битрейт. При этом сжатии битрейт постоянно меняется на протяжении трека.

ABR (average bitrate) – усредненный битрейт. Это понятие используется только при кодировании файла. На «выходе» получается файл с VBR.


Если файл закодирован с постоянным битрейтом – то мы уже можем наконец-то! получить длительность нашего трека по следующей формуле:
Длительность = Размер аудиоданных / Битрейт (в битах!) * 8

Например, файл имеет размер 350670 байт. Есть ID3v1 теги (128 байт) и ID3v2 теги (1024 байта). Битрейт = 96. Следовательно размер аудиоданных равен 350670 – 128 – 1024 = 349518 байт.
Длительность = 349518 / 96000 * 8 = 29,1265 = 29 секунд

Необходимо пояснить – как определить режим сжатия. Всё просто. Если файл сжат с VBR – то добавляется VBR-заголовок. По его наличию мы и можем понять, что используется переменный битрейт.
Есть два вида заголовков: Xing и VBRI.
Xing размещается со смещением от начала первого mp3-фрейма в позиции, согласно таблице:


Например: у нас ID3v2 тег занимает 1024 байта. Если наш mp3-файл имеет режим канала «Стерео» — то заголовок VBR Xing будет начинаться со смещения 1024 + 32 = 1056 байт.

Заголовок VBRI всегда размещается со смещением +32 байта от начала первого mp3-фрейма.

Первые четыре байта в обоих заголовках содержат маркер ‘Xing’ или ‘Info’ для Xing. И ‘VBRI’ для VBRI.

Эти VBR заголовки имеют переменную длину и содержат различную информацию о кодировании файла. Подробнее о структуре заголовков VBR (и не только) можно почитать, например, тут.

Я же расскажу только о том, что нас интересует в данный момент. А именно – количество фреймов (Number of Frames). Это число длиной 4 байта.
В заголовке Xing оно содержится по смещению +8 байт от начала заголовка. В VBRI +14 байт от начала заголовка.

Используя таблицу Сэмплов на фрейм (Sampler Per Frame) мы можем получить длительность mp3-файла, закодированного с переменным битрейтом.


Длительность = Количество фреймов * Сэмплов на фрейм / Частоту дискретизации

Например: из заголовка VBRI получили количество фреймов 1118, сэмплов на фрейм = 1152. Частота дискретизации = 44100.
Длительность = 1118 * 1152 / 44100 = 29.204 = 29 секунд.

На этом на сегодня всё. Если был кому-то полезен — спасибо.

Для тех, кто захочет немедленно поковырять внутренности mp3 — Тут лежат скрипт на php, которые я писал для себя одновременно с данной статьей и четыре небольших mp3-файла для теста.

Читайте также: