Как обозначается звуковой файл

Обновлено: 06.07.2024

В этой статье мы кратко расскажем о важных характеристиках аудио, о том, как они влияют на распознавание и синтез речи, а также о поддерживаемых форматах аудио и кодеках.

Любой звук — это волны разных частот и амплитуд, которые распространяются в воздухе. Чтобы получить аудиофайл, звуковые волны нужно преобразовать сначала в электрические сигналы, а потом — в двоичные данные, которые умеют обрабатывать электронные устройства. Наиболее широко для оцифровки звуковых сигналов применяется импульсно-кодовая модуляция (PCM, Pulse-code Modulation) .

Частота дискретизации и битовая глубина

Оцифровка звуковых сигналов осуществляется путем дискретизации (семплирования). Сигнал измеряется через равные промежутки времени, и значение амплитуды сигнала фиксируется в момент измерения — это и есть семпл. Если сигнал замеряется 16 000 раз за секунду, частота дискретизации (sample rate) равна 16 000 Гц. Например, для телефонной связи обычно используется частота в 8 000 Гц.

Если есть выбор, при распознавании лучше использовать аудио с частотой 16 000 Гц и выше, т. к. дискретизация с меньшей частотой может привести к потере точности распознавания (особенно, если в аудио есть фоновые шумы).

После оцифровки сигналы переводятся в двоичную форму. Битовая глубина (bit depth) определяет, сколько бит отводится для хранения одного семпла.

Чем больше битовая глубина и частота дискретизации, тем точнее получившийся цифровой сигнал соответствует исходному.

Сжатие и потеря качества

Аудиофайлы могут быть сжаты для хранения и передачи. Сжатие может происходить с потерями какой-либо информации (lossy) или без потерь (lossless). При сжатии с потерями часть данных аудиосигнала отбрасывается, и восстановить их не удастся. Несжатое аудио наиболее приближено к исходному звуку.

Какие форматы и кодеки поддерживаются

Формат аудио — это своеобразный контейнер, в который с помощью специальной программы — кодека — записывается аудиосигнал. Для некоторых форматов кодек можно определить однозначно. Например, для формата MP3 всегда используется кодек MPEG Audio Layer III, в то время как для FLAC могут использоваться разные кодеки.

В таблице ниже указаны кодеки и примеры форматов, которые поддерживаются в Tinkoff VoiceKit:

КодекиПримеры форматовБез потерьБез сжатия
LINEAR16 (Linear PCM)WAV, FLAC++
ALAW (a-law)WAV, WMA, FLAC+-
MULAW (μ-law)WAV, FLAC+-
OPUSOgg, WebM, MPEG, MP4--
MP3 (MPEG Audio Layer III)MP3, MPEG, MP4--

Вы также можете использовать raw-файлы, которые содержат необработанные аудиосигналы. Если аудио находится в контейнере (WAV, Ogg и т. п.), перед распознаванием его нужно декодировать (кроме MP3 — его можно передавать как есть). Метод синтеза речи возвращает raw-файл — если необходимо, запакуйте полученные семплы в нужный формат.

Как правильно указать

Следующие рекомендации помогут принять решение о том, какое значение для ваших аудиофайлов нужно указать:

  1. Посмотрите на расширение файла:
    • .mp3 — указывайте ;
    • .opus — указывайте .

Воспользуйтесь специальными утилитами, чтобы проверить свойства аудио. Примеры запуска утилит для файла с выводом:

В таблице ниже указано, на какие значения в выводе утилит нужно обратить внимание и какой выбрать соответственно этим значениям:

Обратная связь

Нам важна любая обратная связь!
Пишите все, что думаете о нашем сервисе, а мы прочитаем и ответим

Существует множество различных аудио форматов. Наиболее часто используются такие форматы как MP3 (MPEG-2 Audio Layer III) и WAV. Тип формата обычно определяется расширением файла (то, что идет после точки в имени файла .mp3, .wav, .ogg, .wma)

Кодек – это определенный алгоритм кодирования и сжатия данных в аудио-формат. Для некоторых типов файлов кодек однозначно определен. Например в формате mp3 всегда используется кодек MPEG Layer-3, а в формате mp4 могут быть использованы разные кодеки.

Часто понятия кодека и формата используют в одном смысле. Особенно, когда в формате всегда используется один и тот же кодек. Но, иногда, важно различать понятия форматов и кодеков. Для удобства, можно считать, что формат является своего рода контейнером, в котором может быть записан аудио или видео сигнал с помощью определенного кодека.

Некоторые форматы, такие, например, как mp4 или flv могут содержать в себе как аудио, так и видео потоки.

Если вы не знаете, какой программой открыть тот или иной аудио-формат, то советуем воспользоваться нашим аудио-конвертером. Он поддерживает почти все форматы.

Кодеки разделить на два вида, в зависимости от типа сжатия:

Без потери качества звучания (lossless)

Данная группа форматов записывает кодирует звук таким образом, что при раскодировании он может быть в точности восстановлен.

Наиболее популярные форматы кодирующие звук без потери качества:

  • FLAC (Free Lossless Audio Codec)
  • APE (Monkey’s Audio)
  • ALAC (Apple Lossless Audio Codec)

С потерей качества звучания (lossy)

При сжатии с потерями звук модифицируется. Например, из него вырезаются неслышные человеческому уху частоты. Раскодированный файл будет отличаться от оригинального с точки зрения записанной в нем информации, но звучать будет примерно так же.

Популярные форматы с потерей качества:

Подробнее о популярных аудио-форматах

WAV – один из первых аудио-форматов. Обычно используется для хранения несжатых аудио-записей (PCM), идентичных по качеству звука записям на компакт-дисках (audio-CD). В среднем одна минута звука в формате wav занимает около 10 мегабайт. Часто в него копируют аудио-CD, а потом конвертируют в mp3 с помощью аудио конвертера.

MP3 (MPEG Layer-3) – наиболее распространенный в мире звуковой формат. MP3, как и многие другие форматы с потерей качества, урезает звук, который не слышится человеческим ухом, тем самым уменьшая размер файла. На текущий момент mp3 не является лучшим форматом по соотношению размера файла к качеству звучания, но в силу своей распространенности и поддерживаемости большинством устройств, многие хранят свои записи именно в нем.

WMA (Windows Media Audio) – формат, принадлежащий компании Microsoft. Изначально данный формат был представлен, как замена MP3, имеющая, по заявлению Microsoft, более высокие характеристики сжатия. Но данный факт был поставлен под сомнения некоторыми независимыми тестами. Так же формат WMA поддерживает защиту данных через DRM.

OGG – открытый формат, поддерживающий кодирование аудио различными кодеками. Наиболее часто в ogg используется кодек Vorbis. По качеству сжатия формат сопоставим с MP3, но при этом менее распространен с точки зрения поддержки в аудио-проигрывателях и плеерах.

AAC – запатентованный аудио-формат, имеющий большие возможности (количество каналов, частоты дискретизации) по сравнению с mp3 и дающий несколько лучшее звучание, при том же размере файла. На данный момент aac является одним из самых качественных алгоритмов кодирования звука с потерями. Формат поддерживается большинством устройств. Файл этого формата может иметь расширения aac, mp4, m4a, m4b, m4p, m4r.

FLAC – популярный формат сжатия без потерь. Он не вносит изменений в аудио-поток и закодированный с его помощью звук идентичен оригиналу. Часто используется для прослушивания звука на звуковых системах высокого уровня. Имеет ограниченную поддержку устройствами и плеерами, поэтому обычно для того, чтобы слушать flac в плеере, его предварительно конвертируют.

Как всегда, начну со старческого брюзжания. Вот лет двадцать назад… Собственно говоря, двадцать лет назад и выбора-то особо не было.

реклама

Потому что были компакт-диски, которые превращались в WAV-файлы, занимавшие пространство среднего «винчестера» – ну и на ОС немножко места оставалось. И на BBS. И на игры. И на архив файлов. И все. Потому что средний размер жесткого диска тогда составлял какие-то сказочные сегодня 850 мегабайт. Да, именно что 850 – и именно мегабайт. Толчок всему дало появление формата MP3 в 1997 году, и это был очень знаменательный год!

450x101 10 KB. Big one: 900x201 26 KB

Я очень хорошо помню те времена. Тогда мы с другом «возрадовались до плеши» и принялись активно кодировать компакт-диски в самые популярные 128 кбит/с с joint stereo (это когда фактически пишется один канал, и к нему добавляется информация об отличиях второй дорожки – если они есть). Еще бы, теперь альбом занимал смешные 50-70 мегабайт, и компьютерные пластиковые колонки казались вершиной прогресса. Различные звуковые карты за 200,500 или 800 долларов в журналах казались чем-то страшным и далеким. Зачем? Ведь есть MP3 128 кбит/с, смотрите, какое крутое качество!

Шли месяцы и годы (скорее ближе к месяцам). Менялись колонки, развивался MP3, и мы тогда, юные падаваны старшего школьного и начального студенческого возраста, экспериментировали с битрейтами и появившимся тогда первым конкурентом MP3 – таинственным Vorbis OGG. Сколько часов на самой разной акустике (а мы тогда уже открыли, что даже советская «Вега» уделывала все эти пластиковые недоразумения за десять баксов) было отслушано – не сосчитать.

132x126 8 KB. Big one: 132x126 8 KB

В итоге выводы выкристаллизовались такие: OGG круче MP3 на средних битрейтах, а на высших все равны. Но преимущество OGG было в том, что на средних битрейтах файл не только лучше звучал, но и занимал меньше места. Недостатком – то, что при всех этих достоинствах OGG питался большим количеством оперативной памяти и ресурсов процессора. А в те времена мощности были, как понимаете, совсем не те.

MSI RTX 3070 сливают дешевле любой другой, это за копейки Дешевая 3070 Gigabyte Gaming - успей пока не началось

Почему я так подробно пишу об отличиях OGG от MP3? Потому что уже начался рассказ про форматы, и все эти выводы справедливы и по сей день. Ну вот, теперь вы знаете почти все про OGG: а больше знать и не надо, поскольку его сегодня поддерживают не так уже много устройств.

450x303 20 KB. Big one: 550x370 34 KB

И да, небольшой дисклеймер. Я не буду разводить воду про виды квантования и прочие страшные слова: если вам это интересно, то все прекрасно написано в Википедии. И форматов файлов на самом деле намного больше, чем будет перечислено далее. Вопрос в том, что они не только никому неизвестны, но и никем не поддерживаются. Почти.

И еще. Я не буду рассказывать о форматах многоканального звука. На сегодняшний день эта тема все еще в зачатке по причине своей дороговизны. И дисков выпускается мало, и также редко они перекодируются в звук. На коне по-прежнему старое доброе стерео. Очевидно, всем этого хватает. Ну или почти всем, но кто считает?

реклама

Сжатие с потерями и без

Для начала нужно определиться с тем, о чем мы будем говорить. Главное и основное: все форматы звуковых файлов сегодня делятся на:

  • Форматы без сжатия (WAV, AIFF);
  • Со сжатием без потерь – lossless в простонародье (FLAC, APE);
  • Со сжатием с потерями – он же lossy (MP3, OGG).

Все, это была минутка Википедии.

И да, я раскрою вам правду на то, стоит ли тратить терабайты на lossless.

MP3: скорее отстреляться

Конечно, начать надо с MP3. И, перефразируя название фильма, – «и это все об MP3». Безусловно, все вы про него знаете, и быть Капитаном Очевидность здесь не вижу смысла. Все, что воспроизводит звук сегодня, поддерживает MP3, вплоть до максимума.

450x170 29 KB. Big one: 950x358 109 KB

В чем его главные нарекания и минусы? В основном – в срезе верхних частот и «прореживании» всех остальных.

В этом и проявляется хваленая гибкость формата: можно сделать маленький файл и слушать покромсанную Верку Сердючку из динамика смартфона. А можно сделать большой файл, где сжатие с минимальными потерями и слушать… не на динамике смартфона как минимум.

450x173 39 KB. Big one: 1000x385 121 KB

У MP3 есть один, самый весомый и безусловный плюс, не считая хорошего качества звука и гибкости при кодировании – можно забить на качество и сделать тысячи MP3 128 кбит/с на одной флэшке. Или не забить на качество и сделать несколько сотен в 320 кбит/с.

Но плюс в том, что у него нет DRM и прочих видов защит от копирования, которые редиски-владельцы авторских прав могут ставить на свою музыку.

450x173 45 KB. Big one: 1000x385 156 KB

Отдельного абзаца заслуживает VBR. VBR – это сокращение от Variable BitRate, переменный битрейт. Основная идея VBR – то, что кодек автоматически выбирает нужный битрейт в зависимости от контента. Это происходит еще на этапе кодирования, и главное декларируемое преимущество технологии – меньший размер файла при вроде бы том же высоком качестве (разумеется, кодирование происходит все-таки «вокруг» заданной частоты).

В реальности же качество VBR заметно проигрывает своему оппоненту CBR (Constant BitRate – постоянный битрейт), плюс ко всему заметно нагружает процессор. Конечно, на современных многоядерных ЦП это не так что бы заметно, но – «как-то, доктор, неаккуратненько». В общем, смысл тут прост: VBR лучше не пользоваться, поскольку выигрыш в размерах минимален, microSD сегодня дешевы, HDD тоже не состояние стоят, а проблем от них больше. И, опять же, качество хромает.

Чем сегодня кодируют MP3? На заре формата было очень много разных декодеров, сегодня их тоже можно найти, если постараться, кто-то постоянно тоже изобретает велосипед, но безусловный авторитет уже долгие годы – LAME. Несмотря на стебный перевод названия (вольно – «хромуля»), кодек справляется со своей задачей блестяще.

Какой программой пользоваться для кодирования – тоже понятно, общепринятым авторитетом является грозный EAC (Exact Audio Copy, и он точно соответствует своему названию). И то, и другое распространяется совершенно бесплатно (более того – LAME в принципе встроен почти во все по умолчанию), так что можете попробовать свои силы в кодировании того, что и так уже сто раз кодировано.

реклама

450x394 45 KB. Big one: 505x442 53 KB

WMA: все плохо, как всегда

Компания Microsoft разработала WMA как альтернативу MP3. Но, как и в случае с платформой Windows Phone, люди посмотрели на него, потыкали пальцем – и забросили на полку.

Потому как файл WMA изобилует мелкими неприятностями, которые сами по себе вроде бы и не так страшны (например, плохая устойчивость к ошибкам: чуть поврежденный файл про кодировании или передаче становится непригодным полностью), но в совокупности WMA становится несерьезным. К тому же, опять же декларировалось, что при меньшем битрейте WMA будет качественным. Серьезно?

Конечно, WMA сегодня поддерживает все, что поддерживает MP3. Конечно, декларируется, что поддерживается lossless-кодирование, начиная с версии 9.1. Ну поддерживается. А дальше-то что? Кто-то этим пользуется?

450x247 41 KB. Big one: 1440x789 254 KB

реклама

Плюс ко всему – в WMA можно зашивать DRM-защиту. От такого фактора потирают жадные лапки правообладатели, но говорят «фи» рядовые пользователи. Еще один гвоздь в крышку гроба WMA.

В общем, формат мутный и явно нежизнеспособный. Как и платформа Windows Phone. Как и Surface. У Microsoft хорошо получалось делать операционные системы, но вот сторонние проекты – слабовато.

В современном музыкальном мире существует огромное количество форматов аудио файлов, которые часто сбивают с толку неподготовленного пользователя. Разобраться во всём этом, узнать, какими они бывают и для чего используются, поможет представленный обзор.

Аудиоформаты

Типы аудио форматов

Сегодня настало время, когда каждому любителю музыки, не говоря уже о профессиональных музыкантах и аудиоредакторах, для достижения качественного звучания необходимо разбираться в таких понятиях как форматы аудиофайлов, битрейты, расширения, разрядность, частота дискретизации и во множестве других. Звук стал цифровым, а это значит, что его можно использовать в различных целях, например, для тестового прослушивания, для презентаций, озвучивания видеороликов. Фактически цифровой звук, так же как и изображение представляет собой множество отдельных пикселей и, чем их больше, тем качественней получается и сама звуковая картина. Такой «пиксельный» звук можно редактировать и обрабатывать.

Аудиоформаты

На рисунке представлен пример записи звуковой волны, где зелёной кривой обозначен исходный звук, а фиолетовыми столбцами его цифровой вид. Число отрезков в одну секунду – это частота дискретизации. При этом цифровое представление звука имеет следующий вид.

Аудиоформаты

Важную роль при оценке качества аудиоформатов и, соответственно, качества звука является такой параметр как битрейт, который показывает, сколько бит или килобит необходимо для записи одной секунды звука. Малые значения битрейта – низкокачественное звучание, большие – звук высшего качества.

Аудиоформаты

А вот для хранения и дальнейшего использования audio в том или ином виде как раз и применяются аудиоформаты – цифровые записи аудиоданных. Можно сказать, что формат является своеобразным контейнером, где хранится звук. Фактически все форматы аудио можно разделить на две большие категории: сжатые без потерь и сжатые с потерями.

Lossless – без потерь

С целью максимально избежать снижения качества звука во время сжатия аудиофайла разработаны специальные способы сохранения звуковой информации, избегая потерь, которые фактически можно сравнить с архивированием, когда информация просто упаковываются в файл zip, размер которого заметно меньше чем исходные данные. Впоследствии эти данные можно чётко восстановить до каждого бита. Причём сам битрейт для этих файлов неважен. Такие аудиофайлы имеют общее название Lossless – музыка «как есть». Подобные алгоритмы позволяют сжимать файлы в два-три раза. В итоге размер выходит достаточно большой, но при этом с сохранностью исходного звука.

Самыми популярными форматами без потерь являются следующие.

Аудиоформаты

Аббревиатура – это название «Free Lossless Audio Codec». Он обеспечивает полную сохранность всех данных из аудиопотока, способен сжимать от 1.4 до 4 раз с битрейтом 350-1010 кбит/с, применяется для создания аудио-коллекций и используются для прослушивания на аппаратуре премиального уровня.

-высокое качество;
-большое количество дополнительных возможностей;
-свободная лицензия.
-довольно большой размер;
- на старых ОС необходимо дополнительно скачивать соответствующие плееры.

Аудиоформаты

Waveform audio format – один из старых форматов, который был создан Microsoft совместно с IBM. Это лучший формат аудио для обработки и хранения несжатых аудиоданных, которые по качеству соответствуют CD-дискам. Одна минута звука в нём «весит» порядка 10 Мб. Именно поэтому хранить в .wav фонотеку или пересылать эти аудиофайлы по интернету нецелесообразно.

-безупречное качество;
-мгновенная распаковка – «на лету» при экономичном использовании процессора;
-большое распространение и поддержка большим количеством программ и аудиоустройств.

Аудиоформаты


Для хранения сжатой информации без потерь на устройствах Apple. В отношении степени сжатия он несколько уступает бесплатному FLAC.

-отсутствуют потери в качестве при копировании с CD;
-возможность простой конвертации в любые другие форматы аудиофайлов с получением хорошего качества;
-восстановление коллекции CD-дисков путём записей новых в том же качестве взамен повреждённых.
-большой размер;
- ограничения в поддержке аудиоустройствами.
-высокая степень сжатия и скорость обработки данных;
-возможность прямого воспроизведения сжатой информации;
-поддержка информационных тегов и, как следствие, возможность создания удобных звуковых архивов.

Где можно найти музыку в форматах Lossless?

Прослушивание музыки в форматах без потерь – это настоящее наслаждение. Причём используя обычные настольные колонки для компьютера или бюджетные наушники весь потенциал lossless-форматов раскрыть не получится. Для этого нужна аудиоаппаратура высокого класса: проигрыватели, акустические системы, усилители, премиальные наушники и даже высококачественные кабели. При этом остаётся один вопрос, где брать музыку в этих форматах?

В настоящее время наряду с AudioCD можно иметь высококачественную музыку всегда под рукой. Этому способствуют сетевые стриминговые музыкальные сервисы, популярность которых постоянно растёт.

Аудиоформаты

Среди них можно выделить следующие:

  • Deezer – огромный выбор музыки в качестве lossless с битрейтом до 1411 Кбит/с.
  • Tidal – популярный сервис с огромной музыкальной коллекцией в высоком качестве.

Сегодня многие сервисы онлайн-радио перешли на аудио форматы, качество которых высокое. Из них можно выделить: Radio Paradise, AI Radio, Absolute Radio, Intense Radio, Frequence 3, Сектор.

Lossy – форматы файлов с потерями

Аудиоформаты

MPEG Layer-3 – один из самых распространённых форматов, который сегодня применяется в файлообменных сетях. Разница между MP3 и FLAC принципиальная. Низкое качество звука ощущается сразу. Всё дело в битрейте, который во flac может доходить до 1010 кбит/с, тогда как в mp3 составляет в среднем всего 128 кбит/с. В этом и заключается отличие flac от mp3.

-отличная совместимость с разными программами и аудиоустройствами;
-небольшой размер.
-низкое качество;
-сильно ограниченные техвозможности.

Аудиоформаты


Запатентованный формат с меньшим, чем у MP3 потерей качества и с большими возможностями кодирования.

-наличие MDST-технологии, обеспечивающее хорошее качество при небольшом битрейте;
-небольшой размер.

Аудиоформаты

Открытый формат-контейнер, хорошо зарекомендовавший себя при передаче музыки и речи, как на малых, так и на больших битрейтах.

-лучший формат аудио по соотношению «качество-размер»;
-множество дополнительных возможностей;
-небольшой размер;
-свободная лицензия.
-невысокое качество;
-ограниченная поддержка плеерами и браузерами.

Стриминговые сервисы, где можно послушать музыку в формате Lossy

Аудиоформаты

  • Spotify – наиболее популярный в мире сервис, который превратился в своеобразную социальную сеть, отличается быстродействием и наличием огромного количества высококачественной музыки с высоким битрейтом;
  • Apple Music – более 30 миллионов музыкальных композиций, удобные плейлисты, авторские подборки;
  • YouTube Premium – универсальный сервис с большой коллекцией музыки, кураторские плейлисты, простой доступ;
  • VK Music (Boom) – сервис, работающий на базе соцсети ВКонтакте с большой музыкальной коллекцией, возможностью скачивать треки и с автоподбором музыки по предпочтениям пользователя;
  • Яндекс.Музыка – огромная библиотека композиций отечественных исполнителей;
  • SoundCloud – более 125 миллионов аудиозаписей с реальной возможностью контактировать с исполнителями;

На каких устройствах лучше воспроизводить аудио форматы?

Здесь всё просто. Услышать всё богатство звучания лучших форматов аудио с большим битрейтом можно, например,

Вариантов множество. Главное – убедиться в том, что выбранное устройство обеспечивает сетевые подключения и поддерживает соответствующие форматы. Что же касается форматов сжатия с потерями, то их можно воспроизводить практически на любых устройствах, включая мобильные.

Читайте также: