Частота дискретизации как влияет на размер файла

Обновлено: 06.07.2024

Как люди, непосредственно связанные с AV сферой, мы постоянно говорим об аудио-кодировании и аудиокодеках, а что же это такое? Аудиокодек – это, по сути, устройство или алгоритм, способный кодировать и декодировать цифровой аудиосигнал.

На практике аудиоволны, которые передаются по воздуху, являются продолжительными аналоговыми сигналами. Сигналы преобразуются в цифровой формат устройством, которое называется аналого-цифровой преобразователь (АЦП), а устройство обратного преобразования – цифро-аналоговый преобразователь (ЦАП). Кодек находится между этими двумя функциями и именно он позволяет откорректировать некоторые важные параметры для успешного захвата, записи и трансляции звукового сигнала: алгоритм кодека, частота дискретизации, разрядность и скорость передачи данных.

Три наиболее популярных аудиокодека: Pulse-Code Modulation ( PCM), MP3 и Advanced Audio Coding ( AAC ). Выбор кодека определяет степень сжатия и качество записи. PCM – кодек, который используется компьютерами, CD-дисками, цифровыми телефонами и иногда SACD-дисками. Источник сигнала для PCM сэмплируется через равные интервалы, и каждый сэмпл представляет собой амплитуду аналогового сигнала в цифровом значении. PCM – это наиболее простой вариант для оцифровки аналогового сигнала.

При наличии правильных параметров этот оцифрованный сигнал может быть полностью реконструирован обратно в аналоговый без каких-либо потерь. Но этот кодек, обеспечивающий практически полную идентичность оригинальному аудио, к сожалению, не очень экономичен, что выражается в очень больших объемах файлов, а такие файлы не подходят для потокового вещания. Мы рекомендуем использовать PCM для записи цифровых образов для ваших источников или когда вы занимаетесь постобработкой аудио.

К счастью, у нас всегда есть возможность выбрать другой кодек, который может сжимать цифровые данные (по сравнению с PCM) на основании некоторых полезных наблюдений о поведении звуковых волн. Но в этом случае приходится идти на компромисс: все альтернативные алгоритмы сопряжены с «потерями», так как невозможно полностью восстановить исходный сигнал, но, тем не менее, результат всё равно хорош настолько, что большинство пользователей не смогут уловить разницу.

MP3 – это формат аудио-кодирования с использованием как раз такого алгоритма сжатия цифровых данных, который позволяет сохранять аудиосигнал в меньшие по объему файлы. Кодек MP3 чаще всего используется пользователями для записи и хранения музыкальных файлов. Мы рекомендуем применять MP3 для трансляций аудио-контента, так как ему требуется меньшая пропускная способность сети.

AAC – это более новый алгоритм кодирования аудиосигнала, ставший «преемником» MP3. AAC стал стандартом для форматов MPEG-2 и MPEG-4. По сути это тоже кодек сжатия цифровых данных, но с меньшей, чем у MP3, потерей качества при кодировании с одинаковыми битрейтами. Мы рекомендуем использовать этот кодек для онлайн трансляций.

Частота дискретизации (кГц, kHz)

Частота дискретизации (или частота сэмплирования) - частота, с которой происходит оцифровка, хранение, обработка или конвертация сигнала из аналога в цифру. Дискретизация по времени означает, что сигнал представляется рядом своих отсчетов (сэмплов), взятых через равные промежутки времени.

Измеряется в герцах (Гц, Hz) или килогерцах (кГц, kHz,) 1 кГц равен 1000 Гц. Например, 44 100 сэмплов в секунду можно обозначить как 44 100 Гц или 44,1 кГц. Выбранная частота дискретизации будет определять максимальную частоту воспроизведения, и, как следует из теоремы Котельникова, для того, чтобы полностью восстановить исходный сигнал, частота дискретизации должна в два раза превышать наибольшую частоту в спектре сигнала.

Как известно, человеческое ухо способно улавливать частоты между 20 Гц и 20 кГц. Учитывая эти параметры и значения, показанные в таблице ниже, можно понять, почему именно частота 44,1 кГц была выбрана в качестве частоты дискретизации для CD и до сих пор считается очень хорошей частотой для записи.

Есть ряд причин для выбора более высокой частоты дискретизации, хотя может показаться, что воспроизводить звук вне диапазона человеческого слуха – пустая трата сил и времени. При этом среднестатистическому слушателю будет вполне достаточно 44,1 – 48 кГц для качественного решения большинства задач.

Разрядность

Наряду с частотой дискретизации есть такое понятие как разрядность или глубина звука. Разрядность – это количество бит цифровой информации для кодирования каждого сэмпла. Проще говоря, разрядность определяет «точность» измерения входного сигнала. Чем больше разрядность, тем меньше погрешность каждого отдельного преобразования величины электрического сигнала в число и обратно. С минимальной возможной разрядностью есть только два варианта измерения точности звука: 0 для полной тишины и 1 для звучания в полном объеме. Если разрядность равна 8 (16), то при измерении входного сигнала может быть получено 2 8 = 256 (2 16 = 65 536) различных значений.

Разрядность закреплена в кодеке PCM, но для кодеков, которые предполагают сжатие (например, MP3 и AAC) этот параметр рассчитывается при кодировании и может меняться от сэмпла к сэмплу.

Битрейт

Битрейт - это показатель количества информации, которым кодируется одна секунда звучания. Чем он выше, тем меньше искажений и тем ближе закодированная композиция к оригиналу. Для линейного PCM битрейт рассчитывается очень просто.

битрейт = частота дискретизации × разрядность × каналы

Для таких систем как Epiphan Pearl Mini, которые кодируют линейный PCM 16-бит (разрядность 16), этот расчет может быть использован для определения, сколько дополнительных полос пропускания может потребоваться для PCM аудио. Например, для стерео (два канала) оцифровка сигнала производится с частотой 44,1 кГц на 16-бит, а битрейт при этом рассчитывается таким образом:

44,1 кГц × 16 бит × 2 = 1 411,2 кбит/с

Между тем алгоритмы сжатия аудиосигнала, такие как AAC и MP3, имеют меньшее количество бит для передачи сигнала (в этом и заключается их цель), поэтому они используют небольшие битрейты. Обычно значения находятся в диапазоне от 96 кбит/с до 320 кбит/с. Для этих кодеков чем выше битрейт вы выбираете, тем больше аудио бит вы получаете на сэмпл, и тем выше будет качество звучания.

Частота дискретизации, разрядность и битрейты в реальной жизни.

Аудио CD-диски, одни из первых наиболее популярных изобретений для простых пользователей для хранения цифрового аудио, использовали частоту 44,1 кГц (20 Гц – 20 кГц, диапазон человеческого уха) и разрядность 16-бит. Данные значения были выбраны, чтобы при хорошем качестве звука иметь возможность сохранять как можно больше аудио на диске.

Когда к аудио добавилось видео и появились DVD, а позднее Blu-Ray диски, был создан новый стандарт. Записи для DVD и Blu-Rays обычно используют линейный формат PCM с частотой 48 кГц (стерео) или 96 кГц (звук 5.1 Surround) и разрядность 24. Эти значения были выбраны в качестве идеального варианта, чтобы сохранять аудио с синхронизацией с видео и при этом получать максимально возможное качество с использованием дополнительного доступного дискового пространства.

Наши рекомендации

CD, DVD и Blu-Ray диски преследовали одну цель – дать потребителю высококачественный механизм воспроизведения. Задачей всех разработок было предоставить высокое качество аудио и видео, не заботясь о величине файла (лишь бы он умещался на диск). Такое качество мог обеспечить линейный PCM.

Напротив, у мобильных средств информации и потокового медиа совсем другая цель – использовать максимально низкий битрейт, при этом достаточный для поддержания приемлемого для слушателя качества. Для этой задачи лучше всего подходят алгоритмы сжатия. Теми же принципами вы можете руководствоваться для своих записей.

При записи аудио с видео…

В случае если запись будет использоваться для последующей обработки , выбирайте кодек PCM с частотой 48 кГц и максимальной разрядностью (16 или 24), чтобы обеспечить наилучшее качество аудио. Мы рекомендуем данные параметры для Epiphan Pearl Mini.

При потоковой передаче аудио с видео…

При потоковой передаче или записи для последующей трансляции можно получить хорошее звучание аудио при меньшей полосе пропускания, используя кодеки AAC или MP3 с частотой 44,1 кГц и битрейт 128 кбит/с или выше. Такие параметры гарантируют, что звук будет достаточно хорош и не скажется на качестве трансляции.

Компакт-диску в следующем году исполнится 40 лет. За этот немалый период любители музыки и коллекционеры фонограмм прошли долгий путь от практически детского восторга на старте, когда, поддавшись эмоциям, многие меломаны распродавали свои коллекции винила, заменяя их вожделенными серебристыми кружочками, “которые не шумели в паузах”, до пришедшего позже понимания недостатков формата. В результате часть филофонистов вернулась к винилу, что в итоге породило виниловый ренессанс, а другая часть занялась совершенствованием аппаратуры для воспроизведения компактов, в надежде таким образом скомпенсировать проблемы формата как такового. Сможет ли приобретающее всё большую популярность аудио высокого разрешения (Hi-Res) дать второе дыхание “цифре”?

Сразу расставим точки над i с исторической точностью – стандарт Red Book, разработанный компаниями Philips и Sony и в рамках которого был описан формат компакт-диска, был представлен в 1980 году, а в 1982 году компания Philips представила первый серийный проигрыватель таких дисков. То есть, в следующем году исполнится 40 лет с момента, когда цифровое аудио шагнуло в народ. Впрочем, сути дела это никак не меняет.

Сегодня нас в большей степени интересует аудио высокого разрешения. Так что же это такое? Строгого определения Hi Res не существует. Ассоциация JEITA (Японская Ассоциация Индустрии Электроники и Информационных Технологий) определяет CD и аудио стандартного разрешения как цифровой поток с разрядностью 16 бит и частотой дискретизации до 48 кГц включительно (напомним, что Red Book для формата CD-DA жестко фиксирует частоту дискретизации на уровне 44,1 кГц). Соответственно, всё, что оцифровано с более высокими параметрами, называется аудио высокого разрешения (High Resolution или Hi-Res). Поэтому при упоминании Hi Res всегда нужно делать оговорку, о каком конкретно разрешении идёт речь.

Факт

Логотип Hi-Res Audio, который сопровождает некоторые модели аудиотехники или наушников, был введен Японской ассоциацией производителей электроники и информационных технологий (JEITA). Для получения сертификации компонентами, работающими с цифровым аудио, нужно поддерживать аудио с параметрами вплоть до 24 бит / 96 кГц, а для аналоговой техники – расширенный минимум до 40 кГц частотный диапазон.

Причем, до сих пор мы говорили о формате оцифровки аналогового сигнала PCM (Pulse Code Modulation – импульсно-кодовая модуляция), который и определен для компакт-диска в Red Boook. Но позже теми же компаниями Sony и Philips был предложен однобитовый потоковый формат DSD (Direct Stream Digital), использующий плотностно-импульсную модуляцию. Формат подразумевает дискретизацию с существенно большей частотой – минимум – 2,8224 МГц, что в 64 раза больше, чем у компакт-диска (DSD64), кроме того, есть варианты DSD128, DSD256 и DSD512 с ещё более высокими частотами дискретизации. При этом, разрядность оцифровки составляет всего один бит. Но с форматом DSD в контексте сегодняшнего разговора проще – он изначально является форматом Hi-Rez аудио и используется для издания дисков высокого разрешения SACD.

Откуда берется аудио высокого разрешения?

Случаи народного творчества по оцифровке аналоговых носителей (виниловых пластинок или магнитных лент) или, не дай бог, апскейла компакт-дисков мы сейчас рассматривать не будем. В иных случаях аудио высокого разрешения появляется из студий мастеринга, где готовятся различные издания альбома или трека (винил, компакт-диск, файлы для стриминга и так далее). И здесь важно определить место Hi Res аудио в производственной цепочке. Не секрет, что в большинстве случаев изначально музыканты пишутся “в цифре” – с таким материалом намного удобнее работать звукоинженерам при сведении, постобработке и мастеринге. Случаи, когда всё по старинке делается “в аналоге”, а вместо компьютеров используются огромные многодорожечные катушечные магнитофоны и аналоговые пульты, бывают, но это – редкие исключения.

Так вот – пишутся музыканты именно в Hi-Res, поскольку для последующего сведения и мастеринга без ущерба для качества звучания высокое разрешение подходит как нельзя кстати. То есть, в результате сведения и мастеринга на свет появляется итоговый микс в высоком разрешении. Часто этот материал имеет параметры 24 бит / 96 кГц, но обычно студии используют лишь увеличенную до 24 бит разрядность, не повышая частоту дискретизации – тогда на выходе будет аудио с параметрами 24 бит / 44,1 кГц. Затем на основе этого “корневого” микса делаются варианты для записи на винил, компакт-диск, MP3 и других форматов со сжатием с потерями. То есть, этот исходный микс является своеобразным краеугольным камнем записи – лучшим её вариантом по качеству звучания, неким аналогом мастер-ленты при аналоговом мастеринге. И, напомним, этот микс записан в высоком разрешении.

Услышать разницу

Обычно при обсуждении полезности или бесполезности Hi rez аудио оппоненты углубляются в вопросы, насколько человеческое ухо (вспоминаем среднюю температуру по больнице) способно различить разницу в динамическом диапазоне, отношении сигнал/шум или иных параметрах, которые обеспечивают Hi-Res стандарты и Red Book. Действительно, вы вряд ли сможете ощутить разницу между отношением сигнал-шум -96 дБ (разрядность 16 бит) и -144 дБ (разрядность 24 бит) или услышать звук частотой 40 кГц, который не может быть оцифрован в стандарте Red Book с частотой дискретизации 44,1 кГц, но может с частотой дискретизации 96 кГц (по теореме Котельникова или, как её называют в западных источниках – теорема Найквиста-Шеннона). Но в этой дискуссии обычно упускается из виду, что первичным в данном случае является материал в высоком разрешении, а вариант в стандарте Red Book – результат конвертации. И на этапе этого преобразования звук неизбежно деградирует. Причем, по причинам, которые можно разделить на два типа.

Последствия конвертации

Причины первого типа носят объективный характер – это последствия понижения разрядности и частоты дискретизации. К примеру, чтобы снизить частоту выборки с 96 кГц до 44,1 кГц (ситуацию осложняет тот факт, что это некратные частоты) приходится пересчитывать под новую сетку весь сигнал, в том числе и в слышимом спектре частот. Понижение разрядности приводит к загрублению формы сигнала – вместо гладкого синуса (например) получаем его ступенчатую аппроксимацию. Известны различные способы борьбы и с тем, и с другим эффектом. Как правило, это достигается различной цифровой фильтрацией и подмешиванием шума (noise shaping). Подобные вмешательства позволяют скомпенсировать огрехи даунсемплинга, но, как легко догадаться, качества звучания совсем не прибавляют.

На потребу публике

Второй тип по сути рукотворен. К этому типу мы отнесем все “улучшения” и “оптимизации”, которые проводятся с определенными целями при подготовке издания на конкретном носителе. К примеру, с определенного момента музыкальные продюсеры решили “оптимизировать” компакт-диск для воспроизведения на массовой технике – музыкальных центрах, штатных автомобильных аудиосистемах и смартфонах с самыми простыми наушниками-затычками. Такая оптимизация заключалась в активном использовании звуковых компрессоров и лимитеров, которые фактически сжимают динамический диапазон – отсекают пиковые сигналы, а средний уровень музыкального материала подтягивают к уровню 0 дБ.

В результате получаются очень громкие и бодрые фонограммы, которые на не слишком качественной технике действительно звучат выигрышно. Но достаточно послушать диск с такой записью на системе High End (да и просто на качественной Hi-Fi аппаратуре), как вы заметите, что запись утратила эмоциональность и ясность, потеряла объем и жизнь. Но что могут противопоставить малочисленные аудиофилы со своими дорогущими стереосистемами армии, вооруженной смартфонами с затычками? Доля первых находится в пределах статистической погрешности. В результате сегодня за очень редким исключением все издания на компакт-дисках, как новые записи, так и ремастеры старых альбомов, делаются с компрессией динамики. Одна надежда остается на Hi-Res, если, конечно, окажется доступен тот самый – исходный микс, а не его “адаптированная” версия. Ведь никто не может помешать продюсеру издания “улучшить” и материал в высоком разрешении тоже.

В этом посте мы рассмотрим различные факторы, влияющие на качество звука и размер аудиофайла. Конечно, найти идеальный баланс между ними непросто, но к концу вы должны знать достаточно, чтобы чувствовать себя комфортно и экспериментировать для себя.

Примечание. Чтобы применить эти знания на практике, вам понадобится бесплатный аудиоредактор, такой как Audacity.

или одна из многих альтернатив Audacity там

, Изучение этих инструментов выходит за рамки этой части.

1. Частота дискретизации

Но как нам захватить этот звук и преобразовать его в цифровые данные? Мы не можем просто записать полную звуковую волну, как она есть; вместо этого мы должны периодически делать «снимки» звука. Когда вы воспроизводите все это последовательно, вы получаете приблизительное воссоздание оригинального звука.

Каждый снимок называется образец и интервал, используемый между каждым снимком, называется частота дискретизации. Чем короче интервал, тем выше частота. Более быстрые частоты дают более точные записи, но также требуют больше данных для хранения каждой секунды записанного звука.

Вы можете снизить частоту до 32 кГц для записи только с речью и не испытывать значительных потерь в качестве, но придерживайтесь 44,1 кГц, если речь идет о музыке или если вам нужно максимальное качество. Падение до 22,05 кГц будет звучать ближе к AM-радио.

2. Битрейт

Для иллюстрации представьте звуковую волну в виде потока воды, и вы пытаетесь захватить (т.е. записать) эту воду с помощью ведра. Частота дискретизации будет показывать, как часто вы погружаете свое ведро в поток, в то время как глубина в битах будет размером с ваше ведро.

Чем выше битовая глубина, тем больше данных захватывается на выборку. Это приводит к более точной записи за счет большего пространства, необходимого для хранения этих данных. Но если вы слишком сильно уменьшите битовую глубину, звуковые данные будут потеряны.

Bitrate сколько фактических звуковых данных обрабатывается в секунду; в этом случае вы умножаете частоту дискретизации на битовую глубину. Аудиофайл CD с частотой дискретизации 44,1 кГц и глубиной 16 бит будет иметь несжатый битрейт 705,6 кбит / с.

Подробнее об оптимальных битрейтах читайте в последнем разделе этой статьи о форматах файлов.

Иногда полный битрейт не требуется в данном снимке, например, когда есть тишина. В этом случае вы можете использовать переменный битрейт (VBR), который поддерживается MP3, OGG, AAC и WMA. В прошлом VBR не получал широкой поддержки, но в настоящее время это не большая проблема.

3. Стерео против Моно

Этот момент довольно прост, поэтому я буду кратким. Моно означает один канал в то время как стерео означает два канала. Два канала в стереофоническом аудиофайле могут называться «левым» и «правым» каналами.

4. Сжатие

Существует два вида сжатия:

Сжатие с потерями удаляет «лишние» данные из аудио, такие как звуки, которые находятся за пределами слышимости большинства людей. После сжатия эти удаленные данные не могут быть восстановлены.
Сжатие без потерь берет аудиофайл и упаковывает его как можно больше, используя математические алгоритмы, но они должны быть распакованы во время воспроизведения, что требует большей вычислительной мощности. Фактические данные не теряются.

Сжатие без потерь обеспечивает то же качество, что и несжатый звук, но даже в лучшем случае сжатие без потерь приводит к размерам файлов, которые как минимум вдвое больше, чем сжатие с потерями. Для оптимальных размеров файлов используйте сжатие с потерями.

Если вы никогда ранее не сжимали аудиофайл или ищете хороший инструмент для выполнения работы, подумайте об использовании одного из этих простых и эффективных способов сжатия аудио.

5. Формат файла

После того, как вы решили использовать сжатие с потерями, вы должны решить, какой формат файла лучше для вас. На момент написания статьи три наиболее популярных варианта MP3, OGG, а также AAC. Узнайте больше в нашем сравнении форматов аудио файлов

MP3 является самым популярным на сегодняшний день, главным образом потому, что он был первым из трех, кто появился на сцене. AAC технически лучше, чем MP3, но не имеет такого же уровня использования. OGG тоже хорош, но не многие устройства поддерживают его, поэтому придерживайтесь MP3 или AAC.

Независимо от того, какой из них вы используете, вы в конечном итоге сжимаете до целевого битрейта. Если мы предполагаем, что вы собираетесь использовать формат MP3, то это пять наиболее распространенных битрейтов, которые используются в настоящее время:

С точки зрения уменьшения размера файла, MP3, сжатый до 128 кбит / с, теряет приблизительно 90% исходных звуковых данных, тогда как MP3, сжатый до 320 кбит / с, теряет только около 60%.

Кроме того, если у вас есть MP3 и AAC, сжатые с одинаковым битрейтом, AAC часто будет звучать лучше, поскольку использует более продвинутый алгоритм сжатия. Это означает, что с AAC вы можете получить больше «качества на мегабайт», чем MP3.

Понимание этих пяти факторов не только поможет вам выбрать лучший способ записи и сжатия музыки и / или подкастов.

что вы создали, но также можете помочь вам решить, какие музыкальные форматы покупать или какие потоковые сервисы использовать.

Как слушатель, какой формат файла вы предпочитаете и битрейт для музыки? Как создатель, какие настройки вы используете для своей музыки или подкастов? Дайте нам знать с комментарием ниже!

Кредиты изображений: частота дискретизации через Викимедиа, битовая глубина через Викимедиа, стерео трек через Audacity Manual

Все хотят слушать музыку в наилучшем качестве, однако, далеко не все представляют себе как цифровая музыка становится аналоговой, той, которую мы слушаем. Уверен, что мы много читали дискуссий в интернете по поводу того в каком формате должна хранится музыка, в каком качестве и т.д. Но обсуждение технических подробностей ни на йоту не приблизило вас к понимаю о том насколько приятно будет слушать музыку, будет ли она звучать ясно, чётко и чисто, или нет. И стоит ли менять имеющеюся коллекцию CD на записи в формате DSD с заоблачными характеристиками, или музыки в обычном CD качестве будет достаточно для ежедневного прослушивания музыки для удовольствия.

Правда в том, что современные методы хранения музыки в цифровом виде уже очень давно переросли требования и чувствительность наших ушей. При наличии хороших (не лучших в мире, а просто качественных) наушников, колонок и усилителя качества звучания уровня CD хватит подавляющему большинству людей. Причём, это качество не просто удовлетворит слушателя, а будет для него настолько высоким, что он просто не услышит разницу между CD и Hi-Res записью. Но об этом ниже.

Частоты дискретизации 44.1 кГц хватит для всех?

Если вы любите слушать музыку в высоком качестве, вы наверняка замечали в информационной строке о музыкальном треке частоту его дискретизации, чаще всего она равна 44.1 кГц, иногда 48 кГц и довольно редко это значение может вырастать до 96 кГц или даже фантастических 384 кГц. Заметим, что если вы смотрите характеристики современных Hi-Fi плееров они вовсю пестрят описанием того, что они способны проигрывать музыку с частотой дискретизации до 384 кГц. Очевидно, что это лишь технические характеристики на бумаге, уверяю вас, никто, даже я, не сможет на слух отличить качественную запись при 48 кГц от той же записи но уже при 384 кГц. Не верите мне?

Давайте я приведу некоторые доводы:

У вашего слуха есть ограничение по слышимым частотам, в лучшем случае максимальная слышимая частота звука будет около 20 кГц;
Минимальная частота дискретизации должна быть не менее, чем двухкратной величиной от 20 кГц для того, чтобы ваш слух перестал замечать огрехи и воспринимал звук, как натуральный, естественный;
Частота дискретизации значительно влияет на размер музыкального файла.

Ну, а раз самые лучшие из нас могут слышать звук с частотой не превышающей 22 кГц, частоты дискретизации в 44.1 кГц для нас должно быть достаточно, чтобы услышать всё, что возможно.

Почему 44.1 кГц? Теорема Котельникова (или теорема Найквиста — Шеннона) говорит нам о том, что частоты дискретизации, которая обеспечивает два отсчета за период, достаточно для воспроизведения сигнала (в данном случае, вашей музыки). 2 x 22,000 = 44,000, или чуть меньше 44 100 гц в секунду, предлагаемых с частотой дискретизации 44,1 кГц.

Всё, что мы закодируем выше этого значения будет для нас бесполезно, т.к. наш слух этого просто не услышит.

Любая частота дискретизации, которая превышает удвоенную частоту звука, будет полностью передавать его характеристики без искажения (рис. сверху). Искажения происходят только тогда, когда частота дискретизации падает ниже удвоенной частоты кодируемого звука (рис. внизу)

Напомню, что с возрастом максимальная частота слышимого звука падает. Например, я уже почти не слышу звук с частотой выше 18 кГц, и чем старше я буду, тем меньший диапазон я буду слышать. Поэтому даже стандартной частоты дискретизации в 44.1 кГц для меня будет вполне достаточна, более того, даже это, на сегодняшний день скромное значение уже является избыточным для моего слуха.

Тест для проверки вашего слуха. Проверьте максимальную частоту звука, которую сможете услышать

Записей с динамическим диапазоном 16 бит хватит всем?

Ещё одним современным мифом является слух, что записи с динамическим диапазоном 24 бита откроют вам путь в доселе неизвестное пространство музыкальной нирваны, которая совершенно недоступна для традиционных 16 битных записей. Но, вы уже, наверное, догадались, что это не так? Для прослушивания готовой музыкальной композиции динамического диапазона 16 бит абсолютно достаточно. Более того, были проведены тесты, которые показали, что люди, даже слушающие тестовые музыкальные треки на оборудовании общей стоимостью более $6000 не смогли различить друг от друга запись с 16 битами от записи с 24 битами.

Однако, если вам нужно работать с музыкальным материалом на студии, желательно использовать именно 24 битные записи, т.к. при редактировании важно иметь максимально возможное качество исходных материалов. Это нужно для того, чтобы алгоритмы обработки звука могли работать наиболее точно и корректно, а уже готовый музыкальный трек можно конвертировать в запись 16/44.1 и всё будет хорошо, никто не заметит разницы.

Но что вообще означает битность записи на физическом уровне? За что отвечает этот параметр?

Количество битов отвечает за динамический диапазон, если объяснить ещё проще, это разница в громкости между двумя отсчётами при кодировании аналогового звука в цифровой вид. Чем больше битность, тем больше может быть разница по громкости между двумя соседними отсчётами.

24-битный файл будет иметь гораздо больший динамический диапазон, чем 16-битный файл, около 144 дБ. Этого будет достаточно, чтобы увеличить громкость полёта комара до уровня запуска ракеты Saturn V.

Но есть такое явление, которое называется слуховой маскировкой. Конструкция нашего уха, его физиология, делает более тихие звуки чуть более громкими, и чем ближе они находятся по частоте друг к другу, тем больше они маскируются друг другом в вашем мозге. Поэтому, да, работать с музыкальным материалом желательно в максимальном качестве, а вот для обычного прослушивания вполне хватит 16 бит, которые могут дать динамический диапазон на уровне 96 дБ.

Например, более широкий динамический диапазон позволяет вам увеличить громкость без повышения слышимого шума. Вот почему важно работать с музыкальным материалом в максимальном качестве, с динамическим диапазоном 24 или даже 32 бита.

Всё ещё не верите, что 16 бит и 44.1 кГц достаточно? Тогда я предлагаю вам провести эксперимент

Хотя мой коллега с сайта Android Authority уже доказал это с помощью осциллографа и некоторых хардкорных исследований, мы собираемся провести эксперимент, который вы можете сделать сами, или просто прочитать о результатах тут, если верите мне. После некоторых поисков в сети я нашел пару файлов на Bandcamp, которые были фактически выпущены в 24-битном виде без потерь. Многие из тех, что я находил на предполагаемых сайтах «HD Audio» были просто преобразованы из 16 бит, что означает, что они были одинаковыми во всех отношениях кроме цены. Затем я сделал следующие:

Сделал копию оригинального 24-битного файла;
Открыл этот файл в аудиоредакторе и сохранил его в формате 16/44.1 WAV;
Открыл оригинальный файл и преобразованный и экспортировал его в один трек;
После чего открыл этот трек в программе, которая позволяет увидеть спектрограмму.

По сути, вот что мы только что сделали: взяли файл с частотой 96 кГц/24 бит, а затем вычли из него все данные, которые получили в версии качества CD. Осталась разница между ними. Это тот же самый принцип, на котором работает активное шумоподавление. Вот результат, который я получил:

Спектрограмма разности звучания музыкального материала 24/96 и 16/44.1

Да, разница есть, но она небольшая и находится вне зоны чувствительности нашего уха. Теперь вспоминаем о явлении слуховой маскировкой, которую мы сымитируем путём специальной фильтрации. Итак, давайте покажем, что человек может услышать, применяя фильтрацию на частотах до 20 кГц, чтобы покрыть наши слуховые возможности. Что мы видим, есть пик на уровне -85 дБ в лучшем случае. Что это значит? Это значит, что разница настолько несущественная, что без риска повредить слух мы её никогда не услышим. Если, всё же, вы хотите это сделать, я сделаю вам 2 важных предупреждения:

И, наверное, последний мой довод будет заключаться в том, что наш мозг постоянно отфильтроваывает звуки, которые даёт вам услышать. Этот эффект, как я уже неоднократно упоминал, называется слуховой маскировкой.

Поэтому, когда вы слушаете музыку, вы на самом деле не слышите весь звук сразу, вы просто слышите, что ваш мозг выделил для вас. Чтобы услышать разницу между 24-битными/96 кГц файлами и файлами с качеством CD запись должна отвечать следующим требованиям: отдельные звуки должны занимать очень узкий определённый диапазон частот и быть очень громкими, а другие звуки, которые звучат в тот же период времени, должны быть существенно различными по частоте от тех, разницу которых мы хотим услышать.

CD качества музыки хватит для прослушивания любой музыки?

Так что, действительно, наиболее вероятные места, на которых вы могли бы услышать различия между ними, это низкочастотные звуки с несколько приглушенными гармониками. Но есть нюанс: люди очень плохо слышат низкочастотные звуки. Чтобы услышать эти звуки на равной громкости с высокочастотными, вам понадобится от 10 до 40 дБ дополнительной мощности. Таким образом, эти пики при -87 дБ в диапазонах от 20 до 90 Гц могут уже составлять от -97 до -127 дБ, что выходит за рамки возможностей человеческого слуха. Не существует безопасного уровня громкости для прослушивания, чтобы слышать разницу между этими файлами.

Круто, да? Всегда хорошо знать, что любой, кто приходит и говорит вам, что ваша музыкальная коллекция должна быть повторно куплена, потому что это не «HD качество», явно ошибается.

Читайте также: