Что определяет частота дискретизации звуковой карты

Обновлено: 03.07.2024

Звуковая карта – устройство, отвечающее за обработку звука на ПК. Процессор звуковой карты обеспечивает более высокое качество звука, в отличие от встроенного аудио контроллера материнской платы.

Основные характеристики звуковой карты

Аудиокарта имеет ряд основных характеристик: тип размещения, интерфейс подключения, перечень параметров цифро-аналогового и аналого-цифрового преобразователей (ЦАП, АЦП), количество поддерживаемых стандартов обработки звука и число специальных входов и выходов.

Тип размещения

Несмотря на то, что звуковая карта имеет огромное число параметров, на которые стоит обратить внимание в первую очередь, выбор нужно начинать с её типа размещения. По типу размещения звуковые карты бывают двух видов:

внутренняя — устанавливается непосредственно в системный блок, что достаточно практично, но не для профессионального применения — такие звуковые карты подвержены помехам со стороны прочего установленного оборудования внутри ПК;

внешняя – звуковая карта подключается к компьютеру через интерфейсный кабель и полностью защищена от помех.

Существуют внутренние звуковые карты с дополнительным блоком управления, который устанавливается в пятидюймовый отсек фронтальной панели системного блока. Данный блок может содержать не только органы управления, но и входы/выходы, что обеспечивает комфортную работу со звуковой картой.

Интерфейс подключения

PCI — звуковая карта устанавливается в свободный слот PCI-шины материнской платы.

PCI-E – звуковая карта вставляется в свободный разъём шины PCI-Express. Даная шина обладает хорошей пропускной способностью и пришла на смену PCI-шине.

USB – стандартный интерфейсный разъём для подключения внешних устройств, в данном случае внешней звуковой карты.

FireWire (IEEE 1394) – высокоскоростной стандарт подключения внешних мультимедийных устройств, ещё один альтернативный способ подключения внешней звуковой карты.

PCMCIA (PC Card) – специальный интерфейс для подключения компактных периферийных устройств. Обычно применяется в ноутбуках.

ExpressCard — стандарт карт расширения для ноутбуков, пришедший на смену PCMCIA (PC Card), превосходит их по скорости передачи данных. ExpressCard использует скоростную шину PCI-Express .

Параметры цифро-аналогового преобразователя, ЦАП

Разрядность — число разрядов цифро-аналогового преобразователя. Чем больше число разрядов, тем качественнее сигнал на выходе звуковой карты. Большинство современных звуковых карт имеют 24-разрядный ЦАП. К примеру, на Audio CD записан 16-разрядный звук, тогда как на DVD-Audio хранится 24-разрядный.

Динамический диапазон – колеблется от 87 до 123 дБ. Широкий динамический диапазон позволяет качественно передавать все нюансы естественного звука и обеспечивает более высокое качество звука на выходе звуковой карты.

Отношение сигнал/шум — показывает уровень шума и определяет качество звука на выходе звуковой карты.

Максимальная частота — чем выше частота цифро-аналогового преобразователя, тем качественнее сигнал на выходе звуковой карты. Например, в обычном Audio-CD звук записан с частотой дискретизации 44.1 кГц, тогда как в DVD-Audio — 192 кГц.

THD (коэффициент гармонических искажений) – диапазон от 3.0E-4 до 0.013 %. Чем меньше значение THD, тем более чистый и прозрачный звук получается на выходе звуковой карты.

Параметры аналого-цифрового преобразователя, АЦП

Разрядность — число разрядов аналого-цифрового преобразователя. Чем больше число разрядов, тем выше качество сигнала, получаемого при оцифровке.

Динамический диапазон (от 85 до 120 дБ) — чем больше динамический диапазон АЦП, тем качественнее звуковая карта может оцифровывать звук.

Отношение сигнал/шум — показывает насколько сильно «шумит» звуковая карта при преобразовании сигнала в цифровую форму. Этот параметр может иметь значение, например, при записи с микрофона.

Максимальная частота — чем выше частота аналого-цифрового преобразователя, тем качественнее происходит оцифровка звука.

THD (коэффициент гармонических искажений) – диапазон от 2.0E-4 до 0.0080 %. Чем ниже THD, тем меньше искажений появляется в процессе преобразования аналогового сигнала в цифровой.

Поддержка специальных стандартов

ADAT (Alesis DAT) — цифровой интерфейс ADAT позволяет передавать одновременно от 8 до 24 звуковых дорожек, что дает возможность создать на базе звуковой карты домашнюю студию звукозаписи. Интерфейс ADAT используется только в профессиональной аппаратуре.

AES/EBU – стандарт, служит для передачи двух цифровых каналов звука и служебной информации. Интерфейс AES/EBU позволяет подключать (разъемы XLR) к звуковой карте высококлассную студийную аудиоаппаратуру.

ASIO — поддержка данного стандарта позволяет эффективно использовать профессиональные программы по работе со звуком, например, Cubase, SoundForge, Traktor, Reaper.

OpenAL — звуковая карта с поддержкой данного стандарта позволяет максимально прочувствовать трехмерную атмосферу игры. Поддерживается компаниями Creative, Apple.

Внешняя синхронизация – позволяет уменьшить искажения, которые возникают в цифро-аналоговом преобразователе из-за нестабильности частоты дискретизации. Внешняя синхронизация используется только в профессиональной технике.

Количество и типы аналоговых (RCA, TRC), цифровых (MIDI), оптических (S/PDIF) входов и выходов. Чем больше разъемов и стандартов поддерживает звуковая карта, тем шире возможности при работе со звуком.

Продолжаем рассматривать такой вопрос, как звукозапись в домашней студии. На этот раз я хочу уделить внимание и рассмотреть все главные характеристики звуковых карт. Мы обсудим, сколько должно быть количество входных и выходных каналов, оптимальная частота дискретизации и разрядность, наличие фантомного питания и многое другое. Также я вам покажу примеры аудиоинтерфейсов различной ценовой категории.

Количество входных и выходных каналов. Их типы

Каждый вид звуковой карты имеет определенное количество входных и выходных каналов. Количество входных каналов зависит от количества дорожек, которые возможно, будут записываться одновременно независимо от друг от друга. Чтобы проще было вам понять, предположим, что у вас четыре входных канала. Это значит, что вы сможете подсоединить четыре источника звукового сигнала. Сам звук с каждого канала можно записать на отдельную дорожку программы. Сразу здесь отмечу, что канал подразумевается не стерео, а монофонический.

Обычно количество каналов звуковой карты кратно двум. Это либо 2, либо 4, либо 8 каналов. Встречается и больше, но уже на дорогих звуковых платах, которые приобретать в домашнюю студию нет смысла. Что касается выходных каналов в аудио плате, то я рекомендую приобретать не менее 4. По сути два канала позволят вам подключить только пару колонок. А если на аудио карте есть четыре моно выхода, то например, можно подключить еще усилитель для наушников и сами наушники. Если каналов восемь, то еще можно подключить пару колонок и еще что-то.

Если у вас группа из нескольких человек или какой-то хоровой коллектив и нужно записывать одновременно несколько музыкантов, то вам потребуется многоканальная звуковая карта. Если в аудиокарты только один аудио вход, то вы все равно можете записать любое количество инструментов. Однако каждого музыканта вам придется записывать отдельно, то есть по очереди. Например, сначала записываете ударные, затем накладываете на них гитару, вокал и так далее.

Но если у вас музыкальный коллектив, то такой вариант вам не подойдет, поскольку вы захотите играть сразу все вместе. В таком случае вам нужно купить многоканальный аудиоинтерфейс с достаточным количеством отдельных аудио входов. Нужные инструменты цепляете к отдельному входу. Вследствие чего каждый инструмент запишется на отдельную дорожку музыкальной программы. После вы сможете сделать отдельную обработку для каждого музыкального инструмента. Если вы купите микшерный пульт, то в программе такую обработку вы сделать не сможете. Все каналы запишутся на одну дорожку. Так что вам нужен не микшер, а многоканальный аудиоинтерфейс.

Однако, возможно, большинство из вас будут записываться в одиночку. В таком случае в звуковой карте необходимо наличие таких аудио входов:

Теперь давайте разберемся с аудио выходами, Тут потребуются обычные линейные выходы для левого и правого канала. К ним можно подключить мониторы (колонки). S/PDIF выходы обычно используются для бытовой техники (например, для подключения домашней аудио системы). Линейные выходы бывают на разъем большой джек или XLR. Также потребуется выход на студийные наушники.

Частота дискретизации и разрядность АЦП/ЦАП

Главное, на что стоит обратить внимание это максимальная частота дискретизации, поддерживаемая звуковой платой и глубина разрядности. Впрочем, об этом не стоит говорить, так как большинство современных профессиональных звуковых карт имеют глубину разрядности преобразователей 24 bit и максимальную поддерживаемую частоту дискретизации 96 кГц и выше. Если звуковая плата имеет эти характеристики, то значит можно успокоиться и вздохнуть с облегчением.

Хотя в тоже время можно наоборот насторожиться. Например, на мультимедийных картах специально могут написать невиданные характеристики вроде 32 bit и 192 кГц. Разумеется, такими характеристиками вряд ли будет обладать сама мультимедийная плата. Но чтобы просто вас успокоить, скажу, что качественные профессиональные звуковые карты (даже необязательно дорогие) имеют достаточные показатели в 24 bit и 96 кГц.

АЦП преобразует сигнал с определенной частотой. Чем чаще происходит измерение сигнала, то есть тем больше точек, в которых мы делаем измерения сигнала, тем лучше получится запись. Чем чаще идут замеры сигнала, тем запись будет ближе к оригиналу. И вот эта частота замера сигнала называется частотой дискретизации. Чем больше частота дискретизации, тем выше качество записи.

Наличие встроенных микрофонных предусилителей и усилителей для наушников

Третье, на что стоит обратить внимание при выборе хорошей звуковой карты, так это на наличие встроенных микрофонных предусилителей и усилителей для наушников. Одни звуковые платы бывают без каких-то встроенных усилителей и предусилителей. А другие наоборот, могут содержать встроенные усилители. Здесь, конечно же, вопрос, что лучше выбрать. Преимущество звуковых карт со встроенными усилителями является то, что они избавляют вас от необходимости в покупке таких приборов, как микрофонный предусилитель и усилитель для наушников без которых подключить к аудиоинтерфейсу наушники у вас не получится.

Казалось бы ну и прекрасно! Зачем еще что-то докупать. Однако я советую все равно покупать звуковую карту, не оборудованную усилителями, так как подавляющее большинство встроенных усилителей и предусилителей весьма скромного качества. Либо же взять аудио интерфейс со встроенными усилителями и предусилителями, но отдельно приобрести усилители и предусилители уже более высокого качества. Причем отмечу, что встроенные усилители не всегда бывают достойного качества даже в звуковых картах не самой низкой ценовой категории.

Также стоит иметь в виду, что платы без усилителей стоят дешевле. А при желании, поменять купленный для нее усилитель вы всегда сможете легко поменять. В случае с картой со встроенным усилителем, вы этот усилитель уже никуда не денете. Вы просто его не вытащите из самой звуковой платы. В таком случае придется оставаться либо с ним, либо менять аудиоинтерфейс целиком.

Хотя еще одним преимуществом аудиоинтерфейсов со встроенными усилителями является то, что они, безусловно, компактные. Ну, сами посудите, что удобно иметь, допустим, три прибора или один. Но здесь конечно выбор за вами. Если вы упор делаете в сторону качества, то обратите внимание на платы без усилителей. Если на первом месте у вас стоит компактности и мобильность, то вам может подойти аудио карта со встроенными усилителями.

Для чего вообще, предназначен предусилитель? Дело в том, что сигнал, который идет с микрофона очень слабенький. Чтобы его записать, его сначала нужно усилить, а также отрегулировать громкость сигнала на входе. Это делается с помощью предусилителя. Кроме того, если у вас будет конденсатор на микрофон, то на этот микрофон надо подать напряжение в 48 В. Это так называемое фантомное питание.

Наличие фантомного питания

Далее на что следует обратить внимание, это наличие фантомного питания. Если вы решили приобрести аудио-интерфейс со встроенным микрофонным предусилителем, то позаботьтесь о наличии фантомного питания в 48 B. Если его не будет, то вы не сможете подключить большинство конденсаторных микрофонов, которые требуют такое питание для своей работы. Хотя в прочем в подавляющем большинстве предусилители встроены в профессиональные звуковые платы. Такая функция имеется.

Соотношение сигнал/шум

На этой характеристике, как и на многих других не стоит сильно заморачиваться. Я кратко скажу, что значение в 90 дБ и ниже является совершенно нормальным показателем.

Частотный диапазон

У современных профессиональных аудиоинтерфейсов с этим показателем тоже обычно все в порядке и больших проблем не наблюдается. Вы, наверное, знаете, что диапазон слышимых частот человеком от 20 до 20 000 Гц. Следовательно, если интерфейс имеет такой диапазон или шире, то значит все в порядке! На самом деле здесь гораздо большее значение имеет не частотный диапазон, а показатель неравномерности частотной характеристики звуковой карты. В целом сразу скажу, что значение в пределах +- 0,5 дБ по большому счету является хорошим показателем.

Динамический диапазон

Здесь тоже нет смысла сильно заморачиваться. Динамический диапазон определяет максимальное изменение уровня звука. Выражается в дБ и просто равен разности между самой громкой и самой тихой частью аудио сигнала. То есть чем больше динамический диапазон, тем выше качество звука. Могу сказать, что динамический диапазон в 100 и более дБ, это вполне нормальный показатель.

Поддержка Asio драйверов

Например, когда вы пишите вокал или гитару, то при большой задержке отклик в колонках будет с заметным опозданием. Не очень-то и удобно. Или еще пример, когда вы играете на midi-клавиатуре, нажимаете клавишу, а звук слышен позже. В таких условиях вы не сможете сыграть нормальную партию. Те же проблемы вас ожидают и при работе с эффектами. Будет все тормозить, и вы не сможете правильно оценить воздействие на звук. Конечно же, все эти проблемы исчезают, если ваша звуковая карта поддерживает Asio. Тогда задержка у вас будет меньше 10 мс.

Есть еще программный Asio драйвер. Называется он Asio4All. Если ваша карта не имеет драйвер Asio, то можно установить этот программный. Он, конечно же, сделает вам низкую задержку, однако сделает он за счет ресурсов самого процессора. А эти ресурсы вам ой как пригодятся при создании музыки на компьютере. Виртуальные эффекты и инструменты очень активно расходуют ресурсы компьютера, которые вы будете терять на программном уменьшении задержки. А если ваша звуковая карта имеет свой ASIO драйвер, то она своими ресурсами обеспечивает малую задержку.

Рекомендую почитать о том, как настроить ASIO драйвер в программе Nuendo.

В общем, главным образом Asio дает возможность программной обработки звука в режиме реального времени. Это позволяет заменить внешнее оборудование звуковой обработки специальными плагинами работающими в реальном времени. Но хотя большинство профессиональные и даже некоторые мультимедийные карты поддерживают этот драйвер, который также поставляется в комплекте. И все же не забудьте при покупке звуковой карты удостовериться, что данный драйвер будет поддерживаться.

Наличие midi-интерфейса

Если в своей домашней студии для звукозаписи вы планируете заниматься не только звукозаписью, но и, например, созданием музыки или аранжировками, то вам будет не лишним наличие входов и выходов для подключения midi-оборудования. Например, это те же midi-клавиатуры или синтезаторы. Хотя и здесь также большинство профессиональных и мультимедийных плат тоже содержат в себе midi-входы и выходы.

Также стоит сказать, что многие современные midi-клавиатуры подключаются к вашему компьютеру посредством USB. К тому же с USB порта идет еще и питание к устройству. Это значит, что вам не нужно подключать само устройство к сети, не нужен дополнительный провод и блок питания. Поэтому далеко не всегда столь обязательно наличие в карте midi-интерфейса.

Однако при подключении по MIDI, это когда мы подключаем MIDI клавиши к MIDI входу, то обмен информации идет напрямую. Так что подключение по MIDI будет наиболее предпочтительнее. А если у вас есть синтезатор старой модели, то вы спокойно сможете его использовать в качестве MIDI-клавиатуры. Так что наличие подобного порта желательно, но не слишком уж и обязательно.

Совместимость с вашим ПО

На самом деле проблемы с аудио интерфейсами происходят в основном при совместимости с операционной системой и программным обеспечением. Поэтому узнайте, будет ли приглянувшейся вам звуковая карта работать с выбранной программой и в вашей операционной системе. И самое главное, будет ли нормально и стабильно работать Asio драйверы.

Примеры звуковых карт:

Ну и в качестве примера я покажу вам несколько аудио интерфейсов разных ценовых категорий. Советую обратить на это свое внимание, так как это не менее важный этап в выборе студийного оборудования для записи музыки. Исходя и вышесказанных моих рекомендаций, вы должны выбрать подходящую звуковую плату. Неплохие экземпляры вы можете купить вот здесь .

Бюджетная категория

Итак, из бюджетных звуковых карт я рекомендую вам обратить внимание на аудио интерфейс (нажмите для увеличения):

Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.

Чем отличается цифровой аудиосигнал от аналогового?

Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).

Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).

Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.

Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).

Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).

Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).

Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).

Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)

Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).

Данная формула позволяет вычислить количество уровней квантования:

Если N — количество уровней квантования,
n — разрядность, то

Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.

При n = 1 аудиосигнал превратится в азбуку Морзе: либо есть «стук», либо нету. Существует также разрядность 32 бит с плавающей запятой. Обычный компактный Аудио-CD имеет разрядность 16 бит. Чем ниже разрядность, тем больше округляются значения и тем больше ошибка квантования.

Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением ()

Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).

Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).

Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).

рис. 10. Интенсивность шумов при разрядности 6 бит и 8 бит

Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.

амплитуда сигнала при разрядности 1 бит (сверху) и 4 бит

50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.

Теперь о дискретизации.

Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то

Чтобы аналоговый сигнал можно было преобразовать обратно из цифрового сигнала (точно реконструировать непрерывную и плавную функцию из дискретных, «точечных» значении), нужно следовать теореме Котельникова (теорема Найквиста — Шеннона).

Теорема Котельникова гласит:

Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.

Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.

Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?

Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.

Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.

Аудиопример 4: Линейно возрастающая частота от

100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.

Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг

Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.

Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.

Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):

Битрейт = Частота дискретизации * Разрядность * Количество каналов

Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s

При постоянном битрейте (constant bitrate, CBR) передача объема потока данных в единицу времени не изменяется на протяжении всей передачи. Главное преимущество — возможность довольно точно предсказать размер конечного файла. Из минусов — не оптимальное соотношение размер/качество, так как «плотность» аудиоматериала в течении музыкального произведения динамично изменяется.

При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.

Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.

При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.

ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.

Существуют 3 метода хранения цифрового аудиоматериала:

Несжатые («сырые») данные
Данные, сжатые без потерь
Данные, сжатые с потерями

Несжатый (RAW) формат данных

содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).

Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.

Аудиоформаты с сжатием без потерь

Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.

Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.

Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).

Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…

При сжатии с потерями

акцент делается не на избежание потерь информации, а на спекуляцию с субъективными восприятиями (Психоакустика). Например, ухо взрослого человек обычно не воспринимает частоты выше 16kHz. Используя этот факт, кодек сжатия с потерями может просто жестко срезать все частоты выше 16kHz, так как «все равно никто не услышит разницу».

Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.

Звуковая информация. Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну с непрерывно меняющейся интенсивностью и частотой.

Человек воспринимает звуковые волны (колебания воздуха) с помощью слуха в форме звука различных громкости и тона. Чем больше интенсивность звуковой волны, тем громче звук, чем больше частота волны, тем выше тон звука (рис. 1.1).

Рис. 1.1. Зависимость громкости и высоты тона звука от интенсивности и частоты звуковой волны

Человеческое ухо воспринимает звук с частотой от 20 колебаний в секунду (низкий звук) до 20 000 колебаний в секунду (высокий звук).

Человек может воспринимать звук в огромном диапазоне интенсивностей, в котором максимальная интенсивность больше минимальной в 10 14 раз (в сто тысяч миллиардов раз). Для измерения громкости звука применяется специальная единица "децибел" (дбл) (табл. 5.1). Уменьшение или увеличение громкости звука на 10 дбл соответствует уменьшению или увеличению интенсивности звука в 10 раз.

Таблица 5.1. Громкость звука

Временная дискретизация звука. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму с помощью временной дискретизации. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенная величина интенсивности звука.

Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность "ступенек" (рис. 1.2).

Рис. 1.2. Временная дискретизация звука

Частота дискретизации. Для записи аналогового звука и г го преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за I секунду (чем больше частота дискретизации), тем точнее "лесенка" цифрового звукового сигнала повторяет кривую диалогового сигнала.

Частота дискретизации звука - это количество измерений громкости звука за одну секунду.

Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду.

Глубина кодирования звука. Каждой "ступеньке" присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.

Глубина кодирования звука - это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2 I . Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:

N = 2 I = 2 16 = 65 536.

В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему - 1111111111111111.

Качество оцифрованного звука. Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим "моно"). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим "стерео").

Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду й умножить на 2 (стереозвук):

16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.

Звуковые редакторы. Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).

Звуковые редакторы позволяют изменять качество цифрового звука и объем звукового файла путем изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV или в формате со сжатием МР3.

При сохранении звука в форматах со сжатием отбрасываются "избыточные" для человеческого восприятия звуковые частоты с малой интенсивностью, совпадающие по времени со звуковыми частотами с большой интенсивностью. Применение такого формата позволяет сжимать звуковые файлы в десятки раз, однако приводит к необратимой потере информации (файлы не могут быть восстановлены в первоначальном виде).

Контрольные вопросы

1. Как частота дискретизации и глубина кодирования влияют на качество цифрового звука?

Задания для самостоятельного выполнения

1. Задание с выборочным ответом. Звуковая плата производит двоичное кодирование аналогового звукового сигнала. Какое количество информации необходимо для кодирования каждого из 65 536 возможных уровней интенсивности сигнала?

1) 16 битов; 2) 256 битов; 3) 1 бит; 4) 8 битов.

2. Задание с развернутым ответом. Оценить информационный объем цифровых звуковых файлов длительностью 10 секунд при глубине кодирования и частоте дискретизации звукового сигнала, обеспечивающих минимальное и максимальное качество звука:

а) моно, 8 битов, 8000 измерений в секунду;

б) стерео, 16 битов, 48 000 измерений в секунду.

3. Задание с развернутым ответом. Определить длительность звукового файла, который уместится на дискете 3,5" (учтите, что для хранения данных на такой дискете выделяется 2847 секторов объемом 512 байтов каждый):

а) при низком качестве звука: моно, 8 битов, 8000 измерений в секунду;

б) при высоком качестве звука: стерео, 16 битов, 48 000 измерений в секунду.

Как люди, непосредственно связанные с AV сферой, мы постоянно говорим об аудио-кодировании и аудиокодеках, а что же это такое? Аудиокодек – это, по сути, устройство или алгоритм, способный кодировать и декодировать цифровой аудиосигнал.

На практике аудиоволны, которые передаются по воздуху, являются продолжительными аналоговыми сигналами. Сигналы преобразуются в цифровой формат устройством, которое называется аналого-цифровой преобразователь (АЦП), а устройство обратного преобразования – цифро-аналоговый преобразователь (ЦАП). Кодек находится между этими двумя функциями и именно он позволяет откорректировать некоторые важные параметры для успешного захвата, записи и трансляции звукового сигнала: алгоритм кодека, частота дискретизации, разрядность и скорость передачи данных.

Три наиболее популярных аудиокодека: Pulse-Code Modulation ( PCM), MP3 и Advanced Audio Coding ( AAC ). Выбор кодека определяет степень сжатия и качество записи. PCM – кодек, который используется компьютерами, CD-дисками, цифровыми телефонами и иногда SACD-дисками. Источник сигнала для PCM сэмплируется через равные интервалы, и каждый сэмпл представляет собой амплитуду аналогового сигнала в цифровом значении. PCM – это наиболее простой вариант для оцифровки аналогового сигнала.

При наличии правильных параметров этот оцифрованный сигнал может быть полностью реконструирован обратно в аналоговый без каких-либо потерь. Но этот кодек, обеспечивающий практически полную идентичность оригинальному аудио, к сожалению, не очень экономичен, что выражается в очень больших объемах файлов, а такие файлы не подходят для потокового вещания. Мы рекомендуем использовать PCM для записи цифровых образов для ваших источников или когда вы занимаетесь постобработкой аудио.

К счастью, у нас всегда есть возможность выбрать другой кодек, который может сжимать цифровые данные (по сравнению с PCM) на основании некоторых полезных наблюдений о поведении звуковых волн. Но в этом случае приходится идти на компромисс: все альтернативные алгоритмы сопряжены с «потерями», так как невозможно полностью восстановить исходный сигнал, но, тем не менее, результат всё равно хорош настолько, что большинство пользователей не смогут уловить разницу.

MP3 – это формат аудио-кодирования с использованием как раз такого алгоритма сжатия цифровых данных, который позволяет сохранять аудиосигнал в меньшие по объему файлы. Кодек MP3 чаще всего используется пользователями для записи и хранения музыкальных файлов. Мы рекомендуем применять MP3 для трансляций аудио-контента, так как ему требуется меньшая пропускная способность сети.

AAC – это более новый алгоритм кодирования аудиосигнала, ставший «преемником» MP3. AAC стал стандартом для форматов MPEG-2 и MPEG-4. По сути это тоже кодек сжатия цифровых данных, но с меньшей, чем у MP3, потерей качества при кодировании с одинаковыми битрейтами. Мы рекомендуем использовать этот кодек для онлайн трансляций.

Частота дискретизации (кГц, kHz)

Частота дискретизации (или частота сэмплирования) - частота, с которой происходит оцифровка, хранение, обработка или конвертация сигнала из аналога в цифру. Дискретизация по времени означает, что сигнал представляется рядом своих отсчетов (сэмплов), взятых через равные промежутки времени.

Измеряется в герцах (Гц, Hz) или килогерцах (кГц, kHz,) 1 кГц равен 1000 Гц. Например, 44 100 сэмплов в секунду можно обозначить как 44 100 Гц или 44,1 кГц. Выбранная частота дискретизации будет определять максимальную частоту воспроизведения, и, как следует из теоремы Котельникова, для того, чтобы полностью восстановить исходный сигнал, частота дискретизации должна в два раза превышать наибольшую частоту в спектре сигнала.

Как известно, человеческое ухо способно улавливать частоты между 20 Гц и 20 кГц. Учитывая эти параметры и значения, показанные в таблице ниже, можно понять, почему именно частота 44,1 кГц была выбрана в качестве частоты дискретизации для CD и до сих пор считается очень хорошей частотой для записи.

Есть ряд причин для выбора более высокой частоты дискретизации, хотя может показаться, что воспроизводить звук вне диапазона человеческого слуха – пустая трата сил и времени. При этом среднестатистическому слушателю будет вполне достаточно 44,1 – 48 кГц для качественного решения большинства задач.

Разрядность

Наряду с частотой дискретизации есть такое понятие как разрядность или глубина звука. Разрядность – это количество бит цифровой информации для кодирования каждого сэмпла. Проще говоря, разрядность определяет «точность» измерения входного сигнала. Чем больше разрядность, тем меньше погрешность каждого отдельного преобразования величины электрического сигнала в число и обратно. С минимальной возможной разрядностью есть только два варианта измерения точности звука: 0 для полной тишины и 1 для звучания в полном объеме. Если разрядность равна 8 (16), то при измерении входного сигнала может быть получено 2 8 = 256 (2 16 = 65 536) различных значений.

Разрядность закреплена в кодеке PCM, но для кодеков, которые предполагают сжатие (например, MP3 и AAC) этот параметр рассчитывается при кодировании и может меняться от сэмпла к сэмплу.

Битрейт

Битрейт - это показатель количества информации, которым кодируется одна секунда звучания. Чем он выше, тем меньше искажений и тем ближе закодированная композиция к оригиналу. Для линейного PCM битрейт рассчитывается очень просто.

битрейт = частота дискретизации × разрядность × каналы

Для таких систем как Epiphan Pearl Mini, которые кодируют линейный PCM 16-бит (разрядность 16), этот расчет может быть использован для определения, сколько дополнительных полос пропускания может потребоваться для PCM аудио. Например, для стерео (два канала) оцифровка сигнала производится с частотой 44,1 кГц на 16-бит, а битрейт при этом рассчитывается таким образом:

44,1 кГц × 16 бит × 2 = 1 411,2 кбит/с

Между тем алгоритмы сжатия аудиосигнала, такие как AAC и MP3, имеют меньшее количество бит для передачи сигнала (в этом и заключается их цель), поэтому они используют небольшие битрейты. Обычно значения находятся в диапазоне от 96 кбит/с до 320 кбит/с. Для этих кодеков чем выше битрейт вы выбираете, тем больше аудио бит вы получаете на сэмпл, и тем выше будет качество звучания.

Частота дискретизации, разрядность и битрейты в реальной жизни.

Аудио CD-диски, одни из первых наиболее популярных изобретений для простых пользователей для хранения цифрового аудио, использовали частоту 44,1 кГц (20 Гц – 20 кГц, диапазон человеческого уха) и разрядность 16-бит. Данные значения были выбраны, чтобы при хорошем качестве звука иметь возможность сохранять как можно больше аудио на диске.

Когда к аудио добавилось видео и появились DVD, а позднее Blu-Ray диски, был создан новый стандарт. Записи для DVD и Blu-Rays обычно используют линейный формат PCM с частотой 48 кГц (стерео) или 96 кГц (звук 5.1 Surround) и разрядность 24. Эти значения были выбраны в качестве идеального варианта, чтобы сохранять аудио с синхронизацией с видео и при этом получать максимально возможное качество с использованием дополнительного доступного дискового пространства.

Наши рекомендации

CD, DVD и Blu-Ray диски преследовали одну цель – дать потребителю высококачественный механизм воспроизведения. Задачей всех разработок было предоставить высокое качество аудио и видео, не заботясь о величине файла (лишь бы он умещался на диск). Такое качество мог обеспечить линейный PCM.

Напротив, у мобильных средств информации и потокового медиа совсем другая цель – использовать максимально низкий битрейт, при этом достаточный для поддержания приемлемого для слушателя качества. Для этой задачи лучше всего подходят алгоритмы сжатия. Теми же принципами вы можете руководствоваться для своих записей.

При записи аудио с видео…

В случае если запись будет использоваться для последующей обработки , выбирайте кодек PCM с частотой 48 кГц и максимальной разрядностью (16 или 24), чтобы обеспечить наилучшее качество аудио. Мы рекомендуем данные параметры для Epiphan Pearl Mini.

При потоковой передаче аудио с видео…

При потоковой передаче или записи для последующей трансляции можно получить хорошее звучание аудио при меньшей полосе пропускания, используя кодеки AAC или MP3 с частотой 44,1 кГц и битрейт 128 кбит/с или выше. Такие параметры гарантируют, что звук будет достаточно хорош и не скажется на качестве трансляции.

Читайте также: