Как происходит обработка звукового сигнала в компьютере

Обновлено: 04.07.2024

Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:

  • 1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.
  • 2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное "сворачивание" сигнала из спектра в волну.
  • 3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или "объёмности" звука.
  • 4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.

Echo (эхо). Реализуется с помощью временных преобразований. Фактически для получения эха необходимо на оригинальный входной сигнал наложить его задержанную во времени копию. Для того, чтобы человеческое ухо воспринимало вторую копию сигнала как повторение, а не как отзвук основного сигнала, необходимо время задержки установить равным примерно 50 мс. На основной сигнал можно наложить не одну его копию, а несколько, что позволит на выходе получить эффект многократного повторения звука (многоголосного эха). Чтобы эхо казалось затухающим, необходимо на исходный сигнал накладывать не просто задержанные копии сигнала, а приглушенные по амплитуде.

Reverberation (повторение, отражение). Эффект заключается в придании звучанию объемности, характерной для большого зала, где каждый звук порождает соответствующий, медленно угасающий отзвук. Практически, с помощью реверберации можно "оживить", например, фонограмму, сделанную в заглушенном помещении. От эффекта "эхо" реверберация отличается тем, что на входной сигнал накладывается задержанный во времени выходной сигнал, а не задержанная копия входного. Иными словами, блок реверберации упрощенно представляет собой петлю, где выход блока подключен к его входу, таким образом уже обработанный сигнал каждый цикл снова подается на вход смешиваясь с оригинальным сигналом.

Chorus (хор). В результате его применения звучание сигнала превращается как бы в звучание хора или в одновременное звучание нескольких инструментов. Схема получения такого эффекта аналогична схеме создания эффекта эха с той лишь разницей, что задержанные копии входного сигнала подвергаются слабой частотной модуляции (в среднем от 0.1 до 5 Гц) перед смешиванием со входным сигналом. Увеличение количества голосов в хоре достигается путем добавления копий сигнала с различными временами задержки.

"Обычный" аналоговый звук представляется в аналоговой аппаратуре непрерывным электрическим сигналом. Компьютер оперирует с данными в цифровом виде. Это означает, что и звук в компьютере представляется в цифровом виде.

Цифровой звук - это способ представления электрического сигнала посредством дискретных численных значений его амплитуды. Допустим, мы имеем аналоговую звуковую дорожку хорошего качества (говоря "хорошее качество" будем предполагать нешумную запись, содержащую спектральные составляющие из всего слышимого диапазона частот - приблизительно от 20 Гц до 20 КГц) и хотим "ввести" ее в компьютер (то есть оцифровать) без потери качества. Звуковая волна - это некая сложная функция, зависимость амплитуды звуковой волны от времени. Эту функцию описывают путем хранения ее дискретных значений в определенных точках. Иными словами, в каждой точке времени можно измерить значение амплитуды сигнала и записать в виде чисел. Однако и в этом методе есть свои недостатки, так как значения амплитуды сигнала мы не можем записывать с бесконечной точностью, и вынуждены их округлять. Говоря иначе, мы будем приближать эту функцию по двум координатным осям - амплитудной и временной. Таким образом, оцифровка сигнала включает в себя два процесса - процесс дискретизации (осуществление выборки) и процесс квантования. Процесс дискретизации - это процесс получения значений величин преобразуемого сигнала в определенные промежутки времени.

Квантование - процесс замены реальных значений сигнала приближенными с определенной точностью. Таким образом, оцифровка - это фиксация амплитуды сигнала через определенные промежутки времени и регистрация полученных значений амплитуды в виде округленных цифровых значений (так как значения амплитуды являются величиной непрерывной, нет возможности конечным числом записать точное значение амплитуды сигнала, именно поэтому прибегают к округлению). Записанные значения амплитуды сигнала называются отсчетами. Очевидно, что чем чаще мы будем делать замеры амплитуды (чем выше частота дискретизации) и чем меньше мы будем округлять полученные значения (чем больше уровней квантования), тем более точное представление сигнала в цифровой форме мы получим.

Оцифрованный сигнал в виде набора последовательных значений амплитуды можно сохранить.

Однако, надо иметь в виду, что память компьютера не бесконечна, так что каждый раз при оцифровке необходимо находить какой-то компромисс между качеством (напрямую зависящим от использованных при оцифровке параметров) и занимаемым оцифрованным сигналом объемом.

А также, частота дискретизации устанавливает верхнюю границу частот оцифрованного сигнала, а именно, максимальная частота спектральных составляющих равна половине частоты дискретизации сигнала. Попросту говоря, чтобы получить полную информацию о звуке в частотной полосе до 22050 Гц, необходима дискретизация с частотой не менее 44.1 КГц.

Существуют и другие проблемы и нюансы, связанные с оцифровкой звука. Не сильно углубляясь в подробности отметим, что в "цифровом звуке" из-за дискретности информации об амплитуде оригинального сигнала появляются различные шумы и искажения. Так, например, джиттер (jitter) - шум, появляющийся в результате того, что осуществление выборки сигнала при дискретизации происходит не через абсолютно равные промежутки времени, а с какими-то отклонениями. То есть, если, скажем, дискретизация проводится с частотой 44.1 КГц, то отсчеты берутся не точно каждые 1/44100 секунды, а то немного раньше, то немного позднее. А так как входной сигнал постоянно меняется, то такая ошибка приводит к "захвату" не совсем верного уровня сигнала. В результате во время проигрывания оцифрованного сигнала может ощущаться некоторое дрожание и искажения. Появление джиттера является результатом не абсолютной стабильности аналогово-цифровых преобразователей. Для борьбы с этим явлением применяют высокостабильные тактовые генераторы. Еще одной неприятностью является шум дробления. При квантовании амплитуды сигнала происходит ее округление до ближайшего уровня. Такая погрешность вызывает ощущение "грязного" звучания.

На практике, процесс оцифровки (дискретизация и квантование сигнала) остается невидимым для пользователя - всю черновую работу делают разнообразные программы, которые дают соответствующие команды драйверу (управляющая подпрограмма операционной системы) звуковой карты. Любая программа (будь то встроенный в Windows Recorder или мощный звуковой редактор), способная осуществлять запись аналогового сигнала в компьютер, так или иначе оцифровывает сигнал с определенными параметрами, которые могут оказаться важными в последующей работе с записанным звуком, и именно по этой причине важно понять как происходит процесс оцифровки и какие факторы влияют на ее результаты.

Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:

1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.

2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.

3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.

4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.

Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом). Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене. Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и скрупулезная проработка всех нюансов звучания. Существует множество различных операций над звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме .

Аналоговый и дискретный способы представления звука

Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.

При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.

При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.


Примером аналогового хранения звуковой информации является виниловая пластин­ка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).

Восприятие звука человеком

Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.

Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.

В аналоговой форме звук представляет собой волну, которая характеризуется:

  • Высота звука определяется частотой колебаний вибрирующего тела.
  • Г ромкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
  • Длительность звука - продолжительность колебаний.
  • Тембром звука называется окраска звука.

Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с

Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).



Кодирование звуковой информации

Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).


  • В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
  • Таким образом, при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.

Качество кодирования звуковой информации зависит от :

1)частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

2)глубиной кодирования, т.е. количества уровней сигнала.

Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.

Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.

Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-С D . Следует также учитывать, что возможны как моно-, так и стерео-режимы.

РСМ. РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.

WAV. Самое простое хранилище дискретных данных. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости, в wav может быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали - это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.

RIFF. Resource Interchange File Format. Уникальная система хранения любых структурированных данных.

IFF. Эта технология хранения данных проистекает от Amiga-систем. Interchange File Format. Почти то же, что и RIFF, только имеются некоторые нюансы. Начнем с того, что система Amiga - одна из первых, в которой стали задумываться о программно-сэмплернойэмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.

MOD. Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.

AIF или AIFF. Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.

МР3. Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для "обычных немузыкальных" людей потери не ощутимы явно.

VQF. Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF - процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.

RA. Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.

Одной из основных задач информатики является представление данных в виде удобном для хранения и передачи. Эти данные могут быть разного типа – звуковые, текстовые, графические и т.д. В этой статье мы расскажем про кодирование звуковой информации. Из этой статьи Вы узнаете основные принципы и определения. Также после прочтения сможете посчитать объем аудио файла. Читайте!

Основные определения

Для того чтобы разобраться в теме надо знать, что представляет собой звуковая информация (звук).

Звук – это непрерывная аналоговая волна, которая распространяется в окружающей среде. В роли среды может выступать воздух, жидкость, твердое тело, электричество и т.д.

Звук, как непрерывную волну, характеризуют две характеристики – частота и амплитуда.

От амплитуды зависит громкость аудио сигнала . Чем выше амплитуда, тем громкость больше.

Частота же характеризует тональность аудиоинформации . Чем больше частота, тем тональность выше. Человеческий слух улавливает волны от 20 Гц до 20 кГц. 1 Гц равен 1 колебанию аудио сигнала в секунду.

Это интересно Объекты операционной системы Windows ✔

Представление и кодирование звуковой информации в компьютере

Для представления и кодирования звука используются специальное оборудование и программы. Рассмотрим весь процесс более подробно.

  1. Аудиоинформация, поступая из окружающей среды (например, по воздуху), преобразуется в электрический сигнал. Для этого используется такое устройство, как микрофон.
  2. После этого звук поступает на АЦП (аналого-цифровой преобразователь), где подвергается оцифровке.
  3. На последнем этапе информация (уже в двоичном виде) кодируется при помощи специальной программы – аудиокодека. На выходе получается файл в специальном формате (например, mp3), который можно хранить, воспроизводить и передавать.

Кодирование звуковой информации

Наибольший интерес представляет процесс оцифровки, также называемым аналого-цифровым преобразованием. В результате него аналоговый сигнал заменяется на цифровой.

Основной принцип аналогово-цифрового преобразования заключается в том, что через равные промежутки времени измеряется амплитуда волны. Также этот процесс называется дискретизация.

Дискретизация – это процесс в результате, которого непрерывная функция представляется в виде дискретной последовательности её значений. Схематично дискретизацию можно представить так:

Кодирование звуковой информации

Дискретизация характеризуется двумя такими величинами, как:

  • Частота шага по времени;
  • Шаг квантования.

Первая величина отображает, как часто берутся дискреты и измеряется в Герцах (количество измерений за одну секунду). Частота шага по времени находится по теореме Котельникова.

Шаг квантования характеризуется количеством уровней , до которых округляются величины амплитуды волны.

Количество уровней (ступенек) до которых округляются значения сигнала, зависит от аналого-цифрового преобразователя. На данный момент используются 16, 32 и 64 битные устройства.

Количество бит, затрачиваемое для номеров уровней, называется глубиной кодирования звуковой информации.

Глубина кодирования связано с количеством уровней по формуле:

Где i разрядность АЦП в битах.

Чем чаще берутся дискреты за единицу времени и больше глубина кодирования, тем выше качество звуковых данных на выходе и дороже АЦП.

Расчет объема аудио файла

​ \[V = 60*1*8000*8=3840000 \ бит \] ​

Форматы аудио

Форматов для хранения аудио много, однако, все они делятся на две большие группы в зависимости от того, какой из методов сжатия используется – LOSELESS или LOSSY.

  1. LOSELESS – метод сжатия без потерь. Качество звуковой информации остается без изменений, однако за него приходится платить большим объемом компьютерной памяти. Используется для хранения музыки и других данных, где важно качество. Форматы, которые основаны на данном методе сжатия: FLAC, APE, TAC, ALAC и другие. На данный момент зарабатывают все большую популярность в связи с увеличением дискового пространства.
  2. LOSSY – сжатие с потерями. При таком методе файл сохраняются с искажениями относительно оригинала. В основном эти искажения не воспринимаются человеческим слухом, а также не замечаются при плохом аудио оборудовании. LOSSY позволяет существенно сэкономить дисковое пространство. На данный момент этот метод сжатия является доминирующим.

Форматы кодирования использующие алгоритмы LOSSY:

  • MP3 (MPEG-1,2,2.5) – самый популярный аудио формат. Проигрывается на всех аудио и видео системах, по умолчанию поддерживается всеми операционными системами. Искажения заметны на высокоточной дорогостоящей аппаратуре.
  • AAC – формат, который разрабатывался и позиционировался, как приемник mp3. Не получил широкого распространения. Преимущества перед mp3: большая гибкость кодирования, возможность использовать до 48 звуковых каналов.
  • HE-AAC (High-Efficiency Advanced Audio Coding) – используется в цифровом радио и телевиденье.

Заключение


В данный момент вы не можете посмотреть или раздать видеоурок ученикам

Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет, приобрев в каталоге.

Получите невероятные возможности



2. Раздавайте видеоуроки в личные кабинеты ученикам.


3. Смотрите статистику просмотра видеоуроков учениками.

Конспект урока "Представление звука в компьютере"

· оцифровка вводимого звукового сигнала;

· качество цифрового звука;

· виды кодирования звуковых файлов.

С начала 90-ых годов персональные компьютеры получили возможность работать со звуковой информацией.


Каждый компьютер, имеющий звуковую плату, микрофон и колонки, может записывать, сохранять и воспроизводить звуковую информацию.


С помощью специальных программных средств (редакторов звукозаписей) открываются широкие возможности по созданию, редактированию и прослушиванию звуковых файлов. Создаются программы распознавания речи и, в результате, появляется возможность управления компьютером при помощи голоса.


А как же представляется звук в компьютере?

Вообще звук – это процесс колебания воздуха или любой другой среды, в которой он распространяется. Звук характеризуется амплитудой (силой) и частотой (количеством колебаний в секунду).

Под звукозаписью понимают процесс сохранения звуковой информации на каком-либо носителе с помощью специальных устройств.

Ввод звука в компьютер производится с помощью звукового устройства, микрофона или радио, выход которого подключается к порту звуковой карты.


Рассмотрим подробнее процесс ввода звука в компьютер.

Звуковые сигналы непрерывны. С помощью микрофона звуковой сигнал превращается в непрерывный электрический сигнал. Но, как вы помните компьютер может работать только с цифровой информацией, поэтому если нам нужно обработать звук на компьютере, то его необходимо дискретизировать – то есть превратить в прерывистую, состоящую из отдельных частей, последовательность нулей и единиц.

Процессом преобразования звука из непрерывной формы в дискретную при записи и из дискретной в непрерывную при воспроизведении занимается звуковая карта или аудио адаптер.


Звуковая карта – это устройство для записи и воспроизведения звука на компьютере. То есть задача звуковой карты — с определённой частотой производить измерения уровня звукового сигнала и результаты измерения записывать в память компьютера. Этот процесс называют оцифровкой звука.

Промежуток времени между двумя измерениями называется периодом измерений — обозначается буквой Т и измеряется в секундах.

Таким образом на качество преобразования звука влияет несколько условий:

• Частота дискретизации, то есть сколько раз в секунду будет измерен исходный сигнал.

• Разрядность дискретизации – количество битов, выделяемых для записи каждого результата измерений.


Результаты таких измерений представляются целыми положительными числами с конечным количеством разрядов. Как мы уже говорили, в таком случае получается дискретное конечное множество значений в ограниченном диапазоне.

Размер этого диапазона зависит от разрядности ячейки — регистра памяти звуковой карты.


То есть обратите внимание, снова работает главная формула информатики:


здесь i — это разрядность регистра. Также число i называют разрядностью дискретизации. Записанные данные сохраняются в файлах специальных звуковых форматов.

Две минуты записи цифрового аудиофайла занимают на диске 5,1 Мб. Частота дискретизации ровна 22050 Герц. Нужно найти разрядность аудиоадаптера.


При воспроизведении звукового файла цифровые данные преобразуются в электрический аналог звука. К звуковой карте подключаются наушники или звуковые колонки. С их помощью электрические колебания преобразуются в механические звуковые волны, которые воспринимают наши уши.

Таким образом, чем больше разрядность и частота дискретизации, тем точнее представляется звук в цифровой форме и тем больше размер файла, хранящего его.

Рассмотрим такой пример: Нужно определить качество звука (то есть какое это качество радиотрансляции или качество аудио-CD) если известно, что объём моноаудиофайла длительностью звучания в 10 секунд равен 940 Кб. Разрядность аудиоадаптера ровна 16 бит.


Рассмотрим ещё один пример. Аналоговый звуковой сигнал был дискретизирован сначала с использованием 256 уровней интенсивности сигнала (качество звучания радиотрансляции), а затем с использованием 65536 уровней интенсивности сигнала (качество звучания аудио-CD). Нужно найти во сколько раз различаются информационные объёмы оцифрованного звука?


Для работы со звуковой информацией на компьютере используются различные программы. Одни из них позволяют записать звук на цифровой носитель, другие — воспроизвести. Существуют программы, которые выполняют более сложную обработку звука. Такие программы называются редакторы звука. Например, можно вырезать фрагмент музыкального произведения или речи, объединить фрагменты, изменить тембр звучания, длительность воспроизведения создавать различные музыкальные эффекты, очищать звук от шумов, согласовывать с изображениями для создания мультимедийных продуктов и так далее.

При хранении оцифрованного звука приходится решать проблему уменьшения объёма звуковых файлов. Существует два способа кодирования звука: кодирования данных без потерь, позволяющего осуществлять стопроцентное восстановление данных из сжатого потока. А также кодирование данных с потерями. Позволяет добиться схожести звучания восстановленного сигнала с оригиналом при максимальном сжатии данных. Здесь используются различные алгоритмы, сжимающие оригинальный сигнал путём выкидывания из него слабо слышимых элементов.

Существует множество различных аудио форматов. Наиболее часто используются такие форматы как WAV и MP3. Тип формата обычно определяется расширением файла (то, что идёт после точки в имени файла mp3, wav, ogg, wma)

WAV – один из первых аудио-форматов. Обычно используется для хранения несжатых аудиозаписей, идентичных по качеству звука записям на компакт-дисках. В среднем одна минута звука в формате wav занимает около 10 Мб.


MP3 – наиболее распространённый в мире звуковой формат. MP3, как и многие другие форматы кодирует звук с потерей качества, то есть урезает звук, который не слышится человеческим ухом, тем самым уменьшая размер файла.


На текущий момент mp3 не является лучшим форматом по соотношению размера файла к качеству звучания, но в силу своей распространённости и поддерживаемости большинством устройств, многие хранят свои записи именно в нём.


Звуковая карта – это устройство для записи и воспроизведения звука на компьютере. Задача звуковой карты — с определённой частотой производить измерения уровня звукового сигнала и результаты измерения записывать в память компьютера. Этот процесс называют оцифровкой звука.

Качество оцифрованного звука зависит от:

• Частоты дискретизации, то есть сколько раз в секунду будет измерен исходный сигнал.

• и Разрядности дискретизации – то есть от количества битов, выделяемых для записи каждого результата измерений.

Существует два способа кодирования звука:

• кодирования данных без потерь, здесь осуществляется стопроцентное восстановление данных из сжатого потока;

• кодирование данных с потерями. Это способ позволяет добиться схожести звучания восстановленного сигнала с оригиналом при максимальном сжатии данных.

5.0 Оценок: 8 (Ваша: ) Для неопытного пользователя попытка заняться обработкой музыки может закончиться обескураживающе. Сотни незнакомых терминов, десятки сложных программ с перегруженным интерфейсом, непонимание основных принципов редактирования — всё это причины, по которым хочется отложить свои эксперименты с музыкой на потом. На самом деле бояться нечего! Чтобы сделать ремикс любимого трека, записать кавер и даже песню собственного сочинения, не обязательно получать специальное образование. Достаточно разобраться в базовых приемах редактирования аудиозаписей и подобрать подходящую программу. Чтобы подробно разобраться и в том, и в другом вам поможет эта статья.

Разновидности обработки звука

При классификации видов обработки звука на компьютере учитываются следующие исходные данные:

  • характеристики, которые можно менять (громкость, частота, амплитуда, фаза, частотный и динамический диапазоны, битрейт, частота дискретизации);
  • привычное уху свойство звуковой волны отражаться от поверхности, создавая такие эффекты, как эхо и реверберация;
  • расположение источника звука относительно панорамы.

В зависимости от комбинации этих факторов можно выделить 4 основные группы преобразований:

  1. Амплитудные (динамические).
  2. Частотные (спектральные).
  3. Временные (пространственные).
  4. Другие (не вошедшие в первые три по различным причинам).

Также стоит не забывать про такое направление в редактировании звука как аудиомонтаж — это простой и древний способ обработки, который применяется для 90% фонограмм. Обрезка начала или конца трека, вырезание и вставка отрывков, их замена и размножение. Все подобные действия интуитивно понятны в любом редакторе, поэтому отдельно рассматриваться не будут.

Обработка аудиозаписи необходима для её дальнейшего использования

Амплитудные преобразования

Динамическая обработка звука подразумевает под собой увеличение громкости, а также расширение и сужение динамического диапазона (разницы между самым маленьким и большим значением амплитуды). Во втором случае часть звуков становится громче, а часть — тише.

Выделяют 8 основных эффектов.

Применяется для выравнивания громкости всей композиции или отрывка. Указывается в процентах. Если выставить нормирование на 100%, то при максимально выкрученной ручке громкости будет выдаваться ее максимально доступный программный (цифровой) уровень. Чем меньше уровень нормализации, тем тише получится звук при одном и том же значении уровня громкости в проигрывателе.

Fade in и Fade out

Эффекты вступления и отступления помогают делать плавные переходы между композициями, чтобы альбом звучал более цельно. Если применить их одновременно для правого и левого каналов, то появится ощущение нарастания или затихания. При использовании в одном канале создается ощущение приближения или удаления источника звука.

Также полезны для маскировки щелчков и других помех в начале и конце трека.

Любые изменения можно наблюдать на звуковой волне

Применяется для увеличения громкости и разборчивости аудио. Функция снижает амплитудный диапазон звука — разница между самыми громкими и самыми тихими участками снижается, благодаря чему уху проще уловить все детали. Проще всего принцип компрессии понять на примере листа бумаги. Если его скомкать, то получится много резких выступающих граней. Если же его сжать со всей силы, то он станет похож на шар, с меньшим количеством резких граней. Именно таким образом компрессор обрезает все “торчащие” звуки, а громкость увеличивается в той же степени, в которой было сделано сжатие.

Минусы: снижается динамика трека, в звучании появляется монотонность.

Жесткая версия компрессора, которая срезает, а не плавно подавляет звуки. Как правило, используется уже после сведения для доработки готового трека. С его помощью убирают ненужные пики, поднимают сигнал до максимального уровня без искажений.

Так же существует расширенная версия с более тонкими настройками — максимайзер. Применяется во время мастеринга, чтобы улучшить итоговое звучание.

В отличие от компрессора подавляет звук на нижних значениях. Удобен для избавления от шумов (нужно выставить порог срабатывания чуть выше их уровня). Необходимо точно задать параметры обработки, а иногда приходится все делать вручную.

Одно из преобразований группы сатурации. Дает эффект перегрузки усилителя с искажением и уплотнением звука. Получается за счет неестественного и резкого сокращения динамического диапазона. Волны прямоугольной формы богаты гармониками, благодаря чему звучание получается яркое, агрессивное, скрежещущее.

Чаще всего можно услышать на гитаре в heavy metal композициях, но иногда применяется и для вокальных партий.

Разновидностями эффекта являются fuzz и овердрайв. Их отличие – в частотных показателях усилителя, методах ограничения, пропорции базового и искаженного сигнала.

Например, гитаристы во время выступлений используют специальную педаль для достижения эффекта дисторшн

Вибрато (амплитудная модуляция)

Простое изменение амплитуды, при котором звук начинает дрожать с заложенной периодичностью. При повышенных значениях превращается в риппер. Также выделяют тремоло — подвид вибрато, при котором итоговый сигнал выдается порционно при частоте более 10 Гц.

На начальном этапе, когда все эти способы обработки будут для вас ещё в новинку, советуем работать в простых аудиоредакторах. В идеале – в тех, что предлагают готовые режимы преобразования трека. Это поможет вам не только сэкономить время и не потерять энтузиазм, но и на практике отследить, как меняют звучание исходной аудиодорожке те или иные настройки.

Подбор удобного софта может занять от получаса до нескольких дней – редакторов звука, которые действительно подходили бы для новичков, крайне мало. На наш взгляд, оптимальный вариант – программа АудиоМАСТЕР. Также можно выделить Аудасити и AVS Audio Editor – по функционалу они похожи – но АудиоМАСТЕР кажется более «заточенным» под новичка. Большинство функций автоматизированы, а для более продвинутых инструментов есть понятные подсказки. Впрочем, советуем скачать аудиоредактор бесплатно по ссылке ниже и присмотреться самостоятельно.

Пропробуйте программу АудиоМАСТЕР бесплатно —

Cамый простой способ обработать аудиофайлы и сохранить в любом популярном формате!

Частотные преобразования

Этот тип применяется для очищения аудиозаписи от шумов. Контролировать процесс удобно с помощью спектрограммы — графика частот, присутствующих в композиции. Быстрее всего можно обработать музыку с 4 частотными эффектами.

Параметрический и графический эквалайзеры

Параметрическим гасят выбранные частоты, с выбранной степенью и радиусом подавления. Удобно заглушать различные призвуки, находящиеся в узком диапазоне частот.

В графическом все настройки задаются визуально, с помощью нарисованного мышкой графика. Этим методом убирают звук лишнего инструмента, так как можно разнообразно диверсифицировать уровень подавления всего диапазона.

Полезные частоты желательно не повышать, а для их выделения понижать лишние. Также не стоит применять эквалайзеры на вокале, т.к. человеческий слух очень тонко замечает минимальные отличия в голосе, тембре.

Эквалайзер позволяет корректировать амплитуду избирательно и самостоятельно выравнивать звук

Быстрое преобразование Фурье (FFT)

БПФ — быстрый и безапелляционный метод глушения ненужных частот. Если при использовании предыдущих способов подавленная волна все равно остается, то FFT моментально и полностью вырезает лишний материал.

Инструмент для повышения и понижения тембров. Результат достигается путем ускорения или замедления проигрывания.

High pass и Low pass

Звуковой фильтр high pass используют для того, чтобы не перегружать акустику скромных размеров басами. Действует просто — обрезает все частоты ниже заданной.

Low Pass наоборот обрезает все, что выше заданной частоты. Применяется для сабвуферов и мидбасовых динамиков. Например, если саб расположен в багажнике автомобиля, то его желательно обрезать на 70Hz. В противном случае ухо будет воспринимать басовую линию четко из-за спины, отдельно от остальной музыки.

На изображении можно видеть применение фильтра Low pass

Временные преобразования

Эти эффекты используются для пространственной обработки звука. Основываются на эффекте отражения звуковых волн, который наблюдается в реальном мире. Из-за него на открытых пространствах слышно эхо, в пустых коридорах — реверберацию. Моделируя процессы распространения звука в окружающем мире, мы как раз выполняем преобразования временных задержек.

Эффект эхо — самый популярный из этого раздела. Представляет собой однократную или многократную задержку нескольких сигналов, добавляющихся к основному. Минимальная задержка для того, чтобы получился эффект — 50 миллисекунд. В этом случае человеческое ухо воспринимает отражения как повторения оригинального сигнала, а не призвуки. Как правило, повторяющиеся копии сопровождаются затуханием, как и в реальной жизни.

Реверберация и реверсивная реверберация

Реверберация — это эффект помещений. Услышать его можно, хлопнув в коридоре в ладоши. Звук будет отражаться от одной стены, идти к другой, затем назад к первой и так последовательно “гулять” до своего затухания. Задержка должна быть меньше 50 млс, только тогда человеческое ухо распознает призвук, а не эхо.

Лучше всего ее привязывать к темпу (например, к удару барабана), а затухание подловить такое, чтобы эффект закончился до очередного удара. Так получится ее совместное дыхание с музыкой, что добавит атмосферности.

Схематичное изображение эффекта реверберации

Реверсивная версия рождается за счет обращения по времени обработанного ревербератором звука. Он как-бы начинает приближаться до того, как реально начнет звучать. Хорошо подходит для акцентирования на том или ином инструменте.

В отличие от эха дилэй/delay не имеет никаких привязанных к реальности качеств, поэтому звук просто повторяется с заданными периодичностью и затуханием. Ритмический повтор бывает обычный (с одной линией задержки базового сигнала) и сложный (2 и более линий). Лучше всего обрабатывать им отдельные партии.

Хорус и фленжер

Хорус/chorus клонирует сигнал, понемногу сдвигая частотный спектр в каждой копии. С его помощью имитируется хоровое пение или звучание инструментов. Создается ощущение, что на панораме расположено несколько источников звука.

Фленжер/flanger по сути является частным случаем хоруса, только в этом случае задержка сопровождается фидбэком. При смешивании двух сигналов второй задерживается на 10 млс, из-за чего проявляется эффект перемещающегося гребенчатого фильтра. Хорошим примером фленжера является смена тональности сигнала проезжающей мимо машины (Доплер).

Фейзер/phaser создает эффект вращения каналов. В реальности может достигаться, когда источник звука или приемник перемещаются в пространстве друг относительно друга. Может применяться для точечного вырезания инструментов из трека.

Другие преобразования

В эту группу можно добавить пару десятков пунктов, но в кратком обзоре будут рассмотрены 2 наиболее известных.

Плагин для обработки вокала, ставший популярным среди исполнителей поп-музыки. Автотьюн автоматически отслеживает высоты нот, и когда обнаруживает нечистые, то подтягивает их до ближайшей “хорошей” ноты. Благодаря этой функции даже неумелые вокалисты могут звучать достаточно хорошо, так как ошибки будут скрыты автоматикой. Но если человек совсем не умеет петь, то обработанный голос будет ощущаться как ножом по уху.

Благодаря Auto Tune можно скорректировать и изменить чистоту музыкального тона

Представляет собой перенос музыки в другую тональность. Это нужно, когда присутствуют высокие ноты, неудобные для исполнения. Понизив общую тональность, вокалист без проблем споет песню на удобной высоте. Этот несложный прием обработки аудио можно провести даже онлайн – такие эффекты есть и в самом простом редакторе.

Виды аудиоредакторов и обработки

В общем виде лучшие программы для редактирования звука можно разделить на две больших категории:

  1. Wave Editor — редакторы этого типа используются для записи, обработки и монтажа аудио, включая генерацию звуков, наложение эффектов для музыки, коррекция качества и т.д.
  2. Digital Audio Workstation — профессиональный программы с расширенным диапазоном возможностей, применяемые, как правило, в студиях. Состоят из нескольких частей, объединенных одной графической оболочкой. Практически все DAW имеют полноценный MIDI-секвенсор, а некоторые даже встроенный видеоредактор для создания клипов.

Основные задачи практически всех программ обоих типов это – редактирование, обработка и сведение звука. При этом может осуществляться два типа редактирования: “недеструктивное” и “деструктивное”.

  • При обработке звука в реальном времени (real-time) изменяются только параметры воспроизведения. Если какие-то данные были удалены, то по факту они просто скрываются и не используются при проигрывании. Все эффекты могут быть наложены или отменены даже во время прослушивания. При этом на слабом компьютере одновременно удастся применить небольшое количество эффектов, а микширование и последующий экспорт производятся очень медленно.
  • Деструктивное меняет исходный файл, к примеру удаляет часть песни. “Откатить” можно только часть таких изменений и только во время этой же сессии редактирования. Зато можно одновременно применять неограниченное количество эффектов, видеть весь процесс в графическом редакторе, быстро проходить этапы микширования, экспорта.
Как правило, «нестудийные» аудиоредакторы относятся ко второму типу, так что каждый этап обработки должен быть последовательным и осознанным. Это ещё раз доказывает – начинать лучше с программ попроще. С их помощью вы научитесь свободно ориентироваться в приемах редактирования звука и сможете без проблем перейти к работе в профессиональном ПО.

На случай, если вы хотите получше присмотреться к кандидатам, советуем заглянуть в наш большой рейтинг программ для создания и обработки музыки. В нем представлены как простые редакторы, так и полноценные системы для профи – почитайте обзор и скачайте ту, что понравится больше.

Заключение

Для того, чтобы научиться простым преобразованиям звука, не нужно тратить месяцы и годы жизни на доп. образование. Необходимо узнать основные типы эффектов, как и для чего они применяются, выбрать простой многофункциональный редактор и начать практиковаться. Это позволит на собственном опыте понять, как правильно обрабатывать звук.

Читайте также: