Способы хранения музыкальной информации форматы звуковых файлов реферат

Обновлено: 08.07.2024

В настоящее время звуковая информация является неотъемлемой частью любой мультимедиа системы. В связи с этим возникает проблема хранения звуковых данных. До появления цифровой техники звук хранился в виде, наиболее близком к природному: в виде аналоговых колебаний, записанных на магнитный носитель или виниловый диск. Однако, несмотря на то, что этот способ хранения наиболее точно передает все свойства звука, проблемы хранения и передачи делают невозможным использование этого способа в мультимедиа системах. Возникает необходимость хранения звуковой информации в цифровом виде.

При работе со звуком важно знать не только основные возможности программ, используемых при создании звуковых мультимедиа компонентов, но и основные форматы и параметры цифрового звука. Немаловажную роль при работе со звуком играет понимание процессов преобразования аналогового звука в цифровую форму.

Звуковая информация представляет собой совокупность колебаний звуковой частоты – от 20Гц до 20кГц


Рис.1. Звуковая информация

Наиболее очевидным способом хранения звука в цифровой форме является дискретизация по времени и амплитуде. При этом непрерывный сигнал представляется как последовательность отсчетов, идущих через фиксированные интервалы времени (рис. 2).


Рис.2. Дискретизация по времени и амплитуде

Такое представление называется также импульсно-кодовая модуляция (PulseCodeModulation, PCM). На качество преобразованного звука влияют два параметра: частота дискретизации (samplingrate), и разрядность дискретизации (samplesize). Частота дискретизации показывает, как часто измеряется амплитуда сигнала, а разрядность дискретизации – число битов, используемых для хранения каждого отсчета. Чем выше эти два параметра, тем ближе оцифрованный сигнал будет к исходному аналоговому, в то же время, будет увеличиваться объем данных, кодирующих этот сигнал, и, соответственно, требуемая пропускная способность канала связи. Возникает задача сжатия оцифрованного звука.

- стандарт CD-audio: 44,1 кГц, 16 бит;

- стандарт DVD: 96 кГц, 24 бит.

Форматы цифрового звука

Формат аудиофайла представляет собой спецификацию, описывающую структуру, в которой аудиоданные хранятся в файле. Существование множества звуковых форматов обусловлено множеством областей применения звуковых данных, например, для воспроизведения в CD-приводе, для хранения музыки или звуковых эффектов в видео играх, для записи саундтреков к видеоклипам или для загрузки через Internet.

Рассмотрим некоторые форматы для хранения аудиоданных.

Формат Microsoft Wave

Формат Windows Media Audio

Это специальный формат, позволяющий создавать потоковые аудиофайлы для передачи через Internet, поддерживает видеоданные. Является форматом для операционной системы Windows. Формат WindowsMediaAudio содержит собственные сложные функции сжатия, позволяющие передавать аудиоданные через Internet в режиме реального времени. Файлы WindowsMedia имеют расширения wma и asf.

Формат MPEG Audio ( MP 3)

Формат MPEGAudio использует математические и акустические алгоритмы компрессирования звука, что позволяет во много раз уменьшить количество памяти, занимаемое аудиофайлом, с некоторой потерей качества. Поддерживается практически всеми операционными системами при наличии специализированных программных проигрывателей. Файлы в формате MPEGAudio имеют расширение mp3.

2. Проведение записи

Качество сжатого аудио во многом определяется тем, насколько качественно была осуществлена первичная запись дикторского голоса и как записывалось музыкальное сопровождение.

Общая характеристика программно-аппаратного комплекса записи звука Degidesign Session 8

Для микширования Session 8 располагает двумя режимами: внешний, для использования с автономным микшером, и внутренний, полностью цифровой. Во внутреннем режиме работа идет с «виртуальным» микшером на экране монитора. Цифровые параметрические эквалайзеры позволяют работать без каких-либо качественных потерь, присущих аналоговым агрегатам.

Благодаря наличию стандартного WAV драйвера Session 8 работает и с другими программными продуктами, включая Cakewalk, Cubase, Sound Froge, Cool Edit и т.п.

3. Обработка

Для компьютерной обработки аудиоинформации существует множество программ и различных программных фильтров, качество обработки определяется профессионализмом персонала и стоимостью программно-аппаратных комплексов.

Описание типового технологического процесса производства звуковых компонентов.

Можно выделить несколько основных этапов технологической цепочки подготовки звукового мультимедиа компонента:

- обработка записанного материала:

a) удаление шумов;

b) монтаж фонограммы в соответствии с техническим заданием.

Монтаж фонограммы предполагает удаление избыточных пауз, сборку речевой фонограммы из нескольких дублей, корректировку оговорок диктора или удаление ненужных музыкальных тем, а также иные действия, предусмотренные техническим заданием;

c) частотная обработка, применение эффектов;

d) выравнивание уровня громкости.

- контрольное прослушивание и сохранение аудиофайла в формате, указанном в техническом задании.

Контрольное прослушивание производится с целью выявления технического брака, ошибок монтажа и проверки соответствия параметров фонограммы техническому заданию.

При создании синхронного саундтрека к видеоряду технологическая цепочка выглядит иначе:

- подготовка исходных материалов:

a) запись и обработка фонограммы дикторского текста;

b) подбор музыкальных фрагментов для фонового сопровождения;

c) подбор звуковых эффектов.

a) предварительное синхронное озвучивание эффектами;

b) монтаж фонограммы дикторского текста;

c) компилирование музыкального саундтрека;

d) мастеринг – сведение фонограмм звуковых эффектов, с записью дикторского текста и музыкального саундтрека.

- контрольное прослушивание и сохранение данных:

a) Контрольное прослушивание (просмотр);

b) сохранение саундтрека в студийном формате (MicrosoftWAVE, PCM (Uncompressed), 16 bit, 44.1 kHz, mono/stereo);

c) сохранение видеофайла в требуемом формате.

Техническое задание

Пример выполнения записи и обработки звукового сопровождения для видеоролика

Озвучить видео ролик, представленный файлом lions.mpg.

«Лев – это очень крупный, могучего телосложения зверь. Его самцы достигают в длину 180 – 240 сантиметров, не считая хвоста. Масса льва от 180 до 227 килограммов. Голова чрезвычайно массивная с довольно длинной мордой. Лапы невысокие, очень сильные. Весьма характерна сильно развитая у взрослых самцов длинная грива, покрывающая шею, плечи и грудь, тогда как на всем остальном теле шерсть короткая буровато-желтая. В отличие от других крупных хищников, львы встречаются не только в одиночку и парами, но и крупными группами – так называемыми прайдами. В прайд обычно входят один-два взрослых самца, несколько взрослых львиц и молодые звери. Добычей им служат различные антилопы, зебры и другие копытные средней величины вплоть до молодых слонов, носорогов, бегемотов, а также домашнего скота»

Формат фонограммы: MPEG, 16 bit, 44.1 kHz, mono.

Саундтрек должен содержать звуки природы, совпадающие с событиями в сюжете; закадровый дикторский текст. В фонограмме дикторского текста должны быть удалены избыточные паузы между словами.

Параметры фонограммы дикторского текста: пиковый уровень громкости 0 dB, GraphicEQ срез НЧ ниже 160 Hz, DynamicsGraphicCompressorSoftkneecompressor/gate (-24 dBthreshold).

Параметры фонограммы звуковых эффектов: средний уровень громкости –28 dB.

3.1Запись дикторского текста на оборудовании Session 8

После запуска программы сконфигурируем сессию.

Сессия – это проектный файл программы Session 8, в котором хранятся сведения о коммутации каналов, список файлов, записанных в этой сессии.

Необходимо подключить микрофон к микрофонному входу аудио интерфейса Session 8. Затем нужно запустить программную оболочку Session 8 и в ней назначить программный канал, соответствующий входу, куда подключен микрофон. Назначение каналов приведено на рисунке 3.1.


Затем необходимо настроить оборудование, т.е. найти такое положение микрофона, в котором микрофон улавливает минимум электрических и прочих шумов. Также необходимо установить уровень чувствительности канала. Эти настройки влияют на уровень громкости записи.

Управление записью в Session 8 можно осуществлять в окне Edit и в окне Mix:

EditWindow – это встроенный звуковой редактор. Здесь записанный материал представляется в графической форме, редактор позволяет проводить линейный монтаж нескольких аудио треков (не более 8). Также EditWindow позволяет производить запись.

MixWindow – представляет собой виртуальную микшерную консоль. На каждый канал предусмотрены графические регуляторы: уровня громкости, баланса, также есть возможность управления шестью аппаратными эквалайзерами.

- окно Edit удобно использовать, когда все технические параметры записи уже выставлены. При этом планируется запись нескольких дублей, поскольку в этом окне можно видеть имена всех записанных ранее файлов. Также в этом окне удобно работать при многоканальной записи. Диалоговое окно режима приведено на рисунке 3.2.


- окно Mix обычно используется для выставления технических параметров записи. Есть возможность установления программного уровня громкости (не влияет на уровень записи). Здесь назначаются каналы, в которых будет производиться запись. Удобный графический индикатор позволяет в реальном времени контролировать уровень записи и отслеживать перегрузку по амплитуде (Clipping). Диалоговое окно режима приведено на рисунке 3.3.


Для удобства пользователей, управляющие кнопки аналогичны кнопкам воспроизведения/записи на магнитофонах. Session 8 не сможет произвести запись, если ни один из каналов не открыт для записи. Для того чтобы разрешить запись в канале, необходимо предварительно сделать активной кнопку Record-Enable в том канале, в который должна быть произведена запись. Также невозможно производить запись, когда заполнен жесткий диск Session 8. В EditWindow отображается либо свободное место в мегабайтах, либо оставшееся время записи в зависимости от числа открытых для записи каналов. После предварительных настроек, для начала записи необходимо нажать кнопку Record и затем нажать кнопку Play (или клавишу Space на клавиатуре). Остановка записи осуществляется путем нажатия кнопки Stop.

Session 8 осуществляет запись непосредственно на свой жесткий диск (Direct-to-Hard). В отказе программы Session 8, вся несохраненная пользователем информация остается на диске.

По окончании записи необходимо сохранить записанный материал. Для этого нужно воспользоваться пунктом меню File-SaveTakes. После этого запись будет сохранена на жесткий диск компьютера с указанным именем в формате WAVE.

Хотя программная часть комплекса DigidesignSession 8 и предоставляет некоторые возможности по монтажу и обработке записанного звука, лучше воспользоваться более мощным звуковым редактором для достижения более высокого качества звукового файла.

Фонограмма с записью дикторского текста (до монтажа) представлена в Приложении 1, пример 1 (CD-ROM:\Record\BIO_01.wav).

3.2Монтаж и обработка звуковых файлов в SoundForge 6.0

Удаление шумов

Как правило, в записи присутствуют шумы, не редко сравнимые по амплитуде с полезным сигналом. Первый этап обработки звукового файла – это удаление шумов из фонограммы. Окно NoiseReduction приведено на рисунке 3.4.


Удаление квазипостоянного широкополосного шума производится с помощью плагина NoiseReduction. В основе работы этой функции лежит частотное разделение спектра сигнала на 64 полосы. К каждой полосе применяется свой Gate, который подавляет сигнал ниже заданного уровня и пропускает, если уровень выше установленного. Разделение спектра всего сигнала на полосы способствует более точному разделению шума и полезного сигнала. Функция позволяет не только освободить сигнал от шума, но и сохранит шум в отдельном файле, если это необходимо. NoiseReduction можно использовать не только для шумоподавления, но и для удаления любых нежелательных звуков из фонограммы (например, сирены автосигнализации в интервью).

Перед вызовом NoiseReduction необходимо выделить фрагмент файла от 200 до 500 милисекунд, который должен быть тишиной (например, пауза между словами). Далее выполняется сканирование выделенного фрагмента (Capturenoiseprint). NoiseReduction позволяет задавать глубину подавления шума, а также иные параметры. Предлагается несколько режимов обработки. Режим точного подавления Mode 0, режим «приблизительного» подавления Mode 3. При нажатии кнопки Selection задается область применения обработки (в противном случае шум будет удален из выделенного ранее фрагмента). В случае необходимости можно повторить выполнение NoseReduction.

После удаления шума осуществляется монтаж фонограмм в соответствии с требованиями технического задания. Монтаж фонограммы во многом похож на процесс редактирования текста. Отдельно взятые фрагменты речевых фонограмм собираются в единое целое в соответствии с монтажным листом. Музыкальные фонограммы корректируются по длительности, скорости и тональности звучания.

Монтажный лист представляет собой таблицу, в которой указывается имя файла, дикторский текст (для речевых фонограмм) или название музыкального фрагмента, хронометраж файла. В отдельных случаях приводится тайм-код на каждую фразу или музыкальную тему.

SoundForge позволяет использовать буфер обмена данных, производить выделение произвольных областей файла, удалять фрагменты из фонограмм (например, паузы в речи), добавлять фрагменты в фонограмму, корректировать скорость звучания, в том числе без изменения высоты тона и т.д.

При удалении пауз из фонограммы используется автоматизированное средство AutoTrim/Crop в меню Process. Диалоговое окно AutoTrim/Crop представлено на рисунке 3.5.

В этом окне можно задать минимальное расстояние между фразами (Minimuminter-phrasesilence). Все участки тишины, короче заданного значения вырезаны не будут.

Также присутствуют настройки порога атаки (attackthreshold) и порога отпускания (releasethreshold). Порог атаки задает тот уровень громкости, который программа будет считать началом новой фразы, а порог отпускания – это уровень громкости, который программа будет считать концом фразы и начала паузы.


Частотная обработка

Для частотной обработки обычно применяется эквалайзер. Эквалайзер – это устройство или программное средство, позволяющее раздельно управлять громкостью частот в различных диапазонах сигнала. В SoundForge эквалайзер представлен в трех вариантах: графический, параграфический и параметрический.

На рисунке 3.6 показано окно графического эквалайзера. Усиливать или ослаблять частоты можно с помощью смещения точек на кривой выше уровня нуля или ниже. Также графический эквалайзер обладает вкладками 10 Band и 20 Band, которые имитируют аппаратные эквалайзеры.


Параметрический эквалайзер является более мощным и гибким, чем графический эквалайзер. Окно параметрического эквалайзера приведено на рисунке 3.7.


Основное отличие этого эквалайзера от графического – возможность более точного задания частоты и уровня громкости сигнала этой частоты.

Параграфический эквалайзер, в отличии от графического и параметрического, позволяет получить более сложный – нелинейный график коррекции звука. Окно параграфического эквалайзера приведено на рисунке 3.8.


В распоряжении пользователя находятся четыре частотных диапазона, у каждого из которых своя регулировка уровня (четыре вертикальных движка в середине окна под графиком).

Для каждого диапазона можно указать, где он расположен на шкале частот. Эта операция производится с помощью горизонтальных движков Centerfrequency (частота середины диапазона). Также можно регулировать ширину диапазона.

Для работ, связанных с частотной обработкой фонограммы дикторского текста наиболее удобно использовать графический эквалайзер. Параметрический и параграфический эквалайзеры используются для проведения более сложных работ, связанных с частотной обработкой.

Выравнивание уровня громкости

Также как и частотную обработку, выравнивание уровня громкости необходимо производить при издании нескольких фонограмм в рамках одного мультимедиа продукта. Это необходимо для комфортного прослушивания.

В качестве функции для выравнивания уровня громкости удобно использовать Normalize. Эта функция увеличивает громкость звука следующим образом: сначала исследует файл на предмет самого высокого уровня сигнала, а потом вычитает этот уровень из максимально возможного, который равен 100% (или установленному значению). Функция Normalize использует получившуюся разность при увеличении громкости звуковых данных. Самый высокий уровень сигнала в данном файле доводится до 100% (или до установленного значения), а более низкие уровни пропорционально увеличиваются.

Контрольное прослушивание и сохранение аудио файла

Перед сохранением окончательной версии фонограммы, ее необходимо прослушать. В случае выявления дефектов или несоответствия требованиям технического задания, выявленные недостатки необходимо устранить. После устранения брака, производится повторное контрольное прослушивание.

Если фонограмма соответствует требованиям технического задания, выполняется последний этап обработки – сохранение файла. Для возможности изменения обработки полученного файла в будущем, необходимо сохранить его не только в выходном формате (формат, указанный в техническом задании), но и без компрессии (MicrosoftWAVE, PCM (Uncompressed), 16 bit, 44.1 kHz, mono/stereo).

Таблица основных уровней качества звуковых файлов, создаваемых для использования в каналах связи.

Формат файла, определяющий структуру представления звуковых данных при хранении на запоминающем устройстве компьютера. Изменение длины аудиофайла при переходе от стереофонической записи к монофонической. Цифровой аналог записи на магнитофонную ленту.

Рубрика Программирование, компьютеры и кибернетика
Вид доклад
Язык русский
Дата добавления 20.02.2014
Размер файла 11,3 K

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Формат файла определяет структуру и особенности представления звуковых данных при хранении на запоминающем устройстве ПК. Выделяют три группы звуковых форматов файлов:

- аудиоформаты без сжатия, такие как (WAV, AIFF);

- аудиоформаты со сжатием без потерь ( FLAC) метод сжатия данных при использовании которого закодированные данные могут быть восстановлены с точностью до бита;

- аудиоформаты, с применением сжатия с потерями (mp3, ogg) метод сжатия (компрессии) данных, при использовании которого распакованные данные отличаются от исходных, но степень отличия не является существенной с точки зрения их дальнейшего использования.

WAV-файлы - это полный аналог записи на магнитофонную ленту, только значения амплитуды сигнала записывается не в аналоговом виде, а в виде последовательности цифровых кодов, соответствующих значению амплитуды звукового согнала в каждый момент времени сигнала.

Файлы с расширением .WAV, к сожалению, довольно громоздки - занимают сотни Кбайт на каждую минуту записи. Так, например, знакомый всем звук аккорда, который проигрывается при завершении загрузки ОС WINDOWS 95 и звучит 6,12 секунды, занимает 135 876 байт.

Информация при записи WAVE-файлов сжимается как аппаратными входящими в состав звуковой платы, так и программными, входящими в состав операционной системы, средствами для уменьшения размеров файла.

Размер файлов зависит, прежде всего, от частоты квантования, задающей число выборок (отсчетов) звукового сигнала в единицу времени. Именно эти выборки представляются АЦП в виде двоичных чисел, несущих информацию о мгновенном значении сигнала в моменты выборок. Звуковые компакт-диски, к примеру, имеют частоту квантования 44.1 кГц. Частота квантования должна быть вдвое выше высшей частоты спектра звуковых сигналов. Практически частота квантования в 44.1 кГц позволяет записывать (и затем воспроизводить) весь частотный диапазон звуковых сигналов - от 20 до 20 000 Гц.

Однако для записей умеренного качества достаточен более узкий диапазон частот - например, для разборчивой речи от примерно 400 до 3 500 Гц. Поэтому при записи WAVE-файлов предусматривается ряд частот квантования, чаще всего от 5 Кгц. до 44-45 Кгц., а точность измерения уровня сигнала может быть выбрана 8 или 16 разрядов. Чем ниже частоты квантования, чем меньше точность измерения, тем меньше (пропорционально) размер WAVE-файлов и хуже качество воспроизведения звука.

Переход от двухканальной (стереофонической) записи с одноканальной (монофонической) уменьшает длину звуковых файлов вдвое. Проигрыватели WAVE-файлов обычно автоматически распознают тип записи и частоту квантования.

AIFF наряду с WAV, является одним из форматов используемых в профессиональных аудио и видео приложениях, так как в отличие от более популярного формата mp3 в нём звук не имеет потерь в качестве. Как и любые несжатые файлы, файлы AIFF занимают намного больше дискового пространства, чем их сжатые аналоги: одна минута стерео звука с частотой дискретизации 44,1 кГц и размером выборки 16 бит занимает около 10МБ.

FLAC популярный свободный кодек, предназначенный для сжатия аудиоданных без потерь.

В отличие от аудио-кодеков, обеспечивающих сжатие с потерями, и FLAC не удаляет никакой информации из аудиопотока и подходит как для прослушивания музыки на высококачественной звуковоспроизводящей аппаратуре, так и для архивирования аудиоколлекции.

Сегодня формат FLAC поддерживается множеством аудиоприложений и портативных аудиоплееров, а также имеет большое количество аппаратных реализаций. По состоянию на 10.03.2010 в libflac-1.2.1 определены следующие типы блоков: StreamInfo, Padding, Application, SeekTable, VorbisComment, CueSheet, Picture, Unknown. Блоки метаданных могут быть любого размера, новые блоки могут быть легко добавлены. Декодер пропускает неизвестные ему блоки метаданных.

Блок STREAMINFO является обязательным. В нём содержатся данные, позволяющие декодеру настроить буферы, частоту дискретизации, количество каналов, количество бит на семпл и количество семплов. Также в блок записывается подпись MD5 несжатых аудиоданных. Это полезно для проверки всего потока после его передачи.

Другие блоки предназначены для резервирования места, хранения таблиц точек поиска, тегов, список разметки аудиодисков, а также данных для конкретных приложений. Опции для добавления блоков PADDING или точек поиска приведены ниже. FLAC не нуждается в точках поиска, однако они позволяют значительно увеличить скорость доступа, а также могут быть использованы для расстановки меток в аудио редакторах.

Существует четыре версии алгоритма сжатия файлов MPEG, которые обозначаются как MPEG-1 - MPEG-4. В Internet наиболее часто используется версия MPEG-1, хотя по мере развития коммуникационных технологий будут внедряться и остальные варианты. Стандарт MPEG-1 определяет три уровня, каждому из которых соответствует свой собственный формат. Усложненные алгоритмы более высокого уровня требуют более длительного времени работы, однако обеспечивают более высокие степени сжатия при сохранении практически точного соответствия оригиналу. Уровень I обеспечивает самую высокую скорость кодирования, а уровень III дает наибольшую степень сжатия при сопоставимом качестве звука. Для звуковых файлов наиболее часто используется MPEG-1 уровня III (расширения файлов .МР3) Все уровни основаны на психоакустических моделях, которые обосновывают выбор частотных составляющих сигнала, которые могут быть отброшены без ущерба для субъективного восприятия качества звучания. Файлы MPEG-1 уровня III сохраняют практически неотличимое от несжатого оригинала качество звучания при степени сжатия до 12:1.

Эта система кодирования звуковых файлов, чрезвычайно широко распространенной в Internet. Существуют специальные музыкальные сервера или отдельные музыкальные страницы, на которых имеются ссылки на музыкальные произведения.

Преимущества данной технологии в том, что информация передается клиенту непосредственно с транслирующего сервера без предварительной загрузки и сохранения на жестком диске компьютера. Однако, качество воспроизведения сильно зависит от скорости канала и качества связи по нему. На линии 14.4 кб/сек - нормальное воспроизведение монофонной программы, на 28.8 кб/сек - стереопрограммы с качеством близким к УКВ приему, на ISDN линиях качество близко к компакт-диску.

Ogg Vorbis - это относительно новый универсальный формат аудио компрессии, официально вышедший летом 2002 года. Он принадлежит к тому же типу форматов, что и МР3, то есть к форматам компрессии с потерями. Психоаккустическая модель, используемая в Ogg Vorbis, по принципам действия близка к МР3, но и только - математическая обработка и практическая реализация этой модели в корне отличаются, что позволяет авторам объявить свой формат совершенно независимым от всех предшественников. звуковой цифровой стереофонический аудиофайл

Главное неоспоримое преимущество формата Ogg Vorbis - это его полная открытость и свободность. Более того, в нем использована новейшая и наиболее качественная психоаккустическая модель, из-за чего соотношение битрейт/качество значительно ниже, чем у других форматов. Как результат - качество звука лучше, но размер файла меньше.

В формате имеется большое количество достоинств. Например, формат Ogg Vorbis не ограничивает пользователя только двумя аудио каналами (стерео - левый и правый). Он поддерживает до 225 отдельных каналов с частотой дискретизации до 192kHz и разрядностью до 32bit (чего не позволяет ни один формат сжатия с потерями), поэтому Ogg Vorbis великолепно подходит для кодирования 6-ти канального звука DVD-Audio. К тому же, формат OGG Vorbis - sample accurate. Это гарантирует, что звуковые данные перед кодированием и после декодирования не будут иметь смещений или дополнительных/потерянных сэмплов относительно друг друга. Это легко оценить, когда вы кодируете non-stop музыку (когда один трек постепенно входит в другой) - в итоге сохранится целостность звука.

MIDI-файлы не являются непосредственной записью звуков, а представляют собой набор команд, какой музыкальный инструмент, какую ноту, какой длительности (и некоторые другие характеристики) использовать. Реальной звуковой информации такие файлы не несут. Они просто указывают, когда и в какой момент должен звучать тот или иной музыкальный инструмент. По какому каналу, с какой громкостью и какими иными звуковыми параметрами. Словом, MIDI-файлы являются набором инструкций для синтезатора музыкальных звуков. Можно сказать, что они подобны нотам, по которым исполняется музыкальное произведение - не случайно есть программы, которые по таким файлам действительно воссоздают нотные записи музыки!

Однако, как и сами ноты это не музыка и для получения ее нужен исполнитель и музыкальный инструмент, так и MIDI-файлы требуют для получения музыки своего инструмента - синтезатора музыки - в простом случае это звуковая плата компьютера. Принцип синтеза здесь следующий - в памяти звуковой платы записываются образцы звучания всех нот нескольких инструментов, от трех до двадцати инструментов. В соответствии с командами из файла, извлекается тот или иной эталон, возможно, модифицируется - изменяется тембр, громкость, высота и преобразуется в аналоговый сигнал и подается на выходной усилитель.

Эти файлы используются для записи и воспроизведения инструментальной музыки и генерации музыкального сопровождения и аранжировки музыкальных произведений.

Такой подход приводит к тому, что MIDI-файлы имеют значительно меньший размер, чем файлы с информацией о реальных звуках. С частотным диапазоном и частотами квантования размеры MIDI-файлов никоим образом не связаны. В результате запись даже довольно длинного музыкального произведения занимает обычно десятки Кбайт (редко до 150-200 Кбайт). Если преобразовать MIDI- файл размером в 20 кб. В WAV-файл, то последний будет около 3 Мб. MIDI-файлы поддерживают работу как обычных музыкальных синтезаторов, использующих частотную модуляцию FM (Frequense Modulation), так и более новых волновых синтезаторов WS.

Подобные документы

Формат звукового файла wav, способ его кодирования. Реализация возможностей воспроизведения звука в среде программирования MATLAB. Составление функциональной схемы программы. Апробирование информационной технологии воспроизведения звуковых файлов.

курсовая работа [1,2 M], добавлен 13.02.2016

Векторный способ записи графических данных. Tехнология сжатия файлов изображений Djvu. Скорость кодирования и размеры сжатых файлов. Сетевые графические форматы. Особенности работы в программе Djvu Solo в упрощенном виде. Разновидности стандарта jpeg.

реферат [23,5 K], добавлен 01.04.2010

Генерирование и сохранение мелодии в виде звукового файла формата wav. Проведение частотного анализа полученного сигнала. Зависимость объема wav-файлов от разрядности кодирования сигнала. Спектр нот записанного wav-файла с заданной разрядностью.

лабораторная работа [191,0 K], добавлен 30.03.2015

Восприятие звуковых раздражений. Частота, амплитуда, фаза как характеристики звука. Представление и способы передачи цифровой информации. Особенности дискретизации звука. Способы записи информации: бит в бит; сжатие; структура болванки CD-R; запись CD-R.

реферат [23,4 K], добавлен 10.11.2009

Работа с файлами на языке Pascal. Типы файлов: типизированные, текстовые, нетипизированные. Сущность процедуры и функции. Использование процедуры Read и Write для операций чтения и записи в типизированном файле. Листинг программы и экранные формы.

В настоящее время подавляющее большинство звукозаписывающей и звуковоспроизводящей студийной аппаратуры и музыкальных синтезаторов представляют собой цифровые устройства. Все знают, что даже в обычном домашнем проигрывателе компакт-дисков имеется цифро-аналоговый преобразователь (ЦАП), а музыка на диске записана 16-битными числами. Однако исходный звуковой материал (голос, классические музыкальные инструменты, электрогитары и т.д.) и звук на выходе музыкального центра – это аналоговые, а не цифровые сигналы. Таким образом, для современной индустрии звукозаписи ключевым моментом является преобразование аналоговых сигналов в цифровые, для чего создан аналогово-цифровой преобразователь (АЦП), и обратно, чему служит ЦАП.

1.1.1. Цифровое кодирование звука

Чтобы представить звуковые колебания в цифровом виде, в каждый конкретный момент звучания измеряют амплитуду звукового сигнала. Так как волновая форма звука по своей природе непрерывна для ее точного цифрового отображения необходимо измерять амплитуду бесконечное количество раз в секунду и делить амплитудную шкалу на бесконечное количество градаций. В реальности же число измерений в секунду (частота дискретизации) колеблется обычно от 10 000 до 192 000. В настоящее время наиболее употребительные частоты дискретизации - 44 100 Гц (стандарт для CD-аудио) и 48 000 Гц (основной стандарт для DAT). Количество же амплитудных градаций (разрешение) обычно принимается равным 2 8 , 2 16 , 2 24 или 2 32 (в зависимости от количества бит, выделенных для этой информации).

Разумеется, при дискретизации непрерывного сигнала неизбежно возникают искажения. Чем меньше частота дискретизации и/или разрешение, тем сильнее волновая форма на выходе приближается к прямоугольной. При этом возникают высокочастотные искажения, которые частично подавляются с помощью фильтров, устанавливаемых на выходе ЦАП.

Оцифрованный звук требует больших объемов памяти. В самом деле, при стандартной частоте дискретизации в 44 100 Гц и разрешении 16 бит звуковой материал (стерео) продолжительностью в 1 мин будет занимать 10 584 000 байт (приблизительно 10,09 Мб). Кроме того, звуковые файлы очень плохо сжимаются стандартными программами архивации (zip, arj и т.п.). Поэтому для них существуют особые алгоритмы сжатия. Например, WAV-файл, сжатый с помощью ADPCM, занимает примерно в четыре раза меньше места. Однако при этом могут появиться искажения. Следовательно, для профессиональной работы алгоритмы сжатия звука лучше не применять.

Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:

1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.

2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.

3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.

4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.

Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом). Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене. Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и скрупулезная проработка всех нюансов звучания. Существует множество различных операций над звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме .

Аналоговый и дискретный способы представления звука

Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.

При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.

При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.


Примером аналогового хранения звуковой информации является виниловая пластин­ка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).

Восприятие звука человеком

Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.

Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.

В аналоговой форме звук представляет собой волну, которая характеризуется:

  • Высота звука определяется частотой колебаний вибрирующего тела.
  • Г ромкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
  • Длительность звука - продолжительность колебаний.
  • Тембром звука называется окраска звука.

Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с

Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).



Кодирование звуковой информации

Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).


  • В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
  • Таким образом, при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.

Качество кодирования звуковой информации зависит от :

1)частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

2)глубиной кодирования, т.е. количества уровней сигнала.

Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.

Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.

Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-С D . Следует также учитывать, что возможны как моно-, так и стерео-режимы.

РСМ. РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.

WAV. Самое простое хранилище дискретных данных. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости, в wav может быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали - это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.

RIFF. Resource Interchange File Format. Уникальная система хранения любых структурированных данных.

IFF. Эта технология хранения данных проистекает от Amiga-систем. Interchange File Format. Почти то же, что и RIFF, только имеются некоторые нюансы. Начнем с того, что система Amiga - одна из первых, в которой стали задумываться о программно-сэмплернойэмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.

MOD. Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.

AIF или AIFF. Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.

МР3. Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для "обычных немузыкальных" людей потери не ощутимы явно.

VQF. Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF - процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.

RA. Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.

Читайте также: