В чем заключаются недостатки избыточной информации в файле картинки

Обновлено: 05.07.2024

Цели: Дать понятие «избыточность», рассмотреть виды избыточности.

Развивать логико-алгоритмическое мышление, память, произвольное мышление, связную устную речь.

Воспитывать информационную культуру , интерес к изучаемому предмету.

Тип урока: комбинированный.

Форма: индивидуальная, фронтальная.

Образовательные ресурсы: ПОЭВМ, наглядный материал (презентация), дидактический материал (карточки с заданием для организации опроса).

УУД: личностные, регулятивные, познавательные, коммуникативные.

Планируемые образовательные ресурсы:

-метапредметные- развивать познавательный интерес, речь и внимание обучающихся, формировать у них информационную культуру и потребность в приобретении знаний; расширение кругозора; развитие коммуникативных качеств личности; развитие навыков самообразования с использованием информационных и коммуникационных технологий;

-личностные- способность увязать учебное содержание с собственным жизненным опытом; п онять значимость подготовки в области информатики в условиях развития информационного общества; способность и готовность к общению и сотрудничеству со сверстниками и взрослыми в процессе образовательной деятельности.

I . Мотивационно-ориентировочный этап.

- Здравствуйте! Присаживайтесь (пауза, жду, когда все сядут и установится тишина).

- Сегодня урок информатики проведу у вас я, меня зовут……..

2. Организация внимания.

- На столе у вас должны лежать тетради, письменные принадлежности. Всё лишнее уберите. Начинаем урок!

3. Индивидуальная работа по карточкам.

Тест по прошлому материалу на тему: «Информационные процессы»

1. Каналы связи делятся на: ___________ ____________.

2. Канал связи — это:

а) совокупность устройств, обеспечивающих прием информации при ее передаче;

г) технические средства, позволяющие осуществлять передачу данных на расстоянии.

3. Расследование преступления представляет собой информационный процесс:

а) кодирования информации; б) поиска информации; в) хранения информации; г) передачи информации.

4. Пропускная способность – это …

а) объем данных, передаваемых модемом в единицу времени, без учета дополнительной служебной информации;

в) распространение новой информации, полученной в процессе научного познания.

5. Дуплексной передачи связи называется?

а) осуществляется передача сигналов в одной паре проводников в одном направлении;

б) осуществляется передача сигналов в одном направлении в четырехпроводной линии связи;

в) одновременной передачи сигналов между абонентами в обоих направлениях, т.е. канал связи должен быть двустороннего действия.

6. При телефонном разговоре в качестве источника информации следует рассматривать:

а) человека слушающего; б) телефонную трубку; в) человека говорящего; г) телефонную сеть;

7. Хранение информации невозможно без:

а) компьютера; б) носителя информации; в) библиотек, архивов; г) линий связи.

8. Что такое кабель?

1. Место соприкосновения проводников между собой.

2. Проводник, который служит для передачи электрического тока в земле, воде и воздухе.

3. Служит жестким неизолированным проводником.

9. Протокол – это:

1) список абонентов компьютерной сети;

3) полный набор операций, который один объект может осуществлять над другим объектом вместе с правильным порядком, в котором эти операции вызываются .

1. Перевод текста с английского языка на русский является процессом:

а) хранения информации; б) передачи информации; в) поиска информации; г) обработки информации.

2. Браузер – это … 1)техническое устройство; 2)программа создания web – страниц; 3)программа просмотра web – страниц.

3. Какой из следующих сигналов является аналоговым:

а) сигнал маяка; б) сигнал S0S; в) кардиограмма; г) дорожный знак; д) сигнал светофора.

4. Внутреннее представление информации в компьютере:

а) непрерывно; б) дискретно; в) частично дискретно, частично непрерывно;

г) нельзя описать с использованием терминов «дискретно», «непрерывно».

5. Какая система исчисления используется для передачи цифровых сигналов?

а) Восьмеричная; б) Двоичная; в) Шестнадцатеричная.

6. Записная книжка обычно используется:

а) при обработке информации; б) для хранения информации; в) для передачи информации; г) для защиты информации.

7. Сигналом называется:

8. Аналоговый сигнал — это:

а) сигнал, непрерывно изменяющийся по амплитуде и по времени;

б) сигнал, который может принимать лишь конечное число значений в конечное число моментов времени; в) сигнал, несущий текстовую информацию;

г) любой процесс, несущий информацию.

9 . Какой кабель обеспечивает скоростью передачи данных до 10 Мбит/с?
1) коаксиальный; 2) витая пара; 3) оптоволокно.

4. Фронтальный устный опрос.

- Что называют каналами связи? (технические средства, позволяющие осуществлять передачу данных на расстоянии).

- Какие классификации компьютерных каналов связи вы знаете?

(по способу кодирования: цифровые и аналоговые;

по способу коммуникации: выделенные и коммутируемые;

по способу передачи сигнала: 1.Кабельные: витая пара, коаксиальные кабели, оптико-волоконные кабели; оптические, беспроводные, спутниковые. 2.Телефонные; 3.Радио: радиорелейные, спутниковые).

-Что такое протокол? (полный набор операций, который один объект может осуществлять над другим объектом вместе с правильным порядком).

5. Подведение итога этапа.

- Итак, материал прошлого урока вы усвоили хорошо. Молодцы!

II . Поисковый этап.

1. Формулирование темы и цели урока обучающимися.

- Прочитайте тему урока. Как вы думаете, о чём пойдёт речь на нашем уроке?

- Поставьте перед собой цель на данный урок.

2. Изучение нового материала.

- Откройте тетради и подпишите число и тему урока.

Тема «Избыточность информации, как средство повышения надежности её передачи»

Виды избыточности:

Функциональная избыточность – это меры обеспечивающие сохранение работоспособности системы при выходе некоторых параметров за пределы допусков. К числу таких средств относятся адаптация системы за счёт введения дополнительных обратных связей.

Структурная избыточность заключается в дублировании систем, элементов, деталей машин, живых организмов.

Временная избыточность – увеличение надёжности за счёт увеличения времени работы с информацией.

Постановка задачи обеспечения надежности передачи

Все реальные каналы связи подвержены воздействию помех.

Задача была сформулирована в виде теоремы, которая затем получила строгое математическое доказательство. Ранее была представлена первая теорема Шеннона, касающаяся кодирования информации при передаче по идеальному каналу связи. Критерием оптимальности кодирования служила избыточность кода.

Вторая теорема Шеннона касается реальных каналов связи и гласит:

Последняя часть определения, относится и к идеальному каналу – в любом случае, если скорость передачи превышает пропускную способность канала, происходит потеря информации.

Рассмотрим некоторые методы повышения надежности передачи данных. Широко известными методами борьбы с помехами являются следующие:

1. передача в контексте;

3. передача с переспросом.

Рассмотрим подробней каждый из этих способов.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Валухов Виктор Алексеевич

В данной статье рассмотрен вопрос снижения психосемантической избыточности графической информации, выявлены преимущества и недостатки методов кадрирования изображений .

Текст научной работы на тему «Анализ методов снижения психосемантической избыточности изображений»

АНАЛИЗ МЕТОДОВ СНИЖЕНИЯ ПСИХОСЕМАНТИЧЕСКОЙ ИЗБЫТОЧНОСТИ ИЗОБРАЖЕНИЙ Валухов В.А.

Валухов Виктор Алексеевич - магистрант,

кафедра программной инженерии, Орловский государственный университет им. И.С. Тургенева, г. Орёл

Аннотация: в данной статье рассмотрен вопрос снижения психосемантической избыточности графической информации, выявлены преимущества и недостатки методов кадрирования изображений.

Ключевые слова: психосемантическая избыточность, кадрирование изображений, карта салиентности.

В настоящее время вместе с нарастающей вычислительной мощностью технических устройств увеличивается и объём циркулирующей в информационных системах графической информации, а также количество требований, предъявляемых к системам и приложениям касательно содержательности и презентабельности данных. Ввиду таких факторов, как шумы и избыточность графической информации, её представление зачастую оказывается перегруженным и избыточным.

С помощью сжатия изображения можно уменьшить статистическую (основанную на наличии закономерностей в изображении) и психовизуальную (основанную на ограничениях зрительной системы человека) избыточности, при этом смысловая нагрузка (содержательность) изображения остаётся неизменной [1]. Однако изображения могут быть подвержены особому виду избыточности -психосемантической избыточности, под которой можно понимать долю ненужных, не несущих смысл областей изображения, либо долю областей изображения, вклад которых в общую содержательность изображения невелик.

Для ликвидации психосемантической избыточности в изображениях возможно применить ограничение видимой

области, то есть кадрирование. Условно методы кадрирования можно разделить на две группы: методы шаблонного кадрирования и методы кадрирования, основанные на анализе содержимого изображения.

Шаблонное кадрирование подразумевает наличие некоторого заранее созданного множества шаблонов, Каждый шаблон содержит некоторую универсальную последовательность действий над изображением, в результате которой получается усечённая видимая область. Универсальность последовательности действия

заключается в том, что форм-фактор и содержимое изображения ни на что не влияют.

Примеры шаблонных действий:

а) кадрировать изображение по центру - кадрирующая рамка представляет собой квадрат, центр которого совпадает с центром изображения. Данный шаблон преимущественно используется для перехода от прямоугольного форм-фактора изображения к квадратному. Главная идея такого перехода заключается в предположении, что изображение включает единственный важный объект, расположенный по центру изображения;

б) кадрировать изображение, используя принципы правильной композиции фотографии - размеры кадрирующей рамки определяются принципами фотографирования. Например, принцип «золотого сечения» подразумевает деление отрезков на части в таком соотношении, при котором большая часть относится к меньшей, как сумма к большей части. Угловые точки кадрирующей рамки делят стороны изображения в соответствии с указанным принципом: часто используются четыре точки, расположенные на расстоянии 3/8 и 5/8 от краёв изображения.

Все виды шаблонного кадрирования просты в реализации, но ввиду отсутствия связи процесса кадрирования и содержимого изображения результат может исказить содержание оригинального изображения и

психосемантическая избыточность не будет устранена.

Кроме того, для получения приемлемого результата с помощью шаблонного кадрирования необходимо осуществлять фотосъёмку с заранее заданными условиями: компоновка и центрирование объектов, соблюдение пропорций и т. д. Данные условия отсекают возможность успешного кадрирования случайных изображений с отсутствием какой-либо компоновки объектов и изображений со сложно выделяющимися объектами.

Так как изображения предназначены в первую очередь для человека, то процесс кадрирования должен учитывать особенности восприятия человека: взаимосвязь внимания и сознания, избирательность внимания [2]. Результатом такого кадрирования является видимая область изображения, включающая «привлекательные» для человека элементы, совокупность которых в большей степени определяет содержательность изображения.

Условно методы, основанные на анализе содержимого изображения, можно разделить на три группы:

а) основанные на детектировании особенностей изображения;

б) основанные на детектировании объектов;

в) основанные на получении карты салиентности.

Методы, основанные на детектировании особенностей

изображения, являются основанием для более высокоуровневых методов других групп. Детектирование особенностей изображения предполагает определение степени отличия стимула от своего окружения в конкретной субмодальности. Именно учёт только одной субмодальности и является главным ограничением методов, основанных на детектировании особенностей изображения. Однако такие методы возможно использовать в качестве части других методов: в детекторах объектов особенности зачастую принадлежат объектам, что позволяет отделить объекты от фона изображения; в получении карты салиентности элемент является салиентным (заметным), если он является особенностью в нескольких субмодальностях (например, яркость и цвет).

Существует большое количество детекторов особенностей изображений: детекторы граней, рёбер, блобов, углов. Последние детекторы, которые ещё называют детекторами ключевых точек, имеют наибольшую популярность по причине лучшей формализации и более простой реализации. Детектор ключевых точек должен обеспечивать инвариантность извлечения одной и той же группы ключевых точек относительно преобразований изображения.

Полученные ключевые точки образуют облако точек, размеры и позиция которого определяют параметры кадрирующей рамки. Однако из-за того, что поиск ключевых точек проводится только в одной субмодальности, облако точек не может в полной мере отражать психологические особенности человеческого внимания и сознания. Кроме того детекторы могут выдать огромное количество точек, распределённых по всей площади изображения, вследствие чего результирующая кадрирующая рамка будет включать много областей, не влияющих на содержание. Этот эффект можно сгладить путём фильтрации облака точек и переходом к детекторам блобов, работающим не с точками, а областями изображения. Однако это полностью не устранит эффект (ввиду того, что детектирование изначально не подразумевало никакой группировки точек) и добавит дополнительные вычислительные расходы (в случае использования детектора блобов).

Стоит также отметить, что облако точек, полученное в результате работы детекторов ключевых точек, не является обязательно каким-то объектом. Вообще ключевые точки являются лишь координатами на плоскости, а для более высокоуровневых систем требуется некоторое математическое описание ключевых точек. Данное описание, позволяющее выделить и идентифицировать ключевые точки из множества других ключевых точек, называется дескриптором. Множество дескрипторов формирует пространство признаков, по которому всё ещё нельзя точно сказать, что является объектом, и где он находится. Однако на основании дескрипторов формируется первая гипотеза

(предположение) о наличии и возможном месторасположении объектов.

Если увеличить количество изображений, на которых присутствует одна и та же группа объектов, то можно использовать накопленные ранее сведения об объекте (пространство признаков) в качестве гипотезы, а новые сведения осуществляют проверку этой гипотезы. Другими словами, при наличии последовательности кадров (видеозаписи) возможно получение описания объекта более высокой точности и отделение объекта от фона (изображение разделяется на два плана: передний и задний). Данная работа выполняется детекторами объектов, работа которых в свою очередь сильно завязана на детекторах особенностей. Кадрирующая рамка в данном случае включает выделенный объект.

Надо учитывать, что выделенный объект не всегда соответствует интересующим человека на уровне внимания областям изображения. Это связано с тем, что, как указано выше, детекторы особенностей работают только с одной субмодальностью. Кроме того контекст объекта также может быть значимым. Кадрирование на основе детектирования объектов может устранить проблему слишком распределённого облака точек, от которой страдают детекторы ключевых точек, но также имеет свои недостатки в виде необходимости последовательности кадров и высоких вычислительных затрат (не все детекторы объектов подразумевают временную реализацию, но без последовательности кадров работа таких детекторов либо имеет крайне высокие вычислительные затраты, либо низкую точность детектирования).

Указанные выше недостатки возможно устранить, используя методы кадрирования, основанные на картах салиентности, содержащих визуальные элементы, способствующие выбору стимула в процессе избирательного внимания [3]. По отношению к пространству признаков (множеству дескрипторов особенностей) и дескрипторам объектов карты салиентности занимают промежуточное

положение. Учитывая влияние стимулов в нескольких субмодальностях, карты салиентности представляют собой результат слияния работы нескольких детекторов особенностей. При этом карты салиентности также содержат сведения о возможном наличии и позиции объектов, что делает возможным использование карт салиентностей в детекторах объектов.

Методы построения карт салиентности можно разделить на следующие группы:

а) временные методы;

б) локальные методы;

г) методы, основанные на правилах визуальной организации (локально-глобальные).

Временные методы получения карты салиентности подразумевают наличие последовательности кадров и расчёт остаточного движения.

Локальные методы получения карт салиентности основываются на расчёте дескрипторов пикселей с окрестностями в разных субмодальностях. Дескрипторы комбинируются для каждого пикселя, а значение результирующего дескриптора нормализуется. В итоге этих действий получается пространственная карта салиентности. Основной проблемой пространственной карты салиентности является сильная чувствительность к изменениям стимулов. Для устранения ложных салиентных областей пространственная карта салиентности объединяется с временной картой салиентности. В результате ложные салиентные области устраняются, но реализация становится пространственно-временной, то есть требуется последовательность кадров.

Глобальные методы получения карт салиентности основываются на идеи подавления часто появляющихся особенностей изображения, сохраняя при этом особенности, которые отклоняются от нормы. Наиболее распространёны глобальные методы получения карт салиентности на основе

остаточного спектра, используя для расчёта частотно-фазовые характеристики изображения.

Глобальные методы получения карт салиентности просты в реализации, эффективны и имеют большое количество модификаций (в том числе и временных). Однако глобальные методы, как и локальные, достаточно чувствительны к изменению стимулов, поэтому требуются дополнительные действия над картой салиентности для дальнейшего кадрирования.

Методы, основанные на правилах визуальной организации, подразумевают наличие форм, которые могут содержать или несколько центров организации форм. Исходя из этого, следует, что салиентные пиксели должны быть сгруппированы. Пиксель является салиентным, если его окрестность фиксированного размера непохожа на другие окрестности пикселей изображения. При этом вся окрестность является салиентной, если похожие окрестности располагаются близко, и менее салиентной, если похожие окрестности располагаются далеко [4]. Методы, основанные на правилах визуальной организации, вычислительно сложнее глобальных методов, но группирование салиентных областей существенно упростит поиск областей, которые необходимо включить в видимую область, то есть кадрировать.

На основании проведённого анализа методов снижения психосемантической избыточности изображений можно прийти к выводу об оптимальности использования методов, основанных на получении карт салиентности. При этом использование методов получения карты салиентности, основанных на организации визуальной среды, может значительно облегчить процесс кадрирования за счёт группирования салиентных областей и снижения чувствительности к изменению стимула.

2. Tsuchiya N., Koch C. Attention and consciousness // Scholarpedia. [Электронный ресурс], 2008. № 5 (3). Режим доступа:

4. Goferman S., Zelnik-Manor L. Context-aware saliency detection // IEEE Trans. Pattern Analysis and Machine Intelligence, 2012. P. 1915-1926.

В данной работе рассмотрены основные виды избыточности графической информации, а также способы ее устранения. В результате сжатия уменьшается размер изображения, что сокращает время передачи изображения по сети, и экономит пространство для хранения.Все большую актуальность приобретают эффективные методы сжатия, влекущие за собой наименьшие потери данных.

Ключевые слова: сжатие изображений, избыточность информации, кодирование, кодер, декодер.

Ежедневно огромное количество информации запоминается, преобразуется и передается в цифровом виде. Поскольку большая часть передаваемых данных является графической или видеоинформацией, возникает все большая потребность в качественном сжатии, влекущем за собой как можно меньшие потери. Сжатие изображений ориентировано на сокращение объема данных представляющих определенное количество информации. Зачастую эта проблема решается путем удаления избыточной информации.

Пусть и обозначают число элементов (носителей информации) в двух наборах данных, представляющих одну и ту же информацию. Тогда относительная избыточность данных может быть определена как

где называется коэффициентом сжатия и вычисляется как

Различают три вида избыточности данных в задаче цифрового сжатия изображений: кодовая, межэлементная и визуальная избыточность. Сжатие данных достигается в том случае, когда устраняется или сокращается избыточность одного или нескольких из вышеуказанных видов. Рассмотрим каждый из видов по отдельности [1].

Пусть дискретная случайная переменная появляется с вероятностью , – общее число уровней яркости,– число пикселей, имеющих значение яркости , а – общее число элементов в изображении. Если число битов, используемых для представления каждого из значений , равно , то среднее число битов, требуемых для представления значения одного элемента, равно:

т. е. средняя длина всех кодовых слов, присвоенных различным значениям яркостей, определяется как сумма произведений числа битов, используемых для представления каждого из уровней яркостей на вероятность появления этого уровня яркости.

Если код значения яркости образуется не минимизацией предыдущего уравнения, то говорят, что изображение имеет кодовую избыточность. Нетрудно увидеть, что присвоение кодовых слов с меньшим числом битов более вероятным значениям яркости, и наоборот, более длинных кодовых слов менее вероятным значениям т. е. применение неравномерного кодирования, позволяет достичь сжатия данных.

С другой стороны, кодирование, используемое для представления значений яркости, не может изменить корреляции между пикселями, которая является следствием структурных или геометрических взаимосвязей между объектами на изображении. Коэффициенты автокорреляции , вычисленные вдоль одной строки каждого изображения могут быть получены с помощью уравнения:

Поскольку значение каждого элемента изображения может быть предсказано по значениям его соседних, то информация, содержащаяся в отдельном элементе, оказывается достаточно малой. Большая часть содержащейся информации является избыточной. Такая избыточность называется межэлементной. Для ее уменьшения двумерный массив пикселей должен быть преобразован в некоторый более рациональный формат. Другими словами, нужно найти отображение данного множества в более упрощенное, достигнутое, допустим, разностью между соседними пикселями.

Известно, что воспринимаемая глазом яркость зависит не только от количества света, исходящего из рассматриваемой области. При обычном визуальном восприятии часть информации оказывается менее важной, чем другая. Такую информацию называют визуально избыточной. Она может быть удалена без заметного ухудшения визуального качества изображения [1,2,3].

Рассмотренные выше методы избавления от разных видов избыточности информации на практике обычно используются совместно. Система сжатия любого изображения состоит из двух структурных блоков: кодер и декодер. Исходное изображение поступает на вход кодера, который преобразует его в набор символов. После передачи по каналу данные поступают в декодер, где создается восстановленное изображение . В результате может получиться как точная копия исходного изображения (кодирование без потерь), так и несколько измененная (кодированная с потерями)

Рис. 1. Общая модель системы сжатия

Кодер источника сокращает возможные виды избыточности на входном изображении. Благодаря отдельным приложениям выбирается тот или иной способ шифрования, являющийся оптимальным в каждом конкретном случае. Процедура кодирования представляется в виде последовательности трех стадий: преобразователь, квантователь и кодер символов. На этапе преобразователя входные данные (изображение) представляется в формате, предназначенном для сокращения межэлементной избыточности. Второй шаг, или блок квантователя, позволяет сократить визуальную избыточность за счет уменьшения точности выхода преобразователя. На третьей и последней стадии кодер символов создает равномерный или неравномерный код. Таким образом, после прохождения трех этапов кодирования изображение избавляется от всех видов избыточности. Однако, следует помнить, что этап квантователя является необратимым, что в случае сжатия без потерь требует пропуска этого шага [4,6].

Схема декодера источника включает лишь два блока: декодер символов и обратный преобразователь. Здесь осуществляются операции, обратные тем операциям, которые выполнялись в кодере источника, причем в обратном порядке, исключая лишь этап квантователя, по той же причине его необратимости.

Алгоритмы сжатия изображений подразделяются на две большие группы: без потерь и с потерями. Первые в ходе передачи сохраняют информацию об изображении полностью, а вторые — только частично. Первая группа методов сжатия обеспечивает восстановление исходного изображения без потерь и искажений. К изображениям, предназначенным для хранения с целью дальнейшей обработки, следует применять методы первого типа. Однако, если изображение предназначено для визуального восприятия, это не всегда необходимо. В ряде случаев исходный сигнал уже содержит такие искажения и шумы, что небольшие потери информации при кодировании (в пользу высокой степени сжатия) не испортят качества изображения в целом [5].

Одна из серьезных проблем компьютерной графики заключается в том, что до сих пор не найден адекватный и однозначный критерий оценки потерь качества изображения. Для изображений, наблюдаемых визуально, основным является неотличимость глазом исходного и компрессированного изображения.

При передаче сжатых данных неизбежно возникают потери. Однако в некоторых отдельных случаях такое положение вещей недопустимо. Одним из примеров может служить архивация медицинских и деловых документов, сжатие с потерями которых зачастую запрещено законом. Другим примером являются спутниковые изображения, способ получения которых слишком дорогостоящ, для того, чтобы производить сжатие с потерями. Таким образом, сжатие изображения без потерь всегда будет достаточно востребовано. Алгоритмы такого сжатия обычно состоят из двух не зависящих друг от друга операций: разработка альтернативного представления изображения, в котором уменьшена межэлементная избыточность, и кодирование полученных данных для устранения кодовой избыточности [1]. К наиболее распространенным подходам сжатия без потерь относятся: неравномерное кодирование (кодирование Хаффмана, кодирование с помощью почти оптимальных неравномерных кодов, арифметическое кодирование), LZW кодирование, кодирование битовых плоскостей, кодирование без потерь с предсказанием.

Сжатие с потерями основано на выборе баланса между точностью восстановления изображения и степенью его сжимаемости. Если можно допустить появление некоторого искажения в конечном результате кодирования, то возможно значительное увеличение коэффициента сжатия. Как показано выше, принципиальная разница между структурными схемами двух подходов заключается в наличии или отсутствии блока квантования. Различают следующие виды сжатия с потерями: кодирование с предсказаниями, трансформационное кодирование, вейвлет-кодирование [6].

В данной статье мы изложили теоретические основы сжатия цифровых изображений, а также описали наиболее распространенные методы сжатия, составляющие ядро существующей на данный момент технологии. Предложенные методы играют все более важную роль в архивном хранении изображений документов, в также при передаче данных. Наряду с обработкой изображений, сжатие является высоко перспективной областью, что гарантирует дальнейшее развитие имеющихся методов и стандартов [1].

Проектирование баз данных. Информационная избыточность. Избыточность данных в базе данных. Проблемы возникающие из-за информационной избыточности

Как и обещал, эта статья и следующая тоже будут посвящены проектированию баз данных, моделированию баз данных или созданию баз данных, как хотите, так и называйте. Данная публикация посвящена проблемам, которые могут возникнуть при проектирование базы данных, точнее одной из проблем.

Попытаюсь рассказать, как обычно на пальцах, что такое информационная избыточность и избыточность данных в базе данных. Также попытаюсь рассказать о проблемах обработки данных, которые могут возникнуть из-за избыточности информации, затрону тему целостности данных в базе данных. Немного затрону тему нормализации базы данных и нормальных форм, нормальные формы – это тема следующей публикации. Какие нормальные формы бывают и как привести базу данных к нормальной форме. Всё это вы найдете в следующей публикации.

Избавиться от избыточности данных, а следовательно и от аномалий баз данных – это вопрос проектирования баз данных. И решать вопрос устранения избыточности в базе данных следует до того, как вы начали ее реализовывать программно, то есть, до того как начали создавать базу данных в той или иной СУБД, в нашем случае СУБД MySQL.

Чтобы избавиться от информационной избыточности, а вместе с тем решить проблему модификации, удаления и добавления данных вам не потребуется каких-либо специальных программ, достаточно будет представлять структуру проектируемого объекта(заметьте, пока еще не структуру базы данных), иметь под рукой несколько чистых листов бумаги, карандаш или ручку. Но, чтобы начать от чего-то избавляться, нужно знать суть самой проблемы, из-за чего эта проблема возникает и так ли она для вас критична.

Из-за избыточности информации в базе данных возникают не только проблемы модификации, добавления и удаления данных из базы данных, но и остро встает вопрос экономии места на диске, согласитесь глупо хранить одну и ту же информацию в разных местах. Избыточность баз данных тесно связана с нормальными формами. Точнее, информационная избыточность – это отрицательный фактор, влияющий на целостность базы данных, вынуждающий нас приводить свои базы данных к нормальной форме.

Данная публикации как раз и предназначена для тех, кто хочет быстро разобраться с тем, что такое информационная избыточность и избыточность данных в базе данных, а так же тем, кто хочет разобраться с вопросом, как избавиться от избыточности данных.

Информационная избыточность. Избыточность базы данных. Что такое избыточность.

Начнем мы с информационной избыточности и избыточности реляционных баз данных в частности. Поскольку, эта самая избыточность и заставляет нас нормализовывать базы данных.

Для начала напишу умное определение избыточности, а затем постараюсь объяснить его по-русски.

Давайте начнем разбираться с определением избыточности и начнем с термина информационная энтропия.

Информационная энтропия – это мера неопределенности информации, неопределенность появления какого-либо символа. Данное определение появилось в теории электросвязи. Для администратора баз данных информационную энтропию следует интерпретировать немного по-другому: информационная энтропия всё также мера неопределенности информации, но, какая информационная неопределенность может возникнуть в базе данных?

Например, у нас есть база данных, в которой хранится библиотека и есть писатель Иванов И.И., сколько книг написал Иванов И.И.? Бог его знает. Может одну, а может и сто. И сколько раз появится этот Иванов И.И. в нашей таблице, мы не знаем. Такая вот неопределенность информации.

Любая база данных предназначена для хранения информации. И при проектирование базы данных следует учесть то, что какая-то информация может повторяться несколько раз. А каждая повторяющаяся запись – это занятое место на диске. То есть превышение количества информации необходимого для хранения данных.

Конечно, можно сказать, что сейчас, с появлением терабайтных накопителей отпала необходимость экономить место на диске. Но информационная избыточность ведет не только к увеличению требуемого объема памяти для хранения информации содержащейся в базе данных.

Избыточность данных в базе данных – это нежелательное явление еще и потому, что при работе с таблицами базы данных (которые еще называют отношениями), содержащими избыточные данные возникают проблемы связанные с обработкой информации, эти проблемы называются аномалии. Про аномалии баз данных читайте в следующем разделе.

Последствия информационной избыточности в базе данных. Избыточность данных. Аномалии (проблемы) в базе данных.

Как мы уже выяснили, избыточность информации ведет не только к тому, что требуется увеличение объема накопителей, но и приводит к аномалиям в базе данных.

Аномалии в базе данных – это проблемы связанные с обработкой информации, а точнее с удаление данных из базы данных, с модификацией данных в таблице базы данных и аномалия добавления данных в базу данных.

Как вы поняли, в базе данных есть три аномалии:

Аномалия включения – это проблема, связанная с добавлением данных в базу данных
Аномалия модификации – это проблема, связанная с изменением данных в базе данных
Аномалия удаления – это проблема, связанная с удаление данных в базе данных

Все эти проблемы связаны с целостностью баз данных, а именно с избыточностью данных в базе данных. Давайте остановимся подробней на каждой аномалии.

Давайте посмотрим на примере приближенном к реальности, что такое избыточность данных. Допустим, у нас есть таблица, в которой хранятся данные список преподавателей и список предметов, которые они ведут. Естественно, в это таблице присутствует информационная избыточность.

Таблица с информационной избыточностью

Избыточность данных в этой таблице заключается в том, что любой преподаватель может вести несколько предметов, как преподаватель Иванов и для каждого нового предмета приходится добавлять новые записи в таблицу.

Один преподаватель может вести разные предметы, а разные предметы могут вести разные преподаватели. Давайте посмотрим, какие аномалии могут произойти в данном конкретном случае и как можно избавиться от аномалий в конкретном случае.

Аномалия включения. Проблема добавления данных в базу данных.

Избыточность данных очевидна, поскольку произошло дублирование информации, преподаватель Иванов ведет два предмета и его пришлось вписать дважды в таблицу. Но это еще не всё. Допустим, в нашей школе появился новый предмет и мы хотим его добавить в существующую таблицу базы данных, но мы еще не нашли преподавателя для этого предмета. А вписать в таблицу предмет нужно уже сейчас.

В этом случае мы должны присвоить значение NULL каждому атрибуту преподавателя, но делать это никак нельзя, так как атрибут «Код преподавателя» является первичным ключом отношения (первичным ключом таблицы). Результатом попытки создания такой записи будет нарушение целостности данных базы данных, а любая СУБД, в том числе и СУБД MySQL отклонит подобную попытку создания такой записи.

Все вышеописанное является аномалией включения. Чтобы избавиться от аномалии включения нужно разбить таблицу на две: таблица преподавателей и таблица предметов. Примерно это будет выглядеть так:

Избавляемся от избыточности данных в базе данных.

Здесь мы разделили общую таблицу, тем самым избавились от аномалии включения и от возникшей информационной избыточности, то есть от дублирования в базе данных. В принципе то, что мы сделали в данный момент – привели базу данных ко второй нормальной форме.

Вторая нормальная форма позволяет нам избавиться от аномалии включения, а также от дублирования информации в базе данных, то есть мы избавляемся от избыточности информации.

Аномалия модификации. Проблема изменения базы данных.

Следующая проблема, которая может возникнуть из-за избыточности базы данных – это проблема внесения изменений в таблицы базы данных или как ее еще называют – аномалия модификации.

В нашем примере проблема модификации могла бы возникнуть при попытке изменения фамилий преподавателей, например, если бы в этом списке была незамужняя женщина с фамилией Сидорова, то возможно, когда-нибудь она вышла бы замуж и поменяла фамилию, а оператору пришлось бы для каждой записи, в которой имелась фамилия Сидорова заменить на новую фамилию. Это довольно нудная работа. Каждая такая запись или строка таблицы базы данных называется кортежем.

Чтобы избавиться от аномалии модификаций и все связанные с ней проблемы мы можем прибегнуть к предыдущему способу, просто разбиваем одну большую таблицу на две маленьких. То есть, приводим базу данных ко второй нормальной форме или просто нормализуем.

И опять же, таким образом мы избавляемся от дублирования данных в базе данных. Все довольно просто.

Аномалия удаления. Проблема удаления данных из базы данных.

Проблема удаления данных из базы данных – это еще одна проблема, которая появляется, если данные в базе избыточны ее еще называют аномалия удаления. Проблема удаления данных из базы данных заключается в том, что при удаление одной записи или кортежа из таблицы, относящейся к какому-либо из преподавателю, вместе с записью о преподавателе, из базы данных удалится вся информация о предмете, который вел этот преподаватель.

Решается проблема удаления данных из базы данных очень просто, нормализуем базу данных до второй нормальной формы, то есть разделяем таблицу на две, как это показано в разделе посвященном аномалии включения.

Обратите внимание: типы данных у различных СУБД могут быть разными, у MySQL типы данных одни, у какой-либо другой СУБД могут быть другие типы данных, как и у языков программирования. У JavaScript типы данных одни, а у PHP типы данных другие.

Читайте также: