Объем информации записанный k двоичными знаками в памяти компьютера определяется как

Обновлено: 06.07.2024

Преобразование информации из одной формы в другую знаковую форму называют кодированием. Для кодирования используют определенную систему знаков алфавит. Количество знаков в алфавите может быть различным. Самый короткий алфавит состоит из двух знаков. Если для кодирования информации используется только два знака - 0 и 1, то кодирование называют двоичным. Информация закодированная таким способом является дискретной (цифровой), т.е. представляется просто набором двоичных цифр. Такой способ достаточно универсален. Он может использоваться для представления всех видов знаковой информации (в том числе числовых данных, тогда речь идет о двоичных числах), а также для представления аналоговой информации (изображений, звука и т.п.). В последнем случае речь идет об аналого-цифровом преобразовании (АЦП), в процессе которого исходная аналоговая информация подвергается дискретизации - разбиению на элементы, каждый из которых описывается конечным набором двоичных знаков.

V = k * i , где V количество информации в тексте; k число знаков в тексте (включая знаки препинания и даже пробелы), i- количество бит, выделенных на кодирование одного знака.

Так как каждый бит это 0 или 1, то любой текст может быть представлен последовательностью нулей и единиц. Именно так текстовая информация хранится в памяти компьютера.Присвоение символу алфавита конкретного двоичного кода - это вопрос соглашения, зафиксированного в кодовой таблице. В настоящее время широкое распространение получили кодовые таблицы ASCII и Unicode.

ASCII(American Standart Code for Informational Interchange - Американский стандартный код информационного обмена) используется достаточно давно. Для хранения кода одного символа выделено 8 бит, следовательно, кодовая таблица поддерживает до 2 8 = 256символов. Первая половина таблицы (128 символов) - управляющие символы, цифры и буквы латинского алфавита. Вторая половина отводится под символы национальных алфавитов. К сожалению, в настоящее время существует целых пять вариантов кодовых таблиц для русских букв, поэтому тексты созданные в одной кодировке неверно отображаются в другой. (Наверное, Вы встречали русскоязычные сайты, тексты которых выглядят как бессмысленный набор знаков? Приходилось менять кодировку?).

Unicode - получил распространение в последние годы. Для хранения кода одного символа выделено 16 бит, следовательно, кодовая таблица поддерживает до 2 16 = 65536 символов. Такого пространства достаточно, чтобы в одном стандарте объединить все "живые" официальные (государственные) письменности. Кстати, стандарт ASCII вошел в состав Unicode.

Билет 4

Дискретное представление информации: кодирование цветного изображения в компьютере (растровый подход). Представление и обработка звука и видеоизображения. Понятие мультимедиа.

Ответ:

Растровая графика.

Графическая информация может быть представлена дискретно. Для этого изображение разбивают на отдельные маленькие фрагменты (пиксели), затем каждому пикселю присваивается код цвета (считаем, что весь пиксель целиком одноцветный, а изображение в целом мозаика мелких цветных точек). Этот процесс называют пространственной дискретизацией изображения.



Качество такого изображения зависит от двух параметров. Качество выше при меньшем размере пикселя и большем количестве используемых цветов (или оттенков серого, для монохромного изображения). Полный набор цветов, которые можно использовать для создания изображения называется палитрой. Изображение, сформированное таким способом, называют растровым. Формула для определения количества информации в нём имеет вид:

Номер Цвет Яркость Красный Зеленый Синий
Черный
Синий
Зеленый
Голубой
Красный
Фиолетовый
Коричневый
Белый
Серый
Светло-синий
Светло-зеленый
Светло-голубой
Светло-красный
Светло-фиолетовый
Желтый
Ярко-белый

Такая палитра используется например при создании программ на Qbasic. Она не дает возможности получить качественную графику, поэтому сейчас используют палитры с глубиной цвета 16 или 32 бита (см. настройки параметров экрана). В последнем случае, на каждую составляющую (R, G, B) и яркость отводится по восемь бит (что составляет диапазон десятичных значений от 0 до 255), а общее количество цветов в палитре 2 24 , что соответствует примерно 16-ти миллионам. Если учесть еще и градации яркости, то получим 2 32 . Такое количество цветов намного превышает возможности восприятия цветовой гаммы глазом человека. 32 битная глубина цвета способна обеспечить самое высокое качество графики. Выше отмечалось, что качество растровой графики зависит также от размера пикселя. Количество пикселей на экране дисплея (растр) указывают соотношением количества пикселей в строке по горизонтали к их количеству в столбце по вертикали (800*600, 1024*768 и т.д.). Максимально возможное количество пикселей на экране называют разрешающей способностью дисплея. Качество растровых изображений может быть очень высоким, но размер файла также весьма велик (изучите свойства нескольких Точечных рисунков *.BMP, созданных с помощью Paint). При уменьшении размера изображения и последующим сохранением рисунка (например, с целью экономии места на диске) качество безвозвратно ухудшается. Для уменьшения размера файлов часто используют другие форматы файлов такие как *.JPG,*.GIFи др.

Векторная графика.

Отметим также, что рассмотренный выше способ представления изображений не единственный. Можно представить изображение совокупностью простых геометрических фигур (прямых линий, окружностей, эллипсов, дуг, прямоугольников и т.д.) графических примитивов и записать информацию о координатах и параметрах каждого их них. При этом координатная сетка должна совпадать с сеткой пикселей на экране. Такой способ представления изображений называют векторной графикой. На рисунке показаны примеры графических примитивов:

Такой способ представления изображения дает возможность получить файл малого размера. Качество изображения не изменяется с изменением размера рисунка, но даже профессиональные векторные графические редакторы не могут обеспечить качество графики, сравнимое с растровыми изображениями.

Видеоинформация.

Если рассматривать видеоинформацию как последовательность изображений, появляющихся на экране с определенной частотой (частотой кадров), то можно понять, что видео может быть закодировано подобно тому, как кодируются растровые изображения (с той разницей, что этих изображений много). Такой способ используется в формате *.AVI (несжатое видео) - высокое качество и огромные размеры файлов. Существуют способы сжатия видеоинформации путем преобразования файла в другие форматы.

Преобразование информации из одной формы в другую знаковую форму называют кодированием. Для кодирования используют определенную систему знаков – алфавит. Количество знаков в алфавите может быть различным. Самый короткий алфавит состоит из двух знаков. Если для кодирования информации используется только два знака - 0 и 1, то кодирование называют двоичным. Информация закодированная таким способом является дискретной (цифровой), т.е. представляется просто набором двоичных цифр. Такой способ достаточно универсален. Он может использоваться для представления всех видов знаковой информации (в том числе числовых данных, тогда речь идет о двоичных числах), а также для представления аналоговой информации (изображений, звука и т.п.). В последнем случае речь идет об аналого-цифровом преобразовании (АЦП), в процессе которого исходная аналоговая информация подвергается дискретизации - разбиению на элементы, каждый из которых описывается конечным набором двоичных знаков.

V = k * i , где V – количество информации в тексте; k – число знаков в тексте (включая знаки препинания и даже пробелы), i- количество бит, выделенных на кодирование одного знака.

Так как каждый бит – это 0 или 1, то любой текст может быть представлен последовательностью нулей и единиц. Именно так текстовая информация хранится в памяти компьютера.Присвоение символу алфавита конкретного двоичного кода - это вопрос соглашения, зафиксированного в кодовой таблице. В настоящее время широкое распространение получили кодовые таблицы ASCII и Unicode.

ASCII(American Standart Code for Informational Interchange - Американский стандартный код информационного обмена) используется достаточно давно. Для хранения кода одного символа выделено 8 бит, следовательно, кодовая таблица поддерживает до 2 8 = 256 символов. Первая половина таблицы (128 символов) - управляющие символы, цифры и буквы латинского алфавита. Вторая половина отводится под символы национальных алфавитов. К сожалению, в настоящее время существует целых пять вариантов кодовых таблиц для русских букв, поэтому тексты созданные в одной кодировке неверно отображаются в другой. (Наверное, Вы встречали русскоязычные сайты, тексты которых выглядят как бессмысленный набор знаков? Приходилось менять кодировку?).

Unicode - получил распространение в последние годы. Для хранения кода одного символа выделено 16 бит, следовательно, кодовая таблица поддерживает до 2 16 = 65536 символов. Такого пространства достаточно, чтобы в одном стандарте объединить все "живые" официальные (государственные) письменности. Кстати, стандарт ASCII вошел в состав Unicode.

Анализируя информацию, мы сталкиваемся с необходимостью определения качества и определения количества полученной информации. Определить качество информации чрезвычайно сложно, а часто и вообще невозможно. Какие-либо сведения, например исторические, могут десятилетиями считаться ненужными и вдруг их ценность может резко возрасти.

Вместе с тем определить количество информации не только можно, но и нужно. Это необходимо для того, чтобы сравнить друг с другом различные массивы информации, а также определить, какие размеры должны иметь материальные объекты (бумага, магнитные носители и т.д.), хранящие эту информацию.

Далее, говоря об измерении информации, мы будем иметь в виду определение ее количества.

Единая форма кодирования и измерения количества информации

Как измерять количество информации? Для этого нужно иметь универсальный способ, позволяющий представить любую ее форму (текстовую, графическую и др.) в едином стандартном виде.

За такой способ принята так называемая двоичная форма представления информации. Она заключается в записи любой информации в виде последовательности только двух символов: 0 и 1 (то есть в виде двоичных чисел) и с технической точки зрения наиболее проста и удобна (есть ток/нет тока, намагничено/размагничено, высокое напряжение/низкое напряжение).

Рассмотрим сначала одноразрядное двоичное число – бит. Оно может принимать два различных значения: 0 и 1

Если с помощью одноразрядного числа попробовать закодировать какую-либо информацию (например, ответ на вопрос «идет ли дождь?»), то мы успешно справимся с поставленной задачей, поскольку количество различных вариантов кодирования в данном случае равно двум (0-не идет, 1-идет).

К = 2 n °, где n – число разрядов двоичного числа.

В общем случае, верно, что чем больше различных видов однотипной информации требуется закодировать, тем больше разрядов двоичного числа (бит) требуется.

Единицы измерения информации

Таким образом, можно утверждать: информацию можно измерять в битах, то есть в количестве двоичных разрядов. Бит является наименьшей единицей измерения количества информации.

Представление текстовой информации в компьютере. Кодовые таблицы

Каждому символу ставится в соответствие двоичное число, причем таким образом, что чем дальше символ расположен от начала алфавита, тем больше значение двоичного числа, которое является кодом данного символа. Сколько разрядов (бит) требуется, чтобы закодировать все буквы, знаки препинания, математические и специальные символы? Легко подсчитать:

  • кириллица (большие и малые буквы) - 66;
  • латинские (большие и малые буквы) - 52;
  • цифры - 10;
  • знаки препинания (. , : ; ‘ « ! ? -) - 9;
  • знаки математических операций (+ - * / ^) - 5.

Таблица кодирования ASCII

Как мы уже выяснили, традиционно для кодирования одного символа используется 8 бит. И, когда люди определились с количеством бит, им осталось договориться о том, каким кодом кодировать тот или иной символ, чтобы не получилось путаницы, т.е. необходимо было выработать стандарт – все коды символов сохранить в специальной таблице кодов. В первые годы развития вычислительной техники таких стандартов не существовало, а сейчас наоборот, их стало очень много, но они противоречивы. Первыми решили эти проблемы в США, в Институте стандартизации. Этот институт ввел в действие таблицу кодов ASCII (American Standard Code for Information Interchange – стандартный код информационного обмена США).

Рассмотрим таблицу кодов ASCII:






Таблица ASCII разделена на две части. Первая – стандартная – содержит коды от 0 до 127. Вторая – расширенная – содержит символы с кодами от 128 до 255.

Первые 32 кода отданы производителям аппаратных средств и называются они управляющие, т.к. эти коды управляют выводом данных. Им не соответствуют никакие символы.

Коды с 32 по 127 соответствуют символам английского алфавита, знакам препинания, цифрам, арифметическим действиям и некоторым вспомогательным символам.

Коды расширенной части таблицы ASCII отданы под символы национальных алфавитов, символы псевдографики и научные символы.

Все буквы расположены в них по алфавиту, а цифры – по возрастанию. Этот принцип последовательного кодирования позволяет определить код символа, не заглядывая в таблицу.

Коды цифр берутся из этой таблицы только при вводе и выводе и если они используются в тексте. Если же они участвуют в вычислениях, то переводятся в двоичную систему счисления.

Альтернативные системы кодирования кириллицы

  • Система кодирования КОИ-7 (код обмена информацией, семизначный), действовавшая в СССР. Была вскоре вытеснена американским кодом ASCII во вторую, расширенную часть системы кодирования с кодами от 128 по 255.
  • Кодировка Windows-1251. Была введена извне компанией Microsoft Так как программный продукт этой компании – операционная система Windows глубоко закрепилась и широко распространилась, то кодировка Windows-1251 получила широкое применение на компьютерах, работающих под управлением именно этой операционной системы.
  • Кодировка КОИ-8 широко распространена на территории России и в российском секторе Интернета.
  • Кодировка ISO (International Standard Organization — Международный институт стандартизации) – содержит символы русского алфавита, но на практике используется редко.
  • Кодировка ГОСТ – альтернативная. Действует на компьютерах в операционных системах MS-DOS.

Таблица Unicode разделена на несколько областей. Область с кодами от 0000 до 007F содержит символы набора Latin 1 (младшие байты соответствуют кодировке ISO 8859-1). Далее идут области, в которых расположены знаки различных письменностей, а также знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем (29000). 6000 кодовых комбинаций оставлено программистам.

Символам кириллицы выделены коды в диапазоне от 0400 до 0451.

Использование Unicode значительно упрощает создание многоязычных документов, публикаций и программных приложений.

Решение задач

1. Закодируйте с помощью ASCII слово: МИР

Решение: открываем таблицу ASCII,
по таблице ищем букву М, её код 204
по таблице ищем букву И, её код 200
по таблице ищем букву Р, её код 208

Ответ: код слова МИР – 204 200 208

2. Декодируйте тексты, заданные десятичным кодом: 192 203 195 206 208 200 210 204

Решение: открываем таблицу ASCII, в таблице ищем коды и соответствующую им букву:
192 – А; 203 – Л; 195 – Г; 206 – О; 208 – Р; 200 – И; 210 – Т; 204 – М, т. е. получили слово: АЛГОРИТМ

Ответ: 192 203 195 206 208 200 210 204 – АЛГОРТИМ

3. Десятичный код буквы «I» в таблице ASCII равен 73. Не пользуясь таблицей, составьте последовательность кодов, соответствующих слову MIR

Решение: Зная, что все буквы расположены по алфавиту, а цифры по возрастанию делаем следующие выводы: I – 73, J – 74, K – 75, L – 76, M – 77, N – 78, O – 79, P – 80, Q – 81, R – 82

Ответ: MIR – 77 73 82

4. Каков информационный объём текста, содержащего слово МИР:

Зная, что в 16-битовой кодировке 1 символ – 16 бит делаем следующие выводы:
МИР – 3 символа = 48 бит (3*16)

Ответ: а) 48 бит; б) 24 бит.

5. Текст занимает полных 2 страницы. На каждой странице размещается 45 строк по 45 символов. Определить объём оперативной памяти, который займёт этот текст.

Решение: Мы знаем, что 1 символ – 8бит – 1 байт , значит нам нужно найти кол-во символов данного текста: 2 страницы*45 строк*45 символов = 4050 символов = 4050 байт

Ответ: 4050 байт

Кодирование графической информации

Общие понятия о графической информации

Графическая информация представляет собой изображение, сформированное из определенного числа точек – пикселей. Добавим к этой информации новые сведения. Процесс разбиения изображения на отдельные маленькие фрагменты (точки) называется пространственной дискретизацией. Ее можно сравнить с построением рисунка из мозаики. При этом каждой мозаике (точке) присваивается код цвета.

От количества точек зависит качество изображения. Оно тем выше, чем меньше размер точки и соответственно большее их количество составляет изображение. Такое количество точек называется разрешающей способностью и обычно существуют четыре основных значений этого параметра: 640x480, 800x600, 1024x768, 1280x1024.

Качество изображения зависит также от количества цветов, т.е. от количества возможных состояний точек изображения, т.к. при этом каждая точка несет большее количество информации. Используемый набор цветов образует палитру цветов.

Кодирование цвета

Рассмотрим, каким образом происходит кодирование цвета точек. Для кодирования цвета применяется принцип разложения цвета на составляющие. Их три: красный цвет (Red, R), синий (Blue, В) и зелёный (Green, G). Смешивая эти составляющие, можно получать различные оттенки и цвета – от белого до черного.

Сколько бит необходимо выделить для каждой составляющей, чтобы при кодировании изображения его качество было наилучшим?

Если рисунок черно-белый, то общепринятым на сегодняшний день считается представление его в виде комбинации точек с 256 градациями серого, т.е. для кодирования точки достаточно 1 байта.

Если же изображение цветное, то с помощью 1 байта можно также закодировать 256 разных оттенков цветов. Этого достаточно для рисования изображений типа тех, что мы видим в мультфильмах. Для изображений же живой природы этого недостаточно. Если увеличить количество байт до двух (16 бит), то цветов станет в два раза больше, т.е. 65536. Это уже похоже на то, что мы видим на фотографиях и на картинках в журналах, но все равно хуже, чем в живой природе. Увеличим еще количество байтов до трех (24 бита). В этом случае можно закодировать 16,5 миллионов различных цветов. Именно такой режим позволяет работать с изображениями наилучшего качества.

Количество бит, необходимое для кодирования цвета точки называется глубиной цвета. Наиболее распространенными значениями глубины цвета являются 4, 8, 16 и 24 бита на точку.

Количество цветов можно вычислить по формуле: N=2 I , где I – глубина цвета.

  • 00000000 – минимальная интенсивность, соответствующая полному отсутствию данного цвета;
  • 11111111 – максимальная интенсивность, соответствующая присутствию данного цвета целиком;
  • 11110000 – средняя интенсивность, соответствующая более светлому оттенку данного цвета.

Решение задач

1. Какой объём видеопамяти необходим для хранения четырёх страниц изображения при условии, что разрешающая способность дисплея равна 640Х480 точек, а используемых цветов – 32?

  • RS – разрешающая способность (в нашем случае RS = 640Х480);
  • I – глубина (в нашем случае – неизвестно);
  • KS – количество страниц (в нашем случае KS = 4).

Для нахождения I воспользуемся формулой: N=2 I ,
где I – глубина цвета,
N – количество цветов (у нас 32).
Следовательно: 32 = 2 I и значит I = 5 бит.

Теперь все параметры нам известны, находим объём:

V = 640*480*5*4 =6144000 бит = 750 Кбайт (т.к. в 1 байте – 8 бит и в 1 Кбайте – 1024 байт)

Ответ: 750 Кбайт

2. 256-цветный рисунок содержит 1 Кбайт информации. Из скольки точек он состоит?

Решение: Найдём информационный объём одной точки: N = 2 I , 256 = 2 I , I = 8 бит (глубина)

Переведём известный объём в биты: 1Кбайт = 1024 байт*8бит = 8192 бит

Зная глубину и объём находим количество точек на изображении: 8192:8 = 1024 точек

Ответ: 1024 точек

Кодирование звуковой информации

Оцифровка звука

Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Для человека звук тем громче, чем больше амплитуда сигнала, и тем выше тон, чем больше частота сигнала. Непрерывный сигнал не несет в себе информации, поэтому он должен быть превращен в последовательность двоичных нулей и единиц – двоичный (цифровой) код.

Оцифровку звука выполняет специальное устройство на звуковой плате. Называется оно аналого-цифровой преобразователь (АЦП). Обратный процесс – воспроизведение закодированного звука производится с помощью цифро-аналогового преобразователя (ЦАП).

Весь процесс кодирования и декодирования представить в виде следующей схемы:

Схема кодирования звука:



В процессе кодирования непрерывного звукового сигнала производится дискретизация по времени, или, как говорят, «временная дискретизация». Звуковая волна разбивается на отдельные маленькие временные участки и для каждого участка устанавливается определенная величина амплитуд. Данный метод называется импульсно-амплитудной модуляцией РСМ Code Modulation).


Таким образом, гладкая кривая заменяется на последовательность «ступенек».. Каждой «ступеньке» присваивается значение громкости звука (1, 2, 3). Чем больше «ступенек», тем большее количество уровней громкости выделено в процессе кодирования, и тем большее количество информации будет нести значение каждого уровня и более качественным будет звучание.

Характеристики оцифрованного звука

Качество звука зависит от двух характеристик – глубины кодирования и частоты дискретизации. Рассмотрим эти характеристики.

Глубина кодирования звука (I) — это количество бит, используемое для кодирования различных уровней сигнала или состояний. Тогда общее количество таких состояний или уровней (N) можно вычислить по формуле: N=2 I .

Современные звуковые карты обеспечивают 16-битную глубину кодирования звука, и тогда общее количество различных уровней будет: N=2 16 = 65536.

Частота дискретизации (М) – это количество измерений уровня звукового сигнала в единицу времени. Эта характеристика показывает качество звучания и точность процедуры двоичного кодирования. Измеряется в герцах (Гц). Одно измерение за одну секунду соответствует частоте 1 Гц, 1000 измерений за одну секунду – 1 килогерц (кГц). Частота дискретизации звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц – качеству звучания аудио-CD.

Высокое качество звучания достигается при частоте дискретизации 44,1 кГц и глубины кодирования звука, равной 16 бит. Для мрачного, приглушенного звука характерны следующие параметры: частота дискретизации – 11 кГц, глубина кодирования – 8 бит.

Решение задач

1. Определить объём памяти для хранения моноаудиофайла, время звучания которого составляет пять минут при частоте дискретизации 44 кГц и глубине кодирования 16 бит.

Решение: Воспользуемся формулой: V = M*I*t

В нашем случае М = 44 кГц = 44000 Гц
I = 16 бит
t = 5 минут,
подставляем в формулу и получаем:
V = 44000*16*5 = 3520000 бит = 430 Кбайт (примерно)


В данный момент вы не можете посмотреть или раздать видеоурок ученикам

Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет, приобрев в каталоге.

Получите невероятные возможности



2. Раздавайте видеоуроки в личные кабинеты ученикам.


3. Смотрите статистику просмотра видеоуроков учениками.

Конспект урока "Представление текста в компьютере"

· использование таблицы кодировок;

· информационный объём текста.

Компьютер может работать с пятью видами информации:

Одним из самых массовых приложений ЭВМ является работа с текстами.

Имея компьютер, можно создавать тексты, не тратя на это много времени и бумагу. Носителем текста становится память компьютера. Текст на внешних носителях сохраняется в виде файла.

Как вы уже знаете, вся информация, независимо от того, какая она графическая, видео или звуковая, представляется в компьютере с помощью чисел, это всего два символа двоичного кода, 0 и 1, которые легко перевести в сигналы.

Прежде всего, вспомним о байтовом принципе организации памяти компьютера.

Как вы помните, каждая клетка обозначает бит памяти. Восемь подряд идущих битов образуют байт памяти. Байты пронумерованы. Порядковый номер байта определяет его адрес в памяти компьютера. По этим адресам процессор обращается к данным, считывает их или записывает в память.

Схема представления текста в памяти компьютера очень проста. Каждая буква алфавита, цифра, знак препинания или любой другой символ необходимый для записи текста обозначается определённым двоичным кодом, длина которого фиксирована.

Например, в системах кодировки Windows – 1251 и KОИ-8 каждый символ заменяется на восьмиразрядное целое положительное двоичное число, оно хранится в одном байте памяти. Это число является порядковым номером символа в кодовой таблице.

Мы уже говорили о том, что разрядность ячейки памяти i и количество различных целых положительных чисел, которые можно записать в эту ячейку n связаны соотношением:

Восьмиразрядный двоичный код позволяет получить 256 различных кодовых комбинаций, то есть 2 8 = 256.

С помощью 256 кодовых комбинаций можно закодировать все символы двух алфавитов (английского и русского) и все остальные дополнительные символы, расположенные на клавиатуре компьютера — цифры и знаки арифметических операций, знаки препинания и скобки и так далее, а также ряд управляющих символов, без которых невозможно создание текстового документа (удаление предыдущего символа, переход на новую строку, пробел и другие).

Мощность алфавита равна 256 символов. Сколько Килобайт памяти потребуется для сохранения 160 страниц текста, содержащего в среднем 192 символа на каждой странице?

В современном мире около 6700 живых языков и около 25 алфавитов.

Он является результатом сотрудничества Международной организации по стандартизации (ISO) с ведущими производителями компьютеров и программного обеспечения.

Этот стандарт был предложен в 1991 году некоммерческой организацией «Консорциум Юникода». С помощью этого стандарта можно закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становится ненужным переключение кодовых страниц.

В Юникод каждый символ кодируется 16-битовым двоичным кодом, то есть два байта на символ. В данном случае можно закодировать 2 16 = 65536 различных символов.

Однако в последнее время объединение Unicode приступило к кодированию письменности мёртвых языков и в этом случае 16-битового кодирования уже недостаточно. Поэтому Unicode приступил к освоению новых кодов.

Текстовый документ, который хранится в памяти компьютера, состоит из кодов символьного алфавита, кодов управления форматами текста. Также текстовые процессоры, например, Microsoft Word позволяют включать и редактировать такие объекты как таблицы, оглавления, ссылки и гиперссылки, историю вносимых изменений и так далее. Все это также представляется в виде последовательности байтовых кодов.

В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:

• 8 бит или 1 байт — если используется восьмиразрядная кодировка;

• 16 бит или 2 байта — если используется шестнадцатиразрядная кодировка.

Информационным объёмом фрагмента текста будем называть количество битов, байтов или производных единиц (килобайтов, мегабайтов и так далее), необходимых для записи этого фрагмента заранее оговорённым способом двоичного кодирования.

Информационный объем текста, набранного на компьютере с использованием кодировки UNICODE равен 4 Килобайта. Определить количество символов в тексте.

Как мы уже говорили бывают случаи, когда, работая с текстом, программа может запросить воспользоваться другой кодировкой, например, текст в восьмибитном коде Windows перекодировать в кодировку Unicode. Давайте выясним, что произойдёт с информационным объёмом текста.

Итак, рассмотрим такой пример.

Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц.

В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:

• 16 бит (2 байта) — если используется 16-разрядная кодировка.

Информационный объём фрагмента текста — это количество битов, байтов и производных единиц, необходимых для записи фрагмента оговорённым способом кодирования.

Читайте также: