Как закодировать текст в шестнадцатеричном коде используя таблицу символов windows

Обновлено: 03.07.2024

Кодировка это процесс преобразования данных или сигналов из формы, удобной для восприятия, в форму, удобную для хранения, обработки и передачи.

Исторически сложилось так, что было создано множество таблиц символов. Виной тому и множество алфавитов различных языков, и разные взгляды на очерёдность следования символов в таблице, и стремление разработчиков уместить все символы в 1 байт, и наоборот создать универсальные кодировки ценой увеличения занимаемого места и т.д. Но в большинстве таблиц, первые 127 символов совпадают и являются знаками, числами и символами латиницы.

Ваш компьютер не является исключением, текст на нём так же хранится в виде чисел, а значит он кодируется. При этом разные файлы могут использовать разную кодировку (использовать разные таблицы символов). Значит и скетчи хранящиеся на Вашем компьютере так же используют определённую кодировку. А именно от кодировки скетча зависит как будут записаны русские символы в микроконтроллер, ведь компилятор не кодирует текст, а читает и сохраняет его числовое (кодированное) представление.

Наиболее распространёнными кодировками с поддержкой Русского языка (с использованием символов Кириллицы) являются: UTF-8, Windows-1251, CP-866, KOI-8R, ISO-8859-5. Стоит отметить что все эти кодировки представляют один символ одним однобайтным числом, кроме кодировки UTF-8 в которой один символ Кириллицы кодируется двухбайтным числом, а значит в кодировке UTF-8 строка русского текста занимает в два раза больше памяти.

Какую кодировку использует Arduino IDE:

Точно сказать какую кодировку использует Arduino IDE нельзя, так как разные её версии использовали разную кодировку. На момент написания данной статьи последняя версия Arduino IDE 1.8.5 сохраняет скетчи в кодировке UTF-8 и монитор последовательного порта этой версии использует кодировку UTF-8. Но не сохранённые скетчи используют кодировку предыдущих версий - Windows-1251.

Попробуйте в Arduino IDE 1.8.5 создать новый скетч (меню: «Файл>Новый») и напишите в нём следующий код:

Загрузите скетч в Arduino (меню: «Скетч>Загрузка»). Arduino IDE предложит Вам сохранить скетч перед загрузкой, откажитесь нажав на кнопку «Отмена», начнётся загрузка скетча в Arduino. Дождитесь завершения загрузки и откройте монитор последовательного порта (меню: «Инструменты>монитор порта»). В мониторе порта вы увидите текст «⸮⸮⸮⸮⸮⸮». Дело в том, что скетч был загружен в Arduino в кодировке Windows-1251, а монитор последовательного порта использует кодировку UTF-8.

Теперь загрузите тот же скетч в Arduino (меню: «Скетч>Загрузка»), но согласитесь с сохранением скетча, а после его загрузки откройте монитор последовательного порта (меню: «Инструменты>монитор порта»). В мониторе порта вы увидите текст «Привет». Дело в том, что теперь скетч был загружен в кодировке UTF-8 и в той же кодировке работает монитор порта. Кодировки совпали и текст стал читаемым.

Если вместо строки «Привет» Вы напишете «Privet», то в обоих случаях строка корректно отобразится в мониторе порта, так как числовое представление символов латиницы совпадает в большинстве кодировок.

Запись и вывод текста в Arduino IDE на русском языке:

Как видно из предыдущего примера, кодировка выводимого текста на русском языке должна совпадать с кодировкой устройства для которого этот текст предназначен. Но многие устройства (дисплеи, модули gsm, bluetooth и т.д.) используют кодировку отличную от UTF-8 и тогда возникает вопрос, как в скетче записать текст на русском языке?

Для записи одного символа достаточно указать его код из таблицы символов (в примере указан код в 10-тичной системе счисления):

Не смотря на то что запись строки «i» кажется громоздкой, она занимает всего 6 байт (5 символов + автоматически добавленный символ конца строки). В мониторе последовательного порта отобразится строка "Hello".

Для записи символов и строк на русском языке действуют те же правила:

В данном примере строки «j», «k», «l» и «m» занимают по 7 байт (6 символов + автоматически добавленный символ конца строки), а строка «i» занимает 13 байт (6 символов по 2 байта каждый + автоматически добавленный символ конца строки). Строка «n» может занимать либо 7, либо 13 байт, это зависит от кодировки используемой Arduino IDE.

Если в тексте с символами Кириллицы присутствуют числа, знаки или символы латиницы, то символы Кириллицы пишутся кодами, а символы знаков, цифр и латиницы можно писать символами, так как они будут корректно отображаться для практически любой кодировки.

Таблица символов:

В таблице каждому символу сопоставлен его код в десятичной , шестнадцатеричной и восьмеричной системах счисления. Для указания символа в строке, используется его код записанный в восьмеричной системе счисления (указан в таблице серым цветом и начинается обратным слешем).

В данной таблице символов указаны сразу 5 кодировок: «UTF-8», «Windows-1251», «CP-866», «KOI-8R» и «ISO-8859-5». Коды символов от 0 до 127 совпадают для всех кодировок. В кодировке «UTF-8» символы Кириллицы занимают 2 байта, следовательно, для них указано 2 числа.

Стоит отметить кодировку «KOI-8R» в которой (в отличии от остальных) на первый взгляд не просматривается закономерность следования кодов, но на самом деле закономерность есть и заключается она в том, что если сбросить старший бит, то код символа Кириллицы превратится в код сходного по произношению символа латиницы, и наоборот. Например символ «л» записывается кодом 0xCC, если сбросить старший бит то получится 0x4C, а это код символа «L». Значит, если в тексте из символов Кириллицы сбросить старшие биты кода каждого символа, то получится «читаемый» текст из символов латиницы, подобный транслиту.

Примечание:

К недостаткам записи строк кодами символов относится то, что строки в скетче становятся не удобочитаемыми. В качестве альтернативного варианта можно создать функцию преобразования кодировки строк перед их выводом, или хранить строки из символов Кириллицы в отдельном, подключаемом, файле, который будет сохранён в требуемой для вывода кодировке.

Этичный хакинг и тестирование на проникновение, информационная безопасность

На самом деле, это действительно не особенно сложная тема — достаточно один раз понять суть, а затем при необходимости можно пользоваться таблицами ASCII/Hex/Bin значений символов, либо конвертировать используя соответствующие утилиты или встроенные в языки программирования функции. Если у вас пробел в этих знаниях, то это статья должна вам помочь.

Смотрите также:

Для кого эта статья

Вам абсолютно точно нужно понимать суть ASCII кодирования символов, а также шестнадцатеричную запись строк если вы:

  • программируете
  • занимаетесь отладкой и обратным инжинирингом программ
  • выполняете тесты на проникновение (шестнадцатеричная и другие варианты записи широко используются для обхода файловых файерволов, фильтров и других систем защиты веб-приложений)

Примечание: правда, я исхожу из того, что вы знаете что такое:

  • система счисления
  • десятичная, шестнадцатеричная, двоичная система счисления
  • умеете конвертировать числа между этими системами счисления
  • логические операции И, ИЛИ

По идее, это охватывается базовым курсом информатики и логики на любых специальностях в ВУЗе (некоторые учат это уже в школе) и это должен знать каждый — поэтому я не будут на этом останавливаться. Если вы не знаете даже этого, то прежде чем читать эту заметку, начните с ликвидации ваших более базовых пробелов про системы счисления.

Что такое ASCII

Не будем тратить время на экскурсы в историю о появлении ASCII — рассмотрим только с практической точки зрения.

А с практической точки зрения в ASCII каждому символу соответствует его порядковый номер. Этот порядковый номер можно записать десятичным числом, например, символу «h» соответствует 104, а символу «i» соответствует 105.

Любое десятичное число можно конвертировать в шестнадцатеричное, двоичное или восьмеричное число. Зачем конвертировать? Главная причина в том, что компьютер в своей основе не работает с десятеричными числами, а использует двоичные, которые удобно записывать в более компактном виде — конвертировать в шестнадцатеричные. Поэтому в определённых программах широко используются эти записи: в шестнадцатеричных редакторах, отладчиках. Также шестнадцатеричную/двоичную запись строк программист может использовать для различных манипуляций, например, с целью шифрования или другой обработки. Например, для тех же самых побитовых операций, к которым мы вернёмся позже.

Итак, вот таблицы символов, с их цифровым представлением в различных системах счисления:

Контрольные символы ASCII (некоторые из них больше не актуальны, так как подразумевают использование в телетайп связи)

line feed - перевод строки: Команда для опускания каретки печатающего устройства на одну строку вниз. Обозначение конца строки текстового файла различается в семействах операционных систем:

  • для «UNIX» — одиночный символ «LF»;
  • для «Windows» — последовательность символов «CR LF».

Во многих языках программирования символ обозначается как «\n». Нажатие на клавишу ↵ Enter при выводе текста переводит строку.

substitute - «Подставить»: Символ ставится:

В настоящее время символ вставляется нажатием комбинации клавиш Ctrl + Z и используется для обозначения конца файла в операционных системах «DOS» и «Windows».

delete - стереть последний символ: Символом «DEL» (состоящим в двоичном коде из всех единиц) можно было «забить» любой символ. Устройства и программы игнорировали «DEL» так же, как и «NUL».

Код этого символа происходит из первых текстовых процессоров с памятью на перфоленте: в них удаление символа происходило «забиванием» его кода дырочками (обозначавшими логические единицы).

Печатные символы ASCII

Расширенные символы ASCII

Как отличить двоичное, шестнадцатеричное и десятичное написание друг от друга

Конкретные нотации могут различаться в зависимости от языка программирования или используемой программы (printf, printf, xxd, hexdump и так далее), но обычно используются следующие правила:

По умолчанию целочисленный литерал (число) — это десятичное целое число.

Для обозначения двоичного целочисленного литерала перед ним используется 0b или 0B (ноль B). Иногда буква b ставится позади числа.

Для обозначения восьмеричного целочисленного литерала, перед ним используется 0 (ноль).

А для обозначения шестнадцатеричного целочисленного литерала, перед ним используется 0x или 0X (ноль X).

В Radare2 можно увидеть такую запись:


Обратите внимание на переменную eax, значение которой равно 0x6d, а затем дано пояснение 109 ascii. То есть в шестнадцатеричном виде значение переменной eax равно 0x6d, в десятеричном это 109 что соответствует символу m.

ASCII и HTML

Многие программы понимают шестнадцатеричную запись, правда вид записи может различаться от конкретной программы и языка программирования.

В JavaScript шестнадцатеричные строки записываются в виде экранированной последовательности:

Можно записать код символов в восьмеричной системе счисления:

Аналогично Bash понимает такие строки:

И PHP их обрабатывает верно:

Побитовые операции над строками

К побитовым операторам относятся:

  • И (AND)
  • Отрицание
  • Побитовое (включающее) ИЛИ (OR)
  • Побитовое ИСКЛЮЧАЮЩЕЕ ИЛИ (XOR)
  • Побитовый сдвиг (влево и вправо)

Если вспомнить школьный/ВУЗовский курс логики, то там такие операции выполняются с нулями и единицами. То есть их можно выполнить с бинарными данными, например, с двоичными числами.

В языках программирования можно делать побитовые операции с десятичными числами, например Побитовое ИСКЛЮЧАЮЩЕЕ ИЛИ (XOR) в PHP:

Дело в том, что числа будут автоматически переведены в двоичный вид и операция будет выполнена уже над двоичными числами.

Пример выше можно проверить вручную. Операция ИСКЛЮЧАЮЩЕЕ ИЛИ (XOR) означает, что устанавливаются только те биты, которые установлены либо только в $a, либо только в $b, но не в обоих одновременно.

8 и 5 в двоичном виде это соответственно 1000 и 101, можно также из записать так: 1000 и 0101.

  • смотрим первый бит — в первом числе он установлен (1) а во втором — не установлен (0), следовательно, в конечном числе он будет установлен (1)
  • смотрим второй бит — в первом числе он не установлен (0) а во втором — установлен (1), следовательно, в конечном числе он будет установлен (1)
  • смотрим третий бит — в первом числе он не установлен (0) и во втором — не установлен (0), следовательно, в конечном числе он не будет установлен (0)
  • смотрим четвёртый бит — в первом числе он не установлен (0) а во втором — установлен (1), следовательно, в конечном числе он будет установлен (1)

Получаем конечное число: 1101

То есть в PHP операция проделана правильно, даже не смотря на то, что мы указали не двоичные числа, а десятичные.

Когда говорят о побитовых операциях со строками, то имеют в виду, что используется ASCII код символа (который затем переводиться в двоичный вид). После выполнения требуемой операции, выполняется обратное преобразование — число переводиться в ASCII символ.

Кстати, про ИСКЛЮЧАЮЩЕЕ ИЛИ (XOR) — у этой операции есть интересное свойство:

  • Как мы уже видели, 8 ^ 5 = 13
  • При этом: 13 ^ 5 = 8
  • И: 8 ^ 13 = 5

То есть можно взять строки и выполнить между ними операцию XOR. В результате получиться бессмысленный набор символов. Затем если между этой бессмысленной строкой и любой из первоначальных строк вновь выполнить операцию XOR, то получиться вторая начальная строка.

На этом основано простейшее симметричное шифрование: исходный текст шифруется паролем с помощью XOR. То есть с первым символом текста и первыми символом пароля делается операция XOR, затем со вторым символом шифруемого текста и вторым символом пароля делается операция XOR и так далее, пока шифруемый текст не кончится. Поскольку пароль обычно короче шифруемого текста, то когда он заканчивается, вновь выполняется переход к первому символу пароля и так далее много раз.

В результате получается бессмысленный набор символов, которые можно расшифровать этим же паролем выполняя эту же операцию XOR.

Правда, зашифрованные таким образом тексты часто приводятся для тренировки в литературе по взлому шифров: если текст достаточно длинный, то с помощью статистического анализа того, как часто в нём встречаются символы и сравнивая эту частотность с естественной частотностью букв в языке, сначала вычисляют длину пароля, а затем и сам пароль. То есть это крайне ненадёжный шифр.

Вычитание числа из строки и прибавление к строкам числа

В статье «Анализ вредоносной программы под Linux: плохое самодельное шифрование» рассматривается шифрование, которое основано на прибавлении или вычитании числа к символу строки (на основе позиции символов). Как я думаю вы уже поняли, используется аналогичный приём: берётся ASCII код символа и из этого числа делается вычитание или находиться сумма с ним, а затем полученное число опять переводят в ASCII символ.

Побитовые операции с цифрами: нужно переводить в двоичную систему сами цифры или брать двоичные значения ASCII каждого символа?

Допустим, мы хотим сделать побитовую операцию 5 OR 7. Какой будет результат? Микропроцессор не работает ни с числами в десятичной системе, ни с ASCII строками — микропроцессор работает только двоичными числами.

То есть возникает вопрос:

2. Это ASCII строки?

Рассмотрим оба эти варианта, чтобы понять, насколько они различаются.

1.

5 и 7 — это числа

Число 5 в двоичной системе это 101, а число 7 в двоичной системе это 111.

В результате выполнения

Будет получено 111. То есть результатом данной операции является число 7.

2.

5 и 7 — это ASCII строки

Смотрим таблицу ASCII символов, там цифре 5 соответствует код 00110101, а цифре 7 соответствует код 00110111. Делаем побитовую операцию OR между ними:

00110101 OR 00110111

Получаем: 110111, что в таблице ASCII символов также соответствует символу «7».

Итак, в принципе, можно напрямую переводить данные цифры в их двоичные значения, либо можно использовать двоичные значения их символов. Самое главное, придерживаться одной и той же схемы и преобразовывать с учётом выбранного пути. Ведь если вы делаете логическую операцию (например OR), с ASCII значением, а затем начинаете толковать полученный результат как число, то такое число (в нашем примере), будет равно 110111 = 55 (в десятичной системе). Или наоборот, вы сделали побитовую операцию между 101 OR 111, а затем полученный результат 111 начинаете трактовать как ASCII код символа — то тогда вместо числа вы получите управляющий символ «звуковой сигнал: звонок».

Заключение

Подытожим: у всех символов (печатных и непечатных) есть свой код ASCII. Кстати, ASCII — это ведь одна из многих кодировок. Существует много разных кодировок, например, очень популярна UTF8 и там у символов свои собственные коды. Причём используя экранированные последовательности можно записывать символы UTF8 по аналогии, как это показано с ASCII.

Сайт учителя информатики. Технологические карты уроков, Подготовка к ОГЭ и ЕГЭ, полезный материал и многое другое.

Информатика. 10 класса. Босова Л.Л. Оглавление

§14. Кодирование текстовой информации

Компьютеры третьего поколения «научились» работать с текстовой информацией.

Текстовая информация по своей природе дискретна, т. к. представляется последовательностью отдельных символов.

Для компьютерного представления текстовой информации достаточно:

1) определить множество всех символов (алфавит), требуемых для представления текстовой информации;
2) выстроить все символы используемого алфавита в некоторой последовательности (присвоить каждому символу алфавита свой номер);
3) получить для каждого символа n-разрядный двоичный код (n ≤ 2 n ), переведя номер этого символа в двоичную систему счисления.

В памяти компьютера хранятся специальные кодовые таблицы, в которых для каждого символа указан его двоичный код. Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов.

14.1. Кодировка ASCII и её расширения

Основой для компьютерных стандартов кодирования символов послужил код ASCII (American Standard Code for Information Interchange) — американский стандартный код для обмена информацией, разработанный в 1960-х годах в США и применявшийся для любых, в том числе и некомпьютерных, способов передачи информации (телеграф, факсимильная связь и т. д.). Этот код 7-битовый: общее количество символов составляет 2 7 = 128, из них первые 32 символа — управляющие, а остальные — изображаемые, т. е. имеющие графическое изображение. К изображаемым символам в ASCII относятся буквы латинского алфавита (прописные и строчные), цифры, знаки препинания и арифметических операций, скобки и некоторые специальные символы. Кодировка ASCII приведена в табл. 3.8.

Таблица 3.8

Кодировка ASCII


Хотя для кодирования символов в ASCII достаточно 7 битов, в памяти компьютера под каждый символ отводится ровно 1 байт (8 битов), при этом код символа помещается в младшие биты, а в старший бит заносится 0.

Например, 01000001 — код прописной латинской буквы «А»; с помощью шестнадцатеричных цифр его можно записать как 41.

Впоследствии использование кодовых таблиц было несколько упорядочено: каждой кодовой таблице было присвоено особое название и номер. Для русского языка наиболее распространёнными стали однобайтовые кодовые таблицы CP-866, Windows-1251 (табл. 3.9) и КОИ-8 (табл. 3.10). В них первые 128 символов совпадают с ASCII-кодировкой, а русские буквы размещены во второй части таблицы. Обратите внимание на то, что коды русских букв в этих кодировках различны.

Таблица 3.9

Кодировка Windows-1251


Таблица 3.10

Кодировка КОИ-8


Мы выяснили, что при нажатии на алфавитно-цифровую клавишу в компьютер посылается некоторая цепочка нулей и единиц. В текстовых файлах хранятся не изображения символов, а их коды.

При выводе текста на экран монитора или принтера необходимо восстановить изображения всех символов, составляющих данный текст, причём изображения эти могут быть разнообразны и достаточно причудливы. Внешний вид выводимых на экран символов кодируется и хранится в специальных шрифтовых файлах. Современные текстовые процессоры умеют внедрять шрифты в файл. В этом случае файл содержит не только коды символов, но и описание используемых в этом документе шрифтов. Кроме того, файлы, создаваемые с помощью текстовых процессоров, включают в себя и такие данные о форматировании текста, как его размер, начертание, размеры полей, отступов, межстрочных интервалов и другую дополнительную информацию.

14.2. Стандарт Unicode

В Unicode на кодирование символов отводится 31 бит. Первые 128 символов (коды 0-127) совпадают с таблицей ASCII. Далее размещены основные алфавиты современных языков: они полностью умещаются в первой части таблицы, их коды не превосходят 65 536 = 2 16 .

Стандарт Unicode описывает алфавиты всех известных, в том числе и «мёртвых», языков. Для языков, имеющих несколько алфавитов или вариантов написания (например, японского и индийского), закодированы все варианты. В кодировку Unicode внесены все математические и иные научные символьные обозначения и даже некоторые придуманные языки (например, язык эльфов из трилогии Дж. Р. Р. Толкина «Властелин колец»).

Всего современная версия Unicode позволяет закодировать более миллиона различных знаков, но реально используется чуть менее 110 000 кодовых позиций.

Для представления символов в памяти компьютера в стандарте Unicode имеется несколько кодировок.

В операционных системах семейства Windows используется кодировка UTF-16. В ней все наиболее важные символы кодируются с помощью 2 байт (16 бит), а редко используемые — с помощью 4 байт.

В операционной системе Linux применяется кодировка UTF-8, в которой символы могут занимать от 1 (символы, входящие в таблицу ASCII) до 4 байт. Если значительную часть текста составляют цифры и латинские буквы, то это позволяет в несколько раз уменьшить размер файла по сравнению с кодировкой UTF-16.

Кодировки Unicode позволяют включать в один документ символы самых разных языков, но их использование ведёт к увеличению размеров текстовых файлов.

Мы уже касались этого вопроса, рассматривая алфавитный подход к измерению информации.

Оценим в байтах объём текстовой информации в современном словаре иностранных слов из 740 страниц, если на одной странице размещается в среднем 60 строк по 80 символов (включая пробелы).

Будем считать, что при записи используется кодировка «один символ — один байт». Количество символов во всем словаре равно:

80 • 60 • 740 = 3 552 000.

Следовательно, объём равен

3 552 000 байт = 3 468,75 Кбайт ≈ 3,39 Мбайт.

Если же использовать кодировку UTF-16, то объём этой же текстовой информации в байтах возрастёт в 2 раза и составит 6,78 Мбайт.

САМОЕ ГЛАВНОЕ

Текстовая информация по своей природе дискретна, т. к. представляется последовательностью отдельных символов.

В памяти компьютера хранятся специальные кодовые таблицы, в которых для каждого символа указан его двоичный код. Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов.

В 1991 году был разработан новый стандарт кодирования символов, получивший название Unicode (Юникод), позволяющий использовать в текстах любые символы любых языков мира. Кодировки Unicode позволяют включать в один документ символы самых разных языков, но их использование ведёт к увеличению размеров текстовых файлов.

Вопросы и задания

1. Какова основная идея представления текстовой информации в компьютере?

2. Что представляет собой кодировка ASCII? Сколько символов она включает? Какие это символы?

3. Как известно, кодовые таблицы каждому символу алфавита ставят в соответствие его двоичный код. Как, в таком случае, вы можете объяснить вид таблицы 3.8 «Кодировка ASCII»?

4. С помощью таблицы 3.8:

5. Что представляют собой расширения ASCII-кодировки? Назовите основные расширения ASCII-кодировки, содержащие русские буквы.

6. Сравните подходы к расположению русских букв в кодировках Windows-1251 и КОИ-8.

7. Представьте в кодировке Windows-1251 текст «Знание — сила!»:

1) шестнадцатеричным кодом;
2) двоичным кодом;
3) десятичным кодом.

8. Представьте в кодировке КОИ-8 текст «Дело в шляпе!»:

1) шестнадцатеричным кодом;
2) двоичным кодом;
3) десятичным кодом.

9. Что является содержимым файла, созданного в современном текстовом процессоре?

10. В кодировке Unicode на каждый символ отводится 2 байта. Определите в этой кодировке информационный объём следующей строки:

Где родился, там и сгодился.

11. Набранный на компьютере текст содержит 2 страницы. На каждой странице 32 строки, в каждой строке 64 символа. Определите информационный объём текста в кодировке Unicode, в которой каждый символ кодируется 16 битами.

13. В текстовом процессоре MS Word откройте таблицу символов (вкладка Вставка ⇒ Символ ⇒ Другие символы):



В поле Шрифт установите Times New Roman, в поле из — кириллица (дес.).

Цель работы : практическое закрепление знаний о представлении в компьютере текстовых данных .

Определить, какие символы кодировочной таблицы ASCII ( DOS ) соответствуют всем прописным буквам русского алфавита в кодировочной таблице ANSI ( Windows ). Для выполнения задания создать текст с русским алфавитом в Блокноте, а затем открыть его в режиме просмотра (клавиша F 3) в любом файловом менеджере ( Windows Commander , Far , Total Commander , Norton Commander ) и преобразовать в другую кодировку. После выполнения задания заполнить таблицу.

в ANSI

в AS CI I

в ANSI

в AS CI I

в ANSI

в AS CI I

1. Используем готовый текстовый файл ANSI.txt..

2. Далее открывает Unreal Commander (Free Commander) и ищем в нём наш файл.

hello_html_m22a9c433.jpg

4. Затем нажимаем на режим просмотра F3. Там отобразится содержимое файла в изначальной кодировке ( ANSI ) и там же есть возможность, просмотреть это же содержимое в разных кодировках.

В нашем случае нужно найти значение кодировки ASCII (DOS).

hello_html_m568c07d5.jpg

5. Получаем результат:

Ответ: Таких символов нет. Вместо них на экране в режиме просмотра появляются символы псевдографики.

Закодировать текст с помощью кодировочной таблицы ASCII .
Happy Birthday to you !

Записать двоичное и шестиадцатеричное представления кода (для записи шестнадцатеричного кода использовать средство для просмотра файлов любого файлового менеджера).

в 16-ричной СС (используем кодовую таблицу в текстовом файле ASCII . docx )

4 8 61 70 70 79 20 42 69
72 74 68 64 61 79 20 74
6 F 20 79 6F 75 21 21

в двоичной СС (48 16 = 100 1000 2 где 1000 — код цифру 8, а 100 — код цифры 4)
1001000 1100001 1110000 1110000 1111001 0100000 1000010 1101001
1110010 1110100 1101000 1100100 1100001 1111001 0100000 1110100
110 1111 0100000 1111001 1101111 1110101 0100001 0100001

Декодировать текст, записанный в международной кодировочной таблице ASCII (дано десятичное представление).

72 101 108 108 111 44 32 109 121 32 102 114 105 101 110 100 33

Для раскодирования используем таблицу в файле « Коды символов ASCII.mht »
где Dec —
десятизначный код

Ответ : H ello, my friend !

Задание 4

Пользуясь таблицей кодировки ASCII , расшифровать текст, представленный в виде двоичных кодов символов.

01010000 01100101 01110010 01101110 00100000 01010101 01101110 01101001 01110110 01100101 01110010 01110011 01101001 01110100 01111001

Переведем в 16-ричный код отделяя группу двоичных разрядов, справа налево, по 4 бита:

01010000= 0101 0000 = 5 0 16

Используя кодовую таблицу из файла Коды символов ASCII.mht по найденному H ex коду (50) определим первый символ латинского текста « P »

50 65 72 6E 20 55 6D 69 76

65 72 73 69 74 79

Ответ : Perm University

Пользуясь кодовой страницей Windows -1251 таблицы кодировки ASCII , получить шестнадцатеричный код слова ИНФОРМАТИЗАЦИЯ.

Используем кодовую таблицу в файле « Таблица Windows-1251.mht »

Согласно этой таблицы русская заглавная буква «И» (в колонке Hex )
имеет 16-ричный код
— C 8

Ответ : C8 CD D4 CE D0 CC C0 D2 C8 C7 C0 D6 C8 DF

Для кодирования одного символа в кодировке KOI -8 используется 1 байт, а в кодировке UNICODE — 2 байта, следовательно, информационный объем страницы текста увеличится в 2 раза

Ответ : в 2 раза

С помощью табличного процессора Excel построить кодировочную таблицу ASCII , в которой символы будут автоматически отображаться на экране в соответствии с их заданным десятичным номером (использовать соответствующую текстовую функцию).

Введите ускоренным методом числа от 33 до 254 (по 25 в каждой строке через столбец:
А, С, E, … ,
Q )

hello_html_23ece9cf.jpg


В ячейку B 1 введите формулу =СИМВОЛ( A 1) и далее используя ускоренный метод, скопируйте ее в остальные ячейки столбцов: B , D , F ,…, R .

hello_html_m4f5541d8.jpg

Справка:
Алгоритм Хаффмана. Сжатием информации в памяти компьютера называют такое ее преобразование, которое ведет к сокращению объема занимаемой памяти при сохранении закодированного содержания. Рассмотрим один из способов сжатия текстовой информации — алгоритм Хаффмана. С помощью этого алгоритма строится двоичное дерево, которое позволяет однозначно декодировать двоичный код, состоящий из символьных кодов различной длины. Двоичным называется дерево, из каждой вершины которого выходят две ветви. На рисунке приведен пример такого дерева, построенного для алфавита английского языка с учетом частоты встречаемости его букв.

hello_html_m79f12b84.jpg

Закодируем с помощью данного дерева слово « hello »: 0101 100 01111 01111 1110

При размещении этого кода в памяти побитно он примет вид: 01011000 11110111 11110
Таким образом, текст, занимающий в кодировке ASCII 5 байтов, в кодировке Хаффмана займет только 3 байта.

Используя метод сжатия Хаффмана, закодируйте следующие слова:

а) administrator 1111 11011 00011 1010 1100 1010 0110 001 1011 1111 001 1110 1011

( 11111101 10001110 10110010 10011000 11011111 10011110 1011 )

б ) revolution 1011 100 1101001 1110 01111 00010 001 1010 1110 1100

( 10111001 10100111 10011110 00100011 01011101 100 )

в ) economy 100 01000 1110 1100 1110 00011 00000 ( 10001000 11101100 11100001 100000 )

г) department 11011 100 110101 1111 1011 001 00011 100 1100 001

( 11011100 11010111 11101100 10001110 01100001 )

Используя дерево Хаффмана, декодируйте следующие слова:

а) 01110011 11001001 10010110 10010111 100000

(011100 1111 001 001 100 1011 01001 01111 00000) BATTERFLY

б) 00010110 01010110 10011001 01101101 01000100 000

( 00010 1100 1010 1101001 100 1011 0110 1010 001 00000 ) UNIVERSITY

Выбранный для просмотра документ Работа 1.4 Представление и сжатие текстов.docx

Работа 1.4 . Представление текстов. Сжатие текстов

Цель работы : практическое закрепление знаний о представлении в компьютере текстовых данных .

Определить, какие символы кодировочной таблицы ASCII ( DOS ) соответствуют всем прописным буквам русского алфавита в кодировочной таблице ANSI ( Windows ). Для выполнения задания создать текст с русским алфавитом в Блокноте, а затем открыть его в режиме просмотра (клавиша F 3) в любом файловом менеджере ( Windows Commander , Far , Total Commander , Norton Commander ) и преобразовать в другую кодировку. После выполнения задания заполнить таблицу.

Читайте также: