Отметьте все правильные утверждения в текстовых файлах хранятся только коды символов

Обновлено: 04.07.2024

Сайт учителя информатики. Технологические карты уроков, Подготовка к ОГЭ и ЕГЭ, полезный материал и многое другое.

Информатика. 10 класса. Босова Л.Л. Оглавление

§14. Кодирование текстовой информации

Компьютеры третьего поколения «научились» работать с текстовой информацией.

Текстовая информация по своей природе дискретна, т. к. представляется последовательностью отдельных символов.

Для компьютерного представления текстовой информации достаточно:

1) определить множество всех символов (алфавит), требуемых для представления текстовой информации;
2) выстроить все символы используемого алфавита в некоторой последовательности (присвоить каждому символу алфавита свой номер);
3) получить для каждого символа n-разрядный двоичный код (n ≤ 2 n ), переведя номер этого символа в двоичную систему счисления.

В памяти компьютера хранятся специальные кодовые таблицы, в которых для каждого символа указан его двоичный код. Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов.

14.1. Кодировка ASCII и её расширения

Основой для компьютерных стандартов кодирования символов послужил код ASCII (American Standard Code for Information Interchange) — американский стандартный код для обмена информацией, разработанный в 1960-х годах в США и применявшийся для любых, в том числе и некомпьютерных, способов передачи информации (телеграф, факсимильная связь и т. д.). Этот код 7-битовый: общее количество символов составляет 2 7 = 128, из них первые 32 символа — управляющие, а остальные — изображаемые, т. е. имеющие графическое изображение. К изображаемым символам в ASCII относятся буквы латинского алфавита (прописные и строчные), цифры, знаки препинания и арифметических операций, скобки и некоторые специальные символы. Кодировка ASCII приведена в табл. 3.8.

Таблица 3.8

Кодировка ASCII

Хотя для кодирования символов в ASCII достаточно 7 битов, в памяти компьютера под каждый символ отводится ровно 1 байт (8 битов), при этом код символа помещается в младшие биты, а в старший бит заносится 0.

Например, 01000001 — код прописной латинской буквы «А»; с помощью шестнадцатеричных цифр его можно записать как 41.

Впоследствии использование кодовых таблиц было несколько упорядочено: каждой кодовой таблице было присвоено особое название и номер. Для русского языка наиболее распространёнными стали однобайтовые кодовые таблицы CP-866, Windows-1251 (табл. 3.9) и КОИ-8 (табл. 3.10). В них первые 128 символов совпадают с ASCII-кодировкой, а русские буквы размещены во второй части таблицы. Обратите внимание на то, что коды русских букв в этих кодировках различны.

Таблица 3.9

Кодировка Windows-1251

Таблица 3.10

Кодировка КОИ-8

Мы выяснили, что при нажатии на алфавитно-цифровую клавишу в компьютер посылается некоторая цепочка нулей и единиц. В текстовых файлах хранятся не изображения символов, а их коды.

При выводе текста на экран монитора или принтера необходимо восстановить изображения всех символов, составляющих данный текст, причём изображения эти могут быть разнообразны и достаточно причудливы. Внешний вид выводимых на экран символов кодируется и хранится в специальных шрифтовых файлах. Современные текстовые процессоры умеют внедрять шрифты в файл. В этом случае файл содержит не только коды символов, но и описание используемых в этом документе шрифтов. Кроме того, файлы, создаваемые с помощью текстовых процессоров, включают в себя и такие данные о форматировании текста, как его размер, начертание, размеры полей, отступов, межстрочных интервалов и другую дополнительную информацию.

14.2. Стандарт Unicode

В Unicode на кодирование символов отводится 31 бит. Первые 128 символов (коды 0-127) совпадают с таблицей ASCII. Далее размещены основные алфавиты современных языков: они полностью умещаются в первой части таблицы, их коды не превосходят 65 536 = 2 16 .

Стандарт Unicode описывает алфавиты всех известных, в том числе и «мёртвых», языков. Для языков, имеющих несколько алфавитов или вариантов написания (например, японского и индийского), закодированы все варианты. В кодировку Unicode внесены все математические и иные научные символьные обозначения и даже некоторые придуманные языки (например, язык эльфов из трилогии Дж. Р. Р. Толкина «Властелин колец»).

Всего современная версия Unicode позволяет закодировать более миллиона различных знаков, но реально используется чуть менее 110 000 кодовых позиций.

Для представления символов в памяти компьютера в стандарте Unicode имеется несколько кодировок.

В операционных системах семейства Windows используется кодировка UTF-16. В ней все наиболее важные символы кодируются с помощью 2 байт (16 бит), а редко используемые — с помощью 4 байт.

В операционной системе Linux применяется кодировка UTF-8, в которой символы могут занимать от 1 (символы, входящие в таблицу ASCII) до 4 байт. Если значительную часть текста составляют цифры и латинские буквы, то это позволяет в несколько раз уменьшить размер файла по сравнению с кодировкой UTF-16.

Кодировки Unicode позволяют включать в один документ символы самых разных языков, но их использование ведёт к увеличению размеров текстовых файлов.

Мы уже касались этого вопроса, рассматривая алфавитный подход к измерению информации.

Оценим в байтах объём текстовой информации в современном словаре иностранных слов из 740 страниц, если на одной странице размещается в среднем 60 строк по 80 символов (включая пробелы).

Будем считать, что при записи используется кодировка «один символ — один байт». Количество символов во всем словаре равно:

80 • 60 • 740 = 3 552 000.

Следовательно, объём равен

3 552 000 байт = 3 468,75 Кбайт ≈ 3,39 Мбайт.

Если же использовать кодировку UTF-16, то объём этой же текстовой информации в байтах возрастёт в 2 раза и составит 6,78 Мбайт.

САМОЕ ГЛАВНОЕ

В 1991 году был разработан новый стандарт кодирования символов, получивший название Unicode (Юникод), позволяющий использовать в текстах любые символы любых языков мира. Кодировки Unicode позволяют включать в один документ символы самых разных языков, но их использование ведёт к увеличению размеров текстовых файлов.

Вопросы и задания

1. Какова основная идея представления текстовой информации в компьютере?

2. Что представляет собой кодировка ASCII? Сколько символов она включает? Какие это символы?

3. Как известно, кодовые таблицы каждому символу алфавита ставят в соответствие его двоичный код. Как, в таком случае, вы можете объяснить вид таблицы 3.8 «Кодировка ASCII»?

4. С помощью таблицы 3.8:

5. Что представляют собой расширения ASCII-кодировки? Назовите основные расширения ASCII-кодировки, содержащие русские буквы.

6. Сравните подходы к расположению русских букв в кодировках Windows-1251 и КОИ-8.

7. Представьте в кодировке Windows-1251 текст «Знание — сила!»:

1) шестнадцатеричным кодом;
2) двоичным кодом;
3) десятичным кодом.

8. Представьте в кодировке КОИ-8 текст «Дело в шляпе!»:

1) шестнадцатеричным кодом;
2) двоичным кодом;
3) десятичным кодом.

9. Что является содержимым файла, созданного в современном текстовом процессоре?

10. В кодировке Unicode на каждый символ отводится 2 байта. Определите в этой кодировке информационный объём следующей строки:

Где родился, там и сгодился.

11. Набранный на компьютере текст содержит 2 страницы. На каждой странице 32 строки, в каждой строке 64 символа. Определите информационный объём текста в кодировке Unicode, в которой каждый символ кодируется 16 битами.

13. В текстовом процессоре MS Word откройте таблицу символов (вкладка Вставка ⇒ Символ ⇒ Другие символы):

В поле Шрифт установите Times New Roman, в поле из — кириллица (дес.).

Решая его найдём следовательно, .

16 бит = 2 байт, 8 бит = 1 байт.

4096 = 1024⋅4, 16 бит = 2 байта, 8 бит = 1 байт

Было в Unicode: 2 12 * 2 = 2 13 байт

Стало в Windows-1251: 2 12 байт.

Объём файла уменьшился на 2 13 байт - 2 12 байт = 2 12 байт = 4 Кбайта

Объем информации в кодировке КОИ-8: 5120 символов * 1 байт = 5120 байт.

Объем информации в 16-битной кодировке Unicode: 5120 символов * 2 байта = 10240 байт.

10240 байт - 5120 байт = 5120 байт.

5120 : 1024 = 5 Кбайт.

Источник: Яндекс: Тренировочная работа ЕГЭ по информатике. Вариант 1.

Обозначим количество символов в документе за .

Тогда объем информации в кодировке КОИ-8: бит = байт

Объем информации в 16-битной кодировке Unicode: бит = байт.

Размер памяти увеличился на байт = 4*1024 байт .

Ответ: 4096 символов.

N — количество символов.

16 * N — объём информации в 16-битной кодировке.

Считая, что каждый символ кодируется двумя байтами, оцените информационный объем следующего предложения в кодировке Unicode:

Диаметр окружности равен 2R.

Подсчитаем количество символов в заданном предложении, включая пробелы и точку: их 28. Поскольку один символ кодируется 2 байтами, 28 символов кодируются 56 байтами.

Считая, что каждый символ кодируется 16 битами, оцените информационный объем следующей фразы в кодировке Unicode:

«Word» — по-русски «слово».

Подсчитаем количество символов в заданном предложении, включая кавычки, пробелы, тире, дефис и точку: всего их 27. Поскольку один символ кодируется 16 битами, 27 символов кодируются 432 битами.

Считая, что каждый символ кодируется 8 битами, оцените информационный объем следующей пушкинской фразы в кодировке Unicode:

Хвалу и клевету приемли равнодушно и не оспаривай глупца.

Подсчитаем количество символов в заданном предложении, включая пробелы: всего их 57. По условию задачи один символ кодируется 8 битами. Знаем: 8 бит = 1 байт. Имеем: 1 символ = 8 бит = 1 байт. Т. к. всего символов 57, то в байтах объём фразы 57 байт.

Скорость передачи данных через ADSL-соединение равна 128000 бит/с. Передача текстового файла через это соединение заняла 1 минуту. Определите, сколько символов содержал переданный текст, если известно, что он был представлен в 16-битной кодировке Unicode.

Q = 128000 бит/c * 60 c.

Каждый символ в данной кодировке кодируется 16-ю битами. Следовательно, количество символов определится так:

N = 128000 бит/c * 60 c : 16 = 8000 * 60 = 480 000.

Скорость передачи данных через модемное соединение равна 4096 бит/с. Передача текстового файла через это соединение заняла 10 с. Определите, сколько символов содержал переданный текст, если известно, что он был представлен в 16-битной кодировке Unicode.

Объём информации вычисляется по формуле Q = q * t, где t — время передачи q — cкорость передачи данных. Поэтому

Q = 4096 бит/c * 10 c = 2 12 бит/c * 10 c .

Отметьте все правильные утверждения о кодировках UNICODE.

Они позволяют уменьшить объем файлов они, как правило, приводят к увеличению объема файла в них на символ отводится 8 бит в них на символ может отводиться больше 8 бит можно использовать больше 256 символов одновременно.

"Они, как правило, приводят к увеличению объема файла", так как в отличие от ASCII на один символ отводится 2 байта.

"В них на символ может отводиться больше 8 бит", по выше описанной причине.

"Можно использовать больше 256 символов одновременно", а именно65536 символов.

Evgeniya19823 26 апр. 2020 г., 07:19:16 | 5 - 9 классы

В некоторой кодировке слово из 20 букв занимает на 42 байта больше, чем слово из шести букв?

В некоторой кодировке слово из 20 букв занимает на 42 байта больше, чем слово из шести букв.

Сколько бит отводится на одну букву, если под все символы этой кодировки отводится равный объем памяти?

Daryamironchak 12 сент. 2020 г., 07:10:53 | 5 - 9 классы

В кодировке Unicode каждый символ кодируется двумя байтами?

В кодировке Unicode каждый символ кодируется двумя байтами.

Пожалуйста с пояснением.

В кодировке КОИ - 8 НА каждый символ отводится один байт?

В кодировке КОИ - 8 НА каждый символ отводится один байт.

А) 20 байт б) 40 бит в) 160 бит г) 320 бит.

Отметьте все правильные утверждения о кодировках UNICODE?

Отметьте все правильные утверждения о кодировках UNICODE.

1, они позволяют уменьшить объем файлов 2, они, как правило, приводят к увеличению объема файла 3, в них на символ отводится 8 бит 4, в них на символ может отводиться больше 8 бит 5, можно использовать больше 256 символов одновременно.

Cooldan5 14 февр. 2020 г., 10:46:24 | 10 - 11 классы

В одном из вариантов кодировки Unicode на каждый символ отводится четыре байта?

В одном из вариантов кодировки Unicode на каждый символ отводится четыре байта.

В одном из представлений кодировки Unicode на каждый символ отводится два байта?

В одном из представлений кодировки Unicode на каждый символ отводится два байта.

Определите информационный объём слова из двадцати четырёх символов в этой кодировке.

1) 384 бита ; 2)192 бита ; 3) 256 бит ; 48 бит.

Ученый223 16 янв. 2020 г., 22:20:55 | 10 - 11 классы

В одном из представлений кодировки UTF - 8 на каждый символ отводится два байта?

В одном из представлений кодировки UTF - 8 на каждый символ отводится два байта.

Каким будет информационный объем предложения, состоящего из тридцати символов?

1) 512 бит 2) 400 бит 3) 480 бит 4) 256 бит 5) 60 бит.

В кодировке unicode на каждый символ отводится 2 байта?

В кодировке unicode на каждый символ отводится 2 байта.

В кодировке Unicode на каждый символ отводится два байта?

В кодировке Unicode на каждый символ отводится два байта.

Определите информационный обьём слова из двадцати четырёх символов в этой кодировке.

143, 511(10) = 1 * 10 ^ 2 + 4 * 10 ^ 1 + 3 * 10 ^ 0 + 5 * 10 ^ - 1 + 1 * 10 ^ - 2 + 1 * 10 ^ - 3 143511(8) = 1 * 8 ^ 5 + 4 * 8 ^ 4 + 3 * 8 ^ 3 + 5 * 8 ^ 2 + 1 * 8 ^ 1 + 1 * 8 ^ 0 143511(16) = 1 * 16 ^ 5 + 4 * 16 ^ 4 + 3 * 16 ^ 3 + 5 * 16 ^ 2 + 1 * 16..

Отметьте все правильные утверждения о кодировках UNICODE.

"В них на символ может отводиться больше 8 бит", по выше описанной причине.

"Можно использовать больше 256 символов одновременно", а именно65536 символов.

Evgeniya19823 26 апр. 2020 г., 07:19:16 | 5 - 9 классы

В некоторой кодировке слово из 20 букв занимает на 42 байта больше, чем слово из шести букв?

В некоторой кодировке слово из 20 букв занимает на 42 байта больше, чем слово из шести букв.

Сколько бит отводится на одну букву, если под все символы этой кодировки отводится равный объем памяти?

Daryamironchak 12 сент. 2020 г., 07:10:53 | 5 - 9 классы

В кодировке Unicode каждый символ кодируется двумя байтами?

В кодировке Unicode каждый символ кодируется двумя байтами.

Пожалуйста с пояснением.

В кодировке КОИ - 8 НА каждый символ отводится один байт?

В кодировке КОИ - 8 НА каждый символ отводится один байт.

А) 20 байт б) 40 бит в) 160 бит г) 320 бит.

Отметьте все правильные утверждения о кодировках UNICODE?

Отметьте все правильные утверждения о кодировках UNICODE.

Cooldan5 14 февр. 2020 г., 10:46:24 | 10 - 11 классы

В одном из вариантов кодировки Unicode на каждый символ отводится четыре байта?

В одном из вариантов кодировки Unicode на каждый символ отводится четыре байта.

В одном из представлений кодировки Unicode на каждый символ отводится два байта?

В одном из представлений кодировки Unicode на каждый символ отводится два байта.

Определите информационный объём слова из двадцати четырёх символов в этой кодировке.

1) 384 бита ; 2)192 бита ; 3) 256 бит ; 48 бит.

Ученый223 16 янв. 2020 г., 22:20:55 | 10 - 11 классы

В одном из представлений кодировки UTF - 8 на каждый символ отводится два байта?

В одном из представлений кодировки UTF - 8 на каждый символ отводится два байта.

Каким будет информационный объем предложения, состоящего из тридцати символов?

1) 512 бит 2) 400 бит 3) 480 бит 4) 256 бит 5) 60 бит.

В кодировке unicode на каждый символ отводится 2 байта?

В кодировке unicode на каждый символ отводится 2 байта.

В кодировке Unicode на каждый символ отводится два байта?

В кодировке Unicode на каждый символ отводится два байта.

Определите информационный обьём слова из двадцати четырёх символов в этой кодировке.

Читайте также: