Для обработки текстовой информации на компьютере необходимо представить ее

Обновлено: 06.07.2024

Когда вы хотите получить результат в какой-то области деятельности, то используете некоторую технологию, т. е. совокупность методов и инструментов.

Изучая предмет «Технология», вы знакомились с так называемыми «материальными» технологиями — технологиями обработки древесины, металла, ткани, лазерными технологиями, космическими технологиями, прототипированием и др.

Информационные же технологии отличаются тем, что как исходным материалом для них являются данные, так и для их применения также используются данные.

Информационные технологии (ИТ) — это совокупность методов, производственных процессов, программно-технических и лингвистических средств, объединённых с целью сбора, обработки, хранения, отображения и использования информации, представленной в цифровой форме.

По мере распространения компьютеров — универсальных устройств для обработки данных — сформировалась отдельная отрасль Информационные технологии (ИТ). Это очень важное и перспективное направление.

На уроках информатики основной школы информационные технологии классифицировались по видам обрабатываемой информации.

Исследование базовых принципов обработки информации мы начнём с обработки текста.

Среди вариантов текстовых документов можно выделить художественный текст, научный текст, деловой документ, рекламный текст, личный документ.

Наборы правил, рекомендуемых для создания каждого из перечисленных видов текста, различны.

В зависимости от выбранного вида текста следует подбирать и программное обеспечение (ПО). Рассмотрим классификацию ПО по назначению. Когда нужен текстовый документ простой структуры, то достаточно использовать текстовый редактор, например Блокнот для ОС Windows. Другими подобными текстовыми редакторами являются leavepad, gedit и др. Все текстовые редакторы имеют ограниченный набор функций для работы с текстовой информацией, но очень хорошо подходят для всевозможных заметок.

Более сложными программными комплексами для работы с текстовой информацией являются текстовые процессоры. Наиболее широко известны MS Word, LibreOffice Writer. Это полнофункциональные инструменты для работы с текстом, позволяющие включать в него таблицы и графические изображения, форматировать и структурировать текст, применять автоматическую нумерацию страниц и многое другое.

Бывают ситуации, когда нужно оформить текст с большим количеством специфических знаков, например, математических, химических или других формул. Обычно это касается разного рода научных материалов, а также студенческих курсовых работ. В этом случае удобно использовать свободно доступную систему подготовки публикаций TEX и наиболее популярную версию LaTEX.

Книги, журналы, другие многостраничные документы, требующие специального расположения текста, иллюстраций и других сложных объектов на странице, проходят весь цикл допечатной обработки на компьютере с использованием комплекса программных средств, называемых издательскими системами. Процесс создания компьютерного макета будущего печатного издания называют вёрсткой, а точную копию самого издания принято называть оригинал-макетом.

В качестве примеров таких программ можно назвать QuarkXPress, Adobe InDesign, Scribus. Последняя из них распространяется свободно, поэтому каждый из вас может её освоить.

Некоторые современные браузеры позволяют осуществлять автоматический перевод содержания страниц сайта на выбранный вами язык. Онлайн переводчики встроены в такие поисковые системы как Яндекс и Google.

Существует особый вид словарей — тезаурус — связь слов в них происходит на основе каких-либо лексических отношений. Например, слова-синонимы, слова-антонимы и т. д.

Когда вам нужно редактировать текст, напечатанный, например, в журнале, то для таких целей подходят системы оптического распознавания текста. С их помощью графическое изображение, получаемое при сканировании, преобразуется в текстовый документ в формате, удобном для редактирования. Наиболее известным является продукт отечественной компании ABBYY, который называется ABBYY FineReader.

Программы для работы с текстовой информацией используются ещё для создания текстов программ на языках программирования. Как правило, они интегрированы в системы программирования, но могут быть и самостоятельными программами или являться частью HTML-редакторов, в которых создаются веб-страницы. Примерами могут служить Geany, веб-редактор Blue Fish.

Нужно понимать, что многообразие ПО для работы с текстами представленными программами не заканчивается, их значительно больше. Каждый из вас при желании может составить расширенную схему, дополнив её другими программными продуктами.

Поговорим о подготовке текстовых документов. Она включает в себя три основные группы операций: ввод, редактирование и форматирование.

Ввод текста может осуществляться как прямым набором текста с клавиатуры, так и сканированием печатного документа. Операция ввода текста служит для формирования первоначального содержимого текстового документа и сохранения его в памяти компьютера.

Вспомним основные правила набора текста:

— между словами может быть только один пробел;

— переход на новую строку происходит автоматически;

— нажатие клавиши Enter означает конец абзаца;

— перед одинарными знаками препинания (: ; , . ! ?) пробел не ставится, а после них ставится;

— для скобок и других парных знаков (кавычки) пробелы ставятся с внешних сторон (до открывающих и после закрывающих), а внутри пробелы не ставятся;

— тире окаймляется пробелами с двух сторон, «дефис» в словах вводится без пробелов;

— для ввода римских цифр используются прописные латинские буквы I, V, X, L, C, D, M;

— для ввода неразрывного пробела используется комбинация клавиш Ctrl+Shift+пробел. В основном этот знак используется для записи дат, инициалов и другой информации, которую не принято писать на разных строках.

Для контроля ввода информации с клавиатуры полезно включать отображение непечатных символов. Эти символы не выводятся на печать, но отражают структуру документа. Рассмотрите примеры отображения некоторых скрытых символов для LibreOffice Writer в таблице.

Для автоматизации ввода существуют инструменты Автозамена, который автоматически исправляет наиболее частые опечатки и Автотекст, позволяющие по первым буквам автоматически вставить короткую фразу из списка элементов автотекста.

Большим преимуществом компьютерной технологии создания текстовых документов является возможность его редактирования, т. е. правки. Ввод и редактирование документа часто происходят параллельно. Редактирование существующего электронного документа происходит за счёт копирования, перемещения или удаления выделенных фрагментов текста, перестановки частей документа, слияния нескольких документов, разбиения одного документа на несколько более мелких и др.

Для того чтобы точно определить, как будет выглядеть текст на экране монитора или на листе бумаги после печати на принтере, используется операция форматирования. Операции форматирования могут применяться к отдельным объектам текстового документа, в этом случае говорят о прямом форматировании. Объекты и некоторые их свойства представлены на схеме.

В случае большого документа принято применять форматирование ко всему документу в целом — в этом случае используется стилевое форматирование. Однотипным структурным элементам текста назначается определенный стиль форматирования, т. е. набор параметров форматирования (шрифт, абзацные отступы и т. д.).

При создании текстовых документов следует придерживаться определённых правил:

• желательно выбирать один формат для всего основного текста, а для заголовков и смысловых фрагментов выбирать другой формат;

• количество разных цветов и шрифтов документа принято выбирать не более трёх;

• размер символов и междустрочный интервал выбираются комфортными для чтения;

• цветовая гамма должна соответствовать назначению документа;

• однотипную информацию лучше представлять в списках и таблицах;

• графические изображения использовать для того, чтобы дополнять содержание текста, их нужно выдерживать в едином стиле;

• фон и поля документа следует делать единообразными.

Для автоматизации работы текстовые процессоры содержат такие инструменты, как шаблоны, макросы и другие средства работы со структурными компонентами документа. Чтобы работать с шаблоном документа в текстовом процессоре LibreOffice Writer, достаточно в меню Файл выбрать Создать. Шаблоны…

Все шаблоны распределены по категориям:

• личная корреспонденция и документы;

• прочие деловые документы;

Среди шаблонов представлены современные деловые письма, резюме, визитки и др. Имеется возможность импорта/экспорта шаблона.

При работе с большими документами часто приходится выполнять некоторую одинаковую последовательность действий над разными фрагментами текста. Например, выделить определённым образом название школы во всём документе. Это занимает много времени. Для автоматизации процесса используются Макросы. В них один раз записывается необходимый алгоритм, макрос сохраняется и затем его можно применять к любому тексту в любое время для автоматизации процесса работы с документом.

В многостраничных документах (книгах, журналах, рефератах и т. д.) принято выделять структурные элементы — главы, параграфы, пункты и т. п., создавая при этом иерархическую структуру документа. Посмотрите на структуру своего учебника информатики. Вы видите, что в нём есть главы и параграфы. Главы находятся на первом уровне структуры документа, параграфы — на втором уровне.

В текстовых процессорах существуют специальные стили для создания иерархической структуры документа. Например, в LibreOffice Writer это стили с именами:

Если в документе к заголовкам разного уровня применено стилевое форматирование, то текстовый процессор автоматически создаст оглавление документа после специальной команды пользователя.

Современные текстовые процессоры устроены таким образом, что позволяют совершать совместную работу над одним и тем же документом. Вариантов организации такого совместного взаимодействия несколько, при этом существует возможность отслеживания внесенных в документ изменений каждым пользователем команды, поэтому важно, чтобы в документ были внесены корректные данные о пользователе, поскольку именно они останутся в редактируемом документе.

Проектной деятельности уделяется особое внимание в последнее время. В соответствии с ФГОС СОО, каждый ученик старшей школы готовит индивидуальный проект. Существуют определённые требования к оформлению проекта. Во многом они схожи с оформлением реферата.

Основные требования таковы:

• на листах белой бумаги формата А4 (210 х 297 мм);

• стандартные размеры полей обычно по 20 мм с каждой стороны;

• междустрочный интервал — полуторный;

• размер шрифта 12—14 пунктов;

• выравнивание абзаца по ширине;

• отступ первой строки 8—12 мм.

При работе с текстом существует множество задач, не связанных с процессом ввода и обработки. Представим некоторые возможности обработки текстовой информации, относящиеся к компьютерной лингвистике:

• поиск текста по заданным признакам;

• рубрицирование текста — разбиение текста на тематические подпотоки по заранее заданным рубрикам;

• реферирование текста — подготовка сокращённой версии;

• перевод текста с одного языка на другой;

• анализ текста на предмет выявления заимствований.

На сегодняшнем уроке мы определились с понятием информационных технологий.

Начали рассмотрение современных ИТ с возможностей программного обеспечения для работы с текстовой информацией.

Систематизировали программное обеспечение для работы с текстом в зависимости от назначения.

Рассмотрели три основные группы операций при работе с текстовой информацией — ввод, редактирование и форматирование.

Выяснили, что компьютерные технологии не только позволяют автоматизировать процесс создания текстовых документов за счет возможности работы с фрагментами, проверки правописания, использования шаблонов, макросов и др., но и решать множество других задач обработки текстовой информации.

Эти задачи относятся к области компьютерной лингвистики. К ним можно отнести поиск, рубрицирование, реферирование, перевод и анализ текста.

1. Текстовый редактор - это программа, предназначенная для:

а) создания, редактирования и форматирования текстовой информации

б) работы с изображениями в процессе создания игровых программ

в) управления ресурсами ПК при создании документов

г) автоматического перевода с символических языков в машинные коды

2. Для обработки текстовой информации на компьютере необходимо представить её…

а) в двоичной знаковой системе

б) в десятичной знаковой системе

в) символами кириллицы

г) символами латиницы

3. Редактирование текста представляет собой

а) процесс внесения изменений в имеющийся текст

б) процесс сохранения текста на диске в виде текстового файла

в) процесс передачи текстовой информации по компьютерной сети

г) процесс считывания с внешнего запоминающего устройства ранее созданного текста

4. Стандарт кодирования Unicode отводит под каждый символ.

5. Копирование текстового фрагмента в текстовом редакторе предусматривает в первую очередь:

а) указание позиции, начиная с которой должен копироваться фрагмент

б) выделение копируемого фрагмента

в) выбор соответствующего пункта меню

г) открытие нового текстового окна

6. В текстовом редакторе при задании параметров страницы устанавливаются:

а) гарнитура, размер, начертание

б) отступ, интервал

г) поля, ориентация

7. К расширениям текстовых файлов можно отнести:

в ) txt, doc, rtf
г ) bas, pas, al

8. Таблицы используют в текстовых документах для упорядочивания.

а) большого количества однотипных названий

б) однотипных числовых данных

в) изображений с текстовой подписью

г) большого количества однотипных названий, чисел, изображений

9. При пересечении столбца и строки образуется:

г) диапазон ячеек

10. Выберите неправильный ответ:

а) компьютерные словари содержат переводы на разные языки сотен тысяч слов и словосочетаний

б) компьютерные словари могут быть многоязычными

в) компьютерные словари содержат системы оптического распознавания текста

г) компьютерные словари обеспечивают быстрый поиск словарных статей

11. Присвоение каждому знаку определенного кода фиксируется в соглашении, называемом:

а) электронная таблица

б) кодовая таблица

в) реестр W indows

12. Функция автозамены используется для:

а) замены часто встречающихся опечаток

б) замены одних символов на другие

в) автоматического ввода текста

г) замены одних документов другими

13. Алфавит некоторого языка состоит из 32 символов. Какое количество информации несет 1 символ

14. Считая, что каждый символ кодируется 16-ю битами, оцените информационный объем следующего предложения:

Блажен, кто верует, тепло ему на свете!

Проверочная работа по теме «Кодирование и обработка текстовой информации»

1. Текстовая информация - это.

а) информация, представленная двоичным кодом

б) информация, рассказанная учителем

в) информация, выраженная в письменной форме

г) информация, услышанная по радио

2. К числу основных функций текстового редактора относятся

а) копирование, перемещение, уничтожение и сортировка фрагментов текста

б) создание, редактирование, сохранение, печать текстов

в) строгое соблюдение правописания

г) автоматическая обработка информации, представленной в текстовых файлах

3. Сколько восьмибитных таблиц существует для русских букв.

а) 1 кодовая таблица

б) 5 кодовых таблиц

в) 8 кодовых таблиц

г) 256 кодовых таблиц

4. Форматирование текста представляет собой

а) исправление ошибок в тексте

б) преобразование символов в двоичный код

в) изменение внешнего вида символов

г) перенос фрагмента текста в другое место документа

5. Для представления текстовой информации в восьмибитной таблице достаточно.

6. Для кодирования каждого знака в восьмибитной таблице необходимо.

а) 1 бит информации

б) 8 бит информации

в) 8 байт информации

г) 1 бод информации

7. К форматам текстовых файлов относятся:

а) т xt , doc , odt , xls

б) т xt , odt , docx , rtf

в) doc, docx, xls, rtf

г) тxt, doc, jpg, rtf

8. Основным элементом для хранения информации в таблице служит.

г) диапазон ячеек

9. Какие действия не производят при работе с таблицей?

а) вставка строк, столбцов, ячеек

б) изменение ширины столбцов и высоты строк

в) форматирование векторного изображения

г) разделение и объединение ячеек

10. Выберите неправильный ответ:

а) системы оптического распознавания текста могут распознавать таблицы с текстом

б) системы оптического распознавания могут распознавать шрифт текста

в) системы оптического распознавания могут распознавать графическое изображение и перевести в текст

г) системы оптического распознавания могут распознавать символы, написанные от руки

11. Кодировкой, в которой для кодирования одного символа используется 2 байта, является:

12. Пустые заготовки документов определенного назначения называют

13. Известно, что один символ некоторого алфавита несет количество информации, равное 7 битам. Какова мощность данного алфавита:

а) создания, редактирования и форматирования текстовой информации

а) в двоичной знаковой системе

а) процесс внесения изменений в имеющийся текст

б) выделение копируемого фрагмента

г) поля, ориентация

г) большого количества однотипных названий, чисел, изображений

в) компьютерные словари содержат системы оптического распознавания текста


В какой знаковой системе необходимо представить текстовую информацию для её обработки в компьютере:

  • 1) двоичной
  • 2) троичной
  • 3) двоично-троичной
  • 4) десятичной
Вопрос 2

Как называется международный стандарт кодирования текстовых символов:

  • 1) Windows
  • 2) Unicode
  • 3) Microsoft
  • 4) MS-DOS
Вопрос 3

В каких формах может быть представлена графическая информация:

  • 1) аналоговой и непрерывной
  • 2) дискретной и растровой
  • 3) аналоговой и дискретной
  • 4) дискретной и цифровой
Вопрос 4

Разрешение растрового изображения определяется:

  • 1) количеством точек по горизонтали и вертикали на единицу длины изображения
  • 2) по формуле N = 2I
  • 3) глубиной цвета на длину изображения
  • 4) количеством точек
Вопрос 5

Формула, которая связывает количество цветов N в палитре и глубину цвета I растрового изображения:

  • 1) I = 2^N
  • 2) N = 2^I – I
  • 3) N = 2 • I
  • 4) N = 2^I
Вопрос 6

Какие два параметра задают графический режим экрана монитора:

  • 1) величина пространственного разрешения и глубина цвета
  • 2) ширина и глубина цвета
  • 3) величина пространственного разрешения и частота цвета
  • 4) величина пространственного разрешения и яркость цвета
Вопрос 7

Для человеческого восприятия базовыми являются цвета:

  • 1) красный, чёрный, белый
  • 2) зелёный, синий, жёлтый
  • 3) красный, зеленый, синий
  • 4) белый, чёрный, синий
Вопрос 8

Какой цвет в системе цветопередачи RGB задан формулой Color = 0 + Gmax + 0:

  • 1) зеленый
  • 2) синий
  • 3) красный
  • 4) белый
Вопрос 9

Какой цвет в системе цветопередачи RGB задан формулой Color = Rmax + Gmax + Bmax:

Кодирование текстовой информации

Одна и та же информация может быть представлена (закодирована) в нескольких формах. C появлением компьютеров возникла необходимость кодирования всех видов информации, с которыми имеет дело и отдельный человек, и человечество в целом. Но решать задачу кодирования информации человечество начало задолго до появления компьютеров. Грандиозные достижения человечества - письменность и арифметика - есть не что иное, как система кодирования речи и числовой информации. Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована.

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами.


Т радиционно для кодирования одного символа используется количество информации, равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий К и количество информации I, можно вычислить сколько различных символов можно закодировать (считая, что символы - это возможные события): К = 2 I = 2 8 = 256, т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов. Такое количество символов вполне достаточно для пред­ставления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер - по их коду.

Удобство побайтового кодирования символов очевидно, поскольку байт - наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

В процессе вывода символа на экран компьютера произ­водится обратный процесс — декодирование, то есть преоб­разование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой табли­це.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Виды таблиц кодировок

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange - Американский стандартный код для информационного обмена), кодирующая первую половину символов с числовыми кодами от 0 до 127 ( коды от 0 до 32 отведены не символам, а функциональным клавишам).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Порядковый номер

Символы с номерами от 0 до 31 принято называть управляющими.

Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.

Символ 32 - пробел, т.е. пустая позиция в тексте.

Все остальные отражаются определенными знаками.

Альтернативная часть таблицы (русская).

Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.

Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.


Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.



От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 ("CP" означает "Code Page", "кодовая страница").


Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.


Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.


Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.


С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode.


Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Внутреннее представление слов в памяти компьютера

с помощью таблицы ASCII

Иногда бывает так, что текст, состоящий из букв русского алфавита, полученный с другого компьютера, невозможно прочитать - на экране монитора видна какая-то "абракадабра". Это происходит оттого, что на компьютерах применяется разная кодировка символов русского языка.


Таким образом, каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

Н апример, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ» (Рис. 10), тогда как в других кодировках это будет бессмысленный набор символов.

К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

Читайте также: