Что такое компьютерные словари

Обновлено: 04.07.2024

«Хотите узнать, что такое любовь, - посмотрите в словаре», - сказал нам однажды преподаватель современного русского языка и культуры речи. Это, конечно, шутка, но в каждой шутке есть доля правды, ведь испокон веков словари помогают человеку понимать значение слов и узнавать их эквиваленты на самых разных языках. В этой статье я расскажу, как изменились словари со времен шумеров и какие возможности лексикографии стали доступны в связи с развитием компьютерных технологий и корпусной лингвистики.

Самые ранние прототипы словарей – глоссы (от греческого glossa – «язык, слово») – появились еще до нашей эры в Месопотамии. Шумеры создавали не только толковые глоссы, которые представляли собой рукописи со значениями незнакомых слов на полях, но и переводные словари – глиняные таблички, разделенные на 2 части: на одной части было написано шумерское слово, а на другой – его перевод на иностранный, например, аккадский или арамейский язык. Вплоть до появления книгопечатания в середине 15 века словари так и представляли собой написанные от руки произвольные списки иностранных или необычных слов, с которыми приходилось сталкиваться в текстах на древних языках. Это были ценные документы, с них делали много копий вручную, поэтому позднее, благодаря возникновению книгопечатания, словари оказались в числе первой печатной продукции.

Распространение книг, освоение новых территорий, рост торговли, развитие образования способствовали возникновению лексикографии – науки, которая занимается разработкой технологий и принципов составления разных типов словарей. Прошли столетия, прежде чем словари получили современную структуру и содержание: слова, расположенные в алфавитном порядке, подробные толкования или переводы, нормы написания, произношения и употребления в разных ситуациях или контекстах. Стали возникать самые разнообразные словари: толковые, переводные, орфографические.

Если книгопечатание было первой революцией в лексикографии, то второй стало развитие информационных технологий. Появилась компьютерная лексикография: рукописная лексикография развилась в цифровую, и на смену бумажным словарям пришли электронные.

Термин «электронный словарь» не слишком удачен и может использоваться для обозначения почти любого упорядоченного лингвистического материала, который хранится в электронном виде и несет информацию о написании, значении, переводе или использовании слов. Однако в основном под электронным словарем понимают трансформацию классических бумажных словарей в словари, доступные на компьютерах и любых других гаджетах.

В процессе перехода словарей из бумажной в электронную форму пришлось решить многие задачи. Например, разработать структуру электронных баз данных для разных языков, создать эффективные инструменты для организации поиска, морфологического анализа, придумать интерфейсы для отображения информации, полученной из нескольких словарных статей. Но самое главное – электронная форма словарей открыла беспрецедентные по скорости и объему информации возможности.

У электронных словарей много преимуществ перед бумажными аналогами – например, для них нет проблемы большого объема данных, их терминологическая база в большинстве случаев превышает количество словарных статей любого бумажного словаря. Кроме того, электронный словарь дает возможность с легкостью обновлять и добавлять контент.

Для пользователей главным преимуществом стал быстрый и удобный поиск по всему объему словаря, что невозможно в бумажной версии. Если при работе с бумажным словарем пользователь мог полагаться только на свою память и знания, редкие отсылки к другим словарным статьям, то в электронном словаре к его услугам – поиск слова не только в канонической форме, но и по словоформе (например, при запросе took большинство электронных словарей откроют словарную статью глагола take), пользователю не нужно помнить в точности, как пишется слово – при вводе появятся подсказки, можно получить информацию по всем релевантным словарным статьям одновременно. И все это за считанные секунды.

Учителя говорят, что современные школьники совсем не умеют работать с бумажными словарями, и детей можно понять – у них уже есть опыт работы с электронными словарями, и бумажные кажутся слишком неудобными.

Развитие интернета дало нам еще больше возможностей и упростило доступ к лингвистическому контенту, особенно к двуязычным словарям. На смену программам, которые нужно было устанавливать на компьютер, пришли онлайн-сервисы и мобильные приложения.

Многие ведущие издательства, такие как PONS, Merriam-Webster, Duden открыли онлайн-словари. Возникли новые бренды, такие как WordReference, Dict.cc, Abbyy Lingvo Live и, конечно, Multitran. Интересно, что и сервисы онлайн-перевода текстов стали развивать функции онлайн-словарей со всеми классическими атрибутами – указанием части речи, рода у существительных, типов склонения у глаголов и других. Словарь как база данных для перевода слов и словосочетаний и программы для полнотекстового перевода стали «сливаться» – мы это видим на примере Google Translate, PROMT, Яндекс.Переводчика и других сервисов.

Функции словарей стали включать и в другие компьютерные программы: текстовые редакторы, мобильные приложения, ридеры. Пользователю достаточно напечатать или выделить нужное слово в тексте, и вся необходимая информация тут же появится на экране – он мгновенно получит информацию о значении слова, его переводе на выбранный язык, транскрипцию, а еще сможет прослушать, как это слово произносится (вот этой функции у бумажных словарей вообще не было).

В середине 20 века в связи с развитием компьютерных технологий возникло новое явление – корпусная лингвистика. Корпусная лингвистика занимается практикой создания корпусов, то есть, электронного собрания текстов на одном языке (от нескольких сотен миллионов до миллиардов сегментов), которое помогает специалистам в считанные секунды получать примеры того, что они изучают. Вот так описывает применение корпусов доктор филологических наук Владимир Плунгян: «Занимаюсь я, например, употреблением падежей. Как традиционно поступали лингвисты? Открывали книжку, выписывали разные формы падежа, заполняли карточки. Занимало это очень много времени – долгие месяцы и даже годы. Корпус эту часть очень сократил, и материал – десятки, сотни тысяч примеров – теперь можно собрать за секунды, за минуты. То есть, вот эту непроизводительную техническую работу лингвиста корпус очень сильно сократил, как вообще техника это делает и в других областях нашей жизни».

Первый языковой корпус был разработан в Брауновском университете в США в 1960-е годы. Специалисты по статистике взяли тексты, разделили их на равные части и в результате получили маленький английский корпус, который использовался для прикладных задач ученых. В те времена появлялись и другие корпуса, но в целом к ним никто серьезно не относился, так как тогда считалось, что пригодиться они не могли. Но время шло, возможности компьютеров росли, и, вместе с тем, росли и объемы языковых корпусов. Почему лингвисты так оценили и полюбили корпуса? Дело в том, что количество и качество материала, который можно получить с помощью корпуса, несопоставимы с тем, что можно было получить в докорпусную эпоху. Во многих случаях лингвисты стали по-другому смотреть на язык: если раньше специалисты думали, что десяти примеров вполне достаточно, чтобы понять, в каких значениях употребляется то или иное слово, то с появлением корпусов стало ясно, что на десяти тысячах примеров очень многие вещи выглядят в совершенно ином свете.

К 21 веку корпуса существовали для многих языков: английского, чешского, финского, японского, французского, русского и стали, как отметил Плунгян, «престижным атрибутом». Современные корпусы насчитывают уже не сотни миллионов, а миллиарды сегментов, включая самые разнообразные тексты: и из художественной литературы, и из научной, и из публицистики.

Очень важную роль в развитии словарей сыграли и двуязычные корпусы. Двуязычный или параллельный корпус предполагает выровненный (чаще всего по предложениям) текст оригинала и его перевод на какой-то другой язык: отдельные фрагменты оригинала должны совпадать с соответствующими фрагментами перевода.

Стали появляться новые проекты, основанные на сборе текстов и их переводов на разные языки. Например, В 2006 году появился сайт Tatoeba, позволяющий добавлять новые и изменять существующие предложения на различных языках.

Такое обилие данных на разных языках и появление двуязычных корпусов параллельных текстов стало мощным толчком к развитию нового типа словарей, включающих многочисленные примеры употребления слов в разных контекстах.

Давайте разберемся, кому и зачем нужны словари нового типа с многочисленными примерами употребления слов в виде законченных предложений на одном языке и их переводами. Все дело в том, что для того, чтобы хорошо овладеть иностранным языком, недостаточно выучить много слов и грамматические правила – нужно уметь эти слова употреблять и грамотно сочетать. И здесь корпуса параллельных текстов, структурированные по предложениям, открывают потрясающие возможности, ведь предложения, взятые непосредственно из книг, статей, субтитров, очень хорошо иллюстрируют контексты, в которых употребляется то или иное слово. Если к этим предложениям добавить их перевод, то это поможет не просто запомнить, как переводится слово, но и понять, как употребляется перевод, с какими другими словами сочетается.

Но где же пользователь может посмотреть такие примеры перевода? Например, на онлайн-сервисах – в словарях или даже онлайн-переводчиках с расширенными возможностями.

Сегодня многие онлайн-словари и онлайн-переводчики не просто дают все переводы для слова или словосочетания, но и предлагают «контексты» или примеры употребления на одном языке и их переводы.


Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности.

Возможности компьютерных словарей.

Компьютерные словари могут являться многоязычными - давать пользователю возможность выбрать языки и направление перевода (например, англо-русский, испанско-русский и т. д.);

Компьютерные словари и системы машинного перевода текстов (презентация)

могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.).

Возможности компьютерных словарей.

обеспечивают быстрый поиск словарных статей: "быстрый набор", когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др.;

могут являться мультимедийными, т. е. предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка.

Содержимое разработки

Компьютерные словари и системы машинного перевода текстов

Компьютерные словари и системы машинного перевода текстов

Компьютерные словари Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности.

Компьютерные словари

Возможности компьютерных словарей

  • Компьютерные словари могут являться многоязычными - давать пользователю возможность выбрать языки и направление перевода (например, англо-русский, испанско-русский и т. д.);
  • могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.).

Возможности компьютерных словарей

  • обеспечивают быстрый поиск словарных статей: "быстрый набор", когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др.;
  • могут являться мультимедийными, т. е. предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка.

Системы компьютерного перевода

Системы оптического распознавания документов

При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется векторный метод распознавания символов. В распознаваемом изображении символа выделяются геометрические примитивы (отрезки, окружности и др.) и сравниваются с векторными шаблонами символов.

Системы оптического распознавания символов являются "самообучающимися" (для каждого конкретного документа они создают соответствующий набор шаблонов символов), и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

Системы оптического распознавания форм При заполнении документов большим количеством людей (например, при сдаче выпускником школы единого государственного экзамена (ЕГЭ)) используются бланки с пустыми полями. Данные вводятся в поля печатными буквами от руки. Затем эти данные распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, которые довольно сильно различаются у разных людей. Кроме того, такие системы должны уметь определять, к какому полю относится распознаваемый текст.

Системы оптического распознавания форм

  • При заполнении документов большим количеством людей (например, при сдаче выпускником школы единого государственного экзамена (ЕГЭ)) используются бланки с пустыми полями. Данные вводятся в поля печатными буквами от руки. Затем эти данные распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.
  • Сложность состоит в том, что необходимо распознавать символы, написанные от руки, которые довольно сильно различаются у разных людей. Кроме того, такие системы должны уметь определять, к какому полю относится распознаваемый текст.


-80%

Компьютерные словари. Словари необходимы для перевода текстов с одного языка на другой. Существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и т. д.), причем каждый из них может содержать десятки тысяч слов. В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц, в которой поиск нужного слова является достаточно долгим и трудоемким процессом.

Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности. Во-первых, компьютерные словари могут являться многоязычными - давать пользователю возможность выбрать языки и направление перевода (например, англо-русский, испанско-русский и т. д.).

Во-вторых, компьютерные словари могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.).

В-третьих, компьютерные словари обеспечивают быстрый поиск словарных статей: "быстрый набор", когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др.

В-четвертых, компьютерные словари могут являться мультимедийными, т. е. предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка.

Системы компьютерного перевода. Процесс глобализации мира приводит к необходимости частого обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках.

В этих условиях использование традиционной технологии перевода "вручную" тормозит развитие межнациональных контактов. Перевод многостраничной документации вручную требует длительного времени и высокой оплаты труда переводчиков. Перевод полученного по электронной почте письма или просматриваемой в браузере Web-страницы необходимо осуществлять срочно, и нет времени пригласить переводчика.

Системы компьютерного перевода позволяют решить эти проблемы. Они, с одной стороны, способны переводить многостраничные документы с высокой скоростью (одна страница в секунду), с другой стороны, переводить Web-страницы "на лету", в режиме реального времени.

Системы компьютерного перевода осуществляют перевод текстов, основываясь на формальном "знании": синтаксиса языка (правил построения предложений), правил словообразования и использовании словарей. Программа-переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке.

Современные системы компьютерного перевода позволяют достаточно качественно переводить техническую документацию, деловую переписку и другие специализированные тексты. Однако они не применимы для перевода художественных произведений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека.

  • 1. Какими преимуществами обладают компьютерные словари по сравнению с традиционными бумажными словарями?
    2. В каких случаях целесообразно использовать системы компьютерного перевода?

Системы оптического распознавания документов

Системы оптического распознавания символов. Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат.

Сначала с помощью сканера необходимо получить изображение страницы текста в графическом формате. Далее для получения документа в текстовом формате необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательность текстовых символов.

Системы оптического распознавания символов сначала определяют структуру размещения текста на странице и разбивают его на отдельные области: колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы разделяются на изображения отдельных символов.

Для отсканированных документов типографского качества (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений) распознавание символов проводится путем их сравнения с растровыми шаблонами.

Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания. Результатом распознавания является символ, шаблон которого it наибольшей степени совпадает с изображением (рис. 3.16).

Рис. 3.16. Распознаваемый символ "Б" накладывается на растровые шаблоны символов (А, Б, В и т. д.)

При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется векторный метод распознавания символов. В распознаваемом изображении символа выделяются геометрические примитивы (отрезки, окружности и др.) и сравниваются с векторными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех геометрических примитивов и их расположение больше всего соответствует распознаваемому символу (рис. 3.17).

Рис. 3.17. Распознаваемый символ "Б" накладывается на векторные шаблоны символов (А, Б, В и т. д.)

Системы оптического распознавания символов являются "самообучающимися" (для каждого конкретного документа они создают соответствующий набор шаблонов символов), и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.

Системы оптического распознавания форм. При заполнении документов большим количеством людей (например, при сдаче выпускником школы единого государственного экзамена (ЕГЭ)) используются бланки с пустыми полями. Данные вводятся в поля печатными буквами от руки. Затем эти данные распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.

Сложность состоит в том, что необходимо распознавать символы, написанные от руки, которые довольно сильно различаются у разных людей. Кроме того, такие системы должны уметь определять, к какому полю относится распознаваемый текст.

  • 1. В чем состоят различия в технологии распознавания текста при использовании растрового и векторного методов?

Практические работы компьютерного практикума, рекомендуемые для выполнения в процессе изучения главы

№ 8. Кодирование текстовой информации.

№ 9. Создание визитных карточек на основе шаблона.

№ 10. Установка параметров страницы документа, вставка колонтитулов и номеров страниц.

№ 11. Вставка в документ формул.

№ 12. Форматирование символов и абзацев.

№ 13. Создание и форматирование списков.

№ 14. Вставка оглавления в документ, содержащий заголовки.

№ 15. Вставка в документ таблицы, ее форматирование и заполнение данными.

Вы можете изучить и скачать доклад-презентацию на тему Компьютерные словари. Презентация на заданную тему содержит 7 слайдов. Для просмотра воспользуйтесь проигрывателем, если материал оказался полезным для Вас - поделитесь им с друзьями с помощью социальных кнопок и добавьте наш сайт презентаций в закладки!

500
500
500
500
500
500
500

КОМПЬЮТЕРНЫЕ СЛОВАРИ системы компьютерного перевода текстов

КОМПЬЮТЕРНЫЕ СЛОВАРИ В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и т. д.), причем каждый из них может coдержать десятки тысяч слов.

Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности: Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности: существуют многоязычные компьютерные словари, позволяющие пользователю выбрать языки и направление перевода (например, англо-русский, испано-русский и т. д.); компьютерные словари могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.); компьютерные словари обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др.; компьютерные словари могут являться мультимедийными, т. е. предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка; онлайновые компьютерные словари в Интернете обеспечивают выбор тематического словаря и направления перевода.

СИСТЕМЫ КОМПЬЮТЕРНОГО ПЕРЕВОДА. Происходящая в настоящее время глобализация нашего мира приводит к необходимости обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках. В этих условиях использование традиционной технологии перевода «вручную» тормозит развитие межнациональных контактов. Перевод многостраничной документации вручную требует длительного времени. Перевод полученного по электронной почте письма или просматриваемой в браузере Wеb страницы необходимо осуществить «здесь и сейчас», и нет возможности и времени пригласить переводчика.

Системы компьютерного перевода позволяют решить эти проблемы. Они, с одной стороны, способны переводить многостраничные документы с высокой скоростью (одна страница в одну секунду), с другой стороны, переводить Web стpaницы «на лету», в режиме реального времени. Системы компьютерного перевода позволяют решить эти проблемы. Они, с одной стороны, способны переводить многостраничные документы с высокой скоростью (одна страница в одну секунду), с другой стороны, переводить Web стpaницы «на лету», в режиме реального времени. Системы компьютерного перевода осуществляют перевод текстов, основываясь на формальном «знании» языка: синтаксиса языка (правил построения предложений), правил словообразования и использовании словарей. Программа переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке.

Онлайновые компьютерные переводчики в Интернете обеспечивают выбор тематического словаря и направления перевода. Они позволяют переводить любые тексты, набранные в окне перевода или скопированные из буфера обмена, Web страницы, включая гиперссылки, с сохранением исходного форматирования, а также электронные письма. Онлайновые компьютерные переводчики в Интернете обеспечивают выбор тематического словаря и направления перевода. Они позволяют переводить любые тексты, набранные в окне перевода или скопированные из буфера обмена, Web страницы, включая гиперссылки, с сохранением исходного форматирования, а также электронные письма. Современные системы компьютерного перевода позволяют с приемлемым качеством переводить техническую документацию, деловую переписку и другие специализированные тексты. Но на эти системы нельзя полностью полагаться. Они допускают смысловые и стилистические ошибки и неприменимы, например, для перевода художественных произведений, так как не способны адекватно пере водить метафоры, аллегории и другие элементы художественного творчества человека и т. д.

Читайте также: