Назначение система автоматического перевода в компьютере

Обновлено: 06.07.2024

№1.26. Распознавание текста и системы компьютерного перевода

№1.26. Распознавание текста и системы компьютерного перевода

урок. 7 кл.mp4

ABBYY FineReader 11.mp4

Рекомендации : проверить текст после распознавания.

Очень часто появляется необходимость перевести в электронный вид текст каких-то документов, или даже книг. Можно затратить определённое время и просто набрать этот текст с помощью клавиатуры. Но, чем больше исходный текст, тем больше времени будет затрачено на его ввод в память компьютера.

Поэтому для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов .

После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.


Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов .

Наиболее широко известна и распространена такая программа отечественных производителей — ABBY FineReader .

Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках (на 179 языках), а также для распознавания смешанных двуязычных текстов.

  • Работает с разными моделями сканеров.
  • Позволяет из бумажных документов, PDF -файлов и цифровых фото сделать редактируемый текст.
  • Позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (многостраничными документами) и с бланками.
  • Позволяет редактировать распознанный текст и проверять его орфографию.
  • Сохраняет внешний вид документа, а также его структуру, то есть, расположение слов, абзацев, таблиц, изображений, заголовков и нумерация страниц останутся такими же, как и в оригинале.
  • Экспортирует тексты в Word , Excel , PowerPoint или Outlook .

Преобразование бумажного документа в электронный вид происходит в пять этапов. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.

Пять этапов процесса обработки документа с помощью программы ABBY FineReader :

  1. Сканирование документа (кнопка Сканировать).
  2. Сегментация документа (кнопка Сегментировать).
  3. Распознавание документа (кнопка Распознать).
  4. Редактирование и проверка результата (кнопка Проверить).
  5. Сохранение документа (кнопка Сохранить).

1) На этапе сканирования производится получение изображений при помощи сканера и сохранение их в виде, удобном для последующей обработки. Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать .

2) Второй этап работы — сегментация , разбиение страницы на блоки текста. Если страница содержит колонки, иллюстрации, врезки, подрисуночные подписи или таблицы, то порядок распознавания требует коррекции. Содержимое страницы разбивается на блоки, внутри каждого из которых распознавание осуществляется в естественном порядке. Блоки нумеруются, исходя из порядка включения их в документ. При автоматической сегментации (кнопка Сегментировать ) определение границ блоков осуществляется автоматически. При этом учитываются поля документа, просветы между колонками, рамки.

3) Процесс распознавания текста после сегментации начинается с щелчка на кнопке Распознать и полностью автоматизирован.

4) Когда распознавание данной страницы завершается, полученный текстовый документ отображается в окне Текст . Заключительные этапы работы позволяют отредактировать полученный текст с помощью средств, напоминающих текстовый редактор WordPad . Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Проверить .

5) По щелчку на кнопке Сохранить запускается Мастер сохранения результатов. Он позволяет сохранить распознанный текст или передать его в другую программу (например, в Microsoft Word ) для последующей обработки полученный текст можно сохранить в виде форматированного или неформатированного документа.

Словари необходимы для перевода текстов с одного языка на другой. В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и так далее), причем каждый из них может содержать десятки тысяч слов.

В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц, где поиск нужного слова является достаточно трудоемким процессом.


Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности.

1) Могут являться многоязычными, так как дают пользователю возможность выбрать языки и направление перевода (например, англо-русский, испано-русский и так далее).

2) Могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.).

3) Обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др.

4) Могут являться мультимедийными, то есть предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка.

  • могут быть установлены на компьютер как самостоятельные программы;
  • могут быть встроены в текстовые процессы;
  • существуют в on-line-режиме в сети Интернет.

Для перевода текстовых документов применяются программы-переводчики .

Компьютерные переводчики могут оказать огромную помощь в обработке информации на иностранных языках по различным отраслям знаний.

В настоящее время наиболее распространенными программами машинного перевода являются системы PROMT , Stylius , Сократ , Magic Gooddy и другие, которые обеспечивают перевод текстов со многих иностранных языков на русский и с русского языка на иностранные. Эти системы являются не простыми пословными программами перевода, а профессиональными электронными переводчиками, синтезирующими выходной текст на достаточно ясном, грамматически правильном языке с учетом морфологических, синтаксических и семантических связей.

Основные требования к компьютерным переводчикам являются оперативность, гибкость, скорость и точность.

  • иногда допускают смысловые и стилистические ошибки;
  • неприменимы для перевода художественных произведений.

ЯКласс. Тема " Инструменты распознавания текстов и компьютерного перевода"

Перевод – вид языкового посредничества, при котором содержание иноязычного текста оригинала передается па другой язык путем создания на нем коммуникативно равноценного текста. Для перевода с одного языка на другой язык применяются программы: 1) словари, 2) переводчики текстовых документов, 3) переводчики текста веб-страниц с сохранением дизайна.

Различают автоматизированный, машинный и статистический переводы.

Автоматизированный перевод – выполняется человеком с привлечением электронного словаря, установленного на компьютере или на сайте. Программа просто помогает человеку переводить тексты.

Электронный словарь – программа, которая по запрашиваемому слову открывает словарную статью с вариантами

перевода слова, примерами словосочетаний и фраз, причем не только общей лексики, но и специализированных (отраслевых) словарей. По словарному запасу соответствует бумажному словарю, а по удобству пользования, скорости поиска и перехода по ссылкам намного его превосходит.

Слово вводится в окно словаря прямым набором, вставкой из буфера памяти (выделить в тексте документа незнакомое слово и копировать) – в окне словаря откроется соответствующая словарная статья. Есть возможность подключать словарь в окно программы работы с документом, создавать словарные статьи пользователя.

Некоторые словари не только поясняют произношение транскрипцией, но и воспроизводят в дикторской аудиозаписи или синтезе по фонемам.

Перевести слово можно запросом в строке поиска Яндекса, например: "перевод слова comprendre", "перевод слова происшествие на немецкий", "происшествие по-французски". Раздел Яндекс.Словари дает развернутый перевод слов с примерами. Помогает переводу поисковый плагин (дополнение) для Internet Explorer и Mozilla FireFox.

Машинный (автоматический) перевод – компьютерная программа, которая анализирует текст источника и выполняет перевод без вмешательства человека. Человек-редактор впоследствии исправляет перевод или заранее приспосабливает текст к обработке машиной: устраняет неоднозначные прочтения, упрощает текст синтаксически под структуру фраз языка перевода, указывает системе перевода пути решения в трудных случаях.

Статистический машинный перевод – перевод, основанный на сравнении больших объемов языковых пар текстов, содержащих предложения на одном языке и соответствующие им предложения на втором. Применяется на поисковом сайте Google и обладает свойством самообучения. Чем больше в распоряжении языковых пар текстов и чем точнее они соответствуют друг другу, тем лучше результат статистического перевода. В ряде стран издаются двуязычные парламентские отчеты; на нескольких языках издаются документы Организации Объединенных Наций, Евросоюза, много художественных и отраслевых книг переведено на несколько языков. Эти материалы, обработанные алгоритмами поисковых систем и их индексных баз, стали ресурсами статистического машинного перевода.

Open-Book.jpg

Па́мять переводо́в (ПП, англ. translation memory, TM иногда называемая «Накопитель переводов») — база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует «единице перевода» (англ. translation unit), за которую обычно принимается одно предложение (реже — часть сложносочинённого предложения, либо абзац). Если очередное предложение исходного текста в точности совпадает с предложением, хранящимся в базе (точное соответствие, англ. exact match), оно может быть автоматически подставлено в перевод. Новое предложение может также слегка отличаться от хранящегося в базе (неточное соответствие, англ. fuzzy match). Такое предложение может быть также подставлено в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы Translation Memory также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

В каждой конкретной системе Translation Memory данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format), который основан на XML и который могут порождать практически все системы ПП. Благодаря этому результаты работы переводчиков можно обменивать между приложениями, то есть переводчик работающий с OmegaT может использовать память переводов, созданную в ТРАДОСе (Trados) и наоборот.

Большинство систем Translation Memory как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.


Гигабайты словарей и программ для перевода[1]

Список программных систем Translation Memory (памяти переводов)

В соответствии с недавними обзорами использования систем памяти переводов (translation memory) к наиболее популярным системам относятся:

Deja Vu одна из популярных систем, поддерживающих память переводов (Translation Memory/TM). Разрабатывается со второй половины 1990-х годов испанской компанией ATRIL
OmegaT система автоматизированного перевода, поддерживающая память переводов, написана на языке Java. Возможности продукта включают сегментацию исходного текста на основе регулярных выражений, использование точных (англ. exact) и неточных (англ. fuzzy) соответствий с уже переведенными фрагментами, использование словарей, поиск контекстов в базах данных переводов и работу с ключевыми словами
SDLX
Trados (Традос) система автоматизированного перевода, первоначально (с 1992 года) разработанная немецкой компанией Trados GmbH. Является одним из мировых лидеров в классе систем Translation Memory (TM, накопитель переводов)
Metatexis (Метатексис) программа автоматизации перевода CAT (Computer Aided Translation) для Microsoft Office. Программа встравивается в Microsoft Word и позволяет создавать свою базу параллельных переводов. Метатексис поддерживает все форматы Microsoft Office (Word, Exсel, Power Point), импорт и экспорт базы переводов в популярные форматы TMX, TM TRADOS, TM Wordfast и другие
Star Transit
Wordfast реализована как набор макросов для MS Word; встраивается в MS Word (как и Metatexis)


Гигабайты словарей и программ для перевода[2]

Автоматизированный перевод

Автоматизированный перевод (АП, англ. Computer-Aided Translation) — перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода (МП) он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.

Идея Автоматизированного перевода появилась с момента появления компьютеров: переводчики всегда выступали против стандартной в те годы концепции МП, на которую было направлено большинство исследований в области компьютерной лингвистики, но поддерживали использование компьютеров для помощи переводчикам. В 1960-е годы Европейское объединение угля и стали (предшественник современного Евросоюза) стало создавать терминологические базы данных под общим названием Eurodicautom. В Советском Союзе для создания баз такого рода был создан ВИНИТИ.

В современной форме идея АП была развита в статье Мартина Кея 1980 года, который выдвинул следующий тезис: "by taking over what is mechanical and routine, it (computer) frees human beings for what is essentially human" (компьютер берет на себя рутинные операции и освобождает человека для операций, требующих человеческого мышления).

В настоящее время наиболее распространенными способами использования компьютеров при письменном переводе является работа со словарями и глоссариями, памятью переводов (англ. Translation Memory, TM), содержащей примеры ранее переведенных текстов, а также использование так называемых корпусов, больших коллекций текстов на одном или нескольких языках, что дает сжатое описание того, как слова и выражения реально используются в языке в целом или в конкретной предметной области.

При синхронном переводе использование средств автоматизированного перевода по необходимости ограничено. Одним из примеров является использование словарей, загружаемых на КПК. Другим примеров может служить полуавтоматическое извлечение списков терминов при подготовке к синхронному переводу в узкой предметной области.

В узких предметных областях при большом количестве исходных текстов и устоявшейся терминологии переводчики могут использовать и машинный перевод, который может обеспечить хорошее качество перевода терминологии и устойчивых выражений в узкой области. Переводчик в этом случае осуществляет пост-редактирование полученного текста. Более половины текстов внутри Еврокомиссии (главным образом юридические тесты и текущая корреспонденция) переводится с использованием Машинного Перевода (МП).


Гигабайты словарей и программ для перевода[3]

Отказ от использования программ памяти переводов

Каждый раз, когда мы рассматриваем кандидатуру внештатного переводчика с целью сотрудничества с ним, первое, что мы хотим знать, есть ли у кандидата опыт работы с какой-либо программой, основанной на использовании памяти переводов. Несмотря на то что большое значение при выборе переводчика также играют такие факторы, как опыт и специализация, этот вопрос для нас является первостепенным, поскольку принятый в нашем бюро процесс перевода всегда включает его проверку вторым специалистом и автоматизированный контроль качества, поэтому получение готового перевода в двуязычном формате является для нас совершенной необходимостью. Если бы мы искали переводчика для разовой работы, то нам было бы не так важно, использует он или нет переводческую программу, но мы стремимся к налаживанию долгосрочных отношений, которые требуют более осмысленного и последовательного подхода к управлению переводом. Дополнительным преимуществом наличия такого опыта является то, что переводчик, повседневно использующий в работе такую программу, зачастую более профессионален и дисциплинирован и в других аспектах своей деятельности.

Несмотря на то что системы автоматизированного перевода (CAT) в основном и созданы для того, чтобы повышать эффективность и качество перевода, сегодняшний наш опыт свидетельствует о том, что далеко не все переводчики-фрилансеры спешат применять эту технологию. Одни просто не используют эти средства, тогда как другие — вероятно, под давлением требований к их использованию со стороны заказчиков — указывают переводческие программы в своем резюме, но когда доходит до дела, выясняется, что опыта работы с такими программами у них нет или он слишком небольшой.

По правде говоря, я этого просто не понимаю. Я допускаю, что существуют некоторые объективные причины для такого отказа, но не понимаю, зачем зацикливаться на проблемах? Разве доводов «за» не гораздо больше, чем «против»? Лично я считаю, что одно то преимущество, что с применением программы памяти переводов процесс перевода становится более безопасным, уже является достаточной причиной для того, чтобы использовать ее в работе, так как она может защитить переводчика от каких-то случайных или непродуманных действий. Например, когда я только начинал свой путь в качестве переводчика, мне понадобился всего лишь месяц, чтобы понять, что работа без использования памяти переводов крайне небезопасна, — к сожалению, мне пришлось убедиться в этом на собственном горьком опыте. Вдвоем с коллегой мы взялись за перевод срочного проекта объемом 5000 слов и, работая без передышек, перевели его за 12 часов, при этом перевод выполнялся из файла PDF непосредственно в документе Word. И когда конец работы был уже почти близок, я случайно удалил весь текст в файле, закрыл файл и сохранил его, фактически уничтожив итоги работы целого дня. После того как мы связались с заказчиком, чтобы извиниться и попросить продлить срок сдачи проекта, я дал себе обещание никогда больше ничего не переводить без программы CAT, ну может, за исключением нескольких предложений.

Но давайте рассмотрим сначала аргументы, с которыми я отчасти согласен, чтобы, являясь ярым сторонником использования технологии памяти переводов, не казаться слишком критически настроенным с самого начала.


Статья Романа Миронова[4]

Возможные аргументы против использования памяти переводов

«Я не пользуюсь памятью переводов, потому что деление текста по сегментам разрушает естественный поток речи».

Думаю, что это самое существенное и убедительное возражение. В программе памяти переводов вы имеете дело с текстом, сегментированным, как правило, по отдельным предложениям, а не со всем текстом сразу. В одной весьма интересной записи блога переводчик с немецкого на английский язык Джон Банч проводит различие между хорошими переводчиками, для которых исходный текст служит отправной точкой для создания нового текста, и неопытными переводчиками, которых можно было бы назвать просто «преобразователями», передающими текст оригинала словами другого языка. Сегментация по предложениям может препятствовать творческому подходу, так как переводчик вынужден сосредотачиваться на переводе отдельных частей и не получает представления о тексте в целом, превращаясь, таким образом, в простого «преобразователя» текста. В результате перевод может выглядеть не как целостный текст, созданный искусным автором, а скорее как набор отдельных предложений, мало или вовсе не связанных между собой по смыслу или грамматически.

Я полностью согласен с этим возражением и, вместо того чтобы спорить, хочу предложить несколько способов сгладить эту проблему. Прежде всего переводчик должен знать об этой проблеме и быть достаточно компетентен, чтобы соответствующим образом ее решать. То есть в том случае, если вы переводчик, вы должны развивать свои навыки в этой области, а если заказчик перевода — искать высококвалифицированного поставщика. Мысль вполне здравая, но, как всем известно, здравый смысл иногда расходится с общепринятой практикой, поэтому еще раз хочу подчеркнуть, что переводчик должен быть профессионалом своего дела и ответственным человеком, о чем я не устаю повторять в этом блоге.

Во-вторых, программа памяти переводов, как правило, также имеет одну или несколько собственных функций для решения этой проблемы. Например, вы всегда можете произвести сегментацию по абзацам, а не по предложениям. Если в сегменте будет представлен целый абзац, то это поможет переводчику придать тексту большую связность. Еще один проверенный способ — это переключение на другой вид отображения текста, при котором можно видеть только переведенный текст. В этом случае перевод будет представлять собой единый текст и оригинал не будет вас отвлекать. Это позволит вам проверить весь текст на предмет отсутствия логических связей между предложениями. Мы сами регулярно пользуемся этим методом — он действительно работает.

Конечно, мое мнение является предвзятым, поскольку я использую эти программы все время своей работы в качестве профессионального переводчика. Поэтому не стесняйтесь и поправьте меня, если я ошибаюсь в каких-то своих предположениях.


Впервые идея использовать компьютер для автоматизации перевода текстов с одного естественного языка на другой была предложена Уорреном Уивером в 1949 году. В 1954 году возможности машинного перевода продемонстрировал Джорджтаунский эксперимент, в ходе которого с помощью компьютера быстро перевели с русского на английский язык более 60 предложений. Вот несколько примеров из того эксперимента:

Русский

Мы передаем мысли посредством речи

Величина угла определяется отношением длины дуги к радиусу

Международное понимание является важным фактором в решении политических вопросов

English translation

We transmit thoughts by means of speech.

Magnitude of angle is determined by the relation of length of arc to radius.

International understanding constitutes an important factor in decision of political questions.

Удачным этот опыт можно считать лишь с некоторыми оговорками. Система была построена на простом наборе правил, могла переводить только очень небольшой набор фраз и работала очень долго. Однако Джорджтаунский эксперимент привлек внимание к вопросу машинного перевода. Многие поверили, что еще пара лет — и наступит эра искусственного интеллекта. Правительство, военные и частные корпорации начали щедро вливать деньги в разработки.


Фрагмент газетной статьи 1954 года о Джорджтаунском эксперименте. Заголовок: новейший электронный мозг переводит с русского.

В течение последующих тридцати лет исследователи развивали машинный перевод на основе правил: предъявленный текст на исходном языке компьютер переводил с помощью правил и предварительно загруженных словарей. Системы дословного перевода, трансферные системы и системы перевода на примерах считаются разновидностями этого подхода.

Отдельного упоминания заслуживают интерлингвистические системы, идея которых заключалась в преобразовании исходного текста в совокупность концептов, общих для всех языков, с последующей конвертацией их в текст на языке перевода. Этот подход к машинному переводу выделялся среди существовавших на тот момент, но развития так и не получил в силу своей сложности.

В 1980-х годах появился машинный перевод на основе статистических моделей (СМП) — компьютер генерировал текст перевода с помощью параллельных корпусов на языках рабочей пары, выискивая наиболее частотные соответствия слов. Параллельный корпус — это множество пар «текст + перевод». Такие тексты можно выравнивать между собой по абзацам или предложениям. Когда это сделано, на текстах можно обучать статистические модели. Скажем, если у вас есть предложения со словом кошка в русских текстах, то будет огромное количество параллельных английских предложений, где это переводится как cat. Постепенно статистическая система сама обучится тому, что кошка — это cat. Более сложные системы учитывали с помощью статистики и контекст — чтобы научиться не переводить слово «кошки» как cats, если предыдущее слово — альпинистские. Статистический машинный перевод играл ключевую роль вплоть до начала XXI века. И на разных этапах развития этого подхода машина переводила по-разному: по словам, по фразам и на основе синтаксиса.

В 1997 году Р. Ньеко и М. Форкада предложили идею применения в машинном переводе модели «кодер-декодер» — исходный текст шифруется в универсальное «представление», а потом расшифровывается на нужном языке. Напоминает интерлингвистические системы, не так ли? В 2003 году группа исследователей из Монреальского университета под руководством Й. Бенджио разработала языковую модель на основе нейросетей, которая помогла преодолеть проблему парсинга данных, характерную для популярных на тот момент статистических систем. Это и послужило отправной точкой для развития нейронного машинного перевода (НМП), который теперь занимает умы разработчиков и переводчиков.

Системы НМП обучаются на крупных корпусах текстов, что придает им сходство с СМП, однако подход к обработке текста у них совершенно иной. В 2013 году Н. Калкбреннер и Ф. Блансом разработали модель, способную с применением сверточной нейросети-кодера преобразовать исходный текст в непрерывный вектор, а затем с помощью рекуррентной нейросети-декодера перевести этот вектор в текст на языке перевода. Год спустя К. Чо с коллегами предложили в качестве кодера использовать рекуррентные нейросети — по их мнению, РНС лучше подходят для обработки текста. Давайте посмотрим, как это работает.

Только после этого система создает текст на целевом языке. Простейший декодер работает следующим образом:

До тех пор, пока на выходе не получится ‘My flight was delayed’. Следующим наиболее правдоподобным этапом декодер сочтет завершение перевода.

На каждом этапе перевода нейросеть обращается к результатам предыдущего и частично опирается на них, используя релевантные и отбрасывая нерелевантные.

Возможности нейросетей заставляют крупных игроков переключаться на НМП. Еще в сентябре 2016 года Google начал использовать НМП вместо статистического перевода по фразам для пары китайский-английский, а спустя какое-то время добавил еще несколько языков. Любопытно, что Google Translate до сих пор переключается с НМП на СМП для некоторых языковых пар и, поскольку НМП «обращает внимание на контекст», можно узнать, какая именно модель используется в данный момент. В языковых парах, для которых все еще применяется СМП, система подсвечивает отдельные элементы целевого предложения, если навести на него курсор; в случае с языками, для которых подключена нейросеть, предложения подсвечиваются полностью. Из-за этого, кстати, сложнее отследить происхождение ошибок.

Сейчас архитектура «кодер-декодер» на основе РНС, встроенный механизм внимания и длительная кратковременная память (LSTM) — обязательный минимум для среднестатистического онлайн-переводчика (хотя в июне 2017 года появилась новая модель, в которой используются только механизмы внимания). Кроме того, в некоторых системах стали внедрять механизм краудсорсинга. Тот же Google Translate предлагает пользователю отметить наиболее удачный вариант перевода и запоминает самые часто выбираемые из них.

Чтобы сравнить СМП и НМП, в 2016 году провели эксперимент на параллельном корпусе ООН — это 15 языковых пар и 30 направлений перевода. Результаты оценивали с помощью шкалы BLEU (оценивает близость машинного перевода к эталонному человеческому, выполненному профессиональным переводчиком), и по качеству перевода нейросеть не уступала или превосходила СМП во всех 30 направлениях. Исследователи пришли к выводу, что нейросеть делает меньше морфологических и синтаксических ошибок.

Несмотря на все преимущества НМП, ошибки все еще неизбежны, да и процесс обучения нейросетей занимает много времени. К тому же у статистических моделей тоже есть свои сильные стороны. Поэтому в последнее время исследователи комбинируют различные подходы к автоматизации перевода: в попытке добиться более естественного текста рождаются гибридные системы машинного перевода. За примером такой машины далеко ходить не нужно: это всем знакомый Яндекс.Переводчик.

В Яндекс.Переводчике свои варианты перевода генерируют обе модели, а потом специальный алгоритм оценивает/отбирает/комбинирует их и выдает результат. Эксперименты показывают, что переключение модели часто зависит от длины текста и того, есть ли в нем полные предложения — на совсем коротких примерах нейросети иногда еще проигрывают классической статистике. Легкий способ переключиться с обычной статистической модели на нейросеть — добавить точку:

Текст с точкой Яндекс.Переводчик считается достаточно длинным для применения нейросети. А у нейросети с английской грамматикой получается лучше, чем у статистической модели.

Читайте также: