Чему удовлетворяет качество компьютерного перевода выполнить модификацию документа

Обновлено: 07.07.2024

№1.26. Распознавание текста и системы компьютерного перевода

№1.26. Распознавание текста и системы компьютерного перевода

урок. 7 кл.mp4

ABBYY FineReader 11.mp4

Рекомендации : проверить текст после распознавания.

Очень часто появляется необходимость перевести в электронный вид текст каких-то документов, или даже книг. Можно затратить определённое время и просто набрать этот текст с помощью клавиатуры. Но, чем больше исходный текст, тем больше времени будет затрачено на его ввод в память компьютера.

Поэтому для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов .

После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.


Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов .

Наиболее широко известна и распространена такая программа отечественных производителей — ABBY FineReader .

Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках (на 179 языках), а также для распознавания смешанных двуязычных текстов.

  • Работает с разными моделями сканеров.
  • Позволяет из бумажных документов, PDF -файлов и цифровых фото сделать редактируемый текст.
  • Позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (многостраничными документами) и с бланками.
  • Позволяет редактировать распознанный текст и проверять его орфографию.
  • Сохраняет внешний вид документа, а также его структуру, то есть, расположение слов, абзацев, таблиц, изображений, заголовков и нумерация страниц останутся такими же, как и в оригинале.
  • Экспортирует тексты в Word , Excel , PowerPoint или Outlook .

Преобразование бумажного документа в электронный вид происходит в пять этапов. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.

Пять этапов процесса обработки документа с помощью программы ABBY FineReader :

  1. Сканирование документа (кнопка Сканировать).
  2. Сегментация документа (кнопка Сегментировать).
  3. Распознавание документа (кнопка Распознать).
  4. Редактирование и проверка результата (кнопка Проверить).
  5. Сохранение документа (кнопка Сохранить).

1) На этапе сканирования производится получение изображений при помощи сканера и сохранение их в виде, удобном для последующей обработки. Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать .

2) Второй этап работы — сегментация , разбиение страницы на блоки текста. Если страница содержит колонки, иллюстрации, врезки, подрисуночные подписи или таблицы, то порядок распознавания требует коррекции. Содержимое страницы разбивается на блоки, внутри каждого из которых распознавание осуществляется в естественном порядке. Блоки нумеруются, исходя из порядка включения их в документ. При автоматической сегментации (кнопка Сегментировать ) определение границ блоков осуществляется автоматически. При этом учитываются поля документа, просветы между колонками, рамки.

3) Процесс распознавания текста после сегментации начинается с щелчка на кнопке Распознать и полностью автоматизирован.

4) Когда распознавание данной страницы завершается, полученный текстовый документ отображается в окне Текст . Заключительные этапы работы позволяют отредактировать полученный текст с помощью средств, напоминающих текстовый редактор WordPad . Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Проверить .

5) По щелчку на кнопке Сохранить запускается Мастер сохранения результатов. Он позволяет сохранить распознанный текст или передать его в другую программу (например, в Microsoft Word ) для последующей обработки полученный текст можно сохранить в виде форматированного или неформатированного документа.

Словари необходимы для перевода текстов с одного языка на другой. В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и так далее), причем каждый из них может содержать десятки тысяч слов.

В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц, где поиск нужного слова является достаточно трудоемким процессом.


Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности.

1) Могут являться многоязычными, так как дают пользователю возможность выбрать языки и направление перевода (например, англо-русский, испано-русский и так далее).

2) Могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.).

3) Обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др.

4) Могут являться мультимедийными, то есть предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка.

  • могут быть установлены на компьютер как самостоятельные программы;
  • могут быть встроены в текстовые процессы;
  • существуют в on-line-режиме в сети Интернет.

Для перевода текстовых документов применяются программы-переводчики .

Компьютерные переводчики могут оказать огромную помощь в обработке информации на иностранных языках по различным отраслям знаний.

В настоящее время наиболее распространенными программами машинного перевода являются системы PROMT , Stylius , Сократ , Magic Gooddy и другие, которые обеспечивают перевод текстов со многих иностранных языков на русский и с русского языка на иностранные. Эти системы являются не простыми пословными программами перевода, а профессиональными электронными переводчиками, синтезирующими выходной текст на достаточно ясном, грамматически правильном языке с учетом морфологических, синтаксических и семантических связей.

Основные требования к компьютерным переводчикам являются оперативность, гибкость, скорость и точность.

  • иногда допускают смысловые и стилистические ошибки;
  • неприменимы для перевода художественных произведений.

ЯКласс. Тема " Инструменты распознавания текстов и компьютерного перевода"

Машинный перевод противопоставляется переводу, сделанному человеком без использования информационных технологий – «ручному» переводу.

Первые алгоритмы машинного перевода использовали перекодирование текста исходного языка ( ИЯ ) на текст языка перевода ( ПЯ ). В специальной литературе преобразование исходного текста в конечный стало называться трансфер [1].

В 1947 г. в США, после появления первых ЭВМ, была высказана идея использовать их для перевода. В 1954 г. прошла первая демонстрация возможностей машинного перевода. Несмотря на несовершенство использовавшейся системы (около 250 слов в словаре, 6 правил грамматики), эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и в СССР [2].

Формы организации взаимодействия человека и ЭВМ при машинном переводе

1. С постредактированием : исходный текст перерабатывается машиной, а человек-редактор исправляет результат. Автоматический перевод с постредактированием: включает работу с «грубым» переводом предварительно нередактированного текста, сделанным машиной, с целью привести его в соответствие с нормами языка перевода;

2. С предредактированием : человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.

Преобразование текста перед его вводом в систему перевода осуществляется таким образом, чтобы отредактированный текст на лексико-семантическом и грамматическом уровнях приближался к языку перевода или к конструкциям языка-источника, правила преобразования которых формализованы и известны используемой системе;

3. С интерредактированием : человек вмешивается в работу системы перевода, разрешая трудные случаи. Подразумевает взаимодействие человека и машины в процессе самого перевода; человек при этом разрешает трудные случаи «онлайн» (например, при переводе лексически неоднозначных единиц определяет, какую именно единицу следует употребить в каждом случае).

Смешанные системы (например, одновременно с пред- и постредактированием) [2, 3].

Автоматизированный перевод

Вместо « машинный » иногда употребляется слово « автоматический », что не влияет на смысл. Однако термин « автоматизированный перевод » имеет совсем другое значение — при нём программа просто помогает человеку переводить тексты.

Автоматизированный перевод предполагает такие формы взаимодействия:

1. Частично автоматизированный перевод : например, использование переводчиком-человеком компьютерных словарей.

2. Системы с разделением труда : компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё, не уложившееся в схему, отдаёт человеку.

В англоязычной терминологии также различаются термины machine translation , MT (полностью автоматический перевод) и machine-aided или machine-assisted translation ( MAT ) (автоматизированный); если же надо обозначить и то, и другое, пишут M(A)T .

Существуют два принципиально разных подхода к построению алгоритмов машинного перевода: основанный на правилах ( rule-based ) и статистический , или основанный на статистике ( statistical (phrase-based) ). Первый подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ в России, SYSTRAN во Франции, Linguatec в Германии и др.). Ко второму типу относится популярные переводные сервисы от Яндекс и Google [2].

Качество перевода

Современные компьютерные программы перевода достаточно совершенны, но они до сих пор не могут разрешить самую сложную задачу процесса перевода: выбор контекстуально-необходимого варианта, который в каждом тексте обусловлен многими причинами. В результате начальную эйфорию сменили более уравновешенные взгляды на возможности машинного перевода. В настоящее время результат этого вида перевода может быть использован как черновой вариант будущего текста, который будет редактировать переводчик , а также как средство, чтобы в крайней ситуации отсутствия переводчика получить общее представление о теме и содержании текста [1].

Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод.

Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее, для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.

Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных шуток [2].

Ошибки обусловлены тем, что компьютер не может думать образами и не имеет возможности оперировать реалиями разных культур и эпох так, как это способен делать человеческих мозг [4].

Лексические анализы переведенных текстов показали, что по большей части электронные переводчики адекватно переводят простые части речи, но допускают ошибки в переводе падежей, принадлежности прилагательных, речевых оборотов, построения предложения.

Недостатком некоторых переводчиков является неточность перевода слов, имеющих несколько значений. Для более адекватного перевода в перспективе можно предложить более глубокий эвристический анализ грамматического построения предложения, с улучшением качества перевода различных частей речи и их грамматических характеристик, а так же исключить конфликт словарей при переводе специализированных текстов.

Грамматический анализ текстов показывает, что электронный переводчик справляется с переводом слов во множественном и единственном числе, но имеется определенная трудность в переводе падежей и постановки глаголов в нужное число. Это объясняется различной интерпретацией падежей в русском и английском языках: в русском – через окончание, в английском – через предлоги [5].

Наряду с установленными правилами построения предложения в каждом языке существуют и свои неписаные законы, которые иногда называются красотами языка. Например, предложение на английском языке «This is my book» дословно переводится «Это есть моя книга», и формально это будет правильным, но по-русски так не говорят. В данном случае можно сказать, что предложение «написано так, будто его составил иностранец». Конечно, приведенный пример является простейшим, и возможность исключения слова «is» очень просто отражается в программе машинного перевода. Но на практике получившийся перевод похож на текст, написанный иностранцем.

Текст также может содержать слова, которые нужно понимать в контексте образа жизни людей в конкретной стране. Например, под словом «демократ» в США подразумеваются политики, выступающие за большее вмешательство государства в экономику, а в России те, кто выступает за большую свободу рынка. Это разные понятия [6].

В настоящее время сфера использования машинного перевода сводится к промышленному переводу. Он может помочь в рутинной переводческой работе, когда быстрота выполнения перевода важнее его качества. Например, он может оказаться кстати для специалиста, не владеющего тем или иным иностранным языком, на котором ему нужно прочитать интересующий его текст. Хотя машинный перевод, как правило, оказывается полным ошибок и неувязок, человек вполне может получить общее представление о содержании текста, что поможет ему решить, стоит ли заказывать более качественный перевод или попытаться отредактировать полученный. Таким образом, машинный перевод позволяет получить то, что И. С. Алексеева условно назвала « сигнальным переводом » [1].

С 1976 г. машинный перевод используется для перевода прогнозов погоды с английского языка на французский в Канаде. Система работает со скоростью 1000 слов в минуту. Каждый день машины переводят до 30000 слов, работая при этом всего полчаса в день. Успех программы объясняется тем, что в текстах метеорологических сводок используется ограниченная по тематике лексика, а также стандартные синтаксические конструкции [1].

Таким образом, результаты машинного перевода почти всегда требуют редактирования. А то, насколько адекватными можно считать результаты перевода на компьютере, определяется не только качеством системы машинного перевода, но и качеством последующего редактирования [6].

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Переходько Ирина Валерьевна, Мячин Дмитрий Алексеевич

Данная статья посвящена исследованию проблем оценки качества машинного перевода, что обусловлено все возрастающей Интернет-коммуникации с одной стороны и недостаточной разработанностью систем компьютерного перевода , которые в настоящее время не позволяют добиться адекватного перевода, с другой стороны. Подобное исследование позволяет выявить основные причины ошибок при машинном переводе. В данной статье предпринята попытка исследования стратегий взаимодействия Человек Машина при переводе, а также анализа текстов переводов Интернет-сайтов, выполненных с помощью систем компьютерного перевода , на основе лингвостилистического анализа и на основе автоматической обработки текстов с использованием метрики METEOR по методу N-грамм. Анализ извлеченных примеров позволил сделать вывод о том, что наибольшее количество ошибок связано с переводом семантических конструкций. Практическая значимость исследования состоит в том, что разработка системы оценки качества машинного перевода позволяет выявить и систематизировать все недостатки компьютерных программ с целью их дальнейшего совершенствования, т. к. автоматизация процесса перевода сегодня приобретает ключевое значение, т. к. с ее помощью возможно выполнять большие объемы работ.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Переходько Ирина Валерьевна, Мячин Дмитрий Алексеевич

Лингвистические особенности компьютерного перевода научно-технических терминов сетей передачи данных “передняя часть правого теленка”, или ошибки машинного перевода (на основе анализа автоматических субтитров) Машинные системы перевода: качество и возможности использования Экспериментальный анализ индикаторов переводимости экономических текстов i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

QUALITY EVALUATION OF COMPUTER TRANSLATION

The following article considers the issue of language quality assessment of machine translation owing to the growing internet-communication on one side and the inadequate research of automatic translation, that aren’t currently inadaptable, on the other side. Such a study reveals key reason of machine translation ’s mistakes. This article attempts to examine strategy of interaction «human-to-machine» in the translation and to analyse translated texts of web-sites executed by automatic systems, based on linguostylistic analysis and automated language processing with the use of METEOR on the lines of n-gram. Case study shows that the largest number of mistakes is due to translation of semantic constructions. The practical implications lies in the fact that the development of a system of quality assessment of machine translation makes it possible to identify and to systematize any shortcomings of software with a view to further development, since the automation of translation has become crucial, allowing for the accommodation of a higher workload.

Текст научной работы на тему «Оценка качества компьютерного перевода»

Переходько И.В., Мячин Д.А.

ОЦЕНКА КАЧЕСТВА КОМПЬЮТЕРНОГО ПЕРЕВОДА

Данная статья посвящена исследованию проблем оценки качества машинного перевода, что обусловлено все возрастающей Интернет-коммуникации с одной стороны и недостаточной разработанностью систем компьютерного перевода, которые в настоящее время не позволяют добиться адекватного перевода, с другой стороны. Подобное исследование позволяет выявить основные причины ошибок при машинном переводе.

В данной статье предпринята попытка исследования стратегий взаимодействия Человек -Машина при переводе, а также анализа текстов переводов Интернет-сайтов, выполненных с помощью систем компьютерного перевода, на основе лингвостилистического анализа и на основе автоматической обработки текстов с использованием метрики METEOR по методу N-грамм. Анализ извлеченных примеров позволил сделать вывод о том, что наибольшее количество ошибок связано с переводом семантических конструкций.

Практическая значимость исследования состоит в том, что разработка системы оценки качества машинного перевода позволяет выявить и систематизировать все недостатки компьютерных программ с целью их дальнейшего совершенствования, т. к. автоматизация процесса перевода сегодня приобретает ключевое значение, т. к. с ее помощью возможно выполнять большие объемы работ.

Ключевые слова: Интернет-коммуникация, компьютерный перевод, лингвостилистический анализ текста, лексические ошибки, синтаксические ошибки, стилистические ошибки.

В исследованиях проблем оценки качества машинного перевода большое внимание уделяется изучению переводов текстов Интернет-сайтов, выполненных с помощью систем компьютерного перевода. Внимание это обусловлено тем, что сегодня активное развитие получила Интернет-коммуникация. Интернет-коммуникация - это относительно новая и бурно развивающаяся речевая формация, которая отличается коммуникативным многообразием, полифункциональностью, динамизмом и не имеет себе равных по степени своего влияния на другие сферы общения. Проблемами Интернет-коммуникации занимаются такие ученые, как Колокольцева Т.Н, Лутовинова О.В. Значительная часть информации, предоставленной Интернет-коммуникациями, представлена зарубежными источниками, которые не имеют интерфейса на других языках, а следовательно, ограничивают доступ к информации, содержащейся в них, для потребителя [1]. В этих случаях пользователи сети Интернет прибегают к компьютерному (машинному) переводу.

Оксфордский словарь дает следующее определение машинного перевода: «Машинный перевод - это перевод, осуществляемый при помощи компьютера» [2]. Иными словами - это процесс, который использует двуязычные данные, включающие в себя лексику и грамматику

обоих языков, а также модели фраз, используемые в данных языках. Результатом этого процесса является перекодирование текста одного естественного языка на другой.

Сегодня понятия автоматический перевод и автоматизированный перевод принято разграничивать, так как автоматический перевод - это перевод, выполненный исключительно машиной, без участия человека, а автоматизированный - это метод, при котором перевод осуществляется человеком, при использовании программного обеспечения, облегчающего этот процесс. Этот вид машинного перевода в английской терминологии также называют Machine-assisted.

Развитие систем компьютерного перевода получило свое начало в 40-х годах XX века. Впервые концепция машинного перевода была сформулирована в 1949 году Уорреном Уивером, директором отделения естественных наук Рок-феллерского Фонда, в его меморандуме, адресованном Фонду. В 1954 году в рамках Джор-джтаунского эксперимента был проведен первый машинный перевод с русского языка на английский. В 1967 году в отчете наблюдательного комитета по автоматической обработке текстов национальной академии наук США была подчеркнута нецелесообразность разработки систем компьютерного перевода в качестве замены пере-

водчика, так как полностью автоматический машинный перевод удовлетворительного качества не может быть получен. В отчете также было признано, что необходимо использовать уже имеющийся опыт разработки систем машинного перевода для развития электронных программ, облегчающих работу переводчика - электронных словарей. Машина в состоянии выполнять рутинные операции не только быстрее чем человек, но и качественнее. Изменилось само отношение к электронной вычислительной машине: ее стали рассматривать как инструмент для автоматизации труда переводчика.

За последние несколько лет машинный перевод пережил значительные изменения и сегодня по типу осуществления перевода выделяют:

- системы прямого перевода: производится пословный перевод, отсутствуют модули полного семантического и синтаксического анализа;

- трансферные системы: используются переводные соответствия: эквивалентные, вариативные, трансферные, то есть преобразующие текст для правильной передачи;

- системы семантического перевода: принцип действия основан на применении семантических баз данных.

При этом машинный перевод без редактирования, выполненного человеком, не представляется возможным, так как программное обеспечение не дает возможности для подбора адекватного эквивалента некоторым семантическим конструкциям.

Следует выделить несколько стратегий взаимодействия Человек - Машина при переводе:

- компьютерный перевод с предредактиро-ванием - это преобразование текста перед его вводом в систему компьютерного перевода для воссоздания на языке оригинала конструкций языка перевода;

- компьютерный перевод с постредактированием - это преобразование «грубого» текста, выполненного системой машинного перевода, с целью привести его к нормам языка перевода;

- компьютерный перевод с интерредактированием - это взаимодействие человека и машины непосредственно во время перевода.

При этом используется простое и полное редактирование. Простое редактирование за-

ключается в проведении как можно меньшего числа операций над текстом, с целью сделать его понятным, фактически точным и грамматически правильным и включает в себя:

- исправление наиболее очевидных опечаток и грамматических ошибок;

- изменение сложных предложений частично или полностью;

- фиксирование ошибок компьютерного переводчика;

- удаление ненужных или альтернативных вариантов перевода;

- создания глоссария, но без углубленной проработки терминов.

Этот вид редактирования применяется в тех случаях, когда необходимо передать только смысл.

Полное постредактирование - это более долгий процесс, итогом которого является текст, который читается, как будто он был написан на языке перевода. Этот процесс включает в себя:

- проверку соответствия терминологии;

- сбор информации, связанной с текстом перевода;

- синтаксические изменения в соответствии с правилами языка перевода;

- работа над стилистикой текста;

- перевод и адаптация культурологических явлений (фразеологизмы, идиомы и др.);

- попытка добиться полного соответствия с оригинальным текстом;

- выполнение форматирования, в соответствии с оригиналом текста;

- исправление всех грамматических, пунктуационных и орфографических ошибок.

Согласно данным пользователей автоматического перевода TAUS, такой вид постредактирования применяется чаще, так как позволяет сохранить инвариативность на уровне содержания [6].

В связи с тем, что машинный перевод без редактирования не способен выдавать адекватный и эквивалентный результат, возник вопрос об оценке текстов, выполненных с помощью систем компьютерного перевода.

Сегодня существует два основных направления оценки компьютерного перевода: на основе лингвостилистического анализа и на основе автоматической обработки текстов.

Макото Нагао предложил шкалу оценки машинного перевода на основе лингвостилистиче-ского анализа, от пяти до одного балла.

1 балл - смысл предложения понятен и не возникает никаких вопросов, грамматика, словоупотребление и стиль соответствуют общей структуре текста и не требуют постредактирования

2 балла - смысл предложения понятен, но возникают большие проблемы с грамматикой, словоупотреблением и стилем.

3 бала - общий смысл предложения понятен, но смысл некоторых его частей вызывает сомнение из-за неправильного грамматического строя.

4 балла - присутствуют ошибки словоупотребления и стилистики, требуется обращение к оригиналу.

5 баллов - в предложении имеется большое количество грамматических, словоупотре-бительных и стилистических ошибок, смысл предложения с трудом можно понять после внимательного изучения.

Недостаток этого метода оценки состоит в том, что человек не может быть объективен, так как уровень понимания текста реципиентом всегда зависит от индивидуальных, а значит, субъективных факторов, следовательно, оценка перевода по шкале Макото Нагао не может быть абсолютно точна [3].

Автоматические системы оценки машинного перевода основываются на методе N-грамм, который был введен для этой цели также Макото Нагао и Шинсуке Мори. Этот метод основан на использовании вероятности появления цепочки букв N-го порядка (N-грамм) в анализируемых текстах [7]. N-грамма - это последовательность из n-слов или знаков. По своему составу N-граммы могут делиться на униграммы (одно слово или один знак), биграммы (два), триграммы (четыре) и так далее.

Основными метриками, основанными на этом методе, являются BLEU и METEOR. Их авторами являются: Кишоре Папинени, Михаэль Денковски. Эти метрики работают по сути на одном алгоритме, но METEOR является более совершенным, так как допускает при оценке перифраз.

Алгоритм оценивания следующий: в программу загружаются два перевода одного и того

же текста. Один, выполненный с помощью системы компьютерного перевода, второй, прошедший постредактирование. Оба этих текста делятся на N-граммы, после чего сравниваются друг с другом. Далее, используя методы математической статистики, высчитывается оценка компьютерного перевода. Оценка ставится от 0 до 1, где 0 - плохой результат, а 1 - отличный.

Эти метрики создали сотрудники IBM, чтобы отслеживать результат изменений в переводе в процессе разработки системы. Оценивается как меняется перевод при добавлении новых корпусов текстов для тренировки системы, при изменении программного кода и т. д.

С одной стороны, метод автоматической оценки машинного перевода более объективен, так как он позволяет оценить перевод с помощью формул, и тем самым исключить субъективность. С другой стороны, автоматические метрики оценки не могут дать полностью адекватный результат, так как при оценке с помощью N-грамм, не ставится задача понимания семантики текста, что и ведет к некоторой неточности такой оценки.

В настоящей статье освещены результаты исследования, в рамках которого были проанализированы переводы двух сайтов, один из которых имеет русский аналог, а другой не имеет такового.

В ходе исследования был осуществлен анализ переведенных с помощью компьютерных систем текстов с использованием метрики METEOR.

Мы перевели предложение «Un orage, la foudre qui tombe pas loin de chez vous et votre box pourrait se retrouver hors service» с помощью систем перевода Google translate и PROMT. Перевод от Google translate звучит так: «Гроза, молния не выйди из дома и ваш ящик может обрываться», PROMT дает следующий перевод «Буря, молния, которая падает на вас и ваш отсек мог бы вновь оказаться негодным». METEOR выдает переводу Google translate оценку 0,32, а переводу, выполненному с помощью системы PROMT, оценку 0,42.

В соответствии со шкалой Макото Нагао в переводе, выполненном и системой Google translate, и системой PROMT присутствуют ошибки словоупотребления и стилистики. Перевод требует обращения к оригиналу и существовать без постредактирования не может.

В связи с этим требуется лингвостилисти-ческий анализ для выявления причин ошибок в переводе. Анализ показывает, что причина неадекватного перевода в неспособности электронного переводчика понять смысл фразы. В результате постредактирования мы можем предложить следующий вариант перевода -«Гроза, молния вблизи роутера могут вывести его из рабочего состояния».

частей вызывает сомнение из-за неправильного грамматического строя.

На основе анализа текстов перевода можно сделать вывод о том, что PROMT делает меньше ошибок в синтаксисе и грамматике, в Google же, напротив, эта проблема еще не решена окончательно.

В данном случае ошибка вызвана именно наличием специализированной лексики, такой как «инжекторы» или «общая магистраль прямого впрыска». И после постредактирования в русской версии сайта Citroën это предложение выглядит «топливо подается на инжекторы под высоким давлением по общей магистрали прямого впрыска».

ниц, намеревается пересечь азиатский континент от Бейрута до Пекина».

Название одной из статей сайта Orange звучит как «Sécuriser sa box, Quelques petits trucs à savoir». Электронный переводчик Google переводит это предложение как «Безопасный ящик. Некоторые советы, чтобы знать», а PROMT «Успокаивать его отсек. Несколько маленьких уловок которые надо знать». Этот перевод набирает 4 балла шкалы Макото Нагао, т. е. в предложении присутствуют ошибки словоупотребления и стилистики, требуется обращение к оригиналу. По метрике METEOR Google получает оценку - 0,03, а PROMT - 0,16.

Ошибка носит семантический характер, так как слово «box» здесь имеет значение «роутер», а слово «Sécuriser» - это глагол, одно из значений которого - «обеспечивать безопасность», т. е. такое словосочетание, по нашему мнению, может переводиться как «несколько небольших советов по обеспечению безопасности вашего роутера».

Анализ текстов статей указанных сайтов, выполненных с помощью компьютерно-

го перевода, позволил сделать вывод о том, что наибольшее количество ошибок связано с переводом семантических конструкций (50%), грамматические ошибки составили (20%), синтаксические и лексические по (15%) соответственно.

Таким образом, проведенный анализ позволяет сделать вывод о том, что наибольшие проблемы при машинном переводе связаны с семантикой, так как при переводе семантических конструкций необходимы базы данных, которые в настоящее время не разработаны. Помимо этого немалые затруднения вызывают переводы сложных грамматических, синтаксических и лексических конструкций.

Дальнейшее развитие автоматического перевода связано с возможностью целостной оценки текстов, выполненных при помощи систем компьютерного перевода. Именно адекватная и полная оценка поможет выявить и систематизировать все недостатки программы, чтобы в дальнейшем данные проблемы были решены.

3. Бабина, О.И. Языковая личность переводчика и машинный перевод [Электронный ресурс] / О.И. Бабина // Вестник ЧелГУ.

6. Nagao, M. A New Method of N-gram Statistics for Large Number of n and Automatic Extraction of Words and Phrases from Large Text Data of Japanese / M. Nagao, S. Mori // In Proceedings of the 15th International Conference on Computational Linguistics (COLING 1994). - Kyoto, Japan, 1994.

Сведения об авторах: Переходько Ирина Валерьевна, доцент кафедры романской филологии и методики преподавания французского языка Оренбургского государственного университета,

Перевод – вид языкового посредничества, при котором содержание иноязычного текста оригинала передается па другой язык путем создания на нем коммуникативно равноценного текста. Для перевода с одного языка на другой язык применяются программы: 1) словари, 2) переводчики текстовых документов, 3) переводчики текста веб-страниц с сохранением дизайна.

Различают автоматизированный, машинный и статистический переводы.

Автоматизированный перевод – выполняется человеком с привлечением электронного словаря, установленного на компьютере или на сайте. Программа просто помогает человеку переводить тексты.

Электронный словарь – программа, которая по запрашиваемому слову открывает словарную статью с вариантами

перевода слова, примерами словосочетаний и фраз, причем не только общей лексики, но и специализированных (отраслевых) словарей. По словарному запасу соответствует бумажному словарю, а по удобству пользования, скорости поиска и перехода по ссылкам намного его превосходит.

Слово вводится в окно словаря прямым набором, вставкой из буфера памяти (выделить в тексте документа незнакомое слово и копировать) – в окне словаря откроется соответствующая словарная статья. Есть возможность подключать словарь в окно программы работы с документом, создавать словарные статьи пользователя.

Некоторые словари не только поясняют произношение транскрипцией, но и воспроизводят в дикторской аудиозаписи или синтезе по фонемам.

Перевести слово можно запросом в строке поиска Яндекса, например: "перевод слова comprendre", "перевод слова происшествие на немецкий", "происшествие по-французски". Раздел Яндекс.Словари дает развернутый перевод слов с примерами. Помогает переводу поисковый плагин (дополнение) для Internet Explorer и Mozilla FireFox.

Машинный (автоматический) перевод – компьютерная программа, которая анализирует текст источника и выполняет перевод без вмешательства человека. Человек-редактор впоследствии исправляет перевод или заранее приспосабливает текст к обработке машиной: устраняет неоднозначные прочтения, упрощает текст синтаксически под структуру фраз языка перевода, указывает системе перевода пути решения в трудных случаях.

Статистический машинный перевод – перевод, основанный на сравнении больших объемов языковых пар текстов, содержащих предложения на одном языке и соответствующие им предложения на втором. Применяется на поисковом сайте Google и обладает свойством самообучения. Чем больше в распоряжении языковых пар текстов и чем точнее они соответствуют друг другу, тем лучше результат статистического перевода. В ряде стран издаются двуязычные парламентские отчеты; на нескольких языках издаются документы Организации Объединенных Наций, Евросоюза, много художественных и отраслевых книг переведено на несколько языков. Эти материалы, обработанные алгоритмами поисковых систем и их индексных баз, стали ресурсами статистического машинного перевода.

Машинный перевод ( Machine Translation, MT ) – это технология связного перевода текстов компьютерной программой с одного естественного языка на другой.

Впервые о расширении привычных возможностей перевода задумался английский изобретатель Чарльз Бэббидж, предложивший в конце 1830-х гг. проект первого в истории компьютера. Суть работы будущей машины состояла в использовании потенциала машинной памяти для хранения словарей. Спустя сто лет, в 1947 г., директор отделения естественных наук Рокфеллеровского фонда Уоррен Уивер определил задачу текстового перевода с одних языков на другие как еще одну область применения техники дешифрования.

В 1954 г. состоялся так называемый «Джорджтаунский эксперимент»: публике был представлен первый электронный переводчик – русско-английская система IBM Mark II, содержавшая словарь из 250 единиц и 6 грамматических правил. В течение последующих 10 лет технологии машинного перевода (далее – МП) продолжали стремительно развиваться, но вскоре стало ясно, что машина не сможет переводить тексты также безукоризненно, как человек. В связи с этим в США прекращается финансирование разработки программ машинного перевода.

Новый этап развития технологий машинного перевода связан с появлением вычислительной техники в конце 70-х – начале 80-х гг. ХХ в. Программисты отказались от идеи создания «идеальной» машины-переводчика: новые системы разрабатывались с целью многократного увеличения скорости перевода информации, но с обязательным участием человека для достижения идеального качества.

Очередной виток исследований в 90-х гг. прошлого века связан с колоссальным прогрессом современных персональных компьютеров и появлением Интернета. Возможности перевода в режиме онлайн позволяют преодолеть языковой барьер и осуществлять навигацию по иностранным сайтам.


Технология машинного перевода

На сегодняшнем рынке IT существует две технологии автоматизированного перевода информации: машинный перевод Machine Translation и Translation Memory.

Программы, разработанные на основе технологии Мachine Тranslation (машинный перевод), осуществляют связный перевод текста, используя определенные лингвистические алгоритмы. Сначала система анализирует структурные элементы входного предложения, затем преобразует его в соответствии со структурой языка и синтезирует окончательный вариант. Кроме того, для повышения качества перевода программа должна уметь распознавать устойчивые выражения, а также иметь большой словарный запас. Для перевода тематических текстов обычно требуется подключать специализированные словари. С помощью систем с технологией Machine Translation можно мгновенно получить черновой вариант перевода, когда необходимо быстро уловить общий смысл текста. Программы Machine Memory с высокой точностью находят предложения в текстах на разных языках и сохраняют результат в базе переводов. Принцип работы основан на сравнении. Данные программы больше подходят для перевода небольших текстов, сравнения и проверки текстов.


Основные преимущества машинного перевода

  1. Высокая скорость перевода.
  2. Низкая стоимость перевода.
  3. Конфиденциальность. Многие пользователи регулярно используют системы МП для перевода личных писем.
  4. Универсальность. Профессиональный переводчик, как правило, имеет специализацию по переводу текстов определенной тематики.
  5. Перевод в режиме онлайн и перевод контента интернет-страниц.

Виды машинного перевода

Машинный или компьютерный перевод делится на перевод слов и словосочетаний при помощи он-лайн словарей и перевод текстов как правило не художественного характера.

Читайте также: