Какой вид компьютерного перевода основан на сравнении больших объемов языковых пар текстов

Обновлено: 04.07.2024

Машинный перевод ( Machine Translation, MT ) – это технология связного перевода текстов компьютерной программой с одного естественного языка на другой.

Впервые о расширении привычных возможностей перевода задумался английский изобретатель Чарльз Бэббидж, предложивший в конце 1830-х гг. проект первого в истории компьютера. Суть работы будущей машины состояла в использовании потенциала машинной памяти для хранения словарей. Спустя сто лет, в 1947 г., директор отделения естественных наук Рокфеллеровского фонда Уоррен Уивер определил задачу текстового перевода с одних языков на другие как еще одну область применения техники дешифрования.

В 1954 г. состоялся так называемый «Джорджтаунский эксперимент»: публике был представлен первый электронный переводчик – русско-английская система IBM Mark II, содержавшая словарь из 250 единиц и 6 грамматических правил. В течение последующих 10 лет технологии машинного перевода (далее – МП) продолжали стремительно развиваться, но вскоре стало ясно, что машина не сможет переводить тексты также безукоризненно, как человек. В связи с этим в США прекращается финансирование разработки программ машинного перевода.

Новый этап развития технологий машинного перевода связан с появлением вычислительной техники в конце 70-х – начале 80-х гг. ХХ в. Программисты отказались от идеи создания «идеальной» машины-переводчика: новые системы разрабатывались с целью многократного увеличения скорости перевода информации, но с обязательным участием человека для достижения идеального качества.

Очередной виток исследований в 90-х гг. прошлого века связан с колоссальным прогрессом современных персональных компьютеров и появлением Интернета. Возможности перевода в режиме онлайн позволяют преодолеть языковой барьер и осуществлять навигацию по иностранным сайтам.


Технология машинного перевода

На сегодняшнем рынке IT существует две технологии автоматизированного перевода информации: машинный перевод Machine Translation и Translation Memory.

Программы, разработанные на основе технологии Мachine Тranslation (машинный перевод), осуществляют связный перевод текста, используя определенные лингвистические алгоритмы. Сначала система анализирует структурные элементы входного предложения, затем преобразует его в соответствии со структурой языка и синтезирует окончательный вариант. Кроме того, для повышения качества перевода программа должна уметь распознавать устойчивые выражения, а также иметь большой словарный запас. Для перевода тематических текстов обычно требуется подключать специализированные словари. С помощью систем с технологией Machine Translation можно мгновенно получить черновой вариант перевода, когда необходимо быстро уловить общий смысл текста. Программы Machine Memory с высокой точностью находят предложения в текстах на разных языках и сохраняют результат в базе переводов. Принцип работы основан на сравнении. Данные программы больше подходят для перевода небольших текстов, сравнения и проверки текстов.


Основные преимущества машинного перевода

  1. Высокая скорость перевода.
  2. Низкая стоимость перевода.
  3. Конфиденциальность. Многие пользователи регулярно используют системы МП для перевода личных писем.
  4. Универсальность. Профессиональный переводчик, как правило, имеет специализацию по переводу текстов определенной тематики.
  5. Перевод в режиме онлайн и перевод контента интернет-страниц.

Виды машинного перевода

Машинный или компьютерный перевод делится на перевод слов и словосочетаний при помощи он-лайн словарей и перевод текстов как правило не художественного характера.

Статистический машинный перевод -- это разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар. Языковые пары -- тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком -- носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединенных наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

История машинного перевода

Мысль использовать ЭВМ для перевода была высказана в 1947 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 250 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.

К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

1. MARK (в Департаменте иностранной техники ВВС США);

2. GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург).

Машинный перевод — процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы. Так же называется направление научных исследований, связанных с построением подобных систем.

Содержание

Формы организации взаимодействия ЭВМ и человека при машинном переводе

  • С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
  • С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.
  • С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи.
  • Смешанные системы (например, одновременно с пред- и постредактированием).

Автоматизированный перевод

Вместо «машинный» иногда употребляеся слово автоматический, что не влияет на смысл. Однако термин автоматизированный перевод имеет совсем другое значение — при нём программа просто помогает человеку переводить тексты.

Автоматизированный перевод предполагает такие формы взаимодействия:

  • Частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных словарей.
  • Системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё, не уложившееся в схему, отдаёт человеку.

В англоязычной терминологии также различаются термины англ. machine translation, MT (полностью автоматический перевод) и англ. machine-aided или англ. machine-assisted translation (MAT) (автоматизированный); если же надо обозначить и то, и другое, пишут M(A)T.

История машинного перевода

Мысль использовать ЭВМ для перевода была высказана в 1946 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.

К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

  • MARK (в Департаменте иностранной техники ВВС США);
  • GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет им. Герцена, Санкт-Петербург).

Качество перевода

Качество перевода зависит от тематики и стиля исходного текста. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бродящих по Интернету шуток. Из пространных примеров наиболее известен текст «Гуртовщики Мыши» (перевод компьютерной документации программой Poliglossum на основе медицинского, коммерческого и юридического словарей); из кратких — фраза «My cat has given birth to four kittens, two yellow, one white and one black», которую переводчик компании ПРОМТ превращает в «Мой кот родил четырёх котят, два жёлтых цвета, одно белое и одного афроамериканца».

Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращает «bra-ket notation» в «примечание Кети лифчика», «Lie algebra» — в «алгебру Лжи», «eccentricity vector» — в «вектор оригинальности», « Shawnee Smith» в «индеец племени шони Смит» и т. п.

Статистический машинный перевод

Статистический машинный перевод — это разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.


В XXI веке существует тенденция стабильного развития в мире цифровых технологий. Вместе с тем, нарастающая глобализация мировой экономики и укрепление международных отношений направляет все большее количество компаний, которые заинтересованы в успешном сотрудничестве с иностранными бизнесменами, фирмами и корпорациями, увеличивать профессионализм в интернациональных коммуникациях и деловом общении. Таким образом, немалая ответственность ложится на такую сферу деятельности как перевод, т. к. этот вид коммуникативного акта, подразумевающий интерпретацию смысла с одного языка на другой, несомненно, является атрибутом построения бизнеса на мировом рынке. Кроме того, политическую, культурную, социальную сферы жизни человека на уровне общения всего человечества действительно сложно представить без участия квалифицированного переводчика.

Чтобы рассмотреть взаимодействия переводчика и технических ресурсов, для начала стоит выделить два вида перевода, которые существуют на сегодняшний день:

  1. автоматизированный (machine-assisted translation (MAT)). В данном случае программа помогает переводчику осуществлять перевод. В свою очередь, автоматизированный перевод имеет определенные формы взаимодействия:

− частично автоматизированный перевод — при таком переводе переводчик использует электронные словари либо другие электронные ресурсы;

− системы с разделением труда — в таком случае компьютер настроен на то, чтобы в исходном тексте переводить только фразы, которые имеют жёстко заданные структуры (делает это таким образом, чтобы не требовались дальнейшие поправки и исправления в тексте), а всё, не включенное в структуру перевода, выдает человеку;

  1. машинныйперевод (machine translation (MT)).Такой перевод, основанный на статике, является полностью автоматическим, осуществляется без какого-либо участия редактора. Машинный перевод (МП) работает по принципу сравнения больших объемов языковых пар, он производит поиск наиболее точного перевода предложения с использованием информационных данных, которые получены из двуязычной совокупности текстов. Языковые пары — это тексты, которые содержат синтаксические единицы на одном языке и аналогичные им предложения и формулировки на другом. [1] В качестве примера для таких языковых пар служат параллельные тексты. Как следствие преимущества высоких технологий МП обладает такой характеристикой как запоминания больших отрывков, абзацев и текстов, происходит некое «самообучение» машины. Здесь же следует отметить несколько типов взаимодействия человека и ЭВМ при МП:

− предредактирование — тип редактирования, при котором переводчик подготавливает текст к обработке специализированной программой, в таком случае происходит упрощение текста за счет удаления возможных отрывков с неоднозначным прочтением, после чего осуществляется программная обработка;

− интерредактирование — тип редактирования, при котором переводчик вносит свои корректировки в процессе работы программы, тем самым решая сложные задачи перевода;

− постредактирование — тип редактирования, при котором запрограммированная машина производит обработку исходного текста, после завершения переводчик редактирует текст, переведенный машиной, исправляя ошибки и недочеты;

− смешанный — тип редактирования, при котором процесс МП может включать в себя одновременно пред- и постредактирование. [2]

Стоит отметить, что на сегодняшний день результаты работы МП далеки от совершенства, и необходима профессиональная корректировка ряда обнаруженных погрешностей в переведенном тексте. [3] Анализы готового текста на лексическую целостность показали, что вычислительные машины успешно справляются с простыми частями речи и устойчивыми выражениями, но допускают частые ошибки при переводе падежей, речевых оборотов, логико-смысловых акцентов в предложении и построении самих предложений. Это объясняется различной интерпретацией падежей на примере русского и английского языков: в русском — через окончание, в английском — через предлоги. [4] В таком случае несложная грамматическая структура китайского языка, а именно отсутствие как таковых окончаний у слов, казалось бы, должна упростить задачу МП, но порядок слов в предложении и огромное количество омонимичных единиц в языке, всё так же оставляет пробелы и недоработки в попытках создания совершенного текста с помощью только одного МП.

В таком случае можно заверить, что готовый текст, который был переведен с помощью МП, почти всегда требует дополнительных доработок. Поэтому адекватность и компетентность результатов работы с помощью электронных систем стоит оценивать не только качеством самого МП, но и, конечно, качеством дальнейшего редактирования. В данном случае уместно будет описать ещё одну классификацию, в которой рассматриваются стратегии постредактирования текста, переведенным машиной:

− цельное редактирование перевода с проверкой всех составляющих текста по исходным частям;

− использование МП только как подсказки в терминологии;

− использование МП как грамматического или лексического подстрочника с подбором синонимичных конструкций и выражений;

− чтение МП и корректировка вызывающих сомнения фрагментов с обращением к первичному тексту;

− чтение МП и исправление видимых погрешностей и ошибок без обращения к первичному тексту. [1]

В полной мере проанализировав варианты перевода текста и его редактирования, закономерной вещью будет являться рассмотрение более конкретных инструментов перевода, благодаря которым переводчик выполняет свою работу. Известные разработчики на рынке цифровых технологий не оставляют без внимания такую важную для международного общения сферу перевода. Многие корпорации, такие как Google иMicrosoft, заявили о себе как в письменном МП, так и в устном, выпустив мобильные приложения, которые позволяют переводить и воспроизводить слова, фразы, предложения и целые фрагменты, придерживаясь канонов грамматики и фонетики. [5] Ниже приведена классификация различных электронных ресурсов и информационных платформ, существующих на данный момент:

− СМП (системы машинного перевода), выполняющие полностью автоматизированный перевод;

− системы с функцией Translation Memory, которые предоставляют возможность для работы в системах автоматизированного перевода (SDL Trados, IBM Translation Manager, Atril Deja Vu X, Wordfast, Star Transit, Omega T и т. д.); [6]

− переводчики онлайн, которые осуществляют перевод текста прямо в окне браузера (Яндекс, Google);

− словари онлайн (PROMT, ABBYY Lingvo, Мультитран, БКРС (для китайского языка); [7]

− машинный перевод с контролем языка на основе мощных баз знаний (менеджер докачки файлов RegetDelux, специальная программа поиска неструктурированных текстов TextAnalyst); [8]

− услуги переводчиков в сети Internet. [9]

Подводя итог ко всему вышесказанному, стоит отметить, что уже сегодня машинный перевод в сочетании с дальнейшим редактированием текста становится достаточно конкурентно способной переводческой работой на основании стратегических направленностей и рекомендаций, разработанных специалистами на данном поприще. Нельзя не отметить постоянный, инновационный прогресс в сфере компьютерных технологий и растущее осознание необходимости их использования. Таким образом, профессиональные переводчики осваивают полезные и продуктивные плоды постоянного развития информационных систем, и эффективность от такого взаимодействия человека и машины в быстро меняющемся мире перевода будет только возрастать. Стоит также сказать, что отмеченные программы перевода, которые успешно используются переводчиками, до сих пор не могут разрешить самую сложную задачу процесса перевода: выбор контекстуально-необходимого варианта, который обусловлен многими причинами. Качество переводимого текста зависит от стиля и тематики первичного текста, а также синтаксической, грамматической и лексической родственности языков, между которыми производится перевод. Чем более формализован стиль исходного документа, тем качественнее перевод, поэтому наиболее высокие результаты МП отмечены при интерпретации текстов технического и официально-делового стилей. Такие изъяны ещё долго будут откладывать триумф технических инноваций на переводческом поприще, по этой же причине и переводчик должен обладать высокой квалификацией и профессионализмом, чтобы осуществлять перевод должным образом.

Читайте также: