Чему удовлетворяет качество компьютерного перевода авторство вопроса коломиец андрей валерьевич

Обновлено: 05.07.2024

Машинный перевод противопоставляется переводу, сделанному человеком без использования информационных технологий – «ручному» переводу.

Первые алгоритмы машинного перевода использовали перекодирование текста исходного языка ( ИЯ ) на текст языка перевода ( ПЯ ). В специальной литературе преобразование исходного текста в конечный стало называться трансфер [1].

В 1947 г. в США, после появления первых ЭВМ, была высказана идея использовать их для перевода. В 1954 г. прошла первая демонстрация возможностей машинного перевода. Несмотря на несовершенство использовавшейся системы (около 250 слов в словаре, 6 правил грамматики), эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и в СССР [2].

Формы организации взаимодействия человека и ЭВМ при машинном переводе

1. С постредактированием : исходный текст перерабатывается машиной, а человек-редактор исправляет результат. Автоматический перевод с постредактированием: включает работу с «грубым» переводом предварительно нередактированного текста, сделанным машиной, с целью привести его в соответствие с нормами языка перевода;

2. С предредактированием : человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.

Преобразование текста перед его вводом в систему перевода осуществляется таким образом, чтобы отредактированный текст на лексико-семантическом и грамматическом уровнях приближался к языку перевода или к конструкциям языка-источника, правила преобразования которых формализованы и известны используемой системе;

3. С интерредактированием : человек вмешивается в работу системы перевода, разрешая трудные случаи. Подразумевает взаимодействие человека и машины в процессе самого перевода; человек при этом разрешает трудные случаи «онлайн» (например, при переводе лексически неоднозначных единиц определяет, какую именно единицу следует употребить в каждом случае).

Смешанные системы (например, одновременно с пред- и постредактированием) [2, 3].

Автоматизированный перевод

Вместо « машинный » иногда употребляется слово « автоматический », что не влияет на смысл. Однако термин « автоматизированный перевод » имеет совсем другое значение — при нём программа просто помогает человеку переводить тексты.

Автоматизированный перевод предполагает такие формы взаимодействия:

1. Частично автоматизированный перевод : например, использование переводчиком-человеком компьютерных словарей.

2. Системы с разделением труда : компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё, не уложившееся в схему, отдаёт человеку.

В англоязычной терминологии также различаются термины machine translation , MT (полностью автоматический перевод) и machine-aided или machine-assisted translation ( MAT ) (автоматизированный); если же надо обозначить и то, и другое, пишут M(A)T .

Существуют два принципиально разных подхода к построению алгоритмов машинного перевода: основанный на правилах ( rule-based ) и статистический , или основанный на статистике ( statistical (phrase-based) ). Первый подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ в России, SYSTRAN во Франции, Linguatec в Германии и др.). Ко второму типу относится популярные переводные сервисы от Яндекс и Google [2].

Качество перевода

Современные компьютерные программы перевода достаточно совершенны, но они до сих пор не могут разрешить самую сложную задачу процесса перевода: выбор контекстуально-необходимого варианта, который в каждом тексте обусловлен многими причинами. В результате начальную эйфорию сменили более уравновешенные взгляды на возможности машинного перевода. В настоящее время результат этого вида перевода может быть использован как черновой вариант будущего текста, который будет редактировать переводчик , а также как средство, чтобы в крайней ситуации отсутствия переводчика получить общее представление о теме и содержании текста [1].

Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод.

Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее, для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.

Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных шуток [2].

Ошибки обусловлены тем, что компьютер не может думать образами и не имеет возможности оперировать реалиями разных культур и эпох так, как это способен делать человеческих мозг [4].

Лексические анализы переведенных текстов показали, что по большей части электронные переводчики адекватно переводят простые части речи, но допускают ошибки в переводе падежей, принадлежности прилагательных, речевых оборотов, построения предложения.

Недостатком некоторых переводчиков является неточность перевода слов, имеющих несколько значений. Для более адекватного перевода в перспективе можно предложить более глубокий эвристический анализ грамматического построения предложения, с улучшением качества перевода различных частей речи и их грамматических характеристик, а так же исключить конфликт словарей при переводе специализированных текстов.

Грамматический анализ текстов показывает, что электронный переводчик справляется с переводом слов во множественном и единственном числе, но имеется определенная трудность в переводе падежей и постановки глаголов в нужное число. Это объясняется различной интерпретацией падежей в русском и английском языках: в русском – через окончание, в английском – через предлоги [5].

Наряду с установленными правилами построения предложения в каждом языке существуют и свои неписаные законы, которые иногда называются красотами языка. Например, предложение на английском языке «This is my book» дословно переводится «Это есть моя книга», и формально это будет правильным, но по-русски так не говорят. В данном случае можно сказать, что предложение «написано так, будто его составил иностранец». Конечно, приведенный пример является простейшим, и возможность исключения слова «is» очень просто отражается в программе машинного перевода. Но на практике получившийся перевод похож на текст, написанный иностранцем.

Текст также может содержать слова, которые нужно понимать в контексте образа жизни людей в конкретной стране. Например, под словом «демократ» в США подразумеваются политики, выступающие за большее вмешательство государства в экономику, а в России те, кто выступает за большую свободу рынка. Это разные понятия [6].

В настоящее время сфера использования машинного перевода сводится к промышленному переводу. Он может помочь в рутинной переводческой работе, когда быстрота выполнения перевода важнее его качества. Например, он может оказаться кстати для специалиста, не владеющего тем или иным иностранным языком, на котором ему нужно прочитать интересующий его текст. Хотя машинный перевод, как правило, оказывается полным ошибок и неувязок, человек вполне может получить общее представление о содержании текста, что поможет ему решить, стоит ли заказывать более качественный перевод или попытаться отредактировать полученный. Таким образом, машинный перевод позволяет получить то, что И. С. Алексеева условно назвала « сигнальным переводом » [1].

С 1976 г. машинный перевод используется для перевода прогнозов погоды с английского языка на французский в Канаде. Система работает со скоростью 1000 слов в минуту. Каждый день машины переводят до 30000 слов, работая при этом всего полчаса в день. Успех программы объясняется тем, что в текстах метеорологических сводок используется ограниченная по тематике лексика, а также стандартные синтаксические конструкции [1].

Таким образом, результаты машинного перевода почти всегда требуют редактирования. А то, насколько адекватными можно считать результаты перевода на компьютере, определяется не только качеством системы машинного перевода, но и качеством последующего редактирования [6].

10 Смотреть ответы Добавь ответ +10 баллов

Ответы 10

1 Менеджер, Бухгалтер, Продавец, Корреспондент
2. Хранение передача обработка
3 Знание информатики, языка, счета, имени

1. Одним из основных типов информационных структур является база данных.
2. Записью реляционной базы данных является строка таблицы.
3. В реляционной базе данных связь между таблицами организована через поля, связанные по смыслу.
4. Структура записей реляционной базы данных определяется в режиме создания и редактирования базы данных.
5. Что является наименьшим поименованным элементом в базе данных? Поле.

Хранение информации во внутренней памяти( мозг человека)

Во внешней памяти (тетрадь, флешка)

Передача информации (источник информации приемник информации)

Каналы передачи: информации звуковые волны, почтовая связь, телефонные линии.

При передаче информация может искозиться.

3) Обработка информации-это действия над исходной информацией по определенным правилам с целью получения новой информации.

Варианты обработки информации:

математические вычисления, логические рассуждения, кодирование информации, сортировка информации, поиск информации, структурирования.

В животной природе также протекают информационные процессы.

1)Материальные ресурсы – чаще всего сырье, ресурсы, материалы, которые человек обрабатывает для своих потребностей. Практически все материальные ресурсы одноразовые. Выплавив из руды металл – повторно использовать ту же руду не получится.

Информационные ресурсы – документы (книги , стать , публикации и т.д) , которые находятся в информационных системах (библиотеках, архивах, банках данных и т.п.). Другими словами это информация, хранящаяся на каком-то доступном носителе.

Основное отличие информационных ресурсов от материальных – это многократное их использование и копирование. Книга не уничтожится после прочтения и её можно скопировать. Таких действий совершить с материальными ресурсами не получится.

2) основные виды национальных информационных ресурсов:

· Информация государственных (властных) структур

· Финансовая и экономическая информация

· Информация о природных ресурсах

· Информация предприятий и учреждений

3) Здесь каждый сам может ответить, но если ничего не приходит в голову,то каждый чуловек точно пользовался следующими видами:

· Библиотечными ресурсами – каждый хотя бы раз заходил в библиотеку за книгой.

· Научно-техническая информация – сюда же можно отнести инструкции для каких-либо приборов и их починки.

· Правовая информация – думаю конституцию и законы все хотя бы немного читали.

Если говорить о более объективных оценках качества перевода, то, например, в связи с развитием статистического машинного перевода, для которого вместо словарей перевода использую корпуса (или базы) параллельных текстов, была разработана специальная метрика для оценки качества перевода – BLEU. Эту метрику создали сотрудники IBM, чтобы отслеживать на больших объемах результат изменений в переводе в процессе разработки системы (как меняется перевод при добавлении новых корпусов текстов для тренировки системы, при изменении программного кода и т.д.).

Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения человеческого перевода и машинного перевода и поиска общих фрагментов. Основная идея состоит в том, что чем больше совпадений, тем лучше перевод.

Не вдаваясь в технологические тонкости, можно сказать, что данная метрика на практике объективна только для статистических или гибридных систем и для языков с неразвитой морфологической структурой, поэтому для перевода на русский эта метрика всегда показывает не такой высокий результат перевода как, например, при переводе на английский или французский. Тем не менее, метрика очень популярна среди специалистов, так как все-таки позволяет хоть как-то сравнивать разные системы или разные версии систем.

У профессионалов перевода существуют свои технологии для измерения качества машинного перевода. Например, в локализационных компаниях или в бюро перевода, применяющих машинный перевод, используется технология post-editing distance. С помощью данной технологии измеряют посимвольно, сколько изменений было сделано редактором в машинном переводе, прежде чем этот перевод был отредактирован до фактически и стилистически верного. Таким образом, тестируют, например, целесообразность использования машинного перевода в переводческих проектах или сравнивают разные системы машинного перевода, чтобы выбрать лучшую. Чем меньше пришлось редактору исправлять текст, тем лучше система. А если все переводы пришлось переписывать, значит, машинный перевод на данных текстах неэффективен или он был недостаточно настроен.

Нужно, однако, отметить, что экспертная оценка качества перевода по-прежнему пользуется бОльшим доверием, хотя с ней же связана проблема субъективности в оценке качества. МП почти всегда не идеален, поэтому требуются определенные знания и здравый смысл, чтобы оценить результат работы компьютерной программы. И там, где один специалист скажет, что перевод понятен и приемлем, для другого он будет «невозможен» с точки зрения стиля и грамматики.

Один из способов борьбы с экспертной субъективностью –привлечение большого количества экспертов (или даже просто носителей языка), т.е. использование популярного сейчас краудсорсинга. Именно такой способ оценки качества автоматического перевода, полученного с помощью разных систем, используется в конкурсе, который проводится ежегодно в рамках Семинара по статистическому машинному переводу.

Конкурс организуется и проходит под эгидой Ассоциации компьютерной лингвистики (ACL), основанной еще в 1962 году. Она ведет большую научную и прикладную деятельность, в частности, проводит ежегодные конференции для специалистов в области компьютерной лингвистики и обработки информации на естественных языках, конкурсы систем машинного перевода и выпускает с 1974 года журнал Computational Linguistics.

Конкурс машинных переводчиков организован следующим образом: организаторы выкладывают в открытый доступ корпуса параллельных текстов и программные средства для создания систем статистического машинного перевода или тренировки на этих корпусах любых других систем машинного перевода.

Принять участие в конкурсе могут все желающие, количество участников доходит полутора сотен. Обычно участвуют лаборатории различных университетов (из Англии, Германии, Швеции, Австралии и других стран), занимающиеся исследованием и разработкой статистических систем перевода в научных целях, и разработчики коммерческих систем (SYSTRAN, PROMT).

Кроме того, организаторы используют переводы известных онлайн-сервисов. Языковые пары и их количество варьируется от года к году, но обычно это перевод с английского на французский, испанский, немецкий и наоборот. Также ежегодно добавляются некоторые «редкие» языки – чешский, хинди. В 2013 году в конкурсе впервые был представлен русский язык, и сразу стал лидером по числу представленных систем. А в 2011 году был, например, устроен специальный конкурс в рамках основного конкурса для перевода с гаитянского креольского на английский.

Введение специального конкурса было связано с землетрясением 2010 года на Гаити и нашумевшей статьей двух исследователей из Стэнфордского университета и из Microsoft о создании статистической системы машинного перевода на основе имеющихся разработок фактически за несколько дней.

Как понятно из этой истории, выбор языковых пар для конкурса обусловлен в первую очередь наличием параллельных текстов, необходимых для тренировки систем машинного перевода. Поэтому в первую очередь используются тексты стенограммы заседаний и тексты документов Европарламента, доступные как раз для основных европейских языков, а также новостные тексты.

Надо сказать, что в этот период участники много общаются между собой и с организаторами по поводу исходных данных, так как, выражаясь на профессиональном сленге, они «грязные», т.е. могут содержать непереведенные сегменты, технические символы и другие особенности, которые отрицательно сказываются на качестве перевода.

В определенный момент организаторы публикуют тестовый корпус текстов для перевода. Участники конкурса должны подготовить автоматический перевод этого корпуса своими системами в течение недели и разместить на сайте организаторов.

Переводы всех участников анонимны, поэтому эксперт не знает, с помощью какой системы получен перевод. Оценка производится таким образом: эксперт видит исходное предложение, несколько автоматических переводов и человеческий перевод исходного предложения. Задача состоит в том, чтобы ранжировать (разместить в порядке от лучшего к худшему) автоматические переводы. После этого организаторы обобщают результаты оценки по всем участникам, подводят итоги и публикуют их на своем сайте.

В 2013 году организаторы, как уже было сказано, выложили данные и для русского языка, и появилась возможность участвовать в конкурсе с переводом с английского на русский. По результатам конкурса в 2013 и в 2014 году у технологии PROMT первое место для перевода с английского на русский.

Русский и немецкий, конечно, не самые сложные языки для перевода с английского, перевод на арабский сложнее, но все же получить качественный перевод на эти языки труднее, чем, например, на французский. И в русском, и в немецком развитая падежная система, много окончаний, в немецком предложении строгий порядок слов – все это создает дополнительные трудности разработчикам.

Качество машинного перевода за последнее десятилетие заметно выросло. В первую очередь это связано с развитием технологий, с доступностью больших текстовых данных для анализа и тренировки систем, а также с тем, что накопленный опыт практического применения (в коммерческих компаниях, у частных пользователей, на онлайн-сервисах) позволяет разработчикам получать ценную информацию об использовании технологии для решения разных задач и использовать этот опыт в дальнейших разработках.

Об авторе:

Юлия Епифанцева, директор по развитию бизнеса PROMT.

Окончила филфак СПбГУ. Разработчик технологий машинного перевода.

Научная деятельность и участие в конференциях в последние годы:

В рамках данного исследования был проведён анализ ошибочно переведённых фрагментов машинного перевода на материале отрывка из научно-популярного издания о деменции.Мы выделили массив ошибок, допущенных системами Google Translate и Яндекс.Переводчик, и классифицировали их по трём группам ошибок, связанных с денотативным и жанрово-стилистическим содержанием оригинала, а также с оформлением текста на языке перевода, и постарались объяснить причины их возникновения.

Ключевые слова: машинный перевод, переводческие ошибки, постредактирование, научно-популярная литература, медицинский дискурс.

Книгоиздание является одним из процессов, подлежащих возможной автоматизации в будущем. На сегодняшний день количество книг, переведённых системами машинного перевода и отредактированных далее человеком слишком мало, чтобы делать выводы об эффективности машинных переводчиков в этой области, однако и разработчики, и представители книжного рынка, и постредакторы машинного перевода позитивно относятся к тому, чтобы делегировать часть переводческих задач автоматизированным системам, тем самым осуществить переквалификацию действующих переводчиков [1, 3, 4, 5, 6].

Мы проанализировали ошибки, допущенные двумя популярными системами машинного перевода. Ошибками в переводе считаются неоправданные переводческие трансформации, нарушение логики изложения на языке перевода и несоблюдение узуса и норм переводящего языка. Для данной работы в качестве основы была выбрана классификация ошибок по Д. М. Бузаджи и соавт. [2]. В ней выделяется четыре крупные группы переводческих ошибок, но поскольку в исследуемом материале не была представлена группа, связанная с нарушениями передачи авторской оценки, было принято решение не учитывать её при демонстрации полученных результатов. Несмотря на тот факт, что в научно-популярной литературе оценочная лексика встречается гораздо чаще, чем в специализированных текстах [2, с. 60], конкретно в анализируемом отрывке изложение материала близится к объективному с нейтральным уровнем экспрессии. Авторы не говорят о себе и не выражают свою позицию по тому или иному вопросу, лишь популяризуют знание. Таким образом, мы ограничились тремя группами переводческих ошибок, а именно:

1) нарушения при передаче денотативного содержания текста;

2) нарушения при передаче стилистических характеристик оригинала;

3) нарушения нормы и узуса ПЯ.

Материалом исследования послужил отрывок из англоязычной научно-популярной книги о деменции [7]: разделы, описывающие деменцию как заболевание, её симптомы и четыре основных вида. Перевод осуществлялся системами Google Translate и Яндекс.Переводчик, которые различаются в своём подходе к данному процессу. Первая система использует нейронный машинный перевод, изредка обращаясь к статистическому подходу; вторая переводит по гибридному типу, выбирая один из вариантов статистического или нейронного перевода для каждого исходного сегмента. Обе системы постоянно обучаются за счёт пополнения учебных корпусов (как правило, это web-тексты) и активного участия пользовательского сообщества в развитии данных систем. Переведённый машинными переводчиками текст подлежал сравнению с опубликованным на русском языке переводом данного произведения [8]. Для удобства сравнения анализируемый текст был разбит на смысловые единства согласно опубликованному переводу. Каждый такой блок, содержащий заголовок, абзац или группу абзацев помещался в поле для исходного текста в интерфейсе машинных переводчиков. Выведенный в поле с переводом текст подлежал дальнейшему количественно-качественному анализу содержащихся в нём ошибок. Текст машинного перевода нами не редактировался.

Всего в переводе от Google Translate было зафиксировано 405 случаев переводческих ошибок (100 %), из которых наибольшую частотность имеет такой вид ошибок, как неточная передача информации: 139 случаев (34.3 %). Далее следуют нарушения при передаче жанрово-стилистических особенностей текста оригинала: 82 случая (20.2 %). Третье место по частотности разделяют калькирование и нарушения узуса ПЯ: по 40 случаев каждого вида (9.9 %). Общее число случаев переводческих ошибок в рамках исследованного материала от Яндекс.Переводчика составило 439 единиц (100 %). Распределение ошибок по частотности аналогично тому, что было у зарубежной системы машинного перевода. Неточная передача информации представлена наиболее часто: 143 случая (32.6 %). Вторыми по частотности являются нарушения при передаче жанрово-стилистических особенностей текста оригинала: 91 случай (20.7 %). Далее следует калькирование: 56 случаев (12.8 %).

Табличное отображение ошибок по видам внутри групп для каждой системы машинного перевода выглядит следующим образом:

Частотность ошибок, допущенных системами машинного перевода Google Translate и Яндекс.Переводчик

Читайте также: