Заменить в word русские буквы на английские на

Обновлено: 06.07.2024

Возможно, кто-то еще помнит, как писали SMS, а иногда и письма, «транслитом». Но зачем транслитерация сегодня, когда везде уже unicode? К сожалению, унаследованные приложения выходят из эксплуатации намного медленнее, чем хотелось бы. Например, и сегодня используются томографы, не допускающие кириллицу в именах пациентов. При том, что информационная система, используемая тем же отделением, прекрасно кириллицу понимает. И оператору томографа нужно не просто позвать пациента на исследование, но и правильно записать его фамилию в какие-нибудь документы. Похожие ситуации могут встретится в разных местах.

  • человек — оператор унаследованной системы смог прочесть полученный текст «по звучанию»
  • при необходимости можно было бы однозначно восстановить исходный кириллический текст
  1. использовать только буквы в узком смысле, без знаков препинания и диакритических элементов (это заодно позволит сохранить регистр)
  2. каждую исходную букву преобразовывать независимо от остальных (без сложностей вроде «в начале / в конце слова» и т.п.)
  3. замены как можно более короткие, в идеале одно-буквенные
  4. правила обратного преобразованния как можно проще, например, замены должны соответствовать условию Фано
  5. близкие по звучанию замены, в представлении «обычного человека» — на практике это некая смесь из латыни, английской, французской, немецкой и, иногда, испанской фонетики

Можно найти много готовых вариантов транслитерации кириллицы в латиницу. Но среди них не нашлось ничего, что бы удовлетворяло всем требованиям в приемлемой степени. То использует диакритические символы, как стандарты, то выбрасывает буквы (обычно «Ъ»), то предлагают необратимые (щ —> shch) или фонетически дикие (ш —> w) варианты замены, или имеют другие фатальные недостатки.

Значит, делаем свой велосипед. Собственно, нужно составить таблицу соответствия, и описать алгоритм преобразования туда и обратно.

Таблица

Начнем со всем очевидных одно-буквенных замен:

А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
A B V G D E Z I K L M N O P R S T U F

Помня о требовании возможно коротких замен, и поскольку для «С» используем «S», с чистой совестью используем для «Ц» символ «C».

Для оставшихся букв традиция (и просто нехватка символов латиницы) велит нам использовать двух-буквенные сочетания. Для простоты прямого и, в особенности, обратного преобразования, хорошо бы, чтобы сочетания образовывали символы, не используемые вне сочетаний. По условию Фано, такой особый символ должен стоять в начале сочетания, но традиция слишком сильна и букву «H» будем писать все-таки в конце сочетания. Но, если отдельно символ «H» не использовать и разрешить алгоритму преобразования «возвращаться» (на самом деле, — запоминать) к предыдущему входному символу, для постфиксных сочетаний можно считать выполненным «перевернутый» аналог условия Фано. То есть алгоритм сможет их однозначно определять.

Особый символ для согласных везде один — «H». А для гласных есть два варианта: «Y» и «J». Хотя «Y» привычнее, он также часто используется отдельно, для «Й» или для «Ы». А «J» скорее воспринимается как чисто вспомогательный символ.

Решено, используем для гласных «J». А кстати освободившийся «Y» используем для «Й».

Раз «J» теперь особый символ, использовать его для «Ж» нельзя, и остается только «ZH». Аналогично, для «Х» нельзя использовать «H», и остается только «KH».

Теперь можем записать общепринятые и выбранные сочетания и одиночные символы:

А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
A B V G D E ZH Z I Y K L M N O P R S T U F KH C CH SH EH JU JA

Распространенные и хорошие (в смысле наших требований) замены здесь кончились, и мы вступаем на зыбкую почву «отсебятины», аналогий и компромиссов.

Начнем с «Ы». «Y» уже занят (помним про обратимость), да и фонетически это плохая замена. Посмотрим на решение для «Э» (взято, между прочим, из ISO/R 9, 1968 г.). По аналогии «Ы» должно заменятся на «IH». Странно, что такой вариант нигде не встретился.

С «Ё» ситуация тоже странная. Есть понятный, но не подходящий нам вариант «E». И есть фонетический вариант «JO». Но в русском алфавите «Ё» не случайно сделана на основе «Е», а не «О». «Ё» часто чередуется с «Е», например «клён — кленовый», и никогда не чередуется с «О». Это получается еще одна эвристика — «алфавитная» (не фонетическая и не графическая) близость букв. В результате для «Ё» конструируем замену «JE».
Сделаем паузу:

А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
A B V G D E JE ZH Z I Y K L M N O P R S T U F KH C CH SH IH EH JU JA

Как хорошо было бы на этом остановится и сказать, что задача в первом приближении решена. Но остались еще три буквы, без которых никак не обойтись. Для оставшихся букв нет никаких адекватных вариантов. Знаки обычно заменяют апострофами, а буквенные замены либо просто произвольны, либо «остроумны», вроде «ь» —>«q». Для «Щ» замена без диакритических знаков обычно длиной в 3 — 4 символа, и с ней еще будут проблемы.

После долгих исканий и страданий, пришлось остановится на таком рассуждении: для букв, которым не соответствуют звуки, нельзя использовать буквы, для которых звуки есть. И нам остаются только «специальные» символы для образования сочетаний. Но по условию Фано их нельзя использовать отдельно, сочетания станут неоднозначны.

Выход — использовать сочетания специальных символов друг с другом. Это, видимо, еще немного усложнит алгоритм преобразования, но кажется возможным сохранить однозначность.

Для твердого знака (он у нас только разделительный) интуитивно кажется уместной замена «HH» (не читается, как пауза, разделение).

А для мягкого знака цепочки ассоциаций («J» —> йотированные гласные —> смягчение предыдущей согласной) + («H» —> разделение) приводят к замене «JH».

Не назовешь красивым решением, но среди гнилых яблок выбор не велик.

К сожалению, такой выбор делает невозможным использовать замену «Щ» —> «SHH». Последовательность «SHH» будет означать «СЪ», и такое сочетание встречается в русском языке (например, «съезд»). Тут снова нет симпатичных решений, и надо искать хоть как-то мотивированные. Звук «Щ» близок к смягченному «Ш», и по аналогии с мягким знаком можно это изобразить префиксным «J». Понимаю, что сейчас ссылаюсь сам на себя, что код все равно длинны 3 и не стандартный. Но, как говорится, «других писателей у нас для вас нЭт».

В результате:

А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
A B V G D E JE ZH Z I Y K L M N O P R S T U F KH C CH SH JSH HH IH JH EH JU JA

Алгоритм


Преобразование из кириллицы в латиницу тривиально. На регистр не обращаем внимания для краткости.
SHirokaja ehlektrifikacija juzhnihkh guberniy dast mojshnihy tolchok podhhjemu seljhskogo khozjaystva.
Shheshjh zhe ejshje ehtikh mjagkikh francuzskikh bulok da vihpey chaju.

Выглядит не очень, но основное назначение этого варианта транслитерации все-таки ФИО:
Aleksandr Ivanovich Lebedjh
Georgiy Konstantinovich ZHukov
  • Поскольку читаем мы слева направо, первым дело обращаем внимание на символ «J». За ним обязательно должен идти один из пяти символов: «E», «H», «U», «A» или «S» (за «S» должен в этом случае обязательно быть еще «H»), и получается то, что в таблице для двух-трех буквенных сочетаний.
  • Если «J» нет, смотрим, не идет ли следом за символом буква «H». Тут самый тяжелый для внимания момент: в этот случай не должен попасть вариант, когда третьим символом снова идет «H» (это код «HH»). То есть видеть и анализировать надо три символа подряд. Вот где нарушение условия Фано аукнулось (хорошо, что один раз).
  • Если ни «J», ни одиночного «H» поблизости от символа не обнаружилось, смело заменяем его по таблице как отдельную букву.

Казалось бы, простая и давно решенная задача, а какой простор для творчества и обсуждений.

Если серьезно, получился рабочий алгоритм обратимой транслитерации всех букв русской кириллицы в буквы латиницы. При этом результат, со скидкой на жесткость требований, приемлемо читаем. Можно использовать для интеграции с унаследованными системами и библиотеками, для генерации идентификаторов.

Надеюсь, кому-нибудь решение покажется полезным, а путь к нему — занятным.

Дополнение

    В результате транслитерации должны получаться только буквы основной латиницы

Транслитерация — точная передача знаков одной письменности знаками другой письменности.
Не путать с фонетической транскрипцией — передача звучания поощряется, но не гарантирована.
Самый низкий приоритет имеют соображения графического сходства символов. Например передача буквы ха как икс — фонетически не приемлема.

  1. одиночные символы
  2. некий префикс и следующий за ним базовый символ
  3. базовый символ и следующий за ним некий постфикс
  4. базовый символ и c префиксом и с постфиксом

Для «легкой обратимости» кодов введем такое условие:

никакой код не должен начинаться с постфикса и не должен заканчиваться префиксом.

Это моё обобщение префиксного кода.
При соблюдении такого условия можно утверждать, что в любом фрагменте результирующей последовательности не будет длинных «ложных кодов». То есть понятно, что можно отрезать префикс или постфикс, и оставшийся базовый символ совпадет с одиночным.
Этого не избежать и это придется помнить. Но не случится такого, что кусочек составного года считается вместе с соседним одиночным символом как незапланированный составной код.
Например, пусть мы используем код «S», код «SH» и код «HH» (нарушает условие, начинается с постфикса). Тогда в последовательности «SHH» (третий и первый коды) можно выделить фрагмент «SH» (соответствует второму коду).
Для префиксов нарушение условия «легкой обратимости» не так неприятно (разница потому, разбор идет слева направо). Но тоже затрудняет восприятие «на глаз» — при беглом просмотре мы считываем слово целиком, а не последовательно, и можем «зацепиться» за случайное сочетание.
Частным следствием введенного условия является запрет на использование префикса или постфикса как одиночных символов.

Для кириллицы и латиницы постфикс — это без вариантов «H».
Префикс бывает «Y» или «J». Если использовать префикс «Y», его нельзя будет применять для передачи «Й» или «Ы». То есть для двух букв (а «Й» довольно частая) придется придумать не стандартные, далекие от фонетики, и скорее всего длинные коды.
С «J» проблем нет. Отдельно этот символ применять и не хотелось.


I. Выберем отправной стандарт.
Самый фонетически верный, конечно, BGN. Но BGN принципиально (даже нарочито) не обратимый.
Самый близкий к базовой латинице и к обратимости, на мой взгляд, «ГОСТ 16876-71 / таблица 2», его и выберем. Спросите, почему не актуальный сейчас «ГОСТ 7.79-2000 / система Б». В основном за «Х» --> «X» и «Й» --> «J». Ну и сегодня актуальный — а завтра, как предыдущий ГОСТ.

А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
A B V G D E JO ZH Z I JJ K L M N O P R S T U F KH C CH SH SHH Y EH JU JA

Схема не идеальна в плане наших требований. Придется менять.
II. Первым бросается в глаза «JJ». Почему это плохо, можно посмотреть в «теоретическом» спойлере. Следуем правилу «в любой непонятной ситуации смотри на BGN». То есть «Й» --> «Y».
III. Теперь осталась без кода «Ы». BGN не помогает. Есть фонетическая аналогия в парах «И-Ы» и «Е-Э». Для получения кода буквы «Э» стандарт добавляет к коду «Е» постфикс. Поступим также: «Ы» --> «IH».
IV. Остались не-буквенные замены для «Ь» и «Ъ». Чтобы не разрушить фонетику, можем использовать только префиксы и постфиксы.
V. Заметим, что никто не запрещал (в «теоретическом» спойлере) использовать постфикс в качестве базового символа в сочетаниях с префиксом (как минимум), и наоборот. То есть у нас есть коды «JH», «JHH» и «JJH».
VI. Осталось распределить это богатство. Более частому «Ь» — самый короткий код: «Ь» --> «JH».
VII. У «Ъ» нет звука, «Н» легче не озвучивать при чтении. Так что выберем из оставшегося код, где больше «Н»: «Ъ» --> «JHH».

Получилось:

А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
A B V G D E JO ZH Z I Y K L M N O P R S T U F KH C CH SH SHH JHH IH JH EH JU JA

Код «SHH» единственный использует постфикс длины 2. Но общая длина кода всего 3, буква редкая. Обратимость не нарушается (и даже «легкая обратимость»).
Больше ничего в стандарте трогать нет необходимости.

Код приведен только для экспериментов и наглядного описания алгоритма обратного преобразования.

Для промышленных нужд транслитерации есть соответствующие решения (хотя готового решения по требованиям 1 и 2 нет). Из промышленных стандартов транслитерация входит в Unicode Common Locale Data Repository Project (CLDR).
Есть очень мощная реализация в том числе CLDR: International Components for Unicode.
Конкретно Java-версия ICU: ICU4J.
Там есть фреймворк для описания и выполнения транслитерации (и много чего еще).
Для российской кириллицы там есть готовые реализации:
1. ISO 9. Обратимая, но с диакритами.
2. BGN. Без диакритов, но с пунктуационными знаками и необратимая.
Есть «неопределенный план» добавить ГОСТ.
Если будет время и силы разобраться, сделаю и выложу реализацию своей схемы средствами ICU4J.

Благодаря конструктивной критике в комментариях, решение изменилось. Моё понимание проблемы стало глубже. Задумался о «взрослой» реализации.
Всем спасибо! Хабр делает вещи лучше.

Функция Определять язык автоматически в приложениях Word и Outlook для Windows определяет язык вводимого текста и автоматически включает для него средства проверки правописания. Если этот язык не установлен, необходимо скачать бесплатный языковой пакет. См. статью Language Accessory Pack для Office.

Автоматическое определение языка

В версиях 2010, 2013 и 2016 приложений Word и Outlook

На вкладке Рецензирование в группе Язык нажмите кнопку Язык.

Выберите пункт Задать язык проверки правописания.

В диалоговом окне Язык установите флажок Определять язык автоматически.

Обратите внимание на языки, которые указаны над двойной чертой в списке Пометить выделенный текст как. Office может автоматически определять только их. Для автоматического определения языков, которые не указаны над двойной чертой, их необходимо активировать в качестве языков редактирования (включить для них специальные параметры).

В Word 2007

На вкладке Рецензирование в группе Правописание нажмите кнопку Выбрать язык .

Установите флажок Определять язык автоматически.

Обратите внимание на языки, которые указаны над двойной чертой в списке Пометить выделенный текст как. Word может автоматически определять только их. Для автоматического определения языков, которые не указаны над двойной чертой, их необходимо активировать в качестве языков редактирования (включить для них специальные параметры).

В Outlook 2007

Выберите пункт Выбрать язык .

Установите флажок Определять язык автоматически.

Обратите внимание на языки, которые указаны над двойной чертой в списке Пометить выделенный текст как. Outlook может автоматически определять только их. Для автоматического определения языков, которые не указаны над двойной чертой, их необходимо активировать в качестве языков редактирования (включить для них специальные параметры).

Для правильной работы функции автоматического определения языка требуется хотя бы одно предложение. Если фразы слишком короткие, может понадобиться ввести несколько предложений, иначе у приложения Word будет недостаточно контекста для определения языка и выбора нужного словаря.

Одинаковое написание некоторых слов в разных языках (например, centre в английском (Соединенное Королевство) и французском (Франция)) может привести к неправильному определению языка текста. Чтобы устранить эту проблему, введите еще несколько слов на нужном языке или снимите флажок Определять язык автоматически.

Регистр выделенного текста в документе можно изменить, нажав кнопку Изменить регистр на вкладке Главная.

Примечание: Сведения о правилах автоматического написания прописными буквами см. в статье Настройка автозамены: написание прописными буквами, правописание и символы.

Изменение регистра

Чтобы изменить регистр выделенного текста в документе:

Выделите текст, регистр которого нужно изменить.

замещающий текст

Перейдите на главная > изменить .

Выполните одно из указанных ниже действий.

Чтобы сделать первую букву приложения прописной, а остальные оставить строчными, выберите пункт Как в предложениях.

Чтобы сделать все буквы строчными, выберите пункт все строчные.

Чтобы сделать все буквы прописными, выберите пункт ВСЕ ПРОПИСНЫЕ.

Чтобы сделать первую букву в каждом слове прописной, а остальные – строчными, выберите пункт Начинать С Прописных.

Чтобы изменить регистр на противоположный (например, переключиться из режима Начинать С Прописных в режим нАЧИНАТЬ сО сТРОЧНЫХ), выберите пункт иЗМЕНИТЬ РЕГИСТР.

Чтобы применить к тексту написание с малых прописных букв, выделите текст, а затем на вкладке Главная в группе Шрифт щелкните стрелку в правом нижнем углу. В диалоговом окне Шрифт в разделе Видоизменение установите флажок малые прописные.

Чтобы отменить изменение дела, нажмите CTRL+Z.

Чтобы использовать сочетания клавиш для изменения регистра, верхнего и верхнего регистра в каждом слове, выберем текст и нажимаем клавиши SHIFT+F3, пока не будет применен нужный регистр.

См. также

Изменение регистра

Чтобы изменить регистр выделенного текста в документе:

Выделите текст, регистр которого нужно изменить.

замещающий текст

Перейдите на главная > изменить .

Выполните одно из указанных ниже действий.

Чтобы сделать первую букву приложения прописной, а остальные оставить строчными, выберите пункт Как в предложениях.

Чтобы сделать все буквы строчными, выберите пункт все строчные.

Чтобы сделать все буквы прописными, выберите пункт ВСЕ ПРОПИСНЫЕ.

Чтобы сделать первую букву в каждом слове прописной, а остальные – строчными, выберите пункт Начинать С Прописных.

Чтобы изменить регистр на противоположный (например, переключиться из режима Начинать С Прописных в режим нАЧИНАТЬ сО сТРОЧНЫХ), выберите пункт иЗМЕНИТЬ РЕГИСТР.

Чтобы применить к тексту малые буквы, вы выберите текст, а затем в меню Формат выберите Шрифт ,а затем в диалоговом окне Шрифт в области Эффекты выберите поле Малые буквы.

Small Caps shortcut key: ⌘ +SHIFT+K

Чтобы отменить изменение дела, нажмите ⌘ +Z.

Чтобы использовать сочетания клавиш для изменения регистра, верхнего регистра и регистра каждого слова, выберем текст и нажимаем клавиши FN+SHIFT+F3, пока не будет применен нужный стиль.

См. также

PowerPoint в Интернете поддерживает изменение досье. См. процедуру ниже.

Word в Интернете не поддерживает изменение дела. Откройте документ в настольном приложении и измените его досье. Кроме того, вы можете вручную изменить casing текста в Word в Интернете.

Select the text you want to change.

Перейдите на главная > Дополнительные параметры шрифта > Изменение досье.

Замена русский букв на английские в антиплагиате – это лишь один из способов повышения уникальности текста. Можем смело утверждать, что существует множество таких средств и методов. Для каждого найдется свой, наиболее подходящий по возможностям и времени, способ выиграть заветные проценты оригинальности. Сегодня мы познакомимся поближе с одним из самых распространенных, но неоднозначных приемов поднятия уровеня оригинальности - замена русских букв на латинские.

Разберемся, действительно ли это работает, оправдывает ли себя замена русских букв на английские. Сможем ли мы в качестве эксперимента повысить оригинальность текста. Поехали!

Замена русских букв на английские - как это сделать

Наверно, многие слышали о том, что случайная замена русских букв на английские часто мешает при введении пароля или кода. Видимо, отсюда выработалось твердое убеждение, что любая программа не способна совладать с такой ошибкой и решает, что код написан неправильно.

Для людей, пытающихся повысить уровень оригинальности, этот метод может казаться «манной небесной». Разберем, насколько это легкий способ и как выполнить автозамену.

Для этого нам понадобиться открыть WORD и найти на верхней панельке, в уголке, слово «заменить». Кликнуть на нее и откроется окошко, в котором мы можем русскую букву поменять на идентичную английскую.

замена русских букв на английские в антиплагиате

То же самое получится, если воспользоваться горячими клавишами (CRTL + H).

Чтобы заменить данную букву в каждом слове по всему тексту, достаточно нажать «заменить все».

Замена русских букв на английские в антиплагиате - работает ли данный способ

Можете убедиться сами по представленным скриншотам.

Во-первых, никакого повышения уникальности текста замена не принесла.

Во-вторых, она только вызвала подозрение к нашей работе, обозначив ее как «попытку обхода». Стоит ли данная махинация свеч? Однозначно, нет! Ведь к тому же существуют легальные обходы системы антиплагиата, которые не вызовут больших затруднений.

Поэтому мы не советуем Вам такой метод, как замена русских букв на английские в антиплагиате.

антиплагиат

Таким образом, что вы получите по итогу? Практически каждое слово будет подчеркнуто красной линией. Что выглядит некрасиво и подозрительно для любого постороннего человека, особенно для преподавателя, который сразу же поймет махинацию.

подозрительный документ в антиплагиате

красное подчеркивание

Работающие способы повышения антиплагиата

Мы хотим помочь Вам и предоставляем альтернативные методы, или работающие способы повышения антиплагиата, которые позволяют в достаточно короткий срок повысить оригинальность текста.

Метод повышения уникальности 1

Метод поднятия антиплагиата 2

В топ-3 лучших методов поднятия антиплагиата мы включили метод перефразирования текста. Данный метод хорош тем, что он абсолютно творческий и предполагает абсолютную оригинальность текста. По сути это есть работа рерайтера, поэтому Вы можете провести работу самостоятельно, либо же обратиться на биржу рерайтинга. Да, на это уйдет достаточно большое количество времени или сумма денег. Зато Вы сможете собой гордиться. Необходимо научиться лишь подбирать синонимы, переставлять слова в разном порядке, где-то добавлять или урезать в предложениях. Если в Вас горит творческий огонь, то метод для Вас подходящий. Если нет, то переходим к другому.

Метод повышения процента оригинальности 3

Третьим методом повышения антиплагиата является метод Шингла. Он позволяет украсить ваш текст, но увеличивает объем. Дело в том, что Вам придется добавлять новое слово через каждые два. Поэтому, если объем работы уже близится к границе дозволенного, то лучше отказаться. В тройку лучших данный способ вошел из-за несложности процесса, доступного каждому.

Как быстро поднять уникальность без замены букв

Если низкий процент оригинальности текста обнаружился почти перед сдачей работы, то у Вас наверняка возник вопрос: как быстро поднять уникальность без замены букв.

Найден самый быстрый способ для повышения уровня оригинальности. Вам необходимо зайти на сайт Киллер-антиплагиат.ру, где Вам сразу же предложат онлайн-помощь, если у Вас появится вопрос. Если же у Вас не возникло никаких вопросов и трудностей, а дедлайн горит, то скорее начинайте повышать уникальность текста. Программа разработана для самостоятельного пользования клиента. Вы сможете повысить оригинальность текста до 90-95% за одну минуту. И без предоплаты. Как это работает?

как быстро поднять уникальность

Вы загружаете документ. Отправляете файл вместе со своими данными, указывая почту. Программа автоматически повышает уникальность – и вуаля! Через минуту текст уже у Вас на почте. Удобно? Быстро? И не только! Это еще и эффективно. В отличие от рерайтинга, выполненного на заказ, Вам не придется тратить время на прочтение всего текста заново, чтобы быть в курсе новых деталей.

антиплагиат киллер

Таким образом, сегодня мы доказали, что существуют лжеспособы, которые не помогают, а даже вредят повышению процентов оригинальности. Замена русских букв на английские в антиплагиате не действует. Однако существуют другие полезные методы. Выбирайте для себя наиболее подходящий. А мы желаем Вам удачи и успехов в работе.

Читайте также: