Finereader не распознает транскрипцию

Обновлено: 04.07.2024

Вы можете сохранить настройки пользовательских языков и эталонов или загрузить настройки, которые были ранее сохранены. Для выполнения сохранения файлов эталонов и языков нужно кликнуть на Сохранить в файл… Далее указать наименование файла и кликните Сохранить. Для выполнения загрузки файлов эталонов и языков нужно кликнуть на загружать из файла… В открывшемся окне нужно выбрать документ формата FBT и кликните Открыть."

Верно установленные настройки распознавания помогут получить качественный документ, подходящий для последующего редактирования. Выбор пар-ров находится в зависимости от сложности и объема оригинала документа, а также от его применения.

Избрать необходимые настройки у вас есть возможность на закладке Распознавать диалогового окна Опции. Распознавание страничек, добавленных в файн ридер, работает в автоматическом режиме с текущими параметрами программы. У вас есть возможность выполнить отключение автоматического анализа и распознавания добавленных графических файлов на закладке Сканировать/Открыть диалогового окна Опции.

abbyy finereader скачать: Режим распознавания

В файн ридер можно выбрать либо Тщательное распознавание, либо Быстрое распознавание.

Первый режим пригоден для распознавания любых документов, включая таблицы с цветными ячейками и таблицы без линий сетки. Этот режим занимает большое количество времени.

Второй же режим используется для того чтобы обрабатывать большие объемы документов с хорошим качеством печати и простым оформлением.

Файн ридер: Распознавание табличек

Вы можете выбрать требуемый для данного файла метод распознавания табличек.

Искать таблички с однозначно заданными разделителями. Данную опцию нужно включать, дабы в виде таблицы были распознаны лишь таблицы, которые имеют черные разделители.

Во всякой ячейке таблички не больше одной строчки текста. Данную опцию нужно включать, дабы в каждую ячейку таблицы в момент распознавания помещалось не более одной строки текста. В противном случае ячейки таблички обычно содержат несколько текстовых строк, другими словами они являются многострочными.

Есть девятый ABBYY FineReader. Есть Word-2007 английский. Всё установлено под WIN XP русский . Есть несколько более-менее качественно отсканированных книг в форматах pdf и в djvu. Языков в книгах два и в больших количествах - русский и иврит (ну, живу я здесь..)Открыватся они, распознаются и сохраняются в формат pdf без явных проблем. Иврит не распознаётся, но он и не должен. Сложности начинаются позже, когда я пытаюсь сделать из нх документ Word. Документ-то получается, но вместо всего иврита получаются не какие-то там "нераспознанные символы", а абракадабра на кириллице. С преобразованием документа в формат html те же грабли. Мне крайне желаемо получить эти книги в редактируемых форматах для русского языка . Вопрос - ошибки появляются в результате моих личных глупостей и незнания матчасти? Или подобное преобразование не относится к элементарно простым?

Распознаётся текст грамотно. Русский распознаётся, иврит не распознаётся и остаётся картинками.. Сохраняется в файл PDF на отлично. Далее я этот файл пытаюсь конвертировать в формат ворда, что мне должно дать русский редактируемый распознанный текст и иврит в виде картинок. С русским всё отлично - но вместо картинок ивритовских слов получаются какие-то куски слов на русском!

Я катил на сабж - но попробовал парочку других конверторов PDF=Doc. Получился набор сбоев - местами иврит вышел именно картинкой, местами набором русскошрифтового абсурда, с русским изначальным всё хорошо. При этом работать с получившимся файлом на 120 страниц невозможно - ворд грузит трёхгигагерцный пень полностью и еле шевелится, оперативки ему более чем много. А это для меня критично, с книжками работать надо.

Есть еще один момент, который здесь надо учесть.
У FineReader есть дурная привычка распознавать символы одного языка, как символы другого языка и, притом, делать это со стопроцентной уверенностью. Тогда не спасает даже упомянутая установка "Заместить неуверенно распознанные символы их изображениями".

Так что, если и в PDF, сделанном по совету Goul, все равно пойдет мусор, то придется вручную размечать проблемные места с ивритом, как картинки.
Геморрой, конечно, но что поделаешь .

Распознаю книгу из djvu, сохраняю как doc (либо в docx). Вот ту начинаются проблемы. 2007 офис видит только 4 страницы, хотя пишет, что в документе 12к слов. 2003 офис открывает документ нормально.
Причем если сохранять в pdf, то сохраняются все страницы.

Народ напишите утилиту батч-анализа - количество-блоков на каждой из страницы в пакете + количество ошибок и неуверенно-распознанных символов. Идеально еще добавить возможность пакетно удалять блоки из страниц по размеру, номеру и т.п. Это бы столько времени могло сэкономить.


После короткого рассказа о том, как устроен ABBYY FineReader (aka «теоретическая часть»), самое время перейти к применению полученных знаний. И да, котиков под катом нет: всё очень серьёзно.

Как пользователю поучаствовать в обработке документа

Чтобы не изобретать велосипед, начну с простой и понятной схемы из Справки (см. рисунок справа).

Теперь, зная список всех операций, посмотрим на примерах – что может пойти не по плану и как с этим бороться.

Хорошо распознаются только хорошие изображения

А что делать, когда изображения есть, но не очень хорошие? Улучшить прямо в FineReader всё что можно, а, если улучшить нельзя, — попытаться получить изображение заново, устранив проблему. Поскольку тема очень обширная, то при должном интересе будет отдельный пост про то, как подружиться с автоматическими и ручными инструментами обработки изображений прямо в FineReader. Пока же ограничусь замечанием, что изображение будет обработано лучше, если оно:

  • (после сканирования) не имеет выраженных геометрических искажений — перекоса или заметного изгиба страниц толстой книги у корешка двухстраничного разворота,
  • (после фотографирования, в дополнение к предыдущему) не имеет ещё и нелинейных геометрических искажений («подушка», «трапеция»), имеет равномерную фокусировку (а желательно и яркость) по всей площади, не имеет шумов от недостаточной освещённости, не имеет выраженной засветки от вспышки (особенно на глянцевой бумаге).

Этап настройки документа/проекта


Можно и нужно сразу указать язык текста, параметры предобработки изображений, некоторые параметры анализа и распознавания. Вот скриншот одной из вкладок диалога настроек.

Эти и прочие настройки подробно описаны в Справке

Этап анализа

Назначение областей разных типов

В пользовательском интерфейсе FineReader доступны области нескольких типов, для них есть разные варианты скрываемой панели свойств (внизу окна «Изображение») и контекстного меню (по щелчку правой кнопкой мыши):

    «Зона распознавания» (по умолчанию серая рамка) — такое название использовано в пользовательском интерфейсе, на мой взгляд правильнее было бы назвать «область для автоматического анализа». Назначение такой области – указать, где на странице вообще нужно искать что-то полезное. Поэтому в результате последующего анализа или анализа+распознавания в пределах каждой «зоны распознавания» может найтись ноль и более областей других типов. Особенно полезны зоны распознавания бывают в шаблонах блоков (подробнее о них в Справке).

Примеры правильно нарисованных зон распознавания


Реальный пример из проекта оцифровки Толстого — часть страниц имеет нумерацию строк (пронумерованы строки с номерами, кратными 10), не нужную в результате и затрудняющую вычитку/правку текста, если автоматический анализ включил эти номера в текстовую область колонки. Если страницы были почти одинаково выровнены на сканере или качественно обрезаны после сканирования, то перед анализом к нужной группе страниц можно применить шаблон блоков, где область (или области) распознавания просто не содержит не нужных нам частей страницы:

Помните, что в отличие от текстовой области область распознавания может превратиться в области разных типов, что бывало нужно и в этом проекте.

Эти параметры задаются на блок, так что выделять текст разного направления или разной инверсности в один блок – другая плохая идея.

В европейских языках в нормальной ориентации текста строки читаются сверху вниз (в блоке с повёрнутым текстом – от логического верха в сторону логического низа), но в случае иероглифических языков всё гораздо веселее – даже на одной странице одни области могут содержать текст в горизонтальной ориентации, а другие – в колоночной, причём иероглифы имеют одинаковую ориентацию во всех этих областях (если тема дальневосточных и ближневосточных языков интересна – просите отдельный пост про тамошние навороты).

Важные соображения

  • Распознавание и синтез видят только те фрагменты текста, которые оказались выделены в текстовые области или текстовые ячейки таблиц. Если кусок текста не выделен в блоки – распознаваться он не будет.
  • Аналогично и с картинками — если часть картинки оказалась вне области или одна целостная картинка оказалась разделена на несколько областей – скорее всего, в результате обработки будут проблемы.
  • Языки распознавания в FineReader задаются не для галочки – они влияют на очень многие механизмы, начиная уже с анализа: например, иероглифический (китайский, японский, корейский языки) или арабский текст имеют много особенностей, которые учитываются не всегда, а только при выборе соответствующих языков распознавания.

Особенности взаимодействия близкорасположенных или пересекающихся областей

    Пересечение текстовых и табличных блоков друг с другом, если есть символы или их части, оказавшиеся в более чем одном блоке – практически всегда ошибка, такие результаты анализа нужно исправлять, тем более что обычно это делается в несколько движений мыши.

Пересечение картиночных областей друг с другом – практически всегда ошибка, хотя и менее критичная для обработки именно текста. Такие случаи тоже желательно исправлять.



Примеры правильного использования картинок в таблице


Обратите внимание, что с помощью галочки в панели свойств области (внизу) ячейки из левой колонки таблицы сделаны картинками.

Текстовая область на фоне «картиночной» области — тоже важный инструмент: на фоне обычных картиночных областей могут находиться подписи к ним, на «фоновых» картиночных областях может располагаться и основной («колоночный») текст документа, а также таблицы.

Примеры правильного использования текстовых областей на фоне картинок



Маленькие хитрости для облегчения работы с блоками

Описанные соглашения отражены в поведении редактора блоков. Например, если вы рисуете новый или растягиваете имеющийся блок так, что он полностью или почти полностью перекрывает другие блоки — эти другие блоки автоматически удаляются.

Логичность/нелогичность выделения областей

Тут самое время подумать — для каких целей и какого формата документ хочется получить в результате обработки. Вот некоторые соображения, влияющие на количество и характер исправлений разметки блоков в сложных случаях:

Вариант 1: нам нужен только текст (возможно, мы этого не понимаем, но дело обстоит именно так)
  • нет «мусорных» областей, где в качестве текста или таблиц распознаются (мусором) элементы картинок или элементов оформления страницы.
  • области логично выделяют строки, не допуская попадания символов в более чем одну область и неоправданного дробления строк на более чем одну область.
  • то, что с точки зрения человека является таблицами в оригинале, должно быть выделено в табличные области. Это влияет как на качество распознавания (например, базовые линии строк в разных ячейках могут быть не выровнены по вертикали), так и на удобство поиска и копирования фрагментов текста в выходном документе.

Если отдельные картинки не должны копироваться из выходного PDF-документа – то такие области можно из документа исключить вовсе (не создавать новые и не оставлять найденные автоматикой, как минимум – удалять нелогично найденные картинки, а если не лень – то и все).

Я надеюсь шире и глубже раскрыть тему «разумности» картинок в статье про сохранение документов — если такая будет интересна читателям данного материала.

Вариант 2: нужно всё и сразу

Если документ, включающий не одно лишь текстовое содержимое (в одну или две колонки), предполагается сохранить сразу как электронную книгу в форматах FB2/e-pub или в любой промежуточный редактируемый формат (Вордовый или HTML) для дальнейшего редактирования и производства электронной книги, то осмысленное выделение таблиц и картинок становится особенно важно.
Среди прочего нужно определиться с тем, что делать с группами рядом расположенных картинок, и что делать с подписями к картинкам, как рядом стоящими, так и накладывающимися на картинки. Подробнее разберём эту тему в «Практикуме», на реальных примерах.


Здравствуйте. Сегодня я расскажу о том, как с помощью программы Abbyy FineReader распознать текст c изображения, которое вы могли получить в результате сканирования. Ваш сканированный текст будет полностью в документе Microsoft Word и этот распознанный текст можно будет редактировать! Распознать текст при помощи Abbyy Finereader может пригодиться тем, кто учится, работает с текстами и переводами. Программа, к сожалению, является платной. Как-то доводилось попробовать одну из бесплатных вариантов аналогичных программ, но весьма хорошо отсканированный текст распознается просто ужасно. А распознать текст в Abbyy FineReader получается весьма качественно! Сейчас я покажу как пользоваться программой Abbyy FineReader для быстрого распознавания текста с изображения.

ABBYY FineReader имеет пробную версию на 30 дней с возможностью распознавания до 100 страниц и сохранением не более 3-х страниц из документа. Т.е. в течение этого времени вы можете увидеть возможности программы и принять взвешенное решение — нужна ли она вам, стоит ли её покупать или нет.

Как установить Abbyy FineReader!

Перед тем как пользоваться Abbyy Finereader её необходимо установить. Рассмотрим процесс установки этой программы.

Для начала выбираем язык программы. Нажимаем «ОК».


abbyy finereader как распознать текст

Принимаем условия лицензионного соглашения (при желании можно прочесть лицензионный договор, если вам интересно о чём там речь). Нажимаем «Далее».


abbyy finereader как распознать текст

Далее вы должны выбрать режим установки. При обычном режиме программа не спросит вас и установит то, что в программе задано по умолчанию, а именно — все компоненты: саму программу Abbyy Finereader для распознавания текста, компонент для программ Microsoft Office и компонент для проводника Windows (позволяющий быстро распознавать изображения, не открывая отдельно программу). Советую отметить выборочную установку чтобы настроить так, как вам нужно. Тем более это не займет и 15 минут :) Внизу указана папка куда установится программа. Желательно оставить выбор по умолчанию, чтобы потом не было никаких проблем при использовании программы. Нажимаем «Далее».


abbyy finereader как распознать текст

Компоненты программы. Это окно как раз появится в случае, если вы выберите тип установки «Выборочная». Компоненты — это что-то вроде вспомогательных приложений к программе. Первый компонент «Интеграция с программами Microsoft Office и Проводником Windows». Этот компонент будет отображен в меню Microsoft Office и если вы щелкните по изображению у себя на компьютере правой кнопкой мыши, то там будет пункт с этой программой. Вот так будет выглядеть ваше меню в Microsoft Office после добавления этого компонента.


abbyy finereader как распознать текст

А вот что будет если вы щелкните правой кнопкой мыши по изображению:


abbyy finereader как распознать текст

Т.е. появится меню, в котором вы можете сделать быстрое распознавание текста с отправкой результатов в Word, Excel или PDF.

Второй компонент позволит вам распознать текст с экрана компьютера. Это значит, что вы сможете сделать скриншот и также распознать текст. Если вы не хотите устанавливать один из этих компонентов, или вовсе не хотите устанавливать оба, то нужно нажать на стрелочку вниз и выбрать «Данный компонент будет недоступен». Тогда компонент установлен не будет. Я оставила оба.


abbyy finereader как распознать текст


abbyy finereader как распознать текст

Далее 4 пункта. 1-ый означает то, что сведения о том, как вы пользуетесь программой Abbyy Finereader будут переданы разработчику. Данный пункт советую не отмечать, чтобы программа лишний раз не выходила в интернет ради отправки сведений о работе с ней. Тем более, мало ли какие ещё сведения будут отправляться :) 2-ой пункт создает ярлык программы на рабочем столе. 3-ий означает, что программа будет запускаться при включении компьютера, а 4-ый будет проверять обновления программы. Я оставляю только второй и напротив него оставляю галочку. Закрываем все приложения Microsoft Office, потому что так требует установщик и нажимаем «Установить».


abbyy finereader как распознать текст

Нужно подождать пару минут чтобы программа загрузилась и нажать «Далее».


abbyy finereader как распознать текст

Все, установка завершена! Нажимаем «Готово».


abbyy finereader как распознать текст

Как при помощи Abbyy Finereader распознать текст c отсканированного или любого другого изображения?

Рассмотрим, как пользоваться программой. К примеру, у вас есть отсканированный текст. Теперь, чтобы распознать текст в Abbyy FineReader, открываем программу. Нажимаем «Открыть».


abbyy finereader как распознать текст

Выбираем нужное нам изображение и нажимаем открыть.


abbyy finereader как распознать текст

Когда вы откроете нужный документ, Abbyy Finereader начнёт распознавать текст. Чем больше документ, тем дольше будет длиться распознавание. Распознавание одной страницы может занять несколько секунд.

После того как текст распознается вам останется только сохранить результат в документ Microsoft Word, чтобы затем вы могли отредактировать в нём что угодно. Для этого нажмите кнопку «Сохранить» на верхней панели инструментов, после чего выберите в какую папку будет сохранён документ Word и под каким названием.


abbyy finereader как распознать текст

Если у вас подключён к компьютеру сканер, то вы можете запустить сканирование прямо из программы, и после чего отсканированный документ сразу будет распознаваться. Для этого на верхней панели инструментов нажмите кнопку «Сканировать». Далее действия будут зависеть от программы-драйвера для вашего принтера. Вам нужно только следовать указаниям мастера сканирования.


abbyy finereader как распознать текст

Как видите, все очень просто и быстро. Теперь вы знаете, как пользоваться Abbyy FineReader для распознавания текста с изображений! Надеюсь, что эта информация очень поможет многим:) Удачи!

Сделай репост – выиграй ноутбук!

Каждый месяц 1 числа iBook.pro разыгрывает подарки.

  • Нажми на одну из кнопок соц. сетей
  • Получи персональный купон
  • Выиграй ноутбук LENOVO или HP

3 комментария

Автор: Игорь Колпаков

Для студентов очень полезно на мой взгляд

Автор: Феликс Демьянченко

В студенчестве пользовался данной прогой, очень удобно! Лучше чем перепечатывать нужный текст самому с книги, журнала. :)

Автор: Сергей Журавлёв

Удобная программа. Пользуюсь на Windows 10 старенькой версией 7 Home Edition. Во времена царя Гороха покупал вместе со сканером. До сих пор совместима и работает.

Читайте также: