Существует ли возможность настройки параметров распознавания документа в abbyy finereader

Обновлено: 07.07.2024

Правильно установленные параметры распознавания помогут вам быстро получить качественный документ, пригодный для дальнейшего редактирования. Выбор параметров зависит не только от объема и сложности исходного документа, но и от того, как вы намерены использовать распознанный документ.

Выбрать необходимые параметры вы можете на закладке Распознать диалога Опции (меню Сервис>Опции…).

Внимание! Распознавание страниц, добавленных в документ ABBYY FineReader, выполняется в автоматическом режиме с текущими настройками программы. Вы можете отключить автоматический анализ и распознавание добавленных изображений на закладке Сканировать/Открыть диалога Опции (меню Сервис>Опции…).

Замечание. Если вы изменили язык распознавания, выделили области на изображении вручную или изменили другие настройки программы, выполните распознавание заново.

На закладке Распознать диалога Опции вы можете изменить настройки для следующих групп опций:

Режим распознавания
Выберите один из режимов распознавания.

В ABBYY FineReader 11 предусмотрено два режима распознавания:

Замечание. По сравнению с Быстрым режимом распознавания, Тщательный режим требует больше времени, но обеспечивает лучшее качество распознавания.

Для выбора режима распознавания в группе Режим распознавания выберите одну из опций: Тщательное распознавание или Быстрое распознавание.

Обучение
По умолчанию режим Распознавание с обучением отключен. Для того чтобы в процессе распознавания проводилось обучение неизвестным символам, отметьте опцию Распознавание с обучением.

Распознавание с обучением используется для распознавания следующих текстов:

Для набора которых использованы декоративные шрифты
В которых встречаются специальные символы (например, отдельные математические символы)
Большого объема (более 100 страниц) текста плохого качества

При распознавании вы можете использовать встроенные эталоны или создать собственный эталон. Для этого выберите нужную опцию в группе Обучение.

Пользовательские эталоны и языки
Вы можете сохранить настройки эталонов и пользовательских языков или загрузить ранее сохраненные.

В файл эталонов и языков будет сохранен путь к папке, в которой хранятся пользовательские языки, группы языков, пользовательские словари и эталоны.

Чтобы сохранить файл эталонов и языков:

Чтобы загрузить файл эталонов и языков:

Шрифты
Выберите шрифты, которые будут использоваться при сохранении распознанного текста.

Выбрать необходимые параметры вы можете на закладке Распознать диалога Опции (меню Сервис>Опции…).

На закладке Распознать диалога Опции вы можете изменить настройки для следующих групп опций:

Режим распознавания
Выберите один из режимов распознавания.

В ABBYY FineReader 10 предусмотрено два режима распознавания:

Распознавание с обучением используется для распознавания следующих текстов:

Для набора которых использованы декоративные шрифты
В которых встречаются специальные символы (например, отдельные математические символы)
Большого объема (более 100 страниц) текста плохого качества

После короткого рассказа о том, как устроен ABBYY FineReader (aka «теоретическая часть»), самое время перейти к применению полученных знаний. И да, котиков под катом нет: всё очень серьёзно.

Как пользователю поучаствовать в обработке документа

Чтобы не изобретать велосипед, начну с простой и понятной схемы из Справки (см. рисунок справа).

Теперь, зная список всех операций, посмотрим на примерах – что может пойти не по плану и как с этим бороться.

Хорошо распознаются только хорошие изображения

А что делать, когда изображения есть, но не очень хорошие? Улучшить прямо в FineReader всё что можно, а, если улучшить нельзя, — попытаться получить изображение заново, устранив проблему. Поскольку тема очень обширная, то при должном интересе будет отдельный пост про то, как подружиться с автоматическими и ручными инструментами обработки изображений прямо в FineReader. Пока же ограничусь замечанием, что изображение будет обработано лучше, если оно:

(после сканирования) не имеет выраженных геометрических искажений — перекоса или заметного изгиба страниц толстой книги у корешка двухстраничного разворота,
(после фотографирования, в дополнение к предыдущему) не имеет ещё и нелинейных геометрических искажений («подушка», «трапеция»), имеет равномерную фокусировку (а желательно и яркость) по всей площади, не имеет шумов от недостаточной освещённости, не имеет выраженной засветки от вспышки (особенно на глянцевой бумаге).

Этап настройки документа/проекта

Можно и нужно сразу указать язык текста, параметры предобработки изображений, некоторые параметры анализа и распознавания. Вот скриншот одной из вкладок диалога настроек.

Эти и прочие настройки подробно описаны в Справке

Этап анализа

Назначение областей разных типов

В пользовательском интерфейсе FineReader доступны области нескольких типов, для них есть разные варианты скрываемой панели свойств (внизу окна «Изображение») и контекстного меню (по щелчку правой кнопкой мыши):

Примеры правильно нарисованных зон распознавания

Реальный пример из проекта оцифровки Толстого — часть страниц имеет нумерацию строк (пронумерованы строки с номерами, кратными 10), не нужную в результате и затрудняющую вычитку/правку текста, если автоматический анализ включил эти номера в текстовую область колонки. Если страницы были почти одинаково выровнены на сканере или качественно обрезаны после сканирования, то перед анализом к нужной группе страниц можно применить шаблон блоков, где область (или области) распознавания просто не содержит не нужных нам частей страницы:

Помните, что в отличие от текстовой области область распознавания может превратиться в области разных типов, что бывало нужно и в этом проекте.

Эти параметры задаются на блок, так что выделять текст разного направления или разной инверсности в один блок – другая плохая идея.

В европейских языках в нормальной ориентации текста строки читаются сверху вниз (в блоке с повёрнутым текстом – от логического верха в сторону логического низа), но в случае иероглифических языков всё гораздо веселее – даже на одной странице одни области могут содержать текст в горизонтальной ориентации, а другие – в колоночной, причём иероглифы имеют одинаковую ориентацию во всех этих областях (если тема дальневосточных и ближневосточных языков интересна – просите отдельный пост про тамошние навороты).

Важные соображения

Распознавание и синтез видят только те фрагменты текста, которые оказались выделены в текстовые области или текстовые ячейки таблиц. Если кусок текста не выделен в блоки – распознаваться он не будет.
Аналогично и с картинками — если часть картинки оказалась вне области или одна целостная картинка оказалась разделена на несколько областей – скорее всего, в результате обработки будут проблемы.
Языки распознавания в FineReader задаются не для галочки – они влияют на очень многие механизмы, начиная уже с анализа: например, иероглифический (китайский, японский, корейский языки) или арабский текст имеют много особенностей, которые учитываются не всегда, а только при выборе соответствующих языков распознавания.

Особенности взаимодействия близкорасположенных или пересекающихся областей

Пересечение картиночных областей друг с другом – практически всегда ошибка, хотя и менее критичная для обработки именно текста. Такие случаи тоже желательно исправлять.

Примеры правильного использования картинок в таблице

Обратите внимание, что с помощью галочки в панели свойств области (внизу) ячейки из левой колонки таблицы сделаны картинками.

Текстовая область на фоне «картиночной» области — тоже важный инструмент: на фоне обычных картиночных областей могут находиться подписи к ним, на «фоновых» картиночных областях может располагаться и основной («колоночный») текст документа, а также таблицы.

Примеры правильного использования текстовых областей на фоне картинок

Маленькие хитрости для облегчения работы с блоками

Описанные соглашения отражены в поведении редактора блоков. Например, если вы рисуете новый или растягиваете имеющийся блок так, что он полностью или почти полностью перекрывает другие блоки — эти другие блоки автоматически удаляются.

Логичность/нелогичность выделения областей

Тут самое время подумать — для каких целей и какого формата документ хочется получить в результате обработки. Вот некоторые соображения, влияющие на количество и характер исправлений разметки блоков в сложных случаях:

Вариант 1: нам нужен только текст (возможно, мы этого не понимаем, но дело обстоит именно так)

нет «мусорных» областей, где в качестве текста или таблиц распознаются (мусором) элементы картинок или элементов оформления страницы.
области логично выделяют строки, не допуская попадания символов в более чем одну область и неоправданного дробления строк на более чем одну область.
то, что с точки зрения человека является таблицами в оригинале, должно быть выделено в табличные области. Это влияет как на качество распознавания (например, базовые линии строк в разных ячейках могут быть не выровнены по вертикали), так и на удобство поиска и копирования фрагментов текста в выходном документе.

Если отдельные картинки не должны копироваться из выходного PDF-документа – то такие области можно из документа исключить вовсе (не создавать новые и не оставлять найденные автоматикой, как минимум – удалять нелогично найденные картинки, а если не лень – то и все).

Я надеюсь шире и глубже раскрыть тему «разумности» картинок в статье про сохранение документов — если такая будет интересна читателям данного материала.

Вариант 2: нужно всё и сразу

Если документ, включающий не одно лишь текстовое содержимое (в одну или две колонки), предполагается сохранить сразу как электронную книгу в форматах FB2/e-pub или в любой промежуточный редактируемый формат (Вордовый или HTML) для дальнейшего редактирования и производства электронной книги, то осмысленное выделение таблиц и картинок становится особенно важно.
Среди прочего нужно определиться с тем, что делать с группами рядом расположенных картинок, и что делать с подписями к картинкам, как рядом стоящими, так и накладывающимися на картинки. Подробнее разберём эту тему в «Практикуме», на реальных примерах.

Вы можете сохранить настройки пользовательских языков и эталонов или загрузить настройки, которые были ранее сохранены. Для выполнения сохранения файлов эталонов и языков нужно кликнуть на Сохранить в файл… Далее указать наименование файла и кликните Сохранить. Для выполнения загрузки файлов эталонов и языков нужно кликнуть на загружать из файла… В открывшемся окне нужно выбрать документ формата FBT и кликните Открыть."

Верно установленные настройки распознавания помогут получить качественный документ, подходящий для последующего редактирования. Выбор пар-ров находится в зависимости от сложности и объема оригинала документа, а также от его применения.

Избрать необходимые настройки у вас есть возможность на закладке Распознавать диалогового окна Опции. Распознавание страничек, добавленных в файн ридер, работает в автоматическом режиме с текущими параметрами программы. У вас есть возможность выполнить отключение автоматического анализа и распознавания добавленных графических файлов на закладке Сканировать/Открыть диалогового окна Опции.

abbyy finereader скачать: Режим распознавания

В файн ридер можно выбрать либо Тщательное распознавание, либо Быстрое распознавание.

Первый режим пригоден для распознавания любых документов, включая таблицы с цветными ячейками и таблицы без линий сетки. Этот режим занимает большое количество времени.

Второй же режим используется для того чтобы обрабатывать большие объемы документов с хорошим качеством печати и простым оформлением.

Файн ридер: Распознавание табличек

Вы можете выбрать требуемый для данного файла метод распознавания табличек.

Искать таблички с однозначно заданными разделителями. Данную опцию нужно включать, дабы в виде таблицы были распознаны лишь таблицы, которые имеют черные разделители.

Во всякой ячейке таблички не больше одной строчки текста. Данную опцию нужно включать, дабы в каждую ячейку таблицы в момент распознавания помещалось не более одной строки текста. В противном случае ячейки таблички обычно содержат несколько текстовых строк, другими словами они являются многострочными.

В этот раз расскажу как превращать бумажные документы в электронный вид формата PDF, а также, как бумажный документ перекинуть в компьютер с целью изменить текст. Итак начнем.
У меня на руках бумажный документ.

СКАНИРОВАНИЕ в PDF

Задача: перекинуть в компьютер (перевести в электронный вид) этот документ. Притом нужно сделать именно в таком виде чтобы нельзя было его в будущем изменить (грубо говоря надо сделать фото документа). Потом этот электронный документ нужно переслать по почте на электронный адрес. Притом клиент просит именно в формате pdf.

По этапам:
1) пропускаю документ через сканер
2) сохраняю полученный отпечаток в формате pdf на свой компьютер
3) пересылаю полученный файл по почте
В своей работе я использую для решения такой задачи 2 программы:
Foxit Phantom или ABBYY FineReader. Для понятности прикладываю скриншоты:
В Foxit Phantom при включенном сканере необходимо в главном меню выбрать ФАЙЛ-СОЗДАТЬ PDF-СО СКАНЕРА…
Произойдет сканирование и появится предложение сохранить файл. Выбираем место, пишем название файла и сохраняем.

В ABBYY FineReader в панели инструментов есть огромные кнопки. Одна из них называется СКАНИРОВАТЬ в PDF. Её и используем.

Если же надо отсканировать многостраничный документ то, по этапам:
1) Нажимаем кнопку под номером 1 СКАНИРОВАНИЕ

Получаем отсканированный документ

Также сканируем ещё одну страницу (нажимаем ещё раз кнопку под номером 1 СКАНИРОВАНИЕ).
2) Сохраняем в PDF

В итоге получаем готовый многостраничный документ в виде файла в формате PDF.

Теперь данный файл можно отправлять по электронной почте.

РАСПОЗНАВАНИЕ ТЕКСТА

Задача: перевести бумажный документ в электронный вид (в компьютер)

По этапам:
1) Сканирование (кнопка 1 СКАНИРОВАНИЕ)

2) Распознавание (кнопка 2 РАСПОЗНАТЬ ВСЕ)

Распознавание нужно понимать как процесс перевода фотографии (картинки) в текст (буквы, цифры, знаки). Если Вы сфотографировали текстовую страницу, то после распознавания 99% текста с бумаги превратиться в текст электронный. Электронный текст уже можно на компьютере менять (редактировать) так, как Вам захочется.

3) Сохранение в текстовый редактор (кнопка 4 Сохранить)
Советую выбирать ПЕРЕДАТЬ ВСЕ СТРАНИЦЫ В—MICROSOFT WORD

Хотелось бы указать на важные моменты при процедуре РАСПОЗНАВАНИЯ. Есть нюансы при работе.
Сразу после распознавания советую поглядеть на результат. Особенно на блоки, которые создает программа FineReader.

Это области выделенные в прямоугольные рамки. Рамки эти разного цвета. Если красного цвета-то этот блок распознался как КАРТИНКА. Если черного цвета — то ТЕКСТ. Блоки бывают разного типа. Тип блока можно узнать щелкнув на блоке ПРАВОЙ клавишей мыши и выбрав ИЗМЕНИТЬ ТИП БЛОКА.

Маленькая хитрость: можно выделить произвольную область и пометить любым типом блок. Например выделим ту часть текста, которая плохо распознается, при помощи левой клавиши мыши (нажимает, удерживаем и тянем, рамка меняет размер).

В итоге документ в Word-е будет иметь блок текста и блок картинка. Блок картинка будет иметь абсолютно неизменный вид. Данный способ я использую при сохранении печатей, нестандартных шрифтов, картинок, фотографий.

ЗЫ: Знания и умения работать с PDF, сканировать и распознавать документы очень часто выручают в офисной работе. Знание — экономит Ваше время!

Читайте также: