Abbyy finereader улучшить качество сканированного

Обновлено: 02.07.2024

Качество распознавания зависит от качества исходного изображения и отвыбранных настроек сканирования.

● Настройка параметров сканирования и открытияизображений

● Выбор интерфейса сканирования

Подробнее о сканировании через интерфейс ABBYY FineReader и через интерфейс драйвера сканера, особенностях
этих интерфейсов и способе переключения между ними.

● Настройка яркости сканирования

● Если в исходном изображении мелкий шрифт

● Сканирование книжного разворота

● Как сфотографировать текст

Данная статья поможет вам выбрать режим работы фотоаппарата и получитьснимок документа, пригодный для
распознавания текста.

● Автоматическая предобработка изображений

● Как обработать изображение вручную

Выбрать необходимые параметры вы можете непосредственно в диалогах открытияили сканирования изображений (если вы используете для сканирования интерфейсABBYY FineReader ), а также на закладке С канировать/Открыть диалога Опции (менюСервис>Опции…).

Внимание! Если вы изменили настройки программы вдиалоге Опции , то необходимо отсканировать или открытьизображение заново. Только после этого ваше изображение будет обработано суказанными настройками.

На закладке С канировать/Открыть диалогаОпции вы можете изменить следующие настройки:

● Запуск автоматического анализа ираспознавания полученных изображений.

Анализ и распознавание документа ABBYY FineReader по умолчанию выполняются автоматически. При необходимости вы можете изменитьэтот режим. Возможны следующие варианты:

● Автоматически распознавать полученныеизображения

Анализ и распознавание документа будут производиться автоматически.

● Автоматически анализировать полученныеизображения

Анализ документа будет выполняться автоматически, а распознавание нужнобудет запускать вручную.

● Отключить автоматический анализ ираспознавание изображения

Отсканированные или открытые изображения будут добавлены в документ FineReader . Анализ и распознавание
документа нужно будет запускать вручную. Такой режим, как правило, используетсядля документов, имеющих
сложную структуру.

● Способы обработки изображений.

● Выполнять предобработку изображений

Если вы хотите отсканировать и распознать книгу или открываете изображение,полученное с помощью
фотокамеры, включите эту опцию. Тогда программа, в зависимости от типа входногоизображения, выполнит его
предобработку: удалит шумы с цифровых фотографий, исправит перекос, нечеткость , искажение перспективы,
выровняет документ по линиям текста.

● Определять ориентацию страницы

Включите эту опцию для автоматического определения ориентации страниц,добавляемых в документ FineReader .

● Делить разворот книги

Если вы сканируете разворот книги или открываете изображения сдвоенныхстраниц, включите эту опцию. Тогда,
в процессе добавления страниц в документ FineReader ,изображения будут разделяться на отдельные страницы.

Замечание. Вы можете не использовать опциипредобработки изображений при сканировании или открытии страниц документа, авыполнить необходимую обработку в уже открытом документе с помощью редактораизображений.

Подробнее см. «Как обработать изображение вручную».

● Интерфейс сканера, который будетиспользоваться при сканировании.

В программе ABBYY FineReader возможны следующиеварианты взаимодействия программы со сканером:

1. Через интерфейс ABBYY FineReader .

В этом случае для настройки режима сканирования используется диалогпрограммы ABBYY FineReader . Он
позволяет устанавливать:

● Разрешение, яркость и тип изображения.

● Опции предобработки изображений:

● Определять ориентацию страницы — включите эту опцию для автоматического определения ориентациистраницы при сканировании

● Делить разворот книги — включите эту опцию для автоматического разбиения сдвоенных страницна отдельные изображения

● Выполнять предобработку изображений — включите эту опцию для выполнения автоматической обработкиотсканированных изображений

● Опции для сканирования многостраничныхдокументов:

● Использовать автоподатчик (ADF)

● Применять автоматическое двустороннеесканирование (если данная возможность поддерживается сканером)

● Установить задержку между сканированиемстраниц на указанное количество секунд

Замечание. Для некоторых моделей сканеров опция И спользовать интерфейс ABBYY FineReader может быть недоступна.

2. Через интерфейс TWAIN–драйвера сканера или WIA–драйвера сканера.

Для настройки опций сканирования используется диалог драйвера сканера. Видокна и описание его элементов вы
найдете в документации, прилагаемой к сканеру.

Внимание! Для того чтобы правильно подключитьсканер, обратитесь к документации, прилагаемой к устройству.

При установке не забудьте установить необходимое программное обеспечение,поставляемое вместе со сканером.
По умолчанию сканирование выполняется через интерфейс ABBYY FineReader .
Вы можете легко переключать интерфейс сканирования:
1. Откройте диалог Опции на закладке С канировать/Открыть(меню Сервис>Опции…).
2. В группе Сканер установите переключатель в одно из положений: Использоватьинтерфейс ABBYY FineReader или
И спользовать интерфейс сканера.

Особенности входного изображения

Пример хорошего (пригодного для распознавания)

«разорванные»; светлые, тонкие буквы

● Уменьшите яркость (чтобы изображение стало темнее)

● Отсканируйте в сером (в этом случае осуществляется автоподбор яркости)

искаженные и залитые; склеенные символы; темные ,

● Увеличьте яркость (сделать изображение светлее)

● Отсканируйте в сером (в этом случае осуществляется автоподбор яркости)

Особенности входного изображения

300 dpi — для обычных текстов (размер шрифта 10 и более пунктов).

400–600 dpi — для текстов, набранных мелким шрифтом (9 и менее пунктов).

Разрешение изображения показываетнасколько детальным является данное изображение.Разрешение обычно

измеряется в dpi ( dots per inch ) — количестве точек,приходящихся на один дюйм.
Разрешение, оптимальное для распознавания, равно 300 dpi .

Внимание! Для качественного распознавания текстанеобходимо, чтобы разрешение изображения по вертикали и по горизонталисовпадало.

● Если разрешение изображения меньше 250 dpi или больше 600 dpi .

● Если изображение имеет нестандартноеразрешение.

При сканировании книжного разворота две страницы попадают на одноизображение.

Для повышения качества распознавания необходимо разделить такое изображение надва. В программе существует специальный режим, при котором книжный разворотавтоматически разделяется на две части и превращается в две отдельные страницыдокумента ABBYY FineReader .
Как отсканировать книжный разворот или сдвоенные страницы:
1. Откройте диалог Опции на закладке С канировать/Открыть(меню Сервис>Опции…).
2. В группе Обработка изображения отметьте опцию Д елитьразворот книги.
3. Отсканируйте страницы.
Опция автоматического разделения сдвоенных страниц имеетсятакже в диалоге открытия изображений (меню

Файл >О ткрыть PDF/изображение… ) и в диалоге сканирования ABBYY FineReader . Подробнее см. «Выбор интерфейса сканирования».

Внимание! Если изображение содержит текст накитайском или японском языке, воспользуйтесь редактором изображений для разделения страниц вручную. Автоматическое разделение страницы длятаких изображений не поддерживается.

Фотосъемка документов требует определенной подготовки фотографа, а также налагает ограничения на характеристики
фотоаппарата и режим съемки .

Замечание. Технические параметры вашего фотоаппаратаи инструкции по работе с ним приведены в описании вашего устройства и другойприлагаемой к нему документации.

Ниже приведены требования к фотоаппарату и рекомендации по выбору режима съемки .

Требования к фотоаппарату

● Размер матрицы: вычисляется пропорциональноформату страницы изображения, из расчета 2 млн.пикселов для формата А 4 . Соответственно, для съемки страниц небольшого формата, например, визитныхкарточек, размер матрицы может быть меньше.

● Переменная дистанция фокусировки. Нерекомендуется использовать фотоаппараты с фиксированным фокусом

( сфокусированные на гиперфокальное расстояние).Такие камеры обычно встречаются в сотовых телефонах и КПК.

● Размер матрицы: вычисляется пропорциональноформату страницы изображения, из расчета 5 млн.пикселов для формата А 4 .

● Возможность отключения фотовспышки.

● Возможность установки диафрагмы вручную —т.е. наличие режима приоритета диафрагмы или ручного режима.

● Режим ручной фокусировки.

● Объектив с оптической стабилизациейизображения, при его отсутствии рекомендуется использовать штатив.

Рекомендации по проведению фотосъемки

По возможности обеспечьте хорошее освещение, лучше всего дневное. Еслииспользуется подсветка, то лучше
использовать подсветку двумя лампами с разных сторон, чтобы избежатьобразования теней.

Как располагать фотоаппарат

Для съемки документов рекомендуется использоватьштатив. Объектив должен располагаться параллельно поверхности съемки и по центру фотографируемого изображения.
Фотоаппарат должен быть удален от страницы настолько,чтобы при максимальном оптическом увеличении страница полностью умещалась вкадре. Обычно это расстояние около 50–60 см.

Если освещение позволяет, вспышку лучше всего отключить, поскольку она создает пересвеченные области ирезкие
тени. При недостаточном освещении, если съемка ведется с достаточного расстояния (

50 сантиметров), можноиспользовать вспышку.

Замечание. При использовании вспышки желательноподсветить документ.

Внимание! Категорически не рекомендуетсяиспользовать вспышку при съемке документов,отпечатанных на глянцевой бумаге.

По возможности установите баланс белого по цвету бумаги. Если вашфотоаппарат не позволяет произвольно задавать
баланс белого, выберите режим, максимально отвечающий условиям съемки .

Что делать если.

Недостаточно освещения для фотосъемки

При недостаточном освещении рекомендуется:
● Выбрать небольшое значение диафрагмы,т.е. максимально открыть диафрагму. Если съемка ведется при ярком дневном свете, значение диафрагмы лучшеувеличить, чтобы получить более резкий снимок.
● Выбрать большую чувствительность матрицы (большеезначение ISO).
● Использовать ручную фокусировку, так какавтоматический фокус может срабатывать плохо (аппарат не можетсфокусироваться).

Снимок слишком темный и неконтрастный

Постарайтесь улучшить освещение. Если такой возможности нет — установитеменьшее значение диафрагмы.

Возможно, автофокус плохо срабатывает из–за отсутствия света. Попробуйтеулучшить освещение. Если это не помогает, используйте ручную фокусировку.
Если нерезкая только часть снимка — попробуйте выставить большее значение диафрагмы.Снимайте с большего расстояния при максимальном оптическом увеличении. Наводитефокус на точку, расположенную между центром и
краем изображения.
При недостаточном освещении в автоматическом режиме используются большиевыдержки, что отрицательно сказывается на резкости получаемого изображения.Поэтому рекомендуется дополнительно:

● Использовать стабилизатор изображения.

● Использовать автоспуск. Это позволитизбежать подрагивания камеры при нажатии на кнопкуспуска. Такие проблемы могут возникать даже при наличии штатива.

Вспышка создает пересвеченную область в центре кадра.
Отключите вспышку. Если нет возможности использовать другие источники света,снимайте с большего расстояния.

На качество распознавания могут отрицательно влиять искажение строк,перекос, наличие шумов и другие дефекты,
которые свойственны отсканированным изображениям и цифровым снимкам.
Для устранения подобных дефектов в программе предусмотрена опция автоматическойпредобработки изображений.
Если она включена, то, в зависимости от типа входного изображения, программасама определит, какая корректировка необходима, и выполнит её: удалит шумы сцифровых фотографий, выровняет изображение при перекосе, выровняет документ полиниям текста, исправит искажение перспективы.

Замечание. Для выполнения данной операции можетпотребоваться значительное время.

Чтобы при сканировании и открытии изображений выполнялась их автоматическаяпредобработка:
1. Откройте диалог Опции (меню Сервис>Опции…).
2. Убедитесь, что на закладке С канировать/Открыть вгруппе Обработка изображения отмечена опция Выполнять предобработкуизображений.

Внимание! Включать/отключать опцию автоматическойпредобработки можно также в диалоге открытия изображений

(меню Файл >О ткрыть PDF/изображение…) и вдиалоге сканирования ABBYY FineReader . Подробнее см.«Выбор интерфейса сканирования».

Замечание. Если в процессе сканирования или открытияизображений опция В ыполнятьпредобработку изображений

была отключена, вы можете отредактировать изображение вручную с помощьюредактора изображений.

ABBYY FineReader 10 позволяет проводитьавтоматическую предобработку изображений — когда программа сама
определяет, какая корректировка необходима для данного изображения, и выполняет ее .

● Фотокоррекция — устранить неровность строк текста, шумы и нечеткость изображения

● Повернуть и отразить —повернуть изображение, чтобы привести те кст к ст андартномунаправлению

(горизонтально, слева направо)

● Разбить — разбитьизображение на отдельные изображения, например, разделить сдвоенную страницу

● Обрезать — удалитьненужные края изображения

● Инвертировать —инвертировать цвета на изображении, чтобы привести те кст к ст андартномувиду ( темный текст на светлом фоне)

● Разрешение изображения — изменить разрешение изображения

● Ластик — удалитьчасть изображения

В этом разделе описывается, как настроить параметры распознавания,приводятся нестандартные ситуации, решение
которых может потребовать некоторых дополнительных настроек. Вы узнаете овозможных причинах возникновения ошибок и ухудшения качества распознавания, атакже о том, как устранить некоторые проблемы и, по возможности,
избежать их возникновения.

● Настройка параметров распознавания

● Если в исходном документе сложная структураи после распознавания она не сохранилась

● Редактирование формы и положения областей

● Если картинка на странице выделенанеправильно

● Если штрих–код на странице не найден

● Если таблица на странице не найдена

● Если в таблице неправильно выделены ячейки

● Как отредактировать свойства текста

● Если вертикальный или инвертированный текстне распознался

● Если в исходном документе есть декоративные(нестандартные) шрифты

● Если в распознанном тексте некорректноотображается шрифт или на месте некоторых букв стоят значки «?» или

Правильно установленные параметры распознавания помогут вам быстро получить качественныйдокумент, пригодный
для дальнейшего редактирования. Выбор параметров зависит не только от объема и сложности исходного документа, но и от того, каквы намерены использовать распознанный документ.
Выбрать необходимые параметры вы можете на закладке Р аспознатьдиалога Опции (меню Сервис>Опции…). Внимание! Распознаваниестраниц, добавленных в документ ABBYY FineReader ,выполняется в автоматическом режиме с текущими настройками программы. Вы можетеотключить автоматический анализ и распознавание добавленных изображений назакладке С канировать/Открыть диалога Опции(меню Сервис>Опции…).

Замечание. Если вы изменили язык распознавания,выделили области на изображении вручную или изменили другие настройкипрограммы, выполните распознавание заново.

На закладке Р аспознать диалога Опциивы можете изменить настройки для следующих групп опций:

Выберите один из режимов распознавания.
В ABBYY FineReader 10 предусмотрено два режимараспознавания:

Данный режим пригоден для распознавания как простых, так и сложныхдокументов. Например, для документов,
содержащих текст на цветном фоне, или для документов, содержащих таблицы, в томчисле таблицы без линий сетки и таблицы с цветными ячейками.

Замечание. По сравнению с Быстрым режимом распознавания, Тщательный режим требуетбольше времени,

но обеспечивает лучшее качество распознавания.

Данный режим рекомендуется для обработки больших объемов документов с простым оформле

Очистить от мусора

Распознаваемое изображение может быть сильно "замусорено", т.е. содержать много лишних точек, возникших в результате сканирования документов среднего или низкого качества. Точки, близко расположенные к контурам букв, могут отрицательно сказаться на качестве распознанного текста. Чтобы уменьшить количество лишних точек, можно воспользоваться опцией Очистить от мусора. Для этого:

Выберите пункт Очистить изображение от мусора в меню Изображение>Обработать изображения.

Если вы хотите очистить от "мусора" отдельный блок, то:

Выберите пункт Очистить блок от мусора в меню Изображение>Обработать изображения.

Внимание! Если исходный текст был очень светлым или в исходном тексте использовался очень тонкий шрифт, то применение функции Очистить изображение от мусора может привести к исчезновению точек, запятых или тонких элементов букв, что ухудшает качество распознавания.

Разрешение изображения - это параметр, определяющий, какое количество точек, составляющих изображение, приходится на единицу длины. Разрешение обычно измеряется в dpi - количестве точек, приходящихся на один дюйм. Для качественного распознавания текста с помощью системы ABBYY FineReader необходимо, чтобы разрешение изображения по вертикали и по горизонтали совпадало, и при этом разрешение находилось в пределах допустимого диапазона (50 - 3200 dpi). Рекомендованный диапазон разрешения - 200 - 600 dpi, разрешение оптимальное с точки зрения распознавания - 300 dpi.

Слишком большое или слишком маленькое разрешение может приводить к ухудшению качества распознавания. У некоторых форматов изображения разрешение отсутствует (например, у *.bmp файлов). Изображения могут также иметь нестандартное разрешение (например, 204*96 dpi), что тоже может повлиять на качество распознавание.

Система ABBYY FineReader проверяет разрешение каждого изображения и при обнаружении "подозрительного" изображения автоматически исправляет его разрешение, при этом физические размеры изображения (его длина и ширина) не изменяются. Такое изображение помечается значком в окне Пакет. При наведении мыши на такое изображение возникает всплывающая подсказка.

В открывшемся диалоге укажите тип изображения (отсканированное изображение, изображение, полученное по факсу, или снимок экрана). Вы также можете указать точное значение разрешения в поле Другое разрешение.

При сканировании книг возможно искажение строк текста в той части изображения, где страница примыкала к переплету. На изображениях, полученных с помощью фотокамеры, строки текста также могут искажаться по краям изображения. Для того чтобы устранить искажения строк:

нажмите кнопку или выберите в меню Изображение>Обработать изображение>Устранить искажение строк.

Замечание. Для выполнения данной операции может потребоваться значительное время.

Некоторые сканеры инвертируют изображения при сканировании (черный цвет переводят в белый, а белый в черный). Чтобы получить стандартное представление документа (черный шрифт на белом фоне):

В меню Изображение>Обработать изображения выберите пункт Инвертировать.

Замечание. Если вы сканируете или открываете инвертированные изображения, то перед добавлением в пакет таких изображений отметьте пункт Инвертировать изображение в группе Сканировать/Открыть в диалоге Дополнительные опции. Для того чтобы открыть диалог Дополнительные опции, щелкните по кнопке Дополнительные опции на закладке Общие диалога Опции (меню Сервис>Опции).

При распознавании изображение должно иметь стандартную ориентацию: текст должен читаться сверху вниз, и строки должны быть горизонтальными. По умолчанию программа при распознавании определяет и корректирует ориентацию изображения автоматически. Если ориентация изображения была определена ошибочно, то на закладке Сканировать/Открыть снимите отметку с пункта Определять ориентацию страницы (при распознавании) и поверните изображение вручную.

Чтобы повернуть изображение:

на 90 градусов вправо - нажмите кнопку или выберите в меню Изображение>Повернуть/Отразить изображение пункт Повернуть по часовой стрелке.

на 90 градусов влево - нажмите кнопку или выберите в меню Изображение>Повернуть/Отразить изображение пункт Повернуть против часовой стрелки.

на 180 градусов - выберите в меню Изображение>Повернуть/Отразить изображение пункт Повернуть на 180 градусов.

Если вы хотите исключить какой-то участок текста из распознавания или на изображении имеются большие участки мусора, то вы можете стереть такие участки. Для этого:

Выберите инструмент (на панели в окне Изображение) и, нажав на левую кнопку мыши, выделите участок изображения, который вы хотите удалить. Отпустите кнопку, выделенная часть изображения будет удалена.

Иногда в результате сканирования по краям изображения появляются зачерненные поля. В таком случае перед распознаванием можно выполнить обрезку изображения, удалив ненужные фрагменты. С помощью инструмента обрезки изображения можно также получить изображение стандартного размера (соответствующего одному из стандартных форматов, например, А4, А5).

На панели Изображение (в окне Изображение) выберите инструмент (вы также можете воспользоваться командой Обрезать изображение в меню Изображение);

Изображение будет открыто в окне Обрезать изображение, контур изображения будет выделен черной линией. Для того чтобы:

Выбрать наиболее удобный режим просмотра изображения, воспользуйтесь выпадающим списком, находящимся в левом нижнем углу окна изображения;

Обрезать ненужные края изображения, потяните мышью черную линию, обрамляющую изображение, или маркеры, находящиеся в углах контура изображения. Часть изображения, которая будет отрезана, выделяется серым цветом. Щелкните по кнопке Обрезать;

Привести изображение к стандартному размеру, выберите нужный формат из выпадающего списка Привести к;

Не выполнять обрезку открытого изображения и перейти к следующему изображению, нажмите кнопку Пропустить;

Всегда работать только с выбранным изображением (не переходить к следующему изображению пакета после окончания работы с текущим изображением), снимите отметку с опции Перейти к следующей странице.

Обрезку изображения рекомендуется выполнять до того, на изображении будут выделены блоки и изображение будет распознано.

Цвет рамки в окне Обрезать изображение можно изменить на закладке Вид диалога Опции (меню Сервис>Опции). В списке Объекты выберите пункт Блок обрезки изображения, затем щелкните по кнопке Цвет и в открывшемся диалоге выберите нужный цвет рамки.

Увеличить/Уменьшить масштаб изображения

На панели Изображение (в окне Изображение) выберите инструмент / и щелкните мышью на изображении. Изображение увеличится/уменьшится в два раза.

Щелкните правой кнопкой мыши на изображении и в локальном меню выберите пункт Масштаб и нужный вам масштаб.

Вы можете получить следующую информацию об открытом изображении: ширину и высоту изображения в точках; вертикальное и горизонтальное разрешение в точках на дюйм (dpi); тип изображения. Чтобы просмотреть информацию об изображении:

Щелкните правой кнопкой на изображении и в локальном меню выберите пункт Свойства. В открывшемся диалоге выберите закладку Изображение.

Вы можете напечатать одно изображение, открытое в окне Изображение, несколько изображений, выделенных в окне Пакет, или все изображения. Для этого:

В меню Файл выберите пункт Печать>Изображение и в открывшемся диалоге Печать установите параметры печати (принтер, количество печатаемых страниц, количество копий и т.д.)

Для отмены последнего действия на панели Стандартная нажмите кнопку Отменить .

После короткого рассказа о том, как устроен ABBYY FineReader (aka «теоретическая часть»), самое время перейти к применению полученных знаний. И да, котиков под катом нет: всё очень серьёзно.

Как пользователю поучаствовать в обработке документа

Чтобы не изобретать велосипед, начну с простой и понятной схемы из Справки (см. рисунок справа).

Теперь, зная список всех операций, посмотрим на примерах – что может пойти не по плану и как с этим бороться.

Хорошо распознаются только хорошие изображения

А что делать, когда изображения есть, но не очень хорошие? Улучшить прямо в FineReader всё что можно, а, если улучшить нельзя, — попытаться получить изображение заново, устранив проблему. Поскольку тема очень обширная, то при должном интересе будет отдельный пост про то, как подружиться с автоматическими и ручными инструментами обработки изображений прямо в FineReader. Пока же ограничусь замечанием, что изображение будет обработано лучше, если оно:

(после сканирования) не имеет выраженных геометрических искажений — перекоса или заметного изгиба страниц толстой книги у корешка двухстраничного разворота,
(после фотографирования, в дополнение к предыдущему) не имеет ещё и нелинейных геометрических искажений («подушка», «трапеция»), имеет равномерную фокусировку (а желательно и яркость) по всей площади, не имеет шумов от недостаточной освещённости, не имеет выраженной засветки от вспышки (особенно на глянцевой бумаге).

Этап настройки документа/проекта

Можно и нужно сразу указать язык текста, параметры предобработки изображений, некоторые параметры анализа и распознавания. Вот скриншот одной из вкладок диалога настроек.

Эти и прочие настройки подробно описаны в Справке

Этап анализа

Назначение областей разных типов

В пользовательском интерфейсе FineReader доступны области нескольких типов, для них есть разные варианты скрываемой панели свойств (внизу окна «Изображение») и контекстного меню (по щелчку правой кнопкой мыши):

Примеры правильно нарисованных зон распознавания

Реальный пример из проекта оцифровки Толстого — часть страниц имеет нумерацию строк (пронумерованы строки с номерами, кратными 10), не нужную в результате и затрудняющую вычитку/правку текста, если автоматический анализ включил эти номера в текстовую область колонки. Если страницы были почти одинаково выровнены на сканере или качественно обрезаны после сканирования, то перед анализом к нужной группе страниц можно применить шаблон блоков, где область (или области) распознавания просто не содержит не нужных нам частей страницы:

Помните, что в отличие от текстовой области область распознавания может превратиться в области разных типов, что бывало нужно и в этом проекте.

Эти параметры задаются на блок, так что выделять текст разного направления или разной инверсности в один блок – другая плохая идея.

В европейских языках в нормальной ориентации текста строки читаются сверху вниз (в блоке с повёрнутым текстом – от логического верха в сторону логического низа), но в случае иероглифических языков всё гораздо веселее – даже на одной странице одни области могут содержать текст в горизонтальной ориентации, а другие – в колоночной, причём иероглифы имеют одинаковую ориентацию во всех этих областях (если тема дальневосточных и ближневосточных языков интересна – просите отдельный пост про тамошние навороты).

Важные соображения

Распознавание и синтез видят только те фрагменты текста, которые оказались выделены в текстовые области или текстовые ячейки таблиц. Если кусок текста не выделен в блоки – распознаваться он не будет.
Аналогично и с картинками — если часть картинки оказалась вне области или одна целостная картинка оказалась разделена на несколько областей – скорее всего, в результате обработки будут проблемы.
Языки распознавания в FineReader задаются не для галочки – они влияют на очень многие механизмы, начиная уже с анализа: например, иероглифический (китайский, японский, корейский языки) или арабский текст имеют много особенностей, которые учитываются не всегда, а только при выборе соответствующих языков распознавания.

Особенности взаимодействия близкорасположенных или пересекающихся областей

Пересечение картиночных областей друг с другом – практически всегда ошибка, хотя и менее критичная для обработки именно текста. Такие случаи тоже желательно исправлять.

Примеры правильного использования картинок в таблице

Обратите внимание, что с помощью галочки в панели свойств области (внизу) ячейки из левой колонки таблицы сделаны картинками.

Текстовая область на фоне «картиночной» области — тоже важный инструмент: на фоне обычных картиночных областей могут находиться подписи к ним, на «фоновых» картиночных областях может располагаться и основной («колоночный») текст документа, а также таблицы.

Примеры правильного использования текстовых областей на фоне картинок

Маленькие хитрости для облегчения работы с блоками

Описанные соглашения отражены в поведении редактора блоков. Например, если вы рисуете новый или растягиваете имеющийся блок так, что он полностью или почти полностью перекрывает другие блоки — эти другие блоки автоматически удаляются.

Логичность/нелогичность выделения областей

Тут самое время подумать — для каких целей и какого формата документ хочется получить в результате обработки. Вот некоторые соображения, влияющие на количество и характер исправлений разметки блоков в сложных случаях:

Вариант 1: нам нужен только текст (возможно, мы этого не понимаем, но дело обстоит именно так)

нет «мусорных» областей, где в качестве текста или таблиц распознаются (мусором) элементы картинок или элементов оформления страницы.
области логично выделяют строки, не допуская попадания символов в более чем одну область и неоправданного дробления строк на более чем одну область.
то, что с точки зрения человека является таблицами в оригинале, должно быть выделено в табличные области. Это влияет как на качество распознавания (например, базовые линии строк в разных ячейках могут быть не выровнены по вертикали), так и на удобство поиска и копирования фрагментов текста в выходном документе.

Если отдельные картинки не должны копироваться из выходного PDF-документа – то такие области можно из документа исключить вовсе (не создавать новые и не оставлять найденные автоматикой, как минимум – удалять нелогично найденные картинки, а если не лень – то и все).

Я надеюсь шире и глубже раскрыть тему «разумности» картинок в статье про сохранение документов — если такая будет интересна читателям данного материала.

Вариант 2: нужно всё и сразу

Если документ, включающий не одно лишь текстовое содержимое (в одну или две колонки), предполагается сохранить сразу как электронную книгу в форматах FB2/e-pub или в любой промежуточный редактируемый формат (Вордовый или HTML) для дальнейшего редактирования и производства электронной книги, то осмысленное выделение таблиц и картинок становится особенно важно.
Среди прочего нужно определиться с тем, что делать с группами рядом расположенных картинок, и что делать с подписями к картинкам, как рядом стоящими, так и накладывающимися на картинки. Подробнее разберём эту тему в «Практикуме», на реальных примерах.

Пожалуй, трудно в IT-сфере найти человека, ничего не слышавшего о программных решениях отечественной компании ABBYY, входящей в ТОП-100 самых упоминаемых брендов Рунета и являющейся законодателем мод в области распознавания документов и лингвистики. Более чем двадцатилетний опыт насыщенной и продуктивной работы определил успех российского разработчика во всем мире, о чем свидетельствует не только 30-миллионная аудитория пользователей более чем в 130 странах, но и признание со стороны бизнес-сообщества, обрабатывающего с помощью технологий и инструментов компании свыше 1,6 млрд страниц документов и форм ежегодно. Цифры впечатляющие, однако в ABBYY не почивают на лаврах и продолжают неустанно из года в год совершенствовать и расширять линейку своей продукции, не так давно пополнившуюся новой, одиннадцатой по счету версией OCR-пакета FineReader, представленного в редакциях Professional Edition и Corporate Edition и предназначенного для конвертирования отсканированных документов, изображений, фотографий и PDF-файлов в редактируемые форматы.

Говоря о нововведениях в систему оптического распознавания текстов, прежде всего следует отметить увеличенную скорость обработки документов. По результатам проведенных ABBYY тестов, FineReader 11 демонстрирует возросшую на 20% производительность по сравнению с предыдущей версией продукта. Особый акцент разработчики делают на оптимизации различных режимов работы приложения, позволяющих добиваться существенной экономии времени при обработке больших объемов информации. Так, практическое использование нового черно-белого режима ускоряет конвертирование данных до 30%, а активация режима быстрого распознавания, предназначенного для документов с простым оформлением и хорошим качеством печати, форсирует упомянутый процесс аж до 70%. Немалую роль в достижении программой столь значимых результатов играет эффективное использование вычислительных возможностей многоядерных процессоров.

Вторая ключевая особенность FineReader 11 — улучшенное качество распознавания и сохранения структуры многостраничных документов. Благодаря совершенствованию технологии адаптивного распознавания документов (ADRT — Adaptive Document Recognition Technology), специалистам ABBYY удалось на 40% повысить точность определения заголовков и колонтитулов, на 70% — текста на полях, на 25% улучшить распознавание таблиц и на 15% — определение картинок и диаграмм. Также добавлена поддержка вертикальных колонтитулов, улучшено на 20% качество "понимания" текстов для группы языков CJK (китайский, японский, корейский) и в состав программы включен инструментарий для создания в PDF-документе оглавления в виде закладок. Использование последней опции восстанавливает структуру оглавления документа с возможностью перехода по ссылкам, что существенно упрощает навигацию и работу с многостраничными материалами.

Важный аспект — поддержка языков, также не оставшаяся без внимания программистов, инженеров и лингвистов ABBYY. Разработчики добавили в одиннадцатую сборку продукта арабский, вьетнамский, туркменский (латиница) языки и реализовали словарную поддержку для арабского, вьетнамского, латинского, японского, корейского языков. Таким образом, отныне в активе OCR-решения значится 189 языков распознавания, для 45 из которых предусмотрена проверка орфографии. Такой багаж знаний делает FineReader самой многоязычной системой распознавания в мире.

Вполне возможно, что рядовым пользователям FineReader, чья работа с приложением ограничивается конвертированием документов на двух-трех европейских языках, включение поддержки перечисленных в предыдущем абзаце языков покажется малозначительным, однако на деле умение программы понимать особенности той же арабской системы письма свидетельствует о том, что технологии оптического распознавания ABBYY развиваются, а значит, становятся еще совершеннее. Важно осознавать, что за реализацией поддержки любого дополнительного языка кроется кропотливый труд большого числа специалистов и экспертов компании.

Отдельное внимание при разработке программы было уделено переводу бумажных книг в цифровой вид. Электронные книги давно уже превратились из экзотики в обыденность, поэтому включение в состав FineReader 11 поддержки форматов FictionBook 2.0 (FB2), Electronic Publication (ePub) и возможности отправлять файлы непосредственно из окна приложения в учетную запись Amazon Kindle является оправданным шагом. В настройках модуля, отвечающего за формирование eBook-изданий, можно управлять функцией сохранения изображений и их качеством, выбирать оформление книги с использованием простого или форматированного текста, включать встраивание шрифтов и манипулировать прочими свойствами документа. Кроме того, программа умеет автоматически сохранять главы книги в отдельные HTML-файлы и восстанавливать ссылки в содержании на соответствующие главы книги. Данная возможность FineReader также может быть востребована владельцами eBook-ридеров и прочих портативных устройств.

Серьезно изменились средства обработки фотографий, пополнившиеся новыми инструментами для редактирования изображений, включая настройку яркости, контрастности и уровней интенсивности света и тени, которая позволяет значительно улучшить исходные снимки и получить более точные результаты распознавания. Подобного рода корректировки можно произвести в любом имеющемся под рукой графическом редакторе, однако одно дело — возиться со сторонним приложением и затем переносить файлы в FineReader, и совсем другое — вносить необходимые правки непосредственно в окне OCR-пакета.

Упомянуть следует и появившийся в 10-й версии программы и улучшенный в 11-й инструментарий для исправления трапециевидных искажений, часто возникающих при съемке документов цифровой камерой. Выбрав в редакторе изображений соответствующий пункт, пользователь может, перетаскивая мышью углы рамки и совмещая их с углами картинки, устранить искажение перспективы и в два счета привести снимок к «плоскому» виду. Подобный функционал может быть полезен как для улучшения читабельности сфотографированных документов, так и для приведения разнородных снимков к общему знаменателю.

. и после коррекции трапеции средствами FineReader 11

ABBYY FineReader предоставляет широкий спектр возможностей для работы с форматом PDF — принятым во всем мире стандартом обмена электронными документами и деловой переписки. В обновленной редакции продукта улучшена технология MRC-сжатия (Mixed Raster Content), благодаря чему можно уменьшить размеры PDF-файлов в пять раз, по сравнению с 10-й версией программы, без видимых изменений качества изображения — это позволяет экономить пространство на диске компьютера и пересылать объемные документы по электронной почте. Три новых режима сохранения PDF — «Высокое качество», «Небольшой размер», «Сбалансированный режим» — позволяют пользователю получать оптимальные результаты для разного типа задач.

Претерпели изменения в FineReader 11 также средства редактирования и проверки документов. Из наиболее значимых новшеств можно отметить механизм разделения пакета страниц на несколько документов. Данная функция может быть полезна при сканировании в едином потоке разнородных материалов (газетные вырезки, журнальные статьи, сканы книжных страниц и так далее), для каждого из которых необходимо использовать различные настройки OCR-движка. Сортировка осуществляется простым перетягиванием мышью миниатюр страниц в окне «Разделить документ на несколько» и последующим нажатием клавиши «Создать» (см. скриншот). В результате для каждого набора страниц запустятся отдельные копии FineReader с независимыми друг от друга параметрами распознавания текстов.

Брызги нововведений затронули также инструментарий для проверки неуверенно распознанных и отсутствующих в словарной базе слов, редактор стилей с функцией объединения стилей со схожими атрибутами и диалоговое окно «Задачи», обеспечивающее мгновенный доступ ко всем базовым и пользовательским сценариям работы. Кроме того, в FineReader 11 появилась возможность изменять нумерацию страниц в книгах с обратной нумерацией и восстанавливать оную при двустороннем сканировании документов.

Таковы основные изменения одиннадцатой линейки FineReader, обзор которой был бы неполным без упоминания особенностей корпоративной сборки продукта, включающей все возможности Professional-редакции и имеющей ряд дополнительных инструментов для удобства совместной работы в сети (например на одном компьютере можно сканировать документы, на другом — распознавать, а на третьем — проверять результаты). Кроме того, версия Corporate Edition предусматривает возможность автоматизированной установки программы на вычислительные машины в локальной сети и централизованное управление лицензиями.

Акцентируя внимание на новшествах FineReader 11 Corporate Edition, прежде всего следует отметить расширенное стартовое окно «Задачи» и возможность создания пользователем собственных сценариев работы программы. Если в профессиональной редакции OCR-пакета список «однокликовых» операций строго регламентирован, то в корпоративной версии его можно всячески варьировать, гибко настраивая и автоматизируя работу FineReader. Важной особенностью приложения является возможность использования сценариев, созданных другими пользователями, и наличие в составе продукта планировщика Hot Folder, также подвергшегося дальнейшим улучшениям и доработкам.

Настраиваемые сценарии FineReader 11 Corporate Edition

Менеджер задач с функциями экспорта/импорта сценариев

Следуя новым техническим и организационным веяниям в области информационной безопасности, разработчики ABBYY оснастили текстовый редактор программы средствами цензурирования документов. Основная функция новинки заключается в защите конфиденциальных данных от посторонних глаз: с помощью специального маркер, пользователь может замазать черными полосами секретный текст и сделать его недоступным для просмотра и копирования. Функция поддерживается при сохранении документа в PDF-файл, а также в других форматах.

Что касается предъявляемых одиннадцатой версией FineReader системных требований, то они практически не изменились. Для корректной работы пакета необходим функционирующий под управлением Windows компьютер с тактовой частотой процессора 1 ГГц или выше и объемом оперативной памяти не менее одного гигабайта. Программа работает со всеми популярными моделями сканеров и многофункциональных устройств (МФУ), в том числе с цифровыми фотокамерами и камерами мобильных телефонов с разрешением свыше двух мегапикселей и функцией автофокуса.

Читайте также: