Как отключить распознавание текста в finereader

Обновлено: 07.07.2024

Есть девятый ABBYY FineReader. Есть Word-2007 английский. Всё установлено под WIN XP русский . Есть несколько более-менее качественно отсканированных книг в форматах pdf и в djvu. Языков в книгах два и в больших количествах - русский и иврит (ну, живу я здесь..)Открыватся они, распознаются и сохраняются в формат pdf без явных проблем. Иврит не распознаётся, но он и не должен. Сложности начинаются позже, когда я пытаюсь сделать из нх документ Word. Документ-то получается, но вместо всего иврита получаются не какие-то там "нераспознанные символы", а абракадабра на кириллице. С преобразованием документа в формат html те же грабли. Мне крайне желаемо получить эти книги в редактируемых форматах для русского языка . Вопрос - ошибки появляются в результате моих личных глупостей и незнания матчасти? Или подобное преобразование не относится к элементарно простым?

Распознаётся текст грамотно. Русский распознаётся, иврит не распознаётся и остаётся картинками.. Сохраняется в файл PDF на отлично. Далее я этот файл пытаюсь конвертировать в формат ворда, что мне должно дать русский редактируемый распознанный текст и иврит в виде картинок. С русским всё отлично - но вместо картинок ивритовских слов получаются какие-то куски слов на русском!

Я катил на сабж - но попробовал парочку других конверторов PDF=Doc. Получился набор сбоев - местами иврит вышел именно картинкой, местами набором русскошрифтового абсурда, с русским изначальным всё хорошо. При этом работать с получившимся файлом на 120 страниц невозможно - ворд грузит трёхгигагерцный пень полностью и еле шевелится, оперативки ему более чем много. А это для меня критично, с книжками работать надо.

Есть еще один момент, который здесь надо учесть.
У FineReader есть дурная привычка распознавать символы одного языка, как символы другого языка и, притом, делать это со стопроцентной уверенностью. Тогда не спасает даже упомянутая установка "Заместить неуверенно распознанные символы их изображениями".

Так что, если и в PDF, сделанном по совету Goul, все равно пойдет мусор, то придется вручную размечать проблемные места с ивритом, как картинки.
Геморрой, конечно, но что поделаешь .

Распознаю книгу из djvu, сохраняю как doc (либо в docx). Вот ту начинаются проблемы. 2007 офис видит только 4 страницы, хотя пишет, что в документе 12к слов. 2003 офис открывает документ нормально.
Причем если сохранять в pdf, то сохраняются все страницы.

Народ напишите утилиту батч-анализа - количество-блоков на каждой из страницы в пакете + количество ошибок и неуверенно-распознанных символов. Идеально еще добавить возможность пакетно удалять блоки из страниц по размеру, номеру и т.п. Это бы столько времени могло сэкономить.


После короткого рассказа о том, как устроен ABBYY FineReader (aka «теоретическая часть»), самое время перейти к применению полученных знаний. И да, котиков под катом нет: всё очень серьёзно.

Как пользователю поучаствовать в обработке документа

Чтобы не изобретать велосипед, начну с простой и понятной схемы из Справки (см. рисунок справа).

Теперь, зная список всех операций, посмотрим на примерах – что может пойти не по плану и как с этим бороться.

Хорошо распознаются только хорошие изображения

А что делать, когда изображения есть, но не очень хорошие? Улучшить прямо в FineReader всё что можно, а, если улучшить нельзя, — попытаться получить изображение заново, устранив проблему. Поскольку тема очень обширная, то при должном интересе будет отдельный пост про то, как подружиться с автоматическими и ручными инструментами обработки изображений прямо в FineReader. Пока же ограничусь замечанием, что изображение будет обработано лучше, если оно:

  • (после сканирования) не имеет выраженных геометрических искажений — перекоса или заметного изгиба страниц толстой книги у корешка двухстраничного разворота,
  • (после фотографирования, в дополнение к предыдущему) не имеет ещё и нелинейных геометрических искажений («подушка», «трапеция»), имеет равномерную фокусировку (а желательно и яркость) по всей площади, не имеет шумов от недостаточной освещённости, не имеет выраженной засветки от вспышки (особенно на глянцевой бумаге).

Этап настройки документа/проекта


Можно и нужно сразу указать язык текста, параметры предобработки изображений, некоторые параметры анализа и распознавания. Вот скриншот одной из вкладок диалога настроек.

Эти и прочие настройки подробно описаны в Справке

Этап анализа

Назначение областей разных типов

В пользовательском интерфейсе FineReader доступны области нескольких типов, для них есть разные варианты скрываемой панели свойств (внизу окна «Изображение») и контекстного меню (по щелчку правой кнопкой мыши):

    «Зона распознавания» (по умолчанию серая рамка) — такое название использовано в пользовательском интерфейсе, на мой взгляд правильнее было бы назвать «область для автоматического анализа». Назначение такой области – указать, где на странице вообще нужно искать что-то полезное. Поэтому в результате последующего анализа или анализа+распознавания в пределах каждой «зоны распознавания» может найтись ноль и более областей других типов. Особенно полезны зоны распознавания бывают в шаблонах блоков (подробнее о них в Справке).

Примеры правильно нарисованных зон распознавания


Реальный пример из проекта оцифровки Толстого — часть страниц имеет нумерацию строк (пронумерованы строки с номерами, кратными 10), не нужную в результате и затрудняющую вычитку/правку текста, если автоматический анализ включил эти номера в текстовую область колонки. Если страницы были почти одинаково выровнены на сканере или качественно обрезаны после сканирования, то перед анализом к нужной группе страниц можно применить шаблон блоков, где область (или области) распознавания просто не содержит не нужных нам частей страницы:

Помните, что в отличие от текстовой области область распознавания может превратиться в области разных типов, что бывало нужно и в этом проекте.

Эти параметры задаются на блок, так что выделять текст разного направления или разной инверсности в один блок – другая плохая идея.

В европейских языках в нормальной ориентации текста строки читаются сверху вниз (в блоке с повёрнутым текстом – от логического верха в сторону логического низа), но в случае иероглифических языков всё гораздо веселее – даже на одной странице одни области могут содержать текст в горизонтальной ориентации, а другие – в колоночной, причём иероглифы имеют одинаковую ориентацию во всех этих областях (если тема дальневосточных и ближневосточных языков интересна – просите отдельный пост про тамошние навороты).

Важные соображения

  • Распознавание и синтез видят только те фрагменты текста, которые оказались выделены в текстовые области или текстовые ячейки таблиц. Если кусок текста не выделен в блоки – распознаваться он не будет.
  • Аналогично и с картинками — если часть картинки оказалась вне области или одна целостная картинка оказалась разделена на несколько областей – скорее всего, в результате обработки будут проблемы.
  • Языки распознавания в FineReader задаются не для галочки – они влияют на очень многие механизмы, начиная уже с анализа: например, иероглифический (китайский, японский, корейский языки) или арабский текст имеют много особенностей, которые учитываются не всегда, а только при выборе соответствующих языков распознавания.

Особенности взаимодействия близкорасположенных или пересекающихся областей

    Пересечение текстовых и табличных блоков друг с другом, если есть символы или их части, оказавшиеся в более чем одном блоке – практически всегда ошибка, такие результаты анализа нужно исправлять, тем более что обычно это делается в несколько движений мыши.

Пересечение картиночных областей друг с другом – практически всегда ошибка, хотя и менее критичная для обработки именно текста. Такие случаи тоже желательно исправлять.



Примеры правильного использования картинок в таблице


Обратите внимание, что с помощью галочки в панели свойств области (внизу) ячейки из левой колонки таблицы сделаны картинками.

Текстовая область на фоне «картиночной» области — тоже важный инструмент: на фоне обычных картиночных областей могут находиться подписи к ним, на «фоновых» картиночных областях может располагаться и основной («колоночный») текст документа, а также таблицы.

Примеры правильного использования текстовых областей на фоне картинок



Маленькие хитрости для облегчения работы с блоками

Описанные соглашения отражены в поведении редактора блоков. Например, если вы рисуете новый или растягиваете имеющийся блок так, что он полностью или почти полностью перекрывает другие блоки — эти другие блоки автоматически удаляются.

Логичность/нелогичность выделения областей

Тут самое время подумать — для каких целей и какого формата документ хочется получить в результате обработки. Вот некоторые соображения, влияющие на количество и характер исправлений разметки блоков в сложных случаях:

Вариант 1: нам нужен только текст (возможно, мы этого не понимаем, но дело обстоит именно так)
  • нет «мусорных» областей, где в качестве текста или таблиц распознаются (мусором) элементы картинок или элементов оформления страницы.
  • области логично выделяют строки, не допуская попадания символов в более чем одну область и неоправданного дробления строк на более чем одну область.
  • то, что с точки зрения человека является таблицами в оригинале, должно быть выделено в табличные области. Это влияет как на качество распознавания (например, базовые линии строк в разных ячейках могут быть не выровнены по вертикали), так и на удобство поиска и копирования фрагментов текста в выходном документе.

Если отдельные картинки не должны копироваться из выходного PDF-документа – то такие области можно из документа исключить вовсе (не создавать новые и не оставлять найденные автоматикой, как минимум – удалять нелогично найденные картинки, а если не лень – то и все).

Я надеюсь шире и глубже раскрыть тему «разумности» картинок в статье про сохранение документов — если такая будет интересна читателям данного материала.

Вариант 2: нужно всё и сразу

Если документ, включающий не одно лишь текстовое содержимое (в одну или две колонки), предполагается сохранить сразу как электронную книгу в форматах FB2/e-pub или в любой промежуточный редактируемый формат (Вордовый или HTML) для дальнейшего редактирования и производства электронной книги, то осмысленное выделение таблиц и картинок становится особенно важно.
Среди прочего нужно определиться с тем, что делать с группами рядом расположенных картинок, и что делать с подписями к картинкам, как рядом стоящими, так и накладывающимися на картинки. Подробнее разберём эту тему в «Практикуме», на реальных примерах.

Распознавание страниц, добавленных в документ ABBYY FineReader, выполняется в автоматическом режиме с текущими настройками программы. Вы можете отключить автоматический анализ и распознавание добавленных изображений на закладке Сканировать/Открыть диалога Настройки (меню Сервис>Настройки…).

Что такое Abbyy FineReader 12?

ABBYY FineReader — программа для оптического распознавания символов, разработанная российской компанией ABBYY. Программа позволяет переводить изображения документов (фотографий, результатов сканирования, PDF-файлов) в электронные редактируемые форматы.

Как уменьшить размер PDF файла в Abbyy FineReader?

Уменьшение размера PDF-документа

Как изменить текст в Файнридере?

Как в ABBYY FineReader изменить текст

Отредактировать текст можно двумя способами: непосредственно в окне «Текст», либо выбрав на панели инструментов «Сервис» и далее «Проверка».

Редактирование текста в отсканированном документе

Как распознать документ из пдф в ворд?

Как распознать текст?

Как отключить автоматическое распознавание в FineReader?

Как отключить автоматический анализ и распознавание изображения:

Как в FineReader сохранить без распознавания?

Как конвертировать изображения в PDF без распознавания

  1. Выделите изображения, которые необходимо сохранить как PDF-файл;
  2. Щелкните на одном из изображений правой клавишей мыши;
  3. Выберите Конвертировать с помощью ABBYY FineReader PDF 15 > Конвертировать в PDF (только изображение);
  4. В открывшемся окне выберите директорию для сохранения PDF-файла.

В каком порядке работает программа Abbyy FineReader?

Процесс обработки документов с помощью программы ABBYY FineReader состоит из четырех этапов: • Получение изображения; • Распознавание документа; • Проверка и редактирование полученного текста; • Сохранение результатов распознавания.

Как установить файн ридер?

Установка программы ABBYY FineReader 8.0

Как установить файн ридер на компьютер?

В приложениях Microsoft Office нажмите кнопку запуска ABBYY FineReader, расположенную на панели FineReader 12; В Windows Explorer выделите файл с изображением и в его контекстном меню выберите пункт ABBYY FineReader 12>Открыть в ABBYY FineReader 12 или опцию конвертирования в нужный формат.

Как сделать текст в PDF более четким?

Увеличьте контрастность PDF-файла для резкости и затемнения текста

  1. Откройте файл PDF с помощью предварительного просмотра
  2. В меню «Файл» выберите «Экспорт»,
  3. Нажмите на раскрывающееся меню «Кварцевый фильтр» и выберите «Уменьшение освещенности»,
  4. Выберите «Сохранить»

Как можно сжать файл PDF?

В Acrobat DC выберите Инструменты > Оптимизировать PDF. На панели инструментов в раскрывающемся списке Уменьшить размер файла нажмите Уменьшить размер файлов. Adobe тестирует процесс уменьшения размера файлов на панели инструментов «Оптимизировать PDF» под двумя названиями: Уменьшить размер файла и Сжать PDF.

Как сохранить документ в FineReader без распознавания?

Выделите изображения, которые необходимо сохранить как PDF-файл; Щелкните на одном из изображений правой клавишей мыши; Выберите Конвертировать с помощью ABBYY FineReader PDF 15 > Конвертировать в PDF (только изображение); В открывшемся окне выберите директорию для сохранения PDF-файла.

Как отсканировать документ в файн ридер?

На Главной панели выбрать закладку Сканировать > Сканировать изображение. В диалоговом окне установить параметры сканирования (см. выше). Изображения страницы будут добавляться в конец открытого документа FineReader.

Как настроить сканер в Abbyy FineReader?

Вы можете легко переключать интерфейс сканирования:

  1. Откройте диалог Опции на закладке Сканировать/Открыть (меню Сервис>Опции…).
  2. В группе Сканер установите переключатель в одно из положений: Использовать интерфейс ABBYY FineReader или Использовать интерфейс сканера.

Как отключить Гугл Ассистент для наушников?

Как включить или отключить Voice Match

Как отключить распознавание голоса в Google?

В статье использовано меню Android 7.0.

Как в Файнридере сохранить формат JPG?

В меню Файл выберите пункт Сохранить изображения…. В открывшемся диалоге Сохранить изображения как выберите диск, папку для размещения сохраняемого файла. Отметьте опцию, следует сохранить все страницы документа или только выделенные. Выберите графический формат, в который вы хотите сохранить изображение.

Для чего нужна программа файн ридер?

Как уменьшить размер PDF файла в FineReader?

PDF-редактор позволяет уменьшить размер такого документа.

  1. В меню Файл выберите команду Уменьшить размер файла.
  2. В открывшемся диалоге укажите:
  3. Качество изображений — можно уменьшить размер документа, содержащего большое количество картинок, снизив качество изображений;

Как в FineReader сканировать несколько страниц?

Для того чтобы открыть диалог Настройки сканера, щелкните по кнопке Настройки сканера на закладке Сканировать/Открыть диалога Опции (меню Сервис/Опции). Убедитесь в том, что на закладке Сканировать/Открыть диалога Опции (меню Сервис>Опции) отмечен пункт Сканировать несколько страниц.

Как сканировать документ в Adobe Reader?

Как открыть Abbyy FineReader?

Как запустить ABBYY FineReader

  1. Запустить ярлык с рабочего стола компьютера
  2. Выбрать в меню Пуск раздел Программы и запустить ABBYY FineReader.
  3. Если вы пользуетесь приложениями Microsoft Office, то достаточно нажать на инструментальной панели значок программы

Как добавить принтер в Файнридере?

Куда сохраняет файлы файн ридер?

По умолчанию файлы задач сохраняются в папку %Userprofile%Local SettingsApplication DataABBYYHotFolder10.00. (В операционных системах Microsoft Windows Vista, Windows 7 — в папку %Userprofile%AppDataLocalABBYYHotFolder10.00). Создается при повторном запуске задачи.

Что значит сканер?

Сканер (англ. scanner, от scan «пристально разглядывать, рассматривать») — устройство ввода, которое, анализируя какой-либо объект (обычно изображение, текст), создаёт его цифровое изображение. Процесс получения этой копии называется сканированием.

Читайте также: