После переноса из файн ридер в таблице видна только половина текст

Обновлено: 03.07.2024

Правильно установленные параметры распознавания помогут вам быстро получить качественный документ, пригодный для дальнейшего редактирования. Выбор параметров зависит не только от объема и сложности исходного документа, но и от того, как вы намерены использовать распознанный документ.

Выбрать необходимые параметры вы можете на закладке Распознать диалога Опции (меню Сервис>Опции…).

Внимание! Распознавание страниц, добавленных в документ ABBYY FineReader, выполняется в автоматическом режиме с текущими настройками программы. Вы можете отключить автоматический анализ и распознавание добавленных изображений на закладке Сканировать/Открыть диалога Опции (меню Сервис>Опции…).

Замечание. Если вы изменили язык распознавания, выделили области на изображении вручную или изменили другие настройки программы, выполните распознавание заново.

На закладке Распознать диалога Опции вы можете изменить настройки для следующих групп опций:

Режим распознавания
Выберите один из режимов распознавания.

В ABBYY FineReader 10 предусмотрено два режима распознавания:

    Тщательное распознавание
    Данный режим пригоден для распознавания как простых, так и сложных документов. Например, для документов, содержащих текст на цветном фоне, или для документов, содержащих таблицы, в том числе таблицы без линий сетки и таблицы с цветными ячейками.

Для выбора режима распознавания в группе Режим распознавания выберите одну из опций: Тщательное распознавание или Быстрое распознавание.

Обучение
По умолчанию режим Распознавание с обучением отключен. Для того чтобы в процессе распознавания проводилось обучение неизвестным символам, отметьте опцию Распознавание с обучением.

Распознавание с обучением используется для распознавания следующих текстов:

  • Для набора которых использованы декоративные шрифты
  • В которых встречаются специальные символы (например, отдельные математические символы)
  • Большого объема (более 100 страниц) текста плохого качества

При распознавании вы можете использовать встроенные эталоны или создать собственный эталон. Для этого выберите нужную опцию в группе Обучение.

Совет: Если символы в текстовом окне ABBYY FineReader отображаются некорректно (в словах на месте некоторых букв стоят значки "?" или "□"), это означает, что шрифты, выбранные на закладке Сохранить, не содержат всех символов, входящих в распознаваемый язык. Установите шрифт (группа Шрифты, меню Сервис>Опции, закладка Сохранить), поддерживающий все символы языка документа (например, Arial Unicode MS или Bitstream Cyberbit), и перераспознайте документ. Более подробно о шрифтах для поддерживаемых языков см. раздел "Шрифты, необходимые для корректного отображения символов поддерживаемых языков в редакторе ABBYY FineReader".

Распознанный текст выводится в окно Текст. При сохранении текста в приложение оформление документа сохраняется в соответствии с опциями форматирования, устанавливаемыми на закладке Сохранить и в диалоге Форматы.

Неуверенно распознанные символы выделяются цветом. Вы можете отменить выделение слов с неуверенно распознанными символами: на закладке .Вид (меню Сервис>Опции) снимите отметку с пункта Выделять неуверенно распознанные символы.

Редактор ABBYY FineReader поддерживает два режима просмотра документа: режим с полным сохранением исходного оформления документа и черновой режим просмотра.

В режиме с полным сохранением исходного оформления документа блоки с распознанным текстом, таблицами и картинками отображаются именно там, где они были в исходном изображении. Таким образом, в этом режиме сохраняется исходный вид изображения: колонки, таблицы, картинки и буквицы (большие буквы на несколько строк в абзаце). Блок, в котором находится курсор, является активным. При перемещении курсора с помощью клавиатуры последовательность обхода блоков определяется их порядковыми номерами. Если текст блока не умещается внутри его границ (например, в результате редактирования распознанного текста), то часть текста неактивного блока может быть не видна на экране. Признаком этого являются специальные красные маркеры на границах блока. Когда блок становится активным, его границы расширяются таким образом, чтобы весь его текст был виден на экране целиком.

В черновом режиме редактора не отображаются: левый отступ; выравнивание абзаца (все абзацы прижаты к левому краю); цвет и фон символов. Для показа текста используется шрифт одного размера (по умолчанию 12 пт.). При этом сохраняется шрифт и форматирование текста: полужирный, курсив, подчеркнутый, верхние и нижние индексы.

Переход из одного режима в другой осуществляется нажатием кнопок (режим отображения исходного оформления документа) и (черновой режим редактора) в окне Текст.

Вы можете поменять установленный по умолчанию размер шрифта для показа в черновом режиме. Для этого:

  1. В меню Сервис выберите пункт Опции.
  2. На закладке Вид укажите нужный размер шрифта в пункте Размер шрифта в черновом режиме.

Редактор системы ABBYY FineReader предоставляет следующие возможности по редактированию текста:

Копирование, вырезание, вставка выделенных фрагментов текста

Чтобы скопировать выделенный текст:


После короткого рассказа о том, как устроен ABBYY FineReader (aka «теоретическая часть»), самое время перейти к применению полученных знаний. И да, котиков под катом нет: всё очень серьёзно.

Как пользователю поучаствовать в обработке документа

Чтобы не изобретать велосипед, начну с простой и понятной схемы из Справки (см. рисунок справа).

Теперь, зная список всех операций, посмотрим на примерах – что может пойти не по плану и как с этим бороться.

Хорошо распознаются только хорошие изображения

А что делать, когда изображения есть, но не очень хорошие? Улучшить прямо в FineReader всё что можно, а, если улучшить нельзя, — попытаться получить изображение заново, устранив проблему. Поскольку тема очень обширная, то при должном интересе будет отдельный пост про то, как подружиться с автоматическими и ручными инструментами обработки изображений прямо в FineReader. Пока же ограничусь замечанием, что изображение будет обработано лучше, если оно:

  • (после сканирования) не имеет выраженных геометрических искажений — перекоса или заметного изгиба страниц толстой книги у корешка двухстраничного разворота,
  • (после фотографирования, в дополнение к предыдущему) не имеет ещё и нелинейных геометрических искажений («подушка», «трапеция»), имеет равномерную фокусировку (а желательно и яркость) по всей площади, не имеет шумов от недостаточной освещённости, не имеет выраженной засветки от вспышки (особенно на глянцевой бумаге).

Этап настройки документа/проекта


Можно и нужно сразу указать язык текста, параметры предобработки изображений, некоторые параметры анализа и распознавания. Вот скриншот одной из вкладок диалога настроек.

Эти и прочие настройки подробно описаны в Справке

Этап анализа

Назначение областей разных типов

В пользовательском интерфейсе FineReader доступны области нескольких типов, для них есть разные варианты скрываемой панели свойств (внизу окна «Изображение») и контекстного меню (по щелчку правой кнопкой мыши):

    «Зона распознавания» (по умолчанию серая рамка) — такое название использовано в пользовательском интерфейсе, на мой взгляд правильнее было бы назвать «область для автоматического анализа». Назначение такой области – указать, где на странице вообще нужно искать что-то полезное. Поэтому в результате последующего анализа или анализа+распознавания в пределах каждой «зоны распознавания» может найтись ноль и более областей других типов. Особенно полезны зоны распознавания бывают в шаблонах блоков (подробнее о них в Справке).

Примеры правильно нарисованных зон распознавания


Реальный пример из проекта оцифровки Толстого — часть страниц имеет нумерацию строк (пронумерованы строки с номерами, кратными 10), не нужную в результате и затрудняющую вычитку/правку текста, если автоматический анализ включил эти номера в текстовую область колонки. Если страницы были почти одинаково выровнены на сканере или качественно обрезаны после сканирования, то перед анализом к нужной группе страниц можно применить шаблон блоков, где область (или области) распознавания просто не содержит не нужных нам частей страницы:

Помните, что в отличие от текстовой области область распознавания может превратиться в области разных типов, что бывало нужно и в этом проекте.

Эти параметры задаются на блок, так что выделять текст разного направления или разной инверсности в один блок – другая плохая идея.

В европейских языках в нормальной ориентации текста строки читаются сверху вниз (в блоке с повёрнутым текстом – от логического верха в сторону логического низа), но в случае иероглифических языков всё гораздо веселее – даже на одной странице одни области могут содержать текст в горизонтальной ориентации, а другие – в колоночной, причём иероглифы имеют одинаковую ориентацию во всех этих областях (если тема дальневосточных и ближневосточных языков интересна – просите отдельный пост про тамошние навороты).

Важные соображения

  • Распознавание и синтез видят только те фрагменты текста, которые оказались выделены в текстовые области или текстовые ячейки таблиц. Если кусок текста не выделен в блоки – распознаваться он не будет.
  • Аналогично и с картинками — если часть картинки оказалась вне области или одна целостная картинка оказалась разделена на несколько областей – скорее всего, в результате обработки будут проблемы.
  • Языки распознавания в FineReader задаются не для галочки – они влияют на очень многие механизмы, начиная уже с анализа: например, иероглифический (китайский, японский, корейский языки) или арабский текст имеют много особенностей, которые учитываются не всегда, а только при выборе соответствующих языков распознавания.

Особенности взаимодействия близкорасположенных или пересекающихся областей

    Пересечение текстовых и табличных блоков друг с другом, если есть символы или их части, оказавшиеся в более чем одном блоке – практически всегда ошибка, такие результаты анализа нужно исправлять, тем более что обычно это делается в несколько движений мыши.

Пересечение картиночных областей друг с другом – практически всегда ошибка, хотя и менее критичная для обработки именно текста. Такие случаи тоже желательно исправлять.



Примеры правильного использования картинок в таблице


Обратите внимание, что с помощью галочки в панели свойств области (внизу) ячейки из левой колонки таблицы сделаны картинками.

Текстовая область на фоне «картиночной» области — тоже важный инструмент: на фоне обычных картиночных областей могут находиться подписи к ним, на «фоновых» картиночных областях может располагаться и основной («колоночный») текст документа, а также таблицы.

Примеры правильного использования текстовых областей на фоне картинок



Маленькие хитрости для облегчения работы с блоками

Описанные соглашения отражены в поведении редактора блоков. Например, если вы рисуете новый или растягиваете имеющийся блок так, что он полностью или почти полностью перекрывает другие блоки — эти другие блоки автоматически удаляются.

Логичность/нелогичность выделения областей

Тут самое время подумать — для каких целей и какого формата документ хочется получить в результате обработки. Вот некоторые соображения, влияющие на количество и характер исправлений разметки блоков в сложных случаях:

Вариант 1: нам нужен только текст (возможно, мы этого не понимаем, но дело обстоит именно так)
  • нет «мусорных» областей, где в качестве текста или таблиц распознаются (мусором) элементы картинок или элементов оформления страницы.
  • области логично выделяют строки, не допуская попадания символов в более чем одну область и неоправданного дробления строк на более чем одну область.
  • то, что с точки зрения человека является таблицами в оригинале, должно быть выделено в табличные области. Это влияет как на качество распознавания (например, базовые линии строк в разных ячейках могут быть не выровнены по вертикали), так и на удобство поиска и копирования фрагментов текста в выходном документе.

Если отдельные картинки не должны копироваться из выходного PDF-документа – то такие области можно из документа исключить вовсе (не создавать новые и не оставлять найденные автоматикой, как минимум – удалять нелогично найденные картинки, а если не лень – то и все).

Я надеюсь шире и глубже раскрыть тему «разумности» картинок в статье про сохранение документов — если такая будет интересна читателям данного материала.

Вариант 2: нужно всё и сразу

Если документ, включающий не одно лишь текстовое содержимое (в одну или две колонки), предполагается сохранить сразу как электронную книгу в форматах FB2/e-pub или в любой промежуточный редактируемый формат (Вордовый или HTML) для дальнейшего редактирования и производства электронной книги, то осмысленное выделение таблиц и картинок становится особенно важно.
Среди прочего нужно определиться с тем, что делать с группами рядом расположенных картинок, и что делать с подписями к картинкам, как рядом стоящими, так и накладывающимися на картинки. Подробнее разберём эту тему в «Практикуме», на реальных примерах.


Редактирование текста после вставки с wikipedia
Доброго времени суток! Хотелось бы узнать, как удалить все квадратные скобки включая цифры в них.

Убрать пробелы после сканирования
Здравствуйте форум! Подскажите плиз как решить такой вопрос. Отсканировал страницу потом.

Программа рспознавания текста после сканирования
Есть МФУ, но не использовал раньше. А тут появилось желание по сканировать. Какую программу.

Скрипт для сканирования текста
Добрый день! Задание: Подсчитать количество записей text (к примеру) в тексте и найти самую.

Есть ли для этого какая нибудь функция, или какие-то шаблоны или еще что-нибудь.

Чудес не бывает - нет такой функции. Можно использовать какую-нибудь функцию, но потом проверять текст надо всё-равно.
Попробуйте следующее (сам ни разу не использовал) - Формат - Автоформат.

Вообще, надо приучаться использовать Стили. Лучше использовать встроенные стили (а не создавать свои - чтобы было меньше хлама в документе), изменяя их под себя, а затем применять для изменения внешнего вида документа.
Стили менять надо так: Формат - Стили и форматирование - щ. правой кнопкой мыши по стилю - Изменить. Откроется диалоговое окно Изменение стиля. Чтобы стиль каждый раз не изменять, чтобы он был во всех новых документах, поставьте флажок Добавить в шаблон.

В сочетании со стилями надо использовать Темы (Формат - Тема. ). В данном случае изменяется одновременно вид нескольких стилей автоматически.

Проблема человека не в том, как сделать текст красивым, а в том, как довести его до ума после сканирования и распознвания. Это включает в себя множество действий, предшедствующих применению стилей. Например:

1. Нужно удалить все фигуры из текста, которые делает Fine Reader из-за грязных листочков или плохо распознаных таблиц;

2. Нужно стандартизировать параметры страницы

3. Нужно настроить абзацы: отступы до и после, выступы, запрет висячих строк и т.п.

4. Нужно проделать множесво операций по верстке самого текста. Главной задачей является сохранение исходного оформления (курсива, жирного выделения, выравнивания), но с применением стандартных (согласно учебным требованиям) размеров шрифта, начертания, масштаба знаков, трекинга и т.п.

5. Нужно поработать с таблицами: подогнать их по ширине экрана, определить заголовки, оформить согласно содержимому.

6. Нужно привести в порядок маркированные и нумерованные списки: программы для распознавания часто заменяют римские цифры на английскую букву "l" или на "!".

7. Есть ещё много-много мусора, которые ставяться FineReader-ом в конце предложений, хотя глазами видно, что там просто грязный листочек.

8. Нужно структурировать текст: избавиться от мягких переносов, разрывов предложений и слов (неправильно распознаются дефисы и тире).

Этот список можно ещё продолжить, но я хотел только показать сложность поставленной задачи и реальность её выполнения с помощью макросов.

Я СОГЛАСЕН С ТЕМ, ЧТО ОТРЕДАКТИРОВАННЫЙ ТАКИМ СПОСОБОМ ТЕКСТ ВСЁ РАВНО НУЖНО ПРОВЕРЯТЬ ГЛАЗАМИ, НО ДАЖЕ ЭТУ ПРОВЕРКУ МОЖНО ОБЛЕГЧИТЬ, ЕСЛИ НАПИСАТЬ МАКРОС ДЛЯ ПОДСВЕТКИ ПОДОЗРИТЕЛЬНЫХ МЕСТ, СПИСОК КОТОРЫХ МОЖНО ЗАРАНЕЕ ПРЕДВИДЕТЬ.

Читайте также: