Abbyy pdf transformer finereader сравнение

Обновлено: 03.07.2024

В арсенале компании Abbyy вот уже около 10 лет имеется продукт под названием PDF Transformer. Он менее известен, чем FineReader, хотя, по большому счету, и основан на тех же технологиях. С момента своего появления он решал, фактически, всего одну главную задачу: преобразовывал PDF-документы в редактируемые форматы — к примеру, в DOC. Основная идея, конечно же, заключалась в том, чтобы при этом максимально сохранить не только содержимое документа, но и его оформление. Поэтому, если PDF Transformer 1.0 был простым конвертером с минимумом настроек, то в PDF Transformer 2.0 появилась возможность управлять процессом преобразования на уровне отдельных областей страниц (текстовых блоков, таблиц, изображений), а PDF Transformer 3.0 обзавелся поддержкой технологии ADRT, которая старается воссоздать логическую структуру всего документа.

Сегодняшний продукт, однако, выбивается из прежней линейки. Вместо ожидаемого приращения номера версии мы видим добавку к названию в виде знака «плюс», которая, очевидно, призвана намекнуть, что перед ними нечто большее, чем просто конвертер. Забегая вперед, скажу, что это действительно так, и мы имеем дело с совершено новым продуктом. Для 2009-го PDF Transformer 3.0 был достаточно передовым инструментом, но с тех пор по меркам ИТ прошло очень много времени. Импортировать PDF научились офисные пакеты — в Microsoft Office 2013 эта возможность встроена, для OpenOffice имеется соответствующее, причем бесплатное, расширение и т.п.

Конечно, конвертеры в обоих приведенных примерах более уместно сравнивать с PDF Transformer 1.0. Они не допускают настроек, работают медленнее, нередко зависают и пр. Тем не менее, во многих случаях (на не самых объемных и сложных документах) тот же Word 2013 выдает вполне пристойные результаты, и большинство его пользователей они наверняка устроят. Соответственно, давайте разберемся, что же может предложить PDF Transformer+ сверх просто конвертации.

Что не так с PDF?

Portable Document Format (PDF) — это кроссплатформенный (переносимый) формат электронных документов, созданный компанией Adobe с использование возможностей ее же языка печати PostScript. Изначально он предназначался для полиграфии и фактически представлял собой электронный аналог «твердой копии», т.е. распечатки. Аналогию усиливает то, что поначалу самым распространенным способом получения PDF была печать рабочих документов на виртуальный принтер, т.е. специальную программу/драйвер, преобразующую один набор графических команд (GDI в случае Windows) в другой — в нашем контексте, именно в PDF.

За свою двадцатилетнюю историю PDF, естественно, претерпел множество изменений. Сегодня он представляет собой достаточно сложный контейнер для самого разнообразного содержимого: текста, графических (растровых и векторных) и мультимедийных объектов, форм и других интерактивных элементов, гиперссылок и исполняемых сценариев. В 2008 г. он стал открытым стандартом ISO 32000 и сегодня поддерживается (в качестве результирующего формата) практически всем сколько-нибудь серьезным ПО для создания документов. Это, кстати, большой плюс, поскольку приложения обладают полной информацией о структуре документа и могут сохранять ее в PDF с помощью специальных тэгов, которые, в частности, упрощают переформатирование (reflow) документов на маленьких экранах современных мобильных устройств.

Общие сведения и установка

  • процессор с частотой 1 ГГц;
  • 1 ГБ оперативной памяти плюс по 512 МБ на каждый дополнительный процессор в многопроцессорных системах;
  • 700 МБ дискового пространства для самой программы и столько же для ее работы;
  • монитор с разрешением не менее 1024х768;
  • операционная система от Windows XP до Windows 8 с необходимой языковой поддержкой.

Но надо понимать, что это минимальные требования, и большее количество ресурсов позволит программе работать более эффективно. PDF Transformer+ использует движок FineReader, который умеет качественно распараллеливать задания и выжимать максимум из имеющегося оборудования. Вот, к примеру, как выглядит процесс конвертации многостраничного документа:

Abbyy PDF Transformer+

Хорошо видно, что задача задействует все четыре ядра процессора (три процесса FineExec и Тransformer, интерфейс программы).

Abbyy PDF Transformer+ поставляется на компакт-диске или в виде электронного инсталляционного модуля, который предварительно разворачивается и запускает ту же программу установки:

Abbyy PDF Transformer+

В процессе можно будет выбрать место расположения программы, а выборочная установка позволит исключить ненужные подключаемые модули (для современных версий приложений особого смысла в них нет), которые позволят оперативно создавать PDF из приложений Microsoft Office и проводника Windows:

Abbyy PDF Transformer+

При первом запуске программы будет предложено выполнить активацию либо воспользоваться 30-дневным ознакомительным периодом:

Abbyy PDF Transformer+

Рекомендованные цены составляют 2490 руб. за коробочную версию и 2240 руб. за электронную.

В настоящий момент доступна пробная версия продукта, о начале продаж будет объявлено дополнительно.

Возможности Abbyy PDF Transformer+

Основное окно программы предлагает оперативный доступ к последним открытым файлам и основным операциям:

Abbyy PDF Transformer+

Уже оно дает некоторое представление о изменениях в PDF Transformer+. Так, появилась возможность создания файлов путем сканирования оригиналов, а интерфейс программы предполагает непосредственную работу с PDF. Фактически, PDF Transformer+ может использоваться в качестве стандартной программы для просмотра PDF всех типов, а использование официальной Adobe PDF Library гарантирует максимальную совместимость. При этом обеспечивается сквозной (а не последовательный, как скажем в Adobe Reader) поиск по всему документу, причем независимо от его типа (при необходимости автоматически задействуется OCR), а также по комментариям, метаданным (свойствам документа):

Abbyy PDF Transformer+

Abbyy PDF Transformer+

Abbyy PDF Transformer+

При активном обсуждении с комментариями можно работать в специальной панели, чтобы они не закрывали основное содержимое документов.

Abbyy PDF Transformer+

Имеются также возможности для простановки специальных штампов и подписи документа цифровой электронной подписью (нужен соответствующий сертификат):

Abbyy PDF Transformer+

Abbyy PDF Transformer+

Если сравнивать PDF Transformer+ с Adobe Reader, то у последнего арсенал подобных средств несколько шире, к примеру, в нем можно рисовать простые графические формы и записывать голосовые комментарии, но возможности PDF Transformer+ покрывают большинство потребностей в части рецензирования и совместной работы. Более существенным недостатком является то, что PDF Transformer+, несмотря на использования стандартной библиотеки Adobe, все же не поддерживает некоторые формы и, соответственно, не позволяет вносить в них информацию.

Зато PDF Transformer+ для графических страниц будет автоматически запускать процедуру OCR сразу после открытия PDF-файла (если это отмечено в настройках), что позволит скопировать любой фрагмент документа:

Abbyy PDF Transformer+

Abbyy PDF Transformer+

Однако кроме функций просмотра и рецензирования документов в PDF Transformer+ присутствуют и функции редактирования. Самая простая операция — добавление текстовых блоков в любом месте документа, которая доступна в обычном режиме.

Abbyy PDF Transformer+

Документы, в которые можно вносить изменения — не такая редкость. Как правило, это практически все, которые создавались в «обычных» приложениях и предназначались для распространения в электронном виде, а не полиграфии: различная документация, учебные материалы, статьи, презентации, пресс-релизы и пр. В них можно осуществлять построчные правки — удалять, заменять, добавлять символы и слова. Естественно, ни о каком переформатировании абзацев или, тем более, страниц речь не идет.

Abbyy PDF Transformer+

Возможна также корректировка размеров изображений (без изменения макета страницы), удаление, добавление и перестановка страниц.

Содержимое документа также можно избирательно удалять, причем несколькими способами. Ластик просто стирает выделенные соответствующим инструментом области, в некоторых случаях пытаясь изображать размытие на их границах. Другой инструмент, в режиме удаления информации, равномерно закрашивает области выбранным цветом (по умолчанию черным):

Abbyy PDF Transformer+

В обоих случаях соответствующая информация удаляется полностью (т.е. не только визуально, но и на уровне текста). Дополнительно можно удалить скрытые данные, в частности, комментарии и метаданные, а также — весь текстовый слой, и сохранить результирующий документ как чисто графический. Это гарантирует полное исчезновение затертых данных и исключает последующее редактирование, хотя тот же PDF Transformer+ сможет воссоздать текстовый слой из изображений страниц и осуществлять по ним поиск.

Abbyy PDF Transformer+

Выше представлены новые возможности PDF Transformer+, которые должны заинтересовать пользователей в наибольшей степени, но ими его функциональность не исчерпывается. Приложение умеет также создавать PDF, причем из самых различных материалов, в том числе, из изображений, содержащихся в файлах популярных форматов или получаемых непосредственно со сканера. Кроме подключаемых модулей для Microsoft Office в комплект PDF Transformer+ входит виртуальный принтер PDF-XChange 5.0, способный «распечатать» в PDF данные из любых приложений:

Abbyy PDF Transformer+

Также PDF Transformer+, поддерживает функции защиты документов. Кроме уже упомянутой цифровой подписи, имеется возможность управлять паролями для различных уровней доступа к PDF. При этом можно выбирать алгоритмы шифрования, оставлять открытыми метаданные и пр.

Abbyy PDF Transformer+

Кроме того, можно оптимизировать PDF; добавлять в документы нумерацию Бейтса; выполнять пакетное преобразование или, наоборот, вручную корректировать разметку страниц в расширенном режиме, чтобы исключить распознавание текста на иллюстрациях и пр.

Abbyy PDF Transformer+

Резюме

Итак, знак плюс в названии продукта нас не обманул. Abbyy PDF Transformer+ действительно не просто конвертер, а универсальный комбайн для работы с PDF в рамках возможностей этого формата. Для многих (прежде всего, непрофессиональных) применений он вполне может составить конкуренцию Adobe Acrobat за счет более низкой цены, простого интерфейса, проверенного OCR-движка, удачной реализации некоторых функций, в частности, поиска. Согласно исследованию Abbyy, 75% пользователей периодически нуждаются в преобразовании PDF в другие форматы, а 60% активно копируют из них текст и изображения. Соответственно, потенциальная аудитория Abbyy PDF Transformer+ довольно широка.

Благодаря новым возможностям продукт пригодится всем тем, кто отвечает за подготовку документов, но не владеет исходными инструментами их подготовки (работники маркетинга, PR, отделов продаж, инженеры и пр.) — внести небольшие исправления будет гораздо проще самостоятельно, чем давать задание дизайнерам и вновь проверять результат. Продукт также представляет интерес для представителей науки и образования — от студентов, занимающихся подготовкой рефератов, до научных сотрудников, работающих со статьями, монографиями, учебниками в электронном виде.

Компании Abbyy остается лишь пожелать не останавливаться на достигнутом и продолжить совершенствование PDF Transformer+, прежде всего, в части поддержки форм, что еще расширит сферу его применения.

Сегодня мы сравним три программных продукта от компании ABBYY и разберемся какой продукт лучше подходит для ваших целей:

  • ABBYY PDF Transformer+;
  • ABBYY FineReader 15 Business;
  • ABBYY FineReader 15 Enterprise.

ABBYY PDF Transformer+

Если Вам требуется программа для работы с PDF-файлами, а именно для их редактирования, создания, объединения и сканирования, то вам отлично подойдет ABBYY PDF Transformer+.

Из ограничений: нет возможности отредактировать отсканированный документ (только распознавание в текстовый формат и копирование результата), добавить или удалить внешние гиперссылки и водяные знаки, а также отредактировать PDF-формы.

Итог: идеально подходит, если вам необходимо внести текстовые правки в PDF-документ, а также конвертировать из PDF в другой формат (Word, Excel итд).

ABBYY FineReader 15 Business

Данная редакция включает в себя все функции PDF Transformer+, а так же позволяет редактировать отсканированные документы, удалять и редактировать водяные знаки, PDF-формы, гиперссылки, а также включает в себя программу ABBYY Hot Folder, позволяющая автоматически распознавать и конвертировать документы. (5 000 стр/мес
макс. 2 ядра процессора.)

Итог: ABBYY FineReader 15 Business идеально подходит, если вам необходимо сканировать и редактировать отсканированные документы, а так же иметь в наличии все инструменты для редактирования PDF-файлов.

ABBYY FineReader 15 Enterprise

Максимальная редакция, включающая весь функционал ABBYY FineReader Business, дополнительно к этому добавляется возможность сравнения документов в различных форматах.

Данная функция ABBYY FineReader 15 Enterprise идеально подойдет для тех, кто работает с договорами, Вам не придется вручную сравнивать ранее согласованный вариант договора с присланным оригиналом от партнера. Вы просто сканируйте присланный оригинал, и программа покажет отличия.

Дополнительно к этому увеличивается количество страниц, которые возможно распознать автоматически с помощью ABBYY Hot Folder (10 000 стр/мес макс. 4 ядра процессора.)

Что нового в ABBYY FineReader 15?


Возможности FineReader 14 FineReader 15
Открытие и просмотр PDF-документов
Просмотр PDF-документов ✓ улучшено
(открытие до 40% быстрее)
Разные режимы просмотра PDF (одностраничный или двухстраничный, полноэкранный или в пользовательском масштабе и т.д.)
Навигация внутри PDF-документа с помощью пиктограмм и закладок
Редактирование PDF-документов
Редактирование текста PDF-документов ✓(только в пределах строки) ✓ улучшено
в пределах абзаца
Перемещение текстовых блоков и изображений на странице, изменение порядка текстовых блоков и изменение разметки страницы без конвертирования - (только с конвертацией) ✓ new
Добавление строк и текстовых блоков (абзацев) в PDF-документ ✓ (только в пределах одной строки) ✓ улучшено
Редактирование сканов в формате PDF на уровне абзаца ✓ (только в пределах одной строки) ✓ улучшено
Поиск в тексте, комментариях, закладках и метаданных, выделение результатов поиска
Добавление и редактирование комментариев с помощью инструментов разметки и рисования. Добавление статусов, печать PDF-документов со списками комментариев
Добавление и редактирование закладок и гиперссылок
Добавление и редактирование колонтитулов (в т.ч. нумерации страниц)
Добавление нумерации Бейтса
Просмотр, редактирование и удаление метаданных
Заполнение PDF-форм, валидация введенной информации, импорт и экспорт данных из полей форм
Защита PDF-документов
Удаление конфиденциальной информации ("черный" маркер)
Защита PDF-документа паролем от несанкционированного доступа, редактирования и/или печати
Добавление и валидация цифровой подписи*, создание подписи из изображения
Распознавание текста и конвертирование
Создание документов PDF, PDF/A, PDF/UA из файлов изображений, MS Office, PDF и файлов других форматов
Конвертация изображений и PDF-документов в различные редактирумые форматы, форматы изображений, электронных книг и др.
Сохранение форматирования и структуры документа при конвертировании
Проверка и редактирование результатов распознавания, форматирования и структуры документа ✓ улучшено
Распознавание мультиязычных документов 192 языка 192 языка
Определение и распознавание таблиц и диаграмм и графиков ✓ улучшено
Редактор для предварительной обработки изображений (обрезка, яркость и контраст, утранение трапецивидных искажений, осветление фона и др.
Извлечение текста, изображений, таблиц для дальнейшего использования
ABBYY Hot Folder**
Автоматизация задач по распознаванию и конвертации документов, в т.ч. по расписанию
Сравнение документов**
Сравнение документов на различных языках 38 38
Сравнение документов в различных форматах, включая бумажные и электронные
Обнаружение различий в тексте документа, заголовках, колонтитулах, нумерации
Обнаружение битой кодировки в сравниваемых документах для избежания выявления ложных различий ✓ улучшено
Сохранение результатов сравнения в формате PDF-документа с комментариями к найденным различиям или перечня различий в Microsoft Word
Сохранение результатов сравнения в формате Word в режиме Исправлений (Track changes) - ✓ new
Общее
Год выпуска 2017 2019
Редакции Standard, Business, Enterprise Standard, Business, Corporate
Скидка на обновление с предыдущих версий (Upgrade) При обновлении с ABBYY FineReader 11/12 или ABBYY PDF Transformer+ При обновлении с ABBYY FineReader 12/14
Типы лицензий для организаций Per Seat, Concurrent, Terminal Per Seat, Concurrent, Remote User

* Для использования функции необходимо иметь сертификат ключа электронной цифровой подписи.
** Доступно в редакции ABBYY FineReader 15 Corporate/ABBYY FineReader 14 Enterprise.

Новый FineReader 14 можно сравнить со швейцарским ножом — теперь под его личиной кроются сразу четыре продукта именитого разработчика, объединённых в одну программу с единым рабочим окружением. Помимо успевшей зарекомендовать себя с наилучшей стороны системы оптического распознавания текста Optical Character Recognition (OCR), которая обеспечивает конвертирование отсканированных изображений, фотографий, документов или PDF-файлов в редактируемые электронные форматы, в составе программы представлены редактор PDF, инструмент «Сравнение документов» для сравнения документов различных форматов, включая бумажные и электронные, а также средства автоматизации задач по конвертации документов Hot Folder. Вряд ли кто-то мог предполагать, что в почти четвертьвековой истории развития FineReader (первая версия продукта увидела свет в 1993 году) случится такой крутой поворот, однако в ABBYY убеждены в правильности выбранного курса и уверены, что подобного рода перемены сделают программу ещё более востребованной в пользовательской среде.

Новая концепция FineReader 14

Новая концепция FineReader 14

Своё стремление уйти от устоявшихся традиций в компании объясняют современными тенденциями развития рынка электронного документооборота. Согласно проведённым ABBYY исследованиям, сотрудники различных организаций регулярно сталкиваются со следующими сценариями работы с документами: преобразование изображений и PDF-файлов в редактируемые форматы и внесение в них правок; сравнение документов разных форматов; создание, просмотр и редактирование PDF-файлов, а также извлечение из них данных. При этом типичный пользователь имеет дело с четырьмя и более сценариями и для решения каждой задачи использует разные программные продукты. В результате получается так, что вместо того, чтобы выполнять свою задачу, сотрудник компании занимается тем, что изучает эти инструменты и переключается между ними в процессе работы. Это очень неудобно и, по сути, является бесполезной тратой ресурсов, правильно распорядиться которыми должен новый FineReader 14.

ABBYY FineReader 14 предоставляет широкий спектр возможностей в одной программе

ABBYY FineReader 14 предоставляет широкий спектр возможностей в одной программе

Не остались без изменений в обновлённом FineReader и фирменные технологии оптического распознавания текста ABBYY OCR и обработки структуры документа Adaptive Document Recognition Technology. Приложение определяет расположение текста, тип и размер шрифта, начертание и другие особенности форматирования, а также воссоздаёт структурные элементы — таблицы и диаграммы, колонки, заголовки, сноски, колонтитулы, номера страниц. В результате пользователь получает электронную копию документа, идентичную оригиналу. Распознанный текст можно сохранить как текстовый документ (DOCX, ODT, RTF), электронную таблицу (XLSX), презентацию (PPTX), файл HTML, электронную книгу (ePub и FB2), а также в форматах PDF и PDF/A.

Профессиональные инструменты для распознавания текста

Профессиональные инструменты для распознавания текста

Предобработка изображений

С помощью встроенного в программу редактора пользователь может сравнить в одном окне оригинальный документ и распознанную копию. Расширенные функции по редактированию позволяют корректировать форматирование документа, вносить правки в текст, редактировать изображения, искать информацию, управлять страницами документа. Кроме того, имеется возможность вручную задавать области для распознавания и даже научить программу распознаванию специфических шрифтов.

Редактирование документов

В четырнадцатую версию FineReader были добавлены новые языки распознавания: математические символы (для распознавания однострочных математических формул) и английская транскрипция. Таким образом, теперь программа умеет оперировать документами на 192 мировых языках и любых их комбинациях.

Также при подготовке FineReader 14 к выпуску специалисты ABBYY увеличили скорость обработки и точность распознавания документов, доработали средства конвертирования PDF-файлов с текстовым слоем, улучшили работу с таблицами, графиками, диаграммами и документами на арабском языке. Множеству доработок подверглись другие компоненты программного комплекса. В частности, теперь FineReader позволяет создавать PDF-документы из файлов различных редактируемых форматов (DOCX, XLSX, RTF и др.) и объединять их в один PDF-документ.

Самый важный компонент нового FineReader – PDF-редактор, построенный на базе программы ABBYY PDF Transformer+. Приложение позволяет выполнять рецензирование и согласование PDF-документов, а также предлагает полный набор функций для их защиты от несанкционированного доступа и изменений. Кроме того, приложение интегрировано с Adobe PDF Library , что обеспечивает гарантированное открытие любых PDF -файлов и возможность внесения в них изменений без преобразования в редактируемый формат. С прицелом на корпоративный сегмент рынка в программе предусмотрены инструменты удаления конфиденциальной информации, добавления цифровой подписи и разграничения прав на печать и редактирование документов.

Внесение изменений в текст PDF-документов

Внесение изменений в текст PDF-документов

FineReader 14 позволяет преобразовывать PDF в популярные форматы Microsoft Word, Excel, PowerPoint, HTML, OpenOffice (ODT) и другие. При этом исходная структура и форматирование документа сохраняются. Благодаря упомянутой выше поддержке ePub и FB2, пользователи могут создавать из PDF-документов любительские электронные книги для чтения на планшетах и других портативных устройствах. Отдельно стоит отметить возможность создания PDF из файлов изображений (JPEG, JPEG2000, JBIG2, PNG, BMP, GIF, TIFF) и поддержку потокового конвертирования документов.

Цифровая подпись

Пригодится новый FineReader и тем, кто по долгу службы часто сталкивается с процессом согласования договоров или работает с документами, для которых характерна версионность. Возможности инструмента «Сравнение документов» позволяют сверять документы в различных форматах, быстро находить даже самые мелкие несоответствия в тексте и предотвращать тем самым подписание или публикацию некорректной версии документа. Автоматическое сравнение документов поможет существенно сэкономить время юристам, менеджерам по продажам, финансистам, логистам, а также всем офисным сотрудникам, которые сталкиваются со сравнением документов — договоров, актов, прайс-листов или других материалов.

Параллельный просмотр различий

Параллельный просмотр различий

Проводить сравнение документов можно как в текстовых, так и в графических (отсканированные документы или их фотографии, PDF без текстового слоя и т. п.) форматах. Для удобства работы с полученными результатами все обнаруженные несоответствия отображаются на отдельной панели, а также подсвечиваются по тексту в обоих документах. Предусмотрена возможность создания подробного отчёта о различиях и последующего его сохранения в виде таблицы в формате Word или PDF-документа с комментариями в местах изменений. Полученную таблицу можно использовать для вставки в отчёт о согласовании документов или для ведения переговоров с контрагентом. Несущественные различия перед формированием отчёта можно удалить.

Сохранение результатов сравнения

Сохранение результатов сравнения

Для предприятий среднего и крупного бизнеса в составе FineReader 14 представлено приложение-планировщик ABBYY Hot Folder, с помощью которого можно автоматизировать однотипные или повторяющиеся задачи по обработке документов в сети организации. Возможности программы позволяют выполнять пакетное конвертирование файлов, преобразование документов по расписанию и обработку почтовых вложений. Для начала работы необходимо выбрать компьютер, который будет заниматься выполнением перечисленных операций, указать рабочую директорию на файловом сервере и настроить список задач.

Обработка документов по расписанию

Обработка документов по расписанию

Таковы основные отличительные особенности нового поколения FineReader, определённо заслуживающего внимания тех, кто часто занимается оцифровкой бумажных документов. Программа предназначена для запуска в среде Windows, совместима со всеми популярными моделями сканеров и многофункциональных устройств (МФУ) и поставляется разработчиком в трёх редакциях — Standard, Business и Enterprise. Они различаются набором включённых инструментов, формами поставки и условиями лицензирования.

Редакции и формы поставки ABBYY FineReader 14

Редакции и формы поставки ABBYY FineReader 14

И последний штрих. Как и в случае с предыдущими версиями FineReader, условия лицензионного договора допускают установку продукта на один стационарный и один мобильный компьютер при соблюдении двух требований: оба устройства должны принадлежать человеку, который приобрёл продукт, и одновременно может быть запущена только одна копия программы. Таким образом, приложение можно установить и на рабочий ноутбук, и на домашний ПК, не нарушая тем самым условий лицензионного соглашения с компанией ABBYY.

- ABBYY FineReader PDF 15 Standard предназначается для использования дома.

- ABBYY FineReader PDF 15 Business – решение для использования в небольших и средних компаниях.

- ABBYY FineReader PDF 15 Enterprise – самая полная редакция программы для средних и крупных компаний.

FineReader PDF 15 Standard
FineReader PDF 15 Business
FineReader PDF 15 Corporate
Просмотр, редактирование + + +
Защита и подпись PDF + + +
Совместная работа и согласование + + +
Создание PDF-документа + + +
Создание интерактивных PDF-форм + + +
Сравнение документов +
Оцифровка документов и сканов с помощью OCR + + +
Конвертирование документов + + +
Автоматизация задач по оцифровке и конвертации HotFolder
ABBYY Screenshot Reader + + +
Прогрессивная система скидок + + +
Несколько типов лицензий (Standalone, Per Seat, Concurrent, Remote) За исключением Concurrent + +
Сервер лицензий + + +

ABBYY FineReader 15 поддерживает несколько типов лицензирования для корпоративных клиентов. Решайте различные задачи сотрудников одной программой, которая объединяет все инструменты для работы с бумажными и PDF-документами. Это сократит затраты на закупку и поддержку ПО, а также обучение персонала.

Типы лицензий для организаций




Регулярная потребность у ограниченного числа сотрудников.

Подходит для компьютеров, отключенных от локальной сети, например, ноутбуков.

Периодическая потребность у большого числа сотрудников.

Для использования обязателен доступ к локальной сети или терминальному серверу.


Сегодня мы обновили ABBYY FineReader 15 и выпустили его под брендом ABBYY FineReader PDF, потому что он объединяет все инструменты для работы с PDF. По этому поводу публикуем первый пост из серии материалов о фичах программы. В нем мы расскажем об одной интересной возможности, которая не первый месяц есть в программе, но, возможно, не все о ней знали.

Давно ли вы открывали PDF-файлы? Готовы поспорить, что совсем недавно. Скорее всего, на вашем компьютере точно найдется пара сканов, а может, еще и макет презентации, аналитическое исследование или техническая инструкция. Для каких задач обычно используют эти документы? По данным опроса ABBYY, 62% респондентов ищут информацию в PDF, 60% — копируют текст из документа, а 52% — редактируют: вносят в файл правки, исправляют ошибки и опечатки.

Даже сейчас не все знают, что можно редактировать текст в PDF. Да, изменение таких файлов устроено не так, как редактирование обычного текстового документа. ABBYY FineReader PDF с многофункциональным текстовым редактором для работы с PDF и сканами позволяет быстро внести изменения прямо в PDF, без утомительной конвертации файла в другие форматы. При редактировании текст в PDF плавно перетекает со строчки на строчку, как в MS Word. Можно добавить или удалить несколько слов, изменить целые абзацы или даже поменять их местами.

В этом посте мы раскроем технические подробности редактирования многострочных фрагментов текста в FineReader: как мы изменили движок программы, как редактирование устроено изнутри и как оно выглядит для пользователя. Поехали!

Форматом PDF пользуются по всему миру: его содержимое одинаково отображается на любых компьютерах, смартфонах и планшетах с разными операционными системами. Это удобно и помогает избежать неловких ситуаций. Например, когда вы написали текст в MS Word, отправили коллегам, а они открывают его LibreOffice'ом или Wordpad'ом, и все поехало и начинается веселье. PDF, конечно, в этом плане удобнее, но с текстом здесь все сложно. В 70% всех существующих PDF-документов текст есть, а в 30% — нет, так как это изображения.

Поговорим сначала о PDF, в которых текст есть. Чтобы редактировать PDF, надо понимать, как в нем записан текст. Открывали когда-нибудь PDF в блокноте? Если да, то вы видели такое:


Чтобы все это отображалось понятно для пользователя, нужно проделать большую работу.

Задача: понять PDF

Содержимое каждой страницы в PDF-файле хранится в виде потоков команд для отрисовки документа – это могут быть текст, изображения или векторная графика. Структуру файла определяют PDF-объекты, например, страница, картинка, комментарий (а абзацы, строчки текста и буквы – это всего лишь части объекта). Символ в PDF представляется глифом . То, как они записаны, определяется шрифтом . Каждый символ хранится отдельно: у него есть шрифт, код символа в шрифте и координаты его расположения на странице. То, где глифы расположены, определяется как раз потоком команд. Кроме того, буквы объединены в потоки текста (text run), но они не смысловые.

В PDF нет ни строк, ни абзацев, которые есть в документах текстовых форматов. Даже порядок текста не всегда определен. То есть вы видите текст, но на самом деле текста не существует. Это хаос из трудно понятных инструкций (как на изображении выше), которые нужно правильно отобразить в конкретных местах документа, с соответствующим форматированием.

«А как же текст?» – спросите вы.


Текст в PDF все же существует, и его даже получится редактировать. Для этого мы учим наши технологии понимать структуру текста, например, определять и выделять строки. Расскажем об этом подробнее.

Библиотеки PDF и как мы их поменяли

Чтобы сделать возможным редактирование целых абзацев, мы сильно поменяли нашу внутреннюю подсистему (библиотеку), которую мы называем PdfTools. Она занимается тем, что открывает PDF-файлы, парсит потоки команд (т.е. понимает, где расположен текст, где картинки, и воссоздает структуру документа) и помогает пользователям оперировать этими данными: прочитать, изменить, сохранить в PDF.

Подсистема PdfTools содержит все необходимые инструменты, чтобы прочитать содержимое и обернуть его в объекты (страница, картинка, комментарий), с которыми удобно работать программе. С этими объектами уже могут работать наши продукты, в частности ABBYY FineReader PDF и другие.

Как было раньше. В FineReader 14 мы умели редактировать текст только в рамках одной строчки. После редактирования необходимо было выполнить «рендеринг» — расставить глифы на свои новые места.

Вообще рендеринг — это визуализация. Но мы вкладываем в это слово иное понятие — расположение объектов в PDF на своих местах. Для PDF-специалистов это и есть визуализация, которую больше никто не видит. Когда мы говорим о визуализации в привычном понимании, то используем слово «растеризация».

Что решили изменить. Когда появилась задача многострочного редактирования, мы поняли, что в рамках одной библиотеки PdfTools это будет проблематично делать. Нам необходимо было научиться автоматически находить в тексте PDF более крупные фрагменты, например, «видеть» абзацы, понимать, где находятся их границы, какое форматирование должно быть у целого фрагмента текста и что происходит при переходе с одной строки на другую. Чтобы определить все эти параметры, мы решили привлечь для решения этой задачи и другие наши OCR-технологии — Document Analysis (DA) и Synthesis, которые умеют строить структуру документа.

Document Analysis и Synthesis

Чтобы определять в тексте блоки, ABBYY FineReader PDF использует технологию Document Analysis. Она позволяет найти абзацы, таблицы, картинки. Программа подсвечивает найденные блоки небольшими бледными рамками, чтобы пользователю удобнее было вносить правки:


Далее мы усовершенствовали другую подсистему нашей программы – Synthesis. Мы уже рассказывали на Хабре, зачем она нужна. Если вкратце, именно она определяет структуру и все характеристики распознанного текста: какие используются шрифты и размеры, какое начертание (bold, italic, underline), где заголовки, списки, отступы и многие другие параметры, которые можно настраивать в том же MS Word. Мы доработали Synthesis для того, чтобы при распознавании и воссоздании страницы очень точно восстанавливать исходные параметры текста.

Особенности подчеркнутого текста

В PDF нет такого атрибута текста как подчеркивание, привычного, например, пользователям MS Word. Подчеркивание в PDF – это векторная графика, никак не связанная с текстом. Без дополнительной доработки продукта при редактировании «подчеркнутого» текста символы бы перемещались привычным образом, а линии, обозначающие подчеркивания, оставались бы на месте. ABBYY FineReader PDF умеет определять и редактировать подчеркнутый текст привычным пользователю образом.

Редактирование таблиц в PDF

Как отредактировать скан?

Возможность многострочного редактирования доступна и для сканов. Кстати, пользователю даже не надо задумываться, скан перед ним или нет. ABBYY FineReader PDF сам определит это и запустит нужные механизмы. Например, в дате договора — опечатка, или ФИО контрагента поменялось: оно стало длиннее и должно «перетечь» на следующую строчку.

В программе скан сначала распознается, а потом происходит подготовка к редактированию. Когда скан распознали, то текст получается не в нашем исходном документе, а в его виртуальном «двойнике». И именно в нем происходят все операции по редактированию.

Когда пользователь закончил редактировать документ, программа автоматически собирает все изменения со страницы и заменяет эти фрагменты в исходном документе. Наша задача — встроить текст обратно в PDF-документ, не повредив все то остальное, что уже есть в нем.

Редактирование скана позволяет не тратить время на конвертацию документа в другие форматы и обратно. Это удобно, когда нужно быстро внести забытую правку в дату или другой фрагмент текста.

Пример многострочного редактирования. Текст автоматически перераспределяется по строкам по мере добавления слов и предложений внутри абзаца.

Вместо заключения

  • быстро,
  • без конвертации документа,
  • с помощью одной программы.

В следующем посте через неделю мы расскажем о том, как научили ABBYY FineReader PDF еще одной интересной фиче и для чего может пригодиться новая функциональность.

Пишите в комментариях, о каких еще технологических особенностях нашей программы вам было бы интересно узнать?

Читайте также: