Optical text recognition software выберите один ответ fine writer prompt stylus fine reader paint

Обновлено: 04.07.2024

Для быстрого перевода текста с бумажных носителей в электронный вид используют сканеры и программы распознавания символов .

После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.

Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов.

Наиболее широко известна и распространена такая программа отечественных производителей — ABBYY FineReader .

Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках (на 179 языках), а также для распознавания смешанных двуязычных текстов.

Возможности программы ABBYY FineReader:

Работает с разными моделями сканеров.
Позволяет из бумажных документов, PDF-файлов и цифровых фото сделать редактируемый текст.
Позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (многостраничными документами) и с бланками.
Позволяет редактировать распознанный текст и проверять его орфографию.
Сохраняет внешний вид документа, а также его структуру, то есть, расположение слов, абзацев, таблиц, изображений, заголовков и нумерация страниц останутся такими же, как и в оригинале.
Экспортирует тексты в Word, Excel, PowerPoint или Outlook.

Преобразование бумажного документа в электронный вид происходит в пять этапов. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.

Пять этапов процесса обработки документа с помощью программы ABBYY FineReader:

Сканирование документа (кнопка Сканировать).
Сегментация документа (кнопка Сегментировать).
Распознавание документа (кнопка Распознать).
Редактирование и проверка результата (кнопка Проверить).
Сохранение документа (кнопка Сохранить).

1) На этапе сканирования производится получение изображений при помощи сканера и сохранение их в виде, удобном для последующей обработки. Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать.

2) Второй этап работы — сегментация , разбиение страницы на блоки текста. Если страница содержит колонки, иллюстрации, врезки, подрисуночные подписи или таблицы, то порядок распознавания требует коррекции. Содержимое страницы разбивается на блоки, внутри каждого из которых распознавание осуществляется в естественном порядке. Блоки нумеруются, исходя из порядка включения их в документ. При автоматической сегментации (кнопка Сегментировать) определение границ блоков осуществляется автоматически. При этом учитываются поля документа, просветы между колонками, рамки.

3) Процесс распознавания текста после сегментации начинается с щелчка на кнопке Распознать и полностью автоматизирован.

4) Когда распознавание данной страницы завершается, полученный текстовый документ отображается в окне Текст. Заключительные этапы работы позволяют отредактировать полученный текст с помощью средств, напоминающих текстовый редактор WordPad. Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Проверить.

5) По щелчку на кнопке Сохранить запускается Мастер сохранения результатов. Он позволяет сохранить распознанный текст или передать его в другую программу (например, в Microsoft Word) для последующей обработки полученный текст можно сохранить в виде форматированного или неформатированного документа.

Поможем успешно пройти тест. Знакомы с особенностями сдачи тестов онлайн в Системах дистанционного обучения (СДО) более 50 ВУЗов. При необходимости проходим систему идентификации, прокторинга, а также можем подключиться к вашему компьютеру удаленно, если ваш вуз требует видеофиксацию во время тестирования.

Закажите решение за 470 рублей и тест онлайн будет сдан успешно.

1. Отличительная черта открытого программного обеспечения:
Исходный код программ распространяется бесплатно
Исходный код программ доступен для просмотра и изменения
Исходный код программ можно продавать неограниченному числу пользователей

3. Прикладное программное обеспечение общего назначения
текстовые и графические редакторы
системы управления базами данных (СУБД)
программы сетевого планирования и управления
оболочки экспертных систем и систем искусственного интеллекта
средства разработки приложений
бухгалтерские программы

6. Типы пакетов прикладных программ:
общего назначения (универсальные)
методо-ориентированные
аппаратно-ориентированные
объектно-ориентированные
глобальных сетей
организации (администрирования) вычислительного процесса
информационно-справочные

8. Программные комплексы проблемно-ориентированного прикладного программного обеспечения:
система «Галактика»
система автоматизированного проектирования AutoCAD
пакет офисных программ MS Office
программы оценки эффективности инвестиций Project Expert
комплекс программ Open Office
программы решения уникальных прикладных программ
справочно-правовая система «КОНСУЛЬТАНТПЛЮС»

10. Положения, которые включает современная версия определения свободы программного обеспечения:
Свобода запускать программу в любых целях
Свобода извлекать из программы коммерческую выгоду
Свобода изучения работы программы и ее адаптация
Свобода декомпилировать программу и представлять ее на другом языке программирования
Свобода распространять копии
Свобода улучшать программу и публиковать ваши улучшения

11. Программные средства методо-ориентированного прикладного программного обеспечения
математической статистики.
математического программирования (линейного, динамического, статистического);
системы управления базами данных (СУБД);
графические редакторы
теории массового обслуживания
текстовые редакторы

12. Прикладное программное обеспечение – это
программы, написанные для пользователей или самими пользователями, для задания компьютеру конкретной работы
совокупность программ, необходимых для функционирования аппаратных средств компьютера
все программы, необходимые для организации диалога пользователя с компьютером
комплекс программ, с помощью которых пользователь может решать свои информационные задачи из самых разных предметных областей, не прибегая к программированию

13. Задачи пользователей для решения, которых предназначено прикладное ПО:
проведения досуга
создания документов, графических объектов, баз данных
настройки системных параметров
проведения расчетов
изменения режимов работы периферийных устройств
ускорения процесса обучения

14. Самая известная программа оптического распознавания текстов
Prompt
Fine Reader
Fine Writer
Stylus

15. Представители прикладного программного обеспечения глобальных сетей:
средства доступа и навигации, н-р, Opera
средства разработки Web-приложений
почтовые программы для электронной почты (e-mail), н-р The Bat

Москва, 29 августа 2001 - Российские компании ABBYY Software House, разработчик систем распознавания и лингвистического программного обеспечения, Sound & Vision, Inc., молодая компания, специализирующаяся на разработке программного обеспечения для MacOS, и компания Apple IMC, официальный представитель Apple Computer в России и ряде стран СНГ, объявляют о начале продаж с 15 сентября в России новой системы распознавания для платформы Macintosh - ABBYY FineReader 5 Pro for Mac.

Новый продукт явился результатом совместной работы двух компаний – ABBYY Software House и Sound & Vision, Inc. Ядром ABBYY FineReader 5 Pro for Mac стала OCR-технология компании ABBYY, которая была перенесена на платформу Macintosh. Компания Sound & Vision осуществила разработку интерфейса для Mac, стараясь сохранить привычные черты интерфейса FineReader и, при этом, привнести «дух Макинтоша», используя уникальные технологии Apple.

Система распознавания FineReader уже давно известна на мировом рынке, как наиболее качественная. Она не раз побеждала в сравнительных тестах, проводимых различными изданиями и тестовыми лабораториями в России и за рубежом. На сегодня технология FineReader опережает все существующие системы распознавания. С выходом ABBYY FineReader 5 Pro for Mac достоинства всемирно известной OCR-системы смогут оценить и пользователи Macintosh.

ABBYY FineReader 5 Pro for Mac разрабатывался специально для платформы Macintosh. Весь интерфейс, включая панели управления, пиктограммы и диалоговые окна создавался непосредственно для работы в Mac OS Appearance Manager. ABBYY FineReader 5 Pro for Mac использует в полной мере преимущества таких Apple-технологий, как QuickTime, Drag-and-Drop, Navigation Services, AppleScript и AppleSpeech.

«Для нас ABBYY FineReader 5 Pro for Mac – это не просто новый продукт в существующей линейке, это, в первую очередь, выход на новый рынок. Для создания FineReader for Mac мы использовали ядро распознавания системы FineReader для PC. На сегодня эта технология не имеет равных – ближайшие конкуренты отстают от нас по качеству распознавания на 2-3 года, остальные отстали навсегда. Нам приятно сознавать, что мы можем предложить пользователям Macintosh не просто новый продукт, а лучший в своей области», - сказал Генеральный директор компании ABBYY Сергей Андреев.

«Не секрет, что люди, работающие на Mac с недоверием относятся к продуктам, разработанным для платформы PC. Мы хотели разрушить этот стереотип. Технология распознавания FineReader – действительно лучшая, независимо от того, на какой платформе она работает. А наша задача была сделать так, чтобы для пользователей Macintosh работа с системой FineReader была удобна и привычна. Совместные усилия двух наших компаний принесли действительно хороший результат», - сказал Генеральный директор компании Sound & Vision Максим Абаляев.

«Рынок приложений для Macintosh - весьма требователен к разработчикам программного обеспечения. Здесь действуют свои жесткие требования и, прежде всего, в том, что касается удобства использования. То, как компании ABBYY и Sound & Vision подошли к разработке ABBYY FineReader 5 Pro for Mac, и то, что у них получилось - это безусловный пример создания продукции, способной потягаться за первенство не только на российском, но и на мировом рынке. Мы рады, что российские программисты подтверждают свою готовность конкурировать на рынке приложений для Macintosh», - сказал Генеральный директор Apple IMC Андрей Туров.

Основные характеристики FineReader for Mac:

Принцип «одной кнопки» - Scan&Read позволяет осуществить весь процесс сканирования и распознавания документов по нажатию одной кнопки.

Scan&Read Assistant – проводит пользователей через весь OCR процесс, позволяя выбрать наиболее подходящие настройки для начинающих пользователей. Также Scan&Read Assistant существенно облегчает работу с программой при выполнении рутинных операций во время обработки большого количества страниц. Многоязычное распознавание – распознает тексты на 117 языках, включая многоязычные документы. Проверка орфографии для 23 языков – выделяет неуверенно распознанные символы и предлагает возможные варианты. В окне "крупный план" можно посмотреть редактируемый текст крупным планом. Анализ структуры документа – сохраняет внешний вид документа, включая колонки, таблицы, картинки, заглавные буквы и надстрочные символы. Пакетная обработка – позволяет пользователям быстро и легко сканировать и обрабатывать многостраничные документы. Работа с готовыми изображениями – поддерживает большое количество форматов изображений, включая TIFF, JPEG и PICT. Сохранение форматов – поддерживает большое количество выходных форматов, включая AppleWorks, MS Word, MS Excel и SimpleText. Кроме того, позволяет публиковать документы в форматах HTML и PDF. Чтение текста вслух – поддерживает технологию AppleSpeech для английского и испанского языков. Автоматизация рутинных операций – поддерживает технологию AppleScript что может позволить пользователям легко повторять сложные последовательности действий с программой. Стоимость одной лицензии ABBYY FineReader 5 Pro for Mac составит 129 долларов США. Владельцы версии FineReader для Mac, поставляемой в комплекте со сканерами, смогут приобрести FineReader 5 Pro for Mac по цене 99 долларов США.

Систему распознавания текста в FineReader можно описать очень просто.

У нас есть страница с текстом, мы разбираем ее на текстовые блоки, затем блоки разбираем на отдельные строчки, строчки на слова, слова на буквы, буквы распознаем, дальше по цепочке собираем все обратно в текст страницы.

Выглядит очень просто, но дьявол, как обычно, кроется в деталях.

Про уровень от документа до строки текста поговорим как-нибудь в следующий раз. Это большая система, в которой есть много своих сложностей. В качестве некоторого введения, пожалуй, можно оставить здесь вот такую иллюстрацию к алгоритму выделения строк.

В этой статье мы начнём рассказ про распознавание текста от уровня строки и ниже.

Небольшое предупреждение: система распознавания FineReader – очень большая и постоянно дорабатывается в течение многих лет. Описывать эту систему целиком со всеми ее нюансами, во-первых, лучше кодом, во-вторых, займет очень-очень много места, в-третьих, почитайте это. Поэтому к написанному далее рекомендуем относиться как к некой очень обобщенной теории, стоящей за практической системой. То есть общие идеи и направления в технологии примерно похожи на правду, но чтобы понять до мелочей, что же там на практике происходит, лучше не читать эту статью, а работать у нас над разработкой этой системы.

Граф линейного деления

Итак, у нас есть черно-белое изображение строки текста. На самом деле изображение, конечно, серое или цветное, а черно-белым становится после бинаризации (про бинаризацию тоже нужно писать отдельную статью, а пока отчасти может помочь вот это).

Так вот, пусть есть черно-белое изображение строки текста. Нужно его поделить на слова, а слова — на символы для распознавания. Базовая идея, как обычно, очевидна – ищем на изображении строки вертикальные белые просветы, а дальше кластеризуем их по ширине: широкие просветы – это пробелы между словами, узкие – между символами.

Идея замечательная, но в реальной жизни ширина пробелов может быть очень неоднозначным показателем, к примеру, для текста с наклоном или неудачного сочетания символов или слипшегося текста.

Решений у проблемы, в общем, два. Решение первое – считать некую «видимую» ширину просветов. Человек может практически любой текст, даже на незнакомом языке, точно поделить на слова, а слова — на символы. Это происходит потому, что мозг фиксирует не вертикальное расстояние между символами, а некий видимый объем пустого пространства между ними. Решение хорошее, мы его, конечно, используем, только работает оно не всегда. К примеру, текст может быть повреждён при сканировании и некоторые нужные просветы могут уменьшиться или, наоборот, сильно увеличиться.

Это приводит нас ко второму решению – графу линейного деления. Идея в следующем – если есть несколько вариантов, где поделить строку на слова, а слова на буквы, то давайте отметим все возможные точки деления, которые мы смогли придумать. Кусок изображения между двумя отмеченными точками будем считать кандидатом буквы (или слова). Вариант графа линейного может быть простым, если текст хороший и нет проблем с определением точек деления или сложным, если изображение было плохое.

Теперь задача. Есть множества вершин графа, нужно найти путь от первой вершины до последней, проходящий через какое-то количество промежуточных вершин (не обязательно все) с наилучшим качеством. Начинаем думать, что это напоминает. Вспоминаем курс оптимального управления из института, понимаем, что это подозрительно похоже на задачи динамического программирования.

Давайте подумаем, что нам нужно, чтобы алгоритм перебора всех вариантов не взорвался.

Для каждой дуги в графе нужно определить её качество. Если мы работаем с графом линейного деления слова на символы, то каждая дуга у нас – это символ. В роли качества дуги мы используем уверенность распознавания символа (как её посчитать — поговорим позднее). А если работаем с ГЛД на уровне строки, то каждая дуга этого ГЛД – вариант распознавания слова, который в свою очередь был получен из символьного графа. То есть нам нужно уметь оценивать общее качество полного пути в графе линейного деления.

Качество полного пути в графе мы будем определять как сумму качества всех дуг МИНУС штраф за весь вариант. Почему именно минус? Это дает нам возможность быстро оценить максимально возможное качество варианта пути по сумме качества дуг этого пути, а это значит, что большинство вариантов мы будем отсекать еще до подсчета общего качества варианта.

Таким образом, для ГЛД мы приходим к стандартному алгоритму динамического программирования – находим точки линейного деления, строим путь от начала до конца по дугам с наибольшим качеством, высчитываем итоговую стоимость построенного варианта. А дальше перебираем пути в ГЛД в порядке уменьшения суммарного качества элементов с постоянным обновлением найденного лучшего варианта, пока не поймем, что все необработанные варианты заведомо хуже, чем текущий лучший вариант.

Гипотезы изображения

Прежде чем мы спустимся на уровень распознавания отдельных слов, у нас есть еще одна тема, которая не обсуждалась, – гипотезы изображения фрагмента.

Идея в следующем – у нас есть изображение текста, с которым мы собираемся работать. Очень хочется все изображения обрабатывать одинаковым образом, но правда в том, что в реальном мире изображения все разные – они могут быть получены из разных источников, они могут быть разного качества, они могут быть по-разному отсканированы.

С одной стороны, кажется, что разнообразие возможных искажений должно быть очень велико, но если начать разбираться, обнаруживается только ограниченный набор возможных искажений. Поэтому мы используем систему гипотез текста.

Быстрый способ выяснить, применима ли данная гипотеза к текущему изображению, причем сделать это только на основе характеристик изображения, до распознавания.
Метод для исправления на изображении проблем конкретной гипотезы.
Критерий качества правильности выбора гипотезы по итогам распознавания изображения, плюс, возможно, рекомендации для следующих гипотез.

На изображении выше можно увидеть гипотезы для различной бинаризации и контрастности исходного изображения.

В результате обработка гипотез выглядит так:

На изображениях показано последовательное применение гипотез белого шума и сжатого текста.

Оценка качества слова

Остались нераскрытыми две важных темы: оценка общего качества распознавания слова и распознавание символов. Распознавание символа – тема на несколько разделов, поэтому сначала обсудим оценку качества распознанного слова.

Итак, у нас есть некий вариант распознавания слова. Первое, что приходит на ум, – проверить его по словарю и дать ему штраф, если оно в словаре не нашлось. Идея хорошая, но не все языки есть словари, не все слова в тексте могут быть словарными (имена собственные, к примеру), и, если уж мы углубляемся в сложности, – не всё в тексте вообще может быть словами в стандартном понимании этого термина.

Чуть раньше мы говорили, что любые оценки за слово целиком должны быть отрицательными, чтобы у нас нормально работал перебор по ГЛД. Сейчас нам это начнет активно мешать, поэтому давайте зафиксируем, что у нас есть некая заранее определенная максимальная положительная оценка слова, слову мы даем положительные бонусы, а финальный отрицательный штраф определяем как разность набранных бонусов и максимальной оценки.

Ок, пусть мы распознаём фразу «Вася прилетает рейсом SU106 в 23.55 20/07/2015». Мы, конечно, можем оценивать здесь качество каждого слова по общим правилам, но это будет достаточно странно. Скажем, и SU106 и Вася вполне понятные в данной строке слова, но очевидно, что правила образования у них разные и, по идее, верификация тоже должна быть разной

Отсюда появляется идея моделей. Модель слова – это некое обобщенное описание конкретного типа слов в языке. У нас, конечно, будет модель стандартного слова в языке, но также будут модели чисел, аббревиатур, дат, сокращений, имен собственных, URL и т.д.

Что нам дают модели и как их нормально использовать? Фактически мы обращаем в обратную сторону нашу систему проверки слова – вместо того чтобы для варианта слова долго узнавать, что же это такое, мы даем каждой модели решать, подходит ли ей данный вариант слова и насколько хорошо она его оценивает.

Из самой постановки задачи формируются наши требования к архитектуре модели. Модель должна уметь:

Быстро сказать, подходит или нет для нее вариант слова. Стандартная проверка включает все проверки разрешенных наборов символов для каждой буквы в слове. Скажем, в словарном слове пунктуация должна быть только в начале или в конце, а в середине слова набор пунктуации сильно ограничен, и сочетание пунктуации сильно ограничено (супер-способность?!), а в модели числа в основном должны быть цифры, кроме разрешенного в данном языке символьного суффикса (10-ое, 10 th ).
Уметь по своей внутренней логике оценить качество распознаваемого слова. К примеру, слово из словаря должно явно оцениваться выше, чем просто набор символов.

При оценке качества модели не стоит забывать, что наша задача в итоге – сравнивать модели между собой, поэтому их оценки должны быть согласованы. Более-менее нормальный способ этого добиться – это относиться к оценке модели как к оценке вероятности построить слово по данной модели. Скажем, словарных слов в обычном языке достаточно много, и получить словарное слово при неправильном распознавании несложно. А вот собрать нормальный, подходящий под все правила телефонный номер уже гораздо сложнее.

В итоге при распознавании некоторого фрагмента строки у нас получается примерно такая схема:

Отдельным пунктом при оценке вариантов распознавания идут дополнительные эмпирические штрафы, не вписывающиеся ни в концепцию моделей, ни в оценку распознавания. Скажем, «ООО Рога и копыта» и «000 Рога и копыта» выглядят как два одинаково нормальных варианта (особенно если в шрифте 0 (ноль) и О (буква О) слабо отличаются пропорциями). Но при этом достаточно очевидно, какой вариант распознавания должен быть правильным. Для таких небольших конкретных знаний о мире сделана отдельная система правил, которая может дополнительно штрафовать не понравившиеся ей варианты после оценок моделей.

Про само распознавание поговорим уже в следующей части этого поста. Подписывайтесь на блог компании, чтобы не пропустить :)

Читайте также: