Добавить оглавление в djvu

Обновлено: 06.07.2024

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.

Текущая версия: 2.4 beta


FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре

Пожалуйста, если это возможно, то перешлите текст оглавления, который Вы показали на картинке на мой E-mail. Возможно Вы мой E-mail еще не выбросили в корзину.
Попытаюсь сделать bookmark.htm. К сожалению, с картинки я не могу скопировать текст.
Заранне спасибо.

А чем Вам мой вариант не нравится?

Из-за слишком жирных букв в OCR-слое очень много ошибок.
Процентов 20 троек превратилось в восьмерки, то же самое с пятерками - они стали шестерками.
Просто скопируйте текст оглавления и вставьте его в текстовый редактор - и вы сами все увидите.

Поэтому без предварительной (и очень тщательной) вычитки делать гиперссылки поверх TOC-оглавления (и страницы индексов) - imho - некорректно. Пользоваться результатом будет невозможно.

Bookmark-оглавление в данном случае применимо с большими оговорками - по той причине, что каждая строка в bookmark-оглавлении должна быть ссылкой на одну страницу, а данное оглавление - это немного по совместительству индекс, т.е. в нескольких случаях один и тот же элемент относится к разным диапазонам страниц.

Я все же действительно думаю, что в тех случаях, когда структура оглавления очень сложна и объем его велик, нагляднее будет вариант с разметкой оригинального оглавления на странице.

Другое дело, если Ваш метод позволит автоматически отфильтровать ошибки OCR. В общем, интересует, прежде всего наименее затратный по времени метод - книг много, а времени на них все меньше.

Получилось что-то типа

Кроме того перед запуском последовательности (после они уже не так выделялись) ручками прошелся по оглавлению, удалил остатки колонтитулов, объединил главы с текстом глав, а для третьей главы задал номер страницы, чтобы она могла иметь подглавы. Замечу, что в более простых случаях поиск колонтитулов можно было бы доверить Djvu Bookmarker, но не в вашем случае, потому что мы по сути заново создали разметку строк.

После запуска еще выделил все ссылки на страницы 3xx и сделал замену " 8" => " 3",
для пятисотых сделал замену " 6" => " 5" - против ошибок распознавания.

Затем текст выгрузил в Djvu Bookmarker, который по нарушению монотонности возрастания номеров страниц нашел остальные ошибки распознавания в номерах.
Кроме того, пришлось разлепить слипшиеся строки оглавления, в которых OCR не распознал длинный дефис - это вручную, задание на внимательность.
Потом закинул текст в иерархию, шаблоном CHAPTER автоматически создал структуру дерева. Вручную задвинул содержимое в подглавы третьей главы. И выдвинул индекс, попавший в последнюю главу.
Далее задал сдвиг нумерации по верхней строчке оглавления, проверил на последней - все сошлось, удаленных страниц не было.
Экспорт.
Все.

Vica3, я вообще не встречал просмотрщиков DJVU-файлов, да и самих файлов, с красивым оглавлением; сам формат создавался для хранения изначально "аналоговых" документов.

Обойтись традиционным оглавлением в начале/конце книжки.
К каждой странице документа (=изображению) присобачить слева краткое оглавление с гиперссылками. Что-то похожее есть на UniverTV: преподаватель читает лекцию, справа отображаются слайды, а снизу план занятия, щёлкая по пунктам которого можно перемещаться по видео

bugo, недобро как-то.. (оба варианта). Надо красиво.
я встречала. но как это сделано - убей не пойму. Что-то не могу уяснить, что требуется, по описанию "надо красиво". Можно пример файла, оформленного "красиво" или просто скриншот глянуть? Jacky, будь это у меня под рукой - я бы его распотрошила:)
Красиво = с левой стороны, отдельно - интерактивное содержание. При прокрутке правой стороны содержание остается. где-то так.
Вариант К каждой странице документа (=изображению) присобачить слева краткое оглавление с гиперссылками. мне не понравился, т.к. страниц более 400:(

Хм. Ладно, спрошу по-другому. Вот это оно или нет?

Именно пример, приведенный там, я для наглядности и внедрил в первый попавшийся djvu-документ, т.ч. можно сразу увидеть на скриншоте, как будет выглядеть такая структура.

Нужный файл оглавления можно сгенерировать с помощью Adobe Acrobat, если есть исходник pdf, который перегоняется в djvu. Если такового нет, то файл можно сделать вручную. У него простая структура, достаточно только выдерживать вложенность тегов ul и li. Писать и сохранять лучше в текстовом редакторе, позволяющем явно указать кодировку utf-8 для текста, например Akelpad.

Нужный файл оглавления можно сгенерировать с помощью Adobe Acrobat, если есть исходник pdf, который перегоняется в djvu.

Jacky, я к вечеру ближе торможу - как это сделать (сгенерировать файл оглавления в АА в исходнике пдф)? Или сначала из пдф в хтмл?

Во всяком случае это тот путь, который мне известен. В принципе оно не так страшно, как кажется, если у вас не слишком разветвленное оглавление с сотнями разделов и подпунктов в каждой главе.

Впрочем, если кто-то уточнит, как генерировать оглавление уже с нужными якорями, не откажусь узнать рецепт.


А вообще в последнее время как-то прохладно стал относиться к формату djvu. Нет, конечно выигрыш в объеме файла может быть существенный и еще ряд нюансов, но в общем и целом pdf как-то комфортнее, что ли. Тем более, что книги в djvu ради снижения объема зачастую доводят до совершенно непристойного качества картинки. В наше время, с распространением всё более ёмких носителей информации и широкополосного интернета все эти ухищрения постепенно теряют смысл.

  • ЖАНРЫ 360
  • АВТОРЫ 278 525
  • КНИГИ 658 004
  • СЕРИИ 25 236
  • ПОЛЬЗОВАТЕЛИ 614 349

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро

Итак: перед вами взятая у приятеля, из библиотеки, или просто хорошая, интересная книга, которую хотелось бы иметь на компьютере. И не просто иметь, а иметь в таком виде, который позволил бы выполнять поиск по тексту, удобно читать книгу на экране монитора или на устройствах еВоок, а если это не научно-техническая или справочная литература – еще и читать на любимом сотовом телефоне, iPhon'e или PDA. В этом пошаговом руководстве, основанном на собственном опыте, я постараюсь рассказать о том, как «выжать» максимум результатов из проделанной простой, но иногда весьма утомительной работы по сканированию книги.

Пусть вас не испугает длина этого руководства и кажущаяся сложность сканирования и обработки книги. Процесс действительно довольно сложен и многоступенчат, но поверьте мне, описать все эти операции было гораздо труднее, чем выполнить их шаг за шагом.

Шаг 1. Сканирование

1.1 Подготовка к процессу

Сканирование, с которого начинается, зачастую, долгий путь «в Сеть» любой изданной когда-либо книги (рынок легальных электронных книг, размещаемых издателями непосредственно после электронной верстки, у нас совершенно неразвит) – это самая монотонная часть всей предстоящей работы, поэтому к ней стоит тщательно подготовиться заранее – протереть стекло сканера, проверить наличие свободного места на диске – несжатый скан одной средней по размеру книги может занимать до 1 Гбайт. Потом начинается собственно сканирование.

Я намеренно не привожу здесь сравнительных характеристик разных моделей сканеров, поскольку каждый из нас в подавляющем большинстве случаев располагает только одним сканером, характеристики которого более или менее хорошо известны.

Phistek OpticBook: преимущества и недостатки

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_1.jpg

Из всех сканеров, имеющихся на рынке, для сканирования книг в больших количествах нет ничего лучше серии Plustek OpticBook. Эти планшетные сканеры отличаются высоким корпусом и прозрачным основанием, выполненным "в край" – так, чтобы на него можно было уложить книгу, не ломая и не деформируя корешок. Такой сканер – идеален для перевода в электронный вид десятков томов, например из библиотеки университетской кафедры. Однако, для домашнего повседневного применения он практически непригоден. Причина этого – в сугубой спецbализированности устройства под книгосканирование и OCR. В конструкции PlusTek OpticBook в жертву быстродействию и разрешению принесено все, что только можно, включая четкость, избирательность и цветопередачу.

Сканирование всех своих книг я проводил и провожу на достаточно старом (2003 года выпуска) полупрофессиональном планшетном сканере для документсистем Hewlett-Packard ScanJet 6390с. Эта машина отличается высоким быстродействием (15-25 сек на страницу формата А4 в режиме градаций серого). Кроме того, в ее комплект поставки входит удобное программное обеспечение HP Precision Scan Pro. Именно на этой программе сделаны все скрины с примерами сканирования.

Заранее хочу предостеречь от использования в качестве основного инструмента сканирования программы FineReader. Оставим эту программу до стадии OCR. Пока она может лишь максимально усложнить нам задачу пакетной обработки, применив (причем, без нашего ведома) – свои не слишком хорошие алгоритмы чистки и сжатия сканов. А главное – она практически лишит нас шансов применить важнейший прием – оверсемплинг до разрешения 600 dpi.

Собственно сканирование состоит из трех этапов: сканирования обложки, основной части книги, цветных вклеек и иллюстрации. Последовательно описывать эти этапы нет смысла – они переплетаются друг с другом в зависимости от верстки книги. Стоит привести лишь параметры сканирования, оптимальные для разных типов книжных страниц.

Здесь приведу еще одно важнейшее предупреждение(!):

На некоторых очень старых моделях сканеров есть возможность вручную включать внутренний оверсемплинг, тo есть фактически сканировать с меньшим разрешением, чем имеет выходной файл. Обозначается такая установка разрешения обычно словом Software или Resampled. Эту установку использовать нельзя! Ее включение приведет в полную негодность полученные файлы, и их дальнейшая обработка окончательно потеряет смысл. Также нельзя использовать установку сканирования в режиме Linearеt или Black amp;White (одноцветный)

Общие рекомендации такие: для текстовых страниц используйте:

• Режим Grayscale (оттенки серого), для цветных иллюстраций и обложек – True Color (полноцветный).

• Разрешение сканирования – 300 dpi (только оптическое, повторимся еще раз!).

• Остальные установки можно оставить по умолчанию.

Таблица 1. Оптимальные параметры сканирования

Эти параметры не являются догмой. Они определены опытным путем на нескольких моделях неспециализированных сканеров, и служат ориентировочным целям. Собственный набор оптимальных параметров книгосканирования всегда стоит определить экспериментально, отсканировав любимую книгу со всеми иллюстрациями и обложкой. Приводя эти параметры, я стремился обобщить их для применения на максимальном количестве моделей сканеров.

Разрешение: 300 dpi

Резкость: Low или Medium

Яркость и контраст: Любые, специальные параметры не использовать

Разрешение: 300 dpi

Резкость: Medium. High

Яркость и контраст: Любые, можно применить пресет B amp;W Photo

Разрешение: 300 dpi

Резкость: High можно применить пресет B amp;W Photo

Яркость и контраст: Определяются по предварительному сканированию

Режим: True Color

Разрешение: 300 dpi

Резкость: Low, можно применить пресет Photo

Яркость и контраст: Определяются по предварительному сканированию

Тип страницы: Цветная обложка или иллюстрация страничного формата

Режим: True Color

Разрешение: 300 dpi

Резкость: Low, можно применить пресет Photo

Яркость и контраст: Определяются по предварительному сканированию

Формат выходного файла: Uncompressed (Несжатый) TIFF(!)

Почему не JPEG?

Формат JPEG для сохранения сканов книжных страниц использовать можно, но не нужно.

Во-первых: потому, что этот формат даже при включенном сжатии без потерь (Quality = 100) оставляет артефакты в виде «квадратиков».

Во-вторых и самых главных: многократное пережатие при сохранении обработанного файла JPEG вновь в «свой» формат за 2-3 цикла обработки приводит изображение в негодность.

Отдельно коснемся использования сжатого (Compressed) TIFF: при сохранении сжатого изображения в TIFF можно использовать алгоритмы сжатия: ZIP. LZW (без потерь). JPEG (с потерями). Без хлопот программы распознавания вроде FineReader понимают только JPEG.

Со всеми остальными форматами проблемы могут возникать непредсказуемо (например, у меня FineReader 7.0 испытывает устойчивую «идиосинкразию» конкретно к формату сжатия LZW). Поэтому если нет особых проблем с наличием места на диске, лучше всегда использовать несжатый файл.

DjVu Hyperlinks Editor 0.67

Программа для автоматического создания гиперссылочного оглавления (и/или алфавитного указателя) в многостраничных DjVu-файлах (т. е. DjVu-книгах).

Принцип действия:
1. Программа работает только с такими DjVu-книгами, которые содержат внедрённый текстовый OCR-слой (желательно программой DjVu OCR 2.1).
2. Пользователь указывает программе местонахождение страниц DjVu-книги, содержащих сканированное изображение содержания (или оглавления) исходной бумажной книги, а также вводит мелкие опции.
3. Затем программа полностью автоматически делает следующее:
А. Считывает внедрённый текстовый OCR-слой из указанных страниц "оглавления" DjVu-книги.
Б. Анализирует эту информацию, генерирует на её основе гиперссылки.
В. Вставляет эти гиперссылки в данные страницы "оглавления" DjVu-книги.
В результате получается навигационный механизм для работы с DjVu-книгой - на страницах со сканированными изображениями оглавления исходной бумажной книги появляются гиперссылки для перехода на соответствующие страницы DjVu-книги. Тем самым также достигается наибольшее приближение к использованию оглавления исходной бумажной книги.

DjVu Document Express Editor 6.0 Pro+Rus

  • формат txt, exe
  • размер 53.25 МБ
  • добавлен 16 июня 2009 г.

Разработчик: LizardTech, Inc. Статус программы: Shareware Интерфейс: Русский Размер файла: 54 Mb Версия: 6.01 Система: Windows 95/98/Me/NT/2000/XP/Vista Формат: DjVu, BMP, GIF, JPEG, PNM, TIFF, PICT DjVu Document Express Editor Pro 6.0.1 – Одна из наиболее распространенных и корректно работающих программ для создания и просмотра DjVu-документов от правопреемника самого стандарта DjVu компании LizardTech – Document Express Editor. В Document Exp.

DjVu Document Express Editor 6.0.1.1320 Rus (Portable)

  • формат exe
  • размер 11.09 МБ
  • добавлен 29 сентября 2009 г.

Программа для создания, редактирования, и чтения документов формата DjVu. В эту сборку включили модули OCR - оптического распознавания текста для русского и английского языков. В архиве портативная русская версия. Сборка - irokkezz. Год: 2009 Версия: 6.0.1.1320 Разработчик: Платформа: Win All Язык интерфейса: Русский + Английский Размер: 11.09 Мбrn

DjVu Document Express Editor Pro 6.0.1 build 1320

  • формат txt, exe
  • размер 53.26 МБ
  • добавлен 22 ноября 2009 г.

Одна из наиболее распространенных и корректно работающих программ для создания и просмотра DjVu-документов от правопреемника самого стандарта DjVu компании LizardTech — Document Express Editor. В Document Express Editor, можно открывать и конвертировать файлы следующих форматов: DjVu (*.djvu, *.djv), BMP (*.bmp), GIF (*.jpg), JPEG (*.jpg, *.jpg), PNM (*.pnm, *.ppm, *.pgm, *.pbm), TIFF (*.tiff, *.tif), PICT (*.pict). При сохранении файла программ.

DjVu Document Express Editor Pro 6.0.1.1320

  • формат txt
  • размер 1.41 МБ
  • добавлен 29 марта 2009 г.

Мощная программа для просмотра, создания и редактирования (! ) .djvu и .djv файлов. Сначала ставим программу, затем - русификатор. Свободная версия.rn

DjVu Editor 4.1 Pro Rus build 333

  • формат exe
  • размер 2.44 МБ
  • добавлен 27 февраля 2009 г.

Программа для просмотра, редактирования и создания книг в формате djvu. С её помощью можно легко создать книгу из картинок и разобрать назад на картинки. Функции программы: 1. Просматривает файлы электронных книг (ebook: DjVu) 2. Есть настройки отображения книги 3. Простой, интуитивно понятный интерфейс. 4. Имеет функцию сканирования. 5. Поддерживает несколько форматов, таких как: DjVu, IW44, BMP, JPEG, GIF, TIFF, PMP, PICT 6. Очень маленький ра.

DjVu Reader 2.0.0.26 + DjVu Editor Pro v. 4.1.0+DjVu Plug-in 6.1.0

  • формат exe, txt, html
  • размер 9.65 МБ
  • добавлен 30 марта 2010 г.

Программное обеспечение для работы с документами формата djvu. В программе djvu reader ведется история файлов, поэтому на открытие последних десяти документов у вас будет уходить значительно меньше времени. DjVu Plug-in 6.1.0: Приложение djvu reader поддерживает словари и для перевода слова вам необходимо лишь навести курсор мыши на выбранный фрагмент.rn

DjVu Small v0.4.4

  • формат txt, htm, html, exe, jar, gif, jpg
  • размер 1.46 МБ
  • добавлен 24 мая 2011 г.

Программа для создания DjVu-файлов (из обычных графических файлов в форматах BMP, TIF, JPG, GIF и PNM) и для декодирования DjVu-файлов (в обычные графические файлы) - в операционных системах Windows 98 / NT / XP. DjVu Small поддерживает кодирование в DjVu как множества обычных графических файлов (получается многостраничный DjVu-файл), так и одиночных графических файлов (получается одностраничный DjVu-файл). Также программа умеет декодировать люб.

DjVuToy 1.0.1

  • формат exe
  • размер 868.14 КБ
  • добавлен 10 июня 2011 г.

Многооперационный инструментарий для работы с DJVU-файлами (Friendware). Merger. Splitter. Page Editor. Index File. Bookmark. DPI & Width. To Image. Hidden Text. To PDF. File Info.rn

DjVuToy 1.14

  • формат exe
  • размер 2.37 МБ
  • добавлен 03 июня 2011 г.

Многооперационный инструментарий для работы с DJVU-файлами (Friendware). Merger. Splitter. Page Editor. Index File. Bookmark. DPI & Width. To Image. Hidden Text. To PDF. File Info.rn

Document Express Editor 6.0.1 Bild 1320

  • формат exe
  • размер 1.16 МБ
  • добавлен 03 февраля 2012 г.

Редактор для djvu. В отличие от DJVU Solo 3.1 расспознаёт более новые форматы (фирма LizardTech перестала поддерживать своё детище). Можно сохранять любой лист из журнала ,а затем собрать их в отдельный файл djvu. Очень удобно при создании своих сборок по определённой тематики.rn

Читайте также: