Как обрезать книгу в djvu

Обновлено: 07.07.2024

ЖАНРЫ 360
АВТОРЫ 278 562
КНИГИ 658 289
СЕРИИ 25 239
ПОЛЬЗОВАТЕЛИ 614 500

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро

Итак: перед вами взятая у приятеля, из библиотеки, или просто хорошая, интересная книга, которую хотелось бы иметь на компьютере. И не просто иметь, а иметь в таком виде, который позволил бы выполнять поиск по тексту, удобно читать книгу на экране монитора или на устройствах еВоок, а если это не научно-техническая или справочная литература – еще и читать на любимом сотовом телефоне, iPhon'e или PDA. В этом пошаговом руководстве, основанном на собственном опыте, я постараюсь рассказать о том, как «выжать» максимум результатов из проделанной простой, но иногда весьма утомительной работы по сканированию книги.

Пусть вас не испугает длина этого руководства и кажущаяся сложность сканирования и обработки книги. Процесс действительно довольно сложен и многоступенчат, но поверьте мне, описать все эти операции было гораздо труднее, чем выполнить их шаг за шагом.

Шаг 1. Сканирование

1.1 Подготовка к процессу

Сканирование, с которого начинается, зачастую, долгий путь «в Сеть» любой изданной когда-либо книги (рынок легальных электронных книг, размещаемых издателями непосредственно после электронной верстки, у нас совершенно неразвит) – это самая монотонная часть всей предстоящей работы, поэтому к ней стоит тщательно подготовиться заранее – протереть стекло сканера, проверить наличие свободного места на диске – несжатый скан одной средней по размеру книги может занимать до 1 Гбайт. Потом начинается собственно сканирование.

Я намеренно не привожу здесь сравнительных характеристик разных моделей сканеров, поскольку каждый из нас в подавляющем большинстве случаев располагает только одним сканером, характеристики которого более или менее хорошо известны.

Phistek OpticBook: преимущества и недостатки

Из всех сканеров, имеющихся на рынке, для сканирования книг в больших количествах нет ничего лучше серии Plustek OpticBook. Эти планшетные сканеры отличаются высоким корпусом и прозрачным основанием, выполненным "в край" – так, чтобы на него можно было уложить книгу, не ломая и не деформируя корешок. Такой сканер – идеален для перевода в электронный вид десятков томов, например из библиотеки университетской кафедры. Однако, для домашнего повседневного применения он практически непригоден. Причина этого – в сугубой спецbализированности устройства под книгосканирование и OCR. В конструкции PlusTek OpticBook в жертву быстродействию и разрешению принесено все, что только можно, включая четкость, избирательность и цветопередачу.

Сканирование всех своих книг я проводил и провожу на достаточно старом (2003 года выпуска) полупрофессиональном планшетном сканере для документсистем Hewlett-Packard ScanJet 6390с. Эта машина отличается высоким быстродействием (15-25 сек на страницу формата А4 в режиме градаций серого). Кроме того, в ее комплект поставки входит удобное программное обеспечение HP Precision Scan Pro. Именно на этой программе сделаны все скрины с примерами сканирования.

Заранее хочу предостеречь от использования в качестве основного инструмента сканирования программы FineReader. Оставим эту программу до стадии OCR. Пока она может лишь максимально усложнить нам задачу пакетной обработки, применив (причем, без нашего ведома) – свои не слишком хорошие алгоритмы чистки и сжатия сканов. А главное – она практически лишит нас шансов применить важнейший прием – оверсемплинг до разрешения 600 dpi.

Собственно сканирование состоит из трех этапов: сканирования обложки, основной части книги, цветных вклеек и иллюстрации. Последовательно описывать эти этапы нет смысла – они переплетаются друг с другом в зависимости от верстки книги. Стоит привести лишь параметры сканирования, оптимальные для разных типов книжных страниц.

Здесь приведу еще одно важнейшее предупреждение(!):

На некоторых очень старых моделях сканеров есть возможность вручную включать внутренний оверсемплинг, тo есть фактически сканировать с меньшим разрешением, чем имеет выходной файл. Обозначается такая установка разрешения обычно словом Software или Resampled. Эту установку использовать нельзя! Ее включение приведет в полную негодность полученные файлы, и их дальнейшая обработка окончательно потеряет смысл. Также нельзя использовать установку сканирования в режиме Linearеt или Black amp;White (одноцветный)

Общие рекомендации такие: для текстовых страниц используйте:

• Режим Grayscale (оттенки серого), для цветных иллюстраций и обложек – True Color (полноцветный).

• Разрешение сканирования – 300 dpi (только оптическое, повторимся еще раз!).

• Остальные установки можно оставить по умолчанию.

Таблица 1. Оптимальные параметры сканирования

Эти параметры не являются догмой. Они определены опытным путем на нескольких моделях неспециализированных сканеров, и служат ориентировочным целям. Собственный набор оптимальных параметров книгосканирования всегда стоит определить экспериментально, отсканировав любимую книгу со всеми иллюстрациями и обложкой. Приводя эти параметры, я стремился обобщить их для применения на максимальном количестве моделей сканеров.

Разрешение: 300 dpi

Резкость: Low или Medium

Яркость и контраст: Любые, специальные параметры не использовать

Разрешение: 300 dpi

Резкость: Medium. High

Яркость и контраст: Любые, можно применить пресет B amp;W Photo

Разрешение: 300 dpi

Резкость: High можно применить пресет B amp;W Photo

Яркость и контраст: Определяются по предварительному сканированию

Режим: True Color

Разрешение: 300 dpi

Резкость: Low, можно применить пресет Photo

Яркость и контраст: Определяются по предварительному сканированию

Тип страницы: Цветная обложка или иллюстрация страничного формата

Режим: True Color

Разрешение: 300 dpi

Резкость: Low, можно применить пресет Photo

Яркость и контраст: Определяются по предварительному сканированию

Формат выходного файла: Uncompressed (Несжатый) TIFF(!)

Почему не JPEG?

Формат JPEG для сохранения сканов книжных страниц использовать можно, но не нужно.

Во-первых: потому, что этот формат даже при включенном сжатии без потерь (Quality = 100) оставляет артефакты в виде «квадратиков».

Во-вторых и самых главных: многократное пережатие при сохранении обработанного файла JPEG вновь в «свой» формат за 2-3 цикла обработки приводит изображение в негодность.

Отдельно коснемся использования сжатого (Compressed) TIFF: при сохранении сжатого изображения в TIFF можно использовать алгоритмы сжатия: ZIP. LZW (без потерь). JPEG (с потерями). Без хлопот программы распознавания вроде FineReader понимают только JPEG.

Со всеми остальными форматами проблемы могут возникать непредсказуемо (например, у меня FineReader 7.0 испытывает устойчивую «идиосинкразию» конкретно к формату сжатия LZW). Поэтому если нет особых проблем с наличием места на диске, лучше всегда использовать несжатый файл.

Можно сделать так:
1. Расшить книгу в TIFF
2. TIFF порезать на отдельные страницы (например, ScanKromsator'ом)
3. Отдельные страницы снова сшить в DJVU (например, Djvu Small)
Как проще -- не знаю.

Имеется книга в djvu формате. Там каждая страница содержит по две страницы книги. Можно ли сделать так, чтобы каждая страница (в файле) содержала только по одной страницы книги?
Я использую такой трюк.
1. Печатаю двустраничную DJVU книгу принтером PDF Adobe Acrobat и получаю файл уже в PDF формате.
2. Далее снова печатаю уже новый файл тем же принтером, но подбираю в пункте "Масштабирование страницы" подпункт "разбиение всех страниц" и задаю масштаб больше 100% (напр. 110%). На вкладке просмотра "совмещенный оттиск" будет пунктиром поделена страница на 2 части. Подбором масштаба можно установить оптимальный размер одностраничного формата.
3. Полученный одностраничный файл PDF конвертирую в DJVU.

Последний раз редактировалось Mikky 27.08.2015, 17:37, всего редактировалось 1 раз.

Можно еще так сделать - загружаем DjVu-файл в FineReader, ставим в настройках предобработки разрезание страниц ("Делить разворот"). Полученные страницы можно распознать и сохранить или в обратно DjVu, или в PDF.
Плюс - был просто файл из сканов, имеем его же, но с текстовой подложкой, которую можно при необходимости копировать в другие документы.

-- "распечатать" дежавю, выбрав пункт "мелкомягкие-принтер" (будет создан многостраничный TIFF)

-- пропустить этот TIFF через ScanTailor. Он и развороты разрежет, и наклоны выровняет, и мусор типа полей уберёт (последнее, правда, придётся проконтролировать вручную). Есть недостаток: он, кажется, пытается распознавать буквы и делает это не всегда удачно. Впрочем, неудачи (типа путаницы между "и" и "н") случаются достаточно редко.

-- полученный набор картинок пересобрать обратно, да, через Дежавю Соло.

В общем, это работает. Но это я говорю как дилетант, у которого это несколько раз сработало.

А у меня другой вопрос. Как обрезать странички пэдээфа. (скажем, для того же расщепления разворотов)

Все известные мне программы их физически не обрезают, а просто уменьшают область видимости страничек. Что как-то не комильфо -- объём увеличивается вдвое. Несмертельно, конечно; по.

Есть недостаток: он, кажется, пытается распознавать буквы и делает это не всегда удачно. Впрочем, неудачи (типа путаницы между "и" и "н") случаются достаточно редко.
Про Pdf ничего не скажу, но ScanTailor никакого распознавания текста не делает. Ошибки, скорее всего эффект Djvu, связанный с тем, что этот формат использует словарь для повторяющихся символов, и при плохом качестве сканов может их перепутать. Ключевые слова "эффект инь янь Djvu".

Последний раз редактировалось ewert 25.09.2015, 22:40, всего редактировалось 1 раз.

Да, наверное, это действительно эффект словаря.

Ещё добивка: тот самый портняжка (Tailor) иногда выставляет некорректные резаки, обрезая существенную часть странички. Ну так надо просто внимательно следить за результатами и при необходимости поправлять резаки вручную для каждой странички. А в целом -- программка полезная.

-- Пт сен 25, 2015 23:40:22 --

А, пардон. Дежавю Соло я давно уже не пытался пользоваться, только Djvu Small (но это, кажется, одна и та же утилитка, с точностью до графической оболочки).

А у меня другой вопрос. Как обрезать странички пэдээфа. (скажем, для того же расщепления разворотов)

Обрезать страницы - A-PDF Crop ; Разрезать страницы на части - A-PDF Cut .
Увеличения размера файла "вдвое" - не наблюдается (размер изменяется в пределах нескольких процентов: может увеличиться, может уменьшиться - зависит от исходного файла).
Обрезать поля можно и в Adobe Acrobat : нюанс в том, что для сохранения результата обрезки нужно использовать не "Сохранить" (Save), а "Сохранить как" (Save as) с заданием другого имени файла. В этом случае информация об обрезке не сохраняется в файле и скачка в размере файла не наблюдается.

Нет, увы: все они ничего физически не удаляют, а лишь меняют область видимости. Но для этого есть и более разумные средства (в частности, с гораздо более грамотно организованным интерфейсом).

Видимо, средств, которые что-то удаляли бы, просто не существует. Такой уж это неприличный формат -- PDF.

Если страницы PDF - растровые картинки (сканированная книга), то можно распечатать файл в TIFF или JPEG на каком-нибудь виртуальном принтере (подойдёт, например, PDFCreator), обрезать страницы, а затем пересобрать в PDF или DJVU.

В том-то и дело, что не растровые.

Не, ну я, конечно, тупо распечатываю и перевожу в дежавю (заодно убирая все поля, кроме пары миллиметров). Однако как-то обидно.

Предположим, что фотографии или отсканированные копии страниц у вас уже есть. Поместите их в одну общую папку, затем скачайте конвертер по этой ссылке:

Откройте архив и запустите файл «Djvu Small Mod.exe». Выберите операцию кодирования, затем нажмите кнопку «Открыть файлы».

Поддерживается создание djvu из картинок в формате jpg, bmp, gif, tiff, pnm и из растровых файлов. Выделите все изображения в папке (чтобы сделать это быстро, нажмите CTRL+A), и откройте их.

Затем выберите, куда сохранить создаваемый файл и придумайте ему имя. Чтобы начать процесс конвертации нажмите кнопку «Кодировать».

Процесс не долгий, на современном ПК на обработку 50 страниц уходит в среднем 1 секунда. В конце, если не убирать галочку с опции «показать результат», будет предложено открыть получившуюся книгу в одной из программ для чтения DjVu файлов, установленной на компьютере.

Как создать файл Djvu

1) DjVu Small

Программа для создания файла djvu из картинок формата bmp, jpg, gif и пр. Кстати, программа может не только создавать, но и извлекать из djvu все графические файлы, которые находятся в сжатом формате.

Пользоваться ей очень просто. После запуска программы, вы увидите небольшое окно, в котором за несколько шагов можно создать файл djvu.

1. Для начала нажимаете на кнопку Open Files (красная единичка на скрине ниже) и выбираете те картинки, которые вы хотите запаковать в данный формат.

2. Вторым шагом выбираете место, где будет сохранен созданный файл.

3. Выбираете, что сделать с вашими файлами. Document — > Djvu — это преобразовать документы в формат djvu; Djvu Decoding — этот пункт нужно выбирать, когда вы вместо картинок в первой вкладке выбираете файл djvu, чтобы его извлечь и получить его содержимое.

4. Select encoding profile — выбор качества сжатия. Лучшим вариантом будет эксперимент: взять пару картинок и попробовать их сжать, если качество вас устроит — то затем можно и всю книгу сжать с этими же настройками. Если же нет — то попробовать увеличить качество. Dpi — это количество точек, чем выше это значение — тем лучше качество, и тем больше получается размер исходного файла.

5. Convert — кнопка, которая запускает создание сжатого файла djvu. Время на эту операцию будет зависеть от количества картинок, их качества, мощности ПК и т.д. На 5-6 картинок ушло примерно 1-2 сек. на среднем по мощности компьютере на сегодняшний день. Кстати, ниже приведен скриншот: размер файла получился примерно 24 кб. из 1мб исходных данных. Нетрудно посчитать, что файлы были сжаты в 43* раза!

2) DjVu Solo

Еще одна неплохая программа для создания и извлечения файлов djvu. Многим пользователям она кажется не такой удобной и наглядной, как DjVu Small, но все равно рассмотрим процесс создания файла и в ней.

1. Открываете файлы картинок, которые вы отсканировали, скачали, взяли у друзей и пр. Важно! Сначала откройте всего лишь 1 картинку из всех желаемых конвертировать!

Важный момент! Многие не могут открыть картинки в этой программе, т.к. по умолчанию она открывает файлы формата djvu. Чтобы открыть другие графические файлы, просто поставьте в графе типы файлов значение как на картинке снизу.

2. После того, как ваша одна картинка была открыта, можно добавить остальные. Для этого в левом окне программы вы увидите столбик с маленьким превью вашей картинки. Щелкните по ней правой кнопкой мышки и выберите пункт «Insert page after» — добавить страницы (картинки) после этой.

Затем выделяете все картинки, которые хотите сжать и добавляете в программу.

3. Теперь жмете на file/Encode As Djvu — произвести кодирование в Djvu.

Далее просто нажимаете на «OK».

В следующем шаге вас просят указать место, где будет сохранен кодированные файл. По умолчанию вам предлагается папка для сохранения та, из которой вы добавляли файлы картинок. Можно выбрать и ее.

Теперь вам необходимо выбрать качество, с которым программа сожмет картинки. Лучше всего, его подобрать экспериментально (т.к. у многих вкусы разные и давать конкретные цифры бесполезно). Просто оставьте сначала по умолчанию, сожмите файлы — затем проверьте, устроит ли вас качество документа. Если не устроит — то затем увеличьте/уменьшите качество и опять проверьте и т.д. пока не найдете свой баланс между размером файла и его качеством.

Файлы в примере были сжаты до 28кб! Довольно неплохо, особенно для тех, кто хочет сэкономить место на диске, или у тех у кого медленный интернет.

Способ 2 – создание djvu в процессе сканирования

Если дома есть сканер, нет смысла предварительно фотографировать каждую страницу, можно их сканировать и преобразовывать в DjVu «на лету». Правда для этого потребуется уже другая программа, которая работает только на Windows XP и 7 — DjVu Solo (на восьмерке не пробовали, а вот на десятке она не запустилась).

, установите и запустите. На верхней панели найдите значок сканера и нажмите на него. Откроется стандартная утилита сканирования.

Если ничего не происходит, через меню зайдите в «Файл» — «Выбрать источник», и из списка устройств выберите свой сканер. Если там пусто, проверьте, установлены ли драйвера, идущие в комплекте с устройством? Попробуйте переустановить их, затем перезапустить программу.

После сканирования через утилиту, изображение откроется в отдельном окне на рабочем столе Solo. Через меню зайдите в «Файл» — «Преобразовать в DjVu», затем сохраните созданный файл. Это еще не книга – только одна ее страница.

Далее алгоритм действий такой: заново нажимаете на значок сканера на верхней панели программы, сканируете новую страницу, сохраняете и опять преобразовываете в DjVu. Созданный файл откроется в новом окне – то есть теперь в программе Solo будет 2 открытых окна с файлами. Вот это новое окно закройте и перейдите к первому окну. Затем через меню зайдите в «Правка» — «вставить страницы в конец книги» и вставьте к первому файлу второй.

Затем отсканируйте третью страницу, и полученный файл опять добавьте в конец книги, то есть к файлу из первого окна. Тоже самое сделайте с четвертой и всеми последующими страницами по очереди, пока книга не закончится.

DjVu Editor 6.0 Pro + Rus

Исключительно по просьбам пользователей CWER.ws
Document Express with DjVu — группа приложений, позволяющих создавать, управлять, записывать и распространять файлы в формате DjVu. Document Express Editor — одна из наиболее распространенных программ для создания и просмотра DjVu-документов на локальном компьютере.

Рассмотрим коротко ее основные возможности и кратко опишем принцип создания DjVu-документов.

В Document Express Editor, можно открывать и конвертировать файлы таких форматов: DjVu (*.djvu, *.djv), BMP (*.bmp), GIF (*.jpg), JPEG (*.jpg, *.jpg), PNM (*.pnm, *.ppm, *.pgm, *.pbm), TIFF (*.tiff, *.tif), PICT (*.pict).

Для создания DjVu-файла нужно отсканировать страницу (меню “Файл” -> “Сканировать”), либо открыть уже готовое изображение поддерживаемого формата (меню “Файл” -> “Открыть”). Если в документ должен быть многостраничный, то при помощи меню “Правка” > “Добавить страницы до…” или “Правка” > “Добавить страницы после…” вставить в документ до или после открытого изображения остальные изображения.

Затем при помощи меню “Файл” -> “Сохранить как…” сохранить документ в формате DjVu.

При сохранении файла программа предложит выбрать настройки: распознавать ли текст; профиль; разрешение (от 100 до 600 dpi); качество текста (возможны 5 уровней от «агрессивного», т.е. со значительной потерей до «без потери»), сохранять изображения каждое в отдельном или все в одном файле.

Так называемый профиль – это тоже настройки, только пользователь выбирает тип документа, а программа автоматически подстраивается под тип изображения.

Всего доступны 7 профилей:

«Нормальный» – для большинства отсканированных печатных документов
«Электронный» – для растровых изображений электронного происхождения, таких, как скриншоты и т.п.
«Фото» — для фотографий. При этом функция OCR не работает, поэтому функция поиска и копирования текста в созданном документе не будет работать.
«Битональный» — для черно-белых изображений
«Рукопись» — для старых или рукописных изданий без рисунков или фотографий
«Рисунок» — похож на «Рукопись», но с поддержкой рисунков и фотографий
«Карта» — похож на «Рисунок», но с лучшей поддержкой перевернутого текста

Этими настройками, как правило, действительно можно добиться удовлетворительного результата. После того, как настройки заданы, нужно выбрать место на локальном диске и сохранить файл в формате DjVu. После сохранения добавляется возможность подсвечивать области в документе, вставлять внутренние (для самого документа) и внешние гиперссылки и т.п. Так же если при создании DjVu-документа не было задано распознавание текста, это можно сделать позже. Document Express Editor 6.0.1 умеет распознавать около 100 языков, в том числе русский и украинский.

Вообще вопрос о необходимости добавления текстового OCR-слоя при создании DjVu-документа является дискуссионным. Помимо того, что процедура распознавания текста занимает значительное время, OCR-слой увеличивает размер DjVu-файла. Однако наличие текстового слоя очень удобно при дальнейшей работе с электронной книгой. Во-первых, появляется возможность копировать нужные фрагменты текста для последующей обработки; во-вторых – искать по ключевому слову или выражению в самом DjVu-документе и среди всего множества DjVu-документов как на локальных дисках, так и в сети. Функция поиска по ключевому слову присутствует практически во всех DjVu-программах.

Так как многие DjVu-документы содержат текстовый OCR-слой, у некоторых пользователей создается впечатление, что их можно конвертировать в формат DOC, или подобный. Однако формат DjVu – это графический, а не текстовый формат. Поэтому напрямую конвертировать DjVu-документ в формат «Word-processor» – подобного редактора нельзя. DjVu-файл может лишь содержать встроенный OCR-слой – простой текст без какого-либо форматирования. Используя буфер обмена этот текстовый слой можно перенести в текстовый редактор и вручную форматировать.

В архиве находится Lizardtech Document Express with DjVu Professional Edition 6.0.1 + русификатор для Document Express Editor.

Сегодня расскажем вам, как выделить текст в djvu файле и скопировать его в блокнот, Word или любой другой текстовый редактор. Операция простейшая, поддерживается во всех программах для чтения DjVu, размещенных на нашем сайте. Скачайте одну из них и следуйте инструкции.

Способ 1 – через DjVu Reader

Предположим, что книга уже открыта в читалке, перейдите к нужной странице, затем кликните на верхней панели на иконку пунктирной обводки.

Если иконки не видно, откройте настройки панелей инструментов и поставьте галочку (включите отображение) возле надписи: «Выбор режима».

Обведите участок с текстом на странице и нажмите CTRL+T (язык ввода с клавиатуры должен стоять английский, T – это буква из латинского алфавита, а не из русского). Либо кликните по иконке «TXT» сверху.

Затем вставьте скопированный текст куда хотите.

Если вместо кириллицы вставились каракули, измените кодировку документа на CP1251 или западноевропейскую (Windows). Смотрите подробнее в этой инструкции: Как скопировать текст из DjVu в Word.

Способ 2 – через WinDjView

Зайдите в меню «Инструменты» - «Выделить текст» или кликните на значок курсора на верхней панели (справа от значка руки). Выделите интересующий вас участок текста, затем нажмите CTRL+C.

Либо выберите операцию копирования через меню «Правка» – разницы нет. Всё, теперь текст попал в буфер обмена операционной системы. Откройте Word и нажмите CTRL+V.

Способ 3 – через STDU Viewer

Откройте DjVu книгу, затем выберите инструмент «Выделение текста». Зажмите левую кнопку мыши и выделяйте слова на одной или сразу нескольких страницах. Затем нажмите CTRL+C либо CTRL+Insert на клавиатуре.

Читайте также: