Как обрезать книгу в djvu
Обновлено: 07.07.2024
- ЖАНРЫ 360
- АВТОРЫ 278 562
- КНИГИ 658 289
- СЕРИИ 25 239
- ПОЛЬЗОВАТЕЛИ 614 500
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
Итак: перед вами взятая у приятеля, из библиотеки, или просто хорошая, интересная книга, которую хотелось бы иметь на компьютере. И не просто иметь, а иметь в таком виде, который позволил бы выполнять поиск по тексту, удобно читать книгу на экране монитора или на устройствах еВоок, а если это не научно-техническая или справочная литература – еще и читать на любимом сотовом телефоне, iPhon'e или PDA. В этом пошаговом руководстве, основанном на собственном опыте, я постараюсь рассказать о том, как «выжать» максимум результатов из проделанной простой, но иногда весьма утомительной работы по сканированию книги.
Пусть вас не испугает длина этого руководства и кажущаяся сложность сканирования и обработки книги. Процесс действительно довольно сложен и многоступенчат, но поверьте мне, описать все эти операции было гораздо труднее, чем выполнить их шаг за шагом.
Шаг 1. Сканирование
1.1 Подготовка к процессу
Сканирование, с которого начинается, зачастую, долгий путь «в Сеть» любой изданной когда-либо книги (рынок легальных электронных книг, размещаемых издателями непосредственно после электронной верстки, у нас совершенно неразвит) – это самая монотонная часть всей предстоящей работы, поэтому к ней стоит тщательно подготовиться заранее – протереть стекло сканера, проверить наличие свободного места на диске – несжатый скан одной средней по размеру книги может занимать до 1 Гбайт. Потом начинается собственно сканирование.
Я намеренно не привожу здесь сравнительных характеристик разных моделей сканеров, поскольку каждый из нас в подавляющем большинстве случаев располагает только одним сканером, характеристики которого более или менее хорошо известны.
Phistek OpticBook: преимущества и недостатки
Из всех сканеров, имеющихся на рынке, для сканирования книг в больших количествах нет ничего лучше серии Plustek OpticBook. Эти планшетные сканеры отличаются высоким корпусом и прозрачным основанием, выполненным "в край" – так, чтобы на него можно было уложить книгу, не ломая и не деформируя корешок. Такой сканер – идеален для перевода в электронный вид десятков томов, например из библиотеки университетской кафедры. Однако, для домашнего повседневного применения он практически непригоден. Причина этого – в сугубой спецbализированности устройства под книгосканирование и OCR. В конструкции PlusTek OpticBook в жертву быстродействию и разрешению принесено все, что только можно, включая четкость, избирательность и цветопередачу.
Сканирование всех своих книг я проводил и провожу на достаточно старом (2003 года выпуска) полупрофессиональном планшетном сканере для документсистем Hewlett-Packard ScanJet 6390с. Эта машина отличается высоким быстродействием (15-25 сек на страницу формата А4 в режиме градаций серого). Кроме того, в ее комплект поставки входит удобное программное обеспечение HP Precision Scan Pro. Именно на этой программе сделаны все скрины с примерами сканирования.
Заранее хочу предостеречь от использования в качестве основного инструмента сканирования программы FineReader. Оставим эту программу до стадии OCR. Пока она может лишь максимально усложнить нам задачу пакетной обработки, применив (причем, без нашего ведома) – свои не слишком хорошие алгоритмы чистки и сжатия сканов. А главное – она практически лишит нас шансов применить важнейший прием – оверсемплинг до разрешения 600 dpi.
Собственно сканирование состоит из трех этапов: сканирования обложки, основной части книги, цветных вклеек и иллюстрации. Последовательно описывать эти этапы нет смысла – они переплетаются друг с другом в зависимости от верстки книги. Стоит привести лишь параметры сканирования, оптимальные для разных типов книжных страниц.
Здесь приведу еще одно важнейшее предупреждение(!):
На некоторых очень старых моделях сканеров есть возможность вручную включать внутренний оверсемплинг, тo есть фактически сканировать с меньшим разрешением, чем имеет выходной файл. Обозначается такая установка разрешения обычно словом Software или Resampled. Эту установку использовать нельзя! Ее включение приведет в полную негодность полученные файлы, и их дальнейшая обработка окончательно потеряет смысл. Также нельзя использовать установку сканирования в режиме Linearеt или Black amp;White (одноцветный)
Общие рекомендации такие: для текстовых страниц используйте:
• Режим Grayscale (оттенки серого), для цветных иллюстраций и обложек – True Color (полноцветный).
• Разрешение сканирования – 300 dpi (только оптическое, повторимся еще раз!).
• Остальные установки можно оставить по умолчанию.
Таблица 1. Оптимальные параметры сканирования
Эти параметры не являются догмой. Они определены опытным путем на нескольких моделях неспециализированных сканеров, и служат ориентировочным целям. Собственный набор оптимальных параметров книгосканирования всегда стоит определить экспериментально, отсканировав любимую книгу со всеми иллюстрациями и обложкой. Приводя эти параметры, я стремился обобщить их для применения на максимальном количестве моделей сканеров.
Разрешение: 300 dpi
Резкость: Low или Medium
Яркость и контраст: Любые, специальные параметры не использовать
Разрешение: 300 dpi
Резкость: Medium. High
Яркость и контраст: Любые, можно применить пресет B amp;W Photo
Разрешение: 300 dpi
Резкость: High можно применить пресет B amp;W Photo
Яркость и контраст: Определяются по предварительному сканированию
Режим: True Color
Разрешение: 300 dpi
Резкость: Low, можно применить пресет Photo
Яркость и контраст: Определяются по предварительному сканированию
Тип страницы: Цветная обложка или иллюстрация страничного формата
Режим: True Color
Разрешение: 300 dpi
Резкость: Low, можно применить пресет Photo
Яркость и контраст: Определяются по предварительному сканированию
Формат выходного файла: Uncompressed (Несжатый) TIFF(!)
Почему не JPEG?
Формат JPEG для сохранения сканов книжных страниц использовать можно, но не нужно.
Во-первых: потому, что этот формат даже при включенном сжатии без потерь (Quality = 100) оставляет артефакты в виде «квадратиков».
Во-вторых и самых главных: многократное пережатие при сохранении обработанного файла JPEG вновь в «свой» формат за 2-3 цикла обработки приводит изображение в негодность.
Отдельно коснемся использования сжатого (Compressed) TIFF: при сохранении сжатого изображения в TIFF можно использовать алгоритмы сжатия: ZIP. LZW (без потерь). JPEG (с потерями). Без хлопот программы распознавания вроде FineReader понимают только JPEG.
Со всеми остальными форматами проблемы могут возникать непредсказуемо (например, у меня FineReader 7.0 испытывает устойчивую «идиосинкразию» конкретно к формату сжатия LZW). Поэтому если нет особых проблем с наличием места на диске, лучше всегда использовать несжатый файл.
Можно сделать так:
1. Расшить книгу в TIFF
2. TIFF порезать на отдельные страницы (например, ScanKromsator'ом)
3. Отдельные страницы снова сшить в DJVU (например, Djvu Small)
Как проще -- не знаю.
Я использую такой трюк.
1. Печатаю двустраничную DJVU книгу принтером PDF Adobe Acrobat и получаю файл уже в PDF формате.
2. Далее снова печатаю уже новый файл тем же принтером, но подбираю в пункте "Масштабирование страницы" подпункт "разбиение всех страниц" и задаю масштаб больше 100% (напр. 110%). На вкладке просмотра "совмещенный оттиск" будет пунктиром поделена страница на 2 части. Подбором масштаба можно установить оптимальный размер одностраничного формата.
3. Полученный одностраничный файл PDF конвертирую в DJVU.
Можно сделать так:
1. Расшить книгу в TIFF
2. TIFF порезать на отдельные страницы (например, ScanKromsator'ом)
3. Отдельные страницы снова сшить в DJVU (например, Djvu Small)
Как проще -- не знаю.
Последний раз редактировалось Mikky 27.08.2015, 17:37, всего редактировалось 1 раз.
Можно еще так сделать - загружаем DjVu-файл в FineReader, ставим в настройках предобработки разрезание страниц ("Делить разворот"). Полученные страницы можно распознать и сохранить или в обратно DjVu, или в PDF.Плюс - был просто файл из сканов, имеем его же, но с текстовой подложкой, которую можно при необходимости копировать в другие документы.
-- "распечатать" дежавю, выбрав пункт "мелкомягкие-принтер" (будет создан многостраничный TIFF)
-- пропустить этот TIFF через ScanTailor. Он и развороты разрежет, и наклоны выровняет, и мусор типа полей уберёт (последнее, правда, придётся проконтролировать вручную). Есть недостаток: он, кажется, пытается распознавать буквы и делает это не всегда удачно. Впрочем, неудачи (типа путаницы между "и" и "н") случаются достаточно редко.
-- полученный набор картинок пересобрать обратно, да, через Дежавю Соло.
В общем, это работает. Но это я говорю как дилетант, у которого это несколько раз сработало.
А у меня другой вопрос. Как обрезать странички пэдээфа. (скажем, для того же расщепления разворотов)
Все известные мне программы их физически не обрезают, а просто уменьшают область видимости страничек. Что как-то не комильфо -- объём увеличивается вдвое. Несмертельно, конечно; по.
Есть недостаток: он, кажется, пытается распознавать буквы и делает это не всегда удачно. Впрочем, неудачи (типа путаницы между "и" и "н") случаются достаточно редко.Про Pdf ничего не скажу, но ScanTailor никакого распознавания текста не делает. Ошибки, скорее всего эффект Djvu, связанный с тем, что этот формат использует словарь для повторяющихся символов, и при плохом качестве сканов может их перепутать. Ключевые слова "эффект инь янь Djvu".
Последний раз редактировалось ewert 25.09.2015, 22:40, всего редактировалось 1 раз.
Да, наверное, это действительно эффект словаря.
Ещё добивка: тот самый портняжка (Tailor) иногда выставляет некорректные резаки, обрезая существенную часть странички. Ну так надо просто внимательно следить за результатами и при необходимости поправлять резаки вручную для каждой странички. А в целом -- программка полезная.
-- Пт сен 25, 2015 23:40:22 --
А, пардон. Дежавю Соло я давно уже не пытался пользоваться, только Djvu Small (но это, кажется, одна и та же утилитка, с точностью до графической оболочки).
А у меня другой вопрос. Как обрезать странички пэдээфа. (скажем, для того же расщепления разворотов)
Все известные мне программы их физически не обрезают, а просто уменьшают область видимости страничек. Что как-то не комильфо -- объём увеличивается вдвое. Несмертельно, конечно; по.
Обрезать страницы - A-PDF Crop ; Разрезать страницы на части - A-PDF Cut .
Увеличения размера файла "вдвое" - не наблюдается (размер изменяется в пределах нескольких процентов: может увеличиться, может уменьшиться - зависит от исходного файла).
Обрезать поля можно и в Adobe Acrobat : нюанс в том, что для сохранения результата обрезки нужно использовать не "Сохранить" (Save), а "Сохранить как" (Save as) с заданием другого имени файла. В этом случае информация об обрезке не сохраняется в файле и скачка в размере файла не наблюдается.
Нет, увы: все они ничего физически не удаляют, а лишь меняют область видимости. Но для этого есть и более разумные средства (в частности, с гораздо более грамотно организованным интерфейсом).
Видимо, средств, которые что-то удаляли бы, просто не существует. Такой уж это неприличный формат -- PDF.
Нет, увы: все они ничего физически не удаляют, а лишь меняют область видимости. Но для этого есть и более разумные средства (в частности, с гораздо более грамотно организованным интерфейсом).
Видимо, средств, которые что-то удаляли бы, просто не существует. Такой уж это неприличный формат -- PDF.
Если страницы PDF - растровые картинки (сканированная книга), то можно распечатать файл в TIFF или JPEG на каком-нибудь виртуальном принтере (подойдёт, например, PDFCreator), обрезать страницы, а затем пересобрать в PDF или DJVU.
В том-то и дело, что не растровые.
Не, ну я, конечно, тупо распечатываю и перевожу в дежавю (заодно убирая все поля, кроме пары миллиметров). Однако как-то обидно.
Предположим, что фотографии или отсканированные копии страниц у вас уже есть. Поместите их в одну общую папку, затем скачайте конвертер по этой ссылке:
Откройте архив и запустите файл «Djvu Small Mod.exe». Выберите операцию кодирования, затем нажмите кнопку «Открыть файлы».
Поддерживается создание djvu из картинок в формате jpg, bmp, gif, tiff, pnm и из растровых файлов. Выделите все изображения в папке (чтобы сделать это быстро, нажмите CTRL+A), и откройте их.
Затем выберите, куда сохранить создаваемый файл и придумайте ему имя. Чтобы начать процесс конвертации нажмите кнопку «Кодировать».
Процесс не долгий, на современном ПК на обработку 50 страниц уходит в среднем 1 секунда. В конце, если не убирать галочку с опции «показать результат», будет предложено открыть получившуюся книгу в одной из программ для чтения DjVu файлов, установленной на компьютере.
Как создать файл Djvu
1) DjVu Small
Программа для создания файла djvu из картинок формата bmp, jpg, gif и пр. Кстати, программа может не только создавать, но и извлекать из djvu все графические файлы, которые находятся в сжатом формате.
Пользоваться ей очень просто. После запуска программы, вы увидите небольшое окно, в котором за несколько шагов можно создать файл djvu.
1. Для начала нажимаете на кнопку Open Files (красная единичка на скрине ниже) и выбираете те картинки, которые вы хотите запаковать в данный формат.
2. Вторым шагом выбираете место, где будет сохранен созданный файл.
3. Выбираете, что сделать с вашими файлами. Document — > Djvu — это преобразовать документы в формат djvu; Djvu Decoding — этот пункт нужно выбирать, когда вы вместо картинок в первой вкладке выбираете файл djvu, чтобы его извлечь и получить его содержимое.
4. Select encoding profile — выбор качества сжатия. Лучшим вариантом будет эксперимент: взять пару картинок и попробовать их сжать, если качество вас устроит — то затем можно и всю книгу сжать с этими же настройками. Если же нет — то попробовать увеличить качество. Dpi — это количество точек, чем выше это значение — тем лучше качество, и тем больше получается размер исходного файла.
5. Convert — кнопка, которая запускает создание сжатого файла djvu. Время на эту операцию будет зависеть от количества картинок, их качества, мощности ПК и т.д. На 5-6 картинок ушло примерно 1-2 сек. на среднем по мощности компьютере на сегодняшний день. Кстати, ниже приведен скриншот: размер файла получился примерно 24 кб. из 1мб исходных данных. Нетрудно посчитать, что файлы были сжаты в 43* раза!
2) DjVu Solo
Еще одна неплохая программа для создания и извлечения файлов djvu. Многим пользователям она кажется не такой удобной и наглядной, как DjVu Small, но все равно рассмотрим процесс создания файла и в ней.
1. Открываете файлы картинок, которые вы отсканировали, скачали, взяли у друзей и пр. Важно! Сначала откройте всего лишь 1 картинку из всех желаемых конвертировать!
Важный момент! Многие не могут открыть картинки в этой программе, т.к. по умолчанию она открывает файлы формата djvu. Чтобы открыть другие графические файлы, просто поставьте в графе типы файлов значение как на картинке снизу.
2. После того, как ваша одна картинка была открыта, можно добавить остальные. Для этого в левом окне программы вы увидите столбик с маленьким превью вашей картинки. Щелкните по ней правой кнопкой мышки и выберите пункт «Insert page after» — добавить страницы (картинки) после этой.
Затем выделяете все картинки, которые хотите сжать и добавляете в программу.
3. Теперь жмете на file/Encode As Djvu — произвести кодирование в Djvu.
Далее просто нажимаете на «OK».
В следующем шаге вас просят указать место, где будет сохранен кодированные файл. По умолчанию вам предлагается папка для сохранения та, из которой вы добавляли файлы картинок. Можно выбрать и ее.
Теперь вам необходимо выбрать качество, с которым программа сожмет картинки. Лучше всего, его подобрать экспериментально (т.к. у многих вкусы разные и давать конкретные цифры бесполезно). Просто оставьте сначала по умолчанию, сожмите файлы — затем проверьте, устроит ли вас качество документа. Если не устроит — то затем увеличьте/уменьшите качество и опять проверьте и т.д. пока не найдете свой баланс между размером файла и его качеством.
Файлы в примере были сжаты до 28кб! Довольно неплохо, особенно для тех, кто хочет сэкономить место на диске, или у тех у кого медленный интернет.
Способ 2 – создание djvu в процессе сканирования
Если дома есть сканер, нет смысла предварительно фотографировать каждую страницу, можно их сканировать и преобразовывать в DjVu «на лету». Правда для этого потребуется уже другая программа, которая работает только на Windows XP и 7 — DjVu Solo (на восьмерке не пробовали, а вот на десятке она не запустилась).
, установите и запустите. На верхней панели найдите значок сканера и нажмите на него. Откроется стандартная утилита сканирования.
Если ничего не происходит, через меню зайдите в «Файл» — «Выбрать источник», и из списка устройств выберите свой сканер. Если там пусто, проверьте, установлены ли драйвера, идущие в комплекте с устройством? Попробуйте переустановить их, затем перезапустить программу.
После сканирования через утилиту, изображение откроется в отдельном окне на рабочем столе Solo. Через меню зайдите в «Файл» — «Преобразовать в DjVu», затем сохраните созданный файл. Это еще не книга – только одна ее страница.
Далее алгоритм действий такой: заново нажимаете на значок сканера на верхней панели программы, сканируете новую страницу, сохраняете и опять преобразовываете в DjVu. Созданный файл откроется в новом окне – то есть теперь в программе Solo будет 2 открытых окна с файлами. Вот это новое окно закройте и перейдите к первому окну. Затем через меню зайдите в «Правка» — «вставить страницы в конец книги» и вставьте к первому файлу второй.
Затем отсканируйте третью страницу, и полученный файл опять добавьте в конец книги, то есть к файлу из первого окна. Тоже самое сделайте с четвертой и всеми последующими страницами по очереди, пока книга не закончится.
DjVu Editor 6.0 Pro + Rus
Исключительно по просьбам пользователей CWER.ws
Document Express with DjVu — группа приложений, позволяющих создавать, управлять, записывать и распространять файлы в формате DjVu. Document Express Editor — одна из наиболее распространенных программ для создания и просмотра DjVu-документов на локальном компьютере.
Рассмотрим коротко ее основные возможности и кратко опишем принцип создания DjVu-документов.
В Document Express Editor, можно открывать и конвертировать файлы таких форматов: DjVu (*.djvu, *.djv), BMP (*.bmp), GIF (*.jpg), JPEG (*.jpg, *.jpg), PNM (*.pnm, *.ppm, *.pgm, *.pbm), TIFF (*.tiff, *.tif), PICT (*.pict).
Для создания DjVu-файла нужно отсканировать страницу (меню “Файл” -> “Сканировать”), либо открыть уже готовое изображение поддерживаемого формата (меню “Файл” -> “Открыть”). Если в документ должен быть многостраничный, то при помощи меню “Правка” > “Добавить страницы до…” или “Правка” > “Добавить страницы после…” вставить в документ до или после открытого изображения остальные изображения.
Затем при помощи меню “Файл” -> “Сохранить как…” сохранить документ в формате DjVu.
При сохранении файла программа предложит выбрать настройки: распознавать ли текст; профиль; разрешение (от 100 до 600 dpi); качество текста (возможны 5 уровней от «агрессивного», т.е. со значительной потерей до «без потери»), сохранять изображения каждое в отдельном или все в одном файле.
Так называемый профиль – это тоже настройки, только пользователь выбирает тип документа, а программа автоматически подстраивается под тип изображения.
Всего доступны 7 профилей:
- «Нормальный» – для большинства отсканированных печатных документов
- «Электронный» – для растровых изображений электронного происхождения, таких, как скриншоты и т.п.
- «Фото» — для фотографий. При этом функция OCR не работает, поэтому функция поиска и копирования текста в созданном документе не будет работать.
- «Битональный» — для черно-белых изображений
- «Рукопись» — для старых или рукописных изданий без рисунков или фотографий
- «Рисунок» — похож на «Рукопись», но с поддержкой рисунков и фотографий
- «Карта» — похож на «Рисунок», но с лучшей поддержкой перевернутого текста
Этими настройками, как правило, действительно можно добиться удовлетворительного результата. После того, как настройки заданы, нужно выбрать место на локальном диске и сохранить файл в формате DjVu. После сохранения добавляется возможность подсвечивать области в документе, вставлять внутренние (для самого документа) и внешние гиперссылки и т.п. Так же если при создании DjVu-документа не было задано распознавание текста, это можно сделать позже. Document Express Editor 6.0.1 умеет распознавать около 100 языков, в том числе русский и украинский.
Вообще вопрос о необходимости добавления текстового OCR-слоя при создании DjVu-документа является дискуссионным. Помимо того, что процедура распознавания текста занимает значительное время, OCR-слой увеличивает размер DjVu-файла. Однако наличие текстового слоя очень удобно при дальнейшей работе с электронной книгой. Во-первых, появляется возможность копировать нужные фрагменты текста для последующей обработки; во-вторых – искать по ключевому слову или выражению в самом DjVu-документе и среди всего множества DjVu-документов как на локальных дисках, так и в сети. Функция поиска по ключевому слову присутствует практически во всех DjVu-программах.
Так как многие DjVu-документы содержат текстовый OCR-слой, у некоторых пользователей создается впечатление, что их можно конвертировать в формат DOC, или подобный. Однако формат DjVu – это графический, а не текстовый формат. Поэтому напрямую конвертировать DjVu-документ в формат «Word-processor» – подобного редактора нельзя. DjVu-файл может лишь содержать встроенный OCR-слой – простой текст без какого-либо форматирования. Используя буфер обмена этот текстовый слой можно перенести в текстовый редактор и вручную форматировать.
В архиве находится Lizardtech Document Express with DjVu Professional Edition 6.0.1 + русификатор для Document Express Editor.
Сегодня расскажем вам, как выделить текст в djvu файле и скопировать его в блокнот, Word или любой другой текстовый редактор. Операция простейшая, поддерживается во всех программах для чтения DjVu, размещенных на нашем сайте. Скачайте одну из них и следуйте инструкции.
Способ 1 – через DjVu Reader
Предположим, что книга уже открыта в читалке, перейдите к нужной странице, затем кликните на верхней панели на иконку пунктирной обводки.
Если иконки не видно, откройте настройки панелей инструментов и поставьте галочку (включите отображение) возле надписи: «Выбор режима».
Обведите участок с текстом на странице и нажмите CTRL+T (язык ввода с клавиатуры должен стоять английский, T – это буква из латинского алфавита, а не из русского). Либо кликните по иконке «TXT» сверху.
Затем вставьте скопированный текст куда хотите.
Если вместо кириллицы вставились каракули, измените кодировку документа на CP1251 или западноевропейскую (Windows). Смотрите подробнее в этой инструкции: Как скопировать текст из DjVu в Word.
Способ 2 – через WinDjView
Зайдите в меню «Инструменты» - «Выделить текст» или кликните на значок курсора на верхней панели (справа от значка руки). Выделите интересующий вас участок текста, затем нажмите CTRL+C.
Либо выберите операцию копирования через меню «Правка» – разницы нет. Всё, теперь текст попал в буфер обмена операционной системы. Откройте Word и нажмите CTRL+V.
Способ 3 – через STDU Viewer
Откройте DjVu книгу, затем выберите инструмент «Выделение текста». Зажмите левую кнопку мыши и выделяйте слова на одной или сразу нескольких страницах. Затем нажмите CTRL+C либо CTRL+Insert на клавиатуре.
Читайте также: