Как pdf перевести в word на linux

Обновлено: 06.07.2024

Одной из часто упоминаемых проблем с переходом на Linux является совместимость файлов. Вы неизменно будете отправлять пользователям файлы других операционных систем, и они не будут выглядеть одинаково при открытии в таких приложениях, как Word. Пока вы можете установить шрифты или попробовать виртуальные машины или эмуляторы

чтобы убедиться, что все выглядит единообразно, другой подход заключается в том, чтобы выполнить свою работу в текстовом формате, а затем преобразовать ее после того, как вы это сделали.

Одним из инструментов, который вы можете использовать для преобразования между форматами, является pandoc, необходимый инструмент в наборе инструментов любого пользователя Linux.

Базовая установка и использование Pandoc

После установки вы можете начать использовать программу командной строки для преобразования файлов. Отлично справляется с Markdown и другими легкими языками разметки, если у вас есть .Мэриленд файл лежит вокруг, вы можете преобразовать это в HTML с помощью следующего:

исходная цель уценки Пандока

-о флаг говорит имя выходной файл ты хочешь. В этом случае он также выводит формат вывода (HTML) по расширению имени файла. Вы можете использовать -р (за читать) а также -вес (за записывать) флаги, чтобы сообщить pandoc тип конверсии, который вы хотите. Предположим, вы привыкли писать в Markdown, но вам нужно что-то опубликовать на странице на MediaWiki:

Пандок конвертировать уценки источник MediaWiki

В своих более ранних версиях pandoc фокусировался на «обновлении» файлов в том смысле, что он мог преобразовывать более простые форматы (такие как Markdown) в более сложные (например, ODT или Microsoft DOCX). Но это будет сейчас читать эти более сложные форматы, а также. Это означает, что если вы привыкли к текстовому процессору, но соблазнены всеми причинами использовать меньший и более портативный текстовый формат

стало намного проще.

Учитывая каталог, полный файлов Word, следующая команда преобразует каждый из них в Markdown:

pandoc конвертирует пакетный результат

Обратите внимание, что это оставит вас с именами файлов filename.docx.md, так что вам нужно будет выполнить команду быстрого переименования (или, что еще лучше, добавить ее к вышеупомянутому сценарию оболочки)

Параметры командной строки Pandoc

Теперь, когда у вас есть некоторые основы, мы рассмотрим некоторые из более сложных опций параметров командной строки pandoc.

Справочные файлы ODT / DOCX

Предположим, вы преобразовали все свои старые, громоздкие файлы текстового процессора в Markdown. Пока вы наслаждаетесь радостью от написания простого текста, в какой-то момент вам придется поделиться этим с кем-то. И этот кто-то может быть не так просвещен, как вы. Вы можете просто полностью изменить читать а также записывать флаги для преобразования вашего файла обратно в формат Word:

Но некоторым людям нравятся их файлы Word с определенными шрифтами, пронумерованными заголовками и т. Д. DOCX back-end поддерживает файлы шаблонов, называемые справочные файлы, как раз для такого случая. Это ODT или же DOCX файлы, которые вы настроили со всем необходимым стилем. Затем pandoc применяет эти стили при преобразовании, если вы передаете ему ссылочный файл в командной строке:

Pandoc ODT стиль ссылки

Обратите внимание, как шрифты, настроенные в справочном файле выше (Arial Black для заголовка 1 и т. Д.) Отображаются в преобразованном файле ниже. Вы можете создать столько эталонных файлов, сколько вам нужно (например, по одному на клиента). Затем полностью игнорируйте форматирование во время написания и применяйте стили за один шаг при конвертации.

pandoc odt эталонный выход

Бэкэнд рендеринга PDF

Кроме того, вы можете перейти к полнофункциональной опции с помощью системы набора текста TeTex. Воспользуйтесь тем, что эти пакеты Предлагаемые установки для пакета pandoc, переустановив с помощью следующей команды:

Затем откиньтесь на спинку кресла, пока много (на самом деле, много) пакетов устанавливаются. Как только они будут завершены, вы можете преобразовать свой файл непосредственно в PDF, указав его как записывать флаг:

В то время как wkhtmltopdf Опция требует установки только одного пакета, вы можете получить более удобные для печати результаты с TeTex. А именно, шрифты с засечками используются по умолчанию, а страницы автоматически нумеруются.

pandoc pdf tetex результат

Генератор электронных книг

Наконец, pandoc может конвертировать ваши файлы в электронные книги, подходящие для чтения на телефоне или в электронном ридере.

, EPUB а также EPUB3 Бэк-энд даст вам правильно отформатированную книгу:

выход pandoc epub

Дополнительные советы

Уценка Пандока

В дополнение к тому, что pandoc является инструментом конвертации, он поддерживает слегка улучшенную версию Markdown. Используя pandoc вместо стандартного уценка Команда, у вас есть некоторые дополнительные функции, в том числе следующие:

Используйте графический интерфейс с Pandoc

Хотя pandoc эффективен как инструмент командной строки, он содержит много опций. Если вы новичок в Linux, вы можете предпочесть использовать pandoc с графическим интерфейсом. Хотя по умолчанию он не содержит графического интерфейса, вы можете установить PanDocElectrion конвертировать ваши документы с указателем и щелчком. Загрузите скрипт установки с веб-сайта приложения, затем запустите его, чтобы установить все необходимые пакеты и саму программу.

pandoc convert pandocelectron установить

После установки начало вечера команда в PanDocElectron каталог запустит приложение. Благодаря выпадающим спискам форматов и возможности выбора входного файла с помощью диалогового окна это поможет вам привыкнуть к «входам и выходам» pandoc.

pandoc convert pandocelectron ui

Если вы знакомы с множеством опций и флагов pandoc, но хотите просто вызов это, вы можете интегрировать его с вашим текстовым редактором GUI. Например, редактор Atom содержит несколько пакетов, которые позволяют сохранить текущий файл в различных форматах с помощью pandoc (пакет pandoc-convert):

Пандок конвертировать атом команды

Конфигурация pandoc convert buildtools

Затем вы можете вызвать команду build для ваших файлов, совместимых с pandoc, так же, как и для исходного кода:

команда pandoc convert buildtools

Пандок снимает стресс от переключения

С pandoc в вашем наборе вы можете быть спокойны, зная, что вы всегда можете передать свои документы другим людям в нужном им формате. В то же время вы можете воспользоваться некоторыми из замечательных возможностей Linux (подумайте о предоставлении одного из текстовых редакторов на базе терминала, таких как напор попытка).

Вы часто конвертируете файлы назад и вперед между форматами? Если у вас возникли проблемы с совместимостью, сообщите нам в комментариях, и мы посмотрим, сможем ли мы использовать pandoc, чтобы разобраться с вами!

Есть ли утилиты под линукс которые справляются с этой задачей? Именно pdf в doc и не иначе.

Что удалось нагуглить так это только shareware программы под винду.


pdf > tiff > cuneiform > doc

тебе вообще не приходило в голову, что если кроме shareware для такой задачи ничего нет, значит задача не совсем тривиальна?

CuneiForm в doc не успеет преобразовывать.


по-моему должен уметь

Открыть опенофисом и сохранить как .doc (только у вас получится совершенно нередактируемый текст - по одному блоку на каждую строчку).


если его так до сих пор и не научили - html или rtf в doc конвертится на раз.

Я просил утилиту для линукса.

на финфаке спроси

Если чтобы можно было редактировать - то текст можно получить при помощи pdftotext, картинки - при помощи pdfimages, потом все соединить.

Если серединка на половинку - опенофисом, как я выше говорил.

То есть вам шашечки, а не ехать?


pdftotext file.pdf file.doc

коли в условии задачи ничего не сказано про картинки, etc.

p.s. или сейчас выяснится, что нужно соблюсти форматирование, формулы, рисунки и т.п. ??

что нужно соблюсти форматирование, формулы, рисунки и т.п. ??

В этом случае единственный надежный способ - мой (распустить pdf на страницы и повтыкать каждую ручками или скриптом в ОО, потом сохранить как .doc). Естественно, редактировать нельзя будет.


Если в пдф нет текстового слоя, то никак

Читайте внимательнее пост.

формат DOC вам ничего не говорит? Чем отличается TXT от DOC?


Это нужно для того чтобы бы полученный сконвертированный pdf документ можно было редактировать в worde.


Вы скажите, зачем это вам надо?

Тогда забудьте. Либо выдерните текст из pdf (если он, конечно, с текстом) при помощи pdftotext и сохраните при помощи ОО как .doc, либо (если хотите поиздеваться над тем . который надумал редактировать pdf) - откройте pdf при помощи ОО и сохраните как .doc.

Да, если не секрет: что побудило вас задать такой, мягко говоря, глупый вопрос? pdf-то чем-то создавался? Куда оригинал дели?


Ну только что попробовал открыть pdftotext test.pdf test.doc документ в word (прости господи). Открывается. Редактируется. Что дальше?

html или rtf это языки разметки а pdf это поток байт представляющий графический образ для печати на принтере. поэтому его можно только finereader-ом/OCR распознавать

полученный сконвертированный pdf документ можно было редактировать в worde


открой файл в Acrobat и скопируй все в Word

открой файл в Acrobat и скопируй все в Word

Чем этот способ лучше открывания файла опенофисом и сохранения в формате .doc? Все равно ничего невозможно будет редактировать (точнее, можно, но с большими костылями). И разметка поплывет.


ТС хочет редактировать в ворде, следовательно, и акробат должен быть:)

Судя по формулировке вопроса, у ТС линукс, а какому-то нехорошему человеку надо редактировать в мастдае pdf. И этот нехороший человек эти самые pdf где-то украл, т.к. исходников у него нет. Плагиат!

Картинки, таблицы, форматирование осталось?

Насколько узкое у вас мышление, но я держу себя в руках.


О! Брависсимо! Я ждал этого вопроса.

Картинки, таблицы, форматирование осталось?

Если вам надо, чтобы это все осталось, да еще и в таком виде, чтобы можно было редактировать, да еще и чтобы не испортилось оформление документа, то мой вам совет: забудьте о своей нездоровой идее. pdf предназначен для чтения и печати, но никак не для редактирования.

Еще раз спрашиваю: куда исходники этого pdf'а дели?

Я уже несколько раз просил, чтобы вы объяснили, зачем вам это понадобилось. Ответ был? Нет. Значит - плагиат!


Нет. Потому что не нужно, тем более в какой-то док (это для докторов что ли?).
Ставь под винду что-нибудь типа адобепдфедит/фокситпдфедит.


Даже сам себя процитирую

p.s. или сейчас выяснится, что нужно соблюсти форматирование, формулы, рисунки и т.п. ??


То finereader 8 portable под wine. Открывает pdf, сохраняет в doc.


Спасибо за совет. Мне глубоко пофиг Unix вэй это или как-то другой. У меня есть задача, которую надо решить.


facepalm. а на выходе cuneiform у нас что, поток байт с картинкой пдфа замаскированный под html?


Сделать скриншоты страниц PDF и вставить картинки в doc. Profit.

Редактировать можно GIMP-ом.

Зачем скриншот, когда есть ImageMagic?

>pdf > tiff > cuneiform > doc

Топикстартеру: кто мешает использовать виндовое в вайне?

Спасибо за совет! Виндовое приложение под вайном тоже подойдет как вариант. Можете посоветовать какое? Чтобы freeware было.

Почему бы вам не делать все через одно место, а редактировать то, из чего этот самый pdf был сгенерирован?

>Можете посоветовать какое?

Adobe Acrobat (не Reader!)

Пиратским воспользуйся, как обычно.

Проще найти free чем кряк. Вам советаю поступать также.

>Проще найти free чем кряк



одной утилитой не выйдет,
попробуйте или предложенные уже в теме конвертеры в другие форматы, например текст или изображение, а можно просто попробовать в просмотрщике pdf скопировать данные в буффер и вставить в ООо writer

если изображение, то можно воспользоваться распознавалками , cuneiform например, возможно удастся сохранить часть форматирования.

PDF в Word значки

Наверняка вы уже знаете, как перейти от собственного документа Microsoft Office к PDF с помощью функций, включенных в офисный пакет Microsoft, если вы используете его с Wine в GNU / Linux. И даже если вы используете LibreOffice или другой офисный пакет, вам также будет легко перенести документ в формат PDF делиться им более удобным способом благодаря инструментам, которые уже включают этот тип пакета. Прежде чем вам приходилось использовать для этого другие инструменты, для этого появились определенные плагины, и, наконец, они уже были интегрированы в наборы.

Но не это мы будем объяснять в этой статье, а нас интересует обратный процесс, то есть конвертировать PDF в документ Word или LibreOffice, будь то .doc, .docx и т. д. И хотя это не так типично, как обратное преобразование, которое я объяснил в первом абзаце, многим людям необходимо преобразовать документы PDF в несколько более удобный формат для их редактирования. Вот почему мы собираемся объяснить простые шаги для преобразования PDF в Word.

В чем разница между PDF-файлом и другими форматами:

PDF означает Portable Document Format, то есть переносимый формат документа. Он был разработан Adobe Systems и в настоящее время является одним из самых популярных форматов, поскольку не зависит от программных и аппаратных платформ, которые мы используем, а значит, и портативности. Это означает, что мы сможем визуализировать контент из нескольких очень разных операционных систем и программ, что делает его королем Интернета для доступа к таким разнородным компьютерам, которые существуют.

Это стало настолько важным, что в 2008 году он был стандартизирован в соответствии с ISO 32000-1, но не все из них имеют преимущества, такие как портативность, простота просмотра, небольшой размер и индивидуальная конфигурация, у него также есть скрытое лицо. Например, редактирование этих файлов PDF означает покупку платного программного обеспечения, такого как продукты Adobe Acrobat в их PRO-версиях. Поскольку его трудно редактировать или невозможно без специального программного обеспечения, с ним трудно работать, поэтому его стремятся превратить в редактируемый документ, как мы научим вас в этом руководстве.

Кстати, это правда, что для Linux есть некоторые альтернативы, такие как PDF Studio Pro или PDF Edit, но, честно говоря, альтернативы недостаточно зрелы и не так полны, как у Adobe .

Как конвертировать Word в PDF:

Из Microsoft Office:

Возможность Office для экспорта в PDF

Чтобы преобразовать любой офисный документ, будь то .doc, .docx, .ppt, .pptx,. и т. д., если вы работаете с офисным пакетом Microsoft Офис или Office 365 с веб-платформы, вы можете выполнить следующие действия для преобразования в формат PDF:

  1. Откройте программу, с которой хотите работать. Это может быть Word, PowerPoint и т. Д.
  2. Перейдите в меню "Файл".
  3. Щелкните "Экспорт".
  4. И выберите формат PDF.
  5. В раскрывающемся меню вы можете выбрать имя PDF-документа и место его сохранения, а также выбрать между обычным или легким форматом (особенно для публикации в Интернете). Если вы отобразите параметры, это также позволит вам выбрать страницы для преобразования, закладки и т. Д.
  6. При принятии и сохранении офисный документ начнет экспортироваться в PDF, и он будет у нас готов.

То же самое, если работать с веб-интерфейс Office в облаке или из офисных приложений Microsoft Office 365 для Android .

Из LibreOffice / OpenOffice:

Меню LibreOffice для экспорта в PDF

Если вы используете бесплатный офисный пакет, он будет таким же или проще. С LibreOffice или OpenOffice вам просто нужно выполнить следующие действия:

  1. Откройте программу, с которой вы работаете, например Presentation, Writer, .
  2. Открыв документ, который вы хотите экспортировать в PDF, перейдите в меню «Файл».
  3. Выберите опцию Экспорт в PDF.
  4. Выберите имя и куда сохранить.
  5. Готово, у вас уже есть PDF-файл.

Конвертировать PDF в Word

В случае обратной операции офисные пакеты обычно не имеют параметров для преобразования PDF в редактируемый документ, или, если они есть, они не так видны, как в случае параметров для преобразования документа в PDF. Например, если у нас есть LibreOffice установлен (и пакет libreoffice-common) в нашем дистрибутиве, мы можем использовать простую команду для преобразования PDF в один из форматов, совместимых с нашим любимым бесплатным пакетом. Как? Ну вот так:

Благодаря этому нам удается преобразовать документ с именем name.pdf (который вы должны заменить на имя вашего PDF-файла) в .doc, чтобы иметь возможность редактировать его с удобством. Конечно, вы должны запустить его из каталога, в котором должен работать PDF . Если хотите, вы можете изменить формат документа на другой, например .odt и т. Д.

Другая форма Это может быть здесь, в данном случае для Word-совместимого .docx:

И на самом деле это не единственные варианты для преобразования такого типа, есть другие альтернативы. Если хотите, можете установить пакет Abiword и беги следующая команда:

El последний ресурс было бы приобрести программное обеспечение Adobe Acrobar Pro, чтобы иметь возможность редактировать PDF-файлы или конвертировать их в другие форматы, среди которых .doc и .docx. Но для этого вы должны использовать виртуальную машину с Mac или Windows, чтобы иметь возможность запускать ее, или напрямую установить Adobe Acrobat Pro с помощью Wine.

Если есть сомнения, не забывай оставьте свои комментарии.

Содержание статьи соответствует нашим принципам редакционная этика. Чтобы сообщить об ошибке, нажмите здесь.

Полный путь к статье: Любители Linux » GNU / Linux » Конвертируйте PDF в Word из Linux


Формат PDF стал очень популярен с развитием интернета и распространением электронной документации, и тем, кто имеет дело с текстами, приходится подбирать инструментарий, чтобы открывать файлы в этом формате и работать с ними. Сторонникам *nix есть из чего выбирать.

PDF-файлы достаточно сложны по своей структуре, они могут содержать текст, графику, вложения, иметь сжатие и шифрование, поэтому современные версии формата невозможно прочитать при помощи стандартных команд Linux, cat, less или обычного текстового редактора вроде vi. Для просмотра и извлечения информации необходимо использовать специальную программу.

Сам Adobe также выпускает версию Adobe Reader для UNIX, но она давно не обновлялась и вряд ли представляет какой-то интерес. В большинстве дистрибутивов Linux по умолчанию установлена какая-то из программ для чтения PDF-файлов, поэтому проблем с этим нет. В Ubuntu и клонах это одна из лучших и в то же время очень простых программ Evince, разрабатываемая в рамках проекта GNOME, но она отлично работает и с любым другим оконным менеджером. Evince поддерживает просмотр — PDF, DjVu, TIFF, PostScript, DVI, XPS, SyncTex, Сomics Books (cbr, cbz, cb7, cbt) и презентации в формате ODP. Открывает зашифрованные документы PDF. Реализован поиск по документу, несколько вариантов отображения структуры документа (древовидная, миниатюры страниц и другие), что позволяет быстро найти нужную. Для PDF и DVI можно выделить нужный фрагмент текста и скопировать его в буфер обмена, произвольный участок страницы сохраняется в картинку. Есть возможность установки закладок, запуска в режиме презентации и полноэкранном, вывод по одной или по две страницы, зуминг и поворот страницы. Каждый документ открывается в новом окне; если их много, это бывает неудобно. В целом весьма хороший просмотрщик для PDF-файлов, не сильно требующий ресурсов.

Evince — простой и удобный просмотрщик PDF

Evince — простой и удобный просмотрщик PDF

В репозитории можно найти еще несколько альтернатив. Наиболее современный из них — универсальный просмотрщик документов от проекта KDE Okular, кроме PDF поддерживающий PostScript, DjVu, CHM, XPS, ePub, CHM и некоторые другие форматы. По функциям он превосходит Evince, больше всяких возможностей по просмотру и навигации, есть даже настройки производительности, позволяющие установить оптимальный режим вывода документа в зависимости от мощности компьютера.

Плюс целый ряд легких просмотрщиков с минимальным интерфейсом, но не уступающих функционально, — ePDFviewer, XPDF, MuPDF, Zathura и другие. Например, Zathura и MuPDF вообще не имеют кнопок, управляются при помощи клавиш (все они описаны в man), а программы весят меньше сотни килобайт и летают даже при загрузке больших документов. В Zathura возможно сохранить текущую страницу в графический файл или сохранить изображение в буфер обмена.

С графической средой в общем все понятно, но бывает, что PDF-файл нужно прочитать в консоли, а ничего под рукой нет. Здесь два варианта — специальный просмотрщик, использующий framebuffer, и конвертирование файлов в другой формат (текстовый или HTML). Для первого случая нам понадобится просмотрщик изображений через фреймбуфер fbi и один из вьюверов PDF — fbgs (Framebuffer Ghostscript Viewer), который входит в состав пакета fbi или аналогов — FBPDF, JFBPDF. Кроме PDF, fbgs поддерживает и DjVu. Принцип работы прост — из страниц документа автоматически генерируется изображение, которое и выводится в консоль. Но нужно учесть, что работает этот способ для реальной консоли, в эмуляторе терминала запуск приведет к ошибке. Установка:

Для просмотра пользователь должен быть добавлен в группу video:

Теперь можно смотреть:

Некоторое время придется подождать, пока будут сгенерированы изображения.

В большинстве программ с GUI PDF поддерживается при помощи библиотеки poppler, которая, в свою очередь, базируется на коде популярного просмотрщика xpdf. Кроме собственно библиотеки, проект предлагает 11 консольных утилит для работы с PDF-файлами, которые позволяют конвертировать PDF во всевозможные форматы (текст, HTML, PPM, PS, PNG, JPEG, SVG) и извлекать заголовок, вложения, рисунки и шрифты. Конвертеры pdftohtml и pdftotext как раз подходят для чтения файлов в консоли. В Ubuntu, как правило, эти утилиты уже установлены. Если выполнить, не указав имя выходного файла, или вывести на стандартный вывод, то в текущем каталоге будет создан файл с аналогичным именем и расширением txt или html, который затем можно открыть в любом редакторе или консольном браузере (например, Links или ELinks). Или просто прочитать:

К слову, файловый менеджер Midnight Commander в некоторых дистрибутивах позволяет просматривать PDF-файлы. За это отвечает скрипт /usr/lib/mc/ext.d/doc.sh (описывается в /etc/mc/mc.ext). Если его просмотреть, то увидим, что по умолчанию файл конвертируется в текстовый как раз при помощи pdftotext и затем выводится на экран. Хотя возможны и другие варианты, поэтому стоит заглянуть в doc.sh.
Утилиты из poppler покрывают почти все основные форматы для конвертирования и некоторой обработки PDF-файлов. Так, PDF-файлы могут содержать вложения, утилита pdfdetach позволяет просмотреть их список и извлечь:

Аналогично одной командой извлекаются изображения.

Чтобы узнать информацию о встроенных шрифтах, следует запустить утилиту pdffonts.
В контексте можно вспомнить о SWFTools, содержащем несколько конвертеров в формат SWF (Small Web Format), включая PDF2SWF. Единственный момент, что пакет SWFTools в Ubuntu и некоторых других дистрибутивах не включает утилиту pdf2swf, поэтому ее приходится устанавливать из исходников:

В итоге получен SWF-файл, открыв который в веб-браузере или проигрывателе увидим периодически сменяющие друг друга страницы документа. Можно обработать лишь часть документа, указав номера избранных страниц с помощью опции --pages:

Еще одна полезная утилита, распространяемая под Artistic License, — QPDF представляет собой конвертер PDF, позволяющий производить различные преобразования: оптимизацию для веба, шифрование/дешифрование, верификацию файлов, а также слияние и разделение. С ее помощью также можно создать PDF-файл программным способом, QPDF берет на себя все синтаксическое представление объектов, создание перекрестных ссылок таблицы, шифрование, линеаризацию и другие детали синтаксиса.

При обновлении версии Adobe Extension Level, которое используется при создании PDF-файлов в облаке компании Adobe, часто первое время невозможно такие файлы прочитать на программах, отличных от Adobe Reader. Здесь как раз и выручает QPDF (и некоторые другие утилиты обзора), достаточно снять с файла шифрование, и вопрос с чтением снимается. Смотрим свойства документа при помощи pdfinfo из комплекта poppler:

Теперь с чтением проблем точно не будет. Если файл защищен паролем, то его следует указать при помощи параметра --password.

Получаем информацию о файле при помощи pdfinfo

Получаем информацию о файле при помощи pdfinfo

При работе с PDF очень часто возникает задача сборки файлов из частей отдельных документов или изменения отдельных параметров, таких как размер листа или ориентации (книжная или альбомная). Несложные скрипты позволяют сделать все нужное буквально одной командой, но для начала следует разобраться с базовыми утилитами.

Утилиты pdfseparate и pdfunite из poppler позволяют извлекать отдельные страницы и объединять документы. Причем среди других описанных далее они самые простые в использовании, так как не имеют большого количества опций, и с их работой легко разобраться. Например, извлекаем страницы с 10-й по 20-ю и сохраняем их в отдельный документ:

В имени переменная %d обязательна, так как pdfseparate умеет сохранять страницы только в отдельные файлы. Вместо него будет подставлен номер страницы, то есть в нашем случае получим файлы с именем file-10.pdf . file-20.pdf. Если все же нужен единственный документ, то на помощь приходит pdfunite. Соберем страницы 10 и 11 в один документ:

У QPDF очень много параметров и возможностей, это практически универсальная утилита для обработки файлов формата PDF, причем многие операции выполняются одной командой. Например, можем сохранить в отдельный файл нужные страницы одного или нескольких источников:

В результате получим файл, собранный из полного документа in.pdf и указанных страниц документов in1.pdf и in2.pdf. Диапазон можно задавать через дефис или перечислить страницы через запятую. Возможен и реверс при помощи конструкции z-№страницы. Добавив параметр --linearize, сгенерируем оптимизированные для веба файлы. Специальный QDF-режим (--qdf) позволяет создавать PDF-файлы, которые затем можно редактировать в обычном текстовом редакторе, то есть без сжатия и шифрования, нормализованный и со специальными метками. Правда, и размер такого файла как минимум в два раза больше.

Иногда нужно просто сравнить две версии PDF-файла — текст, рисунки, вложения. Здесь помогут две прекрасные утилиты: diffpdf и comparepdf. В самом простом случае:

На выходе получим отличие. Если файлы одинаковы, то команда ничего не выдаст (опция «-v 2» сделает ее чуть болтливей). Diffpdf представляет собой GUI-программу, позволяющую произвести постраничную сверку документа. В случае отсутствия расхождения, после запуска будут показаны пустые поля.

Сравнение документов в diffpdf

Сравнение документов в diffpdf

При необходимости в diffpdf можно задать диапазоны проверки. Это полезно, если, например, в документ добавлена страница, а поэтому постраничная проверка после нее точно покажет несоответствие.

Не всем пользователям нравится разбираться с многочисленными параметрами и экспериментировать, некоторые предпочитают просто выбрать нужные операции в GUI. Нет проблем. PDF-Shuffler — небольшое Python-GTK приложение к Python-библиотеке pyPdf, предоставляющей все функции для работы с PDF: извлечение, слияние, обрезку, шифрование/дешифрование и прочее. Программа есть в репозитории дистрибутивов:

Интерфейс не локализован, но все, что требуется после запуска, — это кинуть файлы в окно программы, а после того, как будут отображены все страницы документа, при помощи меню удаляем, обрезаем, поворачиваем, экспортируем нужные. Если требуется произвести операцию с несколькими страницами сразу, то просто отмечаем их при нажатой клавише Ctrl, после чего сохраняем результат в новый документ. Быстро и очень удобно. Правда, как видим, PDF-Shuffler использует далеко не все возможности библиотеки, нет, например, оптимизации и шифрования/дешифрования, нельзя производить другие преобразования вроде изменения размера листа. Поэтому полностью консольные утилиты он не заменяет. Кстати, pyPdf, на котором базируется PDF-Shuffler, уже не развивается и сегодня в дистрибутивах, бывает, замещается форком PyPDF2, который полностью совместим с оригиналом плюс содержит несколько новых методов.

PDF-Shuffler позволяет легко убрать все лишнее из документа

PDF-Shuffler позволяет легко убрать все лишнее из документа

Среди альтернатив PDF-Shuffler можно выделить PDF Mod, легкое, очень простое в использовании приложение с локализованным интерфейсом, которое позволяет извлекать, удалять страницы, изменять их порядок, поворачивать, объединять несколько документов, экспортировать изображения в выбранной странице и редактировать информацию в заголовке документа (названия, ключевые слова, автор). Поддерживаются закладки. PDF Mod есть в репозитории:

Окно PDF Mod

Окно PDF Mod

Кросс-платформенная утилита PDFsam — PDF Split And Merge, написанная на Java, умеет объединять, разрезать и поворачивать документы PDF. А в режиме burst генерирует из страниц PDF отдельные файлы. В репозитории далеко не самая последняя и весьма глючная версия. Новые релизы уже лишены многих недостатков, поэтому лучше ставить с официального сайта, но придется немного покомпилировать, так как без оплаты разработчики предлагают только сборку под Win и исходные тексты.

Редактирование PDF

PDF сам по себе сложный формат, предназначенный для издательской продукции, требующий специальных инструментов для создания и редактирования. И *nix-пользователям есть из чего выбирать. Создать PDF-документ можно в Open/LibreOffice, а чтобы получить возможность редактирования, следует установить расширение Oracle PDF Import Extension. Кроме этого, доступны специальные приложения — PDFedit, Scribus и Master PDF Editor. Среди них Scribus — очень мощное приложение со множеством функций, требующее времени на освоение.

Master PDF Editor — весьма простой инструмент, распространяемый бесплатно для некоммерческого использования. PDFedit позволяет производить любые операции по внесению исправлений в PDF-документы. Встроенные средства дают возможность редактировать текст и графику, но не дружат с таблицами. Возможна автоматизация при помощи ECMAScript-скриптов. К сожалению, PDFedit, использующий Qt 3, в текущей версии Ubuntu убран из-за отсутствия поддержки пакета libqt3-mt, а попытка установки не всегда удачна. Версия на Qt 4 пока находится в стадии разработки.

В контексте работы с PDF утилиту PDFtk Сида Стюарда (Sid Steward) хотелось бы выделить особо. Это даже не утилита, а комбайн «все в одном», позволяющий разделить или объединить несколько документов в один, расшифровать/зашифровать PDF-файл, добавить или удалить вложения, заполнить формы, восстановить поврежденные документы и многое другое. Вообще, разработчики предлагают несколько решений, основа всех — консольная утилита PDFtk Server, о которой речь дальше. Для пользователей Win разработчики предлагают GUI. Плюс доступны еще две утилиты: GNU Barcode Plus PDF для генерации штрих-кода в PDF-файл и платный STAMPtk, генерирующий водяные знаки и колонтитулы в PDF-файле. Пакет PDFtk уже есть в репозиториях дистрибутивов, поэтому с установкой проблем нет. Вместе с командой следует указать имя входных и выходного файла (поддерживается маска), команду и параметры. Всего поддерживается 18 команд, все они описаны в документации. Приведу лишь несколько примеров, достаточных для понимания сути работы с PDFtk. Например, команда cat позволяет объединить несколько файлов в третий — outfile.pdf:

Если файлов много, то проще собрать их в одном каталоге и использовать маску *.pdf. Отдельные страницы вырезаются просто указанием их номеров после cat:

Причем, если файлов несколько, для каждого задаются свои страницы, при необходимости меняется ориентация.

В примере из документа in1.pdf будет извлечена первая страница, которая будет повернута на 90 градусов. Со второго документа извлекаются только четные страницы в диапазоне 2–20. Четность возможно указать как even (четный) или odd (нечетный), поворот указывается как north, south, east, west, left, right или down. Последнюю страницу документа можно указать при помощи ключевого слова end. Диапазон указывается или прямо, как в примере, или реверсно (например, end-1). Чтобы разложить PDF на страницы, используется команда burst.

Теперь открываем и правим metadata.txt в текстовом редакторе, после чего загружаем обратно:

Дешифровка PDF, о которой мы говорили выше, дело одной команды:

PDFtk — универсальная утилита для работы с PDF

PDFtk — универсальная утилита для работы с PDF

На самом деле это далеко не все утилиты для работы с PDF-файлами. Практически не затронут вопрос генерации PDF из различных источников. Но большинство решений легко найти в репозитории. Преобразование через PostScript дает еще большие возможности по управлению содержимым.

Оригинал: How to Convert a PDF File to Editable Text Using the Command Line in Linux
Автор: Lori Kaufman
Дата публикации: 9 ноября 2015 г.
Перевод: А.Панин
Дата перевода: 7 октября 2016 г.

Как преобразовать документ формата PDF в текстовый файл в терминале Linux

Существует множество причин, по которым вам может понадобиться преобразовать документ формата PDF в текстовый файл. Возможно, вам нужно изменить старый документ и вас есть лишь его версия в формате PDF. Преобразование файлов PDF в ОС Windows не представляет каких-либо сложностей, но что делать в том случае, если вы используете Linux?

Не беспокойтесь, я продемонстрирую простую и рабочую методику преобразования файлов PDF в текстовые файлы с помощью утилиты с интерфейсом командной строки с именем pdftotext из пакета утилит "poppler-utils" . Эта утилита может быть уже установлена в вашей системе. Для проверки ее наличия в системе следует в первую очередь воспользоваться сочетанием клавиш "Ctrl+Alt+T" для открытия окна эмулятора терминала. Далее следует ввести следующую команду после приглашения командной оболочки и нажать клавишу "Enter" .

Примечание: если в статье написано, что нужно ввести какую-либо команду, причем сама команда помещена в кавычки, следует вводить ее без кавычек за исключением тех случаев, когда в статье четко указано обратное.

Проверка наличия в системе пакета poppler-utils

Если утилита pdftotext не установлена, следует ввести следующую команду после приглашения командной оболочки и нажать клавишу "Enter" :

После соответствующего запроса следует ввести свой пароль и нажать клавишу "Enter" :

Установка пакета poppler-utils

В установленном пакете poppler-utils имеется множество других инструментов для преобразования документов формата PDF в различные форматы, осуществления манипуляций с файлами PDF и извлечения информации из этих файлов.

Утилиты из пакета poppler-utils

Следующая команда позволяет преобразовать файл PDF в текстовый файл. Воспользуйтесь сочетанием клавиш "Ctrl+Alt+T" для открытия окна эмулятора терминала, введите следующую команду после приглашения командной оболочки и нажмите клавишу "Enter" .

Вам придется заменить указанные пути к файлам на пути к оригинальному файлу формата PDF и результирующему текстовому файлу соответственно. Кроме того, вам придется изменить приведенные имена файлов на имена ваших файлов.

Использование утилиты pdftotext

Созданный утилитой текстовый файл может быть открыт таким же образом, как и любой другой текстовый файл в Linux.

Созданный текстовый файл

Результирующий текст будет содержать символы новых строк в тех местах, в которых их не должно быть. Это объясняется тем, что символы новых строк вставляются после каждой строки текста в файле PDF.

Преобразованный текст в текстовом редакторе

Вы можете сохранить оригинальное форматирование вашего документа PDF (заголовки, примечания, разделение на страницы и.т.д.) в результирующем файле с помощью флага "-layout" :

Преобразование с сохранением форматирования

Если вы хотите осуществить преобразование диапазона страниц файла PDF, вам придется использовать флаги "-f" и "-l" (это "L" в нижнем регистре) для указания номеров первой и последней страниц из диапазона для преобразования:

Преобразование диапазона страниц

Для преобразования файла PDF, зашифрованного с использованием пароля владельца, следует использовать флаг "-opw" (первым символом является буква "O" в нижнем регистре, а не цифра 0):

Замените строку "пароль" на пароль, с помощью которого был защищен оригинальный файл PDF. Убедитесь в том, что вы используете одинарные, а не двойные кавычки для выделения пароля.

Преобразование файла PDF, зашифрованного с использованием пароля владельца

Если же файл PDF зашифрован с использованием пароля пользователя, следует использовать флаг "-upw" вместо "-opw" . Остальная часть команды не должна изменяться.

Преобразование файла PDF, зашифрованного с использованием пароля пользователя

Вы также можете указать набор символов новой строки, который будет использоваться в результирующем текстовом файле. Это особенно полезно в том случае, если вы планируете открывать этот файл в другой операционной системе, такой, как Windows или Mac OS, Для этой цели следует использовать флаг "-eol" (вторым символом является буква "O" в нижнем регистре, а не цифра 0), после которого должен следовать символ пробела и идентификатор выбранного набора символов новой строки ( "unix" , "dos" или "mac" ).

Преобразование с указанием набора символов новой строки

Примечание: если вы не укажите имя результирующего текстового файла, утилита pdftotext автоматически использует имя файла PDF, заменив его расширение на ".txt" . Например, имя файла "file.pdf" будет преобразовано в "file.txt" . Если вместо имени текстового файла использовать "-" , результирующий текст будет отправлен в стандартный поток вывода утилиты, что означает, что текст будет выводиться в окно эмулятора терминала и не будет сохраняться в текстовом файле.

Для закрытия окна эмулятора терминала следует нажать на кнопку "X" в его левом верхнем углу.

Для получения дополнительной информации об утилите pdftotext следует ввести команду "man page pdftotext" после приглашения командной оболочки в окне эмулятора терминала и нажать клавишу "Enter" .

Читайте также: