Adobe acrobat не распознает текст

Обновлено: 06.07.2024

Т.к. тема является архивной.

Описали бы лучше ситуацию.
Откуда файл, какой программой открываете?
Не забывайте, что эти документы могут быть защищены автором.

Т.к. тема является архивной.

Т.к. тема является архивной.

Есть pdf. Открываю его в Хроме. Выделяю слово и копирую в блокнот/ворд/фар. Получаю не читаемое слово

Т.к. тема является архивной.

Вы вопрос не поняли.
1. файл из тырнета, как я понял. А скачать пробовали?
2. воспользуйтесь программой для чтения и редактирования пдф файлов. Я, например, пользуюсь Адобе Профешинал 7 версии.
3. Не факт, что и после такого подхода получится желаемое.

Т.к. тема является архивной.

1. Скачал. Открывается в Хроме
2. Использовал:
Adobe Acrobat Reader DC v2017.009.20044 RePack by KpoJIuK
и
Foxit PDF Editor 2.2.1.1119 Rus
3. Везде слово по разному копируется.
В Adobe Acrobat Reader DC:
.
В Foxit PDF Editor 2.2.1.1119 Rus:
.
В хроме:
.

Т.к. тема является архивной.

Т.к. тема является архивной.

В винде такого не попадалось, а вот в убунте (в evince) - частенько бывало. Да и в Adobe Reader 9, что в той же убунте тоже грешит. И не только в таком виде. Особенно когда документ просто пипец какой официальный.

Т.к. тема является архивной.

Список причин можно расширить на:
- у вас отсутствуют шрифты в системе в целевой программе.
- программа-вьювер pdf некорректно работает с буфером обмена
- программа-вьювер pdf данной версии некорректно работает с pdf данной спецификации формата.
- можно извлечь текст OCR программами.
и т.д. и т.п.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Esik писал(а)
- у вас отсутствуют шрифты в системе в целевой программе.

Т.к. тема является архивной.


Т.к. тема является архивной.

Т.к. тема является архивной.

Явлинский писал(а)
При чем тут шрифты, он же копирует в блокнот

Если вы имеете в виду что-то другое, то пожалуйста более однозначно выражайте свою мысль.

Т.к. тема является архивной.

Я извиняюсь, погорячился, частично вы были правы: шрифт, которым набран документ, является встроенным и в системе его нет. Но проблема все равно не в шрифте, а в перекодировке.

Т.к. тема является архивной.

Тогда можно через велосипед - экспортировать в картинки и распознать через фаинридер, онлайн конвертер, вроде, распознает из пдф

Т.к. тема является архивной.

Ого, это сложно!
Он копирует но что то с кодировкой не то. Надо разобраться что не так.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Я, кажется, начинаю догонять.
там японские иероглифы?
Хёнтай?

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

там и картинки со схемами и текст. Короче, шансов нет (

Т.к. тема является архивной.


Судя по всему, автор фала таки наложил ограничения, которые предусмотрены данным форматом, для сохранения авторских прав.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Трудоемкая работа, 360 снимков экрана делать! Или есть проги, которые сами автоматом всё делают?

Т.к. тема является архивной.

256 писал(а)
Или есть проги, которые сами автоматом всё делают
Если файл не защищён от распознования, то его можно подсунуть сразу в распознавальщик.
Как я и предлагал выше. Но это показалось вам достаточно трудоёмким.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Не пробиваемый ПДФ.

Т.к. тема является архивной.

Такое впечатление, что у вас не пдф, а картинка, сохранённая/конверчённая в пдф.
А на печать выводит без ошибок?

Т.к. тема является архивной.

semikov_a писал(а)
Такое впечатление, что у вас не пдф, а картинка, сохранённая/конверчённая в пдф.

я могу отдельные буквы и слова копировать в буфер.

Возможности проверить как на печати нет (

Т.к. тема является архивной.

256 писал(а)
Возможности проверить как на печати нет (
Даже если попросить предварительный просмотр печати в браузере или pdf вьювере.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

K0IIIAK писал(а)
принт скрин с пдф-ки. картинку в распознавальщик

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Английский текст из этого пдф копируется без ошибок! Причины точно в кодировке! Но как проблему решить, что это за кодировка?

Т.к. тема является архивной.

256 писал(а)
Причины точно в кодировке! Но как проблему решить, что это за кодировка?
Я вам сразу говорил, что у вас просто нет в системе того шрифта, который используется в том документе. Именно по этой причине вместо символов поставляются прямоугольнички.
Выхода два:
1) угадать, что это за шрифт (по дизайну или чему-то другому) и поставить его в систему
2) искать способы перекодировки. Но сразу скажу, что у меня это не получалось. Труд занимал куда больше времени, чем нужда в результате. я забил.

Т.к. тема является архивной.

Esik писал(а)
Я вам сразу говорил, что у вас просто нет в системе того шрифта, который используется в том документе.

Т.к. тема является архивной.

Т.к. тема является архивной.

иногда помогает при вставке указать, что стандартная вставка без форматов . сам т текст в пдф отображается по русски же .

P.S. если тексты не секретные - киньте файл сюда - посмотрим ))

Т.к. тема является архивной.

где указать это?

нельзя файл выкладывать.

Т.к. тема является архивной.

попробуйте открыть Foxit PDF Editor
там все узнаете, и шрифты и замены

Т.к. тема является архивной.


Т.к. тема является архивной.


Т.к. тема является архивной.

Млин, туплю, правильно ниже говорят, в Reader все есть
Файл/Свойства/Шрифты

Т.к. тема является архивной.

Т.к. тема является архивной.

вставил в екселе - спец вставка
как юникод получил китайские символы.
как текст получил вопросительные знаки.

Т.к. тема является архивной.

Какая-то хрень с кодировкой:
Открываете файл в FoxIt, далее File -> Preferences -> Fonts и скришот списка сюда

Т.к. тема является архивной.


Т.к. тема является архивной.


Что-то я один момент никак не пойму. Выше вы приложили скриншот, снятый в Foxit PDF Reader, там указан встроенный шрифт TimesNewRoman, а здесь такого встроенного шрифта в списке нет.
Суть в чём: я хочу узнать кодировку этого шрифта (например, не ANSI). См. аттач:

Т.к. тема является архивной.


Явлинский писал(а)
Что-то я один момент никак не пойму. Выше вы приложили скриншот, снятый в Foxit PDF Reader, там указан встроенный шрифт TimesNewRoman, а здесь такого встроенного шрифта в списке нет.

Т.к. тема является архивной.

Т.к. тема является архивной.

Т.к. тема является архивной.

Приложение FoxitReader83_L10N_Setup_Prom
Вид - просмоторщик текста. Показывает ерунду вместо кириллицы.

Т.к. тема является архивной.

Т.к. тема является архивной.

Явлинский писал(а)
Суть в чём: я хочу узнать кодировку этого шрифта (например, не ANSI). См. аттач:
У меня Foxit PDF Editor 2.2.1.1119 Rus
Таких меню у меня нет.

Т.к. тема является архивной.

Т.к. тема является архивной.



Этот список в Акробат Ридере есть. Чем FoxitReader лучше?

Т.к. тема является архивной.

Т.к. тема является архивной.

Ничем не лучше, просто именно это я и хотел увидеть изначально. Ваша проблема в том, что текст набран встроенным шрифтом в т.н. кастомной кодировке (CID, Identity-H). В системе его нет, поэтому при копировании нужно знать т.н. таблицу замещения для встроенного шрифта. Причина того, что копирование не работает в том, что этой таблицы замещения в документе нет:

This is relatively common, and is caused when the application creating the PDF fails to correctly embed the Unicode lookup table for the font. Without that lookup table there is no relationship between the visible character on screen and the equivalent character code, so copying and pasting the text will lead to either a series of unknown markers, or a jumble of characters with a 1:1 relationship to the original text.

Поэтому вариант решения вашей проблемы такой:
- самостоятельно создать таблицу соответствий каждой буквы русского алфавита встроенного шрифта вашего документа соотв. юникод-символу
- далее написать скрипт, который будет делать подстановку, скопипасть исходный тескт в файл и обработать это скриптом. VBA из пакета Ms Office это прекрасно может сделать.

ЗЫ. Либо связаться с автором исходного документа и попросить его внедрить нормальный шрифт.

Читайте также: