Windows 7 поиск по содержимому pdf файлов

Обновлено: 30.06.2024

У вас есть много различных способов управления и дополнительных возможностей для быстрого и результативного поиска в Adobe Acrobat. Поиск может быть расширенным или стандартным, включающим различные виды данных и разнообразные файлы Adobe PDF .

Если вы работаете с большим количеством взаимосвязанных PDF-документов, вы можете сделать из них каталог в Acrobat Pro с PDF-индексацией всех PDF-документов. Поиск в PDF-каталоге вместо поиска в самих документах PDF значительно увеличивает скорость поиска. См. Создание индексов PDF.

Поиск выполняется, чтобы найти определенные объекты в документах PDF. Если нужно найти определенное слово внутри отдельного файла, можно запустить простой поиск. Когда нужно найти разные виды данных в одном или нескольких документах PDF, можно запустить более сложный поиск. Можно заменить сегменты текста.

Можно запустить поиск, используя либо окно «Поиск», либо панель инструментов «Найти». В обоих случаях Acrobat ищет текст документа PDF, слои, поля форм и цифровые подписи. В поиск можно также включить закладки и комментарии. Только панель инструментов «Найти» содержит параметр «Заменить на».

Панель инструментов «Найти» в Acrobat

Панель инструментов «Найти» с параметрами поиска и замены

Теперь при вводе первых букв для поиска в файле PDF программа Acrobat предлагает варианты совпадения слов и частоту их появления в документе. При выборе слова Acrobat выделяет все соответствующие результаты в файле PDF.

Поиск слов в файле PDF

Окно Поиск предлагает больше вариантов и видов поиска, чем панель инструментов «Найти». При использовании окна «Поиск» поиск идет также среди данных объекта и метаданных изображений XIF (расширенный формат файлов изображений). При поиске в нескольких документах PDF Acrobat также ищет свойства документа и метаданные XMP, а при поиске в PDF-индексе ищет теги индексированной структуры. Если в документах PDF, по которым идет поиск, имеются вложенные файлы PDF, их можно также включить в поиск.

Документы PDF могут иметь несколько слоев. Если некоторые из результатов поиска находятся на скрытом слое, при выборе этого результата на экране появляется предупреждение с вопросом о том, нужно ли сделать этот слой видимым.

В зависимости от типа поиска используются разные средства поиска. Используйте панель инструментов «Найти» для быстрого поиска и замены текста в текущем документе PDF. Используйте окно «Поиск» для поиска слов или свойств документа в нескольких документах PDF; используйте параметры дополнительного поиска и ищите в PDF-индексах.

Отображение панели инструментов «Найти»

Откройте ее, выбрав «Редактирование» > «Найти» (Ctrl/Command+F).

Найти Панель инструментов в Acrobat

Найти

A. Поле поиска B. Найти ранее C. Найти далее D. Поле «Заменить на» можно развернуть, чтобы ввести текстовую строку

Открытие окна «Поиск»

Выберите Редактирование > Расширенный поиск (Shift+Ctrl/Command+F).

На панели инструментов «Найти» нажмите стрелку и выберите команду Открыть полный поиск Acrobat.

Окно «Поиск» появляется в виде отдельного окна. При этом его можно перемещать, изменять его размер, сворачивать или располагать частично или полностью за окном документа PDF.

Размещение окна документа PDF и окна «Поиск»

В окне «Поиск» нажмите кнопку «Упорядочить окна» .

Acrobat изменяет размеры или размещает два окна рядом друг с другом, так что вместе они почти заполняют весь экран.

Примечание. Повторное нажатие кнопки Упорядочить окна изменяет размер окна документа, но оставляет без изменений окно «Поиск». Если вы хотите увеличить или уменьшить размер окна «Поиск», перетащите его угол или край, как если бы вы изменяли размер любого другого окна в вашей операционной системе.

Поиск и замена текста в документе PDF

Панель инструментов «Найти» производит поиск в открытом в данный момент документе PDF. Можно заменить часть поискового термина альтернативным текстом. Можно поочередно заменить каждое вхождение текста. Вы не можете внести изменения во всем файле PDF или в нескольких файлах PDF.

Напечатайте текст, который нужно искать, в текстовом поле панели инструментов «Найти». Чтобы заменить текст, нажмите Заменить на , чтобы развернуть панель инструментов, затем введите текст для замены в текстовом поле Заменить на . (Необязательно) Нажмите стрелку рядом с текстовым полем и выберите один или несколько вариантов из перечисленных ниже.

Только слова целиком

Поиск только полных слов, введенных в поле текста. Например, при поиске слова год слова погода и годный найдены не будут.

С учетом регистра

Поиск только тех слов, в которых регистр букв совпадает с регистром букв слова, введенного в поле поиска. Например, при поиске слова Web слова web и WEB найдены не будут.

Искать в закладках

Поиск ведется и в тексте панели «Закладки».

Поиск текста ведется также во всех комментариях.

Acrobat переходит к первому из найденных вхождений, которое при этом выделяется.

Поиск текста в нескольких документах PDF

Окно Поиск позволяет производить поиск в нескольких документах PDF. Например, можно выполнить поиск во всех файлах PDF в определенном месте или во всех файлах в открытом портфолио PDF . Параметр Заменить на недоступен в окне «Найти».

При поиске в нескольких документах поиск в зашифрованных документах не производится. Необходимо сначала открыть эти документы и последовательно выполнить в них поиск. Однако документы, зашифрованные как Электронные издания Adobe , являются исключением, и при поиске в нескольких документах они также включаются в поиск.

Откройте Acrobat на рабочем столе (не в веб-браузере).

На панели инструментов «Найти» введите текст для поиска, затем выберите Открыть полный поиск Acrobat в выпадающем меню.

Введите искомый текст в окне «Поиск».

В окне «Поиск» выберите «Во всех документах PDF». Во всплывающем меню прямо под этим параметром выберите пункт «Обзор». Выберите место поиска, на компьютере или в сети, затем нажмите «ОК». Чтобы задать дополнительные критерии поиска, нажмите «Показать расширенные параметры» и укажите параметры.

Во время поиска можно щелкнуть результат или использовать сочетания клавиш для перемещения по результатам, не прерывая при этом поиск. Нажатие кнопки «Стоп», расположенной под индикатором хода поиска, отменяет дальнейший поиск, и результаты поиска ограничиваются теми, которые уже найдены. Это не приводит к закрытию окна «Поиск» или к удалению списка результатов. Для просмотра дополнительных результатов запустите новый поиск.

Просмотр результатов поиска

После запуска поиска из окна «Поиск» результаты будут появляться под именем документа, в котором ведется поиск, в том порядке, в котором они расположены на страницах документа. Каждый из перечисленных элементов включает несколько слов из контекста (если необходимо) и значок, показывающий тип местонахождения.

Переход к конкретному элементу в результатах поиска (только для отдельных документов PDF)

При необходимости разверните результаты поиска. Затем выберите одно из вхождений для его просмотра в документе PDF. Чтобы просмотреть другие вхождения, выберите их в результатах поиска.

Сортировка вхождений в результатах поиска

В нижней части окна «Поиск» выберите один из параметров в меню «Сортировать по». Результаты могут быть отсортированы по степени релевантности, дате изменения , имени файла или расположению.

Значки для результатов поиска

Значок рядом с вхождением в результатах поиска показывает область поиска, в которой найдено это вхождение. При выборе этого значка произойдет следующее.

Позволяет сделать документ активным в окне документа. Разверните список, чтобы показать отдельные результаты поиска в этом документе.

(Основной) Значок «Результаты поиска»

В документах PDF позволяет перейти к этому вхождению искомого слова, обычно в основном тексте документа PDF. Вхождение искомого слова в документе выделяется.

Значок «Результаты поиска по файлам, не являющимся файлами PDF» или «Метаданные»

Открывает панель «Закладки» и выделяет вхождения искомых слов.

Открывает панель «Комментарии» и выделяет вхождения искомых слов.

Открывает файл, прикрепленный к родительскому PDF, по которому проводился поиск, и отображает вхождения искомых слов.

Сохранение результатов поиска

Результаты поиска можно сохранить в формате PDF или CSV. Видеоролик представлен на странице Сохранение результатов поиска в Acrobat.

Нажмите и выберите «Сохранить результаты в формате PDF» или «Сохранить результаты в формате CSV».

Можно задать установки таким образом, что в окне «Поиск» будут всегда отображаться расширенные параметры поиска. В диалоговом окне «Установки» в разделе «Категории» выберите «Поиск».

Ограничивает поиск текущим документом PDF, открытым портфолио PDF (если применимо), индексом или папкой на компьютере. Если выбран поиск, ограниченный индексом, расположением или портфолио PDF, дополнительные параметры появляются ниже кнопки «Использовать дополнительные критерии».

Какое слово или фразу искать

Введите текст или фразу, которые будут учитываться при поиске.

Отобразить результаты, содержащие

Ограничивает результаты поиска в соответствии со следующими выбранными параметрами.

Точное совпадение слова или фразы

Поиск всей строки символов целиком, включая пробелы, в том же порядке, в котором они располагаются в текстовом поле.

Совпадение любого слова

Поиск любых вхождений, где встречается по крайней мере одно из введенных слов. Например, при поиске каждый из в результатах будут присутствовать все вхождения, в которых присутствует одно или оба из этих двух слов: каждый, из, каждый из или из каждый.

Совпадение всех слов

Поиск вхождений, содержащих все слова, заданные поиском, но не обязательно в том же порядке, в котором они введены. Эта функция доступна только для поиска в нескольких документах PDF или файлах определения индекса.

Использует логические операторы, которые вместе со словами поиска введены в поле Какое слово или фразу искать? . Эта функция доступна только для поиска в нескольких документах PDF или в PDF-индексах.

Примечание. Нельзя искать шаблоны при помощи звездочек (*) или знаков вопроса (?) при поиске в PDF-индексе.

Использовать дополнительные критерии (параметры текста)

Включает следующие стандартные параметры поиска плюс пять дополнительных параметров.

Поиск близких слов

Поиск двух или более слов, отстоящих друг от друга на число слов не большее, чем задано в установках поиска. Данная функция доступна только при поиске в нескольких документах или в файлах определения индекса, а также если при этом задан параметр Совпадение всех слов .

Поиск слов, содержащих часть (основу) конкретного искомого слова. Например, поиск слова открытие находит вхождения открыть, открытый, открывает и открыто. Этот параметр применяется к отдельным словам и фразам при поиске в текущем документе PDF, папке или индексе, созданном в Acrobat версии 6.0 или более поздней. Символы-шаблоны (*, ?) нельзя использовать при морфологическом поиске. Морфологический поиск недоступен, если выбраны параметры Только слова целиком или «С учетом регистра».

Искать в закладках

Поиск в тексте любой закладки, как показано на панели «Закладки».

Поиск в тексте любых комментариев к документу PDF, как показано на панели «Комментарии».

Искать во вложенных файлах

Поиск по файлам, прикрепленным к текущему PDF, или другим прикрепленным файлам PDF (не более двух уровней вложения).

Использовать дополнительные критерии (свойства документа)

Появляется только при поиске в нескольких документах PDF или PDF-индексах. Можно задавать разные комбинации свойств, модификаторов, значений и применять их к поиску. Этот параметр неприменим для файлов типа, отличного от PDF, в портфолио PDF .

Примечание. Вы можете выполнить поиск только по свойствам документа путем использования параметров свойств документа в сочетании с поиском определенного текста.

Применяет к поиску набор критериев в трех связанных параметрах. (Флажок устанавливается автоматически при вводе данных в любом из трех параметров в этом наборе. После того как параметры заданы, снятие флажка не приводит к удалению записей; они лишь не будут применяться к поиску.)

Первое меню (свойство)

Указывает, какие характеристики документа будут учитываться при поиске. Доступные варианты параметров: Дата создания , Дата изменения , «Автор», «Название», «Тема», «Имя файла», «Ключевые слова», «Закладки», «Комментарии», Изображения JPEG , Метаданные XMP и «Данные объекта».

Второе меню (модификатор)

Указывает уровень соответствия. Если в первом меню выбрана дата, доступными параметрами во втором меню будут Точно , До , После , Не . В других случаях доступными параметрами будут «Содержит» и Не содержит .

Третье меню (значение или текст)

Отображает введенную совпадающую информацию. Если в первом меню выбрана дата, можно щелкнуть стрелку, чтобы открыть календарь, по которому можно будет перемещаться, чтобы найти и выбрать нужную дату.

Логические операторы

Обычно используются следующие логические операторы.

AND

Ставится между двумя словами для поиска документов, содержащих оба слова в любом порядке. Например, введите Париж AND Франция для поиска документов, содержащих оба слова: Париж и Франция . Поиск только с одним логическим оператором «AND» дает такие же результаты, как если бы параметр Совпадение всех слов был выбран .

NOT

Ставится перед искомым словом, чтобы исключить все документы, в которых оно содержится. Например, введите NOT Кентукки для поиска всех документов, не содержащих слово Кентукки . Или введите Париж NOT Кентукки для поиска всех документов, содержащих слово Париж , но не слово Кентукки .

OR

Используется для поиска всех вхождений любого из слов. Например, введите электронная почта OR эл. почта , чтобы найти все документы, содержащие любое из этих слов или оба слова в любой комбинации. Поиск только с одним логическим оператором «OR» дает такие же результаты, как если бы параметр «Совпадение любого из слов» был выбран .

^ (исключающее OR)

Используется для поиска всех вхождений, в которых присутствует одно из слов, но не оба слова сразу. Например, введите кошка ^ собака , чтобы найти все документы, содержащие либо слово кошка, либо собака, но не оба слова кошка и собака сразу.

Круглые скобки используются, чтобы задать порядок оценки слов. Например, введите белый AND (кит OR ахав ) , чтобы найти все документы, содержащие либо слова белый и кит, либо слова белый и ахав . (Обработчик запросов сначала выполняет запрос OR для слов кит и ахав , а затем выполняет запрос AND со словом белый и результатом предыдущего запроса).

Чтобы узнать больше о логических запросах, синтаксисе и других логических операторах, которые можно использовать при поиске, ознакомьтесь с информацией в соответствующей литературе, на веб-сайтах или в других источниках с более полными сведениями по математической логике.

Полнотекстовый индекс создается в том случае, если Acrobat используется для определения каталога документов PDF. Вы можете проводить поиск по индексу, вместо просматривания всего каталога в поисках определенного документа PDF. Поиск по индексу выдает список результатов со ссылками на найденные примеры в индексированных документах.

Для поиска в PDF-индексе необходимо открыть Acrobat как отдельное приложение (не в веб-браузере).

В Mac OS индексы, созданные в некоторых предыдущих версиях Acrobat, несовместимы с функцией поиска Acrobat X. Если вы недавно выполняли обновление, обновите индекс перед выполнением поиска с помощью Acrobat X.

Что такое IFilter, и где я могу получить соответствующий?

Не отвечая на этот старый вопрос, но я нашел DocFetcher полезным.

IFilters позволяют Windows Search выполнять поиск по содержимому файла.

Вот три популярных PDF IFilters † :

    (коммерческий) (бесплатный / коммерческий)
  • Adobe PDF IFilter ( 32-разрядный / 64-разрядный ) (бесплатно)

После его установки вы сможете искать в файлах PDF так же, как и для других типов файлов.

Фильтр PDF

†: в этой статье за 2009 год приведены показатели производительности, но они могут не относиться к текущим версиям фильтров.

Я попробовал это, но у меня не получилось. Я работаю в Windows 7 Professional (64-разрядная версия) с Adobe Reader X. Я установил iFilter, добавил его в переменную среды PATH, перезагрузил компьютер и дождался индексации Windows, но я все еще не мог выполнить поиск внутри мои PDF-файлы. Мне пришлось установить под учетной записью администратора моего компьютера, который является другим пользователем, интересно, это повлияло на это. @emddudley, если вы хотите, чтобы содержимое PDF было проиндексировано, убедитесь, что на приведенном выше снимке экрана «Свойства индекса и содержимое файла» выбраны для файлов PDF. Кроме того, если вы ищете неиндексированные файлы, возможно, вам придется поставить префикс вашего поискового запроса content: . @Louis Спасибо за отзыв. Хорошо знать. Проблема решена на Windows7, нам просто нужно подождать (намного) дольше для результатов pdf (я закрыл окно поиска, прежде чем оно появилось).

Альтернативный способ поиска в PDF-файлах - использовать функцию поиска PDF-XChange Viewer . Индексация тоже не нужна. Это мой выбор.

Вы можете установить портативную версию. Нажмите, Ctrl Shift F чтобы получить диалоговое окно поиска:

Поиск PDF в PDF-Viewer

Спасибо, я не знал, что эта функция существует в стандартном Reader. Конечно, чертовски медленно. +1! Не знал этого PDF-XChange Viewer просто потрясающий . Удивляет меня все время. Лучший ответ на мой взгляд. Портативный и очень быстрый, даже с предварительным просмотром и расположением слов при нажатии на запись результатов поиска. Спасибо за указание на этот драгоценный камень.

Вы можете использовать Mendeley ; это бесплатно.

Сначала добавьте ваши PDF-файлы и проиндексируйте их. После этого вы можете искать их с автозаполнением поиска.

  • С его помощью вы также можете добавлять заметки к файлам PDF.
  • Если у вас много PDF-файлов, иногда, когда вы пытаетесь проиндексировать, иногда переполняется RAM, просто уменьшите количество PDF-файлов.
  • Будьте осторожны, Mendeley на самом деле является академической программой для справочной системы (да, вы также можете использовать ее для добавления ссылок на ваш документ Word. Я использовал ее, когда писал диссертацию на степень доктора философии; это было замечательно), поэтому она попытается загрузить вашу PDF файлы на свой сервер. Если вы хотите работать в автономном режиме, измените параметры Интернета в Mendeley и укажите неверный / автономный IP-адрес прокси (например, 127.3.0.1). Тогда вы можете работать с ним в автономном режиме. НЕ: Вы также можете искать в файлах HTML или слов с помощью Mendeley.

PDF XChange Viewer , который имеет бесплатную версию, поставляется со встроенным iFilter.

Может, маленький бесплатный инструмент Pasco из магазина Microsoft Store?

Pasco - это программное обеспечение, основной задачей которого является поиск страниц в тексте (pdf), содержащем указанную фразу. Поскольку программное обеспечение индексирует электронные книги, результат поиска отображается немедленно. Pasco - это не только поисковая система, но и удобный читатель электронных книг.

Вы можете сортировать, фильтровать PDF-файлы по заголовкам, страницам и т. Д., Используя это расширение оболочки Debenu.

Кроме того, это портативное приложение извлекает все данные из PDF-файлов и выдает табличные данные, которые вы можете использовать в своем рабочем процессе pdfinfogui

Portable Document Format (PDF) — межплатформенный формат электронных документов, разработанный в 1993 году компанией Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления полиграфической продукции в электронном виде. Для просмотра файлов данного формата существует официальная программа Adobe Reader, а так же множество программ сторонних разработчиков.

После того, как Adobe выпустила бесплатную версию Acrobat Reader (позднее переименованную в Adobe Reader) для чтения PDF-документов, популярность этого формата стала возрастать. Формат PDF-файлов несколько раз изменялся и продолжает эволюционировать. Существует несколько спецификаций формата, последовательно расширяющих друг друга.

Формат PDF с 1 июля 2008 года является открытым стандартом ISO 32000.

Различные спецификации формата

PDF/X−1a — это стандартный формат файлов, специально предназначенный для обмена готовыми к печати документами (для передачи в типографию) в виде электронных данных, при котором отправителю и получателю не требуется дополнительной договоренности для обработки информации и получения требуемых результатов в тираже. Применение PDF/X−1a устраняет наиболее распространенные ошибки при подготовке файлов для печати.

PDF/A — стандарт ISO 19005-1:2005 (опубликован 1 октября 2005 г.) для долгосрочного архивного хранения электронных документов и базируется на описании стандарта PDF версии 1.4 от Adobe Systems (использовался в Adobe Acrobat 5). В действительности, PDF/A является подмножеством формата PDF, из которого исключены некоторые особенности, не подходящие для долгосрочного архивного хранения.

Почему для архивации удобнее выбирать именно PDF-формат

Одной из проблем, с которой сталкиваются крупные промышленные предприятия, государственные учреждения, страховые компании, издательства и архивы, является надежная архивация больших объемов данных.

Традиционные способы, например, хранение информации на бумаге или микрофильмах, безнадежно устарели, так как они не обеспечивают компактности данных, а также возможностей эффективного поиска и передачи информации. Поэтому в последние годы для архивации используются цифровые форматы представления данных. Одним из таких популярных графических форматов стал TIFF.

TIFF (англ. Tagged Image File Format) — формат хранения растровых графических изображений. TIFF стал популярным форматом для хранения изображений с большой глубиной цвета. Он используется при сканировании, отправке факсов, распознавании текста, в полиграфии, широко поддерживается графическими приложениями.

Однако формат TIFF в свою очередь имеет существенные недостатки - невозможность поиска текстовой информации без применения средств распознавания знаков (OCR), а также потребность в больших объемах памяти для хранения ТIFF- файлов. Формат PDF лишен этих недостатков - файлы имеют компактный размер, возможен поиск по тексту, обеспечивается высокое качество визуализации как графических, так и текстовых данных. По этой причине для создания электронных архивов целесообразно использовать формат PDF, в частности спецификацию PDF/A. Именно по этому стандартизировать PDF/А было предложено еще в 2002 г.

Понятия Searchable PDF и OCR

Searchable PDF (так же иногда называют PDF+text) - файлы формата PDF с включенным распознанным текстовым слоем с возможностью поиска по тексту. Именно файлы такого формата интересны для создания архива документов, ведь в случае отсутствия текста в документе поиск по содержимому попросту теряет смысл. Текстовый слой в файле создается непосредственным включением текста из текстового редактора, либо методом OCR.

OCR (optical character recognition) - оптическое распознавание символов , механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные — последовательность кодов, использующихся для представления символов в компьютере (например, в текстовом редакторе). Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь.

Традиционным способом создания PDF-документов является виртуальный принтер, то есть документ как таковой готовится в своей специализированной программе — графической программе или текстовом редакторе, САПР и т. д., а затем экспортируется в формат PDF для распространения в электронном виде, передачи в типографию и т. п.

Современные офисные пакеты (например Microsoft Office) умеют сохранять файлы в формате PDF напрямую, без использования виртуального принтера. Весь содержащийся в документе текст при сохранении в формате PDF включается в виде текстового слоя (Searchable PDF - с возможностью поиска по тексту.)

Существует множество специализированных программ для создания Searchable PDF. В основном это программы, имеющие функции получения изображения документа (работа со сканером, импорт изображения из файла), функции обработки, оптимизации, улучшения качества изображения, функции OCR, функции сохранения, экспорта в популярные текстовые редакторы.

В качестве примера таких программ можно привести ABBYY FineReader, IRIS Readiris.

Современная версия платного пакета Adobe Acrobat XI так же имеет встроенную функцию оптического распознавания текста и включения в файл текстового слоя. Поддерживается более 40 языков, включая Русский.

OCR с помощью Adobe Acrobat, поддержка более 40 языков

Сегодня сканирование документов в производственном масштабе с использованием поточных сканеров осуществляется с помощью специально разработанных программных систем для скоростного сканирования и обработки документов. Данное ПО позволяет выполнять такие операции как разделение сканируемого потока на отдельные документы (по различным признакам), классификацию (определение типа) документа и последующую его обработку, сохранение либо перенаправление, в зависимости от установленных действий для каждого типа. Данное ПО, как правило, весьма дорогостоящее и требует специализированных навыков (а зачастую и сертифицированных специалистов) для его настройки и работы. Несомненно, применение подобного рода решений целесообразно и оправданно только при весьма значительных масштабах системы документооборота и больших объемах обрабатываемых документов.

Но что делать пользователям, чьи объемы документации не столь значительны и применение дорогостоящих специализированных решений не рентабельно, а задача создания структурированного хранилища с возможностью поиска актуальна и должна как то решаться.

Сканер документов Kodak ScanMate i1150

Производители поточных сканеров постепенно начали осознавать потребность своих клиентов, которые приобретают сканеры начального уровня. Современные поточные сканеры поставляются не только в виде «железа» и драйверов, но и включают в комплект поставки программное обеспечение для сканирования. И данное ПО в последнее время способно предоставлять пользователю не только средство для выполнения базовых операций по сканированию, но и весьма продвинутые функции, для выполнения которых ранее нужно было приобретать дополнительное ПО, либо расширенную версию ПО идущего в комплекте.

Таким образом, современный поточный сканер - это как правило комплексное, готовое аппаратно-программное решение, которое является самодостаточным инструментом для решения широкого круга задач.

К таким задачам относится и сканирование документа в PDF-файл с распознанным текстом. Современные новинки от ведущих производителей имеют, как правило, все необходимое для решения данной задачи в комплекте. Причем включается возможность распознавания широкого набора языков. К слову, не так давно средств получения OCR (оптического распознавания текста) непосредственно «из коробки» сканера производителями не предоставлялось (за исключением, разве что, поставок-бандлов, то есть комплектов включающих стороннее ПО для распознавания на OEM основе).

Рассмотрим один из таких примеров - новинка от компании Kodak Alaris: персональный сканер документов Kodak ScanMate i1150 (вышел во 2-ом квартале 2014 года). Подробное описание сканера смотрите здесь.

SmartTouch поддерживает сохранение в формате PDF спецификации PDF/A.

Панель настройки Kodak SmartTouch
Выбор языка распознавания в SmartTouch

Таким образом, установив пачку листов в приемный лоток автоподатчика сканера Kodak ScanMate i1150, выбрав на панели сканера предварительно настроенный профиль и нажав кнопку запуска сканирования мы получаем на компьютере в указанном месте (диске или папке) надлежащим образом поименованный набор PDF-файлов, содержащих отсканированные документы, с возможностью поиска по содержимому документа. Никаких дополнительных действий не требуется.

Согласитесь, решение задачи получения searchable PDF никогда не было на столько простым. В этом свете задача создания электронного архива (хранилища) документов в формате PDF с возможностью поиска так же не выглядит сложной.

Итак, теперь мы с вами знаем как создать систему файлов и папок, содержащих наш архив файлов PDF. Теперь выясним, каким несложным образом можно осуществлять поиск необходимой нам информации по содержимому файлов (по словам), находящихся в этом архиве.

На сегодняшний день, несмотря на относительно недавний (2012 г.) выход системы Windows 8, наиболее распространенной в среднестатистических офисах является ОС Windows 7 (редакцию упоминать здесь не будем, т.к. для наших целей это не принципиально). Кое где, конечно, еще остается в работе проверенная годами старушка XP, но все таки с началом эпохи беспроводных сетей в конце 2000-х данная ОС постепенно (и повсеместно) уходит в прошлое.

Поэтому рассмотрим как обстоит дело с поисковой подсистемой в ОС Windows 7.

Чтобы Операционная система Windows 7 смогла найти файл по его содержимому, сперва необходимо включить данную опцию в настройках ОС.

1. Включение поиска в Windows 7 Search по содержимому

По умолчанию ОС Windows 7 настроена на поиск только по именам файлов. Для включения возможности поиска по содержимому нужно в Проводнике Windows выбрать Упорядочить -> Параметры папок и поиска. Закладка Поиск - выбрать ВТОРОЙ вариант поиска «Всегда искать по именам файлов и содержимому».

Включение поиска в Windows 7 Search по содержимому

Теперь при поиске система будет просматривать не только имена файлов, но и их содержимое, если для данного типа файлов указана возможность поиска по содержимому (об этом узнаем в следующем разделе статьи).

2. Индексирование

Далее необходимо проиндексировать файлы и папки, в которых предполагается осуществлять поиск. Поиск в проиндексированных папках осуществляется значительно быстрее.

Для того чтобы ваш ПК проиндексировал папки вашего архива, необходимо в параметрах индексирования добавить в список мест индексирования папку(папки) где будут храниться PDF-файлы, либо указать букву диска, если точное местонахождение архива не определено.

Кроме того, по умолчанию, для поиска по содержимому, в индексе включены только популярные форматы файлов, все остальные файлы надо активировать вручную.

В нашей редакции Windows 7 формат файлов PDF уже оказался включен для поиска по содержимому. В вашей версии возможен другой вариант, по этому вот подробная инструкция по решению этой проблемы (Русская версия Windows 7).

  1. ПУСК (Start). (Нижний, левый угол, Флажок)
  2. Внизу, в поле: «Найти программы и файлы» (Run) вписываем эту строку: «Параметры индексирования» (Enter)
  3. В появившемся окошке убедитесь, что буква диска, на котором находятся файлы вашего архива, присутствует в списке «Включенные расположения». Если нет, нужно добавить нужный диск (либо указать определенную папку или несколько папок, где будут храниться файлы PDF-архива), нажав кнопку «Изменить».
  4. Далее, жмем кнопку «Дополнительно», закладка «Типы файлов».
  5. В списке находим и устанавливаем курсор на расширение того файла, которое часто ищите: в нашем случае *.PDF.
  6. Обратите внимание, для большинства расширений в области «Как следует индексировать такие файлы?» выбрана опция «Индексировать только свойства». Для нужных нам файлов нам необходимо установить нижнюю опцию: «Индексировать свойства и содержимое файлов». Установите для типа PDF данную опцию (или убедитесь что она уже установлена).

Параметры индексирования

Настоятельно НЕ рекомендуется выбирать много типов файлов для индексации по содержимому, а только те, что точно необходимо для будущего поиска.

При этом все изменения в настройках индексации файлов делайте перед периодом простоя компьютера, например на ночь (конечно, в том случае если ваш ПК на ночь не отключается), иначе в процессе работы вы почувствуете заторможенность вашего компьютера: процесс индексации весьма ресурсоемкий, не смотря на то, что система и будет пытаться давать вам приоритет в вашей активности.

3. Необходимо стороннее ПО, понимающее PDF-формат

На вашем ПК должен быть установлен Adobe Reader актуальной (или не слишком старой) версии. Adobe Reader распространяется бесплатно. Так же у Adobe есть более продвинутый продукт для работы с PDF - Adobe Acrobat (платный). Помимо программного обеспечения Adobe существует множество PDF-редакторов сторонних разработчиков (как бесплатных так и распространяемых на платной основе). В любом случае - выбор остается за пользователем.

Наличие ПО, работающего с форматом PDF позволит ОС Windows 7 «распознавать» и открывать файлы PDF-формата. По-умолчанию Windows данный формат не понимает.

Если вы являетесь обладателем 64-битной редакции Windows 7, необходимо дополнительно загрузить и уcтановить пакет PDF iFilter 64 (PDFFilter64Setup.msi)с сайта Adobe. Потребуется перезагрузить ПК.

Без данного пакета поиск по содержимому PDF-файлов в 64-битной системе работать не будет.

После проведения данной подготовки на вашем ПК должен работать поиск по содержимому PDF непосредственно из Проводника для текущей папки. Если нужно провести поиск по всему ПК - открываем диалог Поиска (Клавиша WIN + f).

4. Особенности работы Windows 7 Search

Поиск по содержимому в семерке независимо от того, проиндексированы файлы или нет осуществляется по целым словам или фразам, а не по фрагментам текста. Это объясняется тем, что проиндексировать фрагмент текста невозможно, т.к. индекс создаётся заранее, а знать заранее, с какого символа ты будешь искать и какой длины будет искомая строка, программа не может. В 7-ке поиск по содержимому изначально заявлялся для проиндексированных файлов как быстрый, а значит разработчикам нужно исполнять обещание хорошей скорости "индексированного" поиска, которую поиск по фрагменту не может достичь.

Текстовые файлы с разными расширениями

Система не может определять тип файлов иначе, кроме как по их расширениям. По этому для того чтобы любые текстовые файлы индексировались без переименования в txt, нужно зарегистрировать нужные расширения. Вручную в настройках службы индексирования, или внесением изменений непосредственно в реестре.

Теперь, прочитав данную статью, вы без труда сможете организовать PDF-архив и простой поиск по тексту. Естественно, это самый простой вариант поиска «по словам» (в качестве расширенного доступен только фильтр по: Виду файла, Дате изменения, Типу, Размеру и Имени).

Расширенный фильтр поиска Windows

Для организации расширенного поиска с применением различных фильтров, с учетом морфологии и т.п. необходимо использовать отдельное ПО. Например программа Архивариус 3000.

Подробно о программе Архивариус и аналогичных можно прочитать на просторах интернета, а в данной статье мы ограничимся рассмотрением простого поискового решения стандартными средствами Windows, не требующего дополнительных вложений.

Что такое IFilter, и где я могу получить соответствующий?

IFilters позволяют Поиск в Windows искать в содержимом файла.

Вот три популярных PDF IFilters † :

  • Foxit PDF IFilter (коммерческий)
  • TET PDF IFilter (бесплатный /коммерческий)
  • Adobe PDF IFilter ( 32-бит / 64-бит ) (бесплатно)

После его установки вы сможете выполнять поиск в файлах PDF так же, как и для других типов файлов.

PDF Filter

†: Эта статья от 2009 года содержит номера производительности, но они могут не применяться к текущим версиям фильтров.

Альтернативный способ поиска по PDF-файлам - использовать функцию поиска PDF-Viewer. Он не нуждается в индексировании. Это мой выбор.

Поиск PDF в PDF-Viewer

Вы можете использовать Mendeley ; это бесплатно.

Сначала добавьте свои PDF-файлы и проиндексируйте их. После этого вы можете искать их с автозаполнением.

  • Вы также можете добавлять примечания к файлам PDF с ним.
  • Если у вас много файлов PDF, иногда переполнение ОЗУ происходит, когда вы пытаетесь индексировать, если это произойдет, просто уменьшите количество PDF-файлов.
  • Будьте осторожны, Мендели на самом деле является академической программой для справочной системы (да, вы также можете использовать ее для добавления ссылок на документ Word. Я использовал ее, когда писал свою тезю PHD, это было замечательно), поэтому она попытается для загрузки ваших файлов PDF на свой сервер. Если вы хотите работать в автономном режиме, измените интернет-параметры Mendeley и дайте ему неправильный /автономный прокси-IP (например, 127.3.0.1). Тогда вы можете работать с ним в автономном режиме. NOT: вы также можете искать в файлах HTML или Word с Mendeley.

PDF XChange Viewer , в котором есть бесплатная версия, поставляется со встроенным iFilter.

Вы можете сортировать, фильтровать pdf-файлы на основе заголовка, страниц и т. д., используя эту оболочку extenion Дебену

Кроме того, это портативное приложение извлекает все данные из pdf-файлов и выдает вывод табуляции, который вы можете использовать в своем рабочем процессе pdfinfogui

Тем не менее, есть несколько методов, которые позволяют вам выполнять поиск PDF, так что вы можете поиск определенного слова в нескольких файлах PDF сразу на твоей машине. Следующее руководство научит вас, как это сделать.


Как искать несколько файлов PDF с помощью Acrobat Reader

  1. Откройте Acrobat Reader на вашем компьютере.
  2. Нажать на редактировать меню и выберите Расширенный поиск,
  3. Выбрать Все PDF документы в а затем выберите папку PDF.
  4. Введите условие поиска в поле ввода.
  5. Нажать на Поиск кнопка.
  6. Ударил Позволять в подсказке на вашем экране.

Программное обеспечение будет искать заданный вами термин во всех PDF-файлах в указанной вами папке. Вы увидите результаты прямо на панели поиска.

Поиск определенного термина поиска в нескольких файлах PDF

Большинство читателей PDF позволяют вам искать любой текст, который вы хотите в ваших файлах PDF. Это потому, что PDF-файлы являются сканируемыми документами, и, как и файлы Microsoft Word, их символы также распознаются вашей системой.

Что вы не можете сделать с вашими файлами PDF, так это то, что вы не можете искать определенный термин в нескольких файлах одновременно. Нажатие клавиши «Control + F» выполняет поиск только в текущем документе, открытом в программном обеспечении, но не в других файлах PDF.


Если у вас много PDF-файлов, и вы ищете в них что-то конкретное, лучше всего воспользоваться функцией расширенного поиска Acrobat Reader. Это позволяет вам искать ваши конкретные условия поиска во всех файлах PDF, доступных в одном месте на вашем компьютере.

Вот вся процедура для этого с Acrobat Reader:

Загрузить и установить Acrobat Reader если у вас его еще нет на вашем компьютере.

Запустите программное обеспечение, и вы увидите список последних файлов. Опция, которую вы ищете, находится в меню «Правка». Нажать на редактировать меню вверху и выберите вариант, который говорит Расширенный поиск, Кроме того, вы можете нажать Shift + Ctrl + F,


На следующем экране установите следующие параметры:

Вы можете использовать дополнительные параметры, чтобы настроить поиск по вашему слову, например отметить Чувствительный к регистру флажок, чтобы ваш поисковый запрос чувствителен к регистру, и так далее.

Наконец, нажмите на Поиск кнопку, чтобы начать поиск.


Затем вы можете просмотреть результаты, когда они появляются на вашем экране.

Использование поиска Windows для поиска внутри PDF-файлов

PDF-файлы также можно искать с помощью параметра поиска Windows по умолчанию на вашем компьютере с Windows. Вы должны сначала включить опцию, хотя, как показано ниже.

Голова к Панель управления> Параметры индексирования и нажмите на продвинутый,


Выберите Типы файлов вкладку на следующем экране и искать PDF в списке. Отметьте поле для PDF, Затем включите Свойства индекса и содержимое файла вариант и нажмите на Хорошо,


Пришло время добавить папки PDF в список индексов. Для этого откройте тоже самое Параметры индексации диалоговое окно и нажмите на Изменить, Затем выберите папку, в которой находятся ваши PDF-файлы, и нажмите Хорошо чтобы получить папки, добавленные для индексации PDF.


однажды Windows закончила индексацию ваши PDF-файлы и их содержимое, вы сможете искать текст в нескольких PDF-файлах одновременно.

Используйте SeekFast для поиска файлов PDF

SeekFast также позволяет легко искать ваши термины в различных типах файлов, включая PDF. Вот как это работает.

  • Загрузите и установите программное обеспечение на свой компьютер.
  • Запустите программное обеспечение, введите поисковый запрос в поле поиска вверху, нажмите на Просматривать кнопку, чтобы выбрать папку PDF, и, наконец, нажмите Поиск,


Он будет искать термины во всех файлах PDF, расположенных в выбранном вами каталоге.

Выполнение поиска в PDF с помощью Foxit Reader

Foxit Reader также оснащен расширенными возможностями поиска, и вы можете использовать его, чтобы найти то, что вы хотите в ваших нескольких файлах PDF.

Загрузите программное обеспечение, установленное на вашем компьютере, а затем запустите его.

Нажмите на значок поиска рядом с окном поиска в верхнем правом меню. Это открывает расширенные параметры поиска.


На следующем экране выберите папку PDF в первом раскрывающемся меню, введите условие поиска в поле поиска, отметьте другие фильтры, если вы хотите их применить, и, наконец, нажмите Поиск кнопка.


Результаты вашего поиска теперь должны быть на вашем экране.

Как использовать UltraFinder для поиска файлов PDF

UltraFinder это расширенный инструмент поиска для компьютеров Windows, который также может использоваться для поиска текста внутри ваших файлов PDF.

Установите и запустите инструмент на своем компьютере с Windows.

Установите параметры следующим образом, чтобы они выполняли поиск содержимого ваших файлов PDF. Затем нажмите зеленую кнопку воспроизведения, чтобы начать поиск.


В нем будут перечислены все файлы PDF, в которых было найдено ваше поисковое слово.

Читайте также: