Как удалить метаданные с файла word

Обновлено: 07.07.2024

Этичный хакинг и тестирование на проникновение, информационная безопасность

Метаданные в файлах Word

В файле MS Word и вообще во всех офисных документах MS Office содержится множество метаданных.



Если нужно извлечь метаданные из файлов MS Word без открытия файла в редакторе Word, то можно воспользоваться специальными утилитами.

При этом популярный инструмент mat, который используется для показа и очистки метаданных, работает с файлами MS Word не очень хорошо:

На самом деле, мало что понятно и показанная информация кажется скорее мусором. Но полезные данные имеются, это строки:

В них говориться, что файлы docProps/core.xml и docProps/app.xml содержат потенциально пагубное содержимое. Но самих данных с помощью этой программы мы увидеть не можем.

Если попытаться проанализировать файл .docm (документ MS Word с поддержкой макросов):

То программа просто напишет, что не может обработать этот файл:

Это при том, что формат .docm имеет минимальное отличие от формата .docx — пара дополнительных файлов внутри (с описанием макросов и второй файл с самими макросами).

Имеется ещё одна версия mat2. Попробуем её:

Здесь всё намного лучше, выведены почти все метаданные файла.

Попробуем проанализировать формат .docm:

Как посмотреть метаданные файла .docm

Программа mat2 не в курсе, что .docm это такой же файл, как и .docx. Зато мы это знаем и можем пойти совсем простым путём — просто изменим (или добавим) расширение файла на .docx:

Теперь метаданные отлично извлекутся:

Как сделать выводимую в mat2 информацию более читаемой

Можно заметить, что вывод команды mat2 преимущественно состоит из строк, не несущих особой смысловой нагрузки:

Выводимая информация станет намного более ясной для восприятия, если мы просто уберём показ этих строк:


Что показывает mat2

Программа mat2 выводит название узлов XML файлов, которые имеют говорящие имена. А именно:

  • AppVersion — версия приложения
  • Application — приложение
  • Characters — всего символов
  • CharactersWithSpaces — всего символов с пробелами
  • DocSecurity — безопасность документа
  • HyperlinksChanged — ссылки изменены
  • Lines — всего строк в документе
  • LinksUpToDate — ссылки обновлены
  • Pages — всего страниц в документе
  • Paragraphs — всего параграфов в документе
  • ScaleCrop — масштабирование/обрезка
  • SharedDoc — совместный документ
  • Template — используемый шаблон
  • TitlesOfParts — имена частей
  • TotalTime — общее время правки
  • Words — всего слов в документе
  • cp:lastModifiedBy — кем последний раз изменён документ
  • cp:lastPrinted — дата последней печати документа
  • cp:revision — всего редакций документа (количество правок и сохранений)
  • dc:creator — кем документ создан

Как посмотреть метаданные документов MS Office без дополнительных программ

На самом деле, новый формат документов, например, файлов Word .docx представляет собой zip архив, в котором собраны преимущественно xml файлы (также там могут быть изображения, макросы, другие бинарные файлы).

Для ручного анализа я создал новый файл file3.docx и добавил туда картинку с GPS координатами и другими метаданными. Программы mat и mat2 показали присутствие изображения, но сами метаданные из него не вывели.

Итак, к файлу file3.docx можно добавить расширение .zip и после этого распаковать его содержимое как архив.

Медиафайлы при распаковке находятся в папке /word/media/.

Программа mat2 не смогла найти в изображении метаданных:

Программа mat также ничего не нашла:

Видимо, при вставке изображений в документы Word, они пересохраняются программой и при этом все метаданные теряются. Но их хотя бы можно просто открыть и посмотреть:


Метаданные документа содержаться в файлах docProps/core.xml и docProps/app.xml. Я открыл их в IDE NetBeans и для удобства чтения выбрал опцию форматирования документа, поскольку в начальном виде весь документ записан в одну строку, трудную для восприятия.

Файл docProps/core.xml:


Файл docProps/app.xml:


В файле core.xml имеются даты создания и изменения, которые не выводит даже программа mat2. Возможно, есть ещё какие-то поля, которые невозможно увидеть кроме как открыв эти файлы.

В каком файле Word содержаться макросы

Информация о макросах записана в файл /word/vbaData.xml, а сами макросы сохранены в /word/vbaProject.bin — этот файл является бинарным.

В каком файле Word записан текст документа

Текст документа сохраняется в файл /word/document.xml. В этом документе используется особая разметка на основе открывающихся и закрывающихся тегов и их свойствах.

Как очистить метаданные файла MS Word

Очистить метаданные документов MS Office, в том числе Word, можно прямо в самой программе для редактирования. Далее показано на примере Word.

В меню нажмите Файл:


Далее во вкладке Сведения найдите кнопку Поиск проблем и в выпадающем меню выберите Инспектор документов:


Если документ не сохранён, то перед анализом будет предложено сохранить его.


Обратите внимание на пункт Свойства документа и персональные данные — при желании, нажмите кнопку Удалить всё:


Удаление метаданных офисных файлов в Linux

Программа mat вроде бы как успешно удаляет метаданные из файла:

Об этом говорит вывод:

Программа mat2 успешно справилась с задачей и удалила все метаданные:

Обратите внимание, что она не очищает файл, а создаёт новый без метаданных, в данном случае имя файла без метаданных будет file3.cleaned.docx, что касается файла file3.docx, то он останется без изменений.

Итак, если вам действительно нужно удалить метаданные файла .docx не открывая его в редакторе Word, то алгоритм действий следующий:

  1. Добавьте к файлу расширение .zip.
  2. Распакуйте полученный архив.
  3. Откройте файлы docProps/core.xml и docProps/app.xml и замените данные на нужные вам. После редактирования сохраните эти файлы
  4. Выберите все распакованные каталоги и файлы и запакуйте всё это в zip архив.
  5. К полученному архиву добавьте расширение .docx
  6. Нужно проверить, что документ не повреждён и сохранил свою работоспособность. Чтобы в него не сохранились новые метаданные, на всякий случай сделайте копию нового документа и проверьте его.

Кстати, таким образом можно не только удалять, но и спуфить (подменять) метаданные офисных документов:


Обратите внимание на даты создания, изменения, печати и номер редакции:


Много лет назад аналогичный «разбор» и «сборку» файлов я делал даже на PHP (я редактировал содержимое файлов Word для целей обхода Антиплагиата) — рабочие файлы Word получались при упаковке их с помощью класса ZipArchive при использовании метода сжатия по умолчанию.

Заключение

Метаданные могут содержать важную информацию, вплоть до ФИО автора документа, поэтому им нужно уделять особое внимание.

В плане показа и очистки метаданных из документов MS Office такими инструментами как mat и mat2, то первая их не показывает и портит файл при очистке, вторая их показывает, и успешно очищает файл.

Самый простой способ очистить метаданные в документе Word и в других офисных программах — сделать это прямо в соответствущем редакторе MS Office.


В Windows 10, когда вы создаете документ Office с помощью Word, Excel или PowerPoint, наряду с содержимым, файл может также содержать личную информацию и скрытые данные (такие как имя автора, метаданные, скрытый текст и комментарии), которыми вы, возможно, не захотите делиться с другими людьми.

Если вы планируете предоставить общий доступ к документу, всегда полезно использовать функцию «Инспектор документов», доступную в Office 365, Office 2019, 2016 или более ранних версиях, для просмотра и удаления любой скрытой информации перед отправкой документа.

Поиск личных данных в документах Office

В этом руководстве по Windows 10 мы расскажем, как удалить личную информацию, а также скрытые данные из документа Office, который вы собираетесь опубликовать в Интернете или поделиться с другими.

Как удалить личные данные из документа Word

Чтобы проверить и удалить личную информацию перед отправкой документа Word, выполните следующие действия.

Важно. Если вы считаете, что вам может понадобиться эта информация в будущем, рекомендуется удалить личные и скрытые данные из копии документа.

  1. Откройте документ Word.
  2. Нажмите вкладку Файл.
  3. Откройте раздел «Сведения».
  4. Справа откройте меню «Поиск проблем».

Подсказка. В разделе «Проверка документа» вы увидите обзор содержимого, которое вы можете удалить из файла.

Выберите параметр Инспектор документов .

Запуск инспектора документов в Word

  • Комментарии, редакции и версии
  • Свойства документов и личная информация
  • Надстройки панели задач
  • Вложенные документы
  • Макросы, формы и элементы управления ActiveX
  • Чернила
  • Свернутые заголовки
  • Пользовательские данные XML
  • Заголовки, нижние колонтитулы и водяные знаки
  • Невидимый контент
  • Скрытый текст

Просмотр результатов проверки документа Word

Выполнив эти шаги, вы можете безопасно публиковать или передавать документ Microsoft Word другим пользователям, не передавая свою личную информацию или персональный контент.

Как удалить личные данные из документа Excel

Чтобы проверить и удалить личную информацию перед отправкой электронной таблицы Excel, выполните следующие действия.

  1. Откройте документ Excel.
  2. Перейдите на вкладку Файл.
  3. Откройте раздел «Сведения».
  4. Справа откройте меню «Поиск проблем».
  5. Выберите параметр «Инспектор документов».

Запуск инспектора документа в Excel

Подсказка. В редком случае, когда вы сохранили электронную таблицу как общую книгу, вы не сможете удалить скрытую информацию. Если вам необходимо удалить какую-либо информацию, вам нужно будет сделать копию файла, а затем отключить общую книгу на вкладке «Просмотр».

Проверьте содержимое, которое вы хотите удалить. Например, в Microsoft Excel вы можете удалить эту информацию:

  • Комментарии
  • Свойства документов и личная информация
  • Модель данных
  • Контентные надстройки
  • Надстройки панели задач
  • Сводные таблицы, сводные диаграммы, формулы кубов, срезы и временные шкалы
  • Вложенные документы
  • Макросы, формы и элементы управления ActiveX
  • Ссылки на другие файлы
  • Функции данных в реальном времени
  • Обзоры Excel
  • Определенные сценарии
  • Активные фильтры
  • Пользовательские свойства рабочего листа
  • Скрытые имена
  • Чернила
  • Пользовательские данные XML
  • Заголовки и колонтитулы
  • Скрытые строки и столбцы
  • Скрытые листы
  • Невидимый контент

Выполнив эти шаги, вы можете поделиться таблицей Excel с коллегами или клиентами, не передавая при этом свою личную информацию.

Как удалить личные данные из документа PowerPoint

Чтобы проверить и удалить личную информацию перед публикацией презентации PowerPoint, выполните следующие действия.

  1. Откройте документ PowerPoint.
  2. Перейдите на вкладку Файл.
  3. Откройте раздел «Сведения».
  4. Справа откройте меню «Поиск проблем».
  5. Выберите параметр «Инспектор документов».

Запуск инспектора документа в PowerPoint

  • Комментарии
  • Свойства документов и личная информация
  • Контентные надстройки
  • Надстройки Панели.
  • Вложенные документы
  • Макросы, формы и элементы управления ActiveX
  • Данные отслеживания изменений
  • Чернила
  • Пользовательские данные XML
  • Невидимый контент на слайде
  • Оффлайн контент
  • Презентационные заметки

Выполнив эти шаги, вы можете опубликовать презентацию PowerPoint в Интернете или поделиться ею с другими людьми, не передавая свою личную информацию.


Метаданные (metadata) - это служебная информация, которая хранится наряду с полезной информацией и обычно не отображается пользователю. Метаданные обычно включают в себя:

  • информацию об авторе документа;
  • информацию об используемом редакторе и плагинах;
  • дату и время создания/изменения документа и т.д.

Как можно использовать метаданные?

В общем случае метаданные не приводят к разглашению чувствительной информации, однако обычно они широкодоступны (в том числе и для автоматизированного анализа) и могут послужить прекрасной базой для сбора информации об объекте исследования.

Частенько метаданные так же позволяют выявить настоящего автора документа, что порой бывает полезно в межкорпоративной переписке.

С помощью метаданных можно, к примеру, собрать сведения о сотрудниках организации или имена пользователей домена. Для этого бывает достаточно загуглить запрос site:<сайт_фирмы> filetype:doc (вместо doc можно использовать ещё docx, xls, xlsx, pdf), скачать найденные документы и проанализировать содержащиеся в них метаданные.

Как извлечь метаданные из документов Word?

<Вкладку Developer tools вначале нужно включить в настройках Word>



Кроме того новый формат документов Word - .docx - представляет собой zip архив с набором XML файлов. Переименовав документ в .zip, его можно открыть любым архиватором и просмотреть файлы вручную в текстовом редакторе в поисках метаданных.


Старый формат документов MS Office - .doc - позволяет иногда вытянуть из документа пути (в которых могут быть и имена пользователей) и версии используемого ПО (может использоваться для подбора нужного эксплоита). Для этого нужно открыть документ не двойным щелчком, а через меню Фаил - Открыть, указав "Восстановить текст из любого файла".


Как убрать метаданные из документов Word?

Microsoft встроил в офисные приложения специальный инструмент - Инспектор документов


Инспектор сканирует документ и удаляет из него выбранные категории метаданных. К сожалению сделать запуск инспектора обязательным или автоматическим невозможно (что странно, учитывая любовь Микрософта к навязыванию пользователям своих представлений о безопасности).

Создаем новый макрос (в настройках Word не забудьте включить панель "Инструменты разработчика")


Sub Anonymizer()
'
' Removes the metadata from active word document. (c) itsec.pro.
'

With ActiveDocument
.RemoveDocumentInformation (wdRDIVersions)
.RemoveDocumentInformation (wdRDIRemovePersonalInformation)
.RemoveDocumentInformation (wdRDIEmailHeader)
.RemoveDocumentInformation (wdRDIRoutingSlip)
.RemoveDocumentInformation (wdRDISendForReview)
.RemoveDocumentInformation (wdRDIDocumentProperties)
.RemoveDocumentInformation (wdRDITemplate)
.RemoveDocumentInformation (wdRDIInkAnnotations)
.RemoveDocumentInformation (wdRDIDocumentServerProperties)
.RemoveDocumentInformation (wdRDIDocumentManagementPolicy)
.RemoveDocumentInformation (wdRDIContentType)
End With
' save as
Set fd = Application.FileDialog(msoFileDialogSaveAs)
With fd
If .Show Then
ActiveDocument.SaveAs2 FileName:=.SelectedItems(1), FileFormat:=wdNormal
End If
End With
Set fd = Nothing
Application.ScreenUpdating = True
End Sub

О категориях метаданных, которые будут очищены, можно почитать в справке msdn . Я не стал удалять все категории метаданных. Оставил исправления и комментарии, т.к. они все равно всегда на виду и забыть их убрать перед публикацией сложно.

Сохраняем и создаем удобный ярлычок



Теперь каждый раз перед публикацией документа достаточно его открыть, щелкнуть иконку на панели быстрого доступа и сохранить очищенный документ под новым именем.

В файле MS Word и вообще во всех офисных документах MS Office содержится множество метаданных.

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №1

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №2

Если нужно извлечь метаданные из файлов MS Word без открытия файла в редакторе Word, то можно воспользоваться специальными утилитами.

При этом популярный инструмент mat, который используется для показа и очистки метаданных, работает с файлами MS Word не очень хорошо:

mat -d file2.docx

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №3

На самом деле, мало что понятно и показанная информация кажется скорее мусором. Но полезные данные имеются, это строки:

docProps/core.xml: harmful content

docProps/app.xml: harmful content

В них говориться, что файлы docProps/core.xml и docProps/app.xml содержат потенциально пагубное содержимое. Но самих данных с помощью этой программы мы увидеть не можем.

Если попытаться проанализировать файл .docm (документ MS Word с поддержкой макросов):

mat -d file2.docm

То программа просто напишет, что не может обработать этот файл:

[-] Unable to process file2.docm

Это при том, что формат .docm имеет минимальное отличие от формата .docx — пара дополнительных файлов внутри (с описанием макросов и второй файл с самими макросами).

Имеется ещё одна версия mat2. Попробуем её:

mat2 -s file2.docx

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №4

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №5

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №6

Здесь всё намного лучше, выведены почти все метаданные файла.

Попробуем проанализировать формат .docm:

mat2 -s file2.docm

[-] file2.docm's format (application/vnd.ms-word.document.macroenabled.12) is not supported

Как посмотреть метаданные файла .docm

Программа mat2 не в курсе, что .docm это такой же файл, как и .docx. Зато мы это знаем и можем пойти совсем простым путём — просто изменим (или добавим) расширение файла на .docx:

cp file2.docm file2.docm.docx

Теперь метаданные отлично извлекутся:

mat2 -s file2.docm.docx

Как сделать выводимую в mat2 информацию более читаемой

Можно заметить, что вывод команды mat2 преимущественно состоит из строк, не несущих особой смысловой нагрузки:

Выводимая информация станет намного более ясной для восприятия, если мы просто уберём показ этих строк:

mat2 -s file2.docx | grep -v 'Weird'

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №7

Что показывает mat2

Программа mat2 выводит название узлов XML файлов, которые имеют говорящие имена. А именно:

  • AppVersion — версия приложения
  • Application — приложение
  • Characters — всего символов
  • CharactersWithSpaces — всего символов с пробелами
  • DocSecurity — безопасность документа
  • HyperlinksChanged — ссылки изменены
  • Lines — всего строк в документе
  • LinksUpToDate — ссылки обновлены
  • Pages — всего страниц в документе
  • Paragraphs — всего параграфов в документе
  • ScaleCrop — масштабирование/обрезка
  • SharedDoc — совместный документ
  • Template — используемый шаблон
  • TitlesOfParts — имена частей
  • TotalTime — общее время правки
  • Words — всего слов в документе
  • cp:lastModifiedBy — кем последний раз изменён документ
  • cp:lastPrinted — дата последней печати документа
  • cp:revision — всего редакций документа (количество правок и сохранений)
  • dc:creator — кем документ создан

Как посмотреть метаданные документов MS Office без дополнительных программ

На самом деле, новый формат документов, например, файлов Word .docx представляет собой zip архив, в котором собраны преимущественно xml файлы (также там могут быть изображения, макросы, другие бинарные файлы).

Для ручного анализа я создал новый файл file3.docx и добавил туда картинку с GPS координатами и другими метаданными. Программы mat и mat2 показали присутствие изображения, но сами метаданные из него не вывели.

Итак, к файлу file3.docx можно добавить расширение .zip и после этого распаковать его содержимое как архив.

unzip file3.docx.zip -d file3

Медиафайлы при распаковке находятся в папке /word/media/.

Программа mat2 не смогла найти в изображении метаданных:

mat2 -s file3/word/media/image1.jpg

No metadata found

Программа mat также ничего не нашла:

mat -d file3/word/media/image1.jpg

No harmful metadata found

Видимо, при вставке изображений в документы Word, они пересохраняются программой и при этом все метаданные теряются. Но их хотя бы можно просто открыть и посмотреть:

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №8

Метаданные документа содержаться в файлах docProps/core.xml и docProps/app.xml. Я открыл их в IDE NetBeans и для удобства чтения выбрал опцию форматирования документа, поскольку в начальном виде весь документ записан в одну строку, трудную для восприятия.

Файл docProps/core.xml:

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №9

Файл docProps/app.xml:

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №10

В файле core.xml имеются даты создания и изменения, которые не выводит даже программа mat2. Возможно, есть ещё какие-то поля, которые невозможно увидеть кроме как открыв эти файлы.

В каком файле Word содержаться макросы

Информация о макросах записана в файл /word/vbaData.xml, а сами макросы сохранены в /word/vbaProject.bin — этот файл является бинарным.

В каком файле Word записан текст документа

Текст документа сохраняется в файл /word/document.xml. В этом документе используется особая разметка на основе открывающихся и закрывающихся тегов и их свойствах.

Как очистить метаданные файла MS Word

Очистить метаданные документов MS Office, в том числе Word, можно прямо в самой программе для редактирования. Далее показано на примере Word.

В меню нажмите Файл:

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №11

Далее во вкладке Сведения найдите кнопку Поиск проблем и в выпадающем меню выберите Инспектор документов:

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №12

Если документ не сохранён, то перед анализом будет предложено сохранить его.

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №13

Обратите внимание на пункт Свойства документа и персональные данные — при желании, нажмите кнопку Удалить всё:

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №14

Удаление метаданных офисных файлов в Linux

Программа mat вроде бы как успешно удаляет метаданные из файла:

Об этом говорит вывод:

Но полученный файл невозможно открыть ни в одной программе…

Программа mat2 успешно справилась с задачей и удалила все метаданные:

Обратите внимание, что она не очищает файл, а создаёт новый без метаданных, в данном случае имя файла без метаданных будет file3.cleaned.docx, что касается файла file3.docx, то он останется без изменений.

Итак, если вам действительно нужно удалить метаданные файла .docx не открывая его в редакторе Word, то алгоритм действий следующий:

  1. Добавьте к файлу расширение .zip.
  2. Распакуйте полученный архив.
  3. Откройте файлы docProps/core.xml и docProps/app.xml и замените данные на нужные вам. После редактирования сохраните эти файлы
  4. Выберите все распакованные каталоги и файлы и запакуйте всё это в zip архив.
  5. К полученному архиву добавьте расширение .docx
  6. Нужно проверить, что документ не повреждён и сохранил свою работоспособность. Чтобы в него не сохранились новые метаданные, на всякий случай сделайте копию нового документа и проверьте его.

Кстати, таким образом можно не только удалять, но и спуфить (подменять) метаданные офисных документов:

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №15

Обратите внимание на даты создания, изменения, печати и номер редакции:

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word, изображение №16

Много лет назад аналогичный «разбор» и «сборку» файлов я делал даже на PHP (я редактировал содержимое файлов Word для целей обхода Антиплагиата) — рабочие файлы Word получались при упаковке их с помощью класса ZipArchive при использовании метода сжатия по умолчанию.

Заключение

Метаданные могут содержать важную информацию, вплоть до ФИО автора документа, поэтому им нужно уделять особое внимание.

В плане показа и очистки метаданных из документов MS Office такими инструментами как mat и mat2, то первая их не показывает и портит файл при очистке, вторая их показывает, и успешно очищает файл.

Самый простой способ очистить метаданные в документе Word и в других офисных программах — сделать это прямо в соответствущем редакторе MS Office.

Читайте также: