Извлекаем метаданные (Metadata) из файлов

При создании какого либо документа, например того же pdf, есть вероятность что программа в этот файл запишет метаданные (Metadata). Это такие данные, которые будут храниться в этом файле, и если их извлечь, то возможно узнать когда создавался файл, в какой программе и так далее. В случае же с фотографией, сделанной как вариант на телефон, возможно даже узнать координаты, где делалась эта фотография. По метаданным вы можете многое узнать о документе или фотографии, по этому, рекомендуется удалять эти самые метаданные, если не хотите что бы они попали не в те руки. Подробней узнать о метаданных можно на WIKI. А сегодня мы рассмотрим несколько способов, как можно извлечь метаданные из файлов, найденных на просторах интернета, например, при помощи все тех же операторов Google.

Утилита Mat2 для работы с метаданными

Первой из утилит по работе с метаданными будет “Mat2”, это утилита командной строки, весьма простая в использовании, но, тем не менее может быть полезной, как для извлечения метаданных, так и для их удаления. Данная утилита написана на языке программирования Python, работает с самыми популярными документами, это офисные документы, изображения, аудио и видео файлы и так далее. Для более полной информации о Mat2 рекомендую посетить домашнюю страничку этой утилиты. Обратите внимания, что эта утилита не удаляет метаданные в самом документе, она создает копию документа, где не будет метаданных. И так, переходим к установке, установить “Mat2” можно командой:

Debian/Ubuntu

sudo apt install mat2

В остальных дистрибутивах рассматривать установку не стану, скажу лишь что в дистрибутиве Manjaro устанавливается “Mat2” из репозитория AUR:

Работа с утилитой весьма простая, сначала в терминале вводим название программы, затем указываем необходимые опции, как вариант, обратимся к справке по утилите:

mat2 -h

Или можно еще написать:

mat2 –help

Перевод опций:

  • -h, –help – показать справку
  • -v, –version – показать версию программы
  • -l, –list – вывести список всех поддерживаемых форматов файлов
  • –check-dependencies – проверить, имеются все ли необходимые для MAT2 зависимости
  • -V, –verbose – показать более подробную информацию о статусе
  • –unknown-members policy – как обрабатывать неизвестных членов файлов в стиле архива (в качестве политики можно указать: abort, omit, keep) По умолчанию – abort
  • -s, –show – показать все метаданные, способные нанести вред, которые нашла MAT2, без их удаления
  • -L, –lightweight – удалить только НЕКОТОРЫЕ метаданные

Собственно, как видите опций немного, давайте проверим как работает утилита, вводим команду на вывод метаданных:

mat2 -s

А затем указываем какой файл будем рассматривать, в моем случае это “RCS-Password-Policy.pdf”

mat2 -s RCS-Password-Policy.pdf

Как видите, тут указан автор данного файла, дата создания и какой софт использовался при создании документа. И это еще не все, в сети можно найти множество файлов, где будет намного больше метаданных. А утилита Mat2 указывает лишь те метаданные, которые могут быть крайне нежелательными в файлах. Собственно, думаю вы поняли как работать с утилитой, ну а мы переходим к следующей.

Утилита ExifTool для работы с метаданными (Metadata)

Если по какой-либо причине вам нужен более мощный инструмент по метаданным, то можете обратить внимания на ExifTool. Данная утилита работает со множеством форматов, таких как: EXIF, GPS, IPTC, XMP, JFIF, GeoTIFF, ICC Profile, Photoshop IRB, FlashPix, AFCP и ID3, Lyrics3… Чем примечательна утилита ExifTool, так это тем что это весьма мощный инструмент, имеет множество опций, поддерживает большое количество файлов, поддерживает Геотеги и многое другое. Более подробную информации вы так же можете узнать на официальном сайте утилиты. Ну а мы переходим к установке, устанавливается ExifTool командой:

Debian/Ubuntu

sudo apt install libimage-exiftool-perl

Manjaro

sudo pacman -S perl-image-exiftool

Что бы начать работать с ExifTool, давайте сначала заглянем в опции, которые имеются в данной утилите, а там их на все случаи жизни.

Опции с тегами:

  • -TAG или –TAG Извлекает или исключает указанный тег
  • -TAG[+-^]=[ЗНАЧЕНИЕ] Записывает для тега новое значение
  • -TAG[+-]<=ФАЙЛ_ДАННЫХ Записывает значение тега из содержимого файла
  • -TAG[+-]<SRCTAG Копирует значение тега (смотрите -tagsFromFile)
  • -tagsFromFile ИСХ_ФАЙЛ Копирует значение тега из файла
  • -x TAG (-exclude) Исключает указанные тег

Форматирование текста:

  • -args (-argFormat) Форматировать метаданные как аргументы exiftool
  • -b (-binary) Вывод метаданных в двоичном формате
  • -c FMT (-coordFormat) Установит формат координат GPS
  • -charset [[TYPE=]КОДИРОВКА] Указать кодировку для специальных символов
  • -csv[[+]=ФАЙЛ_CSV] Экспорт/импорт тегов в формате CSV
  • -d FMT (-dateFormat) Установить формат для значений даты/времени
  • -D (-decimal) Показывать номера идентификаторов тегов в десятичном формате
  • -E,-ex,-ec (-escape(HTML|XML|C)) Символы для экранирования выходных тегов для HTML, XML или C
  • -f (-forcePrint) Принудительная печать всех указанных тегов
  • -g[ЧИСЛО…] (-groupHeadings) Организовать вывод по группе тегов
  • -G[ЧИСЛО…] (-groupNames) Распечатать название группы для каждого тега
  • -h (-htmlFormat) Использовать форматирование HTML для вывода
  • -H (-hex) Показывать номера идентификаторов тегов в шестнадцатеричном формате

Контроль обработки

  • -a (-duplicates) Разрешить извлечение повторяющихся тегов
  • -e (–composite) Не создавать составные теги
  • -ee (-extractEmbedded) Извлечь информацию из встроенных файлов
  • -ext[+] РАСШ (-extension) Обрабатывать файлы с указанным расширением
  • -m (-ignoreMinorErrors) Игнорировать мелкие ошибки и предупреждения

И так далее, полный список всех опций вы можете скачать по ссылке:

Скачать: ExifTool
Скачано: 9

Как уже говорилось, ExifTool имеет множество опций, и не факт что все они вам будут нужны, так же отмечу, что при установке Meta2 автоматом устанавливается и ExifTool. Для извлечения из файла метаданных утилитой ExifTool выполняем команду:

exiftool

Затем указываем название файла, из которого хотим извлечь информацию, в моем случае это все тот же “RCS-Password-Policy.pdf”

exiftool RCS-Password-Policy.pdf

И это лишь небольшая часть метаинформации, а ведь в таких документах может содержаться информация о системе и многом другом. Существуют и другие продукты для обработки и извлечения метаданных, но, как по мне, лучше изучить самые популярные инструменты, благо, по ним существует множество инструкций. Что же касается Meta2 и ExifTool, то этих двух инструментов хватит даже опытному пользователю.

Заключение

Как говорилось выше, существуют и другие инструменты по обработке метаданных, и если вам вдруг не хочется по какой-то причине устанавливать лишний софт, вы всегда можете воспользоваться онлайн ресурсами. Достаточно в поисковике набрать что-то наподобие “сайт метаданные” или “метаданные онлайн” и вам представятся сайты где вы сможете просмотреть информацию в ваших файлах. В любом случае не забывайте удалять ваши метаданные, что бы потом никто не смог пробить например на какой операционной системе вы работаете, где отдыхаете или даже где живете.

А на этом сегодня все. Надеюсь данная статья будет вам полезна.
Журнал Cyber-X

Один комментарий к “Извлекаем метаданные (Metadata) из файлов

  1. Если напряжно набирать в терминале команды, для mat2 есть отличная “оболочка” – Metadata Cleaner.
    Для Arch Linux В AUR есть и mat2 и Metadata Cleaner.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *