Цифровая фотография, которая стала важной частью повседневной жизни современного человека. благодаря развитию информационных технологий. Программное обеспечение позволяет легко делать цифровые снимки с помощью телефонов, цифровых зеркальных фотоаппаратов, видеокамер и даже наручных часов. Зачастую люди склонны делиться этими фотографиями в социальных сетях, чтобы знакомые и друзья знали о важных событиях в их жизни. Но плохо и то, что с цифровыми снимками так легко работать. С каждым днём появляется всё больше поддельных фотографий и теперь уже нельзя верить этим снимкам по-настоящему. Эта проблема стала ещё более важной сейчас, когда разрабатываются методы искусственного интеллекта (ИИ), такие как генеративные состязательные сети (GAN). Посредством применения обработки на сервере или даже мощном компьютере, такие уловки могут быть использованы недоброжелателями или злоумышленниками для распространения шантажирующих материалов, подложных свидетельств или «фейковых новостей».
Но за последние несколько лет специалистами было разработано множество различных методов, которые часто объединяют в использовании для экспертизы цифровых снимков и видео, чтобы проверить их подлинность и неизменность исходного изображения. Главный первый ключевой вопрос, который стоит перед экспертом: откуда взялось это цифровое изображение? Существует даже специфическая область цифровой криминалистики с несколькими подразделами: криминалистика исходных записанных изображений на первоначальном носителе, криминалистика изображений, обработанных компьютерной графикой, распознавание изображений, сгенерированных нейросетями и криминалистика изображений перезаписанных изображений и т.п.
Раньше для анализа исходных изображений использовался ряд методов, основанных на анализе статистики и распознавании образов. Новые серверы в дата-центрах, обладающие большей мощностью, заинтересовали людей возможностями и методами, основанными на машинном обучении. Если формулировать более точно, то системы, основанные на глубоком обучении, успешно используются в криминалистике исходных изображений и показали хорошую результативность.
В среде профессионалов существует множество различных названий методов, использующих нейронные сети. Они существуют уже давно. Глубокое обучение - это область, которая выросла из ряда важных открытий, сделанных в 2006 году, и, благодаря которым стало можно использовать глубокие нейронные сети в поиске доказательств. Так и родилась целая область цифровых криминалистических (и не только) исследований. С тех пор методы, основанные на применении инструментов искусственного интеллекта, неизменно превосходили другие (основанные на более стандартных схемах). Сейчас многие из них применяются в решении широкого круга задач, таких как распознавание рукописного текста и классификация изображений. В области компьютерного зрения тоже было разработано множество различных способов, которые помогают даже археологам и лингвистам. В них используются генеративные, свёрточные (CNN) и рекуррентные нейронные сети (RNN). Свёрточные особо хорошо справляются с задачами, связанными с изображениями. Именно поэтому они являются строительными блоками многих цифровых систем отслеживания, обработки и экспертизы.
Распространённой проблемой в криминалистических расследованиях является идентификация источника мультимедийных данных, т.е. определение модели, марки или отдельного устройства, на которое был записан медиаконтент. В отличие от методов, основанных на сенсорном шуме (иногда незначительные погрешности в изготовлении сенсорных ячеек позволяют вычислить отпечаток датчика для конкретного устройства путём выделения фиксированного шума изображения), привязка источника на основе информации о заголовках снимков позволяет легко автоматизировать процесс. Кроме того, идентификация источника на основе сенсорного шума требует больших объёмов данных изображения и специальных знаний в области обработки сигналов для выбора подходящих статистических методов и интерпретации результатов. Поэтому эти методы требуют времени и доступны только экспертам, работающим в лабораториях судебной экспертизы.
А вот информация заголовка уже включает в себя многие метаданные, такие как теги EXIF, и параметризацию алгоритма JPEG. В то время как традиционные цифровые камеры, как правило, имеют фиксированный пакет программного обеспечения, который упрощает снятие таких «цифровых отпечатков» инициализации с устройства, современные смартфоны могут со временем значительно изменить свой программный пакет при обновлениях прошивки или апдейтах. Поэтому порой идентифицировать конкретное аппаратное обеспечение для смартфонов гораздо сложнее, чем для традиционных цифровых камер.
Наряду с высокой степенью достоверности идентификации источника, на практике часто не менее важно быстро и автоматически устанавливать версии средней степени достоверности, которые будут направлять расследование. Например, при получении фотографий с интернет-сайтов или соцсетей. Следователей часто интересует не конкретная камера, сделавшая снимок, а то, как быстро ограничить набор возможных устройств. Это особенно актуально для фотографий, сделанных с помощью персональных устройств, таких как смартфоны, поскольку исключение определённых марок гаджетов сразу же сужает круг подозреваемых лиц. Это можно сделать, используя метаданные из содержимого изображения. Хорошо известно, что некоторые данные файла могут быть относительно легко изменены, например, сайты социальных сетей регулярно меняют специфику синтаксического представления медиаэлемента. Поэтому метаданные изображений часто упускаются из виду, поскольку считается, что они (почти) не имеют доказательной ценности. Но даже теги EXIF, и параметризация используемого алгоритма кодирования в формате JPEG, могут быть использованы для быстрой и автоматической идентификации источника.
Стандарт EXIF позволяет камерам сохранять дополнительную информацию об изображении в специализированных скрытых тегах, о которых большинство пользователей даже не догадываются. Между тем, они содержат огромное количество дополнительной информации, многие из которых связаны с настройками камеры, когда и где был сделан снимок, куда файл был сохранён, какая диафрагма и выдержка использовались, какой цветовой профиль ICC необходимо использовать для точного воспроизведения цветов на изображении, а также время создания снимка и многие другие важные характеристики. Но бывает, что эти данные обнуляются, файл обрабатывается сторонними графическими программами или нейросетью.
Тут на помощь экспертам или расследователям приходят нейросети. Например, свёрточные нейросети (CNN) состоят из трёх основных частей: функций активации, объединяющих и свёрточных слоёв, которые объединяются для создания полноценного функционирования. Чтобы создать шаблон CNN, эти части накладываются друг на друга. Самые последние улучшения в построенной и обученной модели можно разделить на четыре подгруппы: регуляризация, функция потерь, переформулировка структуры и оптимизация параметров. Все они могут улучшить работу системы, но самое важное - это переформулировка структуры. Она тоже подразделяется на изучение основных признаков: использование пространства, глубина, многоплановость, широта охвата, расширение каналов, использование карты объектов и ориентирование на малейшие детали. Все они подвергаются самому тщательному анализу.
В результате обработки изображения на снимке остаётся след, который может быть использован для проверки цифровой аутентичности. После этого проверка цифровой подписи используется для проверки того, является ли она законной или нет. Метод использует визуальные артефакты, которые возникают в результате различных аномалий, в качестве маркеров для определения подлинности. Дополнительно анализируется набор цветовых фильтров для выявления случаев манипулирования изображением. С его помощью вычисляются как индивидуальные характеристики, так и простой классификатор, основанный на пороговых значениях. В качестве входных данных для обучения нейросети используются характеристики, изменяющие изображение, которые формируются после того, как содержимое изображения уничтожается, в рамках подхода, который уже обсуждался.
Ранее большинство методов, используемых для поиска подделок, основывались на ручных методах извлечения признаков. Человек, выполняющий работу, был очень важен для того, чтобы они работали. Современное использование глубокого обучения (когда ИИ начинает самообучение) устраняет вероятность человеческой ошибки, что делает модель более точной и сокращает время, необходимое для завершения процесса.