Многомодальная детекция и локализация дипфейков с использованием трансформера на основе Feature Pyramid Network (FPN)
Краткое содержание
arXiv:2511.08031v1 Тип объявления: кросс Аннотация: Быстрый прогресс в области порождающих состязательных сетей (GAN) и диффузионных моделей позволил создавать высоко реалистичное дипфейковое содержимое, представляющее значительные угрозы цифровой достоверности во всех аудиовизуальных областях. Хотя одномодальные методы детектирования продемонстрировали успехи в выявлении синтетического медиа-контента, их неспособность использовать межмодальную корреляцию и точно локализовать поддельные сегменты ограничивает их практичность против сложных манипуляций с высокой детализацией. Для решения этой проблемы мы предлагаем мультимодальную архитектуру обнаружения и локализации дипфейков, основанную на структуре пирамиды признаков-трансформера (Feature Pyramid Transformer — FPN-Transformer). Предложенный подход решает критически важные пробелы в обобщении между модальными пространствами и регрессии временных границ. В нём используются предварительно обученные модели с самообучением (WavLM для звука, CLIP для видео) для извлечения иерархических временных характеристик. Построение многоуровневой пирамиды признаков осуществляется через блоки R-TLM с локальным вниманием...
Полный текст статьи пока не загружен.