Извлечение видеоматериалов по текстовому запросу посредством цифровых двойников видеопредставлений и больших языковых моделей
Краткое содержание
arXiv:2511.12371v1 Тип объявления: новый Аннотация: Целью поиска видео по текстовому запросу является выборка релевантных видеофайлов из больших баз данных на основе текстовых запросов. Современные методы достигли прогресса в обработке явных запросов, когда интересующий визуальный контент описан явно; однако они терпят неудачу при работе с неявными запросами, где для нахождения подходящих видеороликов требуется рассуждение. Мы предлагаем методику поиска видео по текстовым запросам через рассуждения — парадигму, расширяющую традиционный поиск до обработки неявных запросов посредством рассуждений, одновременно предоставляя объектные маски привязки, идентифицирующие объекты, удовлетворяющие условиям запроса. Вместо прямого использования моделей видения-языка мы предлагаем представлять видеоконтент в виде цифровых двойников, то есть структурированных представлений сцен, выделяющих значимые объекты с помощью специализированных моделей зрения. Такой подход полезен, поскольку позволяет крупным языкам-моделям непосредственно рассуждать над длительными видеопоследовательностями без сжатия визуальных токенов.
Полный текст статьи пока не загружен.