РЕВИЗОР: За пределами текстового отражения — к мультимодальному интроспективному рассуждению в понимании длинных видеоформатов
Краткое содержание
arXiv:2511.13026v1 Тип объявления: новый Аннотация: Механизмы самоанализа, основанные исключительно на текстовых процессах переосмысления, хорошо работают в большинстве мультимодальных задач. Однако при непосредственном применении к сценариям понимания длинных видеоформатов проявляются явные ограничения. Основные причины этого заключаются в двух моментах: (1) понимание длинного формата видео предполагает богаче и динамичнее визуальные входные данные, следовательно, переосмысление лишь текстовой информации оказывается недостаточным и требует дополнительного процесса переосмысления, специально ориентированного на визуальную информацию; (2) чисто текстовые механизмы рефлексии лишены межмодальных интерактивных возможностей, препятствуя полному интегрированию визуальной информации во время размышления. Руководствуясь этими соображениями, мы предлагаем REVISOR (Reflective Visual Segment Oriented Reasoning — Рефлексивное рассуждение, ориентированное на сегменты визуального восприятия), новую архитектуру для инструментально расширенного мультимодального отражения. REVISOR позволяет мультимодальным языково-логическим моделям совместно строить процессы интроспективной рефлексии через текстовую и визуальную модальности,
Полный текст статьи пока не загружен.