Причинность имеет значение: Как временная информация проявляется в видеоязыковых моделях
Краткое содержание
arXiv:2508.11576v2 Тип объявления: замена Аннотация: Модели видеоязыка (VideoLMs) добились значительных успехов в мультимодальном понимании. Тем не менее, временное понимание, включающее идентификацию порядка событий, длительности и взаимосвязей во времени, остается основной проблемой. Предыдущие работы подчеркивали позиционные кодировки (PEs) как ключевой механизм для представления временной структуры. Удивительно, но мы обнаружили, что удаление или модификация PEs в видеовходах вызывает лишь незначительное ухудшение производительности временного понимания. Напротив, обращение последовательности кадров при сохранении исходных PEs приводит к значительному снижению качества. Для объяснения такого поведения мы провели обширный экспериментальный анализ, чтобы проследить, каким образом временная информация интегрируется внутри модели. Мы выявили каузальную информационную цепочку: временные признаки постепенно синтезируются через межкадровое внимание, аккумулируются в последнем кадре и впоследствии объединяются с токенами запроса. Этот возникающий механизм показывает...
Полный текст статьи пока не загружен.