Базовый и агентный подход для омни-модального рассуждения и использования инструментов в длинных видео
Краткое содержание
arXiv:2512.16978v1 Тип объявления: новое Аннотация: Понимание длинных видеороликов с множественными модальностями требует интеграции зрения, речи и окружающего звука с последовательным долгосрочным рассуждением. Существующие бенчмарки акцентируют внимание либо на временной длине, либо на многообразии модальностей, но редко оба аспекта одновременно. Хотя некоторые из них включают открытые вопросы и продвинутые метрики, они в основном полагаются на точность по единому показателю, что скрывает неудачные сценарии. Мы представляем LongShOTBench — диагностический бенчмарк с открытыми вопросами, ориентированными на намерение; одно- и многооборотными диалогами; и задачами, требующими многообразного рассуждения и использования инструментов в агентной форме через видео, звук и речь. Каждый элемент включает ссылочный ответ и оценочную шкалу для интерпретируемой и отслеживаемой оценки. LongShOTBench создается с помощью масштабируемого, проверенного человеком процесса, чтобы обеспечить охват и воспроизводимость. Все образцы в нашем LongShOTBench проходят верификацию и исправление человеком. Кроме того, мы представляем LongShOTAgent — агентную систему для анализа длинных видео с предварительной подготовкой.
Полный текст статьи пока не загружен.