АВАТАР: Агентное Видеоотвечание посредством Временной Адаптивной Выравнивания и Рассуждения

Оценка: 5/10 2025-11-20 05:00:00

Краткое содержание

arXiv:2511.15578v1 Объявление Тип: новый Аннотация: С ростом популярности видеоконтента эффективное понимание и ответы на вопросы по длинным видео стали необходимыми для множества приложений. Хотя большие модели компьютерного зрения и языка (LVLM) повысили производительность, они часто сталкиваются с трудностями при работе с нюансированными запросами, требующими как всестороннего понимания, так и детального анализа. Для преодоления этих препятствий мы представляем AVATAAR – модульный и интерпретируемый фреймворк, который объединяет глобальный и локальный видеоконтекст, а также Пред-Извлечение Мыслящего Агента и Модуль Переосмысления. AVATAAR создает постоянную глобальную сводку и устанавливает обратную связь между Модулем Переосмысления и Пред-Извлечением Мыслящим Агентом, позволяя системе уточнять свои стратегии извлечения на основе частичных ответов и воспроизводить человекоподобное итеративное рассуждение. На бенчмарке CinePile AVATAAR демонстрирует значительные улучшения по сравнению с базовой линией, достигая относительных приростов +5,6%.

Полный текст статьи пока не загружен.

Читать оригинал статьи