АВАТАР: Агентное Видеоотвечание посредством Временной Адаптивной Выравнивания и Рассуждения
Краткое содержание
arXiv:2511.15578v1 Объявление Тип: новый Аннотация: С ростом популярности видеоконтента эффективное понимание и ответы на вопросы по длинным видео стали необходимыми для множества приложений. Хотя большие модели компьютерного зрения и языка (LVLM) повысили производительность, они часто сталкиваются с трудностями при работе с нюансированными запросами, требующими как всестороннего понимания, так и детального анализа. Для преодоления этих препятствий мы представляем AVATAAR – модульный и интерпретируемый фреймворк, который объединяет глобальный и локальный видеоконтекст, а также Пред-Извлечение Мыслящего Агента и Модуль Переосмысления. AVATAAR создает постоянную глобальную сводку и устанавливает обратную связь между Модулем Переосмысления и Пред-Извлечением Мыслящим Агентом, позволяя системе уточнять свои стратегии извлечения на основе частичных ответов и воспроизводить человекоподобное итеративное рассуждение. На бенчмарке CinePile AVATAAR демонстрирует значительные улучшения по сравнению с базовой линией, достигая относительных приростов +5,6%.
Полный текст статьи пока не загружен.