← Вернуться к списку

SVBench: Бенчмарк с временными многоходовыми диалогами для понимания потокового видео

Краткое содержание

arXiv:2502.10810v2 Тип объявления: замена Аннотация: Несмотря на значительные достижения крупных моделей видения и языка (LVLM) на устоявшихся эталонных тестах, сохраняется заметный пробел в подходящих оценках применимости этих моделей в новой области понимания потокового видео с длительным контекстом. Современные бенчмарки для понимания видео традиционно делают акцент на изолированных единичных текстовых входных данных и не оценивают способность поддерживать временное рассуждение на протяжении всего периода видеопотоков. Для устранения указанных ограничений мы представляем SVBench — новаторский бенчмарк с временными многоходовыми цепочками вопрос-ответа, специально разработанный для всесторонней оценки возможностей современных LVLM в понимании потокового видео. Мы разработали полуавтоматический конвейер аннотирования для получения 49 979 пар Вопрос-Ответ (ВО), относящихся к 1353 потоковым видеороликам, включая создание ВО-цепочек, отражающих серию последовательных многоходовых диалогов над сегментами видео, и конс...

Полный текст статьи пока не загружен.