LiveStar: Помощник потокового вещания для понимания реального онлайн-видео
Краткое содержание
arXiv:2511.05299v1 Тип объявления: кросс Аннотация: Несмотря на значительный прогресс в области больших языковых моделей для видео (Video-LLM), предназначенных для автономного понимания видео, существующие онлайн-модели Video-LLM часто испытывают трудности одновременно с обработкой непрерывных покадровых входных данных и определением оптимального момента отклика, зачастую жертвуя реальной отзывчивостью и связностью повествования. Для устранения этих ограничений мы представляем LiveStar — инновационного ассистента потокового вещания, обеспечивающего постоянное активное реагирование благодаря адаптивному декодированию видеопотока. В частности, LiveStar включает следующие компоненты: (1) стратегию обучения, позволяющую осуществлять инкрементальную синхронизацию видео и текста для видеопотоков переменной длины, обеспечивая временную согласованность динамически развивающихся последовательностей кадров; (2) фреймворк декодирования с контролем молчания откликов, определяющий оптимальное время активного отклика через однократное прямое подтверждение; (3) ускорение обработки с учетом памяти посредством сжатия пиковых конечных состояний памяти для выполнения онлайн-инференса на видеороликах продолжительностью свыше 10 минут...
Полный текст статьи пока не загружен.