Глава ARC: Структурирование часовых видео в навигационные главы и иерархические резюме
Краткое содержание
arXiv:2511.14349v1 Тип объявления: новый Аннотация: Распространение видеоматериалов продолжительностью в час и более (например, лекции, подкасты, документальные фильмы) усилило потребность в эффективном структурировании контента. Однако существующие подходы ограничены небольшим объемом обучения с аннотациями, которые обычно короткие и грубые, что препятствует обобщению на тонкие переходы в длинных видео. Мы представляем модель ARC-Chapter — первую крупномасштабную модель для разбиения видео на главы, обученную на миллионах длительных глав видео, включающих двуязычные, привязанные ко времени и иерархические аннотации к главам. Для достижения этой цели мы создали двуязычный англоязычно-китайский набор данных по главам через структурированную конвейерную систему, объединяющую транскрипты ASR, текст сцены и визуальные подписи в многоуровневые аннотации от коротких заголовков до подробных резюме. Мы демонстрируем явные улучшения производительности при масштабировании данных как по объему данных, так и по интенсивности меток. Кроме того, мы разработали новую метрику оценки, названную GRACE, которая включает многие-к-одному...
Полный текст статьи пока не загружен.