Оценка временной реалистичности сгенерированных видео с использованием векторов движения в сжатой области
Краткое содержание
arXiv:2511.13897v1 Тип объявления: новый Аннотация: Временная реалистичность остается центральной слабостью современных генеративных видеомоделей, так как большинство метрик оценки отдают приоритет пространственному внешнему виду и обладают ограниченной чувствительностью к движению. Мы представляем масштабируемую модельно-агностическую структуру для оценки временной динамики с использованием векторов движения (MV), извлекаемых непосредственно из сжатых видеопотоков. Векторы движения, генерируемые кодеками по стандартам типа H.264 и HEVC, обеспечивают легковесные, согласованные по разрешению дескрипторы динамических характеристик движения. Реалистичность мы оцениваем путем вычисления расхождений Кульбака-Лейблера, Дженсена-Шеннона и Ватерштейна между статистикой MV реальных и синтезированных видео. Эксперименты на наборе данных GenVidBench, содержащем видеоролики от восьми передовых генераторов, выявили систематические различия относительно реального движения: энтропийные меры расхождения ставят модели Pika и SVD ближе всего к реальным видео, статистика сумм MV благоприятствует моделям VC2 и Text2Video-Zero, а у CogVideo наблюдаются наибольшие отклонения по обоим показателям. Визу
Полный текст статьи пока не загружен.