Митти: Генерация видео от человека к роботу на основе диффузии

Оценка: 5/10 2025-12-22 05:00:00

Краткое содержание

arXiv:2512.17253v1 Тип объявления: новое Аннотация: Обучение роботов непосредственно на основе видеодемонстраций человека является ключевым этапом для масштабируемого и обобщаемого обучения роботов. Однако существующие методы полагаются на промежуточные представления, такие как ключевые точки или траектории, что вводит потерю информации и накопление ошибок, ухудшающих временной и визуальную согласованность. Мы представляем Mitty — диффузный трансформер, который позволяет проводить In-Context Learning для генерации видео Human2Robot на основе end-to-end подхода. На основе предобученного модели диффузии видео, Mitty использует сильные визуально-временные априори для перевода демонстраций человека в видео выполнения роботом без меток действий или промежуточных абстракций. Демонстрационные видео сжимаются до условных токенов и объединяются с токенами денoisинга робота через двунаправленное внимание в процессе диффузии. Для устранения нехватки парных данных мы также разрабатываем автоматическую синтезирующую линейку, которая производит высококачественные пары человек-робот из больших эгосентральных наборов данных. Экспериментальные результаты...

Полный текст статьи пока не загружен.

Читать оригинал статьи