ViMoNet: Многомодальная визуалингвистическая архитектура для понимания человеческого поведения на основе движения и видеоданных
Краткое содержание
arXiv:2508.09818v2 Тип объявления: замена Аннотация: В данном исследовании изучается возможность использования больших языковых моделей (LLM) для понимания человеческого поведения на основе данных движения и видеоданных. Мы считаем, что сочетание обоих типов данных является необходимым условием полного охвата тонких движений и смыслов человеческих действий, в отличие от недавних моделей, сосредоточенных исключительно на данных движения или фильмах. Для решения этой проблемы мы предлагаем ViMoNet — простую, но эффективную архитектуру для понимания, описания и вывода человеческой активности. ViMoNet применяет стратегию совместного обучения, использующую преимущества двух видов данных: детальных данных движение-текст, которые точнее, и общих данных видео-текст, которые охватывают больше материала, хотя менее детализированы. Это помогает модели получить богатую информацию о временных и пространственных аспектах человеческого поведения. Дополнительно нами предложен новый набор данных под названием VIMOS, включающий разнообразные фильмы, последовательности движений, инструкции и субтитры. Мы разработали ViMoNet-Bench, эталонный тест...
Полный текст статьи пока не загружен.