4D-VLA: Пространственно-временная предобучение моделей видения, языка и действия с калибровкой между сценами

2025-11-19 05:00:00

Краткое содержание

arXiv:2506.22242v2 Тип объявления: замена Аннотация: Использование разнообразных робототехнических данных для предварительного обучения остается серьезной проблемой. Современные методы обычно моделируют распределение действий набора данных с использованием простых наблюдений в качестве входных данных. Однако эти данные часто неполны, что приводит к размытому условному распределению действий — проблеме, которую мы называем хаосом координатной системы и состоянием хаоса. Эта несогласованность существенно снижает эффективность предобучения. Для решения этой проблемы мы предлагаем метод 4D-VLA, который эффективно интегрирует четырехмерную информацию во входные данные, чтобы уменьшить источники этого хаоса. Наша модель вводит глубину и временную информацию в визуальные признаки с помощью последовательных входов RGB-D, согласовывая координаты робота и сцены. Это выравнивание наделяет модель мощными пространственно-временными возможностями рассуждения при минимизации затрат на обучение. Кроме того, мы представляем стратегию выборки кадров из банка памяти, предназначенную для извлечения информативных

Полный текст статьи пока не загружен.

Читать оригинал статьи