← Вернуться к списку

4D-VLA: Пространственно-временная предобучение моделей видения, языка и действия с калибровкой между сценами

Краткое содержание

arXiv:2506.22242v2 Тип объявления: замена Аннотация: Использование разнообразных робототехнических данных для предварительного обучения остается серьезной проблемой. Современные методы обычно моделируют распределение действий набора данных с использованием простых наблюдений в качестве входных данных. Однако эти данные часто неполны, что приводит к размытому условному распределению действий — проблеме, которую мы называем хаосом координатной системы и состоянием хаоса. Эта несогласованность существенно снижает эффективность предобучения. Для решения этой проблемы мы предлагаем метод 4D-VLA, который эффективно интегрирует четырехмерную информацию во входные данные, чтобы уменьшить источники этого хаоса. Наша модель вводит глубину и временную информацию в визуальные признаки с помощью последовательных входов RGB-D, согласовывая координаты робота и сцены. Это выравнивание наделяет модель мощными пространственно-временными возможностями рассуждения при минимизации затрат на обучение. Кроме того, мы представляем стратегию выборки кадров из банка памяти, предназначенную для извлечения информативных

Полный текст статьи пока не загружен.