AsyncVLA: Асинхронное сопоставление потоков для моделей видения, языка и действия

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14148v1 Тип объявления: кросс Аннотация: Модели видения-речи-действия (VLA) недавно появились как мощная парадигма для создания универсальных роботов. Однако традиционные модели VLA, которые генерируют действия через сопоставление потоков (FM), обычно полагаются на жесткие и равномерные временные расписания, то есть синхронное сопоставление потока (SFM). Без осознания контекста действий и асинхронной самокоррекции SFM становится нестабильным в задачах с длительным горизонтом планирования, где одна ошибка при выполнении действия может привести к каскадному отказу. В данной работе мы предлагаем модель асинхронного сопоставления потока VLA (AsyncVLA), новый подход, который вводит временную гибкость в асинхронном сопоставлении потока (AFM) и позволяет выполнять самокоррекцию при генерации действий. AsyncVLA отличается от стандартного подхода SFM в моделях VLA тем, что она генерирует токены действий по неравномерному временному графику с учетом контекста действий. Кроме того, наш метод включает оценщик уверенности для извлечения уровня уверенности первоначально сгенерированных действий, позволяя модели избирательно уточнять неточные действия.

Полный текст статьи пока не загружен.

Читать оригинал статьи