AsyncVLA: Асинхронное сопоставление потоков для моделей видения, языка и действия
Краткое содержание
arXiv:2511.14148v1 Тип объявления: кросс Аннотация: Модели видения-речи-действия (VLA) недавно появились как мощная парадигма для создания универсальных роботов. Однако традиционные модели VLA, которые генерируют действия через сопоставление потоков (FM), обычно полагаются на жесткие и равномерные временные расписания, то есть синхронное сопоставление потока (SFM). Без осознания контекста действий и асинхронной самокоррекции SFM становится нестабильным в задачах с длительным горизонтом планирования, где одна ошибка при выполнении действия может привести к каскадному отказу. В данной работе мы предлагаем модель асинхронного сопоставления потока VLA (AsyncVLA), новый подход, который вводит временную гибкость в асинхронном сопоставлении потока (AFM) и позволяет выполнять самокоррекцию при генерации действий. AsyncVLA отличается от стандартного подхода SFM в моделях VLA тем, что она генерирует токены действий по неравномерному временному графику с учетом контекста действий. Кроме того, наш метод включает оценщик уверенности для извлечения уровня уверенности первоначально сгенерированных действий, позволяя модели избирательно уточнять неточные действия.
Полный текст статьи пока не загружен.