Беги, размышляй и регулируй: двухпроцессная система мышления для навигации на основе зрения и языка
Краткое содержание
arXiv:2511.14131v1 Тип объявления: новое Аннотация: Навигация на основе зрения и языка (VLN) требует от агента динамического исследования сложных трехмерных сред в соответствии с человеческими инструкциями. Последние исследования подчеркивают потенциал использования больших языковых моделей (LLM) для задач VLN благодаря их знаниям об общих понятиях и общим возможностям рассуждений. Несмотря на свои сильные стороны, между подходами на основе LLM и экспертами по предметной области сохраняется значительный разрыв в производительности выполнения задач, поскольку LLM изначально испытывают трудности с точным пониманием реальных пространственных корреляций. Кроме того, внедрение LLM сопровождается значительными вычислительными затратами и задержками при выводе данных. Для решения этих проблем мы предлагаем новую двухпроцессную мыслительную структуру под названием R3, которая интегрирует возможности обобщения LLM с опытом, специфичным для VLN, в режиме "из коробки". Структура состоит из трех основных модулей: Runner, Ruminator и Regulator. Runner — это облегченная модель эксперта на базе трансформера, обеспечивающая...
Полный текст статьи пока не загружен.