К воплощённому агентному искусственному интеллекту: обзор и классификация автономности роботов и взаимодействия, основанных на больших языковых моделях (LLM) и визуальных языковых моделях (VLM)
Краткое содержание
arXiv:2508.05294v3 Тип объявления: замена-перекрёстная публикация Аннотация: Фундаментальные модели, включая большие языковые модели (LLM) и мультимодальные визуально-лингвистические модели (VLM), недавно открыли новые подходы к автономности роботов и интерфейсам человеко-машинного взаимодействия. Параллельно этому, модели видения-речи-действия (VLA) или крупные поведенческие модели (LBM) повышают ловкость и возможности роботизированных систем. В данной обзорной статье рассматриваются работы, продвигающие агентские приложения и архитектуры, включая начальные попытки использовать интерфейсы типа GPT и более сложные системы, где интеллектуальные агенты выступают координаторами, планировщиками, актёрами восприятия или универсальными интерфейсами. Такие агентские архитектуры позволяют роботам рассуждать над инструкциями на естественном языке, вызывать API-интерфейсы, планировать последовательности действий либо помогать в операциях и диагностике. Помимо рецензируемых исследований, учитывая быстро развивающуюся природу этой области, мы также выделяем и включаем проекты сообщества, пакеты ROS и промышленные фреймворки, демонстрирующие возникающие тенденции.
Полный текст статьи пока не загружен.