← Вернуться к списку

Yanyun-3: Обеспечение работы кросс-платформенной стратегии игр с помощью моделей видения и обработки естественного языка

Краткое содержание

arXiv:2511.12937v1 Тип объявления: кросс Аннотация: Автоматическое управление в стратегиях с поддержкой нескольких платформ требует агентов с надежной обобщающей способностью применительно к разнообразным интерфейсам пользователей и динамическим условиям поля боя. Хотя модели видения и языка (VLM) продемонстрировали значительный потенциал в мультимодальном рассуждении, их применение к сложным сценариям взаимодействия человека с компьютером — таким как игровые стратегии — остается практически неизученным. В данной работе мы представляем Yanyun-3 — универсальную агентную архитектуру, впервые обеспечивающую автономное функционирование на трех разнородных игровых платформах для стратегических игр. Путем интеграции возможностей визуального языкового рассуждения Qwen2.5-VL с точной исполнительской мощностью UI-TARS, Yanyun-3 успешно решает ключевые задачи, включая локализацию целей, распределение боевых ресурсов и контроль территории. С помощью систематического анализа методом исключения оцениваем влияние различных комбинаций мультимодальных данных — статичных изображений, последовательностей многофреймовых изображений и видеофайлов — и

Полный текст статьи пока не загружен.