Orion: Единый визуальный агент для мультимодального восприятия, продвинутого визуального анализа и выполнения задач

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14210v1 Тип объявления: кросс Аннотация: Мы представляем Orion — фреймворк визуального агента, способный принимать и генерировать данные в любом модальном формате. Используя агентную архитектуру с возможностью вызова нескольких инструментов, Orion предназначен для выполнения задач искусственного интеллекта на основе изображений и демонстрирует результаты мирового уровня. В отличие от традиционных моделей видения-языка, которые генерируют описательные выходные данные, Orion координирует набор специализированных инструментов компьютерного зрения, включая обнаружение объектов, локализацию ключевых точек, паноптическую сегментацию, оптическое распознавание символов (OCR) и геометрический анализ, что позволяет выполнять сложные многоэтапные визуальные рабочие процессы. Система показывает конкурентоспособные результаты на наборах данных MMMU, MMBench, DocVQA и MMLongBench, расширяя возможности монолитных моделей видения-языка до промышленного уровня визуальной аналитики. Комбинируя нейронное восприятие с символическим исполнением, Orion обеспечивает автономное визуальное рассуждение, знаменуя переход от пассивного понимания визуальных данных к активному интеллектуальному восприятию, управляемому инструментами.

Полный текст статьи пока не загружен.

Читать оригинал статьи