К ресурсоэффективному мультимодальному интеллекту: обучение маршрутизации между специализированными экспертными моделями
Краткое содержание
arXiv:2511.06441v1 Тип объявления: кросс Аннотация: По мере того как ИИ выходит за пределы обработки текста, большие языковые модели (LLM) всё чаще используются для решения задач компьютерного зрения, анализа аудиоданных и понимания документов; однако высокая стоимость вычислений препятствует их применению в режиме реального времени и масштабируемости. Напротив, меньшие по размеру модели с открытым исходным кодом обладают преимуществами по стоимости, но испытывают трудности с обработкой сложных или мультимодальных запросов. Мы предлагаем унифицированную модульную архитектуру, которая интеллектуально направляет каждый запрос — будь то текстовый, мультимодальный или сложный — к наиболее подходящей экспертной модели, используя обученную сеть маршрутизации, балансирующую затраты и качество. Для визуальных задач мы применяем двухэтапный открытый конвейер, оптимизированный для эффективности и использующий эффективные классические компоненты компьютерного зрения там, где они остаются лучшими подходами для отдельных подзадач. В тестовых наборах, таких как Массивное многоцелевое понимание языка (MMLU) и Ответы на визуальные вопросы (VQA), наша система достигает или превосходит производительность монотонных премиальных LLM-систем (с одной моделью, обслуживающей все типы запросов), одновременно снижая зависимость от дорогостоящих решений.
Полный текст статьи пока не загружен.