Квен: Квен 2.5 ВЛ 3Б Инструкшн (qwen/qwen2.5-vl-3b-instruct)

2025-03-26 18:42:53

Краткое содержание

Qwen2.5 VL 3B — мультимодальная большая языковая модель (LLM), разработанная командой Qwen, обладающая следующими ключевыми улучшениями: - Современное понимание изображений различных разрешений и пропорций: Qwen2.5-VL демонстрирует передовые результаты на эталонных тестах визуального понимания, включая такие бенчмарки, как MathVista, DocVQA, RealWorldQA, MTVQA и другие. - Агент, способный управлять мобильными устройствами, роботами и пр.: обладая возможностями сложного рассуждения и принятия решений, Qwen2.5-VL интегрируется с такими устройствами, как смартфоны, роботы и др., обеспечивая автоматическое управление на основе анализа окружающей визуальной среды и текстовых инструкций. - Поддержка многоязычности: чтобы обслуживать пользователей по всему миру, помимо английского и китайского языков, Qwen2.5-VL теперь поддерживает распознавание текста внутри изображений на разных языках, включая большинство европейских языков, японский, корейский, арабский, вьетнамский и прочие языки. Для получения дополнительной информации ознакомьтесь сэтим постомв блогеи репозиториемна GitHub. Использование данной модели регулируетсясоглашением Tongyi Qianwen License Agreement.

Полный текст статьи пока не загружен.

Читать оригинал статьи