Qwen: Qwen3 235B A22B (бесплатный) (qwen/qwen3-235b-a22b)
Краткое содержание
Qwen3-235B-A22B — это модель типа смесь-экспертов (MoE) с параметрами 235 миллиардов, разработанная компанией Qwen, активирующая 22 миллиарда параметров за один проход прямого распространения. Модель поддерживает плавный переход между режимом «размышления», предназначенным для выполнения сложных рассуждений, математических вычислений и программирования, и режимом «без размышления», обеспечивающим эффективность общего общения. Данная модель демонстрирует высокую способность к рассуждениям, поддержку множества языков (более 100 языков и диалектов), продвинутые возможности обработки инструкций и вызова инструментов агента. Она изначально обрабатывает контекстное окно размером до 32 тысяч токенов и расширяется вплоть до 131 тысячи токенов благодаря масштабированию на основе технологии YaRN.
Полный текст статьи пока не загружен.