DeepSeek: DeepSeek V3.1 (бесплатная версия) (deepseek/deepseek-chat-v3.1)
Краткое содержание
DeepSeek-V3.1 — это крупная гибридная модель рассуждений (671 млрд параметров, 37 млрд активных), поддерживающая режимы как с элементами рассуждения, так и без них через шаблоны подсказок. Модель расширяет возможности базового варианта DeepSeek-V3 благодаря двухфазному процессу обучения с длинной контекстной памятью до 128К токенов и использует микрошкалирование формата FP8 для эффективного вывода результатов. Пользователи могут управлять поведением модели рассуждений с помощью булевого параметра `reasoning enabled`. Модель улучшает использование инструментов, генерацию кода и эффективность рассуждений, достигая производительности сопоставимой с моделью DeepSeek-R1 на сложных эталонных тестах при более быстром отклике. Она поддерживает структурированные вызовы инструментов, агентов кодирования и поисковых агентов, что делает её подходящей для исследовательских работ, программирования и агентных рабочих процессов. Эта модель является преемником модели DeepSeek V3-0324 и демонстрирует хорошие результаты на различных типах задач.
Полный текст статьи пока не загружен.