DeepSeek: DeepSeek V3.2 Экспериментальная версия (deepseek/deepseek-v3.2-exp)
Краткое содержание
DeepSeek-V3.2-Exp — экспериментальная крупная языковая модель, выпущенная компанией DeepSeek в качестве промежуточного этапа между версиями V3.1 и будущими архитектурами. В модели представлена технология DeepSeek Sparse Attention (DSA) — тонко настраиваемый механизм разреженного внимания, предназначенный для повышения эффективности обучения и вывода в сценариях с длинными контекстами при сохранении качества выходных данных. Пользователи могут управлять поведением рассуждений через булев параметр `reasoning enabled`. Модель была обучена в условиях, аналогичных версии V3.1-Terminus, чтобы обеспечить возможность прямого сравнения результатов. Тестирование показывает производительность примерно сопоставимую с версией V3.1 в задачах рассуждения, программирования и использования инструментов агентами, с небольшими компромиссами и улучшениями в зависимости от области применения. Данный релиз ориентирован главным образом на проверку архитектурных оптимизаций для увеличения длины контекста, а не на повышение точности выполнения конкретных задач, что делает эту версию преимущественно исследовательской моделью для изучения эффективных конструкций трансформеров.
Полный текст статьи пока не загружен.