NVIDIA: Ллама 3.3 Немотрон Супер 49B версия 1.5 (nvidia/llama-3.3-nemotron-super-49b-v1.5)

2025-10-10 13:03:15

Краткое содержание

Llama-3.3-Nemotron-Super-49B-v1.5 — это языковая модель с 49 миллиардами параметров, ориентированная преимущественно на английский язык, предназначенная для рассуждений и диалоговых взаимодействий, созданная на основе модели Meta Llama-3.3-70B-Instruct с контекстом длиной до 128К токенов. Модель дополнительно обучена для агентских рабочих процессов (извлечение знаний из документов RAG, вызовы инструментов) методом тонкой настройки (SFT) через области математики, программирования, науки и многошагового диалога, после чего прошла несколько этапов оптимизации с помощью методов подкрепляющего обучения: оптимизация предпочтений с учетом вознаграждения (Reward-aware Preference Optimization, RPO) для выравнивания поведения модели, обучение с подкреплением на верифицируемых наградах (Reinforcement Learning with Verifiable Rewards, RLVR) для пошагового рассуждения и итерационная оптимизация плотности распределения (DPO) для улучшения работы с инструментами. Нейроархитектурный поиск, основанный на дистилляции («Puzzler»), заменяет некоторые блоки внимания и варьирует ширину полносвязных слоев (FFN), уменьшая объем памяти и повышая пропускную способность, что позволяет развернуть модель на одном GPU (H100/H200), сохранив качество выполнения инструкций и цепочку рассуждений (Chain-of-Thought). Во внутренних оценочных тестах (NeMo Skills, до 16 прогонов, температура = 0.6, top-p = 0.95) модель демонстрирует высокие результаты в задачах рассуждений и кодирования, такие как: MATH500 Pass@1 = 97,4%, AIME-2024 = 87,5%, AIME-2025 = 82,71%, GPQA = 71,97%, LiveCodeBench (с октября 2024 г. по февраль 2025 г.) = 73,58% и MMLU-Pro (цепочка рассуждений) =

Полный текст статьи пока не загружен.

Читать оригинал статьи