NVIDIA: Немотрон-4 340Б Инструкшен (nvidia/nemotron-4-340b-instruct)
Краткое содержание
Nemotron-4-340B-Instruct — англоязычная диалоговая модель, оптимизированная для генерации синтетических данных. Эта большая языковая модель (LLM) представляет собой дообученную версию базовой модели Nemotron-4-340B-Base, предназначенной для одношаговых и многошаговых сценариев общения с контекстной длиной 4096 токенов. Базовая модель предварительно обучалась на 9 триллионах токенов разнообразного англоязычного текста, свыше 50 естественных языков и около 40 языков программирования. Инструктивная модель прошла дополнительные этапы выравнивания: 1. Надзорное дообучение (Supervised Fine-Tuning, SFT); 2. Прямая оптимизация предпочтений (Direct Preference Optimization, DPO); 3. Оптимизиция предпочтений с учетом вознаграждения (Reward-Aware Preference Optimization, RPO). Процесс выравнивания использовал примерно 20 тысяч образцов, размеченных людьми, тогда как 98% данных для дообучения были синтезированы искусственно. Подробную информацию о конвейере синтеза данных можно найти в техническом отчёте.
Полный текст статьи пока не загружен.