NVIDIA: Ллама 3.1 Немотрон Ультра 253Б v1 (nvidia/llama-3.1-nemotron-ultra-253b-v1)
Краткое содержание
Llama-3.1-Nemotron-Ultra-253B-v1 — это крупная языковая модель (LLM), оптимизированная для продвинутого рассуждения, интерактивного общения с человеком, генерации с использованием поиска по данным (RAG) и выполнения инструментальных запросов. Модель разработана на основе Meta Llama-3.1-405B-Instruct и значительно доработана с помощью метода поиска нейронной архитектуры (Neural Architecture Search, NAS). В результате удалось повысить эффективность модели, снизить потребление памяти и улучшить латентность вывода. Поддерживается контекст длиной до 128К токенов, а также эффективная работа на узле с восемью графическими процессорами NVIDIA H100. Примечание: чтобы включить режим рассуждений, обязательно укажите фразу «подробное размышление над» в подсказке системы. Дополнительную информацию см. в разделе«Рекомендации по использованию».
Полный текст статьи пока не загружен.