← Вернуться к списку

Databricks: DBRX 132B Инструктаж (databricks/dbrx-instruct)

Краткое содержание

DBRX — новая открытая большая языковая модель, разработанная компанией Databricks. С размером в 132 миллиарда параметров она превосходит существующие открытые большие языковые модели, такие как Llama 2 (70 млрд параметров) и Mixtral-8×7B, по стандартным отраслевым бенчмаркам оценки понимания языка, программирования, математики и логики. Модель построена на основе архитектуры тонкой смеси экспертов (fine-grained Mixture-of-Experts). В любой момент активна лишь треть её параметров — всего 36 миллиардов. Предварительное обучение проводилось на наборе данных объёмом 12 триллионов токенов текста и программного кода. По сравнению с другими открытыми моделями типа MoE, такими как Mixtral-8×7B и Grok-1, архитектура DBRX является тонко настроенной: она задействует большее количество мелких экспертов. Ознакомьтесь с объявлением о запуске и результатами тестов здесь. #moe

Полный текст статьи пока не загружен.