← Вернуться к списку

Масштабирование латентного рассуждения посредством циклических языковых моделей

Краткое содержание

arXiv:2510.25741v3 Тип объявления: замена Аннотация: Современные большие языковые модели (LLM) обучаются «думать», главным образом через явную генерацию текста, такую как цепочка рассуждений (chain-of-thought — CoT), что откладывает процесс рассуждения до постобучающего этапа и недостаточно эффективно использует данные предобучающей стадии. Мы представляем и публикуем исходный код Ouro, названный в честь рекурсивного символа Уроборос, семейство предварительно обученных моделей циклических языков (Looped Language Model — LoopLM), которые интегрируют процессы рассуждения непосредственно в фазу предварительного обучения посредством (i) итерационных вычислений в латентном пространстве, (ii) энтропийно-регуляризованной цели для распределения глубины обучения и (iii) масштабирования до 7,7 триллионов токенов. Модели Ouro размером 1,4 млрд и 2,6 млрд параметров демонстрируют превосходящие результаты, сопоставимые с показателями лучших современных LLM объёмом до 12 млрд параметров по широкому спектру эталонных тестов. В ходе контролируемых экспериментов мы показываем, что данное преимущество обусловлено не увеличением емкости знаний, а улучшенными возможностями управления знаниями. Мы также демонстрируем, что подход LoopLM обеспечивает следы рассуждений, лучше согласующиеся с конечными выходными результатами, нежели явная схема CoT. Мы надеемся, что наши результаты продемонстрируют потенциал...

Полный текст статьи пока не загружен.