EvoLM: В поисках утраченной динамики обучения языковых моделей
Краткое содержание
arXiv:2506.16029v2 Тип объявления: замена-перекрёстная публикация Аннотация: Обучение современных языковых моделей (LM) разделено на несколько этапов, что затрудняет для разработчиков оценку влияния проектных решений, принятых на каждом этапе. Мы представляем EvoLM — модельный набор, который позволяет проводить систематический и прозрачный анализ динамики обучения LM в ходе предобучения, продолженного предобучения, контролируемой тонкой настройки и обучения с подкреплением. Мы обучили более 100 языковых моделей с параметрами от 1 до 4 миллиардов параметров с нуля и оценили как их исходные возможности (языковое моделирование), так и конечные способности (решение задач), включая аспекты внутридоменной и внедоменной обобщаемости. Ключевые выводы подчеркивают убывающую отдачу от чрезмерного предобучения и пост-обучения, важность и методы смягчения забывания при доменно-специфическом продолженном предобучении, ключевую роль продолженного предобучения в соединении фаз предобучения и пост-обучения, а также различные сложные компромиссы.
Полный текст статьи пока не загружен.