Большие наборы данных можно повторять чаще: теоретический анализ масштабирования с множественными эпохами в линейной регрессии

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13421v1 Тип объявления: новый Аннотация: Хотя законы масштабирования данных больших языковых моделей (LLM) были широко изучены в режиме однократного прохода на массивных корпусах, их вид в условиях ограниченных данных и повторяющихся эпох остается в значительной степени неисследованным. В данной статье представлен теоретический анализ того, как распространенный обходной путь — обучение в течение нескольких эпох на одном и том же наборе данных — изменяет законы масштабирования данных в линейной регрессии. Конкретно мы задаемся вопросом: чтобы достичь производительности обучения на наборе данных размера $N$ за $K$ эпох, насколько больше должен быть набор данных, если модель обучается только за один проход? Мы количественно определяем это с помощью \textit{коэффициента эффективного повторного использования} данных, $E(K, N)$, который мы определяем как мультипликативный коэффициент, на который должен вырасти набор данных при обучении за один проход, чтобы достичь той же тестовой ошибки, что и при обучении за $K$ эпох. Наш анализ точно характеризует поведение масштабирования $E(K, N)$ для SGD в линейной регрессии либо в условиях строгой выпуклости, либо для данных с распределением Ципфа: (1) Ког

Полный текст статьи пока не загружен.

Читать оригинал статьи