[D] Повышение скорости обучения (LR) во время предварительного обучения
Краткое содержание
Я предварительно обучаю языковую модель с 1,5 млрд параметров на 30 млрд токенов. Я уже обработал около 7 млрд токенов, и потеря при обучении всё ещё составляет примерно 3,2. Использую оптимизатор Muon, а мой коэффициент обучения (learning rate) равен примерно 0,008, что сейчас кажется мне причиной преждевременного выхода на плато. Стоит ли резко увеличить LR до 0,012? Также нужно ли пропорционально масштабировать коэффициент обучения для AdamW (сейчас он около 0,006) относительно моего коэффициента обучения в Muon? Размер моей партии — 32 тыс. токенов, я примерно достиг пика значения LR. Наблюдаю снижение потери при обучении примерно на 0,02 каждые 20 тысяч шагов после сглаживания графика в Weights & Biases. Мой датасет тщательно отфильтрован и содержит большое количество высококачественного веб-текста, кода и синтетических данных. Отправлено пользователем /u/New-Skin-5064 [ссылка] [комментарии]
Полный текст статьи пока не загружен.