← Вернуться к списку

О калибровке энтропии языковых моделей

Краткое содержание

arXiv:2511.11966v1 Тип публикации: cross Аннотация: Мы исследуем проблему калибровки энтропии, которая заключается в вопросе, соответствует ли энтропия языковой модели на её собственных генерациях её лог-лоссу на человеческих текстах. Предыдущие работы выявили, что модели некорректно откалиброваны: энтропия на шаг возрастает (а качество текста снижается) по мере увеличения длины генераций. Это накопление ошибок является фундаментальной проблемой авторегрессионных моделей, и стандартное решение — усечение распределения, которое улучшает качество текста ценой снижения разнообразия. В данной статье мы задаёмся вопросом: вероятно ли, что некорректная калибровка улучшится с масштабированием модели, и теоретически возможно ли достичь калибровки без компромиссов? Чтобы прояснить суть проблемы, мы сначала исследуем упрощённую теоретическую модель, чтобы охарактеризовать поведение масштабирования некорректной калибровки в зависимости от размера набора данных. Мы обнаруживаем, что поведение при масштабировании зависит от показателя степенного закона распределения данных — в частности, при показателе степенного закона, близком к 1, показатель масштабирования близок к 0, что означа

Полный текст статьи пока не загружен.