Диффузионная дуальность
Краткое содержание
arXiv:2506.10892v3 Тип объявления: замена Аннотация: Модели дискретной диффузии с равномерным состоянием обещают быструю генерацию текста благодаря своей способности к самокоррекции. Однако они обычно уступают авторегрессионным моделям и моделям маскированной диффузии. В данной работе мы сужаем этот разрыв в производительности, используя ключевое наблюдение: диффузионные процессы с равномерным состоянием естественным образом возникают из лежащей в основе гауссовой диффузии. Наш метод Duo переносит мощные техники из гауссовой диффузии для улучшения как обучения, так и выборки. Во-первых, мы вводим стратегию обучения по кривой, направляемую гауссовым процессом, которая удваивает скорость обучения за счет уменьшения дисперсии. Модели, обученные по кривой, превосходят авторегрессионные модели в zero-shot перплексии на 3 из 7 бенчмарков. Во-вторых, мы представляем Дистилляцию дискретной консистентности, которая адаптирует дистилляцию консистентности из непрерывной среды в дискретную. Этот алгоритм открывает возможность генерации за несколько шагов в языковых моделях диффузии.
Полный текст статьи пока не загружен.