← Вернуться к списку

Диффузия как само-дистилляция: энд-ту-энд латентная диффузия в одной модели

Краткое содержание

arXiv:2511.14716v1 Тип объявления: новый Аннотация: Стандартные модели скрытой диффузии полагаются на сложную трехкомпонентную архитектуру, состоящую из отдельного кодировщика, декодера и сети диффузии, которые обучаются в несколько этапов. Такой модульный подход вычислительно неэффективен, приводит к субоптимальной производительности и препятствует объединению моделей диффузии с односетевыми архитектурами, широко используемыми в моделях компьютерного зрения. Наша цель — объединить эти три компонента в единую сеть, обучаемую от начала до конца. Сначала мы показываем, что простой совместный подход к обучению катастрофически проваливается из-за «коллапса латентных признаков», при котором целевая функция обучения диффузии мешает сети научиться хорошей латентной репрезентации. Мы выявляем коренные причины этой нестабильности, проводя новую аналогию между диффузией и методом само-дистилляции для неуправляемого обучения. На основе этого понимания мы предлагаем метод Диффузия как Само-Дистилляция (DSD) — новую структуру со значительными модификациями...

Полный текст статьи пока не загружен.