Динамический планировщик температуры для дистилляции знаний
Краткое содержание
arXiv:2511.13767v1 Тип объявления: кросс Аннотация: Метод дистилляции знаний (Knowledge Distillation, KD) обучает меньшую модель ученика с использованием большой предварительно обученной модели учителя, при этом температура является ключевым гиперпараметром, контролирующим "мягкость" выходных вероятностей. Традиционные методы используют фиксированную температуру на протяжении всего процесса обучения, что не оптимально. Более того, архитектурные различия между учителем и учеником часто приводят к рассогласованию величин логитов. Мы показываем, что ученики выигрывают от более мягких вероятностей в начале обучения, но требуют более четких вероятностей на поздних этапах. Мы предлагаем динамический планировщик температуры (Dynamic Temperature Scheduler, DTS), который динамически регулирует температуру на основе разницы потерь перекрестной энтропии между учителем и учеником. Насколько нам известно, это первый метод планирования температуры, адаптирующийся на основании расхождения распределений учителя и ученика. Наш подход легко интегрируется с существующими фреймворками KD. Мы проверяем эффективность DTS для различных стратегий KD на задачах компьютерного зрения (CIFAR-100, Ti
Полный текст статьи пока не загружен.