UHKD: Единая структура для гетерогенного переноса знаний через представления в частотной области
Краткое содержание
arXiv:2510.24116v2 Тип объявления: замена Аннотация: Дистилляция знаний (Knowledge Distillation — KD) представляет собой эффективную технику сжатия моделей, позволяющую передавать знания от высокопроизводительной модели-учителя компактной ученической модели, снижая вычислительные затраты и требования к памяти при сохранении высокой точности. Однако большинство существующих методов дистилляции ориентированы на однородные архитектуры и плохо справляются с гетерогенными моделями, особенно когда речь идет о промежуточных представлениях. Семантические различия между архитектурами препятствуют эффективному использованию промежуточных признаков учителя, тогда как предыдущие исследования гетерогенной дистилляции сосредоточены главным образом на пространстве логитов, недостаточно используя богатую семантику промежуточных слоев. Для решения этой проблемы предлагается метод унифицированной гетерогенной дистилляции знаний (Unified Heterogeneous Knowledge Distillation — UHKD), который применяет признаки промежуточных слоёв в частотной области для передачи знаний между различными архитектурами. Представления в частотной области позволяют извлекать глобальные семантические знания и уменьшают...
Полный текст статьи пока не загружен.