Трансформер принятия решений с мягким разрешением конфликтов для автономного многозадачного обучения с подкреплением
Краткое содержание
arXiv:2511.13133v1 Тип объявления: новый Аннотация: Многозадачное обучение с подкреплением (MTRL) ставит целью изучение унифицированной политики для разнородных задач, но часто страдает от конфликтов градиентов между задачами. Существующие методы на основе маскирования пытаются смягчить такие конфликты, назначая параметрам задач специализированные маски. Однако наше эмпирическое исследование показывает, что грубые бинарные маски обладают проблемой чрезмерного подавления ключевых конфликтующих параметров, препятствуя обмену знаниями между задачами. Более того, разные задачи демонстрируют различный уровень конфликтности, однако существующие методы используют универсальную стратегию фиксированной разреженности для сохранения стабильности обучения и производительности, что оказывается неадекватным. Эти ограничения препятствуют обобщающей способности и эффективности обучения модели. Для решения этих проблем мы предлагаем SoCo-DT — метод мягкого разрешения конфликтов на основе важности параметров. Используя информацию Фишера, значения маски динамически корректируются, чтобы сохранять важные параметры, одновременно подавляя конфликтующие.
Полный текст статьи пока не загружен.