EXAGREE: Смягчение расхождений в объяснениях с помощью моделей, согласованных со стейкхолдерами

2025-11-18 05:00:00

Краткое содержание

arXiv:2411.01956v2 Тип объявления: replace Аннотация: Противоречивые объяснения, возникающие из-за различий в методах атрибуции или внутренних представлений моделей, ограничивают применение машинного обучения в критически важных для безопасности областях. Мы превращаем это разногласие в преимущество и представляем EXplanation AGREEment (EXAGREE) — двухэтапную структуру, которая выбирает Модель Объяснений, Согласованную с Участниками (Stakeholder-Aligned Explanation Model, SAEM), из набора моделей со схожей производительностью. Отбор максимизирует Соглашение между Участником и Машиной (Stakeholder-Machine Agreement, SMA) — единую метрику, объединяющую достоверность и правдоподобность. EXAGREE сочетает дифференцируемую сеть атрибуции на основе масок (differentiable mask-based attribution network, DMAN) с монотонной дифференцируемой сортировкой, что позволяет осуществлять градиентный поиск внутри ограниченного пространства моделей. Эксперименты на шести наборах реальных данных демонстрируют одновременное улучшение достоверности, правдоподобности и справедливости по сравнению с базовыми методами при сохранении точности решения задачи. Обширные ablation-исследования, проверка статистической значимости и case studies подтверждают робастность и практическую осуществимость предложенного подхода.

Полный текст статьи пока не загружен.

Читать оригинал статьи