Переосмысление оценки объяснений в рамках схемы переобучения

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.08281v1 Тип объявления: новый Аннотация: Атрибуция признаков приобрела популярность как инструмент объяснения решений моделей, однако оценка качества объяснений остается сложной задачей ввиду отсутствия эталонных объяснений. Для обхода этой проблемы возникла стратегия косвенной оценки, основанная на манипулировании входными данными под руководством объяснений — она измеряет эффективность объяснений через влияние изменений во входных данных на результаты модели в процессе вывода (inference). Несмотря на широкое применение, основной проблемой методов, основанных на выводе, является смещение распределения, вызванное такими манипуляциями, что ставит под сомнение достоверность оценок. Схема, основанная на переобучении, известная как ROAR, решает эту проблему путем адаптации модели к измененному распределению данных. Тем не менее, её результаты часто противоречат теоретическим основам широко используемых объяснителей. В данной работе исследуется этот разрыв между эмпирическими наблюдениями и теоретическими ожиданиями. В частности, мы выявляем проблему знака...

Полный текст статьи пока не загружен.

Читать оригинал статьи