Справедливая оценка значимости документов в сводках больших языковых моделей через значения Шепли

2025-11-10 05:00:00

Краткое содержание

arXiv:2505.23842v3 Тип объявления: замена Аннотация: Большие языковые модели (LLM) всё чаще используются в системах, извлекающих и обобщающих контент из множества источников, таких как поисковые системы и виртуальные помощники. Хотя такие системы улучшают пользовательский опыт благодаря связным сводкам, они скрывают индивидуальные вклады авторов исходного контента, вызывая озабоченность вопросами признания авторства и компенсации. Мы предлагаем решение проблемы оценки отдельных документов, используемых в итоговых сводках, созданных большими языковыми моделями, путём разработки фреймворка справедливой оценки документов на основе значения Шепли. Несмотря на теоретическую привлекательность точного вычисления значений Шепли, оно становится чрезмерно дорогим при масштабировании. Для повышения эффективности мы разработали метод Cluster Shapley — простой алгоритм аппроксимации, использующий семантическое сходство между документами для снижения вычислительных затрат при сохранении точности атрибуции. Используя данные отзывов покупателей Amazon, мы эмпирически показали, что стандартные приближённые методы вычисления значений Шепли, такие как Монте-Карло...

Полный текст статьи пока не загружен.

Читать оригинал статьи