LLM4SCREENLIT: Рекомендации по оценке производительности больших языковых моделей для отбора литературы в систематических обзорах
Краткое содержание
arXiv:2511.12635v1 Тип объявления: cross Аннотация: Контекст: Большие языковые модели (LLM) выпускаются быстрее, чем пользователи способны их тщательно оценить. Когда LLM лежат в основе исследований, таких как поиск релевантной литературы для систематических обзоров (СО), необходима надежная эмпирическая оценка. Цель: Мы определяем и обсуждаем ключевые проблемы в оценке производительности LLM для отбора релевантной литературы, выявляем хорошие практики (оценки) и предлагаем рекомендации. Метод: Используя в качестве примера недавнее крупномасштабное исследование, мы выявляем проблемы с использованием традиционных метрик для оценки производительности инструментов на основе генеративного ИИ для поиска релевантной литературы в СО. Мы проанализировали 27 дополнительных статей, исследующих эту проблему, извлекли используемые метрики производительности и обнаружили как хорошие практики, так и повсеместные проблемы, особенно с использованием и отчетностью о метриках производительности для скрининга в СО. Результаты: Основные недостатки включали: i) неиспользование метрик, устойчивых к дисбала
Полный текст статьи пока не загружен.