Оценка автоматической проверки фактов в ответах медицинских языковых моделей с использованием графов знаний
Краткое содержание
arXiv:2511.12817v1 Тип объявления: новый Аннотация: Недавнее распространение больших языковых моделей (LLM) открывает потенциал для революции в здравоохранении, демонстрируя мощные возможности в решении разнообразных медицинских задач. Однако развертывание LLM в высокорисковых медицинских условиях требует тщательной верификации и валидации для понимания любых потенциальных рисков. В данной статье исследуются надежность и целесообразность использования медицинских графов знаний (KG) для автоматической оценки фактической точности ответов, сгенерированных LLM. В качестве основы для этого исследования представлен FAITH — фреймворк, предназначенный для систематического анализа сильных и слабых сторон данного подхода на основе KG. FAITH работает без эталонных ответов, декомпозируя ответы на атомарные утверждения, связывая их с медицинским графом знаний и оценивая их на основе путей доказательств. Эксперименты на разнообразных медицинских задачах с субъективными человеческими оценками показывают, что оценка на основе графов знаний достигает значительно более высокой корреляции с суждениями клиницистов и может э
Полный текст статьи пока не загружен.