MedFact: Оценка возможностей проверки фактов больших языковых моделей на китайских медицинских текстах
Краткое содержание
arXiv:2509.12440v2 Тип объявления: замена Аннотация: Развертывание больших языковых моделей (LLM) в медицинских приложениях требует возможностей проверки фактов для обеспечения безопасности пациентов и соблюдения нормативных требований. Мы представляем MedFact — сложную китайскую эталонную систему медицинской проверки фактов, включающую 2116 экспертно аннотированных примеров из различных реальных текстов, охватывающих 13 специальностей, 8 типов ошибок, 4 стиля написания и 5 уровней сложности. Построение системы осуществляется с использованием гибридной ИИ-человеческой архитектуры, где итеративная обратная связь экспертов уточняет критерии фильтрации, управляемые искусственным интеллектом, обеспечивая высокое качество и сложность набора данных. Мы оцениваем 20 ведущих LLM-моделей по классификации достоверности и локализации ошибок, результаты показывают, что модели часто определяют наличие ошибок в тексте, но испытывают трудности с точной локализацией, причем показатели лучших исполнителей уступают человеческим результатам. Наш анализ выявляет явление "чрезмерной критики", склонность моделей ошибочно идентифицировать правильную информацию как ошибочную, которое может усугубляться продвинутым рассуждением.
Полный текст статьи пока не загружен.