TCM-5CEval: Расширенный глубокий оценочный бенчмарк для комплексной оценки способностей больших языковых моделей (LLM) в проведении клинических исследований традиционной китайской медицины

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13169v1 Тип объявления: новый Аннотация: Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в общих областях, однако их применение в высокоспециализированных и культурно насыщенных сферах, таких как традиционная китайская медицина (ТКМ), требует тщательной и детальной оценки. Опираясь на предшествующие фундаментальные исследования, такие как TCM-3CEval, выявившие систематические пробелы в знаниях и важность культурного контекстуального соответствия, мы представляем TCM-5CEval — более детализированный и всесторонний бенчмарк. TCM-5CEval предназначен для оценки LLM по пяти критическим направлениям: (1) Базовые знания (TCM-Exam), (2) Классическая грамотность (TCM-LitQA), (3) Принятие клинических решений (TCM-MRCD), (4) Китайские лекарственные средства растительного происхождения (TCM-CMM) и (5) Клиническая немедикаментозная терапия (TCM-ClinNPT). Мы провели исчерпывающую оценку пятнадцати ведущих LLM, выявив значительные различия в производительности и определив наиболее эффективные модели, такие как deepseek_r1 и gemini_2_5_pro. Наши результаты показывают...

Полный текст статьи пока не загружен.

Читать оригинал статьи