Могут ли большие языковые модели функционировать в качестве квалифицированных педиатров? Систематическая оценка в реальных клинических условиях
Краткое содержание
arXiv:2511.13381v1 Тип объявления: новый Аннотация: В связи с быстрым ростом больших языковых моделей (LLM) в медицине возникает ключевой вопрос — способны ли они функционировать в качестве компетентных педиатров в реальных клинических условиях. Мы разработали PEDIASBench — систематический оценочный фреймворк, основанный на знаниево-системной парадигме и адаптированный к реалистичным клиническим средам. PEDIASBench оценивает LLM-модели по трем направлениям: применение базовых знаний, динамическая способность диагностики и лечения, а также безопасность педиатрической медицины и медицинская этика. Были протестированы 12 репрезентативных моделей, выпущенных за последние два года, включая GPT-4o, Qwen3-235B-A22B и DeepSeek-V3, охватывающих 19 педиатрических субспециальностей и 211 прототипичных заболеваний. Современные модели показали хорошие результаты по основополагающим знаниям, где точность Qwen3-235B-A22B превысила 90% на вопросах уровня лицензирования, однако производительность снизилась примерно на 15%, когда сложность задач возрастала, выявив ограничения в сложном рассуждении. Вопросы с множественным выбором
Полный текст статьи пока не загружен.