Синтетические клинические записи для редких кодов МКБ: фреймворк на основе данных для медицинской кодировки с длинными хвостами

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14112v1 Тип объявления: кросс Аннотация: Автоматическое присвоение кодов МКБ из клинических текстов является критически важной задачей в области медицинской обработки естественного языка (NLP), но она по-прежнему затруднена крайне неравномерным распределением диагностических кодов. Тысячи редких и нулевых кодов МКБ слабо представлены в наборах данных, таких как MIMIC-III, что приводит к низким показателям макро-F1. В данной работе мы предлагаем фреймворк на основе данных, который генерирует высококачественные синтетические выписки для устранения этого дисбаланса. Наш метод формирует реалистичные наборы многоуровневых меток, привязанных к редким кодам, используя реальные паттерны совместного появления, описания МКБ, синонимы, таксономию и аналогичные клинические заметки. С помощью этих структурированных подсказок мы создаем 90 тысяч синтетических записей, охватывающих 7902 кода МКБ, значительно расширяя распределение обучающих данных. Мы дообучаем две современные модели трансформеров — PLM-ICD и GKI-ICD — на исходных и расширенных наборах данных. Эксперименты показывают, что наш подход умеренно улучшает показатель макро-F1, при этом...

Полный текст статьи пока не загружен.

Читать оригинал статьи