MIMIC-\RNum{4}-Ext-22MCTS: Набор данных временных клинических временных рядов с относительной временной меткой объемом 22 миллиона событий для прогнозирования рисков
Краткое содержание
arXiv:2505.00827v2 Тип объявления: замена Аннотация: Ключевым компонентом для прогнозирования клинических рисков является разработка надежной модели прогноза и сбор высококачественных временных рядов клинических событий. В данной работе мы представляем такой набор данных, состоящий из 22 588 586 клинических событий во временной последовательности, который мы называем MIMIC-\RNum{4}-Ext-22MCTS. Исходные данные представляют собой выписные эпикризы, отобранные из хорошо известного, но неструктурированного набора данных MIMIC-IV-Note \cite{Johnson2023-pg}. Общий набор данных MIMIC-IV-Note создает специфические трудности для нашей работы: оказывается, что выписки слишком объемны для обработки типичными моделями естественного языка, а интересующие нас клинические события часто не сопровождаются явными отметками времени. Поэтому мы предлагаем новую структуру, которая работает следующим образом: 1) разбиваем каждый выписной эпикриз на небольшие управляемые текстовые фрагменты; 2) применяем контекстный метод BM25 и контекстный семантический поиск для извлечения фрагментов с высокой вероятностью содержания клинических событий; и 3
Полный текст статьи пока не загружен.