← Вернуться к списку

H-LDM: Иерархические латентные диффузионные модели для контролируемого и интерпретируемого синтеза процедурно генерируемых данных (PCG) на основе клинических метаданных

Краткое содержание

arXiv:2511.14312v1 Тип объявления: кросс Аннотация: Анализ фонокардиограммы (ФКГ) имеет ключевое значение для диагностики сердечно-сосудистых заболеваний, однако нехватка размеченных патологических данных ограничивает возможности систем искусственного интеллекта. Для преодоления этого ограничения мы представляем модель H-LDM — иерархическую латентную диффузионную модель для генерации клинически точных и контролируемых ФКГ-сигналов из структурированных метаданных. Наш подход включает в себя следующие особенности: (1) многоуровневый вариационный автокодировщик (VAE), который обучается на физиологически разделённом латентном пространстве, отделяя ритм, сердечные тоны и шумы; (2) иерархический конвейер преобразования текста в биосигнал, использующий богатые клинические метаданные для тонкого управления по 17 различным состояниям; а также (3) интерпретируемый процесс диффузии, направляемый новым модулем медицинского внимания. Эксперименты на наборе данных PhysioNet CirCor демонстрируют передовые результаты, достигая показателя расстояния Фреше по аудио равного 9.7, оценки разделения атрибутов 92%, и подтверждённой кардиологами клинической достоверности на уровне 87.1%. Дополнение диагностических подходов с использованием...

Полный текст статьи пока не загружен.