Обнаружение редких геномных подтипов по данным РНК-секвенирования с использованием автоэнкодерных эмбеддингов и кластеризации с учетом стабильности

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13705v1 Тип: новая статья Аннотация: Необучение на многомерных данных RNA-seq позволяет выявить молекулярные подтипы, выходящие за рамки стандартных классификаций. Мы объединяем представление на основе автоэнкодера с кластеризацией и анализом устойчивости для поиска редких, но воспроизводимых геномных подтипов. На наборе данных UCI "Gene Expression Cancer RNA-Seq" (801 образец, 20 531 ген; BRCA, COAD, KIRC, LUAD, PRAD) пан-канцерный анализ показывает, что кластеры практически идеально соответствуют ткани происхождения (φ Крамера = 0,887), что служит отрицательным контролем. Поэтому мы переформулируем задачу в рамках KIRC (n = 146): выбираем 2000 наиболее вариабельных генов, стандартизируем их, обучаем прямой автоэнкодер (128-мерное латентное пространство) и запускаем k-средних для k = 2-10. Хотя глобальные индексы предпочитают малые k, сканирование k по заранее заданному правилу обнаружения (редкий < 10% и устойчивый с индексом Жаккара >= 0,60 по 20 сидам после венгерского выравнивания) дает простое решение при k = 5 (силуэт = 0,129, DBI =

Полный текст статьи пока не загружен.

Читать оригинал статьи