VoxTell: Универсальная сегментация трехмерных медицинских изображений по произвольному текстовому запросу
Краткое содержание
arXiv:2511.11450v1 Тип объявления: кросс Аннотация: Мы представляем VoxTell — модель видения и языка для сегментации объемных медицинских изображений по текстовым подсказкам. Она сопоставляет произвольные описания, от отдельных слов до полных клинических предложений, с трехмерными масками. Обученная на более чем 62 тысячах КТ-, МРТ- и ПЭТ-изображений объемом свыше 1 тысячи анатомических и патологических классов, VoxTell применяет многоступенчатое слияние визуальных и языковых признаков через слои декодера, обеспечивая согласование текстовых и визуальных характеристик на различных масштабах. Модель демонстрирует передовые результаты нулевого выстрела (zero-shot) по различным модальностям на незнакомых наборах данных, превосходя существующие решения на знакомых понятиях и обобщая знания на родственные ранее невиданные классы. Подробные эксперименты дополнительно подтверждают сильную межмодальную переносимость модели, устойчивость к вариациям естественного языка и клинического жаргона, а также точное сегментирование конкретных объектов на основе реальных текстовых запросов. Код доступен по адресу: https://www.github.com/MIC-DKFZ/VoxTell
Полный текст статьи пока не загружен.