Означает ли больший — лучший? Сравнительный анализ свёрточных нейронных сетей (CNN) и биомедицинских моделей видения естественного языка (VLM) в медицинской диагностике

2025-11-18 05:00:00

Краткое содержание

arXiv:2510.00411v3 Тип объявления: замена Аннотация: Точная интерпретация рентгенограмм грудной клетки с использованием автоматизированных методов является критически важной задачей медицинской визуализации. В данной статье представлен сравнительный анализ контролируемого легкого свёрточного нейронного сети (CNN) и передового медицинского модели видения-речи (VLM) нулевого выстрела — BiomedCLIP — применительно к двум различным диагностическим задачам: обнаружение пневмонии на эталонной выборке PneumoniaMNIST и выявление туберкулёза на наборе данных Shenzhen TB. Наши эксперименты показывают, что контролируемые CNN демонстрируют высокую конкурентоспособность базовых решений в обоих случаях. Хотя производительность VLM в режиме нулевого выстрела изначально ниже, мы демонстрируем, что её потенциал может быть раскрыт простым, но важным способом: калибровкой порога принятия решения. Оптимизация классификационного порога на проверочном наборе значительно повышает эффективность BiomedCLIP на обеих базах данных. Для обнаружения пневмонии калибровка позволяет модели нулевого выстрела VLM достичь превосходства

Полный текст статьи пока не загружен.

Читать оригинал статьи