← Вернуться к списку

Бенчмарковый мультимодальный оро-дентальный датасет для крупных моделей видения и языка

Краткое содержание

arXiv:2511.04948v1 Тип объявления: кросс Аннотация: Развитие искусственного интеллекта в стоматологической практике зависит от наличия крупномасштабных мультимодальных наборов данных, отражающих сложность клинической практики. В данной статье мы представляем исчерпывающий мультимодальный датасет, включающий 8775 стоматологических осмотров 4800 пациентов, собранный за восемь лет (с 2018 по 2025 год), возраст которых варьируется от 10 до 90 лет. Датасет содержит 50 тысяч внутриротовидных изображений, 8056 рентгенограмм и детальные текстовые записи, включая диагнозы, планы лечения и отчёты о динамике наблюдения. Данные были собраны согласно стандартным этическим нормам и размечены для бенчмаркинга. Для демонстрации полезности набора данных мы провели тонкую настройку современных моделей видения и обработки естественного языка большого объёма — Qwen-VL 3B и 7B — и оценили их эффективность на двух задачах: классификация шести аномалий полости рта и зубов, а также генерация полных диагностических заключений на основе мультимодального ввода. Мы сравнили настроенные модели с базовыми версиями и моделью GPT-4o.

Полный текст статьи пока не загружен.