MicroVQA++: Высококачественный набор данных микроскопического анализа с графами слабого надзора для мультимодальных больших языковых моделей

2025-11-17 05:00:00

Краткое содержание

arXiv:2511.11407v1 Тип объявления: новый Аннотация: Многомодальные большие языковые модели всё чаще применяются в биомедицинской визуализации, однако научное обоснование для микроскопии ограничено нехваткой крупномасштабных высококачественных наборов тренировочных данных. Мы представляем MicroVQA++, трёхэтапный масштабный и качественный корпус вопросов и ответов по данным микроскопии, полученный из архива BIOMEDICA. Первый этап включает начальное обучение на основе экспертно проверенных пар рисунок-подпись, взятых из рецензируемых статей. Второй этап применяет HiCQA-Graph — новую гетерогенную графовую структуру над изображениями, подписями и вопросами-ответами, объединяя вывод текста на основе естественного языкового вывода (NLI), сопоставление зрения и языка на основе CLIP и сигналы агента для выявления и фильтрации несогласованных образцов. Третий этап предусматривает использование многомодального большого языкового агента (MLLM) для генерации вопросов с множественным выбором (MCQ), после чего проводится проверка человеком. Итоговый релиз содержит большой раздел для тренировки и проверенный людьми тестовый раздел, распределение сложных выборок которого по уровням Блума превышает показатели Mi

Полный текст статьи пока не загружен.

Читать оригинал статьи