← Вернуться к списку

Объясняйте с помощью визуальных ключевых точек, как настоящий наставник! Эталон для мультимодального объяснения решений

Краткое содержание

arXiv:2504.03197v4 Тип объявления: замена Аннотация: С быстрым развитием возможностей математического рассуждения в больших языковых моделях (LLM) системы ИИ всё чаще используются в образовательных учреждениях для поддержки понимания учащимися процессов решения задач. Однако критически важный компонент остаётся недостаточно изученным в текущих объяснениях, генерируемых LLM — мультимодальное объяснение. В реальных учебных контекстах человеческие наставники регулярно используют визуальные средства помощи, такие как диаграммы, пометки и выделения, чтобы повысить концептуальную ясность. Чтобы восполнить этот пробел, мы предлагаем задачу мультимодального пояснения решений, предназначенную для оценки способности моделей выявлять ключевые визуальные точки, такие как вспомогательные линии, точки, углы, и создавать объяснения, включающие эти важные элементы, необходимые для понимания. Для оценки производительности моделей на этой задаче мы представляем ME2 — мультимодальный бенчмарк, состоящий из 1000 математических задач, аннотированных ключевыми визуальными элементами и соответствующими пояснениями...

Полный текст статьи пока не загружен.