DiagramIR: Автоматическая конвейерная система для оценки образовательных математических диаграмм
Краткое содержание
arXiv:2511.08283v1 Тип объявления: новый Аннотация: Большие языковые модели (LLM) всё чаще используются в качестве инструментов для обучения; однако большинство таких инструментов остаются исключительно текстовыми, ограничивая их полезность в областях, где визуализации играют ключевую роль, например, в математике. Последние исследования показывают, что большие языковые модели способны генерировать код, компилируемый в образовательные иллюстрации, но остаётся серьёзная проблема — масштабируемая оценка этих диаграмм. Мы предлагаем решение этой проблемы через DiagramIR — автоматический и масштабируемый конвейер оценки геометрических фигур. Наш подход основан на промежуточных представлениях (IR) кода LaTeX TikZ. Сравнивая наш метод с другими базовыми оценочными подходами, такими как использование самой языковой модели в роли судьи (LLM-as-a-Judge), мы демонстрируем, что наша методика имеет большее согласование с человеческими экспертами. Этот подход также позволяет небольшим моделям вроде GPT-4.1-Mini демонстрировать сопоставимые результаты с большими моделями типа GPT-5 при стоимости вывода в десять раз ниже, что важно для внедрения доступного и масштабируемого образовательного ПО.
Полный текст статьи пока не загружен.