FractalBench: Диагностика визуально-математического рассуждения через синтез рекурсивных программ

2025-11-11 05:00:00

Краткое содержание

arXiv:2511.06522v1 Тип объявления: кросс Аннотация: Математическое рассуждение требует абстрагирования символических правил из визуальных паттернов — вывода бесконечного из конечного. Мы исследуем наличие этой способности у мультимодальных ИИ-систем через FractalBench — бенчмарк, оценивающий синтез фрактальных программ по изображениям. Фракталы представляют собой идеальные тестовые случаи: системы итерационных функций всего лишь несколькими контракционными отображениями генерируют сложные самоподобные узоры посредством простых рекурсивных правил, вынуждая модели связывать зрительное восприятие с математической абстракцией. Мы оцениваем четыре ведущих мультиязыковых больших языко-модели (MLLM): GPT-4o, Claude 3.7 Sonnet, Gemini 2.5 Flash и Qwen 2.5-VL на примере 12 канонических фракталов. Моделям необходимо создавать исполняемый код на Python, воспроизводящий заданный фрактал, что позволяет объективную оценку результатов. Результаты показывают поразительный разрыв: 76 % моделей генерируют синтаксически корректный код, однако лишь 4 % способны уловить математическую структуру. Успех варьируется систематическим образом — модели успешно справляются с геометрическими преобразованиями (Кривая Коха: 1

Полный текст статьи пока не загружен.

Читать оригинал статьи