Увидь это. Скажи это. Готово: агентная система для композиционного построения диаграмм
Краткое содержание
arXiv:2508.15222v2 Тип объявления: замена-перекрёстная Аннотация: Мы исследуем преобразование набросков в диаграммы: перевод грубых рукописных эскизов в точные составные диаграммы. Модели диффузии превосходят другие модели по фотореализму, однако испытывают трудности с пространственной точностью, выравниванием и символической структурой, необходимыми для блок-схем. Мы представляем систему See it. Say it. Sorted., агентную систему без предварительного обучения, объединяющую визуально-языковую модель (VLM) с большими языковыми моделями (LLM) для создания редактируемых масштабируемых векторных графических (SVG) программ. Система реализует итерационный цикл, в ходе которого критикующая VLM предлагает небольшой набор качественных реляционных правок; несколько кандидатных LLM синтезируют обновления SVG различными стратегиями (от консервативной до агрессивной, альтернативной, целевой); судья VLM выбирает наилучшего кандидата, обеспечивая стабильное улучшение. Эта архитектура делает акцент на качественном рассуждении, а не на хрупких числовых оценках, сохраняет глобальные ограничения (например, выравнивание, связность) и естественным образом поддерживает взаимодействие человека в цикле.
Полный текст статьи пока не загружен.