Текст о роботизированной сборке многокомпонентных объектов с использованием трехмерного генеративного ИИ и моделей зрения-языка

2025-11-10 05:00:00

Краткое содержание

arXiv:2511.02162v2 Тип объявления: замена-перекрёстная публикация Аннотация: Достижения в области трёхмерной генеративной ИИ-технологии позволили создавать физические объекты по текстовым описаниям, однако остаются проблемы при создании объектов, состоящих из нескольких типов компонентов. Мы представляем конвейерную систему, объединяющую 3D генеративный ИИ с моделями видения и языка (VLM), позволяющими роботизированному сборщику собирать многокомпонентные объекты на основе естественного языка. Наш подход задействует модели VLM для нулевого выстрела (zero-shot), мультимодального анализа геометрии и функциональности объекта, чтобы разлагать генерируемые ИИ сетки на многокомпонентные 3D-модели, используя предварительно определённые структурные и панельные компоненты. Мы демонстрируем способность VLM определять, какие регионы сеток требуют добавления панелей помимо структурных элементов, основываясь на геометрии и функциях объекта. Оценка результатов тестирования показывает, что пользователи предпочитали назначения компонент, произведённые моделью VLM, в 90,6% случаев, тогда как правила назначений выбирались лишь в 59,4%, а случайное назначение — всего в 2,5%. Наконец, система позволяет пользователям...

Полный текст статьи пока не загружен.

Читать оригинал статьи