3DAlign-DAER: Динамическая политика внимания и эффективная стратегия поиска для тонкого выравнивания трехмерных объектов и текста в больших масштабах
Краткое содержание
arXiv:2511.13211v1 Тип объявления: новый Аннотация: Несмотря на недавние достижения в области выравнивания между текстом и трехмерной геометрией, существующие передовые методы всё ещё испытывают трудности с согласованием тонких семантических аспектов текста с детализированными геометрическими структурами, причем их производительность значительно ухудшается при масштабировании до крупных трёхмерных баз данных. Для преодоления данного ограничения мы предлагаем 3DAlign-DAER — унифицированную архитектуру, предназначенную для согласования текста и 3D-геометрии посредством предложенной динамической политики внимания и эффективной стратегии поиска, позволяющей выявлять тонкие соответствия для различных кросс-модальных задач поиска и классификации. В частности, во время обучения наша предложенная динамическая политика внимания (DAP) применяет модуль иерархического объединения внимания (HAF), который представляет процесс согласования в виде изучаемых тонко настроенных соответствий типа токен-точка. Чтобы оптимизировать эти соответствия для разных задач и уровней геометрии, наш подход DAP дополнительно использует метод поиска Монте-Карло по дереву для динамического калибрования модулей HAF...
Полный текст статьи пока не загружен.