Сегментация 3D-возможностей с учетом задачи на основе 2D-руководства и геометрического уточнения

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.11702v1 Тип: новая работа Аннотация: Понимание аффордансов на уровне 3D-сцен из инструкций на естественном языке крайне важно для того, чтобы воплощённые агенты могли осмысленно взаимодействовать в сложных средах. Однако эта задача остаётся сложной из-за необходимости семантического анализа и пространственной привязки. Существующие методы в основном сосредоточены на аффордансах на уровне объектов или просто проецируют 2D-предсказания в 3D, пренебрегая богатой геометрической структурой данных в виде облаков точек и неся высокие вычислительные затраты. Для преодоления этих ограничений мы представляем TASA (Task-Aware 3D Scene-level Affordance segmentation) — новую геометрически-оптимизированную структуру, которая совместно использует 2D-семантические ключи и 3D-геометрический анализ по принципу «от грубого к точному». Для повышения эффективности обнаружения аффордансов TASA включает задачно-ориентированный модуль 2D-детекции аффордансов для идентификации манипулируемых точек из языковых и визуальных входных данных, направляя выбор релевантных для задачи ракурсов. Чтобы полностью использовать 3D-геометрическую информацию

Полный текст статьи пока не загружен.

Читать оригинал статьи