← Вернуться к списку

Sparse3DPR: Иерархический парсинг трехмерной сцены и адаптивное рассуждение подграфа для конкретных задач без предварительного обучения на разреженных RGB-изображениях

Краткое содержание

arXiv:2511.07813v1 Тип объявления: кросс Аннотация: В последнее время большие языковые модели (LLM) активно исследуются применительно к пониманию трехмерных сцен. Среди них методы без предварительного обучения привлекают внимание своей гибкостью и обобщающими способностями по сравнению с методами, основанными на обучении. Однако такие подходы часто сталкиваются с проблемами точности и эффективности при практическом внедрении. Для решения указанных проблем мы предлагаем Sparse3DPR — новую методику безобучающего анализа открытых трёхмерных сцен, использующую аналитические возможности предварительно натренированных LLM-моделей и требующую лишь разрежённые RGB-входы. Конкретнее, нами вводится иерархический граф сцены с усилением плоскостями, поддерживающий открытый словарь и использующий доминирующие плоские структуры в качестве пространственных ориентиров, что позволяет формировать более чёткие цепочки рассуждений и делать надёжные высокоуровневые выводы. Более того, разработан адаптивный к задаче метод извлечения подграфа, который динамически фильтрует нерелевантную запросу информацию, снижая шум контекста и повышая эффективность понимания трёхмерной сцены.

Полный текст статьи пока не загружен.