← Вернуться к списку

Понимание динамических сцен в эгоцентричных 4D облаках точек

Краткое содержание

arXiv:2508.07251v3 Тип объявления: замена Аннотация: Понимание динамических сцен 4D от эгоцентрической перспективы — моделирование изменений трехмерной пространственной структуры во времени — имеет решающее значение для взаимодействия человека и машины, автономного навигационного управления и воплощенного интеллекта. Хотя существующие эгоцентричные наборы данных содержат динамические сцены, они лишены унифицированных аннотаций 4D и протоколов оценки, ориентированных на выполнение задач, необходимых для детального пространственно-временного анализа, особенно касающихся движения объектов и людей вместе с их взаимодействием. Для устранения данного пробела мы представляем EgoDynamic4D — новый эталонный набор вопросов и ответов (QA) для высоко динамичных сцен, включающий видеоданные RGB-D, положения камеры, глобально уникальные маски экземпляров и ограничивающие рамки 4D. Мы создаем 927 тысяч пар вопрос-ответ, сопровождаемых явной цепочкой рассуждений (Chain-of-Thought, CoT), позволяющей проводить проверяемый пошаговый пространственно-временной анализ. Мы разрабатываем 12 динамических задач QA, охватывающих движение агента, взаимодействие человека с объектом, прогноз траектории, понимание отношений и временную каузальную аргументацию, с высокой детализацией...

Полный текст статьи пока не загружен.