← Вернуться к списку

RadarLLM: Расширение возможностей больших языковых моделей для понимания движений человека на основе последовательностей миллиметровых волн в формате облака точек

Краткое содержание

arXiv:2504.09862v2 Тип объявления: замена Аннотация: Миллиметровый радар предлагает альтернативу системам на основе компьютерного зрения, обеспечивающую конфиденциальность и устойчивость к условиям окружающей среды, что позволяет анализировать движения человека в сложных условиях, таких как низкая освещенность, окклюзии, дождь или дым. Однако его разреженные облака точек создают значительные трудности для семантического понимания. Мы представляем RadarLLM — первую систему, которая использует большие языковые модели (LLM) для понимания движений человека по радиолокационным сигналам. RadarLLM вводит две ключевые инновации: (1) управляемый движением радиолокационный токенизатор на основе нашей архитектуры Aggregate VQ-VAE, интегрирующий деформируемые шаблоны тела и моделирование маскированных траекторий для преобразования пространственно-временных радиолокационных последовательностей в компактные семантические токены; и (2) радиолокационную языковую модель, которая устанавливает кросс-модальное выравнивание между радаром и текстом в общем пространстве вложений. Чтобы преодолеть нехватку парных данных «радар-текст», мы генерируем реалистичный набор данных «радар-текст» из данных «движение-текст».

Полный текст статьи пока не загружен.