← Вернуться к списку

RAC3: Понимание редких случаев автономного вождения с использованием моделей видения и языка, дополненных извлечением знаний

Краткое содержание

arXiv:2412.11050v4 Тип объявления: замена Аннотация: Понимание и устранение граничных случаев имеет решающее значение для обеспечения безопасности и надежности автономных транспортных систем. Модели видения и языка (VLM) играют ключевую роль в улучшении понимания сценариев, однако сталкиваются с серьезными проблемами, такими как иллюзии восприятия и недостаточная привязка к реальной среде, что снижает их производительность в критически важных ситуациях вождения. В данной работе предлагается новая архитектура RAC3, предназначенная для повышения производительности VLM в понимании пограничных ситуаций. RAC3 объединяет частотный пространственный фузинговый (Frequency-Spatial Fusion — FSF) кодировщик изображений, метод кросс-модального выравнивания для встраивания моделей с использованием жестких и полу-жестких отрицательных выборок, а также быстрый конвейер запросов и поиска на основе кластеризации методом k-средних и иерархического навигационного индекса малого мира (Hierarchical Navigable Small World — HNSW). Предлагается мультимодальная стратегия цепочки рассуждений (Chain-of-Thought — CoT), направленная на аналогическое мышление и снижение иллюзорности выводов во время вывода. Более того

Полный текст статьи пока не загружен.