← Вернуться к списку

Многоракурсная фазочувствительная система рассуждений о происшествиях с участием пешеходов и транспортных средств на основе моделей видения и языка

Краткое содержание

arXiv:2511.14120v1 Тип объявления: кросс Аннотация: Инциденты с участием пешеходов и транспортных средств остаются серьезной проблемой безопасности в городах, при этом на долю пешеходов приходится более 20% всех дорожно-транспортных происшествий во всем мире. Хотя существующие видеосистемы могут обнаруживать факт возникновения инцидентов, они дают мало информации о том, как эти события развиваются через различные когнитивные фазы поведения пешехода. Современные модели видения и языка (VLM) продемонстрировали значительный потенциал для понимания видео, но их возможности ограничены тем, что обычно они обрабатывают видео изолированно, без явной временной структуры или интеграции нескольких точек зрения. В данной статье предлагается унифицированная структура под названием "Многоточечный фазово-зависимый анализ инцидентов с участием пешеходов и транспортных средств" (MP-PVIR), которая систематически преобразует многоточечные видеопотоки в структурированные диагностические отчеты посредством четырех этапов: (1) инициированная событием многоканальная видеозапись; (2) сегментация по фазам поведения пешеходов; (3) многоракурсный анализ, специфичный для каждой фазы; (4) иерархический синтез...

Полный текст статьи пока не загружен.