FSDAM: Моделирование внимания водителя в условиях малого числа примеров через объединение зрения и языка
Краткое содержание
arXiv:2511.12708v1 Тип объявления: новое Аннотация: Понимание того, куда смотрят водители и почему они переключают внимание, имеет ключевое значение для автономных систем, интерпретирующих намерения человека и обосновывающих собственные действия. Большинство существующих моделей полагаются на крупномасштабные наборы данных фиксации взгляда для изучения этих закономерностей; однако сбор таких наборов требует значительных трудозатрат и много времени. Мы представляем FSDAM (Few-Shot Driver Attention Modeling — моделирование внимания водителя с малым числом примеров), фреймворк, который позволяет одновременно прогнозировать направление внимания и генерировать описания примерно на основе всего лишь около 100 размеченных примеров — на два порядка меньше, чем существующие подходы. Наш подход включает архитектуру с двумя путями обработки, где отдельные модули отвечают соответственно за пространственное предсказание и генерацию подписей, поддерживая семантическое согласование через кросс-модальную выравниваемость. Несмотря на минимальное количество разметки, FSDAM демонстрирует конкурентоспособную производительность в задаче прогнозирования внимания и генерирует связные контекстуально осмысленные объяснения. Модель показывает устойчивую способность обобщения в условиях нулевого выстрела на различных наборах данных.
Полный текст статьи пока не загружен.