Сегментация источников звуков столкновений в эгоцентричных видео

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.13863v1 Тип объявления: новое Аннотация: Люди превосходно справляются с мультисенсорным восприятием и часто могут распознавать свойства объектов по звуку их взаимодействия. Вдохновленные этим фактом, мы предлагаем новую задачу сегментации источников звуков столкновения (Collision Sound Source Segmentation — CS3), где наша цель состоит в том, чтобы сегментировать объекты, ответственные за звук столкновения на визуальном входе (то есть кадрах видео со столкновением), при условии наличия аудиоданных. Эта задача представляет уникальные трудности. В отличие от изолированных звуковых событий, звук столкновения возникает из-за взаимодействия двух объектов, а акустическая сигнатура столкновения зависит от обоих. Мы сосредоточены на эгоцентричном видеоматериале, где звуки обычно четкие, но визуальная сцена загромождена, объекты маленькие, а взаимодействия кратковременны. Для решения этих проблем мы предлагаем слабо контролируемый метод аудио-обусловленной сегментации, использующий фундаментальные модели (CLIP и SAM2). Кроме того, мы включаем эгоцентрические подсказки, то есть объекты в руках, для поиска действующих объектов, которые потенциально...

Полный текст статьи пока не загружен.

Читать оригинал статьи