← Вернуться к списку

Систематическая оценка временно-частотных характеристик для бинауральной локализации источников звука

Краткое содержание

arXiv:2511.13487v1 Тип публикации: cross Аннотация: В данном исследовании представлена систематическая оценка проектирования время-частотных признаков для бинауральной локализации источников звука (SSL), с фокусом на то, как выбор признаков влияет на производительность модели в различных условиях. Мы исследуем производительность модели сверточной нейронной сети (CNN) с использованием различных комбинаций амплитудных признаков (спектрограмма амплитуд, межушная разница уровней - ILD) и фазовых признаков (фазовая спектрограмма, межушная разность фаз - IPD). Оценки на внутридоменных и внедоменных данных с несовпадающими головными функциями передачи (HRTF) показывают, что тщательно подобранные комбинации признаков часто превосходят по эффективности увеличение сложности модели. В то время как наборы из двух признаков, такие как ILD + IPD, достаточны для внутридоменной SSL, для обобщения на разнородный контент требуются более богатые входные данные, объединяющие спектрограммы каналов с ILD и IPD. Используя оптимальные наборы признаков, наша модель CNN с низкой сложностью достигает конкурентоспособных

Полный текст статьи пока не загружен.