LibriVAD: Масштабируемый открытый набор данных с бенчмарками глубокого обучения для обнаружения активности речи

Оценка: 5/10 2025-12-22 05:00:00

Краткое содержание

arXiv:2512.17281v1 Тип объявления: cross Аннотация: Устойчивое обнаружение активности речи (VAD) остается сложной задачей, особенно в условиях шума, разнообразия и незнакомых акустических условий. Помимо разработки алгоритмов, ключевым ограничением в развитии исследований VAD является отсутствие крупномасштабных, систематически контролируемых и публично доступных наборов данных. Для решения этой проблемы мы представляем LibriVAD - масштабируемый открытый набор данных, полученный из LibriSpeech и дополненный разнообразными реальными и синтетическими источниками шума. LibriVAD позволяет систематически контролировать соотношение сигнал/шум, соотношение тишина/речь (SSR) и разнообразие шума, и выпускается в трех размерах (15 ГБ, 150 ГБ и 1.5 ТБ) с двумя вариантами (LibriVAD-NonConcat и LibriVAD-Concat), чтобы поддерживать различные экспериментальные установки. Мы проводим тестирование нескольких комбинаций моделей признаков, включая волновое представление, коэффициенты мел-частотного кепстрального анализа (MFCC) и фильтр банк Гамматона, а также вводим архитектуру Vision Transformer (ViT).

Полный текст статьи пока не загружен.

Читать оригинал статьи