← Вернуться к списку

Сегментная обрезка в аудиоязыковых моделях

Краткое содержание

arXiv:2511.14293v1 Тип объявления: кросс Аннотация: Современные аудиоязыковые модели демонстрируют впечатляющие результаты в широком спектре задач обработки аудио и все чаще способны обрабатывать длинные аудиовходы. Однако вычислительные затраты этих моделей сильно зависят от длины последовательности, которая может стать очень большой из-за природы аудиоданных. В области визуализации языка методы обрезки токенов доказали свою эффективность в сокращении количества токенов при сохранении высокой производительности на стандартных эталонных тестах. В данной работе мы исследуем актуальность и эффективность таких стратегий выбора токенов в контексте аудиоязыковых моделей. Мы также улучшаем их, предлагая легковесную стратегию, учитывающую временное измерение. Сохраняя только четверть исходного числа токенов, наш подход приводит к относительному максимальному снижению на 2% по показателю CIDEr на наборе данных Clotho v2 и относительному максимальному снижению точности на 4% на наборе данных MMAU.

Полный текст статьи пока не загружен.