Извлечение и генерация с использованием контекстного обнаружения, основанного на Retrieval Augmented Generation (RAG) для распознавания речи.
Краткое содержание
arXiv:2509.19567v2 Объявление Тип: замена Аннотация: В настоящей работе рассматривается стратегия эффективного повышения качества автоматического обнаружения контекста с использованием retrieval-augmented generation (RAG) для систем автоматического распознавания речи (ASR), ориентированных на контекст, с целью улучшения точности транскрибирования в условиях наличия редких или не входящих в словарный запас терминов. Однако, автоматическое определение подходящего контекста остается открытым вызовом. В данной работе предлагается эффективный подход на основе embedding-based retrieval для автоматического обнаружения контекста в системах ASR. Для оценки эффективности предложенного подхода также рассматриваются два альтернативных метода, основанных на больших языковых моделях (LLM): (1) генерация контекста с использованием LLM посредством prompting и (2) исправление транскрипции после распознавания с использованием LLM. Эксперименты на TED-LIUMv3, Earnings21 и SPGISpeech демонстрируют, что предложенный подход снижает WER (вероятность ошибки слова) до 17% (относительная разница) по сравнению с использованием без контекста, в то время как использование "ортогонального" контекста приводит к снижению до 24,1%.
Полный текст статьи пока не загружен.