BdSL-SPOTER: Фреймворк на основе Transformer для распознавания бенгальского языка жестов с культурной адаптацией
Краткое содержание
arXiv:2511.12103v1 Тип: новая статья Аннотация: Мы представляем BdSL-SPOTER — основанный на позах трансформерный фреймворк для точного и эффективного распознавания бангладешского языка жестов (BdSL). BdSL-SPOTER расширяет парадигму SPOTER за счёт культурно-специфичной предобработки и компактного четырёхслойного трансформер-энкодера с оптимизированными обучаемыми позиционными кодировками, одновременно применяя обучение по учебному плану для улучшения обобщения на ограниченных данных и ускорения сходимости. На тестовом наборе BdSLW60 модель достигает 97,92% точности на валидации (Top-1), что на 22,82% превосходит базовую модель Bi-LSTM, при этом сохраняя низкие вычислительные затраты. Благодаря уменьшенному количеству параметров, низкому числу FLOP и высокой частоте кадров в секунду, BdSL-SPOTER представляет собой практичный фреймворк для реальных приложений в области доступности и служит масштабируемой моделью для других региональных языков жестов с ограниченными ресурсами.
Полный текст статьи пока не загружен.