Перевод жестового языка в текст в реальном времени с использованием глубокого обучения: сравнительное исследование LSTM и 3D CNN
Краткое содержание
arXiv:2510.13137v2 Тип объявления: замена Аннотация: В данном исследовании изучается производительность трехмерных свёрточных нейронных сетей (3D CNN) и рекуррентных нейросетей с долгой краткосрочной памятью (LSTM) для распознавания американского жестового языка (ASL) в реальном времени. Хотя 3D CNN хорошо справляются с извлечением пространственно-временных признаков из видеопоследовательностей, сети LSTM оптимизированы для моделирования временных зависимостей в последовательных данных. Мы оцениваем обе архитектуры на наборе данных, содержащем 1200 знаков ASL по 50 классам, сравнивая их точность, вычислительную эффективность и задержку при аналогичных условиях обучения. Экспериментальные результаты показывают, что 3D CNN достигают точности распознавания 92,4%, но требуют на 3,2% больше времени обработки на кадр по сравнению с сетями LSTM, которые поддерживают точность 86,7% при значительно меньшем потреблении ресурсов. Гибридная модель 3D CNN-LSTM демонстрирует достойную производительность, что свидетельствует о важности выбора контекстно-зависимой архитектуры для практического применения. Этот проект предоставляет профессиональные ...
Полный текст статьи пока не загружен.