← Вернуться к списку

Эффективна ли сегментация фона для улучшения модели распознавания действий на видео с реальным взаимодействием человека и объекта в режиме реального времени?

Краткое содержание

Я работаю над задачей распознавания действий, включающей взаимодействие человека и объекта, используя модель I3D (на основе 3D CNN). Модель была обучена на предварительно записанных видео и показала хорошие результаты при оценке. Однако, когда я применил ее к невидимым в реальном времени видеопотокам, она испытывала трудности с точным обнаружением действий. Основные проблемы, которые я заметил: Модель не могла обнаруживать действия в потоках видео в реальном времени. Ещё хуже, она классифицировала действия в кадрах, где ни человек, ни объект интереса присутствовали. Я подозреваю, что наличие нерелевантной информации на заднем плане в реальных потоках может сбивать модель с толку. Чтобы решить эту проблему, я рассматриваю возможность применения модели сегментации (например, YOLO для сегментации) для удаления фона и сохранения только человека и объекта, взаимодействующих. У меня есть следующие вопросы: Улучшит ли применение сегментации фона производительность распознавания действий, особенно в реальном времени при взаимодействии человека и объекта? Какие потенциальные недостатки или проблемы могут возникнуть при использовании сегментиро

Полный текст статьи пока не загружен.