Как следует выполнять непрерывное распознавание действий/жестов иначе, чем изолированное распознавание действий?

2018-08-10 18:09:09

Краткое содержание

Я собираюсь обучить модель глубокого обучения для классификации жестов рук на видео. Поскольку человек займёт почти всю ширину/высоту видео, а я буду классифицировать его жест, мне не нужно идентифицировать человека и создавать ограничивающий прямоугольник вокруг совершающего действие человека. Мне нужно только классифицировать видеопоследовательности по их меткам классов. Я буду обучать модель на наборе данных с отдельными видео, в котором каждый фрагмент видео является конкретным жестом (то есть это набор данных, подобный UCF-101, с видеофрагментами, соответствующими меткам классов). Однако при развертывании сети я хочу, чтобы нейронная сеть работала на прямом видеопотоке. Точно так же, как прямой видеопоток воспроизводится, она должна распознавать, когда происходит жест, и сообщать о том, что жест был распознан. Поэтому я задумывался - как можно обучить нейронную сеть на изолированных видеопоследовательностях, в которых весь фрагмент видео является действием (как объяснено выше), но запустить нейронную сеть на прямом видеопотоке? Например, может

Полный текст

Как следует выполнять непрерывное распознавание жестов/движений поодиночке, отличным от распознавания изолированных действий? Задать вопрос

Задано 7 лет, 4 месяца назад Изменено сегодня Просмотрено 157 раз

Задано 7 лет, 4 месяца назад

3 $\begingroup$ Я собираюсь обучить модель глубокого обучения для классификации жестов рук в видео. Поскольку человек будет занимать почти всю ширину/высоту видео, и я буду классифицировать жест, который он совершает, мне не нужно идентифицировать человека и создавать область обрезки вокруг человека, выполняющего действие. Мне просто нужно классифицировать видеопоследовательности по их меткам классов. Я буду обучать модель на наборе данных с отдельными видео, в котором каждый весь фрагмент видео является определенным жестом (т.е. это набор данных, подобный UCF-101, с видеофрагментами, соответствующими меткам классов). Но при развертывании сети я хочу, чтобы нейронная сеть работала на прямом видеопотоке. То есть, как воспроизводится прямой видеопоток, она должна распознавать, когда происходит жест, и сообщать об этом. Поэтому я задаюсь вопросом - Как я могу обучить нейронную сеть на изолированных видеопоследовательностях, в которых весь фрагмент видео является действием (как объяснено выше), но запустить нейронную сеть на прямом видеопотоке? Например, могу ли я использовать 3D CNN? Или мне обязательно использовать 2D CNN с LSTM-сетью для того чтобы она работала на прямом видеопотоке? Моя обеспокоенность заключается в том, что поскольку 3D CNN выполняет фильтры по многим кадрам, не приведет ли запуск CNN по каждому кадру к его очень медленной работе? Но если я использую 2D CNN с LSTM, не станет ли это быстрее? Или все же они будут работать одинаково хорошо? Спасибо за вашу помощь заранее. глубокое обучение сверточные нейронные сети распознавание действий Share Improve this question Follow asked Aug 10, 2018 at 18:09 Amaan 131 1 1 bronze badge $\endgroup$ Add a comment | 1 Answer 1 Sorted by: Reset to default Highest score (default) Date modified (newest first) Date created (oldest first) 0 $\begingroup$ Этот вопрос включает в себя много аспектов. Я постараюсь ответить на несколько из них. Прежде всего, вам нужно убедиться, что для вашего случая вы знаете нефункциональные требования. Полезно знать, что у вас есть мягкий режим реального времени (если слишком поздние прогнозы могут привести к серьезным последствиям, это может быть и жесткий режим реального времени) Задержка: сколько времени может пройти после совершения действия до появления прогноза? Стабильность прогноза: насколько быстро система должна менять свой прогноз? Например, каждые 0,5 секунды? Общая аппаратная часть, особенно использование памяти. Метрика оптимизации: возможно, точность не говорит вам достаточно? Настройка оценки: вероятно, вам потребуется несколько "точек оценки" на каждом видео, например, один раз после того, как система провела одну секунду, другой раз после того, как она провела 1,5... Вы также должны учитывать стабильность прогноза. Теперь перейдем к вопросу о том, как это можно сделать. Если вы еще не пробовали этого, я рекомендую изучить оптический поток. Share Improve this answer Follow edited Nov 13, 2018 at 9:02 answered Nov 12, 2018 at 18:05 Martin Thoma 1,055 7 7 silver badges 17 17 bronze badges $\endgroup$ 0 Add a comment | You must log in to answer this question. Start asking to get answers Find the answer to your question by asking. Ask question Explore related questions deep-learning convolutional-neural-networks action-recognition See similar questions with these tags.

3 $\begingroup$ Я собираюсь обучить модель глубокого обучения для классификации жестов рук в видео. Поскольку человек будет занимать почти всю ширину/высоту видео, и я буду классифицировать жест, который он совершает, мне не нужно идентифицировать человека и создавать область обрезки вокруг человека, выполняющего действие. Мне просто нужно классифицировать видеопоследовательности по их меткам классов. Я буду обучать модель на наборе данных с отдельными видео, в котором каждый весь фрагмент видео является определенным жестом (т.е. это набор данных, подобный UCF-101, с видеофрагментами, соответствующими меткам классов). Но при развертывании сети я хочу, чтобы нейронная сеть работала на прямом видеопотоке. То есть, как воспроизводится прямой видеопоток, она должна распознавать, когда происходит жест, и сообщать об этом.

Читать оригинал статьи