Существуют ли хорошие способы одновременного включения обнаружения объектов с распознаванием речи?

2019-11-19 01:55:16

Краткое содержание

Существуют ли хорошие способы одновременного включения обнаружения объектов с распознаванием речи? Например, если вы хотите определить, является ли животное собакой или кошкой, мы можем очевидно использовать визуальные признаки (например, YOLO, CNN и т. д.). Но как бы вы интегрировали речь и звук в эту модель?

Полный текст

Есть ли какие-то хорошие способы одновременного включения обнаружения объектов с распознаванием речи? Задать вопрос

Задано 6 лет, 1 месяц назад Изменено сегодня Просмотрено 146 раз

Задано 6 лет, 1 месяц назад

1 $\begingroup$ Есть ли какие-то хорошие способы одновременного включения обнаружения объектов с распознаванием речи? Например, если вы хотите определить, является ли животное собакой или кошкой, мы очевидно можем использовать визуальные признаки (например, YOLO, CNN и т. д.). Но как бы вы внедрили речь и звук в эту модель? reference-request обнаружение объектов speech-recognition Поделиться Улучшить этот вопрос Отредактировано 11 сентября 2020 г. в 15:07 nbro 43,2k 14 14 золотые значки 121 121 серебряные значки 222 222 бронзовые значки задано 19 ноября 2019 г. в 1:55 NebulousReveal 1 $\endgroup$ Добавить комментарий | 1 Ответ 1 Отсортировано по: Сбросить по умолчанию Наивысший балл (по умолчанию) Измененная дата (от новых к старым) Созданная дата (от старых к новым) 0 $\begingroup$ Посмотрите эту статью . Она касается проблемы смешивания модальностей! Вот аннотация. В этой статье представлен новый модель для мультимодального обучения на основе вентильных нейронных сетей. Модель Gated Multimodal Unit (GMU) предназначена для использования в качестве внутреннего блока в архитектуре нейронной сети, целью которой является поиск промежуточного представления на основе комбинации данных из разных модальностей. GMU учится решать, как модули влияют на активацию блока, используя мультипликативные вентили. Она была оценена в многомерном сценарии для классификации жанров фильмов с использованием сюжета и постера . GMU улучшила производительность macro f-score одномодальных подходов и превзошла другие стратегии объединения, включая модели смеси экспертов. Вместе с этой работой публикуется набор данных MM-IMDb, который, насколько нам известно, является самым большим общедоступным мультимодальным набором данных для прогнозирования жанра фильмов. Поделиться Улучшить этот ответ Отредактировано 11 сентября 2020 г. в 15:10 community wiki Bananin $\endgroup$ 0 Добавить комментарий | Вам необходимо войти, чтобы ответить на этот вопрос. Задайте вопрос, чтобы получить ответы Найдите ответ на свой вопрос, задавая его. Задайте вопрос Исследуйте связанные вопросы reference-request обнаружение объектов speech-recognition Посмотрите похожие вопросы с этими тегами.

1 $\begingroup$ Есть ли какие-то хорошие способы одновременного включения обнаружения объектов с распознаванием речи? Например, если вы хотите определить, является ли животное собакой или кошкой, мы очевидно можем использовать визуальные признаки (например, YOLO, CNN и т. д.). Но как бы вы внедрили речь и звук в эту модель? reference-request обнаружение объектов speech-recognition Поделиться Улучшить этот вопрос Отредактировано 11 сентября 2020 г. в 15:07 nbro 43,2k 14 14 золотые значки 121 121 серебряные значки 222 222 бронзовые значки задано 19 ноября 2019 г. в 1:55 NebulousReveal 1 $\endgroup$ Добавить комментарий |

1 $\begingroup$ Есть ли какие-то хорошие способы одновременного включения обнаружения объектов с распознаванием речи? Например, если вы хотите определить, является ли животное собакой или кошкой, мы очевидно можем использовать визуальные признаки (например, YOLO, CNN и т. д.). Но как бы вы внедрили речь и звук в эту модель? reference-request обнаружение объектов speech-recognition Поделиться Улучшить этот вопрос Отредактировано 11 сентября 2020 г. в 15:07 nbro 43,2k 14 14 золотые значки 121 121 серебряные значки 222 222 бронзовые значки задано 19 ноября 2019 г. в 1:55 NebulousReveal 1 $\endgroup$ Добавить комментарий |

$\begingroup$ Есть ли какие-то хорошие способы одновременного включения обнаружения объектов с распознаванием речи? Например, если вы хотите определить, является ли животное собакой или кошкой, мы очевидно можем использовать визуальные признаки (например, YOLO, CNN и т. д.). Но как бы вы внедрили речь и звук в эту модель? reference-request обнаружение объектов speech-recognition Поделиться Улучшить этот вопрос Отредактировано 11 сентября 2020 г. в 15:07 nbro 43,2k 14 14 золотые значки 121 121 серебряные значки 222 222 бронзовые значки задано 19 ноября 2019 г. в 1:55 NebulousReveal 1 $\endgroup$

Есть ли какие-то хорошие способы одновременного включения обнаружения объектов с распознаванием речи?

Читать оригинал статьи