← Вернуться к списку

Условный информационный бутылочное горлышко для мультимодального слияния: преодоление обучения по короткому пути в задаче обнаружения сарказма

Краткое содержание

arXiv:2508.10644v2 Тип объявления: замена Аннотация: Мультимодальное распознавание сарказма — это сложная задача, требующая различения тонких комплементарных сигналов между модальностями при одновременной фильтрации нерелевантной информации. Многие передовые методы полагаются на извлечение поверхностных зависимостей (shortcuts) из наборов данных, а не на выделение целевых признаков, связанных с сарказмом. Однако наши эксперименты показывают, что такое обучение поверхностным зависимостям ухудшает обобщающую способность модели в реальных сценариях. Более того, мы выявляем слабые стороны современных стратегий слияния модальностей для мультимодального распознавания сарказма с помощью систематических экспериментов, подчеркивая необходимость сосредоточиться на эффективном слиянии модальностей для распознавания сложных эмоций. Для решения этих проблем мы создаём MUStARD++$^{R}$, удаляя из набора MUStARD++ сигналы, приводящие к поверхностным зависимостям. Затем представлена модель Multimodal Conditional Information Bottleneck (MCIB) для обеспечения эффективного мультимодального слияния при распознавании сарказма. Результаты экспериментов показывают, что MCIB достигает наилучших показателей

Полный текст статьи пока не загружен.