HumanSense: От мультимодального восприятия до эмпатичных контекстуально-зависимых реакций через рассуждения МЛЛМ (Multilingual Large Language Models — многоязычные большие языковые модели)

2025-11-18 05:00:00

Краткое содержание

arXiv:2508.10576v3 Тип объявления: замена Аннотация: Несмотря на огромный потенциал мультимодальных больших языковых моделей (MLLM), прогресс сдерживается отсутствием детальных оценочных фреймворков для сценариев ориентированных на человека, охватывающих как понимание сложных человеческих намерений, так и предоставление эмпатичных контекстуально-ориентированных откликов. В данной работе мы представляем HumanSense — комплексный бенчмарк, предназначенный для оценки способностей MLLM воспринимать человеческие сигналы и взаимодействовать с ними, уделяя особое внимание глубокому пониманию расширенных мультимодальных контекстов и формулированию рациональной обратной связи. Наше исследование показывает, что ведущие модели MLLM всё ещё имеют значительные возможности для улучшения, особенно в отношении продвинутых задач, ориентированных на взаимодействие. Дополнение визуального ввода аудиальными и текстовыми данными даёт существенные преимущества, а омнимодальные модели демонстрируют превосходство в выполнении таких задач. Более того, основываясь на наблюдении, что подходящая...

Полный текст статьи пока не загружен.

Читать оригинал статьи