← Вернуться к списку

Исследование мультимодального восприятия в больших языковых моделях через рейтинги перцептивной силы

Краткое содержание

arXiv:2503.06980v2 Тип объявления: замена Аннотация: В данном исследовании проверялось, способны ли мультимодальные большие языковые модели достичь человеческого уровня сенсорной привязки путем анализа их способности воспроизводить оценки перцептивной силы восприятия через различные сенсорные модальности. Мы исследовали влияние характеристик моделей (размер, мультимодальность, архитектурная реализация) на эффективность привязки, зависимость от распределительных факторов (частота слов, эмбеддинги, расстояния между признаками) и различия в обработке информации человеком и моделью. Для оценки было использовано 21 модель из четырех семейств (GPT, Gemini, LLaMA, Qwen) на основе набора данных из 3611 слов из Ланкастерских сенсомоторных норм посредством корреляционного анализа, метрик расстояний и качественного анализа. Результаты показали, что более крупные модели (в 6 случаях из 8), мультимодальные (в 5 случаях из 7) и современные модели (в 5 случаях из 8) превосходили меньшие, основанные исключительно на тексте и устаревшие аналоги. Лучшие модели достигли точности 85–90% и коэффициентов корреляции с человеческими оценками в диапазоне 0.58–0.65, демонстрируя значительное сходство. Более того,

Полный текст статьи пока не загружен.