Удивление выявляет пробелы разнообразия в описании изображений, а разные оценщики меняют картину

2025-11-10 05:00:00

Краткое содержание

arXiv:2511.04754v1 Тип объявления: новый Аннотация: Мы количественно оцениваем лингвистическое разнообразие подписей изображений с помощью дисперсии удивления — разброса отрицательных логарифмических вероятностей на уровне токенов внутри набора подписей. На тестовом наборе MSCOCO мы сравниваем пять современных моделей видения и языка (LLM), декодированных методом жадной стратегии и выборки ядра, с человеческими подписями. Измеряя с помощью модели n-грамм, обученной на подписи, мы наблюдаем примерно вдвое большую дисперсию удивления у людей по сравнению с моделями, однако повторная оценка тех же подписей с использованием общей языковой модели меняет эту картину. Наш анализ вводит метрику разнообразия на основе удивления для подписей изображений. Мы показываем, что использование одного оценщика может полностью изменить выводы, следовательно, надёжная оценка разнообразия должна сообщать значение удивления согласно нескольким разным оценщикам.

Полный текст статьи пока не загружен.

Читать оригинал статьи