Многомодальная ракапчирующая структура для учета перцептивного разнообразия между языками в визуально-языковых моделях
Краткое содержание
arXiv:2504.14359v2 Тип объявления: замена-перекрёстная публикация Аннотация: Когда человек описывает изображение, объекты часто характеризуются разнообразными способами — используются разные термины и/или включаются детали, воспринимаемые человеком значимыми. Описания могут существенно различаться между языками и культурами. Современные модели видения и языка (VLM) зачастую приобретают понимание изображений и текста на разных языках через обучение на машинных переводах английских подписей. Однако этот процесс основывается на исходном контенте, написанном с точки зрения англоязычных пользователей, что порождает перцептивное смещение. В данной работе мы предлагаем подход для устранения этой предвзятости. Мы используем ограниченный объём данных от носителей целевого языка, руководство примерами ближайших соседей и рассуждения мультимодальных больших языковых моделей (LLM), чтобы улучшить подписи таким образом, чтобы они лучше отражали описания на целевом языке. Добавляя полученные переписанные подписи в дообучение мультиязычной модели CLIP, мы улучшаем показатели поиска по изображениям и тексту на немецком и японском языках (до +3.5 среднего отзыва).
Полный текст статьи пока не загружен.