Выявление значимых единиц с визуально обоснованной семантикой из подписей к изображениям

2025-11-17 05:00:00

Краткое содержание

arXiv:2511.11262v1 Тип объявления: новое Аннотация: Точная детализированная информация имеет ключевое значение для моделей видения-языка (vision-language), чтобы лучше понимать реальный мир. Хотя уже были попытки получить такие знания в области зрения и языка, основное внимание уделялось согласованию фрагментов изображений с токенами на стороне языка. Однако фрагменты изображений сами по себе не несут никакого смысла для человеческого глаза, а отдельные токены необязательно содержат привязываемую к изображению информацию. Группы токенов описывают различные аспекты сцены. В данной работе мы предлагаем модель, которая группирует токены подписи как часть своей архитектуры, чтобы захватить детальное представление языка. Мы ожидаем, что наши представления будут соответствовать уровню объектов, присутствующих на изображении, и поэтому сопоставляем наши представления с выходными данными кодировщика изображений, обученного обнаруживать объекты. Показано, что обучение группировке токенов позволяет модели видения-языка добиться...

Полный текст статьи пока не загружен.

Читать оригинал статьи