Видеть и знать в дикой природе: распознавание визуальных объектов общего домена с использованием крупномасштабных графов знаний посредством контрастного обучения

2025-11-19 05:00:00

Краткое содержание

arXiv:2510.13675v2 Тип объявления: замена-перекрёстная публикация Аннотация: Распознавание визуальных объектов в открытой области направлено на идентификацию и сопоставление сущностей, изображённых на изображениях, с обширным и постоянно изменяющимся набором реальных понятий, таких как те, что содержатся в Викиданных. В отличие от традиционных задач классификации с фиксированными наборами меток, эта задача выполняется при открытых условиях набора данных, где большинство целевых сущностей не встречаются во время обучения и демонстрируют распределение по длинному хвосту. Это делает задачу изначально сложной из-за ограниченного надзора, высокой зрительной неоднозначности и необходимости семантической дифференциации. Мы предлагаем фреймворк "Knowledge-guided Contrastive Learning" (KnowCoL), который объединяет изображения и текстовые описания в общее семантическое пространство, основанное на структурированной информации из Викиданных. Абстрагируя визуальные и текстовые входные данные до концептуального уровня, модель использует описания сущностей, иерархии типов и контекст отношений для поддержки распознавания сущностей без предварительного обучения. Наш подход оценивается на эталонном наборе данных OVEN, представляющем собой...

Полный текст статьи пока не загружен.

Читать оригинал статьи