O3SLM: Открытая масса, открытые данные и открытая лексика модели эскизного языка

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14368v1 Тип объявления: кросс Аннотация: Несмотря на то, что большие модели видения и языка (Large Vision Language Models — LVLMs) все чаще применяются в реальных задачах, их способность интерпретировать абстрактные визуальные входные данные остается ограниченной. В частности, они испытывают трудности с пониманием рукописных эскизов, модальности, которая предлагает интуитивный способ выражения концепций, которые трудно описать текстуально. Мы определили основной узким местом отсутствие крупномасштабного набора данных, который совместно моделировал бы эскизы, фотореалистичные изображения и соответствующие инструкции на естественном языке. Для решения этой проблемы мы предлагаем два ключевых вклада: (1) новый крупный набор данных триплетов изображение-эскиз-инструкция, предназначенный для облегчения как предварительного обучения, так и тонкой настройки инструкций; и (2) модель O3SLM, обученную на этом наборе данных. Комплексная оценка выполнена по нескольким задачам, основанным на эскизах: (а) локализация объектов, (б) подсчет, (в) поиск изображений, т.е. (поиск изображений по эскизам (SBIR) и детализированный SBIR), а также (г) ответ на визуальные вопросы (Visual Question Answering — VQA).

Полный текст статьи пока не загружен.

Читать оригинал статьи