PRISM-0: Структура для генерации сценарных графов, обогащенных предикатами, для задач с открытым словарем и нулевой передачей
Краткое содержание
arXiv:2504.00844v2 Тип анонса: replace-cross Аннотация: В задаче генерации сцено-графов (SGG) из визуальных данных извлекаются структурированные представления в виде узлов-объектов и связывающих их предикатов, что позволяет осуществлять рассуждения на основе изображений для решения различных последующих задач. Хотя полностью контролируемые методы SGG постоянно совершенствуются, они страдают от смещения при обучении из-за ограниченного размера размеченных данных и длиннохвостых распределений предикатов, что приводит к низкому разнообразию предикатов и ухудшению производительности на последующих задачах. Мы представляем PRISM-0, zero-shot open-vocabulary фреймворк для SGG, который использует фундаментальные модели в bottom-up пайплайне для охвата широкого спектра предикатов. Обнаруженные пары объектов фильтруются, описываются с помощью Vision-Language Model (VLM) и обрабатываются Large Language Model (LLM) для генерации предикатов как мелкой, так и крупной гранулярности, которые затем проверяются моделью Visual Question Answering (VQA). Модульный, не зависящий от набора данных дизайн PRISM-0 обогащает существующие наборы данных SGG, такие как Visual Genome, и порождает разнообразные
Полный текст статьи пока не загружен.