← Вернуться к списку

Обучение графового представления текста для аннотирования видеоматериалов

Краткое содержание

arXiv:2511.10953v1 Тип объявления: новый Аннотация: С быстрым ростом видеоматериалов в социальных сетях задача сжатия видео стала ключевой задачей обработки мультимедиа. Однако существующие методы сталкиваются с трудностями при выявлении глобальных зависимостей в видеоконтенте и обеспечении мультимодальной настройки под предпочтения пользователей. Более того, временная близость между кадрами видео не всегда соответствует семантической близости. Для решения этих проблем мы предлагаем новую сеть обучения графовому представлению, управляемую языком (Language-guided Graph Representation Learning Network — LGRLN), предназначенную для сжатия видео. В частности, нами предложен генератор видеографа, который преобразует кадры видео в структурированный граф, чтобы сохранить временной порядок и контекстуальные зависимости. Построив направленные вперед, назад и ненаправленные графы, генератор видеографа эффективно сохраняет последовательность и контекстуальные связи видеоконтента. Мы разработали модуль внутрисетевого реляционного анализа с механизмом свертки графа с двойным порогом, который позволяет...

Полный текст статьи пока не загружен.