DenseAnnotate: Обеспечение масштабируемого сбора плотных подписей для изображений и трехмерных сцен посредством голосовых описаний

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12452v1 Тип объявления: новое Аннотация: С быстрым распространением мультимодальных больших языковых моделей (MLLM) во множестве различных приложений остро встаёт необходимость наличия ориентированных на конкретные задачи высококачественных наборов тренировочных данных. Ключевым ограничением существующих тренировочных датасетов является их зависимость от разреженных аннотаций, извлечённых из интернета либо введённых вручную, которые отражают лишь малую долю визуального содержания изображений. Плотные аннотации гораздо ценнее, однако остаются редкими. Традиционные текстовые конвейеры аннотирования плохо подходят для создания плотных аннотаций: ввод текста ограничивает выразительность, замедляет процесс аннотирования и недостаточно полно отражает тонкие визуальные особенности, особенно в специализированных областях, таких как мультикультурные изображения и трёхмерная разметка активов. В данной статье мы представляем DenseAnnotate — платформу онлайн-аннотирования, управляемую аудиосигналами, позволяющую эффективно создавать плотные детализированные аннотации для изображений и трехмерных объектов. Аннотаторы озвучивают наблюдения вслух одновременно связывая произнесённые комментарии с соответствующими частями изображения или объекта.

Полный текст статьи пока не загружен.

Читать оригинал статьи