UVLM: Тестирование модели видео-языка для понимания подводного мира
Краткое содержание
arXiv:2507.02373v2 Тип объявления: замена Аннотация: В последнее время значительные успехи больших языковых моделей (LLM) оказали глубокое влияние на область искусственного интеллекта. Было предложено и применено множество передовых работ на основе LLM в различных сценариях. Среди них особенно широко используются видеоязыковые модели (VidLM). Однако существующие работы в основном сосредоточены на наземных сценариях, упуская из виду высокоприоритетные потребности применения подводных наблюдений. Для преодоления этого разрыва мы представляем UVLM — эталонный набор данных для подводного наблюдения, созданный совместными усилиями экспертов-людей и моделей ИИ. Чтобы обеспечить качество данных, мы провели тщательный анализ с нескольких точек зрения. Во-первых, чтобы учесть уникальные особенности подводных условий, мы выбрали видео, которые представляют типичные подводные проблемы, включая изменения освещения, мутность воды и разнообразные углы обзора, для построения набора данных. Во-вторых, чтобы
Полный текст статьи пока не загружен.