← Вернуться к списку

UVLM: Тестирование модели видео-языка для понимания подводного мира

Краткое содержание

arXiv:2507.02373v2 Тип объявления: замена Аннотация: В последнее время значительные успехи больших языковых моделей (LLM) оказали глубокое влияние на область искусственного интеллекта. Было предложено и применено множество передовых работ на основе LLM в различных сценариях. Среди них особенно широко используются видеоязыковые модели (VidLM). Однако существующие работы в основном сосредоточены на наземных сценариях, упуская из виду высокоприоритетные потребности применения подводных наблюдений. Для преодоления этого разрыва мы представляем UVLM — эталонный набор данных для подводного наблюдения, созданный совместными усилиями экспертов-людей и моделей ИИ. Чтобы обеспечить качество данных, мы провели тщательный анализ с нескольких точек зрения. Во-первых, чтобы учесть уникальные особенности подводных условий, мы выбрали видео, которые представляют типичные подводные проблемы, включая изменения освещения, мутность воды и разнообразные углы обзора, для построения набора данных. Во-вторых, чтобы

Полный текст статьи пока не загружен.