edgeVLM: Облачно-периферийная коллаборационная система реального времени VLM на основе передачи контекста
Краткое содержание
arXiv:2508.12638v2 Тип объявления: замена Аннотация: Модели видения-языка (VLM) всё чаще применяются в режиме реального времени в приложениях, таких как автономное вождение и взаимодействие человека с компьютером, где требуются быстрые и надёжные реакции на основе точной интерпретации визуальной информации. Для удовлетворения этих требований существующие системы часто используют облачно-периферийные совместные архитектуры, такие как разделённые большие модели видения-языка (LVLM), либо стратегии распределения задач между большими и малыми моделями видения-языка (SVLM). Однако эти методы не учитывают колебания задержек облака и упускают возможность использовать полные преимущества откладываемых, но точных ответов LVLM. В данной работе мы предлагаем новый подход к облачно-периферийному сотрудничеству для VLM-моделей — контекстный перенос (Context Transfer), который рассматривает отложенные выходы LVLM как исторический контекст для предоставления рекомендаций в реальном времени для вывода SVLM. Основываясь на данном подходе, мы разрабатываем систему edgeVLM, включающую модули замены контекста и фокусировки зрения для уточнения исторического контекста.
Полный текст статьи пока не загружен.