← Вернуться к списку

Агентная видеоинтеллектуальная система: гибкая платформа для продвинутого исследования и понимания видеоданных

Краткое содержание

arXiv:2511.14446v1 Тип объявления: кросс Аннотация: Понимание видео требует не только визуального распознавания, но и сложного рассуждения. Хотя модели видения и языка (VLM) демонстрируют впечатляющие возможности, они обычно обрабатывают видео в основном за один проход с ограниченными возможностями для повторного обращения к доказательствам и итерационного уточнения. В то время как недавно появившиеся агентные методы позволяют проводить долгосрочное рассуждение, они либо сильно зависят от дорогостоящих проприетарных моделей, либо требуют обширного обучения агентов методом подкрепления. Для преодоления этих ограничений мы предлагаем Агентное видеопонимание (AVI), гибкий и свободный от обучения фреймворк, который может имитировать человеческое понимание видео через системный дизайн и оптимизацию. AVI вводит три ключевых инновации: 1) трехфазовый процесс рассуждений, вдохновленный человеком (поиск-восприятие-повторение), обеспечивающий достаточный глобальный поиск и целенаправленный локальный анализ; 2) структурированную базу знаний о видео, организованную посредством графов сущностей, а также многоуровневую...

Полный текст статьи пока не загружен.