Viper-F1: Быстрый и детализированный мультимодальный анализ с модуляцией межмодального пространства состояний
Краткое содержание
arXiv:2511.11177v1 Тип объявления: новый Аннотация: Последние достижения в области мультимодальных больших языковых моделей (MLLM) обеспечили впечатляющий прогресс в понимании визуальной и языковой информации, однако высокая вычислительная стоимость ограничивает их применение в ресурсоограниченных сценариях, таких как робототехника, персональные ассистенты и умные камеры. Большинство существующих методов полагаются на трансформеры с механизмом кросс-внимания, чья квадратичная сложность снижает эффективность. Более того, небольшие модели зрения и языка часто испытывают трудности с точной фиксацией мелких, релевантных задаче областей изображений, что приводит к ухудшению производительности на задачах тонкого анализа, ограничивая их практическое использование в реальных условиях. Для решения указанных проблем мы предлагаем Viper-F1 — гибридную модель пространства состояний зрение–язык, заменяя механизм внимания эффективными динамическими процессами жидкостного состояния пространства. Чтобы дополнительно улучшить привязку текста к изображению, мы вводим модуль корреляции токенов-сетки, который вычисляет лёгкую корреляцию между текстовыми токенами и фрагментами изображения и м...
Полный текст статьи пока не загружен.