Viper-F1: Быстрый и детализированный мультимодальный анализ с модуляцией межмодального пространства состояний

2025-11-17 05:00:00

Краткое содержание

arXiv:2511.11177v1 Тип объявления: новый Аннотация: Последние достижения в области мультимодальных больших языковых моделей (MLLM) обеспечили впечатляющий прогресс в понимании визуальной и языковой информации, однако высокая вычислительная стоимость ограничивает их применение в ресурсоограниченных сценариях, таких как робототехника, персональные ассистенты и умные камеры. Большинство существующих методов полагаются на трансформеры с механизмом кросс-внимания, чья квадратичная сложность снижает эффективность. Более того, небольшие модели зрения и языка часто испытывают трудности с точной фиксацией мелких, релевантных задаче областей изображений, что приводит к ухудшению производительности на задачах тонкого анализа, ограничивая их практическое использование в реальных условиях. Для решения указанных проблем мы предлагаем Viper-F1 — гибридную модель пространства состояний зрение–язык, заменяя механизм внимания эффективными динамическими процессами жидкостного состояния пространства. Чтобы дополнительно улучшить привязку текста к изображению, мы вводим модуль корреляции токенов-сетки, который вычисляет лёгкую корреляцию между текстовыми токенами и фрагментами изображения и м...

Полный текст статьи пока не загружен.

Читать оригинал статьи