← Вернуться к списку

NVIDIA: Nemotron Nano 12B 2 VL (бесплатно) (nvidia/nemotron-nano-12b-v2-vl)

Краткое содержание

NVIDIA Nemotron Nano 2 VL — это открытая многомодальная модель рассуждений с 12 миллиардами параметров, предназначенная для понимания видео и документной разведки. Она вводит гибридную архитектуру Transformer-Mamba, сочетающую точность трансформеров с эффективным моделированием последовательности от Mamba, что обеспечивает значительно более высокую пропускную способность и более низкую задержку. Модель поддерживает вводы текста и многоизображенных документов, генерируя выводы на естественном языке. Она обучена на высококачественных синтетических наборах данных, курируемых NVIDIA, оптимизированных для оптического распознавания символов, рассуждений по диаграммам и многомодального понимания. Nemotron Nano 2 VL демонстрирует ведущие результаты на OCRBench v2 и в среднем набирает около 74 баллов по метрикам MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA и Video-MME, превосходя предыдущие открытые базовые модели. Благодаря технологии Efficient Video Sampling (EVS) модель обрабатывает длинные видео, снижая стоимость инференса. Веса модели, данные для обучения и рецепты дообучения выпущены под допускающей лицензией NVIDIA.

Полный текст статьи пока не загружен.