← Вернуться к списку

GenRecal: Генерация после калибровки от больших к малым моделям видения и языка

Краткое содержание

arXiv:2506.15681v2 Тип объявления: замена Аннотация: Последние достижения в области моделей видения и языка (VLM) позволили использовать большие языковые модели (LLM) для достижения производительности на уровне закрытых систем, таких как GPT-4V. Однако развертывание этих моделей в реальных сценариях, особенно на устройствах с ограниченными ресурсами, остается сложной задачей из-за их значительных вычислительных требований. Это вызвало интерес к дистилляции знаний из больших VLM в меньшие и более эффективные аналоги. Ключевая проблема здесь возникает из-за разнообразия архитектур VLM, которые построены на различных LLM и используют различные типы токенов — отличающиеся размером словаря, разбиением токенов и порядком индексации токенов. Чтобы преодолеть это ограничение специфического типа VLM, мы представляем метод "Генерация после калибровки" (GenRecal) — универсальный фреймворк дистилляции для VLM. GenRecal включает в себя механизм перекалибровки (Recalibrator), который выравнивает и адаптирует представления признаков между разнородными моделями VLM, что позволяет эффективно...

Полный текст статьи пока не загружен.