OmniZip: Аудиорегулируемая динамическая компрессия токенов для быстрого омнимодального крупномасштабного языкового моделирования

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14582v1 Тип объявления: новый Аннотация: Универсальные большие языковые модели (OmniLLM), способные обрабатывать мультимодальную информацию, в последнее время привлекают все больше внимания исследователей к задаче единого понимания аудио и видео. Однако обработка последовательностей аудиовизуальных токенов создает значительную вычислительную нагрузку. Существующие методы сжатия токенов пока не могут удовлетворить эту новую потребность в совместном сжатии мультимодальных токенов. Для устранения этого пробела мы предлагаем OmniZip — метод сжатия аудиовизуальных токенов без дополнительного обучения, который оптимизирует представление мультимодальных токенов и ускоряет процесс вывода. В частности, OmniZip сначала выделяет значимые аудиотокены, затем вычисляет оценку сохранения для каждой временной группы на основе плотности информации, что динамически направляет удаление видеотокенов с сохранением подсказок от звуковых якорей, усиленных межмодальной схожестью. Для каждого временного окна OmniZip сжимает видеотокены по схеме чередования пространственно-временных данных. Обширные эмпирические результаты...

Полный текст статьи пока не загружен.

Читать оригинал статьи