DynaSpec: Контекстно-зависимая динамическая спекулятивная выборка для больших языковых моделей с обширным вокабуляром

2025-11-11 05:00:00

Краткое содержание

arXiv:2510.13847v2 Тип объявления: замена-перекрёстная Аннотация: Спекулятивное декодирование стало стандартным способом ускорения вывода больших языковых моделей (LLM): небольшая предварительная модель предлагает несколько токенов, после чего крупная целевая модель проверяет их один раз за каждый спекулятивный интервал. В последнее время расширение словаря LLM привело к значительному увеличению числа токенов. Хотя проверка по всему словарю практически не влияет на производительность целевой модели, параметры выходного слоя предварительной модели размером O(|V|d) становятся узким местом задержки, замедляя всю цепочку обработки. Современные методы (например, FR-Spec, VocabTrim) ограничивают словарь предварительной модели фиксированным подмножеством наиболее частых токенов основного словаря целевой модели. Несмотря на снижение вычислительных затрат во время предварительного этапа, такой подход является хрупким, поскольку: (i) списки частот зависят от корпуса данных и требуют перенастройки для обобщения, и (ii) статические короткие списки подавляют редкие или специфичные для домена токены, снижая ожидаемое количество токенов на каждом этапе проверки. Мы предлагаем метод DynaSpec — контекстнозависимый динамический...

Полный текст статьи пока не загружен.

Читать оригинал статьи