← Вернуться к списку

Для информации, шаг 3.5 Flash имеет лучшую производительность и стоит вчетверть дешевле в llama.cpp.

Краткое содержание

Недавно я обновил LMstudio после долгого перерыва и также обновил мои runtime llama.cpp... Я был ошеломлен... Я подумал, может быть, по умолчанию включен turboquant... но... оказалось, что поддержка этой модели значительно улучшилась.Step 3.5 Flash теперь замедляет загрузку контекста примерно в 2.5 раза меньше и использует в 4 раза меньше памяти для контекста!На слегка разогнаной 5090 + RTX PRO 6000 через x8 я вижу это с IQ4_NL:первый запрос = 125 токенов/сек170 тыс. контекста = 75 токенов/секРанее это было:первый запрос = 125 токенов/сек96 тыс. контекста = 45 токенов/секБлагодаря тому, что память для контекста в 4 раза дешевле, я теперь могу запускать Q4_K_L и при этом получать до 220 тысяч контекста... если я согласен на снижение производительности примерно на 10%. Или я могу настроить параллельные запросы :)Step 3.5 Flash стал гораздо полезнее с агентами, cline и другими оркестраторами, которые потребляют много контекста.Опубликовано/u/mr_zerolith[ссылка][комментарии]

Полный текст статьи пока не загружен.