Стоит рассмотреть запуск более масштабной количественной модели (или анализа), если это возможно.
Краткое содержание
Просто небольшое напоминание о том, что *если* вы можете запустить более крупные кванты, сделайте это. Я запустил Qwen 3.6 IQ4_XS с контекстом в 128k и был очень разочарован, потому что он зацикливался, допускал ошибки форматирования, реализовывал неверные вещи и т. д. У меня был небольшой запас мощности, и я решил попробовать новую unsloth IQ4_NL_XL, и что я скажу? Она работает НАМНОГО лучше для агентского кодирования. Если вы, как и я, начинаете консервативно выбирать модель, основываясь на том, что полностью помещается в VRAM, это может очень сильно ухудшить ваш опыт. Всегда обращайте внимание на то, сколько времени реально занимает обработка задачи, и игнорируйте ток/с при сравнении квантов. Вы делаете вещи быстрее, если более медленная модель (даже с выгрузкой) тратит меньше времени на правильное завершение запросов (очевидно). опубликовал by/u/Flashy_Management962[link][comments]
Полный текст статьи пока не загружен.