← Вернуться к списку

Qwen3.6-35B становится конкурентоспособным по отношению к облачным моделям в паре с подходящим агентом

Краткое содержание

Краткое продолжение моего предыдущего поста, где я показал, что изменение каркаса вокруг той же модели Qwen 9B повысило результаты бенчмарка с 19,11% до 45,56%:https://www.reddit.com/r/LocalLLaMA/s/JMHuAGj1LVПосле отзывов людей здесь я попробовал little-coder с Qwen3.6 35B. Теперь он вошел в публичный топ-10 Polyglot с уровнем успеха 78,7%, что делает его действительно конкурентоспособным по сравнению с лучшими моделями для этого бенчмарка!На данном этапе я все больше убежден, что часть разрыва в производительности по отношению к облачным моделям связана с несоответствием каркаса: возможно, мы тестировали локальные кодовые модели внутри каркасов, созданных для другого класса моделей.Следующим будет Terminal Bench, а затем, вероятно, GAIA для исследовательских возможностей. Буду рад услышать ваш отзыв!Полная статья:https://open.substack.com/pub/itayinbarr/p/honey-i-shrunk-the-coding-agentGitHub:https://github.com/itayinbarr/little-coderПолные результаты бенчмарка:https://github.com/itayinbarr/little-coder/blob/main/docs/benchmark-qwen3.6-35b-a3b.mds

Полный текст статьи пока не загружен.