Почему MOE ниже A10b ощущается как азартная игра

2026-04-22 04:31:00

Краткое содержание

Недавно появилось много моделей с экспертами (MOE). Хотя они показывают феноменальную работу со скоростью, вы платите за это снижением когерентности... если только MOE не имеет как минимум 10 млрд активных параметров на токен. Я часто кодировал с этими моделями и пробовал много разных моделей. Самые последние, которые я нашел: qwen3-coder-next, qwen3.5-35b, qwen3.6-35b, ни одна из них не приближается к уровню стабильности, который я наблюдал в qwen3.5-27b, даже qwen3.6-35b-A3b?? Хотя MOE A3b может решить проблему, ему часто требуется постоянное управление и направление в многоходовых диалогах. A3b часто пытается использовать инструменты, доступные в Кодинговом каркасе (Coding Harness), которые не относятся к проблеме, которую он пытается исправить. Поэтому мне часто приходится вручную отключать некоторые инструменты, чтобы сохранить его концентрацию, тогда как 27b интуитивно и успешно игнорирует ненужные инструменты и т.д. Это всего лишь один пример. Но вариативность того, что модель выберет делать дальше, сильно отличается у активного A3b-35b по сравнению с плотной 27b. Я хотел бы использовать MOE, но мне трудно найти сценарий использования для...

Полный текст статьи пока не загружен.

Читать оригинал статьи