Сниженная плотность интеллекта в DeepSeek V4 Pro
Краткое содержание
Во V3.2-документе они упомянули: Второй, эффективность токенов остается проблемой; DeepSeek-V3.2 обычно требует более длинных траекторий генерации (т.е., больше токенов), чтобы соответствовать качеству вывода моделей, таких как Gemini 3.0-Pro. В будущих работах будет сосредоточено на оптимизации плотности интеллекта цепочек рассуждений модели для повышения эффективности. Однако в V4 Pro ситуация кажется усугубленной. Даже немодус мышления использует значительно больше токенов, чем V3.2, и V4 Pro (1.6T) примерно в 2.5 раза больше, чем V3.2 (0.67T). Это предполагает, что плотность интеллекта модели снизилась, а не улучшилась! Если сравнивать с GPT-5.4 и GPT-5.5, разрыв еще больше. DeepSeek, похоже, требует около в 10 раз больше токенов для достижения аналогичной производительности. При одинаковой TPS это подразумевает примерно в 10 раз больше времени для DeepSeek V4 Pro для выполнения той же задачи. Отправлено пользователем /u/Mindless_Pain1860 [ссылка][комментарии]
Полный текст статьи пока не загружен.