THUDM: GLM Z1 Рефлексия 32B (thudm/glm-z1-rumination-32b)

2025-04-25 17:18:15

Краткое содержание

THUDM: GLM Z1 Размышление 32B — это глубокая модель рассуждений с параметрами объёмом 32 миллиарда (из серии GLM-4-Z1), оптимизированная для сложных открытых задач, требующих длительного размышления. Она построена на основе модели glm-4-32b-0414 с добавлением этапов дополнительного обучения с подкреплением и многоэтапных стратегий выравнивания, вводящих возможности «размышлений», предназначенные для эмуляции продолжительных когнитивных процессов. Это включает итерационные рассуждения, многопроходный анализ и рабочие процессы, дополненные инструментами поиска, извлечения и синтеза с учётом цитирования. Модель демонстрирует превосходство в исследовательском стиле письма, сравнительном анализе и сложном ответе на вопросы. Поддерживает вызовы функций для примитивов поиска и навигации (`search`, `click`, `open`, `finish`), позволяя использовать её в конвейерах агентского типа. Поведение раздумья регулируется циклами с несколькими ходами, основанными на правилах формирования вознаграждений и механизмах отложенного принятия решений, тестируемых относительно фреймворков глубокого исследования, таких как внутренние стеки выравнивания OpenAI. Этот вариант подходит для сценариев

Полный текст статьи пока не загружен.

Читать оригинал статьи