Сбросить

DeepSeek-R1T-Chimera создается путем объединения моделей DeepSeek-R1 и DeepSeek-V3 (версия от 03/24), объединяя способности рассуждения модели R1 с улучшенной эффективностью обработки токенов версии V3. Модель основана на архитектуре трансформера DeepSeek-MoE и оптимизирована для общих задач генерац...

THUDM: GLM Z1 Размышление 32B — это глубокая модель рассуждений с параметрами объёмом 32 миллиарда (из серии GLM-4-Z1), оптимизированная для сложных открытых задач, требующих длительного размышления. Она построена на основе модели glm-4-32b-0414 с добавлением этапов дополнительного обучения с подкре...

GLM-Z1-9B-0414 — языковая модель с параметрами объёмом 9 миллиардов, разработанная лабораторией THUDM в рамках семейства моделей GLM-4. В её архитектуре использованы методы, изначально применявшиеся для больших моделей серии GLM-Z1: расширенное обучение с подкреплением, выравнивание парных ранжирова...

GLM-4-9B-0414 — языковая модель серии GLM-4 от компании THUDM с количеством параметров 9 миллиардов. Обучена теми же методами подкрепляющего обучения и выравнивания, что и её старшие аналоги с 32 миллиардами параметров. Благодаря этому GLM-4-9B-0414 демонстрирует высокую производительность относител...

Токенизаторы BPE являются стандартом для современных больших языковых моделей. По умолчанию большинство токенизаторов добавляет пробел перед словом, чтобы фраза «John went away» была предварительно токенизирована как `[_John][_went][_away]`. Для сохранения обратимости при обратном преобразовании нач...

Фреймворк SRPO от Kwai AI сокращает этапы постобучения больших языковых моделей методом подкрепляющего обучения (RL) на 90%, при этом достигая уровня производительности модели DeepSeek-R1 в математике и коде. Двухэтапный подход RL с повторной выборкой истории устраняет ограничения метода GRPO. Стат...

MAI-DS-R1 — это вариант модели DeepSeek-R1, прошедший дополнительную подготовку командой Microsoft AI для повышения отзывчивости модели на ранее заблокированные темы при одновременном улучшении её безопасности. Построенная на основе рассуждений DeepSeek-R1, она интегрирует 110 тысяч примеров из набо...

Я вижу в этой модели PyTorch Helsinki-NLP/opus-mt-fr-en (HuggingFace), которая является моделью кодировщик-декодировщик для машинного перевода: "bos_token_id": 0, "eos_token_id": 0, в её config.json. Почему bos_token_id == eos_token_id? Как она знает, когда последовательность заканчивается? В срав...