DeepSeek-R1T-Chimera создается путем объединения моделей DeepSeek-R1 и DeepSeek-V3 (версия от 03/24), объединяя способности рассуждения модели R1 с улучшенной эффективностью обработки токенов версии V3. Модель основана на архитектуре трансформера DeepSeek-MoE и оптимизирована для общих задач генерац...
Лента материалов из области искусственного интеллекта (AI)
Материалов: 74372
THUDM: GLM Z1 Размышление 32B — это глубокая модель рассуждений с параметрами объёмом 32 миллиарда (из серии GLM-4-Z1), оптимизированная для сложных открытых задач, требующих длительного размышления. Она построена на основе модели glm-4-32b-0414 с добавлением этапов дополнительного обучения с подкре...
GLM-Z1-9B-0414 — языковая модель с параметрами объёмом 9 миллиардов, разработанная лабораторией THUDM в рамках семейства моделей GLM-4. В её архитектуре использованы методы, изначально применявшиеся для больших моделей серии GLM-Z1: расширенное обучение с подкреплением, выравнивание парных ранжирова...
GLM-4-9B-0414 — языковая модель серии GLM-4 от компании THUDM с количеством параметров 9 миллиардов. Обучена теми же методами подкрепляющего обучения и выравнивания, что и её старшие аналоги с 32 миллиардами параметров. Благодаря этому GLM-4-9B-0414 демонстрирует высокую производительность относител...
Помощь музыкальным профессионалам в исследовании потенциала генеративного ИИ.
Токенизаторы BPE являются стандартом для современных больших языковых моделей. По умолчанию большинство токенизаторов добавляет пробел перед словом, чтобы фраза «John went away» была предварительно токенизирована как `[_John][_went][_away]`. Для сохранения обратимости при обратном преобразовании нач...
Фреймворк SRPO от Kwai AI сокращает этапы постобучения больших языковых моделей методом подкрепляющего обучения (RL) на 90%, при этом достигая уровня производительности модели DeepSeek-R1 в математике и коде. Двухэтапный подход RL с повторной выборкой истории устраняет ограничения метода GRPO. Стат...
Алгоритмы и теория
MAI-DS-R1 — это вариант модели DeepSeek-R1, прошедший дополнительную подготовку командой Microsoft AI для повышения отзывчивости модели на ранее заблокированные темы при одновременном улучшении её безопасности. Построенная на основе рассуждений DeepSeek-R1, она интегрирует 110 тысяч примеров из набо...
Я вижу в этой модели PyTorch Helsinki-NLP/opus-mt-fr-en (HuggingFace), которая является моделью кодировщик-декодировщик для машинного перевода: "bos_token_id": 0, "eos_token_id": 0, в её config.json. Почему bos_token_id == eos_token_id? Как она знает, когда последовательность заканчивается? В срав...