← Вернуться к списку
Наус: Гермес 2 Мистраль 7Б ДПО (nousresearch/nous-hermes-2-mistral-7b-dpo)
Краткое содержание
Это базовая 7-миллиардная модель Hermes, оптимизированная методом прямого предпочтения (Direct Preference Optimization — DPO), основанная на Teknium/OpenHermes-2.5-Mistral-7B. Она демонстрирует улучшение показателей во всех протестированных бенчмарках: AGIEval, BigBench Reasoning, GPT4All и TruthfulQA. До проведения оптимизации прямым предпочтением модель была натренирована на миллионе инструкций/чатов уровня качества GPT-4 или лучше, преимущественно синтетические данные наряду с другими высококачественными наборами данных.
Полный текст статьи пока не загружен.