← Вернуться к списку

Наус: Гермес 2 Мистраль 7Б ДПО (nousresearch/nous-hermes-2-mistral-7b-dpo)

Краткое содержание

Это базовая 7-миллиардная модель Hermes, оптимизированная методом прямого предпочтения (Direct Preference Optimization — DPO), основанная на Teknium/OpenHermes-2.5-Mistral-7B. Она демонстрирует улучшение показателей во всех протестированных бенчмарках: AGIEval, BigBench Reasoning, GPT4All и TruthfulQA. До проведения оптимизации прямым предпочтением модель была натренирована на миллионе инструкций/чатов уровня качества GPT-4 или лучше, преимущественно синтетические данные наряду с другими высококачественными наборами данных.

Полный текст статьи пока не загружен.