Как я понимаю из этого источника (OpenAI), целевая функция в Policy Gradient выглядит следующим образом: $$J(\pi_{\theta})=E_{\tau\sim\pi_{\theta}}[R(\tau)],$$ где $R(\tau)=r_0+r_1+...+r_T$, с $r_t$ взятым из траектории $\tau = (s_0,a_0,s_1,a_1,...)$, где $s_0$ определяется как начальное состояние...
Лента материалов из области искусственного интеллекта (AI)
Материалов: 75562
Модель Nous Hermes 2 Mixtral 8x7B SFT представляет собой версию с исключительно контролируемым дообучением модели Nous Research, натренированной на архитектуре Mixtral 8x7B MoE (Mixture-of-Experts). Обучение проводилось на более чем миллионе записей преимущественно сгенерированных GPT-4 данных, а т...
Nous Hermes 2 Mixtral 8x7B DPO — новая флагманская модель от Nous Research, прошедшая обучение на основе архитектуры Mixtral 8x7B MoE (LLM). Модель была обучена на более чем миллионе записей преимущественно сгенерированных GPT-4 данных, а также на других высококачественных открытых датасетах из раз...
Я дообучил две разные модели (Bert и Roberta) на наборе данных для задачи бинарной классификации и сравниваю предложения, в которых модели ошибаются. Я решил использовать веса внимания как метод интерпретируемости, чтобы понять, какие токены вносят наибольший вклад в вывод модели. У меня есть функци...
У меня есть обучаемый с подкреплением типа deep-Q-network в среде типа aminigrid. После обучения я могу поместить агента в ряд искусственно созданных ситуаций и измерить его Q-значения, а затем вывести его эффективную ставку дисконтирования на основе этих Q-значений (например, вывести фактор дисконт...
Исходная статья для переноса стиля поддерживает только один входной образ. Однако меня интересует, существует ли модель, использующая несколько изображений, предпочтительно таким образом, что пользователям не требуется предоставлять собственные файлы изображений, а достаточно обучить модель на изобр...
Это закрытая, средней размерности модель от компании Mistral AI. Она основана на прототипе с закрытым исходным кодом и отлично справляется с рассуждениями, написанием кода, обработкой JSON, ведением диалогов и многим другим. В тестах производительности она сопоставима с флагманскими моделями многих ...
Содержащий 22 миллиарда параметров, Mistral Small версии 24.09 представляет собой удобный промежуточный вариант между моделями Mistral NeMo 12B и Mistral Large 2, предоставляя экономически эффективное решение, которое можно развернуть на различных платформах и средах. Эта версия обладает улучшенными...
Примечание: Эта модель устарела. Рекомендуется заменить её новой моделью Ministral 8B. В настоящее время данная модель основана на ядре Mistral-7B-v0.2 и включает улучшенную тонкую настройку (fine-tuning), вдохновлённую работами сообщества. Она лучше всего подходит для обработки больших объёмов данн...
Я пытаюсь найти какую-либо литературу об этом в интернете, и хотел бы создать обсуждение, из которого другие смогут поучиться. Мой вопрос вдохновлен issue на GitHub с Yolo. В данном примере у нас два объекта: тарелка и яйцо, где один объект находится внутри другого. Вопрос заключается в том, как анн...