Главная - AST-AIHub

Является ли $s_0$ текущим состоянием в методе градиентного спуска политики?

2024-01-18 12:03:48

Как я понимаю из этого источника (OpenAI), целевая функция в Policy Gradient выглядит следующим образом: $$J(\pi_{\theta})=E_{\tau\sim\pi_{\theta}}[R(\tau)],$$ где $R(\tau)=r_0+r_1+...+r_T$, с $r_t$ взятым из траектории $\tau = (s_0,a_0,s_1,a_1,...)$, где $s_0$ определяется как начальное состояние...

Читать оригинал Подробнее

Nous: Гермес 2 Mixtral 8×7B SFT (nousresearch/nous-hermes-2-mixtral-8x7b-sft)

2024-01-16 00:00:00

Модель Nous Hermes 2 Mixtral 8x7B SFT представляет собой версию с исключительно контролируемым дообучением модели Nous Research, натренированной на архитектуре Mixtral 8x7B MoE (Mixture-of-Experts). Обучение проводилось на более чем миллионе записей преимущественно сгенерированных GPT-4 данных, а т...

Читать оригинал Подробнее

Nous: Гермес 2 Mixtral 8×7B DPO (nousresearch/nous-hermes-2-mixtral-8x7b-dpo)

2024-01-16 00:00:00

Nous Hermes 2 Mixtral 8x7B DPO — новая флагманская модель от Nous Research, прошедшая обучение на основе архитектуры Mixtral 8x7B MoE (LLM). Модель была обучена на более чем миллионе записей преимущественно сгенерированных GPT-4 данных, а также на других высококачественных открытых датасетах из раз...

Читать оригинал Подробнее

Как интерпретировать веса внимания в обученной модели? Надежны ли они?

2024-01-12 23:11:20

Я дообучил две разные модели (Bert и Roberta) на наборе данных для задачи бинарной классификации и сравниваю предложения, в которых модели ошибаются. Я решил использовать веса внимания как метод интерпретируемости, чтобы понять, какие токены вносят наибольший вклад в вывод модели. У меня есть функци...

Читать оригинал Подробнее

Отношение между регуляризацией и (эффективным) дисконтированием в глубоком обучении Q.

2024-01-11 17:56:43

У меня есть обучаемый с подкреплением типа deep-Q-network в среде типа aminigrid. После обучения я могу поместить агента в ряд искусственно созданных ситуаций и измерить его Q-значения, а затем вывести его эффективную ставку дисконтирования на основе этих Q-значений (например, вывести фактор дисконт...

Читать оригинал Подробнее

Существуют ли алгоритмы переноса стиля, использующие несколько изображений (вместо одного)?

2024-01-10 19:04:37

Исходная статья для переноса стиля поддерживает только один входной образ. Однако меня интересует, существует ли модель, использующая несколько изображений, предпочтительно таким образом, что пользователям не требуется предоставлять собственные файлы изображений, а достаточно обучить модель на изобр...

Читать оригинал Подробнее

Мистраль Мидиум (mistralai/mistral-medium)

2024-01-10 00:00:00

Это закрытая, средней размерности модель от компании Mistral AI. Она основана на прототипе с закрытым исходным кодом и отлично справляется с рассуждениями, написанием кода, обработкой JSON, ведением диалогов и многим другим. В тестах производительности она сопоставима с флагманскими моделями многих ...

Читать оригинал Подробнее

Мистраль Смолл (mistralai/mistral-small)

2024-01-10 00:00:00

Содержащий 22 миллиарда параметров, Mistral Small версии 24.09 представляет собой удобный промежуточный вариант между моделями Mistral NeMo 12B и Mistral Large 2, предоставляя экономически эффективное решение, которое можно развернуть на различных платформах и средах. Эта версия обладает улучшенными...

Читать оригинал Подробнее

Мистраль Тайни (mistralai/mistral-tiny)

2024-01-10 00:00:00

Примечание: Эта модель устарела. Рекомендуется заменить её новой моделью Ministral 8B. В настоящее время данная модель основана на ядре Mistral-7B-v0.2 и включает улучшенную тонкую настройку (fine-tuning), вдохновлённую работами сообщества. Она лучше всего подходит для обработки больших объёмов данн...

Читать оригинал Подробнее

Обработка перекрывающихся объектов в аннотировании инстанциальной сегментации

2024-01-07 09:52:10

Я пытаюсь найти какую-либо литературу об этом в интернете, и хотел бы создать обсуждение, из которого другие смогут поучиться. Мой вопрос вдохновлен issue на GitHub с Yolo. В данном примере у нас два объекта: тарелка и яйцо, где один объект находится внутри другого. Вопрос заключается в том, как анн...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)