Главная - AST-AIHub

Магнум 72Б (алпиндейл/магнум-72б)

2024-07-11 00:00:00

От создателей Goliath, Magnum 72B — первая модель новой линейки, разработанная для достижения качества прозы уровня моделей Claude 3, особенно Opus и Sonnet. Модель основана на Qwen2 72B и обучена на 55 миллионах токенов тщательно отобранных данных ролевых игр (RP).

Читать оригинал Подробнее

Наус: Гермес 2 Тета 8Б (nousresearch/hermes-2-theta-llama-3-8b)

2024-07-11 00:00:00

Экспериментальная объединённая модель на основе Llama 3, демонстрирующая весьма характерный стиль письма. Она сочетает лучшие качества Meta Llama 3 8B и Hermes 2 Pro от Nous Research. Hermes-2 Θ (тета) была специально разработана с учётом нескольких возможностей: выполнение вызовов функций, генерац...

Читать оригинал Подробнее

Использование условной вероятности в качестве оценки в функции потерь.

2024-07-08 22:41:23

У меня довольно большая ML-платформа, которая принимает несколько терминов условной вероятности, вычисляемых с помощью классификаторов/нейронных сетей. Эта произвольная функция потерь вычисляется посредством функции: loss_value = arbitrary_loss(probability1, probability2, ..., P(Y|Z)). Я хочу иметь ...

Читать оригинал Подробнее

Ядра в обученной CNN кажутся случайными.

2024-07-08 20:12:06

Я увидел этот вопрос и сталкиваюсь с той же проблемой: ядра в обученной CNN выглядят случайным образом. Я использую PyTorch для обучения CNN, и мой код основан на примерах, которые обучают символы MNIST: около 50 сверточных слоев размером 20x20 ядер, которые подаются в два полносвязных слоя, с испол...

Читать оригинал Подробнее

Почему ядра этой CNN, обученной на изображениях произвольных импульсов, кажутся случайными?

2024-07-08 20:12:06

Я увидел этот вопрос и сталкиваюсь с той же проблемой: ядра в обученной CNN выглядят случайным образом. Я использую PyTorch для обучения CNN, и мой код основан на примерах, которые обучают символы MNIST: около 50 сверточных слоев размером 20x20 ядер, которые подаются в два полносвязных слоя, с испол...

Читать оригинал Подробнее

Сохранение модели Stable Diffusion для последующего использования

2024-07-06 09:34:34

Я новичок в области ML и планирую использовать KerasCV, модель stabledifussion, для генерации изображений из текста. Пример на сайте KerasCV достаточно прост, но я не смог найти способа сохранить модель локально для последующего использования. Я также заметил, что библиотека подключается к Hugging F...

Читать оригинал Подробнее

Как сохранить стабильную модель диффузии локально для последующего использования?

2024-07-06 09:34:34

Я новичок в ML и планирую использовать стабильную модель KerasCV stablediffusion для генерации изображений из текста. Пример на сайте KerasCV прост, но я не смог найти способ сохранить модель локально для последующего использования. Также заметил, что библиотека подключается к Hugging Face для загру...

Читать оригинал Подробнее

Гугл: Джемма 2 9Б (google/gemma-2-9b-it)

2024-06-28 00:00:00

Gemma 2 9B от Google — это передовая открытая языковая модель, устанавливающая новый стандарт эффективности и производительности в своем классе моделей. Созданная для широкого спектра задач, она позволяет разработчикам и исследователям создавать инновационные приложения, одновременно обеспечивая до...

Читать оригинал Подробнее

Sao10K: Лама 3 Стено 8B v3.3 32К (sao10k/l3-stheno-8b)

2024-06-27 00:00:00

Stheno 8B 32K — это модель для творческого письма и ролевых игр от Sao10k. Изначально она была обучена на контексте длиной 8К токенов, после чего контекст был расширен до 32К токенов. По сравнению со старой версией модели Stheno, данная версия обучалась на основе: - удвоенного количества образцов т...

Читать оригинал Подробнее

Прогнозирование значений с помощью байесовской нейронной сети

2024-06-25 17:04:01

Я хочу использовать байесовскую нейронную сеть для задачи регрессии. Для этого я преобразовал BNN из этой статьи в Python 3. Предоставленный скрипт обучения запускается, и я получаю файл pickle, который хочу использовать для предсказания значения в своей регрессии. Хотя потери на обучении практическ...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)