Главная - AST-AIHub

Является ли задача языкового моделирования хорошо поставленной задачей обучения?

2023-05-09 15:45:52

Хадамард определяет корректно поставленную задачу как такую, для которой: существует решение; решение единственно; решение непрерывно зависит от данных (например, оно устойчиво). Теперь рассмотрим модель языка с авто-регрессией, где цель предварительного обучения состоит в предсказании следующего то...

Читать оригинал Подробнее

Оптимизация функции чёрного ящика с бинарными состояниями

2023-04-24 10:02:33

У меня есть нелинейная функция-черный ящик, которая принимает вектор (размер=250) в качестве входных данных и выдает скалярное значение: f(x) = value. Переменная x является вектором размером 250 и содержит бинарные элементы, например: x = [0, 1, 1, 1, 0, 0, ...] Результат представляет собой только с...

Читать оригинал Подробнее

Изменяется ли количество полностью связанных нейронных сетей в архитектуре трансформера в зависимости от максимального размера входного текста?

2023-04-23 11:30:32

Учитывая архитектуру энкодера и декодера в трансформере, как показано ниже: каждый входной токен после механизма self‑attention (z1, z2, z3, ...) проходит через свой отдельный Feed‑forward нейронный слой или все Z собираются в один массив и передаются в один FFNN? Если все Z собираются в один массив...

Читать оригинал Подробнее

Как представить входные векторы в нейронной сети с использованием матричной нотации?

2023-04-16 08:18:18

Я постоянно оказываюсь в замешательстве, когда пытаюсь визуализировать нейронную сеть с входными векторами и весами. Допустим, у меня есть такой ввод: Вход 1 Вход 2 Вход 3 Вывод 1 2 3 13 4 6 0 6 8 1 11 Предполагая, что у меня один скрытый слой с 3 нейронами и 2 выходными нейронами, я хотел бы узна...

Читать оригинал Подробнее

Запрос относительно минимáксной функции значений GAN.

2023-04-14 12:11:31

В книге "Generative AI with Python and TensorFlow 2" от Babcock и Bali (страница 172) указано, что функция значений GAN имеет следующий вид: где D(x) – выход дискриминатора, а G(z) – выход генератора. Однако я не понимаю, почему здесь присутствует произведение двух логарифмов. Предполагается, что D(...

Читать оригинал Подробнее

Почему точность моей нейронной сети остается постоянной?

2023-04-07 14:27:12

Я тестирую свою реализацию нейронной сети для распознавания типа функции. Я генерирую синусоидальные, линейные и квадратичные функции с случайными параметрами, вычисляю их значения для сетки linspace размером 100 и передаю y-значения в сеть как вход, ожидая вектор размера 3 в качестве выхода. Я уже ...

Читать оригинал Подробнее

Передача обучения для прогнозирования выработки солнечной энергии с использованием LSTM: обобщенные против специализированных моделей

2023-04-02 17:35:55

Я работаю над задачей прогнозирования выработки солнечной энергии с использованием многокомпонентных моделей LSTM для предсказания выработки на 1/4/8 часов вперед для различных солнечных установок. Наша цель — помочь клиентам оптимизировать использование энергии путем торговли с соседями или соответ...

Читать оригинал Подробнее

Меньшие, конкурентные LLM, которые не являются авторегрессивными трансформерами?

2023-03-17 15:07:07

Большие языковые модели, такие как GPT, в последнее время добились больших успехов. Однако одним из недостатков является то, что для обучения им требуется огромное количество ресурсов, а также значительное количество ресурсов для вывода, так что большинство моделей не могут выполнять вывод на потреб...

Читать оригинал Подробнее

Разбивается ли входное embedding по размерности embedding таким образом, чтобы каждая голова модуля multi-head-attention получала только часть входных данных?

2023-03-14 17:19:50

Итак, я нашел два противоречивых объяснения MHA (multi-head-self-attention-модуля): в первом подходе входное эмбеддинг (= входная матрица) разделяется вдоль размерности эмбеддинга, и всем головам предоставляется подмножество размерностей/признаков каждого слова. Некоторые веб-сайты, поддерживающие э...

Читать оригинал Подробнее

Генерация ключевых точек в трехмерных облаках точек с использованием глубокого обучения.

2023-03-03 08:48:47

У меня есть огромный набор данных, состоящий из 3D облаков точек (каждая точка состоит из координат X, Y, Z), и другой набор данных с ключевыми точками (также X, Y, Z), которые располагаются на достаточно узнаваемых структурах в облаке точек. Для человека довольно легко найти эти ключевые точки, учи...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)