Сбросить

Хадамард определяет корректно поставленную задачу как такую, для которой: существует решение; решение единственно; решение непрерывно зависит от данных (например, оно устойчиво). Теперь рассмотрим модель языка с авто-регрессией, где цель предварительного обучения состоит в предсказании следующего то...

У меня есть нелинейная функция-черный ящик, которая принимает вектор (размер=250) в качестве входных данных и выдает скалярное значение: f(x) = value. Переменная x является вектором размером 250 и содержит бинарные элементы, например: x = [0, 1, 1, 1, 0, 0, ...] Результат представляет собой только с...

Учитывая архитектуру энкодера и декодера в трансформере, как показано ниже: каждый входной токен после механизма self‑attention (z1, z2, z3, ...) проходит через свой отдельный Feed‑forward нейронный слой или все Z собираются в один массив и передаются в один FFNN? Если все Z собираются в один массив...

Я постоянно оказываюсь в замешательстве, когда пытаюсь визуализировать нейронную сеть с входными векторами и весами. Допустим, у меня есть такой ввод: Вход 1 Вход 2 Вход 3 Вывод 1 2 3 13 4 6 0 6 8 1 11 Предполагая, что у меня один скрытый слой с 3 нейронами и 2 выходными нейронами, я хотел бы узна...

В книге "Generative AI with Python and TensorFlow 2" от Babcock и Bali (страница 172) указано, что функция значений GAN имеет следующий вид: где D(x) – выход дискриминатора, а G(z) – выход генератора. Однако я не понимаю, почему здесь присутствует произведение двух логарифмов. Предполагается, что D(...

Я тестирую свою реализацию нейронной сети для распознавания типа функции. Я генерирую синусоидальные, линейные и квадратичные функции с случайными параметрами, вычисляю их значения для сетки linspace размером 100 и передаю y-значения в сеть как вход, ожидая вектор размера 3 в качестве выхода. Я уже ...

Я работаю над задачей прогнозирования выработки солнечной энергии с использованием многокомпонентных моделей LSTM для предсказания выработки на 1/4/8 часов вперед для различных солнечных установок. Наша цель — помочь клиентам оптимизировать использование энергии путем торговли с соседями или соответ...

Большие языковые модели, такие как GPT, в последнее время добились больших успехов. Однако одним из недостатков является то, что для обучения им требуется огромное количество ресурсов, а также значительное количество ресурсов для вывода, так что большинство моделей не могут выполнять вывод на потреб...

Итак, я нашел два противоречивых объяснения MHA (multi-head-self-attention-модуля): в первом подходе входное эмбеддинг (= входная матрица) разделяется вдоль размерности эмбеддинга, и всем головам предоставляется подмножество размерностей/признаков каждого слова. Некоторые веб-сайты, поддерживающие э...

У меня есть огромный набор данных, состоящий из 3D облаков точек (каждая точка состоит из координат X, Y, Z), и другой набор данных с ключевыми точками (также X, Y, Z), которые располагаются на достаточно узнаваемых структурах в облаке точек. Для человека довольно легко найти эти ключевые точки, учи...