Сбросить

Итак, я нашел два противоречивых объяснения MHA (multi-head-self-attention-модуля): в первом подходе входное эмбеддинг (= входная матрица) разделяется вдоль размерности эмбеддинга, и всем головам предоставляется подмножество размерностей/признаков каждого слова. Некоторые веб-сайты, поддерживающие э...

У меня есть огромный набор данных, состоящий из 3D облаков точек (каждая точка состоит из координат X, Y, Z), и другой набор данных с ключевыми точками (также X, Y, Z), которые располагаются на достаточно узнаваемых структурах в облаке точек. Для человека довольно легко найти эти ключевые точки, учи...

Я использую PPO+LSTM для создания торгового бота. Агент обучен на 3-летних данных и протестирован на 1 год. Каждый раз, когда я обучаю агента с одним и тем же набором гиперпараметров, я получаю очень разные результаты на тестовых данных (изменение портфеля по окончании периода тестирования). Я думаю...

Почему большим языковым моделям (LLM) требуется массовая распределенная тренировка по узлам — если модели помещаются в одну GPU и увеличение размера пакета лишь уменьшает дисперсию градиентов? tldr: предполагая, что для моделей, которым не нужен шардинг по узлам, почему нам нужна (массовая) распреде...

У меня задача по цифровизации документов, где я хочу обнаруживать технические чертежи на изображениях. Эти изображения в основном состоят из объектов, образованных комбинацией фигур, таких как линии, окружности и прямоугольники. Вот пример: Что я ожидаю получить в результате – обнаружение всех "объе...

Для курсового проекта необходимо разработать алгоритм машинного обучения, в котором пользователь заполняет форму, а алгоритм анализирует наиболее подходящий университет на основе ответов. Я новичок в области машинного обучения и не знаю, какой тип алгоритма мы можем использовать. Является ли рекомен...

Во время обучения нейронной сети тестовая потеря достигла минимума на x-й эпохе, после чего я повторил обучение, установив максимальную эпоху равной x. Меня удивляет, что тестовая потеря во втором запуске сильно отличается от первой на эпохе x, хотя все остальные гиперпараметры остались теми же. Еди...

Во время обучения нейронной сети тестовая ошибка достигла минимума на x-й эпохе. Затем я повторил обучение, установив максимальную эпоху равной x. Для меня удивительно, что тестовая ошибка во втором запуске на x-й эпохе сильно отличалась от первой, хотя все остальные гиперпараметры были одинаковыми....

Во время обучения нейронной сети тестовая потеря достигла своего минимума наx-й эпохе. Затем я повторно запустил обучение с максимальным числом эпох, установленным какx. То, что меня удивляет, это то, что тестовая потеря во втором запуске была очень отличной от первого наx-й эпохе, несмотря на то, ч...

ChatGPT в последнее время привлекает много внимания, и это заслуженно. Он демонстрирует впечатляющие способности в ответах на новую информацию, а также в обобщении предоставленных данных. Однако ChatGPT также регулярно допускает логические и математические ошибки. Некоторые отмечают, что он действит...