Главная - AST-AIHub

Разбивается ли входное embedding по размерности embedding таким образом, чтобы каждая голова модуля multi-head-attention получала только часть входных данных?

2023-03-14 17:19:50

Итак, я нашел два противоречивых объяснения MHA (multi-head-self-attention-модуля): в первом подходе входное эмбеддинг (= входная матрица) разделяется вдоль размерности эмбеддинга, и всем головам предоставляется подмножество размерностей/признаков каждого слова. Некоторые веб-сайты, поддерживающие э...

Читать оригинал Подробнее

Генерация ключевых точек в трехмерных облаках точек с использованием глубокого обучения.

2023-03-03 08:48:47

У меня есть огромный набор данных, состоящий из 3D облаков точек (каждая точка состоит из координат X, Y, Z), и другой набор данных с ключевыми точками (также X, Y, Z), которые располагаются на достаточно узнаваемых структурах в облаке точек. Для человека довольно легко найти эти ключевые точки, учи...

Читать оригинал Подробнее

Что мне делать, агент обучения с подкреплением выдает разные результаты при каждой тренировке?

2023-02-26 15:28:19

Я использую PPO+LSTM для создания торгового бота. Агент обучен на 3-летних данных и протестирован на 1 год. Каждый раз, когда я обучаю агента с одним и тем же набором гиперпараметров, я получаю очень разные результаты на тестовых данных (изменение портфеля по окончании периода тестирования). Я думаю...

Читать оригинал Подробнее

Почему LLM нуждаются в масштабном распределенном обучении через узлы — если модели помещаются на одном GPU, а уменьшение размера пакета снижает дисперсию градиентов?

2023-02-16 17:45:37

Почему большим языковым моделям (LLM) требуется массовая распределенная тренировка по узлам — если модели помещаются в одну GPU и увеличение размера пакета лишь уменьшает дисперсию градиентов? tldr: предполагая, что для моделей, которым не нужен шардинг по узлам, почему нам нужна (массовая) распреде...

Читать оригинал Подробнее

Какая наилучшая архитектура нейронной сети для обнаружения объектов, которые определяются только по границам?

2023-02-15 08:37:34

У меня задача по цифровизации документов, где я хочу обнаруживать технические чертежи на изображениях. Эти изображения в основном состоят из объектов, образованных комбинацией фигур, таких как линии, окружности и прямоугольники. Вот пример: Что я ожидаю получить в результате – обнаружение всех "объе...

Читать оригинал Подробнее

Какой алгоритм машинного обучения наиболее подходит для рекомендательных систем, основанных на опросах, для университетов и потенциальных студентов?

2023-02-14 17:30:42

Для курсового проекта необходимо разработать алгоритм машинного обучения, в котором пользователь заполняет форму, а алгоритм анализирует наиболее подходящий университет на основе ответов. Я новичок в области машинного обучения и не знаю, какой тип алгоритма мы можем использовать. Является ли рекомен...

Читать оригинал Подробнее

Изменение количества эпох изменяет потери на `x`-й эпохе.

2023-02-07 22:40:28

Во время обучения нейронной сети тестовая потеря достигла минимума на x-й эпохе, после чего я повторил обучение, установив максимальную эпоху равной x. Меня удивляет, что тестовая потеря во втором запуске сильно отличается от первой на эпохе x, хотя все остальные гиперпараметры остались теми же. Еди...

Читать оригинал Подробнее

Что может вызвать разницу в значении потерь при обучении на той же эпохе «x» при повторном обучении модели?

2023-02-07 22:40:28

Во время обучения нейронной сети тестовая ошибка достигла минимума на x-й эпохе. Затем я повторил обучение, установив максимальную эпоху равной x. Для меня удивительно, что тестовая ошибка во втором запуске на x-й эпохе сильно отличалась от первой, хотя все остальные гиперпараметры были одинаковыми....

Читать оригинал Подробнее

Что может вызвать разницу в потере обучения на одной и той же эпохе "x" при повторном обучении модели?

2023-02-07 22:40:28

Во время обучения нейронной сети тестовая потеря достигла своего минимума наx-й эпохе. Затем я повторно запустил обучение с максимальным числом эпох, установленным какx. То, что меня удивляет, это то, что тестовая потеря во втором запуске была очень отличной от первого наx-й эпохе, несмотря на то, ч...

Читать оригинал Подробнее

Каковы современные достижения (по крайней мере частично) символьных/логических чат-ботов/ИИ-ассистентов?

2023-01-28 21:37:37

ChatGPT в последнее время привлекает много внимания, и это заслуженно. Он демонстрирует впечатляющие способности в ответах на новую информацию, а также в обобщении предоставленных данных. Однако ChatGPT также регулярно допускает логические и математические ошибки. Некоторые отмечают, что он действит...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)