Главная - AST-AIHub

OpenAI: GPT-3.5 Turbo 16K (openai/gpt-3.5-turbo-0125)

2023-05-28 00:00:00

Последняя версия модели GPT-3.5 Turbo с улучшенной обработкой инструкций, поддержкой формата JSON, воспроизводимыми результатами, параллельным вызовом функций и прочими улучшениями. Обучающие данные: до сентября 2021 года. Эта версия обладает повышенной точностью при формировании ответов в запрашив...

Читать оригинал Подробнее

OpenAI: GPT-4 (openai/gpt-4) (перевод идентичен оригиналу, поскольку это название модели и компании — перевод здесь неуместен)

2023-05-28 00:00:00

Ключевая модель OpenAI — GPT-4 представляет собой масштабную мультимодальную языковую модель, способную решать сложные задачи с большей точностью по сравнению с предыдущими моделями благодаря своему широкому общему знанию и продвинутым возможностям рассуждения. Обучающие данные: до сентября 2021 год...

Читать оригинал Подробнее

Существует ли рекомендованный ресурс, который предоставляет подробное описание нормы градиента?

2023-05-27 17:38:54

Когда речь идет о понятии "Градиентная норма", может быть сложно найти широко признанный и четко определенный ресурс, который предлагает исчерпывающее объяснение. Хотя многие результаты поиска включают сведения от экспертов в области машинного обучения или ссылки на статьи, затрагивающие градиентную...

Читать оригинал Подробнее

Что такое «справедливость» в машинном обучении?

2023-05-21 09:12:31

Как определить понятие справедливости в машинном обучении? Я видел этот термин много раз, но никогда не использовал его самостоятельно в исследованиях (1,2). Существует ли общепринятое определение справедливости в машинном обучении? Какие различные аспекты справедливости? Или интуиция, стоящая за по...

Читать оригинал Подробнее

Нужно ли замораживать слои при тонкой настройке большой языковой модели (LLM)?

2023-05-18 16:07:04

У меня было представление, что вообще говоря, лучше замораживать слои при тонкой настройке языковой модели, согласно следующей цитате из статьи Hugging Face: «Подходы PEFT настраивают лишь небольшое количество (дополнительных) параметров модели, оставляя замороженными большинство параметров предва...

Читать оригинал Подробнее

Каков обычно используемый порог для определения сходимости значений потерь в глубоком обучении?

2023-05-17 04:18:03

В глубоком обучении один из способов определить, сошлась ли тренировка, — наблюдать за изменением значений функции потерь в течение итераций или эпох. Можно выбрать любой порог $\epsilon$ и любую метрику. Если значение меньше $\epsilon$, то тренировка сошлась. Мой вопрос: какого размера значение $\e...

Читать оригинал Подробнее

Является ли задача языкового моделирования хорошо поставленной задачей обучения?

2023-05-09 15:45:52

Хадамард определяет корректно поставленную задачу как такую, для которой: существует решение; решение единственно; решение непрерывно зависит от данных (например, оно устойчиво). Теперь рассмотрим модель языка с авто-регрессией, где цель предварительного обучения состоит в предсказании следующего то...

Читать оригинал Подробнее

Оптимизация функции чёрного ящика с бинарными состояниями

2023-04-24 10:02:33

У меня есть нелинейная функция-черный ящик, которая принимает вектор (размер=250) в качестве входных данных и выдает скалярное значение: f(x) = value. Переменная x является вектором размером 250 и содержит бинарные элементы, например: x = [0, 1, 1, 1, 0, 0, ...] Результат представляет собой только с...

Читать оригинал Подробнее

Изменяется ли количество полностью связанных нейронных сетей в архитектуре трансформера в зависимости от максимального размера входного текста?

2023-04-23 11:30:32

Учитывая архитектуру энкодера и декодера в трансформере, как показано ниже: каждый входной токен после механизма self‑attention (z1, z2, z3, ...) проходит через свой отдельный Feed‑forward нейронный слой или все Z собираются в один массив и передаются в один FFNN? Если все Z собираются в один массив...

Читать оригинал Подробнее

Как представить входные векторы в нейронной сети с использованием матричной нотации?

2023-04-16 08:18:18

Я постоянно оказываюсь в замешательстве, когда пытаюсь визуализировать нейронную сеть с входными векторами и весами. Допустим, у меня есть такой ввод: Вход 1 Вход 2 Вход 3 Вывод 1 2 3 13 4 6 0 6 8 1 11 Предполагая, что у меня один скрытый слой с 3 нейронами и 2 выходными нейронами, я хотел бы узна...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)