Translation: How to create a Q-Learning agent when we have a matrix as an action space?

2020-10-17 14:36:47

Краткое содержание

English: Translate each block from English to Russian. Each block is marked with <<<N>>>. Keep the exact same format in the output:

Полный текст

Как создать агента Q-обучения, когда у нас есть матрица в качестве пространства действий? Задайте вопрос

Спросили 5 лет, 4 месяца назад Изменено сегодня Просмотрено 602 раза
Спросили 5 лет, 4 месяца назад

1 $\begingroup$ У меня матрица 2-мерных измерений в качестве пространства действий, строки представляют собой ресурсы для выделения, а столбцы — пользователи, которым будут выделены ресурсы. (Я создал собственную среду RL) Возможные действия «Ноль» или «Один». Один, если ресурс был выделен пользователю, ноль, если нет. У меня есть ограничение, связанное с выделением ресурсов, которое гласит, что каждый ресурс может быть выделен только одному пользователю, и ресурс должен быть выделен только тем пользователям, которые запросили выделение ресурсов для них, и это будет пространство состояний, которое является еще одной матрицей. Наложение штрафа применяется, если агент нарушает ограничения, и эпизод завершается, а награда равна штрафу. В противном случае награда равна сумме всех удовлетворенных пользователей. Я испытываю трудности с реализацией. Агент начинает с исследования, затем постепенно начинает использовать. Когда он становится более эксплуататорским, я заметил, что значения в матрице действий установлены всеми «Один», и штраф всегда имеет одинаковое значение из эпизода в эпизод. reinforcement-learning python q-learning Поделиться Улучшить этот вопрос Следить

2 $\begingroup$ Как развивается пространство состояний? Если оно фиксировано для эпизода, или изменяется независимо от предпринятых действий, тогда это может быть больше похоже на контекстную бандлинг ситуацию, чем полную RL. Возможно, лучше решить эту проблему с помощью оптимизации ограничений с использованием другого инструмента, чем RL, поэтому можете ли вы уточнить, является ли целью здесь решение проблемы или обучение RL? Neil Slater – Neil Slater 2020-10-17 15:45:36 +00:00 Комментарий 2020-10-17 15:45
можете ли вы привести пример ? Начальные данные и оптимальное решение. pasaba por aqui – pasaba por aqui 2020-10-17 18:06:49 +00:00 Комментарий 2020-10-17 18:06 Добавить комментарий | 1 Ответ 1 Отсортировано по: Сбросить по умолчанию Наивысший балл (по умолчанию) Измененный дата (от новых к старым) Созданный дата (от старых к новым) 0 $\begingroup$ Я думаю, что эта стратегия может сработать. Итак, Q-обучение принимает вектор в качестве представления состояния, допустим, ваш вектор имеет n измерений, то есть [ $n_0$ , $n_1$ , $n_2$ ,..., $n_{n-1}$ ] Теперь, исходя из моего понимания, вы хотите заполнить матрицу значениями 0 и 1 на основе вектора состояния, но пространство действий имеет высокую сложность, например, матрица 8x8 имеет 64 ячейки, то есть $2^{64}$ возможных действий, если вы хотите, чтобы действие было матрицей. Я предлагаю следующий подход: заполняйте каждую ячейку по очереди. То есть ваш агент может выполнять только два возможных действия 0 и 1. Чтобы указать вашему агенту, что вы находитесь в определенной ячейке, объедините номер строки и столбца с вектором состояния перед передачей его в качестве входных данных в агент Q-обучения. Пример: если ваш исходный вектор состояния равен [55, 22, 100, 4] и вам нужно заполнить ячейку в позиции (10, 30) матрицы, вектор состояния должен быть изменен следующим образом: [55, 22, 100, 4, 10, 30]. Я не уверен в эффективности этого подхода. Поделиться Улучшить этот ответ Следить
Ответил 2020-10-18 0:55 rert588 330 1 1 серебряная медаль 7 7 бронзовая медаль $\endgroup$ Добавить комментарий | Вам необходимо войти, чтобы ответить на этот вопрос. Задайте вопрос для получения ответов Найдите ответ на свой вопрос, задав его. Задайте вопрос Исследуйте связанные вопросы reinforcement-learning python q-learning

Читать оригинал статьи