← Вернуться к списку

Почему мой агент застрял на одной и той же действия в моей программе с двумя задержками глубокого детерминированного градиента политики (TD3)?

Краткое содержание

Я неоднократно переводил программу обучения с подкреплением из Python на JavaScript с использованием TensorFlow.js, реализующую алгоритм Twin Delayed Deep Deterministic Policy Gradient (TD3). Я просто создаю базовый план для себя и сообщества. Вложив много работы, я чувствую, что она должна быть в основном завершена, но не могу понять, почему агент так быстро сходится к одному выбору действия (даже при наказании за это, даже после 300 итераций). Проверил переменные потерь, и они кажутся работающими как надо. Хотя я отлично владею JavaScript и хорошо понимаю, как всё работает, у меня нет профессионального опыта работы с Python или TensorFlow.js (ещё нет). Мне нужны люди с опытом в следующих областях для проверки моего кода: обучение с подкреплением, TD3 (или DDPG), TensorFlow.js. Всё это на GitHub по адресу https://github.com/CloudZero2049/TD3-TensorFlowJS. Все данные о проекте находятся в README. Скрипт TD3script.js: Я неоднократно переводил программу обучения с подкреплением из Python на JavaScript, используя TensorFlow.js для реализации алгоритма Twin Delayed Deep Deterministic Policy Gradient (TD3). Я создаю базовую структуру для себя и сообщества. Вложив значительные усилия, я чувствую, что она должна быть в основном завершена, но не могу понять, почему агент так быстро сходится к одному выбору действия (даже при наказании за это, даже после 300 итераций). Проверил переменные потерь, они работают как ожидается. Хотя я хорошо разбираюсь в JavaScript и понимаю все детали, у меня нет профессионального опыта работы с Python или TensorFlow.js (еще нет). Мне нужны люди с опытом в следующих областях для проверки моего кода: обучение с подкреплением, TD3 (или DDPG), TensorFlow.js. Все материалы проекта находятся на GitHub по адресу https://github.com/CloudZero2049/TD3-TensorFlowJS. Информация о проекте содержится в README. Скрипт TD3script.js: Перевод с сохранением технических терминов и оригинального стиля: Я неоднократно переводил программу обучения с подкреплением из Python на JavaScript, используя TensorFlow.js для реализации алгоритма Twin Delayed Deep Deterministic Policy Gradient (TD3). Я создаю базовый план для себя и сообщества. Вложив много работы, я чувствую, что она должна быть в основном завершена, но не могу понять, почему агент так быстро сходится к одному выбору действия (даже при наказании за это, даже после 300 итераций). Проверил переменные потерь, они работают как ожидается. Хотя я хорошо разбираюсь в JavaScript и понимаю все детали, у меня нет профессионального опыта работы с Python или TensorFlow.js (еще нет). Мне нужны люди с опытом в следующих областях для проверки моего кода: обучение с подкреплением, TD3 (или DDPG), TensorFlow.js. Все материалы проекта находятся на GitHub по адресу https://github.com/CloudZero2049/TD3-TensorFlowJS. Информация о проекте содержится в README. Скрипт TD3script.js: **Перевод с сохранением технических терминов и оригинального стиля:** Я неоднократно переводил программу обучения с подкреплением из Python на JavaScript, используя TensorFlow.js для реализации алгоритма Twin Delayed Deep Deterministic Policy Gradient (TD3). Я создаю базовый план для себя и сообщества. Вложив много работы, я чувствую, что она должна быть в основном завершена, но не могу понять, почему агент так быстро сходится к одному выбору действия (даже при наказании за это, даже после 300 итераций). Проверил переменные потерь, они работают как ожидается. Хотя я хорошо разбираюсь в JavaScript и понимаю все детали, у меня нет профессионального опыта работы с Python или TensorFlow.js (еще нет). Мне нужны люди с опытом в следующих областях для проверки моего кода: обучение с подкреплением, TD3 (или DDPG), TensorFlow.js. Все материалы проекта находятся на GitHub по адресу [https://github.com/CloudZero2049/TD3-TensorFlowJS](https://github.com/CloudZero2049/TD3-TensorFlowJS). Информация о проекте содержится в README. Скрипт TD3script.js: **Перевод с сохранением технических терминов и оригинального стиля:** Я неоднократно переводил программу обучения с подкреплением из Python на JavaScript, используя TensorFlow.js для реализации алгоритма Twin Delayed Deep Deterministic Policy Gradient (TD3). Я создаю базовый план для себя и сообщества. Вложив много работы, я чувствую, что она должна быть в основном завершена, но не могу понять, почему агент так быстро сходится к одному выбору действия (даже при наказании за это, даже после 300 итераций). Проверил переменные потерь, они работают как ожидается. Хотя я хорошо разбираюсь в JavaScript и понимаю все детали, у меня нет профессионального опыта работы с Python или TensorFlow.js (еще нет). Мне нужны люди с опытом в следующих областях для проверки моего кода: обучение с подкреплением, TD3 (или DDPG), TensorFlow.js. Все материалы проекта находятся на GitHub по адресу [https://github.com/CloudZero2049/TD3-TensorFlowJS](https://github.com/CloudZero2049/TD3-TensorFlowJS). Информация о проекте содержится в README. Скрипт TD3script.js: **Перевод:** Я неоднократно переводил программу обучения с подкреплением из Python на JavaScript, используя TensorFlow.js для реализации алгоритма Twin Delayed Deep Deterministic Policy Gradient (TD3). Я создаю базовый план для себя и сообщества. Вложив много работы, я чувствую, что она должна быть в основном завершена, но не могу понять, почему агент так быстро сходится к одному выбору действия (даже при наказании за это, даже после 300 итераций). Проверил переменные потерь, они работают как ожидается. Хотя я хорошо разбираюсь в JavaScript и понимаю все детали, у меня нет профессионального опыта работы с Python или TensorFlow.js (еще нет). Мне нужны люди с опытом в следующих областях для проверки моего кода: обучение с подкреплением, TD3 (или DDPG), TensorFlow.js. Все материалы проекта находятся на GitHub по адресу [https://github.com/CloudZero2049/TD3-TensorFlowJS](https://github.com/CloudZero2049/TD3-TensorFlowJS). Информация о проекте содержится в README. Скрипт TD3script.js: **Перевод с сохранением технических терминов и оригинального стиля:** Я неоднократно переводил программу обучения с подкреплением из Python на JavaScript, используя TensorFlow.js для реализации алгоритма Twin Delayed Deep Deterministic Policy Gradient (TD3). Я создаю базовый план для себя и сообщества. Вложив много работы, я чувствую, что она должна быть в основном завершена, но не могу понять, почему агент так быстро сходится к одному выбору действия (даже при наказании за это, даже после 300 итераций). Проверил переменные потерь, они работают как ожидается. Хотя я хорошо разбираюсь в JavaScript и понимаю все детали, у меня нет профессионального опыта работы с Python или TensorFlow.js (еще нет). Мне нужны люди с опытом в следующих областях для проверки моего кода: обучение с подкреплением, TD3 (или DDPG), TensorFlow.js. Все материалы проект

Полный текст статьи пока не загружен.