Упорядочите следующие шаги в обучении модели Policy Gradients в - Ответ на вопрос №1000467
-11%
Вопрос
Упорядочите следующие шаги в обучении модели Policy Gradients в порядке их выполнения:- 1 генерация нескольких эпизодов с помощью текущей политики
- 2 вычисление функции потери
- 3 расчёт градиента функции потери по параметрам политики
- 4 обновление параметров политики с помощью градиентного спуска
- 5 повторение шагов a-d до достижения сходимости
Ответ
Этот вопрос в коллекциях
-16%














