Упорядочите следующие шаги в алгоритме Policy Gradients в - Ответ на вопрос по НС №1000461
-37%
Вопрос
Упорядочите следующие шаги в алгоритме Policy Gradients в порядке их выполнения:- 1 вычисление вероятностей каждого действия с помощью текущей политики
- 2 вычисление функции вознаграждения по эпизоду
- 3 вычисление градиента логарифма вероятности выбранного действия
- 4 обновление параметров политики с помощью градиентного спуска
- 5 выбор действия на основе вероятностей, вычисленных ранее
Ответ
Этот вопрос в коллекциях
-16%




















