Для студентов РУДН по предмету ДругиеУлучшенный мультиагентный детерминированный метод градиента политики с глубоким обучением для класса задач прикладного мультиагентного моделированияУлучшенный мультиагентный детерминированный метод градиента политики с глубоким обучением для класса задач прикладного мультиагентного моделирования
2024-11-142024-11-14СтудИзба
Улучшенный мультиагентный детерминированный метод градиента политики с глубоким обучением для класса задач прикладного мультиагентного моделирования
Описание
Оглавление
Введение
Постановка задачи.
Задача обучения с подкреплением для одного агента
Задача обучения с подкреплением для нескольких агентов
Обзор литературы
Глава 1. Методы машинного обучения с подкреплением.
1.1. Классические подходы к обучению с подкреплением
1.2. Мультиагентный детерминированный метод градиента политики с глубоким обучением (MADDPG)
Глава 2. Усовершенствование MADDPG
Глава 3. Эксперименты
3.1. Выбор и описание среды экспериментов
3.2. Исследование зависимости времени обучения от количества обучаемых агентов
3.3. MADDPG с сокращённым списком агентов с обновлениями
3.4 MADDPG с сокращённым списком агентов без обновлений
Заключение
Список литературы
Одна из концепций машинного обучения, особенно бурно развивающаяся в настоящее время – обучение с подкреплением (ОП). ОП рассматривает обучаемую систему – агента в его взаимодействии со средой. В процессе обучения агент «выясняет», какие его действия (или последовательности действий) приводят к наиболее благоприятной реакции среды, тем самым достигая оптимального в некотором смысле поведения.
ОП имеет приложения в самых различных сферах человеческой деятельности, среди которых:
Введение
Постановка задачи.
Задача обучения с подкреплением для одного агента
Задача обучения с подкреплением для нескольких агентов
Обзор литературы
Глава 1. Методы машинного обучения с подкреплением.
1.1. Классические подходы к обучению с подкреплением
1.2. Мультиагентный детерминированный метод градиента политики с глубоким обучением (MADDPG)
Глава 2. Усовершенствование MADDPG
Глава 3. Эксперименты
3.1. Выбор и описание среды экспериментов
3.2. Исследование зависимости времени обучения от количества обучаемых агентов
3.3. MADDPG с сокращённым списком агентов с обновлениями
3.4 MADDPG с сокращённым списком агентов без обновлений
Заключение
Список литературы
Введение
Быстрое развитие высоких технологий, наблюдаемое в последние десятилетия, неизбежно поднимает вопрос о возможности моделирования человеческого сознания искусственным интеллектом, способным не только действовать по заранее заложенной в него программе, но и обучаться решению некоторых задач в ходе своей работы. Ответом на этот вопрос стало формирование машинного обучения, как раздела науки, исследующего различные подходы к накоплению таким интеллектом опыта и обучения его принятию решений исходя из этого опыта.Одна из концепций машинного обучения, особенно бурно развивающаяся в настоящее время – обучение с подкреплением (ОП). ОП рассматривает обучаемую систему – агента в его взаимодействии со средой. В процессе обучения агент «выясняет», какие его действия (или последовательности действий) приводят к наиболее благоприятной реакции среды, тем самым достигая оптимального в некотором смысле поведения.
ОП имеет приложения в самых различных сферах человеческой деятельности, среди которых:
- Робототехника [7]
Характеристики курсовой работы
Список файлов
Улучшенный мультиагентный детерминированный метод градиента политики с глубоким обучением для класса задач прикладного мультиагентного моделирования.docx