Дифференциальная игра «преследование-уклонение» на основе обучения с подкреплением Научная публикация
| Журнал |
Математические структуры и моделирование
ISSN: 2222-8772 , E-ISSN: 2222-8799 |
||||||
|---|---|---|---|---|---|---|---|
| Вых. Данные | Год: 2024, Номер: 3, Страницы: 84-93 Страниц : 10 DOI: 10.24147/2222-8772.2024.3.84-93 | ||||||
| Ключевые слова | оптимальное управление, машинное обучение, обучение с подкреплением | ||||||
| Авторы |
|
||||||
| Организации |
|
Реферат:
В работе рассмотрены алгоритмы оптимального управления, основанные на схемах обучения актор/критик с подкреплением (RL). Алгоритмы используются для решения задач преследования-уклонения (PE) дифференциальных игр. Работа фокусируется на реализации решения политики агента в соответствии с концепцией адаптивного динамического программирования. Суть решения задачи PE-игры заключается в получении политики управления каждого агента (преследователя и уклоняющегося) с обеих сторон игры. В работе предложен метод адаптивного динамического программирования (ADP) для решения равновесных политик Нэша в дифференциальных играх преследования-уклонения для двух игроков. Используется метод аппроксимации функции стоимости для расчёта параметров нейросети (NN) без непосредственного решения уравнения Гамильтона-Якоби.
Библиографическая ссылка:
Чуканов С.Н.
, Чуканов И.С.
, Лейхтер С.В.
Дифференциальная игра «преследование-уклонение» на основе обучения с подкреплением
Математические структуры и моделирование. 2024. №3. С.84-93. DOI: 10.24147/2222-8772.2024.3.84-93 РИНЦ OpenAlex
Дифференциальная игра «преследование-уклонение» на основе обучения с подкреплением
Математические структуры и моделирование. 2024. №3. С.84-93. DOI: 10.24147/2222-8772.2024.3.84-93 РИНЦ OpenAlex
Даты:
| Поступила в редакцию: | 1 мая 2024 г. |
| Опубликована в печати: | 17 окт. 2024 г. |
| Опубликована online: | 17 окт. 2024 г. |
Идентификаторы БД:
| РИНЦ: | 72302423 |
| OpenAlex: | W4404339857 |
Цитирование в БД:
Пока нет цитирований