Sciact
  • EN
  • RU

Дифференциальная игра «преследование-уклонение» на основе обучения с подкреплением Full article

Journal Математические структуры и моделирование
ISSN: 2222-8772 , E-ISSN: 2222-8799
Output data Year: 2024, Number: 3, Pages: 84-93 Pages count : 10 DOI: 10.24147/2222-8772.2024.3.84-93
Tags оптимальное управление, машинное обучение, обучение с подкреплением
Authors Чуканов С.Н. 1 , Чуканов И.С. 2 , Лейхтер С.В. 3
Affiliations
1 Омский филиал Института математики им. С.Л. Соболева СО РАН
2 Уральский федеральный университет имени первого Президента России Б.Н. Ельцина
3 Омский государственный университет им. Ф.M. Достоевского

Abstract: В работе рассмотрены алгоритмы оптимального управления, основанные на схемах обучения актор/критик с подкреплением (RL). Алгоритмы используются для решения задач преследования-уклонения (PE) дифференциальных игр. Работа фокусируется на реализации решения политики агента в соответствии с концепцией адаптивного динамического программирования. Суть решения задачи PE-игры заключается в получении политики управления каждого агента (преследователя и уклоняющегося) с обеих сторон игры. В работе предложен метод адаптивного динамического программирования (ADP) для решения равновесных политик Нэша в дифференциальных играх преследования-уклонения для двух игроков. Используется метод аппроксимации функции стоимости для расчёта параметров нейросети (NN) без непосредственного решения уравнения Гамильтона-Якоби.
Cite: Чуканов С.Н. , Чуканов И.С. , Лейхтер С.В.
Дифференциальная игра «преследование-уклонение» на основе обучения с подкреплением
Математические структуры и моделирование. 2024. №3. С.84-93. DOI: 10.24147/2222-8772.2024.3.84-93 РИНЦ OpenAlex
Dates:
Submitted: May 1, 2024
Published print: Oct 17, 2024
Published online: Oct 17, 2024
Identifiers:
Elibrary: 72302423
OpenAlex: W4404339857
Citing: Пока нет цитирований
Altmetrics: