On Guaranteed Estimate of Deviations from the Target Set in a Control Problem under Reinforcement Learning
- Autores: Chistiakov I.A1
-
Afiliações:
- Edição: Nº 1 (2025)
- Páginas: 80-98
- Seção: Intellectual control systems, data analysis
- URL: https://journal-vniispk.ru/0005-2310/article/view/284566
- DOI: https://doi.org/10.31857/S0005231025010057
- EDN: https://elibrary.ru/JQKKTQ
- ID: 284566
Citar
Resumo
Рассматривается задача целевого управления объектом, движение которого описывается системой дифференциальных уравнений специального вида, где присутствуют нелинейные члены, зависящие от фазовых переменных. На примере алгоритма Proximal Policy Optimization (PPO) показано, что с помощью обучения с подкреплением можно получить позиционную стратегию управления, решающую задачу приближенно. Эта стратегия далее аппроксимируется кусочно-аффинным управлением, для которого на основе метода динамического программирования строится гарантированная априорная оценка попадания траектории в целевое множество. Для этого осуществляется переход к вспомогательной задаче для кусочно-аффинной системы с помехой и вычисляется кусочно-квадратичная оценка функции цены как приближенное решение уравнения Гамильтона–Якоби–Беллмана.
Bibliografia
- Незнахин А.А., Ушаков В.Н. Сеточный метод приближенного построения ядра выживаемости для дифференциального включения // Журн. вычисл. мат. и мат. физики. 2001. Т. 41. № 6. С. 895–908.
- Goubault E., Putot S. Inner and Outer Reachability for the Verification of Control Systems // Proceedings of the 22nd ACM International Conference on Hybrid Systems: Computation and Control. 2019. P. 11–22. https://doi.org/10.1145/3302504.3311794
- Shafa T., Ornik M. Reachability of Nonlinear Systems with Unknown Dynamics. 2021. https://doi.org/10.48550/arXiv.2108.11045
- Garrido S., Moreno L.E., Blanco D., Jurewicz P.P. Optimal control using the Fast Marching Method // 35th Annual Conference of IEEE Industrial Electronics. 2009. P. 1669–1674. https://doi.org/10.1109/IECON.2009.5414750
- Субботина Н.Н., Токманцев Т.Б. Классические характеристики уравнения Беллмана в конструкциях сеточного оптимального синтеза // Тр. мат. ин-та им. В.А. Стеклова. 2010. Т. 271. С. 259–277.
- Xue B., Fra¨nzle M., Zhan N. Inner-Approximating Reachable Sets for Polynomial Systems with Time-Varying Uncertainties // IEEE Transact. Autom. Control. 2019. V. 65. No. 4. P. 1468–1483. https://doi.org/10.1109/TAC.2019.2923049.
- Lee D., Tomlin C.J. Efficient Computation of State-Constrained Reachability Problems Using Hopf–Lax Formulae // IEEE Transact. Autom. Control. 2023. P. 1– 15. https://doi.org/10.1109/TAC.2023.3241180
- Cheng T., Lewis F.L., Abu–Khalaf M. Fixed-Final-Time-Constrained Optimal Control of Nonlinear Systems Using Neural Network HJB Approach // IEEE Transactions on Neural Networks. 2007. V. 18. No. 6. P. 1725–1737. https://doi.org/10.1109/TNN.2007.905848
- Onken D., Nurbekyan L., Li X., et al. A Neural Network Approach for HighDimensional Optimal Control Applied to Multiagent Path Finding // IEEE Transact. Control Syst. Techn. 2023. V. 31. No. 1. P. 235–251. https://doi.org/10.1109/TCST.2022.3172872
- Sa´nchez–S´anchez C., Izzo D., Hennes D. Learning the optimal state-feedback using deep networks // 2016 IEEE Symposium Series on Computational Intelligence. 2016. P. 1–8. https://doi.org/10.1109/SSCI.2016.7850105
- Tochilin P.A. Piecewise affine feedback control for approximate solution of the target control problem // IFAC-PapersOnLine. 2020. V. 53. No. 2. P. 6127–6132. https://doi.org/10.1016/j.ifacol.2020.12.1691
- Точилин П.А. О построении кусочно-аффинной функции цены в задаче оптимального управления на бесконечном отрезке времени // Тр. ин-та мат. и механики УрО РАН. 2020. Т. 26. № 1. С. 223–238. https://doi.org/10.21538/0134-4889-2020-26-1-223-238
- Чистяков И.А., Точилин П.А. Применение кусочно-квадратичных функций цены для приближенного решения нелинейной задачи целевого управления // Дифференциальные уравнения. 2020. Т. 56. № 11. С. 1545–1554. https://doi.org/10.1134/S0374064120110126
- Куржанский А.Б. Принцип сравнения для уравнений типа Гамильтона–Якоби в теории управления // Тр. ин-та мат. и механики УрО РАН. 2006. Т. 12. № 1. С. 173–183.
- Kurzhanski A.B., Varaiya P. Dynamics and control of trajectory tubes. Theory and computation. Birkha¨user, 2014. https://doi.org/10.1007/978-3-319-10277-1
- Саттон Р.С., Барто Э.Г. Обучение с подкреплением. М.: ДМК пресс, 2020.
- Schulman J., Wolski F., Dhariwal P., et al. Proximal policy optimization algorithms. 2017. https://doi.org/10.48550/arXiv.1707.06347
- Пшеничный Б.Н. Выпуклый анализ и экстремальные задачи. М.: Наука, 1980.
- Скворцов А.В., Мирза Н.С. Алгоритмы построения и анализа триангуляции. Томск: Изд-во Том. ун-та, 2006.
- Rajan V.T. Optimality of the Delaunay triangulation in Rd // Discrete & Computational Geometry. 1994. V. 12. No. 2. P. 189–202. https://doi.org/10.1007/BF02574375
- Brown K.Q. Voronoi diagrams from convex hulls // Inform. Proc. Lett. 1979. V. 9. No. 5. P. 223–228. https://doi.org/10.1016/0020-0190(79)90074-7
- Liberzon D. Switching in Systems and Control. Birkhauser, 2003. https://doi.org/10.1007/978-1-4612-0017-8
- Bardi M., Capuzzo-Dolcetta I. Optimal control and viscosity solutions of HamiltonJacobi-Bellman equations. Ser. Systems & Control: Foundations & Applications. Boston: Birkha¨user, 2008. https://doi.org/10.1007/978-0-8176-4755-1
- Lillicrap T.P., Hunt J.J., Pritzel A., et al. Continuous control with deep reinforcement learning. 2019. https://doi.org/10.48550/arXiv.1509.02971
- Haarnoja T., Zhou A., Abbeel P., Levine S. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor. 2018. https://doi.org/10.48550/arXiv.1801.01290
- Raffin A., Hill A., Gleave A., et al., Stable-Baselines3: Reliable Reinforcement Learning Implementations // J. Machin. Lear. Res. 2021. V. 22. No. 268. P. 1–8.
- Petrazzini I.G.B., Antonelo E.A. Proximal Policy Optimization with Continuous Bounded Action Space via the Beta Distribution // 2021 IEEE Symposium Series on Computational Intelligence (SSCI). 2022. P. 1–8. https://doi.org/10.1109/SSCI50451.2021.9660123
- Reissig G. Computing Abstractions of Nonlinear Systems // IEEE Transact. Autom. Control. 2011. V. 56. No. 11. P. 2583–2598. https://doi.org/10.1109/TAC.2011.2118950
- Голубев Ю.Ф. Нейронные сети в мехатронике // Фундамент. и прикл. матем. 2005. Т. 11. № 8. С. 81–103.
- Ли Э.Б., Маркус Л. Основы теории оптимального управления. М.: Наука, 1972.
Arquivos suplementares

