A general algorithm for eliminating critical conditions for solving the problem of controlling a real walking robot based on deep reinforcement learning methods

Cover Page

Cite item

Full Text

Abstract

The object of the study is a mobile walking robot with two or more movable articulated limbs. The concept of a "critical condition" is introduced, in which the mechanism balances on the verge of falling (but does not fall) or there is a possibility of damage to mechanical components due to the generation of unacceptable joint angles. The subject of the study is a general algorithm for the elimination of critical conditions, which provides the possibility of training an agent based on a deep reinforcement learning algorithm directly on a real robot, without the risk of damaging its mechanisms and interrupting the process of interaction with the environment to restore a stable state. The purpose of this work is to develop a general algorithm for the elimination of critical conditions in the context of adaptive control of a walking robot based on deep learning algorithms with reinforcement. A comparison was made between the proposed and standard methods of applying deep OP on a real robot. The experiments were conducted on 6,000 episodes, with a dimension of 300 steps each. The following quality metrics were selected for evaluation: the percentage of episodes without an actual fall, the percentage of fully completed episodes, and the maximum episode length. The algorithm is based on the concept of "critical condition" and uses the following principles and methods: the "trial and error" method, the feedback principle, holding the projection of the center of gravity point in the area of the polygon formed by the points of contact of the limbs with the work surface, which ensures the balancing of the structure and allows you to determine the boundary areas in which the robot is still stable. The scientific novelty of the work lies in the proposed approach, which allows an intelligent agent to control a physical robot "directly", without pre-configuration in a simulation environment with subsequent transfer implementation. The proposed algorithm is not aimed at improving the agent's performance, but is intended to provide greater autonomy in the learning process of the robot, directly in the hardware. The basic idea is to immediately respond to a critical condition in the form of the fastest sequential return to a certain number of steps back along the decision-making trajectory, ensuring that the agent remains in a stable and safe state at all times. The method of proximal policy optimization (PPO) was used as a method of deep reinforcement learning. As a result of the comparative analysis, the proposed algorithm demonstrated a hundredfold increase in the stability of the mechanism.

References

  1. Саттон, Р. С. Обучение с подкреплением: Введение. 2-е изд. : Пер. с англ. / Р. Саттон, Э. Барто. – Москва : ДМК Пресс, 2020. – 552 с. : ил. – ISBN 978-5-97060-097-9.
  2. Моралес, Мигель. Грокаем глубокое обучение с подкреплением : учебное пособие / М. Моралес. – Санкт-Петербург : Питер, 2023. – 464 с. : ил. – (Серия "Библиотека программиста"). – ISBN 978-5-4461-3944-6.
  3. Уиндер, Ф. Обучение с подкреплением для реальных задач / пер. с англ. – СПб.: БХВ-Петербург, 2023. – 400 с. : ил. – ISBN 978-5-9775-6885-2.
  4. Ришал Харбанс. Грокаем алгоритмы искусственного интеллекта. – СПб.: Питер, 2023. – 368 с.: ил. – (Серия "Библиотека программиста"). – ISBN 978-5-4461-2924-9.
  5. Кашко, В. В. Применение методов обучения с подкреплением для реализации движения шагающих роботов / В. В. Кашко, С. А. Олейникова // Современные информационные технологии. Теория и практика. – 2024. – С. 256-262. – EDN: GRDVBI.
  6. Кашко, В. В. Анализ методов обучения с подкреплением для управления роботизированными системами / В. В. Кашко, С. А. Олейникова // Инновационные технологии: теория, инструменты, практика. – 2024. – Т. 1. – С. 133-140. – EDN: LTXEUX.
  7. Юревич, Е. И. Основы робототехники – 4-е изд., перераб. и доп.: учебное пособие / Е. Юревич. – СПб.: БХВ-Петербург, 2017. – 304 с.: ил. – (Учебная литература для вузов). – ISBN 978-5-9775-3851-0.
  8. Y. Shao, Y. Jin, X. Liu, W. He, H. Wang, and W. Yang, “Learning free gait transition for quadruped robots via phase-guided controller,” IEEE Robotics and Automation Letters, vol. 7, no. 2, pp. 1230-1237, 2021.
  9. X. B. Peng, M. Andrychowicz, W. Zaremba, and P. Abbeel, “Sim-to-real transfer of robotic control with dynamics randomization,” in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 3803-3810.
  10. Gangapurwala, S., Mitchell, A., and Hacoutis, I. Guided constrained policy optimization for dynamic quadrupedal robot locomotion. IEEE Robot. Autom. Lett. 5, 3642-3649, 2020. doi: 10.1109/LRA.2020.2979656. – EDN: ZSVETN.
  11. Hwangbo, J., Lee, J., Dosovitskiy, A., Bellicoso, D., Tsounis, V., Koltun, V., and Hutter, M. Learning agile and dynamic motor skills for legged robots. Science Robotics. 4, eaau5872, 2019. 10.1126/scirobotics.aau5872.
  12. F. Zhang, J. Leitner, M. Milford, and P. Corke, “Modular deep Q networks for sim-to-real transfer of visuo-motor policies,” arXiv preprint arXiv:1610.06781, 2016.
  13. J. Tobin, R. Fong, A. Ray, J. Schneider, W. Zaremba, and P. Abbeel, “Domain randomization for transferring deep neural networks from simulation to the real world,” in 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2017, pp. 23-30.
  14. K. Cobbe, O. Klimov, C. Hesse, T. Kim, and J. Schulman, “Quantifying generalization in reinforcement learning,” arXiv preprint arXiv:1812.02341, 2018.
  15. Smith, L., Kew, J., Li, T., Luu, L., Peng, X., Ha, S., Tan, J., and Levine, S. Learning and Adapting Agile Locomotion Skills by Transferring Experience. 2023. 10.48550/arXiv.2304.09834.
  16. L. Han, Q. Zhu, J. Sheng, C. Zhang, T. Li, Y. Zhang, H. Zhang, Y. Liu, C. Zhou, R. Zhao et al., “Lifelike agility and play on quadrupedal robots using reinforcement learning and generative pretrained models,” arXiv preprint arXiv:2308.15143, 2023.
  17. Кашко, В. В. Математическая модель универсальной системы управления шагающим роботом на основе методов обучения с подкреплением / В. В. Кашко, С. А. Олейникова // Моделирование, оптимизация и информационные технологии. – 2024. – Т. 12. – № 1(44). – С. 12. – doi: 10.26102/2310-6018/2024.44.1.025. – EDN: HBSQBB.
  18. Kashko, V. V. Formalization of the task of controlling the movement of a walking robot / V. V. Kashko, S. A. Oleinikova // Anthropocentric sciences in education: challenges, transformations, resources. – 2024. – P. 342-345. – EDN: ASVCIB.
  19. Кашко, В. В. Формализация задачи управления шагающим роботом на основе алгоритмов обучения с подкреплением / В. В. Кашко, С. А. Олейникова // Интеллектуальные информационные системы. Труды Международной научно-практической конференции. Воронеж. – 2025. – С. 243-247.
  20. Кашко, В. В. Обобщённый алгоритм решения задачи управления шагающим роботом на базе интеллектуального агента с использованием методов глубокого обучения с подкреплением / В. В. Кашко, С. А. Олейникова // Научная опора Воронежской области. Сборник трудов победителей конкурса научно-исследовательских работ студентов и аспирантов ВГТУ по приоритетным направлениям развития науки и технологий. Воронеж. – 2025. – С. 155-158. – EDN: OOTOMR.
  21. Pestell, N., Griffith, T., Lepora, N. F. Artificial SA-I and RA-I afferents for tactile sensing of ridges and gratings. J. R. Soc. Interface. 19: 20210822, 2022. https://doi.org/10.1098/rsif.2021.0822. – EDN: QHNGNT.
  22. Юревич, Е. И. Сенсорные системы в робототехнике : учеб. пособие / Е. И. Юревич. – СПб. : Изд-во Политехн. ун-та, 2013. – 100 с.
  23. Lecture 5: Совместное развитие сенсорики и робототехники. [Электронный ресурс]: издание официальное. Москва : Интернет-Университет Информационных Технологий (ИНТУИТ), 2024. URL : https://intuit.ru/en/studies/courses/22789/1324/lecture/33070?page=5 – Дата публикации: 07.10.2024.
  24. Самойлова, А. С. Система управления шагающим роботом, адаптивным к изменению кинематической схемы / А. С. Самойлова, С. А. Воротников // Мехатроника, автоматизация, управление. – Москва : Новые технологии, 2021. – Т. 22 : Роботы, мехатроника и робототехнические системы – № 11. – С. 601-609. – doi: 10.17587/mau.22.601-609. – EDN: RHGNTJ.
  25. Сиволобов, С. В. Математическое моделирование походки человека на основе пятизвенной модели антропоморфного механизма с использованием методов оптимизации / С. В. Сиволобов // Математическая физика и компьютерное моделирование. – 2024. – Т. 27. – № 1. – С. 62-85. – doi: 10.15688/mpcm.jvolsu.2024.1.5. – EDN: AUNGTZ.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».