Modification of a deep learning algorithm for distributing functions and tasks between a robotic complex and a person in conditions of uncertainty and variability of the environment

M. А. Shereuzhev; Шереужев М. А.; Wu Guo; Го У; V. V. Serebrenny; Серебренный В. В.

doi:10.35330/1991-6639-2024-26-6-208-218

Modification of a deep learning algorithm for distributing functions and tasks between a robotic complex and a person in conditions of uncertainty and variability of the environment

Authors: Shereuzhev M.А.¹^,2, Guo W.², Serebrenny V.V.²
Affiliations:
1. Moscow State University of Technology STANKIN
2. Moscow State Technical University named after N. E. Bauman
Issue: Vol 26, No 6 (2024)
Pages: 208-218
Section: System analysis, management and information processing
Submitted: 02.03.2025
Accepted: 02.03.2025
Published: 15.12.2024
URL: https://journal-vniispk.ru/1991-6639/article/view/282117
DOI: https://doi.org/10.35330/1991-6639-2024-26-6-208-218
EDN: https://elibrary.ru/JSKNGG
ID: 282117

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

In the real world, conditions are rarely stable, which requires robotic systems to be able to adapt to uncertainty. Human-robot collaboration increases productivity, but this requires effective task allocation methods that consider the characteristics of both parties. The aim of the work is to determine optimal strategies for distributing tasks between people and collaborative robots and adaptive control of a collaborative robot under uncertainty and a changing environment. Research methods. The paper develops a graph-based approach to task allocation based on the capabilities of a human and a robot. The LSTM memory mechanism is built into the reinforcement learning algorithm to solve the problem of partial observability caused by inaccurate sensor measurements and environmental noise. The Hindsight Experience Replay method is used to overcome the problem of sparse rewards. Results. The trained model demonstrated stable convergence, achieving a high level of success rate of manipulation of objects. The integration of LSTM and HER methods into reinforcement learning allows solving the problems of distributing tasks between a human and a robot under uncertainty and a changing environment. The proposed method can be applied in various scenarios for collaborative robots in complex and changing conditions.

Keywords

human robot interaction, adaptive control algorithm, task distribution, reinforcement learning

Full Text

Введение

В условиях современного тренда на повсеместную цифровизацию и повышение производительности труда за счет внедрения киберфизических систем робототехнические комплексы (РТК) становятся все более важными элементами различных сфер деятельности $-$ от промышленности и медицины до сельского хозяйства и решения специальных задач. Системы, предполагающие взаимодействие РТК и людей в реальном времени, открывают новые горизонты для повышения эффективности труда. Однако несмотря на значительные достижения в области робототехники, многие аспекты распределения функций и задач между РТК и людьми остаются нерешенными, особенно в условиях неопределенности и переменности окружающей среды. В реальном мире условия редко бывают стабильными и предсказуемыми. Традиционные методы планирования и управления, основанные на статических сценариях, не подходят для таких задач, так как они не могут учесть всю возможную вариативность реальных условий [1].

Человек остается незаменимым элементом в системах, где требуется высокая степень гибкости, творчества и принятия решений в условиях неопределенности. РТК в свою очередь обладает способностью выполнять рутинные, опасные и высокоточные задачи с высокой эффективностью и точностью. Синергия между человеком и РТК может значительно повысить общую производительность системы. Однако для достижения этой синергии необходимо разработать эффективные методы распределения задач, которые учитывают сильные и слабые стороны как людей, так и роботов. Например, в задаче сборки промышленной продукции РТК может выполнять точные механические операции, в то время как человек контролирует процесс и принимает решения в случае возникновения нестандартных ситуаций.

Одним из ключевых направлений в области обеспечения взаимодействия человека и РТК является разработка адаптивных алгоритмов управления, которые позволяют РТК изменять свое поведение в зависимости от изменений в окружающей среде. Среди них популярными исследованиями последних лет являются такие алгоритмы, как машинное обучение с учителем и обучение с подкреплением [2 $-$ 3]. Роботы могут учиться на основе опыта и данных датчиков и становиться более устойчивыми к неопределенности.

Цель данного исследования заключается в определении оптимальных стратегий распределения задач между людьми и РТК и планировании движения РТК в условиях неопределенности и переменности окружающей среды для повышения общей эффективности и надежности выполнения задач.

Общая архитектура системы

На рис. 1 приведена общая структурная схема системы, в которой используются частично наблюдаемый марковский процесс принятия решений (POMDP) и метод глубокого обучения с подкреплением (Deep Reinforcement Learning, DRL). Компоненты системы: алгоритм DRL, POMDP, интерфейс взаимодействия человек-робот, источник сенсорных данных и система мониторинга.

Рис. 1. Структурная схема системы управления взаимодействием робота и человека

Fig. 1. Structural diagram of the control system for interaction between a robot and a human

Пользователь взаимодействует с системой через интерфейс взаимодействия человек-робот. Этот интерфейс позволяет пользователю задавать задачи и получать обратную связь от системы. Интерфейс взаимодействия человек-робот обрабатывает команды от пользователя и передает их в систему мониторинга и сенсорных данных. Сенсорные данные и система мониторинга собирают данные из окружающей среды, включая информацию о состоянии роботов и внешних условиях. Эти данные поступают в POMDP для дальнейшего анализа. POMDP анализирует сенсорные данные и оценивает вероятности различных состояний окружающей среды. На основе этой оценки POMDP формирует возможные стратегии действий. Алгоритм DRL используется для адаптации поведения РТК на основе опыта и исторических данных. Этот модуль обучает РТК оптимальным действиям через пробу и ошибку, улучшая их способность адаптироваться к изменениям в окружающей среде. РТК получает команды и стратегии от системы принятия решений и выполняет задачи в реальной среде, взаимодействуя с пользователем через интерфейс.

Формализация задачи планирования

В промышленной среде методы, основанные на графах, более подходят для представления и декомпозиции сложных задач. Например, наиболее распространенный ориентированный ациклический граф (Directed Acyclic Graph, DAG) [4] позволяет наглядно отображать последовательность и зависимость между задачами, а также поддерживает параллельность выполнения задач, что делает его подходящим для сценариев сотрудничества человека и РТК.

Рассмотрим задачу сборки маленького табурета, которая может быть разложена на 10 подзадач: T1 $-$ подготовка сиденья табурета; T2, T3, T4, T5 $-$ установка ножек табурета А, Б, В, Г на сиденье; T6, T7, T8, T9 $-$ закрепление винтов на ножки А, Б, В, Г; T10 $-$ проверка качества. T6 должно быть выполнено после завершения T1 и T2, а T10 зависит от завершения T6 $-$ T9. Участниками являются оператор и два коллаборативных робота. Для гетерогенных систем необходимо учитывать различия в индивидуальных навыках и ограничениях роботов и людей [5]. Можно распределить подзадачи следующим образом: T2, T3, T6, T7 поручаются человеку; T4 и T8 выполняет робот 1; T5 и T9 выполняет робот 2. Эти подзадачи могут выполняться одновременно. Подготовку T1 и проверку качества T10 также можно поручить человеку на основе его компетенций. Результат можно представить в виде, показанном на рис. 2.

Рис. 2. Пример декомпозиции задачи в виде DAG

Fig. 2. Example of task decomposition in the form of DAG

Формирование стратегии действий

DAG обычно предполагает, что процесс выполнения каждой задачи заранее известен и контролируем. Однако выполнение задач в реальном мире часто подвергается воздействию неопределенности и изменениям окружающей среды. Например, измеренные данные датчиков могут содержать шум и неточности. Частично наблюдаемый POMDP обрабатывает такие неопределенности с помощью вероятностной модели. Она позволяет системе динамически корректировать стратегию на основе наблюдений и обновления убеждений в условиях изменяющейся среды, чтобы обеспечить оптимальные решения.

POMDP с дискретным временем определяется 7-кратным кортежем $(S, A, T, R, O, Z, γ)$ , где $S$ . обозначает набор состояний системы, $A$ представляет собой набор действий РТК, $T (s^{'} | s, a)$ обозначает набор условных вероятностей перехода между состояниями, $R (s, a)$ $-$ это функция вознаграждения, $O (z | s^{'}, a)$ представляет собой набор условных вероятностей наблюдения, $Z$ обозначает набор возможных наблюдений, $γ \in [0,1)$ $-$ это коэффициент дисконтирования.

Поскольку в модели POMDP истинное состояние системы не может быть полностью наблюдаемым, необходимо ввести состояние убежденности по формуле

$b_{t} (s) = T (s_{t} = s | h_{t}, b_{0}),$

которое представляет собой распределение плотности вероятности на пространстве состояний $S$ и отражает предположение или оценку РТК о возможном состоянии системы $s$ на основе текущих наблюдений и истории взаимодействий.

Формула байесовского обновления [6] определяется как

$b_{t + 1} (s^{'}) = η \cdot O (z | s^{'}, a) \cdot \underset{s \in S}{} T (s^{'} | s, a) \cdot b_{t} (s)$

где $η$ $-$ нормализующая константа, определяемая как

$η = 1 / \underset{s^{'} \in S}{} O (z | s^{'}, a) \underset{s \in S}{} T (s^{'} | s, a) \cdot b_{t} (s)$

Задача РТК является выбором оптимальной стратегии $π (a ∣ b)$ и максимизацией ожидаемого накопленного дисконтированного вознаграждения по формуле

$V^{π} (b_{0}) = Ε [_{t = 0}^{\infty} γ^{t} R (s_{t}, a_{t}) | π, b_{0}]$

Процесс сборки маленького табурета можно определить как POMDP. Совместное пространство состояний включает информацию о человеке, РТК и непредвиденных обстоятельствах, и каждое состояние $s$ может быть представлено как $s = (s_{r 1}, s_{r 2}, s_{g})$ , где $s_{r 1}, s_{r 2}$ $-$ текущий ход выполнения задачи двух роботов, $s_{g}$ $-$ состояние объекта, манипулируемого роботом.

Пространство действия РТК $A$ $-$ это декартово смещение концевого эффектора в трех направлениях. Пространство наблюдений совпадает с пространством состояний. Функция вознаграждения настроена следующим образом: при выполнении конечной задачи присуждается вознаграждение 1, при невыполнении $-$ 0.

Адаптация поведения роботов с применением DRL

В среде сотрудничества человека и РТК использование DRL может снизить риск столкновений, связанных с присутствием и движением человека. Задачи с непрерывным пространством действий можно обучать с использованием алгоритма DDPG (Deep Deterministic Policy Gradients) [7], который сочетает в себе преимущества методов актор-критик (Actor-Critic). DDPG использует две нейронные сети: акторную сеть и критическую сеть. Акторная сеть $μ (s ∣ θ^{μ})$ принимает состояние $s$ и выдает действие $a$ , а критическая сеть $Q (s, a ∣ θ^{Q})$ оценивает ценность действия $a$ в состоянии $s$ .

Функция потерь для критической сети определяется по формуле

$L (θ^{Q}) = Ε_{s, a, r, s^{'}} [{(Q (s, a ∣ θ^{Q}) - y)}^{2}],$

где целевое значение $y$ вычисляется по формуле $y = r + γ Q (s^{'}, μ (s^{'} θ^{μ}) | θ^{Q})$ , и $γ$ $-$ коэффициент дисконтирования.

Обновление акторной сети производится по градиенту политики и определяется по формуле

$\nabla_{θ μ} J \approx Ε_{s} [\nabla_{a} Q (s, a θ^{Q}) |_{a = μ (s)} \nabla_{θ μ} μ (s θ^{μ})] .$

В задачах, где данные обладают временной зависимостью, стандартный DDPG может не учитывать информацию из предыдущих состояний. Для решения модели POMDP можно интегрировать в акторную и критическую сети слои LSTM (Long Short-Term Memory) [8], которые способны запоминать долгосрочные зависимости и исторические наблюдения. LSTM описывается по формулам:

$f_{t} = σ (W_{f} [h_{t - 1}, x_{t}] + b_{f}),$

$i_{t} = σ (W_{i} [h_{t - 1}, x_{t}] + b_{i}),$

$o_{t} = σ (W_{o} [h_{t - 1}, x_{t}] + b_{o}),$

${\tilde{C}}_{t} = t a n h (W_{C} [h_{t - 1}, x_{t}] + b_{C}),$

$C_{t} = f_{t} ⊙ C_{t - 1} + i_{t} ⊙ {\tilde{C}}_{t},$

$h_{t} = o_{t} ⊙ t a n h (C_{t}),$

где $f_{t}, i_{t}, o_{t}$ $-$ соответственно сигналы забывания, входа и выхода; $C_{t}$ $-$ состояние ячейки; $h_{t}$ $-$ скрытое состояние; $σ$ $-$ сигмоида; $t a n h$ $-$ гиперболический тангенс; $⊙$ $-$ покомпонентное умножение. Структура ячейки LSTM показана на рис. 3.

Рис. 3. Структура ячейки LSTM

Fig. 3. LSTM cell structure

Для учета временной информации нужно модифицировать архитектуру DDPG. Акторная сеть теперь зависит не только от текущего состояния, но и от предыдущего скрытого состояния, определяемая как

$a_{t} = μ (s_{t}, h_{t - 1} θ^{μ}) .$

Критическая сеть оценивает ценность текущего действия с учетом последовательности предыдущих состояний $Q (s_{t}, a_{t}, h_{t - 1} θ^{Q}) .$ Обновления параметров сетей производятся с учетом градиентов по временным последовательностям, что позволяет РТК учитывать контекст при принятии решений. LSTM служит механизмом памяти, который преобразует историю взаимодействий $h_{t} = \{z_{0}, a_{0}, z_{1}, a_{1}, \dots, a_{t - 1}, z_{t}\}$ , полученную в модели POMDP, в скрытое состояние. Интегрированная с LSTM структура сети DDPG для обучения показана на рис. 4.

Рис. 4. Cтруктура сети LSTM-DDPG

Fig. 4. LSTM-DDPG network structure

Для задач с чрезмерно скудными вознаграждениями трудно обучить полезную стратегию. Когда положительные вознаграждения скудные, стандартные алгоритмы могут не получать достаточного количества полезных сигналов для обновления политики, что приводит к медленному и неэффективному обучению. Hindsight Experience Replay (HER) [9] $-$ метод, позволяющий агенту учиться из каждого опыта, даже если изначальная цель не была достигнута. Идея HER заключается в том, чтобы переопределять цели после завершения эпизода, используя фактически достигнутые состояния в качестве новых целей. При использовании HER сохраняются переходы в виде кортежей $(s, a, r, s', g)$ , где $g$ $-$ цель. Вознаграждение пересчитывается с учетом новой цели по формуле

$r = r (s, a, g^{'}) = \{\begin{matrix} 0, е с л и ϕ (s^{'}) = g^{'}, \\ - 1, и н а ч е, \end{matrix}$

где $ϕ (s^{'})$ $-$ функция, отображающая состояние в достижимую цель. Переопределенные переходы $(s, a, r, s', g')$ используются для обновления политики акторной сети и обучения критической сети.

Методология проведения эксперимента и результаты

Чтобы проверить, может ли предложенная модифицированная структура сети решить проблему POMDP, была выбрана готовая среда 'FetchPickAndPlace-v3', разработанная OpenAI Gym [10], как показано на рис. 5. Подзадача манипуляции объектами, возложенная на робота, в основном включает захват и перемещение объектов. Цель обучения состоит в том, чтобы научить робота захватывать объект и перемещать его в заданное положение, обозначенное красным шаром. В начале каждого эпизода положение объекта и цели изменяется в небольшом диапазоне.

Рис. 5. Готовая среда для обучения

Fig. 5. Ready-made learning environment

Пространство состояний в этой среде состоит из позиции и ориентации концевого эффектора робота, скорости по каждому из измерений, позиции и ориентации объекта и его относительного положения к концевому эффектору, перемещения и скорости захвата. Пространство действия включает в себя команды по перемещению манипулятора в трехмерном пространстве и позиционное смещение каждого пальца захвата. Каждое непрерывное действие принимает значение из [−1, +1].

Для обучения модифицированной модели LSTM-DDPG были использованы гиперпараметры, показанные в табл. 1.

Таблица 1. Проектирование гиперпараметров модели для обучения

Table 1. Designing the hyperparameters of the model for training

Параметры	Значение
Скорость обучения акторной сети	0,001
Скорость обучения критической сети	0,001
Размер пакета	256
Коэффициент дисконтирования	0,95
Параметр мягкого обновления	0,005
Максимальный размер буфера воспроизведения	1000000
Количество переопределений целей	4
Стратегия переопределения целей	'future'
Количество эпизодов обучения	5000
Максимальная длина эпизода	500
Длина последовательности для LSTM	10
Размер скрытого слоя	256

Модель была реализована на платформе машинного обучения Pytorch версии 2.5.1. Программирование осуществлялось на языке Python 3.8.8. Обучение и оценка модели LSTM-DDPG проводились на компьютере с процессором Intel i9-13980HX и графическим процессором NVIDIA GeForce RTX 4060 с памятью 8 ГБ.

Для оценки эффективности модели использовалась метрика «Процент успешных эпизодов». Эта метрика определяется как процент эпизодов из каждых 100, в которых РТК успешно захватил и переместил объект в заданное положение. Формально уровень успеха рассчитывается так:

$П р о ц е н т у с п е ш н ы х э п и з о д о в = (\frac{К о л и ч е с т в о у с п е ш н ы х э п и з о д о в}{100}) \times 100 %$ .

На рис. 6 представлены результаты обучения модели в виде зависимости уровня успеха от количества эпизодов. Из графика видно, что уровень успеха постепенно увеличивается по мере обучения модели. На начальных этапах обучения успехи редки из-за сложности задачи и скудности вознаграждений. Однако благодаря использованию HER и LSTM модель начинает успешно выполнять задачу после определенного количества эпизодов.

Рис. 6. График зависимости уровня успеха от количества эпизодов

Fig. 6. Graph of success rate versus number of episodes

Модель, обученная с использованием исходного алгоритма DDPG, на протяжении всего процесса обучения показывала нулевой уровень успешности, что свидетельствует о неспособности алгоритма выучить полезную стратегию. После обучения модель с модифицированным алгоритмом продемонстрировала стабильную сходимость, достигая высокого уровня успеха, близкого к 1. Когда объект и цель находятся в любом месте стола, манипулятор может схватить объект и переместить его в заданное место. Использование HER оказалось особенно полезным для задачи манипуляции объектами, поскольку в средах с чрезмерно скудными вознаграждениями сложно выработать полезные стратегии. Интеграция LSTM и HER в архитектуру DDPG показала превосходство над базовым алгоритмом DDPG, особенно в условиях скудных вознаграждений и частичной наблюдаемости среды. Полученные результаты подтверждают эффективность предложенной модифицированной структуры сети в решении задачи POMDP.

Заключение

В работе представлен метод распределения задач между человеком и роботом в условиях неопределенности в изменяющейся среде. Задачи разбиваются на основе графового подхода и распределяются в зависимости от возможностей человека и РТК. Предложено решение, в котором механизм памяти LSTM встроен в алгоритм обучения с подкреплением для решения проблемы частичной наблюдаемости, вызванной неточностью измерений сенсоров и шумом в окружающей среде. Метод HER использован для решения проблемы скудных вознаграждений. Результаты обучения подтверждают эффективность интеграции LSTM и HER в архитектуру DDPG для решения задач POMDP.

About the authors

M. А. Shereuzhev

Moscow State University of Technology STANKIN; Moscow State Technical University named after N. E. Bauman

Author for correspondence.
Email: m.shereuzhev@stankin.ru
ORCID iD: 0000-0003-2352-992X
SPIN-code: 1734-9056

Candidate of Engineering Sciences, Junior Research, Center for Cognitive Technologies and Machine Vision Systems, Senior Teacher, The Department of Robotic Systems and Mechatronics

Russian Federation, 127055, Moscow, build. 1 Vadkovsky street; 105005, Moscow, build. 5 corps 1 Baumanskaya street

Wu Guo

Moscow State Technical University named after N. E. Bauman

Email: ug@student.bmstu.ru

Post-graduate Student at the Department of Robotic Systems and Mechatronics

Russian Federation, 105005, Moscow, build. 5 corps 1 Baumanskaya street

V. V. Serebrenny

Moscow State Technical University named after N. E. Bauman

Email: vsereb@bmstu.ru
ORCID iD: 0000-0003-1182-2117
SPIN-code: 5410-8433

Candidate of Engineering Sciences, Associate Professor, Head of the Department of Robotic Systems and Mechatronics

Russian Federation, 105005, Moscow, build. 5 corps 1 Baumanskaya street

References

Fiore M., Clodic A., Alami R. On planning and task achievement modalities for human-robot collaboration. In Experimental Robotics: The 14th International Symposium on Experimental Robotics. Marrakech, Morocco: Springer. 2016. Pp. 293–306.
Ghadirzadeh A., Chen X., Yin W. et al. Human-centered collaborative robots with deep reinforcement learning. IEEE Robotics and Automation Letters. 2020. Vol. 6(2). Pp. 566–571. doi: 10.48550/arXiv.2007.01009
Qureshi A.H., Nakamura Y., Yoshikawa Y., Ishiguro H. Robot gains social intelligence through multimodal deep reinforcement learning. In IEEE-RAS. 16th International Conference on Humanoid Robots (humanoids). 2016. Pp. 745–751. doi: 10.48550/arXiv.1702.07492
Kwok Y.K., Ahmad I. Static scheduling algorithms for allocating directed task graphs to multiprocessors. ACM Computing Surveys. 1999. Vol. 31(4). Pp. 406–471. doi: 10.1145/344588.344618
Malik A.A., Bilberg A. Complexity-based task allocation in human-robot collaborative assembly. Industrial Robot: International Journal of Robotics Research and Application. 2019. Vol. 46(4). Pp. 471–480. doi: 10.1108/IR-11-2018-0231
Lucignano L., Cutugno F., Rossi S., Finzi A. A dialogue system for multimodal human-robot interaction. Proceedings of the 15th ACM on International Conference on Multimodal Interaction. 2013. Pp. 197–204. doi: 10.1145/2522848.2522873
Qiu C., Hu Y., Chen Y., Zeng B. Deep deterministic policy gradient (DDPG)-based energy harvesting wireless communications. IEEE Internet of Things Journal. 2019. Vol. 6(5). Pp. 8577–8588. doi: 10.1109/JIOT.2019.2921159
Hochreiter S. Long Short-term Memory. Neural Computation MIT-Press. 1997.
Andrychowicz M., Wolski F., Ray A. et al. Hindsight experience replay. Advances in Neural Information Processing Systems. 2017. Vol. 30.
Towers M., Kwiatkowski A., Terry J. et al. Gymnasium: A standard interface for reinforcement learning environments. arXiv:2407.17032. 2024. doi: 10.48550/arXiv.2407.17032