Modification of a deep learning algorithm for distributing functions and tasks between a robotic complex and a person in conditions of uncertainty and variability of the environment

Cover Page

Cite item

Full Text

Abstract

In the real world, conditions are rarely stable, which requires robotic systems to be able to adapt to uncertainty. Human-robot collaboration increases productivity, but this requires effective task allocation methods that consider the characteristics of both parties. The aim of the work is to determine optimal strategies for distributing tasks between people and collaborative robots and adaptive control of a collaborative robot under uncertainty and a changing environment. Research methods. The paper develops a graph-based approach to task allocation based on the capabilities of a human and a robot. The LSTM memory mechanism is built into the reinforcement learning algorithm to solve the problem of partial observability caused by inaccurate sensor measurements and environmental noise. The Hindsight Experience Replay method is used to overcome the problem of sparse rewards. Results. The trained model demonstrated stable convergence, achieving a high level of success rate of manipulation of objects. The integration of LSTM and HER methods into reinforcement learning allows solving the problems of distributing tasks between a human and a robot under uncertainty and a changing environment. The proposed method can be applied in various scenarios for collaborative robots in complex and changing conditions.

Full Text

Введение

В условиях современного тренда на повсеместную цифровизацию и повышение производительности труда за счет внедрения киберфизических систем робототехнические комплексы (РТК) становятся все более важными элементами различных сфер деятельности MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  от промышленности и медицины до сельского хозяйства и решения специальных задач. Системы, предполагающие взаимодействие РТК и людей в реальном времени, открывают новые горизонты для повышения эффективности труда. Однако несмотря на значительные достижения в области робототехники, многие аспекты распределения функций и задач между РТК и людьми остаются нерешенными, особенно в условиях неопределенности и переменности окружающей среды. В реальном мире условия редко бывают стабильными и предсказуемыми. Традиционные методы планирования и управления, основанные на статических сценариях, не подходят для таких задач, так как они не могут учесть всю возможную вариативность реальных условий [1].

Человек остается незаменимым элементом в системах, где требуется высокая степень гибкости, творчества и принятия решений в условиях неопределенности. РТК в свою очередь обладает способностью выполнять рутинные, опасные и высокоточные задачи с высокой эффективностью и точностью. Синергия между человеком и РТК может значительно повысить общую производительность системы. Однако для достижения этой синергии необходимо разработать эффективные методы распределения задач, которые учитывают сильные и слабые стороны как людей, так и роботов. Например, в задаче сборки промышленной продукции РТК может выполнять точные механические операции, в то время как человек контролирует процесс и принимает решения в случае возникновения нестандартных ситуаций.

Одним из ключевых направлений в области обеспечения взаимодействия человека и РТК является разработка адаптивных алгоритмов управления, которые позволяют РТК изменять свое поведение в зависимости от изменений в окружающей среде. Среди них популярными исследованиями последних лет являются такие алгоритмы, как машинное обучение с учителем и обучение с подкреплением [2 MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@ 3]. Роботы могут учиться на основе опыта и данных датчиков и становиться более устойчивыми к неопределенности.

Цель данного исследования заключается в определении оптимальных стратегий распределения задач между людьми и РТК и планировании движения РТК в условиях неопределенности и переменности окружающей среды для повышения общей эффективности и надежности выполнения задач.

Общая архитектура системы

На рис. 1 приведена общая структурная схема системы, в которой используются частично наблюдаемый марковский процесс принятия решений (POMDP) и метод глубокого обучения с подкреплением (Deep Reinforcement Learning, DRL). Компоненты системы: алгоритм DRL, POMDP, интерфейс взаимодействия человек-робот, источник сенсорных данных и система мониторинга.

 

Рис. 1. Структурная схема системы управления взаимодействием робота и человека

Fig. 1. Structural diagram of the control system for interaction between a robot and a human

 

Пользователь взаимодействует с системой через интерфейс взаимодействия человек-робот. Этот интерфейс позволяет пользователю задавать задачи и получать обратную связь от системы. Интерфейс взаимодействия человек-робот обрабатывает команды от пользователя и передает их в систему мониторинга и сенсорных данных. Сенсорные данные и система мониторинга собирают данные из окружающей среды, включая информацию о состоянии роботов и внешних условиях. Эти данные поступают в POMDP для дальнейшего анализа. POMDP анализирует сенсорные данные и оценивает вероятности различных состояний окружающей среды. На основе этой оценки POMDP формирует возможные стратегии действий. Алгоритм DRL используется для адаптации поведения РТК на основе опыта и исторических данных. Этот модуль обучает РТК оптимальным действиям через пробу и ошибку, улучшая их способность адаптироваться к изменениям в окружающей среде. РТК получает команды и стратегии от системы принятия решений и выполняет задачи в реальной среде, взаимодействуя с пользователем через интерфейс.

Формализация задачи планирования

В промышленной среде методы, основанные на графах, более подходят для представления и декомпозиции сложных задач. Например, наиболее распространенный ориентированный ациклический граф (Directed Acyclic Graph, DAG) [4] позволяет наглядно отображать последовательность и зависимость между задачами, а также поддерживает параллельность выполнения задач, что делает его подходящим для сценариев сотрудничества человека и РТК.

Рассмотрим задачу сборки маленького табурета, которая может быть разложена на 10 подзадач: T1 MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  подготовка сиденья табурета; T2, T3, T4, T5 MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  установка ножек табурета А, Б, В, Г на сиденье; T6, T7, T8, T9 MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  закрепление винтов на ножки А, Б, В, Г; T10 MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  проверка качества. T6 должно быть выполнено после завершения T1 и T2, а T10 зависит от завершения T6 MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  T9. Участниками являются оператор и два коллаборативных робота. Для гетерогенных систем необходимо учитывать различия в индивидуальных навыках и ограничениях роботов и людей [5]. Можно распределить подзадачи следующим образом: T2, T3, T6, T7 поручаются человеку; T4 и T8 выполняет робот 1; T5 и T9 выполняет робот 2. Эти подзадачи могут выполняться одновременно. Подготовку T1 и проверку качества T10 также можно поручить человеку на основе его компетенций. Результат можно представить в виде, показанном на рис. 2.

 

Рис. 2. Пример декомпозиции задачи в виде DAG

Fig. 2. Example of task decomposition in the form of DAG

 

Формирование стратегии действий

DAG обычно предполагает, что процесс выполнения каждой задачи заранее известен и контролируем. Однако выполнение задач в реальном мире часто подвергается воздействию неопределенности и изменениям окружающей среды. Например, измеренные данные датчиков могут содержать шум и неточности. Частично наблюдаемый POMDP обрабатывает такие неопределенности с помощью вероятностной модели. Она позволяет системе динамически корректировать стратегию на основе наблюдений и обновления убеждений в условиях изменяющейся среды, чтобы обеспечить оптимальные решения.

POMDP с дискретным временем определяется 7-кратным кортежем S, A, T, R, O, Z, γ MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape WaaeWaa8aabaWdbiaadofacaGGSaGaaiiOaiaadgeacaGGSaGaaiiO aiaadsfacaGGSaGaaiiOaiaadkfacaGGSaGaaiiOaiaad+eacaGGSa GaaiiOaiaabQfacaGGSaGaaeiOaiaabo7aaiaawIcacaGLPaaaaaa@48E4@ , где S MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4uaaaa@36E5@ .  обозначает набор состояний системы, A MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaamyqaaaa@36D3@  представляет собой набор действий РТК, T( s |s,a) MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaamivaiaacIcaceWGZbWdayaafaWdbiaacYhacaWGZbGaaiilaiaa dggacaGGPaaaaa@3CF0@  обозначает набор условных вероятностей перехода между состояниями, R s,a MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaamOuamaabmaapaqaa8qacaWGZbGaaiilaiaadggaaiaawIcacaGL Paaaaaa@3B1A@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  это функция вознаграждения, O(z| s ,a) MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4taiaacIcacaWG6bGaaiiFaiqadohapaGbauaapeGaaiilaiaa dggacaGGPaaaaa@3CF2@  представляет собой набор условных вероятностей наблюдения, Z MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaamOwaaaa@36EC@  обозначает набор возможных наблюдений, γ 0,1 MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaeq4SdCMaeyicI48aaKGea8aabaWdbiaaicdacaGGSaGaaGymaaGa ay5waiaawMcaaaaa@3D4F@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  это коэффициент дисконтирования.

Поскольку в модели POMDP истинное состояние системы не может быть полностью наблюдаемым, необходимо ввести состояние убежденности по формуле

 bts=T(st=s|ht,b0),

которое представляет собой распределение плотности вероятности на пространстве состояний S MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4uaaaa@36E5@  и отражает предположение или оценку РТК о возможном состоянии системы s MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4Caaaa@3705@  на основе текущих наблюдений и истории взаимодействий.

Формула байесовского обновления [6] определяется как

 bt+1s'=η·O(z|s',a)·sST(s'|s,a)·bts

где η MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaeq4TdGgaaa@37B9@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  нормализующая константа, определяемая как

 η=1/s'SO(z|s',a)sST(s'|s,a)·bts

Задача РТК является выбором оптимальной стратегии π ab MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaeqiWda3aaeWaa8aabaWdbiaadggatCvAUfeBSn0BKvguHDwzZbqe g0uySDwDUbYrVrhAPngaiuaacaWFJiIaamOyaaGaayjkaiaawMcaaa aa@46D0@  и максимизацией ожидаемого накопленного дисконтированного вознаграждения по формуле 

 Vπb0=Εt=0γtRst,at|π,b0

Процесс сборки маленького табурета можно определить как POMDP. Совместное пространство состояний включает информацию о человеке, РТК и непредвиденных обстоятельствах, и каждое состояние s MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4Caaaa@3705@  может быть представлено как s =  s r1 , s r2 , s g MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4CaiaacckacqGH9aqpcaGGGcWaaeWaa8aabaWdbiaadohapaWa aSbaaSqaa8qacaWGYbGaaGymaaWdaeqaaOWdbiaacYcacaWGZbWdam aaBaaaleaapeGaamOCaiaaikdaa8aabeaak8qacaGGSaGaam4Ca8aa daWgaaWcbaWdbiaadEgaa8aabeaaaOWdbiaawIcacaGLPaaaaaa@45F0@ , где s r1 , s r2 MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4Ca8aadaWgaaWcbaWdbiaadkhacaaIXaaapaqabaGcpeGaaiil aiaadohapaWaaSbaaSqaa8qacaWGYbGaaGOmaaWdaeqaaaaa@3CE0@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  текущий ход выполнения задачи двух роботов, s g MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4Ca8aadaWgaaWcbaWdbiaadEgaa8aabeaaaaa@384B@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  состояние объекта, манипулируемого роботом.

Пространство действия РТК A MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaamyqaaaa@36D3@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  это декартово смещение концевого эффектора в трех направлениях. Пространство наблюдений совпадает с пространством состояний. Функция вознаграждения настроена следующим образом: при выполнении конечной задачи присуждается вознаграждение 1, при невыполнении MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  0.

Адаптация поведения роботов с применением DRL

В среде сотрудничества человека и РТК использование DRL может снизить риск столкновений, связанных с присутствием и движением человека. Задачи с непрерывным пространством действий можно обучать с использованием алгоритма DDPG (Deep Deterministic Policy Gradients) [7], который сочетает в себе преимущества методов актор-критик (Actor-Critic). DDPG использует две нейронные сети: акторную сеть и критическую сеть. Акторная сеть μ s θ μ MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaeqiVd02aaeWaa8aabaWdbiaadohatCvAUfeBSn0BKvguHDwzZbqe g0uySDwDUbYrVrhAPngaiuaacaWFJiIaeqiUde3damaaCaaaleqaba WdbiabeY7aTbaaaOGaayjkaiaawMcaaaaa@49B6@  принимает состояние s MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4Caaaa@3705@  и выдает действие  a MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaaiiOaiaadggaaaa@3817@ , а критическая сеть Q s,a θ Q MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaamyuamaabmaapaqaa8qacaWGZbGaaiilaiaadggatCvAUfeBSn0B KvguHDwzZbqeg0uySDwDUbYrVrhAPngaiuaacaWFJiIaeqiUde3dam aaCaaaleqabaWdbiaadgfaaaaakiaawIcacaGLPaaaaaa@498C@  оценивает ценность действия a MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaamyyaaaa@36F3@  в состоянии s MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4Caaaa@3705@ .

Функция потерь для критической сети определяется по формуле

 LθQ=Εs,a,r,s'Qs,aθQy2,

где целевое значение y MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaamyEaaaa@370B@  вычисляется по формуле y=r+γQ( s ,μ s θ μ |  θ Q ) MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaamyEaiabg2da9iaadkhacqGHRaWkcqaHZoWzcaWGrbGaaiikaiqa dohapaGbauaapeGaaiilaiabeY7aTnaabmaapaqaa8qaceWGZbWday aafaWdbiabeI7aX9aadaahaaWcbeqaa8qacqaH8oqBaaaakiaawIca caGLPaaacaGG8bGaaiiOaiabeI7aX9aadaahaaWcbeqaa8qacaWGrb aaaOGaaiykaaaa@4CDC@ , и γ MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaeq4SdCgaaa@37B4@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  коэффициент дисконтирования.

Обновление акторной сети производится по градиенту политики и определяется по формуле

θμJΕsaQs,aθQ|a=μsθμμsθμ.

В задачах, где данные обладают временной зависимостью, стандартный DDPG может не учитывать информацию из предыдущих состояний. Для решения модели POMDP можно интегрировать в акторную и критическую сети слои LSTM (Long Short-Term Memory) [8], которые способны запоминать долгосрочные зависимости и исторические наблюдения. LSTM описывается по формулам:

ft=σWfht1,xt+bf,

it=σWiht1,xt+bi,

ot=σWoht1,xt+bo,

C~t=tanhWCht1,xt+bC,

 Ct=ftCt1+itC~t,

ht=ottanh(Ct),

где f t , i t , o t   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaamOza8aadaWgaaWcbaWdbiaadshaa8aabeaak8qacaGGSaGaamyA a8aadaWgaaWcbaWdbiaadshaa8aabeaak8qacaGGSaGaam4Ba8aada WgaaWcbaWdbiaadshaa8aabeaak8qacaGGGcaaaa@3FA5@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  соответственно сигналы забывания, входа и выхода; C t MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4qa8aadaWgaaWcbaWdbiaadshaa8aabeaaaaa@3828@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  состояние ячейки; h t MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaamiAa8aadaWgaaWcbaWdbiaadshaa8aabeaaaaa@384D@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  скрытое состояние; σ MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaeq4Wdmhaaa@37D0@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  сигмоида; tanh MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaamiDaiaadggacaWGUbGaamiAaaaa@39CC@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  гиперболический тангенс; MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaeSyMIugaaa@37BE@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  покомпонентное умножение. Структура ячейки LSTM показана на рис. 3.

 

Рис. 3. Структура ячейки LSTM

Fig. 3. LSTM cell structure

 

Для учета временной информации нужно модифицировать архитектуру DDPG. Акторная сеть теперь зависит не только от текущего состояния, но и от предыдущего скрытого состояния, определяемая как

 at=μst,ht1θμ.

Критическая сеть оценивает ценность текущего действия с учетом последовательности предыдущих состояний Q s t , a t , h t1 θ Q . MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaamyuamaabmaapaqaa8qacaWGZbWdamaaBaaaleaapeGaamiDaaWd aeqaaOWdbiaacYcacaWGHbWdamaaBaaaleaapeGaamiDaaWdaeqaaO WdbiaacYcacaWGObWdamaaBaaaleaapeGaamiDaiabgkHiTiaaigda a8aabeaak8qacqaH4oqCpaWaaWbaaSqabeaapeGaamyuaaaaaOGaay jkaiaawMcaaiaac6caaaa@4639@  Обновления параметров сетей производятся с учетом градиентов по временным последовательностям, что позволяет РТК учитывать контекст при принятии решений. LSTM служит механизмом памяти, который преобразует историю взаимодействий h t = z 0 ,  a 0 ,  z 1 ,  a 1 ,, a t1 , z t MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaamiAa8aadaWgaaWcbaWdbiaadshaa8aabeaak8qacqGH9aqpdaGa daWdaeaapeGaamOEa8aadaWgaaWcbaWdbiaaicdaa8aabeaak8qaca GGSaGaaiiOaiaadggapaWaaSbaaSqaa8qacaaIWaaapaqabaGcpeGa aiilaiaacckacaWG6bWdamaaBaaaleaapeGaaGymaaWdaeqaaOWdbi aacYcacaGGGcGaamyya8aadaWgaaWcbaWdbiaaigdaa8aabeaak8qa caGGSaGaeyOjGWRaaiilaiaadggapaWaaSbaaSqaa8qacaWG0bGaey OeI0IaaGymaaWdaeqaaOWdbiaacYcacaWG6bWdamaaBaaaleaapeGa amiDaaWdaeqaaaGcpeGaay5Eaiaaw2haaaaa@53C2@ , полученную в модели POMDP, в скрытое состояние. Интегрированная с LSTM структура сети DDPG для обучения показана на рис. 4.

 

Рис. 4. Cтруктура сети LSTM-DDPG

Fig. 4. LSTM-DDPG network structure

 

Для задач с чрезмерно скудными вознаграждениями трудно обучить полезную стратегию. Когда положительные вознаграждения скудные, стандартные алгоритмы могут не получать достаточного количества полезных сигналов для обновления политики, что приводит к медленному и неэффективному обучению. Hindsight Experience Replay (HER) [9] MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  метод, позволяющий агенту учиться из каждого опыта, даже если изначальная цель не была достигнута. Идея HER заключается в том, чтобы переопределять цели после завершения эпизода, используя фактически достигнутые состояния в качестве новых целей. При использовании HER сохраняются переходы в виде кортежей s, a, r, s', g MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape WaaeWaa8aabaWdbiaadohacaGGSaGaaiiOaiaadggacaGGSaGaaiiO aiaadkhacaGGSaGaaiiOaiaadohacaGGNaGaaiilaiaacckacaWGNb aacaGLOaGaayzkaaaaaa@4469@ , где g MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4zaaaa@36F9@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  цель. Вознаграждение пересчитывается с учетом новой цели по формуле

 r=rs,a,g'=0, если ϕs'=g',1, иначе,

где ϕ s MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaeqy1dy2aaeWaa8aabaWdbiqadohapaGbauaaa8qacaGLOaGaayzk aaaaaa@3AA0@   MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqefmuySLMyYL gaiuaajugybabaaaaaaaaapeGaa83eGaaa@3A74@  функция, отображающая состояние в достижимую цель. Переопределенные переходы   s, a, r, s', g' MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape GaaiiOamaabmaapaqaa8qacaWGZbGaaiilaiaacckacaWGHbGaaiil aiaacckacaWGYbGaaiilaiaacckacaWGZbGaai4jaiaacYcacaGGGc Gaam4zaiaacEcaaiaawIcacaGLPaaaaaa@4638@  используются для обновления политики акторной сети и обучения критической сети.

Методология проведения эксперимента и результаты

Чтобы проверить, может ли предложенная модифицированная структура сети решить проблему POMDP, была выбрана готовая среда 'FetchPickAndPlace-v3', разработанная OpenAI Gym [10], как показано на рис. 5. Подзадача манипуляции объектами, возложенная на робота, в основном включает захват и перемещение объектов. Цель обучения состоит в том, чтобы научить робота захватывать объект и перемещать его в заданное положение, обозначенное красным шаром. В начале каждого эпизода положение объекта и цели изменяется в небольшом диапазоне.

 

Рис. 5. Готовая среда для обучения

Fig. 5. Ready-made learning environment

 

Пространство состояний в этой среде состоит из позиции и ориентации концевого эффектора робота, скорости по каждому из измерений, позиции и ориентации объекта и его относительного положения к концевому эффектору, перемещения и скорости захвата. Пространство действия включает в себя команды по перемещению манипулятора в трехмерном пространстве и позиционное смещение каждого пальца захвата. Каждое непрерывное действие принимает значение из [−1, +1].

Для обучения модифицированной модели LSTM-DDPG были использованы гиперпараметры, показанные в табл. 1.

 

Таблица 1. Проектирование гиперпараметров модели для обучения

Table 1. Designing the hyperparameters of the model for training

Параметры

Значение

Скорость обучения акторной сети

0,001

Скорость обучения критической сети

0,001

Размер пакета

256

Коэффициент дисконтирования

0,95

Параметр мягкого обновления

0,005

Максимальный размер буфера воспроизведения

1000000

Количество переопределений целей

4

Стратегия переопределения целей

'future'

Количество эпизодов обучения

5000

Максимальная длина эпизода

500

Длина последовательности для LSTM

10

Размер скрытого слоя

256

 

Модель была реализована на платформе машинного обучения Pytorch версии 2.5.1. Программирование осуществлялось на языке Python 3.8.8. Обучение и оценка модели LSTM-DDPG проводились на компьютере с процессором Intel i9-13980HX и графическим процессором NVIDIA GeForce RTX 4060 с памятью 8 ГБ.

Для оценки эффективности модели использовалась метрика «Процент успешных эпизодов». Эта метрика определяется как процент эпизодов из каждых 100, в которых РТК успешно захватил и переместил объект в заданное положение. Формально уровень успеха рассчитывается так:

Процент успешных эпизодов= Количество успешных эпизодов 100 ×100% MathType@MTEF@5@5@+= feaahGart1ev3aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbb a9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr 0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaape Gaam4heiaadcebcaWG+qGaamOreiaadwdbcaWG9qGaamOqeiaaccka caWGdrGaamyqeiaad+dbcaWG1qGaamiseiaad2dbcaWGlrGaamyrei aacckacaWGnrGaam4peiaadIdbcaWG3qGaamOpeiaadsdbcaWG+qGa amOmeiabg2da9maabmaapaqaa8qadaWcaaWdaeaapeGaamOgeiaad6 dbcaWG7qGaamioeiaadEebcaWG1qGaamyqeiaadkebcaWGYqGaamOp eiaacckacaWGdrGaamyqeiaad+dbcaWG1qGaamiseiaad2dbcaWGlr GaamyreiaacckacaWGnrGaam4peiaadIdbcaWG3qGaamOpeiaadsdb caWG+qGaamOmeaWdaeaapeGaaGymaiaaicdacaaIWaaaaaGaayjkai aawMcaaiabgEna0kaaigdacaaIWaGaaGimaiaacwcaaaa@6A95@ .

На рис. 6 представлены результаты обучения модели в виде зависимости уровня успеха от количества эпизодов. Из графика видно, что уровень успеха постепенно увеличивается по мере обучения модели. На начальных этапах обучения успехи редки из-за сложности задачи и скудности вознаграждений. Однако благодаря использованию HER и LSTM модель начинает успешно выполнять задачу после определенного количества эпизодов.

 

Рис. 6. График зависимости уровня успеха от количества эпизодов

Fig. 6. Graph of success rate versus number of episodes

 

Модель, обученная с использованием исходного алгоритма DDPG, на протяжении всего процесса обучения показывала нулевой уровень успешности, что свидетельствует о неспособности алгоритма выучить полезную стратегию. После обучения модель с модифицированным алгоритмом продемонстрировала стабильную сходимость, достигая высокого уровня успеха, близкого к 1. Когда объект и цель находятся в любом месте стола, манипулятор может схватить объект и переместить его в заданное место. Использование HER оказалось особенно полезным для задачи манипуляции объектами, поскольку в средах с чрезмерно скудными вознаграждениями сложно выработать полезные стратегии. Интеграция LSTM и HER в архитектуру DDPG показала превосходство над базовым алгоритмом DDPG, особенно в условиях скудных вознаграждений и частичной наблюдаемости среды. Полученные результаты подтверждают эффективность предложенной модифицированной структуры сети в решении задачи POMDP.

Заключение

В работе представлен метод распределения задач между человеком и роботом в условиях неопределенности в изменяющейся среде. Задачи разбиваются на основе графового подхода и распределяются в зависимости от возможностей человека и РТК. Предложено решение, в котором механизм памяти LSTM встроен в алгоритм обучения с подкреплением для решения проблемы частичной наблюдаемости, вызванной неточностью измерений сенсоров и шумом в окружающей среде. Метод HER использован для решения проблемы скудных вознаграждений. Результаты обучения подтверждают эффективность интеграции LSTM и HER в архитектуру DDPG для решения задач POMDP.

×

About the authors

M. А. Shereuzhev

Moscow State University of Technology STANKIN; Moscow State Technical University named after N. E. Bauman

Author for correspondence.
Email: m.shereuzhev@stankin.ru
ORCID iD: 0000-0003-2352-992X
SPIN-code: 1734-9056

Candidate of Engineering Sciences, Junior Research, Center for Cognitive Technologies and Machine Vision Systems, Senior Teacher, The Department of Robotic Systems and Mechatronics

Russian Federation, 127055, Moscow, build. 1 Vadkovsky street; 105005, Moscow, build. 5 corps 1 Baumanskaya street

Wu Guo

Moscow State Technical University named after N. E. Bauman

Email: ug@student.bmstu.ru

Post-graduate Student at the Department of Robotic Systems and Mechatronics

Russian Federation, 105005, Moscow, build. 5 corps 1 Baumanskaya street

V. V. Serebrenny

Moscow State Technical University named after N. E. Bauman

Email: vsereb@bmstu.ru
ORCID iD: 0000-0003-1182-2117
SPIN-code: 5410-8433

Candidate of Engineering Sciences, Associate Professor, Head of the Department of Robotic Systems and Mechatronics

Russian Federation, 105005, Moscow, build. 5 corps 1 Baumanskaya street

References

  1. Fiore M., Clodic A., Alami R. On planning and task achievement modalities for human-robot collaboration. In Experimental Robotics: The 14th International Symposium on Experimental Robotics. Marrakech, Morocco: Springer. 2016. Pp. 293–306.
  2. Ghadirzadeh A., Chen X., Yin W. et al. Human-centered collaborative robots with deep reinforcement learning. IEEE Robotics and Automation Letters. 2020. Vol. 6(2). Pp. 566–571. doi: 10.48550/arXiv.2007.01009
  3. Qureshi A.H., Nakamura Y., Yoshikawa Y., Ishiguro H. Robot gains social intelligence through multimodal deep reinforcement learning. In IEEE-RAS. 16th International Conference on Humanoid Robots (humanoids). 2016. Pp. 745–751. doi: 10.48550/arXiv.1702.07492
  4. Kwok Y.K., Ahmad I. Static scheduling algorithms for allocating directed task graphs to multiprocessors. ACM Computing Surveys. 1999. Vol. 31(4). Pp. 406–471. doi: 10.1145/344588.344618
  5. Malik A.A., Bilberg A. Complexity-based task allocation in human-robot collaborative assembly. Industrial Robot: International Journal of Robotics Research and Application. 2019. Vol. 46(4). Pp. 471–480. doi: 10.1108/IR-11-2018-0231
  6. Lucignano L., Cutugno F., Rossi S., Finzi A. A dialogue system for multimodal human-robot interaction. Proceedings of the 15th ACM on International Conference on Multimodal Interaction. 2013. Pp. 197–204. doi: 10.1145/2522848.2522873
  7. Qiu C., Hu Y., Chen Y., Zeng B. Deep deterministic policy gradient (DDPG)-based energy harvesting wireless communications. IEEE Internet of Things Journal. 2019. Vol. 6(5). Pp. 8577–8588. doi: 10.1109/JIOT.2019.2921159
  8. Hochreiter S. Long Short-term Memory. Neural Computation MIT-Press. 1997.
  9. Andrychowicz M., Wolski F., Ray A. et al. Hindsight experience replay. Advances in Neural Information Processing Systems. 2017. Vol. 30.
  10. Towers M., Kwiatkowski A., Terry J. et al. Gymnasium: A standard interface for reinforcement learning environments. arXiv:2407.17032. 2024. doi: 10.48550/arXiv.2407.17032

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Structural diagram of the control system for interaction between a robot and a human

Download (33KB)
3. Fig. 2. Example of task decomposition in the form of DAG

Download (12KB)
4. Fig. 3. LSTM cell structure

Download (14KB)
5. Fig. 4. LSTM-DDPG network structure

Download (20KB)
6. Fig. 5. Ready-made learning environme

Download (12KB)
7. Fig. 6. Graph of success rate versus number of episodes

Download (12KB)

Copyright (c) 2024 Шереужев М.А., Го У., Серебренный В.V.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».