Reflex or Reflection? Oculomotor Behavior of the Companion Robot, Creating the Impression of Communicating with an Emotional Being
- Authors: Zinina A.A.1,2,3, Zaidelman L.Y.1,2, Kotov A.A.1,2,3, Velichkovsky B.M.1,2,4
-
Affiliations:
- National Research Center “Kurchatov Institute”
- Russian State University for the Humanities
- Moscow State Linguistic University
- Technische Universitaet Dresden
- Issue: No 1 (2022)
- Pages: 3-18
- Section: Intelligent Systems and Robots
- URL: https://journal-vniispk.ru/2071-8594/article/view/270606
- DOI: https://doi.org/10.14357/20718594220101
- ID: 270606
Cite item
Full Text
Abstract
The control system of the companion robot F-2 implements a competitive system of productions (scenarios) to model the robot’s reaction in response to a wide range of events. The system is designed to provide balanced robot’s responses to speech utterances and other events recognized by the computer vision system (orientation of the user’s face and gaze, events in the Tangram game), as well as to the user’s touches. In the represented experiment, we apply this system to evaluate two robots that respond differently to the orientation of a person’s face and the direction of the gaze. According to the results, the balance of the robot’s oculomotor activity between fixation on human eyes and other current tasks is a key element ensuring a sense of social contact with an artificial agent. For the first time, it was found that the intensity of such an impression in the case of a robot implementing eye-to-eye contacts is determined by the level of the user's emotional intelligence. Implicit human reactions to the robot's gaze are also examined. In conclusion, we consider the problem of differences between reflexive and reflex behavior in eye movements in comparison with other communicative cues. We consider the question: what can be the minimum requirements to the architecture of a cognitive model capable of inducing the impression of the believability of robot behavior? In our opinion, this architecture should provide a balance between the social contacts and processing of target stimuli, responding with various communicative reactions, including reactions that are not the priority in this context. These behavioral cues of the “second priority” may give a person the impression of communicating with an emotional being.
Full Text
Введение
Взгляд человека является важным каналом коммуникации и позволяет выразить множество внутренних состояний субъекта. С одной стороны, направление взгляда контролируется вниманием: человек переводит глаза на привлекающий его объект, пытается ориентироваться в окружающем пространстве, перемещая взгляд между объектами в своем окружении [1, 2]. С другой стороны, взгляд является экспрессивным средством: человек может намеренно указывать глазами объект в окружении, закатывать глаза, прищуривая или расширяя веки и тем самым сообщая адресату негативную или позитивную оценку. Такая конкуренция внутренних систем организма за управление глазами несет не только перцептивную, но и важную коммуникативную функцию [3–5]. Движения глаз являются иконическим знаком, указывающим на смену управляющих поведением субъекта внутренних состояний, и даже на присутствие у него рефлексии и сознания. Задача правдоподобного управления глазами роботов-компаньонов может стать одной из ключевых функций, позволяющих подтолкнуть пользователя к приписыванию роботу эмоций и состояний человека.
При имитации глазодвигательного поведения виртуального агента или робота важно, чтобы различные системы зрения конкурировали за контроль над направлением взгляда, кроме того, внимание к различным объектам также вызывает внутреннюю конкуренцию за перемещение взгляда на конкретный объект. В ситуации дефицита времени контроль над направлением взгляда становится узким местом, поскольку взгляд должен удовлетворять многочисленные запросы от систем внимания и поддержания коммуникации. Система век и бровей, управляемая мускулами или action units, согласно нотации Facial Actions Coding System [6], также может обслуживать внимание – прищуривать или широко открывать глаза, а также выражать многочисленные когнитивные и эмоциональные состояния. С одной стороны, это поведение может быть вне контроля субъекта, но соответствующие сигналы все равно могут донести информацию до адресата, таким образом, представляя собой знаки коммуникации. С другой стороны, способность волевого контроля над системой взгляда/век/бровей позволяет субъекту выражать намерения: можно смотреть на объект, чтобы обозначить его, или намеренно хмуриться, чтобы выразить озабоченность. Переменная степень контроля над коммуникативными действиями (знаками) описывается как континуум Кендона [7, 8], где на одном полюсе находятся неконтролируемые модели поведения, а на другом – контролируемые невербальные знаки, подобные знакам естественного языка. Выразительные возможности системы взгляда широко изучаются в рамках теории коммуникации [9]. Взгляд также является важным компонентом естественных интерфейсов и поэтому часто реализуется в прикладных робототехнических системах, например, в роботах Cog [10], Kismet [11] и Infanoid [12].
В целом, поведение лица и глаз, включая веки и брови, можно изучать и моделировать: как отражение внутренних когнитивных операций субъекта, или как намеренное указание адресату на внутреннее состояние субъекта или намеренную передачу смыслов в коммуникации [13]. Мы изучаем восприятие взгляда не только в течение разовых эпизодов прямого зрительного контакта, но и во время длительного взаимодействия человека и робота, когда он многократно меняет направление взгляда между объектами в окружающей среде.
В данной работе мы предлагаем архитектуру для управления взглядом робота-компаньона в зависимости от множества имитируемых внутренних состояний. Мы также рассматриваем необходимые качества компьютерной системы управления поведением робота и экспериментально оцениваем, как человек воспринимает двух роботов, демонстрирующих разные варианты глазодвигательного поведения.
1. Архитектура робота Ф-2
Для экспериментов по человеко-машинному взаимодействию мы разрабатываем робота Ф-2, который управляется системой сценариев: правил или продукций типа «если-то». Если в систему сценариев поступает событие, соответствующее посылке одного из сценариев, данный сценарий активизируется и может передать на робота некоторое действие – элемент поведения, описанный на языке Behavior Markup Language – BML [14, 15]. Это может быть жест – движение рук, движение головы или глаз, а также речевое высказывание. Таким образом, базовая схема сценариев соответствует понятию рефлекса, или инстинкта [16]: сценарий заставляет организм выполнять некоторое действие при обнаружении определенной ситуации. Базовая схема этой модели представлена на Рис. 1.
Рис. 1. Общая схема сценариев для управления роботом
При разработке модели сценариев мы основываемся на понятии протоспециалиста, предложенного М. Минским [17]. Согласно его модели, в структуре управления поведением робота каждый такой специализированный модуль отвечает за обнаружение опасности или возможность удовлетворения потребности, временно устанавливая контроль за поведением робота. Разные протоспециалисты при этом конкурируют за обработку стимулов и за контроль над исполнительными органами. Эта модель была существенно развита А. Сломаном в рамках проекта CogAff. Он предложил разделять уровни управляющих процедур: автоматические рефлексы, включая эмоции и некоторые чувства, например, голод; рациональные рассуждения; процедуры рефлексии на высшем уровне метауправления. Сломан предполагает, что за краткосрочные реакции на пугающие и привлекательные ситуации отвечают единицы уровня рефлексов, а за более долгосрочное планирование – единицы уровня рассуждений. Тогда как процессы самого высокого уровня (рефлексивные процедуры) используются для оптимизации элементов уровня рассуждений.
Достоинством этой модели является то, что она обеспечивает гибкие реакции агента, если он сталкивается с множеством входящих стимулов и обладает множеством внутренних потребностей, поскольку баланс активации протоспециалистов позволяет в первую очередь обработать наиболее актуальные стимулы и обеспечить наиболее важные потребности. Модель поэтому может использоваться при создании агентов виртуальных сообществ и в проектах эмоциональных роботов. В отличие от языка Prolog или архитектуры Soar [18, 19], где выполняется перебор продукций, пока не будет найдено конкретное решение, в моделях типа CogAff для обработки входящего стимула могут активизироваться сразу несколько единиц. При этом, обычно, наиболее активированный сценарий подавляет альтернативы, как показано на Рис. 1.
В проекте робота Ф-2 мы разрабатываем систему управления, которая основывается на архитектуре CogAff, но при этом предназначена для обработки стимулов реального мира, прежде всего – речи. В системе используется лингвистический парсер, который получает текст на естественном языке1 и строит его ограниченное семантическое представление [20]. Для односоставного предложения таким представлением является семантическая предикация: набор из глагола и актантов (участников ситуации), распределенных по 22 валентностям [21]: агенс (ag), пациенс (pat), инструмент (instr) и т. д. В конкретной семантической предикации используется набор таких валентностей, заполненных подмножеством из 4385 используемых семантических признаков. В качестве базового набора реакций используется инвентарь доминантных сценариев (д-сценариев) [22]. Хотя исходно данная архитектура была предложена для анализа смысла текста, в расширенном варианте она используется для генерации ответа робота на самые разные события в окружающем мире: лица людей и движения глаз, эпизоды игры танграм и прикосновения.
Как видно на Рис. 2, для анализа входящих событий используется несколько модулей систем технического зрения. Первый компонент выделяет лица людей в своем окружении и строит вектор ориентации каждого лица. Изменение этого вектора может генерировать события вида ‘человек повернулся ко мне’ или ‘человек повернулся от меня’. Такие события получают семантическое представление, структурно сходное со смыслом текста, и поступают на вход компонента сценариев. Другой компонент реагирует на действия человека в игре танграм: распознает движения фишек на столе и генерирует события типа ‘человек переместил фишку правильно’ / ‘человек переместил фишку неправильно’. Один из вариантов робота снабжен тактильными датчиками, которые передают данные о месте, силе и паттерне тактильного контакта человека с роботом (например, человек стукнул, коснулся или погладил робота). Репрезентация всех этих событий в виде предикативных структур дает возможность компоненту сценариев сбалансированно реагировать на все входящие стимулы и выбирать наиболее релевантный стимул при избытке входящих событий.
Рис. 2. Расширенная архитектура обработки событий роботом Ф-2
2. Метод исследования
Целью данного эксперимента было изучение влияния ответного взгляда робота на его привлекательность для пользователя. В отличие от других экспериментов данной серии, в которых вводилась проблемная ситуация, совместно разрешаемая человеком и роботом, здесь мы решили исследовать ситуацию, в которой человек рассказывает роботу историю, а робот выступает в роли слушателя, демонстрируя различные способы ответного взгляда. В эксперименте приняли участие 46 испытуемых (средний возраст 27 лет, 33 женщины). В рамках эксперимента испытуемые должны были рассказать двум роботам истории по картинкам. В качестве стимульного материала мы использовали истории в картинках Херлуфа Бидструпа (Рис. 3), имеющие богатую практику применения в нейропсихологических экспериментах. Испытуемые получали каждую историю в виде набора разрозненных карточек. Они должны были составить связный сюжет и рассказать историю роботу: испытуемые рассказывали истории роботам по очереди, 3 истории каждому роботу. Порядок историй для каждого испытуемого выбирался случайно. В среднем испытуемые тратили на рассказ всех трех историй порядка 30 минут.
Рис. 3. Пример стимульного материала, который был представлен испытуемому
Мы проверяли следующие гипотезы: робот воспринимается как более привлекательный, если он устанавливает зрительный контакт с пользователем; респонденты с высоким уровнем эмоционального интеллекта лучше различают стратегии глазодвигательного поведения роботов. Для оценки эмоционального интеллекта использовался Тест эмоционального интеллекта Д. В. Люсина ЭмИн [23, 24]. Он опирается на трактовку эмоционального интеллекта как способности человека к пониманию своих и чужих эмоций и к управлению ими. Понимание эмоций подразумевает, что человек распознает эмоцию – т. е. устанавливает сам факт наличия эмоционального переживания у себя или у другого человека; идентифицирует эмоцию – т. е. устанавливает и находит словесное выражение для эмоции, которую испытывает он сам или другой человек; понимает причины и следствия этого эмоционального переживания. Управление эмоциями означает, что человек контролирует интенсивность, внешнее выражение и может при необходимости произвольно вызвать ту или иную эмоцию. Тест оценивает эмоциональный интеллект по отдельным шкалам, а также по суммарному баллу. При этом гипотеза состояла в том, что большую роль в эксперименте будут играть шкалы, фиксирующие способность человека распознавать эмоции других людей.
Процедура эксперимента состояла в следующем. Участник исследования садился за стол, на котором стояли два робота, обозначенные квадратной и треугольной метками на теле. Испытуемый имел возможность обращаться к каждому из роботов с одного места, только поворачивая голову. Перед началом исследования испытуемым коротко рассказывали про робота, сообщали, что в данный момент разработчики пытаются обучить его способности следить за историей по предъявляемым картинкам. Испытуемым намеренно не сообщалась реальная цель исследования – изучение влияния направления взгляда робота на привлекательность для пользователя. Экспериментатор рассказывал про карточки с историей и просил во время рассказа показывать роботу карточку, соответствующую текущей части рассказа. Первый робот (выбранный случайно) говорил, что готов послушать историю. После рассказа робот благодарил испытуемого и просил рассказать следующую историю другому роботу. Второй робот также приветствовал испытуемого и сообщал о готовности слушать рассказ, а в конце просил рассказать историю первому роботу. Таким образом, испытуемые поочередно взаимодействовали с роботами с различными поведенческими реакциями на направленный взгляд.
Роботы реагировали на коммуникативные действия человека двумя различными способами (Табл. 1). Робот, отмеченный квадратом, поддерживал зрительный контакт глаза-в-глаза с пользователем, а робот, отмеченный треугольником, демонстрировал взгляд в сторону от испытуемого. Такой взгляд мог бы быть вызван вниманием к некоторому объекту в окружении, связан с задумчивостью (на основании данных ранее построенного мультимодального корпуса REC [25, 26]), или объясняться стратегией вежливости с целью избежать ущерба от прямого долгого взгляда в лицо собеседнику [27].
В настройках эксперимента выделялись три зоны внимания: участник мог расположить карточки на столе и показать их левому или правому роботу.
Табл. 1. Экспериментальные условия
Условия | До или после взгляда пользователя | Во время взгляда пользователя |
Робот, отвечающий на взгляд (обозначен квадратом) | ||
Робот, избегающий взгляда (обозначен треугольником) |
Взгляд влево или вправо: направление выбирается случайно |
Такая установка обеспечивала более высокую точность системы распознавания пользователя, которая определяла ориентацию лица, а не сам взгляд. Испытуемый мог общаться с левым и правым роботом из одной и той же позиции за столом, поэтому роботы постоянно поддерживали соответствующее поведение: например, каждый робот отвечал на взгляд пользователя, даже если тот рассказывал историю другому роботу (Рис. 4). После эксперимента испытуемые должны были выбрать наиболее понравившегося им робота, а также оценить каждого робота по пятибалльной шкале привлекательности. Испытуемые также заполняли анкету, в которой описывали свои впечатления от взаимодействия с роботами, оценивали роботов по шкалам семантического дифференциала и проходили тест эмоционального интеллекта ЭмИн.
Рис. 4. Экспериментальная ситуация
3. Система распознавания направления взгляда
Система управления роботом во время всего эксперимента приводила в движения руки, голову и глаза. Во время приветствия и речевых высказываний робота руки и голова управлялись жестами, согласованными с произносимыми словами. Во время прослушивания истории руки робота управлялись компонентом имитации бездействия, который инициировал постоянные незначительные движения рук, имитирующие дыхание. В то же время голова и глаза постоянно контролировались двумя сценариями, имитирующими реакцию на социальный взгляд пользователя. Один из сценариев активизировался входящим взглядом пользователя, у «треугольного» робота он вызывал взгляд в сторону, а у «квадратного» – ответный взгляд на пользователя. Второй сценарий отвечал поведение робота при уводе взгляда пользователя с робота, в этом случае он активизировался и вызывал у каждого из двух роботов взгляд вниз – на стол, где обычно располагались карточки.
При оценке направления внимания пользователя задача состояла в использовании камер, которые не мешают естественной коммуникации человека с роботом. С учетом характера встраиваемых камер и их расположения, направление внимания пользователя приблизительно оценивалось по ориентации вектора лица. Такое решение позволяет избежать калибровки, типичной для экспериментов с айтрекерами, и меньше ограничивает пользователя до и во время эксперимента.
Чтобы найти вектор ориентации лица человека, который интерпретируется как огрубленный вектор внимания, строится 3D-модель лицевых ориентиров человека и выполняются следующие шаги. Лицо человека обнаруживается в видеокадрах камеры с помощью линейного SVM-классификатора, основанного на усовершенствованной версии HoG-features [28], реализованной в библиотеке Dlib. Нормализуется гистограмма интенсивности изображения внутри рамки, ограничивающей лицо. Затем определяются ориентиры найденного лица с помощью подхода Ensemle of Regression Trees, описанного в
[29] и реализованного в библиотеке Dlib. Положения этих 2D-ориентиров и 3D-координаты соответствующих точек модели используются для решения задачи Perspective-n-Point (PnP) с помощью метода [30], реализованного в библиотеке OpenCV. Решение PnP-задачи дает ориентацию лица человека в 3D-координатах относительно камеры. С использованием вычисленной ориентации лица строится трехмерный вектор взгляда начиная от глаз человека, после чего координаты вектора стабилизируются с помощью простого фильтра Калмана. Затем добавляется постоянное смещение к конечной точке вектора взгляда, чтобы учесть горизонтальное смещение камеры относительно робота: вектор должен указывать на камеру, когда человек смотрит прямо на робота. В результате угол между вектором взгляда и направлением от центра камеры к переносице человека дает приблизительную информацию о том, смотрит ли человек на робота.
В ходе эксперимента мы оценили точность данной системы распознавания. Данные, полученные от системы контроля вектора лица, сравнивались с направлением взгляда испытуемых, наблюдаемым во время эксперимента. Взгляд испытуемого на робота определялся как ориентация головы в направлении робота длительностью от 1 секунды. Оценка точности работы системы была получена с помощью ручного анализа видеозаписей. В ходе эксперимента система работала с избыточностью 133%, а именно продемонстрировала для 1988 взглядов около 2650 ответных действий. Большинство избыточных реакций было отмечено во время длительных (более 30 секунд) взглядов человека на робота, когда система выполняла несколько ответов на один взгляд: робот мог несколько раз опустить взгляд и опять поднять его на человека. По наблюдениям в корпусе REC [31] это, в целом, соответствует реальному поведению.
4. Моделирование ответной реакции робота на взгляд и увод взгляда в сторону
Для реакций робота использовался стандартный механизм сценариев, применяемый для управления роботом в других экспериментах (72 базовых эмоциональных сценария [22]), а также в режиме поддержания диалога с пользователем. Для данного эксперимента состав сценариев не сокращался. Система компьютерного зрения на основе изменения направления вектора лица генерировала события типа ‘человек смотрит на тебя’ или ‘человек смотрит в сторону’. Для обработки этих событий были созданы два сценария. Первый сценарий активизировался в ответ на события типа ‘человек смотрит на тебя’ и передавал на робота пакеты поведения в формате BML. Для «треугольного» робота в рамках этого сценария были созданы два пакета: с взглядом влево и вправо. При активации сценария один из этих пакетов выбирался случайно, что соответствует общей архитектуре сценариев. Для «квадратного» робота этот же сценарий был связан только с одним поведенческим пакетом, описывающим подъем головы и глаз в сторону собеседника. Выполнение любого из этих пакетов полностью сбрасывало активацию сценария. Хотя аппарат позволяет сценарию постепенно сбрасывать активацию, выполняя множество поведенческих пакетов, эти функции в данном эксперименте не использовались. Второй сценарий реагировал на события типа ‘человек смотрит в сторону’. Для обоих роботов этот сценарий вызывал одинаковый поведенческий пакет: робот опускал голову и глаза вниз, на стол, где обычно находились карточки для рассказа. Оба сценария были включены в группу противопоставления так, чтобы поступление любого из указанных стимулов не активировало оба сценария одновременно. При реальном использовании два указанных сценария могут комбинироваться с обработкой других стимулов. После ответа на взгляд пользователя управление глазами робота могли бы захватывать другие сценарии (рассматривание карточек или людей в окружении, экспрессивные движения глазами), однако для исключения побочных факторов в эксперименте другие сценарии для управления взглядом не добавлялись.
Интересный эффект добавления этих сценариев, замеченный уже после эксперимента, состоял в следующем. Если при обработке речи робот получал высказывание пользователя типа Я смотрю кино, то в качестве ответа он опускал взгляд вниз. Описание в речи ситуации, в которой пользователь смотрит не на робота, а на другой объект, обрабатывалось так же, как и сообщение от системы компьютерного зрения. Этот эффект можно использовать в случаях, где необходима обработка события как при наблюдении, так и при описании в речи (например, Впереди красный свет). При необходимости эффект может быть устранен введением признаков, различающих реально наблюдаемые и лишь описываемые ситуации.
5. Результаты эксперимента
5.1. Предпочитаемый робот оценивается как более эмоциональный
Мы разделили участников эксперимента на группы предпочтений: 26% людей (n = 12) предпочли «треугольного» робота, который отводит взгляд, 28% людей (n = 13) – «квадратного» робота, реагирующего на взгляд контактом глаза-в-глаза, и 46% (n = 21) одинаково оценили обоих роботов. Согласно дисперсионному анализу, предпочтение робота является существенным фактором, влияющим на оценку робота по шкалам семантического дифференциала (F(24, 62) = 1,9, p < 0,05). Испытуемые, выбравшие «треугольного» и «квадратного» роботов, согласно шкалам семантического дифференциала значимо отличаются друг от друга (p <0,01, U-тест Манна-Уитни) при оценке робота как отзывчивого, внимательного и веселого (Рис. 5).
Рис. 5. Различия между группами, предпочитающими различное поведение робота
Корреляционный анализ показывает, что выбор предпочитаемого робота коррелирует (по тесту Спирмена) с приписыванием ему таких характеристик, как: веселый, быстрый, эмоциональный, отзывчивый (p < 0,01), а также – менее значимо – дружелюбный и привлекательный (p < 0,05). Предпочитаемый робот не считается безразличным. Такая оценка отрицательно коррелировала с предпочтением робота (p < 0,01). То есть человек, предпочитая некоторого робота, значимо выше оценивает его по эмоциональным шкалам семантического дифференциала. При этом оценки компетентный и умный не коррелировали с предпочтениями: большинство испытуемых поставили средние оценки по этим шкалам обоим роботам, независимо от своих предпочтений. Таким образом, предпочтение робота связано с более высокими оценками по эмоциональным, но не по «когнитивным» шкалам. Робот, отвечающий на взгляд пользователя более адекватным образом (с точки зрения пользователя), оценивается как более эмоциональный и отзывчивый, но не как более компетентный и умный. Иными словами, реакция робота на взгляд пользователя оценивается как эмоциональный отклик, но не как «понимание» роботом смысла текста.
5.2. Эмоциональный интеллект влияет на эксплицитное обнаружение разницы между вариантами глазодвигательного поведения
Участники исследования были разделены на две группы в зависимости от того, правильно ли люди определили разницу между поведением роботов. В группу людей, правильно распознавших различие, вошли испытуемые, которые в своем отчете указали именно на разницу в глазодвигательном поведении роботов, отметив, что робот с квадратом смотрит «на меня» и/или робот с треугольником смотрит в сторону. Тех, кто указал в анкете, что заметил разницу, но фактически описал эту разницу неправильно, мы не относили к группе испытуемых, заметивших разницу. В общей сложности из 46 испытуемых 31 (67 %) не заметили разницу, а 15 человек (33 %) заметили. При этом успешность в обнаружении разницы связана с эмоциональным интеллектом испытуемых: люди с высокими баллами по общей шкале Понимание эмоций лучше различают глазодвигательные паттерны, демонстрируемые двумя роботами (p < 0,05, U-тест Манна-Уитни). Именно они обычно правильно описывают разницу между двумя роботами (Рис. 6).
Рис. 6. Уровень эмоционального интеллекта людей, заметивших и не заметивших разницу между вариантами глазодвигательного поведения робота
Интересно распределение заметивших разницу по группам предпочтений. Количество людей, правильно описавших разницу, составило: 8% (лишь 1 из 12 человек) в группе предпочтения робота с избегающим взглядом, 23% (5 из 21) в нейтральной группе и 69% (9 из 13) в группе предпочтения робота, отвечающего на взгляд. Таким образом, люди, которые лучше распознают разницу между роботами, реагирующими на взгляд и избегающими его, также значительно чаще (p < 0,01, корреляция Спирмена) предпочитают робота, демонстрирующего ответный взгляд в глаза человека.
Вместе с тем, взгляд робота важен даже для тех испытуемых, кто не смог правильно описать разницу. По данным видеозаписей эксперимента некоторые из испытуемых, не определивших разницу между поведением двух роботов, все же адекватно реагировали на их глазодвигательное поведение. Например, при демонстрации карточки следовали за взглядом робота: перемещали карточку в сторону для «треугольного» робота и поднимали ее вверх для «квадратного» робота. Так, испытуемая №36 отмечает: В основном старалась встречаться с роботами взглядом и обращала внимание, если они начинали вертеть головой. При этом и она не заметила какой-либо разницы в поведении роботов.
5.3. Эмоциональный интеллект влияет на предпочтение робота
Согласно полученным результатам, уровень эмоционального интеллекта влияет на восприятие робота: те испытуемые, которые предпочли «квадратного» робота, отвечающего на взгляд пользователя ответным взглядом, обладали более высоким уровнем эмоционального интеллекта (p < 0,05, U-тест Манна-Уитни), чем группа, предпочитающая робота, избегающего взгляд (Рис. 7). Данное соответствие наблюдалось для конкретной шкалы – понимание чужих эмоций – по всем остальным шкалам теста эмоционального интеллекта испытуемые в двух группах не продемонстрировали значимых различий.
Рис. 7. Уровень эмоционального интеллекта по шкале понимание чужих эмоций и предпочтение робота
5.4. Качественный анализ оценок роботов отдельными испытуемыми
Изменение направления взгляда робота интерпретируется испытуемыми как перемещение внимания: некоторые испытуемые интерпретировали ответный взгляд «квадратного» робота как внимание к субъекту (робот готов меня слушать) и к рассказываемой истории. Другие участники эксперимента, наоборот, интерпретировали как внимание к событиям истории или как задумчивость (взгляд вбок) «треугольного» робота: испытуемые отмечали, что робот как будто пытается запомнить, подумать над рассказом.
В группе, участники которой поставили равные оценки роботам, были как люди, в целом высказавшиеся положительно о взаимодействии с роботами, так и скептики такого подхода. Многим скептикам поведение обоих роботов показалось недостаточно интерактивным. Дело в том, что в ходе эксперимента разнообразные ответные поведенческие и речевые реакции были сведены к минимуму с целью контроля побочных переменных. Важно было оценить эффект именно ориентированного глазодвигательного поведения робота. Возможно, для таких испытуемых ключевой характеристикой взаимодействия является какая-то другая функция, не связанная с глазодвигательным поведением, например, адекватность вопросно-ответного взаимодействия, отсутствие междометий или лексических оценок рассказа. Можно предположить, что в ситуации данного эксперимента паттерн ответа прямым взглядом на взгляд оказался привлекательным для людей с повышенным вниманием к чужим эмоциям, но в иных ситуациях и для испытуемых с другими личностными характеристиками и прошлым опытом значимыми могут оказаться другие функции робота-компаньона.
Хотя физическое сходство наших роботов с человеком было очень относительным, испытуемые в значительной степени воспринимали их как антропоморфных, в ментальном отношении, существ. Они отмечали: Рассказывать им истории куда приятнее, чем, скажем, просто микрофону. Они создают впечатление внимательного и заинтересованного живого собеседника (испытуемый №22). Интересно наблюдать, как они (роботы) реагируют на слова. Приятно было бы иметь у себя такого помощника или собеседника (когда они будут доработаны, я буду в числе тех, кто точно обзаведется таким помощником) (испытуемый №38). Другие испытуемые указывали: С одной стороны, понимаешь, что это не настоящий человек, но он говорит что-то тебе, смотрит на тебя как человек и есть желание общаться с ним, как с человеком (испытуемый №6). Такая «атрибуция ментальности» возникала даже у людей, которые воспринимали роботов нейтрально или негативно: Понимая, что робот – не живое существо, открыться перед ним тяжело и охватывает стеснение и неуверенность, ведь он тоже слушатель и может оценить мою историю (испытуемый №43).
6. Обсуждение результатов эксперимента
Результаты работы заключаются как в конкретных данных о восприятии человеком робота в зависимости от его ответного глазодвигательного поведения в процессах коммуникации, так и в плане выводов об общих требованиях к компьютерным моделям, управляющим поведением перспективных роботов-компаньонов.
6.1. Особенности модели управления поведением робота-компаньона
С точки зрения дальнейшего развития программной архитектуры, наибольший интерес в наблюдаемом поведении участников эксперимента вызывает множество интерпретаций одного движения робота (например, взгляд вбок) и приписываемая роботу смена когнитивных состояний (робот слушает меня, робот задумывается над историей, робот грустит из-за событий, о которых я рассказываю в этой истории). Особенно интересно, что два разных состояния могут быть приписаны одному действию. Именно эта ситуация иногда возникала в отношении взгляда в сторону от испытуемого у «треугольного» робота: он услышал и задумался, он услышал и отвлекся, он как девочка: слушает, но думает о чем-то своем. Как можно предположить, такая множественность приписываемых когнитивных состояний, распределенных во времени (состояния сменяют друг друга, последовательно получая контроль над взглядом) или одновременных (одно действие может выражать два состояния), может служить ключевой функцией для восприятия робота-компаньона как эмоционально сложного и разумного существа. По крайней мере, с позиции части людей, например, обладающих высокой чувствительностью к эмоциям других. С точки зрения развития программных архитектур, это означает, что система отбора сценариев не должна выбирать один «наилучший» для управления агентом (как показано на Рис. 1): входящее событие может активизировать сразу несколько сценариев, выход которых чередуется во времени (глазами начинает управлять то один, то другой сценарий) или комбинируется в одновременных движениях. Например, робот переводит взгляд сразу после высказывания человека, демонстрируя факт восприятия высказывания, но при этом ориентирует взгляд в сторону, демонстрируя задумчивость.
Эти наблюдения согласуются с предложенной ранее моделью комбинации сценариев [32] и гипотезой о возможности моделирования некоторых эффектов сознания с помощью множественных интерпретаций, построенных альтернативными сценариями [33]. Во всех этих случаях обработка входящего стимула одновременно выполняется несколькими сценариями, которые последовательно или параллельно реализуют свои поведенческие пакеты (BML) на роботе, тем самым обогащая его поведение и указывая на существование альтернативных управляющих поведением состояний внутри робота. В социальной жизни мы связываем такие внутренние состояния с эмоциями и размышлениями.
6.2. Восприятие робота в коммуникации
В области конкретных экспериментальных результатов мы показали, что люди с высокой чувствительностью к чужим эмоциям (по шкале теста ЭмИн) предпочитают робота, демонстрирующего ответный взгляд (p < 0,05, U-тест Манна-Уитни). Интересно, однако, что при этом многие испытуемые воспринимали поведение противоположного робота («треугольного») как вполне осмысленное. Среди типичных интерпретаций можно отметить следующие:
- Застенчивость. Испытуемые считали, что робот смотрит в сторону, поскольку стесняется. В этой интерпретации, согласно теории вежливости, робот стремится избежать действий, затрагивающих социальное лицо человека.
- Невнимательность. Некоторые испытуемые отмечали, что им хотелось бы привлечь внимание робота, уводящего взгляд в сторону, так как они считали, что он во время повествования теряет к ним интерес и задумывается о чем-то другом. То есть действия робота интерпретировались как взгляд в сторону при размышлении – глазодвигательный паттерн, регулярно встречающийся в корпусе REC [34].
- Задумчивость. Несколько испытуемых отметили, что «треугольный» робот, казалось бы, одновременно реагировал на пользователя и задумывался о событиях рассказа. Например, они сообщали: робот, как будто бы, обращает внимание на меня, глядя в сторону. Мы можем предложить следующую интерпретацию этого феномена: участники воспринимали избегающее движение взгляда «треугольного» робота как сложный паттерн, где робот начинает двигаться сразу после поворота головы пользователя (это создает ощущение ответной реакции) и смотрит в сторону, таким образом, демонстрируя паттерн, типичный для обдумывания событий, согласно корпусу REC. Другими словами, для этих участников немедленное начало и паттерн движения (взгляд в сторону) были вызваны двумя различными внутренними состояниями, приписанными роботу. Немедленное начало движения взгляда было интерпретировано как выраженное внешнее внимание, а паттерн взгляда в сторону – как размышление.
Хотя поведение двух роботов было сконструировано как непосредственная реакция на взгляд пользователя, несколько человек обратили внимание на другие фазы этих движений. Некоторые испытуемые, предпочитающие «треугольного» робота, охарактеризовали его как более выразительного и активного, возможно, поскольку он с высокой амплитудой перемещал свой взгляд между тремя позициями: перемещал голову и зрачки вниз, влево или вправо. Испытуемые обращали внимание даже на возвратное движение глаз робота в неактивную позицию (робот при этом смотрит вниз), что интерпретировалось ими как «грустное» кивание головой во время печальных событий рассказа, либо как объективно отсутствующее внимание к карточкам, разложенным на столе.
Современные нейрокогнитивные исследования аналогичным образом выявляют несколько различных механизмов участия движений глаз в процессах коммуникации. Если первоначально исследования были практически исключительно сконцентрированы на префронтальных механизмах коры, реализующих разовые акты контактов глаза-в-глаза между участниками общения [13, 35], то в последние годы при изучении развернутой во времени когнитивной активности становится очевидной роль более глубоких структур т. н. дефолтной системы мозга [36]. Эта роль как раз и состоит в регуляции таких эпизодов, как размышления, связанных с переработкой внутренней информации и обычно требующих некоторой отстройки от внешнего стимульного поля, когда мы прикрываем глаза ладонью или отводим взгляд в сторону [37].
Заключение
Реализованная система конкурентного ответа робота Ф-2 на взгляд пользователя продемонстрировала в описанном эксперименте достаточную эффективность для приписывания ему различных ментальных процессов и состояний со стороны испытуемых. У них складывалось впечатление о роботе как об активном слушателе, обладающем такими важными для общения и совместного решения задач психологическими признаками, как внимательный и эмоциональный.
В данном эксперименте впервые показано, что существует тройственная связь между уровнем эмоционального интеллекта, способностью определить разницу между двумя паттернами глазодвигательного поведения и предпочтением робота с определенным паттерном глазодвигательного поведения. Люди с высоким уровнем эмоционального интеллекта (шкала внимание к чужим эмоциям теста ЭмИн) лучше замечают разницу между роботом, отвечающим на взгляд контактом глаза-в-глаза, и роботом, в ответ на взгляд смотрящим в сторону. Такие испытуемые также достоверно предпочитают первого робота. Можно утверждать, что высокий уровень эмоционального интеллекта является важной предпосылкой «атрибуции ментальности» и высокого потенциала партнерских отношений с роботом-компаньоном. Вместе с тем, как видно в отдельных случаях, даже те испытуемые, которые не отмечают различий между роботами в самоотчетах, демонстрируют способность учитывать движения взгляда робота в своем собственном поведении. Очевидно, надо различать механизмы взаимодействия с взглядом собеседника, имеющие имплицитный характер, и комплекс явлений, связанных с предпочтением ответного взгляда, уровнем эмоционального интеллекта и способностью субъекта распознать и описать отличия глазодвигательного поведения собеседника. Иными словами, в процессах коммуникации надо учитывать, с одной стороны, существование низкоуровневых имплицитных процессов, делающих избыточным когнитивный контроль [38], и, с другой, существование рефлексивных процессов, позволяющих человеку в явном виде описывать различия в поведении партнера. Этот вопрос представляет значительный научный интерес и требует дальнейшего изучения.
С точки зрения архитектуры базовой компьютерной модели, можно предположить, что конкурентное управление взглядом робота со стороны множества сценариев может являться ключевой функцией для создания впечатления о роботе как об эмоциональном существе. Смена направления взгляда робота может восприниматься как отражение смены конкурирующих когнитивных и эмоциональных состояний, присутствующих у робота и делающих его, таким образом, подобным человеку в естественном общении и при совместном решении задач.
Выражаем признательность руководству РГГУ за помощь в организации экспериментов в сложный период ограничений, вызванных пандемией. Благодарим Н. А. Аринкина, К. А. Кивву и А. А. Филатова за помощь в подготовке эксперимента.
1 Парсер работает с письменным текстом на русском языке. При обработке устных сообщений для распознавания текста используется внешний сервис Yandex Speech API. При этом поддерживаются также неоднозначные варианты распознавания.
About the authors
Anna A. Zinina
National Research Center “Kurchatov Institute”; Russian State University for the Humanities; Moscow State Linguistic University
Author for correspondence.
Email: zinina_aa@nrcki.ru
PhD in psychology, Researcher, Leading researcher
Russian Federation, Moscow; Moscow; MoscowLyudmila Y. Zaidelman
National Research Center “Kurchatov Institute”; Russian State University for the Humanities
Email: zaydelman_ly@nrcki.ru
Researcher
Russian Federation, Moscow; MoscowArtemy A. Kotov
National Research Center “Kurchatov Institute”; Russian State University for the Humanities; Moscow State Linguistic University
Email: kotov@harpia.ru
PhD in linguistics, Leading researcher, Researcher
Russian Federation, Moscow; Moscow; MoscowBoris M. Velichkovsky
National Research Center “Kurchatov Institute”; Russian State University for the Humanities; Technische Universitaet Dresden
Email: velichkovsky@tu-dresden.de
PhD and Doctor of Psychological Sciences, Corresponding member of RAS, Chief researcher
Russian Federation, Moscow; Moscow; Dresden, GermanyReferences
- Pannasch, S., Schulz, J., Velichkovsky, B.M. 2011. On the control of visual fixation durations in free viewing of complex images. Attention, Perception, and Psychophysics. 73(4).
- Velichkovsky, B. M., Korosteleva, A. N., Pannasch, S., Helmert, J. R., Orlov, V. A., Sharaev, M. G., Velichkovsky, B.B., Ushakov, V. L. 2019. Two visual systems and their eye movements: A fixation-based eventrelated experiment with ultrafast fMRI reconciles competing views. STM. 11(4).
- Velichkovsky B.M. 1995. Communicating attention: Gaze position transfer in cooperative problem solving. Pragmatics & Cognition. 3(2):199–223.
- Beyan, C., Murino, V., Venture, G., Wykowska, A. 2020. Computational Approaches for Human-Human and Human-Robot Social Interactions. Frontiers in Robotics and AI. 7:55
- Pagnotta, M., Laland, K.N., Coco, M.I. 2020 Attentional coordination in demonstrator-observer dyads facilitates learning and predicts performance in a novel manual task. Cognition. 201.
- Ekman, P., Friesen, W. 1978. Facial Action Coding System: A Technique for the Measurement of Facial Movement. Palo Alto: Consulting Psychologists.
- Iriskhanova, O.K., Cienki, A. 2018. The semiotics of gestures in cognitive linguistics: Contribution and challenges. Voprosy Kognitivnoy Lingvistiki.
- Müller C. 2018. Gesture and sign: Cataclysmic break or dynamic relations?. Frontiers in Psychology. 9.
- Admoni, H., Scassellati, B. 2017. Social Eye Gaze in Human-Robot Interaction: A Review. Journal of HumanRobot Interaction. 6(1).
- Scassellati, B. 1996. Mechanisms of shared attention for a humanoid robot. Embodied Cognition and Action: Papers from the 1996 Fall Symposium. 4(9).
- Breazea, l C., Scassellati, B. 1999. A context-dependent attention system for a social robot. IJCAI International Joint Conference on Artificial Intelligence. 2.
- Kozima, H., Ito, A. 1998. Towards language acquisition by an attention-sharing robot.
- Schrammel, F., Pannasch, S., Graupner, S.T., Mojzisch, A., Velichkovsky, B.M. 2009. Virtual friend or threat? the effects of facial expression and gaze interaction on psychophysiological responses and emotional experience. Psychophysiology. 46(5).
- Vilhjálmsson, H., Cantelmo, N., Cassell, J., Chafai, N. E., Kipp, M., Kopp, S., Van Der Werf, R. J. 2007. The Behavior Markup Language: Recent Developments and Challenges. Intelligent Virtual Agents. 99–111.
- Kopp, S., Krenn, B., Marsella, S., Marshall, A. N., Pelachaud, C., Pirker, H., Vilhjálmsson, H. 2006. Towards a Common Framework for Multimodal Generation: The Behavior Markup Language. Intelligent Virtual Agents. 205–217.
- Lorenz, K. Oborotnaya storona zerkala [The reverse side of the mirror]. Red. Gladkij A.V. M.: Respublika, 1998.
- Minsky, M.L. The Society of Mind. New-York, London: Touchstone Book. 1988 p.
- Laird, J.E. 2018. The Soar Cognitive Architecture. The Soar Cognitive Architecture.
- Laird, J.E., Newell, A., Rosenbloom, P.S. 1987. SOAR: An architecture for general intelligence. Artificial Intelligence. 33(1):1–64.
- Kotov, A., Zinina, A., Filatov, A. 2015. Semantic Parser for Sentiment Analysis and the Emotional Computer Agents. Proceedings of the AINL-ISMW FRUCT 2015. 167–170.
- Fillmore, C.J. 1968. The Case for Case. Universals in linguistic theory / ed. Bach E., Harms R.T. New York: Holt, Rinehart & Winston. 1–68.
- Kotov, A.A. 2021. Mekhanizmy rechevogo vozdejstviya [Mechanisms of speech influence]. M.: RGGU.
- Lyusin, D.V. 2006. Novaya metodika dlya izmereniya emocional'nogo intellekta: oprosnik EmIn. [A new technique for measuring emotional intelligence: the EmIn questionnaire]. Psihologicheskaya diagnostika [Psychological diagnostics]. L(4): 3–22.
- Lyusin, D.V. 2009. Oprosnik na emocional'nyj intellekt EmIn: novye psihometricheskie dannye [Emotional intelligence questionnaire EmIn: new psychometric data]. Social'nyj i emocional'nyj intellekt: ot modelej k izmereniyam [Social and Emotional Intelligence: from Models to Measurements]. M.: Institute of Psychology of the Russian Academy of Sciences. 264-278
- Kotov, A.A., Zinina, A.A. 2015. Funkcional'naya razmetka kommunikativnyh dejstvij v korpuse “REC” [Functional marking of communicative actions in the “REC" corpus]. Trudy mezhdunarodnoj konferencii “Korpusnaya lingvistika 2015.” [Proceedings of the international conference "Corpus Linguistics 2015."]. St. Petersburg: St. Petersburg State University. 287-295.
- Kotov, A.A., Zinina, A.A. 2015. Funkcional'nyj analiz neverbal'nogo kommunikativnogo povedeniya [Functional analysis of nonverbal communicative behavior]. Komp'yuternaya lingvistika i intellektual'nye tekhnologii [Computational linguistics and intelligent technologies]. Moscow: RSUH. 1(14). 299-310.
- Brown, P., Levinson, S.C. 1987. Politeness : Some Universals in Language Usage (Studies in Interactional Sociolinguistics). Cambridge.
- Felzenszwalb, P. F., Girshick, R. B., McAllester, D., Ramanan, D. 2010. Object detection with discriminatively trained part-based models. IEEE Transactions on Pattern Analysis and Machine Intelligence. 32(9):1627-1645.
- Kazemi, V., Sullivan, J. 2014. One millisecond face alignment with an ensemble of regression trees. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 1867-1874.
- Terzakis, G., Lourakis, M. 2020. A Consistently Fast and Globally Optimal Solution to the Perspective-n-Point Problem. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 12346 LNCS.
- Kotov, A., Budyanskaya, E. 2012. The Russian Emotional Corpus: Communication in Natural Emotional Situations. Computational linguistics and intelligent technologies. M.: RGGU. 11(18). 296-306.
- Zinina, A.A., Arinkin, N.A., Zajdelman, L.Ya., Kotov, A.A. 2018. Razrabotka modeli kommunikativnogo povedeniya robota F-2 na osnove mul'timodal'nogo korpusa «REC». [Development of a model of the communicative behavior of the robot F-2 based on the multimodal housing "REC".]. Komp'yuternaya lingvistika i intellektual'nye tekhnologii (Moskva, 2018). [Computational linguistics and intelligent technologies]. 17(24): 831–844.
- Kotov A.A. A computational model of consciousness for artificial emotional agents. Psychology in Russia: State of the Art. 2017. 10(3):57–73.
- Kotov, A.A., Budyanskaya, E.M. 2007. Modelirovanie ostrot i posleduyushchih shagov dialoga dlya animirovaniya virtual'nyh agentov [Simulation of the witticisms and subsequent steps of the dialogue for animating virtual agents.] Komp'yuternaya lingvistika i intellektual'nye tekhnologii. M.: RGGU. [Computational linguistics and intelligent technologies]. 102-108.
- Schilbach, L., Helmert, J.R., Mojzisch, A., Pannasch, S., Velichkovsky, B.M., Vogeley, K. 2005. Neural correlates, visual attention and facial expression during social interaction with virtual others. Proceedings of the 27th Annual Conference of Cognitive Science Society. Stresa, Italy. 74–86.
- Velichkovsky, B.M., Krotkova, O.A., Kotov, A.A., Orlov, V.A., Verkhlyutov, V.M., Ushakov, V.L., Sharaev, M.G. 2018. Consciousness in a multilevel architecture: Evidence from the right side of the brain. Consciousness and Cognition. 64.
- Velichkovsky, B.M., Osipov, G.S., Nosovec, Z.A., Velichkovsky, B. B. 2020. Lichnostnyj smysl i reshenie tvorcheskih zadach: sovremennye nejrokognitivnye issledovaniya [Personal meaning and creative problem solving: modern neurocognitive research]. Iskusstvennyj intellekt i prinyatie reshenij [Artificial intelligence and decision-making]. 10(3):3-14.
- Cognitive neuroscience of attention. Ed. Posner M.I. The Guilford Press. 2004.
Supplementary files
