A Method for Recognition of Sentiment and Emotions in Russian Speech Transcripts Using Machine Translation

封面

如何引用文章

全文:

详细

This paper addresses the issue of user emotions and sentiment recognition in transcripts of Russian speech samples using lexical methods and machine translation. The availability of data for sentiment analysis in Russian texts is quite limited, thus this paper proposes a new approach which is based on automatic machine translation of Russian texts into English. Additionally, the paper presents the results of experimental research regarding the impact of partial and full machine translation on emotion and sentiment recognition. Partial translation means translating single lexemes not included in Russian sentiment dictionaries, while full translation implies translating the entire text. A translated text is further analyzed using different English sentiment dictionaries. Experiments have demonstrated that the combination of all English sentiment dictionaries enhances the accuracy of emotion and sentiment recognition in text data. Furthermore, this paper explores the correlation between the length of the text data vector and its representativity. Experimental research for emotion and sentiment recognition tasks was conducted with the use of expert and automatic transcripts of the multimodal Russian corpus RAMAS. Based on the experimental results, one can conclude that the use of word lemmatization is a more effective approach for normalizing words in speech transcripts compared to stemming. The use of the proposed methods involving full and partial machine translation allows for an improvement in sentiment and emotion recognition accuracy by 0.65-9.76% in terms of F-score compared to the baseline approach. As a result of the application of machine translation methods to expert and automatic transcriptions of the Russian speech corpus RAMAS, an accuracy in recognition of 7 emotion classes was achieved at 31.12% and 23.74%, and 3 sentiment classes at 75.37% and 71.60%, respectively. Additionally, the experiments revealed that the use of statistical vectors as a text data vectorization method results in an a 1-5% increase in F-score value compared to concatenated (statistical and sentiment) vectors.

作者简介

A. Dvoynikova

St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)

Email: dvoynikova.a@iias.spb.su
14-th Line V.O. 39

I. Kagirov

St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)

Email: kagirov@iias.spb.su
14-th Line V.O. 39

A. Karpov

St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)

Email: karpov@iias.spb.su
14-th Line V.O. 39

参考

  1. Николаев И.С., Митренина О.В., Ландо Т.М. Прикладная и компьютерная лингвистика // М.:ЛЕНАНД. 2017. 320 с.
  2. Carosia A.E.O., Coelho G.P., Silva A.E.A. Analyzing the Brazilian financial market through portuguese sentiment analysis in social media // Applied Artificial Intelligence. 2020. vol. 34. no. 1. pp. 1–19.
  3. Smetanin S. The applications of sentiment analysis for Russian language texts: Current challenges and future perspectives // IEEE Access. 2020. vol. 8. pp. 110693–110719. doi: 10.1109/ACCESS.2020.3002215.
  4. Карпов А.А., Юсупов Р.М. Многомодальные интерфейсы человеко-машинного взаимодействия // Вестник Российской академии наук. 2018. Т. 88. № 2. С. 146–155.
  5. Dvoynikova A., Verkholyak O., Karpov A. Analytical review of methods for identifying emotions in text data // CEUR-WS. 2020. vol. 2552. pp. 8–21.
  6. Ekman P. An Argument for Basic Emotions // Cognition and Emotion. 1992. vol. 6(3-4). pp. 169–200.
  7. Dvoynikova A., Karpov A. Bimodal sentiment and emotion classification with multi-head attention fusion of acoustic and linguistic information // Computational Linguistics and Intellectual Technologies. 2023. vol. 22. pp. 51–61.
  8. Viksna R., Jekabsons G. Sentiment analysis in Latvian and Russian: A survey // Applied Computer Systems. 2018. vol. 23. no. 1. pp. 45–51.
  9. Loukachevitch N., Levchik A. Creating a general Russian sentiment lexicon // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). 2016. pp. 1171–1176.
  10. Demirtas E., Pechenizkiy M. Cross-lingual polarity detection with machine translation // Proceedings of the Second International Workshop on Issues of Sentiment Discovery and Opinion Mining. 2013. pp. 1–8.
  11. Reichel J., Benko Ľ. The Influence of a Machine Translation System on Sentiment Levels // RASLAN 2022 Recent Advances in Slavonic Natural Language Processing. 2022. pp. 201–208.
  12. Zygadlo A., Kozlowski M., Janicki A. Text-Based emotion recognition in English and Polish for therapeutic chatbot // Applied Sciences. 2021. vol. 11(21). no. 10146.
  13. Nandwani P., Verma R. A review on sentiment analysis and emotion detection from text // Social Network Analysis and Mining. 2021. vol. 11(1). no. 81.
  14. Hartung K., Herygers A., Kurlekar S.V., Zakaria K., Volkan T., Gröttrup S., Georges M. Measuring Sentiment Bias in Machine Translation // International Conference on Text, Speech, and Dialogue. 2023. pp. 82–93.
  15. Двойникова А.А. Сентимент-анализ транскрипции разговорной речи при помощи автоматического машинного перевода // Сборник трудов IX Конгресса молодых ученых. 2021. C. 199–203.
  16. Perepelkina O., Kazimirova E., Konstantinova M. RAMAS: Russian Multimodal Corpus of Dyadic Interaction for studying emotion recognition // PeerJ Preprints. 2018. vol. 6. no. e26688v1.
  17. Russell J.A. A circumplex model of affect // Journal of personality and social psychology. 1980. vol. 39. no. 6. pp. 1161–1178.
  18. Плунгян В.А. Введение в грамматическую семантику: Грамматические значения и грамматические системы языков мира // М.: РГГУ. 2011. 672 c.
  19. Goddard C., Wierzbicka A. Semantic and Lexical Universals // Studies in Second Language Acquisition, 1996. vol. 18(4). 520 p.
  20. Котельников Е.В., Разова Е.В., Котельникова А.В., Вычегжанин С.В. Современные словари оценочной лексики для анализа мнений на русском и английском языках (аналитический обзор) // Научно-техническая информация. Серия. 2020. Т. 2. С. 16–33.
  21. Hercig T., Brychcín T., Svoboda L., Konkol M. Uwb at semeval-2016 task 5: Aspect based sentiment analysis // Proceedings of the 10th international workshop on semantic evaluation (SemEval-2016). 2016. pp. 342–349.
  22. Koltsova O.Y., Alexeeva S., Kolcov S. An opinion word lexicon and a training dataset for Russian sentiment analysis of social media // Computational Linguistics and Intellectual Technologies. 2016. vol. 15. pp. 277–287.
  23. Strapparava C., Valitutti A. Wordnet affect: an affective extension of wordnet // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC). 2004. pp. 1083–1086.
  24. Mohammad S.M., Turney D.P. Crowdsourcing a word-emotion association lexicon // Computational Intelligence. 2013. vol. 29(3). pp. 436–465.
  25. Hu M., Liu B. Mining and summarizing customer reviews // Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004. pp. 168–177.
  26. Hutto C., Gilbert E. Vader: A parsimonious rule-based model for sentiment analysis of social media text // Proceedings of the international AAAI conference on web and social media. 2014. vol. 8. no. 1. pp. 216–225.

补充文件

附件文件
动作
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».