Detection of Depression Among Social Network Users Using Machine Learning Methods

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

Statistical data provided by the FSBI “NMITSPN named after V.P. Serbsky” of the Ministry of Health of Russia indicate that depression, as a psychoemotional state, is the main cause of concern around the world, which in most cases leads to suicide, if not detected, and to a threat to others. Studies show that depression tends to have an impact on writing style and appropriate language use. The main purpose of the proposed study is to study user messages on the VKontakte social network and identify attributes that may indicate depressive symptoms of users. The article uses machine learning approaches (logistic regression, random forest, support vector machine, XGBoost) and natural language processing methods (removal of stop words, character deletion, tokenization, lemmatization) to prepare data and evaluate their effectiveness. The work demonstrated that the ability to search for depressed users with an accuracy of 77% using the XGBoost classifier. This method is combined with other linguistic functions (N-gram + TF-IDF) and LDA to achieve higher accuracy. In conclusion, the main conclusions of the study are formulated.

About the authors

Alena A. Zotkina

Penza State Technological University

Author for correspondence.
Email: alena.zotkina.97@mail.ru
ORCID iD: 0000-0002-2497-6433

postgraduate student of the 4th year of study at the Department “Programming”

Russian Federation, Penza

Alexey I. Martyshkin

Penza State Technological University

Email: mai@penzgtu.ru
ORCID iD: 0000-0002-3358-4394

Cand. Sci. (Eng.), Associate Professor; Head of the Department “Programming”

Russian Federation, Penza

References

  1. Abboute A., Boudjeriou Y., Entringer G. et al. Mining Twitter for suicide prevention. In: Natural language processing and information systems. NLDB 2014. Lecture notes in computer science. E. Métais, M. Roche, M. Teisseire (eds.). Vol. 8455. Cham: Springer, 2014. Pp. 250–253. DOI: https://doi.org/10.1007/978-3-319-07983-7_36
  2. Chattopadhyay S. A study on suicidal risk analysis. 9th International Conference on e-Health Networking, Application and Services. Taipei: IEEE, 2007. Pp. 74–78.
  3. Coppersmith G., Ngo K., Leary R., Wood A. Exploratory analysis of social media prior to a suicide attempt. In: Proceedings of the third workshop on computational linguistics and clinical psychology. San Diego, CA: Association for Computational Linguistics. 2016. Pp. 106–117.
  4. O’dea B., Wan S., Batterham P.J. et al. Detecting suicidality on Twitter. Internet Interventions. The Application of Information Technology in Mental and Behavioural Health. 2015. No. 2 (2). Pp. 183–188. doi: 10.1016/j.invent.2015.03.005.
  5. Bonzanini M. Social Media analysis in Python. Extract and analyze data from all corners of the social web in Python. Transl. from English by A.V. Logunov. Moscow: DMK Press, 2018. 288 p. ISBN 978-5-97060-574-5. URL: https:// e.lanbook.com/book/108129
  6. Zotkina A.A. Analysis of the depressive state of users of the VKontakte social network. XXI century: Results of the Past and Problems of the Present Plus. 2022. Vol. 11. No. 4 (60). Pp. 52–55. (In Rus.) doi: 10.46548/21vek-2022-1160-0007
  7. Coelho L.P., Richart V. Building machine learning systems in Python. Transl. from English by A.A. Slinkin. 2nd ed. Moscow: DMK Press, 2016. 302 p. ISBN 978-5-97060-330-7. URL: https://e.lanbook.com/book/82818
  8. Makshanov A.V., Zhuravlev A.E., Tyndykar L.N. Big data. 2nd ed., erased. St. Petersburg: Lan, 2022. 188 p. ISBN 978-5-8114-9690-7. URL: https://e.lanbook.com/book/198599
  9. Moskvitin A.A. Data, information, knowledge: Methodology, theory, technologies: Monograph. St. Petersburg: Lan, 2022. 236 p. ISBN 978-5-8114-3232-5. URL: https://e.lanbook.com/book/206267
  10. Semerikov A.V., Glazyrin M.A. Classification of objects based on a neural network and methods of the decision tree and nearest neighbors: Textbook. Ukhta: USTU, 2022. 68 p. URL: https://e.lanbook.com/book/267857
  11. Flach P. Machine learning. The science and art of building algorithms that extract knowledge from data. Moscow: DMK Press, 2015. 400 p. ISBN 978-5-97060-273-7. URL: https://e.lanbook.com/book/69955
  12. Shalev-Schwartz Sh., Ben-David Sh. Ideas of machine learning: Textbook. Transl. from English by A.A. Slinkin. Moscow: DMK Press, 2019. 436 p. ISBN 978-5-97060-673-5. URL: https://e.lanbook.com/book/131686 (data of accesses: 02.02.2023).

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. A model for detecting the depressive state of users of the VKontakte social network

Download (251KB)


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».