An Algorithm Creating for Predicting the Inaccurate Information Presence in Social Networks in Russian Language

Capa

Citar

Texto integral

Resumo

The development of user-to-user communication methods, such as social media, has resulted in the amount of inaccurate information reaching record levels. This problem affects not only regular users of social media, but also the media, which may refer to such messages as a source of information. The spread of false information leads to both financial and life-threatening problems. It is almost impossible to trace these messages manually and therefore it is required to create an algorithm that can perform this process automatically. The purpose of this paper is to try to create such an algorithm for the Russian language using machine learning methods. The data on which the models are based is a sample of data that has undergone the process of manual annotation. The sample has undergone the process of preparation and balancing. From this sample, 29 attributes were obtained which can be divided into 3 categories: user, text and distribution. These attributes and were applied to obtain classification models that are able to predict with sufficiently high probability. The result of this work is an algorithm for predicting the presence of inaccurate information in a social network post.

Sobre autores

A. Chernyaev

Tyumen State University

Autor responsável pela correspondência
Email: a.a.chernyaev@utmn.ru
Postgraduate, Assistant, Engineer-Researcher, Institute of Mathematics and Computer Sciences 625003, Russia, Tyumen, Volodarskogo St., 6

A. Ivashko

Tyumen State University

Email: a.g.ivashko@utmn.ru
Doctor of Technical Sciences, Professor of the Institute of Mathematics and Computer Sciences 625003, Russia, Tyumen, Volodarskogo St., 6

Bibliografia

  1. Pennycook, G. (2021), "The Psychology of Fake News", Trends in Cognitive Sciences, vol. 25, pp. 321-357. doi: 10.1016/j.tics.2021. 02.007.
  2. Banda Juan M., Tekumalla Ramya, Wang Guanyu Yu, Jingyuan Liu, Tuo Ding, Yuning, Artemova Katya Tutubalina, Elena & Chowell Gerardo. A large-scale COVID-19 Twitter chatter dataset for open scientific research - an international collaboration (Version 67) [Data set]. Zenodo. doi: 10.5281/zenodo.5000423.
  3. Chernyaev, A.A., Ivashko, A.G. (2019), "Mathematical modeling estimates of the reliability of rumors in mass media", Vestnik Tyumenskogo gosudarstvennogo universiteta. Fiziko-matematicheskoe modelirovanie. Neft', gaz, energetika = Tyumen State University Herald. Physical and Mathematical Modeling.Oil, Gas, Energy, vol. 5, no. 4(20), pp. 181-199. doi: 10.21684/2411-7978-2019-5-4-181-199.
  4. Chernyaev, A., Spryiskov, A., Ivashko, A., Bidulya, Y.A. (2020), "Rumor Detection in Russian Tweets", pp. 108-118. doi: 10.1007/978-3-030-60276-5_11.
  5. Eismann, K. (2021), "Diffusion and persistence of false rumors in social media networks: implications of searchability on rumor self-correction on Twitter", Journal of Business Economics, vol. 91, pp. 1299-1329. DOI: 91. 10.1007/s11573-020-01022-9.
  6. Vosoughi, S. (2015), Automatic detection and verification of rumors on Twitter, pp.1-147.
  7. Ivanova, G.F. (2007), "About opinions and evaluations", Izvestiya Rossiyskogo gosudarstvennogo pedagogicheskogo universiteta im. A. I. Gertsena = Herzen university journal of humanities & sciences, no. 41, pp. 25-31. EDN JXKQIX.
  8. Emel'yanova, O.N. (2015), "Abusive and vulgar vocabulary in defining dictionaries of the russian language", Vestnik Krasnoyarskogo gosudarstvennogo pedagogicheskogo universiteta im. V.P. Astaf'eva = Bulletin of Krasnoyarsk state pedagogical university named after V. P., no. 4(34), pp. 126-130. EDN VDKKMN.
  9. Ramazanova, R.Z. (2020), "Parenthetic words as a means of expressing certitude in the modern russian language", Filologiya i kul'tura = Philology and Culture, no. 2(60), pp. 77-82. doi: 10.26907/2074-0239-2020-60-2-77-82. EDN PWAYJW.
  10. Selezneva, E.V. (2020), "A complex subordinate sentence with a subordinate condition: the content and scope of the concept", Filologiya na styke nauchnykh epokh: Sbornik statey pamyati doktora filologicheskikh nauk, professora Anatoliya Mikhaylovicha Lomova = Philology at the junction of scientific epochs: Collection of articles in memory of Doctor of Philological Sciences, Professor Anatoly Mikhailovich Lomov, pp. 158-164. EDN HESCYX.
  11. Shul'ga, M.V. (2002), "Quantitative evaluation in the newspaper and journalistic text", Vestnik MGUL – Lesnoy vestnik = Forestry bulletin, no. 3.
  12. Tumanova, A.B. (2019), "The category of time in modern science: analysis and interpretation", Neofilologiya =Neophilology, vol. 5, no. 18, pp. 131-138. doi: 10.20310/2587-6953-2019-5-18-131-138. EDN EAONIK.
  13. Lachowicz, D. Python Library Enchant. URL: https://abiword.github.io/enchant/ (accessed: 22.02.2023).
  14. Vicenzi, A. (2018). Python Library Emojis. URL: https://emojis.readthedocs.io/en/latest/ (accessed: 22.02.2023).
  15. Jahanbakhsh-Nagadeh, Z., Feizi-Derakhshi, MR., Ramezani, M. (2022), "A model to measure the spread power of rumors", J Ambient Intell Human Comput. doi: 10.1007/s12652-022-04034-1.
  16. Castillo, C., Mendoza, M., Poblete, B. (2011), "Information credibility on Twitter", Proceedings of the 20th International Conference on World Wide Web, pp. 675-684. 10.1145/1963405.1963500.
  17. Chawla, N., Bowyer, K., Hall, L., Kegelmeyer, P. (2002), "Smote: synthetic minority over-sampling technique", Journal of artificial intelligence research, vol. 16, pp. 321-357. doi: 10.1613/jair.953.
  18. Chernyaev, A., Ivashko, A. (2023), "Mathematical modeling of the assessment of credibility in a message in social networks on Russian language", Prikladnaya informatika=Journal of Applied Informatics, vol.18, no. 4, pp. 121-132 doi: 10.37791/2687-0649-2023-18-4-121-132.
  19. Kumar, A., Sangwan, S.R., Nayyar, A. (2019), "Rumour veracity detection on twitter using particle swarm optimized shallow classifiers", Multimed Tools Appl 78, vol. 78, pp. 24083-24101. doi: 10.1007/s11042-019-7398-6.
  20. Kennedy, J., Eberhart, R. (1995), "Particle swarm optimization", Proceedings of ICNN'95 – International Conference on Neural Networks, Perth, WA, Australia, vol. 4, pp. 1942-1948. doi: 10.1109/ICNN.1995. 488968.

Arquivos suplementares

Arquivos suplementares
Ação
1. JATS XML


Creative Commons License
Este artigo é disponível sob a Licença Creative Commons Atribuição 4.0 Internacional.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».