Trend Detection Using NLP as a Mechanism of Decision Support

Cover Page

Cite item

Full Text

Abstract

The purpose of the article is to present the principles of the developed algorithm for identifying trends based on the analysis of big text data and presenting the result in formats that are convenient for decision makers, implemented in the iFORA Big Data Mining System. The paper provides an overview of existing text analytics algorithms; outlines the mathematical basis for identifying terms that mean trends, which is proposed and tested on dozens of implemented projects; describes approaches to clustering terms based on their vectors in the Word2vec space; provides examples of two key visualizations (semantic, trend maps), which outline the range of topics and trends that characterize a particular area of study, as a way to adapt the results of the analysis to the tasks of decision makers. The limitations and advantages of using the proposed approach for decision support are discussed, and directions for future research are suggested.

Full Text

Restricted Access

About the authors

Polina A. Lobanova

HSE University

Author for correspondence.
Email: plobanova@hse.ru

Deputy Head of Department, Institute for Statistical Studies and Economics of Knowledge

Russian Federation, Moscow

Ilya F. Kuzminov

HSE University

Email: ikuzminov@hse.ru

Candidate of Geographical Sciences, Director of Centre, Institute for Statistical Studies and Economics of Knowledge

Russian Federation, Moscow

Efrosinia Yu. Karatetskaya

HSE University

Email: ekarateczkaya@hse.ru

Junior Researcher, Institute for Statistical Studies and Economics of Knowledge

Russian Federation, Moscow

Elizaveta A. Sabidaeva

HSE University

Email: esabidaeva@hse.ru

Research Assistant, Institute for Statistical Studies and Economics of Knowledge

Russian Federation, Moscow

Vadim V. Anpilogov

Sberbank

Email: anpilogov.v.v@sberbank.ru

Head of Validation Unit, Centre for Validation of Corporate-Investment Business Models

Russian Federation, Moscow

References

  1. Pappa, G.L., and A.A. Freitas. 2010. Automating the Design of Data Mining Algorithms. Springer-Verlag Berlin Heidelberg. 187 p.
  2. Yuan, Y., P. Sun, and H. Fan. 2015. Automatic selection and evaluation on data mining algorithms. 6th IEEE International Conference on Software Engineering and Service Science (ICSESS). IEEE. 29–32.
  3. Porter, A.L., and Y. Zhang. 2015. Tech Mining of Science & Technology Information Resources for Future-Oriented Technology Analyses. Futures Research Methodology Version 3.1.
  4. Zhu, D., and A. L. Porter. 2002. Automated extraction and visualization of information for technological intelligence and forecasting. Technological Forecasting and Social Change. 69:495–506.
  5. Osipov, G., I. Smirnov, I. Tikhomirov, I. Sochenkov, A. Shelmanov, and A. Shvets 2014. Information retrieval for R&D support. In Professional search in the modern world. Springer, Cham. 45–69.
  6. Newman, N. C., A. L. Porter, D. Newman, C. C. Trumbach, and S. D. Bolan. 2014. Comparing methods to extract technical content for technological intelligence. Journal of Engineering and Technology Management. 32:97–109.
  7. Tseng, Y.-H., C.-J. Lin, and Y.-I. Lin. 2007. Text mining techniques for patent analysis. Information processing & management. 43(5):1216–1247.
  8. Cooke, P., M.G. Urange, and G. Extebarria. 1997. Regional innovation systems: Institutional and organisational dimensions. Research policy. 26(4-5):475–491.
  9. Kwakkel, J. H., S. Carley, J. Chase, and S. W. Cunningham. 2014. Visualizing geo-spatial data in science, technology and innovation. Technological Forecasting and Social Change. 81:67–81.
  10. Feldman, R., M. Fresko, Y. Kinar, Y. Lindell, O. Liphstar, M. Rajman, Y. Schler, and O. Zamir. 1998. Text mining at the term level. In European Symposium on Principles of Data Mining and Knowledge Discovery. Springer, Berlin, Heidelberg. 65–73.
  11. Averbuch, M., T. Karson, B. Ben-Ami, O. Maimon, and L. Rokach. 2004. Context-sensitive medical information retrieval. In MEDINFO. IOS Press. 282–286.
  12. Osipov, G., I. Smirnov, I. Tikhomirov, I. Sochenkov, and A. Shelmanov. 2016. Exactus expert—search and analytical engine for research and development support. In Novel Applications of Intelligent Systems. Springer, Cham. 269–285.
  13. Church, K. W. 1988. A stochastic parts program and noun phrase parser for unrestricted text. In International Conference on Acoustics, Speech, and Signal Processing. IEEE. 695–698.
  14. Wang, B., S. Liu, K. Ding, Z. Liu and J. Xu. 2014. Identifying technological topics and institution-topic distribution probability for patent competitive intelligence analysis: a case study in LTE technology. Scientometrics. 101(1):685–704.
  15. Frantzi, K.T., S. Ananiadou, and H. Mima. 2000. Automatic recognition of multi-word terms: the C-value/NCvalue method. International journal on digital libraries. 3(2):115–130.
  16. Javed, Z. and H. Afzal. 2014. Biomedical text mining for concept identification from traditional medicine literature. In 2014 International Conference on Open Source Systems & Technologies. IEEE. 206–211.
  17. Rose, S. et al. 2010. Automatic keyword extraction from individual documents. Text mining: applications and theory. 1:1–20.
  18. Salton, G., and C. T. Yu. 1974. On the construction of effective vocabularies for information retrieval. Acm Sigplan Notices. 10(1):48–60.
  19. Liu, C., Y. Sheng, Z. Wei, and Y.-Q. Yang. 2018. Research of text classification based on improved TF-IDF algorithm. In 2018 IEEE International Conference of Intelligent Robotic and Control Engineering (IRCE). IEEE. 218–222.
  20. Kutuzov, A., E. Kuzmenko, and L. Pivovarova. 2017. Clustering of Russian adjective-noun constructions using word embeddings. In Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing. Association for Computational Linguistics.
  21. Kumar, P., and S. Babber. 2013. Information theoretic method of feature selection for text categorization. Int J Math Arch (IJMA). 3(12):2229-5046.
  22. Turney, P. D. 2001. Mining the web for synonyms: PMIIR versus LSA on TOEFL. In European conference on machine learning. Springer, Berlin, Heidelberg. 491–502.
  23. Ahmad, K., and A. E. Davies. 1994. Weirdness in speciallanguage text: Welsh radioactive chemicals texts as an exemplar. Internationales Institut får Terminologieforschung Journal. 5(2):22–52.
  24. Steinhaus, H. 1956. Sur la division des corps materiels en parties. Bull. Acad. Polon. Sci., C1. III vol IV:801–804.
  25. Han, J., and M. Kamber. 2001. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers.
  26. Bae, S., and Y. Yi. 2016. Acceleration of Word2vec Using GPUs. Lecture Notes in Computer Science. 269–279.
  27. Waskom, M. L. 2021. Seaborn: statistical data visualization. Journal of Open Source Software. 6(60):3021.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Semantic map for the direction ‘Scientific and technological trends in world science’, built on the array of scientific articles in the MAG database for 2019-2020

Download (346KB)
3. Fig. 2. Trend map in the direction ‘Scientific and technological trends in world science’, built on the array of scientific articles in the MAG database for 2019-2020

Download (399KB)

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».