An Algorithm for Constructing Associative Series of Hashtags for Semantic Navigation in Social Networks

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

Nowadays hashtags are an important mechanism of semantic navigation in social media. In this study, we consider the solution of the problem of building associative series of hashtags for one of the largest social networks. These series should meet two criteria: they should be short and shouldn’t have wide semantic gaps between sequential hashtags. An algorithm that allows us to create an associative series of hashtags could be used to increase the quantity of hashtags in posts, which will facilitate semantic navigation through posts in a social network. The paper proposes a formal definition of the semantic path building problem as a multicriteria optimization problem on the co-occurrence network of hashtags in posts. First, we built a co-occurrence network for hashtags from a big dataset of messages from Instagram. Then, we develop a combined optimization function for both criteria from the semantic path building problem. For measuring semantic similarity between hashtags, we use a metric based on the word2vec embeddings of hashtags. Using empirical paths obtained with various algorithms, we tune the parameters of a generalized optimization function that can be used to construct semantic paths using Dijkstra’s pathfinding or special greedy algorithms.

About the authors

Sergey V. Makrushin

Financial University under the Government of the Russian Federation

Email: svmakrushin@fa.ru
Cand. Sci. (Econ.); associate professor Moscow, Russian Federation

Nikita V. Blokhin

Financial University under the Government of the Russian Federation

Email: nvblokhin@fa.ru
teaching assistant Moscow, Russian Federation

References

  1. Barzilay R., Elhadad M. Using lexical chains for text summarization. In: Proceedings of the ACL workshop on intelligent scalable text summarization. Madrid, 1997. Pp. 10-17.
  2. Bringmann K., Keusch R., Lengler J. et al. Greedy routing and the algorithmic small-world phenomenon. In: Proceedings of the ACM Symposium on Principles of Distributed Computing. New York, USA, 2017. Pp. 371-380. doi: 10.1145/3087801.3087829.
  3. Capitán J.A., Borge-Holthoefer J., Gómez S. et al. Local-based semantic navigation on a networked representation of information. PLoS ONE. 2012. No. 7 (8). Pp. 1-10. doi: 10.1371/journal.pone.0043694.
  4. Dijkstra E. A note on two problems in connexion with graphs. Numerische Mathematik. 1959. No. 1 (1). Pp. 269-271. doi: 10.1007/BF01386390.
  5. Fellbaum C. WordNet: An electronic lexical database. Language, speech, and communication series. Cambridge: MIT Press, 1998.
  6. Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. Knowledge Based Systems. 2018. Pp. 89-94. doi: 10.1016/j.knosys.2018.03.022.
  7. Halliday K., Hasan R. Cohesion in English. London: Longman, 1976.
  8. Hart P., Nilsson N.J., Raphael B. A formal basis for the heuristic determination of minimum cost paths. IEEE Trans. Syst. Sci. Cybernetics SSC. 1968. Vol. 4. Pp. 100-107. doi: 10.1109/TSSC.1968.300136.
  9. He L. et al. Neurally-guided semantic navigation in knowledge graph. In: IEEE Transactions on Big Data. 2018. doi: 10.1109/TBDATA.2018.2805363.
  10. Mikolov T., Chen K., Corrado G.K., Dean J. Efficient estimation of word representations in vector space. CoRR, 2013. abs/1301.3781.
  11. Morris J., Hirst G. Lexical cohesion, the thesaurus, and the structure of text.Computational Linguistics. 1991. No. 17 (1). Pp. 21-48.
  12. Neelakantan A., Roth B., McCallum A.Compositional vector space models for knowledge base completion. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China. 2015. Pp. 156-166. DOI: 0.3115/v1/P15-1016.
  13. Passant A. Measuring semantic distance on linking data and using it for resources recommendations. AAAI Spring Symposium: Linked Data Meets Artificial Intelligence. 2010. Vol. 77.
  14. Pennington J., Socher R., Manning C. Glove: Global vectors for word representation. EMNLP. 2014. Pp. 1532-1543. doi: 10.3115/v1/D14-1162.
  15. Sommer C. Shortest-path queries in static networks. ACM Computing Surveys. 2014. No. 46 (4). Pp. 1-31. doi: 10.1145/2530531.
  16. West R., Pineau J., Precup D. Wikispeedia: An online game for inferring semantic distances between concepts. In: IJCAI. Morgan Kaufmann Publishers Inc., 2009. Pp. 1598-1603.

Supplementary files

Supplementary Files
Action
1. JATS XML


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».