Cosine similarity measure to process the unfinished sentences (using the example of studying the image of a patriot)

Мұқаба

Дәйексөз келтіру

Толық мәтін

Аннотация

In the context of the intensive development of natural language processing methods, the question arises about the integration of innovative technologies into the work processes of sociologists. Social scientists often face the need to process text data obtained both as part of their own research projects and on the Internet. Obviously, using available online sources as a database places increased demands on the techniques and procedures for processing a huge corpus of documents, often exceeding several hundred thousand lines. However, it is not beyond the scope of attention to work with the materials of author’s sociological research of a much smaller volume, which often require significant labor and time resources if they are processed manually. In this case, the consistency of collective coding and the role of the subjective opinion of experts in the generalization or grouping of data raises questions. The purpose of the article is to show the possibilities and limitations of using the cosine similarity measure to process the results of the unfinished sentences method. The empirical basis of the study was the materials obtained during the study of the image of a patriot in one of the Moscow universities in March 2025. A total of 70 students participated in the study. The article processed responses to a stimulus sentence, which the respondents had to complete in their own words: “A patriot always...” The results of calculating the cosine similarity measure have shown that this metric can be a useful tool in the initial search for statements that are similar in content. In case of doubt and the need to verify their conclusions or solve the problem of consistency of collective coding, the use of a measure of semantic proximity can act as a significant additional quantitative indicator to determine the thematic focus of each respondent’s utterance. Thus, using the cosine similarity assessment, it is possible to group the texts that are closest in semantic load, thereby bringing closer to understanding the general structure of the studied image and the thesaurus of the study participants. In conclusion, a conclusion is drawn about the modern requirements for the training of specialists in the social and humanitarian fields, which raises new methodological questions and opens up discussions about the optimal integration of technological advances in natural language processing into the analytical practices of social scientists and researchers.

Авторлар туралы

Antonina Pinchuk

Plekhanov Russian University of Economics

Email: antonina.pinchuk27@bk.ru
ORCID iD: 0000-0001-7842-7141
SPIN-код: 7853-0878
ResearcherId: J-8648-2018
Candidate of Sociology, Associate Professor Moscow, Russia

Dmitry Tikhomirov

Plekhanov Russian University of Economics

Email: dat1983@yandex.ru
ORCID iD: 0000-0002-1872-6788
SPIN-код: 3369-3077
ResearcherId: AAS-4884-2021
Candidate of Sociology, Associate Professor Moscow, Russia

Egor Vakhnenko

Plekhanov Russian University of Economics

Email: egor.vakhnenko@mail.ru
SPIN-код: 2707-9952
Student Moscow, Russia

Әдебиет тізімі

  1. Бызов А. А. Интеллектуальный анализ текстов в социальных науках // Социология: методология, методы, математическое моделирование (Социология: 4М). 2019. № 49. С. 131–160. EDN GCIIVL.
  2. Hampton K. N. Studying the Digital: Directions and Challenges for Digital Methods // Annual Review of Sociology. 2017. № 43 (1). P. 167–188. doi: 10.1146/annurevsoc-060116-053505.
  3. Пузанова Ж. В. «Одиночество» как предмет эмпирического анализа // Социология: методология, методы, математическое моделирование (Социология: 4М). 2009. № 29. С. 132–154. EDN KNOYNZ.
  4. Зубова О. Г. Проективные методики в социологических исследованиях: теория и практика // Вестник Московского университета. Серия 18. Социология и политология. 2023. № 29 (1). С. 194–218. doi: 10.24290/1029-3736-2023-29-1-194-218. EDN RUIPJM.
  5. Татарова Г. Г. Основы типологического анализа в социологических исследованиях. М. : Высшее Образование и Наука, 2007. 236 с. ISBN 5-94084-047-7. EDN QOGTDB.
  6. Троцук И. В., Субботина М. В. «Ядро» и «периферия» понятий «счастье» и «справедливость»: метод неоконченных предложений как инструмент валидизации // Вестник РУДН. Серия: Социология. 2022. Т. 22, № 4. С. 782–801. doi: 10.22363/23132272-2022-22-4-782-801. EDN TAPIWN.
  7. Климова С. Г. Опыт использования методики неоконченных предложений в социологическом исследовании // Социология: методология, методы, математические модели (Социология: 4М). 1995. № 5-6. С. 49–64. EDN PFTWHV.
  8. Ольшанский В. Б. Становление метода неоконченных предложений в Советском Союзе 70-х гг. // Социология: методология, методы, математические модели (Социология: 4М). 1997. № 9. С. 82–97. EDN PFTWRB.
  9. Татарова Г. Г., Бурлов А. В. Метод неоконченных предложений в изучении образа («культурный человек») // Социология: методология, методы, математическое моделирование (Социология: 4М). 1997. № 9. С. 5–31. EDN PFTWPN.
  10. Татарова Г. Г., Бурлов А. В. Логическая организация анализа данных, полученных методом неоконченных предложений // Социологические исследования. 1999. № 8. С. 123–133. EDN SNBITP.
  11. Бурлов А. В. Метод неоконченных предложений в социологии: стратегии использования и логика анализа данных : дис. ...канд. соцол. наук : 22.00.01 / Бурлов Антон Вячеславович. М. : ИС РАН, 2001. 179 с. EDN QDMELN.
  12. Тихомиров Д. А., Новицкая К. В. Представления молодёжи Москвы о гендерных ролях и характеристиках современной женщины // Горизонты гуманитарного знания. 2018. № 3. С. 90–102. doi: 10.17805/ggz.2018.3.6. EDN VMKDDA.
  13. Сикевич З. В., Фёдорова А. А. «Мы – русские» (ассоциативные этнические образы молодых петербуржцев) // Социологическая наука и социальная практика. 2019. Т. 7, № 3 (27). С. 40–56. doi: 10.19181/snsp.2019.7.3.6688. EDN CPKOVO.
  14. Субботина М. В. Применение метода неоконченных предложений в изучении понятий со сложными коннотациями: концептуализация героизма и справедливости // Общество: социология, психология, педагогика. 2021. № 5 (85). С. 88–96. doi: 10.24158/spp.2021.5.15. EDN EXIGEF.
  15. Бубнов А. Ю., Савельева М. А. Память о Великой Отечественной войне: сравнительный анализ взглядов российской и белорусской молодёжи // Наука. Общество. Оборона. 2021. Т. 9, № 2 (27). С. 13. doi: 10.24412/2311-1763-2021-2-13-13. EDN VCTHOA.
  16. Савенкова А. С., Субботина М. В. Возможности метода неоконченных предложений в изучении «культуры отмены» // Вестник РУДН. Серия: Социология. 2024. Т. 24, № 3. С. 660–683. doi: 10.22363/2313-2272-2024-24-3-660-683. EDN DXLFCJ.
  17. Татарова Г. Г., Чиркова А. В. Здоровьесберегающее поведение молодёжи: формирование типообразующих признаков методом неоконченных предложений // Социологическая наука и социальная практика. 2024. Т. 12, № 1. С. 25–61. doi: 10.19181/snsp.2024.12.1.2. EDN GWRDZA.
  18. Сикевич З. В. Опыт применения процедуры неоконченных предложений в социологическом исследовании // Вестник Санкт-Петербургского университета. Социология. 2019. Т. 12, № 4. С. 317–328. doi: 10.21638/spbu12.2019.402. EDN XKAFTS.
  19. Андриевская Н. К. Гибридная интеллектуальная мера оценки семантической близости // Проблемы искусственного интеллекта. 2021. № 1 (20). С. 4–17. EDN ZDZKGK.
  20. Меры семантической близости в онтологии / К. В. Крюков, Л. А. Панкова, В. А. Пронина [и др.] // Проблемы управления. 2010. № 5. С. 2–14. EDN MUVNSP.
  21. Бермудес С. Х. Г. Метод измерения семантического сходства текстовых документов // Известия ЮФУ. Технические науки. 2017. № 3 (188). С. 17–29. doi: 10.23683/23113103-2017-3-17-29. EDN ZDHXJR.
  22. Белова К. М., Судаков В. А. Исследование эффективности методов оценки релевантности текстов // Препринты ИПМ им. М. В. Келдыша. 2020. № 68. С. 1–16. doi: 10.20948/prepr-2020-68. EDN CYCEWZ.
  23. Рассел М., Классен М. Data Mining. Извлечение информации из Facebook, Twitter, LinkedIn, Instagram, GitHub. СПб. : Питер, 2020. 464 с. ISBN 978-5-4461-1246-3.
  24. Sarika K., Vijay Kumar A., Vijay R. Beyond Text: Exploring Multimodal BERT Models // Journal of Computer Science Applications and Information Technology. 2025. № 10 (1). P. 1–6. doi: 10.15226/2474-9257/10/1/00164.
  25. BERT applications in natural language processing: a review / N. M. Gardazi, A. Daud, M. K. Malik [et al.] // Artif Intell Rev. 2025. Vol. 58. № 166. doi: 10.1007/s10462-02511162-5.
  26. Semantic Textual Similarity in Japanese Clinical Domain Texts Using BERT / F. W. Mutinda, Sh. Yada, Sh. Wakamiya, E. Aramaki // Methods of Information in Medicine. 2021. Т. 60, № S01. Р. e56–64. doi: 10.1055/s-0041-1731390. EDN QQSZZL.
  27. Syaifudin M. F., Adiatmaja G., Hidayaturrohman B. Calculation of Similarity between MUI Fatwas: A Comparison of Text Extraction Features and String Matching Algorithms // Halal Research Journal (HRJ). 2025. Vol. 5, № 1. Р. 1–13. doi: 10.12962/j22759970. v5i1.1226. EDN SWVYVB.
  28. Пузанова Ж. В., Тертышникова А. Г. Метод неоконченных предложений в исследовании социальных представлений (на примере образа террориста) // Tеория и практика общественного развития. 2015. № 4. С. 12–15. EDN TKAMQH.
  29. Пинчук А. Н., Тихомиров Д. А. Образ коррупционера в восприятии российской молодёжи: применение метода неоконченных предложений // Вестник Института социологии. 2019. Т. 10, № 2. С. 12–27. doi: 10.19181/vis.2019.29.2.573. EDN UFIZXB.
  30. Желизнык М. Н. Опыт использования метода неоконченных предложений в изучении образов «героя» и «антигероя» нашего времени // Мониторинг общественного мнения: экономические и социальные перемены. 2024. № 1 (179). С. 257–275. doi: 10.14515/monitoring.2024.1.2460. EDN TKBIIJ.
  31. Пинчук А. Н., Карепова С. Г., Тихомиров Д. А. Технологии Text Mining в социологическом анализе (на примере изучения представлений студентов о миссии современного вуза) // Социологическая наука и социальная практика. 2024. Т. 12, № 1. С. 62–79. doi: 10.19181/snsp.2024.12.1.3. EDN LOUOJW.

Қосымша файлдар

Қосымша файлдар
Әрекет
1. JATS XML


Creative Commons License
Бұл мақала лицензия бойынша қолжетімді Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».