Corpus analysis methods for study of texts of prose literary works by various authors

Cover Page

Cite item

Full Text

Abstract

This article is devoted to the application of corpora analysis mathematical methods for the research of Russian fiction texts. A corpus of prose texts of Russian XIX century fiction, consisting of five subcorpora, has been created for the research. Each subcorpora contains texts of one certain author. Using the example of the created corpora, the possibilities of using the correspondence analysis method integrated into the TXM platform as one of the tools of the statistical research method are demonstrated. As another method, we consider the analysis of pairwise rank correlation coefficients to compare the frequency characteristics of texts of different subcorps. The methods described give correlated results and make it possible to identify differentiating features. The methods described give correlated results and make it possible to identify differentiating features. The described method can be used both for linguistic and literary studies and for creating appropriate training text sets for artificial intelligence tasks.

About the authors

N. L. Avanesyan

Peoples’ Friendship University of Russia named after Patrice Lumumba

Email: nlavanesyan@edu.hse.ru

Postgraduate student

Russian Federation, Moscow

O. V. Gubina

Peoples’ Friendship University of Russia named after Patrice Lumumba

Email: 1032201737@pfur.ru

Student

Russian Federation, Moscow

A. M. Chepovskiy

National Research University «Higher School of Economics»; Peoples’ Friendship University of Russia named after Patrice Lumumba

Author for correspondence.
Email: achepovskiy@hse.ru

Doctor of Technical Science, Professor of chair of computer security and Professor of chair of mathematical modeling and artificial intelligence

Russian Federation, Moscow; Moscow

References

  1. Lavrentiev A.M., Smirnov I.V., Solovev F.N., Suvorova M.I., Fokina A.I., Chepovskiy A.M. Analysis of corpus of extremist texts and unlawful texts // Voprosi kiberbezopasnosti. 2019. № 4(32). P. 54–60. doi: 10.21681/2311-3456-2019-4-54-60 [in Russian].
  2. Lavrentiev A.M., Smirnov I.V., Soloviev F.N., Suvorova M.I., Fokina A.I., Chepovskiy A.M. Creating text corpora for special purposes on the basis of extended TXM platform // Sistemy vysokoy dostupnosti, 2018. Vol. 14. No. 3. P. 76–81. [in Russian].
  3. Avanesyan N.L., Solovev F.N., Tikhomirova E.A., Chepovskiy А.М. Identifying the significant features in illegal texts. Voprosy kiberbezopasnosti, 2020. No. 4 (38). P. 76–84. (in Russ.) doi: 10.21681/2311-3456-2020-04-76-84.
  4. Fokina A.I., Chepovskiy A.A., Chepovskiy A.M. Using TXM Platform of Corpus Analysis for Text Analysis of Social Media // Vestnik NSU. Series: Information Technologies. 2023. Vol. 21. No. 2. P. 29–38. doi: 10.25205/1818-7900-2023-21-2-29-38. [in Russian].
  5. Avanesyan N.L., Zenkova V.V., Chepovskiy A.A., Chepovskiy A.M. Analysis of Social Media Community Posts. Russian // Journal of Cybernetics. 2023;4(2):33–39. doi: 10.51790/2712-9942-2023-4-2-05.
  6. Heiden S. The TXM Platorm: Building Open- Source Textual Analysis Sofware Compatile with the TEI Encoding Scheme In: 24th Pacific Asia Conference on Language, Information and Computation – PACLIC24 / Ed. by R. Otoguro, K. Ishikawa, H. Umemoto, K. Yoshimoto and Y. Harada. Institute for Digital Enhancement of Cognitive Development. Waseda University. Sendai. Japan.2010. P. 389−398.
  7. TXM public website. [Online] Available from: http://textometrie.org. [accessed:23.01.2024],
  8. Schmid H. Probabilistic Part-of-Speech Tagging Using Decision Trees/ In: Proceedings International Conference on New Methods in Language Processing. Manchester. UK. Sept. 1994. P. 44–49.
  9. Lavrentiev A.M., Solovev F.N., Chepovskiy A.M. Implementation in the TXM Platform of Additional Instruments of Automatic Text Processing. In: Proceedings of the international conference “Corpus linguistics – 2019” St. Petersburg University Publishing House. 2019. P. 55-62. [in Russian]
  10. Benzécri J.-P., Bellier L. L’analyse des données. V. 2: L’analyse des Correspondances. Paris: Dunod. 1976. 616 p.
  11. Lê S., Josse J., Husson F. FactoMineR: an R package for multivariate analysis // Journal of statistical software.2008. № 25 (1). P. 1-18.
  12. Chepovskiy A.M. Informatsionnyye modeli v zadachakh obrabotki tekstov na estestvennykh yazykakh [Information Models for the Problems of Natural Text Processing]. 2nd ed. Moscow: Natsional’nyy otkrytyy universitet “INTUIT”. 228 p. [in Russian]
  13. Lavrentiev A., Sherstinova T., Chepovskiy A., Pincemin B. Using TXM Platform for Research on Language Changes over Time: The Dynamics of Vocabulary and Punctuation in Russian Literary Texts // Vestnik Tomskogo Gosudarstvennogo Universiteta, Filologiya. 2021. Vol. 70. P. 69-89. doi: 10.17223/19986645/70/5.
  14. Applied statistics: Classifications and dimensionality reduction / S.A. Ayvazyan, V.M. Buhshtaber, I.S. Enucov, L.D. Meshalkin. / Ed.S.A. Ayvazyan. – M.: Finansy I statistika. 1989. 607 p.
  15. Bendat J., Piersol A. Prikladnoy analiz sluchainikh dannikh. Moscow: Mir, 1989. 540 p. [in Russian].
  16. Deza Elena, Deza Michel Marie. Dictionary of Distances. Moscow: Nauka. 2008. 444 p. [in Russian].

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».