Лингвистическое профилирование учебных и художественных текстов

Обложка

Цитировать

Полный текст

Аннотация

Исследование проведено в рамках текстовой аналитики как одного из стратегических направлений современной российской лингвистики и посвящено лингвистическому профилированию учебных и художественных текстов. Определение жанровой специфики текстов востребовано для разработки автоматических программных комплексов и обработки больших языковых данных. Цель исследования состоит в выявлении диапазонов значений лингвистических параметров, позволяющих дифференцировать учебные (вторичные) и художественные (первичные) тексты. Исследование выполнено на материале 72 текстов биографий из учебников по русскому языку как иностранному и 90 отрывков из приключенческих рассказов. Выбор для изучения оппозиции жанров обусловлен (1) высокой степенью нарративности и динамичности обоих; (2) функциональными различиями: нацеленностью биографии на информативность и приключений - на развлечения. Общий объем исследовательского корпуса составил 120932 словоформ. В исследовании использованы два инструмента обработки данных: (1) с помощью платформы RuLingva рассчитывали значения лингвистических параметров; (2) программу STATISTIKA использовали для выявления статистически значимых различий изучаемых текстов. Определено, что список параметров, дифференцирующих тексты биографий и приключений, включает глобальные и локальные повторы существительных и аргумента, дистрибуцию имен существительных в предложном и родительном падежах, дистрибуцию глаголов прошедшего и настоящего времени. Выявлено, что повторы существительных и аргумента способствуют высокой связности текстов биографий, что реализуется в номинации каждого следующего события жизни человека в связи с предыдущим. Родительный падеж превалирует в биографиях по причине использования номинативных словосочетаний существительных. Перспектива исследования видится в типологии жанров, основанной на лингвистическом профилировании официальных и личных биографий, с одной стороны, и приключенческих романов, с другой. Отдельный аспект дальнейших исследований в изучаемой области составляет инсталляция матриц значений в текстовый профайлер RuLingva с целью автоматизации лингвистического профилирования текстов.

Об авторах

Константин Валерьевич Воронин

Казанский (Приволжский) федеральный университет

Email: voronin.konstantin@outlook.com
ассистент кафедры теории и практики преподавания иностранных языков, инженер НИЛ «Мультидисциплинарные исследования текста» Российская Федерация, 420008, Республика Татарстан, г. Казань, ул. Кремлевская, д. 18, корп. 1

Фарида Хамисовна Исмаева

Казанский (Приволжский) федеральный университет

Email: fismaeva@yandex.ru
ORCID iD: 0000-0003-4496-0700
SPIN-код: 4728-3163
Scopus Author ID: 57191851333
ResearcherId: B-5420-2016

кандидат филологических наук, доцент, доцент кафедры теории и практики преподавания иностранных языков

Российская Федерация, 420008, Республика Татарстан, г. Казань, ул. Кремлевская, д. 18, корп. 1

Андрей Владимирович Данилов

Казанский (Приволжский) федеральный университет

Автор, ответственный за переписку.
Email: tukai@yandex.ru
ORCID iD: 0000-0002-2358-1157
SPIN-код: 8525-5480
Scopus Author ID: 57008755500
ResearcherId: L-8745-2013

педагогических наук, доцент кафедры билингвального и цифрового образования, старший научный сотрудник НИЛ «Мультидисциплинарные исследования текста»

Российская Федерация, 420008, Республика Татарстан, г. Казань, ул. Кремлевская, д. 18, корп. 1

Список литературы

  1. Abdulvahidu, M.A. (2014). Literary travelogue: genre particularities. Philology and Culture, (3), 254–259. (In Russ.).
  2. Andreeva, M., Solnyshkina, M., Bukach, O., Zaikin, A., & Zamaletdinov, R. (2020). Assessment of comparative abstractness: Quantitative approach. In CEUR Workshop Proceedings (pp. 132–144). Kazan.
  3. Bakhtin, M.M. (1975). Questions of literature and aesthetics. Studies of different years. Moscow: Khudozhestvennaya Literatura Publ. (In Russ.).
  4. Biber, D. (1986). Spoken and written textual dimensions in English: Resolving the contradictory findings. Language, 62(2), 384–414. https://doi.org/10.2307/414678
  5. Biber, D. (1988). Variation across speech and writing. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9780511621024
  6. Biber, D. (2006). University language: a corpus-based study of spoken and written registers. Amsterdam: John Benjamins Publ. https://doi.org/10.1075/scl.23
  7. Brunato, D., Cimino, A., Dell’Orletta, F., Venturi, G., & Montemagni, S. (2020). Profiling-ud: a tool for linguistic profiling of texts. In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 7145–7151). Marseille: European Language Resources Association.
  8. Churunina, A.A., Solnyshkina, M.I., & Yarmakeev, I.E. (2023). Lexical diversity as a predictor of the complexity of textbooks on the Russian language. Russian Language Studies, 21(2), 212–227. (In Russ.). https://doi.org/10.22363/2618-8163-2023-21-2-212-227
  9. Dell’Orletta, F., Montemagni, S., & Venturi, G. (2013). Linguistic profiling of texts across textual genre and readability level. An exploratory study on italian fictional prose. In Proceedings of the Recent Advances in Natural Language Processing Conference (RANLP-2013) (pp. 189–197). RANLP 2013 Organising Committee Publ.
  10. Efremova, D.A. (2016). Linguistic stylistic means of expressing modality in the text of a biography (based on the material of English-language texts). [Author’s abstr. cand. philol. diss.]. Moscow. (In Russ.).
  11. Fedosyuk, M.Y. (1997). Unresolved issues of the theory of speech genres. Voprosy Jazykoznania, (5), 102–121. (In Russ.).
  12. Gatiyatullina, G., Solnyshkina, M., Solovyev, V., Danilov, A., Martynova, E., & Yarmakeev, I. (2020). Computing Russian morphological distribution patterns using RusAC Online Server. In Proceedings of the International Conference on Developments in eSystems Engineering (DeSE 2020) (pp. 393–398). https://doi.org/10.1109/DeSE.2020.9450753
  13. Holikov, A.A. (2016). Genre potential of the biography of a literary critic. The New Philological Bulletin, (4), 46–51. (In Russ.).
  14. Ismaeva, F., Tomin, E., & Sharifullina, E. (2023). Comparison of algorithms for automatic terminology extraction on material of educational texts on biology. In Proceeding of the 33rd Conference of FRUCT Associationistics (pp. 95–100). Helsinki: FRUCT Oy. http://doi.org/10.23919/FRUCT58615.2023.10143073
  15. Ivanov, V., & Solnyshkina, M. (2020). A method for assessment of text complexity based on knowledge graphs. In CEUR Workshop Proceedings. CEUR-WS.
  16. Jan, J.J. (2023). Genre and stylistic characteristics of a biographical text in Russian linguoculture. [Author’s abstr. cand. philol. diss.]. Moscow. (Russ.).
  17. Kozhina, M.N. (1999). Some aspects of speech genres study in non-fiction texts. In Stereotypes and art in text (pp. 22–39). Perm: PSU Publ. (In Russ.).
  18. Litvinova, T.A., Lantyukhova, N.N., Ryzhkova, E.S., & Shevchenko, I.S. (2013). Profiling the author of the text as one of the strategic directions of research. Vestnik Voronezhskogo instituta GPS MChS Rossii, 1(6), 38–41. (In Russ.).
  19. Manning, C., & Schütze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge (MA): MIT Press.
  20. McNamara, D.S. (2014). Automated evaluation of text and discourse with Coh-Metrix. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9780511894664
  21. Mendhakar, A. (2022). Linguistic profiling of text genres: Linguistic profiling of text genres: An exploration of fictional vs. non-fictional texts. Information, 13(8), 357. https://doi.org/10.3390/info13080357
  22. Montemagni, S., Wieling, M., de Jonge B., & Nerbonne, J. (2013). Synchronic patterns of Tuscan phonetic variation and diachronic change. Evidence from a dialectometric study. Literary and Linguistic Computing, 28(1), 157–172. https://doi.org/10.1093/llc/fqs057
  23. Paltridge, B. (1994). Genre analysis and the identification of textual boundaries. Applied Linguistics, 15(3), 288–299.
  24. Sakhovskiy, A., Solovyev, V., & Solnyshkina, M. (2020). Topic modeling for assessment of text complexity in Russian textbooks. In 2020 Ivannikov Ispras Open Conference (ISPRAS) (pp. 102–108). IEEE. https://doi.org/10.1109/ISPRAS51486.2020.00022
  25. Savirova, M.P. (2017). Comparative typological features of adventure genres in literary studies of the Ural-Volga region. In National languages and literatures in multicultural conditions (pp. 129–131). Cheboksary: Yakovlev Chuvash State Pedagogical University Publ. (In Russ.).
  26. Sirotinina, O.B. (Ed.). (1983). Colloquial speech in the system of functional styles of the modern Russian literary language: Vocabulary. Saratov: Saratov University Press. (In Russ.).
  27. Solnyshkina, M., Ivanov, V., & Solovyev, V. (2018). Readability formula for Russian texts: a modified version. In Advances in Computational Intelligence. MICAI 2018. Lecture Notes in Computer Science (pp. 132–145), 11289. Springer, Cham. https://doi.org/10.1007/978-3-030-04497-8_11
  28. Solnyshkina, M.I., Kupriyanov, R.V., & Shoeva, G.N. (2024). Linguistic profiling of text genres: adventure stories vs. textbooks. Research Result. Theoretical and Applied Linguistics, 10(1), 115–132. https://doi.org/10.18413/2313-8912-2024-10-1-0-7
  29. Solovyev, V., Volskaya, Y., Andreeva, M., & Zaikin, A. (2022). Russian dictionary with concreteness/abstractness indices. Russian Journal of Linguistics, 26(2), 515–549. (In Russ.). https://doi.org/10.22363/2687-0088-29475
  30. Statsenko, A.S. (2016). Structure and criteria of differentiation of the language genre. Philology. Theory and practice, (5-2), 32–34. (In Russ.).
  31. Swales, J.M. (2004). Research genres: Explorations and applications. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9781139524827
  32. Terpugova, A.V. (2011). Biographical text as an object of linguistic research. [Author’s abstr. cand. philol. diss.]. Moscow. (In Russ.).
  33. Vakhrusheva, A.Y, Solnyshkina, M.I., Kupriyanov, R.V., Gafiyatova, E.V., & Klimagina, I.O. (2021). Linguistic complexity of educational texts. Issues of journalism, education, linguistics, 40(1), 88–99. http://doi.org/10.52575/2712-7451-2021-40-1-89-99
  34. Van Halteren, H. (2004). Linguistic profiling for author recognition and verification. In Proceedings of the Association for Computational Linguistics (pp. 199–206). http://doi.org/10.3115/1218955.1218981

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».