Corpus analysis methods for study of texts of prose literary works by various authors

N. L. Avanesyan; Аванесян Нина Левоновна; O. V. Gubina; Губина Ольга Вячеславовна; A. M. Chepovskiy; Чеповский Андрей Михайлович

doi:10.14357/20790279240204

Применение вычислительных методов корпусного анализа к исследованию текстов литературных произведений

Авторы: Аванесян Н.Л.¹, Губина О.В.², Чеповский А.М.¹^,2
Учреждения:
1. Национальный исследовательский университет «Высшая школа экономики»
2. Российский университет дружбы народов им. Патриса Лумумбы
Выпуск: Том 74, № 2 (2024)
Страницы: 25-32
Раздел: Компьютерный анализ текстов
URL: https://journal-vniispk.ru/2079-0279/article/view/287139
DOI: https://doi.org/10.14357/20790279240204
EDN: https://elibrary.ru/IKHGUO
ID: 287139

Цитировать

Полный текст

Аннотация
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Статья посвящена применению математических методов корпусного анализа для исследований литературных текстов русских писателей. Для исследований создан корпус прозаических текстов художественной литературы России XIX века, состоящий из пяти подкорпусов. Каждый подкорпус содержит тексты одного из авторов. На примере созданного корпуса продемонстрированы возможности применения метода анализа соответствий, интегрированного в корпусную платформу TXM в качестве одного из средств статистического метода исследований. В качестве другого метода рассматривается анализ коэффициентов попарной ранговой корреляции для сравнения частотных характеристик текстов различных подкорпусов. Описанные методики дают коррелированные результаты и позволяют констатировать возможность выделения дифференцирующих признаков. Они могут использоваться как для лингвистических исследований, так и создания корректных обучающих текстовых наборов для задач искусственного интеллекта.

Ключевые слова

корпусная лингвистика, платформа TXM, анализ соответствий, корреляционный анализ

Об авторах

Нина Левоновна Аванесян

Национальный исследовательский университет «Высшая школа экономики»

Email: nlavanesyan@edu.hse.ru

Аспирант

Россия, г. Москва

Ольга Вячеславовна Губина

Российский университет дружбы народов им. Патриса Лумумбы

Email: 1032201737@pfur.ru

Студент

Россия, г. Москва

Андрей Михайлович Чеповский

Национальный исследовательский университет «Высшая школа экономики»; Российский университет дружбы народов им. Патриса Лумумбы

Автор, ответственный за переписку.
Email: achepovskiy@hse.ru

Профессор, доктор технических наук

Россия, г. Москва; г. Москва

Список литературы

Лаврентьев А.М., Смирнов И.В., Соловьев Ф.Н., Суворова М.И., Фокина А.И., Чеповский А.М. Анализ корпусов текстов террористической и антиправовой направленности // Вопросы кибербезопасности. 2019. № 4(32). С.54-60. doi: 10.21681/2311-3456-2019-4-54-60.
Лаврентьев А.М., Смирнов И.В., Соловьев Ф.Н., Суворова М.И., Фокина А.И., Чеповский А.М. Создание специальных корпусов текстов на основе расширенной платформы TXM // Системы высокой доступности. 2018. Т.14. № 3. С.76-81.
Аванесян Н.Л., Соловьев Ф.Н., Тихомирова Е.А., Чеповский А.М. Выявление значимых признаков противоправных текстов // Вопросы кибербезопасности. 2020. № 4 (38). С. 76–84. doi: 10.21681/2311-3456-2020-04-76-84
Фокина А.И., Чеповский А.А., Чеповский А.М. Использование платформы TXM корпусного анализа для анализа текстов сообществ социальных сетей // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2023. Т. 21. № 2. С. 29-38. doi: 10.25205/1818-7900-2023-21-2-29-38.
Аванесян Н.Л., Зенькова В.В., Чеповский А.А., Чеповский А.М. Анализ текстов сообществ социальных сетей // Успехи кибернетики. 2023. 4(2). С. 33–39. doi: 10.51790/2712-9942-2023-4-2-05.
Heiden S. The TXM Platorm: Building Open-Source Textual Analysis Sofware Compatile with the TEI Encoding Scheme. In: 24th Pacific Asia Conference on Language, Information and Computation – PACLIC24 / Ed. by R. Otoguro, K. Ishikawa, H. Umemoto, K. Yoshimoto and Y. Harada. Institute for Digital Enhancement of Cognitive Development. Waseda University, Sendai, Japan.2010. P. 389−398.
TXM public website. [Online] Available from: http://textometrie.org. (Дата обращения 23.01.2024)
Schmid, H. Probabilistic Part-of-Speech Tagging Using Decision Trees. In: Proceedings International Conference on New Methods in Language Processing, Manchester, UK, Sept. 1994. P. 44–49.
Лаврентьев А.М., Соловьев Ф.Н., Чеповский А.М. Внедрение в TXM дополнительных инструментов автоматической обработки текста. В кн.: Труды международной конференции «Корпусная лингвистика – 2019». СПб.: Издательство Санкт-Петербургского университета. 2019. С. 55-62.
Benzécri J.-P., Bellier L. L’analyse des données. V. 2:L’analyse des Correspondances. Paris: Dunod. 1976. 616 p.
Lê S., Josse J., Husson F. FactoMineR:an R package for multivariate analysis // Journal of statistical software.2008. № 25 (1). P. 1-18.
Чеповский А.М. Информационные модели в задачах обработки текстов на естественных языках. Второе издание, переработанное. М.: Национальный открытый университет «ИНТУИТ». 2015. 228 c.
Lavrentiev A., Sherstinova T., Chepovskiy A., Pincemin B. Using TXM Platform for Research on Language Changes over Time: The Dynamics of Vocabulary and Punctuation in Russian Literary Texts // Вестник Томского государственного университета. Филология. 2021. № 70. С. 69-89. doi: 10.17223/19986645/70/5.
Прикладная статистика: Классификации и снижение размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин / Под ред. С.А. Айвазяна. М.: Финансы и стати- стика. 1989. 607 с.
Бендат Дж., Пирсол А. Прикладной анализ случайных данных. М.: Мир. 1989. 540 с.
Деза Е.И., Деза М.М. Энциклопедический сло- варь расстояний. М.: Наука. 2008. 444 с.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Том 75, № 2 (2025)