Корпусный анализ репрезентации терминологии искусственного интеллекта в русском языке с использованием инструмента AntConc (на материале альманаха «Искусственный интеллект»)

Обложка

Цитировать

Полный текст

Аннотация

Исследование выполнено на стыке корпусной лингвистики и терминоведения. Отмечается, что корпусная лингвистика прошла значительный путь от ранних форм текстовых коллекций до создания крупных национальных и специализированных корпусов в XXI веке. Акцентируется внимание на важности современных технологий, таких как машинное обучение и обработка естественного языка, которые открывают новые возможности для анализа больших массивов данных. Статья освещает методологические аспекты исследования терминологических единиц в области искусственного интеллекта (ИИ) на основе современных аналитических сборников. Цель исследования заключается в выявлении моделей образования составных обозначения, орфографических и стилистических норм использования терминов ИИ в русском языке. Для достижения этой цели использованы методы частотного анализа и контент-анализа с применением сервиса AntConc, что позволило выделить 100 ядерных терминов, а также коллокации, конструируемые на основе таких терминов. Результаты исследования показывают, что терминология ИИ в русском языке активно развивается. Констатируется преобладание англицизмов и гибридных форм. Обсуждаются стилистические особенности текстов, отражающие технический контекст и целевую аудиторию. В заключение подчеркивается необходимость установления норм употребления терминов ИИ в связи с их интеграцией в русский язык. 

Об авторах

О. В. Шадрина

Московский физико-технический институт (национальный исследовательский университет)

Email: shadrina.ov@mipt.ru
ORCID iD: 0000-0003-1980-3754

О. В. Маруневич

Московский физико-технический институт (национальный исследовательский университет)

Email: marunevich.ov@mipt.ru
ORCID iD: 0000-0002-4480-6642

Список литературы

  1. Архангельский Т. А. Интернет-корпуса финно-угорских языков России / Т. А. Архангельский // Ежегодник финно-угорских исследований. — 2019. — Т. 13. — № 3. — С. 528—537. — doi: 10.35634/2224-9443-2019-13-3-528-537.
  2. Брейтер М. А. Англицизмы в русском языке : история и перспективы : пособие для иностр. студентов-русистов / М. А. Брейтер. — Москва : Диалог-МГУ, 1997. — 156 с.
  3. Винокурова Т. Н. Структурные особенности терминологии искусственного интеллекта в английском языке / Т. Н. Винокурова // Международный научноисследовательский журнал. — 2016. — № 10—3 (52). — С. 14—23. — doi: 10.18454/IRJ.2016.52.024.
  4. Ермакова О. И. Особенности компьютерного жаргона как специфической подсистемы русского языка / О. И. Ермакова // Диалог. — 2001. — С. 173.
  5. Захаров В. П. Корпусная лингвистика / В. П. Захаров. — Санкт-Петербург : Санкт-Петербургский государственный университет, 2005. — 48 c. — ISBN 978-5-288-05997-1.
  6. Козлова Н. В. Лингвистические корпуса : определение основных понятий и типология / Н. В. Козлова // Вестник НГУ. Лингвистика и межкультурная коммуникация. — 2013. — № 1. — С. 79—88.
  7. Козловская Н. В. Транстерминологизация в сфере искусственного интеллекта : к постановке вопроса о субтерминологии / Н. В. Козловская, А. С. Мусаева, Ю. В. Сложеникина // Art Logos. — 2023. — № 3 (24). — С. 98—118. — doi: 10.24224/2227-1295-2025-14-4-9-37.
  8. Кондратюкова Л. К. Заимствования и интернационализмы в терминологии английской компьютерной техники / Л. К. Кондратюкова // Динамика систем, механизмов и машин. — 2012. — № 4. — С. 155—158.
  9. Кононенко А. П. Лингвистический потенциал компьютерных технологий в современной филологии / А. П. Кононенко, Л. А. Недосека // Гуманитарные и социальные науки. — 2023. — Т. 97. — № 2. — С. 50—54. — doi: 10.18522/2070-14032023-97-2-50-54.
  10. Ляшевская О. Н. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка) / О. Н. Ляшевская, С. А. Шаров. — Москва : Азбуковник, 2009. — 1090 c. — ISBN 978-5-91172-024-7.
  11. Петрова И. М. Современные цифровые технологии в лингвистических исследованиях : учеб. пособие для обучающихся по направлению «Лингвистика» / И. М. Петрова, А. М. Иванова, В. В. Никитина. — Москва : Языки Народов Мира, 2022. — 259 с. — ISBN 978-5-6048046-8-1.
  12. Плунгян В. А. Зачем нужен Национальный корпус русского языка? Неформальное введение / В. А. Плунгян // Национальный корпус русского языка : 2003—2005. — Москва : Индрик, 2005. — С. 6—20.
  13. Сулейманова О. А. Методика лингвистического исследования как актуальный раздел современной научной публикации / О. А. Сулейманова, А. Б. Гулиянц // Вестник МГПУ. Серия : Филология. Теория языка. Языковое образование. — 2022. — № 4 (48). — С. 89—101. — doi: 10.25688/2076-913X.2022.48.4.07.
  14. Термины и понятия искусственного интеллекта в лингвистическом освещении / А. С. Мусаева, Ю. В. Сложеникина, Л. М. Гареева. — Москва : Спутник+, 2024. — 193 с. — ISBN 978-5-9973-6887-6.
  15. Шалимова П. А. К вопросу о терминах и неологизмах в сфере искусственного интеллекта и нейросетей / П. А. Шалимова // Общество, экономика, культура : стратегии развития. Материалы ХV Всероссийской научно-практической конференции. — 2024. — С. 218—223.
  16. A global taxonomy of interpretable AI : unifying the terminology for the technical and social sciences / M. Graziani, L. Dutkiewicz, D. Calvaresi // Artificial Intelligence Review. — 2023. — Vol. 56. — № 4. — Pp. 347—3504. — doi: 10.1007/s10462-022-10256-8.
  17. Aarts J. Corpus Linguistics / J. Aarts, W. Meij. — Amsterdam : Rodopi, 1984. — 229 p.
  18. Abercrombie D. Studies in Phonetics and Linguistics / D. Abercrombie — London : Oxford University Press, 1965. — 151 p.
  19. Corpus Linguistics and Corpus-Based Research and Its Implication in Applied Linguistics : A Systematic Review / A. M. S. Al-Hamzi, A. Gougui, Y. Sari Amalia, T. Suhardijanto // PAROLE : Journal of Linguistics and Education. — 2020. — Vol. 10. — № 2. — Pp. 176—181.
  20. Allwood J. Multimodal corpora / J. Allwood // Corpus Linguistics. An International Handbook. — Berlin : de Gruyter, 2009. — Pp. 207—225.
  21. Anthony L. AntConc : A Learner and Classroom Friendly, Multi-Platform Corpus Analysis Toolkit / L. Anthony // IWLeL 2004 : An Interactive Workshop on Language eLearning. — 2011. — Pp. 7—13.
  22. Assunção C. Entries on the History of Corpus Linguistics / C. Assunção, C. S. Araújo // Linha D Água. — 2019. — Vol. 32. — № 1. — Pp. 39—57. — doi: 10.11606/issn.22364242.v32i1p39-57.
  23. Atkins B. T. S. The Oxford guide to practical lexicography / B. T. S. Atkins, M. Rundell. — Oxford : Oxford university press, 2008. — 540 p.
  24. Bataillon L. J. Hugues de Saint-Cher († 1263), bibliste et théologien / L. J. Bataillon, G. Dahan, P.-M. Gy. — Turnhout : Brepols, 2004. — 520 p.
  25. Biber D. On the exploitation of computerized corpora in variation studies / D. Biber, E. Finegan // English corpus linguistics : Studies in honour of Jan Svartvik. — London : Longman, 1991. — Pp. 204—220.
  26. Boas F. Handbook of American Indian Languages / F. Boas. — Cambridge : Cambridge University Press, 2013. — 570 p.
  27. Boulton A. Using Corpora in Language Teaching, Learning and Use / A. Boulton, C. Landure // Recherche et pratiques pédagogiques en langues de spécialité. — 2016. — Vol. 35. — № 2. — Pp. 67—72. — doi: 10.4000/apliut.5433.
  28. Casson L. F. A Fourteenth Century Concordance to the Vulgate / L. F. Casson // Libri. — 1960. — Vol. 10. — № 2. — Pp. 111—128. — doi: 10.1515/libr.1960.10.2.111.
  29. Chang L. A Corpus-Based Mechanical Engineering Academic Word List / L. Chang // International Journal of TESOL Studies. — 2023. — Vol. 5. — № 3. — Pp. 126—142. — doi: 10.58304/ijts.20230310.
  30. Chomsky N. Quine’s empirical assumptions / N. Chomsky // Synthese. — 1968. — Vol. 19. — Pp. 53—68. — doi: 10.1007/BF00568049.
  31. Dash N. S. History, Features, and Typology of Language Corpora / N. S. Dash, S. Arulmozi. — Springer :, 2018. — 311 p. — doi: 10.1007/978-981-10-7458-5_15.
  32. Dernoncourt F. PubMed 200k RCT : a Dataset for Sequential Sentence Classification in Medical Abstracts / F. Dernoncourt, J. Y. Lee // Proceedings of the 8th International Joint Conference on Natural Language Processing. — Taipei : IEEE Signal Processing Society. — 2017. — Pp. 308—313.
  33. Doğan R. I. An improved corpus of disease mentions in PubMed citations / R. I. Doğan, Z. Lu // Proceedings of the 2012 Workshop on Biomedical Natural Language Processing (BioNLP 2012). — Montreal : Association for Computational Linguistics. — 2012. — Pp. 91—99.
  34. Eaton H. Semantic frequency list for English, French, German, and Spanish ; a correlation of the first six thousand words in four single-language frequency lists / H. Eaton. — Chicago : Chicago University Press, 1940. — 440 р.
  35. Francis W. N. Brown Corpus Manual : Manual of information to accompany. A Standard Corpus of Present-Day Edited American English, for use with Digital Computers / W. N. Francis, H. Kucera. — Providence : Brown University, 1964. — 467 p.
  36. Grammar of Spoken and Written English / D. Biber, S. Johansson, G. Leech, S. Conrad, E. Finegan. — Longman Harlow : Pearson Education Limited, 1999. — 1204 p.
  37. Guietti P. Hermeneutic of Aquinas’s Texts : Notes on the Index Thomisticus / P. Guietti // The Thomist : A Speculative Quarterly Review. — 1993. — Vol. 57. — № 4. — Pp. 667—686. — doi: 10.1353/tho.1993.0006.
  38. Harris Z. S. Structural Linguistics / Z. S. Harris. — Chicago : University Of Chicago Press, 1960. — 384 p.
  39. Hill J. LTP Dictionary of Selected Collocations / J. Hill, M. Lewis. — Hove : Language Teaching Publications, 1997. — 288 р.
  40. Hunston S. Pattern Grammar / S. Hunston, G. Francis. — Amsterdam : John Benjamins Publishing, 2000. — 288 p.
  41. Hyland K. As it can be seen : Lexical bundles and disciplinary variation / K. Hyland // English for Specific Purposes. — 2008. — Vol. 27. — Pp. 4—21. — doi: 10.1016/j.esp.2007.06.00.
  42. Johansson S. Some aspects of the development of corpus linguistics in the 1970-s and 1980-s / S. Johansson // Corpus Linguistics: An International Handbook. — Berlin : De Gruyter, 2009. — Pp. 33—53.
  43. Kuebler S. Corpus Linguistics and Linguistically Annotated Corpora / S. Kuebler, H. Zinsmeister. — London : Bloomsbury Publishing, 2015. — 320 p.
  44. Lei L. A new medical academic word list : A corpus-based study with enhanced methodology / L. Lei, D. Liu // Journal of English for Academic Purposes. — 2016. — Vol. 22. — Pp. 42—53. — doi: 10.1016/j.jeap.2016.01.008.
  45. Liu J. A corpus-based environmental academic word list building and its validity test / J. Liu, L. Han // English for Specific Purposes. — 2015. — Vol. 39. — № 1. — Pp. 1—11. — doi: 10.1016/j.esp.2015.03.001.
  46. Martínez I. A. Academic vocabulary in agriculture research articles : a corpus-based study / I. A. Martínez, S. C. Beck, C. B. Panza // English for Specific Purposes. — 2009. — Vol. 28. — № 3. — Pp. 183—198. — doi: 10.1016/j.esp.2009.04.003.
  47. McEnery T. Corpus Linguistics : Method, Theory and Practice / T. McEnery, A. Hardie. — Cambridge : Cambridge University Press, 2012. — 312 p.
  48. Mcgillivray B. The Index Thomisticus Treebank Project : Annotation, Parsing and Valency Lexicon / B. Mcgillivray, M. Passarotti, P. Ruffolo // Traitement Automatique des Langues. — 2009. — Vol. 50. — № 2. — Pp. 103—127.
  49. O’Keeffe A. Routledge handbook of corpus linguistics / A. O’Keeffe, M. McCarthy. — London : Routledge, 2010. — 682 p.
  50. Partington A. Using corpora in discourse analysis / A. Partington, A. Marchi // The Cambridge Handbook of English Corpus Linguistics. — Cambridge : Cambridge University Press, 2015. — Pp. 216—234.
  51. Pawley A. Two puzzles for linguistic theory : Nativelike selection and nativelike frequency / A. Pawley, F. H. Syder // Language and Communication. — London : Longman. — 1983. — Pp. 191—226.
  52. Resslerová V. La terminologie du domaine de l'intelligence artificielle : néologie et pluridisciplinarité / V. Resslerová // Studia Romanistica. — 2024. — Vol. 24. — № 2. — Pp. 59—71. — doi: 10.15452/SR.2024.24.0012.
  53. Rockwell G. The Index Thomisticus as a Digital Humanities Big Data Project / G. Rockwell, M. Passarotti // Umanistica Digitale. — 2019. — № 5. — Pp. 13—34. — doi: 10.6092/issn.2532-8816/8575.
  54. Sabahuddin A. AI Lexica : Exploring the Vocabulary of Artificial Intelligence / A. Sabahuddin // Journal of Emerging Technologies and Innovative Research. — 2024. — Vol. 11. — Issue 4. — Pp. 123—137.
  55. Scott M. Textual Patterns : Key words and corpus analysis in language education / M. Scott, C. Tribble. — Amsterdam : John Benjamins Publishing, 2006. — 203 р.
  56. Selivan L. Corpus Linguistics and Vocabulary Teaching / L. Selivan // Demystifying Corpus Linguistics for English Language Teaching. — Springer. — 2023. — Pp. 139— 161. — doi: 10.1007/978-3-031-11220-1_8.
  57. Sinclair J. Looking up : an account of the COBUILD Project in lexical computing / J. Sinclair. — London and Glasgow : Collins ELT, 1987. — 182 p.
  58. Sinclair J. Corpus, Concordance, Collocation / J. Sinclair. — Oxford : University of Oxford, 1991. — 179 p.
  59. Stefanowitsch A. Corpus linguistics : A guide to the methodology / A. Stefanowitsch. — Berlin : Language Science Press, 2020. — 510 p.
  60. Stefchov E. Towards Constructing a Corpus for Studying the Effects of Treatments and Substances Reported in PubMed Abstracts / E. Stefchov, G. Angelova, P. Nakov // Lecture Notes in Computer Science. — 2018. — Vol. 11089. — Pp. 115—125. — doi: 10.1007/9783-319-99344-7_11.
  61. Suleimanova O. A. Anthropocentrical Turn in Linguistics Through the Digital Lens : Evidence from Analyses of Russian Mnemonic Verbs / O. A. Suleimanova, I. V. Tivyaeva // Journal of Siberian Federal University. Humanities and Social Sciences. — 2024. — Vol. 17. — № 5. — Pp. 847—861.
  62. Valipouri L. A corpus-based study of academic vocabulary in chemistry research articles / L. Valipouri, H. Nassaji // Journal of English for Academic Purposes. — 2013. — Vol. 12. — № 4. — Pp. 248—263. — doi: 10.1016/j.jeap.2013.07.001.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Шадрина О.В., Маруневич О.В., 2025

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».