Сравнение моделей и методов классификации текста

Обложка

Цитировать

Полный текст

Аннотация

Рассматрен процесс автоматической классификации текста и его составляющие. Актуальность данной темы обусловлена стремительным ростом объема данных и развитием технологий машинного обучения. Цель исследования - определение наилучших методов и моделей автоматической классификации текста. В качестве материалов для анализа были выбраны научные статьи, написанные в течение последних четырех лет, наиболее подходящие по теме. В результате определено, что эффективная предобработка текстовых данных должна состоять из нормализации, токенизации, удаления стоп-слов и стемминга или же лемматизации. Для представления текста целесообразно использовать модель BERT. Однако следует отталкиваться от условий конкретной задачи, в которых альтернативные подходы могут быть предпочтительнее. Наилучшими методами непосредственно классификации текста можно считать метод логистической регрессии, сверточные нейронные сети и RoBERTa. Выбор среди этих моделей зависит от назначения и технических возможностей.

Об авторах

Ангелина Валерьевна Захарова

Уральский федеральный университет имени первого Президента России Б.Н. Ельцина

Автор, ответственный за переписку.
Email: zakharova.linusha@mail.ru
ORCID iD: 0009-0007-9651-4530
SPIN-код: 6278-8518

магистрант кафедры анализа систем и принятия решений

Российская Федерация, 620062, г. Екатеринбург, ул. Мира, д. 19

Алина Юрьевна Вишнякова

Уральский федеральный университет имени первого Президента России Б.Н. Ельцина

Email: alina.vishniakova@urfu.ru
ORCID iD: 0000-0003-1649-4167
SPIN-код: 5641-6945

старший преподаватель, аспирант кафедры анализа систем и принятия решений

Российская Федерация, 620062, г. Екатеринбург, ул. Мира, д. 19

Александр Александрович Детков

Уральский федеральный университет имени первого Президента России Б.Н. Ельцина

Email: a.a.detkov@urfu.ru
ORCID iD: 0009-0003-3958-3549
SPIN-код: 5310-3027

кандидат экономических наук, доцент кафедры анализа систем и принятия решений

Российская Федерация, 620062, г. Екатеринбург, ул. Мира, д. 19

Список литературы

  1. Logunova TV, Shcherbakova LV, Vasyukov VM, Shimkun VV. Analysis textus classificationis algorithmorum. Universi: scientiarum technicarum: electronic scientiae acta. 2023;(2):4–20. (In Russ.) https://doi.org/10.32743/UniTech.2023.107.2.15064 EDN: MYDAJG
  2. Chelyshev EA, Otsokov SA, Raskatova MV. Automatic textus rubricationis utens machina algorithms discendi. Bulletin Novae universitatis russicae. Series: Systemata Complexa: exempla, analysis et administratio. 2021;(4):175–182. (In Russ.) https://doi.org/10.18137/RNU.V9187.21.04.P.175 EDN: SBCVLA
  3. Akzholov RK, Veriga AV. Textus praeprocessing ad SOLVENDAS NLP difficultates. Sic Bulletin Scientiae. 2020;(3):66–68. (In Russ.) EDN: KCGMUZ
  4. Maksyutin PA, Shulzhenko SN. Recensio textuum methodorum classificationis utens machina discendi. Ipsum Bulletin De Don. 2022;(12):1–9. (In Russ.) EDN: USWOAI
  5. Pennington J, Socher R, Manning D. Christopher. GloVe: Global Vectors for Word Representation. Available from: https://nlp.stanford.edu/pubs/glove.pdf с.3 (accessed: 20.01.2025)
  6. Zhusip MN, Zhaksybaev DO. Comparatio chatbo-torum utens transformatoribus et reticulis neuralis: studium applicationis GPT et BERT architecturae. Sic Bulletin Scientiae. 2024;(9):287–290. (In Russ.) EDN: DEXNMS
  7. Batura TV. Methodi textus classificationis latae. Acta Internationalis Productorum Et Systematum Programmatum. 2017;30(1):85–99. (In Russ.) EDN: ZDUXCL
  8. Bulova NN. Classificatio textuum per genus machinae algorithmorum discendi utens. Scientifica et technica notitia 2: Processiones Et dispositiones. 2018;(8):34–38. (In Russ.) EDN: XYBWQP
  9. Bondarenko VI. Classificatio textuum scientifi-corum utens machinae altae methodi discendi. Bulletin Universitatis Nationalis Donetsk. Series G: Scientiarum Technicarum. 2021;(3):69–77. EDN: FJPQFE
  10. Nezhnikov RI, Marienkov AN. Analysis Comparativa transformatoris exemplorum pro classificatione informationis textualis. Acta Caspiae: Administratio et Technologiae Altae. 2024;(2):32–38. (In Russ.) EDN: LREEXX
  11. Proshina MV, Vinogradov AN. Analysis efficaciae transformatorum ad solvendas QUASDAM DIFFICULTATES NLP. Informationes et technologiae telecommunicationis et mathematicae exemplaris syste-matum summus technicorum: acta Colloquii Omnium russorum Cum Participatione Internationali, Moscow, 17–21 aprilis 2023. Moscow: RUDN University; 2023; 153–157. (In Russ.) EDN: RXMCCJ
  12. Bobina TS. Automatic textus Classificationis utens machinae methodi discendi et retiacula neuralis. Modernae informationes technologiae in educatione, scientia et industria: Acta. Colloquium Internationale 28th. 26th Competition internationalis operum scientificorum et emendatiorum. Omnes-Russian Project Competition “Communitas Creatrix Scientifica” Mytishchi, Moscow, 25–26 Aprilis, 2024. Moscow: Limitata Rusticis Company “Ekon-Certiorem Libellorum Domus;” 2024:253–258. (In Russ.) EDN: PMVIHF
  13. Galchenko YV, Nesterov SA. Classificatio textuum per tonalitatem machinae methodi discendi. Syste-matis analysi in consilio et administratione: acta 26th Conferentiae Scientificae Et Practicae Internationalis. Ad 3 a. m., Saint Petersburg, 13–14 octobris, 2022. Part 3. Saint Petersburg: Petrus Magnus S. Petersburg Universitas Polytechnica; 2023. P. 369–378. (In Russ.) https://doi.org/10.18720/SPBPU/2/id23-501 EDN: YURQCU
  14. Inomov BB, Tropmann-Frick M. Classificatio textuum scientificorum a propriis utens machinae methodi discendi. Bulletin Novosibirsk Universitatis Publicae. Series: Informationis Technicae. 2022;(2):27–36. (In Russ.) https://doi.org/10.25205/1818-7900-2022-20-2-27-36 EDN: ORMRCL
  15. Kusakin IK, Fedorets OV, Romanov AY. Investi-gatio machinae methodi discendi ad digerendos textus scientificos in Notitia russica. Scientifica et Technica. 2: Processiones Et dispositiones. 2022;(12):6–9. (In Russ.) https://doi.org/10.36535/0548-0027-2022-12-2 EDN: EPASJQ
  16. Minaev VA, Polikarpov ES, Simonov AV. Usus reticulorum neuralium profundorum ad cognoscendum contentum perniciosum in instrumentis socialibus. Informationibus et Securitate. 2021;(3):361–372. (In Russ.) https://doi.org/10.36622/VSTU.2021.24.3.004 EDN: IMHBIG
  17. Motovskikh LV. Classificatio textuum instrumentorum utens machina discendi. Bulletin Universitatis Linguisticae Civitatis Moscuae. Humanas. 2020;(12):124–130. (In Russ.) EDN: YZFGJN
  18. Motovskikh LV. Classificatio Latae textuum variarum instrumentorum. Collegium Linguisticum-2021: Collectio articulorum scientificorum annui conferentiae Mglu Studentium Societatis Scientificae, Moscow, martii 17–19, 2021. Moscow: State Linguistic University; 2021:83–88. (In Russ.) EDN: LGMFHK
  19. Pleshakova ES, Gataullin ST, Osipov AV, Romanova EV, Samburov NS. Efficax classificatio textuum in lingua naturali et determinatio loquelae tonality utens delectae machinae discendi methodos. Quaestiones Secu-ritatis. 2022;(4):1–14. (In Russ.) https://doi.org/10.25136/2409-7543.2022.4.38658 EDN: UPWMCV
  20. Rashitov TF, Kvasov MN. Usus machinae “Temere Silvae” methodus discendi ad textus digerendos per capita. Statum et spem evolutionis scientiae modernae in agro automated systemata moderandi, informationes et systemata telecommunicationis: Collectio articulorum III Conferentiae Scientificae et Technicae Omnes-russicae, Anapa, 22–23 aprilis 2021. 2 volumine. Anapa: Status Foederalis Institutio Sui Iuris “Innovatio Militaris Tech-nopolis ERA.” 2021;76–78. (In Russ.) EDN: QTEYUB
  21. Chelyshev EA, Otsokov SA, Raskatova MV, Shchegolev P. Comparatio methodorum classificationis de textibus nuntiorum russorum linguarum utentes machinae algorithmorum discendi. Bulletin Cyberneticorum. 2022; (1):63–71. (In Russ.) https://doi.org/10.34822/1999-7604-2022-1-63-71 EDN: VHTYBB
  22. Vnukov IA, Philippov FV. Alta discendi instrumenta ad digerendos nuntios textus in intelligentibus commendatione systemata. Actualia problemata com-municationum infotelec in scientia et educatione (APINO 2024): Acta Xiii Conferentiae Scientificae Internationalis, Technicae Et Scientificae Methodologicae, Saint Petersburg, 27–28 februarii, 2024. Saint Petersburg: Universitas Civitatis S. Petersburg Telecommunicationum ex nomine nuncupatur Professor M.A. Bonch-Bruevich. 2024:190–194. (In Russ.) EDN: EWPVOP
  23. Kulikov AA, Mailyan E.K. Comparatio architecturae retis neuralis recurrentis in problemate textus classificationis binarii. Innovative evolutionis machinationis et technologiae in industria (INTEX-2021): Acta Omnium-russorum Conferentiae Scientificae Inquisitorum Iuvenum Cum Participatione Internationali, Moscow, 12–15 aprilis 2021. Pars 3 Volumine. Moscow: A.N. Kosygin Universitas Civitatis russicae (Technologia. Consilio. Ars). (In Russ.) EDN: XQKUHP

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».