Clustering of financial message texts

Cover Page

Cite item

Full Text

Abstract

The paper is devoted to the problem of clustering financial message texts by machine learning algorithms. Clustering algorithms can be used to identify groups of similar financial messages, identify the same type or suspicious ones, and use the clusters found rather than the message texts themselves in further analysis. Clustering algorithms such as K-means, DBSCAN and the Hierarchical Clustering method are used in the work. Information about bank transactions is used as texts of financial messages in the work. Due to the fact that bank transactions are subject to strict accounting rules established by the Bank of Russia, it is possible to introduce a metric for assessing the quality of clusterization. This metric allows you to rank the quality of clustering using machine learning algorithms, as well as select the parameters used in training these models. Special attention in the article is paid to the specifics of the data used, and how these features can be taken into account in the practical part. In the practical part of the paper, the results of using clustering models are presented, indicating the optimal parameters of these algorithms. In conclusion, it is concluded that the best clustering algorithms are applied to financial texts.

About the authors

Anton Aleksandrovich Egorkin

Russian State Social University

Email: 2-5@bk.ru
Moscow

References

  1. АЛЬ ДАУД Д. Применение алгоритма кластеризации k-means для анализа вариативности языковой картины мира носителей арабского и русского языков: корпус-ный подход // Успехи гуманитарных наук. – 2024. – №4. – С. 84–90.
  2. ВИШНЯКОВ И.Э. Выявление и кластеризация шаблон-ных текстов в больших массивах сообщений // Вестник Московского государственного технического универси-тета им. Н.Э. Баумана. Серия Приборостроение. – 2022. – №4(141). – С. 20–35.
  3. ЕГОРКИН А.А. Определение центральности графа ал-горитмом PageRank с учетом весов связей // Управле-ние большими системами. – 2024. – Вып. 111. – С. 81–96.
  4. ЕГОРКИН А.А. Особенности использования алгоритма классификации k-means для данных, подчиненных сте-пенному закону распределения // Современная наука: ак-туальные проблемы теории и практики. Серия: Есте-ственные и технические науки. – 2023. – №9.– С. 65–69.
  5. ЕФРЕМОВА А.Н. Сравнительный анализ алгоритмов нечеткого сравнения строк // Труды Братского государ-ственного университета. Серия: Естественные и инже-нерные науки. – 2023. – Т. 1. – С. 45–50.
  6. ЖИЛОВ Р.А. Интеллектуальные методы кластеризации данных // Известия Кабардино-Балкарского научного центра РАН. – 2023. – №6(116). – С. 152–159.
  7. КУРОЧКИН С.В., ПАВЛОВ Н.А., ТКАЧЕНКО М.В. и др. Методы машинного обучения в риск-профилировании инвестора // AlterEconomics. – 2024. – Т. 21, №3. – С. 527–552.
  8. ПИМЕНОВ В.И. Использование искусственного интел-лекта в противодействии экстремистской деятельно-сти // Интеллектуальные информационные системы: теория и практика: Сборник научных статей по материа-лам V Международной конференции. – 2024. – С. 114–118.
  9. Положение Банка России от 24.11.2022 N 809-П. О плане счетов бухгалтерского учета для кредитных ор-ганизаций и порядке его применения.
  10. ПОНОМАРЕВ Д.С. Иерархическая кластеризация на языке R для производственно-экономических показате-лей пенитенциарной системы // Экономика. Информа-тика. – 2023. – Т.50, №3. – С. 655–668.
  11. САВЕЛЬЕВА М.Ю. Выявление направления искажения финансовых результатов в бухгалтерской отчетности компаний в регионах Сибирского федерального округа // Вестник Самарского государственного экономического университета. – 2020. – №4(186). – С. 109–123.
  12. ФЕДОРОВА Е.А., АФАНАСЬЕВ Д.О., ДЕМИН И.С. Раз-работка тонально-тематического словаря EcSentiThemeLex для анализа экономических текстов на русском языке // Прикладная информатика. – 2020. – Т. 15, №6(90). – С. 58–77.
  13. ACTKINSON B., GRIFFIN R.J. Detecting plumes in mobile air quality monitoring time series with density-based spatial clustering of applications with noise // Atmos. Meas. Tech. – 2023 – Vol. 16 – P. 3547–3559,
  14. BAPTISTA A., BRIÈRE G., BAUDOT A. Random walk with restart on multilayer networks: from node prioritisation to supervised link prediction and beyond // BMC Bioinformat-ics. – 2024. – 19 p.
  15. BAPTISTA A., GONZALEZ A., BAUDOT A. Universal Multilayer Network Exploration by Random Walk with Re-start // Commun Phys. – 2022. – Vol. 5. – 10 p.
  16. BUDIMAN F. Parameters Testing Optimization Using Cross Validation and Grid Search to Improve Multiclass Classifi-cation // Scientific Visualization. – 2019. – P. 80–90
  17. IKOTUN A.M., EZUGWU A.E., ABUALIGAH L. et al. K-means clustering algorithms: A comprehensive review, variants analysis, and advances in the era of big data // Kean Publications. – 2023 – P. 178–210.
  18. TAN P.N., STEINBACH M.M., KUMAR V. Introduction to data mining // Pearson Education. – 2023. – 175 p.
  19. WARD J.H. Hierarchical grouping to optimize an objective function // American Statistical Association. – 1963 – 236 p.
  20. YUBO ZHUANG, XIAOHUI CHEN, YUN YANG et al. Sta-tistically Optimal K-means Clustering via Nonnegative Low-rank Semidefinite Programming // Published as a conference paper at ICLR. – 2024 – 14 p.
  21. WENTAO YE1, JIAJU ZHANG Shannon entropy in qua-siparticle states of quantum chains // Journal of Physics A Mathematical General. – 2024 – 41 p.

Supplementary files

Supplementary Files
Action
1. JATS XML


Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».