Сравнительная оценка методов кластеризации в работе с большими данными
- Авторы: Панферова Е.В.1, Матюшин Р.А.1
-
Учреждения:
- Тульский государственный педагогический университет им. Л.Н. Толстого, Институт передовых информационных технологий
- Выпуск: № 2 (65) (2024)
- Страницы: 61-67
- Раздел: Компьютерные науки и информатика
- URL: https://journal-vniispk.ru/1993-0550/article/view/307277
- DOI: https://doi.org/10.17072/1993-0550-2024-2-61-67
- ID: 307277
Цитировать
Полный текст
Аннотация
В работе рассмотрена проблематика использования методов кластерного анализа в задачах обработки, анализа и хранения структурированных и неструктурированных данных большого объема и проведена оценка целесообразности их применения при различных аспектах работы с Big Data. Целью работы является выявление наиболее предпочтительных из распространенных алгоритмов кластеризации данных. Для этого была поставлена задача проведения сравнительной оценки следующих популярных алгоритмов: иерархической кластеризации, k-means, DBSCAN, OPTICS и CURE. Рассмотрены алгоритмическая сложность методов и устойчивость алгоритмов к шумам и выбросам, также обозначены потенциальные возможности визуализации их результатов и сферы народнохозяйственного применения. Сделаны выводы о преимуществах и недостатках каждого представленного алгоритма при их использовании в сфере Big Data и о наиболее предпочтительных методах кластерного анализа при различных аспектах работы с большими данными.
Ключевые слова
Об авторах
Е. В. Панферова
Тульский государственный педагогический университет им. Л.Н. Толстого, Институт передовых информационных технологий
Автор, ответственный за переписку.
Email: gamma15@inbox.ru
кандидат технических наук, доцент г. Тула, пр. Ленина, 125, корпус 3, 300026, Россия
Р. А. Матюшин
Тульский государственный педагогический университет им. Л.Н. Толстого, Институт передовых информационных технологий
Email: roman.matyuschin2017@yandex.ru
студент-магистрант г. Тула, пр. Ленина, 125, корпус 3, 300026, Россия
Список литературы
- Goodfellow Y., Bengio A. Courville, Deep Learning / Adaptive Computation and Machi-ne Learning series // The MIT Press, 2016.
- Даниленко А.Н. Структуры данных и анализ сложности алгоритмов: учеб. пособие / Самара: Изд-во Самарского университета, 2018. 76 с.
- Data clustering: a review / A. K. Jain, M. N. Murty, P. J. Flynn // ACM Computing Surveys. 1999. № 31(3). P. 264–323.
- K-means // ScikitLearn: URL: https://scikit-learn.org/stable/modules/clustering.html#k-means (дата обращения: 03.04.2024).
- A density-based algorithm for discovering clusters in large spatial databases with noise / Ester Martin, Kriegel Hans-Peter, Sander Jörg, Xu Xiaowei // Proceedings KDD'96. 1996. № 34. P. 226-231.
- GO-DBSCAN: Improvements of DBSCAN Algorithm Based on Grid / Feng L., Liu K., Tang F., Meng Q. // 2017. vol. 9. no. 3, pp. 151.
- OPTICS: ordering points to identify the clustering structure / Ankerst M., Breunig [и др.] // Proceedings SIGMOD '99. 1999. № 2. P. 49–60.
- Data mining: Concepts and Techniques / Han J., Kamber M., Pei J. // 2012. Morgan Kaufmann Series, Waltham, USA.
- Basic Understanding of CURE Algorithm // Geeksforgeeks: URL: https://www.geeks forgeeks.org/basic-understanding-of-cure-algorithm/ (дата обращения: 03.04.2024).
- CURE: An Efficient Clustering Algorithm for Large Databases / Guha S., Rastogi R., Kyuseok S. // 1998. ACM SIGMOD Conference, vol. 27, no. 2, pp. 73-84.
- Кластеризация пространственных данных – плотностные алгоритмы и DBCSAN // КАРТЕТИКА: URL: https://cartetika.ru/ tpost/k05o2ndpf1-klasterizatsiya-prostranst-vennih-dannih (дата обращения: 11.04.2024).
- CURE Algorithm // Deepgram: URL: https:// deepgram.com/ai-glossary/cure-algorithm (дата обращения: 11.04.2024).
Дополнительные файлы



