Прогнозирование рака груди с помощью машинного обучения
- Авторы: Увингабийе Ф.1, Кимений Т.1, Кимений А.1, Круглова Л.В.1
-
Учреждения:
- Российский университет дружбы народов
- Выпуск: Том 26, № 3 (2025)
- Страницы: 310-322
- Раздел: Статьи
- URL: https://journal-vniispk.ru/2312-8143/article/view/350898
- DOI: https://doi.org/10.22363/2312-8143-2025-26-3-310-322
- EDN: https://elibrary.ru/AAMJLK
- ID: 350898
Цитировать
Полный текст
Аннотация
Рак молочной железы остается одной из основных причин заболеваемости и смертности среди женщин во всем мире. Несмотря на значительные усилия, направленные на раннее выявление болезни, рак молочной железы по-прежнему представляет собой серьезную проблему для здоровья населения. Цель исследования - прогнозирование риска рака молочной железы с использованием различных подходов машинного обучения, основанных на демографических, лабораторных и маммографических данных. Использована модель количественных оценок методов машинного обучения в прогнозировании рака молочной железы. Модель интегрирует алгоритмы машинного обучения, включая метод опорных векторов, деревья решений, случайные леса и модели глубокого обучения, для оценки их точности, эффективности и применимости в медицинской диагностике. Набор данных выявил значительную изменчивость в параметрах опухоли, таких как средний радиус, средняя текстура, средний периметр и средняя площадь. Целевая переменная продемонстрировала дисбаланс классов, с 62 % доброкачественных и 38 % злокачественных случаев. Среди оцененных моделей Random Forest превзошла другие по наибольшей точности, чувствительности, полноте, F1-мере и площади под кривой операционных характеристик, указывая на наилучшую способность прогнозирования. Модели логистической регрессии и метода опорных векторов показали конкурентоспособность, особенно почувствительности и полноте, в то время как модель дерева решений продемонстрировала самую низкую общую эффективность по всем показателям.
Об авторах
Флоренс Увингабийе
Российский университет дружбы народов
Автор, ответственный за переписку.
Email: cyizashem@gmail.com
ORCID iD: 0009-0006-8425-2425
магистрант кафедры механики и процессов управления, инженерная академия
Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, д. 6Тади Кимений
Российский университет дружбы народов
Email: ki.thadee@gmail.com
ORCID iD: 0009-0006-9831-042X
магистрант кафедры механики и процессов управления, инженерная академия
Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, д. 6Асаф Кимений
Российский университет дружбы народов
Email: asaph.rw@gmail.com
ORCID iD: 0009-0003-6885-6235
магистрант кафедры механики и процессов управления, инженерная академия, инженерная академия
Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, д. 6Лариса Владимировна Круглова
Российский университет дружбы народов
Email: kruglova-lv@rudn.ru
ORCID iD: 0000-0002-8824-1241
SPIN-код: 2920-9463
кандидат технических наук, доцент кафедры механики и процессов управления, инженерная академия
Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, д. 6Список литературы
- Sung H, Siegel RL, Jemal A, Ferlay J, Laversanne M, Soerjomataram I, Bray F. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA: A Cancer Journal for Clinicians. 2021;71(3):209-249. https://doi.org/10.3322/caac.21660 EDN: MRLXRI
- Bray F, Laversanne M, Sung H, Soerjomataram I, Siegel SL, Jemal A. Global cancer statistics 2022: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA: A Cancer Journal for Clinicians. 2024;74(3):229-263. https://doi.org/10.3322/caac.21834
- Khalid A, Mehmood A, Alabrah A, Alkhamees BF, Amin F, AlSalman H, Choi GS. Breast cancer detection and prevention using machine learning. Diagnostics. 2023;13(19):3113. https://doi.org/10.3390/diagnostics13193113
- Davis FD. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Quarterly. 2019;13(3):319-340. https://doi.org/10.2307/249008
- Venkatesh V, Davis FD. A theoretical extension of the Technology Acceptance Model: Four longitudinal field studies. Management Science. 2000;46(2):186-204. https://doi.org/10.1287/mnsc.46.2.186.11926 EDN: FNVBJN
- Heaton JIG, Bengio Y, Courville A. Deep learning. Genet Program Evolvable. 2018;19:305-307. https://doi.org/10.1007/s10710-017-9314-z
- Wolberg W, Mangasarian O, Street N, Street W. Breast cancer wisconsin (Diagnostic). UCI Machine Learning Repository. 1993. https://doi.org/10.24432/C5DW2B
- Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016:785-794. https://doi.org/10.1145/2939672.2939785
- Gupta V, Choudhary S. Multicollinearity and its impact on model accuracy. Journal of Data Science and Analytics. 2022;14(1):12-24.
- Hunter JD. Matplotlib: A 2D Graphics Environment. Computing in Science & Engineering. 2017;9(3):90-95. https://doi.org/10.1109/MCSE.2007.55
- Shivakumar M, Kokila R, Likitha BS, Tharun N, Adishesha R. Breast cancer prediction. International Journal of Creative Research Thoughts. 2024;12(5):600-605. Available from: https://ijcrt.org/papers/IJCRTAB02087.pdf (accessed: 15.03.2025).
- Vlachas C, Damianos L, Gousetis N, Mouratidis I, Kelepouris D, Kollias K-F, Asimopoulos N, Fragulis GF. Random forest classification algorithm for medical industry data. The 4th ETLTC International Conference on ICT Integration in Technical Education (ETLTC2022). 2022;139:03008. https://doi.org/10.1051/shsconf/202213903008
- Tiwari A, Mishra S, Kuo TR. Current AI techno-logies in cancer diagnostics and treatment. Mol Cancer. 2025;24:159. https://doi.org/10.1186/s12943-025-02369-9
- Lopez-Miguel ID. Survey on preprocessing techniques for big data projects. Engineering Proceedings. 2021;7(1):14. https://doi.org/10.3390/engproc2021007014
- IBM Research. Parallel processing in Random Forest models. IBM Technical Journal. 2023;58(3):125-140. https://doi.org/10.33022/ijcs.v13i2.3803
- Ljubic B, Pavlovski M, Gillespie A, Zoran Obradovic Z. Systematic review of supervised machine learning models in prediction of medical conditions. Medrxiv. 2022. https://doi.org/10.1101/2022.04.22.22274183
- Bell R, Martinez G. Machine learning for predictive healthcare: Techniquesand applications. Journal of Artificial Intelligence in Medicine. 2018;50(3):19-26. https://doi.org/10.1016/j.artmed.2018.03.003
- Kotsiantis SB, Kanellopoulos D, Pintelas PE. Data preprocessing for supervised learning. International Journal of Computer Science. 2006;1(1):111-117.
- LeCun Y, Bengio Y, Hinton G. Deep learning. Nature. 2015;521(7553):436-444. https://doi.org/10.1038/nature14539
- Waskom ML, Botvinnik O, O'Kane D, Hobson P, Lukauskas S, Seaborn BM. Statistical data visualization. Journal of Open Source Software. 2020;5(52):2186. Available from: https://ui.adsabs.harvard.edu/abs/2020ascl.soft12015W/abstract (accessed: 15.03.2025).
Дополнительные файлы


