Prediction of Breast Cancer Using Machine Learning

Мұқаба

Дәйексөз келтіру

Толық мәтін

Аннотация

Breast cancer remains one of the leading causes of morbidity and mortality among women worldwide. Despite the global emphasis on early detection, breast cancer continues to pose a significant public health challenge. The object of this study is to predict the breast cancer risk using various machine-learning approaches based on demographic, laboratory, and mammographic data. It employed a quantitative research design to assess the potential of machine learning (ML) in predicting breast cancer. It integrated supervised ML algorithms, including Support Vector Machines (SVM), Decision Trees, Random Forests, and Deep Learning models, to evaluate their accuracy, efficiency, and applicability in medical diagnostics. The dataset revealed significant variability in tumor features such as mean radius, mean texture, mean perimeter, and mean area. The target variable demonstrated a class imbalance, with 62% benign and 38% malignant cases. Among the evaluated models, Random Forest outperformed others with the highest accuracy, precision, recall, F1-score, and ROC-AUC, indicating superior predictive capability. The Logistic Regression and Support Vector Machine models showed competitive performance, particularly in precision and recall, while the Decision Tree model exhibited the lowest overall performance across metrics.

Авторлар туралы

Florence Uwingabiye

RUDN University

Хат алмасуға жауапты Автор.
Email: cyizashem@gmail.com
ORCID iD: 0009-0006-8425-2425

Master student of the Department of Mechanics and Control Processes, Academy of Engineering

6 Miklukho-Maklaya St, Moscow, 117198, Russian Federation

Thadee Kimenyi

RUDN University

Email: ki.thadee@gmail.com
ORCID iD: 0009-0006-9831-042X

Master student of the Department of Mechanics and Control Processes, Academy of Engineering

6 Miklukho-Maklaya St, Moscow, 117198, Russian Federation

Asaph Kimenyi

RUDN University

Email: asaph.rw@gmail.com
ORCID iD: 0009-0003-6885-6235

Master student of the Department of Mechanics and Control Processes, Academy of Engineering

6 Miklukho-Maklaya St, Moscow, 117198, Russian Federation

Larisa Kruglova

RUDN University

Email: kruglova-lv@rudn.ru
ORCID iD: 0000-0002-8824-1241
SPIN-код: 2920-9463

PhD in Technical Sciences, Associate Professor of the Department of Mechanics and Control Processes, Academy of Engineering

6 Miklukho-Maklaya St, Moscow, 117198, Russian Federation

Әдебиет тізімі

  1. Sung H, Siegel RL, Jemal A, Ferlay J, Laversanne M, Soerjomataram I, Bray F. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA: A Cancer Journal for Clinicians. 2021;71(3):209-249. https://doi.org/10.3322/caac.21660 EDN: MRLXRI
  2. Bray F, Laversanne M, Sung H, Soerjomataram I, Siegel SL, Jemal A. Global cancer statistics 2022: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA: A Cancer Journal for Clinicians. 2024;74(3):229-263. https://doi.org/10.3322/caac.21834
  3. Khalid A, Mehmood A, Alabrah A, Alkhamees BF, Amin F, AlSalman H, Choi GS. Breast cancer detection and prevention using machine learning. Diagnostics. 2023;13(19):3113. https://doi.org/10.3390/diagnostics13193113
  4. Davis FD. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Quarterly. 2019;13(3):319-340. https://doi.org/10.2307/249008
  5. Venkatesh V, Davis FD. A theoretical extension of the Technology Acceptance Model: Four longitudinal field studies. Management Science. 2000;46(2):186-204. https://doi.org/10.1287/mnsc.46.2.186.11926 EDN: FNVBJN
  6. Heaton JIG, Bengio Y, Courville A. Deep learning. Genet Program Evolvable. 2018;19:305-307. https://doi.org/10.1007/s10710-017-9314-z
  7. Wolberg W, Mangasarian O, Street N, Street W. Breast cancer wisconsin (Diagnostic). UCI Machine Learning Repository. 1993. https://doi.org/10.24432/C5DW2B
  8. Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016:785-794. https://doi.org/10.1145/2939672.2939785
  9. Gupta V, Choudhary S. Multicollinearity and its impact on model accuracy. Journal of Data Science and Analytics. 2022;14(1):12-24.
  10. Hunter JD. Matplotlib: A 2D Graphics Environment. Computing in Science & Engineering. 2017;9(3):90-95. https://doi.org/10.1109/MCSE.2007.55
  11. Shivakumar M, Kokila R, Likitha BS, Tharun N, Adishesha R. Breast cancer prediction. International Journal of Creative Research Thoughts. 2024;12(5):600-605. Available from: https://ijcrt.org/papers/IJCRTAB02087.pdf (accessed: 15.03.2025).
  12. Vlachas C, Damianos L, Gousetis N, Mouratidis I, Kelepouris D, Kollias K-F, Asimopoulos N, Fragulis GF. Random forest classification algorithm for medical industry data. The 4th ETLTC International Conference on ICT Integration in Technical Education (ETLTC2022). 2022;139:03008. https://doi.org/10.1051/shsconf/202213903008
  13. Tiwari A, Mishra S, Kuo TR. Current AI techno-logies in cancer diagnostics and treatment. Mol Cancer. 2025;24:159. https://doi.org/10.1186/s12943-025-02369-9
  14. Lopez-Miguel ID. Survey on preprocessing techniques for big data projects. Engineering Proceedings. 2021;7(1):14. https://doi.org/10.3390/engproc2021007014
  15. IBM Research. Parallel processing in Random Forest models. IBM Technical Journal. 2023;58(3):125-140. https://doi.org/10.33022/ijcs.v13i2.3803
  16. Ljubic B, Pavlovski M, Gillespie A, Zoran Obradovic Z. Systematic review of supervised machine learning models in prediction of medical conditions. Medrxiv. 2022. https://doi.org/10.1101/2022.04.22.22274183
  17. Bell R, Martinez G. Machine learning for predictive healthcare: Techniquesand applications. Journal of Artificial Intelligence in Medicine. 2018;50(3):19-26. https://doi.org/10.1016/j.artmed.2018.03.003
  18. Kotsiantis SB, Kanellopoulos D, Pintelas PE. Data preprocessing for supervised learning. International Journal of Computer Science. 2006;1(1):111-117.
  19. LeCun Y, Bengio Y, Hinton G. Deep learning. Nature. 2015;521(7553):436-444. https://doi.org/10.1038/nature14539
  20. Waskom ML, Botvinnik O, O'Kane D, Hobson P, Lukauskas S, Seaborn BM. Statistical data visualization. Journal of Open Source Software. 2020;5(52):2186. Available from: https://ui.adsabs.harvard.edu/abs/2020ascl.soft12015W/abstract (accessed: 15.03.2025).

Қосымша файлдар

Қосымша файлдар
Әрекет
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».