Итеративная настройка параметров моделей на основе древовидных ансамблей с использованием байесовской оптимизации для прогнозирования рака молочной железы

Обложка

Цитировать

Полный текст

Аннотация

Представлен метод итеративной настройки параметров моделей на основе ансамблей деревьев с использованием настройки байесовских гиперпараметров для прогнозирования состояний на примере рака молочной железы. Предлагаемый метод использует три различных набора данных, в том числе набор данных по диагностическому раку молочной железы Висконсина (WDBC), набор данных по надзору, эпидемиологии и конечным результатам (SEER) по раку молочной железы и набор данных по раку молочной железы в Коимбре (BCCD), а также реализует набор данных на основе древовидных ансамблей. Модели, в частности AdaBoost, Gentle-Boost, LogitBoost, Bag и RUSBoost, для прогнозирования рака молочной железы. Байесовская оптимизация использовалась для итеративной настройки гиперпараметров моделей, а производительность моделей оценивалась с использованием нескольких показателей, включая точность, прецизионность, полноту и оценку f1. Наши результаты показывают, что предложенный метод значительно повышает производительность моделей на основе ансамблей деревьев, что приводит к более высокой точности, прецизионности, полноте и оценке f1. По сравнению с другими современными моделями предлагаемый метод более эффективен. Он достиг 100% идеальных результатов по точности, прецизионности,  полноте и оценке F1 в наборе данных WDBC. В наборе данных SEER BC точность метода составила 95,9%, прецизионность 97,6%, полнота 94,2% и оценка F1 95,9%. Для набора данных BCCD метод достиг точности 94,7%, прецизионности 90%, полноты 100% и оценки F1 94,7%. Результаты этого исследования имеют важное значение для медицинских работников, поскольку раннее выявление рака молочной железы может значительно повысить шансы на выживание. В целом, это исследование вносит ценный вклад в область прогнозирования рака молочной железы с использованием машинного обучения.

Об авторах

А. Алсабри

Университет Саны

Автор, ответственный за переписку.
Email: aymanalsabri@su.edu.ye
Университетская улица Саны -

М. Альгабри

Университет Саны

Email: malekye@su.edu.ye
Университетская улица Саны -

Список литературы

  1. Rabiei R., Ayyoubzadeh S.M., Sohrabei S., Esmaeili M., Atashi A. Prediction of breast cancer using machine learning approaches. Journal of Biomedical Physics and Engineering. 2022. vol. 12. no. 3. pp. 297–308. doi: 10.31661/jbpe.v0i0.2109-1403.
  2. Visvanathan K., Fabian C.J., Bantug E., Brewster A.M., Davidson N.E., DeCensi A., et al. Use of endocrine therapy for breast cancer risk reduction: ASCO clinical practice guideline update. Journal of clinical oncology. 2019. vol. 37. no. 33. pp. 3152–3165.
  3. Thirthagiri E., Lee S.Y., Kang P., Lee D.S., Toh G.T., Selamat S., Yoon S.Y., Mohd Taib N.A., Nhong M.K., Yip C.H., Teo S.H. Evaluation of BRCA1 and BRCA2 mutations and risk-prediction models in a typical Asian country (Malaysia) with a relatively low incidence of breast cancer. Breast Cancer Research. 2008. vol. 10. no. 4. pp. 1–12. doi: 10.1186/bcr2118.
  4. Monirujjaman Khan M., Islam S., Sarkar S., Ayaz F.I., Kabir M.M., Tazin T., Albraikan A.A., Almalki F.A. Machine learning based comparative analysis for breast cancer prediction. Journal of Healthcare Engineering. 2022. vol. 2022. doi: 10.1155/2022/4365855.
  5. Sharma D., Kumar R., Jain A. Breast Cancer Patient Classification from Risk Factor Analysis Using Machine Learning Classifiers. Emergent Converging Technologies and Biomedical Systems: Select Proceedings of ETBS 2021. 2022. pp. 491–504.
  6. Ali S., Majid A., Javed S.G., Sattar M. Can-CSC-GBE: Developing Cost-sensitive Classifier with Gentleboost Ensemble for breast cancer classification using protein amino acids and imbalanced data. Computers in biology and medicine. 2016. vol. 73. pp. 38–46.
  7. Gao L., Ding Y. Disease prediction via Bayesian hyperparameter optimization and ensemble learning. BMC research notes. 2020. vol. 13. pp. 1–6.
  8. Sharma S.K., Vijayakumar K., Kadam V.J., Williamson S. Breast cancer prediction from microRNA profiling using random subspace ensemble of LDA classifiers via Bayesian optimization. Multimedia Tools and Applications. 2022. vol. 81. no. 29. pp. 41785–41805.
  9. Rasool A., Bunterngchit C., Tiejian L., Islam M.R., Qu Q., Jiang Q. Improved machine learning-based predictive models for breast cancer diagnosis. International journal of environmental research and public health. 2022. vol. 19(6). no. 3211. doi: 10.3390/ijerph19063211.
  10. Latchoumi T.P., Ezhilarasi T.P., Balamurugan K. Bio-inspired weighed quantum particle swarm optimization and smooth support vector machine ensembles for identification of abnormalities in medical data. SN Applied Sciences. 2019. vol. 1(10). no. 1137. doi: 10.1007/s42452-019-1179-8.
  11. Lahoura V., Singh H., Aggarwal A., Sharma B., Mohammed M.A., Damasevicius R., Kadry F., Cengiz K. Cloud computing-based framework for breast cancer diagnosis using extreme learning machine. Diagnostics. 2021. vol. 11(2). no. 241. doi: 10.3390/diagnostics11020241.
  12. Showrov M.I.H., Islam M.T., Hossain M.D., Ahmed M.S. Performance comparison of three classifiers for the classification of breast cancer dataset. in 4th International conference on electrical information and communication technology (EICT). 2019. pp. 1–5.
  13. Sheth P.D., Patil S.T., Dhore M.L. Evolutionary computing for clinical dataset classification using a novel feature selection algorithm. Journal of King Saud University-Computer and Information Sciences. 2022. vol. 34. pp. 5075–5082.
  14. Ara S., Das A., Dey A. Malignant and benign breast cancer classification using machine learning algorithms. in 2021 International Conference on Artificial Intelligence (ICAI). 2021. pp. 97–101.
  15. Lu H., Wang H., Yoon S.W. A dynamic gradient boosting machine using genetic optimizer for practical breast cancer prognosis. Expert Systems with Applications. 2019. vol. 116. pp. 340–350.
  16. Wang S., Wang Y., Wang D., Yin Y., Wang Y., Jin Y. An improved random forest-based rule extraction method for breast cancer diagnosis. Applied Soft Computing. 2020. vol. 86. no. 105941. doi: 10.1016/j.asoc.2019.105941.
  17. Ozkan G.Y., Gunduz S.Y. Comparision of Classification Algorithims for Survival of Breast Cancer Patients. Innovations in Intelligent Systems and Applications Conference (ASYU). 2020. pp. 1–4.
  18. Haque M.N., Tazin T., Khan M.M., Faisal S., Ibraheem S.M., Algethami H., Almalki F.A. Predicting characteristics associated with breast cancer survival using multiple machine learning approaches. Computational and Mathematical Methods in Medicine. 2022. vol. 2022. pp. 1–12. doi: 10.1155/2022/1249692.
  19. Mishra A.K., Roy P., Bandyopadhyay S. Genetic algorithm based selection of appropriate biomarkers for improved breast cancer prediction. Intelligent Systems and Applications: Proceedings of the Intelligent Systems Conference (IntelliSys). 2020. vol. 2. pp. 724–732.
  20. Mishra A.K., Roy P., Bandyopadhyay S. Binary particle swarm optimization based feature selection (bpso-fs) for improving breast cancer prediction. Proceedings of International Conference on Artificial Intelligence and Applications: ICAIA 2020. 2021. pp. 373–384.
  21. Breiman L. Bagging predictors. Machine learning. 1996. vol. 24. pp. 123–140.
  22. Harrou F., Saidi A., Sun Y. Wind power prediction using bootstrap aggregating trees approach to enabling sustainable wind power integration in a smart grid. Energy Conversion and Management. 2019. vol. 201. no. 112077. doi: 10.1016/j.enconman.2019.112077.
  23. Buhlmann P., Yu B. Analyzing bagging. The annals of Statistics. 2002. vol. 30. no. 4. pp. 927–961.
  24. Liu C., Zhao Z., Gu X., Sun L., Chen G., Zhang H., Jiang Y., Zhang Y., Cui X., Liu C. Establishment and verification of a bagged-trees-based model for prediction of sentinel lymph node metastasis for early breast cancer patients. Frontiers in Oncology. 2019. vol. 9. no. 282. doi: 10.3389/fonc.2019.00282.
  25. Deepa R., Gnanadesigan R., Ranjith D., Nithishkumar K., Dinesh A., Moorthy C. Performance Analysis of the Classification of Breast Cancer. Third International Conference on Inventive Research in Computing Applications (ICIRCA). 2021. pp. 1–6.
  26. Dawngliani M., Chandrasekaran N., Lalmuanawma S., Thangkhanhau H. Prediction of breast cancer recurrence using ensemble machine learning classifiers. Security with Intelligent Computing and Big-Data Services 2019: Proceedings of the 3rd International Conference on Security with Intelligent Computing and Big-data Services (SICBS). 2020. pp. 232–244.
  27. Assegie T.A., Tulasi R.L., Kumar N.K. Breast cancer prediction model with decision tree and adaptive boosting. IAES International Journal of Artificial Intelligence. 2021. vol. 10(1). no. 184.
  28. Okagbue H.I., Adamu P.I., Oguntunde P.E., Obasi E.C., Odetunmibi O.A. Machine learning prediction of breast cancer survival using age, sex, length of stay, mode of diagnosis and location of cancer. Health and Technology. 2021. vol. 11. pp. 887–893.
  29. Friedman J., Hastie T., Tibshirani R. Additive logistic regression: a statistical view of boosting (with discussion and a rejoinder by the authors). The annals of statistics. 2000. vol. 28. no. 2. pp. 337–407.
  30. Wu J., Gan M., Jiang R. A genetic algorithm for optimizing subnetwork markers for the study of breast cancer metastasis. Seventh International Conference on Natural Computation. 2011. pp. 1578–1582.
  31. Seiffert C., Khoshgoftaar T.M., Van Hulse J., Napolitano A. RUSBoost: A hybrid approach to alleviating class imbalance. IEEE transactions on systems, man, and cybernetics-part A: systems and humans. 2009. vol. 40. pp. 185–197.
  32. Tian J.-X., Zhang J. Breast cancer diagnosis using feature extraction and boosted C5. 0 decision tree algorithm with penalty factor. Math Biosci Eng. 2022. vol. 19. no. 3. pp. 2193–2205.
  33. Jiang X., Xu C. Deep learning and machine learning with grid search to predict later occurrence of breast Cancer metastasis using clinical data. Journal of clinical medicine. 2022. vol. 11(19). no. 5772.
  34. Deshwal V., Sharma M. Breast cancer detection using SVM classifier with grid search technique. International Journal of Computer Applications. 2019. vol. 975. no. 8887.
  35. Buttan Y., Chaudhary A., Saxena K. An improved model for breast cancer classification using random forest with grid search method. Proceedings of Second International Conference on Smart Energy and Communication: ICSEC 2020. 2021. pp. 407–415.
  36. Assegie T.A. An optimized K-Nearest Neighbor based breast cancer detection. Journal of Robotics and Control (JRC). 2021. vol. 2. no. 3. pp. 115–118.
  37. Mate Y., Somai N. Hybrid feature selection and Bayesian optimization with machine learning for breast cancer prediction. 7th International Conference on Advanced Computing and Communication Systems (ICACCS). 2021. pp. 612–619.
  38. Ceylan Z. Diagnosis of breast cancer using improved machine learning algorithms based on bayesian optimization. International Journal of Intelligent Systems and Applications in Engineering. 2020. vol. 8. no. 3. pp. 121–130.
  39. kaggle Repository. Breast Cancer Wisconsin Diagnostic Dataset. Available at: https://www.kaggle.com/code/karan1210/breast-cancer/data. (accessed 07.06.2022).
  40. kaggle Repository. Breast Cancer Coimbra Dataset. Available at: https://www.kaggle.com/datasets/yasserhessein/breast-cancer-coimbra-data-set. (accessed 07.06.2022).
  41. Surveillance, Epidemiology, and End Results (SEER) program. SEER breast cancer data. Available at: https://ieee-dataport.org/open-access/seer-breast-cancer-data. (accessed 07.06.2022).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».