Comparison of machine learning methods for predicting cervical cancer risk of based on genetic presposition

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

The etiological agent of cervical cancer (CC) is human papillomavirus (HPV). However, not all HPV-infected women develop CC, which suggests a genetic predisposition.

Objective. Comparison and selection of the most optimal machine learning method for predicting the development of cervical cancer in HPV-infected women using data on genetic predisposition.

Materials and methods. DNA samples from 127 women with CC and 120 women without intraepithelial lesions were studied. The following single nucleotide polymorphisms were taken for analysis: rs55986091 (HLA-DQB1), rs2516448 (MICA) and rs9271898 (HLA-DQA1). To predict cervical cancer, the following methods were used: logistic regression, random forests, Gradient Boosting Machine (GBM), XGBoost and neural network.

Results. Predictors associated with the risk of developing CC included the presence of HPV types 16, 18 or 45 and 3 polymorphic variants: rs55986091, rs2516448 or rs9271898. When comparing machine learning methods, more accurate prediction results were shown for neural network and XGBoost.

Conclusion. Genetic predisposition and calculation models based on machine learning can be used to calculate individual risk of cervical cancer, identify risk groups and adjust the period between screenings.

About the authors

Mikhail A. Vinokurov

Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being

Author for correspondence.
Email: vinokurov@cmd.su
ORCID iD: 0000-0002-4101-0702

Junior Researcher, Laboratory of Molecular Methods for Studying Genetic Polymorphisms

Russian Federation, Moscow

Konstantin O. Mironov

Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being

Email: mironov@cmd.su
ORCID iD: 0000-0003-4481-2249

МD, Head, Laboratory of Molecular Methods for Studying Genetic Polymorphisms

Russian Federation, Moscow

Elvira A. Domonova

Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being

Email: elvira.domonova@pcr.ms
ORCID iD: 0000-0001-8262-3938

Cand. Biol. Sci., Head, Scientific Group for the Development of New Methods for Diagnosis of Opportunistic and Human Papillomavirus Infections

Russian Federation, Moscow

Tatyana N. Romanyuk

Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being

Email: tatiana.romaniuk@pcr.ms
ORCID iD: 0009-0006-1952-907X

biologist

Russian Federation, Moscow

Anna A. Popova

Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being

Email: asya-med@mail.ru
ORCID iD: 0000-0001-9484-5917

Cand. Med. Sci., Senior Researcher

Russian Federation, Moscow

Vasily G. Akimkin

Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being

Email: akimkin@pcr.ms
ORCID iD: 0000-0003-4228-9044

Professor, Academician of the Russian Academy of Sciences, MD. Director

Russian Federation, Moscow

References

  1. Ferlay J.E.M., Lam F., Colombet M., Mery L., Pineros M., Znaor A. et al. Global Cancer Observatory: Cancer Today. International Agency for Research on Cancer, Lyon. https://gco.iarc.fr/today
  2. Каприн А.Д., Старинский В.В., Шахзадова А.О. (ред.). Состояние онкологической помощи населению России в 2019 году. М.: МНИОИ им. П.А. Герцена − филиал ФГБУ «НМИЦ радиологии» Минздрава России, 2020. 239 с.
  3. Kaprin A.D., Starinskiy V.V., Shakhzadova A.O. [The state of cancer care for the Russian population in 2019.] Moscow: P.A. Herzen Institute of Medical Sciences − branch of the National Medical Research Center for Radiology of the Ministry of Health of the Russian Federation, 2020. 239 p. (In Russ.).
  4. Okunade K.S. Human papillomavirus and cervical cancer. J. Obstet. Gynaecol. 2020; 40(5): 602–8. doi: 10.1080/01443615.2019. 1634030
  5. Duenas-Gonzalez A., Serrano-Olvera A., Cetina L., Coronel J. New molecular targets against cervical cancer. Int. J. Womens Health. 2014; (6): 1023–31. doi: 10.2147/IJWH.S49471
  6. Баранов В.С. Генетический паспорт – основа индивидуальной и предиктивной медицины. СПб: Изд-во Н-Л, 2009. 528 с.
  7. Baranov V.S. [The genetic passport is the basis of individual and predictive medicine]. St. Petersburg: N-L, 2009. 528 p. (In Russ.).
  8. Попова А.А., Домонова Э.А., Виноградова Н.А., Шипулина О.Ю. Аногенитальная папилломавирусная инфекция у ВИЧ-инфицированных женщин (по результатам пилотного исследования в Московском регионе). Эпидемиол. инфекц. болезни. Актуал. вопр. 2021; 11(3): 40–5. doi: 10.18565/epidem.2021.11.3.40-5
  9. Popova A.A., Domonova E.A., Vinogradova N.A., Shipulina O.Y. [Anogenital papillomavirus infection in HIV-infected women (based on the results of a pilot study in the Moscow region)]. Epidemiоlоgy and infectious diseases. Сurrent items 2021; 11(3): 40–5. (In Russ.). doi: 10.18565/epidem.2021.11.3.40-5
  10. Каприн А.Д., Новикова Е.Г., Трушина О.И., Грецова О.П. Скрининг рака шейки матки – нерешенные проблемы. Исследования и практика в медицине 2015; 2(1): 36–41. doi: 10.17709/2409-2231-2015-2-1-36-41
  11. Kaprin A.D., Novikova E.G., Trushina O.I., Gretsova O.P. [Cervical cancer screening – unresolved problems]. Research and practice in medicine. – 2015; 2(1): 36-41. (In Russ.). doi: 10.17709/2409-2231-2015-2-1-36-41
  12. Riley R.D., van der Windt D., Croft P., Moons K. G. Prognosis research in healthcare: concepts, methods, and impact. Oxford University Press, 2019. 384 р.
  13. Лапач С.Н., Радченко С.Г. Основные проблемы построения регрессионных моделей. Математические машины и системы 2012; 1(4): 125–33.
  14. Lapach S. N., Radchenko S. G. [The main problems of constructing regression models]. Mathematical machines and systems 2012; 1(4): 125–33. (In Russ.).
  15. Mitchell T.M. Machine learning. New York: McGraw-hill, 2007. 436 p.
  16. Motsinger-Reif A.A., Ritchie M.D. Neural networks for genetic epidemiology: past, present, and future. BioData Min. 2008; 1(1): 3. doi: 10.1186/1756-0381-1-3
  17. Винокуров М.А., Миронов К.О., Корчагин В.И., Попова А.А. Генетические полиморфизмы, ассоциированные с раком шейки матки: систематический обзор. Журнал микробиологии, эпидемиологии и иммунобиологии 2022; 99(3): 353–61. doi: 10.36233/0372-9311-251
  18. Vinokurov M.A., Mironov K.O., Korchagin V.I., Popova A.A. [Genetic polymorphisms associated with cervical cancer: a systematic review]. Journal of Microbiology, Epidemiology and Immunobiology 2022; 99(3): 353–61. (In Russ.). doi: 10.36233/0372-9311-251
  19. Винокуров, М. А., Миронов К.О. Разработка методики определения генетических полиморфизмов, ассоциированных с раком шейки матки. Сборник материалов конгресса с международным участием «Молекулярная диагностика и биобезопасность-2022». М: ЦНИИЭ Роспотребнадзора, 2022: 184–5.
  20. Vinokurov M.A., Mironov K.O. [Development of a methodology for determining genetic polymorphisms associated with cervical cancer]. Proceedings of the Congress with international participation «Molecular diagnostics and biosafety–2022». Moscow, 2022: 1845. (In Russ.).
  21. Moskowitz C.S., Pepe M.S. Comparing the predictive values of diagnostic tests: sample size and analysis for paired study designs. Clin. Trials. 2006; 3(3): 272–9. doi: 10.1191/1740774506cn147
  22. Оганов Р.Г. Значение эпидемиологических исследований и доказательной медицины для клинической практики. Кардиоваскулярная терапия и профилактика 2015; 14(4): 4–7 doi: 10.15829/1728-8800-2015-4-4-7
  23. Oganov R.G. [The importance of epidemiological research and evidence-based medicine for clinical practice]. Cardiovascular Therapy and Prevention 2015; 14(4): 4–7. (In Russ.). doi: 10.15829/1728-8800-2015-4-4-7
  24. Hua C., Choi Y.J. Companion to BER 642: Advanced regression methods. https://bookdown.org/chua/ber642_ advanced_regression
  25. Davey Smith G., Ebrahim S., Lewis S., Hansell A.L., Palmer L.J., Burton P.R. Genetic epidemiology and public health: hope, hype, and future prospects. The Lancet 2005; 366(9495): 1484–98. doi: 10.1016/S0140-6736(05)67601-5
  26. Короленкова Л.И., Завольская Ж.А., Лешкина Г.В. Новые возможности молекулярного тестирования в цервикальном скрининге и ранней диагностике предрака и рака шейки матки (по материалам клинических рекомендаций «Цервикальная интраэпителиальная неоплазия, эрозия и эктропион шейки матки» Минздрава России от 2020 года). Медицинский оппонент 2020; (3): 12–8.
  27. Korolenkova L.I., Zavolskaya Zh.A., Leshkina G.V. [New possibilities of molecular testing in cervical screening and early diagnosis of precancerous and cervical cancer (based on the materials of the clinical recommendations «Cervical intraepithelial neoplasia, erosion and ectropion of the cervix» of the Ministry of Health of the Russian Federation from 2020)]. Medical opponent 2020; (3): 12–8. (In Russ.).
  28. Адамян Л.В., Аполихина И.А., Артымук Н.В., Ашрафян Л.А., Баранов И.И., Байрамова Г.Р. и др. Цервикальная интраэпителиальная неоплазия, эрозия и эктропион шейки матки. Клинические рекомендации. М., 2020. 59 с.
  29. Adamyan L.V., Apolikhina I.A., Artymuk N.V., Ashrafyan L.A., Baranov I.I., Bayramova G.R. et al. [Cervical intraepithelial neoplasia, erosion and ectropion of the cervix. Clinical recommendations]. Moscow, 2020. 59 p. (In Russ.).
  30. Perkins R.B., Guido R.S., Castle P.E., Chelmow D., Einstein M.H., Garcia F. et al. 2019 ASCCP Risk-Based Management Consensus Guidelines Committee. 2019 ASCCP Risk-Based Management Consensus Guidelines for Abnormal Cervical Cancer Screening Tests and Cancer Precursors. J. Low. Genit. Tract. Dis. 2020; 24(2): 102–31. doi: 10.1097/LGT.0000000000000525

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».