Development, study, and comparison of models of cross-immunity to the influenza virus using statistical methods and machine learning

封面图片

如何引用文章

详细

Introduction. The World Health Organization considers the values of antibody titers in the hemagglutination inhibition assay as one of the most important criteria for assessing successful vaccination. Mathematical modeling of cross-immunity allows for identification on a real-time basis of new antigenic variants, which is of paramount importance for human health.

Materials and methods. This study uses statistical methods and machine learning techniques from simple to complex: logistic regression model, random forest method, and gradient boosting. The calculations used the AAindex matrices in parallel to the Hamming distance. The calculations were carried out with different types and values of antigenic escape thresholds, on four data sets. The results were compared using common binary classification metrics.

Results. Significant differentiation is shown depending on the data sets used. The best results were demonstrated by all three models for the forecast autumn season of 2022, which were preliminary trained on the February season of the same year (Auroc 0.934; 0.958; 0.956, respectively). The lowest results were obtained for the entire forecast year 2023, they were set up on data from two seasons of 2022 (Aucroc 0.614; 0.658; 0.775). The dependence of the results on the types of thresholds used and their values turned out to be insignificant. The additional use of AAindex matrices did not significantly improve the results of the models without introducing significant deterioration.

Conclusion. More complex models show better results. When developing cross-immunity models, testing on a variety of data sets is important to make strong claims about their prognostic robustness.

作者简介

Marina Asatryan

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya

编辑信件的主要联系方式.
Email: masatryan@gamaleya.org
ORCID iD: 0000-0001-6273-8615

PhD (Med.), senior researcher epidemiological cybernetics group of the Epidemiology Department

俄罗斯联邦, 123098, Moscow

Ilya Shmyr

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya

Email: shmyris@gamaleya.org
ORCID iD: 0000-0002-8514-5174

researcher epidemiological cybernetics group of the Epidemiology Department

俄罗斯联邦, 123098, Moscow

Boris Timofeev

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya

Email: timofeevbi@gamaleya.org
ORCID iD: 0000-0001-7425-0457

PhD (Phys.-Mat.), senior researcher D.I. Ivanovsky Institute of Virology Division

俄罗斯联邦, 123098, Moscow

Dmitrii Shcherbinin

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya

Email: shcherbinindn@gamaleya.org
ORCID iD: 0000-0002-8518-1669

PhD (Biol.), senior researcher, Department of Genetics and Molecular Biology of Bacteria

俄罗斯联邦, 123098, Moscow

Vaagn Agasaryan

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya

Email: agasaryanvg@gamaleya.org
ORCID iD: 0009-0009-3824-7061

researcher epidemiological cybernetics group of the Epidemiology Department

俄罗斯联邦, 123098, Moscow

Tatiana Timofeeva

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya

Email: timofeeva.tatyana@gamaleya.org
ORCID iD: 0000-0002-8991-8525

PhD (Biol.), head of laboratory D.I. Ivanovsky Institute of Virology Division

俄罗斯联邦, 123098, Moscow

Ivan Ershov

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya

Email: ershovif@gamaleya.org
ORCID iD: 0000-0002-3333-5347

researcher epidemiological cybernetics group of the Epidemiology Department

俄罗斯联邦, 123098, Moscow

Elita Gerasimuk

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya; State University «Dubna»

Email: ealita@mail.ru
ORCID iD: 0000-0002-7364-163X

PhD (Med.), Assoc. Prof.

俄罗斯联邦, 123098, Moscow; 141982, Dubna

Anna Nozdracheva

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya

Email: nozdrachevaav@gamaleya.org
ORCID iD: 0000-0002-8521-1741

PhD (Med.), head of laboratory for non-specific prevention of infectious diseases, Department of Epidemiology

俄罗斯联邦, 123098, Moscow

Tatyana Semenenko

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya

Email: semenenko@gamaleya.org
ORCID iD: 0000-0002-6686-9011

D. Sci. (Med.), Prof., Full Member of RANS, chief researcher Department of Epidemiology

俄罗斯联邦, 123098, Moscow

Denis Logunov

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya

Email: logunov@gamaleya.org
ORCID iD: 0000-0003-4035-6581

D. Sci. (Biol.), Full Member of RAS, Deputy Director for research

俄罗斯联邦, 123098, Moscow

Aleksander Gintsburg

National Research Center for Epidemiology and Microbiology named after Honorary Academician N.F. Gamaleya

Email: gintsburg@gamaleya.org
ORCID iD: 0000-0003-1769-5059

D. Sci. (Biol.), Prof., Full Member of RAS, Director

俄罗斯联邦, 123098, Moscow

参考

  1. Walker P.J., Siddell S.G., Lefkowitz E.J., Mushegian A.R., Adriaenssens E.M., Alfenas-Zerbini P., et al. Recent changes to viruses taxonomy ratified by the International Committee on Taxonomy of Viruses. Arch. Virol. 2022; 167(11): 2429–40. https://doi.org/10.1007/s00705-022-05516-5
  2. Chen J., Li K., Rong H., Bilal K., Yang N., Li K. A disease diagnosis and treatment recommendation system based on big data mining and cloud computing. Inf. Sci. 2018; 435: 124–49. https://doi.org/10.1016/j.ins.2018.01.001
  3. Qiu J., Qiu T., Yang Y., Wu D., Cao Z. Incorporating structure context of HA protein to improve antigenicity calculation for influenza virus A/H3N2. Sci. Rep. 2016; 6: 31156. https://doi.org/10.1038/srep31156
  4. Asatryan M.N., Agasaryan V.G, Shcherbinin D.N., Timofeev B.I., Ershov I.F., Shmyr I.S., et al. Influenza IDE. Patent RF № 2020617965; 2020. (in Russian)
  5. Asatryan M.N., Timofeev B.I., Shmyr I.S., Khachatryan K.R., Shcherbinin D.N., Timofeeva T.A., et al. Mathematical model for assessing the level of cross-immunity between strains of influenza virus subtype H3N2. Voprosy virusologii. 2023; 68(3): 252–64. https://doi.org/10.36233/0507-4088-179 https://elibrary.ru/rexvea (in Russian)
  6. Nakai K., Kidera A., Kanehisa M. Cluster analysis of amino acid indices for prediction of protein structure and function. Protein Eng. 1988; 2(2): 93–100. https://doi.org/10.1093/protein/2.2.93
  7. Virology Research Services. The Hemagglutination Inhibition Assay; 2023. Available at: https://virologyresearchservices.com/2023/04/07/understanding-the-hai-assay/
  8. Spackman E., Sitaras I. Hemagglutination Inhibition Assay. In: Animal Influenza Virus. 2020; 11–28. Available at: https://link.springer.com/protocol/10.1007/978-1-0716-0346-8_2
  9. Kaufmann L., Syedbasha M., Vogt D., Hollenstein Y., Hartmann J., Linnik J.E., et al. An optimized Hemagglutination Inhibition (HI) assay to quantify influenza-specific antibody titers. J. Vis Exp. 2017; (130): 55833. https://doi.org/10.3791/55833
  10. Burnet F.M., Lush D. The action of certain surface active agents on viruses. Aust. J. Exp. Biol. Med. Sci. 1940; 18(2): 141–50.
  11. Bedford T., Suchard M.A., Lemey P., Dudas G., Gregory V., Hay A.J., et al. Integrating influenza antigenic dynamics with molecular evolution. Elife. 2014; 3: e01914. https://doi.org/10.7554/eLife.01914
  12. Anderson C.S., McCall P.R., Stern H.A., Yang H., Topham D.J. Antigenic cartography of H1N1 influenza viruses using sequence-based antigenic distance calculation. BMC Bioinformatics. 2018; 19(1): 51. https://doi.org/10.1186/s12859-018-2042-4
  13. Lee M.S., Chen J.S. Predicting antigenic variants of influenza A/H3N2 viruses. Emerg. Infect. Dis. 2004; 10(8): 1385–90. https://doi.org/10.3201/eid1008.040107
  14. MU 3.1.3490–17. The study of population immunity to influenza in the population of the Russian Federation: Methodological guidelines; 2017. (in Russian)
  15. Lin X., Lin F., Liang T., Ducatez M.F., Zanin M., Wong S.S. Antibody responsiveness to influenza: what drives it? Viruses. 2021; 13(7): 1400. https://doi.org/10.3390/v13071400
  16. Lees W.D., Moss D.S., Shepherd A.J. A computational analysis of the antigenic properties of haemagglutinin in influenza A H3N2. Bioinformatics. 2010; 26(11): 1403–8. https://doi.org/10.1093/bioinformatics/btq160
  17. Zhou X., Yin R., Kwoh C.K., Zheng J. A context-free encoding scheme of protein sequences for predicting antigenicity of diverse influenza A viruses. BMC Genomics. 2018; 19(Suppl. 10): 936. https://doi.org/10.1186/s12864-018-5282-9
  18. Peng Y., Wang D., Wang J., Li K., Tan Z., Shu Y., et al. A universal computational model for predicting antigenic variants of influenza A virus based on conserved antigenic structures. Sci. Rep. 2017; 7: 42051. https://doi.org/10.1038/srep42051
  19. Huang J.W., Yang J.M. Changed epitopes drive the antigenic drift for influenza A (H3N2) viruses. BMC Bioinformatics. 2011; 12(Suppl. 1): S31. https://doi.org/10.1186/1471-2105-12-S1-S31
  20. Tolles J., Meurer W.J. Logistic regression: relating patient characteristics to outcomes. JAMA. 2016; 316(5): 533–4. https://doi.org/10.1001/jama.2016.7653
  21. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer; 2009.
  22. Zacour М., Ward В.J., Brewer A., Tang P., Boivin G., Li Y. Standardization of hemagglutination inhibition assay for influenza serology allows for high reproducibility between laboratories. Clin. Vaccine Immunol. 2016; 23(3): 236–42. https://doi.org/10.1128/CVI.00613-15
  23. Kilbourne E.D., ed. The Influenza Viruses and Influenza. New York, London: Academic Press; 1975.
  24. Yao Y., Li X., Liao B., Huang L., He P., Wang F., et al. Predicting influenza antigenicity from Hemagglutintin sequence data based on a joint random forest method. Sci. Rep. 2017; 7(1): 1545. https://doi.org/10.1038/s41598-017-01699-z
  25. Lee E.K., Tian H., Nakaya H.I. Antigenicity prediction and vaccine recommendation of human influenza virus A (H3N2) using convolutional neural networks. Hum. Vaccin. Immunother. 2020; 16(11): 2690–708. https://doi.org/10.1080/21645515.2020.1734397
  26. Shah S.A.W., Palomar D.P., Barr I., Poon L.L.M., Quadeer A.A., McKay M.R. Seasonal antigenic prediction of influenza A H3N2 using machine learning. Nat. Commun. 2024; 15(1): 3833. https://doi.org/10.21203/rs.3.rs-2924528/v1
  27. Wang P., Zhu W., Liao B., Cai L., Peng L., Yang J. Predicting influenza antigenicity by matrix completion with antigen and antiserum similarity. Front. Microbiol. 2018; 9: 2500. https://doi.org/10.3389/fmicb.2018.02500
  28. Huang L., Li X., Guo P., Yao Y., Liao B., Zhang W., et al. Matrix completion with side information and its applications in predicting the antigenicity of influenza viruses. Bioinformatics. 2017; 33(20): 3195–201. https://doi.org/ 10.1093/bioinformatics/btx390
  29. Liao Y.C., Lee M.S., Ko C.Y., Chao A.H. Bioinformatics models for predicting antigenic variants of influenza A/H3N2 virus. Bioinformatics. 2008; 24(4): 505–12. https://doi.org/10.1093/bioinformatics/btm638
  30. Yang J., Zhang T., Wan X.F. Sequence-based antigenic change prediction by a sparse learning method incorporating co-evolutionary information. PLoS One. 2014; 9(9): e106660. https://doi.org/10.1371/journal.pone.0106660
  31. Adabor E.S. A statistical analysis of antigenic similarity among influenza A (H3N2) viruses. Heliyon. 2021; 7(11): e08384. https://doi.org/10.1016/j.heliyon.2021.e08384

补充文件

附件文件
动作
1. JATS XML
2. Fig. 1. Study flowchart. 1.1. Selection of source data; 1.2. Selecting the threshold for antigen release; 1.3. Dividing the data into a training and a forecast periods; 2. Model development; 3. Adequacy assessment and comparative analysis. Explanations in the text.

下载 (93KB)
3. Fig. 2. 2014‒2021 => 2022 (1 : 40). Here and in Fig. 3–5: the logistic regression model is shown in blue; random forest – in yellow; gradient boosting – in green, for one type of threshold expressed in titers (dilution 1 : 40). The sensitivity is plotted on the Y-axis, and the 1 minus specificity represent on the X-axis. Explanations are given in the text.

下载 (222KB)
4. Fig. 3. 2022 (feb.) => 2022 (sep.) (1 : 40).

下载 (222KB)
5. Fig. 4. 2023 (feb.) => 2023 (sep.) (1 : 40).

下载 (224KB)
6. Fig. 5. 2022 => 2023 (1 : 40).

下载 (237KB)
7. Fig. 6. 2014‒2021 => 2022 (> 4). Here and in Fig. 7–9: logistic regression models are shown in blue; random forest models are shown in yellow; gradient boosting models are shown in green. Sensitivity is plotted on the Y-axis, and 1 minus specificity represents on the X-axis. Explanations are given in the text.

下载 (247KB)
8. Fig. 7. 2022 (feb.) => 2022 (sep.) (> 4).

下载 (207KB)
9. Fig. 8. 2023 (feb) => 2023 (sep.) (> 4).

下载 (222KB)
10. Fig. 9. 2022 => 2023 (> 4).

下载 (248KB)
11. Supplementary to the article "Development, study and comparison of models of cross-immunity to the influenza virus using statistical methods and machine learning"
下载 (3MB)

版权所有 © Asatryan M.N., Shmyr I.S., Timofeev B.I., Shcherbinin D.N., Agasaryan V.G., Timofeeva T.A., Ershov I.F., Gerasimuk E.R., Nozdracheva A.V., Semenenko T.A., Logunov D.Y., Gintsburg A.L., 2024

Creative Commons License
此作品已接受知识共享署名 4.0国际许可协议的许可

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».