Машинное обучение в задачах base-calling для методов секвенирования нового поколения

Обложка

Цитировать

Полный текст

Аннотация

Развитие технологий секвенирования следующего поколения (NGS) внесло существенный вклад в тенденции снижения затрат и получения массивных данных секвенирования. В Институте аналитического приборостроения РАН разрабатывается аппаратно-программный комплекс (АПК) для расшифровки последовательности нуклеиновых кислот методом массового параллельного секвенирования (Нанофор СПС). Алгоритмы обработки изображений, входящие в состав АПК, играют существенную роль в решении задач расшифровки генома. Финальной частью такого предварительного анализа сырых данных является процесс base-calling. Base-calling — это процесс определения нуклеотидного основания, которое генерирует соответствующее значение интенсивности в каналах флуоресценции для различных длин волн на кадрах изображения проточной ячейки для различных циклов секвенирования методом синтеза. Приведен обширный анализ различных подходов к решению задач base-calling и сводка распространенных процедур, доступных для платформы Illumina. Рассмотрены различные химические процессы, включенные в технологию секвенирования методом синтеза, вызывающие смещения в значениях регистрируемых интенсивностей, включая эффекты фазирование / префазирование (phasing/prephasing), затухания сигнала (signal decay) и перекрестные помехи (cross-talk). Определена обобщённая модель, в рамках которой рассматриваются возможные реализации. Рассмотрены возможные подходы машинного обучения (machine learning) для создания и оценки моделей, реализующих этап обработки base-calling. Подходы ML принимают различные формы, включая обучение без учителя (unsupervised), обучение с ча-стичным привлечением учителя (semi-supervised), обучение с учителем (supervised). В работе показана возможность применения различных алгоритмов машинного обучения на основе платформы Scikit-learn. Отдельной важной задачей является оптимальное выделение признаков, выделенных в обнаруженных кластерах на проточной ячейке для машинного обучения. Наконец, на ряде данных секвенирования для приборов MiSeq Illumina и Нанофор СПС показана перспективность метода машинного обучения для решения задачи base-calling.

Об авторах

А. Г Бородинов

АО "Научные приборы"

Email: borodinov@gmail.com
улица Ивана Черных 31-33

В. В Манойлов

Институт аналитического приборостроения Российской академии наук (ИАП РАН)

Email: manoilov-vv@mail.ru
улица Ивана Черных 31-33

И. В Заруцкий

Институт аналитического приборостроения Российской академии наук (ИАП РАН)

Email: igorzv@yandex.ru
улица Ивана Черных 31-33

А. И Петров

Институт аналитического приборостроения Российской академии наук (ИАП РАН)

Email: fataip@mail.ru
улица Ивана Черных 31-33

В. Е Курочкин

Институт аналитического приборостроения Российской академии наук (ИАП РАН)

Email: lavrovas@yandex.ru
улица Ивана Черных 31-33

А. С Сараев

Институт аналитического приборостроения Российской академии наук (ИАП РАН)

Email: alex.niispb@yandex.ru
улица Ивана Черных 31-33

Список литературы

  1. Бородинов А. Г., Манойлов В. В., Заруцкий И. В., Петров А. И., Курочкин В. Е. Поколения методов секвенирования ДНК (ОБЗОР) // Научное приборостроение. 2020. т. 30. № 4. С. 3—20
  2. Wenxiu Ma, Wing Hung Wong The analysis of ChIP-Seq data // Methods Enzymol. 2011. vol. 497. pp. 51-73.
  3. Zhong Wang, Mark Gerstein, Michael Snyder RNA-Seq: a revolutionary tool for transcriptomics // Nat Rev Genet. 2009. vol.10. no. 1. pp. 57-63.
  4. Syed, F., Grunenwald, H. & Caruccio, N. Next-generation sequencing library preparation: simultaneous fragmentation and tagging using in vitro transposition // Nat Methods. 2009. vol. 6. pp. i–ii.
  5. Манойлов В. В., Бородинов А. Г., Заруцкий И. В., Петров А. И., Курочкин В. Е. Алгоритмы обработки сигналов флуоресценции массового параллельного секвенирования нуклеиновых кислот // Труды СПИИРАН. 2019. т. 18. № 4. С. 1010–1036.
  6. Schilbert H.M., Rempel A., Pucker B. Comparison of Read Mapping and Variant Calling Tools for the Analysis of Plant NGS Data // Plants. 2020. vol. 9. p. 439.
  7. Ye C., Hsiao C., Corrada-Bravo H. BlindCall: ultra-fast base-calling of high-throughput sequencing data by blind deconvolution // Bioinform. 2014. vol. 30. no. 9. pp. 1214–1219.
  8. Wang B, Wan L, Wang A, Li L.M. An adaptive decorrelation method removes Illumina DNA base-calling errors caused by crosstalk between adjacent clusters // Sci Rep. 2017. vol. 7.
  9. Renaud G., Kircher M., Stenzel U., Kelso J. FreeIbis: an efficient basecaller with calibrated quality scores for Illumina sequencers // Bioinformatics. 2013. vol. 29. pp. 1208–1209.
  10. Das S., Vikalo H. Base calling for high-throughput short-read sequencing: dynamic programming solutions // BMC Bioinformatics. 2013. vol. 14. p. 129.
  11. Massingham T., Goldman N. All your base: a fast and accurate probabilistic approach to base calling // Genome Biol. 2012. vol. 13. p. R13.
  12. Das S., Vikalo H. OnlineCall: fast online parameter estimation and base calling for illumina's next-generation sequencing // Bioinformatics. 2012. vol. 28. no. 13. pp. 1677–1683.
  13. Ji Y., Mitra R., Quintana F., Jara A., Mueller P., Liu P., Lu Y., Liang S. BM-BC: a Bayesian method of base calling for Solexa sequence data // BMC Bioinformatics. 2012. vol. 13. p. S6.
  14. Shen X., Vikalo H. ParticleCall: A particle filter for base calling in next-generation sequencing systems // BMC Bioinformatics. 2012. vol. 13. p. 160.
  15. Menges F., Narzisi G., Mishra B. TotalReCaller: improved accuracy and performance via integrated alignment and base-calling // Bioinformatics. 2011. vol. 27. no. 17. pp. 2330-2337.
  16. Kao W.C., Song Y.S. naiveBayesCall: an efficient model-based base-calling algorithm for high-throughput sequencing // J Comput Biol. 2011. vol.18. no. 3. pp. 365-377.
  17. Corrada-Bravo H., Irizarry R.A. Model-based quality assessment and base-calling for second-generation sequencing data // Biometrics. 2009. vol. 3. pp. 665–674.
  18. Kao W.C., Stevens K., Song Y.S. BayesCall: a model-based basecalling algorithm for high-throughput short-read sequencing // Genome Res. 2009. vol. 19. pp. 1884–1895.
  19. Kircher M., Stenzel U., Kelso J. Improved base calling for the Illumina Genome analyzer using machine learning strategies // Genome Biol. 2009. vol. 10. pp. R83.1–.9.
  20. Rougemont J., Amzallag A., Iseli C. Probabilistic base calling of Solexa sequencing data // BMC Bioinformatics. 2008. vol. 9. p. 431.
  21. Erlich Y., Mitra P.P., Delabastide M., et al. Alta-cyclic: a self-optimizing base caller for next-generation sequencing // Nat Methods. 2008. vol. 5. pp. 679–682.
  22. Зубов В. В., Чемерис Д. А., Василов Р. Г., Курочкин В. Е., Алексеев Я. И. Краткая история методов высокопроизводительного секвенирования нуклеиновых кислот // Биомика. 2021. т. 13. № 1. С. 27-46.
  23. Cacho A. Base-Calling of High-Throughput Sequencing Data Using a Random Effects Mixture Model // UC Riverside. 2016. 91 p.
  24. Li L., Speed T. An estimate of the crosstalk matrix in four-dye fluorescence-based DNA sequencing // Electrophoresis. 1999. vol. 20. pp. 1433–1442.
  25. Ghannam R., Techtmann S. Machine learning applications in microbial ecology, human microbiome studies, and environmental monitoring // Computational and Structural Biotechnology Journal. 2021. vol. 19. pp. 1092-1107.
  26. Hastie T, Tibshirani R, Friedman J. The elements of statistical learning: data mining, inference, and prediction // Springer Science & Business Media. 2009. 745 p.
  27. Forgy E.W. Cluster analysis of multivariate data: efficiency versus interpretability of classifications // Biometrics. 1965. vol. 21. pp. 768–769.
  28. Mohammadi S.A., Prasanna B.M. Review and Interpretation Analysis of Genetic Diversity in Crop Plants —Salient Statistical Tools // Crop Science. 2003. vol. 43. pp. 1235-1248.
  29. Jackson J.E. A User’s Guide to Principal Components // John Wiley & Sons. 1991.
  30. Van der Maaten L., Hinton G. Visualizing Data using t-SNE // Journal of Machine Learning Research. 2008. vol. 9. pp. 2579-2605.
  31. Breiman L. Random forests // Machine Learn. 2001. vol. 45. no. 1. pp. 5–32.
  32. Suykens J.A., Vandewalle J. Least squares support vector machine classifiers // Neural Process Letters. 2004. vol. 9. no. 3. pp. 293–300.
  33. Tolles J, Meurer W.J. Logistic Regression: Relating Patient Characteristics to Outcomes // JAMA. 2016. vol. 316. no. 5. pp. 533-534.
  34. Hoerl A.E., Kennard R.W. Ridge regression: biased estimation for nonorthogonal problems // Technometrics. 1970. vol. 12. no. 1. pp. 55–67.
  35. LeCun Y., Bengio Y., Hinton G. Deep learning // Nature. 2015. vol. 521. pp. 436–444.
  36. About us — scikit-learn 0.20.1 documentation. URL: https://scikit-learn.org. (дата обращения 18.03.2022).
  37. Tegfalk E. Application of machine learning techniques to perform base-calling in next-generation DNA sequencing // KTH, SCI. 2020.
  38. Wickham H., Stryjewski L. 40 years of boxplots. URL: https://vita.had.co.nz/papers/boxplots.pdf. (дата обращения 23.03.2022).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).