Машинное обучение в задачах base-calling для методов секвенирования нового поколения
- Авторы: Бородинов А.Г1, Манойлов В.В2, Заруцкий И.В2, Петров А.И2, Курочкин В.Е2, Сараев А.С2
-
Учреждения:
- АО "Научные приборы"
- Институт аналитического приборостроения Российской академии наук (ИАП РАН)
- Выпуск: Том 21, № 3 (2022)
- Страницы: 572-603
- Раздел: Искусственный интеллект, инженерия данных и знаний
- URL: https://journal-vniispk.ru/2713-3192/article/view/266353
- DOI: https://doi.org/10.15622/ia.21.3.5
- ID: 266353
Цитировать
Полный текст
Аннотация
Ключевые слова
Об авторах
А. Г Бородинов
АО "Научные приборы"
Email: borodinov@gmail.com
улица Ивана Черных 31-33
В. В Манойлов
Институт аналитического приборостроения Российской академии наук (ИАП РАН)
Email: manoilov-vv@mail.ru
улица Ивана Черных 31-33
И. В Заруцкий
Институт аналитического приборостроения Российской академии наук (ИАП РАН)
Email: igorzv@yandex.ru
улица Ивана Черных 31-33
А. И Петров
Институт аналитического приборостроения Российской академии наук (ИАП РАН)
Email: fataip@mail.ru
улица Ивана Черных 31-33
В. Е Курочкин
Институт аналитического приборостроения Российской академии наук (ИАП РАН)
Email: lavrovas@yandex.ru
улица Ивана Черных 31-33
А. С Сараев
Институт аналитического приборостроения Российской академии наук (ИАП РАН)
Email: alex.niispb@yandex.ru
улица Ивана Черных 31-33
Список литературы
- Бородинов А. Г., Манойлов В. В., Заруцкий И. В., Петров А. И., Курочкин В. Е. Поколения методов секвенирования ДНК (ОБЗОР) // Научное приборостроение. 2020. т. 30. № 4. С. 3—20
- Wenxiu Ma, Wing Hung Wong The analysis of ChIP-Seq data // Methods Enzymol. 2011. vol. 497. pp. 51-73.
- Zhong Wang, Mark Gerstein, Michael Snyder RNA-Seq: a revolutionary tool for transcriptomics // Nat Rev Genet. 2009. vol.10. no. 1. pp. 57-63.
- Syed, F., Grunenwald, H. & Caruccio, N. Next-generation sequencing library preparation: simultaneous fragmentation and tagging using in vitro transposition // Nat Methods. 2009. vol. 6. pp. i–ii.
- Манойлов В. В., Бородинов А. Г., Заруцкий И. В., Петров А. И., Курочкин В. Е. Алгоритмы обработки сигналов флуоресценции массового параллельного секвенирования нуклеиновых кислот // Труды СПИИРАН. 2019. т. 18. № 4. С. 1010–1036.
- Schilbert H.M., Rempel A., Pucker B. Comparison of Read Mapping and Variant Calling Tools for the Analysis of Plant NGS Data // Plants. 2020. vol. 9. p. 439.
- Ye C., Hsiao C., Corrada-Bravo H. BlindCall: ultra-fast base-calling of high-throughput sequencing data by blind deconvolution // Bioinform. 2014. vol. 30. no. 9. pp. 1214–1219.
- Wang B, Wan L, Wang A, Li L.M. An adaptive decorrelation method removes Illumina DNA base-calling errors caused by crosstalk between adjacent clusters // Sci Rep. 2017. vol. 7.
- Renaud G., Kircher M., Stenzel U., Kelso J. FreeIbis: an efficient basecaller with calibrated quality scores for Illumina sequencers // Bioinformatics. 2013. vol. 29. pp. 1208–1209.
- Das S., Vikalo H. Base calling for high-throughput short-read sequencing: dynamic programming solutions // BMC Bioinformatics. 2013. vol. 14. p. 129.
- Massingham T., Goldman N. All your base: a fast and accurate probabilistic approach to base calling // Genome Biol. 2012. vol. 13. p. R13.
- Das S., Vikalo H. OnlineCall: fast online parameter estimation and base calling for illumina's next-generation sequencing // Bioinformatics. 2012. vol. 28. no. 13. pp. 1677–1683.
- Ji Y., Mitra R., Quintana F., Jara A., Mueller P., Liu P., Lu Y., Liang S. BM-BC: a Bayesian method of base calling for Solexa sequence data // BMC Bioinformatics. 2012. vol. 13. p. S6.
- Shen X., Vikalo H. ParticleCall: A particle filter for base calling in next-generation sequencing systems // BMC Bioinformatics. 2012. vol. 13. p. 160.
- Menges F., Narzisi G., Mishra B. TotalReCaller: improved accuracy and performance via integrated alignment and base-calling // Bioinformatics. 2011. vol. 27. no. 17. pp. 2330-2337.
- Kao W.C., Song Y.S. naiveBayesCall: an efficient model-based base-calling algorithm for high-throughput sequencing // J Comput Biol. 2011. vol.18. no. 3. pp. 365-377.
- Corrada-Bravo H., Irizarry R.A. Model-based quality assessment and base-calling for second-generation sequencing data // Biometrics. 2009. vol. 3. pp. 665–674.
- Kao W.C., Stevens K., Song Y.S. BayesCall: a model-based basecalling algorithm for high-throughput short-read sequencing // Genome Res. 2009. vol. 19. pp. 1884–1895.
- Kircher M., Stenzel U., Kelso J. Improved base calling for the Illumina Genome analyzer using machine learning strategies // Genome Biol. 2009. vol. 10. pp. R83.1–.9.
- Rougemont J., Amzallag A., Iseli C. Probabilistic base calling of Solexa sequencing data // BMC Bioinformatics. 2008. vol. 9. p. 431.
- Erlich Y., Mitra P.P., Delabastide M., et al. Alta-cyclic: a self-optimizing base caller for next-generation sequencing // Nat Methods. 2008. vol. 5. pp. 679–682.
- Зубов В. В., Чемерис Д. А., Василов Р. Г., Курочкин В. Е., Алексеев Я. И. Краткая история методов высокопроизводительного секвенирования нуклеиновых кислот // Биомика. 2021. т. 13. № 1. С. 27-46.
- Cacho A. Base-Calling of High-Throughput Sequencing Data Using a Random Effects Mixture Model // UC Riverside. 2016. 91 p.
- Li L., Speed T. An estimate of the crosstalk matrix in four-dye fluorescence-based DNA sequencing // Electrophoresis. 1999. vol. 20. pp. 1433–1442.
- Ghannam R., Techtmann S. Machine learning applications in microbial ecology, human microbiome studies, and environmental monitoring // Computational and Structural Biotechnology Journal. 2021. vol. 19. pp. 1092-1107.
- Hastie T, Tibshirani R, Friedman J. The elements of statistical learning: data mining, inference, and prediction // Springer Science & Business Media. 2009. 745 p.
- Forgy E.W. Cluster analysis of multivariate data: efficiency versus interpretability of classifications // Biometrics. 1965. vol. 21. pp. 768–769.
- Mohammadi S.A., Prasanna B.M. Review and Interpretation Analysis of Genetic Diversity in Crop Plants —Salient Statistical Tools // Crop Science. 2003. vol. 43. pp. 1235-1248.
- Jackson J.E. A User’s Guide to Principal Components // John Wiley & Sons. 1991.
- Van der Maaten L., Hinton G. Visualizing Data using t-SNE // Journal of Machine Learning Research. 2008. vol. 9. pp. 2579-2605.
- Breiman L. Random forests // Machine Learn. 2001. vol. 45. no. 1. pp. 5–32.
- Suykens J.A., Vandewalle J. Least squares support vector machine classifiers // Neural Process Letters. 2004. vol. 9. no. 3. pp. 293–300.
- Tolles J, Meurer W.J. Logistic Regression: Relating Patient Characteristics to Outcomes // JAMA. 2016. vol. 316. no. 5. pp. 533-534.
- Hoerl A.E., Kennard R.W. Ridge regression: biased estimation for nonorthogonal problems // Technometrics. 1970. vol. 12. no. 1. pp. 55–67.
- LeCun Y., Bengio Y., Hinton G. Deep learning // Nature. 2015. vol. 521. pp. 436–444.
- About us — scikit-learn 0.20.1 documentation. URL: https://scikit-learn.org. (дата обращения 18.03.2022).
- Tegfalk E. Application of machine learning techniques to perform base-calling in next-generation DNA sequencing // KTH, SCI. 2020.
- Wickham H., Stryjewski L. 40 years of boxplots. URL: https://vita.had.co.nz/papers/boxplots.pdf. (дата обращения 23.03.2022).
Дополнительные файлы
