Машинное обучение в задачах base-calling для методов секвенирования нового поколения

Обложка

Цитировать

Полный текст

Аннотация

Развитие технологий секвенирования следующего поколения (NGS) внесло существенный вклад в тенденции снижения затрат и получения массивных данных секвенирования. В Институте аналитического приборостроения РАН разрабатывается аппаратно-программный комплекс (АПК) для расшифровки последовательности нуклеиновых кислот методом массового параллельного секвенирования (Нанофор СПС). Алгоритмы обработки изображений, входящие в состав АПК, играют существенную роль в решении задач расшифровки генома. Финальной частью такого предварительного анализа сырых данных является процесс base-calling. Base-calling — это процесс определения нуклеотидного основания, которое генерирует соответствующее значение интенсивности в каналах флуоресценции для различных длин волн на кадрах изображения проточной ячейки для различных циклов секвенирования методом синтеза. Приведен обширный анализ различных подходов к решению задач base-calling и сводка распространенных процедур, доступных для платформы Illumina. Рассмотрены различные химические процессы, включенные в технологию секвенирования методом синтеза, вызывающие смещения в значениях регистрируемых интенсивностей, включая эффекты фазирование / префазирование (phasing/prephasing), затухания сигнала (signal decay) и перекрестные помехи (cross-talk). Определена обобщённая модель, в рамках которой рассматриваются возможные реализации. Рассмотрены возможные подходы машинного обучения (machine learning) для создания и оценки моделей, реализующих этап обработки base-calling. Подходы ML принимают различные формы, включая обучение без учителя (unsupervised), обучение с ча-стичным привлечением учителя (semi-supervised), обучение с учителем (supervised). В работе показана возможность применения различных алгоритмов машинного обучения на основе платформы Scikit-learn. Отдельной важной задачей является оптимальное выделение признаков, выделенных в обнаруженных кластерах на проточной ячейке для машинного обучения. Наконец, на ряде данных секвенирования для приборов MiSeq Illumina и Нанофор СПС показана перспективность метода машинного обучения для решения задачи base-calling.

Об авторах

А. Г Бородинов

АО "Научные приборы"

Email: borodinov@gmail.com
улица Ивана Черных 31-33

В. В Манойлов

Институт аналитического приборостроения Российской академии наук (ИАП РАН)

Email: manoilov-vv@mail.ru
улица Ивана Черных 31-33

И. В Заруцкий

Институт аналитического приборостроения Российской академии наук (ИАП РАН)

Email: igorzv@yandex.ru
улица Ивана Черных 31-33

А. И Петров

Институт аналитического приборостроения Российской академии наук (ИАП РАН)

Email: fataip@mail.ru
улица Ивана Черных 31-33

В. Е Курочкин

Институт аналитического приборостроения Российской академии наук (ИАП РАН)

Email: lavrovas@yandex.ru
улица Ивана Черных 31-33

А. С Сараев

Институт аналитического приборостроения Российской академии наук (ИАП РАН)

Email: alex.niispb@yandex.ru
улица Ивана Черных 31-33

Список литературы

  1. Бородинов А. Г., Манойлов В. В., Заруцкий И. В., Петров А. И., Курочкин В. Е. Поколения методов секвенирования ДНК (ОБЗОР) // Научное приборостроение. 2020. т. 30. № 4. С. 3—20
  2. Wenxiu Ma, Wing Hung Wong The analysis of ChIP-Seq data // Methods Enzymol. 2011. vol. 497. pp. 51-73.
  3. Zhong Wang, Mark Gerstein, Michael Snyder RNA-Seq: a revolutionary tool for transcriptomics // Nat Rev Genet. 2009. vol.10. no. 1. pp. 57-63.
  4. Syed, F., Grunenwald, H. & Caruccio, N. Next-generation sequencing library preparation: simultaneous fragmentation and tagging using in vitro transposition // Nat Methods. 2009. vol. 6. pp. i–ii.
  5. Манойлов В. В., Бородинов А. Г., Заруцкий И. В., Петров А. И., Курочкин В. Е. Алгоритмы обработки сигналов флуоресценции массового параллельного секвенирования нуклеиновых кислот // Труды СПИИРАН. 2019. т. 18. № 4. С. 1010–1036.
  6. Schilbert H.M., Rempel A., Pucker B. Comparison of Read Mapping and Variant Calling Tools for the Analysis of Plant NGS Data // Plants. 2020. vol. 9. p. 439.
  7. Ye C., Hsiao C., Corrada-Bravo H. BlindCall: ultra-fast base-calling of high-throughput sequencing data by blind deconvolution // Bioinform. 2014. vol. 30. no. 9. pp. 1214–1219.
  8. Wang B, Wan L, Wang A, Li L.M. An adaptive decorrelation method removes Illumina DNA base-calling errors caused by crosstalk between adjacent clusters // Sci Rep. 2017. vol. 7.
  9. Renaud G., Kircher M., Stenzel U., Kelso J. FreeIbis: an efficient basecaller with calibrated quality scores for Illumina sequencers // Bioinformatics. 2013. vol. 29. pp. 1208–1209.
  10. Das S., Vikalo H. Base calling for high-throughput short-read sequencing: dynamic programming solutions // BMC Bioinformatics. 2013. vol. 14. p. 129.
  11. Massingham T., Goldman N. All your base: a fast and accurate probabilistic approach to base calling // Genome Biol. 2012. vol. 13. p. R13.
  12. Das S., Vikalo H. OnlineCall: fast online parameter estimation and base calling for illumina's next-generation sequencing // Bioinformatics. 2012. vol. 28. no. 13. pp. 1677–1683.
  13. Ji Y., Mitra R., Quintana F., Jara A., Mueller P., Liu P., Lu Y., Liang S. BM-BC: a Bayesian method of base calling for Solexa sequence data // BMC Bioinformatics. 2012. vol. 13. p. S6.
  14. Shen X., Vikalo H. ParticleCall: A particle filter for base calling in next-generation sequencing systems // BMC Bioinformatics. 2012. vol. 13. p. 160.
  15. Menges F., Narzisi G., Mishra B. TotalReCaller: improved accuracy and performance via integrated alignment and base-calling // Bioinformatics. 2011. vol. 27. no. 17. pp. 2330-2337.
  16. Kao W.C., Song Y.S. naiveBayesCall: an efficient model-based base-calling algorithm for high-throughput sequencing // J Comput Biol. 2011. vol.18. no. 3. pp. 365-377.
  17. Corrada-Bravo H., Irizarry R.A. Model-based quality assessment and base-calling for second-generation sequencing data // Biometrics. 2009. vol. 3. pp. 665–674.
  18. Kao W.C., Stevens K., Song Y.S. BayesCall: a model-based basecalling algorithm for high-throughput short-read sequencing // Genome Res. 2009. vol. 19. pp. 1884–1895.
  19. Kircher M., Stenzel U., Kelso J. Improved base calling for the Illumina Genome analyzer using machine learning strategies // Genome Biol. 2009. vol. 10. pp. R83.1–.9.
  20. Rougemont J., Amzallag A., Iseli C. Probabilistic base calling of Solexa sequencing data // BMC Bioinformatics. 2008. vol. 9. p. 431.
  21. Erlich Y., Mitra P.P., Delabastide M., et al. Alta-cyclic: a self-optimizing base caller for next-generation sequencing // Nat Methods. 2008. vol. 5. pp. 679–682.
  22. Зубов В. В., Чемерис Д. А., Василов Р. Г., Курочкин В. Е., Алексеев Я. И. Краткая история методов высокопроизводительного секвенирования нуклеиновых кислот // Биомика. 2021. т. 13. № 1. С. 27-46.
  23. Cacho A. Base-Calling of High-Throughput Sequencing Data Using a Random Effects Mixture Model // UC Riverside. 2016. 91 p.
  24. Li L., Speed T. An estimate of the crosstalk matrix in four-dye fluorescence-based DNA sequencing // Electrophoresis. 1999. vol. 20. pp. 1433–1442.
  25. Ghannam R., Techtmann S. Machine learning applications in microbial ecology, human microbiome studies, and environmental monitoring // Computational and Structural Biotechnology Journal. 2021. vol. 19. pp. 1092-1107.
  26. Hastie T, Tibshirani R, Friedman J. The elements of statistical learning: data mining, inference, and prediction // Springer Science & Business Media. 2009. 745 p.
  27. Forgy E.W. Cluster analysis of multivariate data: efficiency versus interpretability of classifications // Biometrics. 1965. vol. 21. pp. 768–769.
  28. Mohammadi S.A., Prasanna B.M. Review and Interpretation Analysis of Genetic Diversity in Crop Plants —Salient Statistical Tools // Crop Science. 2003. vol. 43. pp. 1235-1248.
  29. Jackson J.E. A User’s Guide to Principal Components // John Wiley & Sons. 1991.
  30. Van der Maaten L., Hinton G. Visualizing Data using t-SNE // Journal of Machine Learning Research. 2008. vol. 9. pp. 2579-2605.
  31. Breiman L. Random forests // Machine Learn. 2001. vol. 45. no. 1. pp. 5–32.
  32. Suykens J.A., Vandewalle J. Least squares support vector machine classifiers // Neural Process Letters. 2004. vol. 9. no. 3. pp. 293–300.
  33. Tolles J, Meurer W.J. Logistic Regression: Relating Patient Characteristics to Outcomes // JAMA. 2016. vol. 316. no. 5. pp. 533-534.
  34. Hoerl A.E., Kennard R.W. Ridge regression: biased estimation for nonorthogonal problems // Technometrics. 1970. vol. 12. no. 1. pp. 55–67.
  35. LeCun Y., Bengio Y., Hinton G. Deep learning // Nature. 2015. vol. 521. pp. 436–444.
  36. About us — scikit-learn 0.20.1 documentation. URL: https://scikit-learn.org. (дата обращения 18.03.2022).
  37. Tegfalk E. Application of machine learning techniques to perform base-calling in next-generation DNA sequencing // KTH, SCI. 2020.
  38. Wickham H., Stryjewski L. 40 years of boxplots. URL: https://vita.had.co.nz/papers/boxplots.pdf. (дата обращения 23.03.2022).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».