Алгоритмы первичного анализа локальных объектов флуоресценции в секвенаторе ДНК «Нанофор СПС»

Обложка

Цитировать

Полный текст

Аннотация

В секвенаторе ДНК «Нанофор СПС», разработанном в Институте аналитического приборостроения РАН, реализован метод массового параллельного секвенирования для расшифровки последовательности нуклеиновых кислот. Этот метод позволяет определять последовательность нуклеотидов в ДНК или РНК, содержащих от нескольких сотен до сотен миллионов звеньев мономеров. Таким образом, имеется возможность получения подробной информации о геноме различных биологических объектов, в том числе человека, животных и растений. Важнейшей частью этого прибора является программное обеспечение, без которого невозможно решение задач по расшифровке генома. Выходными данными оптической детекции в секвенаторе являются набор изображений по четырем каналам, соответствующим типам нуклеотидов: A, C, G, T. С помощью специального программного обеспечения определяется положение молекулярных кластеров и их интенсивностные характеристики вместе с параметрами окружающего фона. В ходе создания программного обеспечения прибора были разработаны алгоритмы и программы обработки сигналов флуоресценции, рассмотренные в работе. Также, для отладки и тестирования рабочих программ созданы модели построения изображений, аналогичных реальным данным, получаемым в ходе работы секвенатора. Данные модели позволили получить значительный массив информации без запуска дорогостоящих экспериментов. За последние годы достигнуты значительные успехи в области машинного обучения, в том числе и в области биоинформатики, что привело к реализации наиболее распространенных моделей и возможности их применения для практических задач. Однако, если на этапе вторичного анализа биоинформационных данных эти методы широко зарекомендовали себя, то их потенциал для первичного анализа остается недостаточно раскрытым. В данной работе особое внимание уделяется разработке и внедрению методов машинного обучения для первичного анализа оптических изображений сигналов флуоресценции в реакционных ячейках. Описаны методы кластеризации и их апробация на моделях и на изображениях, полученных на приборе. Цель этой статьи – продемонстрировать возможности алгоритмов первичного анализа сигналов флуоресценции, получающихся в процессе секвенирования на приборе «Нанофор СПС». В работе описаны основные задачи анализа сигналов флуоресценции и сравниваются традиционные методы их решения с использованием технологий машинного обучения.

Об авторах

В. В Манойлов

ИАП РАН

Email: manoilov-vv@mail.ru
ул. Ивана Черных 31-33А

А. Г Бородинов

ИАП РАН

Email: borodinov@gmail.com
ул. Ивана Черных 31-33А

И. В Заруцкий

ИАП РАН

Email: igorzv@yandex.ru
ул. Ивана Черных 31-33А

А. И Петров

ИАП РАН

Email: fataip@mail.ru
ул. Ивана Черных 31-33А

А. С Сараев

ИАП РАН

Email: alex.niispb@yandex.ru
ул. Ивана Черных 31-33А

В. Е Курочкин

ИАП РАН

Email: lavrovas@yandex.ru
ул. Ивана Черных 31-33А

Список литературы

  1. Курочкин В.Е., Алексеев Я.И., Петров Д.Г., Евстрапов А.А. Отечественные приборы для молекулярно-генетического анализа: разработки ИАП РАН и ООО «Синтол» // Известия Российской Военно-медицинской академии. 2021. Т. 40 № 3. С. 69–74. doi: 10.17816/rmmar76918.
  2. Ansorge W.J. Next-generation DNA sequencing techniques // Nature Biotechnology. 2009. vol. 25. no. 4. pp. 195–203.
  3. Bentley R.D. Balasubramanian S., Swerdlow H.P., Smith G.P., Milton J., Brown C.G., et al. Accurate whole human genome sequencing using reversible terminator chemistry // Nature. 2008. vol. 456. no. 7216. pp. 53–59.
  4. Whiteford N. The Solexa pipeline. 2012. URL: http//41j.com/blog/wp-content/uploads/2012/04/pipeline.pdf (дата обращения: 20.02.2024).
  5. Leshkowitz D. Introduction to Deep-Sequencing Data Analysis Illumina Primary Analysis Pipeline & Quality Control. 2017. URL: http://dors.weizmann.ac.il/course/course2017/Dena_IlluminaPrimaryAnalysisPipeline-course2017.pdf (дата обращения: 20.02.2024).
  6. Манойлов В.В., Бородинов А.Г., Сараев А.С., Петров А.И., Заруцкий И.В., Курочкин В.Е. Алгоритмы обработки изображений в секвенаторе ДНК НАНОФОР СПС // Журнал технической физики. 2022. Т. 92. № 7. С. 985–992. doi: 10.21883/JTF.2022.07.52655.318-21.
  7. Манойлов В.В., Бородинов А.Г., Заруцкий И.В., Петров А.И., Курочкин В.Е. Алгоритмы обработки сигналов флуоресценции массового параллельного секвенирования нуклеиновых кислот // Труды СПИИРАН. 2019. Т. 18. № 4. С. 1010–1036. doi: 10.15622/sp.2019.18.4.1010-1036.
  8. Бородинов А.Г., Манойлов В.В., Заруцкий И.В., Петров А.И., Курочкин В.Е., Сараев А.С. Машинное обучение в задачах base-calling для методов секвенирования нового поколения // Информатика и автоматизация. 2022. Т. 21. № 3. С. 572–603. doi: 10.15622/ia.21.3.5.
  9. Журавель И.М. Краткий курс теории обработки изображений. URL: http://matlab.exponenta.ru/imageprocess/book2/49.php (дата обращения: 26.10.2023).
  10. Вудс Р., Гонсалес Р. Цифровая обработка изображений / 3-е изд. // М.: Техносфера. 2012. 1104 с.
  11. Sizikov V.S. Spectral method for estimating the point-spread function in the task of eliminating image distortions // Journal of Optical Technology. 2017. vol. 84. no. 2. pp. 95–101.
  12. Sizikov V.S., Stepanov A.V., Mezhenin A.V., Burlov D.I., Eksemplyarov R.A. Determining image-distortion parameters by spectral means when processing pictures of the earth’s surface obtained from satellites and aircraft // Journal of Optical Technology. 2018. vol. 85. no. 4. pp. 203–110.
  13. Бардин Б.В., Чубинский-Надеждин И.В. Обнаружение локальных объектов на цифровых микроскопических изображениях // Научное приборостроение. 2009. Т. 19. № 4. C. 96–102.
  14. Otsu N. A Threshold Selection Method from Gray-Level Histograms // IEEE Transactions on Systems. IEEE Transactions on Systems, Man and Cybernetics. 1979. vol. 9. pp. 62–66. doi: 10.1109/TSMC.1979.4310076.
  15. Сараев А.С., Петров А.И., Манойлов В.В. Моделирование генерации кластеров молекул ДНК в приборах массового параллельного секвенирования // Тезисы докладов Четвертой международной конференции со школой молодых ученых «Физика – наукам о жизни» / СПб: ФТИ им. А.Ф. Иоффе. 2021. С. 153.
  16. Сараев А.С. Научно-квалификационная работа «Разработка алгоритма распознавания кластеров нуклеиновых кислот в микрофлюидной ячейке секвенатора «Нанофор СПС». СПб: ИАП РАН. 2023. C. 16–22.
  17. Schmidt B., Hildebrandt A. Deep learning in next-generation sequencing // Drug discovery today. 2021. vol. 26. no. 1. pp. 173–180.
  18. Ozgur S., Orman M. Application of deep learning technique in next generation sequence experiments // Journal of Big Data. 2023. vol. 10. no. 1. doi: 10.1186/s40537-023-00838-w.
  19. Tegfalk E. Application of machine learning techniques to perform base-calling in next-generation DNA sequencing. 2020. 45 p.
  20. Cacho A., Smirnova E., Huzurbazar S., Cui X. A comparison of base-calling algorithms for illumina sequencing technology // Briefings in bioinformatics. 2016. vol. 17. no. 5. pp. 786–795.
  21. Kircher M., Stenzel U., Kelso J. Improved base calling for the Illumina Genome Analyzer using machine learning strategies // Genome biology. 2009. vol. 10(8). doi: 10.1186/gb-2009-10-8-r83.
  22. Ghojogh B., Crowley M. The theory behind overfitting, cross validation, regularization, bagging, and boosting: tutorial // arXiv preprint arXiv:1905.12787. 2019.
  23. Бородинов А.Г., Ямановская А.Ю., Манойлов В.В., Петров А.И. Оптимальный выбор признаков для уменьшения размерности моделей машинного обучения в задаче base-calling // Тезисы докладов Второй ежегодной всероссийской молодежной конференции по методам и приборам для анализа биологических объектов «АналитБиоПрибор-2023» (Санкт-Петербург, 23–24 ноября 2023 г.). Санкт-Петербург: Издательско-полиграфическая ассоциация высших учебных заведений, 2023. С. 135–138.
  24. Whiteford N., Skelly T., Curtis C., Ritchie M.E., Lohr, A., Zaranek A.W., Abnizova I., Brown C. Swift: primary data analysis for the Illumina Solexa sequencing platform // Bioinformatics. 2009. vol. 25. no. 17. pp. 2194–2199.
  25. Hafiz A.M., Bhat G.M. A survey on instance segmentation: state of the art // International journal of multimedia information retrieval. 2020. vol. 9. no. 3. pp. 171–189.
  26. Chaudhry M., Shafi I., Mahnoor M., Vargas D.L.R., Thompson E.B., Ashraf I.A. Systematic literature review on identifying patterns using unsupervised clustering algorithms: a Data mining perspective // Symmetry. 2023. vol. 15. no. 1679. doi: 10.3390/sym15091679.
  27. Khandare A., Pawar R. Data clustering algorithms: experimentation and comparison // Intelligent Computing and Networking: Proceedings of IC-ICN 2021. 2022. pp. 86–99.
  28. Sarang P. BIRCH: Divide and Conquer // Thinking Data Science: A Data Science Practitioner’s Guide. Cham: Springer International Publishing. 2023. pp. 229–236.
  29. Ester M., Kriegel H.P., Sander J., Xu X. A density-based algorithm for discovering clusters in large spatial databases with noise // kdd. 1996. vol. 96. no. 34. pp. 226–231.
  30. Zhao Y., Cao J., Zhang C., Zhang S. Enhancing grid-density based clustering for high dimensional data // Journal of Systems and Software. 2011. vol. 84. no. 9. pp. 1524–1539.
  31. Wolowski V.R. High-quality, high-throughput measurement of protein-DNA binding using HiTS-FLIP. Dissertation, LMU Munchen: Fakultat fur Chemie und Pharmazie 2016. doi: 10.5282/edoc.19445.
  32. Chityala R., Pudipeddi S. Image processing and acquisition using Python // Chapman and Hall/CRC. 2020. 452 p.
  33. Kameshwaran K., Malarvizhi K. Survey on clustering techniques in data mining // International Journal of Computer Science and Information Technologies. 2014. vol. 5. no. 2. pp. 2272–2276.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».