Recognition of genome special regions by machine learning methods

Cover Page

Cite item

Full Text

Abstract

The article studies the recognition of special structural segments of genomes called promoters. To solve the problem of promoter recognition machine learning methods based on logical analysis and data classification were used for the first time. These methods are based on searching for informative fragments in feature descriptions of precedents and are focused on processing low-value integer information. The fragments found are well interpretable and allow distinguishing promoters from other regions of the genome. However, their search is time-consuming. The results of experiments on an unbalanced sample of a large volume are presented, considering both the traditional method of feature formation using k-meres and the method of direct application of the logical classifier to the original data. It is shown that in the second case, the quality of logical classification is significantly higher and amounts to 94.3% according to ROC-AUC using the ensemble approach. The best result, namely, an ROC-AUC accuracy of 95.1%, was shown by the CatBoost classifier when directly applied to the original sample. With the traditional method of feature generation, the accuracy of CatBoost is 94.8%.

About the authors

Anastasia P. Djukova

Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences

Author for correspondence.
Email: anastasia.d.95@gmail.com

Postgraduate student

Russian Federation, Moscow

Elena V. Djukova

Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences

Email: edjukova@mail.ru

Doctor of Science in physics and mathematics, Chief researcher

Russian Federation, Moscow

References

  1. Anwar F., Baker S. M., Jabid T., Mehedi Hasan M., Shoyaib M., Khan H., Walshe R. Pol II promoter prediction using characteristic 4-mer motifs: a machine learning approach // BMC Bioinformatics. 2008. V. 9. P.414.
  2. Huang W. L., Tung C. W., Liaw C., Huang H. L., Ho S. Y. Rule-based knowledge acquisition method for promoter prediction in human and Drosophila species // TheScientificWorldJournal. 2014. V. 2014. P. 327306.
  3. Umarov R., Solovyev V. Recognition of prokaryotic and eukaryotic promoters using convolutional deep learning neural networks // Plos One. 2017. V. 12 (2). e0171410.
  4. Zhang M., Jia C., Li F., Li C., Zhu Y., Akutsu T., Webb G. I., Zou Q., Coin L. J. M., Song J. Critical assessment of computational tools for prokaryotic and eukaryotic promoter prediction // Briefings in bioinformatics. 2022. V. 23 (2). bbab551.
  5. Zhu Y., Li F., Xiang D., Akutsu T., Song J., Jia C. Computational identification of eukaryotic promoters based on cascaded deep capsule neural networks // Briefings in bioinformatics. 2021. V. 22 (4), bbaa299.
  6. Bishop C. M. Pattern Recognition and Machine Learning // Springer, Series: Information Sience and Statistics, 2006. P. 740.
  7. Breiman L., Random Forests // Machine Learning. 2001. V. 45. P. 5–32.
  8. Friedman J., Stochastic Gradient Boosting // Computational Statistics & Data Analysis. 2002.V. 38. P. 367–378.
  9. Chen T., Guestrin C., XGBoost: A Scalable Tree Boosting System. Shah, Mohak; Smola, Alexander J.; Aggarwal, Charu C.; Shen, Dou; Rastogi, Rajeev (eds.) // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Krishnapuram, Balaji. 2016. ACM. P. 785–794.
  10. Ke G., Meng Q., Finley T., Wang T., Chen W., Ma W., Ye Q., Liu T.-Y. LightGBM: A Highly Efficient Gradient Boosting Decision Tree // Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017. P. 3149–3157.
  11. Hancock J.T., Khoshgoftaar T.M. CatBoost for big data: an interdisciplinary review // Journal of Big Data. 2020. V. 7. P. 94.
  12. Dragunov N., Djukova E., Djukova А. Supervised classification and finding frequent elements in data // 8th Conference (International) on Information Technology and Nanotechnology Proceedings. NJ: IEEE. 2022. P. 5.
  13. Dragunov N. A., Djukova E. V., Djukova. А. P. Logicheskaya klassifikaciya na osnove poiska pravil'nyh predstavitel'nyh elementarnyh klassifikatorov [Logical classification based on searching for the correct representative elementary classifiers] // Izvestiya RAN. Teoriya i sistemy upravleniya [Journal of Computer and Systems Sciences International]. 2024. № 3 (in press).
  14. Baskakova L. V., Zhuravlev Yu. I. Model` raspoznayushhix algoritmov s predstavitel`ny`mi naborami i sistemami oporny`x mnozhestv [Model of Recognition Algorithms with Representative Sampls and Systems of Supporting Sets] // Zhurnal Vychislitel’noi Matematiki i Matematicheskoi Fiziki [Computational Mathematics and Mathematical Physics]. 1981. Vol. 21. Issue 5. P. 189–199.
  15. Djukova, E. V., Maslyakov G. O., Djukova. А. P. Logicheskie metody korrektnoj klassifikacii dannyh [Logical methods of correct data classification] // Informatika i eyo primeneniya [Informatics and Applications]. 2023. Vol. 17. Issue. 3. С. 64–70.
  16. Djukova, E. V., Maslyakov G. O., Prokofyev P. A. O logicheskom analize dannyh s chastichnymi poryadkami v zadache klassifikacii po precedentam [On the Logical Analysis of Partially Ordered Data in the Supervised Classification Problem] // Zhurnal Vychislitel’noi Matematiki i Matematicheskoi Fiziki [Computational Mathematics and Mathematical Physics]. 2019. Vol. 59. Issue 9. P. 1542–1552.
  17. Dyukova E. V., Peskov N. V. Poisk informativnyh fragmentov opisanij ob"ektov v diskretnyh procedurah raspoznavaniya [Search for Informative Fragments of Object Descriptions in Discrete Recognition Procedures] // Zhurnal Vychislitel’noi Matematiki i Matematicheskoi Fiziki [Computational Mathematics and Mathematical Physics]. 2002. Vol. 42. Issue 5. P. 711–723.
  18. Zhuravlev Yu. I., Ryazanov V. V., Senko O. V. Raspjznavanie. Matematicheskie metody. Programmnaya sistema. Prakticheskie primeneniya [Recognition. Mathematical methods. The software system. Practical applications] // PHASIS, Moscow, 2006. P.159 [in Russian].
  19. Dyukova E. V., Sizov A. V., Sotnezov R. M. Ob optimal'nom korrektnom perekodirovanii celochislennyh dannyh v raspoznavanii [On the optimal correct recoding of integer data in recognition] // Informatika i eyo primeneniya [Informatics and Applications]. 2012. Vol. 6. Issue. 4. С. 61–65.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».