Recognition of genome special regions by machine learning methods

Anastasia P. Djukova; Дюкова Анастасия Петровна; Elena V. Djukova; Дюкова Елена Всеволодовна

doi:10.14357/20718594240404

Распознавание особых участков генома методами машинного обучения

Авторы: Дюкова А.П.¹, Дюкова Е.В.¹
Учреждения:
1. Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Выпуск: № 4 (2024)
Страницы: 45-54
Раздел: Вычислительный интеллект
URL: https://journal-vniispk.ru/2071-8594/article/view/278195
DOI: https://doi.org/10.14357/20718594240404
EDN: https://elibrary.ru/WMCQXO
ID: 278195

Цитировать

Аннотация

В статье изучаются вопросы распознавания особых структурных сегментов геномов, называемых промотерами. Для решения задачи распознавания промотера впервые применены методы машинного обучения, основанные на логическом анализе и классификации данных. Эти методы базируются на поиске информативных фрагментов в признаковых описаниях прецедентов и ориентированы на обработку целочисленной информации низкой значности. Искомые фрагменты хорошо интерпретируемы и позволяют отличать промотеры от других областей генома, однако их поиск требует больших временных затрат. Приведены результаты экспериментов на несбалансированной выборке большого объема, при этом рассмотрен как традиционный способ формирования признаков, использующий k-меры, так и методика прямого применения классификатора к исходным данным. Показано, что во втором случае качество логической классификации существенно выше и составляет 94,3% по ROC-AUC с использованием ансамблевого подхода. Наилучший результат, а именно, точность по ROC-AUC равную 95,1%, показал классификатор Catboost при прямом применении к исходной выборке. При традиционном способе формирования признаков точность Catboost равна 94,8%.

Ключевые слова

распознавание промотера, машинное обучение, классификация по прецедентам, логический классификатор, логический анализ и классификация данных, ансамбль классификаторов, k-мера, модельный организм, дрозофила фруктовая

Об авторах

Анастасия Петровна Дюкова

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Автор, ответственный за переписку.
Email: anastasia.d.95@gmail.com

Аспирант

Россия, Москва

Елена Всеволодовна Дюкова

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Email: edjukova@mail.ru

Доктор физико-математических наук, главный научный сотрудник

Россия, Москва

Список литературы

Anwar F., Baker S. M., Jabid T., Mehedi Hasan M., Shoyaib M., Khan H., Walshe R. Pol II promoter prediction using characteristic 4-mer motifs: a machine learning approach // BMC Bioinformatics. 2008. V. 9. P.414.
Huang W. L., Tung C. W., Liaw C., Huang H. L., Ho S. Y. Rule-based knowledge acquisition method for promoter prediction in human and Drosophila species // TheScientificWorldJournal. 2014. V. 2014. P. 327306.
Umarov R., Solovyev V. Recognition of prokaryotic and eukaryotic promoters using convolutional deep learning neural networks // Plos One. 2017. V. 12 (2). e0171410.
Zhang M., Jia C., Li F., Li C., Zhu Y., Akutsu T., Webb G. I., Zou Q., Coin L. J. M., Song J. Critical assessment of computational tools for prokaryotic and eukaryotic promoter prediction // Briefings in bioinformatics. 2022. V. 23 (2). bbab551.
Zhu Y., Li F., Xiang D., Akutsu T., Song J., Jia C. Computational identification of eukaryotic promoters based on cascaded deep capsule neural networks // Briefings in bioinformatics. 2021. V. 22 (4), bbaa299.
Bishop C. M. Pattern Recognition and Machine Learning // Springer, Series: Information Sience and Statistics, 2006. P. 740.
Breiman L., Random Forests // Machine Learning. 2001. V. 45. P. 5–32.
Friedman J., Stochastic Gradient Boosting // Computational Statistics & Data Analysis. 2002.V. 38. P. 367–378.
Chen T., Guestrin C., XGBoost: A Scalable Tree Boosting System. Shah, Mohak; Smola, Alexander J.; Aggarwal, Charu C.; Shen, Dou; Rastogi, Rajeev (eds.) // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Krishnapuram, Balaji. 2016. ACM. P. 785–794.
Ke G., Meng Q., Finley T., Wang T., Chen W., Ma W., Ye Q., Liu T.-Y. LightGBM: A Highly Efficient Gradient Boosting Decision Tree // Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017. P. 3149–3157.
Hancock J.T., Khoshgoftaar T.M. CatBoost for big data: an interdisciplinary review // Journal of Big Data. 2020. V. 7. P. 94.
Dragunov N., Djukova E., Djukova А. Supervised classification and finding frequent elements in data // 8th Conference (International) on Information Technology and Nanotechnology Proceedings. NJ: IEEE. 2022. P. 5.
Драгунов Н. А., Дюкова Е. В., Дюкова А. П. Логическая классификация на основе поиска правильных представительных элементарных классификаторов // Известия РАН. Теория и системы управления. 2024. № 3 (в печати).
Баскакова Л. В., Журавлев Ю. И. Модель распознающих алгоритмов с представительными наборами и системами опорных множеств // Журнал вычислительной математики и математической физики. 1981. Т. 21. № 5. С. 1264–1275.
Дюкова Е. В., Масляков Г. О., Дюкова А. П. Логические методы корректной классификации данных // Информатика и её применения. 2023. Т. 17. Вып. 3. С. 64–70.
Дюкова Е.В., Масляков Г.О., Прокофьев П.А. О логическом анализе данных с частичными порядками в задаче классификации по прецедентам // Ж. вычисл. матем. и матем. физ. 2019. Т. 59. № 9. С. 1605–1616.
Дюкова Е. В., Песков Н. В. Поиск информативных фрагментов описаний объектов в дискретных процедурах распознавания // Журнал вычислительной математики и математической физики. 2002. Т. 42. № 5. С. 741–753.
Журавлёв Ю. И., Рязанов В. В., Сенько О. В. Распознавание. Математические методы. Программная система. Практические применения. М.: ФАЗИС, 2006. С. 159.
Дюкова Е.В., Сизов А.В., Сотнезов Р.М. Об оптимальном корректном перекодировании целочисленных данных в распознавании // Информатика и её применения. 2012. Т. 6. Вып. 4. С.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация