Digital core: neural network recognition of textual geological and geophysical information

Мұқаба

Дәйексөз келтіру

Толық мәтін

Аннотация

The algorithm of analog-to-digital conversion of primary geological and geophysical information (on the example of identification of rock lithotypes based on the text description of the physical core) is presented.As part of the work, a combination of three types of scientific research - prospecting, interdisciplinary and applied, in the formation of the initial base of qualitative data is implemented.Common algorithms for textual information classification and mechanism of initial data preprocessing using tokenization are described.The concept of text pattern recognition is implemented using artificial intelligence methods.For creation of the neural network model of textual geological and geophysical information recognition the Python programming language is used in combination with the convolutional neural network technologies for text classification (TextCNN), bi-directional long-shortterm memory networks (BiLSTM) and bi-directional coder representation networks (BERT).The stack of these technologies and the Python programming language, after developing and testing the basic version of the neural network model of qualitative information recognition, provided an acceptable level of performance of the algorithm of digital transformation of text data.The best result (the current version of neural network model is 1.0; more than 3000 examples for training and testing) was achieved when using the algorithm of text data recognition based on BERT with an accuracy on the validation network (Validation Accuracy) ~0.830173 (25th epoch), with Validation Loss ~0.244719, with Training Loss ~0.000984 and probability of recognition of the studied rock lithotypes more than 95 %.The mechanisms of code modification for further improvement of textual prediction accuracy based on the created neural network were determined.

Авторлар туралы

Yu. Katanov

Industrial University of Tyumen

Email: katanov-juri@rambler.ru
ORCID iD: 0000-0001-5983-4040

A. Aristov

Industrial University of Tyumen

A. Yagafarov

Industrial University of Tyumen

O. Novruzov

Industrial University of Tyumen

Әдебиет тізімі

  1. Катанов, Ю. Е. Исследование влияния капиллярных явлений при фильтрации двухфазных несмешивающихся жидкостей в пористых средах / Ю. Е. Катанов, А. К. Ягафаров, И. И. Клещенко. – doi: 10.31660/0445-0108-2020-1-19-29. – Текст : непосредственный // Известия высших учебных заведений. Нефть и газ. – 2020. – № 1. – С. 19–29.
  2. Katanov, Yu. E. A probabilistic and statistical model of rock deformation / Yu. E. Katanov. – Text : electronic // E3S Web of Conferences. – 2021. – Vol. 266. – URL: https://doi.org/10.1051/e3sconf/202126603011. – Published: June, 04, 2021.
  3. Katanov, Yu. E. Geological and mathematical description of the rocks strain during behavior of the producing solid mass in compression (Tension) / Yu. E. Katanov, Yu. V. Vaganov, M. V. Listak. – doi: 10.33271/mining15.04.091. – Direct text // Journal of Mines, Metals & Fuels. – 2020. – Vol. 68, Issue 9. – P. 285–293.
  4. Ломов, П. А. Аугментация обучающего набора при обучении нейросетевой языковой модели для наполнения онтологии / П. А Ломов, М. Л. Малоземова.– doi: 10.37614/2307-5252.2021.5.12.002 – Текст : непосредственный // Труды Кольского научного центра РАН. Информационные технологии. – 2021. – Вып. 12. – Т. 12, № 5. – С. 22–34.
  5. Сайгин, А. А. Векторизация нормативно-справочной информации с помощью модели нейронной сети BERT / А. А. Сайгин, Н. П. Плотникова. – Текст : электронный // Информационные технологии и математическое моделирование в управлении сложными системами : электронный журнал. – 2021. – № 2. – С. 52–59. – URL: https://doi.org/10.26731/2658-3704.2021.2(10).52-59.
  6. Соломин, А. А. Современные подходы к мультиклассовой классификации интентов на основе предобученных трансформеров / А. А. Соломин, Ю. А. Иванова. – doi: 10.17586/2226-1494-2020-20-4-532-538. – Текст : непосредственный // Научно-технический вестник информационных технологий, механики и оптики. – 2020. – Т. 20, № 4. – С. 532–538.
  7. Text classification models for the automatic detection of nonmedical prescription medication use from social media / M. A. Al-Garadi, Y. C. Yang, H. Cai. – Text : elctronic // BMC medical informatics and Decision Making. – 2021. – Vol. 21. – URL: https://doi.org/10.1186/s12911-021-01394-0. Published: January, 26, 2021.
  8. Comparison of Pre-Trained Language Models for Multi-Class Text Classification in the Financial Domain / Y. Arslan, K. Allix, L. Veiber. – doi: 10.1145/3442442.3451375. – Direct text // Companion Proceedings of the Web Conference. – 2021. – P. 260–268.
  9. Çelikten, A. Turkish Medical Text Classification Using BERT / A. Çelikten, H. Bulut. – Text : electronic // 2021 29th Signal Processing and Communications Applications Conference (SIU). IEEE. – 2021. – URL: https://doi.org/10.1109/SIU53274.2021.9477847.
  10. Das, S. Identification of Cognitive Learning Complexity of Assessment Questions Using Multi-class Text Classification / S. Das, S. K. D. Mandal, A. Basu. – doi: 10.30935/cedtech/8341. – Text : electronic // Contemporary Educational Technology. – 2020. – Vol. 12, Issue 2. – URL: https://doi.org/10.30935/cedtech/8341.
  11. Auto-labelling entities in low-resource text : a geological case study / M. Enkhsaikhan, W. Liu, E. J. Holden, P. Duurin. – doi: 10.1007/s10115-020-01532-6. – Direct text // Knowledge and Information Systems. – 2021. – Vol. 63. – P. 695–715.
  12. Gao, X. Named entity recognition in material field based on Bert-BILSTMAttention-CRF / X. Gao, Q. Li. – doi: 10.1109/TOCS53301.2021.9688665. – Direct text // 2021 IEEE Conference on Telecommunications, Optics and Computer Science (TOCS). – 2021. – P. 955–958.
  13. Glazkova, A. A Comparative study of Feature Types for Age-Based Text Classification / A. Glazkova, Yu. Egorov, M. Glazkov. – doi: 10.1007/978-3-030-72610-2_9. – Direct text // International Conference on Analysis of Images, Social Networks and Texts. – 2020. – P. 120–134.
  14. Evaluating Transformer-Based Multilingual Text Classification / S. Groenwold, S. Honnavalli, L. Ou. – Text : electronic // arXiv:2004.13939v2. – 2020. – URL: https://doi.org/10.48550/arXiv.2004.13939.
  15. Research on a geological entity relation extraction model for gold mine based on BERT / X. Huang, Y. Zhu, L. Fu. – doi: 10.12090/j.issn.1006-6616.2021.27.03.035. – Direct text // Journal of Geomechanics. – 2021. – Vol. 27, Issue 3. – P. 391–399.
  16. BERT for Russian news clustering / A. S. Kabaev, S. V. Khaustov, N. E. Gorlova, A. V. Kalmykov. – Text : electronic // Computational Linguistics and Intellectual Technologies. – 2021. – URL: https://doi.org/10.28995/2075-7182-2021-20-385-390.
  17. Chinese named entity recognition in the geoscience domain based on BERT / X. Lv, Z. Xie, D. Xu. – Text : electronic // Earth and Space Science. – 2022. – Vol. 9, Issue 3. – URL: https://doi.org/10.1029/2021EA002166. – Published: February, 14, 2022.
  18. What is this article about? Generative summarization with the BERT model in the geosciences domain / K. Ma, M. Tian, Y. Tan. – doi: 10.1007/s12145-021-00695-2. – Direct text // Earth Science Informatics. – 2022. – Vol. 15. – P. 21–36.
  19. Piao, G. Scholarly Text Classification with Sentence BERT and Entity Embeddings / G. Piao. – doi: 10.1007/978-3-030-75015-2_8. – Direct text // PAKDD 2021 : Trends and Applications in Knowledge Discovery and Data Mining. – 2021. – P. 79–87.
  20. Prabhu, S. Multi-class Text Classification using BERT-based Active Learning / S. Prabhu, M. Mohamed, H. Misra. – Text : electronic // arXiv:2104.14289v2. – 2021. – URL: https://doi.org/10.48550/arXiv.2104.14289.
  21. A Fine-Tuned BERT-Based Transfer Learning Approach for Text Classification / R. Qasim, W. H. Bangyal, M. A. Alqarni, A. Ali Almazroi. – Text : electronic // Journal of Healthcare Engineering. – 2022. – URL: https://doi.org/10.1155/2022/3498123. – Published: January, 07, 2022.
  22. Text classification on software requirements specifications using transformer models / D. Kici, A. Bozanta, M. Cevik.. – doi: 10.5555/3507788.3507811. – Direct text // Proceedings of the 31st Annual International Conference on Computer Science and Software Engineering. – 2021. – P. 163–172.
  23. Lun, C. H. Extracting Knowledge with NLP from Massive Geological Documents / C. H. Lun, T. Hewitt, S. Hou // 82nd EAGE Annual Conference & Exhibition. European Association of Geoscientists & Engineers. – 2021. – URL: https://doi.org/10.3997/2214-4609.202112807.
  24. Smetanin, S. I. Toxic comments detection in Russian / S. I. Smetanin. – doi: 10.28995/2075-7182-2020-19-1149-1159. – Direct text // Computational Linguistics and Intellectual Technologies. – 2020. – P. 1149–1159.

Қосымша файлдар

Қосымша файлдар
Әрекет
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».