Методы извлечения биомедицинских текстов из патентов и научных публикаций (на примере химических соединений)

Обложка

Цитировать

Полный текст

Аннотация

В данной статье предложен алгоритм для решения задачи извлечения информации из биомедицинских патентов и научных публикаций. Представленный алгоритм основан на методах машинного обучения. Авторами были проведены эксперименты на патентах из базы USPTO. Эксперименты показали, что лучшее качество извлечения продемонстрировала модель, построенная на основе BioBERT.

Об авторах

Н. А. Колпаков

Московский физико-технический институт

Email: kolpakov.na@phystech.edu
ORCID iD: 0000-0002-1640-1357

Master’s degree student of Phystech School of Applied Mathematics and Informatics

Институтский переулок, д.9, Долгопрудный, Московская область, 141701, Россия

А. И. Молодченков

Федеральный исследовательский центр «Информатика и управление» РАН; Российский университет дружбы народов

Email: aim@tesyan.ru
ORCID iD: 0000-0003-0039-943X

Candidate of Technical Sciences, Federal Research Center “Computer Science and Control” of RAS employee, employee of the Peoples’ Friendship University of Russia

ул. Вавилова, д.44, корп.2, Москва, 119333, Россия; ул. Миклухо-Маклая, д.6, Москва, 117198, Россия

А. В. Лукин

Федеральный исследовательский центр «Информатика и управление» РАН; Российский университет дружбы народов

Автор, ответственный за переписку.
Email: antonvlukin@gmail.com
ORCID iD: 0000-0003-4391-1958

Federal Research Center “Computer Science and Control” of RAS employee, employee of the Peoples’ Friendship University of Russia

ул. Вавилова, д.44, корп.2, Москва, 119333, Россия; ул. Миклухо-Маклая, д.6, Москва, 117198, Россия

Список литературы

  1. S. A. Akhondi et al., “Automatic identification of relevant chemical compounds from patents,” Database: the journal of biological databases and curation, vol. 1, pp. 1-14, 2019. doi: 10.1093/database/baz001.
  2. D. Jessop, S. Adams, E. Willighagen, L. Hawizy, and P. Murray-Rust, “OSCAR4: A flexible architecture for chemical textmining,” Journal of cheminformatics, vol. 3, no. 1, pp. 1-12, 2011. doi: 10.1186/17582946-3-41.
  3. E. Soysal et al., “CLAMP - a toolkit for efficiently building customized clinical natural language processing pipelines,” Journal of the American Medical Informatics Association, vol. 25, no. 3, pp. 331-336, 2017. doi: 10.1093/jamia/ocx132.
  4. M. Swain and J. Cole, “ChemDataExtractor: a toolkit for automated extraction of chemical information from the scientific literature,” Journal of Chemical Information and Modeling, vol. 56, no. 10, pp. 1894-1904, 2016. doi: 10.17863/CAM.10935.
  5. J. Lee, W. Yoon, S. Kim, D. Kim, S. Kim, C. So, and J. Kang, “BioBERT: a pre-trained biomedical language representation model for biomedical text mining,” Bioinformatics (Oxford, England), vol. 36, no. 4, pp. 1234- 1240, 2019. doi: 10.1093/bioinformatics/btz682.
  6. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser, and I. Polosukhin, “Attention is all you need,” Advances in Neural Information Processing Systems, vol. 30, pp. 5998-6008, 2017.
  7. J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: pretraining of deep bidirectional transformers for language understanding,” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, vol. 1, pp. 4171-4186, 2018. doi: 10.18653/v1/N19-1423.
  8. The OpenNLP Project, http://opennlp.apache.org, Accessed: 202303-07.
  9. CRFsuite: a Fast Implementation of Conditional Random Fields (CRFs), http://www.chokkan.org/software/crfsuite/, Accessed: 2023-0307.
  10. J. M. Bernard, “Handling of Markush Structures,” Journal of chemical information and computer sciences, vol. 31, no. 1, pp. 64-68, 1991. doi: 10.1021/ci00001a010.
  11. S. Heller, A. McNaught, I. Pletnev, S. Stein, and D. Tchekhovskoi, “The IUPAC International Chemical Identifier,” Journal of Cheminformatics, vol. 7, pp. 1-34, 2015. doi: 10.1186/s13321-015-0068-4.
  12. USPTO, https://www.uspto.gov/patents, Accessed: 2023-03-07.
  13. T. Mikolov, G. Corrado, K. Chen, and J. Dean, “Efficient estimation of word representations in vector space,” Proceedings of Workshop at ICLR, pp. 1-12, 2013.
  14. T. Mikolov, W.-T. Yih, and G. Zweig, “Linguistic regularities in continuous space word representations,” Proceedings of NAACL-HLT, pp. 746- 751, 2013.
  15. C. Cortes and V. Vapnik, “Support-vector networks,” Machine Learning, vol. 20, no. 03, pp. 273-297, 1995. doi: 10.1007/BF00994018.
  16. J. R. Finkel, T. Grenager, and C. Manning, “Incorporating non-local information into information extraction systems by Gibbs sampling,” Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL 2005), pp. 363-370, 2005. DOI: 10.3115/ 1219840.1219885.
  17. T. M. Mitchell, Machine learning. McGraw-Hill New York, 1997, 432 pp.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».