Разработка графовой нейросети обработки текстовых данных

Обложка

Цитировать

Полный текст

Аннотация

В статье рассматривается графовое моделирование текстовых данных с использованием нейронных сетей. Целью работы является разработка графовой нейронной сети для классификации и кластеризации текстов по смысловому содержанию. Представлены тексты в виде графов, где вершины - концепты, а ребра - связи между ними. Использованы публичные текстовые корпуса на русском и английском языках. Предложен новый подход к анализу текстовых данных на основе их представления в виде ориентированных взвешенных графов и обработки графовыми нейронными сетями. Обработка графов осуществлялась нейросетью с тремя слоями графовых сверток. Полученные результаты показывают точность более 90% при классификации тематических групп и кластеризации текстов, превосходя методы RNN, CNN и doc2vec.

Об авторах

Оксана Игоревна Захарова

Поволжский государственный университет телекоммуникаций и информатики

Автор, ответственный за переписку.
Email: o.zaharova@psuti.ru

Кандидат технических наук, доцент, заместитель заведующего научно-исследовательской лаборатории искусственного интеллекта, доцент кафедры «Информационные системы и технологии»

Россия, Самара

Сергей Викторович Кулешов

Санкт-Петербургский федеральный исследовательский центр Российской академии наук

Email: kuleshov@iias.spb.su

Доктор технических наук, главный научный сотрудник, заместитель директора по научной работе

Россия, Санкт-Петербург

Список литературы

  1. Feng Z., Guo D. et al. CodeBERT: A Pre-Trained Model for Programming and Natural Languages // In Proc. of the Conference on Empirical Methods in Natural Language Processing. 2020. Р. 1536-1547.
  2. Kanade A. Maniatis P. et al. Learning and evaluating contextual embedding of source code // In Proc. of the 37th International Conference on Machine Learning. 2020. Р. 5110-5121.
  3. Hierarchical quasi-neural network data aggregation to build a university research and innovation management system. Ed. by V. Murgul, V. Pukhkal // International Scientific Conference Energy Management of Municipal Facilities and Sustainable Energy Technologies. EMMFT 2019. Advances in Intelligent Systems and Computing. V. 1259. Springer, Cham.
  4. Бубнов И. Что такое модульное программирование и кому оно нужно // Geek-Brains. URL: https://geekbrains.ru/posts/module_programming/.
  5. Видмант О.С. Прогнозирование волатильности финансовых временных рядов ансамблями деревьев // Мир новой экономики. 2018. № 12. Вып. 3. С. 8289.
  6. Гафаров Ф. М., Галимянов А. Ф. Искусственные нейронные сети и приложения: учеб. пособие. Казань: Изд-во Казан. ун-та, 2018. 121 с.
  7. Горбатков С. А., Фархиева С. А. Гибридный метод структурного синтеза и регуляризации нейросетевой динамической модели банкротств корпораций // Вестник евразийской науки. 2020. № 3. С. 90-99.
  8. Горбатков С. А., Фархиева С. А., Горбаткова Е. Ю. Метод агрегирования переменных нейросетевой модели в обратных задачах восстановления зависимости в условиях высокой размерности пространства признаков и зашумленности данных // Вестник евразийской науки. 2018. № 1. 12 с.
  9. Камаева А. А. Современное состояние искусственных нейронных сетей // Инновации. Наука. Образование. 2020. № 16. С. 377-387.
  10. Кириченко А. А. Нейропакеты - современный интеллектуальный инструмент исследователя: учеб. пособие. М., 2013. 297 с.
  11. Коварцев А. Н., Жидченко В. В., Попова-Коварцева Д. А. Методы и технологии визуального программирования: учеб. пособие. Самара: Офорт, 2017. 197 с.
  12. Коварцев А. Н., Жидченко В. В., Попова-Коварцева Д. А., Аболмасов П. В. Принципы построения технологии графосимволического программирования // Открытые семантические технологии проектирования интеллектуальных систем. 2013. № 3. С. 195-204.
  13. Колышкин А. В., Гиленко Е. В., Довженко С. Е., Жилкин С. А., Чов С. Е. Прогнозирование финансовой несостоятельности предприятий // Вестник Санкт-Петербургского университета. Экономика. 2014. № 2. С. 122-142.
  14. Крамаров С. О., Арапова Е. А. Методика оценки финансово-экономического состояния отрасли региона на основе алгоритма нечетко-множественного агрегирования финансово-экономических показателей // Вестник СурГУ. 2022. № 3 (37). С. 23-34.
  15. Морозова Т. Ю., Бурлаченко Т. Б. Решение задачи прогнозирования в системах с большой степенью неопределенности // Известия ТРТУ. 2006. № 9-2 (64). С. 169.
  16. Ямашкин С. А. Ямашкин А. А., Занозин В. В. Формирование репозитория глубоких нейронных сетей в системе цифровой инфраструктуры пространственных данных // Потенциал интеллектуально одаренной молодежи - развитию науки и образования: материалы IX Междунар. науч. форума молодых ученых, инноваторов, студентов и школьников. Под общ. ред. Т. В. Золиной. Астрахань, 2020. С. 370-375.
  17. Зулкарнеев Р.Х., Юсупова Н.И, Сметанина О.Н., Гаянова М.М., Вульфин А.М. Методы и модели извлечения знаний из медицинских документов // Информатика и автоматизация. 2022. Том 21. № 6. doi: 10.15622/ia.21.6.4.
  18. Программные системы и инструменты. Тематический сборник. Под ред. Р.Л. Смелянского. Москва: Издательский отдел факультета ВМК МГУ имени М.В. Ломоносова (лицензия ИД № 05899 от 24.09. 2001 г.); МАКС Пресс, 2023. № 23. 140 с. ISBN 978-5-89407-638-6 (ВМК МГУ имени М.В. Ломоносова). ISBN 978-5-317-07118-9 (МАКС Пресс) https://doi.org/10.29003/m3791.978-5-317-07118-9.
  19. Кулешов С.В., Зайцева А.А., Левашкин С.П. Технологии и принципы сбора и обработки неструктурированных распределенных данных с учетом современных особенностей предоставления медиа – контента // Информатизация и связь. 2020. № 5. С. 22-28.
  20. Кулешов С.В., Зайцева А.А., Левашкин С.П. Обработка неструктурированной информации, получаемой из интернета, с использованием ассоциативно – онтологического подхода // В сборнике: Проблемы техники и технологий телекоммуникаций ПТиТТ-2020. XXII Международная научно – техническая конференция. IV Научный форум Телекоммуникации: теория и технологии ТТТ-2020. Самара, 2020. С. 7-11.
  21. Александров В.В., Кулешов С.В., Цветков О.В., Левашкин С.П. Концепция развития инфокоммуникации в Интернет среде // «Информационно-измерительные и управляющие системы». 2009. № 4. Т. 7. С. 5-10.
  22. Александров В.В., Кулешов С.В., Цветков О.В., Левашкин С.П. Инфологическая система формирования семантических понятий инвариантных по отношению к естественно-языковому окружению в Интернет среде // Программируемые инфокоммуникационные технологии. Сборник статей. Под ред. В.В. Александрова, В.А. Сарычева. М.:Радиотехника, 2009. С. 5-10.
  23. Зулкарнеев Р.Х., Юсупова Н.И, Сметанина О.Н., Гаянова М.М., Вульфин А.М. Методы и модели извлечения знаний из медицинских документов // Информатика и автоматизация. 2022. Том 21. № 6. doi: 10.15622/ia.21.6.4 повтор № 17???
  24. Кулешов С. В., Зайцева А. А., Аксенов А. Ю. Формирование ядра документов в системах интернет-мониторинга в условиях ресурсных ограничений // Известия высших учебных заведений. Приборостроение. 2022. Т.65. № 11. С. 826—832. doi: 10.17586/0021-3454-2022-65-11-826-832.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).