Содержательные критерии отнесения утверждений из текстов к категориям «события» и «факторы»

Обложка

Цитировать

Полный текст

Аннотация

Цель настоящей работы – совершенствование и автоматизация языковых моделей извлечения из текстовых документов утверждений, связанных с событиями и факторами, с использованием разработанной системы лингвистических маркеров. В статье приведены результаты апробации текст-майнинговых моделей извлечения событий и факторов на примере аналитического исследования в сфере человеческого потенциала, социальных и гуманитарных наук. Тестирования и оценка качества моделей реализованы на основе сопоставления результатов, получаемых в автоматическом режиме, в ручном режиме (при экспертно-аналитической валидации) и полуавтоматическом режиме (с использованием системы лингвистических маркеров). В результате внедренных подходов повысилось качество извлечения утверждений, содержащих события и факторы.

Об авторах

Ирина Владимировна Логинова

Национальный исследовательский университет «Высшая школа экономики»

Автор, ответственный за переписку.
Email: iloginova@hse.ru

Заведующий отделом

Россия, Москва

Анна Сергеевна Пиекалнитс

Национальный исследовательский университет «Высшая школа экономики»

Email: apiekalnits@hse.ru

Ведущий эксперт

Россия, Москва

Елизавета Алексеевна Сабидаева

Национальный исследовательский университет «Высшая школа экономики»

Email: esabidaeva@hse.ru

Ведущий эксперт

Россия, Москва

Мария Сергеевна Анташева

Национальный исследовательский университет «Высшая школа экономики»

Email: msantasheva@hse.ru

Стажер-исследователь

Россия, Москва

Лев Александрович Морозов

ПАО «Сбербанк»

Email: lamorozov@sberbank.ru

Главный инженер по разработке

Россия, Москва

Список литературы

  1. Popper R. How are foresight methods selected? // foresight. 2008. Volume 10. No. 6. P. 62-89
  2. GURL E. SWOT analysis: a theoretical review. – 2017.
  3. Petersen J. L. Out of the blue: How to anticipate big future surprises // (No Title). – 1999.
  4. Gordon T. J. Cross-impact method. – American Council for the United Nations University, 1994. – Т. 4.
  5. Zionts S. MCDM—If not a roman numeral, then what? //Interfaces. – 1979. – Т. 9. – №. 4. – С. 94-101.
  6. Willyard C. H., McClees C. W. Motorola's technology roadmap process //Research management. – 1987. – Т. 30. – №. 5. – С. 13-19.
  7. Bakhtin P., Saritas O., Chulok A., Kuzminov I., Timofeev Trend monitoring for linking science and strategy // Scientometrics. 2017. No. 3. P. 2059-2075.
  8. Gokhberg, L., Kuzminov, I., Bakhtin, P., Khabirova, E., Chulok, A., Timofeev, A., & Lavrynenko, A. (2017). Big-data-augmented approach to emerging technologies identification: case of agriculture and food sector. Higher School of Economics Research Paper No. WP BRP, 76.
  9. Гладкая Е. Ф. Языковые маркеры невербализованных смыслов в лирике // Преподаватель ХХI век. 2008. №. 2. С. 149-152.
  10. Колмогорова А. В., Калинин А. А., Маликова А. В. Типология и комбинаторика вербальных маркеров различных эмоциональных тональностей в интернеттекстах на русском языке // Вестник Томского государственного университета. 2019. № 448. C. 48-58.
  11. Ананьева М. И., Девяткин Д. А., Каменская М. А., Кобозева М. В., Смирнов И. В. Автоматическое извлечение финансово-экономической информации из текстов на русском языке // Труды Института системного анализа Российской академии наук. 2018. Т. 68. №. 1. С. 23-30.
  12. Котельников Д. С., Лукашевич Н. В. Итерационное извлечение шаблонов описания событий по новостным кластерам // Труды XIV Всероссийской научной конференции RCDL. 2012. С. 353-359.
  13. Власова Н. А. Извлечение информации о ситуациях отставок-назначений в новостных текстах. Опыт разметки коллекции. Результаты тестирования // Труды XV Всероссийской научной конференции RCDL. 2013. С. 145-154.
  14. Колмогорова А. В., Калинин А. А., Талдыкина Ю. А. Языковые маркеры манипуляции в поляризованном политическом дискурсе: опыт параметризации // Политическая лингвистика. 2016. №. 4. С. 194-199.
  15. Семянкова О. И. Лингвистические маркеры, определяющие признаки предварительного сговора, соучастия и пособничества // Язык и право: актуальные проблемы взаимодействия. 2016. С. 174-179.
  16. Барабаш О. В. Критерии выявления коррупциогенных факторов в тексте официальных документов: лингвистический аспект // Вестник Пензенского государственного университета. – 2016. №. 1 (13). С. 17-21.
  17. Стернин И. А., Шестернина А. М. Маркеры фейка в медиатекстах. Рабочие материалы. Воронеж: ООО «РИТМ». 2020. 34 с.
  18. Калегин С. Н. Языковая идентификация информационных блоков на основе лексико-грамматических маркеров // Современные информационные технологии и ИТ-образование. – 2017. Т. 13, №. 4. С. 225-231.
  19. Черкашина Т. Т. Языковые маркеры в практике коммуникативного лидерства как элемент эффективного управления // Вестник Московского университета. Серия 21. Управление (государство и общество). 2015. №. 3. С. 112-127.
  20. Акинина Ю. С., Бонч-Осмоловская А. А., Кузнецов И. О., Клинцов В. П., Толдова С. Ю. Роль общей и специфической лексики при извлечении информации из текста на примере анализа события «ввод новых технологий» // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2012. Т. 10. №. 4. С. 74-80.
  21. Ананьева М. И., Девяткин Д. А., Кобозева М. В., Смирнов И. В. Лингвостатистический анализ текстов экстремистской направленности // Ситуационные центры и информационно-аналитические системы класса 4i для задач мониторинга и безопасности (SCVRT1516). 2016. С. 210-213.
  22. Девяткин Д. А., Кузнецова Ю. М., Чудова Н. В., Швец А. В. Интеллектуальный анализ проявлений вербальной агрессивности в текстах сетевых сообществ // Искусственный интеллект и принятие решений. 2014. №. 2. С. 27-41.
  23. Бражник С. Д., Касаткина Н. Н. Лингвистические (языковые) правила в законодательной технике // Юридическая наука. 2014. №. 3. С. 10-12.
  24. Богатырев М. Ю. Извлечение фактов из текстов естественного языка с применением концептуальных графовых моделей // Известия Тульского государственного университета. Технические науки. 2016. №. 7-1. С. 198-208.
  25. Линючев П. Text Mining: современные технологии на информационных рудниках // PCWEEK. 2007. №. 6.
  26. Hühn P. Event and eventfulness // De Gruyter. 2014. P. 159 - 178.
  27. Соколов А. В. Форсайт: взгляд в будущее // Форсайт. 2007. Т. 1, №. 1. С. 8-15.
  28. Popper R. Methodology: Common Foresight Practices & Tools, in Georghiou, L. et al., International Handbook on Foresight and Science Policy: Theory and Practice. – 2007.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».