Содержательные критерии отнесения утверждений из текстов к категориям «события» и «факторы»
- Авторы: Логинова И.В.1, Пиекалнитс А.С.1, Сабидаева Е.А.1, Анташева М.С.1, Морозов Л.А.2
-
Учреждения:
- Национальный исследовательский университет «Высшая школа экономики»
- ПАО «Сбербанк»
- Выпуск: № 4 (2024)
- Страницы: 93-110
- Раздел: Анализ текстовой и графической информации
- URL: https://journal-vniispk.ru/2071-8594/article/view/278303
- DOI: https://doi.org/10.14357/20718594240408
- EDN: https://elibrary.ru/DDBAJC
- ID: 278303
Цитировать
Полный текст
Аннотация
Цель настоящей работы – совершенствование и автоматизация языковых моделей извлечения из текстовых документов утверждений, связанных с событиями и факторами, с использованием разработанной системы лингвистических маркеров. В статье приведены результаты апробации текст-майнинговых моделей извлечения событий и факторов на примере аналитического исследования в сфере человеческого потенциала, социальных и гуманитарных наук. Тестирования и оценка качества моделей реализованы на основе сопоставления результатов, получаемых в автоматическом режиме, в ручном режиме (при экспертно-аналитической валидации) и полуавтоматическом режиме (с использованием системы лингвистических маркеров). В результате внедренных подходов повысилось качество извлечения утверждений, содержащих события и факторы.
Ключевые слова
Об авторах
Ирина Владимировна Логинова
Национальный исследовательский университет «Высшая школа экономики»
Автор, ответственный за переписку.
Email: iloginova@hse.ru
Заведующий отделом
Россия, МоскваАнна Сергеевна Пиекалнитс
Национальный исследовательский университет «Высшая школа экономики»
Email: apiekalnits@hse.ru
Ведущий эксперт
Россия, МоскваЕлизавета Алексеевна Сабидаева
Национальный исследовательский университет «Высшая школа экономики»
Email: esabidaeva@hse.ru
Ведущий эксперт
Россия, МоскваМария Сергеевна Анташева
Национальный исследовательский университет «Высшая школа экономики»
Email: msantasheva@hse.ru
Стажер-исследователь
Россия, МоскваЛев Александрович Морозов
ПАО «Сбербанк»
Email: lamorozov@sberbank.ru
Главный инженер по разработке
Россия, МоскваСписок литературы
- Popper R. How are foresight methods selected? // foresight. 2008. Volume 10. No. 6. P. 62-89
- GURL E. SWOT analysis: a theoretical review. – 2017.
- Petersen J. L. Out of the blue: How to anticipate big future surprises // (No Title). – 1999.
- Gordon T. J. Cross-impact method. – American Council for the United Nations University, 1994. – Т. 4.
- Zionts S. MCDM—If not a roman numeral, then what? //Interfaces. – 1979. – Т. 9. – №. 4. – С. 94-101.
- Willyard C. H., McClees C. W. Motorola's technology roadmap process //Research management. – 1987. – Т. 30. – №. 5. – С. 13-19.
- Bakhtin P., Saritas O., Chulok A., Kuzminov I., Timofeev Trend monitoring for linking science and strategy // Scientometrics. 2017. No. 3. P. 2059-2075.
- Gokhberg, L., Kuzminov, I., Bakhtin, P., Khabirova, E., Chulok, A., Timofeev, A., & Lavrynenko, A. (2017). Big-data-augmented approach to emerging technologies identification: case of agriculture and food sector. Higher School of Economics Research Paper No. WP BRP, 76.
- Гладкая Е. Ф. Языковые маркеры невербализованных смыслов в лирике // Преподаватель ХХI век. 2008. №. 2. С. 149-152.
- Колмогорова А. В., Калинин А. А., Маликова А. В. Типология и комбинаторика вербальных маркеров различных эмоциональных тональностей в интернеттекстах на русском языке // Вестник Томского государственного университета. 2019. № 448. C. 48-58.
- Ананьева М. И., Девяткин Д. А., Каменская М. А., Кобозева М. В., Смирнов И. В. Автоматическое извлечение финансово-экономической информации из текстов на русском языке // Труды Института системного анализа Российской академии наук. 2018. Т. 68. №. 1. С. 23-30.
- Котельников Д. С., Лукашевич Н. В. Итерационное извлечение шаблонов описания событий по новостным кластерам // Труды XIV Всероссийской научной конференции RCDL. 2012. С. 353-359.
- Власова Н. А. Извлечение информации о ситуациях отставок-назначений в новостных текстах. Опыт разметки коллекции. Результаты тестирования // Труды XV Всероссийской научной конференции RCDL. 2013. С. 145-154.
- Колмогорова А. В., Калинин А. А., Талдыкина Ю. А. Языковые маркеры манипуляции в поляризованном политическом дискурсе: опыт параметризации // Политическая лингвистика. 2016. №. 4. С. 194-199.
- Семянкова О. И. Лингвистические маркеры, определяющие признаки предварительного сговора, соучастия и пособничества // Язык и право: актуальные проблемы взаимодействия. 2016. С. 174-179.
- Барабаш О. В. Критерии выявления коррупциогенных факторов в тексте официальных документов: лингвистический аспект // Вестник Пензенского государственного университета. – 2016. №. 1 (13). С. 17-21.
- Стернин И. А., Шестернина А. М. Маркеры фейка в медиатекстах. Рабочие материалы. Воронеж: ООО «РИТМ». 2020. 34 с.
- Калегин С. Н. Языковая идентификация информационных блоков на основе лексико-грамматических маркеров // Современные информационные технологии и ИТ-образование. – 2017. Т. 13, №. 4. С. 225-231.
- Черкашина Т. Т. Языковые маркеры в практике коммуникативного лидерства как элемент эффективного управления // Вестник Московского университета. Серия 21. Управление (государство и общество). 2015. №. 3. С. 112-127.
- Акинина Ю. С., Бонч-Осмоловская А. А., Кузнецов И. О., Клинцов В. П., Толдова С. Ю. Роль общей и специфической лексики при извлечении информации из текста на примере анализа события «ввод новых технологий» // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2012. Т. 10. №. 4. С. 74-80.
- Ананьева М. И., Девяткин Д. А., Кобозева М. В., Смирнов И. В. Лингвостатистический анализ текстов экстремистской направленности // Ситуационные центры и информационно-аналитические системы класса 4i для задач мониторинга и безопасности (SCVRT1516). 2016. С. 210-213.
- Девяткин Д. А., Кузнецова Ю. М., Чудова Н. В., Швец А. В. Интеллектуальный анализ проявлений вербальной агрессивности в текстах сетевых сообществ // Искусственный интеллект и принятие решений. 2014. №. 2. С. 27-41.
- Бражник С. Д., Касаткина Н. Н. Лингвистические (языковые) правила в законодательной технике // Юридическая наука. 2014. №. 3. С. 10-12.
- Богатырев М. Ю. Извлечение фактов из текстов естественного языка с применением концептуальных графовых моделей // Известия Тульского государственного университета. Технические науки. 2016. №. 7-1. С. 198-208.
- Линючев П. Text Mining: современные технологии на информационных рудниках // PCWEEK. 2007. №. 6.
- Hühn P. Event and eventfulness // De Gruyter. 2014. P. 159 - 178.
- Соколов А. В. Форсайт: взгляд в будущее // Форсайт. 2007. Т. 1, №. 1. С. 8-15.
- Popper R. Methodology: Common Foresight Practices & Tools, in Georghiou, L. et al., International Handbook on Foresight and Science Policy: Theory and Practice. – 2007.
Дополнительные файлы
