Обработка естественного языка для анализа политического определения миграции в хорватском политическом дискурсе

Обложка

Цитировать

Полный текст

Аннотация

Статья посвящена решению проблемы предвзятости аналитиков при проведении сравнительного анализа политического дискурса. Предлагаемое решение строится на анализе данных и использовании машинного обучения для обработки естественного языка. Кейс, который мы изучаем в связи с этой проблемой, относится к определению проблемы миграции в хорватском политическом дискурсе. Была разработана система машинного обучения, которая выявляет наиболее характерные черты хорватского политического дискурса в отношении миграции: эта система свободна от исследовательской субъективности. Исследование воспроизводимо, и при условии, что используется тот же набор данных и алгоритм, любой ученый должен прийти к тем же выводам. Этот результат был достигнут на основе сбора корпус-текстов из новостных материалов и пресс-релизов с веб-сайтов хорватских политических партий, представленных в парламенте, а также группу алгоритмов классификации машинного обучения для матриц Bag-of-Words, вычисленных из корпуса. Мы определили наиболее точную модель, классификатор дерева решений, которая была выбрана для дальнейшего анализа из-за ее точности и интерпретируемости. Нами также проанализированы правила принятия решений, определенные этим классификатором, которые затем были интерпретированы людьми, чтобы определить политические особенности текста, которые лучше всего предсказывают связь этого текста с темой миграции. В итоге подробно раскрыты три правила, идентифицированные с этой процедурой, которые мы считаем особенно интересными.

Об авторах

Габриэле Де Лука

Российский университет дружбы народов

Email: gabriele.deluca@mail.ru
аспирант кафедры сравнительной политологии Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, 6

Марко Бек

Российский университет дружбы народов

Email: beck.marko@gmail.com
аспирант кафедры сравнительной политологии Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, 6

Список литературы

  1. Geddes B. How the cases you choose affect the answers you get: Selection bias in comparative politics. Political analysis. 1990; (2): 131-150.
  2. Pittman J.A., Yang Zh., Yu S. Political Cycles and Analyst Bias. 2018. doi: 10.2139/ssrn.3262070
  3. Olsen M., Harvey L.G. Computers in intellectual history: lexical statistics and the analysis of political discourse. The Journal of Interdisciplinary History. 1988; 18 (3): 449-464.
  4. Gavrilova M.V. Political discourse as object of linguistic analysis. Polis. Political Studies. 2004; 3 (3): 127-139.
  5. Van Dijk T.A. What is political discourse analysis. Belgian journal of linguistics. 1997; 11 (1): 11-52.
  6. Collobert R., Weston J., Bottou L., Karlen M., Kavukcuoglu K., Kuksa P. Natural language processing (almost) from scratch. Journal of machine learning research. 2011; 12: 2493-2537.
  7. Bebić D. The role of the Internet in political communication and promoting political participation of citizens in Croatia: Internet election campaign 2007. Media Studies. 2011; 2: 3-4. (In Croat.).
  8. Ostojic R. A European Perspective of the Migration Crisis: Russian Experiences. Zagreb: Friedrich Ebert Foundation; 2016. (In Croat.).
  9. Sharich T. Escape from socialist Yugoslavia-illegal emigration from Croatia since 1945. by the early sixties of the 20th century. Migration and ethnic themes. 2015; (2): 195-220. (In Croat.).
  10. Žižić J. What is political emigration in Croatia? Political analysis. 2013; 4 (16): 61-64. (In Croat.).
  11. Sundhaussen H. Forced ethnic migration. Institut für Europäische Geschichte; 2010.
  12. Felberg T.R., Šarić L. In transit: Representations of migration on the Balkan route. Discourse analysis of Croatian and Serbian public broadcasters (RTS and HRT online). Journal of Language Aggression and Conflict. 2017; 5 (2): 227-250.
  13. Vezovnik A., Šarić L. Subjectless images: visualization of migrants in Croatian and Slovenian public broadcasters’ online news. Social Semiotics. 2020. 30 (2): 168-190.
  14. Šaric L., Felberg T.R. Representations of the 2015/2016 “migrant crisis” on the online portals of Croatian and Serbian public broadcasters. Migration and Media: Discourses about identities in crisis. 2019; 81: 203.
  15. Ragazzi F., Balalovska K. Diaspora politics and post-territorial citizenship in Croatia, Serbia and Macedonia. CITSEE Working Paper Series. 2011; 18.
  16. Ragazzi F. The Croatian ‘diaspora politics’ of the 1990s: nationalism unbound? Croatian ‘Diaspora Politics’ of the 1990s: Nationalism Unbound? In: U. Brunnbauer (ed.). Transnational Societies, Transterritorial Politics: Migrations in the (Post-) Yugoslav Region, 19th-21st Century. 2009.
  17. Knezović S., Grošinić M. Migration trends in Croatia. Zagreb: Hanns-Seidel-Stviftung, Institute of development and international relations, Kolor Klinika; 2017: 1-39.
  18. Rovny J. The other “other”: Party responses to immigration in Eastern Europe. Comparative European Politics. 2014; 12 (6): 637-662. doi: 10.1057/cep.2014.25
  19. Gregurović M., Kuti S., Župarić-Iljić D. Attitudes towards immigrant workers and asylum seekers in eastern Croatia: dimensions, determinants and differences. Migration and ethnic themes. 2016; 32 (1): 91-122.
  20. Nadkarni P. M., Ohno-Machado L., Chapman W.W. Natural language processing: an introduction. Journal of the American Medical Informatics Association. 2011; 18 (5): 544-551.
  21. Ljubešić N., Boras D., Kubelka O. Retrieving information in Croatian: Building a simple and efficient rule-based stemmer. 2007.
  22. Lipton Z.C., Elkan C., Naryanaswamy B. Optimal thresholding of classifiers to maximize F1 measure. Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer; 2014: 225-239.
  23. Assembly U.G. Global Compact for Safe, Orderly and Regular Migration. International Journal of Refugee Law. 2018; 30 (4): 774-816.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».