Morphological Guesser as a Tool for Analyzing Field Data: Experiences with The Naukan Yupik Language

Cover Page

Cite item

Full Text

Abstract

The paper presents the development and evaluation of two automated morphological analysis tools for Naukan Yupik (Yupik Eskimo Eskimo-Aleut): a dictionary-based morphological analyzer and a dictionary-free morphological guesser. Both tools are implemented with a two-stage approach to morphological modeling based on finite state automata. The study examines in detail the morphological features of Naukan Yupik that influence the development of automated analysis tools, including rich inflection and derivation, homonymy of morphological markers, and complex morphophonological processes. The effectiveness of both tools will be evaluated using a corpus of oral texts from 2022–2023. Particular attention is paid to the problem of overgeneration in the output of the morphological guesser and to ways of solving this problem through part-of-speech-based analysis separation. The results show that when working with field data, the use of a guesser can be more effective despite its known limitations.

About the authors

Elena Mikhailovna Budyanskaya

Institute of Linguistics of the RAS

Email: budyanskaya.lena@gmail.com
Moscow, Russia

Anton Olegovich Buzanov

Institute of Linguistics of the RAS; High School of Economy

Email: anton.buzanov.00@gmail.com
Москва, Россия

Daria Olegovna Zhornik

Institute of Linguistics of the RAS

Email: daria.zhornik@yandex.ru
Moscow, Russia

Andrey Andreevich Pikhtin

Institute of Linguistics of the RAS; High School of Economy

Email: p_nafanyka@gmail.com
Moscow, Russia

References

  1. Меновщиков Г.А. Язык науканских эскимосов. Л.: Наука, 1975. 512 с.
  2. Головко Е.В., Добриева Е.А., Джейкобсон С., Краусс М. Словарь языка науканских эскимосов / ред. С. Джейкобсон. Фэрбенкс: Центр изучения коренных языков Аляски, 2004. 369 с.
  3. Вахтин Н.Б. Морфология глагольного словоизменения в юпикских (эскимосских) языках / Российская академия наук, Институт лингвистических исследований. СПб.: Нестор, 2007. 123 c.
  4. Kanuparthi N., Inumella A., Sharma D.M. Hindi Derivational Morphological Analyzer // Proceedings of the Twelfth Meeting of the Special Interest Group on Computational Morphology and Phonology. Montreal: Association for Computational Linguistics, 2012. P. 10–16.
  5. Kessikbayeva G., Cicekli I. Rule Based Morphological Analyzer of Kazakh Language // Proceedings of the 2014 Joint Meeting of SIGMORPHON and SIGFSM. Baltimore: Association for Computational Linguistics, 2014. P. 46–54.
  6. Khalifa S., Hassan S., Habash N. A Morphological Analyzer for Gulf Arabic Verbs // Proceedings of the Third Arabic Natural Language Processing Workshop. Valencia: Association for Computational Linguistics, 2017. P. 35–45.
  7. Forbes C., Nicolai G., Silfverberg M. An FST morphological analyzer for the Gitksan language // Proceedings of the 18th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology. Online: Association for Computational Linguistics, 2021. P. 188–197.
  8. Merzhevich T., Ferraz Gerardi F. Introducing YakuToolkit. Yakut Treebank and Morphological Analyzer // Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages. Marseille: European Language Resources Association, 2022. P. 185–188.
  9. Koskenniemi K. Two-level Morphology. A General Computational Model for Word-Form Recognition and Production. Helsinki: University of Helsinki, Department of General Linguistics, 1983.
  10. Karttunen L. KIMMO: A General Morphological Processor // Texas Linguistics Forum. 1983. Vol. 22. P. 217–228.
  11. Antworth E.L. PC-KIMMO: a two-level processor for morphological analysis. Dallas: Summer Institute of Linguistics, 1990.
  12. Ritchie G.D., Russell G. J., Black A. W., Pulman S. G. Computational Morphology. Practical Mechanisms for the English Lexicon. Cambridge: The MIT Press, 1991.
  13. Swanson D., Howell N. Lexd: A finite-state lexicon compiler for non-suffixational morphologies // Multilingual Facilitation. 2021. P. 133–146.
  14. Karttunen L., Beesley K. R. Two-level rule compiler. Palo Alto: Xerox Corporation, Palo Alto Research Center, 1992.
  15. Lindén K., Axelson E., Hardwick S., Pirinen T.A., Silfverberg M. HFST – framework for compiling and applying morphologies // Systems and Frameworks for Computational Morphology: Second International Workshop, SFCM 2011. Berlin: Springer, 2011. P. 67–85.
  16. Chen E., Schwartz L. A morphological analyzer for St. Lawrence island / Central Siberian yupik // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».