Морфологический гессер как инструмент анализа полевых данных: опыт работы с науканским языком

Обложка

Цитировать

Полный текст

Аннотация

Представлено описание разработки и оценки двух инструментов автоматического морфологического анализа для науканского языка (юпикские эскимосские эскимосско-алеутские): морфологического анализатора со словарем и морфологического гессера без словаря. Оба инструмента реализованы с использованием двухуровневого подхода к моделированию морфологии на основе конечных автоматов. Подробно рассматриваются особенности морфологии науканского языка, влияющие на разработку автоматических инструментов анализа, включая богатое словоизменение и словообразование, омонимию морфологических показателей и сложные морфонологические процессы. На материале корпуса устных текстов, записанных в 2022–2023 гг., проводится оценка эффективности работы обоих инструментов. Особое внимание уделяется проблеме сверхгенерации при работе морфологического гессера и способам ее решения через разделение анализа по частям речи. Результаты исследования показывают, что при работе с полевыми данными использование гессера может быть более эффективным, несмотря на известные ограничения.

Об авторах

Елена Михайловна Будянская

Институт языкознания РАН

Email: budyanskaya.lena@gmail.com
младший научный сотрудник Москва, Россия

Антон Олегович Бузанов

Институт языкознания РАН; Высшая школа экономики

Email: anton.buzanov.00@gmail.com
младший научный сотрудник Moscow, Russia

Дарья Олеговна Жорник

Институт языкознания РАН

Email: daria.zhornik@yandex.ru
научный сотрудник Москва, Россия

Андрей Андреевич Пихтин

Институт языкознания РАН; Высшая школа экономики

Email: p_nafanyka@gmail.com
младший научный сотрудник Москва, Россия

Список литературы

  1. Меновщиков Г.А. Язык науканских эскимосов. Л.: Наука, 1975. 512 с.
  2. Головко Е.В., Добриева Е.А., Джейкобсон С., Краусс М. Словарь языка науканских эскимосов / ред. С. Джейкобсон. Фэрбенкс: Центр изучения коренных языков Аляски, 2004. 369 с.
  3. Вахтин Н.Б. Морфология глагольного словоизменения в юпикских (эскимосских) языках / Российская академия наук, Институт лингвистических исследований. СПб.: Нестор, 2007. 123 c.
  4. Kanuparthi N., Inumella A., Sharma D.M. Hindi Derivational Morphological Analyzer // Proceedings of the Twelfth Meeting of the Special Interest Group on Computational Morphology and Phonology. Montreal: Association for Computational Linguistics, 2012. P. 10–16.
  5. Kessikbayeva G., Cicekli I. Rule Based Morphological Analyzer of Kazakh Language // Proceedings of the 2014 Joint Meeting of SIGMORPHON and SIGFSM. Baltimore: Association for Computational Linguistics, 2014. P. 46–54.
  6. Khalifa S., Hassan S., Habash N. A Morphological Analyzer for Gulf Arabic Verbs // Proceedings of the Third Arabic Natural Language Processing Workshop. Valencia: Association for Computational Linguistics, 2017. P. 35–45.
  7. Forbes C., Nicolai G., Silfverberg M. An FST morphological analyzer for the Gitksan language // Proceedings of the 18th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology. Online: Association for Computational Linguistics, 2021. P. 188–197.
  8. Merzhevich T., Ferraz Gerardi F. Introducing YakuToolkit. Yakut Treebank and Morphological Analyzer // Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages. Marseille: European Language Resources Association, 2022. P. 185–188.
  9. Koskenniemi K. Two-level Morphology. A General Computational Model for Word-Form Recognition and Production. Helsinki: University of Helsinki, Department of General Linguistics, 1983.
  10. Karttunen L. KIMMO: A General Morphological Processor // Texas Linguistics Forum. 1983. Vol. 22. P. 217–228.
  11. Antworth E.L. PC-KIMMO: a two-level processor for morphological analysis. Dallas: Summer Institute of Linguistics, 1990.
  12. Ritchie G.D., Russell G. J., Black A. W., Pulman S. G. Computational Morphology. Practical Mechanisms for the English Lexicon. Cambridge: The MIT Press, 1991.
  13. Swanson D., Howell N. Lexd: A finite-state lexicon compiler for non-suffixational morphologies // Multilingual Facilitation. 2021. P. 133–146.
  14. Karttunen L., Beesley K. R. Two-level rule compiler. Palo Alto: Xerox Corporation, Palo Alto Research Center, 1992.
  15. Lindén K., Axelson E., Hardwick S., Pirinen T.A., Silfverberg M. HFST – framework for compiling and applying morphologies // Systems and Frameworks for Computational Morphology: Second International Workshop, SFCM 2011. Berlin: Springer, 2011. P. 67–85.
  16. Chen E., Schwartz L. A morphological analyzer for St. Lawrence island / Central Siberian yupik // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».