Analysis of Idioms in Neural Machine Translation: A Data Set

Cover Page

Cite item

Full Text

Abstract

There has been a debate in various circles of the public for decades about whether a "machine can replace a person." This also applies to the field of translation. And so far, some are arguing, others are "making a dream come true." Therefore, now more and more research is aimed at improving machine translation systems (hereinafter MP). To understand the advantages and disadvantages of MP systems, it is necessary, first of all, to understand their algorithms. At the moment, the main open problem of neural machine translation (NMP) is the translation of idiomatic expressions. The meaning of such expressions does not consist of the meanings of their constituent words, and NMT models tend to translate them literally, which leads to confusing and meaningless translations. The research of idioms in the NMP is limited and difficult due to the lack of automatic methods. Therefore, despite the fact that modern NMP systems generate increasingly high-quality translations, the translation of idioms remains one of the unsolved tasks in this area. This is due to the fact that idioms, as a category of verbose expressions, represent an interesting linguistic phenomenon when the general meaning of an expression cannot be made up of the meanings of its parts. The first important problem is the lack of special data sets for learning and evaluating the translation of idioms. In this paper, we solve this problem by creating the first large-scale dataset for translating idioms. This data set is automatically extracted from the German translation corpus and includes a target set in which all sentences contain idioms, and a regular training corpus in which sentences containing idioms are marked. We have released this dataset and are using it to conduct preliminary experiments on NMP as a first step towards improving the translation of idioms.

About the authors

Nina Vasil'evna Skacheva

Email: Sollo_sk@mail.ru
ORCID iD: 0000-0003-2628-6767

References

  1. Koehn P. Europarl: A Parallel Corpus for Statistical Machine Translation // School of Informatics University of Edinburgh, Scotland. 2005. P. 79-86.
  2. Национальный корпус русского языка. URL: https://ruscorpora.ru/search?search=CgkyBwgFEgNlbmcwAQ%3D%3D (дата обращения 04.03.2024)
  3. Brown P. F., Pietra S. A. D., Pietra V. J. D., Mercer R. L. The mathematics of statistical machine translation. Computational Linguistics. 1993. 19(2), p. 263-313.
  4. Philipp Koehn, Franz J. Och, and Daniel Marcu.. Statistical Phrase-Based Translation. In Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics. 2003. p. 127-133. URL: https://aclanthology.org/N03-1017.pdf (дата обращения 05.03.2024)
  5. Гудков В. Ю., Гудкова Е.Ф. N-граммы в лингвистике // Вестник ЧелГУ. 2011. № 24.
  6. Лингвистический корпус данных. URL: https://catalog.ldc.upenn.edu/byyear (дата обращения 05.03.2024)
  7. Жданов А. Е., ДоросинскийЛ.Г. Голосовой замок // Ural Radio Engineering Journal. 2017. Vol. 1, No. 1. P. 80-90.
  8. Daniel Torregrosa, Nivranshu Pasricha, Bharathi Raja Chakravarthi, Maraim Masoud, Mihael Arcan. Leveraging Rule-Based Machine Translation Knowledge for Under-Resourced Neural Machine Translation Models // Proceedings of MT Summit XVII, Dublin, 2019, volume 2. URL: https://aclanthology.org/W19-6725.pdf (дата обращения: 19.08.2024).
  9. Peter Т. Systran as a multilingual machine translation system // Overcoming the language barrier, 3-6 May 1977, Vol. 1. URL: https://www.mt-archive.net/70/CEC-1977-Toma.pdf (дата обращения: 19.08.2024).
  10. Salton G., Ross R., and Kelleher J. (2014). An empirical study of the impact of idioms on phrase based statistical machine translation of english to brazilian-portuguese // In Proceedings of the 3rd Workshop on Hybrid Approaches to Machine Translation (HyTra). 2014. P. 36-41.
  11. Luong T., Pham H., Manning C. D. (2015). Effective approaches to attention-based neural machine translation // In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal. 2015. P. 1412-1421.
  12. Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M., Bertoldi N., Cowan B., Shen W., Moran C., Zens R. Moses: Open source toolkit for statistical machine translation // In Proceedings of the 45th annual meeting of the ACL on interactive poster and demonstration sessions. 2007. P. 177-180.
  13. Papineni K., Roukos S., Ward T., and Zhu W.J. Bleu: a method for automatic evaluation of machine translation. In Proceedings of 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, Pennsylvania, USA. 2002. P. 311-318.
  14. Dyer C., Chahuneau V., and Smith N. A. A simple, fast, and effective reparameterization of ibm model 2 // In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies Atlanta, Georgia, June. 2013 p. 644-646.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».