Methods for Cross-Lingual Retrieval of Similar Documents in Legal Domain Based on Machine Learning

Cover Page

Cite item

Full Text

Abstract

The need of studying the international experience to improve legislation cause the need of information retrieval systems to be good in multilingual legal domain. One of the possible solutions is thematically similar document retrieval. However, there is an important task to transfer between languages to let the user put a document on the one language and get the search result on another one. The paper describes different approaches to solve this problem: from classical mediator-based methods to modern procedures of distributive semantics. As a test collection, we have used the UN digital library. The combination of the extended translation model and BM25 ranking function demonstrates the best results.

About the authors

Vladimir V. Zhebel

Limited liability company «Technologies for systems analysis»

Author for correspondence.
Email: zhebel@isa.ru

Research fellow

Russian Federation, Moscow

Dmitry A. Devyatkin

Federal Research Center «Computer Science and Control» of the Russian Academy of Sciences

Email: devyatkin@isa.ru

Research fellow

Russian Federation, Moscow

Denis V. Zubarev

Federal Research Center «Computer Science and Control» of the Russian Academy of Sciences

Email: zubarev@isa.ru

Junior research fellow

Russian Federation, Moscow

Ilya V. Sochenkov

Federal Research Center «Computer Science and Control» of the Russian Academy of Sciences; Innopolis University; Ivannikov Institute for System Programming of the Russian Academy of Sciences

Email: sochenkov@isa.ru

Candidate of physical and mathematical sciences, Leading Expert Consultant, Lead Research Fellow, Junior research technician

Russian Federation, Moscow; Kazan; Moscow

References

  1. Dini L., Peters W., Liebwald D., Schweighofer E., Mommers L., Voermans W. Cross-lingual legal information retrieval using a WordNet architecture," in Proceedings of the 10th international conference on Artificial intelligence and law. Bologna, Italy. 2005.
  2. Abramova N.N., Globus E.I. Formation of multilingual dictionaries and their use in cross-language information retrieval. pp. 18-37, 2005. P. Curtoni, L. Dini, V. D. Tomaso, L. Mommers, W. Peters, P. Quaresma, E. Schweighofer and D. Tiscornia, Semantic access to multilingual legal information.1999.
  3. Curtoni P., Dini L., Tomaso V. D., Mommers L., Peters W., Quaresma P., Schweighofer E., Tiscornia D. Semantic access to multilingual legal information. 1999.
  4. Oard D.W., Hackett P. Document translation for crosslanguage text retrieval at the University of Maryland. The 6th Text Retrieval Convference (TREC-6). E.M. Voorchees and D.K. Harman. 1998.
  5. McCarley J.S. Should we translate the documents or the queries in cross-language information retrieval? ACL’99: Proceedings of the 37 annual meeting of the Association for Computational Linguistics on Computational Linguistics. 1999. P. 208-214.
  6. Dumais S., Letsche T., Littman M., Landauer T. Automatic cross-language retrieval using latent semantic indexing. AAAI Spring Symposium on Cross-Language Text and Speech Retrieval. 1997. P. 18-24.
  7. Chandar A.P.S., Lauly S., Larochelle H., Khapra M., Ravindran B., Raykar V.C., SahaA. An autoencoder approach to learning bilingual word representations. Proc. 27th International Conference on Neural Information Processing Systems. 2014. P.1853-1861.
  8. Mueller J., Thyagarajan A. Siamese recurrent architectures for learning sentence similarity. Proc. 30th AAAI Conference on artificial intelligical intelligence. 2016. P.2786-2792.
  9. Seki K. On cross-lingual text similarity using neural translation models. Journal of Information Processing. Vol. 27. 2019. P.315-321.
  10. Zhebel, V., Kreskin, A., Sochenkov, I.: Cross-lingual document analysis in legal domain. Trudy Instituta sistemnogo analiza rossiyskoy akademii nauk. 2020.70(1). P. 24–29.
  11. Potthast M., Barrón-Cedeño A., Stein B., Rosso P. Crosslanguage plagiarism detection. Language Resources and Evaluation.2011.45(1). P.45–62.
  12. Sochenkov I.V., Zubarev D.V., Tikhomirov I.A. Exploratory patent search. Informatics and its Applications.2018. 12 (1). P. 89-94.
  13. Mikolov, T., Chen, K., Corrado G., and Dean, J.: Efficient estimation of word representations in vector space. In: ICLR Workshop. 2013.
  14. Rekabsaz N., Lupu M., Hanbury A., Zuccon G. Generalizing translation models in the probabilistic relevance framework. In: Proceedings of CIKM. 2016.
  15. Robertson S.E. et al. Okapi at TREC-3.0. In: Proceedings of the Third Text REtrieval Conference (TREC 1994). Gaithersburg, USA, November. 1994.
  16. Vulić I., Moens M.F. Bilingual word embeddings from non-parallel document-aligned data applied to bilingual lexicon induction. In: Proc. of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 2015. Vol. 2. P.719–725.
  17. Zubarev D.V., Sochenkov I.V. Cross-lingual similar document retrieval methods. Proceedings of the Institute for System Programming. 2019. 31 (5). P.127–136.
  18. Tiedemann J. Parallel Data, Tools and Interfaces in OPUS. In: Proc. of the language resources and evaluation (LREC). 2012. P.2214-2218.
  19. Artetxe M., Schwenk H. Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond. Transactions of the Association for Computational Linguistics. 2019.7. P.597–610.
  20. Johnson J., Douze M., Jégou H. Billion-scale similarity search with GPUs. arXiv:1702.08734. 2017.
  21. Devyatkin D., Pogorelskaya Y., Yadrintsev V., Sochenkov Detection of Missed Links in Large Legal Corpora. 2021 Ivannikov Memorial Workshop (IVMEM). 2021. P.23-27.
  22. Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. 2019, P.3982–3992.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».