Use of Pre-Trained Multilingual Models for Karelian Speech Recognition

Cover Page

Cite item

Full Text

Abstract

This paper presents an experimental study aimed at solving the problem of training speech recognition models under conditions of limited available speech and text data. Current approaches to this issue are discussed in detail, particularly the use of pre-trained multilingual models and data augmentation techniques. As part of this study, multilingual models based on Wav2Vec and Whisper were adapted to the Livvi dialect of the Karelian language, and an investigation into the use of an external language model to enhance recognition accuracy was conducted. The paper also describes a specially collected and prepared speech database and a basic recognition system developed using the Kaldi toolkit. Quantitative test results are provided as well, demonstrating the effectiveness of the chosen methods. For instance, Transformer-based models, particularly Wav2Vec, outperformed the baseline models trained using Kaldi software tools. Fine-tuning the Wav2Vec models reduced the word error rate to 24.73% on the validation set and 25.25% on the test set, while a combination of the Wav2Vec-BERT 2.0-based model with an external language model further reduced errors to 17.12% and 17.72%, respectively. This paper is primarily aimed at specialists in the field of automatic speech recognition for low-resource and Balto-Finnic languages. Additionally, the results of this work can be practically applied in field research involving Karelian text transcription. Future work includes expanding the database to improve model adaptation and enhance performance in real-world scenarios.

About the authors

I. S Kipyatkova

St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)

Email: kipyatkova@iias.spb.su
14-th Line V.O. 39

I. A Kagirov

St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)

Email: kagirov@iias.spb.su
14-th Line V.O. 39

M. D Dolgushin

St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)

Email: dolgushin.m@iias.spb.su
14-th Line V.O. 39

References

  1. Кипяткова И.С., Кагиров И.А. Система автоматического распознавания карельской речи // Информационно-управляющие системы. 2023. № 3. С. 16–25.
  2. Kipyatkova I., Kagirov I. Deep Models for Low-Resourced Speech Recognition: Livvi-Karelian Case // Mathematics. 2023. vol. 11. no. 18. doi: 10.3390/math11183814.
  3. Kipyatkova I., Kagirov I. Phone Durations Modeling for Livvi-Karelian ASR // Proceedings 25th International Conference Speech and Computer (SPECOM 2023). Springer LNCS. 2023. vol. 14339. pp. 87–99. doi: 10.1007/978-3-031-48312-7_7.
  4. Kipyatkova I., Kagirov I., Dolgushin M., Rodionova A. Towards a Livvi-Karelian End-to-End ASR System // Proceedings 26th International Conference on Speech and Computer (SPECOM 2024). 2024. vol. 15299. pp. 57–68. doi: 10.1007/978-3-031-77961-9_4.
  5. Кипяткова И.С., Кагиров И.А. Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков // Информатика и автоматизация. 2022. Т. 21. № 4. С. 678–709. doi: 10.15622/ia.21.4.2.
  6. Baevski A., Zhou Y., Mohamed A., Auli M. wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations // Advances in Neural Information Processing Systems. 2020. vol. 33. pp. 12449–12460.
  7. Conneau A., Baevski A., Collobert R., Mohamed A., Auli M. Unsupervised Cross-Lingual Representation Learning for Speech Recognition // Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech’2021). 2021. pp. 2426–2430. doi: 10.21437/Interspeech.2021-329.
  8. Babu A., Wang C., Tjandra A., Lakhotia K., Xu Q., Goyal N., Singh K., Platen von P., Saraf Y., Pino J., Baevski A., Conneau A., Auli M. XLS-R: Self-Supervised Cross-Lingual Speech Representation Learning at Scale // Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech’2022). 2022. pp. 2278–2282.
  9. Pratap V., Tjandra A., Shi B., Tomasello P., Babu A., Kundu S., Elkahky A., Ni Zh., Vyas A., Fazel-Zarandi M., Baevski A., Adi Y., Zhang X., Hsu W.-N., Conneau A., Auli M. Scaling Speech Technology to 1,000+ Languages // Journal of Machine Learning Research. 2024. vol. 25. pp. 1–52.
  10. Poth C., Sterz H., Paul I., Purkayastha S., Engländer L., Imhof T., Vulić I., Ruder S., Gurevych I., Pfeiffer J. Adapters: A unified Library for Parameter-Efficient and Modular Transfer Learning // Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (EMNLP’2023). 2023. pp. 149–160. doi: 10.18653/v1/2023.emnlp-demo.13.
  11. Chung Y.A., Zhang Y., Han W., Chiu C.-C., Qin J., Pang R., Wu Y. W2v-bert: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training // Proceedings of 2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2021). 2021. pp. 244–250. doi: 10.1109/ASRU51503.2021.9688253.
  12. Devlin J., Chang M.W., Lee K., Toutanova K. Bert: Pre-Training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT’2019). 2019. vol. 1. pp. 4171–4186.
  13. Chen S., Wang C., Chen Z., Wu Y., Liu S., Chen Z., Li J., Kanda N., Yoshioka T., Xiao X., Wu J., Zhou L., Ren S., Qian Y., Qian Y., Wu J., Zeng M., Yu X., Wei F. WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing // IEEE Journal of Selected Topics in Signal Processing. 2022. vol. 16. no. 6. pp. 1505–1518.
  14. Barrault L., Chung Y.A., Meglioli M.C., Dale D., Dong N., Duppenthaler M. et al. Seamless: Multilingual Expressive and Streaming Speech Translation // arXiv preprint arXiv:2312.05187. 2023.
  15. Radford A., Kim J.W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust Speech Recognition via Large-Scale Weak Supervision // Proceedings of the 40th International Conference on Machine Learning 2022 (ICML’23). 2023. pp. 28492–28518.
  16. Williams A., Demarco A., Borg C. The applicability of Wav2Vec 2.0 and Whisper for Low-Resource Maltese ASR // Proceedings of the 2nd Annual Meeting of the ELRA/ISCA SIG on Under-resourced Languages (SIGUL’2023). 2023. pp. 39–43.
  17. Kozhirbayev Z. Kazakh Speech Recognition: Wav2vec2.0 vs. Whisper // Journal of Advances in Information Technology. 2023. vol. 14. no. 6. pp. 1382–1389. doi: 10.12720/jait.14.6.1382-1389.
  18. Richardson F., Reynolds D., Dehak N. Deep Neural Network Approaches to Speaker and Language Recognition // IEEE Signal Processing Letters. 2015. vol. 22. no. 10. pp. 1671–1675. doi: 10.1109/LSP.2015.2420092.
  19. Winata G.I., Madotto A., Wu C.S., Fung P. Code-Switching Language Modeling using Syntax-Aware Multi-Task Learning // Proceedings of the Third Workshop on Computational Approaches to Linguistic Code-Switching (CALCS’2018). 2018. pp. 62–67. doi: 10.18653/v1/W18-3207.
  20. Adel H., Vu N.T., Kraus F., Schlippe T., Li H., Schultz T. Recurrent Neural Network Language Modeling for Code Switching Conversational Speech // Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’2013). 2013. pp. 8411–8415. doi: 10.1109/ICASSP.2013.6639306.
  21. Ramanarayanan V., Pugh R., Suenderman-Oeft D. Automatic Turn-Level Language Identification for Code-Switched Spanish-English Dialog // Proceedings of 9th International Workshop on Spoken Dialogue System Technology (IWSDS’2019). 2019. vol. 579. pp. 51–61. doi: 10.1007/978-981-13-9443-0_5.
  22. Mustafa M.B., Yusoof M.A., Khalaf H.K., Abushariah A.A.R.M., Kiah M.L.M., Ting H.N., Muthaiyah S. Code-Switching in Automatic Speech Recognition: The Issues and Future Directions // Applied Sciences. 2022. vol. 12. no. 19. doi: 10.3390/app12199541.
  23. Çetinoğlu Ö., Schulz S., Vu N.T. Challenges of Computational Processing of Code-Switching // Proceedings of the Second Workshop on Computational Approaches to Linguistic Code Switching (CALCS’2016). 2016. pp. 1–11. doi: 10.18653/v1/W16-5801.
  24. Winata G., Aji A.F., Yong Z.X., Solorio T. The Decades Progress on Code-Switching Research in NLP: A Systematic Survey on Trends and Challenges // Findings of the Association for Computational Linguistics (ACL’2023). 2023. pp. 2936–2978. doi: 10.18653/v1/2023.findings-acl.185.
  25. Hsieh I.T., Wu C.H., Wang C.H. Acoustic and Textual Data Augmentation for Code-Switching Speech Recognition in Under-Resourced Language // IEEE Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC’2020). 2020. pp. 302–307.
  26. Chang C.-T., Chuang S.-P., Lee H.-Y. Code-Switching Sentence Generation by Generative Adversarial Networks and its Application to Data Augmentation // Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech’2019). 2019. pp. 554–558. doi: 10.21437/Interspeech.2019-3214.
  27. Chan J.Y.C., Cao H., Ching P.C., Lee T. Automatic recognition of Cantonese-English Code-Mixing Speech // International Journal of Computational Linguistics and Chinese Language Processing. 2009. vol. 14. no. 3. pp. 281–304.
  28. Adel H., Vu N.T., Kirchhoff K., Telaar D., Schultz T. Syntactic and Semantic Features for Code-Switching Factored Language Models // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2015. vol. 23. no. 3. pp. 431–440. doi: 10.1109/TASLP.2015.2389622.
  29. Hermann K.M., Blunsom P. Multilingual Models for Compositional Distributed Semantics // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2014. pp. 58–68. doi: 10.3115/v1/P14-1006.
  30. Conneau A., Khandelwal K., Goyal N., Chaudhary V., Wenzek G., Guzmán F., Grave É., Ott M., Zettlemoyer L., Stoyanov V. Unsupervised Cross-Lingual Representation Learning at Scale // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL’2020). pp. 8440–8451. doi: 10.18653/v1/2020.acl-main.747.
  31. Vüren van J., Niesler T. Improving N-best Rescoring in Under-Resourced Code-Switched Speech Recognition using Pretraining and Data Augmentation // Languages. 2022. vol. 7. no. 3. doi: 10.3390/languages7030236.
  32. Hono Y., Mitsuda K., Zhao T., Mitsui K., Wakatsuki T., Sawada K. Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition // Findings of the Association for Computational Linguistics: ACL 2024. 2024. pp. 13289–13305. doi: 10.18653/v1/2024.findings-acl.787.
  33. Ogunremi T., Manning C.D., Jurafsky D. Multilingual Self-Supervised Speech Representations Improve the Speech Recognition of Low-Resource African Languages with Code Switching // arXiv preprint arXiv:2311.15077. 2023.
  34. Hori T., Cho J., Watanabe S. End-to-end speech recognition with word-based RNN language models // Proceedings of 2018 IEEE Spoken Language Technology Workshop (SLT-2018). 2018. pp. 389–396. doi: 10.1109/SLT.2018.8639693.
  35. Povey D., Ghoshal A., Boulianne G., Burget L., Glembek O., Goel N., Hannemann M., Motlíček O., Qian Y., Schwarz P., Silovský J., Stemmer G., Veselý K. The Kaldi Speech Recognition Toolkit // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2011). 2011. pp. 1–4.
  36. Кипяткова И.С., Родионова А.П., Кагиров И.А., Крижановский А.А. Подготовка речевых и текстовых данных для создания системы автоматического распознавания карельской речи // Учёные записки Петрозаводского государственного университета. 2023. Т. 45. № 5. С. 89–98.
  37. Povey D., Cheng G., Wang Y., Li K., Xu H., Yarmohammadi M., Khudanpur S. Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks // Proceedings of The Annual Conference of the International Speech Communication Association (Interspeech’2018). 2018. pp. 3743–3747. doi: 10.21437/Interspeech.2018-1417.
  38. Saon G., Soltau H., Nahamoo D., Picheny M. Speaker Adaptation of Neural Network Acoustic Models using i-Vectors // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2013). 2013. pp. 55–59. doi: 10.1109/ASRU.2013.6707705.
  39. Stolcke A., Zheng J., Wang W., Abrash V. SRILM at Sixteen: Update and Outlook // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2011). 2011. pp. 5–9.
  40. Enarvi S., Kurimo M. TheanoLM – An Extensible Toolkit for Neural Network Language Modeling // Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech’2016). 2016. pp. 3052–3056. doi: 10.21437/Interspeech.2016-618.
  41. Karpov A., Markov K., Kipyatkova I., Vazhenina D., Ronzhin A. Large Vocabulary Russian Speech Recognition using Syntactico-Statistical Language Modeling // Speech Communication. 2014. vol. 56. pp. 213–228. doi: 10.1016/j.specom.2013.07.004.
  42. Wolf T., et al. Transformers: State-of-the-Art Natural Language Processing // arXiv preprint arXiv:1910.03771. 2019.
  43. Grosz T., Getman Y., Al-Ghezi R., Rouhe A., Kurimo M. Investigating wav2vec2 Context Representations and the Effects of Fine-Tuning, a Case-Study of a Finnish Model // Proceedings of The Annual Conference of the International Speech Communication Association (Interspeech’2023). 2023. pp. 196–200. doi: 10.21437/Interspeech.2023-837.
  44. Hiovain-Asikainen K., Rosa de la J. Developing TTS and ASR for Lule and North Sámi Languages // Proceedings of the 2nd Annual Meeting of the ELRA/ISCA SIG on Under-resourced Languages (SIGUL’2023). 2023. pp. 48–52. doi: 10.21437/SIGUL.2023-11.
  45. Paonessa C., Timmel V., Vogel M., Perruchoud D. Whisper Fine-Tuning for Swiss German: A Data Perspective // Proceedings of the 9th edition of the Swiss Text Analytics Conference. 2024. pp. 192.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».