Дообучение модели на основе архитектуры Transformer для нормализации корпуса средневековых текстов на немецком языке XIV-XV вв. из орденской Пруссии
- Авторы: Котов А.С.1
-
Учреждения:
- Национальный исследовательский Томский государственный университет
- Выпуск: № 3 (2025)
- Страницы: 128-140
- Раздел: Статьи
- URL: https://journal-vniispk.ru/2585-7797/article/view/361947
- DOI: https://doi.org/10.7256/2585-7797.2025.4.75275
- EDN: https://elibrary.ru/XOHQXO
- ID: 361947
Цитировать
Полный текст
Аннотация
Статья посвящена методам автоматической нормализации текстов на средневерхненемецком и раннем нововерхненемецком языка для применения NLP в исследованиях по средневековой истории. В статьей представлен обзор имеющихся подходов автоматической нормализации исторических текстов на немецком языке. Обозначены проблемы нормализации средневековых немецких текстов: особенности применения словарей подстановок, правил замены. Описаны ограничения применения таких подходов и необходимость учёта целей нормализации. Нейроязыковые модели определены как наиболее перспективные для автоматической нормализации. В исследовании проведено сравнение эффективности применения имеющихся нейроязыковых моделей (NMT) в отношении текстов на средневерхненемецком и раннем нововерхненемецком. Показана низкая эффективность использования NMT, обученных на выборке текстов Нового и Новейшего времени. С учетом представленных в литературе обзоров утверждается необходимость подготовки NMT в зависимости от целей и корпуса. Для нормализации текстов XIV–XV вв., созданных в орденской Пруссии, дообучена нейроязыковая модель на основе архитектуры Transformer (BART) и представлена ее эффективность в сравнении других моделей. Модель обучена на собственной выборке пары слов: оригинальное- нормализованное, список составляет 6570 пар слов. Условия дообучения модели: Epoch = 28; Batch = 50. Для нормализации корпуса текстов на трех исторических формах немецкого языка выбрана модель DTAEC Type Normalizer. Проведено сравнение эффективности нормализации дообученной модели с уже имеющимися моделями, обученными на немецких текстах Нового и Новейшего времени по метрикам Accurancy, Accurancy OOV, CER и Levenshtein distance. Дообученная модель показывает значительную эффективность по сравнению с другими моделями. Предложено к ознакомлению одно нормализованное при помощи модели предложение и проведено сравнение с эталоном. Выявлены факты "галлюцинаций" дообученной модели. При Accurancy и Accurancy OOV равном 89,6 признано перспективным использование этого метода. Однако, выявленные недостатки при нормализации текста указывают на необходимость использовать дополнительные методы нормализации, такие как лемматизиция.
Ключевые слова
Об авторах
Антон Сергеевич Котов
Национальный исследовательский Томский государственный университет
Email: waidelot@yandex.ru
ORCID iD: 0000-0003-3036-5222
доцент; кафедра истории древнего мира, средних веков и методологии истории;
Список литературы
Burch Th. Infrastrukturprojekte zur digitalen Lexikographie. Vorgestellt am Beispiel des Zentrums für Historische Lexikographie // Digitale Mediävistik. Perspektiven der Digital Humanities für die Altgermanistik / Hrsg. Gabriel Lienert, Elisabeth Hamm, Joachim Hausmann, Albrecht Viehhauser. Oldenburg, 2022. (BmE Themenheft 12). S. 97-108. Acten der Ständetage Preußens unter der Herrschaft des Deutschen Ordens / Hrsg. von M. Toeppen. Bd. I-V. Leipzig, 1878–1886. Ehrismann O., Rmange H. Mittelhochdeutsch: Eine Einfürung in das Studium der deutschen Sprachgeschichte. Tübingen, 1976. S. 28-29. Primavesi O., Bleuler A.K. Einleitung: Lachmanns Programm einer historischen Textkritik und seine Wirkung // Lachmanns Erbe. Editionsmethoden in klassischer Philologie und germanistischer Mediävistik. Berlin, 2022. S. 11-107. Kragl F. Normalmittelhochdeutsch. Theorieentwurf einer gelebten praxis // Zeitschrift für Deutsches Altertum und Deutsche Literatur. 2015. Т. 144, № 1. S. 1-27. Atzenhofer-Baumgartner F., Kovacs T. Is text normalization relevant for classifying medieval charters? // Antonacopoulos A., et al. Linking Theory and Practice of Digital Libraries. TPDL 2024. Lecture Notes in Computer Science. V. 15178. Springer, Cham, 2024. P. 126-127. Kragl F. Normalmittelhochdeutsch. Theorieentwurf einer gelebten praxis // Zeitschrift für Deutsches Altertum und Deutsche Literatur. 2015. Т. 144, № 1. S. 26. Ehrismann O., Rmange H. Mittelhochdeutsch: Eine Einfürung in das Studium der deutschen Sprachgeschichte. Tübingen, 1976. S. 45-48. Fix H. Automatische Normalisierung – Vorarbeit zur Lemmatisierung eines diplomatischen altisländischen Textes // Maschinelle Verarbeitung altdeutscher Texte. Beiträge zum dritten Symposion, Тübingen, 17–19. Februar 1977. Ed. by Paul Sappler, Erich Straßner. Тübingen, 1980. S. 92-100. Bollmann M. A Large-Scale Comparison of Historical Text Normalization Systems // Proceedings of NAACL-HLT. Minneapolis, 2019. P. 3885. Bawden R., Poinhos J., Kogkitsidou E., Gambette Ph., Sagot B., Gabay S. Automatic Normalisation of Early Modern French // Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022). Marseille, 2022. P. 3354. Korchagina N. Normalizing Medieval German Texts: from rules to deep learning // Proceedings of the NoDaLiDa 2017 Workshop on Processing Historical Language. Gothenburg, 2017. P. 16. Bollmann M. A Large-Scale Comparison of Historical Text Normalization Systems // Proceedings of NAACL-HLT. Minneapolis, 2019. P. 3893. Korchagina N. Normalizing Medieval German Texts: from rules to deep learning // Proceedings of the NoDaLiDa 2017 Workshop on Processing Historical Language. Gothenburg, 2017. P. 15. Bollmann M. A Large-Scale Comparison of Historical Text Normalization Systems // Proceedings of NAACL-HLT. Minneapolis, 2019. P. 3886-3887. Fix H. Automatische Normalisierung – Vorarbeit zur Lemmatisierung eines diplomatischen altisländischen Textes // Maschinelle Verarbeitung altdeutscher Texte. Beiträge zum dritten Symposion, Тübingen, 17–19. Februar 1977. Ed. by Paul Sappler, Erich Straßner. Тübingen, 1980. S. 92-100. Rayson P., Archer D., Smith N. VARD versus Word: A comparison of the UCREL variant detector and modern spell checkers on English historical corpora // Proceedings of the Corpus Linguistics Conference CL2005. Birmingham, 2005. URL: https://eprints.lancs.ac.uk/id/eprint/12686/ (дата обращения: 02.08.2025). Gotscharek A., Reffle U., Ringsltetter C., Schulz K.U., Neumann A. Towards information retrieval on historical document collections: The role of matching procedures and special lexica // International Journal on Document Analysis and Recognition. 2011. Т. 14, № 2. P. 159-171. doi: 10.1007/s10032-010-0132-6 EDN: GWJMQK. Korchagina N. Normalizing Medieval German Texts: from rules to deep learning // Proceedings of the NoDaLiDa 2017 Workshop on Processing Historical Language. Gothenburg, 2017. P. 12-17. Bollmann M., Bingel J., Søgaard A. Learning attention for historical text normalization by learning to pronounce // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. V. 1. Vancouver, 2017. P. 332-344. Tang G., Cap F., Pettersson E., Nivre J. An Evaluation of Neural Machine Translation Models on Historical Spelling Normalization // Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, 2018. P. 1320-1331. Wu L., Cheng S., Wang M., Li L. Language Tags Matter for Zero-Shot Neural Machine Translation // Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. С. 3001-3007. URL: https://aclanthology.org/2021.findings-acl.264.pdf Bollmann M. A Large-Scale Comparison of Historical Text Normalization Systems // Proceedings of NAACL-HLT. Minneapolis, 2019. P. 3889. Bollmann M. A Large-Scale Comparison of Historical Text Normalization Systems // Proceedings of NAACL-HLT. Minneapolis, 2019. P. 3887. Bawden R., Poinhos J., Kogkitsidou E., Gambette Ph., Sagot B., Gabay S. Automatic Normalisation of Early Modern French // Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022). Marseille, 2022. P. 3355-3356. Ehrmanntraut A. Historical German Text Normalization Using Type-and Token-Based Language Modeling // arXiv:2409.02841v2 [cs.CL]. 25 Feb 2025. P. 11-27. URL: https://arxiv.org/abs/2409.02841 (дата обращения: 02.08.2025). Jurish B., Ast H. Using an Alignment-based Lexicon for Canonicalization of Historical Text // Historical Corpora: Challenges and Perspectives. V. 5. Тübingen, 2015. P. 197-208. Atzenhofer-Baumgartner F., Kovacs T. Is text normalization relevant for classifying medieval charters? // Antonacopoulos A., et al. Linking Theory and Practice of Digital Libraries. TPDL 2024. Lecture Notes in Computer Science. V. 15178. Springer, Cham, 2024. P. 130-131. Fix H. Automatische Normalisierung – Vorarbeit zur Lemmatisierung eines diplomatischen altisländischen Textes // Maschinelle Verarbeitung altdeutscher Texte. Beiträge zum dritten Symposion, Тübingen, 17.-19. Februar 1977. Ed. by Paul Sappler, Erich Straßner. Тübingen, 1980. S. 92-100. Acten der Ständetage Preußens unter der Herrschaft des Deutschen Ordens / Hrsg. von M. Toeppen. Bd. III. Leipzig, 1882. S. 635.
Дополнительные файлы

