Субъектозависимый метод обнаружения атак на биометрическое предъявление в системах распознавания диктора на основе обнаружения аномалий

Обложка

Цитировать

Полный текст

Аннотация

Основная тенденция, присущая современным исследованиям в области обнаружения атак на биометрическое предъявление, заключается в том, что в большинстве работ применяется субъектонезависимый подход. Тем не менее, существует ряд исследований, свидетельствующих о перспективности применения субъектозависимого подхода, который подразумевает использование информации о предполагаемой личности субъекта для увеличения точности обнаружения спуфинга. В связи с этим, цель данной работы – реализация субъектозависимого метода обнаружения атак на биометрическое предъявление в системах распознавания диктора на основе обнаружения аномалий, а также его экспериментальная оценка применительно к задаче обнаружения синтезированной речи и преобразованного голоса. Для извлечения признаков используются искусственные нейронные сети, предобученные для задач обнаружения атак на биометрическое предъявление, распознавания диктора и распознавания звуковых паттернов. В качестве классификаторов применяется ряд моделей обнаружения аномалий, каждая из которых обучается на подлинных данных целевого диктора. Экспериментальная оценка предложенного метода с использованием набора данных ASVspoof 2019 LA показывает, что лучшая субъектозависимая система обнаружения атак на биометрическое предъявление, использующая нейронную сеть, предобученную для распознавания дикторов, обеспечивает EER (Equal Error Rate, равный процент ошибок) равный 4.74%. Данный результат свидетельствует о том, что признаки, извлечённые сетями, предобученными для распознавания диктора, содержат полезную информацию для обнаружения атак на биометрическое предъявление. Кроме того, предложенный метод позволил увеличить точность трёх базовых систем ОАБП, предназначенных для обнаружения синтезированного голоса. При проведении экспериментов с двумя базовыми системами на наборе данных ASVspoof 2019 LA улучшение EER составило 7.1% и 9.2%, а min t-DCF – 4.6%, относительно исходного результата. При проведении экспериментов с третьей базовой системой на наборе данных ASVspoof 2021 LA улучшение EER составило 3.9% относительно исходного результата с незначительным улучшением min t-DCF.

Об авторах

М. В Евсюков

Кубанский государственный технологический университет

Email: michael.evsyukov@gmail.com
улица Московская 2

Список литературы

  1. Bai Z., Zhang X.-L. Speaker Recognition Based on Deep Learning: An overview // Neural Networks. 2021. vol. 140. pp. 65–99. doi: 10.1016/j.neunet.2021.03.004.
  2. Wang X., Yamagishi J. A Practical Guide to Logical Access Voice Presentation Attack Detection // Frontiers in Fake Media Generation and Detection. Singapore: Springer. 2022. pp. 169–214. doi: 10.1007/978-981-19-1524-6_8.
  3. ГОСТ Р 58624.1-2019. Информационные технологии. Биометрия. Обнаружение атаки на биометрическое предъявление. Часть 1. Структура. М.: Стандартинформ, 2019. 16 с.
  4. Chettri B., Sturm B.L. A Deeper Look at Gaussian Mixture Model Based Anti-Spoofing Systems // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2018. pp. 5159–5163. doi: 10.1109/ICASSP.2018.8461467.
  5. Wei L., Long Y., Wei H., Li Y. New Acoustic Features for Synthetic and Replay Spoofing Attack Detection // Symmetry. 2022. vol. 14. no. 2. doi: 10.3390/sym14020274.
  6. Balamurali B.T., Lin K.E., Lui S., Chen J.-M., Herremans D. Toward Robust Audio Spoofing Detection: A Detailed Comparison of Traditional and Learned Features // IEEE Access. 2019. vol. 7. pp. 84229–84241. doi: 10.1109/ACCESS.2019.2923806.
  7. Марковников Н.М., Кипяткова И.С. Аналитический обзор интегральных систем распознавания речи // Труды СПИИРАН. 2018. № 3(58). C. 77–110. doi: 10.15622/sp.58.4.
  8. Hua G., Teoh A.B.J., Zhang H. Towards End-To-End Synthetic Speech Detection // IEEE Signal Processing Letters. 2021. vol. 28. pp. 1265–1269. doi: 10.1109/LSP.2021.3089437.
  9. Wang X., Delgado H., Tak H., Jung J., Shim H., Todisco M., Kukanov I., Liu X., Sahidullah M., Kinnunen T., Evans N., Lee K.A., Yamagishi J. ASVspoof 5: Crowdsourced Speech Data, Deepfakes, and Adversarial Attacks at Scale // arxiv preprint: arXiv:2408.08739v1. 2024.
  10. Novoselov S., Kozlov A., Lavrentyeva G., Simonchik K., Shchemelinin V. STC Anti-spoofing Systems for the ASVspoof 2015 Challenge // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2016. pp. 5475–5479. doi: 10.1109/ICASSP.2016.7472724.
  11. Lavrentyeva G., Novoselov S., Malykh E., Kozlov A., Kudashev O., Shchemelinin V. Audio Replay Attack Detection with Deep Learning Frameworks // Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech. 2017. pp. 82–86. doi: 10.21437/Interspeech.2017-360.
  12. Lavrentyeva G., Novoselov S., Tseren A., Volkova M., Gorlanov A., Kozlov A. STC Antispoofing Systems for the ASVspoof2019 Challenge // Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech. 2019. pp. 1033–1037. doi: 10.21437/Interspeech.2019-1768.
  13. Tomilov A., Svishchev A., Volkova M., Chirkovskiy A., Kondratev A., Lavrentyeva G. STC Antispoofing Systems for the ASVspoof2021 Challenge // Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech. 2021. pp. 61–67. doi: 10.21437/ASVSPOOF.2021-10.
  14. Suthokumar G., Sriskandaraja K., Sethu V., Ambikairajah E., Li H. An Analysis of Speaker Dependent Models in Replay Detection // APSIPA Transactions on Signal and Information Processing. 2020. vol. 9. no. 1. doi: 10.1017/ATSIP.2020.9.
  15. Евсюков М.В., Путято М.М., Макарян А.С. Исследование различимости подлинного и синтезированного голоса дикторов // Вопросы кибербезопасности. 2024. № 2(60). С. 44–52. doi: 10.21681/2311-3456-2024-2-44-52.
  16. Евсюков М.В., Путято М.М., Макарян А.С., Черкасов А.Н. Оценка точности субъектозависимого подхода к обнаружению синтезированного голоса // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2024. № 1. С. 77–93. doi: 10.17308/sait/1995-5499/2024/1/77-93.
  17. Castan D., Rahman M.H., Bakst S., Cobo-Kroenke C., McLaren M., Graciarena M., Lawson A. Speaker-Targeted Synthetic Speech Detection // Proc. of The Speaker and Language Recognition Workshop (Odyssey 2022). 2022. pp. 62–69. doi: 10.21437/Odyssey.2022-9.
  18. Zhang Y., Jiang F., Duan Z. One-Class Learning Towards Synthetic Voice Spoofing Detection // IEEE Signal Processing Letters. 2021. vol. 28. pp. 937–941. doi: 10.1109/LSP.2021.3076358.
  19. Brummer N., Swart A., Mosner L., Silnova A., Plchot O., Stafylakis T., Burget L. Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings // Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech. 2022. pp. 1446–1450. doi: 10.21437/Interspeech.2022-731.
  20. Liu X., Sahidullah M., Lee K.A., Kinnunen T. Speaker-Aware Anti-spoofing // Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech. 2023. pp. 2498–2502. doi: 10.21437/Interspeech.2023-1323.
  21. Jung J.W. Heo H.S., Tak H., Shim H.J., Chung J.S., Lee B.J., Yu H.J., Evans N. AASIST: Audio Anti-Spoofing Using Integrated Spectro-Temporal Graph Attention Networks // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2022. pp. 6367–6371. doi: 10.1109/ICASSP43922.2022.9747766.
  22. Fatemifar S., Arashloo S.R., Awais M., Kittler J. Client-Specific Anomaly Detection for Face Presentation Attack Detection // Pattern Recognition. 2020. vol. 112. no. 8. doi: 10.1016/j.patcog.2020.107696.
  23. Seliya N., Zadeh A.A., Khoshgoftaar T.M. A Literature Review on One-Class Classification and its Potential Applications in Big Data // Journal of Big Data. 2021. vol. 8. no. 1. doi: 10.1186/s40537-021-00514-x.
  24. Khan S., Madden M. A Survey of Recent Trends in One Class Classification // Artificial Intelligence and Cognitive Science, Lecture Notes in Computer Science. 2009. vol. 6206. pp. 188–197. doi: 10.1007/978-3-642-17080-5_21.
  25. Villalba J., Miguel A., Ortega A., Lleida E. Spoofing Detection with DNN and One-Class SVM for the ASVspoof 2015 Challenge // Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech. 2015. pp. 2067–2071. doi: 10.21437/interspeech.2015-468.
  26. Amorim L.B.V., Cavalcanti G.D.C., Cruz R.M.O. The Choice of Scaling Technique Matters for Classification Performance // Applied Soft Computing. 2023. vol. 133. doi: 10.1016/j.asoc.2022.109924.
  27. Wang C., Xu R., Xu S., Meng W., Zhang X. CNDesc: Cross Normalization for Local Descriptors Learning // IEEE Transactions on Multimedia. 2022. vol. 99. doi: 10.1109/TMM.2022.3169331.
  28. Dorabiala O., Aravkin A.Y., Kutz J.N. Ensemble Principal Component Analysis // IEEE Access. 2024. vol. 12. pp. 6663–6671. doi: 10.1109/ACCESS.2024.3350984.
  29. Tak H., Todisco M., Wang X., Jung J., Yamagishi J., Evans N. Automatic Speaker Verification Spoofing and Deepfake Detection Using Wav2vec 2.0 and Data Augmentation // Proc. of The Speaker and Language Recognition Workshop (Odyssey 2022). 2022. pp. 112–119. doi: 10.21437/Odyssey.2022-16.
  30. Wang X. et al. ASVspoof 2019: A Large-Scale Public Database of Synthesized, Converted and Replayed Speech // Computer Speech & Language. 2020. vol. 64. doi: 10.1016/j.csl.2020.101114.
  31. Yamagishi J., Wang X., Todisco M., Sahidullah M., Patino J., Nautsch A., Liu X., Lee K.A., Kinnunen T., Evans N., Delgado H. ASVspoof 2021: accelerating progress in spoofed and deepfake speech detection // Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech. 2021. pp. 47–54. doi: 10.21437/asvspoof.2021-8.
  32. Ge W., Tak H., Todisco M., Evans N. On the Potential of Jointly-Optimised Solutions to Spoofing Attack Detection and Automatic Speaker Verification // Proceedings of the 6th International Conference, IberSPEECH. 2022. pp. 51–55. doi: 10.21437/iberspeech.2022-11.
  33. Ding S., Chen T., Gong X., Zha W., Wang Z. AutoSpeech: Neural Architecture Search for Speaker Recognition // Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech. 2020. pp. 916–920. doi: 10.21437/Interspeech.2020-1258.
  34. Xie W., Nagrani A., Chung J.S., Zisserman A. Utterance-Level Aggregation for Speaker Recognition in the Wild // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. pp. 5791–5795. doi: 10.1109/ICASSP.2019.8683120.
  35. Ravanelli M., Bengio Y. Speaker Recognition from Raw Waveform with SincNet // IEEE Spoken Language Technology Workshop (SLT). 2018. pp. 1021–1028. doi: 10.1109/SLT.2018.8639585.
  36. Jung J.W., Kim Y., Heo H.S., Lee B.-J., Kwon Y., Son Chung J.S. Pushing the Limits of Raw Waveform Speaker Recognition // Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech. 2022. pp. 2228–2232. doi: 10.21437/Interspeech.2022-126.
  37. Nagraniy A., Chungy J.S., Zisserman A. VoxCeleb: A large-scale speaker identification dataset // Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech. 2017. pp. 2616–2620. doi: 10.21437/Interspeech.2017-950.
  38. Chung J.S., Nagrani A., Zisserman A. VoxCeleb2: Deep Speaker Recognition // Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech. 2018. pp. 1086–1090. doi: 10.21437/Interspeech.2018-1929.
  39. Panayotov V., Chen G., Povey D., Khudanpur S. LibriSpeech: An ASR Corpus Based on Public Domain Audio Books // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015. pp. 5206–5210. doi: 10.1109/ICASSP.2015.7178964.
  40. Kong Q., Cao Y., Iqbal T., Wang Y., Wang W., Plumbley M.D. PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition // IEEE/ACM Transactions on Audio Speech and Language Processing. 2020. vol. 28. pp. 2880–2894. doi: 10.1109/TASLP.2020.3030497.
  41. Gemmeke G.F., Ellis D.P.W., Freedman D., Jansen A., Lawrence W., Moore R.C. Audio Set: An Ontology and Human-Labeled Dataset for Audio Events // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2017. pp. 776–780. doi: 10.1109/ICASSP.2017.7952261.
  42. Hosna A., Merry E., Gyalmo J., Alom Z., Aung Z., Azim M.A. Transfer Learning: A Friendly Introduction // Journal of Big Data. 2022. vol. 9. no. 1. doi: 10.1186/s40537-022-00652-w.
  43. Januzaj Y., Luma A. Cosine Similarity – A Computing Approach to Match Similarity Between Higher Education Programs and Job Market Demands Based on Maximum Number of Common Words // International Journal of Emerging Technologies in Learning. 2022. vol. 17. no. 12. pp. 258–268. doi: 10.3991/ijet.v17i12.30375.
  44. Ghorbani H. Mahalanobis Distance and its Application for Detecting Multivariate Outliers // Facta Universitatis, Series: Mathematics and Informatics. 2019. vol. 34. no. 3. pp. 583–595. doi: 10.22190/fumi1903583g.
  45. Alegre F., Amehraye A., Evans N. A One-Class Classification Approach to Generalised Speaker Verification Spoofing Countermeasures Using Local Binary Patterns // IEEE 6th International Conference on Biometrics: Theory, Applications and Systems (BTAS). 2013. pp. 1–8. doi: 10.1109/BTAS.2013.6712706.
  46. Scrucca L. Entropy-Based Anomaly Detection for Gaussian Mixture Modeling // Algorithms. 2023. vol. 16. no. 4. doi: 10.3390/a16040195.
  47. Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker Verification Using Adapted Gaussian Mixture Models // Digital Signal Processing: A Review Journal. 2000. vol. 10. no. 1-3. pp. 19–41. doi: 10.1006/dspr.1999.0361.
  48. Liu F.T., Ting K.M., Zhou Z.H. Isolation forest // Proceedings of the Eighth IEEE International Conference on Data Mining (ICDM). 2008. pp. 413–422. doi: 10.1109/ICDM.2008.17.
  49. Hao B., Hei X. Voice Liveness Detection for Medical Devices // Design and Implementation of Healthcare Biometric Systems. 2019. pp. 109–136. doi: 10.4018/978-1-5225-7525-2.ch005.
  50. Kinnunen T., Lee K.A., Delgado H., Evans N., Todisco M., Sahidullah M., Yamagishi J., Reyonolds D.A. t-DCF: a Detection Cost Function for the Tandem Assessment of Spoofing Countermeasures and Automatic Speaker Verification // Proc. The Speaker and Language Recognition Workshop (Odyssey 2018), 2018. pp. 312–319.
  51. Hazra A. Using the Confidence Interval Confidently // Journal of Thoracic Disease. 2017. vol. 9. no. 10. doi: 10.21037/jtd.2017.09.14.
  52. Martin A., Doggington G., Kamm T., Ordowski M. Przybocki M. The DET curve in assessment of detection task performance // Proceedings of the 5th European Conference on Speech Communication and Technology, Eurospeech (ISCA). 1997. pp. 1895–1898. doi: 10.21437/Eurospeech.1997-504.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».