Детектирование удаленной речи

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

Исследуются амплитудные и фазовые характеристики речевых сигналов, записанных на разном расстоянии от диктора микрофонами различных типов, в свободном пространстве и замкнутом помещении. Отношения средней энергии амплитудного спектра в различных диапазонах частот и средний наклон линейной компоненты фазы демонстрируют различия для слога, записанного вблизи микрофона, и такого же слога, записанного на удалении, и вновь воспроизведенного вблизи от микрофона. Наибольшее различие наблюдается в отношениях средней энергии в диапазонах частот 0–1 и 1–8 кГц, а также 3–4 и 4–6 кГц. Наклон линейной компоненты вычисляется в диапазоне 4–8 кГц. Степень различия зависит от гласного звука.

About the authors

Институт проблем передачи информации, Российская академия наук

Author for correspondence.
Email: vns@iitp.ru
Россия, 127051, Москва, Большой Каретный пер. 19, стр. 1

References

  1. Wu Z., Evans N., Kinnunen T., Yamagishi J., Alegre F., Li H. Spoofing and countermeasures for speaker verification: A survey // Speech Communication. 2015. V. 66. P. 130–153.
  2. Kinnunen T., Sahidullah M., Delgado H., Todisco M., Evans N., Yamagishi J., Lee K.A. The ASVspoof 2017 Challenge: Assessing the Limits of Replay Spoofing Attack Detection // InterSpeech 2017.
  3. Sahidullah M., Delgado H., Todisco M., Kinnunen T., Evans N., Yamagishi J., Lee K.A. Introduction to voice presentation attack detection and recent advances // Handbook of Biometric Anti-Spoofing. 2019. P. 321–361. Springer, Cham.
  4. Lee K.A., Sadjadi O., Li H., Reynolds D. Two decades into Speaker Recognition. Evaluation – are we there yet? // Computer Speech & Language. 2020. V. 61. 101058.
  5. Kamble M.R., Sailor H.B., Patil H.A., Li H. Advances in anti-spoofing: from the perspective of ASVspoof challenges // APSIPA Transactions on Signal and Information Processing. 2020. V. 9. № 1. e2. https://doi.org/10.1017/ATSIP.2019.21
  6. Lau Y.W., Wagner M., Tran D. Vulnerability of speaker verification to voice mimicking // IEEE Int. Symp. Intelligent Multimedia, Video and Speech Proc. 2004. P. 145–148. Hong Kong, 2004.
  7. Campbell J.P. Speaker recognition: a tutorial // Proc. IEEE. 1997. V. 85. P. 1437–1462.
  8. Khodabakhsh A., Mohammadi A., Demiroglu C. Spoofing voice verification systems with statistical speech synthesis using limited adaptation data // Computer Speech and Language. 2017. V. 42. P. 20–37.
  9. Sisman B., Yamagishi J., King S., Li H. An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning // IEEE/ACM Trans. on Audio, Speech and Language Proc. 2021. V. 29. P. 132–157.
  10. Lindberg J., Blomberg M. Vulnerability in speaker verification – A study of technical impostor techniques // Proc. European Conference on Speech Communication and Technology (Eurospeech). 1999. P. 1211–1244.
  11. Villalba J., Lleida E. Preventing replay attacks on speaker verification systems // IEEE Int. Carnahan Conf. on Security Technology (ICCST). 2011. https://doi.org/10.1109/CCST.2011.6095943
  12. Wang Z.F., Wei G., He Q.H. Channel pattern noise based playback attack detection algorithm for speaker recognition // Proc. IEEE Int. Conf. Machine Learning and Cybernetics (ICMLC). 2011. P. 1708–1713.
  13. Gałka J., Grzywacz M., Samborski R. Playback attack detection for text-dependent speaker verification over telephone channels // Speech Comm. 2015. V. 67. P. 143–153.
  14. Kolarik A.J., Moore B.C.J., Zahori P., Cirstea S., Pardhan S. Auditory distance perception in humans: A review of cues, development, neuronal bases, and effects of sensory loss // Atten., Percept. Psychophys. 2016. V. 2. № 78. P. 373–395.
  15. Скучик Е. Основы акустики. М.: ИИЛ, 1959. Т. 2.
  16. Kopco N., Shinn-Cunningham B.G. Effect of stimulus spectrum on distance perception for nearby sources // J. Acoust. Soc. Am. 2011. V. 130. № 3. P. 1530–1541.
  17. Prud'homme L., Lavandier M. Do we need two ears to perceive the distance of a virtual frontal sound source? // J. Acoust. Soc. Am. 2020. V. 148. № 3. P. 614–1623.
  18. Georganti E., May T., Par S.V.D., Harma A., Mourjopoulos J. Speaker distance detection using a single microphone // IEEE Trans. Audio Speech Lang. Process. 2011. V. 19. P. 1949–1961. https://doi.org/10.1109/TASL.2011.2104953
  19. Spiousas I., Etchemendy P.E., Eguia M.C., Calcagno E.R., Abregú E., Vergara R.O. Sound spectrum influences auditory distance perception of sound sources located in a room environment // Frontiers in Psychology. 2017. V. 8. P. 969.
  20. Coleman P.D. Failure to localize the source distance of an unfamiliar sound // J. Acoust. Soc. Am. 1962. V. 34. P. 345–346.
  21. Сорокин В.Н., Цыплихин А.И. Верификация диктора по спектрально-временным параметрам речевого сигнала // Информационные процессы. 2010. Т. 10. № 2. С. 87–104.
  22. Witkowski M., Kacprzak S., Zelasko P., Kowalczyk K., Gałka J. Audio replay attack detection using high-frequency features // InterSpeech. 2017. P. 27–31.
  23. Kamble M.R., Tak H., Patil H.A. Amplitude and frequency modulation-based features for detection of replay spoof speech // Speech Communication. 2020. V. 125. P. 114–127.
  24. Kamble M.R., Patil H.A. Detection of replay spoof speech using Teager energy feature cues // Computer Speech & Language. 2021. V. 65. 101140.
  25. Teager H. Some observations on oral airflow during phonation // IEEE Trans. Acoust. Speech Signal Proc. 1980. V. 28. № 5. P. 599–601.
  26. Shang W., Stevenson M. Detection of speech playback attacks using robust harmonic trajectories // Computer Speech & Language. 2021. V. 65. 101133.
  27. Oo Z., Wang L., Phapatanaburi K., Liu M., Nakagawa S., Iwahashi M., Dang J. Replay attack detection with auditory filter-based relative phase features // EURASIP Journal on Audio, Speech, and Music. 2019. Art. number 8.
  28. Liu M., Wang L., Danga J., Lee K.A., Nakagawa S. Replay attack detection using variable-frequency resolution phase and magnitude features // Computer Speech & Language Volume. 2021. V. 66. 101161.
  29. Сорокин В.Н., Леонов А.С. Фазовые модуляции в речевом сигнале // Акуст. журн. 2022. Т. 68. № 2. С. 218–232.
  30. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968.
  31. Морз Ф. Колебания и звук. М.–Л.: ГИТТЛ, 1949.

Supplementary files

Supplementary Files
Action
1. JATS XML
2.

Download (23KB)
3.

Download (625KB)
4.

Download (246KB)
5.

Download (142KB)

Copyright (c) 2023 В.Н. Сорокин

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».