Определение пола диктора по характеристикам голоса на фоне шума многоголосия

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Психофозическими методами исследовали особенности опознания пола диктора по характеристикам голоса в условиях действия речеподобной помехи и стимуляции через головные телефоны. Использовали набор речевых сигналов и шум многоголосия из экспериментов в свободном звуковом поле – пространственной сцене (Andreeva et al., 2019). В набор входили 8 двусложных слов, произнесенных 4 дикторами: 2 мужских и 2 женских голоса со средней частотой основного тона 117, 139, 208 и 234 Гц. Шум многоголосия представлял результат микширования всех аудиофайлов (8 слов × 4 диктора). Соотношение сигнал/шум составляло 1:1, что субъективно соответствовало макимальному уровню зашумления в пространственной сцене (SNR = –14 дБ). В экспериментах участвовали 42 взрослых испытуемых (от 17 до 57 лет). Дополнительно выделяли 3 возрастных подгруппы: 18.6±1.5 лет (n = 27); 28±4.1 лет (n = 7); 46±5.4 лет (n = 8). Все испытуемые обладали нормальным слухом. Результаты исследования и их сравнения с данными указанной работы подтвердили значимость характеристик голоса для слухового анализа сложных пространственных (свободное звуковое поле) и непространственных (головные телефоны) сцен, а также продемонстрировали роль механизмов маскировки и бинаурального восприятия, в частности высокочастотного механизма пространственного слуха. Кроме того, обнаружена зависимость перцептивной оценки гендерных характеристик голоса в шуме от возраста испытуемых и пола дикторов (мужской или женский голос). Результаты имеют практическое значение для организации слухоречевого тренинга, ранней диагностики нарушений помехоустойчивости речевого слуха, а также развития помехоустойчивых систем автоматической верификации дикторов и технологий слухопротезирования.

Полный текст

Доступ закрыт

Об авторах

О. В. Лабутина

Институт физиологии им. И.П. Павлова Российской академии наук

Email: ogorodnikovaea@infran.ru
Россия, Санкт-Петербург

С. П. Пак

Институт физиологии им. И.П. Павлова Российской академии наук

Email: ogorodnikovaea@infran.ru
Россия, Санкт-Петербург

Е. А. Огородникова

Институт физиологии им. И.П. Павлова Российской академии наук

Автор, ответственный за переписку.
Email: ogorodnikovaea@infran.ru
Россия, Санкт-Петербург

Список литературы

  1. Балякова А.А., Лабутина О.В., Медведев И.С., Пак С.П., Огородникова Е.А. Особенности распознавания речевых сигналов в условиях голосовой конкуренции в норме и при нарушениях слухоречевой функции. Сенсорные системы. 2023. Т. 37. № 4. С. 342–347. doi: 10.31857/S0235009223040029
  2. Королева И.В. Основы аудиологии и слухопротезирования. СПб: КАРО, 2022. 448 с.
  3. Королева И.В., Огородникова Е.А., Пак С.П., Левин С.В., Балякова А.А., Шапорова А.В. Методические подходы к оценке динамики развития процессов слухоречевого восприятия у детей с кохлеарными имплантами. Российская оториноларингология. 2013. № 3. С. 75–85.
  4. Лопотко А.И., Бердникова И.П., Бобошко М.Ю., Журавлева Т.А., Журавский С.Г., Квасова Т.В., Ломоватская Л.Г., Мальцева Н.В., Молчанов А.П., Рындина А.М., Савенко И.В., Слесаренко Н.П., Солдатова Г.Ш. Практическое руководство по сурдологии. СПб: Диалог, 2008. 273 с.
  5. Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. 1090 с.
  6. Огородникова Е.А., Лабутина О.В., Андреева И.Г., Гвоздева А.П., Баулин Ю.А. Фактор просодики в восприятии коммуникативной сцены с пространственным разделением источников речи и речеподобной помехи. Тезисы докладов Международной конференции “Лингвистический форум 2020: Язык и искусственный интеллект” / Под ред. А.А. Кибрика, В.Ю. Гусева, Д.А. Залманова. М.: Институт языкознания РАН, 2020. С. 127–128.
  7. Сапогова Е.Е. Психология развития человека. М.: Аспект пресс, 2001. 460 с.
  8. Хухлаева О.В. Психология развития. Молодость, зрелость, старость. М.: Академия, 2006. 208 с.
  9. Andreeva I.G. Spatial selectivity of hearing in speech recognition in speech-shaped noise environment. Hum. Physiol. 2018. V. 44(2). P. 226–236. https://doi.org/10.1134/S0362119718020020
  10. Andreeva I.G., Dymnikowa M., Gvozdeva A.P., Ogorodnikova E.A., Pak S.P. Spatial separation benefit for speech detection in multi-talker babble-noise with different egocentric distances. Acta Acustica united with Acustica. 2019. V. 105. № 3. P. 484–491. https://doi.org/10.3813/AAA.919330
  11. Balling L.W., Mølgaard L.L., Townend O., Nielsen J.B.B. The collaboration between hearing aid users and artificial intelligence to optimize sound. Seminars in Hearing. 2021. № 42(3). P. 282–294. https://doi.org/10.1055/s-0041-1735135
  12. Bharathi R., Nalina H.D. Survey of Recent Advances in Hearing Aid Technologies and Trends. International Research Journal on Advanced Engineering Hub. 2024. V. 2. I. 2. P. 303–308. https://doi.org/10.47392/IRJAEH.2024.0046
  13. Bregman A.S. Auditory scene analysis: the perceptual organization of sound. Cambridge: MIT Press, 1990.
  14. Bronkhorst A.W. The cocktail-party problem revisited: Early processing and selection of multi-talker speech. Attention, Perception & Psychophysics. 2015. V. 77(5). P. 1465–1487. https://doi.org/10.3758/s13414-015-0882-9.
  15. Cherry E.C. Some experiments on the recognition of speech, with one and with two ears. J. Acoust. Soc. Am. 1953. V. 25. № 5. P. 975.
  16. Darvin C.J., Brungart D.S., Simpson B.D. Effects of fundamental frequency and vocal-tract length changes on attention to one or two simultaneous talkers. J. Acoust. Soc. Am. 2003. V. 114. P. 2913–2922.
  17. Davis A., McMahon C.M., Pichora-Fuller K.M., Russ S., Lin F., Olusanya B.O., Chadha S., Tremblay K.L. Aging and Hearing Health: The Life-course Approach. Gerontologist. 2016. № 56 (Suppl 2). Р. 256–267. https://doi.org/10.1093/geront/gnw033.
  18. Fostick L., Ben-Artzi E., Babkoff H. Aging and speech perception: beyond hearing threshold and cognitive ability. J. Basic Clin Physiol Pharmacol. 2013. № 24(3). Р. 175–183. https://doi.org/10.1515/jbcpp-2013-0048.
  19. Gutschalk A., Dykstra A.R. Functional imaging of auditory scene analysis. Hear. Res. 2014. V. 307. P. 98.
  20. Lesica N.A., Mehta N., Manjaly J.G., Deng L., Wilson B.S., Zeng F.-G. Harnessing the power of artificial intelligence to transform hearing healthcare and research. Nat. Mach. Intell. 2021. № 3. Р. 840–849. https://doi.org/10.1038/s42256-021-00394-z
  21. Moore B.C.J. An Introduction to the Psychology of Hearing. Leiden. Brill., 2012. 442 p.
  22. Musiek F.E., Chermak G.D. Handbook of central auditory processing disorder. San Diego. Plural Publishing, 2014. V. 1. Auditory neuroscience and diagnosis. 768 p.
  23. Pernet C.R., Belin P. The Role of Pitch and Timbre in Voice Gender Categorization. Front. Psychol. 2012. Sec. Perception Science. V. 3. https://doi.org/10.3389/fpsyg.2012.00023
  24. Popper A.N., Fay R.R. (Eds). Perspectives on auditory research. Springer handbook of auditory research. 2014. 680 p.
  25. Shamma S.A., Elhilali M., Micheyl C. Temporal coherence and attention in auditory scene analysis. Trends Neurosci. 2011. V. 34. P. 114.
  26. Smirnova V.A., Labutina O.V., Gvozdeva A.P. Chapter 9: Speech detection in spatially distributed speech-like noise. In: Neural Networks and Neurotechnologies (eds: Yu. Shelepin, E. Ogorodnikova, N. Solovyev, E. Yakimova). St. Petersburg, VVM, 2019. P. 52–60.
  27. Weston P., Hunter M.D., Sokhi D.S., Wilkinson I. Discrimination of voice gender in the human auditory cortex. NeuroImage. 2014. V. 105. P. 208–214. https://doi.org/10.1016/j.neuroimage.2014.10.056

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Распределение ошибок при определении гендерной принадлежности голоса в шуме многоголосия среди дикторов. По горизонтали: условный ряд по показателям ЧОТ для голосов дикторов (М1, М2, Ж1, Ж2) и шума многоголосия. По вертикали: число ошибок в определении пола диктора, %. *, ** – соответственно уровни достоверности различий p < 0.05 и p < 0.01 по критерию Вилкоксона

Скачать (65KB)
3. Рис. 2. Показатели правильных ответов при восприятии одного набора речевых стимулов и шума многоголосия в разных условиях. Непространственная сцена (НС): определение пола диктора по голосу при стимуляции через головные телефоны. Пространственные сцены: обнаружение речевого сигнала в свободном звуковом поле при локализации источников речи и шума на расстоянии 1 м от слушателя (Ш1Р1), при их разнесении по удаленности от слушателя – источник шума на 1 м, источник речи на 4 м (Ш1Р4). ** – достоверность различий p < 0.01 (критерий Манна–Уитни)

Скачать (63KB)
4. Рис. 3. Распределения правильных ответов (%) по ряду дикторов с разными характеристиками голоса (ЧОТ). НС (непространственная сцена) – данные исследованя по определению пола диктора по голосу в шуме многоголосия. ПС (пространственная сцена) – результаты обнаружения речевого сигнала в пространственной сцене при разнесении источников речи и шума (Ш1Р4) и максимальном зашумлении (SNR = –14 дБ). ** – уровень значимости различий при восприятии женских голосов (p < 0.01, критерий Манна–Уитни)

Скачать (86KB)

© Российская академия наук, 2024

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».