The Comparison of Machine Learning Methods for Urban Noise Classification

Cover Page

Cite item

Full Text

Abstract

The modern urban environment is constantly evolving and changing. With the constant growth of cities, the noise level also increases, which can have a negative impact on the health of residents. The importance of determining and controlling the noise of the urban environment is becoming an increasingly urgent task for city authorities, as well as for scientists and engineers dealing with environmental issues and environmental protection. The article presents a comparative analysis of machine learning models, including a neural network for automating the solution of the problem of noise classification present in the city, describes the spectral characteristics of noise, on the basis of which the implemented models make decisions about the noise class.

Full Text

Введение

Анализ, мониторинг и контроль шума в городской среде являются важными составляющими для поддержания комфортного и здорового окружения людей [1]. Чрезмерный шум в городе может негативно влиять на их физическое и психическое здоровье. Постоянный мониторинг шума позволит городским службам своевременно принимать меры по снижению его уровня, что в свою очередь улучшит качество жизни горожан [2]. Одним из перспективных подходов к решению проблемы определения и классификации источника шума в городской среде является применение методов машинного обучения [3]. Использование обученных с помощью таких методов моделей позволит автоматизировать процесс обнаружения и анализа шумов, а в дальнейшем упростит работу специалистов и улучшит качество мониторинга.

Записи шумов городской среды

Существуют открытые источники с наборами акустических записей шумов, присутствующих в городской среде [4, 5]. В работе использовался один из самых больших наборов данных Urban Sounds 8k, состоящий из размеченных звуковых файлов формата .wav. Обучение и тестирование моделей производилось на шумах кондиционеров, строительных работ, двигателей автомобилей, гудков автомобилей, сирен автомобилей городских служб. В каждом классе использовали 100 записей (итого 500 записей для пяти исследуемых классов) с частотой дискретизации 44 100 Гц, разрядностью 16 бит, длительностью от 1 до 4 с. Общий размер данных составил 362 МБ, дисбаланс классов отсутствует.

Используемые признаки шумов

Предлагаемые модели машинного обучения при обучении и принятии решения о классе объекта используют спектральные признаки акустических шумов. Существует несколько подходов к анализу акустического шума: вычисление признаков и представление их в численном виде, а также вычисление спектра и представление его в виде изображения с последующим анализом моделями машинного обучения, которые могут работать с изображениями. Второй подход в работе рассматриваться не будет, так как требует больше вычислительных ресурсов и объема памяти для хранения шумов, представленных в виде изображений спектрограмм. В качестве признаков использовались гамматон-частотные и мел-частотные кепстральные коэффициенты, хромаграмма. Данные признаки широко используются исследователями для решения задачи классификации различных акустических звуков и шумов [6 – 8]. Вычисление всех признаков из всего набора записей шумов в формате .wav занимает 27,67 с на ноутбуке с процессором AppleM1 и 8 ГБ оперативной памяти.

Модели машинного обучения

В исследовании обучили и протестировали четыре модели машинного обучения, которые хорошо себя зарекомендовали при решении технических задач классификации акустических данных. Алгоритмы обучения и тестирования всех моделей реализованы на языке программирования Python, а в качестве основной библиотеки машинного обучения использовалась scikit-learn. Проанализированы результаты предсказания следующих моделей: случайного леса [9], k-ближайших соседей [10], опорных векторов [10], многослойного персептрона (искусственная нейронная сеть) [11]. Каждая модель обучалась на 80 % от общего набора данных и проверялась на 20 %. Использовали метод кросс-валидации (перекрестной проверки) с десятью итерациями для оценки качества работы моделей.

Сравнение точности классификации шумов реализованными моделями машинного обучения

При использовании пятнадцати мел-частотных кепстральных коэффициентов в качестве признаков получили результаты предсказания моделей, которые демонстрируют преимущество в 1,5 % модели случайного леса перед моделью многослойного персептрона и преимущество в 2 % перед моделью опорных векторов (рис. 1, а). Модель k-ближайших соседей показывает точность 91,10 %, что является самым низким результатом среди всех моделей.

 

Рис. 1. Сравнения моделей при использовании мел-частотных (а) и гамматон-частотных (б) кепстральных коэффициентов, хромаграммы (в):
1 – многослойного перцептрона; 2 – случайного леса; 3 – опорных векторов; 4 – k-ближайших соседей

 

Рис. 2. Матрицы ошибок трех моделей машинного обучения при использовании мел-частотных кепстральных коэффициентов:
а – k-ближайших соседей; б – опорных векторов; в – случайного леса

 

Если анализировать результаты моделей, представленные в виде матриц ошибок, то можно увидеть, что все модели в основном ошибаются, включая в классификацию шумов строительных работ шумы сирены специальных служб и гудки автомобилей (рис. 2).

Больше всего времени на обучение и предсказание необходимо модели многослойного персептрона. Обучение и перекрестная проверка при 10 итерациях занимает 5,27 с, при этом затраты времени для других моделей составляют от 0,17 до 0,50 с.

При использовании гамматон-частотных кепстральных коэффициентов в качестве признаков шумов (см. рис. 1, б), средняя точность предсказания всех четырех моделей ниже, чем при использовании мел-частотных коэффициентов.

Если использовать 12 составляющих хромаграммы в качестве признаков для моделей, то получим еще более низкую точность предсказания всеми моделями машинного обучения (см. рис. 1, в).

 

Рис. 3. Сравнение точности классификации шумов при использовании комбинаций признаков:
1 – 15 MFCC + 15 GFCC + 12 Chroma; 2 – 15 MFCC + 12 Chroma; 3 – 15 GFCC + 12 Chroma; 4 – 15 MFCC + 15 GFCC

Использование комбинаций признаков зачастую позволяет добиться лучших результатов точности предсказания. В данной работе также удалось получить большую точность классификации шумов городской среды при использовании набора признаков, состоящего из 15 мел-частотных и 15 гамматон-частотных кепстральных коэффициентов. Использование других сочетаний признаков показывали точность, схожую с точностью при использовании отдельных признаков или даже более низкую точность, чем демонстрировали модели, использующие отдельные признаки (рис. 3).

Заключение

Современные методы классификации шумов городской среды, реализованные на основе моделей машинного обучения, позволяют автоматически с высокой скоростью и точностью определять класс источника шума. Модели машинного обучения способны обрабатывать большие объемы данных, в том числе в режиме реального времени, что актуально в городе из-за присутствующего большого числа разнообразных источников шума. В результате проведенного анализа наивысшую точность классификации и стабильность продемонстрировала модель случайного леса (98,58 %). Наилучших результатов точности удалось достичь, используя вектор признаков, состоящий из 15 мел-частотных и 15 гамматон-частотных кепстральных коэффициентов.

 

Работа выполнена в рамках государственного задания Минобрнауки России в сфере научной деятельности по проекту № FZNS-2023-0008.

×

About the authors

D. A. Kuzin

Far Eastern Federal University

Author for correspondence.
Email: kuzin_da@dvfu.ru

кандидат технических наук, доцент департамента электроники, телекоммуникации и приборостроения

Russian Federation, Vladivostok

L. G. Statsenko

Far Eastern Federal University

Email: kuzin_da@dvfu.ru

доктор физико-математических наук, профессор департамента элек- троники, телекоммуникации и приборостроения

Russian Federation, Vladivostok

M. M. Smirnova

Far Eastern Federal University

Email: kuzin_da@dvfu.ru

старший преподаватель департамента электроники, телекоммуникации и приборостроения

Russian Federation, Vladivostok

S. V. Brylina

Far Eastern Federal University

Email: kuzin_da@dvfu.ru

заведующий лабораторией департамента электроники, телекоммуникации и приборостроения

Russian Federation, Vladivostok

References

  1. Gorodnichev S. S., Levshina K.V., Vasil'yeva V.V. Sovremennyye avtomobil'nyye materialy i tekhnologii (SAMIT – 2019): sb. st. XI Mezhdunar. nauch.-tekhn. konf. [Modern automotive materials and technologies (SAMIT - 2019): collection. art. XI International scientific-technical Conf.], Kursk, 25 Oct. 2019. Kursk, 2019, pp. 58-62. (In Russ., abstract in Eng.)
  2. Rashevskiy N.M., Parygin D.S., Nazarov K.R., Sinitsyn I.S., Feklistov V.A. [Intellectual analysis of the sound landscape of an urban area], Sotsiologiya goroda [Sociology of the city], 2023. no. 1, pp. 125-139. doi: 10.35211/19943520_ 2023_1_125 (In Russ., abstract in Eng.)
  3. Dyatlov K.A., Sinitsyn I.S. XXVII Region. konf. molodykh uchenykh i issledovateley Volgogradskoy oblasti: sb. materialov konf. [XXVII Region. conf. young scientists and researchers of the Volgograd region: collection. materials of the conference], Volgograd, 02-15 November 2022. Volgograd, 2022, pp. 448-449. (In Russ., abstract in Eng.)
  4. Piczak K.J. ESC: Dataset for Environmental Sound Classification, Proceedings of the 23rd ACM International Conference on Multimedia, 2015, pp. 1015-1018. doi: 10.1145/2733373.2806390
  5. Salamon J., Jacoby C., Bello J.P. A dataset and taxonomy for urban sound research, Proceedings of the 22nd ACM International Conference on Multimedia, Orlando, USA, 2014, pp. 1041-1044. doi: 10.1145/2647868.2655045
  6. Kuzin D.A., Statsenko L.G., Anisimov P.N., Smirnova M.M. [Application of machine learning methods for classification of acoustic signals according to spectral characteristics], Izvestiya SPbGETU LETI [News of St. Petersburg State Electrotechnical University LETI], 2021, no. 3, pp. 48-54. (In Russ., abstract in Eng.)
  7. Ribeiro Jr J.W., Harmon K., Leite G.A., de Melo T.N., LeBien J., Campos-Cerqueira M. Passive Acoustic Monitoring as a Tool to Investigate the Spatial Distribution of Invasive Alien Species, Remote Sensing, 2022, vol. 14, no. 14, pp. 4565. doi: 10.3390/rs14184565
  8. Kumar L.K., Alphonse P.J.A. COVID-19 Disease Diagnosis with Light-Weight CNN Using Modified MFCC and Enhanced GFCC from Human Respiratory Sounds, European Physical Journal Special Topics, 2022, vol. 231, no. 18-20, pp. 3329-3346. doi: 10.1140/epjs/s11734-022-00432-w
  9. Chistyakov S.P. [Random forests: a review], Trudy Karel'skogo nauchnogo tsentra Rossiyskoy akademii nauk [Proceedings of the Karelian Scientific Center of the Russian Academy of Sciences], 2013, no. 1, pp. 117-136. (In Russ., abstract in Eng.)
  10. Demidova L.A., Sokolova Yu.S. [Data classification based on the SVM algorithm and the k-nearest neighbors algorithm], Vestnik Ryazanskogo gosudarstvennogo radiotekhnicheskogo universiteta [Bulletin of the Ryazan State Radio Engineering University], 2017, no. 62, pp. 119. doi: 10.21667/1995-4565-2017-62-4-119-132 (In Russ., abstract in Eng.)
  11. Marchenko B.I., Plugotarenko N.K., Semina O.A. [Neural networks in the problems of analytical support of social, hygienic and environmental monitoring systems], Zdorov'ye naseleniya i sreda obitaniya [Population health and habitat], 2021, no. 11, pp. 23-30. (In Russ., abstract in Eng.)

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Comparisons of models using mel-frequency (a) and gammatone-frequency (b) cepstral coefficients, chromagrams (c): 1 – multilayer perceptron; 2 – random forest; 3 – support vectors; 4 – k-nearest neighbors

Download (31KB)
3. Fig. 2. Error matrices of three machine learning models using mel-frequency cepstral coefficients: a – k-nearest neighbors; b – support vectors; c – random forest

Download (20KB)
4. Fig. 3. Comparison of noise classification accuracy using feature combinations: 1 – 15 MFCC + 15 GFCC + 12 Chroma; 2 – 15 MFCC + 12 Chroma; 3 – 15 GFCC + 12 Chroma; 4 – 15 MFCC + 15 GFCC

Download (39KB)

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».