An AudioCodec Based on the Perceptual Equality between the Original and Restored Audio Signals
- Authors: Chizhov I.I1
-
Affiliations:
- Huawei Russian Research Institute
- Issue: Vol 24, No 2 (2025)
- Pages: 428-463
- Section: Mathematical modeling and applied mathematics
- URL: https://journal-vniispk.ru/2713-3192/article/view/289693
- DOI: https://doi.org/10.15622/ia.24.2.3
- ID: 289693
Cite item
Full Text
Abstract
About the authors
I. I Chizhov
Huawei Russian Research Institute
Email: aproximation18@yandex.ru
Krylatskaya St. 17/2
References
- Ковалгин Ю.А., Вологдин Э.И. Цифровое кодирование звуковых сигналов // М.: КОРОНА-принт, 2015. 240 с.
- Журавлёва Л.В., Шишурин А.И. Сравнительный анализ аудиоформатов // Технологии инженерных и информационных систем. 2022. № 2. С. 67–78.
- Каргин Р.И., Стаценко Л.Г. Форматы сжатия аудиоданных. Анализ и сравнение // Известия СПбГЭТУ ЛЭТИ. 2019. № 9. С. 31–37.
- Koops H.V., Micchi G., Quinton E. Robust lossy audio compression identification. 2024. arxiv preprint arxiv:2407.21545.
- Ковалгин Ю.А., Фадеева Д.Р. Исследование психоакустических моделей кодеков с компрессией цифровых аудиоданных // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и технические науки. 2016. № 7. С. 29–38.
- Официальный сайт ITU. Method for objective measurements of perceived audio quality. Recommendation ITU-R BS.1387-2 (05/2023). URL: https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1387-2-202305-I!!PDF-E.pdf (дата обращения: 05.01.2025).
- Cormen T., Leiserson C., Rivest R., Stein C. Introduction to Algorithms 4th Edition. Cambridge, Massachusetts: The MIT Press, 2022. 1312 p.
- Чугунова О.В., Буслова В.Е. Архивации данных методами Шеннон-Фано и Хаффмана // Актуальные проблемы науки и техники: Сборник статей по материалам международной научно-практической конференции. Уфа: Изд. НИЦ Вестник науки, 2020. С. 58–65.
- Сергеев И.С., Балакирев Н.Е. Сравнение алгоритмов сжатия звуковой информации алгоритмом Хаффмана и арифметическим кодированием // Наукосфера. 2022. № 8-2. С. 31–35.
- Официальная страница проекта FLAC. URL: https://sourceforge.net/projects/flac/ (дата обращения: 05.01.2025).
- Salomon D. Data compression: the complete reference 4th Edition // London: Springer-Verlag. 2007. 1117 c.
- Официальный сайт Monkey’s Audio (Спецификация Monkey’s Audio). URL: https://www.monkeysaudio.com/index.html (дата обращения: 05.01.2025).
- Официальный сайт проекта ALAC (Спецификация Apple Lossless Audio Codec). URL: https://macosforge.github.io/alac/ (дата обращения: 05.01.2025).
- Официальный сайт Microsoft (Windows Media Player). URL: https://apps.microsoft.com/detail/9WZDNCRFJ3PT?hl=en-us&gl=US (дата обращения: 05.01.2025).
- Официальный сайт Xiph.Org фонда (Спецификация Vorbis I Xiph.Org). URL: https://xiph.org/vorbis/doc/Vorbis_I_spec.html (дата обращения: 05.01.2025).
- Официальный сайт Opus Interactive Audio Codec. URL: https://opus-codec.org/ (дата обращения: 05.01.2025).
- Петровский Ал.А., Петровский А.А. Масштабируемые аудиоречевые кодеры на основе адаптивного частотно-временного анализа звуковых сигналов // Труды СПИИРАН. 2017. № 1(50). С. 55–92. doi: 10.15622/sp.50.3.
- Официальный сайт ITU. Audio coding for digital broadcasting. Recommendation ITU-R BS.1196-8 (10/2019). URL: https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1196-8-201910-I!!PDF-E.pdf (дата обращения: 05.01.2025).
- Jenrungrot T., Chinen M., Kleijn W.B., Skoglund J., Borsos Z., Zeghidour N., Tagliasacchi M. LMcodec: a Low Bitrate Speech Codec With Causal Transformer Models // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2023. pp. 1–5. doi: 10.1109/ICASSP49357.2023.10095442.
- Shi H., Shimada K., Hirano M., Shibuya T., Koyama Y., Zhong Z., Takahashi S., Kawahara T., Mitsufuji Y. Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2024. pp. 12951–12955. doi: 10.1109/ICASSP48485.2024.10448429.
- Kong J., Kim J., Bae J. HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis // Proceedings of the 34th Conference on Neural Information Processing Systems (NIPS). 2020. vol. 33. pp. 17022–17033.
- Kaneko T, Tanaka K., Kameoka H., Seki S. Istftnet: Fast and Lightweight Mel-spectrogram Vocoder Incorporating Inverse Short-Time Fourier Transform. 2022. arxiv preprint arXiv:2203.02395v1.
- Subramani K., Valin J.-M., Isik U., Smaragdis P., Krishnaswamy A. End-to-end LPCNet: A Neural Vocoder With Fully-Differentiable LPC Estimation // Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH). 2022. pp. 818–822.
- Valin J.-M., Skoglund J. LPCNet: Improving Neural Speech Synthesis Through Linear Prediction // Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. pp. 5891–5895. doi: 10.1109/ICASSP.2019.8682804.
- Valin J.-M., Isik U., Smaragdis P., Krishnaswamy A. Neural Speech Synthesis on a Shoestring: Improving the Efficiency of LPCNet // Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2022. pp. 8437–8441.
- Valin J.-M., Buthe J., Mustafa A. Low-Bitrate Redundancy Coding of Speech Using a Rate-distortion-optimized Variational Autoencoder // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2023. pp. 1–5. doi: 10.1109/ICASSP49357.2023.10096528.
- Zeghidour N., Luebs A., Omran A., Skoglund J., Tagliasacchi M. SoundStream: An End-to-End Neural Audio Codec // Proceedings of the IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2021. vol. 30. pp. 495–507.
- Du Z., Zhang S., Hu K., Zheng S. FunCodec: A Fundamental, Reproducible and Integrable Open-Source Toolkit for Neural Speech Codec. 2023. arxiv preprint arXiv:2309.07405v1.
- Defossez A., Copet J., Synnaeve G., Adi Y. Funcodec: High Fidelity Neural Audio Compression. 2022. arxiv preprint arXiv:2210.13438v1.
- Демо-сайт проекта High Fidelity Neural Audio Compression (EnCodec). URL: https://ai.honu.io/papers/encodec/samples.html (дата обращения: 18.10.2024).
- Yin D., Luo C., Xiong Z., Zeng W. PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network. 2019. arxiv preprint arXiv:1911.04697v1.
- Рогозинский Г.Г. Перцепционное сжатие звука с использованием вейвлетных пакетов // Диссертация СПбГУКиТ. 2010.
- Zwicker E., Fastl H. Psychoacoustics: Facts and Models // Springer-Verlag, Berlin Heidelberg. 1990.
- Официальный сайт ITU. General methods for the subjective assessment of sound quality. Recommendation ITU-R BS. 1284-2 (01/2019). URL: https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1284-2-201901-I!!PDF-E.pdf (дата обращения: 05.01.2025).
Supplementary files
