Моделирование речевых признаков с помощью алгоритма симуляции отжига
- Авторы: Ермилов А.В.1
-
Учреждения:
- Национальный исследовательский университет «Высшая школа экономики»
- Выпуск: № 2 (2014)
- Страницы: 354-358
- Раздел: Статьи
- URL: https://journal-vniispk.ru/2658-4670/article/view/328530
- ID: 328530
Цитировать
Аннотация
Мел-частотные кепстральные коэффициенты до сих пор являются наиболее популярными речевыми признаками. Однако в зависимости от длины речевого тракта (стоит отметить, что длина речевого тракта зависит от пола и других физиологических параметров, таких как рост, и может меняться в пределах от 13 до 18 см) частоты центральных формант оказываются смещёнными. Величина смещения может достигать 25%. Такие большие различия могут вести к неправильному распознаванию высказывания предварительно хорошо обученной модели в случае, если высказывание было произнесено новым диктором, то есть система становится дикторозависимой. Альтернативой является применение признаков, которые не зависят от диктора, например, полученные с помощью аудиовизуальных моделей (Auditory Image Model). В данной статье описываются признаки, основанные на аудиовизуальных моделях, которые могут быть вычислены при помощи алгоритма симуляции отжига. На основе Монте-Карло-симуляций исследованы статистические свойства оценок параметров расширения Грам-Шарлье нормального распределения, полученных применением метода симуляции отжига к решению задачи максимизации правдоподобия, а также проведено сравнение точности решения данной задачи максимизации правдоподобия при помощи различных методов.
Об авторах
Алексей Валерьевич Ермилов
Национальный исследовательский университет «Высшая школа экономики»
Email: alvalerm@mail.ru
Кафедра управления разработкой программного обеспечения
Дополнительные файлы

