В данной статье рассматривается подход к синтезу речи, основанный на конкатенации звуковых элементов, как наиболее распространённый и широко применяемый в современных системах для получения естественного речевого сигнала. Описаны проблемы, возникающие при реализации данного подхода и пути их решения, основанные на модификации сигнала. Представлены три метода модификации основного тона: TD-PSOLA, SPECINT и LP-PSOLA. Рассмотрены недостатки и достоинства каждого из алгоритмов, и на основании экспериментальных данных рекомендован лучший.
The paper deals with the approach to speech synthesis based on speech elements concatenation. This approach is the most popular and widely used in the latest systems to generate natural speech. We describe the problems of realizing these methods and present a solution. We present three pitch modification methods: TD-PSOLA, SPECINT and LP-PSOLA. We examine the positive and negative aspects of these methods and choose LP-PSOLA as the most effective of them on the basis of experiments.
Ключевые слова: модификация частоты основного тона, синтез речи.
Keywords: pitch modification, speech synthesis, text-to-speech.