共振峰合成語音方法
語音合成即文本轉(zhuǎn)語音(TTS合成)的理論基礎(chǔ)是語音生成的數(shù)學(xué)模型。該模型語音生成過程是在激勵信號的激勵下,聲波經(jīng)諧振腔(聲道),由嘴或鼻輻射聲波。因此,聲道參數(shù)、聲道諧振特性一直是研究的重點(diǎn)。習(xí)慣上,把聲道傳輸頻率響應(yīng)上的極點(diǎn)稱之為共振峰,而語音的共振峰頻率(極點(diǎn)頻率)的分布特性決定著該語音的音色。
音色各異的語音具有不同的共振峰模式,因此,以每個共振峰頻率及其帶寬作為參數(shù),可以構(gòu)成共振峰濾波器。再用若干個這種濾波器的組合來模擬聲道的傳輸特性(頻率響應(yīng)),對激勵源發(fā)出的信號進(jìn)行調(diào)制,再經(jīng)過輻射模型就可以得到合成語音。這就是共振峰合成技術(shù)的基本原理。基于共振峰的理論有以下三種實(shí)用模型。
1)級聯(lián)型共振峰模型
在該模型中,聲道被認(rèn)為是一組串聯(lián)的二階諧振器。該模型主要用于絕大部分元音的合成。
2)并聯(lián)型共振峰模型
許多研究者認(rèn)為,對于鼻化元音等非一般元音以及大部分輔音,上述級聯(lián)型模型不能很好地加以描述和模擬,因此,構(gòu)筑和產(chǎn)生了并聯(lián)型共振峰模型。
3)混合型共振峰模型
在級聯(lián)型共振峰合成模型中,共振峰濾波器首尾相接;而在并聯(lián)型模型中,輸入信號先分別通過幅度調(diào)節(jié)再加到每一個共振峰濾波器上,然后將各路的輸出疊加起來。將兩者比較,對于合成聲源位于聲道末端的語音(大多數(shù)的元音),級聯(lián)型合乎語音產(chǎn)生的聲學(xué)理論,并且無需為每一個濾波器分設(shè)幅度調(diào)節(jié);而對于合成聲源位于聲道中間的語音(大多數(shù)清擦音和塞音),并聯(lián)型則比較合適,但是其幅度調(diào)節(jié)很復(fù)雜。基于此種考慮,人們將兩者結(jié)合在一起,提出了混和型共振峰模型。
共振峰模型是基于對聲道的一種比較準(zhǔn)確的模擬,因而可以合成出自然度比較高的語音,另外由于共振峰參數(shù)有著明確的物理意義,直接對應(yīng)于聲道參數(shù),因此,可以容易利用共振峰描述自然語流中的各種現(xiàn)象,并且總結(jié)聲學(xué)規(guī)則,最終用于共振峰合成系統(tǒng)。
但是,人們同時也發(fā)現(xiàn)該語音合成技術(shù)有明顯的弱點(diǎn)。首先由于它是建立在對聲道的模擬上,因此,對于聲道模型的不精確勢必會影響其合成質(zhì)量。另外,實(shí)際工作表明,共振峰模型雖然描述了語音中最基本最主要的部分,但并不能表征影響語音自然度的其他許多細(xì)微的語音成分,從而影響了合成語音的自然度。另外,共振峰合成器控制十分復(fù)雜,對于一個好的合成器來說,其控制參數(shù)往往達(dá)到幾十個,實(shí)現(xiàn)起來十分困難。
基于這些原因,研究者繼續(xù)尋求和發(fā)現(xiàn)其他新的語音合成技術(shù)。人們從波形的直接錄制和播放得到啟發(fā),提出了基于波形拼接的合成技術(shù),LPC合成技術(shù)和PSOLA合成技術(shù)是其中的代表。與共振峰合成技術(shù)不同,波形拼接合成是基于對錄制的合成基元的波形進(jìn)行拼接,而不是基于對發(fā)聲過程的模擬。


10024445371-09340593475.png)
