基于聲學統計模型的HMM參數合成
近年來,基于隱馬爾可夫模型(HMM)的語音合成系統得到廣泛的重視和應用。與一直以來語音合成方法的主流――基于大語料庫的拼接合成方法相比,基于隱馬爾可夫模型的TTS系統優勢在于系統結構簡單,基本不需要任何語言學知識指導系統訓練,構建時間短,構建過程基本不需要人工干預,而由于系統屬于參數化合成方法,系統的合成結果靈活多變,可以很容易的應用于多個發音人,多種發音風格,多種情感表達的需求中,是嵌入式語音合成或嵌入式TTS技術實現的首選。
基于HMM的語音合成方法主要分為兩個階段:訓練階段和合成階段。首先對用于訓練的語料進行參數提取(包括頻譜參數和基頻參數,如LSP線性頻譜對參數)。HMM的觀察向量可分為譜參數和基頻參數兩個部分,其中譜參數部分采用連續概率分布HMM進行建模,基頻部分采用多空間概率分布HMM(MSD-HMM)進行建模。在合成階段,首先對給定的待合成文本進行上下文分析,并將文本轉換成模型的單元序列。然后根據基于HMM語音合成方法的參數生成算法,同時考慮語音參數的靜態參數和動態參數,得到連續的目標語音參數序列,最后通過語音合成器合成出待合成語音。
基于HMM的語音合成方法雖然有系統易小型化、靈活多變等特點,但是和傳統的拼接合成相比,還是有音質下降的缺點。傳統的拼接合成方法由于是將真實的語音片段通過選音算法拼接在一起所以保留了原始語音片斷的音質。而基于HMM的語音合成方法和其他的參數化語音合成方法一樣,通過了一次語音編碼解碼的過程,不可避免的會造成合成音質的下降。另外,在HMM參數估計的過程中的統計方法使得頻譜參數趨于平均化;同時,由于模型自身拓撲結構的限制,模型對頻譜參數在時域方向變化的描述也存在局限性。這兩種在頻譜參數層上導致合成語音音質下降的現象本文稱之為頻域過平滑和時域過平滑。
圖1 基于HMM的語音合成方法流程圖




