語音合成方法的主要分類
語音合成的研究已有多年的歷史,現在研究出的語音合成方法的分類,從技術方式講,可分為波形合成法、參數合成法、和規則合成方法;從合成策略上講可分為頻譜逼近和波形逼近。
1、 波形合成法
波形合成法一般有兩種形式,一種是波形編碼合成,它類似于語音編碼中的波形編解碼方法,該方法直接把要合成的語音發音波形進行存儲,或者進行波形編碼壓縮后存儲,合成重放時再解碼組合輸出。另一種是波形編輯合成,它把波形編輯技術用于語音合成,通過選取音庫中采取自然語言的合成單元的波形,對這些波形進行編輯拼接后輸出。它采用語音編碼技術,存儲適當的語音單元,合成時,經解碼、波形編輯拼接、平滑處理等輸出所需的短語、語句或段落。
波形語音合成法是一種相對簡單的TTS語音技術,通常只能合成有限詞匯的語音段。目前許多專門用途的語音芯片或語音IC,都采用這種方式,如自動報時、報站或報警等。
2、 參數合成法
參數合成法也稱為分析合成法,是一種比較復雜的方法。為了節約存儲容量,必須先對語音信號進行分析,提取出語音的參數,以壓縮存儲量,然后由人工控制這些參數的合成。參數合成法一般有發音器官參數合成和聲道模型參數合成。發音器官參數合成法是對人的發音過程直接進行模擬。它定義了唇、舌、聲帶的相關參數,如唇開口度、舌高度、舌位置、聲帶張力等,由發音參數估計聲道截面積函數,進而計算聲波。由于人的發音生理過程的復雜性和理論計算與物理模擬的差別,合成語音的質量暫時還不理想。
聲道模型參數語音合成是基于聲道截面積函數或聲道諧振特性合成語音的。早期語音合成系統的聲學模型,多通過模擬人的口腔的聲道特性來產生。其中比較著名的有Klatt的共振峰(Formant)合成系統,后來又產生了基于LPC、LSP和LMA等聲學參數的合成系統。這些方法用來建立聲學模型的過程為:首先錄制聲音,這些聲音涵蓋了人發音過程中所有可能出現的讀音;提取出這些聲音的聲學參數,并整合成一個完整的音庫。在發音過程中,首先根據需要發的音,從音庫中選擇合適的聲學參數,然后根據韻律模型中得到的韻律參數,通過語音合成算法產生TTS語音。
參數語音合成方法的優點是其音庫一般較小,并且整個系統能適應的韻律特征的范圍較寬,這類合成器比特率低,音質適中;缺點是參數合成技術的算法復雜,參數多,并且在壓縮比較大時,信息丟失亦大,合成出的語音總是不夠自然、清晰。為了改善音質,近幾年發展了混合編碼技術,主要是為了改善激勵信號的質量,這樣,雖然比特率有所增大,但音質得到了提高。
3、 規則合成法
這是一種高級的合成方法。規則合成方法通過語音學規則產生語音。合成的詞匯表不是事先確定,系統中存儲的是最小的語音單位的聲學參數,以及由音素組成音節、由音節組成詞、由詞組成句子和控制音調、輕重音等韻律的各種規則。
給出待合成的文本數據后,合成系統利用規則自動地將他們轉換成連續的語音聲波。這種方法可以合成無限詞匯的語句。這種算法中,用于波形拼接和韻律控制的、較有代表性的算法是基音同步疊加技術(PSOLA),該方法既能保持所發音的主要音段特征,又能在拼接時靈活調整其基頻、時長和強度等超音段特征。其核心思想是,直接對存儲于音庫的語音運用PSOLA算法來進行拼接,從而整合成完整的語音。有別于傳統概念上只是將不同的語音單元進行簡單拼接的波形編輯合成,規則合成系統首先要在大量語音庫中,選擇最合適的語音單元來用于拼接,并在選音過程中往往采用多種復雜的技術,最后在拼接時,要使用如PSOLA算法等,對其合成語音的韻律特征進行修改,從而使合成的語音能達到很高的音質。



