TWI573129B

TWI573129B - 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法

Info

Publication number: TWI573129B
Application number: TW102104478A
Authority: TW
Inventors: 陳信宏; 王逸如; 江振宇; 謝喬華
Original assignee: 國立交通大學
Priority date: 2013-02-05
Filing date: 2013-02-05
Publication date: 2017-03-01
Also published as: CN103971673B; US9837084B2; TW201432668A; CN103971673A; US20140222421A1

Description

編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法

本發明係關於一種語音裝置，尤指一種語音合成裝置。

在傳統以音段為基礎之語音編碼中，音段對應之韻律訊息通常使用量化直接對韻律參數進行編碼，而沒有考慮到使用具有語言意義之韻律模型來進行參數化韻律編碼。其中有以將音節內音素對應之長度及音高軌跡進行編碼，編碼方式是以預儲存之具有代表性的音節內音素長度及音高軌跡群組樣版，來表示音節內音素的音長及音高軌跡資訊，但並未考慮韻律產生模型，對於編碼後之語音不易進行韻律轉換；以對於音高軌跡進行編碼，將音高軌跡以片段之直線表示其值，音高軌跡之訊息以對這些片段直線的斜率及端點值表示，於碼書(codebook)中儲存具有代表性的片段直線樣板，音高軌跡便以此碼書進行編碼，此方法簡單，但並未考慮韻律產生模型，對於編碼後之語音不易進行韻律轉換；還有以對於詞的音長進行純量量化，對於詞的音高軌跡以詞平均音高及詞音高斜率表示之，並對平均值及斜率進行純量量化，並未考慮韻律產生模型，對於編碼後之語音不易進行韻律轉換；以對於音素的音長、音高位階先進行正規化，其正規化方法為是將音素音長及音高位階的觀察值，分別扣掉該音素類別之平均音長及平均音高位階，最後將正規化之音素音長及音高位階進行量化編碼，此方法可降低傳輸位元率，但並未考慮韻律產生模型，對於編碼後之語音不易進行韻律轉換；還有以將語音切成不等音框數的語音音段，每個音段的音高軌跡以此音段的平均音高表示之，而能量軌跡是以向量量化表示之，但並未考慮韻律產生模型，對於編碼後之語音不易進行韻律轉換；以將語音切成音段，對於音段音高軌跡、音段長度及音段能量軌跡進行編碼，將音高軌跡以片段之直線表示其值，音高軌跡之訊息以對這些片段直線的端點值及時間值表示編碼，而音段長度以正規化的音段長度用純量量化表示，其正規化方法為是將音段長度的觀察值扣掉該音段類別之平均長度，音段能量軌跡是以DTW的方式對於預儲存之樣版進行比對，以誤差值最小之樣版編號為編碼所需資訊，另外也對DTW之路徑、音段起頭及結尾以樣板表示之能量誤差進行編碼，此方法並未考慮韻律產生模型，對於編碼後之語音亦不易進行韻律轉換；目前已有文獻關於將音段的音高軌跡以平均值表示之，並將此平均值以純量量化，此方法簡單，但並未考慮韻律產生模型，對於編碼後之語音不易進行韻律轉換；還有將音高軌跡以片段之直線表示其值，音高軌跡之訊息以對這些片段直線的端點的音高值及時間資訊表示之，並將這些端點值以純量量化表示之，此方法簡單，但並未考慮韻律產生模型，對於編碼後之語音不易進行韻律轉換；還有以分段線性近似法(piecewise linear approximation，PLA)表示音段的音高，PLA裡面包含音段端點的音高及時間資訊、以及折點(critical point)的音高及時間資訊，其中有文獻係以純量量化表示這些資訊，及以向量量化表示這些PLA資訊；還有文獻以傳統frame-based speech coder的方法將每個frame的音高資訊進行量化，雖然可將音高資訊正確地表示，但相對data rate較高；還有將音段的音高軌跡以儲存於codebook中的音高軌跡樣板量化並編碼，此方法可以用極低的data rate將音高資訊編碼，但distortion較大；還有文獻是將音段的時長直接進行純量量化，方法簡單，可完全保留原本音段的長度，但並未考慮韻律產生模型，對於編碼後之語音不易進行韻律轉換；還有將連續三個音段的長度以向量量化編碼，方法簡單，但並未考慮韻律產生模型，對於編碼後之語音亦不易進行韻律轉換；還有文獻提出一個以語音辨認為基礎的韻律編碼，它會有辨認錯誤引起的合成錯誤聲音的缺點，並且沒有後處理做聲音速度轉換的功能。

由習知技術可歸納出其編碼過程如下：(1)語音切割成音段；(2)對音段的頻譜及韻律訊息進行編碼，通常一個音段是對應到音素(phoneme)、音節(syllable)或該系統定義之聲學單元，語音的切割可以採用語音辨認系統(automatic speech recognition)或用給定已知文本進行強迫對齊(forced alignment)而得到切割好的音段。接下來每個音段要對其頻譜資訊及韻律訊息進行編碼。另一方面，以音段為基礎之語音編碼系統的語音還原包含了：(1)頻譜及韻律訊息解碼與還原；(2)語音合成。習知技術大多偏重於頻譜資訊的編碼，而於韻律訊息編碼方面較少著墨，通常以量化的方式對於韻律訊息進行編碼，並無考慮韻律訊息其背後的產生模型，因此不易得到較低的編碼位元率，並且較不易以系統化之方法對編碼後的語音進行語音轉換。

爰是之故，申請人有鑑於習知技術之缺失，乃經悉心試驗與研究，並一本鍥而不捨的精神，終發明出本案「編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法」，用以改善上述習知技術之缺失。

本案之一面向係提供一種語音合成之裝置，其包括一階層式韻律模組，提供一階層式韻律模型；一韻律結構分析單元，接收一低階語言參數、一高階語言參數及一第一韻律參數，且根據該高階語言參數、該低階語言參數、該第一韻律參數及該階層式韻律模組，產生至少一韻律標記；以及一韻律參數合成單元，根據該階層式韻律模組、該低階語言參數及該韻律標記來合成一第二韻律參數。

本案之另一面向係提供一種韻律訊息編碼裝置，包含一語音切割及韻律參數抽取器，接收一語音輸入及一低階語言參數，用以產生一第一韻律參數；一韻律結構分析單元，接收該第一韻律參數、該低階語言參數及一高階語言參數，且根據該第一韻律參數、該低階語言參數及該高階語言參數，產生一韻律標記；以及一編碼器，接收該韻律標記及該低階語言參數，用以產生一編碼串流。

本案之又一面向係提供一種編碼串流產生裝置，包含一韻律參數抽取器，產生一第一韻律參數；一階層式韻律模組，賦予該第一韻律參數一語言結構意義；一編碼器，根據該語言結構意義之該第一韻律參數來產生一編碼串流，其中該階層式韻律模組包含至少二參數，其中各該參數係選自一音長、一音高軌跡、一停頓時機、一停頓出現頻率、一停頓時長或其組合。

本案之再一面向係提供一種語音合成之方法，包含下列步驟：提供一第一韻律參數、一低階語言參數、一高階語言參數及一階層式韻律模組；根據該第一韻律參數、該低階語言參數、該高階語言參數、及該階層式韻律模組來對該第一韻律參數進行韻律結構分析，以產生一韻律標記；以及根據該韻律標記來輸出一語音合成。

本案之再一面向係提供一種韻律結構分析單元，包含一第一輸入端，接收一第一韻律參數；一第二輸入端，接收一低階語言參數；一第三輸入端，接收一高階語言參數；以及一輸出端，其中該韻律結構分析單元根據該第一韻律參數、該低階語言參數及該高階語言參數，而於該輸出端產生一韻律標記。

本案之再一面向係提供一種語音合成裝置，包含一解碼器，接收一編碼串流，並還原該編碼串流以產生一低階語言參數及一韻律標記；一階層式韻律模組，接收該低階語言參數及該韻律標記，以產生一韻律參數；以及一語音合成器，根據該低階語言參數及該韻律參數來產生一語音合成。

本案之再一面向係提供一種韻律結構分析裝置，包含一階層式韻律模組，提供一階層式韻律模型；以及一韻律結構分析單元，接收一第一韻律參數、一低階語言參數及一高階語言參數，且根據該第一韻律參數、該低階語言參數、該高階語言參數及該階層式韻律模組，產生一韻律標記。

10‧‧‧語音合成裝置

101‧‧‧語音切割及韻律參數抽取器

102‧‧‧階層式韻律模組

103‧‧‧韻律結構分析單元

104‧‧‧編碼器

105‧‧‧解碼器

106‧‧‧韻律參數合成單元

107‧‧‧語音合成器

108‧‧‧韻律結構分析裝置

109‧‧‧韻律參數合成裝置

110‧‧‧韻律訊息編碼裝置

111‧‧‧韻律訊息解碼裝置

301‧‧‧HMM狀態時長模型

302‧‧‧HMM狀態清濁音模型

303‧‧‧HMM狀態時長及清濁音產生器

304‧‧‧HMM聲學模型

305‧‧‧音框MGC產生器

306‧‧‧對數音高軌跡及激發信號產生器

307‧‧‧MLSA濾波器

401‧‧‧語者相關的音高層次

402‧‧‧語者相關的音節長度

403‧‧‧語者相關的音節能量位階

404‧‧‧語者相關的音節間靜音時長及韻律斷點標記

405‧‧‧語者獨立的音高層次

406‧‧‧語者獨立的音節長度

407‧‧‧語者獨立的音節能量位階

408‧‧‧語者獨立的音節間靜音時長及韻律斷點標記

501、505、509及513‧‧‧語音之波形

502、506、510及514‧‧‧語音之音高軌跡

503、507、511及515‧‧‧漢語拼音(音節切割位置)

504、508、512及516‧‧‧實驗所使用的時間

A1‧‧‧低階語言參數

A2‧‧‧高階語言參數

A3‧‧‧第一韻律參數

A4‧‧‧第一韻律標記

A5‧‧‧編碼串流

A6‧‧‧第二韻律標記

A7‧‧‧第二韻律參數

第一圖：本案一較佳實施例之語音合成裝置之示意圖。

第二圖：本案一較佳實施例之漢語語音階層式韻律結構示意圖。

第三圖：本案一較佳實施例之使用HMM-based speech synthesizer產生語音合成的流程圖。

第四圖：顯示本案一較佳實施例之語者相關和語者獨立原始(original)及編碼/解碼後重建(reconstruction)之韻律參數韻律範例。

第五圖：顯示本案一較佳實施例之原始語音、韻律訊息編碼後語音合成及轉換為不同語速之語音之波形、音高軌跡的差異。

本發明將可由以下的實施例說明而得到充分瞭解，使得熟習本技藝之人士可以據以完成之，然本案之實施並非可由下列實施案例而被限制其實施型態。

為達上述之發明目的，使用階層式韻律模組於語音韻律編碼中，其方塊圖如第一圖所示，包含語音切割及韻律參數抽取器101、階層式韻律模組102、韻律結構分析單元103、編碼器104、解碼器105、韻律參數合成單元106、語音合成器107、韻律結構分析裝置108、韻律參數合成裝置109、韻律訊息編碼裝置110及韻律訊息解碼裝置111。

以下介紹本發明的概念：首先將一語音訊號及其對應之低階層語言參數輸入至語音切割及韻律參數抽取器101，其功能在於使用聲學模型(acoustic model)將輸入語音做音節邊界切割、以及求取音節韻律參數，提供下一級韻律結構分析單元102使用；階層式韻律模組102之主要用途是用來描述中文語音之韻律階層結構，它包含了韻律狀態模型、韻律停頓模型、音節韻律模型及音節間韻律模型等多種韻律模型。

韻律結構分析單元103之用途為利用階層式韻律模組102，解析輸入語音之韻律參數A3(由方塊101語音切割及韻律參數抽取器產生)，將語音韻律解析為韻律結構以韻律標記表示之。

編碼器104之主要功能為將重建語音韻律所需要的訊息進行編碼(encoding)並進行編碼串流(bit streaming)，這些訊息包含韻律結構分析單元103所產生的韻律標記A4、以及輸入之低階語言參數A1。

解碼器105之主要功能是將編碼串流A5解碼，將韻律參數合成單元106所需要的韻律標記A6以及低階語言參數A1解碼出來。

韻律參數合成單元106之主要功能為利用解碼出的韻律標記A6以及低階語言參數訊息A1，使用階層式韻律模組102為旁資訊(side information)將語音韻律參數合成還原。

語音合成器107之主要功能為利用還原之韻律參數A7、低階語言參數A1，將語音合成，其係以馬可夫模型為基礎。

韻律結構分析裝置108包含階層式韻律模組102及韻律結構分析單元103，其利用階層式韻律模組，以韻律結構分析單元解析輸入語音之韻律參數A3(由語音切割及韻律參數抽取器101產生)，將語音韻律解析為韻律結構以韻律標記A4表示之。

韻律參數合成裝置109包含階層式韻律模組102及韻律參數合成單元106，其利用解碼器105還原出的一第二韻律標記A6及低階語言參數A1，根據該第二韻律標記A6及低階語言參數A1，使用階層式韻律模組102作為旁資訊(side information)以韻律參數合成單元106合成出第二韻律參數A7。

韻律訊息編碼裝置110包含語音切割及韻律參數抽取器101、階層式韻律模組102、韻律結構分析單元103、韻律結構分析裝置108及編碼器104，其先以語音切割及韻律參數抽取器101對一輸入語音及一低階語言參數A1作解析以得出一第一韻律參數A3，然後該韻律結構分析裝置108根據該第一韻律參數A3、該低階語言參數A1及一高階語言參數A2來形成一第一韻律標記A4，接著該編碼器104根據該第一韻律標記A4及該低階語言參數A1來形成一編碼串流A5。

韻律訊息解碼裝置111包含解碼器105、階層式韻律模組102、韻律參數合成單元106、韻律參數合成裝置109及語音合成器107，其係以解碼器105將韻律訊息編碼裝置111所輸出之編碼串流A5還原為一第二韻律標記A6及一低階語言參數A1，並透過韻律參數合成裝置109來合成一第二韻律參數A7，該第二韻律參數A7經由語音合成器107合成出一語音合成。

為了介紹本發明之最佳實施例，以下列式子來表示，這個式子是用於韻律結構分析單元103，將語音韻律解析為韻律結構以韻律標記表示之，方法是將韻律聲學特徵參數序列(A)以及語言參數序列(L)輸入韻律結構分析單元103，韻律結構分析單元103輸出最佳的韻律標記序列(T ^*)，這個最佳的韻律標記便可以用來表示語句的韻律參數，進而用於韻律參數編碼，其對應的數學式為：其中為韻律聲學特徵參數序列，N為語句音節數，X、Y和Z分別表示音節為基礎的韻律特徵參數、音節間及差分韻律聲學特徵參數；為語言參數序列，其中{POS,PM,WL}為高階語言參數序列，POS、PM及WL分別為詞類序列、標點符號序列及詞長序列，而{t,s,f}為低階語言參數序列，t、s級f分別為聲調、基本音節類別及韻母類別序列；T={B,P}為韻律標記序列，其中為韻律停頓序列，P={p,q,r}為韻律狀態序列，其中p表示音節音高韻律狀態，q表示音節長度韻律狀態，r表示音節能量韻律狀態。韻律標記序列是用來描述階層式韻律模組102所考量的中文韻律階層結構，如第二圖所示。此結構包含四種韻律成分：音節、韻律詞、韻律片語及呼吸群組或韻律片語群組。韻律停頓B _n是用來描述音節n和音節n+1之間的停頓狀態，共使用七種韻律停頓狀態來描述四種韻律成分的邊界；另一個韻律標記P為韻律狀態可表示為P={p,q,r}，用來表示上層韻律成分，也就是韻律詞、韻律片語及呼吸群組或韻律片語群組這三層綜合的音節韻律聲學特徵。

(1)音節韻律聲學模型P(X|B,P,L)：

如下式所示再以以下三個子模型來近似：其中子模型P(sp _n |,p _n,)、P(sd _n | q _n,s _n,t _n)以及P(se _n | r _n,f _n,t _n)分別代表第n個音節的音高輪廓模型、音節長度模型、能量位階模型，t _n、s _n及f _n分別表示第n個音節的聲調、基本音節、及韻母類型；和分別表示韻律停頓序列及聲調序列，在本實施例中，這三個子模型各考慮了多個影響因子，這些影響因子並以加成方式去結合一塊，以第n個音節的音高輪廓為例，我們可得：其中sp _n=[α _0,n,α _1,n,α _2,n,α _3,n]為一四維正交化係數用以表達第n個音節觀察到的音高輪廓，其係數由下述數學求得： j=0~3 其中F _n(i)代表第n個音節第i個音框音高值(frame pitch)，M _n+1代表第n 個音節具有音高(pitch)的音框數，代表第j個正交化基底，其數學式如下：為正規化的sp _n，和分別為聲調和韻律狀態的影響參數，和為向前及向後連音影響參數；以方便表示；μ _sp為音高的全域平均值。基於假設為零平均值和正規分佈，所以我們以常態分佈來表示，可得音節長度P(sd _n | q _n,s _n,t _n)及能量位階P(se _n | r _n,f _n,t _n)亦是以此方式去實現。

其中γ _x及ω _x分別代表音節長度以及音節能量位階受影響因素x的影響參數。

(2)音節間韻律聲學模型P(Y,Z|B,L)：

音節間韻律聲學模型則以五個子模型近似之，如下式所示：其中在第n個音節所跟隨的音節接合點(juncture n，之後以第n個接合點表示)的短停頓長度pd _n以Gamma分佈模擬，ed _n為第n個接合點的能量低點；pj _n為跨越第n個接合點的正規化音高差，其定義如下：其中sp _n(1)為sp _n的第一維度(即音節音高平均值)；χ _t為聲調t平均音高位階。

為跨越第n個接合點的兩個正規化的音節拉長因子，其中π _x代表影響因素x的平均音長。除了pd _n以Gamma分佈模擬外，其他四種模型皆以常態分佈模擬；因為對韻律停頓而言L _n的空間仍是太大，所以將L _n使用決策樹演算法分成幾類，同時估計Gamma及其他四種常態分佈的參數。

(3)韻律狀態模型P(P|B)

韻律狀態模型P(P|B)以三個子模型近似之，如下式所示：

(4)韻律停頓模型P(B|L)

韻律停頓模型P(B|L)如下式所示其中L _n為第n個音節的文本相關的語言特徵參數，此機率可用任何方法預估，本實施例中使用決策樹演算法去預估此機率。

此階層式韻律模式之訓練，在適當的韻律斷點和韻律狀態初始化後，是以依次序最佳化演算法(sequential optimal algorithm)來訓練韻律模型，同時對於訓練語料以最大似然性原則(maximum likelihood criterion)作韻律標記且得到此階層式韻律模式之參數。

<韻律結構分析單元>

韻律結構分析單元工作的目的在解析輸入語句的韻律階層性結構，也就是由韻律聲學特徵參數序列(A)以及語言參數序列(L)去找到最佳的韻律標記T={B,P}，數學式表示如下：其中韻律結構分析單元的工作方法可以用以下的疊代法求最佳解實現：

(1)初始化：使i=0，由下式找到最佳韻律斷點序列：

(2)重複疊代：以下列三步驟重複疊代得到韻律斷點序列及韻律狀態序列：步驟一：給定B ^i-1，使用維特比(Viterbi)演算法標記韻律狀態序列，使得Q值增加：步驟二：給定P ⁱ，使用維特比(Viterbi)演算法標記韻律斷點序列，使得Q值增加：步驟三：若Q值達到收斂(convergence)，跳出此(2)重複疊代，否則將i=i+1且跳回步驟一。

(3)結束：得到最佳韻律標記B ^*=B ⁱ及P ^*=P ⁱ

<韻律訊息的編碼>

由階層式韻律模組102可知，音節音高輪廓sp _n、音節長度sd _n以及音節能量位階se _n皆為考慮多個影響因子之線性組合，這些因子包含低階語言參數：聲調t _n、基本音節型態s _n、韻母型態f _n，另外就是用來表示階層式韻律結構的韻律標記(由方塊103為韻律結構分析單元得到)：韻律斷點B _n以及韻律狀態p _n、q _n以及r _n。因此，音節音高輪廓sp _n、音節長度sd _n以及音節能量位階se _n只需要將以上的這些因子編碼傳送即可，其中使用下式於韻律參數合成單元106以還原其參數：值得注意的是、以及可以被忽略不須被傳送，因為它們的變量十分小可以被忽略。

另外音節間的停頓長度pd _n是由Gamma分佈模擬，也就是g(pd _n；,)，這個Gamma分佈模型描述停頓長度pd _n如何受到前後文語言參數及韻律停頓的影響，由於前後文語言參數的組合很多，因此利用七個決策數(decision tree)分別代表七種韻律斷點下，不同前後文語言參數對音節間停頓的影響pd _n，稱此七個決策樹為韻律斷點相關決策樹(break type-dependent decision trees,BDTs)，每一個BDT下的葉節點(leaf node)T _n可以代表某一種韻律斷點下、某一種前後文語言參數的音節間停頓長度分佈，這些分佈即當作傳送音節間停頓長度資訊時使用的旁資訊(side information)，因此只要以葉節點的編號(leaf-node index)以及韻律斷點B _n就可以表示音節間停頓長度。值得注意的是，每個音節對應的葉節點編號可由韻律結構分析單元103得到，而音節間停頓長度，根據韻律參數合成單元106中葉節點的編號(leaf-node index)以及韻律斷點資訊，查詢BDT上對應值來還原音節間停頓長度。

總結以上的說明，編碼器104需要編碼的符號(Symbol)包含：聲調t _n、基本音節型態s _n、韻母型態f _n、韻律斷點B _n、三種韻律狀態(p _n、q _n、r _n)以及葉節點(leaf node)T _n。編碼器104依據以上symbol的種類數以不同的位元長度(bit length)編碼，最後串接為位元串(bit stream)送至解碼端經由解碼器105解碼，然後送至韻律參數合成單元106還原韻律訊息，並經由語音合成器107語音合成。除了位元串，部分階層式韻律模組102的參數為旁資訊(side information)，用於還原韻律參數使用的參數，其包含音節音高輪廓影響參數：{β _t,β _p,,,μ _sp}、音節音長影響參數： {γ _t,γ _s,γ _q,μ _sd}、音節能量位階影響參數：{ω _t,ω _f,ω _r,μ _se}、BDT音節間停頓長參數。

<語音合成>

語音合成器107的工作目的是經由給定的基本音節型態、音節音高輪廓、音節長度、音節能量位階、音節間停頓長度，利用隱藏式馬可夫為基礎之語音合成技術(HMM-based speech synthesis)將語音合成出來。HMM-based speech synthesis技術為習知技術，在此僅簡短說明其參數設定：中文的21個聲母及39個韻律都各以一個HMM表示，每個HMM包含5個HMM狀態，每一個狀態內的觀察相量包含兩個類別串：一個為維度75的頻譜參數，另一為離散的事件來表示清音(unvoiced)或濁音(voiced)的狀態。每一個狀態皆以多變量單一高斯函數(multi-variate single Gaussian)表示其觀察機率，以維度為5的multi-variate single Gaussian向量表示每個聲母或韻律HMM裡面5個狀態的長度機率分布。訓練HMM模型的方法是以習知方法(embedded-trained及決策樹方法對HMM狀態分群)訓練其參數，上述之參數設定及訓練方法可視實際情況而調整。

圖三為使用HMM-based speech synthesizer產生語音合成的流程圖。於HMM狀態及清濁音產生器303我們首先用以下的習知方法的HMM狀態時長模型301產生每一個HMM狀態的時長：其中μ _n,c及分別代表的n個音節的第c個HMM狀態，對應高斯函數模型的平均值參數及變異量參數，ρ為伸縮係數，由以下式子得到：值得注意的是上式中即是韻律參數合成單元106還原的音節音長。由於每一個HMM狀態皆有標示其清音及濁音的狀態，因此在產生HMM狀態長度後，便可利用HMM狀態清濁音模型302得到音節內濁音的時長或音框數+1，進而音節音高輪廓於對數音高軌跡及激發信號產生器306可以以下式還原：其中代表由韻律參數合成單元106還原的音節音高輪廓向量的第j維，也就是。接著，MLSA合成濾波器(synthesis filter)所需要的激發信號(excitation signal)便可由還原的對數音高軌跡產生。另一方面，除了激發信號以外，每個音框頻譜資訊是以習知技術在給定HMM狀態長度和HMM的狀態觀察向量參數後，於音框MGC產生器305利用HMM聲學模型304以習知技術之參數產生法產生出適當的每個音框之MGC參數，並將每個音節之能量位階調整至韻律參數合成單元106還原的音節能量位階。最後，將激發信號及每個音框之MGC參數輸入至MLSA濾波器307，便可合成出語音。

<實驗結果>

表一顯示實驗語料的重要統計資訊，實驗語料分為兩大部分：(1)單一語者語料庫Treebank speech corpus、以及(2)多語者中文連續語音資料庫TCC300，這兩份語料分別用於實地測試的第一圖實施例之語者相關(speaker dependent,SD)及語者獨立(speaker independent)之韻律訊息編碼效能。

表二為各編碼符號(symbol)所需要的編碼位元長度(codeword length)，表三為旁資訊的參數量說明。

表四為韻律參數合成單元106還原的各韻律參數的方均根誤差(root-mean-square errors,RMSE)，由表四中可看出誤差皆十分小。

表五為本案之位元率表現。在語者相關和語者獨立平均的傳輸位元率分別為114.9±4.78位元每秒及114.9±14.9位元每秒，此位元率十分低。第四圖(a)及第四圖(b)顯示語者相關(401、402、403、404)和語者獨立(405、406、407、408)原始(original)及編碼/解碼後重建(reconstruction)之韻律參數韻律範例，包含語者相關的音高層次401、音節長度402、音節能量位階403、音節間靜音時長及韻律斷點標記404(不含B0與B1，為簡潔表示)，以及語者獨立的音高層次405、音節長度406、音節能量位階407、音節間靜音時長及韻律斷點標記408。由第四圖(a)及第四圖(b)可明顯發現還原韻律及原始韻律十分接近。

<語速轉換範例>

本案之韻律編碼方法亦提供系統化的語速轉換平台，方法為於韻律參數合成單元106將原本語速之階層式韻律模組102抽換為目標語速之階層式韻律模組102。實地測試所採用的訓練語料相關統計資訊如表六所示，原本於實驗結果中使用的語者相關語料是正常速度語料，以此語料為標準，另外兩個不同語速語料分別為快速語料及慢速語料，它們對應之階層式韻律模組皆可以相同於正常速度之訓練方法完成。第五圖(a)顯示原始語音之波形501、音高軌跡502；第五圖(b)顯示韻律訊息編碼後語音合成之波形505、音高軌跡506；第五圖(c)顯示轉換為語速較快之語音的波形509、音高軌跡510；第五圖(d)顯示轉換為語速較慢之語音的波形513、音高軌跡 514，其中第五圖(a)~第五圖(d)直線的部分表示音節切割位置(可以漢語拼音503、507、511及515表示)及實驗所使用的時間為504、508、512及516。由第五圖(a)~第五圖(d)可以明顯的看到原始語速、快速、慢速語音上音節長度及音節間停頓時長的差異。由非正式的聽覺實驗聆聽不同語速的語音合成，其韻律相當流暢且自然。

雖然本發明已以較佳實施例揭露如上，然其並非用以限定本發明之範圍，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可作各種更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

實施例：

1.一種語音合成之裝置，其包括：一階層式韻律模組，提供一階層式韻律模型；一韻律結構分析單元，接收一低階語言參數、一高階語言參數及一第一韻律參數，且根據該高階語言參數、該低階語言參數、該第一韻律參數及該階層式韻律模組，產生至少一韻律標記；以及一韻律參數合成單元，根據該階層式韻律模組、該低階語言參數及該韻律標記來合成一第二韻律參數。

2.如實施例1所述之裝置，更包括：一韻律參數抽取器，接收一語音輸入及一低階語言參數，切割該語音輸入來形成一切割的語音，根據該低階語言參數及該切割的語音產生該第一韻律參數；以及一韻律參數合成裝置，其中：該第一階層式韻律模組係根據一第一語速而被產生；當該韻律參數合成裝置欲產生與該第一不同的一第二語速時，該第一階層式韻律模組被抽換為具該第二語速的一第二階層式韻律模組且該韻律參數合成單元將該第二韻律參數改變為一第三韻律參數；以及該語音合成器根據該第三韻律參數及該低階語言參數產生具有該第二語速之語音合成。

3.如實施例1-2所述之裝置，更包括：一編碼器，接收該韻律標記及該低階語言參數，且根據該韻律標記及該低階語言參數而產生一編碼串流；以及一解碼器，接收該編碼串流，並還原該韻律標記及該低階語言參數，其中該編碼器包含一碼書，提供一相對應於該韻律標記所需的編碼位元以產生該編碼串流，且該解碼器亦包含一碼書，提供該編碼位元對該編碼串流進行該韻律標記之還原。

4.如實施例1-3所述之裝置，更包括：一韻律參數合成裝置，接收經解碼器還原之該韻律標記及該低階語言參數來產生該第二韻律參數，該第二韻律參數包含一音節基頻軌跡、一音節時長、一音節能量位階、及一音節間靜音時長。

5.如實施例1-4所述之裝置，其中：該第二韻律參數係以一加法模組還原；以及該音節間靜音時長係以一碼書查表還原。

6.一種韻律訊息編碼裝置，包含：一韻律參數抽取器，接收一語音輸入及一低階語言參數，用以產生一第一韻律參數；一韻律結構分析單元，接收該第一韻律參數、該低階語言參數及一高階語言參數，且根據該第一韻律參數、該低階語言參數及該高階語言參數，產生一韻律標記；以及一編碼器，接收該韻律標記及該低階語言參數，用以產生一編碼串流。

7.一種編碼串流產生裝置，包含：一韻律參數抽取器，產生一第一韻律參數；一階層式韻律模組，賦予該第一韻律參數一語言結構意義；一編碼器，根據具有該語言結構意義之該第一韻律參數來產生一編碼串流，其中：該階層式韻律模組包含至少二參數，其中各該參數係選自一音長、一音高軌跡、一停頓時機、一停頓出現頻率、一停頓時長或其組合。

8.一種語音合成之方法，包含下列步驟：提供一第一韻律參數、一低階語言參數、一高階語言參數及一階層式韻律模組；根據該第一韻律參數、該低階語言參數、該高階語言參數、及該階層式韻律模組來對該第一韻律參數進行韻律結構分析，以產生一韻律標記；以及根據該韻律標記來輸出一語音合成。

9.如實施例8所述之方法，更包含下列步驟：對一輸入語音及該低階語言參數執行語音切割及韻律參數抽取，以產生該第一韻律參數；分析該第一韻律參數以產生該韻律標記；編碼該韻律標記以形成該編碼串流；解碼該編碼串流；根據該低階語言參數及該韻律標記來合成一第二韻律參數；以及根據該第二韻律參數及該低階語言參數來輸出該語音合成。

10.一種韻律結構分析單元，包含：一第一輸入端，接收一第一韻律參數；一第二輸入端，接收一低階語言參數；一第三輸入端，接收一高階語言參數；以及一輸出端，其中該韻律結構分析單元根據該第一韻律參數、該低階語言參數及該高階語言參數，而於該輸出端產生一韻律標記。

11.一種語音合成裝置，包含：一解碼器，接收一編碼串流，並還原該編碼串流以產生一低階語言參數及一韻律標記；一階層式韻律模組，接收該低階語言參數及該韻律標記，以產生一韻律參數；以及一語音合成器，根據該低階語言參數及該韻律參數來產生一語音合成。

12.一種韻律結構分析裝置，包含：一階層式韻律模組，提供一階層式韻律模組；以及一韻律結構分析單元，接收一第一韻律參數、一低階語言參數及一高階語言參數，且根據該第一韻律參數、該低階語言參數、該高階語言參數及該階層式韻律模組，產生一韻律標記。

13.如實施例12所述之韻律結構分析裝置，其中：該低階語言參數包含一中文基礎音節類別及聲調；該高階語言參數包含一詞長、一詞類、及一標點符號；以及該韻律參數包含一音節基頻軌跡、一音節時長、一音節能量位階及一音節間靜音時長。

14.如實施例12-13所述之韻律結構分析裝置，係使用一階層式韻律模組，並以一最佳化演算法輔以該低階語言參數及該高階語言參數對該第一韻律參數進行韻律結構分析，以輸出該韻律標記。