TWI467566B

TWI467566B - 多語言語音合成方法

Info

Publication number: TWI467566B
Application number: TW100141766A
Authority: TW
Inventors: Chung Hsien Wu; Yi Chin Huang; Kuan Te Li
Original assignee: Univ Nat Cheng Kung
Priority date: 2011-11-16
Filing date: 2011-11-16
Publication date: 2015-01-01
Also published as: TW201322250A

Description

多語言語音合成方法

本發明係關於一種語音合成方法，特別關於一種多語言語音合成方法。

由於語音是人類溝通最直接的媒介，因此以語音來作為人機互動的媒介十分重要。其中已有許多基於語音合成技術的產品應運而生。例如：手機的聲控撥號、文字轉語音系統(Text-to-speech synthesis,TTS system)、即時語音導航系統等許多已經實際應用的商品。

另外，在現今社會中，語者在對話時，常常會使用不同的語言進行溝通。此種現象最常出現於某個特定的字詞，或是短語用另一個語言能夠通順的表達其意涵。例如：幫我取消掉明天的會面→幫我cancel掉明天的會面；這門課不被down我就all pass 了。all pass是英文，對話為了簡略表達經常用這個詞，夾雜在中文句中，句子從中文轉變英文，這稱作code-switching問題。

然而，傳統TTS只能合成單一語言，已經無法滿足使用者需求。對於多語合成系統，一般都使用精通多語的語者錄語料，但這並不如單一語言來得容易蒐集。另一方面，若是結合多種不同語者之語言語料，卻面臨語者特性不連貫的情形，為了處理不連貫問題，又必須做聲音轉換。

一般而言，在語音合成技術中，是利用模型調適(HMM-based model adaptation)與聲音轉換(voice conversion)。然而，在模型調適中，會遇到跨語言音素不完全相同的問題。而在聲音轉換中，會遇到跨語言音素無法收集到平行語料之問題。

因此，如何提供一種多語言語音合成方法，能夠解決上述問題，進而提升語音合成效能，實為當前重要課題之一。

有鑑於上述課題，本發明之目的為提供一種能夠解決習知問題，進而提升語音合成效能之多語言語音合成方法。

為達上述目的，依據本發明之一種多語言語音合成方法包含：選取一第一語言為主要語言，並收集該第一語言之一第一語料；選取一第二語言為次要語言，並收集該第二語言之一第二語料；利用第一語料與第二語料將第一語言之複數第一發音單元以及第二語言之複數第二發音單元進行分類，該等第二發音單元包含複數特殊發音單元；以及決定與該等特殊發音單元所對應之第一發音單元。

在一實施例中，第一語料多於第二語料。

在一實施例中，多語言語音合成方法更包含：利用第一語料訓練第一語言之一第一語音模型；及利用第二語料訓練第二語言之一第二語音模型。

在一實施例中，多語言語音合成方法更包含：藉由國際音標(IPA)來分類該等第一發音單元與該等第二發音單元。

在一實施例中，在決定與該等特殊發音單元所對應之第一發音單元之前，多語言語音合成方法更包含：將第一語料細分成多個第一音框；及將第二語料細分成多個第二音框，使得該等特殊發音單元對應該等第一發音單元係藉由時間序列上之音框對應來進行。

在一實施例中，第一語言之一音素(phone)係分成多個該等第一音框。第二語言之一音素係分成多個該等第二音框。

在一實施例中，決定與該等特殊發音單元所對應之第一發音單元之步驟係藉由發音屬性(Articulatory attribute)或聽覺參數(Auditory feature)來進行。

在一實施例中，將該等特殊發音單元對應該等第一發音單元之後，多語言語音合成方法更包含：藉由對應該等特殊發音單元之該等第一發音單元來訓練第二語言之該等特殊發音單元之語音模型。

在一實施例中，多語言語音合成方法更包含：將第二語言之該等特殊發音單元之語音模型加入第一語言之語音模型。

承上所述，本發明之多語言語音合成方法可解決跨語言音素不完全相同的問題，並可解決無法收集到平行語料之問題，因而產生出任一語者之多語言語音合成。

以下將參照相關圖式，說明依本發明較佳實施例之一種，其中相同的元件將以相同的參照符號加以說明。

圖1為本發明較佳實施例之一種多語言語音合成方法的步驟流程圖，其中包含步驟S01：選取一第一語言為主要語言，並收集第一語言之一第一語料；步驟S02：選取一第二語言為次要語言，並收集第二語言之一第二語料；步驟S03：利用第一語料與第二語料將第一語言之複數第一發音單元以及第二語言之複數第二發音單元進行分類，該等第二發音單元包含複數特殊發音(language-specific phone)單元；以及步驟S04：決定與該等特殊發音單元所對應之第一發音單元。以下詳細說明本實施例之多語言語音合成方法，其中第一語言以中文，第二語言以英文為例，但這不用以限制本發明。另外，需注意者，上述步驟S01～S04並不代表其絕對順序，例如可先進行步驟S02再進行步驟S01。

首先，選取一第一語言為主要語言，並收集第一語言之一第一語料。於此，第一語料係以出自同一語者為例，例如以台灣總統為例。

再者，選取一第二語言為次要語言，並收集第二語言之一第二語料。於此，第二語料係以出自同一語者為例，例如以美國總統為例。本實施例之目的即是要產生出以台灣總統的口音說出英語之語音。另外，在本實施例中，作為主要語言之第一語料多於作為次要語言之第二語料。

另外，在步驟S01與S02之後，多語言語音合成方法可更包含：利用第一語料訓練第一語言之一第一語音模型；以及利用第二語料訓練第二語言之一第二語音模型。在此態樣中，對中英文進行不同語者之語料庫設計與建構，且利用訓練語料來進行所有的音素聲學模型的訓練，即包含第一語音模型(中文)以及第二語音模型(英文)之訓練。模型訓練包含語音訊號參數化、取得頻譜及音高的參數分析。在上述訓練中，本實施例係使用STRAIGHT分析及合成演算法，此方法可以得到精確的基頻參數以及倒頻譜參數(Cepstral feature)。

接下來進行步驟S03。

中文和英文在語言學上的在基本發音單元有所差異，前者分在漢藏語系，後者則是印歐語系。故如圖2所示，中文與英文之間共同音只有24個(不考慮中文聲調)，另外有16個中文才有而英文沒有的音素，英文同樣也有16個中文沒有的音素，對於這種因為語言不同而找不到對應的音素，一般稱之為未知音(unseen phone)。未知音係構成特殊發音單元(language-specific phone)的基本音素。

為了處理未知音的問題，本實施例利用音素(第一發音單元與第二發音單元各可由至少一音素組成)的發音屬性對中英文的音素進行分類。發音屬性(Articulatory Attribute)可包含音素的發音位置(Place Of Articulation)以及發音方式(Manner Of Articulation)，其特性就在於發音位置及發音方式不會因為語言的不同而改變，亦不受語者特性所影響，為一種強健的(robust)特徵參數。語言學者根據每個音素的發音屬性制訂了國際音標(International Phonetic Alphabet,IPA)。本實施例根據傳統語言學家所訂定之規則來建立中英文發音屬性母音表以及子音表，如圖3和圖4所示。於此說明圖4中英文所對應之中文：Bilabial(雙唇音)、Labio-dental(唇齒音)、Dental(齒音)、Alveolar(齒齦音)、Post-Alveolar(後齒齦音)、Palatal(硬顎音)、Velar(軟顎音)、Glottal(喉音)、Plosive(爆音)、Implosive(內爆音)、Fricative(擦音)、Nasal(鼻音)、Trill(顫音)、Lateral(邊音)、Approximant(近音)。而分類的方式採用決策樹的分類方式，決策樹所使用的問題集同樣參考國際音標的訂定方式，具有同樣屬性的音素歸為同類，其中有些問題是針對中英文而定，例如兒化母音，就將英文的/r/和中文的/ㄦ/放在一起，其他像中介音/w/、/y/，則是和有中介音的中文音素例如/ㄓㄨ+*/(*指的是任一種音素，+代表的意思為後面一個音，在此例子中表示“ㄓㄨ”後面接任何一個音都符合這類的分類條件)、/ㄐㄧ+*/分在一起。以下為分類決策樹問題及設計原則：

母音相關(Vowel related)問題：其中包含/a/、/e/、/i/、/o/、/u/等單母音相關問題；母音位置問題，如：前、中、後等；雙母音相關問題；兒化母音等問題。

子音相關(Consonant related)問題：其中有發音位置問題，例如Velar、Coronal…等；發音方式問題：像是擦破音(Plosive)、鼻音(Nasal)…等等。

而在決策樹***時，除了考慮最短描述距離(minimum description length,MDL)之外，也必須注意到***之後至少含有中英文音素最少各一個在決策樹節點內，如圖5所示。於此說明圖5中英文所對應之中文：L_vowel(左邊所接音素是否為母音)、C_Labial(目前的音素是否為唇音)、L_fricative(左邊所接音素是否為擦音)、L_O_vowel(左邊所接音素是否為/O/類母音)。

為解決未知音與特殊發音單元的對應問題，進行步驟S04：決定與該等特殊發音單元所對應之第一發音單元。

本實施例之一特點為上述對應係利用單位更小的「音框」(frame)來進行。因此，多語言語音合成方法可更包含：將第一語料細分成多個第一音框；及將第二語料細分成多個第二音框。甚至可將第一語言之一音素(phone)分成多個第一音框，將第二語言之一音素分成多個第二音框。一個音框可例如為5毫秒(ms)。此外，決定與該等特殊發音單元所對應之第一發音單元之步驟係藉由發音屬性或聽覺參數(Auditory feature)來進行。以下說明發音屬性與聽覺參數。

發音屬性是多語言語音處理非常重要的一種特徵參數(feature)，可以提供必要的細微資訊，比其他特徵更好地處理發音變異，是較強健的語音參數，不容易發生因為語者不同或是語言不同參數變化過大的情形。在本實施例中，所有的語料依IPA的發音屬性的分類方式定義出總共22種不同的發音事件偵測器，如圖6所示，於此說明圖6中英文所對應之中文：P(Vowel |x(t))(輸入訊號x(t)為母音之似然率(likelihood))、P(Fricative |x(t))(輸入訊號x(t)為擦音之似然率)、P(Nasal |x(t))(輸入訊號x(t)為鼻音之似然率)。所使用到的偵測器則會利用不同的聲學上語音的特性的混合來建立發音事件偵測器的模型，如梅爾倒頻譜系數(MFCC)、過零率(zero crossing rate)、音高(pitch)、能量(energy)…等等。這些事件偵測器藉由語料可訓練出一套分類器，例如用類神經網路或是支持向量機(Support vector machine,SVM)等方法訓練分類器，最後輸出的結果則是一組22維的向量，每一維分別代表此聲音對於各發音屬性事件(Articulatory attribute vector，縮寫為AA vector)的機率值。

聽覺參數是針對人類聽感而設計，具有以下幾種特性：非線性的感知量測量度，如巴克量度、梅爾量度，這是由於人耳在頻域上的感知，並非全頻域都有相同的敏感度。

頻譜振幅壓縮(Spectral amplitude compression)為對數壓縮，因為在聽覺上人耳對音強(Intensity)的感知並非呈現線性關係，而是較接近對數曲線之呈現。

等響度(Equal loudness)曲線，響度為衡量聲音大小的單位，以1kHz的單頻聲為基準，不同頻率下聽覺的響度和1kHz時的響度一樣時對應的SPL(Sound Pressure Level)連成一曲線，即為等響度曲線。

遮蔽效應，發生當某一頻率有一特定音強存在時令一個不同頻率的聲音需要加強音強才能被人耳接收。主要可分為兩種，一種是頻率遮蔽(Frequency masking)，低頻聲音傾向遮蔽掉高頻聲音；另一種則為時間遮蔽(Temporal Masking)。

請參照圖7所示，本實施例採用Lyon’s auditory model的參數，其擷取步驟如下：首先會對訊號做預強調(pre-emphasis)，接著通過86個濾波器F₁ ～F₈₆ 組合成的級聯濾波器(cascade filter)，接著通過一系列的半波整流器(half wave rectification,HWR)，這部分在模擬內毛細胞(inner hair cell)的單向性運動，整流器具有將輸入波形的負半周消除的功能，使得能量減半。每個半波整流器的輸出再經由四個自動增益控制(automatic gain control,AGC)的級聯，AGC會隨著時間和鄰近整流器的輸出而改變數值，最後輸出的結果可表現出聲波進入人耳後，經由不同部位的神經放電頻率(neural firing rate)，並可由聽覺生理內耳聽覺模型(Cochleagram)來表現。

本實施例所提出的音框對應(frame alignment)方法之目標是利用第一語言之第一語料挑選出跟第二語言之第二語料在發音屬性以及聽覺特性最相近的音框序列(frame sequence)，其步驟如下：

1.　在已建立好的決策樹找尋第二語料每個音素標記所分類到的群(cluster)(請參照圖4)，從群中找尋其對應的第一語言之音素。

2.　計算第一音框與第二音框的挑選成本(substitution cost)，挑出前n個候選者(candidate)。

3.　計算各個候選者之間的串接成本(concatenation cost)。

4.　利用動態規劃在候選者群中找出結合concatenation cost以及substitution cost最小的最佳路徑所對應的第一語料之部分，並將其視為平行語料。

5.　利用平行語料來進行音高(Pitch)的高斯混合模型(Gaussian mixture model,GMM)轉換。

以下為各個音框之參數定義，第一語料與第二語料之各音框各自的倒頻譜參數及發音屬性(articulatory attribute,AA)，倒頻譜參數包含了梅爾一般化係數(Mel generalized Coefficient,MGC)及聽覺參數(auditory feature)。

其中第一音框特徵參數如下表示：

而第二音框特徵參數如下：

特徵參數各自定義如下：

SFp_n ：第一語料中第n個音框的倒頻譜參數。

SFs_n ：第二語料中第n個音框的倒頻譜參數。

AFp_n ：第一語料中第n個音框的發音參數(articulatory feature)

AFs_n ：第二語料中第n個音框的articulatory feature。

AFp_n ^- ：第一語料中第n-1個音框的articulatory feature。

AFs_n ^- ：第二語料中第n-1個音框的articulatory feature。

AFp_n ⁺ ：第一語料中第n+1個音框的articulatory feature。

AFp_n ⁺ ：第二語料中第n+1個音框的articulatory feature。

以下說明挑選成本(Substitution cost)Substitution cost計算方法採用歐式距離，如式(1)：

其中i、j表示第一音框與第二音框之特徵參數各自的音框索引值，dim則為語音參數之維度。在實作時會保留前n個距離最近的音框，這是由於每一個與第二語料距離最相近的candidate，它們在原始語料中前後所接的資訊(contextual information)之聲音特性不同。故為了將前後音的特性考慮進入concatenation cost中，而保留前n個最近的音框。此外，由於訓練語料音檔的音框繁多，一個母音就包含數萬個音框，故可利用最近鄰居(Nearest Neighbor)演算法預先找出各音框的前n個candidate，以降低了即時運算上耗費之計算時間。

以下說明Concatenation cost Concatenation cost計算數學式如下式(2)

在本實施例中，同時考慮了candidate間往前接以及往後接兩層的前後文脈關係。首先是後接關係，也就是在時間點i的candidate本身的articulatory feature(AFp_i )以及前一個時間點i-1的candidate在原音檔後面接的音框之articulatory feature(AFp_i-1 ⁺ )。另一層關係為前接關係，時間點t的candidate在原始音檔前接之音框articulatory feature(AFp_i ^- )以及i-1時間點的candidate的articulatory feature(AFp_i-1 )，舉例來說：若時間點i及i-1的第一語料之candidate是原本接在一起的，那相減後得到最短歐式距離的值為0。

本實施例之音框對應的計算示意圖如圖8所示。其演算法數學公式如式(3)：

其中

而Sub(Us_i ,Up_i )為前述之substitution cost，而Con(Up_i-1 ,Up_i )則為concatenation cost。Us_i 為第二語料在時間點i的基本合成單元(unit)，而Up_i 則為第一語料時間點i的基本合成單元。最後可利用維特比(Viterbi)演算法進行動態規劃，以求得cost最小的音框序列，並將其視為第一語料所產生與第二語言平行之語料。

以下說明Pitch的GMM轉換。

由於校準後的音框序列，其音韻並非第二語言實際上的音高曲線，經過校準後各音框f₀ 並未改變，由提出方法得到的音框序列的基頻曲線(f₀ contour)和實際的第二語言尚有差距，故需經過一次轉換。由於先前挑選candidate 時已有進行f₀ 的篩選，故能夠直接進行joint density的GMM轉換。定義x為第一語言之語者之f₀ ，y為第二語言之語者之f₀ ，z=[x^T y^T ]T用來估測GMM參數(α,μ,Σ)，則轉換函式為

Q為GMM的總個數

圖9為本實施例藉由上述音框對應方法所得到之結果的示意圖，其顯示第二語料之多個第二音框，其對應的第一語料之第一音框係分散在第一語料的多個段落中，並以剖面線表示之。

在選取到該等特殊發音單元(如音框)所對應之該等第一發音單元(如音框)之後，多語言語音合成方法更包含：藉由對應該等特殊發音單元之該等第一發音單元來訓練第二語言之該等特殊發音單元之語音模型，並將第二語言之該等特殊發音單元之語音模型加入第一語言之語音模型。

需注意者，除了特殊發音單元是利用上述音框對應方法之外，一般非特殊發音單元亦可使用同樣的音框對應方法來找到對應的音框，並可加入語音模型的訓練。

總括來說，本發明較佳實施例係以“發音屬性”及/或“聽覺參數”為基礎，提出了整合各個語言之語料庫之架構，來實現通用語音合成。其作法為利用一個大量收集之特定語者語料作為主要語言語者(Primary Language Speaker)，其他語言之語料庫則是利用跨語言之發音屬性進行與主要語言語者進行分類與對應。首先收集大量某主要語言與次要語言的語料，並利用IPA定義其語言中所有的發音單元(可包含至少一音素(phone))。之後將次要語言中特殊的發音單元(Language-Specific phone)之語音段對主要語言之語音段進行分類以及對應，其中分類以及對應的依據是考慮其發音屬性(Articulatory attribute)的前後文資訊(contextual information)以及結合倒頻譜參數(Cepstral feature)與聽覺參數(Auditory feature)作為挑選對應音框的依據，針對於兩個語言之語音段進行音框之對應。最後便能利用對應好的主要語言之語音段來進行次要語言之特殊發音單元語音模型的訓練，如此將次要語言特殊發音單元語音模型加入主要語言中，即可用以實現多語言語音合成器的實現。

綜上所述，本發明之多語言語音合成方法可解決跨語言音素不完全相同的問題，並可解決無法收集到平行語料之問題，因而產生出任一語者之多語言語音合成。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

S01~S04‧‧‧多語言語音合成方法的步驟

圖1為本發明較佳實施例之一種多語言語音合成方法的步驟流程圖；

圖2為中文和英文在語言學上的基本發音單元的示意圖；

圖3為中英文母音發音位置圖；

圖4為中英文子音發音位置與方式表；

圖5為決策樹分類示意圖；

圖6為發音屬性偵測器示意圖；

圖7為Lyon’s聽覺參數流程示意圖；

圖8為本發明之一實施例之音框對應的計算示意圖；以及

圖9為本實施例藉由音框對應方法所得到之結果的示意圖。

S01～S04．．．多語言語音合成方法的步驟

Claims

一種多語言語音合成方法，包含：選取一第一語言為主要語言，並收集該第一語言之一第一語料；選取一第二語言為次要語言，並收集該第二語言之一第二語料；利用該第一語料與該第二語料將該第一語言之複數第一發音單元以及該第二語言之複數第二發音單元進行分類，該等第二發音單元包含複數特殊發音單元，該等特殊發音單元係包含該第一語言與該第二語言之間的未知音；以及決定與該等特殊發音單元所對應之該等第一發音單元。
如申請專利範圍第1項所述之多語言語音合成方法，其中該第一語料多於該第二語料。
如申請專利範圍第1項所述之多語言語音合成方法，更包含：利用該第一語料訓練該第一語言之一第一語音模型；以及利用該第二語料訓練該第二語言之一第二語音模型。
如申請專利範圍第1項所述之多語言語音合成方法，更包含：藉由國際音標來分類該等第一發音單元與該等第二發音單元。
如申請專利範圍第1項所述之多語言語音合成方法，其中決定與該等特殊發音單元所對應之第一發音單元之前，更包含：將該第一語料細分成多個第一音框；以及將該第二語料細分成多個第二音框，使得該等特殊發音單元對應該等第一發音單元係藉由該等音框對應來進行。
如申請專利範圍第5項所述之多語言語音合成方法，其中該第一語言之一音素係分成多個該等第一音框。
如申請專利範圍第5項所述之多語言語音合成方法，其中該第二語言之一音素係分成多個該等第二音框。
如申請專利範圍第1項所述之多語言語音合成方法，其中決定與該等特殊發音單元所對應之該等第一發音單元之步驟係藉由發音屬性或聽覺參數來進行。
如申請專利範圍第1項所述之多語言語音合成方法，其中將該等特殊發音單元對應該等第一發音單元之後，更包含：藉由對應該等特殊發音單元之該等第一發音單元來訓練該第二語言之該等特殊發音單元之語音模型。
如申請專利範圍第9項所述之多語言語音合成方法，更包含：將該第二語言之該等特殊發音單元之該語音模型加入該第一語言之語音模型。