TWI840949B

TWI840949B - 多語者與多情緒語音合成系統、方法及電腦可讀媒介

Info

Publication number: TWI840949B
Application number: TW111134964A
Authority: TW
Inventors: 王文俊; 潘振銘; 廖元甫
Original assignee: 中華電信股份有限公司
Filing date: 2022-09-15
Publication date: 2024-05-01

Abstract

本發明揭露一種多語者與多情緒語音合成系統、方法及電腦可讀媒介，係由語者編碼模組依據多語者之語音參考訊號產生嵌入式語者向量，並由情緒編碼模組依據多情緒之語音參考訊號產生嵌入式情緒向量，且由語音合成模組之編碼單元依據文字或音標序列產生嵌入式文脈向量。繼之，由語音合成模組之整合單元將嵌入式語者向量、嵌入式情緒向量與嵌入式文脈向量整合成嵌入式控制向量，再由整合單元利用嵌入式語者向量、嵌入式情緒向量與嵌入式文脈向量整合而成之嵌入式控制向量控制語音合成模組之解碼單元以合成出語音頻譜。

Description

多語者與多情緒語音合成系統、方法及電腦可讀媒介

本發明係關於一種語音合成技術，特別是指一種多語者與多情緒語音合成系統、方法及電腦可讀媒介。

語音合成技術已經普遍運用於各種電子裝置與人機介面中，例如蘋果(Apple)公司之iPhone智慧手機與語音助理Siri，亞馬遜(Amazon)公司之Echo智慧音箱與語音助理Alexa，谷歌(Google)公司之智慧音箱Google Home與語音助理Google Assistant等。

雖然語音合成技術可以利用人機介面回應或提示相關資訊予電子裝置之使用者，但一般之語音合成技術僅能合成中性(neutral)之語音，卻鮮少考慮合成具情緒之語音，導致無法以具情緒之語音來與使用者進行高效率之互動對話。

再者，現有之語音合成技術並無法分別依據多語者之語音參考訊號、多情緒之語音參考訊號、與文字或音標序列產生嵌入式語者向量、嵌入式情緒向量、與嵌入式文脈向量，亦無法針對個人化需求產生個人化與情緒化之語音頻譜及/或合成語音，也無法依據轉換函數(如向量串接轉換函數或可學習式非線性類神經網路之轉換函數)將嵌入式語者向量、嵌入式情緒向量、與嵌入式文脈向量整合成嵌入式控制向量以控制語音合成模組合成出個人化與情緒化之語音頻譜，還無法利用類神經網路提升合成語音之品質，更無法由聲碼模組利用語音合成模組所合成之語音頻譜(如梅爾頻譜或對數梅爾頻譜)產生個人化與情緒化之合成語音。

因此，如何提供一種創新之語音合成技術，以解決上述之任一問題或提供相關之功能/服務，已成為本領域技術人員之一大研究課題。

本發明提供一種創新之多語者與多情緒語音合成系統、方法及電腦可讀媒介，係能分別依據多語者之語音參考訊號、多情緒之語音參考訊號、與文字或音標序列產生嵌入式語者向量、嵌入式情緒向量、與嵌入式文脈向量，亦能針對個人化需求產生個人化與情緒化之語音頻譜及/或合成語音，或者依據轉換函數(如向量串接轉換函數或可學習式非線性類神經網路之轉換函數)將嵌入式語者向量、嵌入式情緒向量、與嵌入式文脈向量整合成嵌入式控制向量以控制語音合成模組合成出個人化與情緒化之語音頻譜，抑或者利用類神經網路提升合成語音之品質，又或者由聲碼模組利用語音合成模組所合成之語音頻譜(如梅爾頻譜或對數梅爾頻譜)產生個人化與情緒化之合成語音。

本發明之多語者與多情緒語音合成系統包括：一語者編碼模組，係依據多語者之語音參考訊號之至少一者產生對應之嵌入式語者向量；一情緒編碼模組，係依據多情緒之語音參考訊號之至少一者產生對應之嵌入式情緒向量；以及一語音合成模組，係具有一編碼單元、一整合單元與一解碼單元，其中，語音合成模組之編碼單元依據文字或音標序列產生對應之嵌入式文脈向量，而語音合成模組之整合單元將語者編碼模組依據多語者之語音參考訊號所產生之嵌入式語者向量、情緒編碼模組依據多情緒之語音參考訊號所產生之嵌入式情緒向量、與編碼單元依據文字或音標序列所產生之嵌入式文脈向量整合成嵌入式控制向量，再由語音合成模組之整合單元利用嵌入式語者向量、嵌入式情緒向量、與嵌入式文脈向量整合而成之嵌入式控制向量控制語音合成模組之解碼單元以合成出語音頻譜。

本發明之多語者與多情緒語音合成方法包括：由語者編碼模組依據多語者之語音參考訊號之至少一者產生對應之嵌入式語者向量，並由情緒編碼模組依據多情緒之語音參考訊號之至少一者產生對應之嵌入式情緒向量，且由語音合成模組之編碼單元依據文字或音標序列產生對應之嵌入式文脈向量；以及由語音合成模組之整合單元將語者編碼模組依據多語者之語音參考訊號所產生之嵌入式語者向量、情緒編碼模組依據多情緒之語音參考訊號所產生之嵌入式情緒向量、與編碼單元依據文字或音標序列所產生之嵌入式文脈向量整合成嵌入式控制向量，再由語音合成模組之整合單元利用嵌入式語者向量、嵌入式情緒向量、與嵌入式文脈向量整合而成之嵌入式控制向量控制語音合成模組之解碼單元以合成出語音頻譜。

本發明之電腦可讀媒介應用於計算裝置或電腦中，係儲存有指令，以執行上述之多語者與多情緒語音合成方法。

為使本發明之上述特徵與優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之額外特徵及優點，且此等特徵及優點將部分自所述描述內容可得而知，或可藉由對本發明之實踐習得。應理解，前文一般描述與以下詳細描述二者均為例示性及解釋性的，且不欲約束本發明所欲主張之範圍。

1:多語者與多情緒語音合成系統

10:語者編碼模組

11:嵌入式語者向量萃取之類神經網路

12:音框層級

13:輸入特徵

14:第一統計池化層

15:語句層級

16:語者標記

17:softmax分類器

18:損失函數

19:第一資料庫

20:情緒編碼模組

21:嵌入式情緒向量萃取之類神經網路

22:音框層級

23:輸入特徵

24:第二統計池化層

25:語句層級

26:情緒標記

27:softmax分類器

28:損失函數

29:第二資料庫

30:語音合成模組

31:編碼單元

32:整合單元

33:注意力單元

34:解碼單元

40:聲碼模組

A1:多語者之語音參考訊號

A2:嵌入式語者向量

B1:多情緒之語音參考訊號

B2:嵌入式情緒向量

C1:文字或音標序列

C2:嵌入式文脈向量

C3:嵌入式控制向量

C4:語音頻譜

C5:合成語音

S1至S2:步驟

圖1為本發明之多語者與多情緒語音合成系統之架構示意圖。

圖2為本發明之多語者與多情緒語音合成方法之流程示意圖。

圖3為本發明之多語者與多情緒語音合成系統及其方法中，有關嵌入式語者向量分析方法之實施例示意圖。

圖4為本發明之多語者與多情緒語音合成系統及其方法中，有關嵌入式情緒向量分析方法之實施例示意圖。

以下藉由特定的具體實施形態說明本發明之實施方式，熟悉此技術之人士可由本說明書所揭示之內容了解本發明之其他優點與功效，亦可因而藉由其他不同具體等同實施形態加以施行或運用。

圖1為本發明之多語者與多情緒語音合成系統1之架構示意圖，圖2為本發明之多語者與多情緒語音合成方法之流程示意圖，圖3為本發明之多語者與多情緒語音合成系統1及其方法中有關嵌入式語者向量分析方法之實施例示意圖，圖4為本發明之多語者與多情緒語音合成系統1及其方法中有關嵌入式情緒向量分析方法之實施例示意圖。

如圖1所示，多語者與多情緒語音合成系統1可包括互相連結或通訊之至少一語者編碼模組10、至少一情緒編碼模組20、至少一語音合成模組30與至少一聲碼模組40，在一實施例中，語音合成模組30可分別連結或通訊語者編碼模組10、情緒編碼模組20與聲碼模組40。語音合成模組30可具有至少一編碼單元31、至少一整合單元32、至少一注意力(attention)單元33與至少一解碼單元34，在一實施例中，編碼單元31可依序連結或通訊整合單元32、注意力單元33與解碼單元34。

在一實施例中，語者編碼模組10可為語者編碼器(speaker encoder)、語者編碼晶片、語者編碼電路、語者編碼軟體、語者編碼程式等，情緒編碼模組20可為情緒編碼器(emotion encoder)、情緒編碼晶片、情緒編碼電路、情緒編碼軟體、情緒編碼程式等，語音合成模組30可為語音合成器(speech synthesizer)、語音合成晶片、語音合成電路、語音合成軟體、語音合成程式等，聲碼模組40可為聲碼器(vocoder)、聲碼晶片、聲碼電路、聲碼軟體、聲碼程式等。編碼單元31可為編碼器、編碼晶片、編碼電路、編碼軟體、編碼程式等，整合單元32可為整合軟體、整合程式等，注意力單元33可為注意力軟體、注意力程式等，解碼單元34可為解碼器、解碼晶片、解碼電路、解碼軟體、解碼程式等。

在一實施例中，本發明所述「連結或通訊」可代表以有線方式(如有線網路)或無線方式(如無線網路)互相連結或通訊，「至少一」代表一個以上(如一、二或三個以上)，「複數」代表二個以上(如二、三、四、五或十個以上)。但是，本發明並不以上述實施例所提及者為限。

多語者與多情緒語音合成系統1及其方法依據使用者輸入之文字以及所指定之語者標記16(見圖3)與情緒標記26(見圖4)產生個人化與情緒化之語音頻譜C4及/或合成語音C5(見圖1)，例如：

[張三]{生氣}我不這麼認為！

[李四]{厭惡}這個東西能用嗎？進一步地，多語者與多情緒語音合成系統1及其方法亦可在同一句話中變化情緒，例如：

[王五]{中性}只看外表，{傷心}會準嗎？

[趙六]{中性}每年到了這個時候^.....{快樂}聖誕樹就出來了。前述[張三]、[李四]、[王五]、[趙六]等為語者標記16，{生氣}、{厭惡}、{中性}、{傷心}、{快樂}等為情緒標記26。

多語者與多情緒語音合成系統1及其方法之特色為建置語者編碼模組10以產生/求取複數(不同)嵌入式語者向量A2以表示複數(不同)語者之聲音特色，並建置情緒編碼模組20以產生/求取複數(不同)嵌入式情緒向量B2以表示複數(不同)情緒種類。

例如，本發明之技術特點可包括由語者編碼模組10建置嵌入式語者向量A2之分佈模型以表示語者之聲音特色，並由情緒編碼模組20建置嵌入式情緒向量B2之分佈模型以表示複數(不同)情緒種類，俾建置嵌入式語者向量A2與嵌入式情緒向量B2兩者所導引之多語者與多情緒語音合成系統1。亦即，多語者與多情緒語音合成系統1能建置可產生/求取複數(不同)嵌入式語者向量A2之語者編碼模組10，並建置可產生/求取複數(不同)嵌入式情緒向量B2之情緒編碼模組20。所以，本發明所建置之多語者與多情緒語音合成系統1能依據使用者輸入之文字，並指定語者與情緒之相關條件後，完成語音合成處理。

如圖1所示，語音合成模組30可使用端到端語音合成(如Tacotron2)技術、編碼-解碼架構(如編碼單元31結合解碼單元34之架構)及/或注意力單元33之注意力(attention)機制，以利語音合成模組30之解碼單元自動合成出個人化與情緒化之語音頻譜C4。

語音合成模組30之運作原理可簡述如下：先由語音合成模組30之編碼單元31將輸入之文字或音標序列(grapheme or phoneme sequence)C1進行文本分析(text analysis)，以自動產生文字或音標序列C1所對應之嵌入式文脈向量(embedding linguistic vector)C2，再由語音合成模組30之解碼單元34依據嵌入式文脈向量C2(如文脈特徵參數)並透過注意力單元33之權重機制自動對齊所輸入之文字或音標序列C1與解碼單元34所輸出之語音頻譜C4，且語音頻譜C4可例如為梅爾頻譜(Mel spectrogram)或對數梅爾頻譜(Log-Mel Spectrogram)。

如圖1與圖2所示，多語者與多情緒語音合成方法主要包括：

在步驟S1中，由語者編碼模組10依據多語者之語音參考訊號A1之至少一者產生對應之嵌入式語者向量A2，並由情緒編碼模組20依據多情緒之語音參考訊號B1之至少一者產生對應之嵌入式情緒向量B2，且由語音合成模組30之編碼單元31依據文字或音標序列C1產生對應之嵌入式文脈向量C2。

然後，在步驟S2中，由語音合成模組30之整合單元32將語者編碼模組10依據多語者之語音參考訊號A1所產生之嵌入式語者向量A2、情緒編碼模組20依據多情緒之語音參考訊號B1所產生之嵌入式情緒向量B2、與編碼單元31依據文字或音標序列C1所產生之嵌入式文脈向量 C2整合成嵌入式控制向量C3，再由語音合成模組30之整合單元32利用嵌入式語者向量A2、嵌入式情緒向量B2、與嵌入式文脈向量C3整合而成之嵌入式控制向量C3控制語音合成模組30之解碼單元34以合成出語音頻譜C4。

多語者與多情緒語音合成系統1及其方法可利用類神經網路以提升合成語音C5之品質，亦能持續發展、追求或展現個人化與情緒化(多樣化)之語音合成功能。為達成個人化與情緒化之語音合成功能，多語者與多情緒語音合成系統1及其方法可利用多語者與多情緒語音合成訓練語料分別建置語者編碼模組10與情緒編碼模組20，以利後續之語音合成模組30與聲碼模組40分別自動合成出個人化與情緒化之語音頻譜C4與合成語音C5。

詳言之，多語者與多情緒語音合成系統1及其方法之技術內容可分成下列三個部份進行說明，[1]第一個部份可包括如圖1所示以嵌入式語者向量A2與嵌入式情緒向量B2控制多語者與多情緒語音合成系統1之處理程序；[2]第二個部份可包括：[2-1]如圖3所示之嵌入式語者向量分析方法，以及[2-2]如圖4所示之嵌入式情緒向量分析方法；[3]第三個部份可包括如圖1所示之語音合成模組30之整合單元32對嵌入式語者向量A2、嵌入式情緒向量B2、與嵌入式文脈向量C2之整合方法，以及相關類神經網路(模型)之訓練方法。

[1]以嵌入式語者向量A2與嵌入式情緒向量B2控制多語者與多情緒語音合成系統1之處理程序(處理機制)。如圖1所示，語者編碼模組10、情緒編碼模組20、語音合成模組30與聲碼模組40等，必須利用具文字、語者標記16與情緒標記26之多語者與多情緒語音合成訓練語料進行訓練之建置，且以嵌入式語者向量A2與嵌入式情緒向量B2控制多語者與多情緒語音合成系統1之處理程序可包括下列程序P11至程序P16所述。

程序P11：由語者編碼模組10依據輸入之多語者之語音參考訊號(multi-speaker speech reference signal)A1(如多語者之語音參考波形)之至少一者產生/求取對應之嵌入式語者向量A2。

程序P12：由情緒編碼模組20依據輸入之多情緒之語音參考訊號(multi-emotion speech reference signal)B1(如多情緒之語音參考波形)之至少一者產生/求取對應之嵌入式情緒向量B2。

程序P13：由語音合成模組30之編碼單元31依據輸入之文字或音標序列C1產生/求取對應之嵌入式文脈向量C2。

程序P14：由語音合成模組30之整合單元32整合語者編碼模組10所產生之嵌入式語者向量A2、情緒編碼模組20所產生之嵌入式情緒向量B2、與語音合成模組30所產生之嵌入式文脈向量C2三者以得到嵌入式控制向量C3。

程序P15：由語音合成模組30之整合單元32利用嵌入式語者向量A2、嵌入式情緒向量B2、與嵌入式文脈向量C2三者整合而成之嵌入式控制向量C3，以自動控制語音合成模組30之注意力單元33與解碼單元34合成出個人化與情緒化之語音頻譜C4(如梅爾頻譜或對數梅爾頻譜)。

程序P16：由聲碼模組40利用語音合成模組30之注意力單元33所提供之注意力機制與解碼單元34所合成之語音頻譜C4(如梅爾頻譜或對數梅爾頻譜)以自動產生個人化與情緒化之合成語音C5(如合成語音訊號)。

[2-1]嵌入式語者向量分析方法(處理程序)：如圖1與圖3所示，嵌入式語者向量分析方法之相關處理程序可包括下列程序P21至程序P24所述。

程序P21：由語者編碼模組10利用具有語者標記16之訓練語料訓練出具有第一統計池化層(statistics pooling layer)14之語者辨認類神經網路，且語者辨認類神經網路可分為音框層級(frame level)12與語句層級(utterance level)15共兩個部份，以由語者辨認類神經網路之第一統計池化層14將語者辨認類神經網路之音框層級12之資訊轉換成語句層級15之資訊。語者編碼模組10可選擇使用梅爾頻率倒頻譜係數(Mel-Frequency Cepstral Coefficients；MFCC)作為語者辨認類神經網路之輸入特徵(feature)13，且語者編碼模組10亦能以softmax分類器17為基礎定義語者辨認類神經網路之損失函數(loss function)18。

程序P22：在訓練完成之語者辨認類神經網路之輸出層被去除後，語者編碼模組10可將語者辨認類神經網路之第一統計池化層14之輸出作為每一輸入語句之嵌入式語者向量A2，以使訓練完成之語者辨認類神經網路成為嵌入式語者向量萃取之類神經網路11。

程序P23：由語者編碼模組10利用嵌入式語者向量萃取之類神經網路11萃取每一輸入語句之嵌入式語者向量A2。

程序P24：由語者編碼模組10依據每一輸入語句之語者標記16與嵌入式語者向量萃取之類神經網路11所提供之對應之嵌入式語者向量A2建置第一資料庫19。例如，第一資料庫19可儲存有複數(不同)語者標記 16與對應之複數(不同)嵌入式語者向量A2，語者標記16可包括第一語者標記、第二語者標記至第M語者標記等，嵌入式語者向量A2可包括第一嵌入式語者向量、第二嵌入式語者向量至第M嵌入式語者向量等，且M代表大於2之正整數(如3、4、5或以上)。

[2-2]嵌入式情緒向量分析方法(處理程序)：如圖1與圖4所示，嵌入式情緒向量分析方法之相關處理程序可包括下列程序P31至程序P34所述。

程序P31：由情緒編碼模組20利用具有情緒標記26之訓練語料訓練出具有第二統計池化層24之語句情緒辨認類神經網路，且語句情緒辨認類神經網路可分為音框層級22與語句層級25共兩個部份，以由語句情緒辨認類神經網路之第二統計池化層24將語句情緒辨認類神經網路之音框層級之資訊轉換成語句層級之資訊。情緒編碼模組20可選擇使用梅爾頻率倒頻譜係數(MFCC)以及能反映情緒變化之音高(pitch)與音量(energy)等之特徵作為語句情緒辨認類神經網路之輸入特徵23，且情緒編碼模組20亦能以softmax分類器27為基礎定義語句情緒辨認類神經網路之損失函數28。

程序P32：在訓練完成之語句情緒辨認類神經網路之輸出層被去除後，情緒編碼模組20可將語句情緒辨認類神經網路之第二統計池化層24之輸出作為每一輸入語句之嵌入式情緒向量B2，以使訓練完成之語句情緒辨認類神經網路成為嵌入式情緒向量萃取之類神經網路21。

程序P33：由情緒編碼模組20利用嵌入式情緒向量萃取之類神經網路21萃取每一輸入語句之嵌入式情緒向量B2。

程序P34：由情緒編碼模組20依據每一輸入語句之情緒標記26與嵌入式情緒向量萃取之類神經網路21所提供之對應之嵌入式情緒向量B2建置第二資料庫29。例如，第二資料庫29可儲存有複數(不同)情緒標記26與對應之複數(不同)嵌入式情緒向量B2，情緒標記26可包括第一情緒標記、第二情緒標記至第N情緒標記等，嵌入式情緒向量B2可包括第一嵌入式情緒向量、第二嵌入式情緒向量至第N嵌入式情緒向量等，且N代表大於2之正整數(如3、4、5或以上)。

[3]語音合成模組30之整合單元32對嵌入式語者向量A2、嵌入式情緒向量B2、與嵌入式文脈向量C2之整合方法。

如圖1與下列公式(1)至公式(2)所示，以F(．)代表語音合成模組30之整合單元32，且整合單元32(如F(．))可依據不同選擇之方法定義對應之轉換函數(如向量串接轉換函數或可學習式非線性類神經網路之轉換函數)，以由整合單元32(如F(．))依據所選擇之轉換函數(如向量串接轉換函數或可學習式非線性類神經網路之轉換函數)將嵌入式語者向量A2、嵌入式情緒向量B2、與嵌入式文脈向量C2三者自動整合成一嵌入式控制向量C3(如一個固定長度之嵌入式控制向量C3)。亦即，整合單元32(如F(．))之轉換函數可選擇如公式(1)所示之向量串接轉換函數，或者選擇如公式(2)所示之可學習式非線性類神經網路之轉換函數。

上列公式(1)至公式(2)中，F(．)代表整合單元32，

、

、

分別代表嵌入式語者向量A2、嵌入式情緒向量B2、與嵌入式文脈向量C2，而ω_s、ω_e、ω_l分別代表嵌入式語者向量A2之可調整加權值、嵌入式情緒向量B2之可調整加權值、與嵌入式文脈向量C2之可調整加權值。

當整合單元32選擇可學習式非線性類神經網路時，可學習式非線性類神經網路能進一步整合語音合成模組30之注意力單元33與解碼單元34(如解碼網路)以得到整合後之類神經網路，且此整合後之類神經網路可利用嵌入式語者向量A2、嵌入式情緒向量B2、與嵌入式文脈向量C2三者整合而成之嵌入式控制向量C3完成訓練之建置。

然後，語音合成模組30之解碼單元34可將所產生之語音頻譜C4(如梅爾頻譜或對數梅爾頻譜)輸入至聲碼模組40，以由聲碼模組40利用語音頻譜C4合成出個人化(如語者特性)與情緒化(如語者情緒)之合成語音C5。亦即，聲碼模組40可依據合成語音C5之音質可接受度及/或系統執行速度等之不同考量，以選擇WaveNet、WaveGlow、WaveGAN與HiFi-GAN等複數種類神經網路之一者將語音頻譜C4合成個人化(如語者特性)與情緒化(如語者情緒)之合成語音C5。需說明者，前述WaveNet、WaveGlow、WaveGAN與HiFi-GAN通常以英文表示，較少以中文表示。

完成建置之多語者與多情緒語音合成系統1及其方法可依據使用者輸入之文字及所指定之語者標記16與情緒標記26產生個人化與情緒化之合成語音C5，亦可從圖3所示之第一資料庫19中找出語者標記16所對應之嵌入式語者向量A2，並從圖4所示之第二資料庫29中找出情緒標記26所對應之嵌入式情緒向量B2，再將嵌入式語者向量A2與嵌入式情緒向量B2分別輸入至語音合成模組30以進行語音合成處理。

舉例而言，多語者與多情緒語音合成系統1及其方法之相關處理程序可包括如下列所述之內容。

[1]使用者透過多語者與多情緒語音合成系統1先收集具文字、語者標記16與情緒標記26之多語者與多情緒語音合成訓練語料，作法包括(1)自行招募語者並設計錄音文本與錄製方式，或者(2)使用各種公開之語料。以(1)自行招募語者並設計錄音文本與錄製方式而言，錄音語者可依據不同需求以複數(不同)情緒進行語料錄製。又，以(2)使用各種公開之語料而言，則可選擇使用例如電視影集或Podcast(播客)之語料。

以英文為例，Multimodal Emotion Lines Dataset(簡稱MELD；網址為https：//affective-meld.github.io/)或Multimodal Signal Processing-Podcast corpus(簡稱MSP-Podcast；網址為https：//ecs.utdallas.edu/research/researchlabs/msp-lab/MSP-Podcast.html)，均為已完成標註之多語者與多情緒語音合成訓練語料。

[2]利用上述多語者與多情緒語音合成訓練語料中之語者標記16訓練如圖1所示之語者編碼模組10或如圖3所示之嵌入式語者向量萃取之類神經網路，以由語者編碼模組10利用嵌入式語者向量萃取之類神經網路11萃取每一輸入語句之嵌入式語者向量A2，並使用x向量(x-vector)之訓練方式訓練嵌入式語者向量萃取之類神經網路11，且語者編碼模組10可選擇使用梅爾頻率倒頻譜係數(MFCC)作為嵌入式語者向量萃取之類神經網路11之輸入特徵13。

[3]利用上述多語者與多情緒語音合成訓練語料中之情緒標記26訓練如圖1所示之情緒編碼模組20或如圖4所示之嵌入式情緒向量萃取之類神經網路21，以由情緒編碼模組20利用嵌入式情緒向量萃取之類神經網路21萃取每一輸入語句之嵌入式情緒向量B2，並使用x向量(x-vector)之訓練方式訓練嵌入式情緒向量萃取之類神經網路21，且情緒編碼模組20可選擇使用梅爾頻率倒頻譜係數(MFCC)以及能反映情緒變化之音高(pitch)與音量(energy)等特徵作為嵌入式情緒向量萃取之類神經網路21之輸入特徵23。

[4]利用上述多語者與多情緒語音合成訓練語料之所有文字、語者標記16與情緒標記26、以及已訓練完成之語者編碼模組10(如嵌入式語者向量萃取之類神經網路11)與情緒編碼模組20(如嵌入式情緒向量萃取之類神經網路21)進行語音合成模組30之訓練，包括訓練語音合成模組30之前級之編碼單元31與整合單元32(如F(．))、中級之注意力單元33、及後級之解碼單元34，以使語音合成模組30產出對應之語音頻譜C4(如梅爾頻譜或對數梅爾頻譜)之資訊。

語音合成模組30之編碼單元31、注意力單元33與解碼單元34之架構可利用端到端語音合成(如Tacotron2)技術，且整合單元32(如F(．))可依據不同選擇之方法定義對應之轉換函數(如向量串接轉換函數或可學習式非線性類神經網路之轉換函數)，以由整合單元32(如F(．))依據所選擇之轉換函數(如向量串接轉換函數或可學習式非線性類神經網路之轉換函數)將嵌入式語者向量A2、嵌入式情緒向量B2、與嵌入式文脈向量C2三者自動整合成一嵌入式控制向量C3(如一個固定長度之嵌入式控制向量C3)。整合單元32(如F(．))之轉換函數可選擇如上方公式(1)所示之向量串接轉換函數，或者選擇如上方公式(2)所示之可學習式非線性類神經網路之轉換函數。

然後，語音合成模組30之解碼單元34可將所產生之語音頻譜C4(如梅爾頻譜或對數梅爾頻譜)輸入至聲碼模組40，以由聲碼模組40利用語音頻譜C4合成出個人化(如語者特性)與情緒化(如語者情緒)之合成語音C5。亦即，聲碼模組40可依據合成語音C5之音質可接受度及/或系統執行速度等之不同考量，以選擇WaveNet、WaveGlow、WaveGAN與HiFi-GAN等複數種類神經網路之一者將語音頻譜C4合成個人化(如語者特性)與情緒化(如語者情緒)之合成語音C5。

[5]完成建置之多語者與多情緒語音合成系統1及其方法可依據使用者輸入之文字及所指定之語者標記16與情緒標記26產生個人化與情緒化之合成語音C5，亦可從圖3所示之第一資料庫19中找出語者標記16所對應之嵌入式語者向量A2，並從圖4所示之第二資料庫29中找出情緒標記26所對應之嵌入式情緒向量B2，再將嵌入式語者向量A2與嵌入式情緒向量B2分別輸入至語音合成模組30以進行語音合成處理。

另外，本發明還提供一種針對多語者與多情緒語音合成方法之電腦可讀媒介，係應用於具有處理器及/或記憶體之計算裝置或電腦中，且電腦可讀媒介儲存有指令，並可利用計算裝置或電腦透過處理器及/或記憶體執行電腦可讀媒介，以於執行電腦可讀媒介時執行上述內容。例如，處理器可為微處理器、中央處理器(CPU)、圖形處理器(GPU)等，記憶體可為隨機存取記憶體(RAM)、記憶卡、硬碟(如雲端/網路硬碟)、資料庫等，但不以此為限。

綜上，本發明之多語者與多情緒語音合成系統、方法及電腦可讀媒介至少具有下列特色、優點或技術功效。

一、本發明之語者編碼模組能依據多語者之語音參考訊號自動產生/求取嵌入式語者向量以表示語者之聲音特色，而情緒編碼模組能依據多情緒之語音參考訊號自動產生/求取嵌入式情緒向量以表示情緒種類，且語音合成模組之編碼單元能依據文字或音標序列自動產生/求取嵌入式文脈向量。

二、本發明之語音合成模組或整合單元能將嵌入式語者向量、嵌入式情緒向量、與嵌入式文脈向量三者整合成嵌入式控制向量，以利用嵌入式控制向量自動控制語音合成模組(如注意力單元與解碼單元)合成出個人化與情緒化之語音頻譜。

三、本發明能針對個人化需求產生個人化與情緒化之語音頻譜及/或合成語音，亦能使合成語音依照不同需求展現出複數(不同)語者之聲音特色。

四、本發明能建置語者編碼模組、情緒編碼模組、語音合成模組與聲碼模組，亦能利用類神經網路以提升合成語音之品質，也能持續發展、追求或展現個人化與情緒化(多樣化)之語音合成功能。

五、本發明能利用多語者與多情緒語音合成訓練語料分別建置語者編碼模組與情緒編碼模組，以利後續之語音合成模組與聲碼模組分別自動合成出個人化與情緒化之語音頻譜及/或合成語音。

六、本發明之語音合成模組能使用端到端語音合成(如Tacotron2)技術、編碼-解碼架構(如編碼單元結合解碼單元之架構)及/或注意力單元之注意力機制，以利語音合成模組自動合成出個人化與情緒化之語音頻譜。

七、本發明之語音合成模組能將文字或音標序列進行文本分析以利自動產生/求取嵌入式文脈向量，再利用嵌入式文脈向量與注意力單元之權重機制自動對齊所輸入之文字或音標序列與所輸出之語音頻譜。

八、本發明之語音合成模組或整合單元能依據不同選擇之方法定義對應之轉換函數(如向量串接轉換函數或可學習式非線性類神經網路之轉換函數)，以利依據所選擇之轉換函數(如向量串接轉換函數或可學習式非線性類神經網路之轉換函數)將嵌入式語者向量、嵌入式情緒向量、與嵌入式文脈向量三者自動整合成一嵌入式控制向量。

九、本發明之語者編碼模組能利用具有語者標記之訓練語料訓練出具有統計池化層之語者辨認類神經網路(嵌入式語者向量萃取之類神經網路)，以利用統計池化層將語者辨認類神經網路之音框層級之資訊自動轉換成語句層級之資訊。

十、本發明之情緒編碼模組能利用具有情緒標記之訓練語料訓練出具有統計池化層之語句情緒辨認類神經網路(嵌入式情緒向量萃取之類神經網路)，以利用統計池化層將語句情緒辨認類神經網路之音框層級之資訊自動轉換成語句層級之資訊。

十一、本發明之聲碼模組能利用語音合成模組之注意力單元與解碼單元所合成之語音頻譜(如梅爾頻譜或對數梅爾頻譜)，以利自動產生個人化與情緒化之合成語音。

上述實施形態僅例示性說明本發明之原理、特點及其功效，並非用以限制本發明之可實施範疇，任何熟習此項技藝之人士均能在不違背本發明之精神及範疇下，對上述實施形態進行修飾與改變。任何使用本發明所揭示內容而完成之等效改變及修飾，均仍應為申請專利範圍所涵蓋。因此，本發明之權利保護範圍應如申請專利範圍所列。