TWI582755B

TWI582755B - 文字轉語音方法及系統

Info

Publication number: TWI582755B
Application number: TW105130180A
Authority: TW
Inventors: 王頌文
Original assignee: 晨星半導體股份有限公司
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2017-05-11
Also published as: US20180082675A1; TW201812741A

Description

文字轉語音方法及系統

本發明係指一種文字轉語音方法及文字轉語音系統，尤指一種降低語音合成所需之運算量以及提昇語音合成品質的文字轉語音方法及文字轉語音系統。

文字轉語音（Text-to-Speech，TTS）系統主要的功能在於將所輸入的文字轉換成自然流暢的語音輸出，其已廣泛地應用於日常生活當中，舉例來說，文字轉語音系統可應用於車站、機場、學校等所需之公眾廣播，或是應用於醫院或法院等所需之自動唱名（或唱號）系統，甚至可應用於有聲書製作，降低有聲書製作所需的生產成本。其中，以隱藏式馬可夫模型為基礎（Hidden Markov Model Based，HMM-based）的語音合成技術廣為本領域技術所採用。

然而，HMM-based語音合成技術必須先將一文字串列全部分析完後，再根據其分析結果產生相關於該文字串列的聲學參數，如激勵參數（Excitation Parameter）或是頻譜參數（Spectral Parameter），在此情形下，習知HMM-based語音合成技術需要相當大的運算量及記憶體空間，反而不利於即時（real-time）語音合成的應用。另外，若斷然將文字串列（或其對應的音素串列）切割，語音合成後會產生突然中斷的不連續效果，實際上，語音合成後會在切割處產生「波」一聲，使而合成後的語音聽起來具有不連續感，而降低語音合成的品質。

因此，如何降低語音合成所需之運算量以及提昇語音合成品質，也就成為業界所努力的目標之一。

因此，本發明之主要目的即在於提供一種降低語音合成所需之運算量以及提昇語音合成品質的文字轉語音方法及文字轉語音系統，以改善習知技術的缺點。

本發明揭露一種文字轉語音（Text-to-Speech，TTS）方法，包含有接收一文字串列，並產生對應於該文字串列之複數個音素（Phoneme），其中該複數個音素形成一音素串列；於該音素串列中，***至少一暫停音素（Pause Phoneme）；以該至少一暫停音素為分割點，將該音素串列與該至少一暫停音素分割成複數個音素子串列，並根據該複數個音素子串列，產生複數個語音片段（Segment），其中每一語音片段包含複數個文本標示（Label），複數個文本標示包含該複數個音素之間的關係；以及逐一地對該複數個語音片段進行一語音合成操作，以產生對應於該複數個語音片段之複數個語音輸出；其中，該***至少一暫停音素係為其所屬音素子串列的最後一個音素。

本發明另揭露一種文字轉語音系統，包含有一音素產生器，用來接收一文字串列，並產生對應於該文字串列之複數個音素（Phoneme），其中該複數個音素形成一音素串列；一暫停音素***器，用來於該音素串列中，***至少一暫停音素（Pause Phoneme）；一分割器，用來以該至少一暫停音素為分割點，將該音素串列與該至少一暫停音素分割成複數個音素子串列，並根據該複數個音素子串列，產生複數個語音片段（Segment），其中每一語音片段包含複數個文本標示（Label），複數個文本標示包含該複數個音素之間的關係；以及一語音合成器，用來逐一地對該複數個語音片段進行一語音合成操作，以產生對應於該複數個語音片段之複數個語音輸出；其中，該***至少一暫停音素係為其所屬音素子串列的最後一個音素。

本發明另揭露一種文字轉語音系統，包含有一處理單元；以及一儲存單元，耦接於該處理單元，用來儲存一程式碼，該程式碼指示該處理單元執行以下步驟：接收一文字串列，並產生對應於該文字串列之複數個音素（Phoneme），其中該複數個音素形成一音素串列；於該音素串列中，***至少一暫停音素（Pause Phoneme）；以該至少一暫停音素為分割點，將該音素串列與該至少一暫停音素分割成複數個音素子串列，並根據該複數個音素子串列，產生複數個語音片段（Segment），其中每一語音片段包含複數個文本標示（Label），複數個文本標示包含該複數個音素之間的關係；以及逐一地對該複數個語音片段進行一語音合成操作，以產生對應於該複數個語音片段之複數個語音輸出；其中，該***至少一暫停音素係為其所屬音素子串列的最後一個音素。

為了解決習知技術的缺點，本發明利用***暫停音素並以暫停音素為分割點將一文字串列分批/次處理，以降低運算量及對記憶體空間的需求，同時避免因語音突然中斷所產生的不連續感，以提昇語音合成的品質。詳細來說，請參考第1圖，第1圖為本發明實施例一文字轉語音系統10之示意圖。文字轉語音系統10包含一處理單元100以及一儲存單元102，處理單元100耦接於儲存單元102，處理單元100可為一般用途（General Purpose）之處理器，其可為一中央處理器（CPU）或是一微處理器（Microprocessor），而不限於此，儲存單元102可為一唯讀式記憶體（read-only memory，ROM）或是一非揮發性記憶體（non-volatile memory，例如，一電子抹除式可複寫唯讀記憶體（electrically erasable programmable read only memory, EEPROM）或一快閃記憶體（flash memory）），而不限於此。儲存單元102用來儲存一程式碼106，程式碼106用來指示處理單元100執行一文字轉語音流程。另外，儲存單元102包含有一緩衝記憶體106，緩衝記憶體106用來當作語音合成時的一緩衝區。

請參考第2圖，第2圖為本發明實施例一文字轉語音方法20之流程圖。文字轉語音方法20可由文字轉語音系統10來執行，其包含以下步驟：

步驟200：接收一文字串列TXT，並產生對應於文字串列TXT之複數個音素pn_1～pn_M，其中複數個音素pn_1～pn_M形成一音素串列PN。

步驟202：於音素串列PN中，***至少一暫停音素。

步驟204：以該至少一暫停音素為分割點，將音素串列PN與該至少一暫停音素分割成複數個音素子串列PN_1～PN_N，並根據該複數個音素子串列，產生複數個語音片段（Segment）S_1～S_N。

步驟206：逐一地對語音片段S_1～S_N進行一語音合成操作，以產生對應於語音片段S_1～S_N之複數個語音輸出VO_1～VO_N。

文字轉語音流程20的操作細節敘述如下。於步驟中200中，文字轉語音系統10接收文字串列TXT，並產生對應於文字串列TXT之複數個音素pn_1～pn_M，其中，文字串列TXT可為一文章段落，或是包含複數個段落的長篇文章，換句話說，文字串列TXT係由大量文字（或單字）及標點符號所構成。詳細來說，文字轉語音系統10可將文字串列TXT中每一單字轉換成為其對應的有聲音素，或將文字串列TXT中的標點符號轉換成為暫停音素（Pause Phoneme），文字轉語音系統10需將所有對應於單字的有聲音素與對應於標點符號的暫停音素按照順序排列，以形成音素串列PN，其中複數個音素pn_1～pn_M可為有聲音素或暫停音素。

於步驟202中，文字轉語音系統10於音素串列PN中，***至少一暫停音素。於步驟204中，以該至少一暫停音素為分割點，將音素串列PN分割並產生複數個語音片段S_1～S_N。舉例來說，文字轉語音系統10可於複數個音素pn_1～pn_M中***暫停音素pau_i、暫停音素pau_j及暫停音素pau_k（以***3個暫停音素為例），並以暫停音素pau_i、暫停音素pau_j及暫停音素pau_k為分割點，將音素串列PN分割成音素子串列PN_1～PN_4，並根據音素子串列PN_1～PN_4，產生語音片段S_1～S_4。具體來說，請參考第3圖，第3圖為本發明實施例音素串列PN、暫停音素pau_i、pau_j、pau_k以及語音片段S_1～S_4之示意圖，為了方便說明，第3圖僅繪示欲***之暫停音素pau_i、pau_j、pau_k與音素串列PN之間之相對關係，而省略文字串列TXT中因標點符號所轉換的暫停音素。如第3圖所示，文字轉語音系統10可將暫停音素pau_i、pau_j、pau_k***音素串列PN，並以暫停音素pau_i、pau_j、pau_k為分割點，將音素串列PN分割成音素子串列PN_1、音素子串列PN_2、音素子串列PN_3及音素子串列PN_4，其中，音素子串列PN_1包含音素pn_1～pn_i及暫停音素pau_i，音素子串列PN_2包含音素pn_i+1～pn_j及暫停音素pau_j，音素子串列PN_3包含音素pn_j+1～pn_k及暫停音素pau_k，音素子串列PN_4包含音素pn_k+1～pn_M。如此一來，文字轉語音系統10可根據文字串列TXT及音素子串列PN_1、PN_2、PN_3、PN_4，分別產生語音片段S_1、S_2、S_3、S_4，即將相關於音素子串列PN_1、PN_2、PN_3、PN_4之文本標示（文本標示將詳述於後）分別加入語音片段S_1、S_2、S_3、S_4中。需注意的是，將暫停音素pau_i、pau_j、pau_k皆分別位於音素子串列PN_1、PN_2、PN_3之結尾處，換句話說，以音素子串列PN_1為例，暫停音素pau_i為音素子串列PN_1的最後一個音素，以此類推，暫停音素pau_j為音素子串列PN_2的最後一個音素，暫停音素pau_k為音素子串列PN_3的最後一個音素。經實驗證實，當暫停音素位於其所屬的音素子串列之結尾處時，可降低語音訊號因突然中斷而產生的不連續感。

另外，文字轉語音系統10可先決定暫停位置i、j、k，再將暫停音素pau_i、pau_j、pau_k***對應於音素串列PN中暫停位置i、j、k之處，換句話說，文字轉語音系統10係將暫停音素pau_i***於音素pn_i與音素pn_i+1之間，將暫停音素pau_j***於音素pn_j與音素pn_j+1之間，並將暫停音素pau_k***於音素pn_k與音素pn_k+1之間。文字轉語音系統10決定暫停位置i、j、k的方式並未有所限，於一實施例中，文字轉語音系統10可於對應於文字串列TXT之一標點符號處***一暫停音素，換句話說，文字轉語音系統10先判斷文字串列TXT是否具有一標點符號，若有，文字轉語音系統10決定一暫停位置為文字串列TXT中對應於該標點符號的位置。於一實施例中，文字轉語音系統10可（根據一資料庫）判斷文字串列TXT是否具有一片語（Phrase），若有，於對應於該片語的一結尾處***一暫停音素，換句話說，當字轉語音系統10判斷文字串列TXT具有一片語時，文字轉語音系統10決定一暫停位置為對應於該片語的結尾處。於一實施例中，文字轉語音系統10可根據緩衝記憶體106的一長度，決定於音素串列PN***暫停音素的一暫停位置g，並於暫停位置g***一暫停音素pau_g。

另外，語音片段S_1～S_N中每一語音片段S_n包含複數個文本標示（Label），文本標示為本領域具通常知識者所熟知，其用來標示複數個音素pn_1～pn_M之間的關係，更精確的說，文本標示用來標示文字串列TXT中單字與單字間（或單字與標點符號間）音素的關係，舉例來說，一第一單字及一第二單字為文字串列TXT所包含的相鄰單字，第一單字在前而第二單字在後，文本標示即用來標示第一單字之一後音素與一第二單字之一前音素之間的關係。

另外，文字轉語音系統10可採用平行式處理（Parallel Processing）或序列式處理（Serial Processing）的方式執行步驟202及步驟204，換句話說，文字轉語音系統10可一次決定複數個暫停位置（舉例來說，文字轉語音系統10一次決定H個暫停位置，H＞1）並將H個/複數個暫停音素***音素串列PN，並以該H個/複數個暫停音素為分割點，將音素串列PN分割並產生H+1個/複數個語音片段（即平行式處理）。或者，文字轉語音系統10可於一第一時間決定一第一暫停位置，將一第一暫停音素***音素串列PN之該第一暫停位置，並將第一暫停音素及其之前的複數個音素從音素串列PN切割出去（切割出去後剩下的音素串列稱為一音素串列PN’），並根據第一暫停音素及其之前的複數個音素產生一第一語音片段，爾後，文字轉語音系統10可於一第二時間決定一第二暫停位置，將一第二暫停音素***音素串列PN之該第二暫停位置，並將第二暫停音素及其之前的複數個音素從音素串列PN’切割出去，並根據第二暫停音素及其之前的複數個音素產生一第二語音片段，如此循環操作（即序列式處理）。

於步驟中206中，文字轉語音系統10逐一地對語音片段S_1～S_N進行語音合成操作，以產生對應於語音片段S_1～S_N之複數個語音輸出VO_1～VO_N，此時，文字轉語音系統10對語音片段S_1～S_N採序列式處理，換句話說，文字轉語音系統10一次僅處理單一語音片段S_n（即對進行語音合成操作），當處理完語音片段S_n（或大致處理完語音片段S_n）後，文字轉語音系統10才處理下一個語音片段S_n+1。

另外，文字轉語音系統10可採用以隱藏式馬可夫模型為基礎（Hidden Markov Model Based，HMM-based）的語音合成技術來對語音片段S_n進行語音合成操作，以產生對應於語音片段S_n之語音輸出VO_n，具體來說，請參考第4圖，第4圖為本發明實施例一語音合成方法40之流程圖。語音合成方法40可由文字轉語音系統10來執行，其包含以下步驟：

步驟400：根據語音片段S_n中的文本標示，參考一馬可夫模型資料庫。

步驟402：根據該馬可夫模型資料庫，產生至少一激勵參數（Excitation Parameter）以及至少一頻譜參數（Spectral Parameter）。

步驟404：根據該至少一激勵參數，產生至少一激勵訊號（Excitation Signal）。

步驟406：根據該至少一激勵訊號以及該至少一頻譜參數，產生對應於語音片段S_n之語音輸出VO_n。

以隱藏式馬可夫模型為基礎的語音合成技術為本領域具通常知識者所熟知，其細節及原理可參考下列網站，於此不再贅述。

http://hts.sp.nitech.ac.jp/archives/2.3/HTS_Slides.zip

由上述可知，本發明於音素串列PN中***暫停音素，以暫停音素為分割點將音素串列PN分割並產生複數個語音片段S_1～S_N，並逐一地對語音片段S_1～S_N進行語音合成操作，以產生對應於語音片段S_1～S_N之複數個語音輸出VO_1～VO_N。相較於習知技術，本發明既可降低對運算量及記憶體空間的需求，又可消除因語音突然中斷所產生的不連續感，進而提昇語音合成的品質。

需注意的是，前述實施例係用以說明本發明之概念，本領域具通常知識者當可據以做不同之修飾，而不限於此。舉例來說，文字轉語音系統可視實際情況，於文字串列TXT中***額外的標點符號，如此一來，文字轉語音系統所***的標點符號即可轉換成為暫停音素而***於音素串列PN中。

另外，本發明之文字轉語音系統不限於以第1圖所繪示的架構實現，舉例來說，文字轉語音系統可由不同功能單元來實現，請參考第5圖，第5圖為本發明實施例一文字轉語音系統50之示意圖。文字轉語音系統50包含一音素產生器500、一暫停音素***器502、一分割器504以及一語音合成器506，其中音素產生器500用來執行文字轉語音流程20之步驟200，暫停音素***器502用來執行步驟202，分割器504用來執行步驟204，而語音合成器506用來執行步驟206，此外，音素產生器500可另於文字串列TXT中***額外的標點符號。更進一步地，語音合成器506包含一聲學參數產生器560、一激勵訊號產生器562以及一合成濾波器564，其中聲學參數產生器560用來執行語音合成方法40之步驟400及步驟402，激勵訊號產生器562用來執行步驟404，合成濾波器564用來執行步驟406。本技術領域人員當知第5圖內的各功能單元可由數位邏輯電路來實現或進行實作。以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

10、50‧‧‧文字轉語音系統

100‧‧‧處理單元

102‧‧‧儲存單元

106‧‧‧程式碼

106‧‧‧緩衝記憶體

20‧‧‧文字轉語音方法

200~206、400~406‧‧‧步驟

40‧‧‧語音合成方法

500‧‧‧音素產生器

502‧‧‧暫停音素***器

504‧‧‧分割器

506‧‧‧語音合成器

560‧‧‧聲學參數產生器

562‧‧‧激勵訊號產生器

564‧‧‧合成濾波器

pau_i、pau_j、pau_k‧‧‧暫停音素

pn_1~pn_M‧‧‧音素

PN‧‧‧音素串列

PN_1、PN_2、PN_3、PN_4‧‧‧音素子串列

S_1、S_2、S_3、S_4‧‧‧語音片段

TXT‧‧‧文字串列

VO_1~VO_N‧‧‧語音輸出

第1圖為本發明實施例一文字轉語音系統之方塊圖。第2圖為本發明實施例一文字轉語音方法之流程圖。第3圖為本發明實施例一音素串列、複數個暫停音素以及複數個語音片段之示意圖。第4圖為本發明實施例一語音合成方法之流程圖。第5圖為本發明實施例一文字轉語音系統之示意圖。

20‧‧‧文字轉語音流程

200~206‧‧‧步驟

Claims

一種文字轉語音(Text-to-Speech，TTS)方法，包含有：接收一文字串列，並產生對應於該文字串列之複數個音素(Phoneme)，其中該複數個音素形成一音素串列；於該音素串列中，***至少一暫停音素(Pause Phoneme)；以及以該至少一暫停音素為分割點，將該音素串列與該至少一暫停音素分割成複數個音素子串列，並根據該複數個音素子串列，產生複數個語音片段(Segment)，其中每一語音片段包含複數個文本標示(Label)，該複數個文本標示包含該複數個音素之間的關係；其中，該至少一暫停音素係為其所屬音素子串列的最後一個音素。
如請求項1所述之文字轉語音方法，其中於該音素串列中，***該至少一暫停音素的步驟包含有：於對應於該文字串列之一標點符號處，***該至少一暫停音素之一暫停音素。
如請求項1所述之文字轉語音方法，其中於該音素串列中，***該至少一暫停音素的步驟包含有：根據一緩衝記憶體的一長度，決定***該至少一暫停音素之一暫停音素之一暫停位置；以及於該暫停位置***該暫停音素。
如請求項1所述之文字轉語音方法，其中於該音素串列中，***該至少一暫停音素的步驟包含有：判斷該文字串列中是否具有一片語(Phrase)；以及當該文字串列具有該片語時，於對應於該片語的一結尾處***該至少一暫停音素之一暫停音素。
如請求項1所述之文字轉語音方法，另包含：於該文字串列中***一標點符號。
如請求項1所述之文字轉語音方法，另包含：逐一地對該複數個語音片段進行一語音合成操作，以產生對應於該複數個語音片段之複數個語音輸出。
如請求項6所述之文字轉語音方法，其中對該複數個語音片段之一第一語音片段進行該語音合成操作，以產生對應於該第一語音片段之一第一語音輸出的步驟包含有：根據該第一語音片段，產生至少一激勵參數(Excitation Parameter)以及至少一頻譜參數(Spectral Parameter)；根據該至少一激勵參數，產生至少一激勵訊號(Excitation Signal)；以及根據該至少一激勵訊號以及該至少一頻譜參數，產生對應於該第一語音片段之該第一語音輸出。
一種文字轉語音系統，包含有：一音素產生器，用來接收一文字串列，並產生對應於該文字串列之複數個音素，其中該複數個音素形成一音素串列；一暫停音素***器，用來於該音素串列中，***至少一暫停音素；以及一分割器，用來以該至少一暫停音素為分割點，將該音素串列與該至少一暫停音素分割成複數個音素子串列，並根據該複數個音素子串列，產生複數個語音片段，其中每一語音片段包含複數個文本標示，該複數個文本標示包含該複數個音素之間的關係；其中，該至少一暫停音素係為其所屬音素子串列的最後一個音素。
如請求項8所述之文字轉語音系統，其中該暫停音素***器另用來執行以下步驟，以於該複數個音素中，***該至少一暫停音素：於對應於該文字串列之一標點符號處，***該至少一暫停音素之一暫停音素。
如請求項8所述之文字轉語音系統，其中該暫停音素***器另用來執行以下步驟，以於該複數個音素中，***該至少一暫停音素：根據一緩衝記憶體的一長度，決定***該至少一暫停音素之一暫停音素之一暫停位置；以及於該暫停位置***該暫停音素。
如請求項8所述之文字轉語音系統，該暫停音素***器另用來執行以下步驟，以於該複數個音素中，***該至少一暫停音素：判斷該文字串列中是否具有一片語；以及當該文字串列具有該片語時，於對應於該片語的一結尾處***該至少一暫停音素之一暫停音素。
如請求項8所述之文字轉語音系統，該音素產生器另用來執行以下步驟：於該文字串列中***一標點符號。
如請求項7所述之文字轉語音系統，另包含：一語音合成器，用來逐一地對該複數個語音片段進行一語音合成操作，以產生對應於該複數個語音片段之複數個語音輸出。
如請求項13所述之文字轉語音系統，其中該語音合成器包含：一聲學參數產生器，用來根據該第一語音片段，產生複數個激勵參數以及複數個頻譜參數；一激勵訊號產生器，用來根據該複數個激勵參數，產生複數個激勵訊號；以及一合成濾波器，根據該複數個激勵訊號以及該複數個頻譜參數，產生對應於該第一語音片段之該第一語音輸出。
一種文字轉語音系統，包含有：一處理單元；以及一儲存單元，耦接於該處理單元，用來儲存一程式碼，該程式碼指示該處理單元執行以下步驟：接收一文字串列，並產生對應於該文字串列之複數個音素，其中該複數個音素形成一音素串列；於該音素串列中，***至少一暫停音素；以及以該至少一暫停音素為分割點，將該音素串列與該至少一暫停音素分割成複數個音素子串列，並根據該複數個音素子串列，產生複數個語音片段，其中每一語音片段包含複數個文本標示，該複數個文本標示包含該複數個音素之間的關係；其中，該至少一暫停音素係為其所屬音素子串列的最後一個音素。
如請求項15所述之文字轉語音方法，其中該程式碼另指示該處理單元執行以下步驟，以於該音素串列中，***該至少一暫停音素：於對應於該文字串列之一標點符號處，***該至少一暫停音素之一暫停音素。
如請求項15所述之文字轉語音方法，其中該程式碼另指示該處理單元執行以下步驟，以於該音素串列中，***該至少一暫停音素：根據一緩衝記憶體的一長度，決定***該至少一暫停音素之一暫停音素之一暫停位置；以及於該暫停位置***該暫停音素。
如請求項15所述之文字轉語音方法，其中該程式碼另指示該處理單元執行以下步驟，以於該音素串列中，***該至少一暫停音素：判斷該文字串列中是否具有一片語；以及當該文字串列具有該片語時，於對應於該片語的一結尾處***該至少一暫停音素之一暫停音素。
如請求項15所述之文字轉語音方法，其中該程式碼另指示該處理單元執行以下步驟：於該文字串列中***一標點符號。
如請求項15所述之文字轉語音方法，其中該程式碼另指示該處理單元執行以下步驟：逐一地對該複數個語音片段進行一語音合成操作，以產生對應於該複數個語音片段之複數個語音輸出。
如請求項20所述之文字轉語音方法，其中該程式碼另指示該處理單元執行以下步驟，以對該複數個語音片段之一第一語音片段進行該語音合成操作，以產生對應於該第一語音片段之一第一語音輸出：根據該第一語音片段，產生至少一激勵參數以及至少一頻譜參數；根據該至少一激勵參數，產生至少一激勵訊號；以及根據該至少一激勵訊號以及該至少一頻譜參數，產生對應於該第一語音片段之該第一語音輸出。