TWI431563B

TWI431563B - 語言學習系統、語言學習方法及其程式產品

Info

Publication number: TWI431563B
Application number: TW99125755A
Authority: TW
Inventors: Sen Chia Chang; Hsien Cheng Liao; jiang chun Chen
Original assignee: Ind Tech Res Inst
Priority date: 2010-08-03
Filing date: 2010-08-03
Publication date: 2014-03-21
Also published as: US8870575B2; US20120034581A1; TW201207787A

Description

語言學習系統、語言學習方法及其程式產品

本揭露是有關於一種語言學習系統、語言學習方法及其電腦程式產品。

以資訊科技為主軸而發展出來的數位語文學習教材和系統，正吸引越來越多人加入，亦在世界各地熱絡地發展當中。在真人師資有限及地域限制的情況下，學習者極需不受時間地域限制的自學模式。因此研究語文發音障礙的問題，建立發音評量、診斷及矯正技術，可幫助創造不受時間地域限制的語文自學學習模式，降低學習障礙。

為了克服上述問題，目前已發展出語言學習系統來提供語言學習者自我學習的管道。此些語言學習系統主要是透過請專業人士針對特定語言教材錄製語音檔。然後，當語言學習者於語言學習系統中依據預先安排的教材來發出語音時，語言學習系統會比對專業人士所錄製的語音檔及語言學習者的語音以分析出之間差異來進行評分。另外有些語言學習系統則是偵測學習者發音的某些物理特性，再根據語言學習理論給予回饋。再有些語言學習系統會根據發音的某些物理特性以高斯模型、高斯混合模型來檢驗學習者發音的好壞，或是以語音驗證技術來檢驗發音的正確性。此些發音評量上通常只提供權重式的整體評量與單一分數或是簡單的比對結果，學習者並無法從此獲得足夠的錯誤相關資訊以及相對應的矯正方式。基此，降低了語言學習者使用此些語言學習系統的意願，增加了相關產業發展的困難性。

本揭露提供一種語言學習系統，其能夠診斷語言學習者所發出之字、詞或語句之發音並提供對應的回饋資訊。

本揭露提供一種整合式語言學習方法，其能夠診斷語言學習者所發出之字、詞或語句之發音並提供對應的回饋資訊。

本揭露提供一種電腦程式產品，其能夠診斷語言學習者所發出之字、詞或語句之發音並提供對應的回饋資訊。

本揭露之範例實施例提出一種語言學習系統，用於評量一學習語句之中的一語音。本語言學習系統包括儲存模組、特徵萃取模組以及評量與診斷模組。儲存模組用以儲存一個或多個評量決策樹，其中評量決策樹具有多條決策路徑，每一決策路徑包含多個決策節點並且每一決策路徑對應至少一回饋資訊。特徵萃取模組用以萃取此語音的至少一個語音特徵。評量與診斷模組用以依據上述語音的語音特徵決定在評量決策樹的決策路徑之中對應此語音的一診斷路徑並且輸出對應此診斷路徑的至少一回饋資訊。

本揭露之範例實施例提出一種整合式語言學習方法，其用於評量一學習語句之中的一語音。本整合式語言學習方法包括儲存至少一評量決策樹，其中評量決策樹具有多條決策路徑，每一決策路徑包含多個決策節點並且每一決策路徑對應至少一回饋資訊。本整合式語言學習方法還包括萃取上述語音的一個或多個語音特徵，依據此語音的語音特徵決定在上述評量決策樹的決策路徑之中對應此語音的一診斷路徑，並且輸出對應此診斷路徑的至少一回饋資訊。

基於上述，本揭露範例實施例的整合式語言學習方法及語言學習系統能夠精確地診斷語言學習者所發出的字、詞與語句，並且針對其中的每一發音提出對應的回饋資訊。

為讓本揭露之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1A是根據本揭露之範例實施例所繪示的語言學習系統的使用示意圖。

為了能夠精確地診斷語言學習者所發出的字、詞與語句，並且針對其中的每一發音提出對應的回饋資訊，本揭露所提出之語言學習系統100包括儲存模組102、特徵萃取模組104以及評量與診斷模組110。儲存模組102用以儲存評量決策樹，其中評量決策樹具有多條決策路徑，每一決策路徑包含多個決策節點並且每一決策路徑對應至少一回饋資訊。特徵萃取模組104用以萃取語音至少一個的語音特徵。並且，評量與診斷模組110用以依據上述語音的語音特徵決定在評量決策樹的決策路徑之中對應此語音的診斷路徑並且輸出對應此診斷路徑的回饋資訊。基此，語言學習者1可於特徵萃取模組104中輸入語音並且評量與診斷模組110會依據儲存模組102中的評量決策樹產生適當的回饋資訊。

具體來說，本揭露之範例實施例所提出的語言學習系統是藉由蒐集學習者之多筆語音作為訓練語句並且解析其中的聲調(例如，華語中的一聲、二聲、三聲與四聲)、語調(例如，英語中的重音、非重音、無聲音素與靜音)等語音特徵來分別地建立對應的評量決策樹。此外，當學習者進行語言學習時，在本揭露所提出的語言學習系統與整合式語言學習方法中所建立之評量決策樹上的資訊會被用來評量學習者的發音，並提供相關的回饋以矯正學習者的錯誤發音。

在華語文學習中，聲調學習對是最為關鍵的，尤其是對母語為非聲調語言的學習者而言。為了能夠更清楚地瞭解語言學習系統100的運作，以下將以聲調學習為例來對語言學習系統100作更進一步的說明。然而，必須瞭解的是，本揭露不限於此。在本揭露另一範例實施例中，語言學習系統100亦可應用於英語、法語、日語等語言之語調、發音學習上。

圖1B是根據本揭露之範例實施例所繪示的語言學習系統的概要方塊圖。

請參照圖1，語言學習系統100包括儲存模組102、特徵萃取模組104、決策樹產生模組106、回饋訊息產生模組108、評量與診斷模組110。

儲存模組102用以儲存多筆訓練語句。具體來說，在本範例實施例中，由16個非以華語為母語的學習者針對符合課程學習之文本使用一錄音模組(未繪示)進行錄音以蒐集多筆訓練語句，並且所蒐集之訓練語句會被儲存在儲存模組102中。例如，儲存模組102為非揮發性記憶體、磁碟機或可寫光碟機。

特徵萃取模組104用以對儲存在儲存模組102中的訓練語句進行一切音運算來獲取訓練語句中的每一個單位音的時間範圍(例如，每一個字的發音時間範圍)並且依據四種聲調(即，華語中的一聲、二聲、三聲與四聲)將所獲取的單位音進行分類。例如，特徵萃取模組104會依據每一單位音的聲調及其對應訓練語句中右相關的單位音的組合來進行分類。具體來說，以一聲的單位音為例，依據在訓練語句中接續此一聲之單位音的下一個單位音的聲調可將屬於一聲之單位音細分為5種：(1)屬於一聲之單位音加上屬於一聲之單位音的組合；(2)屬於一聲之單位音加上屬於二聲之單位音的組合；(3)屬於一聲之單位音加上屬於三聲之單位音的組合；(4)屬於一聲之單位音加上屬於四聲之單位音的組合以及(5)屬於一聲之單位音加上屬於靜音之單位音的組合。也就是說，同樣是發出屬於一聲的單位音，但其會因為語句中的下一個單位音的聲調而有所差異。基於上述，在華語中每一單位音可被分類為20種類型(即，每一個字的發音包含4種聲調且每一聲調又細分為5種)。然而，必須瞭解的是，在本揭露中分類方式不限於上述。在本揭露之另一範例實施例中，所獲取之單位音亦可依據其聲調及其對應訓練語句中左相關的單位音(即，前一個單位音)的組合來進行分類。或者，所獲取之單位音亦可依據其聲調及其對應訓練語句中左右相關的單位音(即，前一個單位音與下一個單位音)的組合來進行分類。或者，所獲取之單位音亦可僅依據其聲調來分類。在此，此些從訓練語句中所萃取之單位音稱為訓練語料，而每一分類組合稱為訓練語料群。也就是說，所萃取之訓練語料經過分類後會屬於其中一個訓練語料群。

值得一提的是，此些從學習者中蒐集到的訓練語料分別地具有一評分標記。也就是說，此些訓練語料會依據其發音的正確性被標記一個評分。在本範例實施例中，每一訓練語料會以"好(good)"或"不好(bad)"來被標記。然而，本揭露不限於此，在本揭露之另一範例實施例中，亦可以分數作為評分標記。例如，每一訓練語料的評分標記是依據其正確性以"0"~"10"分來註記。在本揭露之另一範例實施例中，此些評分標記可由專家系統或專業老師來進行評量。

在本範例實施例中，特徵萃取模組104會針對每一訓練語料萃取對應的多個語音特徵。具體來說，特徵萃取模組104會針對每一訓練語料之音節的韻母段取出基頻曲線，並且針對所取出之基頻曲線進行正規化。例如，特徵萃取模組104會針對一整句訓練語料的基頻範圍中取出最大值與最小值，並且據此將訓練語料的基頻正規化到一至五之間。然而，必須瞭解的是，在本揭露中正規化方法不限於此。在本揭露之另一範例實施例中，亦可以用一個人的全部訓練語料作為取得最大與最小值的基頻範圍來進行基頻曲線的正規化。特別是，特徵萃取模組104更用已正規化的基頻曲線中萃取對應的語音特徵。例如，特徵萃取模組104會將基頻曲線等分為三段基頻子曲線並且計算每一段基頻子曲線的平均值以及在此訓練語料中基頻子曲線之間的差值。

圖2~圖5是根據本揭露之範例實施例所繪示聲調變化及其對應的語音特徵。

請參照圖2，以1個屬於一聲調之訓練語料為例，圖中之粗線為1個一聲調之訓練語料的基頻曲線。特徵萃取模組104會將此基頻曲線三等分為第一基頻子曲線202a、第二基頻子曲線202b與第三基頻子曲線202c，並且計算第一基頻子曲線202a的第一平均值(mean1)204a、第二基頻子曲線202b的第二平均值(mean2)204b以及第三基頻子曲線202c的第三平均值(mean3)204c。此外，特徵萃取模組104會計算第一平均值204a與第二平均值204b之間的第一差值(diff1)206a、第二平均值204b與第三平均值204c之間的第二差值(diff2)206b以及第一平均值204a與第三平均值204c之間的第三差值(diff3)206c。在本範例實施例中，圖2所示之訓練語料的基頻曲線的第一平均值204a、第二平均值204b、第三平均值204c、第一差值206a、第二差值206b與第三差值206c會被用作為圖2所示之訓練語料的語音特徵。

請參照圖3，以1個屬於二聲調之訓練語料為例，圖中的粗線為1個二聲調之訓練語料的基頻曲線。類似地，特徵萃取模組104會將此基頻曲線三等分為第一基頻子曲線302a、第二基頻子曲線302b與第三基頻子曲線302c，並且計算此基頻曲線的第一平均值304a、第二平均值304b、第三平均值304c、第一差值306a、第一差值306b與第三差值306c以作為圖3所示之訓練語料的語音特徵。

請參照圖4，以1個屬於三聲調之訓練語料為例，圖中之粗線為1個三聲調之訓練語料的基頻曲線。類似地，特徵萃取模組104會將此基頻曲線三等分為第一基頻子曲線402a、第二基頻子曲線402b與第三基頻子曲線402c，並且計算此基頻曲線的第一平均值404a、第二平均值404b、第三平均值404c、第一差值406a、第二差值406b與第三差值406c以作為圖4所示之訓練語料的語音特徵。

請參照圖5，以1個屬於四聲調之訓練語料為例，圖中之粗線為1個四聲調之訓練語料的基頻曲線。類似地，特徵萃取模組104會將此基頻曲線三等分為第一基頻子曲線502a、第二基頻子曲線502b與第三基頻子曲線502c，並且計算此基頻曲線的第一平均值504a、第二平均值504b、第三平均值504c、第一差值506a、第二差值506b與第三差值506c以作為圖5所示之訓練語料的語音特徵。

如圖2～圖5所示的萃取範例，特徵萃取模組104會為所獲取的每一訓練語料萃取對應的語音特徵。也就是說，每一訓練語料皆具有6個語音特徵。然而，必須瞭解的是，本揭露不限於此，基頻曲線的第一平均值、第二平均值、第三平均值、第一差值、第二差值與第三差值的各種組合皆可作為語音特徵。此外，在本揭露之另一範例實施例中，特徵萃取模組104亦可計算每一基頻子曲線的斜率，並且上述基頻曲線的第一平均值、第二平均值、第三平均值、第一差值、第二差值與第三差值和所計算之斜率的各種組合皆可作為語音特徵。

值得一提的是，在本範例實施例中特徵萃取模組104是從訓練語料的基頻曲線中來萃取語音特徵。然而，本揭露不限於此，特徵萃取模組104亦可從訓練語料的能量曲線、梅爾倒頻譜參數(Mel-scale Frequency Cepstral Coefficients,MFCC)和音長(Duration)中來萃取對應的語音特徵。在本揭露之另一範例實施例中，特徵萃取模組104可類似於圖2~圖5所示的方式擷取訓練語料之能量曲線的第一平均值、第二平均值、第三平均值、第一差值、第二差值與第三差值。在本揭露又一範例實施例中，特徵萃取模組104可擷取訓練語料的多個音素，以及對應此些音素的梅爾倒頻譜參數，計算每一音素的梅爾倒頻譜參數平均值以及此些梅爾倒頻譜參數平均值之間的梅爾倒頻譜參數差值，並且將訓練語料的梅爾倒頻譜參數平均值與梅爾倒頻譜參數差值的至少其中之一作為此訓練語料的語音特徵。在本揭露再一範例實施例中，特徵萃取模組104可擷取訓練語料的多個音素，以及對應此些音素的音長，計算每一音素的音長平均值以及此些音長平均值之間的音長差值，並且將訓練語料的音長平均值與音長差值的至少其中之一作為此訓練語料的語音特徵。再者，在本揭露另一範例實施例中，特徵萃取模組104亦可以基頻曲線、能量曲線、梅爾倒頻譜參數和音長的至少其中之一及其組合作為此訓練語料的語音特徵。

在本揭露之一範例實施例中，特徵萃取模組104會將所獲取與分類之訓練語料及所萃取之每一訓練語料的語音特徵儲存在儲存模組102中。

決策樹產生模組106用以產生評量決策樹。具體來說，決策樹產生模組106會依據特徵萃取模組104所分類之訓練語料群以及此些訓練語料群之訓練語料的語音特徵與評分標記來產生對應的評量決策樹。例如，如上所述，特徵萃取模組104將所獲取之訓練語料依據其聲調以及其右相關之聲調來區分為20種訓練語料群，並且決策樹產生模組106會為每一種訓練語料群單獨地建立一個評量決策樹。在本範例實施例中，決策樹產生模組106是使用決策樹演算法中的C4.5演算法來產生評量決策樹。然而，必須瞭解的是，本揭露不限於此。在本揭露之另一範例實施例中，亦可使用ID3演算法、C5演算法或其他適合的演算法來產生評量決策樹。

圖6是根據本揭露之範例實施例所繪示用以產生評量決策樹之訓練語料的範例，並且圖7是根據本揭露之範例實施例所繪示的部分之評量決策樹。在圖6與圖7所示的範例中，是以建立語音是屬於四聲且在對應的語句中下一個單位音是屬於靜音的訓練語料為例來進行說明。

請參照圖6，決策樹產生模組106會從儲存模組102中讀取對應之訓練語料群的訓練語料(即，屬於四聲單位音且在對應的語句中下一個單位音是屬於靜音的訓練語料，如訓練語料a、b、c、d等)以及此些訓練語料的語音特徵與評分標記。之後，決策樹產生模組106會依據所讀取之訓練語料之語音特徵與評分標記來產生評量決策樹(如圖7所示)。

請參照圖7，評量決策樹700是由多個決策節點與多條決策路徑所組成。決策樹訓練是資料探勘的一種方法。決策樹表述一種樹型結構，其是由其中的分支來對不同類型的對象依靠其屬性來進行分類。也就是說，決策樹依據資料的屬性來進行資料分割的測試，並且當資料無法再被分割時則此些資料即屬於某一種類。決策樹的產生與運算機制已為公開之知識，相關技術內容可由相關之教科書所獲知，在此不詳細描述。

請再參照圖1，回饋訊息產生模組108用以分析決策樹產生模組106所產生的評量決策樹並且依據決策節點上的語音特徵來設定對應每一條決策路徑上之決策節點的回饋資訊。

具體來說，特徵萃取模組104是根據發音的物理特徵來萃取語音特徵(即，上述基頻曲線的第一平均值、第二平均值、第三平均值、第一差值、第二差值與第三差值)。基此，當決策樹產生模組106依據語音特徵來產生評量決策樹時，所產生的評量決策樹上的決策路徑與決策節點會代表某一特定類型發音。基此，回饋訊息產生模組108依據此些語音特徵來分析每一決策路徑所對應的決策節點，以識別決策節點所代表之錯誤發音類型。

以評量決策樹700為例，例如，從根節點至決策節點702的決策路徑可知歸類為決策節點702的發音是屬於"第一差值大於-0.238911"的分類，其表示"下降不夠"的錯誤發音類型。例如，從根節點至決策節點704的決策路徑可知歸類為決第節點704的發音是屬於"第一平均值大於2.853324且小於或等於2.882541，第三平均值大於2.934026，以及第一差值大於-1.089865且小於或等於-0.238911"的分類，其表示"類似一聲，尾音過高"的錯誤發音類型。例如，從根節點至決策節點706的決策路徑可知歸類為決策節點706的發音是屬於"第一平均值小於或等於2.882514，第一差值小或等於-0.238911且大於-1.089865，第三平均值小於或等於2.934026且大於-0.240735，以及第二差值小於或等於0.668695"的分類，其代表"類似三聲，先下降，再上升"的錯誤發音類型。例如，從根節點至決策節點708的決策路徑可知歸類為決策節點708的發音是屬於"第一平均值小於或等於2.882514，第一差值小或等於-0.238911且大於-1.089865，第三平均值小於或等於2.168092且大於-0.240735，以及第二差值大於0.668695"的分類，其代表"起音過低，聲調下降不夠"的錯誤發音類型。

基於上述，回饋訊息產生模組108會根據決策路徑上之決策節點的語音特徵來設定每一決策路徑所對應的回饋資訊。例如，在本揭露之範例實施例中是以對應錯誤發音類型的文字描述來作為對應之決策路徑的回饋資訊。然而，本揭露不限於此，在本揭露另一範例實施例中，回饋訊息產生模組108亦可以手勢回饋(例如，以手勢來指示聲調需上揚或下降)、圖式回饋(例如，以圖式來指示聲調需上揚或下降)或示範音回饋(例如，以語音來示範正確的聲調)。

在本揭露之一範例實施例中，決策樹產生模組106與回饋訊息產生模組108會針對每一聲調類型(即，上述20種訓練語料群)產生評量決策樹並於評量決策樹中設定回饋資訊，並且將此些評量決策樹儲存於儲存模組102中。

評量與診斷模組110是用以依據學習者的一輸入語音的語音特徵來決定在對應評量決策樹的決策路徑之中對應此輸入語音的一診斷路徑並且輸出此診斷路徑上的決策節點所對應的回饋資訊與評分標記。也就是說，在決策樹產生模組106與回饋訊息產生模組108已完成評量決策樹的建立以及對應之回饋資訊的設定後，學習者可使用語言學習系統100來學習語言。

例如，當語言學習者透過語言學習系統100的錄音模組(未繪示)說出一個華語字、一個華語詞或一句華語句子時，特徵萃取模組104會將所接收之學習語句之語音進行切音運算來獲取此學習語句中的每一個單位音(例如，每一個字的語音)並且依據其聲調以及其右相關聲調將所獲取的語音進行分類。此外，特徵萃取模組104會萃取學習語句中每一語音的語音特徵(即，上述基頻曲線的第一平均值、第二平均值、第三平均值、第一差值、第二差值與第三差值)。然後，評量與診斷模組110會根據每一語音的語音特徵於對應的評量決策樹中辨識出此語音對應的決策路徑(即，診斷路徑)，並且輸出對應此決策路徑的回饋資訊與評分標記。

例如，當語言學習者所輸入的學習語句之中的一個語音是屬於四聲單位音且在此學習語句中此語音的下一個單位音是屬於靜音時，針對此語音的診斷，評量與診斷模組110會從儲存模組102中載入對應的評量決策樹700並且依據此語音的語音特徵計算出此語音所對應的決策路徑並且輸出回饋資訊給語言學習者。例如，當診斷路徑(如圖8中粗線之診斷路徑所示)為從根節點至決策節點708的決策路徑時，評量與診斷模組110會輸出"起音過低，聲調下降不夠"的回饋資訊以及評分標記為"不好"的資訊給語言學習者。

也就是說，在決策樹產生模組106與回饋訊息產生模組108已完成評量決策樹的建立以及對應之回饋資訊的設定後，根據本揭露之範例實施例的語言學習系統100可以針對語言學習者所發出的字、詞或句子依據評量決策樹來診斷並提出回饋資訊。

值得一提的是，當語言學習者得到評量與診斷模組110所輸出的回饋資訊而修正地再次發音時，評量與診斷模組110會將再次發音所對應的決策路徑與前一次發音所對應的決策路徑進行比對以提供更進一步的回饋資訊。例如，當語言學習者於第二次發音時以提高起音聲調來回應"起音過低，聲調下降不夠"的回饋資訊後，評量與診斷模組110可在比對前後之診斷路徑後輸出"聲調下降仍不夠"的回饋資訊，亦即可回饋未糾正的錯誤給使用者。

圖9是根據本揭露之範例實施例所繪示的整合式語言學習方法的流程圖。

請參照圖9，首先，在語音評量程序900中會蒐集多筆訓練語料(S901)。如上所述，藉由錄音模組蒐集語言學習者所發出的訓練語句之語音並且藉由切音運算來獲取每一訓練語句之語音上的單位語音範圍並將此進行分類以作為訓練語料。特別是，在一範例實施例中，訓練語料會依據不同的類型來分組至不同的訓練語料群。

然後，在步驟S903中特徵萃取模組104會萃取每一訓練語料的語音特徵，並且設定每一訓練語料的評分標記。例如，如上所述，特徵萃取模組104會取出每一訓練語料的基頻曲線並且以此基頻曲線的第一平均值、第二平均值、第三平均值、第一差值、第二差值與第三差值作為對應的語音特徵。

然後，在步驟S905中決策樹產生模組106會依據訓練語料的語音特徵與評分標記產生對應的評量決策樹。具體來說，決策樹產生模組106會為每一訓練語料群產生對應的評量決策樹。接著，在步驟S907中回饋訊息產生模組108會分析所產生的評量決策樹並且根據每一決策路徑上決策節點所對應的語音特徵來設定對應的回饋資訊。在此，產生評量決策樹與設定回饋資訊的方式已描述如上，在此不重複說明。

之後，在步驟S909中儲存所產生之評量決策樹。

在完成評量決策樹的建立之後，在步驟S911中接收語言學習者在語言學習系統100中透過錄音模組(未繪示)所輸入的學習語句。然後，在步驟S913中特徵萃取模組104會對此學習語句之語音進行切音運算以獲取此學習語句中的每一單位語音範圍。並且，在步驟S915中特徵萃取模組104會萃取每一語音的語音特徵。

然後，在步驟S917中評量與診斷模組110會依據此些語音所對應的訓練語料群從儲存模組102中載入對應的評量決策樹。並且，在步驟S919中評量與診斷模組110會決定在對應之評量決策樹的決策路徑之中對應此些語音的診斷路徑。最後，在步驟S921中評量與診斷模組110會輸出診斷路徑上的決策節點所對應的回饋資訊與對應的評分標記。

本揭露之一範例實施例亦提供一種電腦程式產品，其中此電腦程式產品是由數個程式指令所組成。特別是，在將此些程式指令載入電腦系統並執行之後，即可完成上述整合式語言學習方法的步驟，並使得電腦系統具備整合式語言學習方法的功能。

此外，上述電腦程式產品可儲存於電腦可讀記錄媒體上，其中電腦可讀記錄媒體可以是任何資料儲存裝置，之後可藉由電腦系統讀取。例如，電腦可讀記錄媒體為唯讀記憶體(read-only memory,ROM)、隨機存取記憶體(random-access memory,RAM)、CD-ROM、磁帶、軟碟、光學資料儲存裝置以及載波(例如，透過網際網路的資料傳輸)。

綜上所述，本揭露範例實施例的整合式語言學習方法與語言學習系統是利用預先蒐集各種語言學習者的語料來建立對應的評量決策樹並且依據評量決策樹上的資訊來診斷語言學習者的發音。基此，根據本揭露範例實施例的整合式語言學習方法與語言學習系統，無需建置大量的樣本教材資料庫來進行語音的比對。此外，本揭露範例實施例的整合式語言學習方法與語言學習系統可針對語言學習者所發出之字、詞與語句的發音來評量。基此，可有效地提升語言學習者使用語言學習系統的興趣。

雖然本揭露已以實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中具有通常知識者，在不脫離本揭露之精神和範圍內，當可作些許之更動與潤飾，故本揭露之保護範圍當視後附之申請專利範圍所界定者為準。

100．．．語言學習系統

102．．．儲存模組

104．．．特徵萃取模組

106．．．決策樹產生模組

108．．．回饋訊息產生模組

110．．．評量與診斷模組

202a、302a、402a、502a．．．第一基頻子曲線

202b、302b、402b、502b．．．第二基頻子曲線

202c、302c、402c、502c．．．第三基頻子曲線

204a、304a、404a、504a．．．基頻曲線的第一平均值

204b、304b、404b、504b．．．基頻曲線的第二平均值

204c、304c、404c、504c‧‧‧基頻曲線的第三平均值

206a、306a、406a、506a‧‧‧基頻曲線的第一差值

206b、306b、406b、506b‧‧‧基頻曲線的第二差值

206c、306c、406c、506c‧‧‧基頻曲線的第三差值

700‧‧‧評量決策樹

702、704、706、708‧‧‧決策節點

900‧‧‧語音評量程序

S901、S903、S905、S907、S909、S911、S913、S915、S917、S919、S921‧‧‧語音評量的步驟

圖6是根據本揭露之範例實施例所繪示用以產生評量決策樹之的訓練語料的範例。

圖7是根據本揭露之範例實施例所繪示的部分之評量決策樹。

圖8是根據本揭露之範例實施例所繪示的診斷路徑的示意圖。

1．．．語言學習者

100．．．語言學習系統

102．．．儲存模組

104．．．特徵萃取模組

110．．．評量與診斷模組

Claims

一種語言學習系統，用於評量一學習語句之中的一語音，該語言學習系統包括：一儲存模組，用以儲存多筆訓練語料與依據該些訓練語料所建立之至少一評量決策樹，其中該至少一評量決策樹具有多條決策路徑，每一該些決策路徑包含多個決策節點並且每一該些決策路徑對應至少一回饋資訊；一特徵萃取模組，用以萃取該語音的至少一個語音特徵，其中該特徵萃取模組更用以萃取每一該些訓練語料的至少一個語音特徵，其中每一該些訓練語料具有至少一評分標記；一決策樹產生模組，用以依據該些訓練語料的該些語音特徵與該些評分標記產生該至少一評量決策樹；一回饋訊息產生模組，用以分析該至少一評量決策樹的每一該些決策路徑並且依據每一該些決策路徑上的該些決策節點所對應的該些語音特徵來設定對應每一該些決策路徑的該至少一回饋資訊；以及一評量與診斷模組，用以依據該語音的語音特徵決定在該至少一評量決策樹的該些決策路徑之中對應該語音的一診斷路徑並且輸出對應該診斷路徑的該至少一回饋資訊。
如申請專利範圍第1項所述之語言學習系統，其中該特徵萃取模組對多筆訓練語句進行一切音運算以獲取該些訓練語句的多個單位音，並且從該些訓練語句的該些單位音之中獲取該些訓練語料，其中該特徵萃取模組對該學習語句進行該切音運算以獲得該學習語句的一個或多個單位音，並且該語音為該學習語句的該些單位音的其中之一。
如申請專利範圍第2項所述之語言學習系統，其中該特徵萃取模組擷取該語音的一基頻曲線，將該語音的基頻曲線分割為該語音的多個基頻子曲線，計算該語音的每一該些基頻子曲線的一平均值，計算該語音的每一該些基頻子曲線的一斜率，計算該語音的該些基頻子曲線之間的多個差值，並且將該語音的該些基頻子曲線的該些平均值、該些斜率與該些差值的至少其中之一做為該語音的該些語音特徵，其中該特徵萃取模組擷取每一該些訓練語料的一基頻曲線，將每一該些訓練語料的基頻曲線分割為多個基頻子曲線，計算每一該些訓練語料的每一該些基頻子曲線的一平均值，計算每一該些訓練語料的每一該些基頻子曲線的一斜率，計算在每一該些訓練語料中該些基頻子曲線之間的多個差值，並且將每一該些訓練語料的每一該些基頻子曲線的該些平均值、該些斜率與該些差值的至少其中之一做為每一該些訓練語料的該些語音特徵。
如申請專利範圍第2項所述之語言學習系統，其中該特徵萃取模組擷取該語音的一能量曲線，將該語音的能量曲線分割為該語音的至少一能量子曲線，計算該語音的每一該些能量子曲線的一平均值，計算該語音的每一該些能量子曲線的一斜率，計算該語音的該些能量子曲線之間的多個差值，並且將該語音的該些能量子曲線的該些平均值、該些斜率與該些差值的至少其中之一做為該語音的語音特徵，其中該特徵萃取模組擷取每一該些訓練語料的一能量曲線，將每一該些訓練語料的能量曲線分割為多個能量子曲線，計算每一該些訓練語料的每一該些能量子曲線的一平均值，計算每一該些訓練語料的每一該些能量子曲線的一斜率，計算在每一該些訓練語料中該些能量子曲線之間的多個差值，並且將每一該些訓練語料的每一該些能量子曲線的該些平均值、該些斜率與該些差值的至少其中之一做為每一該些訓練語料的語音特徵。
如申請專利範圍第2項所述之語言學習系統，其中該特徵萃取模組擷取該語音中的多個音素以及對應該語音之該些音素的一個或多個梅爾倒頻譜參數(Mel-scale Frequency Cepstral Coefficients,MFCC)，計算每一該些音素的一梅爾倒頻譜參數平均值，計算該語音的該些梅爾倒頻譜參數平均值之間的多個梅爾倒頻譜參數差值，並且將該語音的該些梅爾倒頻譜參數平均值與該些梅爾倒頻譜參數差值的至少其中之一做為該語音的語音特徵，其中該特徵萃取模組擷取每一該些訓練語料的多個音素及對應該些音素的多個梅爾倒頻譜參數，計算每一該些訓練語料的每一該些音素的一梅爾倒頻譜參數平均值，計算在每一該些訓練語料中該些梅爾倒頻譜參數平均值之間的多個梅爾倒頻譜參數差值，並且將每一該些訓練語料的該些梅爾倒頻譜參數平均值與該些梅爾倒頻譜參數差值的至少其中之一做為每一該些訓練語料的語音特徵。
如申請專利範圍第2項所述之語言學習系統，其中該特徵萃取模組擷取該語音中的多個音素以及對應該語音之該些音素的多個音長(Duration)，計算每一該些音素的一音長平均值，計算該語音的該些音長平均值之間的多個音長差值，並且將該語音的該些音長平均值與該些音長差值的至少其中之一做為該語音的該些語音特徵，其中該特徵萃取模組擷取每一該些訓練語料的多個音素及對應該些音素的多個音長，計算每一該些訓練語料的每一該些音素的一音長平均值，計算在每一該些訓練語料中該些音長平均值之間的多個音長差值，並且將每一該些訓練語料的該些音長平均值與該些音長差值的至少其中之一做為每一該些訓練語料的該些語音特徵。
如申請專利範圍第2項所述之語言學習系統，其中該特徵萃取模組擷取對應該語音的至少一基頻曲線、至少一能量曲線、至少一梅爾倒頻譜參數(Mel-scale Frequency Cepstral Coefficients,MFCC)與至少一音長(Duration)，並且將該至少一基頻曲線、該至少一能量曲線、該至少一梅爾倒頻譜參數以及該至少一音長的至少其中之一做為該語音的該些語音特徵，其中該特徵萃取模組擷取對應每一該些訓練語料的至少一基頻曲線、至少一能量曲線、至少一梅爾倒頻譜參數與至少一音長，並且將該至少一基頻曲線、該至少一能量曲線、該至少一梅爾倒頻譜參數以及該至少一音長的至少其中之一做為每一該些訓練語料的該些語音特徵。
如申請專利範圍第2項所述之語言學習系統，其中該特徵萃取模組依據在該些訓練語句中該些訓練語料與該些訓練語料的下一個單位音的組合將該些訓練語料分組成多個訓練語料群，其中該決策樹產生模組依據該些訓練語料群來產生該些評量決策樹，其中每一該些評量決策樹對應該些訓練語料群的其中之一。
如申請專利範圍第2項所述之語言學習系統，其中該特徵萃取模組依據在該些訓練語句中該些訓練語料與該些訓練語料的前一個單位音的組合將該些訓練語料分組成多個訓練語料群，其中該決策樹產生模組依據該些訓練語料群來產生該些評量決策樹，其中每一該些評量決策樹對應該些訓練語料群的其中之一。
如申請專利範圍第2項所述之語言學習系統，其中該特徵萃取模組依據在該些訓練語句中該些訓練語料與該些訓練語料的前一個單位音與下一個單位音的組合將該些訓練語料分組成多個訓練語料群，其中該決策樹產生模組依據該些訓練語料群來產生該些評量決策樹，其中每一該些評量決策樹對應該些訓練語料群的其中之一。
一種語言學習方法，用於評量一學習語句之中的一語音，該語言學習方法包括：蒐集多筆訓練語料；萃取每一該些訓練語料的至少一個語音特徵，其中每一該些訓練語料具有至少一評分標記；依據該些訓練語料的該些語音特徵與該些評分標記產生至少一評量決策樹，其中該至少一評量決策樹具有多條決策路徑；分析該些評量決策樹的每一該些決策路徑並且依據每一該些決策路徑上的該些決策節點所對應的該些語音特徵來設定對應每一該些決策路徑的至少一回饋資訊；儲存至少一評量決策樹；萃取該語音的至少一個個語音特徵；依據該語音的語音特徵決定在該至少一評量決策樹的該些決策路徑之中對應該語音的一診斷路徑；以及輸出對應該診斷路徑的該至少一回饋資訊。
如申請專利範圍第11項所述之語言學習方法，其中萃取每一該些訓練語料的語音特徵的步驟包括：蒐集多筆訓練語句；對該些訓練語句進行一切音運算以獲取該些訓練語句的多個單位音；以及從該些單位音之中獲取該些訓練語料。
如申請專利範圍第12項所述之語言學習方法，更包括：接收該學習語句；以及對該學習語句進行該切音運算以獲得該學習語句的一個或多個單位音，其中該語音為該學習語句的該些單位音的其中之一。
如申請專利範圍第12項所述之語言學習方法，其中萃取該語音的該些語音特徵的步驟包括：擷取該語音的一基頻曲線；將該語音的基頻曲線分割為多個基頻子曲線；計算該語音的每一該些基頻子曲線的一平均值；計算該語音的每一該些基頻子曲線的一斜率；計算該語音的該些基頻子曲線之間的多個差值；將該語音的該些基頻子曲線的該些平均值、該些斜率與該些差值的至少其中之一作為該語音的該些語音特徵，其中萃取每一該些訓練語料的該些語音特徵的步驟包括：擷取每一該些訓練語料的一基頻曲線；將每一該些訓練語料的基頻曲線分割為多個基頻子曲線；計算每一該些訓練語料的每一該些基頻子曲線的一平均值；計算每一該些訓練語料的每一該些基頻子曲線的一斜率；計算在每一該些訓練語料中該些基頻子曲線之間的多個差值；以及將每一該些訓練語料的每一該些基頻子曲線的該些平均值、該些斜率與該些差值的至少其中之一作為每一該些訓練語料的該些語音特徵。
如申請專利範圍第12項所述之語言學習方法，其中萃取該語音的該些語音特徵的步驟包括：擷取該語音的一能量曲線；將該語音的能量曲線分割為多個能量子曲線；計算該語音的每一該些能量子曲線的一平均值；計算該語音的每一該些能量子曲線的一斜率；計算該語音的該些能量子曲線之間的多個差值；將該語音的該些能量子曲線的該些平均值、該些斜率與該些差值的至少其中之一作為該語音的該些語音特徵，其中萃取每一該些訓練語料的該些語音特徵的步驟包括：擷取每一該些訓練語料的一能量曲線；將每一該些訓練語料的能量曲線分割為多個能量子曲線；計算每一該些訓練語料的每一該些能量子曲線的一平均值；計算每一該些訓練語料的每一該些能量子曲線的一斜率；計算在每一該些訓練語料中該些能量子曲線之間的多個差值；以及將每一該些訓練語料的每一該些能量子曲線的該些平均值、該些斜率與該些差值的至少其中之一作為每一該些訓練語料的該些語音特徵。
如申請專利範圍第12項所述之語言學習方法，其中萃取該語音的該些語音特徵的步驟包括：擷取該語音中的多個音素以及對應該語音之該些音素的多個梅爾倒頻譜參數；計算每一該些音素的一梅爾倒頻譜參數平均值；計算該語音的該些梅爾倒頻譜參數平均值之間的多個梅爾倒頻譜參數差值；以及將該語音的該些梅爾倒頻譜參數平均值與該些梅爾倒頻譜參數差值的至少其中之一作為該語音的語音特徵，其中萃取每一該些訓練語料的該些語音特徵的步驟包括：擷取每一該些訓練語料的多個音素及對應該些音素的多個梅爾倒頻譜參數；計算每一該些訓練語料的每一該些音素的一梅爾倒頻譜參數平均值；計算在每一該些訓練語料中該些梅爾倒頻譜參數平均值之間的多個梅爾倒頻譜參數差值；以及將每一該些訓練語料的該些梅爾倒頻譜參數平均值與該些梅爾倒頻譜參數差值的至少其中之一作為每一該些訓練語料的語音特徵。
如申請專利範圍第12項所述之語言學習方法，其中萃取該語音的該些語音特徵的步驟包括：擷取該語音中的多個音素以及對應該語音之該些音素的多個音長；計算每一該些音素的一音長平均值；計算該語音的該些音長平均值之間的多個音長差值；以及將該語音的該些音長平均值與該些音長差值的至少其中之一作為該語音的語音特徵，其中萃取每一該些訓練語料的該些語音特徵的步驟包括：擷取每一該些訓練語料的多個音素及對應該些音素的多個音長；計算每一該些訓練語料的每一該些音素的一音長平均值；計算在每一該些訓練語料中該些音長平均值之間的多個音長差值；以及將每一該些訓練語料的該些音長平均值與該些音長差值的至少其中之一作為每一該些訓練語料的語音特徵。
如申請專利範圍第12項所述之語言學習方法，其中萃取該語音的該些語音特徵的步驟包括：擷取對應該語音的至少一基頻曲線、至少一能量曲線、至少一梅爾倒頻譜參數(Mel-scale Frequency Cepstral Coefficients,MFCC)與至少一音長(Duration)；以及將該至少一基頻曲線、該至少一能量曲線、該至少一梅爾倒頻譜參數以及該至少一音長的至少其中之一作為該語音的語音特徵，其中萃取每一該些訓練語料的該些語音特徵的步驟包括：擷取對應每一該些訓練語料的至少一基頻曲線、至少一能量曲線、至少一梅爾倒頻譜參數與至少一音長；以及將該至少一基頻曲線、該至少一能量曲線、該至少一梅爾倒頻譜參數以及該至少一音長的至少其中之一作為每一該些訓練語料的語音特徵。
如申請專利範圍第12項所述之語言學習方法，更包括：依據在該些訓練語句中該些訓練語料與該些訓練語料的下一個單位音的組合將該些訓練語料分組成多個訓練語料群；以及依據該些訓練語料群來產生該些評量決策樹，其中每一該些評量決策樹對應該些訓練語料群的其中之一。
如申請專利範圍第12項所述之語言學習方法，更包括：依據在該些訓練語句中該些訓練語料與該些訓練語料的前一個單位音的組合將該些訓練語料分組成多個訓練語料群；以及依據該些訓練語料群來產生該些評量決策樹，其中每一該些評量決策樹對應該些訓練語料群的其中之一。
如申請專利範圍第12項所述之語言學習方法，更包括：依據在該些訓練語句中該些訓練語料與該些訓練語料的前一個單位音與下一個單位音的組合將該些訓練語料分組成多個訓練語料群；以及依據該些訓練語料群來產生該些評量決策樹，其中每一該些評量決策樹對應該些訓練語料群的其中之一。
一種程式產品，包括至少一程式指令，該至少一程式指令用以被載入至一電腦系統以執行如申請專利範圍第11項所述之語言學習方法。