TW533403B

TW533403B - Recognition system using lexical trees

Info

Publication number: TW533403B
Application number: TW090118668A
Authority: TW
Inventors: Luca Rigazio; Patrick Nguyen
Original assignee: Matsushita Electric Ind Co Ltd
Priority date: 2000-07-31
Filing date: 2001-07-31
Publication date: 2003-05-21
Also published as: ES2238394T3; DE60109999D1; US7035802B1; ATE293275T1; CN1156820C; EP1178466B1; JP2002082689A; CN1349211A; DE60109999T2; EP1178466A2; EP1178466A3

Description

5334〇3 Α7 Β7 i'發明説明（1 ) 經濟部智慧財產局員工消費合作社印製本發明之背景及槪要本發明一般係關於語音辨識系統。尤其是，本發明是關於在被隔離字組及連續的語音辨識應用中之動態規劃樣型序列辨識技術。動態規劃技術今日一般被使用於被隔離的和連續的語音辨識兩者之時間-變形問題以及在連續語音（連接字組）辨識中最佳字組序列尋找問題上面。ί種可被使用於隱藏式馬克夫模式（ΗΜΜ)本文中之習知的動態規劃辨識型式是懷特比（Viterbi)演算法。除了 ΗΜΜ之外，動態規劃技術同時也可被使用至多種其他型式的語音模式，例如神經網路模式。傳統的懷特比演算法是一種歸納性的演算法，其中在各瞬間（各訊框）時，演算法對η組狀態之各組儲存最佳可能的狀態序列作爲所需的觀察序列〇之一組中間狀態。以此方式，演算法最後揭示η組狀態的各組之最佳通道作爲所需的觀察序列的最後狀態。由此，演算法選擇具有最高機率的一組。傳統的懷特比演算法一個訊框接一個訊框地繼續進行尋求在說話語調和先前訓練模式之間發現最佳的匹配。採取隱藏式馬克夫模式辨識器的情況作爲範例，利用模式（ΗΜΜ)產生的被觀察序列之機率（測試說話者之語調）是經由所有可能觀察序列之各可能通道之機率總和。各通道機率被計算並且最有可能之一組被辨識。懷特比演算法計算最有可能之通道並且記憶經過該處之所有狀態。 4 (請先閱讀背面之注意事項再填寫本頁) -、1Τ 線本紙張尺度適用中國國家標準（CNS ) Α4規格（210X 297公釐） 533403 A7 B7 五、發明説明（2 ) 經濟部智慧財產局員工消費合作社印製傳統的懷特比演算法需大量計算。其持有大量的鏈路列表或混合表格以保持所有作用之假設或者代符的列表。從這些列表或表格之貯存和諮詢項目的簿記操作中，可知有大量的計算能量被消耗。因爲傳統的懷特比演算法需大量的計算，其可明顯地減緩語音辨識器之表面速率。這在需要及時反應時間之及時反應系統中是特別的問題。目前解決辦法是單純地使用更有功效的處理器一一一種昂貴的解決辦法，這昂貴的解決辦法在像細胞式電話及住家娛樂設備之一些嵌入式系統及小型消耗性產品中可能是不需要的。本發明試圖改進傳統的懷特比演算法並且因此使得在處理能力受限制的應用中更有用。在吾人之試驗中，展示我們的新技術以至少三倍因素改進辨識速率。本發明採用具有大幅地改進性能之相關尋找演算法之獨特的詞彙樹結構。雖然本系統適於嵌入式應用性及消耗性產品，其同時也可被部置在大型的高速系統上面而甚至於有更大之性能改進。本演算法可被使用於被隔離字組辨識，或者作爲連續語音辨識之第一回合迅速匹配。其同時也可被擴展至交叉字組模式。爲更完全的了解本發明，其目的和優點，請參考下面的說明和附圖。圖形槪要說明第1圖是一種語音辨識器之方塊圖，其展示依據本發明被構成之解碼器可以如何被使用以製作一組模式爲主的 5 (請先閲讀背面之注意事項再填寫本頁)

、1T 線- 本紙張尺度適用中國國家標準（CNS ) Α4規格（210X297公釐） 3403 A7 B7 i、發明説明（3 ) 辨識器；第2圖展示本發明所採用之詞彙樹的目前較佳資料結構；第3圖是被使用以代表詞彙樹各節點之資料結構圖；第4a圖是一種時間線圖，其展示在連續的語音應用中採用本發明之一解碼器所達成的基本工作；第4b圖是一種樹狀圖，其展示作用封套如何被行經過；第5圖是有助於了解演算法動態行爲的一系列樹圖；第6圖是一種演算法流程圖。較佳實施例之說明背景經濟部智慧財產局員工消費合作社印製第1圖展示一種範例語音辨識系統。該系統以兩種相位操作：一種是訓練相位，在該相位時，系統學習代表構成應用詞彙之不同語音（例如片語，字組，音素）的參考樣型；以及一種辨識相位，在該相位時，利用考慮參考樣型而辨識一組未知輸入樣型。在訓練相位時，各參考樣型從所說出之範例學習，並且以利用某些平均方法所得到的樣板形式（在樣板匹配系統中）或者由一些具特徵於統計樣型性質（如在統計學系統中）之模式而被儲存。一種最大眾化的統計學系統利用具有隱藏式馬克夫模式（HMM)之統計學模式方法。如第1圖之說明，範例語音辨識器以三個步驟執行辨識處理。如在步驟1 〇之描述。語音分析和特點抽取首先於輸入語音上面被執行。這步驟主要在抽取由信號分析所得 6 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） 533403

i、發明説明（4 ) 經濟部智慧財產局員工消費合作社印製到之一組參數。接著在步驟1 2，包含樣型分類。在這步驟中，傳統的懷特比演算法將被執行。在這步驟時，在輸入語音及各參考樣型之間的一組類似量度被計算出。該g序定義在特徵向量之間相似度之一組局部量度並且進一步地包含用以對齊兩組語音樣型之方法，該兩組語音樣型在言兌話之持續及速率上可能不同。樣型分類步驟使用包含在訓練相位時被產生之資訊的一種樣板或者模式字典1 4。最後步驟是決定步驟1 6。在這步驟時，未知樣型被指定爲’’最接近”參考樣型之標記。典型地，這決定是依據考慮相似量測結果之準則。因爲現今普遍地使用之許多辨識器採用隱藏式馬克夫模式作爲語音模式，一種簡單的隱藏式馬克夫模式圖解展不於第1圖之20中。但是，將明白’本發明之原理不受限制於採用隱藏式馬克夫模式之辨識器。一種三狀態之隱藏式馬克夫模式展示於第1圖中，其具有指定狀態S 1、S2和 S3。當然，一種有效的製作可能採用不同的狀態數目，並且在此被選擇的狀態數目僅是用於展示目的。雖然本發明不受限制於LR(左方-至-右方）HMM ’但具有這類模式之演算法提供最佳結果。因此第1圖展示之HMM是一種LR HMM，其中狀態轉移僅從左方進行至右方，而無跳躍狀態。隱藏式馬克夫模式包含一種機率收集’ 一些與狀態本身相關且另外的與從一狀態至另一狀態或者至其本身之達成的轉移相關。第1圖中，狀態轉移以箭頭展示。注意’ 一些箭頭示出從一狀態至不同狀態之轉移，而另外的箭頭 7 (讀先閲讀背面之注意事項再填寫^頁) 批»| 訂本紙張尺度適用中國國家標準（CNS ) A4規格（21〇Χ297公釐） 533403 A7 B7 五、發明説明（5 ) 示出從一狀態至其本身之轉移。利用語音模式表示之各片語’字組或者音素將具有其自己的模式’包含與各轉移相關的及與各狀態相關的機率値。因此各自身迴路具有一組相關的轉移機率，在2 2示出；各迴路至另一狀態具有其相關的轉移機率24。此外，同樣地，各狀態具有與其相關的機率資訊。因爲與各狀態相關的機率値可能比一組單一値可代表者更複雜’就高斯分配方面而言，某些系統可能代表與各狀態相關的機率。有時，多重分配之混合以一種調和方式被使用以包含局斯混合密度資料。這樣的資料在2 6所示處圖形地被展示並且被混合索引指示器2 8所參考。因此與各狀態相關者是一組混合索引指示器，其亦辨識狀態之高斯混合密度資訊。當然，其擁有重複性，第1圖展示之語音辨識器及隱藏式馬克夫模式結構僅是作爲本發明可以使用之一種型式辨識器的範例。一般而言，本發明可配合以樣型分類進行動態規劃之任何系統被使用。如先前所提的，利用LR HMM可得到最佳的HMM結果。因此本發明可被採用，例如，取代傳統的懷特比演算法。關於語音辨識系統和隱藏式馬克夫模式之基本結構的更多資訊，參看 Junqua，Jean-Claude 和 Haton，Jean-Paul 之“自動語音辨識之強建性”，基礎及應用，1 996年由Kiuwer Academic 發行。較佳資料結構本發明可以被使用以大大地改進在步驟1 2進行之樣型 8 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） (請先閲讀背面之注意事項再填寫七頁) ΐ>τ 、1Τ 經濟部智慧財產局員工消費合作社印製 533403 A7 B7 五、發明説明（6 ) (請先閱讀背面之注意事項再填、分類方式。本發明採用代表樣板或者模式字典1 4之一種唯一的資料結構，配合行經資料結構以發現最佳匹配假設之唯一的演算法。該較佳資料結構將於這部份中被說明；較佳演算法將於下一部份被說明。較佳資料結構表示樣板或者模式字典1 4作爲一種已被簡化爲鏈路列表之詞彙樹。第 2圖展示這拓樸邏輯。第2圖，更明確地說，展示儲存由文字形成之分別字組的詞彙樹3 0之一種範例。稍後說明之下面的演算法，以時間-同步方式行經這詞彙樹並且應用動態規劃方程式在各作用節點上面。演算法因此從節點至節點地行經詞彙樹’測試在各節點之文字是否匹配於特點抽取步驟1 〇中被辨識之文字（第1圖）。線經濟部智慧財產局員工消費合作社印製就第2圖展現之詞彙樹範例而言，應該了解所展示之範例’其使用拼成那些字組之文字所形成之字組，其在此僅被選擇爲教導目的。在語音辨識系統中，在步驟i 〇之語音分析時所抽取之特點可能爲特點或者他們對應的聲音單元’例如音素、音節或者類似者。換言之，本發明不受限制於僅應用於其中分別的文字在各節點被測試以辨認由那些文字拼成之字組。反之，任何適當的單元可以被使用於各節點上面。在一種連續的語音辨識器中，例如，系統可能在各節點表示整個字組，且詞彙樹包含指示至由那些字組形成的全部片語或者句子之指示器。參看第2圖，應注意到，詞彙樹3 〇被表示爲一種簡化鏈路列表3 2，其包含一些特定特點以辨認，不僅是列表拓樸邏輯’同時也辨認列表會行經過以反映對應樹之行程的 9 本紙張尺度適用中國國家標準（CNS ) A4規格（21GX297公麓) -— - 533403 A7 B7 五、發明説明（7 ) 經濟部智慧財產局員工消費合作社印製路徑。更明確地說，列表被構成以至於在樹內之相同世系位準的所有節點被表示爲列表上面連續的項目。因此鏈路列表開始於第一結構或者節點以代表樹之根節點。在根節點結構之下是緊接著之子節點之結構，在這範例中對應至樹之節點k和h。繼續進行於鏈路列表中，這範例中接著之兩組節點代表第二層疊子節點，其被稱爲節點aa及樹aa。接著三組節點代表第三層疊孫節點，節點r、r和I。最後，最後四組節點代表樹的最後層疊，其被稱爲節點d、d、t 和t 〇在鏈路列表之內的節點儲存多於剛好對應至樹之各節點的文字或者聲音單元。各節點同時也包含至下一節點之至少一組傳送指示器，如果其有行經過該樹的話，該節點將被行經過。因此第一子節點k包含至孫節點aa之一組指示器，以展示在最後拼出對應至字組CARD之聲音單元中，如何從節點k至節點aa而行經該樹。各節點結構同時也包含一組旗標，表示於第2圖中如在下方右角落中的小盒子。這旗標被設定以辨認該節點是否代表其母節點之最後的子節點。當其以簡化鏈路列表型式而被表示時，這資訊被使用以進一步地說明該樹之拓樸邏輯。鏈路列表之實際的表示如第3圖展示之資料結構型式。第3圖之結構展示簡化鏈路列表節點如何針對使用隱藏式馬克夫模式之辨識器而可能被組態。同樣地，節點可以容易地被組態以儲存其他的參數型式。因此，應該了解，第3圖之展示並非用以限制本發明之範疇。該結構可被使 10 (請先閲讀背面之注意事項再填* ^1 :寫、11 線本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） 533403 A7 B7 五、發明説明（8 ) 用以儲存對應至除了隱藏式馬克夫模式辨識器之外其他辨識器之參數及/或樣板資訊。參看至第3圖，各節點儲存下面之樹拓樸邏輯結構。其包含儲存從該節點至下一個子節點之指示器的一組資料元件50。這些指示器對應至第2圖所展示者並且當行經樹時其被使用。節點資料結構同時也包含一組布爾旗標52，其被設定或者不被設定以指示是否該節點是其母節點之最後的子節點。這資訊在第2圖中以未被充塡（不真）或者被充塡（爲真）之小方格形式圖解地被展示。因爲所展示之範例被設計以代表隱藏式馬克夫模式，節點資料結構包含資料元件54，其包含與自身的迴路相關的轉移機率及迴路至與該節點相關的子節點之轉移機率。在一般的辨識器中，這些將是對應至第1圖之22與24展示之機率的浮動點數値。節點資料結構同時也包含一組資料元件5 6，於其中一組索引或者指示器被儲存以辨認該節點的對應局斯混合幣度。第1圖之2 8展示混合索引指示器。接著’其指出代表高斯混合密度26或者其他被辨識器使用以代表一所給予的節點將發出至一給予的聲音單元之機率的其他機率値之一組資料集合。在節點資料結構中之其餘的資料元件被演算法使用，該演算法決定哪個行程代表最佳的通道或者最佳的匹配。當演算法進行其分析處理時，資料元件5 8儲存與節點相關之累積機率計量。資料元件60儲存一組指示器至樹內的另一節點’其爲習知之下一作用節點。演算法使用下一作用 11 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） '~ (請先閱讀背面之注意事項再填寫AI) 訂線_ 經濟部智慧財產局員工消費合作社印製 533403 A7 ίτ_I_ 經濟部智慧財產局員工消費合作社印製 B7 —--— -----—— 發明説明（9 ) (請先閱讀背面之注意事項再填- 節點以決定其將如何繼續行經過該樹，演算法之細節及這些資料元件如何進入運轉，接著將被說明。演算法如上所述，較佳演算法以一種時間-同步方式而行經資料結構。亦即，當特點抽取處理程序（第1圖之步驟1 0)進行時，演算法以與被產生之觀察資料同步而行經節點。在一般的辨識器中，輸入語音在時間上被分割或者被細分成爲訊框。較佳演算法因此與這些訊框同步地操作。訂線從節點至節點之行程被樹拓樸邏輯結構所指定並且同時也被稱爲作用節點封套之第二結構所指定。作用節點是那些目前代表最有可能匹配假設的節點。作用節點封套是這些目前作用節點之鏈路列表。作用節點封套代表一組動態結構。當演算法進行時，節點將參加或者脫離作用節點列表。如果他們的機率計量是在一束搜尋臨限値之上，則節點被添加至作用列表，並且如果他們的計量降落在臨限値之下時，則之前的作用節點從作用列表上面被排除。爲計算作用節點之機率計量，演算法應用下面的動態規劃方程式至各作用節點： sk(t) = max{s“t-l) + av、k}+dk(t) 其中sk(t)是在時間t之計量，並且p是節點之母節點。爲了解演算法如何行經詞彙樹，一些定義應該被形成。參考詞彙樹，我們定義節點深度爲節點左方上面之狀態數目。參看第4a圖。數目愈大，則節點愈深。吾人定義詞彙樹之一行爲相同深度之一組節點。對於各行，我們定 12 本紙張尺度適用中國國家標準（CNS ) Α4規格（21〇><297公釐） 333403

經濟部智慧財產局員工消費合作社印製五、發明説明（l〇 ) 義節點上之任意的順序關係。作用封套或者作用節點列表是具有作用性之順序關係的節點列表，以至於，如果節點η 是具有母節點η *之節點，並且節點k是具有母節點k *之節點，則k * <n *意味著k<n。因爲在詞彙樹中所給予深度的所有節點可以幾乎是任何的順序而被處理，我們選擇使記憶體快取性能最大化之行徑序列。換言之，當處理器從記憶體負載一所給予的位址時，其板上快取機構將同時也負載一連續的位址區塊，該連續位址即時地跟隨在從記憶體被負載的位址之後。隨後，如果任何那些依序的位址需要被存取，則處理器將從該快取存取它們，而非從記憶體存取它們，因而消減相關的記憶體存取時間。本發明行經詞彙樹而且利用這快取特點。詞彙樹被編碼以至於演算法將採用被儲存在快取中資訊之方向而行經該樹。爲進一步地展示，將第2圖節點在記憶體連續的陣列中被排序。較佳實施例將因此以記憶體增加之順序方式而行經節點。較佳行程通道被展示於第4b圖中。行程在最大深度之作用節點開始並且接著在給予之行內以增加的順序方式而前進。一旦在行之內的所有作用節點已行經過，則通道前進至先前的行。目前之較佳演算法經由下面的步驟而進行： 1. 從詞彙樹中最深的作用列表開始。 2 . 令B爲子節點行之作用列表中最小的排列節點。 3 . 以增加順序方式行經作用列表。 4. 對於目前節點k之各子節點c， 13 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） (請先閲讀背面之注意事項再填寫il頁) 批»| 訂線- 533403 A7 B7五、發明説明（11 ) 經濟部智慧財產局員工消費合作社印製 5. 如果B<c，則增加B直至條件爲假爲止。 6. 如果B = c，則應用動態規劃方程式。 7. 如果B>c，則在η之前鏈接c。 8. 減少深度並且處理母節點行。上面之演算法比較語音分析模組之順序輸出與在其詞彙樹中之項目，在各節點決定哪個項目具有匹配輸入語音語調之最高的機率。雖然可能全面地分析各樹節點，這蠻力的方法是非常耗時並且無效率的。較佳演算法利用辨認目前具有匹配輸入語調的最高機率之節點而動態地減低其在各連續疊代的搜尋空間。演算法辨識這些節點作爲接著之作用節點。其使用這些節點，而且僅這些節點，在其依序的疊代中。當演算法探視各節點時，其計算節點之機率計量。如果我們定義迴路和進入的機率爲lk = akk且ik = ak*，k，則在時間t+Ι時之計量sk(*)可被計算如下： s“t+l) = max{sk(t) + lk，sk*(t) + ik}+dk(t)。注意’演算法使用t與t+ 1取代t與t-1以表示一組向前遞迴而非向後遞迴。最後的目的是僅依據子節點記錄之知識而計算一組計量（亦即，從k*而不是從k)以避免使用往後的指示器（亦即，母節點之知識）。演算法定義拓樸邏輯計量rk(t) = Sk(t)-dk⑴及局部的拓樸邏輯計量rA(t) = sk(t) + I。注意，當k*不屬於作用列表時，部份的拓樸邏輯計量等於拓樸邏輯計量。演算法利用進行下面的操作而行經作用封套中之一組晶胞： 14 (請先閱讀背面之注意事項再填. :寫本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） 533403 A7 B7 五、發明説明（12 ) 1 · 計算計量Skerk + dk(聲音匹配）； (請先閲讀背面之注意事項再填寫* 2. 遺留：對於各子節點c，r。—max{sk + ie,re}。子節點之計量欄被取得以保持部份的計量〆。 3 . 自我引動：rkerA(t) = rk + lk。計量欄接著保持部份的拓樸邏輯計量。假如沒有計量繼承發生，則其同時也是t+ 1 之拓樸邏輯計量。如上面步驟之指示，各晶胞k計算其在各訊框之拓樸邏輯計量及聲音計量。人們稱這個性質爲自我-引動。各晶胞引動其本身以及接著引動其所有的子節點。如果子節點本身已被引動，則母節點晶胞之計量被遺留至其子節點。如果演算法保留s k以及接著之可變化的作用節點，則遺留和自我引動可被倒反。在這樣的情況中，來自節點之資料在自我引動之後可從記憶體快取即時地被拋棄。注意，在遺留處理時，節點直接存取其子節點。這確保作用封套被構成，如上所述。演算法動態行爲及作用節點封套傳輸線經濟部智慧財產局員工消費合作社印製如上面所提及，作用節點封套是一種動態結構。當演算法進行時，作用節點改變。當作用節點封套重疊被置放在詞彙樹上面時，在演算法操作時，則作用節點封套將出現以便傳輸。第4a圖圖解地展示這觀念。第4a圖展示一組範例，其中字組，而非文字，被表示在各節點上面。在先前範例中，一種分別的字組辨識器被展示。各樹節點表示構成字典中之字組的文字或者聲音單元。但是，本發明之技術可被使用於分別的字組與連續的 15 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） 533403

五、發明説明（13 ) (請先閲讀背面之注意事項再填寫· 語音辨識器兩者中，因此第4a圖展示在連續的語音辨識器中樹結構如何察看，其中分別的字組被表示在各節點並且其輸出將是句子或者片語。細查第4a圖之樹70可發現，例如，片語’’快速褐色狼（the quick brown fox)'，將如何利用適當的樹行程而被構成。、?! 第4a圖展示作用節點封套將如何出現以便隨時間而傳輸。時間線72展示範例樹之接著作用節點封套如何在最先的時間a及在稍後時間b出現。時間a即時地在字組” the ” 被語音分析步驟1〇(第1圖）分析之後，對應至語調’’快速褐色狼（the quick brown fox)”之內的點。時間b對應至在字組 '’brown"被處理之點。在時間a時，一組作用封套在74處被展示，對應至那些在這點上已部份地被分析之最有可能匹配的語調。在稍後時間b，作用封套向外傳輸，如在76之展示。作用節點封套在74及在76代表在時間（時間a與時間b)上兩不同的點之作用節點。對於接著之連續的疊代，演算法根據這些作用節點而操作，使用目前作用節點以定義進入到詞彙樹之入口點。經濟部智慧財產局員工消費合作社印製如這範例之展示，接著之作用節點展開或者傳輸，如同一個石頭在根節點上被丟進入一坑水中，將如波前般地傳輸，導致波形隨著時間的推移而往外地傳輸。在一單一字組辨識器中，接著作用節點波前將，實際上，以這樣的波浪般方式向外傳輸。那是因爲各分別的節點僅需要被使用一次，但是，在更普遍的情況中’例如在連續的語音辨識器中，節點可以再次被探視並且因此接著作用節點波前 16 本紙張尺度適用中國國家標準（CNS ) A4規格（210X 297公釐） 533403 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明説明（14 ) 將不必要總是從根節點傳輸出去。爲了解爲何如此’需了解在一連續的語音辨識器中，說話者可能不只一次地使用一字組。因此語調"快速褐色快速褐色狼（the quick brown quick brown fox)”將導致接著作用節點波前隨時地朝向根節點傳輸。第5圖展示目前較佳搜尋演算法之動態反應。明確地說，第5圖展示在不同的時間之詞彙樹的子集：時間=〇、時間=1 ...時間=4。在訊框-爲主的辨識器中，這些不同的時間將對應至連續的訊框。演算法在時間=〇於根節點開始，如作用入口點箭頭1 00之指示。在時間=0時，根節點是僅有之作用節點。演算法接著前進以辨認根節點之子節點並且在時間1時這些同時也成爲作用節點。演算法使用作用封套行程通道以一組接一組地探視作用節點。通道永遠在最深的節點開始，亦即，離根節點最遠的一組。在時間=1時，作用節點入口點被箭頭標幟1 00所指定。作用節點行程通道接著前進如箭頭1 02和1 04之指示。爲展示目的，機率計量範例將被使用，以展示分別的節點如何成爲有作用並且接著利用束搜尋處理而被消除。在時間=1時，假設根節點具有1 〇〇之機率計量（所有的計量展示於第5圖之中括弧中）。進一步地假設其他的兩組作用節點分別地具有60及80之機率計量。演算法採用在給予的時間訊框從最佳計量使用被定義爲最大偏移之波束量的一種束搜尋技術。爲這示範之目的，假設該束量是3 0。如果該節點之機率計量是較小於最高機率節點之機率計量爲多於 17本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） (請先閱讀背面之注意事項再填寫·

、τ 線 533403 A7 B7 五、發明説明（丨5 ) 經濟部智慧財產局員工消費合作社印製束量時，則束搜尋演算法指定一節點從進一步處理中被刪除。換言之，如果節點之機率計量是較小於最大計量減去 3 〇，則在依序的處理程序中那節點將被略過。在時間=0，最大機率計量是與根節點相關的計量，爲 100之機率。波束是1 00-30或者70。注意，具有計量60 之節點降落在波束之下並且因此是利用束搜尋演算法將被排除之對象，因此，在時間 =2時，僅兩組作用節點被呈現，被作用節點入口箭頭100指出之節點和根節點。因爲機率計量在各時間區間被重新計算，各作用節點之新的數値被計算。假設根節點具有1 60之機率計量並且其他的作用節點具有1 20之計量。同時也注意到，在時間=2時，作用節點行程通道在箭頭指示1 00處進入並且如箭頭102指示地前進。在時間=2 計算波束，演算法決定該波束是 1 60-3 0= 1 3 0。因爲具有120機率計量之節點下降在波束數値之下，因此其從進一步處理程序中被排除。因此僅根節點倖免於波束之排除。在時間=3時，根節點保持作用，並且其子節點因而同時也被引動。注意，在這情況中，在時間=2時被束搜尋排除之最上方子節點在時間t = 3時被重新引動’因爲其是作用根節點之子節點。同時也注意到，作用節點入口點1 00辨識最深的節點並且其餘作用節點箭頭1 〇2和1 04展示作用節點通道如何被連接或者被形成。在本範例中’假設根節點具有200之機率計量，則入口節點之機率計量是220並 18 本紙張尺度適用中國國家標準（CNS ) M規格（210x297公釐） (請先閲讀背面之注意事項再填寫·

、1T -線 533403 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明説明（16 ) 且其餘之節點機率計量是240，如在時間=3之展示。波束計算24 0-3 0 = 2 10接著其自進一步處理中在根節點上面被排除，因爲其之數値下降至波束數値之下。因此，在時間=4 時，根節點不再有作用。但是，與下方多數節點相關的子節點接著被引動。入口點1 〇〇移動至最深的節點，其發生在先前最深的節點之一組子節點上面。箭頭1 0 2、1 0 4和1 0 6 展示作用節點通道如何將被行經過。如先前之情況，入口點永遠在最深的節點上面並且行程前進以至於最深的節點首先被行經過並且行程通道結束在最深節點之母節點上面。注意到前述的範例，目前較佳演算法接著將參考第6 圖之流程圖及參考顯示於附錄1中之詳細假性碼列表而予以說明。參考第6圖，較佳演算法於步驟200中開始而檢查以決定是否目前作用節點列表之母節點必須進一步地考慮被移除或者憑藉著波束計量下面之一組計量而”被波束消除’’。接著，作用節點列表被行經過，如在202之指示。聲音匹配在步驟204被計算並且波束被更動。接著，在步驟206中，演算法從母節點至子節點進行一組動態規劃匹配，並且在步驟208中連接被更動以至於在時間t+ 1時接著之作用節點列表可被行經過。步驟接著返回至步驟200而重複。第6圖之流程圖的對應步驟被塞入作爲下面附錄1展示的假性碼中之標題列表。附錄II提供一組被使用以產生詞彙樹之演算法的假性碼列表。 19 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） " (請先閱讀背面之注意事項再填、 :寫

、1T 線 533403 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明説明（17 ) 在連續的語音辨識中，處理器必須花費時間在聲音匹配、搜尋演算法本身、及語言模式的計算上面。由於語言模式的最近應用產生不利結果，搜尋空間必須被唾棄。因此其不再可能儲存嵌入於詞彙樹中之假設。但是，如果字組內部本文相關的模式被使用，吾人僅需要一個靜態詞彙樹之實例。更進一步地，單一圖式語言模式（LM)可預先被分解。它們對於單一圖式或者雙圖式語言模式前瞻性是有用的。此外，詞彙樹中大量的節點將分享相同LM之前瞻性計量。附錄附錄I Foreach level: active_level { rho = active—level + 1 k_prev = scratch_node ael = entry point of rho (the list at time t) for(k = entry point of active—level; k != tree_end; k = k->next) 檢查是否母節點必須被波束消除： if( r_k < BeamO ) { r_k = partial score = - infinity if( k = entry point of active level) entry point of active—level = k->next /* do not increment k_prev */ 20 (請先閱讀背面之注意事項再填、 :寫

、1T 線本紙張尺度適用中國國家標準（CNS ) Α4規格（210X 297公釐） 533403 A7 B7 五、發明説明（18 ) 經濟部智慧財產局員工消費合作社印製跟隨作用節點列表： /* active node */ k_prev->next = k; k_prev = k;計算聲音匹配及更新該波束： /* acoustic match */ s_k = r_k + d_k /* self-activation */ r_k = partial score = s_k + l_k beam = max(beam, r_k) /* bequeathal */ 從母節點至子節點之動態規劃步驟 for all children of k: c { r_c = max { r_c = partial score, s_k + i_c } entry point of rho = min( entry point of rho, c ) B = max{ B, r_c }保持被連接之接著_作用_節點列表 21 本紙張尺度適用中國國家標準（CNS ) Α4規格（210X 297公釐） (讀先閱讀背面之注意事項再填寫_ 、?! 線· 533403 經濟部智慧財產局員工消費合作社印製 A7 B7五、發明説明（19 ) switch(c) { (c < ael): new_ael->next = c; new_ael = c; (c = ael): ael = ael->next; new_ael->next = c; new ael = c; (c > ael): next = ael->next new—ael_〉next = ael ael = next while( ael <= c) ael = ael->next new—ael = c}}} new_ael->next = ael;} BeamO = beam _ beam—width 附錄II 吾人產生具有下面的演算法之樹： leftC := { {all transcriptions} } bin := { {null} Λ {max—state} } 22 (請先閱讀背面之注意事項再填·

、1T 線本紙張尺度適用中國國家標準（CNS ) Α4規格（210X 297公釐） 533403 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明説明（20 ) do { more = 0; Foreach (root) in leftC { split root: foreach (subtran) in root { prepend transcription at bin[subtran.getNextState〇] if( bin not visited) insert bin into lateral list} collect bins: foreach bin in lateral list { insert into right column unless end of word more := 1} serialize root into vectree } while(more); swap left and right columns} 從上面所述，可知本發明提供一種非常精巧且效率高的資料結構和演算法以便在語音辨識系統中進行動態規劃匹配。該演算法和資料結構可被使用以在多種動態規劃與辨識應用中取代傳統的懷特比演算法。詞彙樹結構和作用 23 (請先閱讀背面之注意事項再填· 、?τ 線本紙張尺度適用中國國家標準（CNS ) Α4規格（210Χ297公釐） 533403 A7 B7 五、發明説明（21 ) 節點行程技術產生高度記億體效率之處理程序，該高度記憶體效率處理程序可大有用地被使用於有限記憶體及/或處理速率之辨識系統中。因此，本發明適用於可能不具有大記憶體和快速處理器的嵌入式系統、消耗性產品及其他的辨識應用。雖然本發明於其目前較佳實施例中已有說明，但應該了解，本發明可有各種修改而不脫離本發明申請專利範圍所定義之精神和範疇。 (請先閱讀背面之注意事項再填寫Θ百〇辦»|

、1T 經濟部智慧財產局員工消費合作社印製本紙張尺度適用中國國家標準（CNS ) Α4規格（210X297公釐） 533403 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明説明（22 ) 元件標號對照表 10,12,14,16 ……步驟 2〇……隱藏式馬克夫模式 22……自身迴路轉移機率 24……迴路至子系代之轉移機率 26……高斯混合密度資料 28……混合索引指示器 3 〇......詞彙樹 32……鏈路列表 5〇……資料元件 5 2……布爾旗標 54,56,5 8,60……資料元件 7 0......詞彙樹 72……時間線 74……作用節點 76……作用節點 1〇〇……作用入口點箭頭 102……箭頭 104……箭頭 200-208 ......步驟 (請先閱讀背面之注意事項再填寫·

、1T 線本紙張尺度適用中國國家標準（CNS ) Α4規格（210Χ297公釐）

Claims

P33403 Α8 Β8 C8 D8 經濟部智慧財產局員工消費合作社印製六、申請專利範圍 1. 一種動態規劃系統之改進，其包含：一組被製作於處理器可存取之電腦-可讀取的記憶p 中之樹資料結構，該樹資料結構具有拓樸邏輯地定義一組根節點及多數個母子系代之節點的多數個節點，該母子系代之節點包含一組拓樸邏輯地最遠離根節點的最深子系代節點；以及一組利用該處理器製作之行程演算法，該演算法丨衣據一組行程法則而行經該等節點，因而在一所給予系代的母節點被處理之前該所給予系代的節點先被處理，最深的子系代節點首先被處理，並且在各代節點之中的行程在相同的拓樸邏輯方向前進。 2 . 如申請專利範圍第1項之改進，其中該樹資料結構在該記憶體中被編碼作爲一*種平坦表不，其中各系代節點佔據連續的記憶體位置。 3 . 如申請專利範圍第1項之改進，其中該樹資料結構在該記憶體中被編碼而使得母-子系代節點經由連接列表被表示。 4 · 如申請專利範圍第1項之改進，其中該樹資料結構在該δ己憶體中被編碼作爲一'種平坦表不’其中各系代節點佔據連續的記憶體位置並且具有指標指示在相同母節點的子節點之間的拓樸邏輯界限。 5 . 如申請專利範圍第1項之改進，其進一步地包含一組用以指定該等節點之其中被選擇一組作爲作用節點之機構。 26 本紙張尺度適用中國國家標準（CNS ) Α4規格（210Χ297公釐） (請先閲讀背面之注意事項再填寫本頁) 、1Τ 線A--- ，1Γ II —r . 丨533403 A8 B8 C8 D8 夂、申請專利範圍 6 ·如申請專利範圍第5項之改進，其中用以指定該等節點之其中被選擇一組作爲作用節點之機構包含一組與該樹資料結構相關的作用封套資料結構。 I. 如申請專利範圍第1項之改進，進一步地包含一組用以指定該等節點之其中被選擇一組作爲作用節點之機構並且其中該行程演算法包含一組行程法則因此僅作用節點被處理。 8 · 如申請專利範圍第1項之改進，其中該樹資料結構疋:一組代表詞彙之詞彙樹。 9. 如申請專利範圍第1項之改進，其中該樹資料結構是一組代表語音辨識器詞彙之詞彙樹。 10. —種動態規劃系統之改進，其包含：一組被製作於處理器可存取之電腦-可讀取的記憶體中之樹資料結構，該樹資料結構具有多數個節點；一組用以指定該等節點之其中被選擇一組作爲作用節點之機構：以及一組利用該處理器製作之行程演算法，該演算法依據一組行程法則而行經該等節點因而僅該等作用節點被行經過。 II. 如申請專利範圍第1 0項之改進，其中該用以指定該等節點之其中被選擇一組作爲作用節點之機構包含一組與該樹資料結構相關的作用封套資料結構。 1 2 .如申請專利範圍第1 0項之改進，其中該行程演算法包含一組動態規劃處理程序’其指定一'組可能性計量至 27 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） (請先閱讀背面之注意事項再填寫本頁) 訂經濟部智慧財產局員工消費合作社印製線·丨1---Γ. 533403 A8 B8 C8 D8 經濟部智慧財產局員工消費合作社印製 ^、申請專利範圍被行經過之節點。 13·如申請專利範圍第12項之改進，其中用以指定該等節點之被選擇的一組之該機構使用該可能性計量以指定該等作用節點。 1 4·如申請專利範圍第丨〇項之改進，其中該行程演算法包含一組動態規劃處理程序，其指定一組可能性計量至被行經過之節點並且其中如果他們的可能性計量是在一預定臨限値之上的話，則節點被指定而作爲作用節點。 15.如申請專利範圍第14項之改進，其中該預定臨限値依據最高的可能性計量而被計算。 1 6.如申請專利範圍第〗〇項之改進，其中用以指定該等節點之其中被選擇一組作爲作用節點之機構定義一組作用封套並且使用一組法則利用移除具有在預定臨限値下面之可能計量的節點以傳輸該作用封套。 1 7·如申請專利範圍第1 〇項之改進，其中用以指定該等節點之其中被選擇一組作爲作用節點之機構定義一組作用封套並且使用一組法則利用塞入具有在預定臨限値上面之可能計量的節點以傳輸該作用封套。 1 8.如申請專利範圍第1 7項之改進，其中用以塞入節點之該組法則確保在該作用封套中之節點利用他們的拓樸邏輯索引而被分類。 19.如申請專利範圍第1項之改進，其中該處理器採用一組快取記憶體並且其中該樹資料結構在該記億體中被編碼以至於該樹行程前進而進入該快取記憶體。 28 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） i^i i^i ϋ n ·1> I n Jw— n ϋ I n I n I n n n 1^1 In 一 I n ϋ I I— an n I I n n (請先閱讀背面之注意事項再填寫本頁) 533403 A8 B8 C8 D8 六、申請專利範圍 2 0.如申請專利範圍第1 0項之改進，其中該處理器採用一組快取記憶體並且其中該樹資料結構在該記憶體中被編碼以至於該樹行程前進而進入該快取記憶體。 (請先聞讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐）