TW533403B - Recognition system using lexical trees - Google Patents
Recognition system using lexical trees Download PDFInfo
- Publication number
- TW533403B TW533403B TW090118668A TW90118668A TW533403B TW 533403 B TW533403 B TW 533403B TW 090118668 A TW090118668 A TW 090118668A TW 90118668 A TW90118668 A TW 90118668A TW 533403 B TW533403 B TW 533403B
- Authority
- TW
- Taiwan
- Prior art keywords
- nodes
- node
- improvement
- scope
- patent application
- Prior art date
Links
- 238000005259 measurement Methods 0.000 claims description 34
- 230000002079 cooperative effect Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 9
- 230000009471 action Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010845 search algorithm Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
- Adornments (AREA)
Description
5334〇3 Α7 Β7 i'發明説明(1 ) 經濟部智慧財產局員工消費合作社印製 本發明之背景及槪要 本發明一般係關於語音辨識系統。尤其是,本發明是 關於在被隔離字組及連續的語音辨識應用中之動態規劃樣 型序列辨識技術。 動態規劃技術今日一般被使用於被隔離的和連續的語 音辨識兩者之時間-變形問題以及在連續語音(連接字組)辨 識中最佳字組序列尋找問題上面。ί種可被使用於隱藏式 馬克夫模式(ΗΜΜ)本文中之習知的動態規劃辨識型式是懷 特比(Viterbi)演算法。除了 ΗΜΜ之外,動態規劃技術同時 也可被使用至多種其他型式的語音模式,例如神經網路模 式。 傳統的懷特比演算法是一種歸納性的演算法,其中在 各瞬間(各訊框)時,演算法對η組狀態之各組儲存最佳可能 的狀態序列作爲所需的觀察序列〇之一組中間狀態。以此 方式,演算法最後揭示η組狀態的各組之最佳通道作爲所 需的觀察序列的最後狀態。由此,演算法選擇具有最高機 率的一組。傳統的懷特比演算法一個訊框接一個訊框地繼 續進行尋求在說話語調和先前訓練模式之間發現最佳的匹 配。 採取隱藏式馬克夫模式辨識器的情況作爲範例,利用 模式(ΗΜΜ)產生的被觀察序列之機率(測試說話者之語調) 是經由所有可能觀察序列之各可能通道之機率總和。各通 道機率被計算並且最有可能之一組被辨識。懷特比演算法 計算最有可能之通道並且記憶經過該處之所有狀態。 4 (請先閱讀背面之注意事項再填寫本頁) -、1Τ 線 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) 533403 A7 B7 五、發明説明(2 ) 經濟部智慧財產局員工消費合作社印製 傳統的懷特比演算法需大量計算。其持有大量的鏈路 列表或混合表格以保持所有作用之假設或者代符的列表。 從這些列表或表格之貯存和諮詢項目的簿記操作中,可知 有大量的計算能量被消耗。 因爲傳統的懷特比演算法需大量的計算,其可明顯地 減緩語音辨識器之表面速率。這在需要及時反應時間之及 時反應系統中是特別的問題。目前解決辦法是單純地使用 更有功效的處理器一一一種昂貴的解決辦法,這昂貴的解決 辦法在像細胞式電話及住家娛樂設備之一些嵌入式系統及 小型消耗性產品中可能是不需要的。 本發明試圖改進傳統的懷特比演算法並且因此使得在 處理能力受限制的應用中更有用。在吾人之試驗中,展示 我們的新技術以至少三倍因素改進辨識速率。本發明採用 具有大幅地改進性能之相關尋找演算法之獨特的詞彙樹結 構。雖然本系統適於嵌入式應用性及消耗性產品,其同時 也可被部置在大型的高速系統上面而甚至於有更大之性能 改進。本演算法可被使用於被隔離字組辨識,或者作爲連 續語音辨識之第一回合迅速匹配。其同時也可被擴展至交 叉字組模式。 爲更完全的了解本發明,其目的和優點,請參考下面 的說明和附圖。 圖形槪要說明 第1圖是一種語音辨識器之方塊圖,其展示依據本發 明被構成之解碼器可以如何被使用以製作一組模式爲主的 5 (請先閲讀背面之注意事項再填寫本頁)
、1T 線- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) 3403 A7 B7 i、發明説明(3 ) 辨識器; 第2圖展示本發明所採用之詞彙樹的目前較佳資料結 構; 第3圖是被使用以代表詞彙樹各節點之資料結構圖; 第4a圖是一種時間線圖,其展示在連續的語音應用中 採用本發明之一解碼器所達成的基本工作; 第4b圖是一種樹狀圖,其展示作用封套如何被行經過; 第5圖是有助於了解演算法動態行爲的一系列樹圖; 第6圖是一種演算法流程圖。 較佳實施例之說明 背景 經濟部智慧財產局員工消費合作社印製 第1圖展示一種範例語音辨識系統。該系統以兩種相 位操作:一種是訓練相位,在該相位時,系統學習代表構 成應用詞彙之不同語音(例如片語,字組,音素)的參考樣 型;以及一種辨識相位,在該相位時,利用考慮參考樣型 而辨識一組未知輸入樣型。在訓練相位時,各參考樣型從 所說出之範例學習,並且以利用某些平均方法所得到的樣 板形式(在樣板匹配系統中)或者由一些具特徵於統計樣型 性質(如在統計學系統中)之模式而被儲存。一種最大眾化的 統計學系統利用具有隱藏式馬克夫模式(HMM)之統計學模 式方法。 如第1圖之說明,範例語音辨識器以三個步驟執行辨 識處理。如在步驟1 〇之描述。語音分析和特點抽取首先於 輸入語音上面被執行。這步驟主要在抽取由信號分析所得 6 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 533403
i、發明説明(4 ) 經濟部智慧財產局員工消費合作社印製 到之一組參數。接著在步驟1 2,包含樣型分類。在這步驟 中,傳統的懷特比演算法將被執行。在這步驟時,在輸入 語音及各參考樣型之間的一組類似量度被計算出。該g序 定義在特徵向量之間相似度之一組局部量度並且進一步地 包含用以對齊兩組語音樣型之方法,該兩組語音樣型在言兌 話之持續及速率上可能不同。樣型分類步驟使用包含在訓 練相位時被產生之資訊的一種樣板或者模式字典1 4。最後 步驟是決定步驟1 6。在這步驟時,未知樣型被指定爲’’最接 近”參考樣型之標記。典型地,這決定是依據考慮相似量測 結果之準則。 因爲現今普遍地使用之許多辨識器採用隱藏式馬克夫 模式作爲語音模式,一種簡單的隱藏式馬克夫模式圖解展 不於第1圖之20中。但是,將明白’本發明之原理不受限 制於採用隱藏式馬克夫模式之辨識器。一種三狀態之隱藏 式馬克夫模式展示於第1圖中,其具有指定狀態S 1、S2和 S3。當然,一種有效的製作可能採用不同的狀態數目,並 且在此被選擇的狀態數目僅是用於展示目的。雖然本發明 不受限制於LR(左方-至-右方)HMM ’但具有這類模式之演 算法提供最佳結果。因此第1圖展示之HMM是一種LR HMM,其中狀態轉移僅從左方進行至右方,而無跳躍狀態。 隱藏式馬克夫模式包含一種機率收集’ 一些與狀態本 身相關且另外的與從一狀態至另一狀態或者至其本身之達 成的轉移相關。第1圖中,狀態轉移以箭頭展示。注意’ 一些箭頭示出從一狀態至不同狀態之轉移,而另外的箭頭 7 (讀先閲讀背面之注意事項再填寫^頁) 批»| 訂 本紙張尺度適用中國國家標準(CNS ) A4規格(21〇Χ297公釐) 533403 A7 B7 五、發明説明(5 ) 示出從一狀態至其本身之轉移。 利用語音模式表示之各片語’字組或者音素將具有其 自己的模式’包含與各轉移相關的及與各狀態相關的機率 値。因此各自身迴路具有一組相關的轉移機率,在2 2示出; 各迴路至另一狀態具有其相關的轉移機率24。此外,同樣 地,各狀態具有與其相關的機率資訊。 因爲與各狀態相關的機率値可能比一組單一値可代表 者更複雜’就高斯分配方面而言,某些系統可能代表與各 狀態相關的機率。有時,多重分配之混合以一種調和方式 被使用以包含局斯混合密度資料。這樣的資料在2 6所示處 圖形地被展示並且被混合索引指示器2 8所參考。因此與各 狀態相關者是一組混合索引指示器,其亦辨識狀態之高斯 混合密度資訊。當然,其擁有重複性,第1圖展示之語音 辨識器及隱藏式馬克夫模式結構僅是作爲本發明可以使用 之一種型式辨識器的範例。一般而言,本發明可配合以樣 型分類進行動態規劃之任何系統被使用。如先前所提的, 利用LR HMM可得到最佳的HMM結果。因此本發明可被 採用,例如,取代傳統的懷特比演算法。 關於語音辨識系統和隱藏式馬克夫模式之基本結構的 更多資訊,參看 Junqua,Jean-Claude 和 Haton,Jean-Paul 之“自動語音辨識之強建性”,基礎及應用,1 996年由Kiuwer Academic 發行。 較佳資料結構 本發明可以被使用以大大地改進在步驟1 2進行之樣型 8 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫七頁) ΐ>τ 、1Τ 經濟部智慧財產局員工消費合作社印製 533403 A7 B7 五、發明説明(6 ) (請先閱讀背面之注意事項再填、 分類方式。本發明採用代表樣板或者模式字典1 4之一種唯 一的資料結構,配合行經資料結構以發現最佳匹配假設之 唯一的演算法。該較佳資料結構將於這部份中被說明;較 佳演算法將於下一部份被說明。較佳資料結構表示樣板或 者模式字典1 4作爲一種已被簡化爲鏈路列表之詞彙樹。第 2圖展示這拓樸邏輯。第2圖,更明確地說,展示儲存由文 字形成之分別字組的詞彙樹3 0之一種範例。稍後說明之下 面的演算法,以時間-同步方式行經這詞彙樹並且應用動態 規劃方程式在各作用節點上面。演算法因此從節點至節點 地行經詞彙樹’測試在各節點之文字是否匹配於特點抽取 步驟1 〇中被辨識之文字(第1圖)。 線 經濟部智慧財產局員工消費合作社印製 就第2圖展現之詞彙樹範例而言,應該了解所展示之 範例’其使用拼成那些字組之文字所形成之字組,其在此 僅被選擇爲教導目的。在語音辨識系統中,在步驟i 〇之語 音分析時所抽取之特點可能爲特點或者他們對應的聲音單 元’例如音素、音節或者類似者。換言之,本發明不受限 制於僅應用於其中分別的文字在各節點被測試以辨認由那 些文字拼成之字組。反之,任何適當的單元可以被使用於 各節點上面。在一種連續的語音辨識器中,例如,系統可 能在各節點表示整個字組,且詞彙樹包含指示至由那些字 組形成的全部片語或者句子之指示器。 參看第2圖,應注意到,詞彙樹3 〇被表示爲一種簡化 鏈路列表3 2,其包含一些特定特點以辨認,不僅是列表拓 樸邏輯’同時也辨認列表會行經過以反映對應樹之行程的 9 本紙張尺度適用中國國家標準(CNS ) A4規格(21GX297公麓) -— - 533403 A7 B7 五、發明説明(7 ) 經濟部智慧財產局員工消費合作社印製 路徑。更明確地說,列表被構成以至於在樹內之相同世系 位準的所有節點被表示爲列表上面連續的項目。因此鏈路 列表開始於第一結構或者節點以代表樹之根節點。在根節 點結構之下是緊接著之子節點之結構,在這範例中對應至 樹之節點k和h。繼續進行於鏈路列表中,這範例中接著之 兩組節點代表第二層疊子節點,其被稱爲節點aa及樹aa。 接著三組節點代表第三層疊孫節點,節點r、r和I。最後, 最後四組節點代表樹的最後層疊,其被稱爲節點d、d、t 和t 〇 在鏈路列表之內的節點儲存多於剛好對應至樹之各節 點的文字或者聲音單元。各節點同時也包含至下一節點之 至少一組傳送指示器,如果其有行經過該樹的話,該節點 將被行經過。因此第一子節點k包含至孫節點aa之一組指 示器,以展示在最後拼出對應至字組CARD之聲音單元中, 如何從節點k至節點aa而行經該樹。各節點結構同時也包 含一組旗標,表示於第2圖中如在下方右角落中的小盒子。 這旗標被設定以辨認該節點是否代表其母節點之最後的子 節點。當其以簡化鏈路列表型式而被表示時,這資訊被使 用以進一步地說明該樹之拓樸邏輯。 鏈路列表之實際的表示如第3圖展示之資料結構型 式。第3圖之結構展示簡化鏈路列表節點如何針對使用隱 藏式馬克夫模式之辨識器而可能被組態。同樣地,節點可 以容易地被組態以儲存其他的參數型式。因此,應該了解, 第3圖之展示並非用以限制本發明之範疇。該結構可被使 10 (請先閲讀背面之注意事項再填* ^1 :寫 、11 線 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 533403 A7 B7 五、發明説明(8 ) 用以儲存對應至除了隱藏式馬克夫模式辨識器之外其他辨 識器之參數及/或樣板資訊。 參看至第3圖,各節點儲存下面之樹拓樸邏輯結構。 其包含儲存從該節點至下一個子節點之指示器的一組資料 元件50。這些指示器對應至第2圖所展示者並且當行經樹 時其被使用。節點資料結構同時也包含一組布爾旗標52, 其被設定或者不被設定以指示是否該節點是其母節點之最 後的子節點。這資訊在第2圖中以未被充塡(不真)或者被充 塡(爲真)之小方格形式圖解地被展示。 因爲所展示之範例被設計以代表隱藏式馬克夫模式, 節點資料結構包含資料元件54,其包含與自身的迴路相關 的轉移機率及迴路至與該節點相關的子節點之轉移機率。 在一般的辨識器中,這些將是對應至第1圖之22與24展 示之機率的浮動點數値。節點資料結構同時也包含一組資 料元件5 6,於其中一組索引或者指示器被儲存以辨認該節 點的對應局斯混合幣度。第1圖之2 8展示混合索引指示 器。接著’其指出代表高斯混合密度26或者其他被辨識器 使用以代表一所給予的節點將發出至一給予的聲音單元之 機率的其他機率値之一組資料集合。 在節點資料結構中之其餘的資料元件被演算法使用, 該演算法決定哪個行程代表最佳的通道或者最佳的匹配。 當演算法進行其分析處理時,資料元件5 8儲存與節點相關 之累積機率計量。資料元件60儲存一組指示器至樹內的另 一節點’其爲習知之下一作用節點。演算法使用下一作用 11 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) '~ (請先閱讀背面之注意事項再填寫AI) 訂 線_ 經濟部智慧財產局員工消費合作社印製 533403 A7 ίτ_I_ 經濟部智慧財產局員工消費合作社印製 B7 —--— -----—— 發明説明(9 ) (請先閱讀背面之注意事項再填- 節點以決定其將如何繼續行經過該樹,演算法之細節及這 些資料元件如何進入運轉,接著將被說明。 演算法 如上所述,較佳演算法以一種時間-同步方式而行經資 料結構。亦即,當特點抽取處理程序(第1圖之步驟1 0)進 行時,演算法以與被產生之觀察資料同步而行經節點。在 一般的辨識器中,輸入語音在時間上被分割或者被細分成 爲訊框。較佳演算法因此與這些訊框同步地操作。 訂 線 從節點至節點之行程被樹拓樸邏輯結構所指定並且同 時也被稱爲作用節點封套之第二結構所指定。作用節點是 那些目前代表最有可能匹配假設的節點。作用節點封套是 這些目前作用節點之鏈路列表。作用節點封套代表一組動 態結構。當演算法進行時,節點將參加或者脫離作用節點 列表。如果他們的機率計量是在一束搜尋臨限値之上,則 節點被添加至作用列表,並且如果他們的計量降落在臨限 値之下時,則之前的作用節點從作用列表上面被排除。爲 計算作用節點之機率計量,演算法應用下面的動態規劃方 程式至各作用節點: sk(t) = max{s“t-l) + av、k}+dk(t) 其中sk(t)是在時間t之計量,並且p是節點之母節點。 爲了解演算法如何行經詞彙樹,一些定義應該被形 成。參考詞彙樹,我們定義節點深度爲節點左方上面之狀 態數目。參看第4a圖。數目愈大,則節點愈深。吾人定義 詞彙樹之一行爲相同深度之一組節點。對於各行,我們定 12 本紙張尺度適用中國國家標準(CNS ) Α4規格(21〇><297公釐) 333403
經濟部智慧財產局員工消費合作社印製 五、發明説明(l〇 ) 義節點上之任意的順序關係。作用封套或者作用節點列表 是具有作用性之順序關係的節點列表,以至於,如果節點η 是具有母節點η *之節點,並且節點k是具有母節點k *之節 點,則k * <n *意味著k<n。因爲在詞彙樹中所給予深度的所 有節點可以幾乎是任何的順序而被處理,我們選擇使記憶 體快取性能最大化之行徑序列。換言之,當處理器從記憶 體負載一所給予的位址時,其板上快取機構將同時也負載 一連續的位址區塊,該連續位址即時地跟隨在從記憶體被 負載的位址之後。隨後,如果任何那些依序的位址需要被 存取,則處理器將從該快取存取它們,而非從記憶體存取 它們,因而消減相關的記憶體存取時間。本發明行經詞彙 樹而且利用這快取特點。詞彙樹被編碼以至於演算法將採 用被儲存在快取中資訊之方向而行經該樹。 爲進一步地展示,將第2圖節點在記憶體連續的陣列 中被排序。較佳實施例將因此以記憶體增加之順序方式而 行經節點。較佳行程通道被展示於第4b圖中。行程在最大 深度之作用節點開始並且接著在給予之行內以增加的順序 方式而前進。一旦在行之內的所有作用節點已行經過,則 通道前進至先前的行。 目前之較佳演算法經由下面的步驟而進行: 1. 從詞彙樹中最深的作用列表開始。 2 . 令B爲子節點行之作用列表中最小的排列節點。 3 . 以增加順序方式行經作用列表。 4. 對於目前節點k之各子節點c, 13 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫il頁) 批»| 訂 線- 533403 A7 B7五、發明説明(11 ) 經濟部智慧財產局員工消費合作社印製 5. 如果B<c,則增加B直至條件爲假爲止。 6. 如果B = c,則應用動態規劃方程式。 7. 如果B>c,則在η之前鏈接c。 8. 減少深度並且處理母節點行。 上面之演算法比較語音分析模組之順序輸出與在其詞 彙樹中之項目,在各節點決定哪個項目具有匹配輸入語音 語調之最高的機率。雖然可能全面地分析各樹節點,這蠻 力的方法是非常耗時並且無效率的。較佳演算法利用辨認 目前具有匹配輸入語調的最高機率之節點而動態地減低其 在各連續疊代的搜尋空間。演算法辨識這些節點作爲接著 之作用節點。其使用這些節點,而且僅這些節點,在其依 序的疊代中。 當演算法探視各節點時,其計算節點之機率計量。如 果我們定義迴路和進入的機率爲lk = akk且ik = ak*,k,則在時 間t+Ι時之計量sk(*)可被計算如下: s“t+l) = max{sk(t) + lk,sk*(t) + ik}+dk(t)。 注意’演算法使用t與t+ 1取代t與t-1以表示一組向 前遞迴而非向後遞迴。最後的目的是僅依據子節點記錄之 知識而計算一組計量(亦即,從k*而不是從k)以避免使用往 後的指示器(亦即,母節點之知識)。 演算法定義拓樸邏輯計量rk(t) = Sk(t)-dk⑴及局部的拓 樸邏輯計量rA(t) = sk(t) + I。注意,當k*不屬於作用列表時, 部份的拓樸邏輯計量等於拓樸邏輯計量。演算法利用進行 下面的操作而行經作用封套中之一組晶胞: 14 (請先閱讀背面之注意事項再填. :寫 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 533403 A7 B7 五、發明説明(12 ) 1 · 計算計量Skerk + dk(聲音匹配); (請先閲讀背面之注意事項再填寫* 2. 遺留:對於各子節點c,r。—max{sk + ie,re}。子節 點之計量欄被取得以保持部份的計量〆。 3 . 自我引動:rkerA(t) = rk + lk。計量欄接著保持部份的拓 樸邏輯計量。假如沒有計量繼承發生,則其同時也是t+ 1 之拓樸邏輯計量。 如上面步驟之指示,各晶胞k計算其在各訊框之拓樸 邏輯計量及聲音計量。人們稱這個性質爲自我-引動。各晶 胞引動其本身以及接著引動其所有的子節點。如果子節點 本身已被引動,則母節點晶胞之計量被遺留至其子節點。 如果演算法保留s k以及接著之可變化的作用節點,則遺留 和自我引動可被倒反。在這樣的情況中,來自節點之資料 在自我引動之後可從記憶體快取即時地被拋棄。注意,在 遺留處理時,節點直接存取其子節點。這確保作用封套被 構成,如上所述。 演算法動態行爲及作用節點封套傳輸 線 經濟部智慧財產局員工消費合作社印製 如上面所提及,作用節點封套是一種動態結構。當演 算法進行時,作用節點改變。當作用節點封套重疊被置放 在詞彙樹上面時,在演算法操作時,則作用節點封套將出 現以便傳輸。第4a圖圖解地展示這觀念。 第4a圖展示一組範例,其中字組,而非文字,被表示 在各節點上面。在先前範例中,一種分別的字組辨識器被 展示。各樹節點表示構成字典中之字組的文字或者聲音單 元。但是,本發明之技術可被使用於分別的字組與連續的 15 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 533403
五、發明説明(13 ) (請先閲讀背面之注意事項再填寫· 語音辨識器兩者中,因此第4a圖展示在連續的語音辨識器 中樹結構如何察看,其中分別的字組被表示在各節點並且 其輸出將是句子或者片語。細查第4a圖之樹70可發現, 例如,片語’’快速褐色狼(the quick brown fox)',將如何利用 適當的樹行程而被構成。 、?! 第4a圖展示作用節點封套將如何出現以便隨時間而傳 輸。時間線72展示範例樹之接著作用節點封套如何在最先 的時間a及在稍後時間b出現。時間a即時地在字組” the ” 被語音分析步驟1〇(第1圖)分析之後,對應至語調’’快速褐 色狼(the quick brown fox)”之內的點。時間b對應至在字組 '’brown"被處理之點。在時間a時,一組作用封套在74處被 展示,對應至那些在這點上已部份地被分析之最有可能匹 配的語調。在稍後時間b,作用封套向外傳輸,如在76之 展示。作用節點封套在74及在76代表在時間(時間a與時 間b)上兩不同的點之作用節點。對於接著之連續的疊代, 演算法根據這些作用節點而操作,使用目前作用節點以定 義進入到詞彙樹之入口點。 經濟部智慧財產局員工消費合作社印製 如這範例之展示,接著之作用節點展開或者傳輸,如 同一個石頭在根節點上被丟進入一坑水中,將如波前般地 傳輸,導致波形隨著時間的推移而往外地傳輸。在一單一 字組辨識器中,接著作用節點波前將,實際上,以這樣的 波浪般方式向外傳輸。那是因爲各分別的節點僅需要被使 用一次,但是,在更普遍的情況中’例如在連續的語音辨 識器中,節點可以再次被探視並且因此接著作用節點波前 16 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐) 533403 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(14 ) 將不必要總是從根節點傳輸出去。爲了解爲何如此’需了 解在一連續的語音辨識器中,說話者可能不只一次地使用 一字組。因此語調"快速褐色快速褐色狼(the quick brown quick brown fox)”將導致接著作用節點波前隨時地朝向根 節點傳輸。 第5圖展示目前較佳搜尋演算法之動態反應。明確地 說,第5圖展示在不同的時間之詞彙樹的子集:時間=〇、 時間=1 ...時間=4。在訊框-爲主的辨識器中,這些不同的時 間將對應至連續的訊框。演算法在時間=〇於根節點開始, 如作用入口點箭頭1 00之指示。在時間=0時,根節點是僅 有之作用節點。演算法接著前進以辨認根節點之子節點並 且在時間1時這些同時也成爲作用節點。演算法使用作用 封套行程通道以一組接一組地探視作用節點。通道永遠在 最深的節點開始,亦即,離根節點最遠的一組。 在時間=1時,作用節點入口點被箭頭標幟1 00所指 定。作用節點行程通道接著前進如箭頭1 02和1 04之指示。 爲展示目的,機率計量範例將被使用,以展示分別的節點 如何成爲有作用並且接著利用束搜尋處理而被消除。在時 間=1時,假設根節點具有1 〇〇之機率計量(所有的計量展示 於第5圖之中括弧中)。進一步地假設其他的兩組作用節點 分別地具有60及80之機率計量。演算法採用在給予的時 間訊框從最佳計量使用被定義爲最大偏移之波束量的一種 束搜尋技術。爲這示範之目的,假設該束量是3 0。如果該 節點之機率計量是較小於最高機率節點之機率計量爲多於 17本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閱讀背面之注意事項再填寫·
、τ 線 533403 A7 B7 五、發明説明(丨5 ) 經濟部智慧財產局員工消費合作社印製 束量時,則束搜尋演算法指定一節點從進一步處理中被刪 除。換言之,如果節點之機率計量是較小於最大計量減去 3 〇,則在依序的處理程序中那節點將被略過。 在時間=0,最大機率計量是與根節點相關的計量,爲 100之機率。波束是1 00-30或者70。注意,具有計量60 之節點降落在波束之下並且因此是利用束搜尋演算法將被 排除之對象,因此,在時間 =2時,僅兩組作用節點被呈 現,被作用節點入口箭頭100指出之節點和根節點。因爲 機率計量在各時間區間被重新計算,各作用節點之新的數 値被計算。假設根節點具有1 60之機率計量並且其他的作 用節點具有1 20之計量。同時也注意到,在時間=2時,作 用節點行程通道在箭頭指示1 00處進入並且如箭頭102指 示地前進。 在時間=2 計算波束,演算法決定該波束是 1 60-3 0= 1 3 0。因爲具有120機率計量之節點下降在波束數 値之下,因此其從進一步處理程序中被排除。因此僅根節 點倖免於波束之排除。 在時間=3時,根節點保持作用,並且其子節點因而同 時也被引動。注意,在這情況中,在時間=2時被束搜尋排 除之最上方子節點在時間t = 3時被重新引動’因爲其是作用 根節點之子節點。同時也注意到,作用節點入口點1 00辨 識最深的節點並且其餘作用節點箭頭1 〇2和1 04展示作用 節點通道如何被連接或者被形成。在本範例中’假設根節 點具有200之機率計量,則入口節點之機率計量是220並 18 本紙張尺度適用中國國家標準(CNS ) M規格(210x297公釐) (請先閲讀背面之注意事項再填寫·
、1T -線 533403 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(16 ) 且其餘之節點機率計量是240,如在時間=3之展示。波束 計算24 0-3 0 = 2 10接著其自進一步處理中在根節點上面被排 除,因爲其之數値下降至波束數値之下。因此,在時間=4 時,根節點不再有作用。但是,與下方多數節點相關的子 節點接著被引動。入口點1 〇〇移動至最深的節點,其發生 在先前最深的節點之一組子節點上面。箭頭1 0 2、1 0 4和1 0 6 展示作用節點通道如何將被行經過。如先前之情況,入口 點永遠在最深的節點上面並且行程前進以至於最深的節點 首先被行經過並且行程通道結束在最深節點之母節點上 面。 注意到前述的範例,目前較佳演算法接著將參考第6 圖之流程圖及參考顯示於附錄1中之詳細假性碼列表而予 以說明。參考第6圖,較佳演算法於步驟200中開始而檢 查以決定是否目前作用節點列表之母節點必須進一步地考 慮被移除或者憑藉著波束計量下面之一組計量而”被波束 消除’’。接著,作用節點列表被行經過,如在202之指示。 聲音匹配在步驟204被計算並且波束被更動。接著,在步 驟206中,演算法從母節點至子節點進行一組動態規劃匹 配,並且在步驟208中連接被更動以至於在時間t+ 1時接著 之作用節點列表可被行經過。步驟接著返回至步驟200而 重複。 第6圖之流程圖的對應步驟被塞入作爲下面附錄1展 示的假性碼中之標題列表。附錄II提供一組被使用以產生 詞彙樹之演算法的假性碼列表。 19 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) " (請先閱讀背面之注意事項再填、 :寫
、1T 線 533403 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(17 ) 在連續的語音辨識中,處理器必須花費時間在聲音匹 配、搜尋演算法本身、及語言模式的計算上面。由於語言 模式的最近應用產生不利結果,搜尋空間必須被唾棄。因 此其不再可能儲存嵌入於詞彙樹中之假設。但是,如果字 組內部本文相關的模式被使用,吾人僅需要一個靜態詞彙 樹之實例。更進一步地,單一圖式語言模式(LM)可預先被 分解。它們對於單一圖式或者雙圖式語言模式前瞻性是有 用的。此外,詞彙樹中大量的節點將分享相同LM之前瞻性 計量。 附錄 附錄I Foreach level: active_level { rho = active—level + 1 k_prev = scratch_node ael = entry point of rho (the list at time t) for(k = entry point of active—level; k != tree_end; k = k->next) 檢查是否母節點必須被波束消除: if( r_k < BeamO ) { r_k = partial score = - infinity if( k = entry point of active level) entry point of active—level = k->next /* do not increment k_prev */ 20 (請先閱讀背面之注意事項再填、 :寫
、1T 線 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) 533403 A7 B7 五、發明説明(18 ) 經濟部智慧財產局員工消費合作社印製 跟隨作用節點列表: /* active node */ k_prev->next = k; k_prev = k;計算聲音匹配及更新該波束: /* acoustic match */ s_k = r_k + d_k /* self-activation */ r_k = partial score = s_k + l_k beam = max(beam, r_k) /* bequeathal */ 從母節點至子節點之動態規劃步驟 for all children of k: c { r_c = max { r_c = partial score, s_k + i_c } entry point of rho = min( entry point of rho, c ) B = max{ B, r_c }保持被連接之接著_作用_節點列表 21 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) (讀先閱讀背面之注意事項再填寫_ 、?! 線· 533403 經濟部智慧財產局員工消費合作社印製 A7 B7五、發明説明(19 ) switch(c) { (c < ael): new_ael->next = c; new_ael = c; (c = ael): ael = ael->next; new_ael->next = c; new ael = c; (c > ael): next = ael->next new—ael_〉next = ael ael = next while( ael <= c) ael = ael->next new—ael = c}}} new_ael->next = ael;} BeamO = beam _ beam—width 附錄II 吾人產生具有下面的演算法之樹: leftC := { {all transcriptions} } bin := { {null} Λ {max—state} } 22 (請先閱讀背面之注意事項再填·
、1T 線 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X 297公釐) 533403 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(20 ) do { more = 0; Foreach (root) in leftC { split root: foreach (subtran) in root { prepend transcription at bin[subtran.getNextState〇] if( bin not visited) insert bin into lateral list} collect bins: foreach bin in lateral list { insert into right column unless end of word more := 1} serialize root into vectree } while(more); swap left and right columns} 從上面所述,可知本發明提供一種非常精巧且效率高 的資料結構和演算法以便在語音辨識系統中進行動態規劃 匹配。該演算法和資料結構可被使用以在多種動態規劃與 辨識應用中取代傳統的懷特比演算法。詞彙樹結構和作用 23 (請先閱讀背面之注意事項再填· 、?τ 線 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) 533403 A7 B7 五、發明説明(21 ) 節點行程技術產生高度記億體效率之處理程序,該高度記 憶體效率處理程序可大有用地被使用於有限記憶體及/或處 理速率之辨識系統中。因此,本發明適用於可能不具有大 記憶體和快速處理器的嵌入式系統、消耗性產品及其他的 辨識應用。 雖然本發明於其目前較佳實施例中已有說明,但應該 了解,本發明可有各種修改而不脫離本發明申請專利範圍 所定義之精神和範疇。 (請先閱讀背面之注意事項再填寫Θ百 〇 辦»|
、1T 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) 533403 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(22 ) 元件標號對照表 10,12,14,16 ……步驟 2〇……隱藏式馬克夫模式 22……自身迴路轉移機率 24……迴路至子系代之轉移機率 26……高斯混合密度資料 28……混合索引指示器 3 〇......詞彙樹 32……鏈路列表 5〇……資料元件 5 2……布爾旗標 54,56,5 8,60……資料元件 7 0......詞彙樹 72……時間線 74……作用節點 76……作用節點 1〇〇……作用入口點箭頭 102……箭頭 104……箭頭 200-208 ......步驟 (請先閱讀背面之注意事項再填寫·
、1T 線 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐)
Claims (1)
- P33403 Α8 Β8 C8 D8 經濟部智慧財產局員工消費合作社印製 六、申請專利範圍 1. 一種動態規劃系統之改進,其包含: 一組被製作於處理器可存取之電腦-可讀取的記憶p 中之樹資料結構,該樹資料結構具有拓樸邏輯地定義一組 根節點及多數個母子系代之節點的多數個節點,該母子系 代之節點包含一組拓樸邏輯地最遠離根節點的最深子系代 節點;以及 一組利用該處理器製作之行程演算法,該演算法丨衣據 一組行程法則而行經該等節點,因而在一所給予系代的母 節點被處理之前該所給予系代的節點先被處理,最深的子 系代節點首先被處理,並且在各代節點之中的行程在相同 的拓樸邏輯方向前進。 2 . 如申請專利範圍第1項之改進,其中該樹資料結構 在該記憶體中被編碼作爲一*種平坦表不,其中各系代節點 佔據連續的記憶體位置。 3 . 如申請專利範圍第1項之改進,其中該樹資料結構 在該記憶體中被編碼而使得母-子系代節點經由連接列表被 表示。 4 · 如申請專利範圍第1項之改進,其中該樹資料結構 在該δ己憶體中被編碼作爲一'種平坦表不’其中各系代節點 佔據連續的記憶體位置並且具有指標指示在相同母節點的 子節點之間的拓樸邏輯界限。 5 . 如申請專利範圍第1項之改進,其進一步地包含一 組用以指定該等節點之其中被選擇一組作爲作用節點之機 構。 26 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) (請先閲讀背面之注意事項再填寫本頁) 、1Τ 線A--- ,1Γ II —r . 丨533403 A8 B8 C8 D8 夂、申請專利範圍 6 ·如申請專利範圍第5項之改進,其中用以指定該等 節點之其中被選擇一組作爲作用節點之機構包含一組與該 樹資料結構相關的作用封套資料結構。 I. 如申請專利範圍第1項之改進,進一步地包含一組 用以指定該等節點之其中被選擇一組作爲作用節點之機構 並且其中該行程演算法包含一組行程法則因此僅作用節點 被處理。 8 · 如申請專利範圍第1項之改進,其中該樹資料結構 疋:一組代表詞彙之詞彙樹。 9. 如申請專利範圍第1項之改進,其中該樹資料結構 是一組代表語音辨識器詞彙之詞彙樹。 10. —種動態規劃系統之改進,其包含: 一組被製作於處理器可存取之電腦-可讀取的記憶體中 之樹資料結構,該樹資料結構具有多數個節點; 一組用以指定該等節點之其中被選擇一組作爲作用節點之 機構:以及 一組利用該處理器製作之行程演算法,該演算法依據 一組行程法則而行經該等節點因而僅該等作用節點被行經 過。 II. 如申請專利範圍第1 0項之改進,其中該用以指定 該等節點之其中被選擇一組作爲作用節點之機構包含一組 與該樹資料結構相關的作用封套資料結構。 1 2 .如申請專利範圍第1 0項之改進,其中該行程演算 法包含一組動態規劃處理程序’其指定一'組可能性計量至 27 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 線·丨1---Γ. 533403 A8 B8 C8 D8 經濟部智慧財產局員工消費合作社印製 ^、申請專利範圍 被行經過之節點。 13·如申請專利範圍第12項之改進,其中用以指定該 等節點之被選擇的一組之該機構使用該可能性計量以指定 該等作用節點。 1 4·如申請專利範圍第丨〇項之改進,其中該行程演算 法包含一組動態規劃處理程序,其指定一組可能性計量至 被行經過之節點並且其中如果他們的可能性計量是在一預 定臨限値之上的話,則節點被指定而作爲作用節點。 15.如申請專利範圍第14項之改進,其中該預定臨限 値依據最高的可能性計量而被計算。 1 6.如申請專利範圍第〗〇項之改進,其中用以指定該 等節點之其中被選擇一組作爲作用節點之機構定義一組作 用封套並且使用一組法則利用移除具有在預定臨限値下面 之可能計量的節點以傳輸該作用封套。 1 7·如申請專利範圍第1 〇項之改進,其中用以指定該 等節點之其中被選擇一組作爲作用節點之機構定義一組作 用封套並且使用一組法則利用塞入具有在預定臨限値上面 之可能計量的節點以傳輸該作用封套。 1 8.如申請專利範圍第1 7項之改進,其中用以塞入節 點之該組法則確保在該作用封套中之節點利用他們的拓樸 邏輯索引而被分類。 19.如申請專利範圍第1項之改進,其中該處理器採 用一組快取記憶體並且其中該樹資料結構在該記億體中被 編碼以至於該樹行程前進而進入該快取記憶體。 28 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) i^i i^i ϋ n ·1> I n Jw— n ϋ I n I n I n n n 1^1 In 一 I n ϋ I I— an n I I n n (請先閱讀背面之注意事項再填寫本頁) 533403 A8 B8 C8 D8 六、申請專利範圍 2 0.如申請專利範圍第1 0項之改進,其中該處理器採 用一組快取記憶體並且其中該樹資料結構在該記憶體中被 編碼以至於該樹行程前進而進入該快取記憶體。 (請先聞讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/628,828 US7035802B1 (en) | 2000-07-31 | 2000-07-31 | Recognition system using lexical trees |
Publications (1)
Publication Number | Publication Date |
---|---|
TW533403B true TW533403B (en) | 2003-05-21 |
Family
ID=24520472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW090118668A TW533403B (en) | 2000-07-31 | 2001-07-31 | Recognition system using lexical trees |
Country Status (8)
Country | Link |
---|---|
US (1) | US7035802B1 (zh) |
EP (1) | EP1178466B1 (zh) |
JP (1) | JP2002082689A (zh) |
CN (1) | CN1156820C (zh) |
AT (1) | ATE293275T1 (zh) |
DE (1) | DE60109999T2 (zh) |
ES (1) | ES2238394T3 (zh) |
TW (1) | TW533403B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7007035B2 (en) * | 2001-06-08 | 2006-02-28 | The Regents Of The University Of California | Parallel object-oriented decision tree system |
GB2384901B (en) | 2002-02-04 | 2004-04-21 | Zentian Ltd | Speech recognition circuit using parallel processors |
JP2004191705A (ja) * | 2002-12-12 | 2004-07-08 | Renesas Technology Corp | 音声認識装置 |
FR2857528B1 (fr) * | 2003-07-08 | 2006-01-06 | Telisma | Reconnaissance vocale pour les larges vocabulaires dynamiques |
US7593845B2 (en) * | 2003-10-06 | 2009-09-22 | Microsoflt Corporation | Method and apparatus for identifying semantic structures from text |
KR20050054706A (ko) * | 2003-12-05 | 2005-06-10 | 엘지전자 주식회사 | 음성인식을 위한 어휘 트리 구축 방법 |
GB0420464D0 (en) * | 2004-09-14 | 2004-10-20 | Zentian Ltd | A speech recognition circuit and method |
DE602005012596D1 (de) * | 2004-10-19 | 2009-03-19 | France Telecom | Spracherkennungsverfahren mit temporaler markereinfügung und entsprechendes system |
US7552106B2 (en) * | 2004-11-17 | 2009-06-23 | International Business Machines Corporation | Variable length file entry navigation |
KR100703697B1 (ko) * | 2005-02-02 | 2007-04-05 | 삼성전자주식회사 | 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치 |
KR100748720B1 (ko) * | 2006-02-09 | 2007-08-13 | 삼성전자주식회사 | 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 |
KR100717385B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 |
US9131117B2 (en) * | 2006-09-18 | 2015-09-08 | Telcordia Technologies, Inc. | Optimal content distribution in video-on-demand tree networks |
JP4427530B2 (ja) * | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
US10564944B2 (en) * | 2010-01-07 | 2020-02-18 | Microsoft Technology Licensing, Llc | Efficient immutable syntax representation with incremental change |
US9230548B2 (en) * | 2012-06-06 | 2016-01-05 | Cypress Semiconductor Corporation | Hybrid hashing scheme for active HMMS |
US9507877B2 (en) | 2014-12-01 | 2016-11-29 | Yandex Europe Ag | Method of and system for storing spatial objects |
RU2602970C2 (ru) * | 2014-12-01 | 2016-11-20 | Общество С Ограниченной Ответственностью "Яндекс" | Способ организации множества объектов, содержащихся в дереве квадрантов, в односвязный список и компьютер, используемый в нем |
US10540957B2 (en) | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
US10332509B2 (en) | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
US10481863B2 (en) * | 2016-07-06 | 2019-11-19 | Baidu Usa Llc | Systems and methods for improved user interface |
US11556775B2 (en) | 2017-10-24 | 2023-01-17 | Baidu Usa Llc | Systems and methods for trace norm regularization and faster inference for embedded models |
US10623557B2 (en) * | 2018-05-30 | 2020-04-14 | International Business Machines Corporation | Cognitive telephone fraud detection |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5884259A (en) * | 1997-02-12 | 1999-03-16 | International Business Machines Corporation | Method and apparatus for a time-synchronous tree-based search strategy |
US5983180A (en) | 1997-10-23 | 1999-11-09 | Softsound Limited | Recognition of sequential data using finite state sequence models organized in a tree structure |
GB9802836D0 (en) * | 1998-02-10 | 1998-04-08 | Canon Kk | Pattern matching method and apparatus |
US6374222B1 (en) * | 1998-08-12 | 2002-04-16 | Texas Instruments Incorporated | Method of memory management in speech recognition |
US6389416B1 (en) * | 1999-02-19 | 2002-05-14 | International Business Machines Corporation | Depth first method for generating itemsets |
US6574595B1 (en) * | 2000-07-11 | 2003-06-03 | Lucent Technologies Inc. | Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition |
-
2000
- 2000-07-31 US US09/628,828 patent/US7035802B1/en not_active Expired - Fee Related
-
2001
- 2001-07-31 TW TW090118668A patent/TW533403B/zh not_active IP Right Cessation
- 2001-07-31 AT AT01306565T patent/ATE293275T1/de not_active IP Right Cessation
- 2001-07-31 EP EP01306565A patent/EP1178466B1/en not_active Expired - Lifetime
- 2001-07-31 DE DE60109999T patent/DE60109999T2/de not_active Expired - Fee Related
- 2001-07-31 ES ES01306565T patent/ES2238394T3/es not_active Expired - Lifetime
- 2001-07-31 JP JP2001232574A patent/JP2002082689A/ja active Pending
- 2001-07-31 CN CNB011372982A patent/CN1156820C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
ES2238394T3 (es) | 2005-09-01 |
DE60109999D1 (de) | 2005-05-19 |
US7035802B1 (en) | 2006-04-25 |
ATE293275T1 (de) | 2005-04-15 |
CN1156820C (zh) | 2004-07-07 |
EP1178466B1 (en) | 2005-04-13 |
JP2002082689A (ja) | 2002-03-22 |
CN1349211A (zh) | 2002-05-15 |
DE60109999T2 (de) | 2005-09-01 |
EP1178466A2 (en) | 2002-02-06 |
EP1178466A3 (en) | 2003-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW533403B (en) | Recognition system using lexical trees | |
Bahl et al. | A tree-based statistical language model for natural language speech recognition | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
US7451125B2 (en) | System and method for compiling rules created by machine learning program | |
Liu et al. | Gram-CTC: Automatic unit selection and target decomposition for sequence labelling | |
Watts | Unsupervised learning for text-to-speech synthesis | |
CN107229610A (zh) | 一种情感数据的分析方法及装置 | |
US20030046078A1 (en) | Supervised automatic text generation based on word classes for language modeling | |
CN112257421A (zh) | 嵌套实体数据的识别方法、装置及电子设备 | |
US20060277045A1 (en) | System and method for word-sense disambiguation by recursive partitioning | |
US11132994B1 (en) | Multi-domain dialog state tracking | |
CN109271513B (zh) | 一种文本分类方法、计算机可读储存介质及*** | |
CN111309920A (zh) | 一种文本分类方法、终端设备及计算机可读存储介质 | |
Hori et al. | Statistical dialog management applied to WFST-based dialog systems | |
Ronanki et al. | Median-based generation of synthetic speech durations using a non-parametric approach | |
Quick | Learning production probabilities for musical grammars | |
JP4981579B2 (ja) | 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 | |
CN114036956A (zh) | 一种旅游知识语义分析方法及装置 | |
Clark et al. | Perceptron training for a wide-coverage lexicalized-grammar parser | |
KR100431190B1 (ko) | 주제 적응 품사 태깅 시스템 및 방법 | |
CN116227484B (zh) | 模型训练方法、装置、设备、存储介质和计算机程序产品 | |
Cohen | A survey of machine learning methods for predicting prosody in radio speech | |
Sharan et al. | ASR for Speech based Search in Hindi using Attention based Model | |
Rodrigues et al. | Domain adaptation of POS taggers without handcrafted features | |
WO2002029612A1 (en) | Method and system for generating and searching an optimal maximum likelihood decision tree for hidden markov model (hmm) based speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MM4A | Annulment or lapse of patent due to non-payment of fees |