TW201606750A - 使用外國字文法的語音辨識 - Google Patents

使用外國字文法的語音辨識 Download PDF

Info

Publication number
TW201606750A
TW201606750A TW104120528A TW104120528A TW201606750A TW 201606750 A TW201606750 A TW 201606750A TW 104120528 A TW104120528 A TW 104120528A TW 104120528 A TW104120528 A TW 104120528A TW 201606750 A TW201606750 A TW 201606750A
Authority
TW
Taiwan
Prior art keywords
foreign
word
grammar
foreign word
words
Prior art date
Application number
TW104120528A
Other languages
English (en)
Inventor
黃美裕
張華
Original Assignee
微軟技術授權有限責任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 微軟技術授權有限責任公司 filed Critical 微軟技術授權有限責任公司
Publication of TW201606750A publication Critical patent/TW201606750A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

系統與方法係用於辨識部分外國語言的語音。系統與方法接收來自使用者的語音輸入,並偵測是否已說出利用外國字的規則或句子條目文法結構。為了辨識外國字,利用外國字文法。外國字文法包括用於辨識說出的外國字的規則。二個規則可包括在外國字文法中,以用於包括在外國字文法中的每一正統或俚語詞。第一規則對應於外國字的口語形式,而第二規則對應於外國字的拼寫形式。外國字文法亦可利用前綴樹。在辨識外國字之後,所辨識外國字可發送到應用程式,以檢索外國字的發音、翻譯、或定義。

Description

使用外國字文法的語音辨識 【相關申請案】
本申請案係主張2014年7月17日申請之國家階段申請案PCT/CN2014/082375參照其整體而併入本文。在適當情況下,以上述所揭示之申請案作為優先權。
本發明係關於使用外國字文法的語音辨識。
外國語言通常對任何該語言不流利的人而言很難理解。舉例而言,英語被認為是難學的語言,但英語經常被認為是有價值理解的語言。舉例而言,在中國,英語學習是許多人的目標,因為可提供更好的機會與工作。因此,英語與中文的雙語詞典越來越受歡迎。這些詞典可以是紙本或電子,而使用者可藉由鍵入字來查找字,或在詞典中由常見字母順序排序查找。取代於鍵入字或在紙本詞典中查找,可接收語音輸入的詞典將是有用的。然而,利用語音輸入在這些情況下有一個困難,係為使用者一般不知道如何發音的字,而使得語音辨識更有挑戰性。
實施例已作出對於這些與其他一般考慮。另外,儘管已討論相對具體的問題,但應理解,本實施例不應僅限於解決在先前技術中識別之具體問題。
技術係關於用於利用外國字文法的語音辨識的系統與方法。系統與方法係用於辨識部分外國語言的語音。舉例而言,在使用者說出包括外國字的特定句子之後,將句子辨識為句子條目文法結構。句子條目文法結構一般包括第一語言靜態文本(通常為使用者之母語)與外國字的佔位符,其中外國字係為第二語言而非使用者的母語。利用外國字文法,以辨識由使用者在佔位符說出的外國字。外國字文法包括對應於外國語言的正統或俚語詞的規則。二個規則可包括以用於外國字文法中的外國字之每一者。第一規則對應於外國字的口語形式,而第二規則對應於外國字的拼寫形式。因此,外國字可辨識使用者說還是拼寫外國字。
外國文法亦可利用機率與統計權重。機率與統計權重可依據外國語言中使用外國字的頻率。統計權重與機率亦可依據技術的使用者聚集結果。舉例而言,所辨識外國字的結果可記錄在聚集結果資料庫中,並可依據聚集結果資料庫中之字的頻率調整統計權重與機率。
外國字文法亦可利用前綴樹辨識說出外國字。在實施例中,前綴樹將機率結合到過渡弧(transition arc),而非前綴樹的節點。藉由將機率結合到過渡弧,可在解碼期間達成有效修剪或限制。可透過前綴樹中的節點的機率的分析將機率分散到過渡弧。
在辨識外國字之後,外國字可發送到應用程式。可依據所偵測的句子條目文法結構選擇應用程式。舉例而言,當使用者詢問「what does<word>mean?」時,在佔位符<word>說出的外國字的結果可發送到電子詞典應用程式,以檢索外國字的定義。在應用程式處理請求之後,將結果回傳給使用者。
本發明內容係提供以下面[實施方式]中進一步描述之簡化形式介紹概念之選擇。本發明內容並不意欲識別所主張之標的物之關鍵特徵或必要特徵,亦非意欲作為限制所主張之標的物之範圍之輔助。
100‧‧‧系統
101‧‧‧客戶端裝置
102‧‧‧語音辨識解碼器
104‧‧‧語音取得裝置
106‧‧‧聲學模型
108‧‧‧音位模型
110‧‧‧語言模型
112‧‧‧外國字文法
114‧‧‧應用程式
116‧‧‧特徵提取模組
118‧‧‧聚集結果資料庫
201‧‧‧句子條目文法結構或規則組
202‧‧‧起始節點
204‧‧‧規則
206‧‧‧規則
208‧‧‧規則
210‧‧‧規則
212‧‧‧節點
214‧‧‧節點
216‧‧‧節點
218‧‧‧節點
220‧‧‧節點
222‧‧‧節點
224‧‧‧節點
226‧‧‧節點
228‧‧‧節點
230‧‧‧節點
232‧‧‧節點
234‧‧‧節點
236‧‧‧節點
238‧‧‧節點
240‧‧‧節點
242‧‧‧節點
244‧‧‧節點
246‧‧‧節點
248‧‧‧節點
250‧‧‧節點
252‧‧‧節點
302‧‧‧起始節點
304‧‧‧第一文法結構或規則
306‧‧‧第二文法結構或規則
308‧‧‧第一文法結構或規則
310‧‧‧第二文法結構或規則
312‧‧‧第一文法結構或規則
314‧‧‧第二文法結構或規則
316‧‧‧終端節點
401‧‧‧前綴樹
402‧‧‧根節點
404‧‧‧第一文法結構或規則
406‧‧‧第二文法結構或規則
408‧‧‧規則
410‧‧‧規則
412‧‧‧規則
414‧‧‧規則
416‧‧‧終端節點
420‧‧‧節點
422‧‧‧節點
424‧‧‧節點
426‧‧‧節點
428‧‧‧節點
430‧‧‧節點
432‧‧‧節點
434‧‧‧節點
436‧‧‧節點
438‧‧‧節點
440‧‧‧節點
442‧‧‧節點
500‧‧‧方法
502‧‧‧操作
504‧‧‧操作
506‧‧‧操作
508‧‧‧操作
510‧‧‧操作
512‧‧‧操作
514‧‧‧操作
516‧‧‧操作
600‧‧‧方法
602‧‧‧操作
604‧‧‧操作
606‧‧‧操作
700‧‧‧計算裝置
702‧‧‧處理單元
704‧‧‧系統記憶體
705‧‧‧作業系統
706‧‧‧程式模組
708‧‧‧虛線
709‧‧‧可移除儲存裝置
710‧‧‧不可移除儲存裝置
711‧‧‧外國字偵測模組
712‧‧‧輸入裝置
713‧‧‧參照應用程式
714‧‧‧輸出裝置
716‧‧‧通訊連接
720‧‧‧軟體應用程式
750‧‧‧計算裝置
800‧‧‧行動計算裝置
802‧‧‧系統
805‧‧‧顯示
810‧‧‧輸入按鈕
815‧‧‧側輸入元件
820‧‧‧視覺指示器
825‧‧‧音訊轉換器
830‧‧‧板載照相機
835‧‧‧鍵板
860‧‧‧處理器
862‧‧‧記憶體
864‧‧‧作業系統
866‧‧‧應用程式
868‧‧‧非揮發性儲存區域
870‧‧‧電源
872‧‧‧無線電
874‧‧‧音訊介面
876‧‧‧視訊介面
902‧‧‧伺服器
904‧‧‧計算裝置
906‧‧‧平板電腦
908‧‧‧行動裝置
915‧‧‧網路
916‧‧‧商店
922‧‧‧目錄服務
924‧‧‧入口網站
926‧‧‧郵箱服務
928‧‧‧即時訊息儲存
930‧‧‧社交網站
1000‧‧‧平板計算裝置
非限制性及非窮盡實施例係參照以下隨附圖式描述。
第1圖圖示用於辨識語音的系統。
第2A圖圖示使用外國字文法的一組句子條目文法結構或規則。
第2B圖圖示對應於一些第2A圖圖示的規則的潛在文法結構的示例性實施例。
第3圖圖示用於辨識外國字的一組外國字文法規則。
第4A圖圖示一組示例性外國字文法規則。
第4B-E圖圖示外國字的拼寫形式的統計權重的示例性用法。
第5圖圖示用於準確辨識由使用者說出的外國字的方法。
第6圖圖示用於調整外國字文法的統計權重的方法。
第7圖係為圖示可實施本揭示之實施例的計算裝置的示例性物理部件的方塊圖。
第8A及8B圖係為可實施本揭示之實施例的行動計算裝置的簡化方塊圖。
第9圖係為可實施本揭示之實施例的分佈式計算系統的簡化方塊圖。
第10圖圖示用於執行本揭示的一或更多個實施例的平板計算裝置。
在下面的實施方式中,將參照於隨附圖式,以形成本文一部分,且隨附圖式係藉由圖示特定實施例或實例而展示。在不悖離本揭示之精神或範圍中,可組合這些態樣,可利用其他態樣,並可作出結構變化。因此,下面的實施例並未限制本發明,而本發明之適當範圍係由所附之專利申請範圍所定義。
本揭示一般關於辨識外國字為自動語音辨識的一部分。因為說話者經常由於使用不流利的語言而誤發音外國字,因此口語外國字之辨識往往很困難。因此,本案提供一種方法與系統,允許使用者透過口說每一字母而拼寫外國字。舉例而言,使用者可能在閱讀或一些形式的 媒體看到外國字,而因此知道每一字母,而使他們能夠正確拼寫字。
然而,口說字母之辨識在傳統上為困難的任務,以及過去的語音辨識程式具有非常低的準確率。尤其是英語,可以理解過去的這個低的準確率,因為即使是英語母語者都很難辨識英文字母的字母。更特定言之,所有具有結束於長「e」聲的字母,如集合{B、C、D、E、G、P、T、V},由於其類似的聲音而導致其他問題。在英語中,說英語者通常利用「音位字母」,以準確傳達他們打算說的字母。NATO音位字母係為音位字母的實例,字母「A」等同「alpha」,字母「B」等同「bravo」,字母「C」等同「Charlie」等。因此,本案揭示一種系統與方法,用於藉由利用規則式文法更準確地辨識口語外國字與外國字的拼寫形式,如在下面更詳細討論。
第1圖圖示用於辨識口語外國字的系統100。如第1圖所圖示,客戶端裝置101接收來自使用者的語音輸入。語音輸入可藉由語音取得裝置104取得。語音取得裝置104可以是硬體與軟體部件的組合,如麥克風與數位化軟體,以及其他已知語音取得裝置。在實施例中,特徵向量亦可藉由特徵提取模組116提取,而這些特徵向量係發送到語音辨識解碼器102。特徵向量可為代表語音輸入的數值特徵的n維向量組。該領域具有通常知識者已知用於提取特徵向量的多種可接受方法,包括梅俺頻率倒譜技 術、線性預測、及感知線性預測等。在這樣的實施例中,從由語音取得裝置104取得的語音輸入提取特徵向量。
語音辨識解碼器102決定匹配語音輸入及/或特徵向量的最可能字或字母序列。語音辨識解碼器102的決定係依據聲學模型106、音位模型108、及語言模型110。語言模型110係進一步依據外國字文法112,如規則式文法或無上下文文法。聲學模型106、音位模型108、及語言模型110之所有者操作以限制語音辨識的可能結果。這些限制可以是統計分析或機率的形式。舉例而言,聲學模型106與音位模型108係用於產生所取得說話的音位似然性或機率。為了拼寫字母,聲學模型106與音位模型108可用於指定用於所說字母的每一者的特定機率。該領域具有通常知識者將辨識與理解用於決定這些音位似然性的許多合適方法。
使用聲學模型106與音位模型108決定的音位似然性進一步藉由語言模型110限制。語言模型合併短語以指示使用者試圖說或拼寫期望定義、翻譯、或定義的外國字。語言模型中的這些短語與規則係進一步結合第3圖之描述詳細討論如下。指示使用者試圖說或拼寫外國字的短語導致外國字文法112用於進一步限制音位機率到特定字。外國字文法112包括依據外國語言的字的正統拼寫與發音的規則組。因此,藉由利用外國字文法112,字母串的音位機率可限制到合併在外國字文法112中的外國語言的正統字或俚語的字。舉例而言,限制機率可包括 消除或減少不存在於外國字文法112中的字母序列的機率。藉由限制字母串的音位機率當僅在外國字文法112中的字,外國字的語音辨識結果將限制為只有外國語言的正統或俚語詞。
外國字文法112亦可包括用於每一字的統計權重。舉例而言,外國語言中更可能發生的字可給定更高權重,如在下面進一步詳細討論。這些統計權重可依據聚集使用者輸入而更新。舉例而言,隨著許多使用者利用系統,一些外國字將比其他外國字更常被請求。依據聚集請求資訊的統計可用於決定與調整分配給外國字文法112中的每一字的統計權重。在實施例中,為了實現調整,外國字解碼結果係由聚集結果資料庫118接收。依據聚集結果資料庫118中的詞的頻率,可決定統計權重。舉例而言,在資料庫中第一字比第二字更常出現,第一字可給定更高權重。然後,所決定的統計權重可用於調整由外國字文法112使用的的統計權重。
然後,由語音辨識模型102決定的結果辨識字或字母序列可由應用程式114接收。應用程式114可以是應用程式,如電子詞典或翻譯器,以及其他類似應用程式。合適的電子詞典的一個實例係為可從Washington的Redmond的Microsoft Corporation取得的BING DICTIONARY電子詞典。應用程式114亦可以是智慧型個人助理的一部分,如來自Washington的Redmond的 Microsoft Corporation的CORTANA智慧型個人助理。
上述系統的功能可在單一裝置或跨多個裝置執行,如客戶端與伺服器。舉例而言,當使用多個裝置時,語音取得裝置104可以是客戶端裝置101,而特徵提取模組116亦可由客戶端裝置101執行。在這樣的實例中,語音辨識解碼器102可在伺服器或其他網路或雲式部件上操作。應用程式114亦可駐留在客戶端或伺服器中。藉由具有語音辨識解碼器102在伺服器上操作,更多資源可使用於解碼與辨識處理中。在其他實例中,取得語音輸入之外的所有功能可藉由伺服器或其他網路或雲式部件完成。或者,所有功能可藉由一個裝置執行,如客戶端裝置101。該領域具有通常知識者亦將辨識適合使用本文所述之方法與系統的自動語音辨識的其他硬體架構。
第2A圖圖示用於外國字使用文法112的句子條目文法結構或規則組201。圖示於第2A圖之規則204、206、208、及210說明外國字文法112係用於辨識至少一個說出的外國字或說出的外國字的拼寫。舉例而言,佔位符<word>代表外國字的口語形式或口語字的拼寫形式。作為一個實例,語音辨識解碼器102從起始節點202分析經處理的語音輸入,以決定是否已說出構成第2A圖所示的句子條目的字序列。舉例而言,當語音辨識解碼器102決定已說出規則204中的字串「How do you say<word>in Chinese?」時,外國字文法112用於 決定佔位符<word>。佔位符<word>的語音辨識係依據外國字文法112,其結合第3及4圖之敘述更詳細描述於下。其他規則可定義包括佔位符<word>的額外的短語或文法結構,以觸發使用外國字文法112,以解碼在佔位符<word>說出的外國字。舉例而言,如規則206所示之字串「What does<word>mean in Chinese?」、如規則208所示之字串「Look up<word>」、以及如規則210所示之字串「How do you pronounce<word>?」之所有者為潛在字串,以觸發使用外國字文法112,以解碼在佔位符<word>說出的字或拼寫。亦可使用許多其他規則,以傳達查找、定義、翻譯、或發音外國字的相同意圖。
儘管本文件係以英文撰寫,該領域具有通常知識者應理解,文法結構的字串中的非佔位符字(在本文中稱為文法結構或規則的靜態文本)係為一個語言(可能是使用者的母語),而在佔位符<word>說出的字係為第二語言或外國語言。舉例而言,在規則204中,形成「How do you say」與「in Chinese」的靜態文本都是中文語言,而在佔位符<word>說出的字將為另一語言,如英語。作為實例,對於中文為母語者而言,句子條目文法結構可以是「<word>中文什么意思」[翻譯:What does<word>mean in Chinese],其中在佔位符<word>說出的字或字的拼寫係為不同於中文的語言,如英語或西班牙語。作為另一實例,對於西班牙語為母語者而言,句 子文法條目結構可以是「Como se dice<word>en español?」[翻譯:「How do you say<word>in Spanish?」]其中在佔位符<word>說出的字或字的拼寫係為不同於西班牙語的語言,如英語。在實施例中,佔位符<word>的特定外國語言將明確地位於文法結構中。這樣的文法結構的一個實例係為「What does the English word<word>mean in Chinese?」。在其他實施例中,佔位符<word>的語言可從句子條目文法結構的上下文、使用者的先前使用、使用者裝置上的設定、或其他潛在指示符推斷。在一些實施例中,多個外國字文法可用於可能使用的每一外國語言。用於中文為母語者的規則的示例性設定係包括在下面的表1中。
統計權重亦可相關聯於句子條目文法結構的每一者。舉例而言,句子條目文法結構204可具有0.2的統計權重,如起始節點202與句子條目文法結構204之間的數值0.2所指示。其他統計權重亦可相關聯於利用外國字的文法的句子條目文法。因此,每一句子條目文法結構可藉由代表使用者可能說出的句型的分數而加權。
第2B圖圖示對應於圖示於第2A圖的規則204與206的潛在文法結構的示例性實施例。在語音辨識處理期間,語音辨識解碼器102遍歷文法結構,以決定進入的語音訊號是否對應於任何特定文法結構202、204、206、或210(第2A圖)。
如圖所示,對應於規則204的文法結構開始於節點212。規則204的文法結構具有起始節點212到節點214與靜態字「how」相關聯的過渡。從節點214到節點216,結構具有與靜態字「do」相關聯的第二字過渡。類似的字過渡發生於節點216與節點218之間與字「you」相關聯的過渡,以及節點218與220之間與靜態字「say」相關聯的過渡。從節點220到節點222,對應 於規則204的文法結構具有佔位符過渡,或者文法結構過渡,如由佔位符<word>指示。在偵測到由佔位符<word>指示的文法結構過渡之後,語音辨識解碼器102利用佔位符<word>的文法結構,以決定佔位符<word>在使用者說出的字或字母的位置。舉例而言,語音辨識解碼器102利用規則式外國字文法替換節點220與節點222之間的過渡,規則式外國字文法係結合第3及4圖之敘述討論於下,並代表<word>文法結構。然後,語音辨識解碼器決定取得的語音訊號是否可藉由對應於規則204的文法結構的一部分代表,對應於規則204的文法結構的一部分包括由<word>文法結構的所提供的過渡。
在節點220與節點222之間的佔位符過渡之後係為節點222與節點224與靜態字「in」相關聯的字過渡。與靜態字「Chinese」相關聯的最後字過渡係發生於節點224與終端節點226之間。在終端節點之後,可決定可發送在佔位符<word>的所辨識外國字的結果的應用程式。這樣的應用程式可以是應用程式114,並可依據由語音辨識解碼器102辨識的特定規則決定應用程式的類型。在示例性規則204中,應用程式可以是能夠提供外國字發音的電子詞典或翻譯器。
如第2B圖所示,若使用者說字「pronounce」,而非字「say」,則亦可能有從節點218到節點236與靜態字「pronounce」相關聯的單獨過渡,並可能發生在節點218與236之間。然後,佔位符 過渡發生在節點236與終端節點238之間。在辨識終端節點238之前的短語之後,相應於規則210,可依據終端節點238之前的短語而決定適合發音所辨識外國字的應用程式。
在節點228開始的另一文法結構與規則208相關聯。從節點228到節點230,結構具有與靜態字「look」相關聯的過渡。從節點230到節點232,結構具有與靜態字「up」相關聯的過渡。在節點232與終端節點234之間的結構中的最後過渡係為由佔位符<word>指示的佔位符過渡。依據終端節點234之前的短語,可決定用於查找字的應用程式。
對應於規則206的句子條目文法結構的另一實例展示於第2B圖,並在節點240開始。節點240到節點242,結構具有與靜態字「what」相關聯的過渡。與字「does」相關聯的另一靜態字過渡發生在節點242與節點244之間。佔位符過渡發生在節點244與246之間。在佔位符過渡之後,三個靜態過渡發生在分別與字「mean」、「in」、及「Chinese」相關聯的節點246、節點248、節點250、及終端節點252之間。應理解,類似的文法結構可用於第2A圖所示的額外規則,以及用於規則式文法的其他類似規則。
第3圖圖示用於辨識外國字的外國字文法112的規則組。外國字文法112的規則組包括用於每一外國字的二個規則。與外國字相關聯的第一規則可以是外國字的 完整發音或口語形式。第一規則對應於使用者試圖說或發音外國字的狀況。與外國字相關聯的第二規則可以是外國字的拼寫。第二規則對應於使用者口頭拼寫外國字的狀況。因此,具有可辨識文法中的任何外國字的二個文法平行路徑。
如第3圖所示,規則從起始節點302開始。在偵測到結合如第2A-B圖之敘述討論於上之佔位符過渡之後,可觸發起始節點302。從起始節點302存在二個平行路徑以用於包括在外國字文法112中的每一外國字。舉例而言,具有用於外國字#1的口語形式的第一文法結構或規則304以及用於外國字#1的拼寫形式的第二文法結構或規則306。存在類似規則對以用於外國字文法112的其他外國字。舉例而言,具有用於外國字#2的口頭形式的第一文法結構或規則308以及用於外國字#2的拼寫形式的第二文法結構或規則310。亦具有用於外國字#3的口語形式的第一文法結構或規則312以及用於外國字#3的拼寫形式的第二文法結構或規則314。在用於每一字的文法結構或規則之後係為結束或終端節點316。在終端節點316,語音辨識解碼器可返回到如結合第2A-B圖之敘述討論於上的各別句子文法結構,或輸出所辨識外國字的結果。
儘管外國字文法112中僅圖示三個外國字,任何數目的外國字可包括在外國字文法112中。舉例而言,外國語言中最常用的50000字可包括在外國字文法112 中。在這樣的實例中,將具有對應於50000字的外國字文法112的100000規則或文法結構。通常,這些字包括外國語言中的正統字,例如來自字典。在外國字文法中的字亦可包括外國語言所利用的俚語詞,即使俚語詞可能不會出現在正式詞典中。藉由僅包括外國字文法中的正統字與俚語詞,語音辨識結果將限制在只有那些正統字與俚語詞。因此,外國字文法的使用提供相較於先前n元式模型(如二元或三元)更高的精確度。然而,在一些實施例中,當為了結果而決定特定閥值信任等級時,結果將限制為只有文法中的詞。舉例而言,若結果準確性的信任等級特定為低時,則外國字文法112可利用用於解碼輸入語音的標準到n元式方法或其他類似方法取代。這樣的狀況可能發生在使用者說話或拼寫不具有包括在外國字文法112中的對應規則的罕見字。舉例而言,英語字「mesial」很少在說英語者之中使用,而可能不包括在外國字文法112中。若說話者說或拼寫字「mesial」,可利用字母n元以辨識字。字母n元可以與外國字文法112平行操作。
此外,在語音辨識解碼器112決定已說的第一與第二外國字的機率係為相同或在特定容忍度中時,語音辨識解碼器112可利用一組統計權重。統計權重可分配給外國字文法中之每一字。權重可依據多個變數,包括外國語言中使用外國字的頻率。外國語言中更常使用的字可相較於外國語言中不常用的外國字給定更高權重。舉例而言,字「during」在英語語言中比字「purring」更常 使用,但拼寫或發音聽起來有些相似。這些統計權重亦可依據聚集使用者輸入更新或調整。舉例而言,隨著許多使用者利用系統,一些外國字將比其他外國字更常被使用者請求。這些聚集統計可用於決定或調整外國字文法112中分配給每一字的統計權重。
第4A圖圖示外國字文法112中的示例性規則組。如第4A圖所示,結合第3圖之敘述討論於上的三個假設外國字已由說明性外國字「book」、「books」、及「pot」替換。儘管圖示為英語字,英語字對於不說英語的人為外國字。舉例而言,將在具有非英語靜態文本的句子文法條目結構中的佔位符<word>中辨識所示之英文字。這樣,第4A圖的示例性字係在非英語使用者的外國文法詞典中,如中文使用者。
藉由舉例之方式,第3圖之外國字#1係與第4A圖所示之字「book」相同。具有用於辨識字「book」的二個平行路徑。從節點402開始,用於字book的第一文法結構或規則404係為字「book」的口語形式。第二文法結構或規則406係為字「book」的拼寫形式,即「b-o-o-k」。可藉由語音辨識解碼器102遍歷路徑,取決於使用者是否試圖發音字或拼寫字,以辨識說出語音係意圖為字「book」。可存在其他類似規則以用於包括在外國字文法112中的其他外國字。如圖所示,用於字「book」的口語形式的規則408以及用於字「book」的拼寫形式的規則410可包括在外國字文法112中。另外, 作為英語中常用的俚語詞的實例,用於字「pot」的二個文法結構或規則412、414可包括在外國字文法112中。舉例而言,規則412對應於字「pot」的口語形式,而規則414對應於字「pot」的拼寫形式。在規則的每一者之後係為結束或終端節點416。在終端節點316,語音辨識解碼器可返回結合第2A-B圖之敘述討論於上的各別句子的文法結構,或輸出所辨識外國字的結果。
如上所述,統計權重可分配給字之每一者。在實施例中,統計權重係分配給外國字的拼寫形式,而另一統計權重係分配給外國字的口語形式。
以下描述與第4B-4E圖係說明及描述用於外國字的拼寫形式的統計權重的示例性使用。
圖示於第4A圖的拼寫路徑之集合可藉由編譯外國字文法112中的所有字的拼寫形式到字母式前綴樹401,以進一步最佳化,如第4B圖所示。前綴樹401將機率合併到過渡弧中,如下面進一步詳細討論。藉由將機率合併到前綴樹401的過渡弧中,可在解碼期間實現有效修剪或限制。第4B圖代表用於分別具有一元機率{0.15,0.4,0.25,0.2}的四個字{book,books,pot,pod}的前綴樹401。
為了更有效解碼,一元機率可能散射到前綴樹401。用於散射一元機率的一個潛在演算法係討論如下。前綴樹中的每一節點包含二條資訊:{isleaf,maxprob}。isleaf值係為布林值,在節點為終端或葉 節點時為真。maxprob值係為指示最大機率的值。每一過渡弧亦包含二條資訊{letter,prob}。首先,起始節點或根節點係建立於{isleaf,maxprob}={false,unknown}。對於在文法中的每一字而言,將拼寫增加到前綴樹中。每一內部非終端節點起初具有未知maxprob值。舉例而言,每一內部節點起初具有以下值{isleaf,maxprob}={false,unknown}。為了每一字而增加終端節點或葉節點,而葉節點具有以下初始值{isleaf,maxprob}={true,unigram probability(一元機率)}。過渡弧到葉節點係為ε(epsilon)過渡,或由第4B圖中ε所指示的空過渡。在一些實施例中,葉節點亦可包含字識別符,用於由從根節點到葉節點的路徑所指示的字母序列拼寫的字。
為了前綴樹401中的每一內部節點,計算maxprob值。舉例而言,maxprob=max{所有子樹的maxprob}。這種計算結果展示高於或低於第4C圖所示之內部節點。舉例而言,用於內部節點436的maxprob值等於0.25,因為任何的子樹的最大maxprob係為0.25。具體而言,包括節點438的子樹具有0.25的maxprob,而包括節點442的其他子樹具有0.2的maxprob。因此,用於節點436的maxprob等於0.25。同樣地,節點426具有0.4的maxprob,因為其二個子樹分別具有0.4與0.15的maxprob值。根節點402具有0.4的maxprob,因為用於前綴樹401中的所有子樹的最 大maxprob為0.4。為了決定用於內部節點的maxprob值,可使用下面的演算法:
如在上述演算法中使用相同變數與值,亦可決定用於每一過渡弧的機率。對於從節點到c的每一內部過渡弧,計算機率,而使得。從一開始,用於過渡弧的機率值arc.prob可藉由計算c.maxprob/node->maxprob而得。arc.prob值的實例係展示於第4D圖。舉例而言,從根節點402到內部節點434的過渡弧等於0.25/0.4=0.625。具體而言,對於 從根節點402到內部節點434的過渡弧而言,用於過渡弧的機率等於子節點434(即更靠近葉節點的節點)的maxprob值,並在前述節點的maxprob之上。作為另一實例,根節點403與內部節點420之間的過渡弧等於1,因為子節點420的maxprob值與前述節點402的maxprob值一樣。
在決定用於過渡弧的機率之後,除了根節點之外,用於內部節點的maxprob值可能不再必要。第4E圖說明僅具有呈現過渡弧機率並移除節點maxprob值的前綴樹。在解碼運行時,當語音辨識解碼器102進入初始狀態時,將root.maxprob應用到假設路徑的總分。隨著進入下一個節點,應用過渡弧機率,直到達到葉,在該點處整個字母序列的機率恰好為由路徑拼寫的字的機率。藉由在前綴樹的早期階段應用maxprob值,可限制修剪前綴樹,而使得只有類似路徑留在早期搜尋空間。在強大的修剪能力之外,前綴樹亦藉由消除重複部分路線(如字的前綴),以節省計算能力。
第5圖圖示用於準確辨識由使用者說出的外國字的方法500。方法係展示並描述為以序列執行的一系列動作,但應理解及明白方法並非由序列之順序所限制。舉例而言,如該領域具有通常知識者所理解,一些動作可以用不同於本文所述之順序發生。此外,一些動作可與另一動作同時發生。舉例而言,統計權重的調整可藉由應用 程式與辨識字之處理同時發生。此外,在一些情況下,並非需要所有的動作以實現本文所述之方法。
此外,本文所述之動作可以是電腦可執行指令,可藉由一或更多個處理器實現及/或儲存在電腦可讀取媒體上。電腦可執行指令可包括例式、子例式、程式、線程的執行、及/或類似物。更進一步地,方法的動作的結果可儲存在電腦可讀取媒體中,顯示於顯示裝置上,及/或類似者。
如圖所示,在操作502中,取得來自使用者的語音。語音可從語音取得裝置104取得。在操作504中,可從所取得語音提取特徵向量。在操作506中,決定所取得語音的音位機率。音位機率可依據聲學模型106與音位模型108而藉由語音辨識解碼器102決定。舉例而言,聲學模型106與音位模型108可用於產生所取得語音的音位似然性。對於拼寫字母而言,聲學模型106與音位模型108可用於指定口語字母的每一者的音位機率。該領域具有通常知識者將辨識及理解用於決定這些音位似然性的許多合適方法。
在操作508中,偵測句子條目文法結構。句子條目文法結構可藉由語音辨識解碼器102偵測。句子條目文法結構可包括結合第2A-B圖之敘述討論於上的句子條目文法結構。在操作510中,偵測到句子條目文法結構,外國字文法112係用於辨識說出的外國字,如位於上述句子條目文法結構中的佔位符<word>中的說出的外 國字。在操作512中,操作510的結果(即所辨識外國字)發送到應用程式。在操作512中指稱的應用程式可以是結合第1圖之敘述討論於上的應用程式114。然後,應用程式依據句子條目文法結構與所辨識外國字處理結果。舉例而言,偵測到的句子條目文法結構係為「look up<word>」,而詞典應用程式可接收在佔位符<word>所說出的外國字。在接收所辨識外國字之後,詞典應用程式可處理外國字,並提供本地語言的定義。然後在操作514中,接收所得到定義。可藉由智慧型個人助理(如來自Washington的Redmond的Microsoft Corporation的CORTANA智慧型個人助理)選擇適合的應用程式。用於依據句子條目文法結構選擇適合的應用程式的功能亦可合併到語音辨識解碼器102,或單獨程式或應用程式中。
在操作516中,所辨識外國字的結果可用於調整由外國字文法112使用的統計權重。
第6圖圖示用於調整外國字文法112中的統計權重的示例性方法600。方法600係為從第5圖中之操作516的更詳細圖示的一個實例。在操作602中,所辨識外國字係儲存在聚集結果資料庫118中。在操作604中,統計權重係依據聚集結果資料庫118中的外國字的頻率決定。舉例而言,外國字係辨識為較常使用,外國字將更在出現在聚集資料庫中。更高的統計權重可分配給較常出現在外國字資料庫中的外國字。依據操作604中決定的統計 權重,可在操作606中調整外國字文法112中的統計權重。調整可能來自對於操作602中接收結果之前使用的統計權重與在操作604中決定的統計權重的比較。若二個統計權重不同,則更新或調整外國字文法112中的統計權重。
第7圖係為圖示可實施本揭示之實施例的計算裝置700的實際部件(如硬體)的方塊圖。下面所述之計算裝置部件可具有用於如客戶端的通訊應用程式713的電腦可執行指令及/或如客戶端的音位確定模組711的電腦可執行的指令,而可執行以採用本文所述之方法。在基本配置中,計算裝置700可包括至少一個處理單元702與系統記憶體704。根據計算裝置之配置與類型,系統記憶體704可包含但不限於,揮發性記憶體(如隨機存取記憶體)、非揮發性記憶體(如唯讀記憶體)、快閃記憶體、或這些記憶體的任何組合。系統記憶體704可包括作業系統705與一或更多個程式模組706,適於運行軟體應用程式720,如關於第1-6圖所述之辨識外國字,以及更特定言之,參照應用程式713或外國字偵測模組711。參照應用程式713可以包括應用程式,如應用程式114。外國字偵測模組711可包括許多在第1圖所示的特徵。舉例而言,作業系統705可為適於控制計算裝置700之操作。此外,本揭示之實施例可結合圖形庫、音訊庫、語音資料庫、語音合成應用程式、其他作業系統、或任何其他應用程式一起使用,且不限於任何特定應用程式或系統。藉由虛線 708中之那些部件將基本配置圖示於第7圖中。計算裝置700可具有額外特徵或功能。舉例而言,計算裝置700亦可包括額外資料儲存裝置(可移除及/或不可移除),如磁碟、光碟、或磁帶。這樣的額外儲存係由可移除儲存裝置709與不可移除儲存裝置710示於第7圖中。
如上所述,多個程式模組與資料檔案可儲存在系統記憶體704上。在處理單元702上執行時,程式模組706(如外國字偵測模組711或參照應用程式713)可執行包括但不限於本文所述之實施例之處理。其他程式模組可用於根據本揭示之實施例,並特定以產生螢幕內容與音訊內容,可包括電子郵件與聯絡人應用程式、文字處理應用程式、電子表格應用程式、資料庫應用程式、幻燈片展示應用程式、繪圖、訊息應用程式、地圖應用程式、語音到文本應用程式、文本到語音應用程式、及/或電腦輔助應用程式等。
此外,本揭示之實施例可實施於電路中,該電路包含分離電子元件、含有邏輯閘之封裝或整合電子晶片、利用微處理器的電路、或含有電子元件或微處理器的單一晶片。舉例而言,本揭示之實施例可經由系統級晶片(SOC)實施,其中第7圖所示之每一或多個部件可整合至單一整合電路上。這樣的SOC裝置可包括一或更多個處理單元、圖形單元、通訊單元、系統虛擬化單元及各種應用程式功能,所有這些都整合(或「燒」)到晶片基板上,以作為單一整合電路。當經由SOC操作時,相對於 客戶端切換協定的能力,本文所述之功能可經由在單一整合電路(晶片)上整合計算裝置700之其他部件的應用特定邏輯而操作。本揭示之實施例亦可使用其他技術實施,其他技術能夠執行邏輯操作,如AND、OR及NOT,其他技術包括但不限於機械、光學、流體及量子技術。此外,本揭示之實施例可在通用電腦中或在任何其他電路或系統中實施。
計算裝置700亦可具有一或更多個輸入裝置712,如鍵盤、滑鼠、筆、聲音或說話輸入裝置、觸控或輕刷輸入裝置等。這些輸入裝置可用於結合或代替語音取得裝置104。亦可包括輸出裝置714,如顯示器、喇叭、印表機等。上述裝置係為實例,亦可使用其他裝置。計算裝置700可包括一或更多個通訊連接716,以允許與其他計算裝置718通訊。合適的通訊連接716之實例包括但不限於射頻發射器、接收器及/或收發器電路;通用串列匯流排(USB)、並列及/或串列埠。
如本文所用之術語電腦可讀取媒體可包括電腦儲存媒體。電腦儲存媒體可包括以任何方法或技術實現的揮發性與非揮發性、可移除與不可移除媒體,以用於儲存資訊,如電腦可讀取指令、資料結構、或程式模組。系統記憶體704、可移動儲存裝置709、及不可移動儲存裝置710都是電腦儲存媒體之實例(即記憶體儲存)。電腦儲存媒體可包括:RAM、ROM、電子式可清除唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、 CD-ROM、數位多功能碟(DVD)或其他光碟儲存、磁帶匣、磁帶、磁碟儲存或其他磁儲存裝置、或可製造以用於儲存資訊且可由計算裝置700存取的任何其他製品。任何這樣的電腦儲存媒體可以是計算裝置700之一部分。電腦儲存媒體不包括載波或其他傳播或調製資料訊號。
通訊媒體可由電腦可讀取指令、資料結構、程式模組或調製資料訊號中的其他資料而體現,如載波或其他傳輸機制,並包括任何資訊傳遞媒體。術語「調製資料訊號」可描述具有一或更多個特徵之訊號,以這樣的方式設定或改變,以編碼訊號中之資訊。以示例而非限制之方式,通訊媒體可包括有線媒體(如有線網路或直接線連接)以及無線媒體(如聲學、射頻(RF)、紅外線及其他無線媒體)。
第8A及8B圖圖示可實施本揭示之實施例的行動計算裝置800,如行動電話、智慧型電話、穿戴式電腦(如智能手錶)、平板個人電腦、膝上型電腦、及類似物。在一些實施例中,客戶端可為行動計算裝置。參照第8A圖,行動計算裝置800之一個實施例係圖示以用於實現實施例。在基本配置中,行動計算裝置800係為具有輸入元件與輸出元件的手持式電腦。行動計算裝置800通常包括顯示805與一或更多個輸入按鈕810,以允許使用者將資訊輸入至行動計算裝置800。行動計算裝置800之顯示805亦可作為輸入裝置(如觸控螢幕顯示)。若包括,則可選的側輸入元件815允許進一步使用者輸入。側輸入 元件815可為旋轉開關、按鈕、或任何其他類型的手動輸入元件。在替代實施例中,行動計算裝置800可結合更多或更少輸入元件。舉例而言,在一些實施例中,顯示805可能不是觸控螢幕。在又一替代實施例中,行動計算裝置800係為可攜式電話系統,如蜂窩式電話。行動計算裝置800亦可包括可選的鍵板835。可選的鍵板835可以是實際鍵板或觸控螢幕顯示上產生之「軟」鍵板。在各種實施例中,輸出元件包括顯示805,用於顯示圖形使用者介面(GUI)、視覺指示器820(如發光二極體)、及/或音訊轉換器825(如喇叭)。在一些實施例中,行動計算裝置800包括振動轉換器,用於提供觸覺反饋給使用者。在又一實施例中,行動計算裝置800包含輸入及/或輸出埠,如音訊輸入(如麥克風插孔)、音訊輸出(如耳機插孔)、及視訊輸出(如HDMI埠),以用於發送訊息給外部裝置或從外部裝置接收訊號。
第8B圖係為圖示行動計算裝置的一個實施例的結構之方塊圖。換言之,行動計算裝置800可結合系統(如架構)802以實現一些實施例。在一個實施例中,系統802係實現為能夠運行一或更多個應用程式(如瀏覽器、電子郵件、日曆、聯絡人管理器、訊息客戶端、遊戲、文本到語音應用程式、及媒體客戶端/播放器)的「智慧型電話」。在一些實施例中,系統802係整合為計算裝置,如整合個人數位助理(PDA)與無線電話。
一或更多個應用程式866可載入至記憶體862,並運行於作業系統864上或與作業系統864一起運行。應用程式之實例包括電話撥號程式、電子郵件程式、個人資訊管理(PIM)程式、文字處理程式、電子表格程式、網路瀏覽器程式、訊息程式、文本到語音應用程式等。系統802亦包括記憶體862中的非揮發性儲存區域868。非揮發性儲存區域868可用於儲存若系統802斷電也不應該不見的永久資訊。應用程式866可使用及儲存非揮發性儲存區域868中之資訊,如電子郵件或由電子郵件應用程式使用的其他訊息、及類似物。同步應用程式(未圖示)亦駐留於系統802上,並程式化以與駐留於主控電腦上的對應同步應用程式互動,以保持儲存在非揮發性儲存區域868之資訊與儲存在主控電腦之對應資訊同步。應理解,其他應用程式可載入至記憶體862,並運行於行動計算裝置800上,包括確定及分配如本文所述之音位屬性的指令(如及/或可選的音位確定模組711)。
系統802具有電源870,電源870可實現為一或更多個電池。電源870可進一步包括外部電源,如交流轉接器或用於補充或充電電池的供電對接支架。
系統802亦可包括無線電872,無線電872執行發送及接收無線電頻率通訊之功能。無線電872經由通訊運營商或服務提供商促進系統802與「外部世界」之間的無線連接。對無線電872之傳輸與來自無線電之傳輸係在作業系統864之控制下進行。換言之,由無線電872接 收之通訊控制可經由作業系統864分發至應用程式866,而反之亦然。
視覺指示器820可用於提供視覺通知及/或音訊介面874可經由音訊轉換器825用於產生聽覺通知。在圖示之實施例中,視覺指示器820係為發光二極體(LED),而音訊轉換器825係為喇叭。這些裝置可直接耦接至電源870,而使得在啟動時,他們在由通知機制所決定之持續期間保持開啟,即使處理器860以及其他部件可能關閉以節省電池電量。LED可程式化以保持無限期開啟,直到使用者採取行動以指示裝置之供電狀態。音訊介面874係用於提供音訊訊號,並接收來自使用者的聲音訊號。舉例而言,除了耦接至音訊轉換器825,音訊介面874亦可耦接至麥克風,以接收聲音輸入,而促進電話對話或取得語音。根據本揭示之實施例,麥克風亦可作為音訊感測器,以促進通知控制,而這將在下面描述。系統802可進一步包括視訊介面876,以啟動板載照相機830記錄靜止圖像之操作、視訊串流、及類似物。
實施系統802的行動計算裝置800可具有額外特徵或功能。舉例而言,行動計算裝置800亦可包括額外資料儲存裝置(可移除及/或不可移除),如磁碟、光碟、或磁帶。這樣的額外儲存係圖示於第8B圖之非揮發性儲存區域868。
資料/資訊由行動計算裝置800產生或捕捉,並經由系統802儲存,而資料/資訊可以本地儲存在行動 計算裝置800上,如上所述,或資料可儲存在任何數量的儲存媒體上,而可經由無線電872或經由行動計算裝置800與相關聯於行動計算裝置800的獨立計算裝置之間的有線連接存取,如在分佈式計算網路中之伺服器電腦,如網際網路。應理解這樣的資料/資訊可經由無線電872或經由分佈式計算網路而由行動計算裝置800存取。同樣地,這樣的資料/資訊可根據已知的資料/資訊傳輸與儲存構件容易在計算裝置之間傳輸,以用於儲存及使用,已知的資料/資訊傳輸與儲存構件包括電子郵件與協作資料/資訊共享系統。
第9圖示用於處理計算系統從遠端源接收的資料的系統的架構的一個實施例,如如上所述之計算裝置904、平板電腦906、或行動裝置908中。在伺服器裝置902顯示的內容可儲存在不同通訊頻道或其他儲存類型中。舉例而言,可使用目錄服務922、入口網站924、郵箱服務926、即時訊息儲存928、或社交網站930儲存各種文件。可藉由與伺服器902通訊的客戶端採用通訊應用程式713。伺服器902可透過網路915提供到客戶端計算裝置及來自客戶端計算裝置的資料,如個人電腦904、平板計算裝置906、及/或行動計算裝置908(如智慧型電話)。藉由實例之方式,如上所述關於第1-4圖的電腦系統可體現於個人電腦904、平板計算裝置906、及/或行動計算裝置908(如智慧型電話)中。計算裝置的這些實施例的任何者可從商店916得到內容,以及接收可用於在 圖形初始系統預處理,或在接收計算系統後處理的圖形資料。
第10圖圖示可執行本文所述之一或更多個實施例的示例性平板計算裝置1000。此外,本文所述之實施例與功能可工作於分佈式系統(如雲式計算系統)上,其中應用程式功能、記憶體、資料儲存及檢索、以及可在分佈式計算網路(如網際網路或內部網路)上彼此遠端操作的各種處理功能。各種類型的使用者介面與資訊可經由板載計算裝置顯示器或經由與一或更多個計算裝置相關聯的遠端顯示單元顯示。舉例而言,各種類型的使用者介面與資訊可顯示並與在各種類型的使用者介面與資訊投影其上的壁表面互動。利用可實施之本發明的實施例與多個計算系統的互動包括按鍵輸入、觸控螢幕輸入、說話或其他音訊輸入、手勢輸入(其中相關聯計算裝置配備偵測(如相機)功能,以用於取得及解釋使用者手勢,以用於控制計算裝置的功能)、及類似物。
舉例而言,本揭示之實施例係參照根據本揭示之實施例的方塊圖及/或方法、系統之操作圖示、及電腦程式產品描述於上。如任何流程圖中所示,在方塊中所指出之功能/動作可以不用依序發生。舉例而言,取決於所參與的功能/動作,連續顯示的二個方塊實際上可大致同時執行,或者這些方塊有時可以用相反的順序執行。
此外,為了保護使用者的隱私,使用者的潛在機密資料或來自使用者的潛在機密資料或從使用者輸入 導致的潛在機密資料之任何聚集可在用於本文所述之系統與方法之前先匿名。這種匿名可包括移除一些或所有元資料或可連接到用於各別使用者的結果的其他資料。所期望匿名等級可藉由使用者選擇或客製化。
本申請案所提供之一或更多個實施例的描述及圖示並不意欲以任何方式限定或限制本揭示所請求之範圍。本申請案提供之實施例、實例、及詳情係認為足以傳達所有權並讓其他人能夠製造及使用所請求保護之發明的最佳模式。此外,術語「示例性」與「說明性」僅意指實例之指示,並不指定一個實例必然比任何其他實例更有用或有利。所請求保護之揭示不應解釋為限定於本申請案提供之任何實施例、實例、及詳情。無論組合或分開圖示與描述,各種特徵(包括結構與方法)意欲選擇性地包括或省略,以產生具有特定特徵集的實施例。已提供本申請案之描述及圖示,該領域具有通常知識者可設想落入本申請案中一般發明概念之更廣泛態樣之精神的變化、修改及替代實施例,而不悖離所請求保護之揭示之更廣泛範圍。
100‧‧‧系統
101‧‧‧客戶端裝置
102‧‧‧語音辨識解碼器
104‧‧‧語音取得裝置
106‧‧‧音位模型
108‧‧‧聲學模型
110‧‧‧語言模型
112‧‧‧外國字文法
114‧‧‧應用程式
116‧‧‧特徵提取模組
118‧‧‧聚集結果資料庫

Claims (10)

  1. 一種用於一外國字的語音辨識的方法,包含以下步驟:接收語音輸入,其中該語音輸入包括該外國字;偵測一句子條目文法結構,其中該句子條目文法結構包括一第一語言的靜態文本與該外國字的一佔位符,其中該外國字係為一第二語言;以及利用一外國字文法,以辨識該外國字,其中該外國字文法包括用於該外國字的口語形式的一第一規則以及用於該外國字的拼寫形式的一第二規則。
  2. 如請求項1所述之方法,進一步包含以下步驟:發送所辨識的該外國字到一應用程式,其中該應用程式係至少依據該所偵測的句子條目文法結構而選擇。
  3. 如請求項2所述之方法,進一步包含以下步驟:接收來自該應用程式的結果,其中來自該應用程式的該等結果包括該外國字以該第一語言之一定義。
  4. 如請求項1所述之方法,其中該外國字之語音輸入係接收為該外國字之一拼寫。
  5. 如請求項1所述之方法,進一步包含以下步 驟:在一聚集結果資料庫中記錄所辨識的該外國字;以及調整該外國字文法中的統計權重。
  6. 如請求項1所述之方法,其中該外國字文法包括一前綴樹,且利用該外國字文法之該步驟進一步包含以下步驟:利用該前綴樹以辨識該外國字,其中將機率合併到該前綴樹的過渡弧中。
  7. 如請求項1所述之方法,其中該語音輸入係在一客戶端裝置上取得,並在一雲式伺服器處從該客戶端裝置接收;以及其中偵測該句子條目文法結構之該步驟與利用該外國字文法以辨識該外國字之該步驟係在該雲式伺服器上執行。
  8. 如請求項1所述之方法,其中該外國字文法將該語音辨識之該等結果限制到只有包括在該外國字文法中的那些字。
  9. 如請求項1所述之方法,其中該外國字文法包括該第二語言的多個字,其中該外國字文法中的所有該等字係為該第二語言的正統字或俚語詞。
  10. 一種具有電腦可執行指令的電腦儲存媒 體,當藉由至少一個處理器執行時,執行用於一外國字的語音辨識的一方法,該方法包含以下步驟:取得語音輸入,其中該語音輸入包括該外國字的一拼寫;接收該外國字的該語音辨識的一結果,其中該語音辨識的該結果係依據:一句子條目文法結構之一偵測,其中該句子條目文法結構包括一第一語言的靜態文本與該外國字的一佔位符,其中該外國字係為一第二語言;以及一外國字文法之一利用,以辨識該外國字,其中該外國字文法包括用於該外國字的口語形式的一第一規則,以及用於該外國字的拼寫形式的一第二規則,該外國字文法將該語音辨識之結果限制到在該外國字文法中的字,其中該外國字文法中的該等字係為只有該第二語言的正統字或俚語詞。
TW104120528A 2014-07-17 2015-06-25 使用外國字文法的語音辨識 TW201606750A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/082375 WO2016008128A1 (en) 2014-07-17 2014-07-17 Speech recognition using foreign word grammar

Publications (1)

Publication Number Publication Date
TW201606750A true TW201606750A (zh) 2016-02-16

Family

ID=55077825

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104120528A TW201606750A (zh) 2014-07-17 2015-06-25 使用外國字文法的語音辨識

Country Status (4)

Country Link
US (1) US10290299B2 (zh)
CN (1) CN105531758B (zh)
TW (1) TW201606750A (zh)
WO (1) WO2016008128A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI622029B (zh) * 2017-09-15 2018-04-21 驊鉅數位科技有限公司 具發音辨識之互動式語文學習系統

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10636421B2 (en) * 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
CN108962271B (zh) * 2018-06-29 2021-06-22 广州视源电子科技股份有限公司 多加权有限状态转换器合并方法、装置、设备及存储介质
TWI683226B (zh) 2018-08-28 2020-01-21 宏碁股份有限公司 多媒體處理電路及電子系統
US10971132B2 (en) 2018-08-28 2021-04-06 Acer Incorporated Multimedia processing method and electronic system
TWI717722B (zh) * 2019-04-15 2021-02-01 宏碁股份有限公司 多媒體處理方法以及電子系統
US11049501B2 (en) * 2018-09-25 2021-06-29 International Business Machines Corporation Speech-to-text transcription with multiple languages
EP4276816A3 (en) * 2018-11-30 2024-03-06 Google LLC Speech processing
CN109815476B (zh) * 2018-12-03 2023-03-24 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
CN111841006A (zh) * 2019-04-19 2020-10-30 宏碁股份有限公司 多媒体处理方法以及电子***
KR20190113693A (ko) * 2019-09-18 2019-10-08 엘지전자 주식회사 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
CN111128172B (zh) * 2019-12-31 2022-12-16 达闼机器人股份有限公司 一种语音识别方法、电子设备和存储介质
US11893983B2 (en) * 2021-06-23 2024-02-06 International Business Machines Corporation Adding words to a prefix tree for improving speech recognition

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5758024A (en) * 1996-06-25 1998-05-26 Microsoft Corporation Method and system for encoding pronunciation prefix trees
US5995923A (en) 1997-06-26 1999-11-30 Nortel Networks Corporation Method and apparatus for improving the voice quality of tandemed vocoders
US5987410A (en) 1997-11-10 1999-11-16 U.S. Philips Corporation Method and device for recognizing speech in a spelling mode including word qualifiers
US6845388B1 (en) * 1998-09-11 2005-01-18 L. V. Partners, L.P. Web site access manual of a character string into a software interface
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
US6957184B2 (en) 2000-07-20 2005-10-18 Microsoft Corporation Context free grammar engine for speech recognition system
US20040210444A1 (en) 2003-04-17 2004-10-21 International Business Machines Corporation System and method for translating languages using portable display device
JP2005099376A (ja) * 2003-09-24 2005-04-14 Canon Inc 音声認識方法および装置
US20070016420A1 (en) 2005-07-07 2007-01-18 International Business Machines Corporation Dictionary lookup for mobile devices using spelling recognition
CN101329868B (zh) 2008-07-31 2011-06-01 林超 一种针对地区语言使用偏好的语音识别优化***及其方法
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US9471560B2 (en) * 2011-06-03 2016-10-18 Apple Inc. Autocorrecting language input for virtual keyboards
US20120323967A1 (en) 2011-06-14 2012-12-20 Microsoft Corporation Spelling Using a Fuzzy Pattern Search
EP2595143B1 (en) * 2011-11-17 2019-04-24 Svox AG Text to speech synthesis for texts with foreign language inclusions
US9342233B1 (en) * 2012-04-20 2016-05-17 Amazon Technologies, Inc. Dynamic dictionary based on context
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及***
US10339920B2 (en) * 2014-03-04 2019-07-02 Amazon Technologies, Inc. Predicting pronunciation in speech recognition
JP2016009193A (ja) * 2014-06-23 2016-01-18 ハーマン インターナショナル インダストリーズ インコーポレイテッド ユーザ適合音声認識

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI622029B (zh) * 2017-09-15 2018-04-21 驊鉅數位科技有限公司 具發音辨識之互動式語文學習系統

Also Published As

Publication number Publication date
WO2016008128A1 (en) 2016-01-21
CN105531758B (zh) 2019-10-01
US20160267902A1 (en) 2016-09-15
CN105531758A (zh) 2016-04-27
US10290299B2 (en) 2019-05-14

Similar Documents

Publication Publication Date Title
TW201606750A (zh) 使用外國字文法的語音辨識
US11810568B2 (en) Speech recognition with selective use of dynamic language models
US10565987B2 (en) Scalable dynamic class language modeling
KR102596446B1 (ko) 모바일 디바이스들에서의 모달리티 학습
US10192545B2 (en) Language modeling based on spoken and unspeakable corpuses
US10558701B2 (en) Method and system to recommend images in a social application
US9805718B2 (en) Clarifying natural language input using targeted questions
US20170206897A1 (en) Analyzing textual data
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
TW200900967A (en) Multi-mode input method editor
CN110494841B (zh) 语境语言翻译
US11093110B1 (en) Messaging feedback mechanism
KR20170047268A (ko) 오펀 발화 검출 시스템 및 방법
US11947909B2 (en) Training a language detection model for language autodetection from non-character sub-token signals
CN111353035B (zh) 人机对话方法、装置、可读存储介质及电子设备
US20210109960A1 (en) Electronic apparatus and controlling method thereof