TWI802602B - 用於語音喚醒(wov)關鍵詞註冊的處理器實現的方法和系統 - Google Patents
用於語音喚醒(wov)關鍵詞註冊的處理器實現的方法和系統 Download PDFInfo
- Publication number
- TWI802602B TWI802602B TW107136165A TW107136165A TWI802602B TW I802602 B TWI802602 B TW I802602B TW 107136165 A TW107136165 A TW 107136165A TW 107136165 A TW107136165 A TW 107136165A TW I802602 B TWI802602 B TW I802602B
- Authority
- TW
- Taiwan
- Prior art keywords
- wov
- asr
- keyword
- processor
- model
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 230000004044 response Effects 0.000 claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims description 23
- 230000002618 waking effect Effects 0.000 claims description 8
- 230000015654 memory Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000003990 capacitor Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
提供用於語音喚醒(WOV)關鍵詞註冊的技術。實現根據實施例的技術的方法包括基於使用者提供的關鍵詞的子語音單元序列的識別來產生WOV關鍵詞模型。WOV關鍵詞模型是由WOV處理器用於檢測使用者說出的關鍵詞並回應於檢測而觸發自動語音識別(ASR)處理器的操作。該方法進一步包括基於使用者提供的關鍵詞更新ASR語言模型。該更新包括將WOV關鍵詞模型嵌入ASR語言模型,轉換WOV關鍵詞模型的子語音單元以及將轉換後的WOV關鍵詞模型嵌入ASR語言模型之一者,或透過將基於音素音節的統計語言模型應用於使用者提供的關鍵詞以產生ASR關鍵詞模型,以及將產生的ASR關鍵詞模型嵌入到ASR語言模型中。
Description
本發明係關於用於語音致能的電腦系統之動態註冊使用者定義的喚醒關鍵詞。
一些電腦系統或平台在回應於檢測到使用者說出的關鍵字或關鍵詞,變為活動或「喚醒」。在喚醒之後,電腦繼續識別並處理關鍵字之後的附加使用者語音。這樣的系統使用語音識別技術,並且通常要求關鍵詞是預定義的(例如,靜態的)而不是使用者可選擇的,這是不期望的。一些其他系統要求使用者在喚醒關鍵字和語音請求的剩餘部分之間暫停,以便切換處理模式(例如,從關鍵字辨知模式切換到完全語音識別模式)。這種暫停會導致語音的自然流動中斷,並對使用者體驗的品質產生負面影響。
基本上,本揭露內容提供了用於口語理解系統中的動態語音喚醒(WOV)關鍵詞註冊的技術,其使用WOV關鍵詞辨知和自動語音識別(ASR)的組合。使用關鍵詞辨知技術來檢測使用者說出的喚醒詞語,該喚醒詞然後可以觸發ASR以識別使用者說出的完整請求,包括喚醒詞。儘管關鍵詞檢測和ASR系統通常使用不同的語言模型,但是所揭露的技術在兩個系統之間提供運行時產生的關鍵詞模型的某種程度的共享,如下面將更詳細地解釋的。該技術允許使用者動態地選擇或客製化系統以檢測任何期望的喚醒詞,而在使用用於關鍵詞檢測和語音識別的單獨專用模型的系統中,這是不可能的。
雖然其他實施例將是顯而易見的,所揭露的技術可以例如在計算系統實現,或者可由這些系統執行或以其它方式控制的軟體產品中實現。系統或產品被配置為提供動態WOV關鍵詞註冊。根據一個實施例,實現這些技術的方法包括基於識別和確定使用者提供的關鍵詞的子語音單元的正確序列來產生WOV關鍵詞模型。所述WOV關鍵詞模型由WOV處理器使用,用於檢測使用者說出的關鍵詞,並用於觸發到自動語音識別(ASR)處理器的操作,以作為對該檢測的回應。該方法進一步包括基於使用者提供的關鍵詞以更新ASR語言模型,如下面將更詳細地解釋的。在一些實施例中,更新可以包括將WOV關鍵詞模型嵌
入到ASR語言模型中。在其他實施例中,更新可以包括執行WOV關鍵詞模型的子語音單元的轉換,並將轉換的WOV關鍵詞模型嵌入到ASR語言模型中。仍在其他實施例中,更新可以包括透過將基於音素音節的統計語言模型應用於使用者提供的關鍵詞並將所產生的ASR關鍵詞模型嵌入到ASR語言模型中來產生ASR關鍵詞模型。仍在其他實施例中,使用者提供的關鍵詞可以被提供為文本條目,其可以直接提供給WOV處理器和ASR處理器以用於註冊。
如將理解的,相較於強加了靜態關鍵詞的要求或要求在關鍵詞和後續語音之間出現尷尬的暫停的既有方法,本文描述的技術透過對使用者相對方便和透明的方式,提供使用者選擇的喚醒關鍵詞的動態註冊,可以允許透過語音語言理解系統改善使用者體驗。所揭露的技術可以在廣泛的平台上實現,包括膝上型電腦、平板電腦、智慧電話、工作站和嵌入式系統或裝置。這些技術還可以用硬體或軟體或其組合來實現。
儘管以下發明內容將參考說明性實施例進行,然而根據本揭露內容,其許多替換、修改和變化將是顯而易見的。
100:啟用語音的電腦系統
110:WOV處理器/語音喚醒處理器
120:ASR處理器
130:音訊輸入
140:動態WOV關鍵詞註冊系統
140a:動態WOV關鍵詞註冊系統
212:使用者提供的WOV註冊關鍵詞
214:WOV關鍵詞模型產生電路
216:WOV關鍵詞模型
217:ASR模型更新電路
218:ASR語言模型
220:操作
222:WOV聲學模型
224:ASR聲學模型
140b:動態WOV關鍵詞註冊系統
314:WOV關鍵詞模型產生電路
316:WOV關鍵詞模型
317:模型轉換電路
318:ASR語言模型
322:WOV聲學模型
324:ASR聲學模型
140c:動態WOV關鍵詞註冊系統
414:WOV關鍵詞模型產生電路
416:WOV關鍵詞模型
417:ASR關鍵詞模型產生電路
418:ASR語言模型
422:WOV聲學模型
424:ASR聲學模型
500:方法
510:操作
520:操作
600:系統
610:計算平台
620:處理器
630:記憶體
640:網路介面
650:輸入/輸出(I/O)系統
660:使用者介面
662:音訊捕獲裝置
670:儲存系統
680:作業系統(OS)
692:匯流排和/或互連
694:網路
當進行以下詳細描述時,並且參考圖式,所請求保護的標的之實施例的特徵和優點將變得顯而易見,其中相似的標號表示相似的部分。
圖1是根據本揭露內容的某些實施例配置的具有動態語音喚醒(WOV)關鍵詞註冊的語音致能的電腦系統的頂層方塊圖。
圖2是根據本揭露內容的某些實施例配置的動態WOV關鍵詞註冊系統的方塊圖。
圖3是根據本揭露內容的某些實施例配置的動態WOV關鍵詞註冊系統的另一方塊圖。
圖4是根據本揭露內容的某些實施例配置的動態WOV關鍵詞註冊系統的另一方塊圖。
圖5是示出根據本揭露內容的某些實施例的用於動態WOV關鍵詞註冊的方法的流程圖。
圖6是示意性地示出根據本揭露內容的某些實施例的被配置為執行動態WOV關鍵詞註冊的計算平台的方塊圖。
圖1是根據本揭露內容的某些實施例配置的具有動態語音喚醒(WOV)關鍵詞註冊的語音致能的電腦系統100的頂層方塊圖。語音致能的電腦系統100被示出為包括WOV處理器110、ASR處理器120和動態WOV關鍵詞註冊系統140。在一些實施例中,語音致能的電腦系統100可以託管在計算或通信平台上,如下面結合圖6更詳細地描述的。
音訊輸入130的示例被示出為包括來自使用
者的語音,在該示例中:「你好,電腦,在廚房中打開燈(hello computer turn light on in kitchen)」。音訊輸入可以由麥克風、麥克風陣列(例如,配置用於波束成形)或任何其他合適的音訊捕獲裝置提供,或者由儲存的錄音提供。WOV處理器110被配置為從音訊輸入130檢測使用者透過動態WOV關鍵詞註冊系統140實現的動態註冊程序選擇的關鍵詞「你好,電腦(hello computer)」。下面更詳細地描述動態WOV關鍵詞註冊系統140的操作。WOV處理器110還被配置為觸發ASR處理器120識別包括關鍵詞和剩餘使用者請求以打開廚房燈的整個說出的話語。在一些實施例中,觸發器還可用於將計算平台或其任何部分從睡眠或空閒狀態喚醒到主動識別狀態。
在一些實施例中,根據本揭露內容,WOV處理器110使用已知的關鍵詞檢測技術。這些關鍵詞檢測技術可以進一步使用關鍵詞模型,其包括使用者預定義或選擇的喚醒關鍵詞,以及用於在應用關鍵詞模型後的音素和子語音單元的低層級分析的聲學模型。
在一些實施例中,根據本揭露內容,ASR處理器120使用已知的語音識別技術。這些語音識別技術可以進一步使用與關鍵詞模型分開的語言模型,其除了包括預期使用者請求的語法之外更包括喚醒關鍵詞。作為簡化示例,ASR語言模型可以是能夠識別「[開始(start)|停止(stop)|暫停(pause)]播放(playback)」和關鍵詞是「你好,電腦(hello computer)」的語法。在這種情況下,語言模型
理解的組合語法是「『你好,電腦』[開始|停止|暫停]播放」。
在一些實施例中,WOV處理器或電路110被配置為至少在ASR處理器處於較高功耗的識別狀態時消耗比ASR處理器或電路120更少的功率,從而允許這兩個功能之間的功率優化。例如,在一些實施例中,WOV處理器110可以在低功率CPU或數位信號處理器(DSP)上實現,並且ASR處理器120可以在硬體加速器或適當優化的協處理器上實現。
圖2是根據本揭露內容的某些實施例配置的動態WOV關鍵詞註冊系統140a的方塊圖。動態WOV關鍵詞註冊系統140a被示出為包括WOV關鍵詞模型產生電路214、WOV關鍵詞模型216、ASR模型更新電路217和ASR語言模型218。另外,WOV聲學模型222被示出為由語音喚醒處理器110使用,並且ASR聲學模型224被示出為由ASR處理器120使用。
WOV關鍵詞模型產生電路214被配置為基於使用者提供的WOV註冊關鍵詞212的子語音單元的正確序列的識別和確定來產生WOV關鍵詞模型216。WOV關鍵詞模型216是由WOV處理器110使用,用於在操作220期間從使用者說出的音訊輸入130檢測WOV關鍵詞。
ASR模型更新電路217被配置為基於使用者提供的WOV註冊關鍵詞212來更新ASR語言模型218。ASR語言模型218被ASR處理器120用於識別在操作220期間使
用者說出的音訊輸入130的語音發聲。透過使用根據本揭露內容的已知技術將所產生的WOV關鍵詞模型216合併或嵌入到ASR語言模型218中來完成更新。該技術假設WOV聲學模型222和ASR聲學模型224在它們使用共同音素和狀態序列的程度上相對可比較(例如,它們使用至少一些相同的音素和狀態序列)。
圖3是根據本揭露內容的某些實施例配置的動態WOV關鍵詞註冊系統140b的另一方塊圖。動態WOV關鍵詞註冊系統140b被示出為包括WOV關鍵詞模型產生電路314、WOV關鍵詞模型316、模型轉換電路317、ASR模型更新電路217和ASR語言模型318。另外,WOV聲學模型322被示出為由語音喚醒處理器110使用,並且ASR聲學模型324被示出為由ASR處理器120使用。
WOV關鍵詞模型產生電路314被配置為基於使用者提供的WOV註冊關鍵詞212的子語音單元的正確序列的識別和確定來產生WOV關鍵詞模型316。WOV關鍵詞模型316由WOV處理器110用於在操作220期間從使用者說出的音訊輸入130檢測WOV關鍵詞。模型轉換電路317被配置為使用根據本揭露內容的已知技術來執行WOV關鍵詞模型316的子語音單元的轉換。
ASR模型更新電路217被配置為透過使用根據本揭露內容的已知技術將由模型轉換電路317產生的轉換的WOV關鍵詞模型合併或嵌入到ASR語言模型318中來更新ASR語言模型318。這通常是可能的,即使WOV聲學
模型322可能不同於ASR聲學模型324,這通常是大多數應用的情況,因為子語音單元的轉換提供了轉換的WOV關鍵詞模型與ASR語言模型之間的兼容性。該技術假定對於給定模型可以進行子語音單元轉換,但情況可能並非總是如此。
圖4是根據本揭露內容的某些實施例配置的動態WOV關鍵詞註冊系統140c的另一方塊圖。動態WOV關鍵詞註冊系統140c被示出為包括WOV關鍵詞模型產生電路414、WOV關鍵詞模型416、ASR關鍵詞模型產生電路417、ASR模型更新電路217和ASR語言模型418。另外,WOV聲學模型422被示出為由語音喚醒處理器110使用,並且ASR聲學模型424被示出為由ASR處理器120使用。
WOV關鍵詞模型產生電路414被配置為基於使用者提供的WOV註冊關鍵詞212的子語音單元的正確序列的識別和確定來產生WOV關鍵詞模型416。WOV關鍵詞模型416由WOV處理器110用於在操作220期間從使用者說出的音訊輸入130檢測WOV關鍵詞。
ASR關鍵詞模型產生電路417被配置為透過將基於音素音節的統計語言模型(SLM)應用於使用者提供的WOV註冊關鍵詞212來產生ASR關鍵詞模型。SLM計算給定先前識別的單字的歷史的單字的機率(例如,基於隱馬爾可夫模型或最大熵模型)。從識別結果點陣(其表示關於所說的內容的不同假設)識別和提取關鍵詞,然後可以將點陣直接嵌入到ASR的統計語言模型中。
ASR模型更新電路217被配置為透過使用根據本揭露內容的已知技術將由ASR關鍵詞模型產生電路417產生的新ASR關鍵詞模型合併或嵌入到ASR語言模型418中來更新ASR語言模型418。除了ASR處理器120和ASR關鍵詞模型產生電路417使用相同的ASR聲學模型424之外,這通常是可能的,而不需要關於WOV聲學模型422和ASR聲學模型424的任何假設。
在一些實施例中,動態WOV關鍵詞註冊系統140還可以包括字素到音素轉換電路(圖中未示出),以使使用者定義的關鍵詞212能夠作為文本條目。字素到音素轉換電路被配置為將文本條目轉換為音素,用於以WOV關鍵詞模型產生電路214、314、414產生WOV關鍵詞模型。使用根據本揭露內容的已知技術,字素到音素映射可以由使用者直接提供或者可以作為透過機器學習程序產生的統計模型。
方法
圖5是示出根據本揭露內容的某些實施例的用於動態WOV關鍵詞註冊的示例方法500的流程圖。可以看出,示例方法包括多個階段和子程序,其次序可以在一個實施例與另一個實施例之間變化。然而,當在匯總考慮時,這些階段和子程序形成根據本文揭露的某些實施例的關鍵詞註冊的程序。這些實施例可以例如使用如上所述的圖1到4中所示的系統架構來實現。然而,在其他實施例中
可以使用其他系統架構,如根據本揭露內容將顯而易見的。為此,圖5中所示的各種功能與其他圖中所示的特定組件的相關性並不意味著暗示任何架構和/或使用限制。而是,其他實施例可以包括,例如,不同的整合度,其中多個功能由一個系統有效地執行。例如,在替代實施例中,具有去耦子模組的單個模組可用於執行方法500的所有功能。因此,取決於實現的粒度,其他實施例可以具有更少或更多的模組和/或子模組。仍在其他實施例中,所描繪的方法可以實現為包括一個或多個非暫時性機器可讀媒體的電腦程式產品,當由一個或多個處理器執行時,所述非暫時性機器可讀媒體使得該方法被執行。根據本揭露內容,許多變化和替代配置將是顯而易見的。
如圖5所示,在一個實施例中,用於動態WOV關鍵詞註冊開始的方法500是在操作510透過基於使用者提供的WOV註冊關鍵詞的子語音單元的正確序列的識別和確定來產生WOV關鍵詞模型。WOV關鍵詞模型由WOV處理器使用在檢測使用者說出時的WOV關鍵詞,以回應於關鍵詞檢測而觸發ASR處理器的操作。
接下來,在操作520,基於使用者提供的WOV註冊關鍵詞更新ASR語言模型。ASR處理器使用ASR語言模型來識別使用者說出的語音發聲。
在一些實施例中,ASR語言模型的更新進一步包括將WOV關鍵詞模型直接合併到ASR語言模型中。在其他實施例中,ASR語言模型的更新進一步包括執行WOV
關鍵詞模型的子語音轉換並將轉換的WOV關鍵詞模型合併到ASR語言模型中。仍在其他實施例中,ASR語言模型的更新進一步包括透過將基於音素音節的統計語言模型應用於使用者提供的WOV註冊關鍵詞,並且將所產生的ASR關鍵詞模型與ASR語言模型合併,來產生ASR關鍵詞模型。
當然,在一些實施例中,可以執行附加操作,如先前關於系統所描述的。例如,使用者提供的WOV註冊關鍵詞可以作為文本條目,在這種情況下,字素到音素轉換可以對該文本條目執行,用於產生WOV關鍵詞模型。在一些實施例中,ASR處理器的觸發還可以包括將ASR處理器從較低功耗的空閒狀態喚醒到較高功耗的識別狀態。
示例系統
圖6示出了根據本揭露內容的某些實施例配置的用於執行動態WOV關鍵詞註冊的示例系統600。在一些實施例中,系統600包括計算平台610,其可以主管或以其他方式結合到個人電腦、工作站、伺服器系統、智慧家居管理系統、筆記型電腦、超筆記型電腦、平板電腦、觸控板、可攜式電腦、手持電腦、掌上電腦、個人數位助理(PDA)、行動電話、組合行動電話和PDA、智慧裝置(例如智慧型手機或智慧型平板電腦)、行動網際網路裝置(MID)、傳訊裝置、資料通信裝置、成像裝置、可穿戴裝置、嵌入式系統等。在某些實施例中可以使用不同裝置的
任何組合。
在一些實施例中,平台610可以包括處理器620、記憶體630、動態WOV關鍵詞註冊系統140、WOV處理器110、ASR處理器120、網路介面640、輸入/輸出(I/O)系統650、使用者介面660、音訊捕獲裝置662和儲存系統670的任何組合。如可以進一步看到的,還提供匯流排和/或互連692以允許上面列出的各種組件和/或未示出的其他組件之間的通信。平台610可以透過網路介面640耦合到網路694,以允許與其他計算裝置、平台或資源進行通信。根據本揭露內容,未在圖6的方塊圖中反映的其他組件和功能將是顯而易見的,並且應當理解,其他實施例不限於任何特定的硬體配置。
處理器620可以是任何合適的處理器,並且可以包括一個或多個協處理器或控制器,例如音訊處理器、圖形處理單元或硬體加速器,以幫助控制和處理與系統600相關聯的操作。在一些實施例中,處理器620可以實現為任何數量的處理器核心。處理器(或處理器核心)可以是任何類型的處理器,例如微處理器、嵌入式處理器、數位信號處理器(DSP)、圖形處理器(GPU)、網路處理器、現場可程式化閘陣列或配置為執行程式碼的其他裝置。處理器可以是多線程核心,因為它們可以包括每個核心多於一個硬體線程上下文(或「邏輯處理器」)。處理器620可以實現為複雜指令集電腦(CISC)或精簡指令集電腦(RISC)處理器。在一些實施例中,處理器620可以被配置為x86指令
集兼容處理器。
記憶體630可以使用任何合適類型的數位儲存器來實現,包括例如快閃記憶體和/或隨機存取記憶體(RAM)。在一些實施例中,記憶體630可以包括本領域技術人員已知的記憶體層級和/或記憶體快取的各種階層。記憶體630可以實現為揮發性記憶體裝置,例如但不限於RAM、動態RAM(DRAM)或靜態RAM(SRAM)裝置。儲存系統670可以實現為非揮發性儲存裝置,例如但不限於硬碟驅動器(HDD)、固態硬碟驅動器(SSD)、通用串行匯流排(USB)驅動器、光碟驅動器、磁帶驅動器、內部儲存裝置、附加儲存裝置、快閃記憶體、電池備用同步DRAM(SDRAM)和/或網路可存取儲存裝置的一個或多個。在一些實施例中,儲存裝置670可以包括當包括多個硬碟驅動器時增加對有價值的數位媒體的儲存性能增強保護的技術。在一些實施例中,WOV關鍵詞模型、ASR語言模型和聲學模型可以儲存在記憶體的單獨塊或區域中。
處理器620可以被配置為執行作業系統(OS)680,其可以包括任何合適的作業系統,諸如Google Android(Google Inc.,Mountain View,CA)、Microsoft Windows(Microsoft Corp.,Redmond,WA)、Apple OS X(Apple Inc.,Cupertino,CA)、Linux或即時作業系統(RTOS)。如根據本揭露內容將理解的,本文提供的技術可以在不考慮結合系統600提供的特定作業系統的情況下實現,因此也可以使用任何合適的現有或隨後開發的平台來
實現。
網路介面電路640可以是任何適當的網路晶片或晶片組,其允許電腦系統600和/或網路694的其他組件之間的有線和/或無線連接,從而使系統600能夠與其他本地和/或遠端計算系統、伺服器、基於雲端的伺服器和/或其他資源通信。有線通信可以符合現有(或尚待開發的)的標準,諸如,例如:乙太網(Ethernet)。無線通信可符合現有(或尚待開發)的標準,例如包括LTE(長期演進)、無線高傳真(Wi-Fi)、藍牙和/或近場通信(NFC)的蜂窩式通信。示例性無線網路包括但不限於無線區域網路、無線個人區域網路、無線都會區域網路、蜂窩式網路和衛星網路。
I/O系統650可以被配置為介接於在各種I/O裝置和電腦系統600的其他組件之間。I/O裝置可以包括但不限於使用者介面660和音訊捕獲裝置662(例如,麥克風)。使用者介面660可以包括諸如顯示元件、觸控板、鍵盤、滑鼠和揚聲器等的裝置(未示出)。I/O系統650可以包括圖形子系統,該圖形子系統被配置為執行圖像處理以在顯示元件上呈現。例如,圖形子系統可以是圖形處理單元或視覺處理單元(VPU)。類比或數位介面可用於通信地耦合圖形子系統和顯示元件。例如,介面可以是高清多媒體介面(HDMI)、DisplayPort、無線HDMI和/或使用無線高清兼容技術的任何其他合適介面中的任何一種。在一些實施例中,圖形子系統可以整合到處理器620或平台610的任何
晶片組中。
應當理解,在一些實施例中,系統600的各種組件可以組合或整合在單晶片系統(SoC)架構中。在一些實施例中,組件可以是硬體組件、韌體組件、軟體組件或硬體、韌體或軟體的任何合適組合。
動態WOV關鍵詞註冊系統140被配置為產生WOV關鍵詞模型並在運行時更新ASR語言模型,以如前所述,使得使用者能夠定義新的WOV關鍵詞。動態WOV關鍵詞註冊系統140可以如上所述包括圖1到4中所示的任何或所有電路/組件。這些組件可以與耦合到或以其他方式形成平台610的一部分的各種合適的軟體和/或硬體一起實現,或以其他方式使用。這些組件可以附加地或替代地實現或以其他方式與使用者I/O裝置一起使用,使用者I/O裝置能夠向使用者提供資訊並從使用者接收資訊和命令。
在一些實施例中,這些電路可以安裝在系統600的本地端,如圖6的示例實施例中所示。或者,系統600可以在客戶端-伺服器佈置中實現,其中使用諸如JavaScript小應用程式之類的小應用程式或其他可下載模組或子模組集合將至少一些與這些電路相關聯的功能提供給系統600。回應於來自客戶端計算系統的請求存取具有客戶端計算系統的使用者感興趣的資源的給定伺服器,可以即時提供這種遠端可存取模組或子模組。在這樣的實施例中,伺服器可以是網路694的本地或透過一個或多個其他網路和/或通信通道遠端耦合到網路694。在某些情況
下,對給定網路或計算系統上的資源的存取可能需要諸如使用者名稱、密碼和/或遵守任何其他合適的安全機制的憑證。
在各種實施例中,系統600可以實現為無線系統、有線系統或兩者的組合。當實現為無線系統時,系統600可以包括適合於透過無線共享媒體(例如,一個或多個天線、發射器、接收器、收發器、放大器、濾波器、控制邏輯等)進行通信的組件和介面。無線共享媒體的示例可以包括無線頻譜的部分,諸如無線電頻譜等。當實現為有線系統時,系統600可以包括適合於透過有線通信媒體(例如,輸入/輸出適配器、用於將輸入/輸出適配器與相應的有線通信媒體連接的物理連接器、網路介面卡(NIC)、光碟控制器、視訊控制器、音訊控制器等)進行通信的組件和介面。有線通信媒體的示例可以包括電線、電纜金屬引線、印刷電路板(PCB)、背板、交換結構、半導體材料、雙絞線、同軸電纜、光纖等。
可以使用硬體元件、軟體元件或兩者的組合來實現各種實施例。硬體元件的示例可以包括處理器、微處理器、電路、電路元件(例如,電晶體、電阻器、電容器、電感器等)、積體電路、ASIC、可程式化邏輯裝置、數位信號處理器、FPGA、邏輯閘、暫存器、半導體裝置、晶片、微晶片、晶片組等。軟體的示例可以包括軟體組件、程式、應用、電腦程式、應用程式、系統程式、機器程式、作業系統軟體、中介軟體、韌體、軟體模組、例
程、子例程、函數、方法、程序、軟體介面、應用程式介面、指令集、計算程式碼、電腦程式碼、程式碼段、電腦程式碼段、字元、值、符號或其任何組合。確定是否使用硬體元件和/或軟體元件實現實施例可以根據任何數量的因素而變化,例如期望的計算速率、功率水平、熱容差、處理週期預估、輸入資料速率、輸出資料速率、記憶體資源、資料匯流排速度以及其他設計或性能限制。
可以使用表達「耦合」和「連接」以及它們的派生詞來描述一些實施例。這些術語不是彼此的同義詞。例如,可以使用術語「連接」和/或「耦合」來描述一些實施例,以指示兩個或更多個元件彼此直接物理接觸或電接觸。然而,術語「耦合」還可以表示兩個或更多個元件彼此不直接接觸,但仍然彼此協作或互動。
這裡揭露的各種實施例可以以各種形式的硬體、軟體、韌體和/或專用處理器來實現。例如,在一個實施例中,至少一個非暫時性電腦可讀儲存媒體具有在其上編碼的指令,當由一個或多個處理器執行時,所述指令使得實現本文揭露的動態關鍵詞註冊方法中的一個或多個。可以使用合適的程式化語言對指令進行編碼,例如C、C++、物件導向的C、Java、JavaScript、Visual Basic .NET、初學者的通用符號指令程式碼(BASIC),或者使用自定義或專有指令集。指令可以以有形地體現在記憶體裝置上的一個或多個電腦軟體應用程式和/或小應用程式的形式提供,並且可以由具有任何合適架構的電腦執
行。在一個實施例中,系統可以託管在給定網站上並且例如使用JavaScript或其他合適的基於瀏覽器的技術來實現。例如,在某些實施例中,系統可以利用由可透過網路694存取的遠端電腦系統提供的處理資源。在其他實施例中,這裡揭露的功能可以結合到其他基於語音的軟體應用程式中,例如汽車控制/導航、智慧家居管理、娛樂和機器人應用程式。這裡揭露的電腦軟體應用程式可以包括任何數量的不同模組、子模組或不同功能的其他組件,並且還是可以向其他組件提供資訊或從其他組件接收資訊。例如,這些模組可用於與輸入和/或輸出裝置通信,例如顯示螢幕、觸敏表面、印表機和/或任何其他合適的裝置。根據本揭露內容,未在圖示中反映的其他組件和功能將是顯而易見的,並且應當理解,其他實施例不限於任何特定的硬體或軟體配置。因此,在其他實施例中,與圖6的示例實施例中包括的子組件相比,系統600可以包括附加的、更少的或替代的子組件。
上述非暫時性電腦可讀媒體可以是用於儲存數位資訊的任何合適的媒體,例如硬碟驅動器、伺服器、快閃記憶體和/或隨機存取記憶體(RAM)、或記憶體的組合。在替代實施例中,本文揭露的組件和/或模組可以用硬體實現,包括諸如現場可程式化閘陣列(FPGA)的閘級邏輯,或者替代地,諸如專用積體電路的專用半導體(ASIC)。其他實施例還可以用具有多個用於接收和輸出資料的輸入/輸出埠的微控制器以及用於執行本文揭露的各
種功能的多個嵌入式例程來實現。顯而易見的是,可以使用硬體、軟體和韌體的任何合適組合,並且其他實施例不限於任何特定系統架構。
一些實施例可以例如使用機器可讀媒體或物品來實現,該機器可讀媒體或物品可以儲存指令或一組指令,如果由機器執行,則可以使機器執行根據該實施例的方法和/或操作。這樣的機器可以包括例如任何合適的處理平台、計算平台、計算裝置、處理裝置、計算系統、處理系統、電腦、程序等,並且可以使用硬體和/或軟體的任何合適的組合來實現。機器可讀媒體或物品可包括例如任何合適類型的記憶體單元、記憶體裝置、記憶體物品、記憶體媒體、儲存裝置、儲存物品、儲存媒體和/或儲存單元(諸如記憶體)、可移除或非可移除媒體、可擦除或不可擦除媒體,可寫或可重寫媒體、數位或類比媒體、硬碟、軟碟、唯讀光碟記憶體(CD-ROM)、可記錄光碟(CD-R)記憶體、可重寫光碟(CD-RW)記憶體、光碟、磁媒體、磁光媒體、可移除記憶卡或記憶碟、各類數位多功能影音光碟(DVD)、磁帶、盒式磁帶等。指令可以包括任何合適類型的程式碼,例如源程式碼、編譯程式碼、直譯程式碼、可執行程式碼、靜態程式碼、動態程式碼、加密程式碼等,使用任何合適的高層級、低層級、物件導向、可視化、編譯和/或直譯的程式化語言來實現。
除非另外特別說明,否則可以理解,諸如「處理」、「計算(computing)」,「計算(calculating)」、
「確定」等術語是指電腦或計算系統或類似電子計算裝置的動作和/或程序,其將表示為電腦系統的暫存器和/或記憶體單元內的物理量(例如,電子)的資料操縱和/或變換為類似地表示為電腦系統的暫存器、記憶體單元或其他此種資訊儲存傳輸或顯示的物理量的其他資料。實施例不限於此上下文。
這裡的任何實施例中使用的術語「電路(circuit)」或「電路(circuitry)」是有用的,並且可以包括,例如,單獨地或以任何組合的硬連線電路、可程式化電路(例如包括一個或多個單獨指令處理核心的電腦處理器)、狀態機電路和/或儲存由可程式化電路執行的指令的韌體。該電路可以包括處理器和/或控制器,其被配置為執行一個或多個指令以執行本文描述的一個或多個操作。指令可以體現為例如應用程式、軟體、韌體等,其被配置為使電路執行任何上述操作。軟體可以體現為記錄在電腦可讀儲存裝置上的軟體封裝、程式碼、指令、指令集和/或資料。軟體可以體現或實現為包括任何數量的程序,並且程序又可以以分層方式體現或實現為包括任何數量的線程等。韌體可以體現為在記憶體裝置中被硬編碼(hard-coded)(例如,非揮發性)的程式碼、指令或指令集和/或資料。電路可以共同地或單獨地體現為形成較大系統的一部分的電路,例如,積體電路(IC)、專用積體電路(ASIC)、單晶片系統(SoC)、桌上型電腦、筆記型電腦、平板電腦、伺服器、智慧手機等。其他實施例可以實現為由可程式
化控制裝置執行的軟體。在這種情況下,術語「電路(circuit)」或「電路(circuitry)」旨在包括軟體和硬體的組合,例如可程式化控制裝置或能夠執行軟體的處理器。如本文所述,可以使用硬體元件、軟體元件或其任何組合來實現各種實施例。硬體元件的示例可以包括處理器、微處理器、電路、電路元件(例如,電晶體、電阻器、電容器、電感器等)、積體電路、專用積體電路(ASIC)、可程式化邏輯裝置(PLD)、數位信號處理器(DSP)、現場可程式化閘陣列(FPGA)、邏輯閘、暫存器、半導體裝置、晶片、微晶片、晶片組等。
這裡已經闡述了許多具體細節以提供對實施例的透徹理解。然而,普通技術人員將理解,可以在沒有這些具體細節的情況下實踐這些實施例。在其他情況下,沒有詳細描述公知的操作、組件和電路,以免模糊實施例。可以理解,本文揭露的具體架構和功能細節可以是代表性的,並不一定限制實施例的範圍。另外,儘管用架構特徵和/或方法動作專用的語言描述了本標的,但應理解,所附申請專利範圍中定義的標的不必限於本文所述的具體特徵或動作。而是,本文描述的具體特徵和動作被揭露為實現申請專利範圍的示例形式。
其他示例實施例
以下示例涉及其他實施例,從中可以明顯看出許多排列和配置。
示例1是一種處理器實現的用於語音喚醒(WOV)關鍵詞註冊的方法,該方法包括:基於處理器的系統產生基於使用者提供的WOV註冊關鍵詞的WOV關鍵詞模型,WOV處理器運用WOV關鍵詞模型用於檢測該使用者說出的WOV關鍵詞的子語音單元的正確序列,且回應於該WOV關鍵詞檢測,觸發自動語音識別(ASR)處理器的操作;和該基於處理器的系統更新基於該使用者提供的WOV註冊關鍵詞的ASR語言模型,該ASR處理器使用該ASR語言模型來識別該使用者說出的語音發聲。
示例2包括示例1的標的,其中,該更新該ASR語言模型包括將該WOV關鍵詞模型合併到該ASR語言模型中。
示例3包括示例1或2的標的,其中,該WOV處理器使用第一聲學模型(AM),該ASR處理器使用第二聲學模型(AM),並且該第一AM和該第二AM使用共同音素和狀態序列。
示例4包括示例1到3中任一項的標的,其中,該更新該ASR語言模型包括執行該WOV關鍵詞模型的該子語音單元的轉換,並將該轉換的WOV關鍵詞模型合併到該ASR語言模型中。
示例5包括示例1到4中任一項的標的,其中,該更新該ASR語言模型包括透過將基於音素音節的統計語言模型應用於該使用者提供的該WOV註冊關鍵詞來產生ASR關鍵詞模型並且將該產生的ASR關鍵詞模型合併到
該ASR語言模型中。
示例6包括示例1到5中任一項的標的,其中,該使用者提供的WOV註冊關鍵詞被提供為文本條目,該方法進一步包括對該文本條目執行字素到音素轉換以產生該WOV關鍵詞模型。
示例7包括示例1到6中任一個的標的,其中,該觸發該ASR處理器包括將該ASR處理器從較低功耗的閒置狀態喚醒到較高功耗的識別狀態。
示例8包括示例1到7中任一項的標的,其中,當該ASR處理器處於該較高功耗的識別狀態時,該WOV處理器比該ASR處理器消耗更少的功率。
示例9是一種用於語音喚醒(WOV)關鍵詞註冊的系統,該系統包括:WOV關鍵詞模型產生電路,用於產生基於使用者提供的WOV註冊關鍵詞的WOV關鍵詞模型,被WOV處理器運用的該WOV關鍵詞模型用於檢測該使用者說出的WOV關鍵詞的子語音單元的正確序列,且回應於該WOV關鍵詞檢測,觸發自動語音識別(ASR)處理器的操作;和ASR模型更新電路,用於更新基於該使用者提供的WOV註冊關鍵詞的ASR語言模型,該ASR處理器使用該ASR語言模型來識別該使用者說出的語音發聲。
示例10包括示例9的標的,其中,該ASR模型更新電路進一步將該WOV關鍵詞模型合併到該ASR語言模型中。
示例11包括示例9或10的標的,其中,該
WOV處理器使用第一聲學模型(AM),該ASR處理器使用第二聲學模型(AM),並且該第一AM和該第二AM使用共同音素和狀態序列。
示例12包括示例9到11中任一項的標的,進一步包括:模型轉換電路,用於執行該WOV關鍵詞模型的該子語音單元的轉換,並將該轉換的WOV關鍵詞模型合併到該ASR語言模型中。
示例13包括示例9到12中任一項的標的,進一步包括:ASR關鍵詞模型產生電路,用於透過將基於音素音節的統計語言模型應用於該使用者提供的該WOV註冊關鍵詞來產生ASR關鍵詞模型並且將該產生的ASR關鍵詞模型合併到該ASR語言模型中。
示例14包括示例9到13中任一項的標的,其中,該使用者提供的WOV註冊關鍵詞被提供為文本條目,該系統進一步包括字素到音素轉換電路,以將該文本條目轉換為音素以產生該WOV關鍵詞模型。
示例15包括示例9到14中任一項的標的,其中,該觸發該ASR處理器包括將該ASR處理器從較低功耗的閒置狀態喚醒到較高功耗的識別狀態。
示例16包括示例9到15中任一項的標的,其中,當該ASR處理器處於該較高功耗的識別狀態時,該WOV處理器比該ASR處理器消耗更少的功率。
示例17是至少一個具有在其上編碼的指令的非暫時性電腦可讀儲存媒體,當由一個或多個處理器執行
時,導致以下用於語音喚醒(WOV)關鍵詞註冊的操作,該等操作包括:產生基於使用者提供的WOV註冊關鍵詞的WOV關鍵詞模型,該WOV關鍵詞模型被WOV處理器使用於檢測該使用者說出的WOV關鍵詞的子語音單元的正確序列,且回應於該WOV關鍵詞檢測,觸發自動語音識別(ASR)處理器的操作;和更新基於該使用者提供的WOV註冊關鍵詞的ASR語言模型,該ASR處理器使用該ASR語言模型來識別該使用者說出的語音發聲。
示例18包括示例17的標的,其中,該更新該ASR語言模型包括將該WOV關鍵詞模型合併到該ASR語言模型中的操作。
示例19包括示例17或18的標的,其中,該WOV處理器使用第一聲學模型(AM),該ASR處理器使用第二聲學模型(AM),並且該第一AM和該第二AM使用共同音素和狀態序列。
示例20包括示例17到19中任一項的標的,其中,該更新該ASR語言模型包括執行該WOV關鍵詞模型的該子語音單元的轉換並將該轉換的WOV關鍵詞模型合併到該ASR語言模型中的操作。
示例21包括示例17到20中任一項的標的,其中,該更新該ASR語言模型包括透過將基於音素音節的統計語言模型應用於該使用者提供的該WOV註冊關鍵詞來產生ASR關鍵詞模型並且將該產生的ASR關鍵詞模型合併到該ASR語言模型中的操作。
示例22包括示例17到21中任一項的標的,其中,該使用者提供的WOV註冊關鍵詞被提供為文本條目,進一步包括對該文本條目執行字素到音素轉換以產生該WOV關鍵詞模型的操作。
示例23包括示例17到22中任一項的標的,其中,該觸發該ASR處理器包括將該ASR處理器從較低功耗的閒置狀態喚醒到較高功耗的識別狀態的操作。
示例24包括示例17到23中任一項的標的,其中,當該ASR處理器處於該較高功耗的識別狀態時,該WOV處理器比該ASR處理器消耗更少的功率。
示例25是一種用於語音喚醒(WOV)關鍵詞註冊的系統,該系統包括:用於產生基於使用者提供的WOV註冊關鍵詞的WOV關鍵詞模型的構件,該WOV關鍵詞模型被WOV處理器使用於檢測該使用者說出的WOV關鍵詞的子語音單元的正確序列,且回應於該WOV關鍵詞檢測,觸發自動語音識別(ASR)處理器的操作;和用於更新基於該使用者提供的WOV註冊關鍵詞的ASR語言模型的構件,該ASR處理器使用該ASR語言模型來識別該使用者說出的語音發聲。
示例26包括示例25的標的,其中ASR語言模型的更新包括用於將該WOV關鍵詞模型合併到該ASR語言模型中的構件。
示例27包括示例25或26的標的,其中,該WOV處理器使用第一聲學模型(AM),該ASR處理器使用
第二聲學模型(AM),並且該第一AM和該第二AM使用共同音素和狀態序列。
示例28包括示例25到27中任一項的標的,其中,該更新該ASR語言模型包括:用於執行該WOV關鍵詞模型的該子語音單元的轉換的構件,以及將該轉換的WOV關鍵詞模型合併到該ASR語言模型中的構件。
示例29包括示例25到28中任一項的標的,其中,該更新該ASR語言模型包括:用於透過將基於音素音節的統計語言模型應用於該使用者提供的該WOV註冊關鍵詞來產生ASR關鍵詞模型的構件,以及將該產生的ASR關鍵詞模型合併到該ASR語言模型中的構件。
示例30包括示例25到29中任一項的標的,其中,該使用者提供的WOV註冊關鍵詞被提供為文本條目,該系統進一步包括:用於對該文本條目執行字素到音素轉換以產生該WOV關鍵詞模型。
示例31包括示例25到30中任一示例的標的,其中,該觸發該ASR處理器包括將該ASR處理器從較低功耗的閒置狀態喚醒到較高功耗的識別狀態的構件。
示例32包括示例25到31中任一項的標的,其中,當該ASR處理器處於該較高功耗的識別狀態時,該WOV處理器比該ASR處理器消耗更少的功率。
這裡使用的術語和表達是用作描述的用語而非限制,並且在使用這些術語和表達時,無意排除所示和所述特徵的任何等同物(或其部分),並且認知到在申請專
利範圍的範疇內可以進行各種修改。因此,所請求之申請專利範圍旨在涵蓋所有這些等同物。本文已經描述了各種特徵、方面和實施例。如本領域技術人員將理解的,該等特徵、方面和實施例是易於彼此組合以及變化和修改的。因此,本揭露內容應被視為包含這樣的組合、變化和修改。意為本揭露內容的範圍不受此發明內容的限制,而是受所附申請專利範圍的限制。未來請求本案優先權之所提交的申請案可以以不同的方式請求保護所揭露的標的,並且通常可以包括本文中不同地揭露或以其他方式展示的任何一個或多個元件的集合。
214:WOV關鍵詞模型產生電路
217:ASR模型更新電路
314:WOV關鍵詞模型產生電路
414:WOV關鍵詞模型產生電路
510:操作
520:操作
Claims (12)
- 一種用於語音喚醒(WOV)關鍵詞註冊的處理器實現的方法,該方法包括:此基於處理器的系統基於使用者提供WOV註冊關鍵詞產生WOV關鍵詞模型,由WOV處理器所使用的該WOV關鍵詞模型用於檢測該使用者說出的該WOV關鍵詞的子語音單元的正確序列,且回應於該WOV關鍵詞檢測,觸發自動語音識別(ASR)處理器的操作;和以該基於處理器的系統基於該使用者提供WOV註冊關鍵詞更新ASR語言模型,由該ASR處理器所使用的該ASR語言模型用以識別該使用者說出的語音發聲,其中,更新該ASR語言模型包括透過將基於音素音節的統計語言模型應用於該使用者提供的該WOV註冊關鍵詞來產生ASR關鍵詞模型並且將該產生的ASR關鍵詞模型合併到該ASR語言模型中。
- 如申請專利範圍第1項所述的方法,其中,該使用者提供的WOV註冊關鍵詞被提供為文本條目,該方法進一步包括對該文本條目執行字素到音素轉換以產生該WOV關鍵詞模型。
- 如申請專利範圍第1項所述的方法,其中,該觸發該ASR處理器包括將該ASR處理器從較低功耗的閒置狀態喚 醒到較高功耗的識別狀態。
- 如申請專利範圍第3項所述的方法,其中,當該ASR處理器處於該較高功耗的識別狀態時,該WOV處理器比該ASR處理器消耗更少的功率。
- 一種用於語音喚醒(WOV)關鍵詞註冊的系統,該系統包括:WOV關鍵詞模型產生電路,用於基於使用者提供的WOV註冊關鍵詞產生WOV關鍵詞模型,由WOV處理器所使用的該WOV關鍵詞模型用於檢測該使用者說出的該WOV關鍵詞的子語音單元的正確序列,且回應於該WOV關鍵詞檢測,觸發自動語音識別(ASR)處理器的操作;ASR模型更新電路,用於基於該使用者提供的WOV註冊關鍵詞更新ASR語言模型,該ASR處理器所使用的該ASR語言模型用以識別該使用者說出的語音發聲;和ASR關鍵詞模型產生電路,用於透過將基於音素音節的統計語言模型應用於該使用者提供的該WOV註冊關鍵詞來產生ASR關鍵詞模型並且將該產生的ASR關鍵詞模型合併到該ASR語言模型中。
- 如申請專利範圍第5項所述的系統,其中,該使用者提供的WOV註冊關鍵詞被提供為文本條目,該系統進一步包括字素到音素轉換電路,以將該文本條目轉換為音素以 產生該WOV關鍵詞模型。
- 如申請專利範圍第5項所述的系統,其中,該觸發該ASR處理器包括將該ASR處理器從較低功耗的閒置狀態喚醒到較高功耗的識別狀態。
- 如申請專利範圍第7項所述的系統,其中,當該ASR處理器處於該較高功耗的識別狀態時,該WOV處理器比該ASR處理器消耗更少的功率。
- 一種用於語音喚醒(WOV)關鍵詞註冊的處理器實現的方法,該方法包括:此基於處理器的系統基於使用者提供WOV註冊關鍵詞產生WOV關鍵詞模型,由WOV處理器所使用的該WOV關鍵詞模型用於檢測該使用者說出的該WOV關鍵詞的子語音單元的正確序列,且回應於該WOV關鍵詞檢測,觸發自動語音識別(ASR)處理器的操作;和以該基於處理器的系統基於該使用者提供WOV註冊關鍵詞更新ASR語言模型,由該ASR處理器所使用的該ASR語言模型用以識別該使用者說出的語音發聲,其中,更新該ASR語言模型包括執行該WOV關鍵詞模型的子語音轉換並將該轉換的WOV關鍵詞模型合併到該ASR語言模型中。
- 如申請專利範圍第9項所述的方法,其中,該使用者 提供的WOV註冊關鍵詞被提供為文本條目,該方法進一步包括對該文本條目執行字素到音素轉換以產生該WOV關鍵詞模型。
- 如申請專利範圍第9項所述的方法,其中,該觸發該ASR處理器包括將該ASR處理器從較低功耗的閒置狀態喚醒到較高功耗的識別狀態。
- 如申請專利範圍第11項所述的方法,其中,當該ASR處理器處於該較高功耗的識別狀態時,該WOV處理器比該ASR處理器消耗更少的功率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/855,379 | 2017-12-27 | ||
US15/855,379 US10672380B2 (en) | 2017-12-27 | 2017-12-27 | Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201928949A TW201928949A (zh) | 2019-07-16 |
TWI802602B true TWI802602B (zh) | 2023-05-21 |
Family
ID=65229831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107136165A TWI802602B (zh) | 2017-12-27 | 2018-10-15 | 用於語音喚醒(wov)關鍵詞註冊的處理器實現的方法和系統 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10672380B2 (zh) |
CN (1) | CN111164675A (zh) |
DE (1) | DE112018006101T5 (zh) |
TW (1) | TWI802602B (zh) |
WO (1) | WO2019133153A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11151991B2 (en) * | 2018-03-30 | 2021-10-19 | Verizon Media Inc. | Electronic message transmission |
WO2020013946A1 (en) * | 2018-07-13 | 2020-01-16 | Google Llc | End-to-end streaming keyword spotting |
US11308939B1 (en) * | 2018-09-25 | 2022-04-19 | Amazon Technologies, Inc. | Wakeword detection using multi-word model |
TWI684912B (zh) * | 2019-01-08 | 2020-02-11 | 瑞昱半導體股份有限公司 | 語音喚醒裝置及方法 |
WO2020153736A1 (en) | 2019-01-23 | 2020-07-30 | Samsung Electronics Co., Ltd. | Method and device for speech recognition |
EP3888084A4 (en) | 2019-05-16 | 2022-01-05 | Samsung Electronics Co., Ltd. | METHOD AND DEVICE FOR PROVIDING A VOICE RECOGNITION SERVICE |
KR102246936B1 (ko) * | 2019-06-20 | 2021-04-29 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN110310628B (zh) * | 2019-06-27 | 2022-05-20 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
US11217245B2 (en) * | 2019-08-29 | 2022-01-04 | Sony Interactive Entertainment Inc. | Customizable keyword spotting system with keyword adaptation |
CN110634483B (zh) * | 2019-09-03 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
US20200090657A1 (en) * | 2019-11-22 | 2020-03-19 | Intel Corporation | Adaptively recognizing speech using key phrases |
US11488581B1 (en) * | 2019-12-06 | 2022-11-01 | Amazon Technologies, Inc. | System and method of providing recovery for automatic speech recognition errors for named entities |
US11741943B2 (en) * | 2020-04-27 | 2023-08-29 | SoundHound, Inc | Method and system for acoustic model conditioning on non-phoneme information features |
CN113849792A (zh) * | 2020-06-10 | 2021-12-28 | 瑞昱半导体股份有限公司 | 适于具有锁定功能的电子装置的电子组件及解除锁定方法 |
WO2022151651A1 (zh) * | 2021-01-13 | 2022-07-21 | 神盾股份有限公司 | 语音助理*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130289994A1 (en) * | 2012-04-26 | 2013-10-31 | Michael Jack Newman | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US20150106085A1 (en) * | 2013-10-11 | 2015-04-16 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US20160267913A1 (en) * | 2015-03-13 | 2016-09-15 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
TW201703025A (zh) * | 2015-03-26 | 2017-01-16 | 英特爾股份有限公司 | 環境敏感之自動語音辨識的方法和系統 |
TW201717192A (zh) * | 2015-11-03 | 2017-05-16 | 絡達科技股份有限公司 | 電子裝置及其透過語音辨識喚醒的方法 |
US20170148444A1 (en) * | 2015-11-24 | 2017-05-25 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69326431T2 (de) | 1992-12-28 | 2000-02-03 | Toshiba Kawasaki Kk | Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist |
US6226612B1 (en) | 1998-01-30 | 2001-05-01 | Motorola, Inc. | Method of evaluating an utterance in a speech recognition system |
US20020042713A1 (en) | 1999-05-10 | 2002-04-11 | Korea Axis Co., Ltd. | Toy having speech recognition function and two-way conversation for dialogue partner |
KR20010113919A (ko) * | 2000-03-09 | 2001-12-28 | 요트.게.아. 롤페즈 | 소비자 전자 시스템과의 대화 방법 |
WO2005050621A2 (en) | 2003-11-21 | 2005-06-02 | Philips Intellectual Property & Standards Gmbh | Topic specific models for text formatting and speech recognition |
US9253560B2 (en) | 2008-09-16 | 2016-02-02 | Personics Holdings, Llc | Sound library and method |
US20110288859A1 (en) | 2010-02-05 | 2011-11-24 | Taylor Andrew E | Language context sensitive command system and method |
US20120265533A1 (en) * | 2011-04-18 | 2012-10-18 | Apple Inc. | Voice assignment for text-to-speech output |
DE102012202391A1 (de) * | 2012-02-16 | 2013-08-22 | Continental Automotive Gmbh | Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen |
US9275411B2 (en) | 2012-05-23 | 2016-03-01 | Google Inc. | Customized voice action system |
US10304465B2 (en) * | 2012-10-30 | 2019-05-28 | Google Technology Holdings LLC | Voice control user interface for low power mode |
US9542933B2 (en) | 2013-03-08 | 2017-01-10 | Analog Devices Global | Microphone circuit assembly and system with speech recognition |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9697831B2 (en) | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
US9548047B2 (en) * | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9373321B2 (en) * | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
WO2015094369A1 (en) | 2013-12-20 | 2015-06-25 | Intel Corporation | Transition from low power always listening mode to high power speech recognition mode |
US9940944B2 (en) | 2014-08-19 | 2018-04-10 | Qualcomm Incorporated | Smart mute for a communication device |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9812128B2 (en) * | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9812126B2 (en) * | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
US9779725B2 (en) | 2014-12-11 | 2017-10-03 | Mediatek Inc. | Voice wakeup detecting device and method |
US10121471B2 (en) | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US20170178625A1 (en) | 2015-12-21 | 2017-06-22 | Jonathan Mamou | Semantic word affinity automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9792897B1 (en) | 2016-04-13 | 2017-10-17 | Malaspina Labs (Barbados), Inc. | Phoneme-expert assisted speech recognition and re-synthesis |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
KR102575634B1 (ko) * | 2016-07-26 | 2023-09-06 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US10311876B2 (en) * | 2017-02-14 | 2019-06-04 | Google Llc | Server side hotwording |
US10504511B2 (en) * | 2017-07-24 | 2019-12-10 | Midea Group Co., Ltd. | Customizable wake-up voice commands |
-
2017
- 2017-12-27 US US15/855,379 patent/US10672380B2/en active Active
-
2018
- 2018-10-15 TW TW107136165A patent/TWI802602B/zh active
- 2018-11-19 DE DE112018006101.9T patent/DE112018006101T5/de active Pending
- 2018-11-19 WO PCT/US2018/061728 patent/WO2019133153A1/en active Application Filing
- 2018-11-19 CN CN201880063401.8A patent/CN111164675A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130289994A1 (en) * | 2012-04-26 | 2013-10-31 | Michael Jack Newman | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US20150106085A1 (en) * | 2013-10-11 | 2015-04-16 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US20160267913A1 (en) * | 2015-03-13 | 2016-09-15 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
TW201703025A (zh) * | 2015-03-26 | 2017-01-16 | 英特爾股份有限公司 | 環境敏感之自動語音辨識的方法和系統 |
TW201717192A (zh) * | 2015-11-03 | 2017-05-16 | 絡達科技股份有限公司 | 電子裝置及其透過語音辨識喚醒的方法 |
US20170148444A1 (en) * | 2015-11-24 | 2017-05-25 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
Also Published As
Publication number | Publication date |
---|---|
TW201928949A (zh) | 2019-07-16 |
US10672380B2 (en) | 2020-06-02 |
CN111164675A (zh) | 2020-05-15 |
DE112018006101T5 (de) | 2020-09-03 |
US20190043481A1 (en) | 2019-02-07 |
WO2019133153A1 (en) | 2019-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI802602B (zh) | 用於語音喚醒(wov)關鍵詞註冊的處理器實現的方法和系統 | |
US20180293974A1 (en) | Spoken language understanding based on buffered keyword spotting and speech recognition | |
EP3078021B1 (en) | Initiating actions based on partial hotwords | |
JP6316884B2 (ja) | 個別化されたホットワード検出モデル | |
US9589564B2 (en) | Multiple speech locale-specific hotword classifiers for selection of a speech locale | |
US11862176B2 (en) | Reverberation compensation for far-field speaker recognition | |
KR101770932B1 (ko) | 모바일 디바이스용 상시 연결형 오디오 제어 | |
US10657952B2 (en) | Score trend analysis for reduced latency automatic speech recognition | |
US20180357998A1 (en) | Wake-on-voice keyword detection with integrated language identification | |
US10789941B2 (en) | Acoustic event detector with reduced resource consumption | |
US9653070B2 (en) | Flexible architecture for acoustic signal processing engine | |
US20210264898A1 (en) | Wake on voice key phrase segmentation | |
US8600749B2 (en) | System and method for training adaptation-specific acoustic models for automatic speech recognition | |
US11074249B2 (en) | Dynamic adaptation of language understanding systems to acoustic environments | |
TW201543467A (zh) | 語音輸入方法、裝置和系統 | |
US10255909B2 (en) | Statistical-analysis-based reset of recurrent neural networks for automatic speech recognition | |
US11804228B2 (en) | Phoneme-based speaker model adaptation method and device | |
US20240071370A1 (en) | Adaptive frame skipping for speech recognition | |
CN117935841A (zh) | 一种车载声纹唤醒方法、装置、电子设备及存储介质 |