TWI506458B - 辨識網路產生裝置及其方法 - Google Patents

辨識網路產生裝置及其方法 Download PDF

Info

Publication number
TWI506458B
TWI506458B TW102147889A TW102147889A TWI506458B TW I506458 B TWI506458 B TW I506458B TW 102147889 A TW102147889 A TW 102147889A TW 102147889 A TW102147889 A TW 102147889A TW I506458 B TWI506458 B TW I506458B
Authority
TW
Taiwan
Prior art keywords
vocabulary
activity
electronic device
identification
feature data
Prior art date
Application number
TW102147889A
Other languages
English (en)
Other versions
TW201525732A (zh
Inventor
Hsin Chang Chang
jiang chun Chen
Chih Chung Kuo
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Priority to TW102147889A priority Critical patent/TWI506458B/zh
Priority to CN201310746425.2A priority patent/CN104731548B/zh
Priority to US14/541,116 priority patent/US10002609B2/en
Publication of TW201525732A publication Critical patent/TW201525732A/zh
Application granted granted Critical
Publication of TWI506458B publication Critical patent/TWI506458B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Description

辨識網路產生裝置及其方法
本揭露是有關於一種辨識網路產生裝置,特別是有關於提高語音辨識成功率之辨識網路產生裝置。
現今,各種智慧型電子裝置不斷推陳出新。使用者生活中也越形依賴智慧型電子裝置提供的功能;然而,使用者往往會因個人操作習慣或喜好不同,在使用智慧型電子裝置中的應用程式會有不同的操作行為。例如,使用者偏好收聽裝置內儲存2000首歌的其中幾首;或是使用者常聯絡的朋友只有幾位,但其通訊錄卻有500位聯絡人。因此,如何依據電子裝置中所有操作功能的使用頻率以及電子裝置被使用時紀錄下的週邊資訊,判斷出使用者在智慧型電子裝置中可能使用的功能成為一需要解決的問題。
本揭露之一實施例提供一種辨識網路產生裝置。該辨識網路產生裝置設置於一電子裝置上,包括一操作紀錄儲存器、一活動模型建構器、一活動預測器以及一權重調整器。該操作紀錄儲存器儲存該電子裝置之複數操作紀錄,其中每一操作紀錄包含在該電子裝置執行過之一操作內容,與對應該操作內容執行時該電子裝置所偵知的一裝置周邊資訊。該活動模 型建構器耦接該操作紀錄儲存器,依據該複數操作紀錄之所有裝置周邊資訊,將該複數操作紀錄分群為複數活動模型。該活動預測器依據該電子裝置目前所偵知的一目前裝置周邊資訊與每一該活動模型的近似度,由該複數活動模型中選出至少一選用活動模型。該權重調整器對至少一選用活動模型中之所有操作內容對應之複數辨識詞彙進行權重調整。
本揭露之一實施例提供一種辨識網路產生方法,包括以下步驟:儲存使用一電子裝置之複數操作紀錄,其中每一操作紀錄包含在該電子裝置執行過之一操作內容,與對應該操作內容執行時該電子裝置所偵知的一裝置周邊資訊;依據該複數操作紀錄之所有裝置周邊資訊,將該等操作紀錄分群為複數活動模型;依據該電子裝置目前所偵知的一目前裝置周邊資訊與每一活動模型的近似度,由該複數活動模型中選出至少一選用活動模型;以及對至少一選用活動模型中之所有操作內容對應之複數辨識詞彙進行權重調整。
本揭露之一實施例提供一種語音辨識装置。語音辨識装置,設於一電子裝置上,包括一儲存單元、一辨識器、以及一處理器。儲存單元,儲存該電子裝置之複數操作紀錄,其中每一操作紀錄包含在該電子裝置執行過之一操作內容,以及對應該操作內容執行時該電子裝置所偵知的一裝置周邊資訊;處理器,耦接該儲存單元,該處理器用以載入及執行一辨識網路產生程式;處理器執行該辨識網路產生程式,依據該複數操作紀錄之所有裝置周邊資訊,將該複數操作紀錄分群為複數活動模型,依據該電子裝置目前所偵知的一目前裝置周邊資 訊與每一活動模型的近似度,由該複數活動模型中選出至少一選用活動模型,對該至少一選用活動模型中之所有該操作內容對應之複數辨識詞彙進行權重調整,以及辨識器利用一權重調整資訊辨識一語音輸入,輸出一語音辨識結果。
10‧‧‧電子裝置
100‧‧‧語音辨識裝置
110‧‧‧辨識網路產生裝置
111‧‧‧操作紀錄儲存器
112‧‧‧活動模型建構器
113‧‧‧活動預測器
114‧‧‧權重調整器
115‧‧‧辨識器
120‧‧‧顯示器
50‧‧‧電子裝置
500‧‧‧語音辨識裝置
501‧‧‧處理器
502‧‧‧儲存單元
503‧‧‧辨識器
510‧‧‧顯示器
第1圖顯示一電子裝置10,搭載有依據本揭露之一實施例提出之一語音辨識裝置100。
第2圖顯示活動模型建構器112在不同時間對複數個特徵向量之分群結果。
第3圖係以流程圖舉例說明權重調整器114對所有選用活動模型中之複數辨識詞彙進行權重調整。
第4圖顯示在辨識詞彙分群、辨識詞彙權重值以及辨識成功率彼此之間之關係圖。
第5圖說明第1圖之語音辨識裝置100之另一實施方式。
第1圖顯示一電子裝置10,搭載有依據本揭露之一實施例提出之一語音辨識裝置100。電子裝置10包括一語音辨識裝置100以及一顯示器120。電子裝置10依據所偵知的目前裝置週邊資訊以及一語音輸入,輸出一語音辨識結果。語音辨識裝置100包括一辨識網路產生裝置110以及一辨識器115。辨識網路產生裝置110包括一操作紀錄儲存器111、一活動模型建構器112、一活動預測器113以及一權重調整器114。操作紀錄儲存器111耦接活動模型建構器112。活動預測器113分別耦接活 動模型建構器112與權重調整器114。活動預測器113接收電子裝置10目前所偵知的目前裝置周邊資訊以及來自活動模型建構器112之複數活動模型。權重調整器114接收來自活動預測器113之至少一選用活動模型,輸出用以更新辨識網路之一權重調整資訊。辨識器115耦接權重調整器114以及顯示器120。辨識器115接收權重調整器114輸出之權重調整資訊以及該語音輸入。最後,辨識器115利用權重調整資訊辨識該語音輸入,輸出該語音辨識結果。
表(一)及表(二)舉例說明操作紀錄儲存器111所儲存之複數筆操作紀錄的內容,其中每一操作紀錄包含電子裝置10執行過之操作內容,以及紀錄對應操作內容執行時電子裝置10所偵知的裝置周邊資訊。在本實施例中,操作紀錄儲存器111用以儲存一使用者使用電子裝置10之複數操作紀錄。每一該等操作紀錄儲存了該使用者操作電子裝置10時的行為紀錄以及電子裝置10當時的狀態;表(一)中每一該等行為紀錄為電子裝置10執行過之一操作內容,而表(二)中紀錄電子裝置10當時的狀態,亦即執行對應上述操作內容執行時電子裝置10所偵知的裝置周邊資訊。每一操作內容包含目標詞彙、功能詞彙、應用程式名稱以及使用者操作應用程式之一操作方式,其中目標詞彙或功能詞彙為操作內容對應之複數辨識詞彙。每一裝置週邊資訊包括電子裝置10中的感應裝置狀態、時間狀態、位置狀態/移動狀態、無線傳輸介面狀態以及有線傳輸介面狀態;但本揭露之實施例不限定於此。
在本範例實施例中,表(一)及表(二)所示之編號1操作紀錄,一使用者於駕駛車輛的時候,使用例如是智慧型手機或平板電腦等之電子裝置10,在電子裝置10的顯示器120上觸控選定歌手陳奕迅的歌曲播放。此時,電子裝置10就會偵測並收集電子裝置10的裝置週邊資訊,例如,「星期六上 午」(時間狀態)、「移動中」(位置狀態)、「中華-3G」(無線傳輸介面狀態)以及「汽車插座」(有線傳輸介面狀態)。接著,電子裝置10之操作紀錄儲存器111就會在表(一)及表(二)紀錄成為編號1操作紀錄。該編號1操作紀錄包含操作內容以及裝置週邊資訊,其中表(一)紀錄的操作內容包含「音樂」(應用程式名稱)、「播放」(功能詞彙)、「陳奕迅」(目標詞彙)以及「觸控」(操作方式)。
其中,表(一)中的應用程式名稱包括所有可在電子裝置10上操作的軟體名稱,例如音樂、天氣資訊、遊戲、股市、通訊錄等等。功能詞彙代表執行該應用程式名稱之動作名稱,而目標詞彙代表功能詞彙的執行對象。舉例來說不論以音控、觸控等任何控制方式達成的操作,例如:“查詢(功能詞彙)食品公司(目標詞彙)的股票(應用程式名稱-股市)”或是“請找(功能詞彙)李大明(目標名稱)(應用程式名稱-電話)”均能對應區別出「功能詞彙」、「目標詞彙」或「應用程式名稱」以便加以紀錄;其中應用程式名稱通訊錄可由該使用者操作電子裝置10時決定。因此,電子裝置10之操作紀錄儲存器111就會在該使用者每次使用應用程式時,紀錄電子裝置10操作內容以及當時的裝置週邊資訊作為一筆操作紀錄。因此,操作紀錄儲存器111儲存了該使用者使用電子裝置10時的每一該等操作紀錄。
本揭露之一實施例說明活動模型建構器112如何將操作紀錄分群為複數活動模型中,即依據複數操作紀錄之每一裝置周邊資訊,將複數操作紀錄分群為複數活動模型。首先, 活動模型建構器112載入操作紀錄儲存器111中的所有操作紀錄。活動模型建構器112將所有操作紀錄中的每一裝置週邊資訊分別轉化成一特徵資料。在本實施例中,該特徵資料為一特徵向量。以表(一)及表(二)中之編號1操作紀錄為例,活動模型建構器112將該編號1操作紀錄之週邊資訊(星期六上午、移動中、中華-3G以及汽車插座)轉換成一特徵向量X1 =[7.7,8,3,5];或是以表(一)及表(二)中中之編號7操作紀錄為例,活動模型建構器112將該編號7操作紀錄之週邊資訊(星期四上午、停留、公司-Wi-Fi以及公司筆電連接線)轉換成一特徵向量X7 =[4.9,3,8,10]。同理,活動模型建構器112將表(一)及(二)中之編號1~編號Z操作紀錄之週邊資訊對應轉換成Z個特徵向量X1 ~XZ
此時,活動模型建構器112依據該Z個特徵向量X1 ~XZ 之數值特性將該等特徵向量X1 ~XZ 分成K個群組,即活動模型建構器112依據該等特徵資料(特徵向量X1 ~XZ )之間的近似度將該等特徵資料分群為複數活動模型,其中每一複數活動模型依據所含之複數特徵資料產生一代表特徵資料。在本實施例中,活動模型建構器112例如使用LBG K-means演算法利用該Z個特徵向量X1 ~XZ 做分群之動作,其中本揭露不並限於上述LBG K-means演算法,亦可例如使用K-means演算法或KNN(k-Nearest Neighbor)演算法,即活動模型建構器112依據上述演算法,依照特徵向量X1 ~XZ 之間的近似度將特徵向量X1 ~XZ 分群為複數個活動模型,但本揭露不限於此。在進行分群之後(例如分成K群),活動模型建構器112會對每一群該等特徵向 量計算出一平均值作為一代表特徵資料,在本實施例中,代表特徵資料為代表特徵向量Yi (i=1~K)。最後,活動模型建構器112會依據該分群結果建立K個活動模型M1 ~MK ,其中每一活動模型Mi (i=1~K)包含一代表特徵向量Yi 、被分群至第i群之複數特徵向量以及被分群至第i群之複數特徵向量所對應之複數操作內容。
第2圖顯示活動模型建構器112在不同時間對該等個特徵向量之分群結果。由於操作紀錄儲存器111會持續紀錄該使用者留下的操作紀錄,並傳送至活動模型建構器112更新。如第2圖所示,操作紀錄儲存器111在一週後多紀錄了七個操作紀錄,並依此類推。當操作紀錄儲存器111紀錄下新的操作內容和裝置週邊資訊,活動模型建構器112隨之產生新的特徵向量Xj 。接著,活動模型建構器112會透過例如LBG K-means演算法對所有的特徵向量重新進行分群。因此,第2圖顯示了不同時間點(例如:現在、一週後、兩週後、三週後以及四周後)活動模型建構器112產生的分群結果,其中每一活動模型中的每一點代表了一個特徵向量。
在本範例實施例中,由第2圖可知,活動模型建構器112最初依據現有操作紀錄建立一第一活動模型。在兩週後,活動模型建構器112已透過LBG K-means演算法將所有特徵向量分成兩群,並分別建立對應之第一活動模型與第二活動模型。這是由於使用LBG K-means演算法的特點是會將特徵向量最多的活動模型***成為兩個。接著,在三週後,可以發現第二活動模型所屬相較第一活動模型具有較多的特徵向量,且第二活 動模型所屬之該等特徵向量亦具有較大的差異性。最後,直到四週後,活動模型建構器112同樣透過LBG K-means演算法將所有特徵向量分成新的第一、第二及第三活動模型。
本揭露之一實施例說明活動預測器113依據電子裝置目前所偵知的目前裝置周邊資訊與每一活動模型Mi (i=1~K)的近似度,由複數活動模型中選出至少一選用活動模型。首先,活動預測器113接收電子裝置10目前所偵知的目前裝置周邊資訊以及來自活動模型建構器112之該複數活動模型。活動預測器113將該目前裝置週邊資訊轉換成一目前特徵資料;在本實施例中,該目前特徵資料為一目前特徵向量XC 。接著,活動預測器113分別依據該目前特徵向量XC 與每一活動模型Mi (i=1~K)對應之代表特徵向量Yi (i=1~K),計算每一活動模型Mi (i=1~K)對應之一相似係數Ci (i=1~K)。其中該相似係數Ci (i=1~K)例如為該目前特徵向量XC 與該代表特徵向量Yi (i=1~K)之間距離的倒數(但是不限定於此),如下式:C i =1/|X c -Y i |2 ,i=1~K,其中|X c -Y i |2 表示XC 與Yi (i=1~K)之2-norm值。
最後,活動預測器113依據該等相似係數Ci (i=1~K)大小由大至小產生一排序結果,即透過相似係數Ci (i=1~K)可得知目前裝置周邊資訊與每一活動模型Mi (i=1~K)的近似度,活動預測器113將排序結果中前N個相似係數對應到之活動模型Mi (i=1~K)中選出為至少一選用活動模型MCm (m=1~N)。
第3圖係以流程圖舉例說明權重調整器114對該至少一選用活動模型MCm (m=1~N)中每一操作內容對應之複數辨 識詞彙進行權重調整。本實施例中所指的辨識詞彙則為目標詞彙或是功能詞彙。在步驟S301中,權重調整器114接收來自活動預測器113之所有選用活動模型MCm (m=1~N)。如先前所述,每一選用活動模型MCm (m=1~N)包含一代表特徵向量Ym 、第m群特徵向量以及第m群特徵向量所對應之複數操作內容。在步驟S302中,權重調整器114在該所有選用活動模型MCm (m=1~N)所包含之複數辨識詞彙中選定一辨識詞彙作為一權重調整詞彙C,即權重調整器114係依據複數辨識詞彙在每一選用活動模型MCm (m=1~N)之每一操作內容中之一第一出現次數nc,m 以及每一應用程式名稱在每一選用活動模型MCm (m=1~N)之每一操作內容中之一第二出現次數na,c,m ,對每一選用活動模型MCm (m=1~N)中之所有操作內容對應之複數辨識詞彙進行權重調整。例如,活動預測器113先在表(一)及表(二)之複數操作紀錄中選定三個選用活動模型MCm (m=1~3),其中該三個選用活動模型MC1 、MC2 、MC3 總共包含編號1、2、3、5~15、(Z-2)及(Z-1)之操作內容。此時,權重調整器114選定功能詞彙“定位”作為權重調整詞彙C。
在步驟S303中,權重調整器114在該N個選用活動模型中選定一選用活動模型MCm 作為一權重調整模型。在步驟S304中,權重調整器114統計或計算權重調整詞彙C在權重調整模型所含之複數操作內容中的出現次數作為一第一出現次數nc,m 。同樣以表(一)及表(二)所示之操作紀錄為例,權重調整器114先選定上述第一選用活動模型MC1 作為權重調整模型。此時,權重調整模型包含編號1、2、3、(Z-2)及(Z-1)之操 作內容,且權重調整詞彙C為“定位”。接著,權重調整器114可以找到權重調整詞彙C“定位”分別出現在編號(Z-2)以及編號(Z-1)之操作紀錄中。最後,權重調整器114統計出權重調整詞彙C“定位”之第一出現次數nc,m 為2。
在步驟S305中,權重調整器114找出權重調整詞彙C在權重調整模型所含之複數操作內容中對應之每一應用程式名稱。權重調整器114會計算該應用程式名稱在所有選用活動模型中之出現次數作為一第二出現次數na,c,m 。同樣以表(一)及表(二)所示之操作紀錄為例,權重調整器114找出權重調整詞彙C“定位”所對應之應用程式名稱為“電子地圖”。接著,權重調整器114統計該應用程式名稱“電子地圖”在所有選用活動模型MCm (m=1~N)對應之複數操作內容中的出現次數。假設,該應用程式名稱“電子地圖”在該等操作內容中被使用了23次。最後,權重調整器114統計出權重調整詞彙C“定位”對應之第二出現次數na,c,m 為23。
在步驟S306中,權重調整器114依據該第一出現次數nc,m 以及該第二出現次數na,c,m 計算權重調整詞彙C對應之一選用權重值wc,m (m=1~N)。在步驟S307中,權重調整器114判斷是否每一選用活動模型MCm (m=1~N)皆計算出一對應之該選用權重值wc,m (m=1~N)。若是,進入步驟S308;若否,則回到步驟S303。
在步驟S308中,權重調整器114依據每一選用活動模型MCm (m=1~N)對應之每一選用權重值wc,m (m=1~N)計算出權重調整詞彙C對應之一權重值Wc ,其中權重值之計算係依據 下式:
在步驟S309中,權重調整器114判斷所有選用活動模型MCm (m=1~N)中之每一辨識詞彙是否皆計算出一對應之權重值Wc 。若是,進入步驟S310;若否,則回到步驟S302。在步驟S310中,權重調整器114將所有選用活動模型MCm (m=1~N)中每一辨識詞彙對應之權重值Wc 作為權重調整資訊,並將該權重調整資訊輸出至辨識器115。
本揭露之另一實施例說明辨識器115依據權重調整資訊以及該語音輸入,輸出一語音辨識結果。在本實施例中,辨識器115儲存一辨識詞彙詞庫,其中該辨識詞彙詞庫包含執行電子裝置10之操作功能時會使用到的所有辨識詞彙,且每一辨識詞彙皆具有一對應之權重值Wc 。辨識器115在接收到來自權重調整器114輸出之權重調整資訊後,利用權重調整資訊更新辨識詞彙詞庫,即會將所有選用活動模型MCm (m=1~N)中每一辨識詞彙對應之權重值Wc 取代該辨識詞彙詞庫中相同辨識詞彙對應到之權重值Wc 。辨識器115依據該語音輸入,在更新過之辨識詞彙詞庫中辨識出一辨識目標詞彙,其中該辨識目標詞彙為辨識詞彙詞庫中所包含之目標詞彙的其中之一。
接著,辨識器115在操作紀錄儲存器111所儲存之該等操作內容中,找出與辨識目標詞彙在同一操作內容之每一功能詞彙,再依據每一功能詞彙對應之應用程式名稱之第二出現次數na,c,m 大小排序該等功能詞彙。最後,辨識器115將該辨識目標詞彙以及該等排序過之功能詞彙傳送至顯示器120顯示。 此時,該使用者透過顯示器120於該等排序過之功能詞彙中選定一辨識功能詞彙。最後,辨識器115於接收該辨識功能詞彙之後,將該辨識目標詞彙與該辨識功能詞彙作為該語音辨識結果。
第4圖顯示在辨識詞彙分群、辨識詞彙權重值以及辨識成功率彼此之間之關係圖。在本實施例中,選定1000個人名詞彙作為辨識器115之辨識詞彙詞庫,且每一人名詞彙在辨識網路的權重初始值為1/1000=0.001。接著,辨識器115依序輸入906個語音輸入進行語音辨識,其中該906個語音輸入代表了593個人名詞彙。最後,計算辨識器115的辨識成功率。在辨識過程中,電子裝置10中之操作紀錄儲存器111在辨識一語音輸入時,會紀錄下辨識出之人名詞彙以及進行辨識時電子裝置10之裝置週邊資訊。本實施例之活動模型建構器112依據LBG K-means演算法將操作紀錄儲存器111中之複數操作內容(包括複數人名詞彙)進行分群。於此,為了瞭解分群並僅調整所有選用活動模型中該複數人名詞彙的權重資訊之重要性,本實施例與未經分群即更新人名詞彙之辨識成功率進行比較。
由第4圖之實驗結果可知,經過分群更新權重調整資訊之辨識詞彙詞庫(圖中實線部份)相較未經分群更新權重調整資訊之辨識詞彙詞庫(圖中虛線部份)具有較高的辨識成功率。另外,由先前第3圖之權重調整方法可知,越常被辨識出之人名詞彙會具有較高的權重值Wc (因為第一出現次數nc,m 、第二出現次數na,c,m 較高)。因此,從第5圖可以看出較高的權重值Wc 亦可以提昇人名詞彙的辨識成功率。這是由於本揭露之語 音辨識方法可以依據電子裝置10之週邊資訊與人名詞彙的使用頻率調整該人名詞彙在辨識詞彙詞庫中之權重值,因而大幅提高使用者常用人名詞彙之辨識成功率。
第5圖說明第1圖之語音辨識裝置100之另一實施方式。在第5圖中,電子裝置50依據目前所偵知的目前裝置週邊資訊與一語音輸入,輸出一語音辨識結果。電子裝置50包括一語音辨識裝置500以及一顯示器510。語音辨識裝置500包括一處理器501、一儲存單元502以及一辨識器503。處理器501耦接儲存單元502以及辨識器503。辨識器503耦接顯示器510。儲存單元502與上述操作紀錄儲存器111之儲存內容相同,同樣儲存電子裝置50之複數操作紀錄,其中每一操作紀錄包含電子裝置50執行過之一操作內容,以及紀錄對應該操作內容時電子裝置50所偵知的一裝置周邊資訊。處理器501接收電子裝置50所偵知的目前裝置週邊資訊。接著,處理器501載入及執行一辨識網路產生程式,其中該辨識網路產生程式執行上述活動模型建構器112、活動預測器113以及權重調整器114之動作。最後,處理器501輸出權重調整資訊至辨識器503。辨識器503利用該權重調整資訊辨識該語音輸入,輸出該語音辨識結果。
本揭露雖以較佳實施例揭露如上,使得本領域具有通常知識者能夠更清楚地理解本揭露的內容。然而,本領域具有通常知識者應理解到他們可輕易地以本揭露做為基礎,設計或修改流程以及使用不同的辨識網路產生裝置進行相同的目的和/或達到這裡介紹的實施例的相同優點。因此本揭露之保護範圍當視後附之申請專利範圍所界定者為準。
10‧‧‧電子裝置
100‧‧‧語音辨識裝置
110‧‧‧辨識網路產生裝置
111‧‧‧操作紀錄儲存器
112‧‧‧活動模型建構器
113‧‧‧活動預測器
114‧‧‧權重調整器
115‧‧‧辨識器
120‧‧‧顯示器

Claims (17)

  1. 一種辨識網路產生裝置,設置於一電子裝置上,包括:一操作紀錄儲存器,儲存該電子裝置之複數操作紀錄,其中每一該操作紀錄包含在該電子裝置執行過之一操作內容,與對應該操作內容執行時該電子裝置所偵知的一裝置周邊資訊;一活動模型建構器,耦接該操作紀錄儲存器,依據該複數操作紀錄之所有該裝置周邊資訊,將該複數操作紀錄分群為複數活動模型;一活動預測器,依據該電子裝置目前所偵知的一目前裝置周邊資訊與每一該活動模型的近似度,由該複數活動模型中選出至少一選用活動模型;以及一權重調整器,對該至少一選用活動模型中之所有該操作內容對應之複數辨識詞彙進行權重調整。
  2. 如申請專利範圍第1項所述之辨識網路產生裝置,其中該活動模型建構器將該裝置週邊資訊轉化成一特徵資料;該活動模型建構器依據所有該特徵資料之間的近似度將該等特徵資料分群為該複數活動模型,其中每一該活動模型依據所含之該複數特徵資料產生一代表特徵資料。
  3. 如申請專利範圍第2項所述之辨識網路產生裝置,其中該活動預測器將該目前裝置周邊資訊轉化成一目前特徵資料;該活動預測器依據該目前特徵資料與每一該活動模型對應之該代表特徵資料,計算每一該活動模型對應之一相似係數;該活動預測器根據該相似係數,挑選出該至少一選用活動 模型。
  4. 如申請專利範圍第1項所述之辨識網路產生裝置,其中該操作內容對應之該複數辨識詞彙包括至少一目標詞彙或一功能詞彙,其中且該操作內容更包括一應用程式名稱。
  5. 如申請專利範圍第4項所述之辨識網路產生裝置,其中該權重調整器係依據該辨識詞彙在該至少一選用活動模型之所有該操作內容中之一第一出現次數以及每一該應用程式名稱在該至少一選用活動模型之每一該操作內容中之一第二出現次數,對該至少一選用活動模型中之所有該操作內容對應之該複數辨識詞彙進行權重調整。
  6. 如申請專利範圍第5項所述之辨識網路產生裝置,其中該電子裝置更包括一顯示器以及一辨識器;其中該辨識器,耦接該權重調整器,接收該權重調整器輸出之一權重調整資訊,並接收一語音輸入;其中該辨識器儲存一辨識詞彙詞庫,並利用該權重調整資訊更新該辨識詞彙詞庫;其中該辨識器依據該語音輸入與更新過之該辨識詞彙詞庫辨識出一辨識目標詞彙,其中該辨識目標詞彙為該辨識詞彙詞庫中所有目標詞彙的其中之一;其中該辨識器在所有該操作內容中找出跟該辨識目標詞彙在相同該操作內容之每一該功能詞彙,再依據每一該功能詞彙對應之該應用程式名稱之該第二出現次數大小排序每一該功能詞彙;以及其中該顯示器,耦接該辨識器,用以顯示來自該辨識器之 該辨識目標詞彙以及排序過之每一該功能詞彙。
  7. 如申請專利範圍第6項所述之辨識網路產生裝置,其中一使用者在排序過之每一該功能詞彙中選擇一辨識功能詞彙,該辨識器接收該辨識功能詞彙,並將該辨識目標詞彙與該辨識功能詞彙作為輸出之一語音辨識結果。
  8. 如申請專利範圍第1項所述之辨識網路產生裝置,其中每一裝置周邊資訊可包括一感應裝置狀態、一時間狀態、一位置狀態、一移動狀態、一無線傳輸介面狀態、或一有線傳輸介面狀態。
  9. 一種辨識網路產生方法,包括:儲存使用一電子裝置之複數操作紀錄其中每一該操作紀錄包含在該電子裝置執行過之一操作內容,與對應該操作內容執行時該電子裝置所偵知的一裝置周邊資訊;依據該複數操作紀錄之所有該裝置周邊資訊,將該複數操作紀錄分群為複數活動模型;依據該電子裝置目前所偵知的一目前裝置周邊資訊與每一該活動模型的近似度,由該複數活動模型中選出至少一選用活動模型;以及對該至少一選用活動模型中之所有該操作內容對應之複數辨識詞彙進行權重調整。
  10. 如申請專利範圍第9項所述之辨識網路產生方法,更包括:將該裝置週邊資訊轉化成一特徵資料;依據所有該特徵資料之間的近似度將該等特徵資料分群 為該複數活動模型,其中每一該活動模型依據所含之該複數特徵資料產生一代表特徵資料。
  11. 如申請專利範圍第10項所述之辨識網路產生方法,更包括:將該目前裝置周邊資訊轉化成一目前特徵資料;依據該目前特徵資料與每一該活動模型對應之該代表特徵資料,計算每一該活動模型對應之一相似係數;根據該相似係數,挑選出該至少一選用活動模型。
  12. 如申請專利範圍第9項所述之辨識網路產生方法,其中該操作內容對應之該複數辨識詞彙包括至少一目標詞彙或一功能詞彙,且每一該操作內容更包括一應用程式名稱。
  13. 如申請專利範圍第12項所述之辨識網路產生方法,其中對候用更依據該辨識詞彙在該至少一選用活動模型之所有該操作內容中之一第一出現次數以及每一該應用程式名稱在該至少一選用活動模型之所有該操作內容中之一第二出現次數,對該至少一選用活動模型中之所有該操作內容對應之該複數辨識詞彙進行權重調整。
  14. 如申請專利範圍第13項所述之辨識網路產生方法,其中接收一權重調整資訊以及一語音輸入,並利用該權重調整資訊更新一辨識詞彙詞庫;其中更依據該語音輸入與更新過之該辨識詞彙詞庫辨識出一辨識目標詞彙,且該辨識目標詞彙為該辨識詞彙詞庫中所有目標詞彙的其中之一;以及在所有該操作內容中找出跟該辨識目標詞彙在相同該操 作內容之每一該功能詞彙,再依據每一該功能詞彙對應之該應用程式名稱之該第二出現次數大小排序每一該等功能詞彙。
  15. 如申請專利範圍第14項所述之辨識網路產生方法,其中一使用者在排序過之每一該功能詞彙中選擇一辨識功能詞彙,並將該辨識目標詞彙與該辨識功能詞彙作為輸出之一語音辨識結果。
  16. 如申請專利範圍第9項所述之辨識網路產生方法,其中每一裝置周邊資訊可包括一感應裝置狀態、一時間狀態、一位置狀態、一移動狀態、一無線傳輸介面狀態、或一有線傳輸介面狀態。
  17. 一種語音辨識裝置,設於一電子裝置上,包括:一儲存單元,儲存該電子裝置之複數操作紀錄,其中每一該操作紀錄包含在該電子裝置執行過之一操作內容,與對應該操作內容執行時該電子裝置所偵知的一裝置周邊資訊;一辨識器;以及一處理器,耦接該儲存單元,該處理器用以載入及執行一辨識網路產生程式;該處理器執行該辨識網路產生程式,依據該複數操作紀錄之所有裝置周邊資訊,將該複數操作紀錄分群為複數活動模型;該處理器執行該辨識網路產生程式,依據該電子裝置目前所偵知的一目前裝置周邊資訊與每一該活動模型的近似度,由該複數活動模型中選出至少一選用活動模型;該處理器執行該辨識網路產生程式,對該至少一選用活動模型中之所有該操作內容對應之複數辨識詞彙進行權重調整; 以及該辨識器利用一權重調整資訊辨識一語音輸入,輸出一語音辨識結果。
TW102147889A 2013-12-24 2013-12-24 辨識網路產生裝置及其方法 TWI506458B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW102147889A TWI506458B (zh) 2013-12-24 2013-12-24 辨識網路產生裝置及其方法
CN201310746425.2A CN104731548B (zh) 2013-12-24 2013-12-30 辨识网络产生装置及其方法
US14/541,116 US10002609B2 (en) 2013-12-24 2014-11-13 Device and method for generating recognition network by adjusting recognition vocabulary weights based on a number of times they appear in operation contents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW102147889A TWI506458B (zh) 2013-12-24 2013-12-24 辨識網路產生裝置及其方法

Publications (2)

Publication Number Publication Date
TW201525732A TW201525732A (zh) 2015-07-01
TWI506458B true TWI506458B (zh) 2015-11-01

Family

ID=53400693

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102147889A TWI506458B (zh) 2013-12-24 2013-12-24 辨識網路產生裝置及其方法

Country Status (3)

Country Link
US (1) US10002609B2 (zh)
CN (1) CN104731548B (zh)
TW (1) TWI506458B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887507B (zh) * 2019-04-22 2021-03-12 成都启英泰伦科技有限公司 一种降低相似语音命令词误识别率的方法
CN110288983B (zh) * 2019-06-26 2021-10-01 上海电机学院 一种基于机器学习的语音处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW548630B (en) * 2000-09-08 2003-08-21 Qualcomm Inc System and method for automatic voice recognition using mapping
TWI311311B (en) * 2006-11-16 2009-06-21 Inst Information Industr Speech recognition device, method, application program, and computer readable medium for adjusting speech models with selected speech data
US7882056B2 (en) * 2007-09-18 2011-02-01 Palo Alto Research Center Incorporated Method and system to predict and recommend future goal-oriented activity

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6122361A (en) 1997-09-12 2000-09-19 Nortel Networks Corporation Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality
SE9801140D0 (sv) 1998-04-01 1998-04-01 Tetra Laval Holdings & Finance Laminerat förpackningsmaterial samt förpackningsbehållare framställd därav
US6370503B1 (en) 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
US6856957B1 (en) * 2001-02-07 2005-02-15 Nuance Communications Query expansion and weighting based on results of automatic speech recognition
US7873523B2 (en) 2005-06-30 2011-01-18 Microsoft Corporation Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech
US8032375B2 (en) 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US7752152B2 (en) 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US8244545B2 (en) 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
TWI319563B (en) 2007-05-31 2010-01-11 Cyberon Corp Method and module for improving personal speech recognition capability
CN101388011B (zh) * 2007-09-13 2011-07-20 北京搜狗科技发展有限公司 一种向用户词库中记录信息的方法和装置
JP5190252B2 (ja) 2007-11-27 2013-04-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 嗜好マッチング・システム、方法及びプログラム
US8255224B2 (en) 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US20090234655A1 (en) 2008-03-13 2009-09-17 Jason Kwon Mobile electronic device with active speech recognition
KR101537078B1 (ko) 2008-11-05 2015-07-15 구글 인코포레이티드 사용자 정의 언어 모델들
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US8239129B2 (en) 2009-07-27 2012-08-07 Robert Bosch Gmbh Method and system for improving speech recognition accuracy by use of geographic information
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US9009041B2 (en) 2011-07-26 2015-04-14 Nuance Communications, Inc. Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
JP5694102B2 (ja) 2011-09-22 2015-04-01 株式会社東芝 音声認識装置、音声認識方法およびプログラム
CN102737629B (zh) * 2011-11-11 2014-12-03 东南大学 一种嵌入式语音情感识别方法及装置
CN103177721B (zh) * 2011-12-26 2015-08-19 中国电信股份有限公司 语音识别方法和***
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW548630B (en) * 2000-09-08 2003-08-21 Qualcomm Inc System and method for automatic voice recognition using mapping
TWI311311B (en) * 2006-11-16 2009-06-21 Inst Information Industr Speech recognition device, method, application program, and computer readable medium for adjusting speech models with selected speech data
US7882056B2 (en) * 2007-09-18 2011-02-01 Palo Alto Research Center Incorporated Method and system to predict and recommend future goal-oriented activity

Also Published As

Publication number Publication date
US20150179171A1 (en) 2015-06-25
CN104731548B (zh) 2017-09-29
TW201525732A (zh) 2015-07-01
CN104731548A (zh) 2015-06-24
US10002609B2 (en) 2018-06-19

Similar Documents

Publication Publication Date Title
US9905090B2 (en) Automatic fitting of haptic effects
CN108228270B (zh) 启动资源加载方法及装置
KR20190004495A (ko) 챗봇을 이용한 태스크 처리 방법, 장치 및 시스템
CN108874895B (zh) 交互信息推送方法、装置、计算机设备及存储介质
CN107704070B (zh) 应用清理方法、装置、存储介质及电子设备
TWI654600B (zh) 語音情緒辨識系統與方法以及使用其之智慧型機器人
CN107610698A (zh) 一种实现语音控制的方法、机器人及计算机可读存储介质
JP2010537321A (ja) 統計的分類のための最適な選択方略の方法及びシステム
US11257482B2 (en) Electronic device and control method
CN110019777A (zh) 一种信息分类的方法及设备
KR20190096308A (ko) 전자기기
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
US20230385377A1 (en) Device, method, and computer program for performing actions on iot devices
JP2021076818A (ja) 音声対話するための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
CN111460117B (zh) 对话机器人意图语料生成方法、装置、介质及电子设备
TWI506458B (zh) 辨識網路產生裝置及其方法
JP2020042131A (ja) 情報処理装置、情報処理方法、およびプログラム
JP6255274B2 (ja) 情報処理装置、音声対話装置、および制御プログラム
US20190026074A1 (en) Electronic device and method for expressing natural language
WO2023246558A1 (zh) 语义理解方法、装置、介质及设备
CN116431458B (zh) 一种平板电脑智能管理***与方法
CN108231074A (zh) 一种数据处理方法、语音助手设备及计算机可读存储介质
KR102226427B1 (ko) 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법
CN110390102A (zh) 一种情感分析的方法和相关装置
CN112948763B (zh) 件量预测方法、装置、电子设备及存储介质