TWI506458B

TWI506458B - 辨識網路產生裝置及其方法

Info

Publication number: TWI506458B
Application number: TW102147889A
Authority: TW
Inventors: Hsin Chang Chang; jiang chun Chen; Chih Chung Kuo
Original assignee: Ind Tech Res Inst
Priority date: 2013-12-24
Filing date: 2013-12-24
Publication date: 2015-11-01
Also published as: US20150179171A1; CN104731548B; TW201525732A; CN104731548A; US10002609B2

Description

辨識網路產生裝置及其方法

本揭露是有關於一種辨識網路產生裝置，特別是有關於提高語音辨識成功率之辨識網路產生裝置。

現今，各種智慧型電子裝置不斷推陳出新。使用者生活中也越形依賴智慧型電子裝置提供的功能；然而，使用者往往會因個人操作習慣或喜好不同，在使用智慧型電子裝置中的應用程式會有不同的操作行為。例如，使用者偏好收聽裝置內儲存2000首歌的其中幾首；或是使用者常聯絡的朋友只有幾位，但其通訊錄卻有500位聯絡人。因此，如何依據電子裝置中所有操作功能的使用頻率以及電子裝置被使用時紀錄下的週邊資訊，判斷出使用者在智慧型電子裝置中可能使用的功能成為一需要解決的問題。

本揭露之一實施例提供一種辨識網路產生裝置。該辨識網路產生裝置設置於一電子裝置上，包括一操作紀錄儲存器、一活動模型建構器、一活動預測器以及一權重調整器。該操作紀錄儲存器儲存該電子裝置之複數操作紀錄，其中每一操作紀錄包含在該電子裝置執行過之一操作內容，與對應該操作內容執行時該電子裝置所偵知的一裝置周邊資訊。該活動模型建構器耦接該操作紀錄儲存器，依據該複數操作紀錄之所有裝置周邊資訊，將該複數操作紀錄分群為複數活動模型。該活動預測器依據該電子裝置目前所偵知的一目前裝置周邊資訊與每一該活動模型的近似度，由該複數活動模型中選出至少一選用活動模型。該權重調整器對至少一選用活動模型中之所有操作內容對應之複數辨識詞彙進行權重調整。

本揭露之一實施例提供一種辨識網路產生方法，包括以下步驟：儲存使用一電子裝置之複數操作紀錄，其中每一操作紀錄包含在該電子裝置執行過之一操作內容，與對應該操作內容執行時該電子裝置所偵知的一裝置周邊資訊；依據該複數操作紀錄之所有裝置周邊資訊，將該等操作紀錄分群為複數活動模型；依據該電子裝置目前所偵知的一目前裝置周邊資訊與每一活動模型的近似度，由該複數活動模型中選出至少一選用活動模型；以及對至少一選用活動模型中之所有操作內容對應之複數辨識詞彙進行權重調整。

本揭露之一實施例提供一種語音辨識装置。語音辨識装置，設於一電子裝置上，包括一儲存單元、一辨識器、以及一處理器。儲存單元，儲存該電子裝置之複數操作紀錄，其中每一操作紀錄包含在該電子裝置執行過之一操作內容，以及對應該操作內容執行時該電子裝置所偵知的一裝置周邊資訊；處理器，耦接該儲存單元，該處理器用以載入及執行一辨識網路產生程式；處理器執行該辨識網路產生程式，依據該複數操作紀錄之所有裝置周邊資訊，將該複數操作紀錄分群為複數活動模型，依據該電子裝置目前所偵知的一目前裝置周邊資訊與每一活動模型的近似度，由該複數活動模型中選出至少一選用活動模型，對該至少一選用活動模型中之所有該操作內容對應之複數辨識詞彙進行權重調整，以及辨識器利用一權重調整資訊辨識一語音輸入，輸出一語音辨識結果。

10‧‧‧電子裝置

100‧‧‧語音辨識裝置

110‧‧‧辨識網路產生裝置

111‧‧‧操作紀錄儲存器

112‧‧‧活動模型建構器

113‧‧‧活動預測器

114‧‧‧權重調整器

115‧‧‧辨識器

120‧‧‧顯示器

50‧‧‧電子裝置

500‧‧‧語音辨識裝置

501‧‧‧處理器

502‧‧‧儲存單元

503‧‧‧辨識器

510‧‧‧顯示器

第1圖顯示一電子裝置10，搭載有依據本揭露之一實施例提出之一語音辨識裝置100。

第2圖顯示活動模型建構器112在不同時間對複數個特徵向量之分群結果。

第3圖係以流程圖舉例說明權重調整器114對所有選用活動模型中之複數辨識詞彙進行權重調整。

第4圖顯示在辨識詞彙分群、辨識詞彙權重值以及辨識成功率彼此之間之關係圖。

第5圖說明第1圖之語音辨識裝置100之另一實施方式。

第1圖顯示一電子裝置10，搭載有依據本揭露之一實施例提出之一語音辨識裝置100。電子裝置10包括一語音辨識裝置100以及一顯示器120。電子裝置10依據所偵知的目前裝置週邊資訊以及一語音輸入，輸出一語音辨識結果。語音辨識裝置100包括一辨識網路產生裝置110以及一辨識器115。辨識網路產生裝置110包括一操作紀錄儲存器111、一活動模型建構器112、一活動預測器113以及一權重調整器114。操作紀錄儲存器111耦接活動模型建構器112。活動預測器113分別耦接活動模型建構器112與權重調整器114。活動預測器113接收電子裝置10目前所偵知的目前裝置周邊資訊以及來自活動模型建構器112之複數活動模型。權重調整器114接收來自活動預測器113之至少一選用活動模型，輸出用以更新辨識網路之一權重調整資訊。辨識器115耦接權重調整器114以及顯示器120。辨識器115接收權重調整器114輸出之權重調整資訊以及該語音輸入。最後，辨識器115利用權重調整資訊辨識該語音輸入，輸出該語音辨識結果。

表(一)及表(二)舉例說明操作紀錄儲存器111所儲存之複數筆操作紀錄的內容，其中每一操作紀錄包含電子裝置10執行過之操作內容，以及紀錄對應操作內容執行時電子裝置10所偵知的裝置周邊資訊。在本實施例中，操作紀錄儲存器111用以儲存一使用者使用電子裝置10之複數操作紀錄。每一該等操作紀錄儲存了該使用者操作電子裝置10時的行為紀錄以及電子裝置10當時的狀態；表(一)中每一該等行為紀錄為電子裝置10執行過之一操作內容，而表(二)中紀錄電子裝置10當時的狀態，亦即執行對應上述操作內容執行時電子裝置10所偵知的裝置周邊資訊。每一操作內容包含目標詞彙、功能詞彙、應用程式名稱以及使用者操作應用程式之一操作方式，其中目標詞彙或功能詞彙為操作內容對應之複數辨識詞彙。每一裝置週邊資訊包括電子裝置10中的感應裝置狀態、時間狀態、位置狀態/移動狀態、無線傳輸介面狀態以及有線傳輸介面狀態；但本揭露之實施例不限定於此。

在本範例實施例中，表(一)及表(二)所示之編號1操作紀錄，一使用者於駕駛車輛的時候，使用例如是智慧型手機或平板電腦等之電子裝置10，在電子裝置10的顯示器120上觸控選定歌手陳奕迅的歌曲播放。此時，電子裝置10就會偵測並收集電子裝置10的裝置週邊資訊，例如，「星期六上午」(時間狀態)、「移動中」(位置狀態)、「中華-3G」(無線傳輸介面狀態)以及「汽車插座」(有線傳輸介面狀態)。接著，電子裝置10之操作紀錄儲存器111就會在表(一)及表(二)紀錄成為編號1操作紀錄。該編號1操作紀錄包含操作內容以及裝置週邊資訊，其中表(一)紀錄的操作內容包含「音樂」(應用程式名稱)、「播放」(功能詞彙)、「陳奕迅」(目標詞彙)以及「觸控」(操作方式)。

其中，表(一)中的應用程式名稱包括所有可在電子裝置10上操作的軟體名稱，例如音樂、天氣資訊、遊戲、股市、通訊錄等等。功能詞彙代表執行該應用程式名稱之動作名稱，而目標詞彙代表功能詞彙的執行對象。舉例來說不論以音控、觸控等任何控制方式達成的操作，例如：“查詢(功能詞彙)食品公司(目標詞彙)的股票(應用程式名稱-股市)”或是“請找(功能詞彙)李大明(目標名稱)(應用程式名稱-電話)”均能對應區別出「功能詞彙」、「目標詞彙」或「應用程式名稱」以便加以紀錄；其中應用程式名稱通訊錄可由該使用者操作電子裝置10時決定。因此，電子裝置10之操作紀錄儲存器111就會在該使用者每次使用應用程式時，紀錄電子裝置10操作內容以及當時的裝置週邊資訊作為一筆操作紀錄。因此，操作紀錄儲存器111儲存了該使用者使用電子裝置10時的每一該等操作紀錄。

本揭露之一實施例說明活動模型建構器112如何將操作紀錄分群為複數活動模型中，即依據複數操作紀錄之每一裝置周邊資訊，將複數操作紀錄分群為複數活動模型。首先，活動模型建構器112載入操作紀錄儲存器111中的所有操作紀錄。活動模型建構器112將所有操作紀錄中的每一裝置週邊資訊分別轉化成一特徵資料。在本實施例中，該特徵資料為一特徵向量。以表(一)及表(二)中之編號1操作紀錄為例，活動模型建構器112將該編號1操作紀錄之週邊資訊(星期六上午、移動中、中華-3G以及汽車插座)轉換成一特徵向量X₁ =[7.7,8,3,5]；或是以表(一)及表(二)中中之編號7操作紀錄為例，活動模型建構器112將該編號7操作紀錄之週邊資訊(星期四上午、停留、公司-Wi-Fi以及公司筆電連接線)轉換成一特徵向量X₇ =[4.9,3,8,10]。同理，活動模型建構器112將表(一)及(二)中之編號1~編號Z操作紀錄之週邊資訊對應轉換成Z個特徵向量X₁ ~X_Z 。

此時，活動模型建構器112依據該Z個特徵向量X₁ ~X_Z 之數值特性將該等特徵向量X₁ ~X_Z 分成K個群組，即活動模型建構器112依據該等特徵資料(特徵向量X₁ ~X_Z )之間的近似度將該等特徵資料分群為複數活動模型，其中每一複數活動模型依據所含之複數特徵資料產生一代表特徵資料。在本實施例中，活動模型建構器112例如使用LBG K-means演算法利用該Z個特徵向量X₁ ~X_Z 做分群之動作，其中本揭露不並限於上述LBG K-means演算法，亦可例如使用K-means演算法或KNN(k-Nearest Neighbor)演算法，即活動模型建構器112依據上述演算法，依照特徵向量X₁ ~X_Z 之間的近似度將特徵向量X₁ ~X_Z 分群為複數個活動模型，但本揭露不限於此。在進行分群之後(例如分成K群)，活動模型建構器112會對每一群該等特徵向量計算出一平均值作為一代表特徵資料，在本實施例中，代表特徵資料為代表特徵向量Y_i (i=1~K)。最後，活動模型建構器112會依據該分群結果建立K個活動模型M₁ ~M_K ，其中每一活動模型M_i (i=1~K)包含一代表特徵向量Y_i 、被分群至第i群之複數特徵向量以及被分群至第i群之複數特徵向量所對應之複數操作內容。

第2圖顯示活動模型建構器112在不同時間對該等個特徵向量之分群結果。由於操作紀錄儲存器111會持續紀錄該使用者留下的操作紀錄，並傳送至活動模型建構器112更新。如第2圖所示，操作紀錄儲存器111在一週後多紀錄了七個操作紀錄，並依此類推。當操作紀錄儲存器111紀錄下新的操作內容和裝置週邊資訊，活動模型建構器112隨之產生新的特徵向量X_j 。接著，活動模型建構器112會透過例如LBG K-means演算法對所有的特徵向量重新進行分群。因此，第2圖顯示了不同時間點(例如：現在、一週後、兩週後、三週後以及四周後)活動模型建構器112產生的分群結果，其中每一活動模型中的每一點代表了一個特徵向量。

在本範例實施例中，由第2圖可知，活動模型建構器112最初依據現有操作紀錄建立一第一活動模型。在兩週後，活動模型建構器112已透過LBG K-means演算法將所有特徵向量分成兩群，並分別建立對應之第一活動模型與第二活動模型。這是由於使用LBG K-means演算法的特點是會將特徵向量最多的活動模型***成為兩個。接著，在三週後，可以發現第二活動模型所屬相較第一活動模型具有較多的特徵向量，且第二活動模型所屬之該等特徵向量亦具有較大的差異性。最後，直到四週後，活動模型建構器112同樣透過LBG K-means演算法將所有特徵向量分成新的第一、第二及第三活動模型。

本揭露之一實施例說明活動預測器113依據電子裝置目前所偵知的目前裝置周邊資訊與每一活動模型M_i (i=1~K)的近似度，由複數活動模型中選出至少一選用活動模型。首先，活動預測器113接收電子裝置10目前所偵知的目前裝置周邊資訊以及來自活動模型建構器112之該複數活動模型。活動預測器113將該目前裝置週邊資訊轉換成一目前特徵資料；在本實施例中，該目前特徵資料為一目前特徵向量X_C 。接著，活動預測器113分別依據該目前特徵向量X_C 與每一活動模型M_i (i=1~K)對應之代表特徵向量Y_i (i=1~K)，計算每一活動模型M_i (i=1~K)對應之一相似係數C_i (i=1~K)。其中該相似係數C_i (i=1~K)例如為該目前特徵向量X_C 與該代表特徵向量Y_i (i=1~K)之間距離的倒數(但是不限定於此)，如下式：C _i =1/|X _c -Y _i |² ,i=1~K，其中|X _c -Y _i |² 表示X_C 與Y_i (i=1~K)之2-norm值。

最後，活動預測器113依據該等相似係數C_i (i=1~K)大小由大至小產生一排序結果，即透過相似係數C_i (i=1~K)可得知目前裝置周邊資訊與每一活動模型M_i (i=1~K)的近似度，活動預測器113將排序結果中前N個相似係數對應到之活動模型M_i (i=1~K)中選出為至少一選用活動模型M_Cm (m=1~N)。

第3圖係以流程圖舉例說明權重調整器114對該至少一選用活動模型M_Cm (m=1~N)中每一操作內容對應之複數辨識詞彙進行權重調整。本實施例中所指的辨識詞彙則為目標詞彙或是功能詞彙。在步驟S301中，權重調整器114接收來自活動預測器113之所有選用活動模型M_Cm (m=1~N)。如先前所述，每一選用活動模型M_Cm (m=1~N)包含一代表特徵向量Y_m 、第m群特徵向量以及第m群特徵向量所對應之複數操作內容。在步驟S302中，權重調整器114在該所有選用活動模型M_Cm (m=1~N)所包含之複數辨識詞彙中選定一辨識詞彙作為一權重調整詞彙C，即權重調整器114係依據複數辨識詞彙在每一選用活動模型M_Cm (m=1~N)之每一操作內容中之一第一出現次數n_c,m 以及每一應用程式名稱在每一選用活動模型M_Cm (m=1~N)之每一操作內容中之一第二出現次數n_a,c,m ，對每一選用活動模型M_Cm (m=1~N)中之所有操作內容對應之複數辨識詞彙進行權重調整。例如，活動預測器113先在表(一)及表(二)之複數操作紀錄中選定三個選用活動模型M_Cm (m=1~3)，其中該三個選用活動模型M_C1 、M_C2 、M_C3 總共包含編號1、2、3、5~15、(Z-2)及(Z-1)之操作內容。此時，權重調整器114選定功能詞彙“定位”作為權重調整詞彙C。

在步驟S303中，權重調整器114在該N個選用活動模型中選定一選用活動模型M_Cm 作為一權重調整模型。在步驟S304中，權重調整器114統計或計算權重調整詞彙C在權重調整模型所含之複數操作內容中的出現次數作為一第一出現次數n_c,m 。同樣以表(一)及表(二)所示之操作紀錄為例，權重調整器114先選定上述第一選用活動模型M_C1 作為權重調整模型。此時，權重調整模型包含編號1、2、3、(Z-2)及(Z-1)之操作內容，且權重調整詞彙C為“定位”。接著，權重調整器114可以找到權重調整詞彙C“定位”分別出現在編號(Z-2)以及編號(Z-1)之操作紀錄中。最後，權重調整器114統計出權重調整詞彙C“定位”之第一出現次數n_c,m 為2。

在步驟S305中，權重調整器114找出權重調整詞彙C在權重調整模型所含之複數操作內容中對應之每一應用程式名稱。權重調整器114會計算該應用程式名稱在所有選用活動模型中之出現次數作為一第二出現次數n_a,c,m 。同樣以表(一)及表(二)所示之操作紀錄為例，權重調整器114找出權重調整詞彙C“定位”所對應之應用程式名稱為“電子地圖”。接著，權重調整器114統計該應用程式名稱“電子地圖”在所有選用活動模型M_Cm (m=1~N)對應之複數操作內容中的出現次數。假設，該應用程式名稱“電子地圖”在該等操作內容中被使用了23次。最後，權重調整器114統計出權重調整詞彙C“定位”對應之第二出現次數n_a,c,m 為23。

在步驟S306中，權重調整器114依據該第一出現次數n_c,m 以及該第二出現次數n_a,c,m 計算權重調整詞彙C對應之一選用權重值w_c,m (m=1~N)。在步驟S307中，權重調整器114判斷是否每一選用活動模型M_Cm (m=1~N)皆計算出一對應之該選用權重值w_c,m (m=1~N)。若是，進入步驟S308；若否，則回到步驟S303。

在步驟S308中，權重調整器114依據每一選用活動模型M_Cm (m=1~N)對應之每一選用權重值w_c,m (m=1~N)計算出權重調整詞彙C對應之一權重值W_c ，其中權重值之計算係依據下式：

在步驟S309中，權重調整器114判斷所有選用活動模型M_Cm (m=1~N)中之每一辨識詞彙是否皆計算出一對應之權重值W_c 。若是，進入步驟S310；若否，則回到步驟S302。在步驟S310中，權重調整器114將所有選用活動模型M_Cm (m=1~N)中每一辨識詞彙對應之權重值W_c 作為權重調整資訊，並將該權重調整資訊輸出至辨識器115。

本揭露之另一實施例說明辨識器115依據權重調整資訊以及該語音輸入，輸出一語音辨識結果。在本實施例中，辨識器115儲存一辨識詞彙詞庫，其中該辨識詞彙詞庫包含執行電子裝置10之操作功能時會使用到的所有辨識詞彙，且每一辨識詞彙皆具有一對應之權重值W_c 。辨識器115在接收到來自權重調整器114輸出之權重調整資訊後，利用權重調整資訊更新辨識詞彙詞庫，即會將所有選用活動模型M_Cm (m=1~N)中每一辨識詞彙對應之權重值W_c 取代該辨識詞彙詞庫中相同辨識詞彙對應到之權重值W_c 。辨識器115依據該語音輸入，在更新過之辨識詞彙詞庫中辨識出一辨識目標詞彙，其中該辨識目標詞彙為辨識詞彙詞庫中所包含之目標詞彙的其中之一。

接著，辨識器115在操作紀錄儲存器111所儲存之該等操作內容中，找出與辨識目標詞彙在同一操作內容之每一功能詞彙，再依據每一功能詞彙對應之應用程式名稱之第二出現次數n_a,c,m 大小排序該等功能詞彙。最後，辨識器115將該辨識目標詞彙以及該等排序過之功能詞彙傳送至顯示器120顯示。此時，該使用者透過顯示器120於該等排序過之功能詞彙中選定一辨識功能詞彙。最後，辨識器115於接收該辨識功能詞彙之後，將該辨識目標詞彙與該辨識功能詞彙作為該語音辨識結果。

第4圖顯示在辨識詞彙分群、辨識詞彙權重值以及辨識成功率彼此之間之關係圖。在本實施例中，選定1000個人名詞彙作為辨識器115之辨識詞彙詞庫，且每一人名詞彙在辨識網路的權重初始值為1/1000=0.001。接著，辨識器115依序輸入906個語音輸入進行語音辨識，其中該906個語音輸入代表了593個人名詞彙。最後，計算辨識器115的辨識成功率。在辨識過程中，電子裝置10中之操作紀錄儲存器111在辨識一語音輸入時，會紀錄下辨識出之人名詞彙以及進行辨識時電子裝置10之裝置週邊資訊。本實施例之活動模型建構器112依據LBG K-means演算法將操作紀錄儲存器111中之複數操作內容(包括複數人名詞彙)進行分群。於此，為了瞭解分群並僅調整所有選用活動模型中該複數人名詞彙的權重資訊之重要性，本實施例與未經分群即更新人名詞彙之辨識成功率進行比較。

由第4圖之實驗結果可知，經過分群更新權重調整資訊之辨識詞彙詞庫(圖中實線部份)相較未經分群更新權重調整資訊之辨識詞彙詞庫(圖中虛線部份)具有較高的辨識成功率。另外，由先前第3圖之權重調整方法可知，越常被辨識出之人名詞彙會具有較高的權重值W_c (因為第一出現次數n_c,m 、第二出現次數n_a,c,m 較高)。因此，從第5圖可以看出較高的權重值W_c 亦可以提昇人名詞彙的辨識成功率。這是由於本揭露之語音辨識方法可以依據電子裝置10之週邊資訊與人名詞彙的使用頻率調整該人名詞彙在辨識詞彙詞庫中之權重值，因而大幅提高使用者常用人名詞彙之辨識成功率。

第5圖說明第1圖之語音辨識裝置100之另一實施方式。在第5圖中，電子裝置50依據目前所偵知的目前裝置週邊資訊與一語音輸入，輸出一語音辨識結果。電子裝置50包括一語音辨識裝置500以及一顯示器510。語音辨識裝置500包括一處理器501、一儲存單元502以及一辨識器503。處理器501耦接儲存單元502以及辨識器503。辨識器503耦接顯示器510。儲存單元502與上述操作紀錄儲存器111之儲存內容相同，同樣儲存電子裝置50之複數操作紀錄，其中每一操作紀錄包含電子裝置50執行過之一操作內容，以及紀錄對應該操作內容時電子裝置50所偵知的一裝置周邊資訊。處理器501接收電子裝置50所偵知的目前裝置週邊資訊。接著，處理器501載入及執行一辨識網路產生程式，其中該辨識網路產生程式執行上述活動模型建構器112、活動預測器113以及權重調整器114之動作。最後，處理器501輸出權重調整資訊至辨識器503。辨識器503利用該權重調整資訊辨識該語音輸入，輸出該語音辨識結果。

本揭露雖以較佳實施例揭露如上，使得本領域具有通常知識者能夠更清楚地理解本揭露的內容。然而，本領域具有通常知識者應理解到他們可輕易地以本揭露做為基礎，設計或修改流程以及使用不同的辨識網路產生裝置進行相同的目的和/或達到這裡介紹的實施例的相同優點。因此本揭露之保護範圍當視後附之申請專利範圍所界定者為準。