TWI457788B

TWI457788B - 互動式語音指令建構系統與方法

Info

Publication number: TWI457788B
Application number: TW101101370A
Authority: TW
Inventors: Chi Tien Chiu; Hsien Cheng Liao
Original assignee: Ind Tech Res Inst
Priority date: 2012-01-13
Filing date: 2012-01-13
Publication date: 2014-10-21
Also published as: TW201329785A

Description

互動式語音指令建構系統與方法

本發明係為一種互動式語音指令建構方法與系統，尤其是有關於一種可根據新動作以產生相對應之一語音指令的互動式語音指令建構方法與系統。

近年來，消費電子在生活上的普及率提高，使用者大量增加。在各種應用中，有個人用的手持系統、平板電腦，與日常生活機具結合之車用電子及機器人、電子玩具等等。然而在使用這些電子產品的便利性，更凸顯出人機介面上的重要。本發明的目的便是為了造就方便的人機互動。

人們在使用這些電子產品時，最直覺便是動手去操作或是用語音指令，而操作這些電子產品需要包含一連串的相關動作，這往往讓使用者有著心生抗拒去使用電子產品的意念。或者是語音指令隨著機器裝置便固定相關語音指令，使用者不容易修改。本發明將這一連串動作以最直覺的語音指令去表示。讓使用者將新動作與其語音指令產生關聯以增加操作的便捷性。

在一實施例中，本發明提供一種互動式語音指令建構方法，包括：記錄一新動作包含判斷動作的起始；以及比較該新動作與歷史動作資訊，以判斷是否有與該新動作相同之動作。若是新動作，則增加語音指令，語音指令根據一預設門檻值以驗證語音指令是否需要產生。

在一實施例中，本發明提供一種互動語音指令建構系統，包括：一動作開始/結束偵測模組，判斷新動作的起始；一動作記錄模組，用以記錄一新動作；一資料庫，用以儲存歷史動作資訊與歷史語音指令；以及一動作比對模組，接收該新動作，並比較該新動作與歷史動作資訊，以判斷是否有與該新動作相同之動作。；一語音指令增加模組，增加對應於新動作之新語音指令；一語音指令驗證模組，以門檻值驗證新語音指令與歷史語音指令，是否增加新語音指令之驗證。

為使　貴審查委員能對本發明之特徵、目的及功能有更進一步的認知與瞭解，下文特將本發明之裝置的相關細部結構以及設計的理念原由進行說明，以使得　審查委員可以了解本發明之特點，詳細說明陳述如下：圖一顯示根據本發明之一實施例之一種互動語音指令建構系統1。該互動語音建構系統包括：一動作開始/結束偵測模組10、一動作紀錄模組11、一資料庫12、一動作比對模組13、一語音指令增加模組14以及一語音指令驗證模組15。該動作開始/結束偵測模組10藉由感測裝置或攝影裝置之訊號，建立動作規則表來判斷該動作的開始與結束。該動作紀錄模組11可藉由感測裝置或攝影裝置以擷取並記錄一新動作，該新動作可為物件動作，例如，交通工具或玩具等物件動作，且該感測裝置與攝影裝置可包括攝影機、感測器等。該資料庫12可用以儲存歷史動作資訊與歷史語音指令。該動作比對模組13可接收該新動作並比較該新動作與歷史動作資訊，以判斷是否有與該新動作相同之動作。若該歷史動作資訊中並無該新動作相同之動作，則根據該新動作輸入一語音，以使該語音指令增加模組14建立一新語音指令並產生一新語音指令特徵值。該語音指令驗證模組15可根據歷史語音指令之一預設門檻值，以驗證該新語音指令特徵值。門檻值之建立可預先設定一經驗值或以其他演算法產生。新語音指令特徵值與資料庫12中歷史語音指令特徵值，可藉由對數相似度演算法(log-Likelihood)得到一彼此之間分數差距，以此分數差距與預設門檻值做比較以進行新語音指令建立與否之判斷，若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距大於該預設門檻值，則儲存該新語音指令至該資料庫12，且該語音指令驗證模組14將該新語音指令特徵值加入歷史語音指令資料庫12中，以作為歷史語音指令特徵值對數相似度分數範圍值之一，以作為下一個新語音指令計算分數差距之依據；否則，若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距小於該預設門檻值，則該語音指令驗證模組放棄該新語音指令或覆蓋一原有的歷史語音指令所對應之動作。此外，若該歷史動作資訊中有與該新動作相同之動作，則該動作比對模組14放棄建立該新語音指令或更改一原有的語音指令。另外，當該新動作不是一種可直接比對的動作且無法直接與該歷史動作資訊相比較時，則進一步應用一演算法來辨別該新動作，且該演算法可為類神經網路演算法、決策樹演算法或支持向量機(support vector machine，SVM)等等。前述之類神經網路演算法包括機械式的背誦學習(rote learning)、指令式的學習(learning by instruction)、類推式的學習(learning by analogy)以及歸納式的學習(learning by induction)等等。

圖二顯示根據本發明之一實施例之一種互動式語音指令建構方法的動作比對流程圖，且該動作比對流程可與圖一之互動式語音指令建構系統搭配並說明之。首先，應用該互動式語音建構方法包括：(步驟S201)應用動作開始/結束偵測模組10與該動作紀錄模組11藉由感測裝置或攝影裝置以擷取並記錄一新動作，該新動作可為物件動作，例如，交通工具或玩具等物件動作，且該感測裝置與攝影裝置可包括攝影機、感測器等。(步驟S202)應用該動作比對模組13比較該新動作與該資料庫中所儲存的歷史動作資訊，(步驟S203)以判斷是否有與該新動作相同之動作，若該歷史動作資訊中並無該新動作相同之動作，(步驟S204)則啟動該語音指令增加模組14，並進一步根據該新動作輸入一語音，以建立一新語音指令並產生一新語音指令特徵值；否則，(步驟S205)若該歷史動作資訊中有與該新動作相同之動作，則放棄建立該新語音指令並重新記錄一新的動作或更改一原有的語音指令以啟動語音指令增加模組14。另外，當該新動作不是一種可直接比對的動作且無法直接與該歷史動作資訊相比較時，則進一步應用一演算法來辨別該新動作，且該演算法可為類神經網路演算法、決策樹演算法或支持向量機(support vector machine，SVM)等等。前述之類神經網路演算法包括機械式的背誦學習(rote learning)、指令式的學習(learning by instruction)、類推式的學習(learning by analogy)以及歸納式的學習(learning by induction)等等。

圖三顯示根據本發明之一實施例之一種互動式語音指令建構方法的驗證語音指令流程圖，且該建構語音指令流程圖亦可與圖二之動作比對流程圖以及圖一之互動式語音建構系統搭配並說明之。當啟動該語音指令增加模組14，並進一步根據該新動作輸入一語音，以建立一新語音指令並產生一新語音指令特徵值之後，(步驟S301)可進行該新語音指令的驗證。接著，(步驟S302)可根據對數相似度演算法(log-Likelihood)，將歷史語音指令特徵值與新語音指令特徵值的對數相似度分數值之一差距與一預設門檻值做比較，以驗證該新語音指令特徵值，若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距大於該預設門檻值，則將該新語音指令特徵值作為一新語音指令參數，(步驟S303)並儲存該新語音指令至該資料庫12作為下次計算新語音指令之對數相似度分數差距依據之一；否則，若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距小於該預設門檻值，(步驟S304)則放棄該新語音指令或覆蓋一原有的歷史語音指令所對應之動作以儲存至該資料庫12，(步驟S305)並重新輸入新語音指令。

此外，本發明之語音指令增加模組14可建立語者相關(speaker dependent)語音指令與語者不相關(speaker independent)語音指令。語者相關語音指令可建立與使用者語音相關特性，最常見的演算法為動態時軸校正(dynamic time warping，以下簡稱DTW)。此DTW演算法在語音辨識上應用了兩筆相近的的音檔來建立語音指令，首先求取音檔的特徵值參數再由DTW演算法建立此語音指令模型參數。而語者不相關語音指令可應用隱藏式馬可夫模型(hidden markov model，HMM)演算法所訓練出來的語音聲學模型，並由使用者錄製音檔做模型參數調整建立語音指令。常見的辨識方法為威特比重估演算法(viterbi re-estimation algorithm)，使用者首先將錄製的指令音檔求取特徵值參數，然後再與原有的HMM模型做組合調適出新的語音指令模型參數。

本發明之互動語音指令建構系統與方法可應用於玩具車互動式語音指令建構系統之一實施例。於此應用中，使用者操作玩具車來建立語音指令，當玩具車進行「S」形的動作時，系統中之動作開始/結束偵測模組10與動作紀錄模組11可將剛剛使用者所進行之動作序列記錄下來，接下來應用動作比對模組13與資料庫12進行比對，以判斷是否為新動作，若為新動作，系統便會啟動語音指令增加模組14進行語音指令輸入；否則，若此動作為舊動作時，系統會詢問使用者是否要更改原有的語音指令或放棄此次語音指令的建立，以重新等待與記錄「新動作」的發生。玩具車的動作可以透過各輪軸伺服馬達上的轉動位置表示。當新動作建立，系統可提示使用者錄製並輸入語音命令，此時使用者可為該新動作輸入欲代表之語音命令，且該語音命令可為一或多句語音檔，如「夥計蛇行」等。此時，語音命令增加模組14便透過語音辨識演算法，將使用者輸入之語音轉為一組語音模型參數，然後透過語音驗證模組14與資料庫12中之語音命令進行驗證。語音指令驗證模組14會依照一門檻值來做驗證標準，當驗證值大於設定的門檻值時，新語音指令便會產生，系統便將該新語音指令對應於該新動作。往後使用者在做此S形動作的操控，便可直接輸入該語音指令以加快處理效率。

圖四顯示本發明應用於電腦系統上進行圖片處理之互動語音指令建構之另一實施例。如圖四所示，於本實施例，當使用者欲將圖片一縮小並旋轉成圖片二時，使用者將對圖片一執行縮小動作，再執行旋轉動作得到圖片二後予以儲存。此時互動式語音命令建構系統中之動作比對模組11將剛剛使用者所進行之動作序列與資料庫12進行比對，如發現為新動作時，將提示使用者是否新增語音命令。使用者可為該新動作輸入欲代表之語音命令，此時，語音命令新增模組14將使用者輸入之語音轉為一組語音模型，再透過語音驗證模組15與資料庫12中之語音命令進行比對，當比對結果為新語音指令時，系統便將該新語音指令對應於該新動作。往後使用者欲將圖片進行相同處理時，便可直接輸入該語音指令以加快處理效率。

本發明可藉由使用者的操作動作，動態產生語音指令。當使用者完成一筆動作時，系統便會由動作資料庫，做動作比對驗證，假若是新動作系統便會啟動增加語音指令的要求。此時使用者馬上透過收錄裝置，錄製語音指令，然後系統經由語音指令驗證機制產生新語音指令。

唯以上所述者，僅為本發明之範例實施態樣爾，當不能以之限定本發明所實施之範圍。即大凡依本發明申請專利範圍所作之均等變化與修飾，皆應仍屬於本發明專利涵蓋之範圍內，謹請　貴審查委員明鑑，並祈惠准，是所至禱。

1．．．互動語音指令建構系統

10．．．動作開始/結束偵測模組

11．．．動作記錄模組

12．．．資料庫

13．．．動作比對模組

14．．．語音指令增加模組

15．．．語音指令驗證模組

S201~S205．．．步驟

S301~S305．．．步驟

圖一顯示根據本發明之一實施例之一種互動語音指令建構系統1。

圖二顯示根據本發明之一實施例之一種互動式語音指令建構方法的動作比對流程圖。

圖三顯示根據本發明之一實施例之一種互動式語音指令建構方法的語音驗證流程圖。

圖四顯示本發明應用於電腦系統上進行圖片處理之互動語音指令建構之實施例。

S201~S205．．．步驟

Claims

一種互動式語音指令建構方法，包括：記錄一新動作；比較該新動作與歷史動作資訊，以判斷是否有與該新動作相同之動作；若該歷史動作資訊中並無該新動作相同之動作，則根據該新動作輸入一語音，以建立一新語音指令並產生一新語音指令特徵值；以及根據歷史語音指令之一預設門檻值，以驗證該新語音指令特徵值；其中，若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距大於該預設門檻值，則儲存該新語音指令，並將該新語音指令特徵值作為下次新語音指令計算對數相似度分數差距的範圍之一，但若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距小於該預設門檻值，則放棄該新語音指令或覆蓋一原有的歷史語音指令所對應之動作。
如申請專利範圍第1項所述之互動式語音指令建構方法，更包括：若該歷史動作資訊中有與該新動作相同之動作，則放棄建立該新語音指令或更改一原有的語音指令。
如申請專利範圍第1項所述之互動式語音指令建構方法，其中當該新動作無法直接與該歷史動作資訊相比較時，則進一步應用一演算法來辨別該新動作。
如申請專利範圍第3項所述之互動式語音指令建構方法，其中該演算法為類神經網路演算法、決策樹演算法或支持向量機。
一種互動式語音指令建構系統，包括：一動作開始/結束偵測模組，用於判斷一新動作之起始；一動作紀錄模組，用以記錄一新動作；一資料庫，用以儲存歷史動作資訊與歷史語音指令；一動作比對模組，接收該新動作，並比較該新動作與歷史動作資訊，以判斷是否有與該新動作相同之動作；一語音指令增加模組，若該歷史動作資訊中並無該新動作相同之動作，則根據該新動作輸入一語音，以使該語音指令增加模組建立一新語音指令並產生一新語音指令特徵值；以及一語音指令驗證模組，根據一預設門檻值與歷史語音指令特徵值及新語音指令特徵值之對數相似度分數之差，以驗證該新語音指令特徵值。
如申請專利範圍第5項所述之互動式語音指令建構系統，其中若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距大於該預設門檻值，則儲存該新語音指令至該資料庫，且該語音指令驗證模組將該新語音指令特徵值作為下次計算新語音指令之對數相似度分數差距的範圍之一。
如申請專利範圍第5項所述之互動式語音指令建構系統，其中若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距小於該預設門檻值，則該語音指令驗證模組放棄該新語音指令或覆蓋一原有的歷史語音指令所對應之動作。
如申請專利範圍第5項所述之互動式語音指令建構系統，其中若該歷史動作資訊中有與該新動作相同之動作，則該動作比對模組放棄建立該新語音指令或更改一原有的語音指令。
如申請專利範圍第5項所述之互動式語音指令建構系統，其中當該新動作無法直接與該歷史動作資訊相比較時，則進一步應用一演算法來辨別該新動作。
如申請專利範圍第9項所述之互動式語音指令建構系統，其中該演算法為類神經網路演算法、決策樹演算法或支持向量機。