TWI457788B - 互動式語音指令建構系統與方法 - Google Patents

互動式語音指令建構系統與方法 Download PDF

Info

Publication number
TWI457788B
TWI457788B TW101101370A TW101101370A TWI457788B TW I457788 B TWI457788 B TW I457788B TW 101101370 A TW101101370 A TW 101101370A TW 101101370 A TW101101370 A TW 101101370A TW I457788 B TWI457788 B TW I457788B
Authority
TW
Taiwan
Prior art keywords
action
new
voice command
historical
voice
Prior art date
Application number
TW101101370A
Other languages
English (en)
Other versions
TW201329785A (zh
Inventor
Chi Tien Chiu
Hsien Cheng Liao
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Priority to TW101101370A priority Critical patent/TWI457788B/zh
Publication of TW201329785A publication Critical patent/TW201329785A/zh
Application granted granted Critical
Publication of TWI457788B publication Critical patent/TWI457788B/zh

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

互動式語音指令建構系統與方法
本發明係為一種互動式語音指令建構方法與系統,尤其是有關於一種可根據新動作以產生相對應之一語音指令的互動式語音指令建構方法與系統。
近年來,消費電子在生活上的普及率提高,使用者大量增加。在各種應用中,有個人用的手持系統、平板電腦,與日常生活機具結合之車用電子及機器人、電子玩具等等。然而在使用這些電子產品的便利性,更凸顯出人機介面上的重要。本發明的目的便是為了造就方便的人機互動。
人們在使用這些電子產品時,最直覺便是動手去操作或是用語音指令,而操作這些電子產品需要包含一連串的相關動作,這往往讓使用者有著心生抗拒去使用電子產品的意念。或者是語音指令隨著機器裝置便固定相關語音指令,使用者不容易修改。本發明將這一連串動作以最直覺的語音指令去表示。讓使用者將新動作與其語音指令產生關聯以增加操作的便捷性。
在一實施例中,本發明提供一種互動式語音指令建構方法,包括:記錄一新動作包含判斷動作的起始;以及比較該新動作與歷史動作資訊,以判斷是否有與該新動作相同之動作。若是新動作,則增加語音指令,語音指令根據一預設門檻值以驗證語音指令是否需要產生。
在一實施例中,本發明提供一種互動語音指令建構系統,包括:一動作開始/結束偵測模組,判斷新動作的起始;一動作記錄模組,用以記錄一新動作;一資料庫,用以儲存歷史動作資訊與歷史語音指令;以及一動作比對模組,接收該新動作,並比較該新動作與歷史動作資訊,以判斷是否有與該新動作相同之動作。;一語音指令增加模組,增加對應於新動作之新語音指令;一語音指令驗證模組,以門檻值驗證新語音指令與歷史語音指令,是否增加新語音指令之驗證。
為使 貴審查委員能對本發明之特徵、目的及功能有更進一步的認知與瞭解,下文特將本發明之裝置的相關細部結構以及設計的理念原由進行說明,以使得 審查委員可以了解本發明之特點,詳細說明陳述如下:圖一顯示根據本發明之一實施例之一種互動語音指令建構系統1。該互動語音建構系統包括:一動作開始/結束偵測模組10、一動作紀錄模組11、一資料庫12、一動作比對模組13、一語音指令增加模組14以及一語音指令驗證模組15。該動作開始/結束偵測模組10藉由感測裝置或攝影裝置之訊號,建立動作規則表來判斷該動作的開始與結束。該動作紀錄模組11可藉由感測裝置或攝影裝置以擷取並記錄一新動作,該新動作可為物件動作,例如,交通工具或玩具等物件動作,且該感測裝置與攝影裝置可包括攝影機、感測器等。該資料庫12可用以儲存歷史動作資訊與歷史語音指令。該動作比對模組13可接收該新動作並比較該新動作與歷史動作資訊,以判斷是否有與該新動作相同之動作。若該歷史動作資訊中並無該新動作相同之動作,則根據該新動作輸入一語音,以使該語音指令增加模組14建立一新語音指令並產生一新語音指令特徵值。該語音指令驗證模組15可根據歷史語音指令之一預設門檻值,以驗證該新語音指令特徵值。門檻值之建立可預先設定一經驗值或以其他演算法產生。新語音指令特徵值與資料庫12中歷史語音指令特徵值,可藉由對數相似度演算法(log-Likelihood)得到一彼此之間分數差距,以此分數差距與預設門檻值做比較以進行新語音指令建立與否之判斷,若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距大於該預設門檻值,則儲存該新語音指令至該資料庫12,且該語音指令驗證模組14將該新語音指令特徵值加入歷史語音指令資料庫12中,以作為歷史語音指令特徵值對數相似度分數範圍值之一,以作為下一個新語音指令計算分數差距之依據;否則,若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距小於該預設門檻值,則該語音指令驗證模組放棄該新語音指令或覆蓋一原有的歷史語音指令所對應之動作。此外,若該歷史動作資訊中有與該新動作相同之動作,則該動作比對模組14放棄建立該新語音指令或更改一原有的語音指令。另外,當該新動作不是一種可直接比對的動作且無法直接與該歷史動作資訊相比較時,則進一步應用一演算法來辨別該新動作,且該演算法可為類神經網路演算法、決策樹演算法或支持向量機(support vector machine,SVM)等等。前述之類神經網路演算法包括機械式的背誦學習(rote learning)、指令式的學習(learning by instruction)、類推式的學習(learning by analogy)以及歸納式的學習(learning by induction)等等。
圖二顯示根據本發明之一實施例之一種互動式語音指令建構方法的動作比對流程圖,且該動作比對流程可與圖一之互動式語音指令建構系統搭配並說明之。首先,應用該互動式語音建構方法包括:(步驟S201)應用動作開始/結束偵測模組10與該動作紀錄模組11藉由感測裝置或攝影裝置以擷取並記錄一新動作,該新動作可為物件動作,例如,交通工具或玩具等物件動作,且該感測裝置與攝影裝置可包括攝影機、感測器等。(步驟S202)應用該動作比對模組13比較該新動作與該資料庫中所儲存的歷史動作資訊,(步驟S203)以判斷是否有與該新動作相同之動作,若該歷史動作資訊中並無該新動作相同之動作,(步驟S204)則啟動該語音指令增加模組14,並進一步根據該新動作輸入一語音,以建立一新語音指令並產生一新語音指令特徵值;否則,(步驟S205)若該歷史動作資訊中有與該新動作相同之動作,則放棄建立該新語音指令並重新記錄一新的動作或更改一原有的語音指令以啟動語音指令增加模組14。另外,當該新動作不是一種可直接比對的動作且無法直接與該歷史動作資訊相比較時,則進一步應用一演算法來辨別該新動作,且該演算法可為類神經網路演算法、決策樹演算法或支持向量機(support vector machine,SVM)等等。前述之類神經網路演算法包括機械式的背誦學習(rote learning)、指令式的學習(learning by instruction)、類推式的學習(learning by analogy)以及歸納式的學習(learning by induction)等等。
圖三顯示根據本發明之一實施例之一種互動式語音指令建構方法的驗證語音指令流程圖,且該建構語音指令流程圖亦可與圖二之動作比對流程圖以及圖一之互動式語音建構系統搭配並說明之。當啟動該語音指令增加模組14,並進一步根據該新動作輸入一語音,以建立一新語音指令並產生一新語音指令特徵值之後,(步驟S301)可進行該新語音指令的驗證。接著,(步驟S302)可根據對數相似度演算法(log-Likelihood),將歷史語音指令特徵值與新語音指令特徵值的對數相似度分數值之一差距與一預設門檻值做比較,以驗證該新語音指令特徵值,若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距大於該預設門檻值,則將該新語音指令特徵值作為一新語音指令參數,(步驟S303)並儲存該新語音指令至該資料庫12作為下次計算新語音指令之對數相似度分數差距依據之一;否則,若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距小於該預設門檻值,(步驟S304)則放棄該新語音指令或覆蓋一原有的歷史語音指令所對應之動作以儲存至該資料庫12,(步驟S305)並重新輸入新語音指令。
此外,本發明之語音指令增加模組14可建立語者相關(speaker dependent)語音指令與語者不相關(speaker independent)語音指令。語者相關語音指令可建立與使用者語音相關特性,最常見的演算法為動態時軸校正(dynamic time warping,以下簡稱DTW)。此DTW演算法在語音辨識上應用了兩筆相近的的音檔來建立語音指令,首先求取音檔的特徵值參數再由DTW演算法建立此語音指令模型參數。而語者不相關語音指令可應用隱藏式馬可夫模型(hidden markov model,HMM)演算法所訓練出來的語音聲學模型,並由使用者錄製音檔做模型參數調整建立語音指令。常見的辨識方法為威特比重估演算法(viterbi re-estimation algorithm),使用者首先將錄製的指令音檔求取特徵值參數,然後再與原有的HMM模型做組合調適出新的語音指令模型參數。
本發明之互動語音指令建構系統與方法可應用於玩具車互動式語音指令建構系統之一實施例。於此應用中,使用者操作玩具車來建立語音指令,當玩具車進行「S」形的動作時,系統中之動作開始/結束偵測模組10與動作紀錄模組11可將剛剛使用者所進行之動作序列記錄下來,接下來應用動作比對模組13與資料庫12進行比對,以判斷是否為新動作,若為新動作,系統便會啟動語音指令增加模組14進行語音指令輸入;否則,若此動作為舊動作時,系統會詢問使用者是否要更改原有的語音指令或放棄此次語音指令的建立,以重新等待與記錄「新動作」的發生。玩具車的動作可以透過各輪軸伺服馬達上的轉動位置表示。當新動作建立,系統可提示使用者錄製並輸入語音命令,此時使用者可為該新動作輸入欲代表之語音命令,且該語音命令可為一或多句語音檔,如「夥計蛇行」等。此時,語音命令增加模組14便透過語音辨識演算法,將使用者輸入之語音轉為一組語音模型參數,然後透過語音驗證模組14與資料庫12中之語音命令進行驗證。語音指令驗證模組14會依照一門檻值來做驗證標準,當驗證值大於設定的門檻值時,新語音指令便會產生,系統便將該新語音指令對應於該新動作。往後使用者在做此S形動作的操控,便可直接輸入該語音指令以加快處理效率。
圖四顯示本發明應用於電腦系統上進行圖片處理之互動語音指令建構之另一實施例。如圖四所示,於本實施例,當使用者欲將圖片一縮小並旋轉成圖片二時,使用者將對圖片一執行縮小動作,再執行旋轉動作得到圖片二後予以儲存。此時互動式語音命令建構系統中之動作比對模組11將剛剛使用者所進行之動作序列與資料庫12進行比對,如發現為新動作時,將提示使用者是否新增語音命令。使用者可為該新動作輸入欲代表之語音命令,此時,語音命令新增模組14將使用者輸入之語音轉為一組語音模型,再透過語音驗證模組15與資料庫12中之語音命令進行比對,當比對結果為新語音指令時,系統便將該新語音指令對應於該新動作。往後使用者欲將圖片進行相同處理時,便可直接輸入該語音指令以加快處理效率。
本發明可藉由使用者的操作動作,動態產生語音指令。當使用者完成一筆動作時,系統便會由動作資料庫,做動作比對驗證,假若是新動作系統便會啟動增加語音指令的要求。此時使用者馬上透過收錄裝置,錄製語音指令,然後系統經由語音指令驗證機制產生新語音指令。
唯以上所述者,僅為本發明之範例實施態樣爾,當不能以之限定本發明所實施之範圍。即大凡依本發明申請專利範圍所作之均等變化與修飾,皆應仍屬於本發明專利涵蓋之範圍內,謹請 貴審查委員明鑑,並祈惠准,是所至禱。
1...互動語音指令建構系統
10...動作開始/結束偵測模組
11...動作記錄模組
12...資料庫
13...動作比對模組
14...語音指令增加模組
15...語音指令驗證模組
S201~S205...步驟
S301~S305...步驟
圖一顯示根據本發明之一實施例之一種互動語音指令建構系統1。
圖二顯示根據本發明之一實施例之一種互動式語音指令建構方法的動作比對流程圖。
圖三顯示根據本發明之一實施例之一種互動式語音指令建構方法的語音驗證流程圖。
圖四顯示本發明應用於電腦系統上進行圖片處理之互動語音指令建構之實施例。
S201~S205...步驟

Claims (10)

  1. 一種互動式語音指令建構方法,包括:記錄一新動作;比較該新動作與歷史動作資訊,以判斷是否有與該新動作相同之動作;若該歷史動作資訊中並無該新動作相同之動作,則根據該新動作輸入一語音,以建立一新語音指令並產生一新語音指令特徵值;以及根據歷史語音指令之一預設門檻值,以驗證該新語音指令特徵值;其中,若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距大於該預設門檻值,則儲存該新語音指令,並將該新語音指令特徵值作為下次新語音指令計算對數相似度分數差距的範圍之一,但若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距小於該預設門檻值,則放棄該新語音指令或覆蓋一原有的歷史語音指令所對應之動作。
  2. 如申請專利範圍第1項所述之互動式語音指令建構方法,更包括:若該歷史動作資訊中有與該新動作相同之動作,則放棄建立該新語音指令或更改一原有的語音指令。
  3. 如申請專利範圍第1項所述之互動式語音指令建構方法,其中當該新動作無法直接與該歷史動作資訊相比較時,則進一步應用一演算法來辨別該新動作。
  4. 如申請專利範圍第3項所述之互動式語音指令建構方 法,其中該演算法為類神經網路演算法、決策樹演算法或支持向量機。
  5. 一種互動式語音指令建構系統,包括:一動作開始/結束偵測模組,用於判斷一新動作之起始;一動作紀錄模組,用以記錄一新動作;一資料庫,用以儲存歷史動作資訊與歷史語音指令;一動作比對模組,接收該新動作,並比較該新動作與歷史動作資訊,以判斷是否有與該新動作相同之動作;一語音指令增加模組,若該歷史動作資訊中並無該新動作相同之動作,則根據該新動作輸入一語音,以使該語音指令增加模組建立一新語音指令並產生一新語音指令特徵值;以及一語音指令驗證模組,根據一預設門檻值與歷史語音指令特徵值及新語音指令特徵值之對數相似度分數之差,以驗證該新語音指令特徵值。
  6. 如申請專利範圍第5項所述之互動式語音指令建構系統,其中若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距大於該預設門檻值,則儲存該新語音指令至該資料庫,且該語音指令驗證模組將該新語音指令特徵值作為下次計算新語音指令之對數相似度分數差距的範圍之一。
  7. 如申請專利範圍第5項所述之互動式語音指令建構系統,其中若該新語音指令特徵值與歷史語音指令特徵值之對數相似度分數差距小於該預設門檻值,則該語音指 令驗證模組放棄該新語音指令或覆蓋一原有的歷史語音指令所對應之動作。
  8. 如申請專利範圍第5項所述之互動式語音指令建構系統,其中若該歷史動作資訊中有與該新動作相同之動作,則該動作比對模組放棄建立該新語音指令或更改一原有的語音指令。
  9. 如申請專利範圍第5項所述之互動式語音指令建構系統,其中當該新動作無法直接與該歷史動作資訊相比較時,則進一步應用一演算法來辨別該新動作。
  10. 如申請專利範圍第9項所述之互動式語音指令建構系統,其中該演算法為類神經網路演算法、決策樹演算法或支持向量機。
TW101101370A 2012-01-13 2012-01-13 互動式語音指令建構系統與方法 TWI457788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW101101370A TWI457788B (zh) 2012-01-13 2012-01-13 互動式語音指令建構系統與方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101101370A TWI457788B (zh) 2012-01-13 2012-01-13 互動式語音指令建構系統與方法

Publications (2)

Publication Number Publication Date
TW201329785A TW201329785A (zh) 2013-07-16
TWI457788B true TWI457788B (zh) 2014-10-21

Family

ID=49225758

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101101370A TWI457788B (zh) 2012-01-13 2012-01-13 互動式語音指令建構系統與方法

Country Status (1)

Country Link
TW (1) TWI457788B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI749683B (zh) * 2020-08-04 2021-12-11 香港商女媧創造股份有限公司 互動式陪伴系統及其方法
TWI776799B (zh) * 2017-01-24 2022-09-11 香港商阿里巴巴集團服務有限公司 一種設定操作的執行方法及裝置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6920425B1 (en) * 2000-05-16 2005-07-19 Nortel Networks Limited Visual interactive response system and method translated from interactive voice response for telephone utility
US20090207980A1 (en) * 2007-11-23 2009-08-20 Foncloud, Inc. System and method for externally mapping an interactive voice response menu

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6920425B1 (en) * 2000-05-16 2005-07-19 Nortel Networks Limited Visual interactive response system and method translated from interactive voice response for telephone utility
US20090207980A1 (en) * 2007-11-23 2009-08-20 Foncloud, Inc. System and method for externally mapping an interactive voice response menu

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI776799B (zh) * 2017-01-24 2022-09-11 香港商阿里巴巴集團服務有限公司 一種設定操作的執行方法及裝置
TWI749683B (zh) * 2020-08-04 2021-12-11 香港商女媧創造股份有限公司 互動式陪伴系統及其方法

Also Published As

Publication number Publication date
TW201329785A (zh) 2013-07-16

Similar Documents

Publication Publication Date Title
US11762494B2 (en) Systems and methods for identifying users of devices and customizing devices to users
US11270695B2 (en) Augmentation of key phrase user recognition
JP6001758B2 (ja) ユーザからのオーディオ入力
KR102623272B1 (ko) 전자 장치 및 이의 제어 방법
TWI644307B (zh) 用於操作一虛擬助理之方法,電腦可讀儲存媒體,及系統
US10068588B2 (en) Real-time emotion recognition from audio signals
CN106415719A (zh) 使用说话者识别的语音信号的稳健端点指示
KR20160009344A (ko) 귓속말 인식 방법 및 장치
JP6891601B2 (ja) ロボットの制御プログラム、ロボット装置、及びロボットの制御方法
US20220180887A1 (en) Multimodal beamforming and attention filtering for multiparty interactions
US11830501B2 (en) Electronic device and operation method for performing speech recognition
CN112307816A (zh) 车内图像获取方法、装置以及电子设备、存储介质
TWI457788B (zh) 互動式語音指令建構系統與方法
CN111506183A (zh) 一种智能终端及用户交互方法
WO2016206647A1 (zh) 用于控制机器装置产生动作的***
US10693944B1 (en) Media-player initialization optimization
JPWO2019093123A1 (ja) 情報処理装置および電子機器
US10649725B1 (en) Integrating multi-channel inputs to determine user preferences
US9263030B2 (en) Adaptive online feature normalization for speech recognition
US20240184867A1 (en) Adaptive Guest Mode for Portable Speakers
CN112230829A (zh) 用于计算设备上的自动服务激活的***和方法
US20240029730A1 (en) Predictive deletion of user input
KR20210109722A (ko) 사용자의 발화 상태에 기초하여 제어 정보를 생성하는 디바이스 및 그 제어 방법
KR20220097115A (ko) 대화체의 감정 추론 방법 및 장치

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent