TW201506685A

TW201506685A - 以語音辨識來選擇控制客體的裝置及方法

Info

Publication number: TW201506685A
Application number: TW103110849A
Authority: TW
Inventors: Jong-Won Shin; Se-Mi Kim; Kang-Lae Jung; Jeon-Gin Doh; Hye-Jung Yoo; Jeh-Seon Youn; Kyeong-Sun Kim
Original assignee: Diotek Co Ltd
Priority date: 2013-08-09
Filing date: 2014-03-24
Publication date: 2015-02-16
Also published as: CN104347070A; KR101447879B1; EP2835734A1

Abstract

本發明涉及一種以語音辨識來選擇控制客體的裝置及方法，本發明的控制客體選擇裝置是以語音辨識來選擇控制客體的裝置，其特徵在於，包括一個以上的處理裝置，所述一個以上的處理裝置，其構成為，基於用戶的語音獲取輸入資訊，基於控制客體獲取的與符號對應的至少一個的識別資訊與輸入資訊匹配，在識別資訊中獲取與輸入資訊匹配的匹配識別資訊，在匹配識別資訊中選擇對應的控制客體；在使用用戶事前未內置控制指令的應用程式時，也可以通過語音辨識來控制電子裝置，具有可提高該電子裝置的用戶接近性的效果。

Description

以語音辨識來選擇控制客體的裝置及方法

本發明涉及一種以語音辨識來選擇控制客體的裝置和方法，尤其是利用基於控制客體的符號的識別資訊來選擇控制客體的裝置和方法。

隨著使用電腦、筆記型電腦、智慧型手機、平板電腦、汽車導航儀等電子裝置的用戶越來越多，這些電子裝置與用戶間易於人機交互的用戶介面的重要性也越來越高。

一般的用戶介面多是通過鍵盤、滑鼠、觸控螢幕等輸入裝置進行物理性輸入，但是對於無法看到顯示畫面的視覺殘疾人，或是不便於使用操作鍵盤、滑鼠、觸控螢幕等輸入裝置的用戶來說，通過上述的用戶介面來操作電子裝置是不容易的。

另外，對於沒有殘疾的人來說，在駕駛中或是雙手拿著行李不便於或是很難對電子裝置進行操作時，通過上述用戶介面不易於操作電子裝置。

由此可見，開發出可提高電子裝置接近性的用戶介面勢在必行。可提高電子裝置接近性的用戶介面中，如分析用戶語音控制電子裝置的語音辨識技術就屬其一。

為了實現電子裝置利用語音辨識技術，通過用戶的語音來進行控制，需要事先將可與用戶語音匹配的控制指令內置在電子裝置中。

在將可與用戶語音匹配的控制指令內置在平臺端時，通過語音辨識，可對相關電子裝置的基本設定，如電子裝置的音量或亮度等進行控制。

此外，為了通過語音辨識對個性的應用程式進行控制，在各個應用程式上，必須內置可與用戶語音匹配的控制指令。

因此，為了在不支援語音辨識的應用程式中進行語音辨識，或是為了添加語音辨識功能，需要對應用程式進行新的開發或是升級，以便在相關的應用程式上內置與用戶語音匹配的控制指令。

但是，電子裝置和各個電子裝置所搭載的應用程式日新月異、多種多樣，在所有的應用程式上內置與用戶語音匹配的控制指令並不容易，在多種多樣的應用程式中實現可聯動通用的語音辨識系統就更為不易。

綜上所述，支援語音辨識的應用程式很少，即使支援語音辨識，通過語音辨識而執行的動作也很有限，實質上提高電子裝置的接近性也是非常有限的。

由此可見，開發通過語音辨識來提高電子裝置接近性的技術，是勢在必行的。

為了解決上述技術問題，本發明的目的在於，提供一種在使用用戶事前未內置控制指令的應用程式時，也可以通過語音辨識控制電子裝置的裝置及方法。

為了解決上述技術問題，本發明的另一目的在於，提供一種通過語音辨識可選擇由圖像構成的控制客體的裝置和方法。

本發明的目的不侷限於上述目的，未提及的其他目的通過下述記載對本技術領域的技術人員來說是顯而易見的。

本發明實現上述目的的技術方案是：一種控制客體選擇裝置，是以語音辨識來選擇控制客體的裝置，其特徵在於，包括一個以上的處理裝置；所述一個以上的處理裝置的構成為，基於用戶的語音獲取輸入資訊，基於控制客體獲取的與符號對應的至少一個的識別資訊與所述輸入資訊匹配，在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊，在所述匹配識別資訊中選擇對應的控制客體。

本發明的另一技術特徵是：所述符號是基於所述控制客體的顯示資訊而獲取的。

本發明的另一技術特徵是：所述符號是基於應用程式畫面資訊而獲取的。

本發明的另一技術特徵是：所述符號是通過光學字元辨識（OCR: optical character recognition）而獲取的。

本發明的另一技術特徵是：所述符號通過圖像模式匹配（image pattern matching）而獲取。

本發明的另一技術特徵是：所述符號與隨著在所述裝置上實行的應用程式相異的識別資訊對應。

本發明的另一技術特徵是：所述輸入資訊包括分析所述用戶的語音特徵而獲取的語音模式資訊；所述識別資訊和所述輸入資訊的匹配包括所述識別資訊和所述語音模式資訊的匹配。

本發明的另一技術特徵是：所述輸入資訊包括通過語音辨識，由所述用戶的語音而識別的文本（Text）；所述識別資訊和所述輸入資訊的匹配包括所述識別資訊和所述文本的匹配。

本發明的另一技術特徵是：所述一個以上的處理裝置，不存在與所述識別資訊匹配的匹配識別資訊時，設定用戶指定識別資訊與一控制客體對應。

本發明實現上述目的的另一技術方案是：一種控制客體選擇方法，是在電腦裝置中通過語音辨識來選擇控制客體的方法，其特徵在於，包括：基於用戶的語音獲取輸入資訊的步驟；基於控制客體獲取的與符號對應的至少一個的識別資訊與所述輸入資訊匹配的步驟；在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊的步驟；在所述匹配識別資訊中選擇對應的控制客體的步驟。

本發明的另一技術特徵是：所述識別資訊是基於所述控制客體的顯示資訊而獲取的。

本發明實現上述目的的另一技術方案是：一種可電腦判讀的媒體，是儲存指令集的可電腦判讀的媒體，其特徵在於，所述指令集因電腦裝置而被執行時，可讓所述電腦裝置獲取基於用戶語音的輸入資訊，基於控制客體獲取的與符號對應的至少一個的識別資訊與所述輸入資訊匹配，在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊，在所述匹配識別資訊中選擇對應的控制客體。

其他實施方式的具體事項包含在本發明的詳細說明及說明書附圖內。

本發明的有益效果是：依據本發明，在使用用戶事前未內置控制指令的應用程式時，也可以通過語音辨識控制電子裝置，具有提高相關電子裝置接近性的效果。

依據本發明，通過語音辨識可選擇由圖像構成的控制客體，具有不受構成控制客體的構成要素的類別影響，可通過語音辨識選擇控制客體的效果。

本發明的效果並不侷限於上述內容，本發明還具有其他多種效果。

本發明的優點及特徵，以及實現其優點及特徵的方法，將結合本發明的附圖，通過以下的實施方式進行明確的說明。但是，本發明並不侷限於以下的實施方式，可為多種形態，本發明的實施方式用於說明本發明的特徵，用於在本發明的技術領域，向相關技術人員說明本發明的範圍，本發明的範圍取決於本發明的請求項的範圍。

“第一”、“第二”等表現用於說明多種構成要素，但是本發明的構成要素並不侷限於此。這中表現只用來區分不同的構成要素，也就是說，本發明中的第一構成要素也可以被稱為第二構成要素。

在說明書中所標記的相同的符號是指相同的構成要素。

本發明的多個實施方式的各自特徵可部分或全部的結合或組合，本發明技術領域的技術人員可通過充分理解其內容，進行多種多樣的技術性聯動或驅動，各實施方式可相對獨立，也可結合實施。

在本說明書中，在任何一個構成要素向其他構成要素“傳送”資料或信號時，可以是直接傳送所述資料或信號，也可以是通過至少一個以上的其他構成要素來傳送資料和信號。

“語音辨識”一般是指用戶所發出的聲音被電子裝置分析，並以文本來識別的作業。具體來說，用戶所發出聲音的波形被輸入電子裝置時，參照音響型號等，語音波形被分析，從而獲取語音模式資訊。另外，所獲取的語音模式資訊與識別資訊進行對比，從而識別出識別資訊中一致機率最高的文本。

在本說明書中，“輸入資訊”是指基於用戶的語音，經過前述的部分或是全部的語音辨識過程而獲取的資訊。比如說，輸入資訊可以是分析用戶的語音波形而獲取的語音模式資訊。這種語音模式資訊為了表現聲學特徵，由按照短區間從用戶的語音中提取的語音特徵係數構成。

在本說明書中，“控制客體”是指在控制客體選擇裝置的畫面上顯示出來，可接收用戶輸入的按鍵等介面，在顯示出來的控制客體上，完成用戶輸入後，控制客體選擇裝置可執行事先決定的控制動作。

控制客體可以是用戶通過對按鍵、確認欄、文字輸入欄等的點擊、輸入來選擇的介面，但並不侷限於此，也可以是用戶通過滑鼠或觸控螢幕等輸入裝置來選擇的所有介面。

本說明書中，“符號”不包括文本，是指以特定意義來解釋的圖形、記號或圖像。以符號標記的控制客體，該控制客體的符號一般可暗示該控制客體在應用程式中應執行哪種功能。比如說，“▶”符號一般是指播放聲音或影像等，“+”符號或“-”符號是指添加或刪減項目等。

在本說明書中，“識別資訊”是指通過控制客體選擇裝置，基於控制客體自動獲取的文本。與基於控制客體而獲取的符號對應。符號和識別資訊可以一對一、一對多、多對一地對應。與符號對應的識別資訊的相關說明將在圖 4 中後述。

分析用戶的語音而獲取的語音模式資訊若與文本的識別資訊匹配，識別資訊中一致機率最高的識別資訊可被識別。

識別資訊中與用戶的語音一致機率最高的識別資訊被識別時，與所識別的識別資訊對應的控制客體會被選擇。因此，即使未內置與用戶的語音相匹配的控制指令，控制客體也會因控制客體選擇裝置被選擇。

符號基於控制客體的顯示資訊或應用程式的畫面資訊而獲取，與此相關的詳細說明參照圖3將另行後述。

本說明書中，“控制客體的顯示資訊”是指顯示特定控制客體時使用的資訊。比如說，客體的圖像、符號、控制客體的大小或位置等資訊可為顯示資訊。基於構成顯示資訊的各項目的值或該值的屬性，控制客體被顯示在控制客體選擇裝置的畫面上。

在本說明書中，“應用程式的畫面資訊”是指在控制客體選擇裝置所執行的應用程式中，顯示特定畫面時所使用的資訊。

在本說明書中，“用戶輸入文本”是指用戶的語音通過語音辨識功能，在控制客體選擇裝置上表現文字的方式。比如說，轉換為ASCII碼等的文本。

接下來，參照說明書附圖，對本發明的多種實施方式進行詳細的說明。

圖 1 是本發明一實施方式的控制客體選擇裝置的方塊圖。

如圖 1 所示，本發明的一實施方式的控制客體選擇裝置 100 包括：處理器 120、記憶體控制器 122、記憶體 124。還包括：介面 110、話筒 140、揚聲器 142、顯示部 130。

本發明一實施方式的控制客體選擇裝置 100 是可通過語音辨識選擇控制客體的電腦裝置，包括一個以上的處理裝置，可以是具備音響輸入功能的電腦、筆記型電腦、智慧型手機、平板電腦、汽車導航儀、掌上型電腦、可擕式媒體播放機、MP3播放機、電子詞典等終端設備，或是與這些終端設備連接的伺服器或由多個電腦構成的分散電腦系統。在此，一個以上的處理裝置可包括至少一個以上的處理器 120 和記憶體 124，複數個處理器 120 可共用相互的記憶體 124。

記憶體 124 儲存程式或指令集等，記憶體 124 可包括隨機存取記憶體（RAM; random access memory）、唯讀記憶體（ROM; read-only memory）、磁片裝置、光碟裝置、快閃記憶體等。

處理裝置基於用戶的語音獲取輸入資訊，基於控制客體而獲取的與符號對應的至少一個的識別資訊和輸入資訊匹配，獲取識別資訊中與輸入資訊匹配的匹配識別資訊，選擇與匹配識別資訊對應的控制客體。

記憶體控制器 122 控制處理器 120 或介面 110 等其他元件被格式化成記憶體 124。

處理器 120 可執行儲存在記憶體 124 上的程式或指令集進行實行等的演算。

介面 110 將控制客體選擇裝置 100 的話筒 140 或揚聲器 142等輸入輸出裝置 100 連接在處理器 120 及記憶體 124 上。

話筒 140 可接收語音信號，將接收的語音信號轉換成電子信號，提供給介面 110。揚聲器 142 接收來自介面 110 的電子信號，並將其轉換成語音信號後輸出。

顯示部 130 向用戶顯示視覺性的圖像資訊，顯示部 130 可包括偵測觸控輸入的觸控螢幕顯示。

本發明的一實施方式的控制客體選擇裝置 100 是利用儲存在記憶體 124 上，由處理器 120 而實行的程式（以下稱為“控制客體選擇引擎”），通過語音辨識來選擇控制客體的。

控制客體引擎是在控制客體選擇裝置 100 的背景下而實行的，自應用程式獲取控制客體的資訊，利用基於控制客體的資訊獲取的識別資訊，讓控制客體選擇裝置 100 通過語音辨識來選擇控制客體。

圖 2 是本發明一實施方式的控制客體選擇方法的流程圖；為了便於說明參照圖 3 一起說明。

圖 3 圖示了基於控制客體的顯示資訊而獲取符號和與符號對應識別資訊。

控制客體選擇裝置基於用戶的語音獲取輸入資訊 S100。

在此，輸入資訊是指分析用戶語音的特徵而獲取的語音模式資訊，但輸入資訊並不侷限於此。

獲取輸入資訊後，控制客體選擇裝置將基於控制客體獲取的與符號對應的至少一個的識別資訊與輸入資訊進行匹配 S110。

如圖 3 所示，在控制客體選擇裝置 100 上實行地鐵應用程式 150 時，“快退按鍵 152”、“快進按鍵 154”、“播放按鍵 156”屬於控制客體。

依據本發明的一實施方式，基於控制客體的顯示資訊，可獲取並實現符號。

如圖 3 所示，在控制客體的資訊 200 中，顯示資訊 252、254、256 可包括決定控制客體大小和位置的項目 252A、254A、256A 的“width”項目、“height”項目、“left”項目及“top”項目，及提供控制客體的圖像連結的“img”項目 252B、254B、256B 等的值。

前述的項目 252A、254A、256A、252B、254B、256B 是為了便於說明任意定義的，構成控制客體的顯示資訊 252、254、256 的項目的種類、數量、項目名稱等可做多種多樣的變形來體現。

如圖 3 所示，提供控制客體 152、154、156 的圖像連結的“img”項目 252B、254B、256B 的值由該控制客體 152、154、156 的影像檔路徑（“bwd.jpg”, “play.jpg”, “fwd.jpg”）或顯示圖像的文字列構成。在此，“bwd.jpg”, “play.jpg”, “fwd.jpg”僅為一實施方式，控制客體可由多種形式的檔顯示成圖像。

決定控制客體大小和位置的項目 252A、254A、256A 中的“width”項目及“height”項目的值，決定控制客體 152、154、156 的圖像寬度和高度；“left”項目及“top”項目的值，決定控制客體 152、154、156 的顯示位置，從而可決定該控制客體 152、154、156 被顯示的領域。

如圖 3 所示，“快退按鍵 152”以“img”項目 252B 的“bwd.jpg”顯示為圖像。“bwd.jpg”的相關圖像模式匹配或光學字元辨識被實行後，可獲取“◄◄”符號。以此類推，“play.jpg”和“fwd.jpg”的相關圖像模式匹配或光學字元辨識被實行後，可獲取“▶”符號和“►►”符號。

在此，“圖像模式匹配”是指物件圖像，如從前述的“bwd.jpg”、“play.jpg”、或“fwd.jpg”等圖像提取特徵（feature）後，通過事先設定或是用戶事後的說明或經驗方式，在所生成的對比群中，獲得具有相同或是近似模式的圖像，為了進行圖像模式匹配，可利用模板匹配（template matching）、類神經網路（neural network）、隱馬爾可夫模型（HMM; hidden Markov model）等，但並不侷限於所列舉的方法，可利用多種多樣的方法。

符號通過控制客體選擇引擎來獲取，可儲存在記憶體上，但並不侷限於此，也可以通過所執行的應用程式來獲取儲存在記憶體上。

如上所述，基於控制客體而獲取的符號，與識別資訊對應。有關對應於符號的識別資訊，參照圖 4 進行詳細說明。

圖 4 圖示了符號和符號對應的識別資訊的示例圖。

“快退按鍵 152”（圖 3）、“快進按鍵 154”（圖 3）、“播放按鍵 156”（圖 3）的符號，分別可獲取“◄◄”、“►►”、“▶”。

如圖 4 所示，所獲取的符號分別與識別資訊對應。“◄◄”符號 352 獲取“快退”識別資訊 452；“►►”符號 354 獲取“快進”識別資訊 454；“▶”符號 356 獲取“播放”識別資訊 456。獲取與所獲取的識別資訊相匹配的輸入信號時，與該識別資訊對應的控制客體，即顯示與該識別資訊對應符號的控制客體被選擇。

另外，圖 4 所示的符號 300 或與符號對應的識別資訊 400 僅為示例，符號的種類及其對應的識別資訊可多種多樣。

也就是說，沒有必要一定是一個符號對應一個識別資訊，根據應用程式，符號意義可為多種多樣的，一個符號可以對應多個具有不同意義的識別資訊。

如上所述，一個符號對應複數個識別資訊時，該複數個識別資訊間具有優先順序，從而來決定匹配的識別資訊。

也就是說，“▶”符號 356，因與“►”符號 358 形態近似，作為識別資訊，“播放”及“快進”均可對應。此時，自用戶的語音獲取“快進”這個輸入資訊時，對於在“快進按鍵 154”及“播放按鍵 156”中選擇哪一個控制客體，需要一個基準。

因此，對於“快進按鍵 154”來說，“快進”識別資訊的優先順序是最靠前的；對於“播放按鍵 156”來說，“播放”識別資訊的優先順序是最靠前的，“快進”識別資訊則是第二位元。自用戶語音獲取“快進”輸入資訊時，“快進”識別資訊優先選擇對應的“快進按鍵 154”。

另外，對於一個符號，根據應用程式可對應相異的識別資訊。比如說，“▶”符號 356，在媒體播放應用程式中，可對應“播放”；在網頁瀏覽或電子書閱讀的應用程式中，可對應為“下一頁”。

識別資訊和輸入資訊的匹配，也就是通過識別資訊和語音模式資訊的匹配，所獲取的語音模式與識別資訊對比，判斷具有與該語音模式相同或最近似模式的識別資訊。

另外，來自用戶語音的語音模式資訊以代碼化的方式，將識別資訊代碼化為音素或特定區間單位，可使語音模式資訊和識別資訊互相匹配。識別資訊和語音模式資訊在匹配時，可利用靜態匹配（static matching）、餘弦相似度（cosine similarity）、彈性匹配（elastic matching）等。

控制客體選擇裝置依據所獲取的識別資訊和輸入資訊的匹配結果，來判斷是否有與輸入資訊匹配的匹配識別資訊 S120。

如上所述，判斷具有與所獲取的語音模式相同或最近似模式的識別資訊是匹配識別資訊。

若判斷沒有與輸入資訊匹配的匹配識別資訊時，也就是說，沒有與輸入資訊在一定程度上匹配的識別資訊時，控制客體選擇裝置在重新獲取輸入資訊前呈待機狀態，或是要求用戶重新發音。比如說，如圖 3 所示，存在“快退”、“播放”、“快進”識別資訊時，自用戶語音獲取“後退”這個輸入資訊後，可能不存在與所獲取的輸入資訊相匹配的匹配識別資訊。此時，為了獲取與識別資訊匹配的輸入資訊，要求輸入用戶語音是非常沒有效率的。

因此，若判斷沒有與輸入資訊匹配的匹配識別資訊的話，控制客體選擇裝置使用戶指定識別資訊與一控制客體對應，該用戶指定識別資訊可為一控制客體的識別資訊。

在此，“用戶指定識別資訊”是指為了使其為控制客體的識別資訊，可由語音模式構成，此時語音模式可以是在 S100 步驟中自用戶語音而獲取的語音模式。

若語音模式為用戶識別資訊，與一控制客體對應，並可為該控制客體的識別資訊時，獲取與該語音模式相同或最近似的語音模式後，該語音模式對應的一控制客體可被選擇。

相反，判斷有與輸入資訊匹配的匹配識別資訊時，控制客體選擇裝置獲取該匹配識別資訊 S130。

比如說，如圖 3 所示，自用戶的語音獲取“播放”這一輸入資訊時，在“快退”、“快進”、“播放”識別資訊中，“播放”識別資訊屬於匹配識別資訊。

獲取匹配的識別資訊後，控制客體選擇裝置選擇與匹配的識別資訊相對應的控制客體 S140。

在此，控制客體的選擇是可通過輸入事件或選擇事件來實現的。

“事件”是指程式中所偵測的活動或事件，按照事件的類型，舉例來說有用於處理輸入的輸入事件、用於處理輸出的輸出事件、用於選擇特定客體的選擇事件等。

輸入事件通常是通過滑鼠、觸控板、觸控螢幕、鍵盤等輸入裝置，進行點擊、觸控、鍵入等輸入時而發生的，但是即使不通過上述輸入裝置進行實際輸入，也可以處理虛擬的輸入，發生輸入事件。

另外，選擇事件是為了選擇特定控制客體而發生的，依據特定控制客體的上述輸入事件，如按兩下或鍵入事件的發生，來實現特定控制客體的選擇。

如上所述，依據本發明的一實施方式的控制客體選擇裝置，即使事前未內置控制指令的應用程式，也可以通過語音辨識來控制電子裝置，具有提高該電子裝置的用戶接近性的效果。

另外，依據本發明一實施方式，符號可基於應用程式的畫面資訊而被獲取。

在應用程式的畫面上顯示控制客體時，會實行與應用程式畫面相關的光學字元辨識，在該應用程式的畫面內，可獲取可識別為文本或文字記號的資訊。

但是，應用程式的畫面上，僅獲取被識別成文本或文字記號的資訊時，必須決定該資訊是否是符號，若是符號應對應哪一個控制客體。

控制客體選擇裝置判斷在應用程式畫面內顯示被識別成文本或文字記號識別資訊的第一領域和與第一領域對應的第二領域內所顯示的控制客體，在第一領域中將被識別成文本或文字記號的識別資訊作為符號，實現與第二領域的控制客體的關聯。

在此，與顯示被識別成文本或文字記號的第一領域相對應的第二領域，可以是包括顯示文本或文字記號的區段（block）的至少一部分的領域、與顯示文本或文字記號的區段最臨近的領域、顯示文本的區段上端或下端的領域。與顯示文本的區段最臨近的領域、顯示文本或文字記號的區段上端或下端的領域。在此，與第一領域對應的第二領域並不侷限於上述內容，可為多種多樣的方式。另外，為了判斷在第二領域中所顯示的控制客體，可參照控制客體的顯示資訊。

另外，本發明的一實施方式的控制客體選擇裝置不論是否有控制客體或應用程式畫面的顯示，都可以獲取控制客體的識別資訊。對此將參照圖 5 進行詳細說明。

圖 5 是本發明一實施方式的控制客體選擇裝置的示意圖。

如圖 5 所示，根據控制客體選擇裝置 100 的畫面解析度，向用戶所顯示的範圍也會受限制。

但是，識別資訊基於控制客體的資訊而被獲取，實際與有無顯示無關都可獲取符號，並可決定符號所對應的識別資訊。

如圖 5 所示，應用程式 170 不僅對於顯示的控制客體 171、172、173、174、175 可獲取識別資訊，還可對於沒有顯示的控制客體 176、177、178、179 獲取識別資訊。

由此可見，沒有顯示的控制客體 176、177、178、179 也可以通過語音辨識而被選擇，沒有顯示的控制客體 176、177、178、179 被選擇時，可實現至該控制客體所在點的自動滾動（auto-scroll）。

如上所述，依據本發明一實施方式的控制客體選擇裝置，即使基於未顯示的控制客體或畫面，也可獲取控制客體的識別資訊。

另外，本發明的一實施方式的控制客體選擇裝置可將控制客體的識別資訊或匹配識別資訊以語音輸出。

因為控制客體的識別資訊以語音輸出，所以用戶可獲取控制客體選擇裝置可識別的單詞等；匹配識別資訊以語音輸出，從而使用戶知道所發出的聲音最終被識別的單詞是什麼，具有即使不看控制客體選擇裝置的畫面，也可以選擇控制客體的效果。

另外，依據本發明一實施方式，在控制客體上包含文本輸入欄時，通過語音辨識可在文本輸入欄內輸入文本。通過語音辨識，使含在控制客體上的文本輸入欄活性化，文本輸入的構成參照圖 6 及圖 7 進行說明。

圖 6 是本發明一實施方式的控制客體選擇裝置的流程圖。

圖 7 是本發明一實施方式的控制客體選擇方法的另一示意圖。

控制客體選擇裝置基於用戶的語音而獲取輸入資訊 S200。

輸入資訊被獲取時，控制客體選擇裝置將基於控制客體而獲取的至少一個的識別資訊與輸入資訊進行匹配 S210。

如圖 7 所示，基於控制客體 168 包括“放大按鍵”168A 和文本輸入欄 168B，可獲取基於“放大按鍵” 168A 的“放大”符號 368（參照圖 4），其可與識別資訊 468（參照圖 4）對應。

若判斷有與輸入資訊匹配的匹配識別資訊時，控制客體選擇裝置獲取該匹配識別資訊 S230。

所獲取的識別資訊和輸入資訊的匹配結果，控制客體選擇裝置判斷是否有與輸入資訊匹配的匹配識別資訊 S220。

上述 S200、S210、S220、S230 步驟，與圖 2 中的 S100、S110、S120、S130 步驟實質上是一樣的，在此不作重複說明。

獲取匹配識別資訊後，控制客體選擇裝置判斷與匹配識別資訊對應的控制客體是否包括文本輸入欄 S240。

用戶選擇文本輸入欄的意圖可看作是為了在該文本輸入欄輸入文本。因此，控制客體包括文本輸入欄時，體現為該文本輸入欄內可輸入文本。

若匹配的識別資訊對應的控制客體不包括文本輸入欄時，控制客體選擇裝置選擇與匹配的識別資訊對應的控制客體 S250。S250 步驟與圖 2 所示的 S140 步驟實質上是相同的，省略重複說明。

當匹配的識別資訊對應的控制客體包括文本輸入欄時，控制客體選擇裝置使該文本輸入欄活性化 S260。

基於用戶語音獲取“搜索”這一輸入資訊時，所獲取的輸入資訊可與“搜索”識別資訊匹配，與“搜索”匹配識別資訊對應的檢索控制客體 168 包括文本輸入欄 168B，從而可使該文本輸入欄 168B 活性化。

被活性化的文本輸入欄內設有***台。該文本輸入欄被活性化後，控制客體選擇裝置利用語音辨識功能，由用戶的語音來獲取用戶輸入文本 S270。

也就是說，在文本輸入欄被活性化後，所接收的用戶語音信號，不會再被識別為用於與識別資訊匹配的輸入資訊，被轉換成用戶輸入文本，可在該文本輸入欄內輸入。

用戶輸入文本被獲取後，控制客體選擇裝置將所獲取的用戶輸入文本輸入到控制客體內包括的文本輸入欄上 S280。

用戶輸入文本被輸入到文本輸入欄後，該文本輸入欄非活性化，控制客體選擇裝置通過語音辨識可重新選擇控制客體。

另外，說明用戶輸入文本的輸入結束的特定輸入資訊，如“結束”、“確認”、“下一個”等輸入資訊被獲取時，該文本輸入欄非活性化，控制客體選擇裝置可通過語音辨識重新選擇控制客體。

另外，依據本發明一實施方式，輸入資訊也可以是通過自用戶語音獲取的語音模式資訊與語言模式資料庫對比的過程而被識別的文本。

輸入資訊通過語音辨識，自用戶的語音辨識文本時，輸入資訊和識別資訊的匹配因識別的文本和識別資訊自身的比較而被實行。

若判斷沒有與輸入資訊匹配的匹配識別資訊時，也就是說，沒有與輸入資訊在一定程度上匹配的識別資訊時，控制客體選擇裝置在重新獲取輸入資訊前呈待機狀態，或是要求用戶重新發音。比如說，如圖 3 所示，存在“快退”、“播放”、“快進”識別資訊時，自用戶語音獲取“後退”這個輸入資訊後，可能不存在與所獲取的輸入資訊相匹配的匹配識別資訊。

此時，為了獲取與識別資訊匹配的輸入資訊，要求輸入用戶語音是非常沒有效率的。

在此，“用戶指定識別資訊”是指為了使其為控制客體的識別資訊，可由文本構成，此時文本可以是自用戶語音而獲取的語音模式資訊通過和語言模式資料庫的比較過程而被識別的文本。

參附的方塊圖的各方塊和流程圖的各步驟的組合，可因電腦指令而實行。這些電腦指令可以搭載在常用電腦、特殊電腦或其它軟體資料處理裝備的處理機上，通過電腦或其它軟體資料處理裝備的處理機而實行的指令生成在方塊圖的各方塊或流程圖的各步驟中實行說明功能的手段。這些電腦軟體指令為了以特定的方式體現功能，可在電腦或其它軟體資料處理裝備的可用於電腦或電腦可讀的記憶體上儲存，因此，在可用於電腦或電腦可讀的記憶體上所儲存的指令包括各方塊圖的方塊或流程圖的各步驟中實行的說明功能的指令手段。電腦軟體指令也可搭載在電腦或其它軟體資料處理裝備上，電腦或其它軟體資料處理裝備上，相關的動作步驟被實行，生成電腦實行的處理器，實行電腦或其它軟體資料處理裝備的指令可提供方塊圖各方塊及流程圖各步驟中用於說明功能的步驟。

在本說明書中，各方塊可以為包括用於實現特定的論理功能的一個以上可實行指令的模組、程式或代碼的一部分。另外，在幾種代替實行的舉例中，在方塊圖中所提及的功能也可以是脫離順序而發生的。舉例來說，陸續被圖示的兩個方塊也可能是實質上同時實行的，也可以是該方塊有時隨著功能而逆順序實行。

與本說明書中所記載的實施方式相關，並被說明的方法或演算法的步驟，可以是處理器實行的硬體、軟體模組或其結合直接體現的。軟體模組可為在RAM記憶體、快閃記憶體、ROM記憶體、EPROM記憶體、EEPROM記憶體、暫存器、硬碟、可卸式記憶碟、CD-ROM或本技術領域內公知的任意形態的儲存媒體。示例性的儲存媒體在處理器上聯合，處理器可判讀來自媒體的資訊，並在儲存媒體上記入資訊。採用其他方法，儲存媒體可與處理器為一體。處理器及儲存媒體可設在ASIC積體電路內。ASIC可設置的用戶終端機內。採用其他方法，處理器及儲存媒體可各自設置在用戶終端機內。

以上結合本發明的實施方式，對本發明作了更加詳細的說明，但是本發明並不侷限於此，在本發明技術思想的範圍內可進行多種變形。由此可見，本發明所記載的實施方式並不用於限定本發明的思想，僅用於說明本發明，本發明的技術思想並不受即時方式的限制。本發明的保護範圍在申請專利範圍書中的請求項內，在其同等範圍內的所有技術思想均被看作屬於本發明的權利範疇之內。

100‧‧‧控制客體選擇裝置

110‧‧‧介面

120‧‧‧處理器

122‧‧‧記憶體控制器

124‧‧‧記憶體

130‧‧‧顯示部

140‧‧‧話筒

142‧‧‧揚聲器

150、160‧‧‧應用程式

152、154、156、168、171、172、173、174、175、176、177、178、179‧‧‧控制客體

168A‧‧‧按鍵

168B‧‧‧文本輸入欄

200‧‧‧控制客體的資訊

252、252A、252B、254、254A、254B、256、256A、256B‧‧‧控制客體的顯示資訊

300、352、354、356、358、368‧‧‧符號

400、452、454、456、458、468‧‧‧識別資訊

S100-S140‧‧‧步驟

S200-S280‧‧‧步驟

圖 1 是本發明一實施方式的控制客體選擇裝置的方塊圖；

圖 2 是本發明一實施方式的控制客體選擇方法的流程圖；

圖 3 圖示了基於控制客體的顯示資訊而獲取符號和與符號對應識別資訊；

圖 4 圖示了符號和符號對應的識別資訊的示例圖；

圖 5 是本發明一實施方式的控制客體選擇裝置的示意圖；

圖 6 是本發明一實施方式的控制客體選擇裝置的流程圖；

S100-S140‧‧‧步驟

Claims

一種控制客體選擇裝置，是以語音辨識來選擇控制客體的裝置，其特徵在於，包括一個以上的處理裝置；所述一個以上的處理裝置的構成為，基於用戶的語音獲取輸入資訊，基於控制客體獲取的與符號對應的至少一個的識別資訊與所述輸入資訊匹配，在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊，在所述匹配識別資訊中選擇對應的控制客體。
根據請求項 1 所述的控制客體選擇裝置，其特徵在於，所述符號是基於所述控制客體的顯示資訊而獲取的。
根據請求項 2 所述的控制客體選擇裝置，其特徵在於，所述符號是基於應用程式畫面資訊而獲取的。
根據請求項 1 或 2 所述的控制客體選擇裝置，其特徵在於，所述符號是通過光學字元辨識（OCR: optical character recognition）而獲取的。
根據請求項 1 或 2 所述的控制客體選擇裝置，其特徵在於，所述符號通過圖像模式匹配（image pattern matching）而獲取。
根據請求項 1 所述的控制客體選擇裝置，其特徵在於，所述符號與隨著在所述裝置上實行的應用程式相異的識別資訊對應。
根據請求項 1 所述的控制客體選擇裝置，其特徵在於，所述輸入資訊包括分析所述用戶的語音特徵而獲取的語音模式資訊；所述識別資訊和所述輸入資訊的匹配包括所述識別資訊和所述語音模式資訊的匹配。
根據請求項 1 所述的控制客體選擇裝置，其特徵在於，所述輸入資訊包括通過語音辨識，由所述用戶的語音而識別的文本（Text）；所述識別資訊和所述輸入資訊的匹配包括所述識別資訊和所述文本的匹配。
根據請求項 1 所述的控制客體選擇裝置，其特徵在於，所述一個以上的處理裝置，不存在與所述識別資訊匹配的匹配識別資訊時，設定用戶指定識別資訊與一控制客體對應。
一種控制客體選擇方法，是在電腦裝置中通過語音辨識來選擇控制客體的方法，其特徵在於，包括：基於用戶的語音獲取輸入資訊的步驟；基於控制客體獲取的與符號對應的至少一個的識別資訊與所述輸入資訊匹配的步驟；在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊的步驟；在所述匹配識別資訊中選擇對應的控制客體的步驟。
根據請求項 10 所述的控制客體選擇方法，其特徵在於，所述識別資訊是基於所述控制客體的顯示資訊而獲取的。
根據請求項 11 所述的控制客體選擇方法，其特徵在於，所述符號是基於應用程式畫面資訊而獲取的。
根據請求項 10 或 11 所述的控制客體選擇方法，其特徵在於，所述符號是通過光學字元辨識（OCR: optical character recognition）而獲取的。
根據請求項 10 或 11 所述的控制客體選擇方法，其特徵在於，所述符號通過圖像模式匹配（image pattern matching）而獲取。
根據請求項 10 所述的控制客體選擇裝置，其特徵在於，所述符號與隨著在所述裝置上實行的應用程式相異的識別資訊對應。
一種可電腦判讀的媒體，是儲存指令集的可電腦判讀的媒體，其特徵在於，所述指令集因電腦裝置而被執行時，可讓所述電腦裝置獲取基於用戶語音的輸入資訊，基於控制客體獲取的與符號對應的至少一個的識別資訊與所述輸入資訊匹配，在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊，在所述匹配識別資訊中選擇對應的控制客體。