TWI489372B

TWI489372B - 語音操控方法與行動終端裝置

Info

Publication number: TWI489372B
Application number: TW102125767A
Authority: TW
Inventors: guo-feng Zhang
Original assignee: Via Tech Inc
Priority date: 2013-04-10
Filing date: 2013-07-18
Publication date: 2015-06-21
Also published as: TW201439896A; CN103198831A; CN104104790A; US20140309996A1; CN107274897A

Description

語音操控方法與行動終端裝置

本發明是有關於一種語音操控的技術，且特別是有關於一種透過語音觸發以啟動和進行語音交互的語音操控方法與使用此方法的行動終端裝置。

隨著科技的發展，具有語音系統之行動終端裝置已日漸普及。上述的語音系統是透過語音理解技術，讓使用者與行動終端裝置進行溝通。舉例來說，使用者只要對上述的行動終端裝置講出某項要求，例如想要查車次、查天氣或是欲撥打電話等，系統便會依據使用者的語音信號，採取對應的動作。上述的動作可能是以語音方式回答使用者問題或是依照使用者指令去驅使行動終端裝置的系統進行動作。

以語音系統啟動的便捷性來說，目前大都是觸發行動終端裝置的螢幕其所顯示的應用程式來啟動，或者透過行動終端裝置所設置的實體按鍵來啟動。因此，使用者必須直接觸及行動終端裝置的螢幕或所設置的實體按鍵，以透過行動終端裝置本身來啟動語音系統，然而這對於使用者來說，在某些場合，上述的設計卻是相當的不便。比如說：在行車期間，或者在廚房做菜時，需要撥打位於客廳的行動電話，以詢問友人食譜細節等使用者無法立即觸及行動終端裝置，但需使語音系統開啟的情況。

更進一步，開啟語音對話後，如何進行更符合人類對話自然規律的完全脫手的多次交互對話。換言之，目前若使用者需要與行動終端裝置進行多次交互對話，仍必須透過手，來啟動行動終端裝置的語音系統，而無法做到如同兩個自然人之間的對話，可以連續語音問答，無需每次一問一答之後都需要手動開啟行動終端裝置的語音系統來進行下一次語音問答。

基此，如何改進上述的這些缺點，成為亟待解決的議題。

本發明提供一種行動終端裝置與語音操控方法，可更快速地提供語音服務。使用者僅需發送具有識別資訊的語音信號，即可方便地與行動終端裝置進行語音溝通。更進一步，行動終端裝置可與使用者進行連續語音應答，並可根據使用者所說的內容來終止語音交互，更符合人類對話的自然規律。在對話過程中不再需要手動參與，可以實現人機對話的完全脫手，藉以可更方便、快速地提供語音服務。

本發明提出一種行動終端裝置，其包括語音接收單元、語音輸出單元、語音喚醒模組以及語言理解模組。語音喚醒模組用以判斷是否接收到符合識別資訊的第一語音信號。語言理解模組耦接於語音接收單元、語音輸出單元以及語音喚醒模組。其中，當語音喚醒模組判斷第一語音信號符合識別資訊時，行動終端裝置啟動語音接收單元，且語言理解模組判斷語音接收單元是否在第一語音信號之後接收到第二語音信號。倘若語音接收單元未接收到第二語音信號，則語言理解模組執行語音對話模式。倘若語音接收單元接收到第二語音信號，則語言理解模組解析第二語音信號而獲得語音辨識結果。其中，當語音辨識結果具有可執行請求資訊時，語言理解模組執行應答操作，且行動終端裝置關閉語音接收單元接收第三語音信號，以及當語音辨識結果不具有可執行請求資訊時，語言理解模組執行語音對話模式。上述語言理解模組在執行語音對話模式時，語言理解模組會自動發送語音應答以詢問使用者的請求資訊。在此，當使用者輸出第四語音信號以做為回應時，語言理解模組會判斷使用者所輸出的第四語音信號是否符合對話終止提示資訊，或是否具有可執行請求資訊。若所述第四語音信號符合對話終止提示資訊或具有可執行請求資訊，語言理解模組則會根據對話終止提示資訊而終止語音對話模式，或者執行對應的可執行請求資訊；若所述第四語音信號不符合對話終止提示資訊且不具有可執行請求資訊，語言理解模組則會繼續執行語音對話模式，直到使用者所輸出的語音信號符合對話終止提示資訊或具有可執行請求資訊為止。另一方面，語言理解模組在執行語音對話模式時，若使用者未輸出第四語音信號以做為回應，語言理解模組則會繼續透過語音輸出單元發送語音應答來詢問使用者，直到語言理解模組於預設時間內，由於使用者的第四語音信號不符合對話終止提示資訊且不具有可執行請求資訊，亦或一直未發出第四語音信號，語言理解模組自動發送語音應答以詢問使用者的請求資訊的次數，超過預設次數，則終止語音對話模式。

本發明提出一種語音操控方法，用於行動終端裝置。語音操控方法包括以下步驟。判斷是否接收到符合識別資訊的第一語音信號。當第一語音信號符合識別資訊時，判斷在第一語音信號之後是否接收到第二語音信號。倘若未接收到第二語音信號，則執行語音對話模式。倘若接收到第二語音信號，則解析第二語音信號而獲得語音辨識結果。其中，當語音辨識結果具有可執行請求資訊時，執行應答操作，並關閉接收第三語音信號，以及當語音辨識結果不具有可執行請求資訊時，執行語音對話模式。上在執行語音對話模式的步驟中，會自動發送語音應答以詢問使用者的請求資訊。在此，當使用者輸出第四語音信號以做為回應時，會判斷使用者所輸出的第四語音信號是否符合對話終止提示資訊，或是否具有可執行請求資訊。若所述第四語音信號符合對話終止提示資訊或具有可執行請求資訊，則會根據對話終止提示資訊而終止語音對話模式，或者執行對應的可執行請求資訊；若所述第四語音信號不符合對話終止提示資訊且不具有可執行請求資訊，則會繼續執行語音對話模式，直到使用者所輸出的語音信號符合對話終止提示資訊或具有可執行請求資訊為止。另一方面，在執行語音對話模式的步驟中，若使用者未輸出第四語音信號以做為回應，則會繼續發送語音應答來詢問使用者，直到於預設時間內，由於使用者的第四語音信號不符合要求或一直未發出第四語音信號，語言理解模組自動發送語音應答以詢問使用者的請求資訊的次數，超過預設次數，則終止語音對話模式。

基於上述，在行動終端裝置未啟動其語音交互功能時，倘若語音喚醒模組接收到符合識別資訊的語音信號，則語音接收單元會被啟動，以接收在上述語音信號之後的另一個語音信號。之後，語言理解模組則會根據上述另一個語音信號來做出應答操作並終止行動終端裝置的語音交互功能；或者根據上述另一個語音信號發送語音應答，直到解析到對話終止提示資訊或做出應答操作為止。若語音接收單元被啟動後，在預定時間內未接收到另一個有效語音的次數超過一預定次數，則該行動終端裝置關閉該語音接收單元。這裏的有效語音可以是可執行的請求資訊(比如，“幫我查下上海今天的天氣情況”)或者是符合一對話終止提示資訊的語音(比如，“好，沒事了”)，再或者為一可應答之資訊(比如，“今天的我太太過生日，我買什麽禮物比較好？”)。藉此，行動終端裝置可依據符合識別資訊的語音信號，而啟動語音交互功能，藉以可更快速、更便捷地提供語音服務。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

100、300‧‧‧行動終端裝置

104、304‧‧‧輔助操控裝置

106、306‧‧‧語義資料庫

110、310‧‧‧語音輸出單元

120、320‧‧‧語音接收單元

130、330‧‧‧語言理解模組

140、340‧‧‧來電通信單元

350‧‧‧語音喚醒模組

A1‧‧‧語音應答

C‧‧‧來電通話

V1、V2、V3‧‧‧語音信號

SD‧‧‧語音辨識結果

SO‧‧‧語音通知

SI‧‧‧語音信號

S202、S204、S206、S208‧‧‧語音接聽方法的各步驟

S402、S404、S406、S408、S410、S412、S414、S502、S504、S506、S508、S510‧‧‧語音操控方法的流程圖

圖1是依照本發明一實施例所繪示的行動終端裝置的方塊圖。

圖2是依照本發明一實施例所繪示之語音接聽方法的流程圖。

圖3是依照本發明一實施例所繪示的行動終端裝置的方塊圖。

圖4是依照本發明一實施例所繪示之語音操控方法的流程圖。

圖5是依照本發明一實施例所繪示之語音操控方法的流程圖。

雖然現今的行動終端裝置已可提供語音系統，以讓使用者發出語音來和行動終端裝置溝通，但使用者在啟動此語音系統時，仍必須透過行動終端裝置本身來啟動。因此在使用者無法立即觸及行動終端裝置，但需使語音系統開啟的情況，往往無法滿足使用者立即的需求。更進一步，即使能夠喚醒語音對話系統，但目前的行動裝置在對話過程中仍然需要手的不時參與，比如使用者提問結束後，需要再次詢問時需要手動再次開啟語音對話系統，極不方便。為此，本發明提出一種語音接聽方法、語音操控方法及行動終端裝置，讓使用者能夠更便捷地開啟語音系統。更進一步，本發明能夠使得使用者在整個對話過程中，擺脫手的操作，使得對話更加便捷快速自然。為了使本發明之內容更為明瞭，以下特舉實施例作為本發明確實能夠據以實施的範例。

圖1是依照本發明一實施例所繪示的行動終端裝置的方塊圖。請參照圖1，行動終端裝置100具有語音輸出單元110、語音接收單元120、語言理解模組130以及來電通信單元140。行動終端裝置100例如為行動電話(Cell phone)、個人數位助理(Personal Digital Assistant，PDA)手機、智慧型手機(Smart phone)，或是安裝有通訊軟體的掌上型電腦(Pocket PC)、平板型電腦(Tablet PC)或筆記型電腦等等。行動終端裝置100可以是任何具備通訊功能的可攜式(Portable)行動裝置，在此並不限制其範圍。此外，行動終端裝置100可使用Android作業系統、Microsoft作業系統、Android作業系統、Linux作業系統等等，不限於上述。在本實施例中，行動終端裝置100會透過來電通信單元140接收到來電通話C。當來電通信單元140接收到來電通話C時，行動終端裝置100會透過語音輸出單元110，自動發送語音通知SO以詢問使用者如何進行回應。此時，行動終端裝置100會透過語音接收單元120以接收來自使用者的語音信號SI，並透過語言理解模組130來對此語音信號SI進行解析以產生語音辨識結果SD。最後，行動終端裝置100會透過來電通信單元140，以根據語音辨識結果SD來執行對應的通信操作。上述的模組與單元的功能分述如下。

語音輸出單元110例如是揚聲器。語音輸出單元110具有擴音功能，用以輸出語音通知以及來自通話對象的語音。具體來說，當行動終端裝置100接收到來電通話C時，行動終端裝置100可透過語音輸出單元110發送語音通知SO，以告知使用者來電通話C的來源(例如通話對象)或詢問使用者是否要接聽此來電通話C等等。例如，來電通信單元140可依據來電通話C而透過語音輸出單元110發出關於來電通話C的電話號碼資訊，或進而依據聯絡人通訊錄而查出撥出此來電通話C的聯絡人名稱，不限於上述。舉例來說，來電通信單元140可透過語音輸出單元110而發送出「王大明給您來電，現在接聽嗎？」、「X公司給您來電，現在接聽嗎？」、「來電是0922-123564，現在接聽嗎？」或「來電是886922-123564，現在接聽嗎？」等關於來電通話C的資訊。此外，倘若此來電通話C未提供電話號碼，則來電通信單元140亦可透過語音輸出單元110而送出預設的語音通知SO，例如，「這是未知電話，現在接聽嗎？」等等。另一方面，當使用者接通來電通話C後，使用者也會透過語音輸出單元110來進行接聽。

語音接收單元120例如為麥克風，用以接收使用者的聲音，以獲得來自使用者的語音信號SI。

語言理解模組130耦接於語音接收單元120，用以解析語音接收單元120所接收的語音信號SI，以獲得語音辨識結果。具體而言，語言理解模組130可包括語音辨識模組以及語音處理模組(未繪示)，其中，語音辨識模組會接收從語音接收單元120傳來的語音信號SI，以將語音信號轉換成多個分段語義(例如詞彙或字句等)。語音處理模組則可依據這些分段語義而解析出這些分段語義所代表的意指(例如意圖、時間、地點等)，進而判斷出上述語音信號SI中所表示的意思。此外，語音處理模組還會根據所解析的結果產生對應的應答內容。

更進一步而言，在電腦系統架構下的自然語言理解中，通常會使用固定詞語法來擷取語音信號SI的語句，以解析這些語句所意指的指令或意圖(例如接聽來電通話C、拒絕接聽來電通話C或發送簡訊等動作)等，而判斷出語音信號SI的意思，藉以獲得語音辨識結果。在本實施例中，語言理解模組130的語音處理模組，可透過語義資料庫106，來查詢語音信號SI中所分割成的分段語義是對應於哪些指令，其中語義資料庫106可記錄有各種分段語義與各種命令的關係。在本實施例中，根據上述各種分段語義，語言理解模組130的語音處理模組還可判斷出語音信號SI中哪些是使用者欲回應來電通話C的資訊。

舉例來說，當使用者回應「好的」、「接聽」、「接一下」等之類表示要接聽來電通話C的語音信號SI時，語言理解模組130可透過語義資料庫106來查詢「好的」、「接聽」、「接一下」等所對應的命令，而解析出上述的語音信號SI是用以表示接聽來電通話C。在另一實施例中，當使用者回應「不接」、「不」、「先不接」等之類表示要拒絕接聽來電通話C的語音信號SI時，語言理解模組130可透過語義資料庫106來查詢「不接」、「不」、「先不接」等所對應的命令，而解析出上述的語音信號SI是用以表示拒絕接聽來電通話C。

在另一實施例中，當使用者回應「先不接，告訴他我到公司後再打電話給他」等之類表示發送訊息以回應來電通話C的語音信號SI時，語言理解模組130可透過語義資料庫106來查詢「先不接」所對應的命令，而解析出語音信號SI為表示拒絕接聽來電通話C。並且，語言理解模組130還可透過語義資料庫106來判斷出「告訴他」是表示發送訊息的命令，藉以根據這個命令來執行通信操作，例如是根據這個命令來產生通信信號(如發送簡訊等)。其中，語言理解模組130還可判斷出「告訴他」之後的語音是表示發送訊息時的應答內容(例如是「到公司後再打電話」)。

需說明的是，在本實施例中，語言理解模組130可由一個或數個邏輯閘組合而成的硬體電路來實作，亦可以是以電腦程式碼來實作。值得一提的是，在另一實施例中，上述的語言理解模組亦可配置於雲端伺服器中。也就是說，行動終端裝置100亦可與雲端伺服器(未繪示)連線，其中雲端伺服器連線具有語言理解模組。如此一來，行動終端裝置100可將所接收到的語音信號SI，發送給雲端伺服器中的語言理解模組進行解析，再從雲端伺服器獲得語音辨識結果。

來電通信單元140耦接於語音接收單元120與語言理解模組130。來電通信單元140用以接收來電通話C及執行通信操作。具體來說，來電通信單元140接收到來電通話C後，可根據使用者的語音(後將詳述)，來進行接聽來電通話C、拒接來電通話C、傳送預設語音應答以回應來電通話C，或者傳送簡訊、語音應答等應答信號，以回應來電通話C，其中應答信號中具有使用者欲回應來電通話C的應答內容。

在此說明的是，本實施例的行動終端裝置100具有通常模式及第一模式。其中，第一模式例如是行動終端裝置100用於行動中的行車裝置中而進入車載模式。更具體而言，在此第一模式中，當行動終端裝置100接收到來電通話C時，行動終端裝置100會自動發送語音通知(例如來電通話的來源)以詢問使用者是否接聽這個來電通話C，即行動終端裝置100可自動地開啟其免持系統，以和使用者進行語音交互。相對而言，通常模式例如是行動終端裝置100於非車載模式的時候。亦即，在此通常模式中，行動終端裝置100不會自動發送語音通知以詢問使用者是否接聽這個來電通話C，而無法根據使用者的語音信號來做回應，即行動終端裝置100不會自動地開啟其免持系統。

如此一來，當行動終端裝置100切換為第一模式時，若行動終端裝置100接收到來電通話，則會發送語音通知使用者，以讓使用者透過語音的方式，傳送語音信號至行動終端裝置100，使得行動終端裝置100可根據使用者所說的話，來回應此來電通話(例如接聽或拒絕接聽來電通話等通信操作)。

需說明的是，本實施例的行動終端裝置100可自動從通常模式切換為第一模式。具體而言，當行動終端裝置100連線於輔助裝置104時，行動終端裝置100可從通常模式切換為第一模式。另一方面，當行動終端裝置100未連線於輔助裝置104時，行動終端裝置104可從第一模式切換為通常模式。在此，行動終端裝置100可匹配於輔助裝置104。其中，當行動終端裝置100透過無線傳輸訊號或者電性連接於輔助裝置104時，可使行動終端裝置10自動切換為第一模式。

此外，在另一實施例中，當行動終端裝置100用於行動中的行車裝置時，行動終端裝置100也可根據感應行車裝置的速度的大小，來決定是否切換成第一模式。例如，當行車裝置的速度超過門檻值時，行動終端裝置100則會從通常模式切換為第一模式。另一方面，當行車裝置的速度未超過門檻值時，行動終端裝置100則會從自第一模式切換為通常模式。如此一來，使用者可更加便利地透過語音來操控行動終端裝置100。

圖2是依照本發明一實施例所繪示之語音接聽方法的流程圖。請同時參照圖1及圖2，於步驟202中，行動終端裝置100會從通常模式切換為第一模式。在行動終端裝置100於第一模式的情況下，如步驟S204所示，當來電通信單元140接收到來電通話C時，來電通信單元140會透過語音輸出單元110發送語音通知SO，並啟動語音接收單元120接收語音信號SI。根據上述的語音通知SO，使用者可得知來電通話C的來源，並可透過語音的方式來操控來電通信單元140以回應此來電通話C。因此，當來電通信單元140接收到來電通話C時，來電通信單元140會啟動語音接收單元120以接收來自使用者的語音信號SI。

於步驟S206，語言理解模組130會解析語音接收單元120所接收到的語音信號SI，以獲得語音辨識結果。在此，語言理解模組130可接收來自語音接收單元120的語音信號SI，並將語音信號SI分割成多個分段語義。並且，語言理解模組130會對上述分段語義進行自然語言理解，以辨識出語音信號SI中的應答資訊。

接著，於步驟S208，來電通信單元140會根據語言理解模組130所解析出的語音辨識結果，執行對應的通信操作。在本實施例中，由於使用者可透過語音的方式，以命令行動終端裝置100進行接聽、拒接來電通話C、發送訊息或其他動作以回應來電通話C，因此語言理解模組130解析語音信號SI之後，可判斷出語音信號SI中的命令。故來電通信單元140可根據語音信號SI中的命令來執行對一的通信操作。上述來電通信單元140所執行的通信操作可以是接聽來電通話C、拒絕接聽來電通話C、傳送預設語音應答以回應來電通話C，或者傳送簡訊、語音應答等應答信號，以回應來電通話C，其中應答信號中具有使用者欲回應來電通話C的應答內容。

為了使本領域的技術人員進一步了解本實施例來電通信單元140所執行的通信操作，底下再舉諸實施例，其中，仍搭配圖1的行動終端裝置100來進行說明。

當行動終端裝置100切換為第一模式時(例如行動終端裝置100用於行動中的行車裝置中而進入車載模式)，假設來電通信單元140接收到來電通話C，且來電通信單元140會透過語音輸出單元110發送「王大明給您來電，現在接聽嗎？」這個語音通知SO。在本實施例中，倘若使用者回應「好的」這個語音信號SI，則來電通信單元140會接聽這個來電通話C。

另一方面，倘若使用者回應「不接」這個語音信號SI，則來電通信單元140會拒絕接聽這個來電通話C。在一實施例中，來電通信單元140還可傳送「您撥的電話暫時無法接聽，請稍後再撥，或在『嗶』聲後留言」這個預設語音應答來回應來電通話C。

此外，倘若使用者回應「先不接，告訴他我到公司後再打電話給他」這個語音信號SI，則來電通信單元140會拒絕接聽這個來電通話C，並且會自語音辨識結果取得應答內容，即「到公司後再打電話」這個應答內容以發送簡訊，其中例如在簡訊中記載「我在開會，稍後再回撥」這個簡訊內容來回應來電通話C。

如此一來，在行動終端裝置100進入車載模式的情況下，行動終端裝置100可自動詢問使用者是否接聽來電通話C，以讓使用者直接透過語音的方式來操控行動終端裝置100進行接聽、拒絕接聽或其他通信操作。

另外需說明的是，本實施利並不限制使用者透過語音的方式來回應來電通話C。在其他實施例中，使用者可透過按壓配置於行動終端裝置100的按鍵(未繪示)，以令來電通信單元140進行接聽/拒接。或者，使用者也可透過連線於行動終端裝置100的輔助操控裝置104(例如是具有藍芽功能或無線傳輸功能的隨身裝置)，來操控來電通信單元140進行接聽/拒接。

依據上述，行動終端裝置100可自動從通常模式切換為第一模式。並且，當來電通信單元140在第一模式接收到來電通話時，語音輸出單元110會發送語音通知以詢問使用者。當使用者發送語音信號時，語言理解模組130會對此語音信號進行解析，且來電通信單元140會根據語言理解模組130解析後所獲得的語音辨識結果，執行對應的通信操作。如此一來，行動終端裝置可更快速地提供語音服務，其中當行動終端裝置100在第一模式的情況下，例如用於行動中的行車裝置時，使用者可方便地根據行動終端裝置100所發送的語音通知，透過語音的方式來回應來電通話。藉此，使用者可更加便利地操控行動終端裝置。

圖3是依照本發明一實施例所繪示的行動終端裝置的方塊圖。請參照圖3，行動終端裝置300具有語音輸出單元310、語音接收單元320、語言理解模組330以及語音喚醒模組350。本實施例的行動終端裝置300與圖1的行動終端裝置100相似，其不同之處在於：本實施例的行動終端裝置300更具有語音喚醒模組350。

語音喚醒模組350用以判斷是否接收到具有識別資訊的語音信號。在本實施例中，當語音喚醒模組350未接收到具有識別資訊的語音信號時，語音輸出單元310、語音接收單元320及語言理解模組330可以處於待機或關閉等模式，即行動終端裝置300不會與使用者進行語音交互。而當語音喚醒模組350接收到具有識別資訊的語音信號時，行動終端裝置300則會啟動語音接收單元320以接收之後的語音信號，並透過語言理解模組330來進行解析，即行動終端裝置300會依據此語音信號與使用者進行語音交互，且還可執行對應於語音信號的應答操作等。故在本實施例中，使用者可直接以語音的方式，說出具有識別資訊的語音(例如特定的字彙，如名字)，來喚醒行動終端裝置300執行語音交互功能。此外，本實施例的語音喚醒模組350可由一個或數個邏輯閘組合而成的硬體電路來實作，亦可以是以電腦程式碼來實作。

值得一提的是，由於語音接收單元320是在語音喚醒模組350辨識出識別資訊之後而被啟動，因此語言理解模組330可避免對非語音信號(例如雜音信號)進行解析。此外，由於語音喚醒模組350只要能辨識出識別資訊所對應的音訊(例如「小茜」這個識別資訊所對應的音訊)，即會判斷所接收到的語音信號具有識別資訊，因此語音喚醒模組350可以不具備有自然語言理解的能力，而具有較低功率的消耗。如此一來，當使用者未提供具有識別資訊的語音信號時，行動終端裝置300不會啟動語音交互功能，故行動終端裝置300不僅可方便使用者透過語音來進行操控，亦可節省電源消耗。

故在本實施例中，行動終端裝置300可透過語音喚醒模組350來判斷是否接收到符合識別資訊的語音信號(底下以語音信號V1表示)，若是，則行動終端裝置300會啟動語音接收單元320以接收音訊，並且透過語言理解模組330判斷語音接收單元320是否在語音信號V1之後接收到另一語音信號(底下以語音信號V2表示)。倘若語言理解模組330判斷語音接收單元320接收到語音信號V2，語言理解模組330會解析語音信號V2而獲得語音辨識結果，以及判斷語音辨識結果中是否具有可執行請求資訊。若語音辨識結果具有可執行請求資訊時，則行動終端裝置300會透過語言理解模組330執行應答操作，並終止語音交互功能。

然而，若上述語音接收單元320在語音信號V1之後，未接收到另一語音信號V2，或者，語言理解模組330解析語音信號V2而獲得的語音辨識結果，不具有可執行請求資訊時，則行動終端裝置300會透過語言理解模組330執行語音對話模式，以和使用者進行語音溝通。其中，語言理解模組330在執行語音對話模式時，語言理解模組330會自動發送語音應答以詢問使用者的請求資訊(即使用者的意圖)。此時，語言理解模組330會判斷使用者所輸出的語音信號是否符合對話終止提示資訊，或是否具有可執行請求資訊。若有，則會終止語音對話模式，或者執行對應的可執行請求資訊；若否，則語言理解模組330則會繼續執行語音對話模式，即語言理解模組330會自動發送語音應答以詢問使用者的請求資訊(即使用者的意圖)。直到使用者所輸出的語音信號符合對話終止提示資訊或具有可執行請求資訊為止。

以下即搭配上述行動終端裝置300來說明語音操控的方法。圖4是依照本發明一實施例所繪示之語音操控方法的流程圖。請同時參照圖3及圖4，於步驟S402中，語音喚醒模組350會判斷是否接收到符合識別資訊的語音信號(底下以語音信號V1表示)。詳細而言，識別資訊可以是特定的字彙(例如名字)所對應的預設音，其中此預設音會在特定音頻範圍或特定能量範圍之內。也就是說，語音喚醒模組350可判斷是否接收到在特定音頻範圍或特定能量範圍之內的預設音，而判斷出是否接收到具有識別資訊的語音信號V1。在本實施例中，使用者可預先透過行動終端裝置300的系統來設定這個識別資訊，例如預先提供識別資訊所對應的預設音，而語音喚醒模組350可藉由比對語音信號V1是否符合這個預設音，來判斷語音信號V1是否具有識別資訊。舉例來說，假設識別資訊為「小茜」這個名字所對應的預設音，則語音喚醒模組350會判斷是否接收到具有「小茜」的語音信號V1。

倘若語音喚醒模組350未接收到符合識別資訊的語音信號V1，則如步驟S404所示，行動終端裝置300不會啟動語音交互功能。由於語音喚醒模組350未接收到符合識別資訊的語音信號V1，因此語音接收單元320是成關閉狀態或休眠狀態而不會進行語音信號的接收，故行動終端裝置300中的語言理解模組330不會取得到之後的語音信號來進行解析。舉例來說，假設識別資訊為「小茜」，倘若使用者未說出「小茜」而是說出「小王」等其他語音，即語音喚醒模組350無法接收到符合「小茜」的語音信號V1，故行動終端裝置300的語音交互功能不會被啟動。

於步驟S406中，當語音喚醒模組350判斷語音信號V1符合識別資訊時，行動終端裝置300會啟動語音接收單元320以接收音訊。並且，語言理解模組330會依據語音接收單元320所接收到的音訊，判斷語音接收單元320是否在語音信號V1之後接收到另一語音信號(底下以語音信號V2表示)。在本實施例中，語言理解模組330可判斷語音接收單元320所接收到的音訊的能量是否超過一設定值。若所述音訊的能量未超過設定值，則語言理解模組330會判斷此音訊為雜音，藉以判斷語音接收單元320未接收到語音信號V2；若所述音訊的能量已達設定值，則語言理解模組330可判斷語音接收單元320已接收到語音信號V2，進而根據此語音信號V2來執行後續的步驟。

倘若語言理解模組330判斷語音接收單元320未接收到語音信號V2，則如步驟S408所示，語言理解模組330會執行語音對話模式。在語音對話模式中，語言理解模組330可透過語音輸出單元310發送語音應答，且可透過語音接收單元320繼續接收及解析來自使用者的另一個語音信號，據以做出另一個語音應答或者應答操作，直到語言理解模組330判斷出具有對話終止提示資訊的語音信號，或者行動終端裝置300已完成使用者的命令或請求為止。關於語音對話模式的詳細步驟，將於後詳述(如圖5所示)。

倘若語言理解模組330判斷語音接收單元320接收到語音信號V2，則如步驟S410所示，語言理解模組330會解析語音信號V2而獲得語音辨識結果。語言理解模組330可接收來自語音接收單元320的語音信號V2，並將語音信號V2分割成多個分段語義，以及對上述分段語義進行自然語言理解，以辨識出語音信號V2中的內容。如同圖1的語言理解模組130，本實施例的語言理解模組330可依據固定詞語法來擷取語音信號V2的語句，以解析這些語句所意指的指令或意圖(例如命令句或者詢問句)等，而判斷出語音信號V2的意思，藉以獲得語音辨識結果。其中，語言理解模組330可透過語義資料庫306，來查詢語音信號V2中所分割成的分段語義是對應於哪些指令，而上述語義資料庫306可記錄有各種分段語義與各種命令的關係。

接著，如步驟S412所示，語言理解模組330會判斷語音辨識結果中是否具有可執行請求資訊。詳細而言，可執行請求資訊例如是指讓行動終端裝置300完成所請求的操作。也就是說，語言理解模組330可依據語音辨識結果中的可執行請求資訊，讓行動終端裝置300執行一個動作，其中行動終端裝置300例如可透過一個或多個應用程式來完成。舉例來說，當語音信號V2為「幫我打電話給王大明」、「幫我查台北明天的天氣」或「現在幾點」等，則語音信號V2具有可執行請求資訊，因此，語言理解模組330解析上述語音信號V2後，可令行動終端裝置300撥打電話給王大明、上網查並回報台北明天的天氣、或者查詢並回報現在的時間等這些動作。

另一方面，若語音辨識結果不具有可執行請求資訊，則表示語言理解模組330無法依據語音辨識結果而判斷使用者的意圖，因此無法讓行動終端裝置300完成所請求的操作。舉例來說，當語音信號V2為「幫我打電話」、「幫我查天氣」、「現在」等，則語言理解模組330解析語音信號V2後，無法令行動終端裝置300完成上述所請求的操作。亦即，語言理解模組330無法判斷出上述語音信號V2中的通話對象、查詢哪一時間內或哪一地點的天氣，以及無法根據一個不具完整語意的句子來執行。

當語音辨識結果具有可執行請求資訊時，則如步驟S414 所示，語言理解模組330會執行應答操作，且行動終端裝置300會關閉接收其他語音信號(底下以語音信號V3表示)，藉以關閉行動終端裝置300的語音交互功能。

具體來說，當可執行請求資訊為操作指令時，則語言理解模組330會啟動對應於操作指令的操作功能。例如，當可執行請求資訊為「調低螢幕的亮度」，則語言理解模組330會發出一調整亮度的信號於行動終端裝置300的系統，使其將螢幕的亮度調低。此外，當可執行請求資訊為詢問句時，則語言理解模組330會發送對應於此詢問句的語音應答。此時語言理解模組330可辨識出詢問句中的一個或多個關鍵詞，並依據這些關鍵詞而自搜尋引擎中進行查詢對應的答案，再透過語音輸出單元310來輸出語音應答。例如，當可執行請求資訊為「明天台北的溫度是幾度？」，則語言理解模組330可發出一查詢信號以透過搜尋引擎查詢對應的答案，並透過語音輸出單元310來輸出「明天台北的溫度是26 度」這個語音應答。

在此說明的是，由於上述的可執行請求資訊會讓行動終端裝置300完成所請求的操作，因此語言理解模組330執行應答操作之後，此時的語音接收單元320會成關閉或休眠狀態，而不會接收到其他的語音信號V3。更進一步而言，當語音接收單元320被關閉接收語音信號V3時，若使用者欲透過語音的方式來令行動終端裝置300執行所請求的操作，則使用者需再呼叫具有識別資訊的語音，藉以透過語音喚醒模組350來進行判斷，進而再次啟動語音接收單元320。

當語音辨識結果不具有可執行請求資訊時，則如步驟 S408所示，語言理解模組330會執行語音對話模式(關於語音對話模式的詳細步驟，將於後詳述，如圖5所示)。在此，語言理解模組330會根據語音信號V2透過語音輸出單元310發送語音應答，並且會透過語音接收單元320，繼續接收另一個語音信號。也就是說，語言理解模組330會繼續接收及解析來自使用者的語音信號，據以做出另一個語音應答或者應答操作，直到語言理解模組330判斷出具有對話終止提示資訊的語音信號，或者行動終端裝置300已完成使用者的命令或請求為止。

如此一來，在本實施例中，使用者僅需發送具有識別資訊的語音信號，即可方便地與行動終端裝置300進行語音溝通。由於行動終端裝置300可在關閉語音接收單元320之後，再次根據所述具有識別資訊的語音信號而自動打開語音交互功能，故使用者可完全地解放雙手，而和行動終端裝置300進行對話，並完全透過語音的方式來操控行動終端裝置300執行對應的應答操作等等。

為了使本領域的技術人員進一步了解上述語言理解模組330所執行的語音對話模式，底下再舉諸實施例為例，其中仍搭配圖3的行動終端裝置300來進行說明。

圖5是依照本發明一實施例所繪示之語音操控方法的流程圖。請同時參照圖3、圖4與圖5，語言理解模組330在執行語音對話模式(如圖4的步驟S408)時，於圖5的步驟S502中，語言理解模組330會產生語音應答，底下以語音應答A1表示，並透過語音輸出單元310輸出。由於語言理解模組330會因未接收到語音信號V2(如圖4的步驟S406)而執行語音對話模式，或者是因接收到不具有可執行請求資訊的語音信號V2而執行語音對話模式(如圖4的步驟S412)，故此時，語言理解模組330會自動發送語音應答A1以詢問使用者的請求資訊(即使用者的意圖)。

舉例來說，當語音接收單元320未接收到語音信號V2時，語言理解模組330可透過語音輸出單元310發送「有什麼事嗎？」、「需要提供什麼服務？」等，不限於此，藉以詢問使用者。此外，當語言理解模組330所接收到的語音信號V2不具有可執行請求資訊時，語言理解模組330可透過語音輸出單元310發送「您說的是哪一個地方的天氣？」、「您說的是誰的電話？」或「您說的是什麼意思？」等等，不限於此。

需說明的是，語言理解模組330亦可根據這個不具有可執行請求資訊的語音信號V2，而找出匹配此語音信號V2的語音應答。換言之，語言理解模組330可進入語音聊天的模式，以和使用者進行溝通。其中，語言理解模組330可透語義資料庫306來實現上述的語音聊天的模式。詳細而言，語義資料庫306可記錄有多種候選答案，而語言理解模組330依據優先順序來選取這些候選答案的其中之一來做為語音應答。例如，語言理解模組330可依據眾人使用習慣，以決定這些候選答案的優先順序。或者，語言理解模組330可依據使用者的喜好或者習慣，以決定這些候選答案的優先順序。值得一提的是，語義資料庫306中亦可記錄先前語言理解模組330所輸出的語音應答的內容，並依據先前的內容來產生語音應答。上述選出語音應答的方法為舉例說明，本實施例並不以此為限制。

當語言理解模組330透過語音輸出單元310輸出語音應答之後，於步驟S504中，語言理解模組330會判斷語音接收單元320是否再接收到其他語音信號(底下以語音信號V4表示)。此處與圖4的步驟S406相似，可參照前述的說明。

當語音接收單元320接收語音信號V4時，則如步驟S506所示，語言理解模組330會判斷語音信號V4是否符合對話終止提示資訊，或者語音信號V4是否具有可執行請求資訊。對話終止提示資訊例如是特定詞彙，用以表示對話終止。亦即，語言理解模組330會對語音信號V4進行解析，倘若解析到上述的特定詞彙，則判斷語音信號V4符合對話終止提示資訊。舉例來說，當語音信號V4符合「再見」或「沒事了」等這些對話終止提示資訊，則語音接收單元320不會繼續接收語音信號。另一方面，若語音信號V4具有可執行請求資訊，則語言理解模組330即會執行對應於可執行請求資訊的應答操作。並且，語言理解模組330會終止語音對話模式，而語音接收單元320亦不再繼續接收語音信號。在此與圖4的步驟S414相似，可參照前述的說明。

在步驟S506中，若語音信號V4符合對話終止提示資訊，或者具有可執行請求資訊時，則如步驟S508所示，語言理解模組330則終止語音對話模式，並終止接收之後的語音信號，據以結束行動終端裝置300和使用者進行語音溝通。也就是說，此時若使用者欲透過語音的方式來操控行動終端裝置300，則需說出具有識別資訊(例如「小茜」這個名子)的語音信號，才可再啟動行動終端裝置300執行語音交互。

此外，在步驟S506中，若語音信號V4不符合對話終止提示資訊，亦不具有可執行請求資訊時，則回到步驟S502，語言理解模組330會繼續透過語音輸出單元310發送語音應答來詢問使用者。

另一方面，返回步驟S504，當語音接收單元320未接收到語音信號V4，則如步驟S510所示，語言理解模組330會判斷於預設時間內未接收到語音信號V4的次數，是否超過預設次數。具體來說，若於預設時間內未接收到語音信號V4，則語言理解模組330會記錄一筆次數。如此一來，當所記錄的次數未超過預設次數時，則回到步驟S502，語言理解模組330會繼續透過語音輸出單元310發送語音應答，藉以詢問使用者的意圖。其中，語言理解模組330可於語音接收單元320未接收到語音信號V4的預設時間之後，產生語音應答。上述的語音應答例如是「您還在嗎？」、「需要提供什麼服務？」等問句，不限於此。

反之，在步驟S510中，當所記錄的次數為超過預設次數時，則如步驟S508所示，語言理解模組330會終止此語音對話模式，且語音接收單元320會終止接收之後的語音信號，亦即行動終端裝置300會結束與使用者進行語音溝通，以結束語音交互。

值得一提的是，當行動終端裝置300結束語音交互功能之後，使用者不僅可呼叫具有識別資訊的語音信號，以和行動終端裝置300溝通，使用者亦可透過輔助操控裝置304，從輔助操控裝置304發出無線傳輸信號至行動終端裝置300，以啟動語音交互功能。於此，行動終端裝置300便會啟動語音接收單元320來接收語音信號。

依據上述，本實施例的行動終端裝置300可據符合識別資訊的語音信號，而啟動行動終端裝置300的語音交互功能，藉以可更快速地提供語音服務。其中，在行動終端裝置300未啟動其語音交互功能時，語音喚醒模組350會偵測符合識別資訊的語音信號。倘若語音喚醒模組350接收到上述符合識別資訊的語音信號時，語音接收單元320則會被啟動，以接收在上述語音信號之後的另一個語音信號。之後，語言理解模組330則會根據上述另一個語音信號來做出應答操作並終止行動終端裝置300的語音交互功能；或者根據上述另一個語音信號發送語音應答，藉以獲得使用者的意圖或和使用者對話，直到解析到對話終止提示資訊或做出應答操作為止。如此一來，使用者僅需發送具有識別資訊的語音信號，即可方便地與行動終端裝置300進行語音溝通，並在通話過程中可以完全解放雙手，因為行動終端裝置300是在一個對話回合後自動打開語音交互功能。藉此，使用者可更加便利地操控行動終端裝置300。

綜上所述，在本發明的語音接聽方法與行動終端裝置中，行動終端裝置可自動從通常模式切換為第一模式。並且，當行動終端裝置在第一模式接收到來電通話時，行動終端裝置可發送語音通知以詢問使用者，而讓使用者可透過語音的方式發送語音信號來操控行動終端裝置進行回應。此時，行動終端裝置可根據來自使用者的語音信號進行解析，並根據解析後所獲得的語音辨識結果，執行對應的應答操作。如此一來，使用者可方便地根據行動終端裝置所發送的語音通知，透過語音的方式來回應來電通話。

此外，在本發明的語音操控方法與行動終端裝置中，行動終端裝置可據符合識別資訊的語音信號，以啟動語音交互功能。在行動終端裝置未啟動其語音交互功能時，倘若行動終端裝置接收到符合識別資訊的語音信號，行動終端裝置則會接收在上述語音信號之後的另一個語音信號。之後，行動終端裝置會根據上述另一個語音信號來做出應答操作並終止語音交互功能；或者根據上述另一個語音信號發送語音應答，藉以獲得使用者的意圖或和使用者對話，直到解析到對話終止提示資訊或做出應答操作為止。如此一來，使用者僅需發送具有識別資訊的語音信號，即可方便地與行動終端裝置進行語音溝通，並在通話過程中可以完全解放雙手，因為行動終端裝置總是在一個對話回合後自動打開語音輸入。且行動終端裝置可根據使用者所說的內容來終止語音交互，藉以可更快速地提供語音服務。基此，本發明的語音接聽方法、語音操控方法與行動終端裝置，可讓使用者可更加便利地操控行動終端裝置。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S402、S404、S406、S408、S410、S412、S414‧‧‧語音操控方法的流程圖

Claims

一種行動終端裝置，包括：一語音接收單元；一語音輸出單元；一語音喚醒模組，判斷是否接收到符合一識別資訊的一第一語音信號；以及一語言理解模組，耦接於該語音接收單元、該語音輸出單元以及該語音喚醒模組，其中當該語音喚醒模組判斷該第一語音信號符合該識別資訊時，該行動終端裝置啟動該語音接收單元，且該語言理解模組判斷該語音接收單元是否在該第一語音信號之後接收到一第二語音信號，倘若該語音接收單元未接收到該第二語音信號，則該語言理解模組執行一語音對話模式，倘若該語音接收單元接收到該第二語音信號，則該語言理解模組解析該第二語音信號而獲得一語音辨識結果，其中當該語音辨識結果具有一可執行請求資訊時，該語言理解模組執行一應答操作，且該行動終端裝置關閉該語音接收單元接收一第三語音信號，以及當該語音辨識結果不具有一可執行請求資訊時，該語言理解模組執行該語音對話模式。
如申請專利範圍第1項所述的行動終端裝置，其中執行該語音對話模式的步驟更包括：該語言理解模組自動發送語音應答以詢問使用者的請求資訊。
如申請專利範圍第2項所述的行動終端裝置，其中當使用者輸出一第四語音信號作為回應時，該語言理解模組判斷該第四語音信號是否符合一對話終止提示資訊，或是否具有該可執行請求資訊。
如申請專利範圍第3項所述的行動終端裝置，其中當該第四語音信號符合該終止提示資訊或具有該可執行請求資訊時，該語言理解模組根據對話終止提示資訊而終止該語音對話模式，或執行對應的該可執行請求資訊。
如申請專利範圍第3項所述的行動終端裝置，其中當該第四語音信號不符合該終止提示資訊且不具有該可執行請求資訊時，該語言理解模組再次執行該語音對話模式。
如申請專利範圍第5項所述的行動終端裝置，其中當該語言理解模組在執行該語音對話模式時，若使用者未輸出該第四語音信號時，該語言理解模組則再次執行該語音對話模式。
如申請專利範圍第5或第6項所述的行動終端裝置，其中當該語言理解模組於一預設時間內，由於使用者發出的該第四語音信號不符合該終止提示資訊或不具有該可執行請求資訊，亦或一直未發出該第四語音信號，而導致該語言理解模組自動發送另一語音應答以詢問使用者的請求資訊的次數超過該預設次數，則終止該語音對話模式，且該行動終端裝置關閉該語音接收單元。
如申請專利範圍第1項所述的行動終端裝置，其中當該可執行請求資訊為一操作指令時，該語言理解模組啟動對應於該操作指令的一操作功能。
如申請專利範圍第1項所述的行動終端裝置，其中當該可執行請求資訊為一詢問句，該語言理解模組透過該語音輸出單元發送對應於該詢問句的一語音應答。
如申請專利範圍第1項所述的行動終端裝置，其中該行動終端裝置默認在一個對話回合後自動打開該語音接收單元，除非前一個對話回合中使用者發出一對話終止提示資訊。
一種語音操控方法，用於一行動終端裝置，該方法包括：判斷是否接收到符合一識別資訊的一第一語音信號；當該第一語音信號符合該識別資訊時，判斷在該第一語音信號之後是否接收到一第二語音信號；倘若未接收到該第二語音信號，則執行一語音對話模式；倘若接收到該第二語音信號，則解析該第二語音信號而獲得一語音辨識結果；當該語音辨識結果具有一可執行請求資訊時，執行一應答操作，並關閉接收一第三語音信號；以及當該語音辨識結果不具有一可執行請求資訊時，執行該語音對話模式。
如申請專利範圍第11項所述的語音操控方法，其中執行該語音對話模式的步驟更包括：該語言理解模組自動發送語音應答以詢問使用者的請求資訊。
如申請專利範圍第12項所述的語音操控方法，其中當使用者輸出一第四語音信號作為回應時，該語言理解模組判斷該第四語音信號是否符合一對話終止提示資訊，或者是否具有該可執行請求資訊。
如申請專利範圍第13項所述的語音操控方法，其中當該第四語音信號符合該終止提示資訊或是具有該可執行請求資訊時，該語言理解模組根據對話終止提示資訊而終止該語音對話模式，或執行對應的該可執行請求資訊。
如申請專利範圍第13項所述的語音操控方法，其中當該第四語音信號不符合該終止提示資訊且不具有該可執行請求資訊時，該語言理解模組再次執行該語音對話模式。
如申請專利範圍第15項所述的語音操控方法，其中當該語言理解模組在執行該語音對話模式時，若使用者未輸出該第四語音信號時，該語言理解模組則再次執行該語音對話模式。
如申請專利範圍第15項或第16項所述的語音操控方法，其中當該語言理解模組於一預設時間內，由於使用者發出的該第四語音信號不符合該終止提示資訊或者不具有該可執行請求資訊，或者一直未發出該第四語音信號，而自動發送另一語音應答以詢問使用者的請求資訊的次數超過該預設次數，則終止該語音對話模式，且該行動終端裝置關閉該語音接收單元。
如申請專利範圍第11項所述的語音操控方法，當該語音辨識結果具有該可執行請求資訊時，執行該應答操作的步驟包括：當該可執行請求資訊為一操作指令時，啟動對應於該操作指令的一操作功能。
如申請專利範圍第11項所述的語音操控方法，其中當該語音辨識結果具有該可執行請求資訊時，執行該應答操作的步驟更包括：當該可執行請求資訊為一詢問句，發送對應於該詢問句的一語音應答。
如申請專利範圍第11項所述的語音操控方法，其中該行動終端裝置默認在一個對話回合後自動打開一語音接收單元，除非前一個對話回合中使用者發出一對話終止提示資訊。