TWI683306B

TWI683306B - 多語音助理之控制方法

Info

Publication number: TWI683306B
Application number: TW107129981A
Authority: TW
Inventors: 陳怡欽
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2020-01-21
Also published as: TW202009926A; US20200075018A1

Abstract

本案係關於一種多語音助理之控制方法，包括步驟：(a)提供配備複數個語音助理之電子裝置；(b)啟用複數個語音助理對應之複數個辨識引擎，使電子裝置進入聆聽模式，以接收至少一聲音物件；(c)分析接收到的聲音物件，並根據分析結果自複數個辨識引擎中選擇對應的辨識引擎；(d)判斷會話是否結束；(e)修改對應於複數個辨識引擎之複數個辨識閾值；及(f)關閉非對應的辨識引擎；其中，當步驟(d)之判斷結果為是，於步驟(d)之後係執行步驟(b)，且當步驟(d)之判斷結果為否，於步驟(d)之後係依序至少執行步驟(e)及步驟(f)。藉此可增進使用者體驗。

Description

多語音助理之控制方法

本案係關於一種控制方法，尤指一種應用於智慧型電子裝置之多語音助理之控制方法。

近年來，隨著智慧型電子裝置的進步，智能家電以及智慧家庭等也被提出並應用。其中，智慧型音箱已逐漸普及於一般家庭及小型店面中，有別於傳統音箱，智慧型音箱通常配置了語音助理(例如：Amazon公司的Alexa)，以透過對話的方式提供使用者多種功能之服務。

由於聲音辨識與語音助理的科技不斷改良，單一電子裝置中已可同時安裝多個不同的語音助理，以就不同的功能提供使用者服務。例如與系統面直接結合的語音助理可以提供關於系統方面例如時間、日期、行事曆及鬧鐘等方面的功能，而與特定軟體或功能結合的語音助理可以提供特定資料搜尋、購物、預約餐廳及訂購車票等功能或服務。

然而，現有的安裝多語音助理的電子裝置，在欲切換不同語音助理執行對應的功能或服務時，需要額外的切換指令方能實現。請參閱第1圖，其係顯示先前技術中多個語音助理的控制方法之簡單流程圖。如第1圖所示，當電子裝置處於閒置狀態時，若使用者透過語音輸入喚醒指令加上一般發言，則電子裝置被喚醒並將發言內容傳送至與系統面結合的第一語音助理，並執行該發言中所提及之相關功能或提供相關服務。然而，各個語音助理可以提供的功能及服務並不相同，故當使用者欲使用第一語音助理無法提供的功能或服務時，使用者若以前述方式進行語音輸入，則第一語音助理會被喚醒，但不會執行任何功能。此時使用者必須先以語音輸入喚醒指令加上切換指令，待電子裝置回應確認已切換至第二語音助理時，再以語音輸入一般發言，第二語音助理才會執行該發言中所提及之相關功能或提供相關服務。也就是說，使用者必須牢記功能或服務對應之語音助理，並確實輸入切換指令並等待電子裝置回應確認語音助理之切換，方能透過適當的語音助理完成想執行的功能或想得到的服務，不只使用者體驗極差，操作不直覺又浪費許多等待時間，多次的對話也可能造成更多的辨識錯誤，應用上十分不便，甚至可能讓使用者不願透過語音助理進行操作。

故此，如何發展一種可有效解決前述先前技術之問題與缺點之多語音助理之控制方法，實為目前尚待解決的問題。

本案之主要目的為提供一種多語音助理之控制方法，俾解決並改善前述先前技術之問題與缺點。

本案之另一目的為提供一種多語音助理之控制方法，藉由分析聲音物件後直接選擇對應的辨識引擎，可達到直接呼叫對應的語音助理進行服務，讓使用者以更直覺的對話方式使用電子裝置，進而增進使用者體驗並減少等待時間之功效。

本案之另一目的為提供一種多語音助理之控制方法，透過仲裁器、辨識原則及聆聽器的應用，不僅可在等待時間超過一預設時間時提前啟用所有辨識引擎重新進行辨識，更可直接地因應聆聽器輸入至仲裁器之內容選擇對應的辨識引擎，以減少使用者的等待時間並且避免多餘對話產生的錯誤。

為達上述目的，本案之一較佳實施態樣為提供一種多語音助理之控制方法，包括步驟：(a)提供配備複數個語音助理之一電子裝置；(b)啟用該複數個語音助理對應之複數個辨識引擎，使該電子裝置進入一聆聽模式，以接收至少一聲音物件；(c)分析接收到的該聲音物件，並根據一分析結果自該複數個辨識引擎中選擇對應的該辨識引擎；(d)判斷會話是否結束；(e)修改對應於該複數個辨識引擎之複數個辨識閾值；以及(f)關閉非對應的該辨識引擎；其中，當該步驟(d)之判斷結果為是，於該步驟(d)之後係執行該步驟(b)，且當該步驟(d)之判斷結果為否，於該步驟(d)之後係依序至少執行該步驟(e)及該步驟(f)。

1‧‧‧電子裝置

10‧‧‧中央處理器

11‧‧‧輸入輸出介面

111‧‧‧麥克風

12‧‧‧儲存裝置

121‧‧‧仲裁器

122‧‧‧聆聽器

123‧‧‧辨識原則

13‧‧‧快閃記憶體

14‧‧‧網路介面

21‧‧‧第一辨識閾值

210‧‧‧第一辨識引擎

22‧‧‧第二辨識閾值

220‧‧‧第二辨識引擎

S10、S20、S30、S40、S45、S50、S60‧‧‧步驟

第1圖係顯示先前技術中多個語音助理的控制方法之簡單流程圖。

第2圖係顯示本案較佳實施例之多語音助理之控制方法之流程圖。

第3圖係顯示本案另一較佳實施例之多語音助理之控制方法之流程圖。

第4圖係顯示本案多語音助理之控制方法適用之電子裝置之架構方塊圖。

第5圖係顯示本案多語音助理之控制方法之仲裁器之互動關係示意圖。

第6圖係顯示本案多語音助理之控制方法之仲裁器之運行狀態示意圖。

體現本案特徵與優點的一些典型實施例將在後段的說明中詳細敘述。應理解的是本案能夠在不同的態樣上具有各種的變化，其皆不脫離本案的範圍，且其中的說明及圖示在本質上係當作說明之用，而非架構於限制本案。

請參閱第2圖，其係顯示本案較佳實施例之多語音助理之控制方法之流程圖。如第2圖所示，本案較佳實施例之多語音助理之控制方法係包括步驟如下：首先，如步驟S10所示，提供配備複數個語音助理之電子裝置，該電子裝置可為例如但不限於智慧型音箱、智慧型手機或是智能家庭中控裝置等。其次，如步驟S20所示，啟用複數個語音助理對應之複數個辨識引擎，使電子裝置進入聆聽模式，以接收至少一聲音物件，該聲音物件可包括喚醒指令及發言內容，但不以此為限。在一些實施例中，每一個辨識引擎係用以辨識其對應之語音助理的相關喚醒指令及/或包含動作指示之發言，例如一第一辨識引擎辨識「設定鬧鐘」而令第一語音助理提供鬧鐘功能服務，一第二辨識引擎辨識「購買某產品」而令第二語音助理打開對應APP購買該產品等。應注意的是，若個別語音助理彼此提供的功能或服務彼此皆相異，本案之多語音助理之控制方法於控制時可以直接以功能或服務名稱作為喚醒指令，但不以此為限。

接著，如步驟S30所示，分析接收到的聲音物件，並根據分析結果自複數個辨識引擎中選擇對應的辨識引擎。然後，如步驟S40所示，判斷會話是否結束，其中當步驟S40之判斷結果為是，即判斷會話結束時，於步驟S40之後係重新執行步驟S20；而當步驟S40之判斷結果為否，即判斷會話仍未結束時，於步驟S40之後係依序至少執行步驟S50及步驟S60。應特別注意的是，此處之會話於較佳實施例中係指使用者與電子裝置之間的會話。在步驟S50中，係修改對應於該複數個辨識引擎之複數個辨識閾值。於步驟S60中，係關閉非對應的辨識引擎。藉由分析聲音物件後直接選擇對應的辨識引擎，可達到直接呼叫對應的語音助理進行服務，讓使用者以更直覺的對話方式使用電子裝置，進而增進使用者體驗並減少等待時間之功效。

請參閱第3圖，其係顯示本案另一較佳實施例之多語音助理之控制方法之流程圖。如第3圖所示，本案多語音助理之控制方法，於步驟S40之後係可進一步包括步驟S45，步驟S45係判斷等候後續指令之一等待時間是否逾時，其中當步驟S40之判斷結果為否，即會話仍未結束時，於步驟S40之後係執行步驟S45。當步驟S45之判斷結果為是，即判斷等待時間逾時的情況下，於步驟S45之後係執行步驟S20，且當步驟S45之判斷結果為否，即判斷等待時間未逾時的情況下，於步驟S45之後係執行步驟S50及步驟S60。

請參閱第4圖，其係顯示本案多語音助理之控制方法適用之電子裝置之架構方塊圖。如第4圖所示，可實現本案之多語音助理之控制方法之電子裝置1，其基礎架構係包括中央處理器10、輸入輸出介面11、儲存裝置12、快閃記憶體13及網路介面14。其中，輸入輸出介面11、儲存裝置12、快閃記憶體13及網路介面14係與中央處理器10相連接。中央處理器10係架構於控制輸入輸出介面11、儲存裝置12、快閃記憶體13及網路介面14，以及整體電子裝置1之運作。輸入輸出介面11(I/O Interface)包括麥克風11，且麥克風11主要係供使用者語音輸入之用，但不以此為限。電子裝置1可進一步包括聆聽器，另在一些實施例中，聆聽器可為軟體單元，儲存於儲存裝置12中。舉例來說，如第4圖所示之儲存裝置12中可包括仲裁器121、聆聽器122及辨識原則123，其中仲裁器121及聆聽器122於本案中屬於軟體單元，可儲存或整合於儲存裝置12中。當然仲裁器121及聆聽器121亦可能以硬體之方式(例如仲裁晶片)，獨立於儲存裝置12之外，於此不多行贅述。儲存裝置12係預載辨識原則123，且辨識原則123較佳係以一資料庫之形式存在，但不以此為限。快閃記憶體13可作為揮發性空間如主記憶體或隨機存取記憶體，亦可作為額外儲存或系統磁碟之用。網路介面14則係有線網路或無線網路介面，以供電子裝置連線一網路，例如區域網路或網際網路等。

請參閱第5圖並配合第2圖至第4圖，其中第5圖係顯示本案多語音助理之控制方法之仲裁器之互動關係示意圖。如第2圖、第3圖、第4圖及第5圖所示，於本案多語音助理之控制方法之流程步驟中，於步驟S20中，當電子裝置1進入聆聽模式，仲裁器121由一閒置狀態進入一聆聽狀態。此外，於步驟S30中，仲裁器121係根據辨識原則123及輸入自聆聽器122之聲音物件進行分析，以得到分析結果。另一方面，在步驟S40中，仲裁器121係根據來自聆聽器122之輸入進行判斷，且當該輸入為一會話結束之通知，步驟S40之判斷結果為是，即判斷會話結束。相似地，在步驟S45中，仲裁器121係根據辨識原則123進行判斷，且當等待時間大於辨識原則123中預先設定之一預設時間，步驟S45之判斷結果為是。舉例來說，如果預設時間為1秒，當電子裝置1等候後續指令之等待時間超過1秒時，於步驟S45即會判定已逾時。

請參閱第6圖並配合第4圖，其中第6圖係顯示本案多語音助理之控制方法之仲裁器之運行狀態示意圖。如第4圖及第6圖所示，本創作之多語音助理之控制方法所採用之仲裁器121，係運行於閒置狀態、聆聽狀態、串流狀態及回應狀態等狀態中的其中之一，在整體流程步驟的最初，也就是步驟S10中，仲裁器121處於閒置狀態，當流程進行到步驟S20，仲裁器121係由閒置狀態進入聆聽狀態。在步驟S30中，仲裁器係根據辨識原則123及輸入自聆聽器122之聲音物件進行分析，以得到分析結果，進而選擇對應的辨識引擎。在步驟S40中，仲裁器121會進入回應狀態，若判斷會話結束，仲裁器121會接著進入閒置狀態；若判斷會話未結束，即處於會話中的狀態，仲裁器121會維持於回應狀態，直到會話結束進入閒置狀態或者接收到另一喚醒指令切換至其他狀態。具體而言，當仲裁器121運行於閒置狀態、聆聽狀態或串流狀態，複數個辨識引擎皆被啟用。當仲裁器121運行於回應狀態，於步驟S30中被選擇的對應的辨識引擎係被啟動，且其餘之該等辨識引擎係被禁用。換言之，當仲裁器121處於回應狀態，僅有被選擇的對應的辨識引擎會作用，亦即電子裝置1處於以該對應的辨識引擎及其對應的語音助理專注回應使用者的狀態，此時關閉其餘的語音助理可節省系統資源以及電力消耗，同時提升系統效能。

請再參閱第5圖並配合第6圖。在本案多語音助理之控制方法中，實現步驟S50及步驟S60之方法主要有以下二種。在一些實施例中，在步驟S50中，對應的辨識引擎的辨識閾值係被致能(Enable)，且其餘之該等辨識引擎之該等辨識閾值係被禁能(Disable)。舉例而言，若於步驟S30中被選擇的對應的辨識引擎為第一辨識引擎210，其係具有與之對應的第一辨識閾值21，在步驟S50中，第一辨識閾值係被致能，故此與之連動的第一辨識引擎210得以作用，而對應於其餘之該等辨識引擎之該等辨識閾值，即第二辨識閾值22，係被禁能，當然也連帶使得第二辨識引擎220無法作用，進而實現步驟S60中，啟用對應的辨識引擎並禁用其餘之辨識引擎，於此例中即為啟用第一辨識引擎並禁用第二辨識引擎。

在另一些實施例中，在步驟S50中，對應的辨識引擎的辨識閾值係被修改減少，且其餘之辨識引擎之辨識閾值係被修改增加。舉例而言，若於步驟S30中被選擇的對應的辨識引擎為第二辨識引擎220，其係具有與之對應的第二辨識閾值22，在步驟S50中，第二辨識閾值22係被仲裁器121修改減少，以使門檻降低並利於辨識，或可視為降低至可啟用辨識之門檻以下；而對應於其餘之辨識引擎之辨識閾值，即對應於第一辨識引擎之第一辨識閾值21，係被仲裁器121修改增加，其數值可設置為無窮大或極大數值，使得門檻提高，可視為提高至遠大於可啟用之門檻之數值，進而實現不造S60中，啟用對應的辨識引擎並禁用其餘之辨識引擎，於此例中即為啟用第二辨識引擎並禁用第一辨識引擎。

以下進一步說明第一辨識閾值21及第二辨識閾值22。不論是第一辨識閾值21，抑或是第二辨識閾值22，其控制皆可以根據對話的狀態有不同的閾值設定。舉例來說，於最初的初始狀態，即前文所述之閒置狀態下，第一辨識閾值21及第二辨識閾值22係可設定為只要聽到關鍵字就會作用。在有會話的狀態下，例如在聆聽狀態與回應狀態下，第一辨識閾值21及第二辨識閾值22係可設定為據對話內容決定關鍵字是否作用。舉例來說，若使用者發言：「幫我打電話給王小明。」於此發言中關鍵字「王小明」並無作用。若使用者發言：「Alexa，幫我打電話。」在此發言中關鍵字“Alexa”有作用，與此關鍵字連動的對應辨識引擎即會被啟動。應當注意的是，此處指的作用是指對於第一辨識閾值21及第二辨識閾值22的判斷是否作用，與後續會話中是否有作用無涉。在後續的會話判定上，另定義一實體變數，以就不同的部分進行處理。

具體而言，對於會話內容的判斷，係以會話中包括前後文的內容來決定，會話的內容經過類AI的判斷模式，將語句判斷出意圖(Intent)跟實體變數(Entity)。以上述內容再次進行說明。若使用者發言：「幫我打電話給王小明。」於此發言中，意圖為「打電話」，而實體變數為「王小明」。而在另一發言中，使用者發言：「Alexa，幫我打電話。」意圖為「打電話」，但此發言中不存在實體變數。綜上所述，本案提供一種多語音助理之控制方法，藉由分析聲音物件後直接選擇對應的辨識引擎，可達到直接呼叫對應的語音助理進行服務，讓使用者以更直覺的對話方式使用電子裝置，進而增進使用者體驗並減少等待時間之功效。另一方面，透過仲裁器、辨識原則及聆聽器的應用，不僅可在等待時間超過一預設時間時提前啟用所有辨識引擎重新進行辨識，更可直接地因應聆聽器輸入至仲裁器之內容選擇對應的辨識引擎，以減少使用者的等待時間並且避免多餘對話產生的錯誤。

縱使本發明已由上述之實施例詳細敘述而可由熟悉本技藝之人士任施匠思而為諸般修飾，然皆不脫如附申請專利範圍所欲保護者。

S10、S20、S30、S40、S50、S60‧‧‧步驟

Claims

一種多語音助理之控制方法，包括步驟：(a)提供配備複數個語音助理之一電子裝置；(b)啟用該複數個語音助理對應之複數個辨識引擎，使該電子裝置進入一聆聽模式，以接收至少一聲音物件；(c)分析接收到的該聲音物件，並根據一分析結果自該複數個辨識引擎中選擇對應的該辨識引擎；(d)判斷會話是否結束；(e)修改對應於該複數個辨識引擎之複數個辨識閾值；以及(f)關閉非對應的該辨識引擎；其中，該電子裝置包括一仲裁器，該仲裁器係運行於一閒置狀態、一聆聽狀態、一串流狀態及一回應狀態之其中之一，當該仲裁器運行於該閒置狀態、該聆聽狀態或該串流狀態，該複數個辨識引擎皆被啟用，當該仲裁器運行於該回應狀態，於該步驟(c)中被選擇的對應的該辨識引擎係被啟動，且其餘之該等辨識引擎係被禁用，且於該步驟(b)中，當該電子裝置進入該聆聽模式，該仲裁器由該閒置狀態進入該聆聽狀態；其中，當該步驟(d)之判斷結果為是，於該步驟(d)之後係執行該步驟(b)，且當該步驟(d)之判斷結果為否，於該步驟(d)之後係依序執行該步驟(e)及該步驟(f)。
如申請專利範圍第1項所述之多語音助理之控制方法，於該步驟(d)之後更包括步驟(d1)：判斷等候後續指令之一等待時間是否逾時，其中當該步驟(d)之判斷結果為否，於該步驟(d)之後係執行該步驟(d1)，且當該步驟(d1)之判斷結果為否，於該步驟(d1)之後係執行該步驟(e)及該步驟(f)。
如申請專利範圍第1項所述之多語音助理之控制方法，其中該電子裝置更包括一儲存裝置以及一聆聽器，其中該儲存裝置係預載一辨識原則，且於該步驟(c)中，該仲裁器係根據該辨識原則及輸入自該聆聽器之該聲音物件進行分析，以得到該分析結果。
如申請專利範圍第3項所述之多語音助理之控制方法，其中於該步驟(d)中，該仲裁器係根據來自該聆聽器之一輸入進行判斷，且當該輸入為一會話結束之通知，該步驟(d)之判斷結果為是。
如申請專利範圍第3項所述之多語音助理之控制方法，其中於該步驟(d1)中，該仲裁器係根據該辨識原則進行判斷，且當該等待時間大於該辨識原則中預先設定之一預設時間，該步驟(d1)之判斷結果為是。
如申請專利範圍第2項所述之多語音助理之控制方法，其中當該步驟(d1)之判斷結果為是，於該步驟(d1)之後係執行該步驟(b)。
如申請專利範圍第1項所述之多語音助理之控制方法，其中於該步驟(e)中，對應的該辨識引擎的該辨識閾值係被致能，且其餘之該等辨識引擎之該等辨識閾值係被禁能。
如申請專利範圍第1項所述之多語音助理之控制方法，其中於該步驟(e)中，對應的該辨識引擎的該辨識閾值係被修改減少，且其餘之該等辨識引擎之該等辨識閾值係被修改增加。