TWI711035B

TWI711035B - 方位角估計的方法、設備、語音交互系統及儲存介質

Info

Publication number: TWI711035B
Application number: TW108127934A
Authority: TW
Inventors: 鄭脊萌; 高毅; 于蒙; 劉二男
Original assignee: 大陸商騰訊科技（深圳）有限公司
Priority date: 2018-08-06
Filing date: 2019-08-06
Publication date: 2020-11-21
Also published as: TW202008352A; US20200395005A1; EP3836136B1; US11908456B2; EP3836136A4; EP3836136A1; CN110164423A; CN110164423B; WO2020029882A1

Abstract

一種方位角估計的方法、設備、語音交互系統及儲存介質，包括：獲取多通路採樣訊號並暫存該多通路採樣訊號；對每路採樣訊號進行喚醒詞檢測，並確定每路採樣訊號的喚醒詞檢測得分；若根據每路採樣訊號的喚醒詞檢測得分確定存在該喚醒詞，則對暫存的所述多通路採樣訊號進行空間譜估計，以得到空間譜估計結果，該喚醒詞包含於目標語音；根據該空間譜估計結果和最高喚醒詞檢測得分，確定該目標語音的方位角。本申請技術方案涉及人工智慧的語音技術，由於採用喚醒詞輔助估計目標語音的方位角，從而提高了語音交互過程中方位角估計的準確性。

Description

方位角估計的方法、設備、語音交互系統及儲存介質

本申請涉及人工智慧的語音處理技術領域，具體涉及一種方位角估計的方法、設備、語音交互系統及儲存介質。

隨著智慧音箱及其衍生品的流行，人機之間的語音交互，尤其是遠場語音交互，逐漸成為了一個重要的研究方向。在語音交互領域，遠場語音交互通常是指距離大於1公尺。人機之間的語音交互被認為是未來最重要的用戶流量入口。因此，互聯網平台和內容服務商都高度重視對語音辨識介面的探索與創新。

目前消費電子領域的語音交互智慧設備主要是智慧音箱，帶語音控制功能的智慧電視或電視盒子等產品。這些產品的主要使用場景都是用戶的家庭或客廳。在這類使用場景中，房間的混響以及環境中的噪音都會對語音辨識造成巨大的挑戰，進而嚴重影響用戶的使用體驗。

為了實現更好的遠場語音辨識性能，上述語音交互設備往往都裝備有多麥克風陣列並利用波束形成演算法提升語音訊號品質。但為了達到最優的性能，波束形成演算法需要給定目標語音的方位角，且對該方位角的準確度非常敏感。因此，提升目標語音方位角估計的準確性便成為了提升遠場語音辨識系統性能的一個瓶頸。

本申請實施例提供一種方位角估計的方法，用於提高語音交互過程中方位角估計的準確性。本申請實施例還提供了相應的設備及電腦可讀儲存介質。

本申請實施例第一方面提供一種方位角估計的方法，包括：獲取多通路採樣訊號並暫存所述多通路採樣訊號；對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定每路採樣訊號的喚醒詞檢測得分；若根據所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞，則對暫存的所述多通路採樣訊號進行空間譜估計，以得到空間譜估計結果，所述喚醒詞包含於目標語音；根據所述空間譜估計結果和最高的喚醒詞檢測得分，確定所述目標語音的方位角。

本申請實施例第二方面提供一種終端設備，包括：獲取單元，用於獲取多通路採樣訊號；暫存單元，用於暫存所述獲取單元獲取的所述多通路採樣訊號；檢測單元，用於對所述暫存單元暫存的多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定每路採樣訊號的喚醒詞檢測得分；譜估計單元，用於若根據所述檢測單元確定的所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞，則對暫存的所述多通路採樣訊號進行空間譜估計，以得到空間譜估計結果，所述喚醒詞包含於目標語音；確定單元，用於根據所述譜估計單元的空間譜估計結果和所述檢測單元檢測出的最高的喚醒詞檢測得分，確定所述目標語音的方位角。

本申請實施例第三方面提供一種終端設備，所述終端設備包括：輸入/輸出(I/O)介面、處理器和記憶體，所述記憶體中儲存有程式指令；所述處理器用於執行記憶體中儲存的程式指令，執行如上述第一方面所述的方法。

本申請實施例第四方面提供一種電腦可讀儲存介質，包括指令，當所述指令在電腦設備上運行時，使得所述電腦設備執行如上述第一方面所述的方法。

本申請實施例第五方面提供了一種包含指令的電腦程式產品，當其在電腦上運行時，使得電腦執行上述第一方面所述的方法。

本申請實施例第六方面提供了一種語音交互系統，其包括雲端設備和終端設備，其中所述終端設備包括具有用於執行如上述第一方面所述的方法的終端設備，所述雲端設備用於與所述終端設備進行語音交互。

本申請實施例採用多路採樣訊號中最高的喚醒詞得分輔助多路採樣訊號的空間譜估計結果來檢測目標語音的方位角，從而避免了雜訊對目標語音方位角檢測的影響，提高了語音交互過程中方位角估計的準確性。

10:智慧電視

20:雲端設備

301-304:步驟

40:終端設備

401:獲取單元

402:暫存單元

403:檢測單元

404:譜估計單元

405:確定單元

406:控制單元

407:清理單元

50:終端設備

510:處理器

520:匯流排系統

530:I/O介面

540:記憶體

圖1是本申請實施例中人機語音交互的一場景示例示意圖；圖2是本申請實施例中人機語音交互的另一場景示例示意圖；圖3是本申請實施例中方位角估計的方法的一實施例示意圖；圖4是本申請實施例中方位角估計的方法的另一實施例示意圖；圖5是本申請實施例中方位角估計的方法的另一實施例示意圖；圖6是本申請實施例中終端設備的一實施例示意圖；圖7是本申請實施例中終端設備的一實施例示意圖；圖8是本申請實施例中終端設備的一實施例示意圖；圖9是本申請實施例中終端設備的一實施例示意圖。

下面結合附圖，對本申請的實施例進行描述，顯然，所描述的實施例僅僅是本申請一部分的實施例，而不是全部的實施例。本領域普通技術人員可知，隨著技術的發展和新場景的出現，本申請實施例提供的技術方案對於類似的技術問題，同樣適用。

人工智慧(Artificial Intelligence,AI)是利用數位電腦或者數位電腦控制的機器類比、延伸和擴展人的智慧，感知環境、獲取知識並使用知識獲得最佳結果的理論、方法、技術及應用系統。換句話說，人工智慧是電腦科學的一個綜合技術，它企圖瞭解智慧的實質，並生產出一種新的能以人類智慧相似的方式做出反應的智慧型機器。人工智慧也就是研究各種智慧型機器的設計原理與實現方法，使機器具有感知、推理與決策的功能。

人工智慧技術一般包括如感測器、專用人工智慧晶片、雲計算、分散式存儲、大資料處理技術、操作/交互系統、機電一體化等技術。人工智慧軟體技術主要包括電腦視覺技術、語音處理技術、自然語言處理技術以及機器學習/深度學習等幾大方向。其中語音處理技術(Speech Technology)的關鍵技術有自動語音辨識技術(ASR)和語音合成技術(TTS)以及聲紋識別技術。讓電腦能聽、能看、能說、能感覺，是未來人機交互的發展方向，其中語音成為未來最被看好的人機對話模式之一。

隨著人工智慧技術研究和進步，人工智慧技術在多個領域展開研究和應用，例如常見的智慧家居、智慧穿戴設備、虛擬助理、智慧音箱、智慧行銷、機器人、智慧客服等，相信隨著技術的發展，人工智慧技術將在更多的領域得到應用，並發揮越來越重要的價值。

本申請實施例提供的方案涉及人工智慧的語音技術，具體通過如下實施例進行說明：本申請實施例提供一種方位角估計的方法，用於提高語音交互過程中方位角估計的準確性。本申請實施例還提供了相應的設備及電腦可讀儲存介質。

本申請實施例中的終端設備為語音交互設備，可以是具有語音交互功能的音響、電視、電視盒子或者機器人等設備，可應用於智慧家居、智慧穿戴設備、虛擬助理、智慧音箱、智慧行銷、機器人、智慧客服、智慧醫療等場景。

作為用戶隱私保護和降低整機功耗的一種手段，具有語音交互功能的終端設備中一般都會設置一個喚醒詞。喚醒詞通常是預先設定的一個詞或一句話。當用戶說出喚醒詞並被終端設備檢測到以後，使用者發出的語音訊號才被當作命令發送給雲端設備進行語音交互服務。因為終端設備在對聲音訊號進行採樣時，會採集到各個方向上的聲音訊號，其中會通常會包括雜訊訊號，而雜訊訊號會對人機語音交互造成影響，所以通常終端設備會先確定使用者發出語音的方位角，然後對該方位角方向上的訊號進行增強，其他方向上的訊號進行抑制，從而保證順暢的人機語音交互。所以，在人機交互過程中，針對使用者發出語音的方位角的估計就顯得尤為重要。

圖1為本申請實施例中的人機語音交互場景的一示例示意圖。

如圖1所示，使用者在要喚醒具有語音交互功能的智慧電視10時，可以說出喚醒詞，如該場景中，喚醒詞為“電視你好”，該喚醒詞經過空氣傳輸到達智慧電視10，智慧電視中設置有多陣列的聲音接收器，該接收器可以是麥克風。每個陣列可以理解為是一個通路，每個通路會接收到一路採樣訊號，智慧電視10會暫存所述多通路採樣訊號，然後對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定每路採樣訊號的喚醒詞檢測得分；若根據所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞，則對暫存的所述多通路採樣訊號進行空間譜估計，以得到空間譜估計結果，所述喚醒詞包含於目標語音；根據所述空間譜估計結果和最高的喚醒詞檢測得分，確定所述目標語音的方位角。

目標語音為發出喚醒詞的使用者的語音，目標語音中包括喚醒詞。

在確定目標語音的方位角後，如圖2所示，智慧電視10就可以與雲端設備20進行語音交互了。若語音交互過程中，使用者對智慧電視10說了“琅琊榜”，智慧電視10會將採集到的語音訊號進行語音辨識，或者傳輸給雲端設備20進行語音辨識，雲端設備20識別出語音內容是“琅琊榜”後，會向智慧電視10返回與電視機“琅琊榜”相關的內容。

以上結合場景示例對本申請實施例中的方位角估計和語音交互做了簡單的描述，下面結合圖3介紹本申請實施例中的方位角估計的方法。

如圖3所示，本申請實施例提供的方位角估計的方法的一實施例包括：

301、獲取多通路採樣訊號並暫存所述多通路採樣訊號。

302、對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定每路採樣訊號的喚醒詞檢測得分。

303、若根據所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞，則對暫存的所述多通路採樣訊號進行空間譜估計，以得到空間譜估計結果，所述喚醒詞包含於目標語音。

304、根據所述空間譜估計結果和最高的喚醒詞檢測得分，確定所述目標語音的方位角。

本申請實施例提供的方位角估計的方法還可以參閱圖4進行理解。如圖4所示，終端設備會通過麥克風接收到陣列訊號，然後將接收到的陣列訊號按照不同方向劃分為N束，每束訊號經過一個通路，如圖4中所示，N束分別為從方向1到方向N，例如N=4，則可以是0度方向為方向1、90度方向為方向2、180度方向為方向3、270度方向為方向4。對於每個通路上的採樣訊號都可以進行單通路降噪，也就是降低該通路上的噪音。然後再對每個通路的採樣訊號進行喚醒詞檢測。

其中，可選地，所述對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定每路採樣訊號的喚醒詞檢測得分，可以包括：對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定所述每路採樣訊號的喚醒詞的置信度，所述置信度為所述每路採樣訊號中的內容與預配置的喚醒詞的相似程度；根據所述每路採樣訊號的喚醒詞的置信度確定所述每路採樣訊號的喚醒詞檢測得分。

也就是說，對喚醒詞檢測主要是檢測該通路中的採樣訊號中的內容與預配置的喚醒詞的相似程度，如果預配置的喚醒詞為“電視你好”，一路採樣訊號中檢測到的內容為“電視”，則表示該路採樣訊號與預配置的喚醒詞一定程度上相似，該路採樣訊號的喚醒詞檢測得分可以為5分。若另外一路採樣訊號中檢測到的內容為“電視你”，則表示該路採樣訊號與預配置的喚醒詞很大程度上相似，該路採樣訊號的喚醒詞檢測得分可以為8分。當然，具體的喚醒詞檢測得分是通過演算法計算得到的，該處只是舉例說明，不應將其理解為是對喚醒詞檢測得分的限定。

檢測出每路採樣訊號的喚醒詞檢測得分後，需要根據每路採樣訊號的喚醒詞檢測得分進行綜合判決，綜合判決的方案可以是：當所述每路採樣訊號中有任意一路採樣訊號的喚醒詞檢測得分大於得分閾值，則確定所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞。

例如：若得分閾值為6分，4個通路的喚醒詞檢測得分分別為3分、5分、7分和8分，則有兩個通路的喚醒詞檢測得分大於得分閾值6分，則可以確定存在喚醒詞。當然，這只是確定存在喚醒詞的一種判斷方案，還可以是其他的可行性判斷方案，例如：通過各個通路的累計得分確定是否存在喚醒詞。

確定存在喚醒詞後，就可以啟動方位角評估、語音訊號處理和語音辨識幾個功能。

另外，在確定存在喚醒詞後，還可以：確定所述喚醒詞從開始出現到結束所處的時間段；從暫存的所述多通路採樣訊號中提取出所述時間段內的目標採樣訊號；對應的，所述對暫存的所述多通路採樣訊號進行空間譜估計，以得到空間譜估計結果，包括：對所述目標採樣訊號進行空間譜估計，以得到空間譜估計結果。

當確定了喚醒詞從開始出現到結束所處的時間段，則在對暫存的所述多通路採樣訊號進行空間譜估計時，只需要提取該時間段內容的目標採樣訊號就好，不需要對暫存的全部採樣訊號都做估計，這樣可以減少空間譜估計時的計算量。

其中，所述確定所述喚醒詞從開始出現到結束所處的時間段，可以包括：確定所述喚醒詞結束的時間點；根據所述喚醒詞結束的時間點，以及所述喚醒詞的得分變化記錄或者採樣訊號的能量波動記錄，確定所述喚醒詞開始出現的時間點；根據所述喚醒詞開始出現的時間點和所述喚醒詞結束的時間點，確定所述喚醒詞從開始出現到結束所處的時間段。

本申請實施例中，喚醒詞結束的時間點是很容易確定的，如：喚醒詞檢測得分最高的點就可以是喚醒詞結束的時間點，喚醒詞開始出現的時間點可以是喚醒詞檢測得分開始出現變化的時間點，如果沒有出現喚醒詞，那麼之前的喚醒詞檢測得分基本是趨於零的，當有喚醒詞出現時，則喚醒詞檢測得分就會出現變化，例如：升到了1分，升到了2分，則最開始出現變化的點就可以確定為是喚醒詞開始出現的時間點。

另外，需要說明的是，根據喚醒詞檢測得分來確定喚醒詞所處的時間段只是一種方式，例如還可以是：通過採樣訊號的能量波動記錄來確定，在使用者說出喚醒詞前後採樣訊號的能量相對會比較小，這樣就可以把能量從開始升高到降低趨於平穩的時間段確定為是喚醒詞所處的時間段。

本申請實施例中，暫存單元是會暫存採樣訊號的，但如果使用者沒有說出喚醒詞，暫存單元暫存很多採樣訊號也沒有意義。所以，為了節省暫存空間，本申請實施例中會按照暫存的採樣訊號的長度清理暫存，該清理暫存的方案可以是：對於暫存的所述多通路採樣訊號，保留最新的(M+N)時間長度的採樣訊號，刪除所述(M+N)時間長度之外的採樣訊號，所述M為所述喚醒詞估用時長，所述N為預置時長。

也就是說，暫存單元中會一直暫存最新採集到的大於喚醒詞所估用時間長度的採樣訊號，這樣即可以確保暫存了喚醒詞，又可以有效的節省暫存空間。

在確定存在喚醒詞後，方位角估計單元被啟動，若確定出喚醒詞開始出現的時刻為t ₀，喚醒詞結束的時刻為t ₁，則該方位角估計單元從暫存單元中提取t ₀到t ₁時間段內的目標採樣訊號，並對該目標採樣訊號進行空間譜估計。

其中，所述對所述目標採樣訊號進行空間譜估計，以得到空間譜估計結果，可以包括：根據所述目標採樣訊號，計算出多個備選方位角上訊號功率強度。

方位角估計單元在接收到啟動訊號後，使用t ₀至t ₁時間段的目標採樣訊號計算出空間譜，空間譜也就是多個備選方位角所對應的即各個備選方向的訊號功率強度。

備選方向角的選擇是由使用場景和估計精度需求決定。比如，當使用環形麥克風陣列且方位角估計精度要求為10度時，備選方向可以選擇為0°，10°，20°，...，350°；當使用線性麥克風陣列且方位角估計精度要求為30度時，備選方向可以選擇為0°，30°，60°，...，180°。在本申請實施例中，可以將該多個備選方位角標記為θ ₁ ,θ ₂ ,...,θ _K，其中K是備選方位角的個數。空間譜估計演算法估計出每一個備選方向上的訊號功率強度，記為：P ₁ ,P ₂ ,...,P _K。空間譜估計演算法可以採用Super-Cardioid固定波束形成演算法或者其它空間譜估計演算法，此處不作詳細討論。

在完成空間譜估計後，可選地，所述根據所述空間譜估計結果和最高的喚醒詞檢測得分，確定所述目標語音的方位角，可以包括：確定目標主波束的方位角度，所述目標主波束為所述最高的喚醒詞檢測得分所對應採樣訊號的主波束；確定所述多個備選方位角上訊號功率強度中的局部極大值點；根據所述目標主波束的方位角度和所述局部極大值點，確定所述目標語音的方位角。

其中，所述根據所述目標主波束的方位角度和所述局部極大值點，確定所述目標語音的方位角，可以包括：將與所述目標主波束的方位角度最接近的局部極大值點所對應的備選方位角，確定為所述目標語音的方位角；或者，若與所述目標主波束的方位角度最接近的局部極大值點有至少兩個，則根將所述至少兩個局部極大值點各自所對應的備選方位角的平均值確定為所述目標語音的方位角。

也就是說，本申請實施例中，如圖5所示，方位角估計的過程中可以包括空間譜估計，以及空間譜和喚醒詞檢測得分判斷兩個過程。在綜合判斷過程中可以使用空間譜估計結果和喚醒詞檢測得分(記為：S ₁ ,S ₂ ,...,S _N)進行綜合以去除強雜訊對空間譜產生的干擾。其中，可行的方案可以是確定最高的喚醒詞檢測得分S _*和其前置固定波束形成演算法的主波束方向β _*。更高的喚醒詞得分代表更好的目標語音品質和更小的雜訊殘留，那麼目標語音的方向是在β _*的附近。在空間譜的所有局部極大值點中找到離β _*最近的那一個，其對應的備選方位角記為θ _*，θ _*即為對目標語音的方位角的估計。

當環境中存在強雜訊時，上述演算法設計中的空間譜可能存在多個局部極大值點。其中的一個或多個局部極大值點可能是由雜訊干擾而來，其所對應的備選方位角代表的是環境當中的點源干擾雜訊方向。通過β _*在方位角上的輔助，可以濾除掉這些雜訊產生的干擾，例如：在90度方向和270度方向都各自有一個局部極大值點，若根據最高的喚醒詞檢測得分S _*和其前置固定波束形成演算法的主波束方向β _*=60°，則可以選擇到90度方向的局部極大值點，從而準確的確定到目標語音的方位角為90度。

另外，因為人機交互中喚醒詞有其天然的最小長度限制，記為T_min，在一次喚醒之後的T_min時間內不會再出現第二次喚醒。因此，可以節省這段時間內的喚醒詞檢測運算量用於方位角估計。

因此，可選地，本申請實施例中，所述對暫存的所述多通路採樣訊號進行空間譜估計，以得到空間譜估計結果時，所述方法還可以包括：在確定存在所述喚醒詞到喚醒詞再次出現的時間長度內，停止對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測。

所以，本申請實施例中，在檢測到喚醒詞之前，多通路喚醒詞檢測模組持續運行，方位角估計模組不做任何運算，語音訊號處理模組不做任何處理而只作內部狀態跟蹤。

當在T_s時刻檢測到喚醒詞，則在T_s到T_s+T_min時間段內停止所有多通路喚醒詞檢測模組的計算，其中可以包括前置固定波束形成演算法、降噪演算法和單通路喚醒詞檢測模組。

在T_s到T_s+T_min時間段內採用空間譜估計演算法進行空間譜估計，得到更好的空間譜估計性能和解析度，結合T_s時刻的喚醒詞檢測得分，最終得到最優的目標語音的方位角。

通過上述分時進行喚醒詞檢測和方位角估計的方案，可以減少系統峰值運算量，降低系統延遲和可能的丟幀、訊號不連續等現象。

另外需要說明的是，本申請實施例中，方位角估計在檢測到喚醒詞之前不做任何計算。在接收到喚醒詞模組提供的啟動訊號後，從暫存單元中提取t ₀至t ₁時間段的目標採樣訊號，並估計可能的語音訊號方位角。綜合該估計結果和多通路喚醒詞檢測模組的得分得到最終的目標語音的方位角估計結果，並將該目標語音的方位角度輸出給語音訊號處理模組，使語音訊號處理模組在進行語音交互的過程中可以增強該目標語音的方位角方向的訊號，抑制其他方向的訊號，從而確保順暢的語音交互。

語音訊號處理模組在檢測到喚醒詞之前只作內部狀態跟蹤，例如：回聲消除、雜訊強度、語音檢測等，而不對多通路的採樣訊號作任何處理。在接收到喚醒詞得分綜合判斷模組提供的啟動訊號後，使用方位角估計模組最新估計出的語音訊號的方位角作為波束形成等語音處理演算法的目標方向，進行目標語音訊號增強，輸出增強的訊號給到語音辨識模組。

語音辨識模組在檢測到喚醒詞之前不進行任何識別運算。在接收到喚醒詞得分綜合判斷模組提供的啟動訊號後，識別語音訊號處理模組提供的經過增強的目標語音訊號，並提供識別結果，直至識別結束。

以上多個實施例描述了語音交互過程中方位角估計的方法，下面結合附圖描述本申請實施例中的終端設備。

如圖6所示，本申請實施例提供的終端設備40包括：獲取單元401用於獲取多通路採樣訊號；暫存單元402用於暫存所述獲取單元401獲取的所述多通路採樣訊號；檢測單元403用於對所述暫存單元402暫存的多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定每路採樣訊號的喚醒詞檢測得分；譜估計單元404用於若根據所述檢測單元403確定的所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞，則對暫存的所述多通路採樣訊號進行空間譜估計，以得到空間譜估計結果，所述喚醒詞包含於目標語音；確定單元405用於根據所述譜估計單元404的空間譜估計結果和所述檢測單元檢測出的最高的喚醒詞檢測得分，確定所述目標語音的方位角。

可選地，確定單元405還用於確定所述喚醒詞從開始出現到結束所處的時間段；譜估計單元404用於：從暫存的所述多通路採樣訊號中提取出所述時間段內的目標採樣訊號；對所述目標採樣訊號進行空間譜估計，以得到空間譜估計結果。

可選地，譜估計單元404用於：根據所述目標採樣訊號，計算出多個備選方位角上訊號功率強度。

可選地，譜估計單元404用於：確定目標主波束的方位角度，所述目標主波束為所述最高的喚醒詞檢測得分所對應採樣訊號的主波束；確定所述多個備選方位角上訊號功率強度中的局部極大值點；根據所述目標主波束的方位角度和所述局部極大值點，確定所述目標語音的方位角。

可選地，譜估計單元404用於：將與所述目標主波束的方位角度最接近的局部極大值點所對應的備選方位角，確定為所述目標語音的方位角。

可選地，譜估計單元404用於：若與所述目標主波束的方位角度最接近的局部極大值點有至少兩個，則根將所述至少兩個局部極大值點各自所對應的備選方位角的平均值確定為所述目標語音的方位角。

可選地，確定單元405用於確定所述喚醒詞結束的時間點，並根據所述喚醒詞結束的時間點，以及所述喚醒詞的得分變化記錄或者採樣訊號的能量波動記錄，確定所述喚醒詞開始出現的時間點；根據所述喚醒詞開始出現的時間點和所述喚醒詞結束的時間點，確定所述喚醒詞從開始出現到結束所處的時間段。

可選地，如圖7所示，本申請實施例提供的終端設備40還包括控制單元406，所述控制單元406用於在確定存在所述喚醒詞到喚醒詞再次出現的時間長度內，停止對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測。

可選地，檢測單元403用於對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定所述每路採樣訊號的喚醒詞的置信度，所述置信度為所述每路採樣訊號中的內容與預配置的喚醒詞的相似程度。另外，檢測單元403還根據所述每路採樣訊號的喚醒詞的置信度確定所述每路採樣訊號的喚醒詞檢測得分。

可選地，確定單元405還用於：當所述每路採樣訊號中有任意一路採樣訊號的喚醒詞檢測得分大於得分閾值，則確定所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞。

可選地，如圖8所示，本申請實施例提供的終端設備40還包括清理單元407，所述清理單元407用於對於暫存的所述多通路採樣訊號，保留最新的(M+N)時間長度的採樣訊號，刪除所述(M+N)時間長度之外的採樣訊號，所述M為所述喚醒詞估用時長，所述N為預置時長。

以上實施例所描述的終端設備40可以參閱圖1至圖5部分的相應描述進行理解，本處不再重複贅述。

圖9是本申請實施例提供的終端設備50的結構示意圖。所述終端設備50包括處理器510、記憶體540和輸入輸出(I/O)介面530，記憶體540可以包括唯讀記憶體和隨機存取記憶體，並向處理器510提供操作指令和資料。記憶體540的一部分還可以包括非易失性隨機存取記憶體(NVRAM)。

在一些實施方式中，記憶體540儲存了如下的元素，可執行模組或者資料結構，或者他們的子集，或者他們的擴展集：在本申請實施例中，在方位角估計的過程中，通過調用記憶體540儲存的操作指令(該操作指令可儲存在作業系統中)，獲取多通路採樣訊號並暫存所述多通路採樣訊號；對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定每路採樣訊號的喚醒詞檢測得分；若根據所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞，則對暫存的所述多通路採樣訊號進行空間譜估計，以得到空間譜估計結果，所述喚醒詞包含於目標語音；根據所述空間譜估計結果和最高的喚醒詞檢測得分，確定所述目標語音的方位角。

處理器510控制終端設備50的操作，處理器510還可以稱為中央處理單元(Central Processing Unit，CPU)。記憶體540可以包括唯讀記憶體和隨機存取記憶體，並向處理器510提供指令和資料。記憶體540的一部分還可以包括非易失性隨機存取記憶體(NVRAM)。具體的應用中終端設備50的各個元件通過匯流排系統520耦合在一起，其中匯流排系統520除包括資料匯流排之外，還可以包括電源匯流排、控制匯流排和狀態訊號匯流排等。但是為了清楚說明起見，在圖中將各種匯流排都標為匯流排系統520。

上述本申請實施例揭示的方法可以應用於處理器510中，或者由處理器510實現。處理器510可能是一種積體電路晶片，具有訊號的處理能力。在實現過程中，上述方法的各步驟可以通過處理器510中的硬體的集成邏輯電路或者軟體形式的指令完成。上述的處理器510可以是通用處理器、數位訊號處理器(DSP)、專用積體電路(ASIC)、現成可程式設計閘陣列(FPGA)或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件。可以實現或者執行本申請實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。結合本申請實施例所公開的方法的步驟可以直接體現為硬體解碼處理器執行完成，或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體，快閃記憶體、唯讀記憶體，可程式設計唯讀記憶體或者電可讀寫可程式設計記憶體、寄存器等本領域成熟的儲存介質中。該儲存介質位於記憶體540，處理器510讀取記憶體540中的資訊，結合其硬體完成上述方法的步驟。

可選地，處理器510用於：確定所述喚醒詞從開始出現到結束所處的時間段；從暫存的所述多通路採樣訊號中提取出所述時間段內的目標採樣訊號；對所述目標採樣訊號進行空間譜估計，以得到空間譜估計結果。

可選地，處理器510用於：根據所述目標採樣訊號，計算出多個備選方位角上訊號功率強度。

可選地，處理器510用於：確定目標主波束的方位角度，所述目標主波束為所述最高的喚醒詞檢測得分所對應採樣訊號的主波束；確定所述多個備選方位角上訊號功率強度中的局部極大值點；根據所述目標主波束的方位角度和所述局部極大值點，確定所述目標語音的方位角。

可選地，處理器510用於：將與所述目標主波束的方位角度最接近的局部極大值點所對應的備選方位角，確定為所述目標語音的方位角。

可選地，處理器510用於：若與所述目標主波束的方位角度最接近的局部極大值點有至少兩個，則根將所述至少兩個局部極大值點各自所對應的備選方位角的平均值確定為所述目標語音的方位角。

可選地，處理器510用於：確定所述喚醒詞結束的時間點；根據所述喚醒詞結束的時間點，以及所述喚醒詞的得分變化記錄或者採樣訊號的能量波動記錄，確定所述喚醒詞開始出現的時間點；根據所述喚醒詞開始出現的時間點和所述喚醒詞結束的時間點，確定所述喚醒詞從開始出現到結束所處的時間段。

可選地，處理器510還用於：在確定存在所述喚醒詞到喚醒詞再次出現的時間長度內，停止對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測。

可選地，處理器510用於：對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定所述每路採樣訊號的喚醒詞的置信度，所述置信度為所述每路採樣訊號中的內容與預配置的喚醒詞的相似程度；根據所述每路採樣訊號的喚醒詞的置信度確定所述每路採樣訊號的喚醒詞檢測得分。

可選地，處理器510還用於：當所述每路採樣訊號中有任意一路採樣訊號的喚醒詞檢測得分大於得分閾值，則確定所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞。

可選地，處理器510還用於：對於暫存的所述多通路採樣訊號，保留最新的(M+N)時間長度的採樣訊號，刪除所述(M+N)時間長度之外的採樣訊號，所述M為所述喚醒詞估用時長，所述N為預置時長。

以上對終端設備50的描述可以參閱圖1至圖5部分的描述進行理解，本處不再重複贅述。

請參閱圖2。在本申請的一些實施例中，本申請實施例還提供一種語音交互系統，其包括終端設備以及雲端設備20，其中所述終端設備可以是具有語音交互功能的音響、電視、電視盒子或者機器人等設備，例如圖2所示的智慧電視10。智慧電視10可以包括圖6或圖7所示的終端設備40，或圖8所示的終端設備50。智慧電視10會暫存所述多通路採樣訊號，人後對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定每路採樣訊號的喚醒詞檢測得分；若根據所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞，則對暫存的所述多通路採樣訊號進行空間譜估計，以得到空間譜估計結果，所述喚醒詞包含於目標語音；根據所述空間譜估計結果和最高的喚醒詞檢測得分，確定所述目標語音的方位角。在確定目標語音的方位角後，智慧電視10就可以與雲端設備20進行語音交互了。若語音交互過程中，使用者對智慧電視10說了“琅琊榜”，智慧電視10會將採集到的語音訊號進行語音辨識，或者傳輸給雲端設備20進行語音辨識，雲端設備20識別出語音內容是“琅琊榜”後，會向智慧電視10返回與電視機“琅琊榜”相關的內容。

在上述實施例中，可以全部或部分地通過軟體、硬體、韌體或者其任意組合來實現。當使用軟體實現時，可以全部或部分地以電腦程式產品的形式實現。

所述電腦程式產品包括一個或多個電腦指令。在電腦上載入和執行所述電腦程式指令時，全部或部分地產生按照本申請實施例所述的流程或功能。所述電腦可以是通用電腦、專用電腦、電腦網路、或者其他可程式設計裝置。所述電腦指令可以儲存在電腦可讀儲存介質中，或者從一個電腦可讀儲存介質向另一電腦可讀儲存介質傳輸，例如，所述電腦指令可以從一個網站網站、電腦、伺服器或資料中心通過有線(例如同軸電纜、光纖、數位用戶線路(DSL))或無線(例如紅外、無線、微波等)方式向另一個網站網站、電腦、伺服器或資料中心進行傳輸。所述電腦可讀儲存介質可以是電腦能夠儲存的任何可用介質或者是包含一個或多個可用介質集成的伺服器、資料中心等資料存放裝置。所述可用介質可以是磁性介質，(例如，軟碟、硬碟、磁帶)、光介質(例如，DVD)、或者半導體介質(例如固態硬碟(Solid State Disk，SSD))等。

本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程式來指令相關的硬體來完成，該程式可以儲存於一電腦可讀儲存介質中，儲存介質可以包括：ROM、RAM、磁片或光碟等。

以上對本申請實施例所提供的方位角估計的方法、終端設備以及電腦可讀儲存介質進行了詳細介紹，本文中應用了具體個例對本申請的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本申請的方法及其核心思想；同時，對於本領域的一般技術人員，依據本申請的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本申請的限制。

301-304‧‧‧步驟

Claims

一種方位角估計的方法，其包括：獲取多通路採樣訊號並暫存所述多通路採樣訊號；對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定所述每路採樣訊號中的內容與預配置的喚醒詞的相似程度，以及根據所述相似程度確定每路採樣訊號的喚醒詞檢測得分；若根據所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞，則從暫存的所述多通路採樣訊號中提取出目標採樣訊號進行空間譜估計，並根據所述目標採樣訊號，計算出多個備選方位角上訊號功率強度，以得到空間譜估計結果，所述喚醒詞包含於目標語音；根據所述空間譜估計結果和最高的喚醒詞檢測得分，確定所述目標語音的方位角。
根據請求項1所述的方法，其還包括：確定所述喚醒詞從開始出現到結束所處的時間段；從暫存的所述多通路採樣訊號中提取出所述時間段內的所述目標採樣訊號。
根據請求項1所述的方法，其中所述根據所述空間譜估計結果和最高的喚醒詞檢測得分，確定所述目標語音的方位角，包括：確定目標主波束的方位角度，所述目標主波束為所述最高的喚醒詞檢測得分所對應採樣訊號的主波束；確定所述多個備選方位角上訊號功率強度中的局部極大值點；根據所述目標主波束的方位角度和所述局部極大值點，確定所述目標語音的方位角。
根據請求項3所述的方法，其中所述根據所述目標主波束的方位角度和所述局部極大值點，確定所述目標語音的方位角，包括：將與所述目標主波束的方位角度最接近的局部極大值點所對應的備選方位角，確定為所述目標語音的方位角。
根據請求項3所述的方法，其中所述根據所述目標主波束的方位角度和所述局部極大值點，確定所述目標語音的方位角，包括：若與所述目標主波束的方位角度最接近的局部極大值點有至少兩個，則根將所述至少兩個局部極大值點各自所對應的備選方位角的平均值確定為所述目標語音的方位角。
根據請求項2-5任一項所述的方法，其中所述確定所述喚醒詞從開始出現到結束所處的時間段，包括：確定所述喚醒詞結束的時間點；根據所述喚醒詞結束的時間點，以及所述喚醒詞的得分變化記錄或者採樣訊號的能量波動記錄，確定所述喚醒詞開始出現的時間點；根據所述喚醒詞開始出現的時間點和所述喚醒詞結束的時間點，確定所述喚醒詞從開始出現到結束所處的時間段。
根據請求項2-5任一項所述的方法，其中所述對暫存的所述多通路採樣訊號進行空間譜估計，以得到空間譜估計結果時，所述方法還包括：在確定存在所述喚醒詞到喚醒詞再次出現的時間長度內，停止對所述多通路採樣訊號中每路採樣訊號進行喚醒詞檢測。
根據請求項1-5任一項所述的方法，其還包括：當所述每路採樣訊號中有任意一路採樣訊號的喚醒詞檢測得分大於得分閾值，則確定所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞。
根據請求項1-5任一項所述的方法，其還包括：對於暫存的所述多通路採樣訊號，保留最新的(M+N)時間長度的採樣訊號，刪除所述(M+N)時間長度之外的採樣訊號，所述M為所述喚醒詞估用時長，所述N為預置時長。
一種終端設備，其包括：獲取單元，用於獲取多通路採樣訊號；暫存單元，用於暫存所述獲取單元獲取的所述多通路採樣訊號；檢測單元，用於對所述暫存單元暫存的多通路採樣訊號中每路採樣訊號進行喚醒詞檢測，並確定所述每路採樣訊號中的內容與預配置的喚醒詞的相似程度，以及根據所述相似程度確定每路採樣訊號的喚醒詞檢測得分；譜估計單元，用於若根據所述檢測單元確定的所述每路採樣訊號的喚醒詞檢測得分確定存在所述喚醒詞，則從暫存的所述多通路採樣訊號中提取出目標採樣訊號進行空間譜估計，並根據所述目標採樣訊號，計算出多個備選方位角上訊號功率強度，以得到空間譜估計結果，所述喚醒詞包含於目標語音；及確定單元，用於根據所述譜估計單元的空間譜估計結果和所述檢測單元檢測出的最高的喚醒詞檢測得分，確定所述目標語音的方位角。
一種終端設備，包括：輸入/輸出(I/O)介面、處理器和記憶體，所述記憶體中儲存有程式指令；所述處理器用於執行記憶體中儲存的程式指令，執行如請求項1-9任一項所述的方法。
一種電腦可讀儲存介質，包括指令，其中當所述指令在電腦設備上運行時，使得所述電腦設備執行如請求項1-9中任一項所述的方法。
一種語音交互系統，其包括雲端設備和終端設備，其中所述終端設備包括具有用於執行請求項1-9任一項所述的方法的終端設備，所述雲端設備用於與所述終端設備進行語音交互。