TWI455112B

TWI455112B - 語音處理設備及電子裝置

Info

Publication number: TWI455112B
Application number: TW100123111A
Authority: TW
Inventors: Willem Beltman; Matias Zanartu; Arijit Raychowdhury; Anand P Rangarajan; Michael E Deisher
Original assignee: Intel Corp
Priority date: 2010-06-30
Filing date: 2011-06-30
Publication date: 2014-10-01
Also published as: WO2012003269A3; CN102934159B; US20120004909A1; US8725506B2; TW201222527A; KR101434083B1; CN102934159A; JP2013531275A; EP2589047A4; WO2012003269A2; EP2589047A2; JP5644013B2; KR20130033372A

Description

語音處理設備及電子裝置

本發明通常係相關於音訊處理，及尤其是語音訊號處理。

聲音命令和連續語音辨識被用於例如具有包括有限鍵盤功能的車上應用和電話之行動網際網路裝置。希望能夠提供乾淨的輸入給任何語音辨識引擎，但是環境中的背景雜訊阻礙此目標。例如，實驗已顯示出在車上雜訊和餐館環境中，開放的口述字眼準確性會下降至約20%，是使用者無法接受的。

今日的語音引擎具有一些雜訊減少特徵，以減少背景雜訊的影響。然而，這些特徵仍無法在挑戰環境中提供開放口述。因此，Kalman過濾技術可被用於提高語音訊號處理。

【發明內容與實施方式】

利用此處所陳述的一些實施例，可藉由將音訊雜訊過濾處理分成分開的語音辨識和人類接受路徑來增強語音辨識性能。也就是說，音訊路徑可被複製，以產生“感知”(或音訊接受)通道及被用於預處理語音辨識引擎用的音訊之分開的通道。

圖1為根據一些實施例之語音處理引擎102的區塊圖。其包含Kalman過濾引擎104、說話者/聲音模型106、環境雜訊模型107、自動語音辨識(ASR)引擎108、及標準雜訊抑制區塊110。

音訊(如、來自麥克風的數位化音訊)進入SPE(語音處理引擎)，及分成兩路徑：語音辨識路徑，其進入Kalman過濾器區塊104；及音訊感知路徑(複製的音訊)，其使用區塊110中之標準雜訊抑制技術來處理以被使用者接受。Kalman過濾器利用來自說話者/聲音模型106以及來自環境雜訊模型107的成分，以從音訊訊號過濾出雜訊，及提供已過濾訊號給自動語音辨識(ASR)引擎108。

在SPE執行之前產生說話者/；雜訊模型106(至少在最初版本)，因為SPE會除去它，雖然最初版本完全是空的，及可在執行SPE的同時更新語音/聲音模型。說話者/聲音引擎106提供與目前說話者相關聯之特別特性。此種特性可包括一或多個聲門和聲，包括使用者的特別基本聲門頻率，連同任何其他適當資訊。例如，若可利用事先取得的模型(如、產生自使用者訓練)，則亦可將它們併入說話者/使用者模型106。如所述，亦可使用為特別使用者事先產生的“乾淨”音訊資訊(x’(n))。

像說話者/聲音模型一樣，環境雜訊模型107可依據用於假設的雜訊環境或用於特定或事先經特徵化的環境(如、辦公室、車子、飛機等)之最初預設資料/假設。其可以是與環境相關聯之靜態資料(如、假設的背景雜訊元素)，及/或其可包含獲得自即時感測器等等之動態資料。例如，其可包括諸如車速、背景雜訊麥克風資料、及空調資訊等感測器輸入，以增強雜訊模型估計器的性能。在一些實施例中，藉由使用聲音活動偵測器演算法來偵測無語音的週期，可針對例如單一通道使用雜訊估計法。可在雜訊模型和Kalman過濾之間使用迭代循環而進一步增強雜訊模型。

過濾器104可使用說話者模型和雜訊模型二者或其中之一，以過濾所接收的音訊訊號。再者，從說話者模型，其可使用延伸程式，添加脈衝形式的週期性成分到Kalman過濾內，以說明由語音來源所產生的聲門和聲(如、使用例如口述、聲音控制、或轉譯裝置之人類或其他實體說話者)。典型上Kalman過濾已與白雜訊輸入一起使用，但是在人類語音的例子中，週期性輸入的添加可更加像語音產生的生理。包括預定模型資訊和聲門和聲參數之說話者模型資訊可被用於載入一組預定或事先決定的係數給說話者模型。Kalman過濾產生不一定明顯提高人類感知之音訊，但是典型上其提高語音辨識引擎的性能。因此，音訊路徑被複製(兩路徑)，利用Kalman過濾來預先處理來最大化人類感知和語音辨識輸入二者。

使用獨立的輸入和驅動雜訊，連同說明附加的色彩雜訊之雜訊觀察，使用Kalman過濾技術的已實施過濾器104可被用於模型化聲道回應作為AR或ARMA系統。

在習知Kalman過濾應用中，驅動週期性輸入典型上被忽略，及為了簡化只使用驅動白雜訊。此假設意味著過濾器將(在理想性能下)產生乾淨但沒有聲音的語音訊號，其未具有生理值亦沒有聲音本質。然而，在只需要過濾器參數時此假設是適當的。

另一方面，已決定線性Kalman過濾器可捕獲在聲音產生時所觀察到的基本互動特徵，如此可在雜訊條件下產生較佳的乾淨輸入之估計。當與CP分析和來源模型化組合時，例如、可執行甚至更好的語音處理應用。此類規劃中的誤差與其參數估計誤差而非生理/聽覺扭曲的產物相關聯。因此，此處所揭示之語音增強規劃係依據線性Kalman過濾器，其具有下表中在“線性”標題下所示之結構。

狀態x_k 對應於由聲門來源u_k 和環境雜訊w_k 所產生之乾淨的語音輸入。(x非到SPE的實際輸入)。所測量的訊號y_k 被觀察雜訊v_k 竄改。如上述，先前Kalman過濾方法為了簡化忽略週期性輸入u_k ，產生白雜訊激動語音。然而，包含此種週期性輸入和狀態變遷矩陣之CP表示提供較佳的乾淨輸入x_k 估計，且因此提供較佳的語音辨識性能。在下面段落中，將更詳細說明如此處所應用一般的Kalman過濾。

在一些實施例中，Kalman過濾模型為基的方法被用於語音增強。假設乾淨的語音遵循被背景雜訊線性竄改之特別表示。利用標準Kalman過濾，典型上使用一般具有白高斯雜訊作為輸入之自迴歸(AR)模型表示乾淨的語音。此被表示在離散等式1中。

其中x[n]為乾淨語音，α_n 為AR或線性預測編碼(LPC)係數，w[n]為白雜訊輸入，及p為AR模型的階數(一般假設成遵循拇指規則p=fs/1000+2，其中fs為單位是kHz的取樣率)。可重寫此模型以產生Kalman過濾器所需之想要結構，如等式(2)及(3)所說明一般。如此，x _k
+1 =Φx _k +Gw _k (2)

y _k =Hx _k +v _k (3)

其中，x_k+1 及x_k 為含p未來取樣和目前乾淨語音之向量，Φ為含LPC係數在可控制標準形式的最後一列中之狀態變遷矩陣，w_k 表示轉換成透過向量增益G來影響目前取樣之向量的白雜訊輸入。透過投射向量H來投射乾淨語音，以獲得被線性添加到背景雜訊v_k 之目前取樣，以產生竄改的觀察或雜訊語音y_k 。

Kalman過濾包含兩基本步驟：傳播步驟和更新步驟。在傳播步驟中，模型被用於依據先前估計來預測目前的取樣(因此標記為n|n-1)。此被表示在等式(4)中。需注意的是，僅需要含先前p點之一向量的一個緩衝器。在等式 (5)-(7)中描劃更新步驟，其中考慮預測和估計之間的誤差之下來首先校正所預測的取樣。此誤差受等式(6)及(7)所定義之Kalman過濾增益K_n 控制。需注意的是，所有這些參數可在每一框內計算一次，即、在每一框內靜止處理考慮語音(通常期間不長於25ms)。

K _n =P _n
|n
-1 H _n ^T (H _n P _n
|n
-1 H _n ^T +R _n )^-1 (6)

P _n
|n =I -(K _n H _n )P _n
|n
-1 (7)

此方案所建議之“已修改Kalman過濾器”藉由歸納系統中之兩基本雜訊假設來延伸標準過濾器，即、假設在發聲段期間聲門脈衝亦驅動AR模型，及背景雜訊具有與其相關聯的共鳴(非白處理)。聲門脈衝被表示作u[n]，及當具有聲音重疊振動時會存在。背景雜訊被假設遵循階數q的AR模型(其可被估計，例如憑經驗獲得作q=fs/2000)。因此，表示系統的新結構之兩等式為

因為用於語音的模型和雜訊之模型具有類似結構，所以Kalman過濾器所需之狀態等式係可藉由產生嵌入在較大對角線矩陣的兩子系統來延伸。同一系統結構被用於追蹤如等式(10)至(13)所示之語音和雜訊，其中下標s代表語音及v代表背景雜訊。聲門脈衝只引入向量B具有與G相同的結構之目前取樣中。

x _k
+1 =Φx _k +Bu _k +Gw _k (10)

y _k =Hx _k +v _k (11)

H =[H _s H _v ] (13)

計算Kalman過濾傳播和更新之等式不同於標準Kalman過濾器，在眾多原因之中，其中包括聲門脈衝而不是雜訊協方差矩陣R_n ，因為雜訊被過濾器本身追蹤。藉由以等式(14)修改等式(4)及以等式(15)修改等式(6)來表示這些變化。如此，

K _n =P _n
|n
-1 H _n ^T (H _n P _n
|n
-1 H _n ^T )^-1 (15)

利用這些修改，過濾器最好表示語音訊號和背景雜訊條件，如此產生較佳的雜訊去除和ASR性能。

新Kalman過濾技術不僅可用於增強語音辨識，而且可提高語音合成。參考圖2，圖示時域為基的合成器。所建議的規劃具有組合應用到輸入訊號的三互連處理之設計。第一分支識別來源成分的本質及產生來源訊號。第二分支搜尋過濾器結構及應用CP(閉合相位)分析或全框分析，以定義過濾器的線性預測係數(LPC)。第三分支偵測波封及確定合成聲音的穩定性。可以連續或平行方式來計算這些分支，及只要適當處理互動位準，可使用不同框和視窗結構(如、在一些實施中，第一分支可使用矩形視窗和非重疊框，而第二分支可使用具有例如50%的重疊之Hamming(漢明))。

圖3圖示為音訊處理引擎(如、在行動裝置中)實施前端以減少電力消耗之一般結構。其說明建構不同區塊的節電方式，如、用於圖1之SPE 102。其被分成計算加強區塊301及記憶體存取加強之後端305。計算加強前端301具有過濾器處理區302及用以決定輸入音訊是否具有語音在其中之決定區塊304。記憶體加強後端305具有說話者模型區塊306，用以產生和更新說話者模型；及語音辨識區塊308，用以實施ASR。需注意的是，說話者模型區塊306亦可具有雜訊模型區，用以產生雜訊模型的所有或部分。音訊來到前端301，由過濾器302處理，及若其具有語音，則如決定區塊304所決定一般，說話者模型及語音辨識區塊306、308被致動，以處理來自過濾器302之已過濾的語音訊號。

藉由減少對硬體的前端之記憶體要求，能夠使用較低電力操作，以增加每瓦操作的數目。前端301中之語音增強演算法的硬體實施提供達成低電力之機會，及將亦能夠使用臨界偵測器304來提供喚醒訊號到處理器硬體的後端。後端305提供典型上為記憶體加強之語音辨識演算法的硬體實施，(如HMM及/或神經網路為基)，及高性能。如此，藉由將硬體(如、SPE硬體)分成計算加強前端和高性能後端，亦可為語音增強和辨識實施“聲音喚醒”及“一直在聽”特徵。

圖4圖示諸如用於可攜式計算裝置、智慧型手機等之電子裝置平台402的例子。所代表的部位包含一或多個處理核心404、圖形處理器(GPX)406、記憶體控制器集線器(MCH)408、IO區410、及電力管理區416。GPX 406與顯示器407介接，以提供視頻內容。MCH 408與記憶體409介接，用以提供平台額外的記憶體(如、揮發性或非揮發性)。電力管理區416控制電源(如、電池、配接器轉換器、VR等等)，以提供電力到不同的平台區，及亦管理不同的活動狀態以當實行時減少電力消耗。

IO區410包含音訊處理區412和周邊介面414。周邊介面提供介面(如、PCI、USB)，以通訊和賦能各種不同的周邊裝置415(鍵盤、無線介面、列印機等等)。音訊處理區412可接收各種音訊輸入/輸出(類比及/或數位)，以提供/接收來自使用者的音訊內容。亦可與內部模組通訊，例如，在使用者和網路(如、基地台、網際網路等等)之間通訊音訊。音訊處理區412包括各種組件(如、A/D/A轉換器、編碼解碼器等等)，用以處理如平台402的功能所指定一般的音訊。尤其是，音訊Px 412包括SPE 413，如此處所討論一般，用以實施語音處理。尤其是，其可包含如圖3所說明之節電結構。

在先前說明中，已陳述許多特定細節。然而，應明白，不需這些特定細節亦可實施本發明的實施例。在其他實例中，為了不混淆對說明的瞭解，並未詳細圖示眾所皆知的電路、結構、和技術。需注意的是，提及“一實施例”、“例示實施例”、“各種實施例”等等表示如此說明之本發明的實施例可包括特別特徵、結構、或特性，但是並非每一實施例都必須包括該等特別特徵、結構、或特性。另外，一些實施例可具有為其他實施例所說明之一些、所有或沒有的特徵。

在先前說明和下面申請專利範圍中，下面語詞應闡釋如下：可使用語詞“耦合”及“連接”與其衍生者。應明白，這些語詞並不被預期彼此作為同義詞。而是在特別實施例中，“連接”被用於表示兩或多個元件彼此直接實體或電接觸。“耦合”被用於表示兩或多個元件彼此合作或互動，但是它們可能或可能不直接實體或電接觸。

語詞“PMOS電晶體”意指P型金屬氧化物半導體場效電晶體。同樣地“NMOS電晶體”意指N型金屬氧化物半導體場效電晶體。應明白，每當使用語詞“MOS電晶體”、“NMOS電晶體”、或“PMOS電晶體”時，除非特別明確表示或者尤其使用的本質來表示，否則以例示方式來使用。它們包含不同類型的MOS裝置，包括具有不同VT、材料類型、絕緣體厚度、閘極組態之裝置，僅略陳述一些。而且，除非特別稱作MOS等等，否則語詞“電晶體”可包括其他適當電晶體類型，如、接面場效電晶體、雙極接面電晶體、金屬半導體FET、及各種類型的三維電晶體、MOS，或者今日已知或尚未發展者。

本發明並不侷限於所說明的實施例，而是可以所附的申請專利範圍之精神和範疇內的修改和變化來實施。例如，應明白，本發明適合與半導體積體電路(“IC”)晶片的所有類型一起使用。這些IC晶片的例子包括但並不侷限於處理器、控制器、晶片組組件、可程式化邏輯陣列(PLA)、記憶體晶片、網路晶片等等。

亦應明白，在某些圖式中，以線表示訊號導體線。一些可以較粗，以表示更構成性的訊號路徑；具有數目標示，以表示構成訊號路徑的數目；及/或具有箭頭在一或多端，以表示主要資訊流動方向。然而，此不應被闡釋作限制的方式。而是此種附加的細節可連同一或多個例示實施例一起使用，以有助於更加瞭解電路。任何代表的訊號線，無論是否具有額外資訊，實際上包含在多重方向上行進之一或多個訊號，及可以任何適當訊號規劃類型來實施，如、以差動對、光纖線路、及/或單一端線路加以實施之數位或類比線。

應明白，雖然已指定例示尺寸/模型/值/範圍，但是本發明並不侷限於此。當製造技術(如、光刻)隨著時間日益成熟時，預期可製造較小尺寸的裝置。此外，為了簡化圖解和討論，眾所皆知的電力/接地連接至IC晶片和其他組件可能或可能不圖示在圖式中，並且以便不混淆本發明。另外，可以方塊圖形式來圖示配置，以避免混淆本發明，並且考慮到有關此種方塊圖示配置的實施之特性高度依賴欲待實施本發明的平台，即、此種特性應在熟知本項技術之人士所知的範圍內。陳述特定細節(如、電路)，以便說明本發明的例示實施例，熟知本項技術之人士應明白，沒有這些特定細節或者對這些細節加以變化之下可實施本發明。本發明因此被視作解說性而非限制性。

102‧‧‧語音處理引擎

104‧‧‧過濾引擎

106‧‧‧說話者/聲音模型

107‧‧‧環境雜訊模型

108‧‧‧自動語音辨識引擎

110‧‧‧標準雜訊抑制區塊

301‧‧‧計算加強區塊

302‧‧‧過濾器處理區

304‧‧‧決定區塊

304‧‧‧臨界偵測器

305‧‧‧後端

306‧‧‧說話者模型區塊

308‧‧‧語音辨識區塊

402‧‧‧電子裝置平台

404‧‧‧處理核心

406‧‧‧圖形處理器

407‧‧‧顯示器

408‧‧‧記憶體控制器集線器

409‧‧‧記憶體

410‧‧‧輸入輸出區

412‧‧‧音訊處理區

413‧‧‧語音處理引擎

414‧‧‧周邊介面

415‧‧‧周邊裝置

416‧‧‧電力管理區

本發明的實施例係經由例子而非經由限制來圖解說明，在附圖的圖式中，類似元件符號代表類似元件。

圖1表示根據一些實施例之語音處理引擎。

圖2表示根據一些實施例之合成器。

圖3表示根據一些實施例之用以實施語音處理引擎的結構。

圖4表示根據一些實施例之電子裝置平台。