TWI455112B - 語音處理設備及電子裝置 - Google Patents

語音處理設備及電子裝置 Download PDF

Info

Publication number
TWI455112B
TWI455112B TW100123111A TW100123111A TWI455112B TW I455112 B TWI455112 B TW I455112B TW 100123111 A TW100123111 A TW 100123111A TW 100123111 A TW100123111 A TW 100123111A TW I455112 B TWI455112 B TW I455112B
Authority
TW
Taiwan
Prior art keywords
noise
audio
information
speaker
electronic device
Prior art date
Application number
TW100123111A
Other languages
English (en)
Other versions
TW201222527A (en
Inventor
Willem Beltman
Matias Zanartu
Arijit Raychowdhury
Anand P Rangarajan
Michael E Deisher
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of TW201222527A publication Critical patent/TW201222527A/zh
Application granted granted Critical
Publication of TWI455112B publication Critical patent/TWI455112B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Circuits Of Receivers In General (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

語音處理設備及電子裝置
本發明通常係相關於音訊處理,及尤其是語音訊號處理。
聲音命令和連續語音辨識被用於例如具有包括有限鍵盤功能的車上應用和電話之行動網際網路裝置。希望能夠提供乾淨的輸入給任何語音辨識引擎,但是環境中的背景雜訊阻礙此目標。例如,實驗已顯示出在車上雜訊和餐館環境中,開放的口述字眼準確性會下降至約20%,是使用者無法接受的。
今日的語音引擎具有一些雜訊減少特徵,以減少背景雜訊的影響。然而,這些特徵仍無法在挑戰環境中提供開放口述。因此,Kalman過濾技術可被用於提高語音訊號處理。
【發明內容與實施方式】
利用此處所陳述的一些實施例,可藉由將音訊雜訊過濾處理分成分開的語音辨識和人類接受路徑來增強語音辨識性能。也就是說,音訊路徑可被複製,以產生“感知”(或音訊接受)通道及被用於預處理語音辨識引擎用的音訊之分開的通道。
圖1為根據一些實施例之語音處理引擎102的區塊圖。 其包含Kalman過濾引擎104、說話者/聲音模型106、環境雜訊模型107、自動語音辨識(ASR)引擎108、及標準雜訊抑制區塊110。
音訊(如、來自麥克風的數位化音訊)進入SPE(語音處理引擎),及分成兩路徑:語音辨識路徑,其進入Kalman過濾器區塊104;及音訊感知路徑(複製的音訊),其使用區塊110中之標準雜訊抑制技術來處理以被使用者接受。Kalman過濾器利用來自說話者/聲音模型106以及來自環境雜訊模型107的成分,以從音訊訊號過濾出雜訊,及提供已過濾訊號給自動語音辨識(ASR)引擎108。
在SPE執行之前產生說話者/;雜訊模型106(至少在最初版本),因為SPE會除去它,雖然最初版本完全是空的,及可在執行SPE的同時更新語音/聲音模型。說話者/聲音引擎106提供與目前說話者相關聯之特別特性。此種特性可包括一或多個聲門和聲,包括使用者的特別基本聲門頻率,連同任何其他適當資訊。例如,若可利用事先取得的模型(如、產生自使用者訓練),則亦可將它們併入說話者/使用者模型106。如所述,亦可使用為特別使用者事先產生的“乾淨”音訊資訊(x’(n))。
像說話者/聲音模型一樣,環境雜訊模型107可依據用於假設的雜訊環境或用於特定或事先經特徵化的環境(如、辦公室、車子、飛機等)之最初預設資料/假設。其可以是與環境相關聯之靜態資料(如、假設的背景雜訊 元素),及/或其可包含獲得自即時感測器等等之動態資料。例如,其可包括諸如車速、背景雜訊麥克風資料、及空調資訊等感測器輸入,以增強雜訊模型估計器的性能。在一些實施例中,藉由使用聲音活動偵測器演算法來偵測無語音的週期,可針對例如單一通道使用雜訊估計法。可在雜訊模型和Kalman過濾之間使用迭代循環而進一步增強雜訊模型。
過濾器104可使用說話者模型和雜訊模型二者或其中之一,以過濾所接收的音訊訊號。再者,從說話者模型,其可使用延伸程式,添加脈衝形式的週期性成分到Kalman過濾內,以說明由語音來源所產生的聲門和聲(如、使用例如口述、聲音控制、或轉譯裝置之人類或其他實體說話者)。典型上Kalman過濾已與白雜訊輸入一起使用,但是在人類語音的例子中,週期性輸入的添加可更加像語音產生的生理。包括預定模型資訊和聲門和聲參數之說話者模型資訊可被用於載入一組預定或事先決定的係數給說話者模型。Kalman過濾產生不一定明顯提高人類感知之音訊,但是典型上其提高語音辨識引擎的性能。因此,音訊路徑被複製(兩路徑),利用Kalman過濾來預先處理來最大化人類感知和語音辨識輸入二者。
使用獨立的輸入和驅動雜訊,連同說明附加的色彩雜訊之雜訊觀察,使用Kalman過濾技術的已實施過濾器104可被用於模型化聲道回應作為AR或ARMA系統。
在習知Kalman過濾應用中,驅動週期性輸入典型上被 忽略,及為了簡化只使用驅動白雜訊。此假設意味著過濾器將(在理想性能下)產生乾淨但沒有聲音的語音訊號,其未具有生理值亦沒有聲音本質。然而,在只需要過濾器參數時此假設是適當的。
另一方面,已決定線性Kalman過濾器可捕獲在聲音產生時所觀察到的基本互動特徵,如此可在雜訊條件下產生較佳的乾淨輸入之估計。當與CP分析和來源模型化組合時,例如、可執行甚至更好的語音處理應用。此類規劃中的誤差與其參數估計誤差而非生理/聽覺扭曲的產物相關聯。因此,此處所揭示之語音增強規劃係依據線性Kalman過濾器,其具有下表中在“線性”標題下所示之結構。
狀態xk 對應於由聲門來源uk 和環境雜訊wk 所產生之乾淨的語音輸入。(x非到SPE的實際輸入)。所測量的訊號yk 被觀察雜訊vk 竄改。如上述,先前Kalman過濾方法為了簡化忽略週期性輸入uk ,產生白雜訊激動語音。然而,包含此種週期性輸入和狀態變遷矩陣之CP表示提供較佳的乾淨輸入xk 估計,且因此提供較佳的語音辨識性能。在下面段落中,將更詳細說明如此處所應用一般的Kalman過濾。
在一些實施例中,Kalman過濾模型為基的方法被用於語音增強。假設乾淨的語音遵循被背景雜訊線性竄改之特 別表示。利用標準Kalman過濾,典型上使用一般具有白高斯雜訊作為輸入之自迴歸(AR)模型表示乾淨的語音。此被表示在離散等式1中。
其中x[n]為乾淨語音,αn 為AR或線性預測編碼(LPC)係數,w[n]為白雜訊輸入,及p為AR模型的階數(一般假設成遵循拇指規則p=fs/1000+2,其中fs為單位是kHz的取樣率)。可重寫此模型以產生Kalman過濾器所需之想要結構,如等式(2)及(3)所說明一般。如此,x k +1x k +Gw k (2)
y k =Hx k +v k (3)
其中,xk+1 及xk 為含p未來取樣和目前乾淨語音之向量,Φ為含LPC係數在可控制標準形式的最後一列中之狀態變遷矩陣,wk 表示轉換成透過向量增益G來影響目前取樣之向量的白雜訊輸入。透過投射向量H來投射乾淨語音,以獲得被線性添加到背景雜訊vk 之目前取樣,以產生竄改的觀察或雜訊語音yk
Kalman過濾包含兩基本步驟:傳播步驟和更新步驟。在傳播步驟中,模型被用於依據先前估計來預測目前的取樣(因此標記為n|n-1)。此被表示在等式(4)中。需注意的是,僅需要含先前p點之一向量的一個緩衝器。在等式 (5)-(7)中描劃更新步驟,其中考慮預測和估計之間的誤差之下來首先校正所預測的取樣。此誤差受等式(6)及(7)所定義之Kalman過濾增益Kn 控制。需注意的是,所有這些參數可在每一框內計算一次,即、在每一框內靜止處理考慮語音(通常期間不長於25ms)。
K n =P n |n -1 H n T (H n P n |n -1 H n T +R n )-1 (6)
P n |n =I -(K n H n )P n |n -1 (7)
此方案所建議之“已修改Kalman過濾器”藉由歸納系統中之兩基本雜訊假設來延伸標準過濾器,即、假設在發聲段期間聲門脈衝亦驅動AR模型,及背景雜訊具有與其相關聯的共鳴(非白處理)。聲門脈衝被表示作u[n],及當具有聲音重疊振動時會存在。背景雜訊被假設遵循階數q的AR模型(其可被估計,例如憑經驗獲得作q=fs/2000)。因此,表示系統的新結構之兩等式為
因為用於語音的模型和雜訊之模型具有類似結構,所以Kalman過濾器所需之狀態等式係可藉由產生嵌入在較大 對角線矩陣的兩子系統來延伸。同一系統結構被用於追蹤如等式(10)至(13)所示之語音和雜訊,其中下標s代表語音及v代表背景雜訊。聲門脈衝只引入向量B具有與G相同的結構之目前取樣中。
x k +1x k +Bu k +Gw k (10)
y k =Hx k +v k (11)
H =[H s H v ] (13)
計算Kalman過濾傳播和更新之等式不同於標準Kalman過濾器,在眾多原因之中,其中包括聲門脈衝而不是雜訊協方差矩陣Rn ,因為雜訊被過濾器本身追蹤。藉由以等式(14)修改等式(4)及以等式(15)修改等式(6)來表示這些變化。如此,
K n =P n |n -1 H n T (H n P n |n -1 H n T )-1 (15)
利用這些修改,過濾器最好表示語音訊號和背景雜訊條件,如此產生較佳的雜訊去除和ASR性能。
新Kalman過濾技術不僅可用於增強語音辨識,而且可提高語音合成。參考圖2,圖示時域為基的合成器。所建議的規劃具有組合應用到輸入訊號的三互連處理之設計。第一分支識別來源成分的本質及產生來源訊號。第二分支 搜尋過濾器結構及應用CP(閉合相位)分析或全框分析,以定義過濾器的線性預測係數(LPC)。第三分支偵測波封及確定合成聲音的穩定性。可以連續或平行方式來計算這些分支,及只要適當處理互動位準,可使用不同框和視窗結構(如、在一些實施中,第一分支可使用矩形視窗和非重疊框,而第二分支可使用具有例如50%的重疊之Hamming(漢明))。
圖3圖示為音訊處理引擎(如、在行動裝置中)實施前端以減少電力消耗之一般結構。其說明建構不同區塊的節電方式,如、用於圖1之SPE 102。其被分成計算加強區塊301及記憶體存取加強之後端305。計算加強前端301具有過濾器處理區302及用以決定輸入音訊是否具有語音在其中之決定區塊304。記憶體加強後端305具有說話者模型區塊306,用以產生和更新說話者模型;及語音辨識區塊308,用以實施ASR。需注意的是,說話者模型區塊306亦可具有雜訊模型區,用以產生雜訊模型的所有或部分。音訊來到前端301,由過濾器302處理,及若其具有語音,則如決定區塊304所決定一般,說話者模型及語音辨識區塊306、308被致動,以處理來自過濾器302之已過濾的語音訊號。
藉由減少對硬體的前端之記憶體要求,能夠使用較低電力操作,以增加每瓦操作的數目。前端301中之語音增強演算法的硬體實施提供達成低電力之機會,及將亦能夠使用臨界偵測器304來提供喚醒訊號到處理器硬體的後 端。後端305提供典型上為記憶體加強之語音辨識演算法的硬體實施,(如HMM及/或神經網路為基),及高性能。如此,藉由將硬體(如、SPE硬體)分成計算加強前端和高性能後端,亦可為語音增強和辨識實施“聲音喚醒”及“一直在聽”特徵。
圖4圖示諸如用於可攜式計算裝置、智慧型手機等之電子裝置平台402的例子。所代表的部位包含一或多個處理核心404、圖形處理器(GPX)406、記憶體控制器集線器(MCH)408、IO區410、及電力管理區416。GPX 406與顯示器407介接,以提供視頻內容。MCH 408與記憶體409介接,用以提供平台額外的記憶體(如、揮發性或非揮發性)。電力管理區416控制電源(如、電池、配接器轉換器、VR等等),以提供電力到不同的平台區,及亦管理不同的活動狀態以當實行時減少電力消耗。
IO區410包含音訊處理區412和周邊介面414。周邊介面提供介面(如、PCI、USB),以通訊和賦能各種不同的周邊裝置415(鍵盤、無線介面、列印機等等)。音訊處理區412可接收各種音訊輸入/輸出(類比及/或數位),以提供/接收來自使用者的音訊內容。亦可與內部模組通訊,例如,在使用者和網路(如、基地台、網際網路等等)之間通訊音訊。音訊處理區412包括各種組件(如、A/D/A轉換器、編碼解碼器等等),用以處理如平台402的功能所指定一般的音訊。尤其是,音訊Px 412包括SPE 413,如此處所討論一般,用以實施語音處理。尤其是, 其可包含如圖3所說明之節電結構。
在先前說明中,已陳述許多特定細節。然而,應明白,不需這些特定細節亦可實施本發明的實施例。在其他實例中,為了不混淆對說明的瞭解,並未詳細圖示眾所皆知的電路、結構、和技術。需注意的是,提及“一實施例”、“例示實施例”、“各種實施例”等等表示如此說明之本發明的實施例可包括特別特徵、結構、或特性,但是並非每一實施例都必須包括該等特別特徵、結構、或特性。另外,一些實施例可具有為其他實施例所說明之一些、所有或沒有的特徵。
在先前說明和下面申請專利範圍中,下面語詞應闡釋如下:可使用語詞“耦合”及“連接”與其衍生者。應明白,這些語詞並不被預期彼此作為同義詞。而是在特別實施例中,“連接”被用於表示兩或多個元件彼此直接實體或電接觸。“耦合”被用於表示兩或多個元件彼此合作或互動,但是它們可能或可能不直接實體或電接觸。
語詞“PMOS電晶體”意指P型金屬氧化物半導體場效電晶體。同樣地“NMOS電晶體”意指N型金屬氧化物半導體場效電晶體。應明白,每當使用語詞“MOS電晶體”、“NMOS電晶體”、或“PMOS電晶體”時,除非特別明確表示或者尤其使用的本質來表示,否則以例示方式來使用。它們包含不同類型的MOS裝置,包括具有不同VT、材料類型、絕緣體厚度、閘極組態之裝置,僅略陳述一些。而且,除非特別稱作MOS等等,否則語詞“電晶體”可包括其他適當電晶 體類型,如、接面場效電晶體、雙極接面電晶體、金屬半導體FET、及各種類型的三維電晶體、MOS,或者今日已知或尚未發展者。
本發明並不侷限於所說明的實施例,而是可以所附的申請專利範圍之精神和範疇內的修改和變化來實施。例如,應明白,本發明適合與半導體積體電路(“IC”)晶片的所有類型一起使用。這些IC晶片的例子包括但並不侷限於處理器、控制器、晶片組組件、可程式化邏輯陣列(PLA)、記憶體晶片、網路晶片等等。
亦應明白,在某些圖式中,以線表示訊號導體線。一些可以較粗,以表示更構成性的訊號路徑;具有數目標示,以表示構成訊號路徑的數目;及/或具有箭頭在一或多端,以表示主要資訊流動方向。然而,此不應被闡釋作限制的方式。而是此種附加的細節可連同一或多個例示實施例一起使用,以有助於更加瞭解電路。任何代表的訊號線,無論是否具有額外資訊,實際上包含在多重方向上行進之一或多個訊號,及可以任何適當訊號規劃類型來實施,如、以差動對、光纖線路、及/或單一端線路加以實施之數位或類比線。
應明白,雖然已指定例示尺寸/模型/值/範圍,但是本發明並不侷限於此。當製造技術(如、光刻)隨著時間日益成熟時,預期可製造較小尺寸的裝置。此外,為了簡化圖解和討論,眾所皆知的電力/接地連接至IC晶片和其他組件可能或可能不圖示在圖式中,並且以便不混淆本發 明。另外,可以方塊圖形式來圖示配置,以避免混淆本發明,並且考慮到有關此種方塊圖示配置的實施之特性高度依賴欲待實施本發明的平台,即、此種特性應在熟知本項技術之人士所知的範圍內。陳述特定細節(如、電路),以便說明本發明的例示實施例,熟知本項技術之人士應明白,沒有這些特定細節或者對這些細節加以變化之下可實施本發明。本發明因此被視作解說性而非限制性。
102‧‧‧語音處理引擎
104‧‧‧過濾引擎
106‧‧‧說話者/聲音模型
107‧‧‧環境雜訊模型
108‧‧‧自動語音辨識引擎
110‧‧‧標準雜訊抑制區塊
301‧‧‧計算加強區塊
302‧‧‧過濾器處理區
304‧‧‧決定區塊
304‧‧‧臨界偵測器
305‧‧‧後端
306‧‧‧說話者模型區塊
308‧‧‧語音辨識區塊
402‧‧‧電子裝置平台
404‧‧‧處理核心
406‧‧‧圖形處理器
407‧‧‧顯示器
408‧‧‧記憶體控制器集線器
409‧‧‧記憶體
410‧‧‧輸入輸出區
412‧‧‧音訊處理區
413‧‧‧語音處理引擎
414‧‧‧周邊介面
415‧‧‧周邊裝置
416‧‧‧電力管理區
本發明的實施例係經由例子而非經由限制來圖解說明,在附圖的圖式中,類似元件符號代表類似元件。
圖1表示根據一些實施例之語音處理引擎。
圖2表示根據一些實施例之合成器。
圖3表示根據一些實施例之用以實施語音處理引擎的結構。
圖4表示根據一些實施例之電子裝置平台。
102‧‧‧語音處理引擎
104‧‧‧過濾引擎
106‧‧‧說話者/聲音模型
107‧‧‧環境雜訊模型
108‧‧‧自動語音辨識引擎
110‧‧‧標準雜訊抑制區塊

Claims (16)

  1. 一種語音處理設備,包含:語音處理引擎,其具有第一和第二向前獨立音訊語音路徑,該第一路徑係設置給音訊接收者;以及Kalman過濾器,其耦合至該第二路徑,以接收音訊語音訊號及自此去除雜訊,該Kalman過濾器至少部分依據包括說話者聲門資訊的說話者模型輸入來去除該雜訊。
  2. 根據申請專利範圍第1項之設備,其中,該Kalman過濾器亦依據併入環境雜訊資訊之雜訊模型來去除雜訊。
  3. 根據申請專利範圍第2項之設備,其中,該環境雜訊資訊包括即時資訊。
  4. 根據申請專利範圍第3項之設備,其中,該即時資訊包括來自一或更多個雜訊感測器的資訊。
  5. 根據申請專利範圍第1項之設備,其中,該說話者模型輸入併入為該說話者事先所產生的雜訊已去除語音訊號資訊。
  6. 根據申請專利範圍第1項之設備,其中,在前端區實施該Kalman過濾器,及若在該音訊語音訊號中偵測到語音,則在賦能的後端區實施該說話者模型輸入。
  7. 根據申請專利範圍第6項之設備,其中,該語音處理引擎包含語音辨識引擎。
  8. 根據申請專利範圍第7項之設備,其中,該語音辨識引擎為該後端區的一部分。
  9. 一種電子裝置,包含: 音訊處理區,其包括具有第一和第二向前獨立音訊語音路徑之語音處理引擎,該第一路徑係設置給音訊接收者;以及Kalman過濾器,其耦合至該第二路徑,以接收音訊語音訊號及自此去除雜訊,該Kalman過濾器至少部分依據包括說話者聲門資訊的說話者模型輸入來去除該雜訊。
  10. 根據申請專利範圍第9項之電子裝置,其中,該Kalman過濾器亦依據併入環境雜訊資訊之雜訊模型來去除雜訊。
  11. 根據申請專利範圍第10項之電子裝置,其中,該環境雜訊資訊包括即時資訊。
  12. 根據申請專利範圍第11項之電子裝置,其中,該即時資訊包括來自一或更多個雜訊感測器的資訊。
  13. 根據申請專利範圍第9項之電子裝置,其中,該說話者模型輸入併入為該說話者事先所產生的雜訊已去除語音訊號資訊。
  14. 根據申請專利範圍第9項之電子裝置,其中,在前端區實施該Kalman過濾器,及若在該音訊語音訊號中偵測到語音,則在賦能的後端區實施該說話者模型輸入。
  15. 根據申請專利範圍第14項之電子裝置,其中,該語音處理引擎包含語音辨識引擎。
  16. 根據申請專利範圍第15項之電子裝置,其中,該語音辨識引擎為該後端區的一部分。
TW100123111A 2010-06-30 2011-06-30 語音處理設備及電子裝置 TWI455112B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/828,195 US8725506B2 (en) 2010-06-30 2010-06-30 Speech audio processing

Publications (2)

Publication Number Publication Date
TW201222527A TW201222527A (en) 2012-06-01
TWI455112B true TWI455112B (zh) 2014-10-01

Family

ID=45400342

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100123111A TWI455112B (zh) 2010-06-30 2011-06-30 語音處理設備及電子裝置

Country Status (7)

Country Link
US (1) US8725506B2 (zh)
EP (1) EP2589047A4 (zh)
JP (1) JP5644013B2 (zh)
KR (1) KR101434083B1 (zh)
CN (1) CN102934159B (zh)
TW (1) TWI455112B (zh)
WO (1) WO2012003269A2 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US8812014B2 (en) * 2010-08-30 2014-08-19 Qualcomm Incorporated Audio-based environment awareness
US9947333B1 (en) * 2012-02-10 2018-04-17 Amazon Technologies, Inc. Voice interaction architecture with intelligent background noise cancellation
US9020818B2 (en) 2012-03-05 2015-04-28 Malaspina Labs (Barbados) Inc. Format based speech reconstruction from noisy signals
US9437213B2 (en) 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
US9384759B2 (en) * 2012-03-05 2016-07-05 Malaspina Labs (Barbados) Inc. Voice activity detection and pitch estimation
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US9361890B2 (en) * 2013-09-20 2016-06-07 Lenovo (Singapore) Pte. Ltd. Context-based audio filter selection
US9413434B2 (en) 2013-10-04 2016-08-09 Intel Corporation Cancellation of interfering audio on a mobile device
WO2015073019A1 (en) 2013-11-15 2015-05-21 Intel Corporation System and method for maintaining speach recognition dynamic dictionary
US9449602B2 (en) * 2013-12-03 2016-09-20 Google Inc. Dual uplink pre-processing paths for machine and human listening
KR102216048B1 (ko) 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
CN104463841A (zh) * 2014-10-21 2015-03-25 深圳大学 衰减系数自适应的滤波方法及滤波***
US9299347B1 (en) * 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
EP3217399B1 (en) * 2016-03-11 2018-11-21 GN Hearing A/S Kalman filtering based speech enhancement using a codebook based approach
DE102017209585A1 (de) * 2016-06-08 2017-12-14 Ford Global Technologies, Llc System und verfahren zur selektiven verstärkung eines akustischen signals
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
WO2019169616A1 (zh) * 2018-03-09 2019-09-12 深圳市汇顶科技股份有限公司 语音信号处理方法及装置
CN110738990B (zh) * 2018-07-19 2022-03-25 南京地平线机器人技术有限公司 识别语音的方法和装置
EP4022604A1 (en) * 2019-08-30 2022-07-06 Dolby Laboratories Licensing Corporation Pre-conditioning audio for machine perception
GB202104280D0 (en) * 2021-03-26 2021-05-12 Samsung Electronics Co Ltd Method and apparatus for real-time sound enhancement
CN113053382B (zh) * 2021-03-30 2024-06-18 联想(北京)有限公司 处理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5148488A (en) * 1989-11-17 1992-09-15 Nynex Corporation Method and filter for enhancing a noisy speech signal
TW309675B (en) * 1996-12-26 1997-07-01 Yiing Lii Method and apparatus for complex fuzzy signal processing
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
TW425542B (en) * 1999-03-19 2001-03-11 Ind Tech Res Inst Kalman filter for speech enhancement

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434947A (en) * 1993-02-23 1995-07-18 Motorola Method for generating a spectral noise weighting filter for use in a speech coder
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
AU3352997A (en) * 1996-07-03 1998-02-02 British Telecommunications Public Limited Company Voice activity detector
US6408269B1 (en) * 1999-03-03 2002-06-18 Industrial Technology Research Institute Frame-based subband Kalman filtering method and apparatus for speech enhancement
US7117157B1 (en) * 1999-03-26 2006-10-03 Canon Kabushiki Kaisha Processing apparatus for determining which person in a group is speaking
US20020026253A1 (en) 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
JP2002006898A (ja) 2000-06-22 2002-01-11 Asahi Kasei Corp ノイズ低減方法及びノイズ低減装置
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6850887B2 (en) * 2001-02-28 2005-02-01 International Business Machines Corporation Speech recognition in noisy environments
WO2002077972A1 (en) * 2001-03-27 2002-10-03 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
US6757651B2 (en) * 2001-08-28 2004-06-29 Intellisist, Llc Speech detection system and method
WO2003036614A2 (en) * 2001-09-12 2003-05-01 Bitwave Private Limited System and apparatus for speech communication and speech recognition
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
US20040064315A1 (en) * 2002-09-30 2004-04-01 Deisher Michael E. Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments
KR100633985B1 (ko) 2004-05-04 2006-10-16 주식회사 팬택앤큐리텔 단말기에서의 에코 및 잡음 제거 장치
WO2006114102A1 (en) * 2005-04-26 2006-11-02 Aalborg Universitet Efficient initialization of iterative parameter estimation
CA2612903C (en) * 2005-06-20 2015-04-21 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
CN101281744B (zh) 2007-04-04 2011-07-06 纽昂斯通讯公司 语音分析方法和装置以及语音合成方法和装置
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
JP5721098B2 (ja) 2008-03-21 2015-05-20 学校法人東京理科大学 雑音抑圧装置および雑音抑圧方法
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
WO2010046954A1 (ja) * 2008-10-24 2010-04-29 三菱電機株式会社 雑音抑圧装置および音声復号化装置
US9202455B2 (en) * 2008-11-24 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced active noise cancellation
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction
KR101253102B1 (ko) * 2009-09-30 2013-04-10 한국전자통신연구원 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5148488A (en) * 1989-11-17 1992-09-15 Nynex Corporation Method and filter for enhancing a noisy speech signal
TW309675B (en) * 1996-12-26 1997-07-01 Yiing Lii Method and apparatus for complex fuzzy signal processing
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
TW425542B (en) * 1999-03-19 2001-03-11 Ind Tech Res Inst Kalman filter for speech enhancement

Also Published As

Publication number Publication date
WO2012003269A3 (en) 2012-03-29
CN102934159B (zh) 2015-12-16
US20120004909A1 (en) 2012-01-05
US8725506B2 (en) 2014-05-13
TW201222527A (en) 2012-06-01
KR101434083B1 (ko) 2014-08-25
CN102934159A (zh) 2013-02-13
JP2013531275A (ja) 2013-08-01
EP2589047A4 (en) 2015-11-25
WO2012003269A2 (en) 2012-01-05
EP2589047A2 (en) 2013-05-08
JP5644013B2 (ja) 2014-12-24
KR20130033372A (ko) 2013-04-03

Similar Documents

Publication Publication Date Title
TWI455112B (zh) 語音處理設備及電子裝置
US10984783B2 (en) Spoken keyword detection based utterance-level wake on intent system
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
Takamichi et al. Postfilters to modify the modulation spectrum for statistical parametric speech synthesis
KR101004495B1 (ko) 증분 베이즈 학습을 사용하는 잡음 추정 방법
US20160284349A1 (en) Method and system of environment sensitive automatic speech recognition
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
US10679617B2 (en) Voice enhancement in audio signals through modified generalized eigenvalue beamformer
US20160189730A1 (en) Speech separation method and system
US20150262590A1 (en) Method and Device for Reconstructing a Target Signal from a Noisy Input Signal
CN111914549A (zh) 时间异步口头意图检测
EP3886087B1 (en) Method and system of automatic speech recognition with highly efficient decoding
CN116343765A (zh) 自动语境绑定领域特定话音识别的方法和***
CN104978966A (zh) 音频流中的丢帧补偿实现方法和装置
Girirajan et al. Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network.
CN110097871B (zh) 一种语音数据处理方法及装置
Jannu et al. Shuffle attention u-net for speech enhancement in time domain
Park et al. Unsupervised speech domain adaptation based on disentangled representation learning for robust speech recognition
CN117809668A (zh) 电子设备及电子设备的语音信号处理方法
EP2645738B1 (en) Signal processing device, signal processing method, and signal processing program
Saleem et al. Time domain speech enhancement with CNN and time-attention transformer
Li et al. Robust log-energy estimation and its dynamic change enhancement for in-car speech recognition
Yu Mobile Communication Voice Enhancement Under Convolutional Neural Networks and the Internet of Things.
Terry et al. Feature space video stream consistency estimation for dynamic stream weighting in audio-visual speech recognition
CN114495923A (zh) 智能控制***实现方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees