TWI622978B - 語音信號處理裝置及語音信號處理方法 - Google Patents
語音信號處理裝置及語音信號處理方法 Download PDFInfo
- Publication number
- TWI622978B TWI622978B TW106104067A TW106104067A TWI622978B TW I622978 B TWI622978 B TW I622978B TW 106104067 A TW106104067 A TW 106104067A TW 106104067 A TW106104067 A TW 106104067A TW I622978 B TWI622978 B TW I622978B
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- sound box
- target sound
- energy
- frequency band
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 68
- 230000005236 sound signal Effects 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 description 5
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/937—Signal energy in various frequency bands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
Abstract
一種語音信號處理裝置及語音信號處理方法。依據目標音框的前一音框所對應的原始語音取樣信號是否為子音信號來調整目標音框的子音信號判斷條件,以提高聆聽聲音的舒適度以及語音信號的可辨識度。
Description
本發明是有關於一種信號處理裝置,且特別是有關於一種語音信號處理裝置及語音信號處理方法。
一般對於聽障人士來說,其往往無法清楚地接收較高頻的語音信號,例如子音信號,但對於低頻的語音信號卻可以清楚地聽到。為使聽障人士可清楚地聽到語音信號,當判斷出語音信號為子音信號時,語音信號將被進行降頻處理,反之,若語音信號非子音信號,則不進行降頻處理。如此雖可幫助聽障人士更清楚地聽到語音信號,然當環境中的其它雜訊信號造成子音信號的判斷錯誤時,將使得原本應進行降頻處理的子音信號未被進行降頻處理。而當未被進行降頻處理的子音信號出現在前後的皆為進行降頻處理的子音信號時,聲音將出現斷斷續續的情形,而造成聽者的不適,嚴重時還可能影響到語音信號的可辨識度。
本發明提供一種語音信號處理裝置及語音信號處理方法,可有效改善因子音信號誤判而造成聲音斷斷續續的情形,而提高聽者聆聽聲音的舒適度以及語音信號的可辨識度。
本發明的語音信號處理裝置包括帶通濾波單元以及處理單元。帶通濾波單元對語音信號進行第一頻段以及第二頻段的帶通濾波,以分別產生第一帶通濾波信號以及第二帶通濾波信號,其中第一頻段以及第二頻段至少其中之一為子音頻段。處理單元耦接濾波單元,將語音信號、第一帶通濾波信號以及第二帶通濾波信號分割為多個音框,並計算此些音框中取樣信號的能量,以獲得對應此些音框的原始語音取樣信號能量、第一頻段信號能量以及第二頻段信號能量,依據目標音框的前一音框所對應的原始語音取樣信號是否為子音信號來調整目標音框的子音信號判斷條件,其中目標音框的前一音框所對應的原始語音取樣信號為子音信號時所對應的目標音框的子音信號判斷條件較目標音框的前一音框所對應的原始語音取樣信號不為子音信號時所對應的目標音框的子音信號判斷條件寬鬆,其中當目標音框的前一音框所對應的原始語音取樣信號為子音信號時,依據目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框所對應的原始語音取樣信號能量之間的第一比值,以及目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間的
第二比值判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述的處理單元更計算目標音框的過零率,當目標音框的前一音框所對應的原始語音取樣信號為子音信號時,處理單元更依據目標音框的過零率判斷目標音框所對應的原始語音取樣信號是否為子音信號,其中當目標音框的過零率大於預設過零率、第一比值大於第一預設值且第二比值大於第二預設值時,目標音框所對應的原始語音取樣信號為子音信號。
在本發明的一實施例中,其中當目標音框的過零率大於預設過零率且第一比值大於第三預設值時,目標音框所對應的原始語音取樣信號為子音信號,其中第三預設值大於第一預設值。
在本發明的一實施例中,其中當目標音框的前兩個音框所對應的原始語音取樣信號皆為子音信號時,處理單元更依據目標音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框的前一音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間的第三比值判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述的處理單元更計算目標音框的過零率,當目標音框的前兩個音框所對應的原始語音取樣信號皆為子音信號時,處理單元更依據目標音框的過零率判斷目標音框所對應的原始語音取樣信號是否為子音信號,當目標音框的
過零率大於預設過零率、第一比值大於第一預設值、第二比值小於第二預設值且第三比值小於第三預設值時,目標音框所對應的原始語音取樣信號為子音信號,其中第二預設值與第三預設值小於等於1。
在本發明的一實施例中,上述的處理單元更計算目標音框的過零率,當目標音框的前一音框所對應的原始語音取樣信號不為子音信號時,處理單元依據目標音框的過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和以及目標音框所對應的第二頻段信號能量與原始語音取樣信號能量之間的第三比值判斷目標音框所對應的原始語音取樣信號是否為子音信號,其中若目標音框的過零率大於預設過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和大於第一預設能量且第三比值大於第一預設值,目標音框所對應的原始語音取樣信號為子音信號。
在本發明的一實施例中,其中當目標音框的前一音框所對應的原始語音取樣信號不為子音信號時,處理單元更依據第一比值判斷目標音框所對應的原始語音取樣信號是否為子音信號,其中若目標音框的過零率大於預設過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和大於預設能量、第三比值大於第二預設值且第一比值大於第三預設值,目標音框所對應的原始語音取樣信號為子音信號,其中第一預設值大於第二預設值。
在本發明的一實施例中,上述第二頻段高於第一頻段。
本發明的語音信號處理方法包括下列步驟:對語音信號進行第一頻段以及第二頻段的帶通濾波,以分別產生第一帶通濾波信號以及第二帶通濾波信號,其中第一頻段以及第二頻段至少其中之一為子音頻段;將語音信號、第一帶通濾波信號以及第二帶通濾波信號分割為多個音框;計算此些音框中取樣信號的能量,以獲得對應此些音框的原始語音取樣信號能量、第一頻段信號能量以及第二頻段信號能量;以及依據目標音框的前一音框所對應的原始語音取樣信號是否為子音信號來調整目標音框的子音信號判斷條件,其中目標音框的前一音框所對應的原始語音取樣信號為子音信號時所對應的目標音框的子音信號判斷條件較目標音框的前一音框所對應的原始語音取樣信號不為子音信號時所對應的目標音框的子音信號判斷條件寬鬆,其中當目標音框的前一音框所對應的原始語音取樣信號為子音信號時,依據目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框所對應的原始語音取樣信號能量之間的第一比值,以及目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間的第二比值判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述的語音信號處理方法更包括下列步驟:計算目標音框的過零率;判斷目標音框的前一音框
所對應的原始語音取樣信號是否為子音信號;以及若目標音框的前一音框所對應的原始語音取樣信號為子音信號,更依據目標音框的過零率判斷目標音框所對應的原始語音取樣信號是否為子音信號,其中當目標音框的過零率大於預設過零率、第一比值大於第一預設值且第二比值大於第二預設值時,目標音框所對應的原始語音取樣信號為子音信號。
在本發明的一實施例中,當目標音框的過零率大於預設過零率且第一比值大於第三預設值時,目標音框所對應的原始語音取樣信號為子音信號,其中第三預設值大於第一預設值。
在本發明的一實施例中,上述的語音信號處理方法更包括:判斷目標音框的前兩個音框所對應的原始語音取樣信號是否皆為子音信號:以及若目標音框的前兩個音框所對應的原始語音取樣信號皆為子音信號,更依據目標音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框的前一音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間的一第三比值判斷目標音框所對應的原始語音取樣信號是否為子音信號。
在本發明的一實施例中,上述的語音信號處理方法,更包括下列步驟:計算目標音框的過零率;判斷目標音框的前兩個音框所對應的原始語音取樣信號是否皆為子音信號;以及若目標音框的前兩個音框所對應的原始語音取樣信號皆為子音信號,更依據目標音框的過零率判斷目標音框所對應的原始語音取樣信號
是否為子音信號,其中當目標音框的過零率大於預設過零率、第一比值大於一第一預設值、第二比值小於第二預設值且第三比值小於第三預設值時,目標音框所對應的原始語音取樣信號為子音信號,其中第二預設值與第三預設值小於等於1。
在本發明的一實施例中,上述的語音信號處理方法更包括下列步驟:計算目標音框的過零率;判斷目標音框的前一音框所對應的原始語音取樣信號是否為子音信號;以及若目標音框的前一音框所對應的原始語音取樣信號不為子音信號,依據目標音框的過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和以及目標音框所對應的第二頻段信號能量與原始語音取樣信號能量之間的第三比值判斷目標音框所對應的原始語音取樣信號是否為子音信號,其中若目標音框的過零率大於預設過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和大於預設能量且第三比值大於第一預設值,目標音框所對應的原始語音取樣信號為子音信號。
在本發明的一實施例中,其中若目標音框的前一音框所對應的原始語音取樣信號不為子音信號,語音信號處理方法更包括:依據目標音框的過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和、第三比值以及第一比值判斷目標音框所對應的原始語音取樣信號是否為子音信號,其中若目標音框的過零率大於預設過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和大於預設能量、第三比值大於第二
預設值且第一比值大於第三預設值,目標音框所對應的原始語音取樣信號為子音信號,其中第一預設值大於第二預設值。
在本發明的一實施例中,上述第二頻段高於第一頻段。
基於上述,本發明的實施例依據目標音框的前一音框所對應的原始語音取樣信號是否為子音信號來調整目標音框的子音信號判斷條件,其中目標音框的前一音框所對應的原始語音取樣信號為子音信號時所對應的目標音框的子音信號判斷條件較目標音框的前一音框所對應的原始語音取樣信號不為子音信號時所對應的目標音框的子音信號判斷條件寬鬆。如此依據目標音框之前的音框來調整子音信號判斷條件,可有效改善因子音信號誤判而造成聲音斷斷續續的情形,而提高聽者聆聽聲音的舒適度以及語音信號的可辨識度。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
102‧‧‧濾波單元
104‧‧‧處理單元
SF1~SFN‧‧‧濾波信號
S1‧‧‧語音信號
S2‧‧‧第一帶通濾波信號
S3‧‧‧第二帶通濾波信號
S4‧‧‧低通濾波信號
S202~S218、S302~S304‧‧‧語音辨識方法的步驟
圖1是依照本發明一實施例之語音信號處理裝置的示意圖。
圖2是依照發明一實施例之語音信號處理方法的流程示意圖。
圖3是依照發明另一實施例之語音信號處理方法的流程示意圖。
圖1是依照本發明一實施例之語音信號處理裝置的示意圖,請參照圖1。語音信號處理裝置包括濾波單元102以及處理單元104,濾波單元102耦接處理單元104。濾波單元102可對語音信號S1進行低通濾波以及第一頻段、第二頻段的帶通濾波,以分別產生低通濾波信號S4、第一帶通濾波信號S2以及第二帶通濾波信號S3。其中濾波單元102可例如包括低通濾波器與帶通濾波器,而處理單元104可例如以中央處理單元來實施,然不以此為限,另外第一頻段以及第二頻段至少其中之一為子音頻段。舉例來說,在本實施例中,低通濾波的切斷頻率為0~2kHz,而第一頻段以及第二頻段分別為2kHz~4kHz以及4kHz~12kHz,然不以此為限。
處理單元104可對語音信號S1、第一帶通濾波信號S2以及第二帶通濾波信號S3進行取樣,並將語音信號S1、第一帶通濾波信號S2以及第二帶通濾波信號S3分割為多個音框,其中各個音框可包括N個語音信號S1的取樣信號、N個第一帶通濾波信號S2的取樣信號以及N個第二帶通濾波信號S3的取樣信號,其中N為正整數。處理單元104還可計算各個音框中取樣信號的能量,以獲得原始語音取樣信號能量、第一頻段信號能量以及第二頻段信號能量,其中原始語音取樣信號能量、第一頻段信號能量以及第二頻段信號能量分別對應音框中語音信號S1的取樣信號、第一帶通濾波信號S2的取樣信號以及第二帶通濾波信號S3
的取樣信號的能量。
在獲得原始語音取樣信號能量、第一頻段信號能量以及第二頻段信號能量後,處理單元104便可依據目標音框的前一音框所對應的原始語音取樣信號是否為子音信號來調整目標音框的子音信號判斷條件,其中目標音框的前一音框所對應的原始語音取樣信號為子音信號時所對應的目標音框的子音信號判斷條件較目標音框的前一音框所對應的原始語音取樣信號不為子音信號時所對應的目標音框的子音信號判斷條件寬鬆。進一步來說,當目標音框的前一音框所對應的原始語音取樣信號為子音信號時,處理單元104可依據目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框所對應的原始語音取樣信號能量之間的第一比值,以及目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間的第二比值,來判斷目標音框所對應的原始語音取樣信號是否為子音信號。在部分實施例中,處理單元104還可計算目標音框的過零率,並進一步依據目標音框的過零率判斷目標音框所對應的原始語音取樣信號是否為子音信號。
而當目標音框的前一音框所對應的原始語音取樣信號不為子音信號時,處理單元則可依據目標音框的過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和、目標音框所對應的第二頻段信號能量與原始語音取樣信號能量之間的比
值以及上述的第一比值,來判斷目標音框所對應的原始語音取樣信號是否為子音信號。其中若目標音框的過零率大於預設過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和大於第三預設值且第一比值大於第四預設值,目標音框所對應的原始語音取樣信號為子音信號,其中第二預設值大於第三預設值。
如依據目標音框的前一音框所對應的原始語音取樣信號是否為子音信號來調整目標音框的子音信號判斷條件,使目標音框的前一音框所對應的原始語音取樣信號為子音信號時所對應的目標音框的子音信號判斷條件較目標音框的前一音框所對應的原始語音取樣信號不為子音信號時所對應的目標音框的子音信號判斷條件寬鬆,便可有效改善因子音信號誤判而造成聲音斷斷續續的情形,而提高聽者聆聽聲音的舒適度以及語音信號的可辨識度。
舉例來說,當目標音框的前一音框所對應的原始語音取樣信號為子音信號時,處理單元104判斷對應一目標音框(例如第m個音框,m為正整數)的原始語音取樣信號是否為子音信號的方式,可以下列式子來判斷:
其中,當代表對應第m個音框的原始語音取樣信號為子音信號,而當代表對應第m個音框的原始語音取樣信號不為子音信號。也就是說,只要為1,且和其中一個為1,即判斷對應第m個音框的原始語音取樣信號為子音信號。另外
、、則可分別以下列式子表示:
其中為第m個音框的過零率,Z TH1為預設過零率,其可例如設定為20,然不以此為限。另外,EB1 m 為第m個音框的第一頻段信號能量、EB2 m 為第m個音框的第二頻段信號能量,EB1 m-1為第m-1個音框的第一頻段信號能量、EB2 m-1為第m-1個音框的第二頻段信號能量,而E m 為第m個音框的原始語音取樣信號能量,γ 1為第一預設值,γ 2為第二預設值,γ 3為第三預設值,其中γ 3大於γ 1,例如在本實施例中,γ 3可為0.75,γ 1可為0.6,然不以此為限。此外,γ 2值可依設計者的需求設定,例如在本實施例中,例如在本實施例中,γ 2值可為0.8,然不以此為限,例如在其他實施例中,γ 2值亦可為1.1、1、0.9或0.7。
此外,當目標音框的前一音框所對應的原始語音取樣信號不為子音信號時,處理單元104判斷對應第m個音框的原始語音取樣信號是否為子音信號的方式,可以下列式子來判斷:
類似地,當代表對應第m個音框的原始語音取樣信
號為子音信號,而當代表對應第m個音框的原始語音取樣信號不為子音信號。也就是說,只要為1,且和其中一個為1,即判斷對應第m個音框的原始語音取樣信號為子音信號。另外、、則可分別以下列式子表示:
其中E TH 為預設能量,其可例如設定為24,然不以此為限。為第m個音框的過零率,Z TH 為預設過零率,其可例如設定為22,然不以此為限。另外,α 1為第四預設值,α 2為第五預設值,α 3為第六預設值,其中α 1大於α 2,例如在本實施例中,α 1可為0.8,α 2可為0.35,然不以此為限。此外,α 3值可依設計者的需求設定,例如在本實施例中,例如在本實施例中,α 3值可為1,然不以此為限。
值得注意的是,上述預設能量與預設值的設定值僅為示範性的實施例,本發明並不以上述所舉數值為限,只要是預設能量與預設值的設定可使第m-1個音框所對應的原始語音取樣信號為子音信號時所對應的子音信號判斷條件較第m-1個音框所對應的原始語音取樣信號不為子音信號時所對應的子音信號判斷條件
寬鬆,皆可做為本發明的預設能量與預設值。
此外,在部分實施例中,處理單元104亦可依據目標音框之前的多個音框所對應的原始語音取樣信號是否為子音信號來調整目標音框的子音信號判斷條件,以進一步避免子音信號的誤判。舉例來說,當目標音框(第m個音框)的前兩個音框(第m-1個音框以及第m-2個音框)所對應的原始語音取樣信號皆為子音信號時,處理單元可依據第m-1個音框所對應的第一頻段信號能量以及第二頻段信號能量的和與第m-2個音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間的比值來判斷第m個音框所對應的原始語音取樣信號是否為子音信號,也就是說,上述可改以下列式子表示:
其中k 1為第七預設值,k 2為第八預設值,k 3為第九預設值,其中k 1小於上述式(4)的γ 1,k 1可例如為0.5,然不以此為限,其可依設計者的需求設定。k 2與k 3則可例如設定為小於等於1的值,然亦不以此為限。以此類推,亦可依據目標音框之前的更多個音框所對應的原始語音取樣信號來判斷目標音框是否為子音信號。其判斷方式類似於依據目標音框之前的2個音框所對應的原始語音取樣信號進行子音信號判斷的方式,因此在此不再贅述。
圖2是依照本發明一實施例之語音信號處理方法的流程示意圖,請參照圖2。由上述實施例可知,語音辨識裝置的語音辨
識方法可包括下列步驟。首先,對語音信號進行第一頻段以及第二頻段的帶通濾波,以分別產生第一帶通濾波信號以及第二帶通濾波信號,其中第一頻段以及第二頻段至少其中之一為子音頻段(步驟S202)。接著,將語音信號、第一帶通濾波信號以及第二帶通濾波信號分割為多個音框(步驟S204)。然後,計算此些音框中取樣信號的能量,以獲得對應此些音框的原始語音取樣信號能量、第一頻段信號能量以及第二頻段信號能量(步驟S206)。之後,判斷目標音框的前一音框所對應的原始語音取樣信號是否為子音信號(步驟S208)。若目標音框的前一音框所對應的原始語音取樣信號為子音信號,依據目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框所對應的原始語音取樣信號能量之間的第一比值,以及目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間的第二比值,來判斷目標音框所對應的原始語音取樣信號是否為子音信號(步驟S210)。
在部分實施例中,步驟S210可如圖2所示包括,可先計算目標音框的過零率(步驟S212),然後再依據目標音框的過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框所對應的原始語音取樣信號能量之間的第一比值,以及目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框的前一音框所對應的第一頻段信號能量以及
第二頻段信號能量的和之間的第二比值,來判斷目標音框所對應的原始語音取樣信號是否為子音信號(步驟S214)。其中當目標音框的過零率大於預設過零率、第一比值大於第一預設值且第二比值大於第二預設值時,目標音框所對應的原始語音取樣信號為子音信號,另外,若目標音框的過零率大於預設過零率且第一比值大於第三預設值,亦判斷目標音框所對應的原始語音取樣信號為子音信號,其中第三預設值大於第一預設值。
另外,若在步驟S208判斷出目標音框的前一音框所對應的原始語音取樣信號不為子音信號,則可接著計算目標音框的過零率(步驟S216),然後再依據目標音框的過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和以及目標音框所對應的第二頻段信號能量與原始語音取樣信號能量之間的第三比值、目標音框所對應的第一頻段信號能量與第二頻段信號能量的和以及上述的第一比值,來判斷目標音框所對應的原始語音取樣信號是否為子音信號(步驟S218)。其中若目標音框的過零率大於預設過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和大於預設能量且上述的第三比值大於第四預設值,可將目標音框所對應的原始語音取樣信號判斷為子音信號。另外,若目標音框的過零率大於預設過零率、目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和大於預設能量、第三比值大於第五預設值且第一比值大於第六預設值,亦可將目標音框所對應的原始語音取樣信號判斷為子音信號,其中第四預設
值大於第五預設值。
圖3是依照本發明另一實施例之語音信號處理方法的流程示意圖,請參照圖3。本實施例與圖2實施例的不同之處在於,在步驟S210可包括依據目標音框的前兩個音框所對應的原始語音取樣信號來調整子音信號判斷條件的步驟。如圖3所示,在步驟S212後,更判斷目標音框的前兩個音框所對應的原始語音取樣信號是否皆為子音信號(步驟S302),若目標音框的前兩個音框所對應的原始語音取樣信號非皆為子音信號,可以圖2實施例的步驟S214進行子音信號的判斷。而若目標音框的前兩個音框所對應的原始語音取樣信號皆為子音信號,則可依據目標音框的過零率、目標音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和與目標音框的前一音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間的第四比值判斷目標音框所對應的原始語音取樣信號是否為子音信號(步驟S304)。其中若目標音框的過零率大於預設過零率、上述的第一比值大於一第七預設值、上述的第二比值小於第八預設值且第四比值小於第九預設值時,可將目標音框所對應的原始語音取樣信號判斷為子音信號,其中第八預設值與第九預設值小於等於1
綜上所述,本發明的實施例依據目標音框的前一音框所對應的原始語音取樣信號是否為子音信號來調整目標音框的子音信號判斷條件,其中目標音框的前一音框所對應的原始語音取樣信號為子音信號時所對應的目標音框的子音信號判斷條件較目標
音框的前一音框所對應的原始語音取樣信號不為子音信號時所對應的目標音框的子音信號判斷條件寬鬆。如此依據目標音框之前的音框來調整子音信號判斷條件,可有效改善因子音信號誤判而造成聲音斷斷續續的情形,而提高聽者聆聽聲音的舒適度以及語音信號的可辨識度。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
Claims (12)
- 一種語音信號處理裝置,包括:一帶通濾波單元,對一語音信號進行一第一頻段以及一第二頻段的帶通濾波,以分別產生一第一帶通濾波信號以及一第二帶通濾波信號,其中該第一頻段以及該第二頻段至少其中之一為子音頻段;以及一處理單元,耦接該濾波單元,將該語音信號、該第一帶通濾波信號以及該第二帶通濾波信號分割為多個音框,並計算該些音框中取樣信號的能量,以獲得對應該些音框的原始語音取樣信號能量、第一頻段信號能量以及第二頻段信號能量,依據一目標音框的前一音框所對應的原始語音取樣信號是否為子音信號來調整該目標音框的子音信號判斷條件,其中該目標音框的前一音框所對應的原始語音取樣信號為子音信號時所對應的該目標音框的子音信號判斷條件較該目標音框的前一音框所對應的原始語音取樣信號不為子音信號時所對應的該目標音框的子音信號判斷條件寬鬆,該處理單元更計算該目標音框的過零率,其中當該目標音框的前一音框所對應的原始語音取樣信號為子音信號時,該處理單元依據該目標音框的過零率、該目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與該目標音框所對應的原始語音取樣信號能量之間的一第一比值,以及該目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與該目標音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間 的一第二比值判斷該目標音框所對應的原始語音取樣信號是否為子音信號,其中當該目標音框的過零率大於一預設過零率、該第一比值大於一第一預設值且該第二比值大於一第二預設值時,該目標音框所對應的原始語音取樣信號為子音信號。
- 如申請專利範圍第1項所述的語音信號處理裝置,其中當該目標音框的過零率大於該預設過零率且該第一比值大於一第三預設值時,該目標音框所對應的原始語音取樣信號為子音信號,其中該第三預設值大於該第一預設值。
- 如申請專利範圍第1項所述的語音信號處理裝置,其中當該目標音框的前兩個音框所對應的原始語音取樣信號皆為子音信號時,該處理單元更依據該目標音框的過零率、該目標音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和與該目標音框的前一音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間的一第三比值判斷該目標音框所對應的原始語音取樣信號是否為子音信號,其中當該目標音框的過零率大於一預設過零率、該第一比值大於一第三預設值、該第二比值小於一第四預設值且該第三比值小於一第五預設值時,該目標音框所對應的原始語音取樣信號為子音信號,其中該第四預設值與該第五預設值小於等於1。
- 如申請專利範圍第1項所述的語音信號處理裝置,其中該處理單元更計算該目標音框的過零率,當該目標音框的前一音框所對應的原始語音取樣信號不為子音信號時,該處理單元依據 該目標音框的過零率、該目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和以及該目標音框所對應的第二頻段信號能量與原始語音取樣信號能量之間的一第三比值判斷該目標音框所對應的原始語音取樣信號是否為子音信號,其中若該目標音框的過零率大於一預設過零率、該目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和大於一第一預設能量且該第三比值大於一第一預設值,該目標音框所對應的原始語音取樣信號為子音信號。
- 如申請專利範圍第4項所述的語音信號處理裝置,其中當該目標音框的前一音框所對應的原始語音取樣信號不為子音信號時,該處理單元更依據該第一比值判斷該目標音框所對應的原始語音取樣信號是否為子音信號,其中若該目標音框的過零率大於該預設過零率、該目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和大於該預設能量、該第三比值大於一第二預設值且該第一比值大於一第三預設值,該目標音框所對應的原始語音取樣信號為子音信號,其中該第一預設值大於該第二預設值。
- 如申請專利範圍第1項所述的語音信號處理裝置,其中該第二頻段高於該第一頻段。
- 一種語音信號處理方法,包括:對一語音信號進行一第一頻段以及一第二頻段的帶通濾波,以分別產生一第一帶通濾波信號以及一第二帶通濾波信號,其中該第一頻段以及該第二頻段至少其中之一為子音頻段; 將該語音信號、該第一帶通濾波信號以及該第二帶通濾波信號分割為多個音框;計算該些音框中取樣信號的能量,以獲得對應該些音框的原始語音取樣信號能量、第一頻段信號能量以及第二頻段信號能量;計算一目標音框的過零率;判斷該目標音框的前一音框所對應的原始語音取樣信號是否為子音信號;以及依據該目標音框的前一音框所對應的原始語音取樣信號是否為子音信號來調整該目標音框的子音信號判斷條件,其中該目標音框的前一音框所對應的原始語音取樣信號為子音信號時所對應的該目標音框的子音信號判斷條件較該目標音框的前一音框所對應的原始語音取樣信號不為子音信號時所對應的該目標音框的子音信號判斷條件寬鬆,其中當該目標音框的前一音框所對應的原始語音取樣信號為子音信號時,依據該目標音框的過零率、該目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與該目標音框所對應的原始語音取樣信號能量之間的一第一比值,以及該目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和與該目標音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間的一第二比值判斷該目標音框所對應的原始語音取樣信號是否為子音信號,其中當該目標音框的過零率大於一預設過零率、該第一比值大於一第一預設值且該第二比值大於一第二預設值時,該目標音框所對應的原始語音取樣信號 為子音信號。
- 如申請專利範圍第7項所述的語音信號處理方法,其中當該目標音框的過零率大於該預設過零率且該第一比值大於一第三預設值時,該目標音框所對應的原始語音取樣信號為子音信號,其中該第三預設值大於該第一預設值。
- 如申請專利範圍第7項所述的語音信號處理方法,更包括:判斷該目標音框的前兩個音框所對應的原始語音取樣信號是否皆為子音信號;以及若該目標音框的前兩個音框所對應的原始語音取樣信號皆為子音信號,更依據該目標音框的過零率、該目標音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和與該目標音框的前一音框的前一音框所對應的第一頻段信號能量以及第二頻段信號能量的和之間的一第三比值判斷該目標音框所對應的原始語音取樣信號是否為子音信號,其中當該目標音框的過零率大於一預設過零率、該第一比值大於一第三預設值、該第二比值小於一第四預設值且該第三比值小於一第五預設值時,該目標音框所對應的原始語音取樣信號為子音信號,其中該第四預設值與該第五預設值小於等於1。
- 如申請專利範圍第7項所述的語音信號處理方法,更包括:計算該目標音框的過零率; 判斷該目標音框的前一音框所對應的原始語音取樣信號是否為子音信號;以及若該目標音框的前一音框所對應的原始語音取樣信號不為子音信號,依據該目標音框的過零率、該目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和以及該目標音框所對應的第二頻段信號能量與原始語音取樣信號能量之間的一第三比值判斷該目標音框所對應的原始語音取樣信號是否為子音信號,其中若該目標音框的過零率大於一預設過零率、該目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和大於一預設能量且該第三比值大於一第一預設值,該目標音框所對應的原始語音取樣信號為子音信號。
- 如申請專利範圍第10項所述的語音信號處理方法,其中若該目標音框的前一音框所對應的原始語音取樣信號不為子音信號,該語音信號處理方法更包括:依據該目標音框的過零率、該目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和、該第三比值以及該第一比值判斷該目標音框所對應的原始語音取樣信號是否為子音信號,其中若該目標音框的過零率大於該預設過零率、該目標音框所對應的第一頻段信號能量以及第二頻段信號能量的和大於該預設能量、該第三比值大於一第二預設值且該第一比值大於一第三預設值,該目標音框所對應的原始語音取樣信號為子音信號,其中該第一預設值大於該第二預設值。
- 如申請專利範圍第7項所述的語音信號處理方法,其中該第二頻段高於該第一頻段。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106104067A TWI622978B (zh) | 2017-02-08 | 2017-02-08 | 語音信號處理裝置及語音信號處理方法 |
US15/802,379 US10297268B2 (en) | 2017-02-08 | 2017-11-02 | Voice signal processing apparatus and voice signal processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106104067A TWI622978B (zh) | 2017-02-08 | 2017-02-08 | 語音信號處理裝置及語音信號處理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI622978B true TWI622978B (zh) | 2018-05-01 |
TW201830381A TW201830381A (zh) | 2018-08-16 |
Family
ID=62951626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106104067A TWI622978B (zh) | 2017-02-08 | 2017-02-08 | 語音信號處理裝置及語音信號處理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10297268B2 (zh) |
TW (1) | TWI622978B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI588819B (zh) * | 2016-11-25 | 2017-06-21 | 元鼎音訊股份有限公司 | 語音處理之方法、語音通訊裝置及其電腦程式產品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1790481A (zh) * | 2004-12-17 | 2006-06-21 | 财团法人工业技术研究院 | 基于辨音成分的发音评估方法与*** |
TW201627985A (zh) * | 2015-01-26 | 2016-08-01 | 宏碁股份有限公司 | 語音辨識裝置及語音辨識方法 |
TW201627989A (zh) * | 2015-01-26 | 2016-08-01 | 宏碁股份有限公司 | 語音辨識裝置及語音辨識方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
JP6386237B2 (ja) * | 2014-02-28 | 2018-09-05 | 国立研究開発法人情報通信研究機構 | 音声明瞭化装置及びそのためのコンピュータプログラム |
US10176824B2 (en) * | 2014-03-04 | 2019-01-08 | Indian Institute Of Technology Bombay | Method and system for consonant-vowel ratio modification for improving speech perception |
-
2017
- 2017-02-08 TW TW106104067A patent/TWI622978B/zh active
- 2017-11-02 US US15/802,379 patent/US10297268B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1790481A (zh) * | 2004-12-17 | 2006-06-21 | 财团法人工业技术研究院 | 基于辨音成分的发音评估方法与*** |
TW201627985A (zh) * | 2015-01-26 | 2016-08-01 | 宏碁股份有限公司 | 語音辨識裝置及語音辨識方法 |
TW201627989A (zh) * | 2015-01-26 | 2016-08-01 | 宏碁股份有限公司 | 語音辨識裝置及語音辨識方法 |
Also Published As
Publication number | Publication date |
---|---|
US10297268B2 (en) | 2019-05-21 |
US20180226087A1 (en) | 2018-08-09 |
TW201830381A (zh) | 2018-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20160071527A1 (en) | Method and System for Scaling Ducking of Speech-Relevant Channels in Multi-Channel Audio | |
US8755545B2 (en) | Stability and speech audibility improvements in hearing devices | |
JP5453740B2 (ja) | 音声強調装置 | |
JP4827675B2 (ja) | 低周波帯域音声復元装置、音声信号処理装置および録音機器 | |
EP2808868B1 (en) | Method of processing a voice segment and hearing aid | |
US8582792B2 (en) | Method and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener | |
TWI557728B (zh) | 語音辨識裝置及語音辨識方法 | |
JP2010112996A (ja) | 音声処理装置、音声処理方法およびプログラム | |
WO2018014673A1 (zh) | 一种啸叫检测方法和装置 | |
US9119007B2 (en) | Method of and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener | |
TWI566242B (zh) | 語音辨識裝置及語音辨識方法 | |
CN110248300B (zh) | 一种基于自主学习的啸叫抑制方法及扩声*** | |
JP2010112995A (ja) | 通話音声処理装置、通話音声処理方法およびプログラム | |
US9185497B2 (en) | Method and computer program product of processing sound segment and hearing aid | |
CN105989834B (zh) | 语音辨识装置及语音辨识方法 | |
TWI622978B (zh) | 語音信號處理裝置及語音信號處理方法 | |
EP2828853B1 (en) | Method and system for bias corrected speech level determination | |
JP2009296298A (ja) | 音声信号処理装置および方法 | |
CN108461090B (zh) | 语音信号处理装置及语音信号处理方法 | |
CN110708651A (zh) | 一种基于分段陷波的助听器啸叫检测与抑制方法及装置 | |
US10524052B2 (en) | Dominant sub-band determination | |
JP3981223B2 (ja) | オーディオ音補正装置 | |
CN106328159B (zh) | 一种音频流的处理方法及装置 | |
JP2011035573A (ja) | 音信号処理装置および音信号処理方法 | |
JP6159570B2 (ja) | 音声強調装置、及びプログラム |