CN106887239A - 用于高度相关的混合物的增强型盲源分离算法 - Google Patents
用于高度相关的混合物的增强型盲源分离算法 Download PDFInfo
- Publication number
- CN106887239A CN106887239A CN201610877684.2A CN201610877684A CN106887239A CN 106887239 A CN106887239 A CN 106887239A CN 201610877684 A CN201610877684 A CN 201610877684A CN 106887239 A CN106887239 A CN 106887239A
- Authority
- CN
- China
- Prior art keywords
- signal
- input signal
- calibration
- input
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000203 mixture Substances 0.000 title abstract description 19
- 238000000926 separation method Methods 0.000 title abstract description 18
- 238000005516 engineering process Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims description 101
- 238000012805 post-processing Methods 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 11
- 238000005728 strengthening Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 21
- 230000002708 enhancing effect Effects 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 13
- 238000003860 storage Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 13
- 230000005236 sound signal Effects 0.000 description 10
- 238000013461 design Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000007493 shaping process Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 241000209140 Triticum Species 0.000 description 3
- 235000021307 Triticum Nutrition 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 241001062009 Indigofera Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- SYHGEUNFJIGTRX-UHFFFAOYSA-N methylenedioxypyrovalerone Chemical compound C=1C=C2OCOC2=CC=1C(=O)C(CCC)N1CCCC1 SYHGEUNFJIGTRX-UHFFFAOYSA-N 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/40—Arrangements for obtaining a desired directivity characteristic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Neurosurgery (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明涉及用于高度相关的混合物的增强型盲源分离算法。具体来讲,提供一种增强型盲源分离技术以改善高度相关的信号混合物的分离。使用波束成形算法来预调节相关的第一和第二输入信号,以便避免通常与盲源分离相关联的不确定性问题。所述波束成形算法可将空间滤波器应用于所述第一信号和第二信号,以便放大来自第一方向的信号,同时衰减来自其它方向的信号。此方向性可用以放大所述第一信号中的所要话音信号,且衰减来自所述第二信号的所述所要话音信号。随后对波束成形器输出信号执行盲源分离以分离所述所要话音信号和周围噪声,且重构所述所要话音信号的估计。为了增强所述波束成形器和/或盲源分离的操作,可在一个或一个以上级处执行校准。
Description
分案申请的相关信息
本申请是国际申请号为PCT/US2009/032414、申请日为2009年1月29日、发明名称为“用于高度相关的混合物的增强型盲源分离算法”的PCT申请进入中国国家阶段后申请号为200980101391.3的中国发明专利申请的分案申请。
技术领域
至少一个方面涉及信号处理,且更特定来说,涉及结合盲源分离(BSS)技术使用的处理技术。
背景技术
一些移动通信装置可采用多个麦克风以努力改善从一个或一个以上信号源俘获的声音和/或音频信号的质量。这些音频信号常常被背景噪声、扰动、干扰、串音和其它不想要的信号破坏。因此,为了增强所要音频信号,此些通信装置通常使用高级信号处理方法来处理由多个麦克风俘获的音频信号。此过程常常称为信号增强,其在所要音频信号中提供改善的声音/语音质量、减少的背景噪声等,同时抑制其它不相关信号。在话音通信中,所要信号通常是话音信号且信号增强称为话音增强。
盲源分离(BSS)可用于信号增强。盲源分离是用以使用源信号的多个独立信号混合物来恢复独立源信号的技术。将每一传感器放置于不同位置,且每一传感器记录一信号,所述信号为源信号的混合物。BSS算法可用以通过利用信号差异来分离信号,所述差异表明由两个传感器记录的共同信息的空间分集。在话音通信处理中,不同的传感器可包括相对于正在记录的话音源放置于不同位置处的麦克风。
波束成形是用于信号增强的替代技术。波束成形器执行空间滤波以分离源自不同空间位置的信号。来自某些方向的信号经放大,同时来自其它方向的信号经衰减。因此,波束成形使用输入信号的方向性来增强所要信号。
盲源分离和波束成形两者均使用放置于不同位置的多个传感器。每一传感器记录或俘获源信号的不同混合物。这些混合物含有源信号与传感器(例如,麦克风)之间的空间关系。利用此信息以实现信号增强。
在具有紧密间隔的麦克风的通信装置中,从麦克风俘获的输入信号可由于麦克风之间的紧密接近性而高度相关。在此情况下,传统的噪声抑制方法(包含盲源分离)可能在分离所要信号与噪声方面不能良好地起作用。举例来说,在双麦克风***中,BSS算法可取得混合输入信号且产生两个输出,其含有所要话音信号和周围噪声的估计。然而,可能无法在信号分离之后确定两个输出信号中的哪一者是所要话音信号且哪一者是周围噪声。BSS算法的此固有不确定性造成重大的性能降级。
因此,需要一种在具有紧密间隔的麦克风的通信装置上改善盲源分离的性能的方式。
发明内容
提供一种用于高度相关信号混合物的盲源分离的方法。接收与第一麦克风相关联的第一输入信号。还接收与第二麦克风相关联的第二输入信号。可将波束成形技术应用于所述第一和第二输入信号以对所述第一和第二输入信号提供方向性且获得对应的第一和第二输出信号。可将盲源分离(BSS)技术应用于所述第一输出信号和第二输出信号以产生第一BSS信号和第二BSS信号。可校准所述第一和第二输入信号、所述第一和第二输出信号或所述第一和第二BSS信号中的至少一者。
所述波束成形技术可通过将空间滤波器应用于所述第一和第二输入信号来对所述第一和第二输入信号提供方向性。将空间滤波器应用于所述第一和第二输入信号可放大来自第一方向的声音信号,同时使来自其它方向的声音信号衰减。将空间滤波器应用于所述第一和第二输入信号可放大所述所得第一输出信号中的所要话音信号且使所述第二输出信号中的所述所要话音信号衰减。
在一个实例中,校准所述第一和第二输入信号中的至少一者可包括将自适应滤波器应用于所述第二输入信号,且应用所述波束成形技术可包含从所述第二输入信号减去所述第一输入信号。应用所述波束成形技术可进一步包括将所述经滤波的第二输入信号添加到所述第一输入信号。
在另一实例中,校准所述第一和第二输入信号中的至少一者可进一步包括基于所述第一输入信号和第二输入信号的能量估计的比率而产生校准因数,以及将所述校准因数应用于所述第一输入信号或所述第二输入信号中的至少一者。
在又一实例中,校准所述第一和第二输入信号中的至少一者可进一步包括基于所述第一与第二输入信号之间的交叉相关估计与所述第二输入信号的能量估计的比率而产生校准因数,以及将所述校准因数应用于所述第二输入信号。
在又一实例中,校准所述第一和第二输入信号中的至少一者可进一步包括基于所述第一与第二输入信号之间的交叉相关估计与所述第一输入信号的能量估计的比率而产生校准因数,以及将所述校准因数应用于所述第一输入信号。
在又一实例中,校准所述第一和第二输入信号中的至少一者可进一步包括基于第一与第二输入信号之间的交叉相关与所述第二输入信号的能量估计而产生校准因数,将所述第二输入信号乘以所述校准因数,以及将所述第一输入信号除以所述校准因数。
在一个实例中,将所述波束成形技术应用于所述第一和第二输入信号可进一步包括将所述第二输入信号添加到所述第一输入信号以获得经修改的第一信号,以及从所述第二输入信号减去所述第一输入信号以获得经修改的第二信号。校准所述第一和第二输入信号中的至少一者可进一步包括:(a)获得所述经修改的第一信号的第一噪声底限估计;(b)获得所述经修改的第二信号的第二噪声底限估计;(c)基于所述第一噪声底限估计与所述第二噪声底限估计的比率而产生校准因数;(d)将所述校准因数应用于所述经修改的第二信号;和/或(e)将自适应滤波器应用于所述经修改的第一信号,且从所述经修改的第二信号减去所述经滤波的经修改的第一信号。
所述用于高度相关信号混合物的盲源分离的方法还可进一步包括:(a)基于所述第一和第二输出信号获得校准因数;和/或(b)在将所述盲源分离技术应用于所述第一和第二输出信号之前校准所述第一和第二输出信号中的至少一者。
所述用于高度相关信号混合物的盲源分离的方法还可进一步包括:(a)基于所述第一和第二输出信号获得校准因数;和/或(b)基于所述校准因数修改所述盲源分离技术的操作。
所述用于高度相关信号混合物的盲源分离的方法还可进一步包括将自适应滤波器应用于所述第一BSS信号以减少所述第一BSS信号中的噪声,其中所述第二BSS信号用作对所述自适应滤波器的输入。
所述用于高度相关信号混合物的盲源分离的方法还可进一步包括:(a)通过应用基于振幅的校准或基于交叉相关的校准中的至少一者来校准所述第一和第二输入信号中的至少一者,(b)通过应用基于振幅的校准或基于交叉相关的校准中的至少一者来校准所述第一和第二输出信号中的至少一者,和/或(c)校准所述第一和第二BSS信号中的至少一者包含应用基于噪声的校准。
还提供一种通信装置,其包括:一个或一个以上麦克风,其耦合到一个或一个以上校准模块,和一盲源分离模块。第一麦克风可经配置以获得第一输入信号。第二麦克风可经配置以获得第二输入信号。校准模块经配置以对所述第一和第二输入信号执行波束成形以获得对应的第一和第二输出信号。盲源分离模块经配置以对所述第一输出信号和所述第二输出信号执行盲源分离(BSS)技术以产生第一BSS信号和第二BSS信号。至少一个校准模块可经配置以校准所述第一和第二输入信号、所述第一和第二输出信号或所述第一和第二BSS信号中的至少一者。所述通信装置还可包含后处理模块,其经配置以将自适应滤波器应用于所述第一BSS信号以减少所述第一BSS信号中的噪声,其中所述第二BSS信号用作对所述自适应滤波器的输入。
所述波束成形模块可通过将空间滤波器应用于所述第一和第二输入信号来执行波束成形,其中将空间滤波器应用于所述第一和第二输入信号放大来自第一方向的声音信号,同时使来自其它方向的声音信号衰减。将空间滤波器应用于所述第一输入信号和第二输入信号可放大所述第一输出信号中的所要话音信号且可使所述第二输出信号中的所述所要话音信号衰减。
在一个实例中,在对所述第一和第二输入信号执行波束成形时,所述波束成形模块可进一步经配置以:(a)将自适应滤波器应用于所述第二输入信号;(b)从所述第二输入信号减去所述第一输入信号;以及(c)将所述经滤波的第二输入信号添加到所述第一输入信号。
在一个实例中,在校准所述第一和第二输入信号中的至少一者时,所述校准模块可进一步经配置以:(a)基于所述第一与第二输入信号之间的交叉相关估计与所述第二输入信号的能量估计的比率而产生校准因数;和/或(b)将所述校准因数应用于所述第二输入信号。
在另一实例中,在校准所述第一和第二输入信号中的至少一者时,所述校准模块可进一步经配置以:(a)基于所述第一与第二输入信号之间的交叉相关估计与所述第一输入信号的能量估计的比率而产生校准因数;和/或(b)将所述校准因数应用于所述第一输入信号。
在另一实例中,在校准所述第一和第二输入信号中的至少一者时,所述校准模块可进一步经配置以:(a)基于第一与第二输入信号之间的交叉相关与所述第二输入信号的能量估计而产生校准因数;(b)将所述第二输入信号乘以所述校准因数;和/或(c)将所述第一输入信号除以所述校准因数。
在另一实例中,在对所述第一和第二输入信号执行波束成形时,所述波束成形模块可进一步经配置以:(a)将所述第二输入信号添加到所述第一输入信号以获得经修改的第一信号;(b)从所述第二输入信号减去所述第一输入信号以获得经修改的第二信号;(c)获得所述经修改的第一信号的第一噪声底限估计;(d)获得所述经修改的第二信号的第二噪声底限估计;且/或所述校准模块可进一步经配置以:(e)基于所述第一噪声底限估计与所述第二噪声底限估计的比率而产生校准因数;和/或(f)将所述校准因数应用于所述经修改的第二信号。
在一个实例中,所述至少一个校准模块可包含第一校准模块,其经配置以将基于振幅的校准或基于交叉相关的校准中的至少一者应用于所述第一和第二输入信号。
在另一实例中,所述至少一个校准模块可包含第二校准模块,其经配置以将基于振幅的校准或基于交叉相关的校准中的至少一者应用于所述第一和第二输出信号。
在另一实例中,所述至少一个校准模块可包含第三校准模块,其经配置以将基于噪声的校准应用于所述第一和第二BSS信号。
因此,提供一种通信装置,其包括:(a)用于接收与第一麦克风相关联的第一输入信号和与第二麦克风相关联的第二输入信号的装置;(b)用于将波束成形技术应用于所述第一和第二输入信号以对所述第一和第二输入信号提供方向性且获得对应的第一和第二输出信号的装置;(c)用于将盲源分离(BSS)技术应用于所述第一输出信号和第二输出信号以产生第一BSS信号和第二BSS信号的装置;(d)用于校准所述第一和第二输入信号、所述第一和第二输出信号或所述第一和第二BSS信号中的至少一者的装置;(e)用于将自适应滤波器应用于所述第一BSS信号以减少所述第一BSS信号中的噪声的装置,其中所述第二BSS信号用作对所述自适应滤波器的输入;(f)用于将自适应滤波器应用于所述第二输入信号的装置;(g)用于从所述第二输入信号减去所述第一输入信号的装置;(h)用于将所述经滤波的第二输入信号添加到所述第一输入信号的装置;(i)用于基于所述第一和第二输出信号获得校准因数的装置;(j)用于在将盲源分离技术应用于所述第一和第二输出信号之前校准所述第一和第二输出信号中的至少一者的装置;(k)用于基于所述第一和第二输出信号获得校准因数的装置;和/或(1)用于基于所述校准因数修改所述盲源分离技术的操作的装置。
提供一种用于增强两个或两个以上信号的盲源分离的电路,其中所述电路适于:(a)接收与第一麦克风相关联的第一输入信号和与第二麦克风相关联的第二输入信号;(b)将波束成形技术应用于所述第一和第二输入信号以对所述第一和第二输入信号提供方向性且获得对应的第一和第二输出信号;(c)将盲源分离(BSS)技术应用于所述第一输出信号和所述第二输出信号以产生第一BSS信号和第二BSS信号;和/或(d)校准所述第一和第二输入信号、所述第一和第二输出信号或所述第一和第二BSS信号中的至少一者。所述波束成形技术可将空间滤波应用于所述第一输入信号和第二输入信号,且所述空间滤波器放大来自第一方向的声音信号,同时使来自其它方向的声音信号衰减。在一个实例中,所述电路是集成电路。
还提供一种计算机可读媒体,其包括用于增强两个或两个以上信号的盲源分离的指令,所述指令在由处理器执行时可致使所述处理器:(a)获得与第一麦克风相关联的第一输入信号和与第二麦克风相关联的第二输入信号;(b)将波束成形技术应用于所述第一和第二输入信号以对所述第一和第二输入信号提供方向性且获得对应的第一和第二输出信号;(c)将盲源分离(BSS)技术应用于所述经预处理的第一信号和经预处理的第二信号以产生第一BSS信号和第二BSS信号;和/或(d)校准所述第一和第二输入信号、所述第一和第二输出信号或所述第一和第二BSS信号中的至少一者。
附图说明
从以下结合附图陈述的详细描述可更明了本发明的方面的特征、特性和优点,附图中相同参考字符始终做出相应识别。
图1说明经配置以执行信号增强的移动通信装置的实例。
图2是说明经配置以执行靠近间隔的麦克风的信号增强的移动通信装置的组件和功能的框图。
图3是根据一个实例的顺序波束成形器和盲源分离级的一个实例的框图。
图4是经配置以执行空间波束成形的波束成形模块的实例的框图。
图5是说明使用来自两个或两个以上麦克风的输入信号的校准和波束成形的第一实例的框图。
图6是说明用于获得校准因数的第一方法的流程图,可应用所述校准因数以在基于两个麦克风信号实施波束成形之前校准两个麦克风信号。
图7是说明用于获得校准因数的第二方法的流程图,可应用所述校准因数以在基于两个麦克风信号实施波束成形之前校准两个麦克风信号。
图8是说明使用来自两个或两个以上麦克风的输入信号的校准和波束成形的第二实例的框图。
图9是说明使用来自两个或两个以上麦克风的输入信号的校准和波束成形的第三实例的框图。
图10是说明使用来自两个或两个以上麦克风的输入信号的校准和波束成形的第四实例的框图。
图11是说明卷积盲源分离从多个混合输入信号恢复源信号的操作的框图。
图12是说明在波束成形预处理级之后但在盲源分离级之前可如何校准信号的第一实例的框图。
图13是说明在盲源分离之前实施信号校准的替代方案的框图。
图14是说明用以从所要话音参考信号减少噪声的后处理模块的操作的实例的框图。
图15是说明根据一个实例的增强盲源分离的方法的流程图。
具体实施方式
在以下描述中,给出具体细节以提供对配置的详尽理解。然而所属领域的技术人员将了解,可在无这些具体细节的情况下实践所述配置。举例来说,可在框图中展示电路以便不会以不必要的细节混淆所述配置。在其它例子中,可详细展示众所周知的电路、结构和技术以便不混淆所述配置。
而且应注意,所述配置可描述为一描绘为流程图、流图、结构图或框图的过程。虽然流程图可将操作描述为顺序过程,但操作中有许多可并行或同时执行。另外,操作的次序可重新布置。当过程的操作完成时过程终止。过程可对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时,其终止对应于所述函数向调用函数或主函数的返回。
在一个或一个以上实例和/或配置中,所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么功能可作为一个或一个以上指令存储在计算机可读媒体上或经由计算机可读媒体而传输。计算机可读媒体包含计算机存储媒体和通信媒体两者,包含任何促进计算机程序从一个地方向另一地方的转移的媒体。存储媒体可为任何可由通用或专用计算机存取的可用媒体。借助于实例而非限制,此计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用以用指令或数据结构的形式携载或存储所要程序代码装置且可由通用或专用计算机或者通用或专用处理器存取的任何其它媒体。而且,任何连接均适当地称为计算机可读媒体。举例来说,如果软件是使用同轴电缆、光纤电缆、双绞线对、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输的,那么同轴电缆、光纤电缆、双绞线对、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义内。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字通用光盘(DVD)、软磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
而且,存储媒体可表示一个或一个以上用于存储数据的装置,包含只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储媒体、光学存储媒体、快闪存储器装置和/或其它用于存储信息的机器可读媒体。
此外,各种配置可由硬件、软件、固件、中间件、微码和/或其任何组合实施。当以软件、固件、中间件或微码实施时,用以执行必要任务的程序代码或代码段可存储在计算机可读媒体中,例如存储媒体或其它存储装置。处理器可执行必要任务。代码段可表示过程、函数、子程序、程序、例程、子例程、模块、软件包、类或指令、数据结构或程序语句的任何组合。代码段可通过传递和/或接收信息、数据、自变量、参数或存储器内容而耦合到另一代码段或硬件电路。信息、自变量、参数、数据等可经由任何合适的方式传递、转发或传输,所述方式包含存储器共享、消息传递、权标传递、网络传输等。
一个特征提供预处理级,其在执行盲源分离之前预调节输入信号,进而改善盲源分离算法的性能。首先,使用校准和波束成形级来预调节麦克风信号,以便避免与盲源分离相关联的不确定性问题。随后对波束成形器输出信号执行盲源分离以分离所要话音信号和周围噪声。此特征假定使用至少两个麦克风且仅一个信号(来自至少两个麦克风信号)是待增强的所要信号。举例来说,所要信号可为源自使用通信装置的人的话音信号。
在一个实例中,可在通信装置上俘获两个麦克风信号,其中假定每一麦克风信号含有所要话音信号与周围噪声的混合。首先,使用校准和波束成形级来预调节麦克风信号。经预调节信号中的一者或一者以上可在进一步处理之前和/或之后再次经校准。举例来说,可首先校准经预调节信号,且随后使用盲源分离算法来重构原始信号。盲源分离算法可以或者可以不使用后处理模块来进一步改善信号分离性能。
虽然一些实例可使用术语“话音信号”用于说明目的,但应明了,各种特征也适用于所有类型的“声音信号”,其可包含语音、音频、音乐等。
一个方面提供了在麦克风信号记录高度相关且一个源信号是所要信号的情况下改善盲源分离性能。为了改善***的总体性能,可在后处理之后采用例如谱减法技术等非线性处理方法。非线性处理可进一步帮助区分所要信号与噪声和其它不合意的源信号。
图1说明经配置以执行信号增强的移动装置的实例。移动装置102可为移动电话、蜂窝式电话、个人助理、数字音频记录器、通信装置等,其包含至少两个麦克风104和106,所述麦克风经定位以从一个或一个以上源俘获音频信号。麦克风104和106可放置于通信装置102中的各种位置处。举例来说,麦克风104和106可在移动装置102的同一侧上彼此相当靠近地放置,使得其从所要话音源(例如,用户)俘获音频信号。两个麦克风之间的距离可例如从0.5厘米到10厘米变化。虽然此实例说明两个麦克风的配置,但其它实施方案可包含位于不同位置的额外麦克风。
在话音通信中,所要话音信号常常被包含街道噪声、多路重合噪声、汽车噪声等的周围噪声破坏。此噪声不仅降低了所要话音的可理解性,而且使得收听者不舒适。因此,期望在向通信的另一方传输话音信号之前减少周围噪声。因此,移动装置102可经配置以或适于执行信号处理以增强所俘获的声音信号的质量。
盲源分离(BSS)可用以减少周围噪声。BSS将所要话音视为一个原始源,且将周围噪声视为另一源。通过迫使经分离的信号彼此独立,其可使所要话音与周围噪声分离,即,减少话音信号中的周围噪声且减少周围噪声信号中的所要话音。大体上,所要话音是独立的源。但是,噪声可来自若干方向。因此,周围噪声信号中的话音减少可良好完成。然而,话音信号中的噪声减少可能取决于声学环境,且可比周围噪声信号中的话音减少更具挑战性。也就是说,由于周围噪声的分布式特征,使得难以出于盲源分离目的将其表示为单个源。
由于两个麦克风104与106之间的靠近定位,由两个麦克风104和106俘获的音频信号可能高度相关且信号差异可能非常小。因此,传统的盲源分离处理可能无法成功增强所要音频信号。因此,移动装置102可经配置以或适于例如通过实施校准和波束成形级然后是盲源分离级来分离所要话音与周围噪声。
图2是说明经配置以执行靠近间隔的麦克风的信号增强的移动装置的组件和功能的框图。移动装置202可包含至少两个(单向或全向)麦克风204和206,其以通信方式耦合到任选的预处理(校准)级208,之后是波束成形级211,之后是另一任选的中间处理(校准)级213,之后是盲源分离级210,且之后是任选的后处理(例如,校准)级215。至少两个麦克风204和206可从一个或一个以上声音源216、218和220俘获混合的声学信号S1 212和S2 214。举例来说,声学信号S1 212和S2 214可为来自声音源216、218和220的两个或两个以上源声音信号的So1、So2和SoN的混合物。声音源216、218和220可表示一个或一个以上用户、背景或周围噪声等。所俘获的输入信号S′1和S′2可由模/数转换器207和209取样以提供经取样的声音信号s1(t)和s2(t)。
声学信号S1 212和S2 214可包含所要声音信号和不需要的声音信号。术语“声音信号”包含(但不限于)音频信号、话音信号、噪声信号和/或可由麦克风以声学方式传输和俘获的其它类型的信号。
预处理(校准)级208、波束成形级211和/或中间处理(校准)级213可经配置以或适于预调节俘获的经取样的信号s1(t)和s2(t),以便避免与盲源分离相关联的不确定性问题。也就是说,虽然盲源分离算法可用以分离所要话音信号和周围噪声,但这些算法在信号分离之后不能确定哪一输出信号是所要话音且哪一输出信号是周围噪声。这是由于所有盲源分离算法的固有不确定性。然而,在特定假设下,一些盲源分离算法可能能够避免此不确定性。举例来说,如果所要话音在一个输入通道中比另一输入通道中强得多,那么可能盲源分离的结果是确定性的。而在使用靠近间隔的麦克风俘获信号S′1和S′2的情况下,此假设并不有效。因此,如果盲源分离算法直接应用于接收的信号S′1和S′2(或经数字化的声音信号s1(t)和s2(t)),那么不确定性问题可能继续存在。因此,信号S′1和S′2可经历预处理(例如,校准级208和/或213和/或波束成形级211)以利用两个或两个以上源声音信号So1、So2和SoN的方向性,以便增强来自所要方向的信号接收。
波束成形级211可经配置以通过利用所接收的声音信号s1(t)和s2(t)的方向性来区分有用的声音信号。波束成形级211可通过线性组合由至少两个或两个以上麦克风212和214俘获的信号来执行空间滤波。空间滤波增强来自所要方向的声音信号的接收,且抑制来自其它方向的干扰信号。举例来说,在两个麦克风的***中,波束成形级211产生第一输出x1(t)和第二输出x2(t)。在第一输出x1(t)中,可通过空间滤波来增强所要话音。在第二输出x2(t)中,可抑制所要话音且可增强周围噪声信号。
举例来说,如果用户是第一声音源218,那么原始源信号So2是所要源声音信号(例如,所要话音信号)。因此,在第一输出x1(t)中,波束成形级211可执行波束成形以增强从第一声音源218的接收,同时抑制来自其它声音源216和220的信号So1和SoN。在第二输出x2(t)中,校准级208和/或213和/或波束成形级211可执行空间陷波滤波以抑制所要话音信号且增强周围噪声信号。
输出信号x1(t)和x2(t)可通过盲源分离级210以分离所要话音信号和周围噪声。盲源分离(BSS)(也称为独立分量分析(ICA))可用以基于这些信号的多个混合物来恢复源信号。在信号分离过程期间,仅作为源声音信号So1、So2和SoN的混合物的有限数目的信号x1(t)和x2(t)可用。没有关于混合过程的先前信息可用。没有对源声音信号的直接测量可用。有时,一些或所有源信号So1、So2和SoN的先验统计信息可能可用。举例来说,源信号中的一者可为高斯分布且另一源信号可均匀分布。
盲源分离级210可提供其中噪声已经减少的第一BSS信号和其中话音已经减少的第二BSS信号因此,第一BSS信号可携载所要话音信号。第一BSS信号可随后由发射器222发射224。
图3是根据一个实例的顺序波束成形器和盲源分离级的框图。校准和波束成形模块302可经配置以预调节两个或两个以上输入信号s1(t)、s2(t)和sn(t),且提供对应的输出信号x1(t)、x2(t)和xn(t),其随后用作对盲源分离模块304的输入。两个或两个以上输入信号s1(t)、s2(t)和sn(t)可相关或彼此相依。通过波束成形的信号增强可不必将两个或两个以上输入信号s1(t)、s2(t)和sn(t)建模为独立的随机过程。输入信号s1(t)、s2(t)和sn(t)可为经取样的离散时间信号。
波束成形级-原理
在波束成形中,可在空间和时间两者上对输入信号si(t)进行线性滤波以产生输出信号xi(t):
其中k-1是n个麦克风通道输入中的每一者中的延迟分支的数目。如果所要源信号由ssource(t)表示(例如,来自图2中的第一声音源218的源信号So2),那么可选择波束成形器权重wi(p)以使得波束成形器输出xi(t)提供所要源信号ssource(t)的估计此现象通常称为在所要源信号ssource(t)的方向上形成波束。
波束成形器可广义地分类为两种类型:固定波束成形器和自适应波束成形器。固定波束成形器是不依赖数据的波束成形器,其采用固定滤波器权重来组合从多个麦克风获得的空间-时间样本。自适应波束成形器是依赖于数据的波束成形器,其采用输入信号的统计知识来导出波束成形器的滤波器权重。
图4是经配置以执行空间波束成形的波束成形模块的实例的框图。仅空间波束成形是空间-时间波束成形方法(即,固定波束成形器)的子集。波束成形模块402可经配置以接收多个输入信号s1(t)、s2(t)...sn(t),且提供在方向上增强的一个或一个以上输出信号和换位器404接收所述多个输入信号s1(t)、s2(t)...sn(t),且执行换位运算以获得信号向量其中上标T表示换位运算。
信号向量可随后由空间权重向量进行滤波以增强所关注信号或抑制不想要的信号。空间权重向量增强从特定方向(例如,由权重界定的波束的方向)的信号俘获,同时抑制来自其它方向的信号。
举例来说,空间噪声滤波器406可接收信号向量且通过应用n×1第一空间权重向量对其进行滤波以产生第一波束成形器输出使得
此波束成形器可利用输入信号s1(t)、s2(t)...sn(t)的空间信息以提供所要(声音或话音)信号的信号增强。
在另一实例中,波束成形模块402可包含空间陷波滤波器408,其抑制来自第二波束成形器输出的所要信号。在此情况下,空间陷波滤波器408通过使用n×1空间第二权重向量而抑制来自所要方向的信号,所述n×1空间第二权重向量正交于第一空间权重向量使得
将空间陷波滤波器408应用于输入信号向量以产生第二波束成形器输出其中所要信号经最小化。
第二波束成形器输出可提供对所俘获的输入信号中的背景噪声的估计。以此方式,第二波束成形器输出可来自与第一波束成形器输出正交的方向。
由波束成形模块402提供的空间区分能力可取决于相对于传播信号的波长使用的两个或两个以上麦克风的间距。波束成形模块402的方向性/空间区分通常随着两个或两个以上麦克风之间的相对距离增加而改善。因此,对于紧密间隔的麦克风,波束成形模块402的方向性可能较弱,且可执行进一步的时间后处理以改善信号增强或抑制。然而,尽管存在波束成形模块402的此性能限制,但其仍可能提供输出信号和中的足够空间区分以改善后续盲源分离级的性能。图4的波束成形模块402中的输出信号和可为来自图3的波束成形模块302或图2的波束成形级211的输出信号x1(t)和x2(t)。
波束成形模块302可对输入信号实施各种额外的预处理操作。在一些例子中,在由两个麦克风俘获的信号之间可能存在显著的声级(例如,功率电平、能量级)差异。声级的此差异可使得难以执行波束成形。因此,一个方面可提供校准输入信号作为执行波束成形的一部分。对输入信号的此校准可在波束成形级(例如,图2,校准级208和213)之前和/或之后执行。在各种实施方案中,预盲源分离校准级可为基于振幅和/或基于交叉相关的校准。也就是说,在基于振幅的校准中,是通过对话音或声音输入信号的振幅彼此进行比较来对将进行校准。在基于交叉相关的校准中,是通过对话音或声音信号的交叉相关彼此进行比较来对其进行校准。
校准和波束成形-实例1
图5是说明使用来自两个或两个以上麦克风的输入信号的校准和波束成形的第一实例的框图。在此实施方案中,可在波束成形模块504执行波束成形之前由校准模块502校准第二输入信号s2(t)。校准过程可公式化为s′2(t)=c1(t)·s2(t)。校准因数c1(t)可缩放第二输入s2(t),使得s′2(t)中的所要话音的声级接近于第一输入信号s1(t)的所要话音的声级。
在获得校准因数c1(t)以校准图5中的两个输入信号s1(t)和s2(t)时可使用各种方法。图6和7说明在获得校准因数c1(t)时可使用的两种方法。
图6是说明用于获得校准因数的第一方法的流程图,可应用所述校准因数以在基于两个麦克风信号实施波束成形之前校准两个麦克风信号。校准因数c1(t)可根据分别对第一输入信号s1(t)和第二输入信号s2(t)的短期话音能量估计获得。可针对第一输入信号s1(t)的块而获得第一多个能量项或估计Ps1(t)(1...k),其中每一块包含第一输入信号s1(t)的多个样本(602)。类似地,可针对第二输入信号s2(t)的块而获得第二多个能量项或估计Ps2(t)(1...k),其中每一块可包含第二输入信号s2(t)的多个样本(604)。举例来说,可使用以下方程式根据信号样本块而计算能量估计Ps1(t)和Ps2(t):
可通过例如在五十(50)或一百(100)个块的能量项上搜索第一多个能量项或估计Ps1(t)(1...k)而获得第一最大能量估计Qs1(t)(606)。类似地,可通过搜索第二多个能量项或估计Ps2(t)(1...k)而获得第二最大能量估计Qs2(t)(608)。计算若干块上的这些最大能量估计可为在不实施话音活动检测器的情况下计算所要话音的能量的较简单方式。在一个实例中,第一最大能量估计Qs1(t)可使用以下方程式来计算:
其中tmax对应于以最大能量估计Qs1(t)识别的信号块。第二最大能量估计Qs2(t)可用类似方式计算。或者,第二最大能量估计Qs2(t)也可计算为在tmax信号块处计算的第二麦克风信号的能量估计:Qs2(t)=Ps2(tmax)。也可在计算校准因数c1(t)之前随着时间而使第一最大能量估计Qs1(t)和第二最大能量估计Qs2(t)平均化(平滑)(610)。举例来说,可如下执行指数平均化:
可基于第一最大能量估计Qs1(t)和第二最大能量估计Qs2(t)而获得校准因数c1(t)(612)。在一个实例中,可使用以下方程式获得校准因数:
还可随着时间进一步使校准因数c1(t)平滑(614)以过滤掉校准估计中的任何瞬变。随后可在使用第一输入信号s1(t)和第二输入信号s2(t)执行波束成形之前将校准因数c1(t)应用于第二输入信号s2(t)(616)。或者,可随着时间计算和校准因数c1(t)的倒数并使其平滑,且随后在使用第一输入信号s1(t)和第二输入信号s2(t)执行波束成形之前将校准因数c1(t)的倒数应用于第一输入信号s1(t)(616)。
图7是说明用于获得校准因数的第二方法的流程图,可应用所述校准因数以在基于两个麦克风信号实施波束成形之前校准两个麦克风信号。在此第二方法中,可使用两个输入信号s1(t)和s2(t)之间的交叉相关而不是短期能量估计Ps1(t)和Ps2(t)。如果两个麦克风彼此靠近定位,那么两个输入信号中的所要话音(声音)信号可预期彼此高度相关。因此,可获得第一输入信号s1(t)与第二输入信号s2(t)之间的交叉相关估计PS12(t)以校准第二麦克风信号s2(t)中的声级。举例来说,可获得第一输入信号s1(t)的第一多个块,其中每一块包含第一输入信号s1(t)的多个样本(702)。类似地,可获得第二输入信号s2(t)的第二多个块,其中每一块包含第二输入信号s2(t)的多个样本(704)。可通过使第一和第二多个块的对应块交叉相关而获得第一输入信号s1(t)与第二输入信号s2(t)之间的多个交叉相关估计Ps12(t)(1...k)(706)。举例来说,可使用以下方程式来计算交叉相关估计Ps12(t):
可通过搜索所述多个交叉相关估计Ps12(t)(1...k)而获得第一输入信号s1(t)与第二输入信号s2(t)之间的最大交叉相关估计Qs12(t)(708)。举例来说,可通过使用以下方程式而获得最大交叉相关估计Qs12(t):
可使用方程式(6)和(7)将第二最大能量估计Qs2(t)计算为最大第二麦克风能量估计(712)。或者,第二最大能量估计也可计算为在tmax信号块处计算的第二麦克风信号的能量估计:Qs2(t)=Ps2(tmax)。可例如通过使用以下方程式执行指数平均化来使最大交叉相关估计Qs12(t)和最大能量估计Qs2(t)平滑(710):
例如使用以下方程式,基于最大交叉相关估计Qs12(t)和第二最大能量估计而获得校准因数c1(t)(714):
因此,可基于第一输入信号s1(t)与第二输入信号s2(t)之间的交叉相关估计与第二输入信号s2(t)的能量估计的比率而产生校准因数c1(t)。随后可将校准因数c1(t)应用于第二输入信号s2(t)以获得经校准的第二输入信号s′2(t),其随后可添加到第一输入信号s1(t)。
再次参看图5,在校准之后所得的第一输出信号x1(t)和第二输出信号x2(t)可由波束成形模块504相加或相减,使得:
第一输出信号x1(t)可被视为固定空间波束成形器的输出,其形成朝向所要声音源的波束。第二输出信号x2(t)可被视为固定陷波波束成形器的输出,其通过在所要声音源方向上形成空值而抑制所要话音信号。
在另一实例中,校准因数c1(t)可基于第一输入信号s1(t)与第二输入信号s2(t)之间的交叉相关估计与第一输入信号s1(t)的能量估计的比率而产生。校准因数c1(t)随后应用于第一输入信号s1(t)。随后可从第二输入信号s2(t)减去经校准的第一输入信号。
校准和波束成形-实例2
图8是说明使用来自两个或两个以上麦克风的输入信号的校准和波束成形的第二实例的框图。在此实施方案中,不是使用校准因数来缩放第二输入信号s2(t)(如图5中),而是可使用校准因数c1(t)来在波束成形之前调整输入信号s1(t)和s2(t)两者。用于此实施方案的校准因数c1(t)可由校准模块802例如使用图6和7中描述的相同程序来获得。一旦获得校准因数c1(t),则波束成形模块804便可产生输出信号x1(t)和x2(t),使得:
其中第一输出信号x1(t)可被视为固定空间波束成形器的输出,所述固定空间波束成形器形成朝向所要声音源的波束。第二输出信号x2(t)可被视为固定陷波波束成形器的输出,所述固定陷波波束成形器通过在所要声音源方向上形成空值而抑制所要话音信号。
在一个实例中,校准因数c1(t)可基于第一与第二输入信号之间的交叉相关与第二输入信号s2(t)的能量估计。可将第二输入信号s2(t)乘以校准因数c1(t)且添加到第一输入信号s1(t)。可将第一输入信号s1(t)除以校准因数c1(t)且从第一输入信号s1(t)减去。
校准和波束成形-实例3
图9是说明使用来自两个或两个以上麦克风的输入信号的校准和波束成形的第三实例的框图。此实施方案使图5和8中说明的校准程序一般化以包含自适应滤波器902。第二麦克风信号s2(t)可用作自适应滤波器902的输入信号,且第一麦克风信号s1(t)可用作参考信号。自适应滤波器902可包含权重wt=[wt(0) wt(1)…wt(N-1)]T,其中N为自适应滤波器902的长度。自适应滤波过程可表示为
可使用各种类型的自适应滤波算法来调适自适应滤波器902。举例来说,可如下使用最小均方(LMS)型算法来调适自适应滤波器902,
wt=Wt-1+2μx2(t)s2(t) (方程式23)
其中μ是步长大小,且是如方程式24中说明的第二输入信号向量:
自适应滤波器902可充当自适应波束成形器且抑制第二麦克风输入信号s2(t)中的所要话音。如果将自适应滤波器长度选择为一(1),那么此方法变为等效于图7中描述的校准方法,其中可使用两个麦克风信号之间的交叉相关来校准第二麦克风信号。
波束成形模块904处理第一麦克风信号s1(t)和经滤波的第二麦克风信号s′2(t)以获得第一输出信号x1(t)和第二输出信号x2(t)。第二输出信号x2(t)可被视为固定陷波波束成形器的输出,所述固定陷波波束成形器通过在所要声音(话音)源方向上形成空值而抑制所要话音信号。可通过将经滤波的第二麦克风信号s′2(t)添加到第一麦克风信号s1(t)以获得所要声音源信号的经波束成形的输出来获得第一输出信号x1(t),如下:
x1(t)=s1(t)+s′2(t) (方程式25)
第一输出信号x1(t)可以因数0.5缩放以保持x1(t)中的话音级与s1(t)中的话音级相同。因此,第一输出信号x1(t)含有所要话音(声音)信号和周围噪声两者,而第二输出信号x2(t)主要含有周围噪声和一些所要话音(声音)信号。
校准和波束成形-实例4
图10是说明使用来自两个或两个以上麦克风的输入信号的校准和波束成形的第四实例的框图。在此实施方案中,在波束成形之前不执行校准。而是,由波束成形模块1002首先执行波束成形,波束成形模块1002如下组合两个输入信号s1(t)和s2(t):
在波束成形之后,波束成形器第二输出信号x′2(t)中的噪声级可比第一输出信号x1(t)中低得多。因此,可使用校准模块1004来缩放波束成形器第二输出信号x′2(t)中的噪声级。校准模块1004可根据波束成形器输出信号x1(t)和x′2(t)的噪声底限估计获得校准因数c1(t)。x1(t)和x′2(t)的短期能量估计可分别由Px1(t)和Px′2(t)表示,且对应的噪声底限估计可由Nx1(t)和Nx′2(t)表示。噪声底限估计Nx1(t)和Nx′2(t)可通过找到短期能量估计Px1(t)和Nx′2(t)在若干连续块(比如输入信号样本的50或100个块)上的最小值来获得。举例来说,噪声底限估计Nx1(t)和Nx′2(t)可分别使用方程式27和28来计算:
噪声底限估计Nx1(t)和Nx′2(t)可随着时间而平均化以平滑掉不连续性,且校准因数c1(t)可计算为经平滑噪声底限估计的比率,使得
其中N′x1(t)和N′x′2(t)是x1(t)和x′2(t)的经平滑噪声底限估计。经波束成形的第二输出信号x′2(t)以校准因数c1(t)缩放以获得最终噪声参考输出信号x″2(t),使得:
x″2(t)=c1(t)x′2(t) (方程式30)
在校准之后,可应用自适应滤波器1006。自适应滤波器1006可如参考自适应滤波器902(图9)所述而实施。第一输出信号x1(t)可用作对自适应滤波器1006的输入信号,且经校准的输出信号x″2(t)可用作参考信号。自适应滤波器1006可抑制经校准的波束成形器输出信号x″2(t)中的所要话音信号。因此,第一输出信号x1(t)可含有所要话音和周围噪声两者,而第二输出信号x2(t)可主要含有周围噪声和一些所要话音。因此,两个输出信号x1(t)和x2(t)可满足早先针对避免BSS的不确定性而提出的假设,即,其并不高度相关。
在图5到10中说明的各种实例中,校准级可对话音或声音符号实施基于振幅和/或基于交叉相关的校准。
盲源分离级
再次参看图3,来自波束成形模块302的输出信号x1(t)、x2(t)和xn(t)可传递到盲源分离模块304。盲源分离模块304可处理波束成形器输出信号x1(t)、x2(t)和xn(t)。信号x1(t)、x2(t)和xn(t)可为源信号的混合物。盲源分离模块304分离输入混合物,且产生源信号的估计y1(t)、y2(t)和yn(t)。举例来说,在仅一个源信号可为所要信号的双麦克风噪声减少的情况下,盲源分离模块304可使所要话音信号(例如,图2中的第一源声音信号So2)和周围噪声(例如,图2中的噪声So1和SoN)解相关。
盲源分离-原理
在盲源分离或解相关中,将输入信号视为独立的随机过程。用来以盲的方式分离信号的假设是所有随机过程均彼此在统计上独立,即,所有随机过程S1、S2和Sm的联合概率分布P是所有个别随机过程的乘积。此假设可公式化为
其中是所有随机过程S1,...,Sm的联合分布,且是第j个随机过程Sj的分布。
大体上,盲源分离可分类为两个类别,瞬时BSS和卷积BSS。瞬时BSS称为混合输入信号s(t),其可建模为瞬时矩阵混合,其公式化为
x(t)=As(t) (方程式32)
其中s(t)是m×1向量,x(t)是n×1向量。A是n×m标量矩阵。在分离过程中,计算m×n标量矩阵B且将其用以重构信号使得类似于s(t)直到任意的置换和任意的缩放。也就是说,矩阵BA可分解为PD,其中矩阵P是置换矩阵,且矩阵D是对角矩阵。置换矩阵是通过置换同一维度的单位矩阵而导出的矩阵。对角矩阵是仅在其对角线上具有非零条目的矩阵。应注意,对角矩阵D不必为单位矩阵。如果所有m个声音源彼此独立,那么在矩阵D的对角线上应不存在任何零条目。大体上,n≥m对于完全的信号分离是合意的,即,麦克风数目n大于或等于声音源数目m。
实践中,可使用瞬时混合来建模的问题很少。信号通常在由麦克风或音频传感器俘获之前行进经过非理想通道。因此,可使用卷积BSS来更好地建模输入信号。
图11是说明卷积盲源分离从多个混合输入信号恢复源信号的操作的框图。源信号s1(t)1102和s2(t)1104可通过一通道,在其中所述源信号经混合。经混合信号可由麦克风俘获为输入信号s′1(t)和s′2(t),且通过预处理级1106,在其中所述输入信号可在通过盲源分离级1108之前经预调节(例如,波束成形)为信号x1(t)和x2(t)。
输入信号s′1(t)和s′2(t)可基于原始的源信号s1(t)1102和s2(t)1104以及从声音源到一个或一个以上麦克风的通道传递函数和输入的混合物来建模。举例来说,可使用卷积BSS,其中混合输入信号s′(t)可建模为
其中sj(t)是源自第j个声音源的源信号,s′i(t)是由第i个麦克风俘获的输入信号,hij(t)是第j个声音源与第i个麦克风之间的传递函数,且符号表示卷积运算。同时,对于卷积BSS,如果n≥m,即,麦克风数目n大于或等于声音源数目m,那么可实现完全分离。
在图11中,传递函数h11(t)和h12(t)表示从第一信号源到第一和第二麦克风的通道传递函数。类似地,传递函数h21(t)和h22(t)表示从第二信号源到第一和第二麦克风的通道传递函数。信号在传递到盲源分离级1108之前通过预处理级1106(波束成形)。混合输入信号s′1(t)和s′2(t)(如由第一和第二麦克风俘获)随后通过波束成形预处理级1106以获得信号x1(t)和x2(t)。
盲源分离可随后应用于混合信号xi(t)以分离或提取对应于原始源信号sj(t)的估计为完成此情形,可在盲源分离级1108处使用一组滤波器Wji(z)以颠倒信号混合。为了方便,盲源分离是在Z变换域中表示。在此实例中,X1(z)是x1(t)的Z域型式,且X2(z)是x2(t)的Z域型式。
根据滤波器Wji(z)修改信号X1(z)和X2(z)以获得原始源信号S(z)(等效于时域中的s(t))的估计使得
信号估计可近似原始信号S(z)直到任意的置换和任意的卷积。如果混合传递函数hij(t)是在Z域中表达,那么总体***传递函数可公式化为
W(z)H(z)=PD(z) (方程式35)
其中P是置换矩阵且D(Z)是对角传递函数矩阵。D(Z)的对角线上的元素是传递函数而不是标量(如瞬时BSS中表示)。
盲源分离-解相关
再次参看图3,因为原始输入信号s1(t)和s2(t)可高度相关,所以第二输出x2(t)的信号电平在波束成形模块302之后可为低。这可减少盲源分离模块304的收敛速率。为了使盲源分离模块304的收敛速率最大化,可在盲源分离之前使用第二校准。图12是说明在波束成形预处理级之后但在盲源分离级1204之前可如何校准信号的第一实例。可提供信号x1(t)和x2(t)作为对校准模块1202的输入。在此实例中,信号x2(t)以标量c2(t)缩放,如下,
标量c2(t)可基于信号x1(t)和x2(t)来确定。举例来说,可如图10和方程式27、28和29中说明,使用x1(t)和x2(t)的噪声底限估计计算校准因数。
在校准之后,x1(t)中的所要话音信号比中的所要话音信号强得多。于是可在使用盲源分离算法时避免不确定性。实践中,期望使用可避免信号缩放的盲源分离算法,信号缩放为盲源分离算法的另一一般性问题。
图13是说明在盲源分离之前实施信号校准的替代方案的框图。类似于图8中说明的校准过程,校准模块1302产生第二缩放因数c2(t)以改变、配置或修改盲源分离模块1304的适应性(例如,算法、权重、因数等)而不是使用其来缩放信号x2(t)。
盲源分离-后处理
再次参看图3,由盲源分离模块304输出的所述一个或一个以上源信号估计y1(t)、y2(t)和yn(t)可进一步由后处理模块308处理,后处理模块308提供输出信号和可添加后处理模块308以进一步改善所要话音信号估计的信噪比(SNR)。在某些情况下,如果预调节校准和波束成形模块302产生周围噪声的良好估计,那么盲源分离模块304可被绕过且后处理模块308单独地可产生所要话音信号的估计。类似地,如果盲源分离模块304产生所要话音信号的良好估计,那么后处理模块308可被绕过。
在信号分离过程之后,提供信号y1(t)和y2(t)。信号y1(t)可主要含有所要信号和某种程度的经衰减的周围噪声。信号y1(t)可称为话音参考信号。周围噪声的减少依据环境和噪声的特性而变化。信号y2(t)可主要含有周围噪声,其中所要信号已经减少。其也称为噪声参考信号。
根据校准和波束成形模块302和盲源分离模块304的各种实施方案,噪声参考信号中的所要话音信号已经大部分移除。因此,后处理模块308可着重于从话音参考信号移除噪声。
图14是说明用以从所要话音参考信号减少噪声的后处理模块的操作的实例的框图。可使用非因果自适应滤波器1402来进一步减少话音参考信号y1(t)中的噪声。噪声参考信号y2(t)可用作对自适应滤波器1402的输入。经延迟信号y1(t)可用作自适应滤波器1402的参考。自适应滤波器P(z)1402可使用最小均方(LMS)型自适应滤波器或任何其它自适应滤波器来调适。因此,后处理模块可能能够提供含有具有减少噪声的所要话音参考信号的输出信号
在较一般的意义上,后处理模块308可对输出信号y1(t)和y2(t)执行噪声校准,如图2的后处理级215中所说明。
实例方法
图15是说明根据一个实例的增强盲源分离的方法的流程图。可接收或获得与第一麦克风相关联的第一输入信号和与第二麦克风相关联的第二输入信号(1502)。可通过校准第一和第二输入信号且应用波束成形技术以对第一和第二输入信号提供方向性且获得对应的第一和第二输出信号来预处理第一和第二输入信号(1504)。也就是说,波束成形技术可包含图4、5、6、7、8、9和/或10中说明的技术以及其它波束成形技术。举例来说,在两个麦克风的***中,波束成形技术产生第一和第二输出信号,使得来自所要方向的声音信号可在波束成形器的第一输出信号中放大,而来自所要方向的声音信号在波束成形器的第二输出信号中被抑制。
在一个实例中,波束成形技术可包含将自适应滤波器应用于第二输入信号,从第二输入信号减去第一输入信号,和/或将经过滤的第二输入信号添加到第一输入信号(如例如图9中说明)。
在另一实例中,波束成形技术可包含基于第一输入信号和第二输入信号的能量估计的比率产生校准因数,且将校准因数应用于第一输入信号或第二输入信号中的任一者(如例如图5和6中说明)。
或者,在另一实例中,波束成形技术可包含基于第一与第二输入信号之间的交叉相关估计与第二输入信号的能量估计的比率而产生校准因数,且将校准因数应用于所述第一输入信号或第二输入信号中的至少一者(如例如图5、7和8中说明)。
在又一实例中,波束成形技术可包含(a)将第二输入信号添加到第一输入信号以获得经修改的第一信号,(b)从第二输入信号减去第一输入信号以获得经修改的第二信号,(c)获得针对经修改的第一信号的第一噪声底限估计,(d)获得针对经修改的第二信号的第二噪声底限估计,(e)基于第一噪声底限估计与第二噪声底限估计的比率而产生校准因数,(f)将校准因数应用于经修改的第二信号,和/或(g)将自适应滤波器应用于经修改的第一信号且从经修改的第二信号减去经滤波的经修改的第一信号(如例如图10中说明)以获得对应的第一和第二输出信号。
盲源分离(BSS)技术随后可应用于经预处理的第一输出信号和经预处理的第二输出信号以产生第一BSS信号和第二BSS信号(1506)。在一个实例中,可通过以下操作在应用盲源分离技术之前对输出信号中的一者或一者以上执行预校准:(a)基于第一和第二输出信号获得校准因数,以及(b)在对第一和第二输出信号应用盲源分离技术之前校准第一和第二输出信号中的至少一者(如例如图12中说明)。在另一实例中,可在应用盲源分离技术之前执行的预校准包含(a)基于第一和第二输出信号获得校准因数,以及(b)基于校准因数修改盲源分离技术的操作(如例如图13中说明)。
可任选地校准第一和第二输入信号、第一和第二输出信号或第一和第二BSS信号中的至少一者(1508)。举例来说,第一校准(例如,图2中的预处理级校准208)可作为基于振幅的校准或基于交叉相关的校准而应用于第一和第二输入信号中的至少一者。另外,第二校准(例如,图2中的中间处理级校准213)可作为基于振幅的校准或基于交叉相关的校准而应用于来自波束成形级的第一和第二输出信号中的至少一者。
另外,第三校准(例如,图2中的后处理级校准215)可作为基于噪声的校准而应用于来自盲源分离级的第一和第二BSS信号中的至少一者。举例来说,自适应滤波器可应用(在后处理级校准中)于第一BSS信号以减少第一BSS信号中的噪声,其中第二BSS信号用作对自适应滤波器的输入(1508)。在后处理级校准的一个实例中,将自适应滤波器应用于第一BSS信号以减少第一BSS信号中的噪声,其中第二BSS信号用作对自适应滤波器的输入(如例如图14中说明)。
根据又一配置,移动装置中的电路可适于接收与第一麦克风相关联的第一输入信号。相同电路、不同电路或相同或不同电路的第二部分可适于接收与第二麦克风相关联的第二输入信号。另外,相同电路、不同电路或相同或不同电路的第三部分可适于将波束成形技术应用于第一和第二输入信号以向第一和第二输入信号提供方向性且获得对应的第一和第二输出信号。适于获得第一和第二输入信号的电路的部分可直接或间接耦合到向第一和第二输入信号应用波束成形的电路的部分,或其可为相同电路。相同或不同电路的第四部分可适于向第一输出信号和第二输出信号应用盲源分离(BSS)技术以产生第一BSS信号和第二BSS信号。任选地,相同或不同电路的第五部分可适于校准第一和第二输入信号、第一和第二输出信号或第一和第二BSS信号中的至少一者。波束成形技术可向第一输入信号和第二输入信号应用不同的方向性,且不同的方向性放大来自第一方向的声音信号,同时使来自其它方向(例如,来自正交或相反方向)的声音信号衰减。所属领域的技术人员将认识到,大体上,本发明中描述的大多数处理可以类似方式实施。电路或电路部分中的任一者可单独实施或作为集成电路的一部分与一个或一个以上处理器组合实施。电路中的一者或一者以上可在集成电路、高级RISC机器(ARM)处理器、数字信号处理器(DSP)、通用处理器等上实施。
图1、2、3、4、5、6、7、8、9、10、11、12、13、14和/或15中说明的组件、步骤和/或功能中的一者或一者以上可重新布置和/或组合为单个组件、步骤或功能或者在若干组件、步骤或功能中实施。也可添加额外的元件、组件、步骤和/或功能。在图1、2、3、4、5、8、9、10、11、12、13和/或14中说明的设备、装置和/或组件可经配置以执行图6、7和/或15中描述的方法、特征或步骤中的一者或一者以上。本文描述的新颖算法可有效地以软件和/或嵌入硬件来实施。
所属领域的技术人员将进一步了解,结合本文所揭示的配置而描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件或上述两者的组合。为了清楚地说明硬件与软件的这种可互换性,上文大体上根据各种说明性组件、块、模块、电路和步骤的功能性来描述各种说明性组件、块、模块、电路和步骤。将此功能性实施为硬件还是软件取决于特定应用和强加于整个***的设计限制。
本文描述的各种特征可在不同***中实施。举例来说,波束成形级和盲源分离级可在单个电路或模块中、在单独的电路或模块上实施、由一个或一个以上处理器执行、由并入机器可读或计算机可读媒体中的计算机可读指令执行和/或在手持式装置、移动计算机和/或移动电话中实施。
应注意,上述配置仅是实例且不应解释为限制权利要求书。对配置的描述既定为说明性的,且不限制权利要求书的范围。由此,本发明的教示可容易应用于其它类型的设备,且所属领域的技术人员将明了许多替代、修改和变化。
Claims (40)
1.一种方法,其包括:
接收与第一麦克风相关联的第一输入信号和与第二麦克风相关联的第二输入信号;
将波束成形技术应用于所述第一和第二输入信号以给所述第一和第二输入信号提供方向性且获得对应的第一和第二输出信号;
将盲源分离(BSS)技术应用于所述第一输出信号和第二输出信号以产生第一BSS信号和第二BSS信号;以及
校准以下各者中的至少一者:
应用所述波束成形技术之前的所述第一和第二输入信号,及
应用所述波束成形技术之后且在应用所述盲源分离技术之前的所述第一和第二输出信号。
2.根据权利要求1所述的方法,其中所述波束成形技术通过将空间滤波器应用于所述第一和第二输入信号来给所述第一和第二输入信号提供方向性。
3.根据权利要求2所述的方法,其中将空间滤波器应用于所述第一和第二输入信号放大来自第一方向的声音信号,同时衰减来自其它方向的声音信号。
4.根据权利要求2所述的方法,其中将空间滤波器应用于所述第一和第二输入信号放大所述所得第一输出信号中的所要话音信号且衰减所述第二输出信号中的所述所要话音信号。
5.根据权利要求1所述的方法,其中校准所述第一和第二输入信号中的至少一者包括将自适应滤波器应用于所述第二输入信号,且应用所述波束成形技术包含从所述第二输入信号中减去所述第一输入信号。
6.根据权利要求5所述的方法,其中应用所述波束成形技术进一步包括将所述经滤波的第二输入信号添加到所述第一输入信号。
7.根据权利要求1所述的方法,其中校准所述第一和第二输入信号中的至少一者进一步包括:
基于所述第一输入信号和第二输入信号的能量估计的比率而产生校准因数;以及
将所述校准因数应用于所述第一输入信号或所述第二输入信号中的至少一者。
8.根据权利要求1所述的方法,其中校准所述第一和第二输入信号中的至少一者进一步包括:
基于所述第一与第二输入信号之间的交叉相关估计与所述第二输入信号的能量估计的比率而产生校准因数;以及
将所述校准因数应用于所述第二输入信号。
9.根据权利要求1所述的方法,其中校准所述第一和第二输入信号中的至少一者进一步包括:
基于所述第一与第二输入信号之间的交叉相关估计与所述第一输入信号的能量估计的比率而产生校准因数;以及
将所述校准因数应用于所述第一输入信号。
10.根据权利要求1所述的方法,其中校准所述第一和第二输入信号中的至少一者进一步包括:
基于第一与第二输入信号之间的交叉相关和所述第二输入信号的能量估计而产生校准因数;
将所述第二输入信号乘以所述校准因数;以及
将所述第一输入信号除以所述校准因数。
11.根据权利要求1所述的方法,其中将所述波束成形技术应用于所述第一和第二输入信号进一步包括:
将所述第二输入信号添加到所述第一输入信号以获得经修改的第一信号;以及
从所述第二输入信号中减去所述第一输入信号以获得经修改的第二信号。
12.根据权利要求11所述的方法,其中校准所述第一和第二输入信号中的至少一者进一步包括:
获得所述经修改的第一信号的第一噪声底限估计;
获得所述经修改的第二信号的第二噪声底限估计;
基于所述第一噪声底限估计与所述第二噪声底限估计的比率而产生校准因数;以及
将所述校准因数应用于所述经修改的第二信号。
13.根据权利要求12所述的方法,其进一步包括:
将自适应滤波器应用于所述经修改的第一信号,且从所述经修改的第二信号中减去所述经滤波的经修改的第一信号。
14.根据权利要求1所述的方法,其进一步包括:
基于所述第一和第二输出信号获得校准因数;以及
在将所述盲源分离技术应用于所述第一和第二输出信号之前校准所述第一和第二输出信号中的至少一者。
15.根据权利要求1所述的方法,其进一步包括:
基于所述第一和第二输出信号获得校准因数;以及
基于所述校准因数修改所述盲源分离技术的操作。
16.根据权利要求1所述的方法,其进一步包括:
将自适应滤波器应用于所述第一BSS信号以减少所述第一BSS信号中的噪声,其中将所述第二BSS信号用作对所述自适应滤波器的输入。
17.根据权利要求1所述的方法,其中校准所述第一和第二输入信号中的至少一者包含应用基于振幅的校准或基于交叉相关的校准中的至少一者。
18.根据权利要求1所述的方法,其中校准所述第一和第二输出信号中的至少一者包含应用基于振幅的校准或基于交叉相关的校准中的至少一者。
19.根据权利要求1所述的方法,其中校准所述第一和第二BSS信号中的至少一者包含应用基于噪声的校准。
20.一种通信装置,其包括:
第一麦克风,其经配置以获得第一输入信号;
第二麦克风,其经配置以获得第二输入信号;
波束成形模块,其经配置以对所述第一和第二输入信号执行波束成形以获得对应的第一和第二输出信号;
盲源分离模块,其经配置以对所述第一输出信号和所述第二输出信号执行盲源分离(BSS)技术以产生第一BSS信号和第二BSS信号;以及
至少一个校准模块,其经配置以校准以下各者中的至少一者:
执行所述波束成形技术之前的所述第一和第二输入信号,及
执行所述波束成形技术之后且在执行所述盲源分离技术之前的所述第一和第二输出信号。
21.根据权利要求20所述的通信装置,其中所述波束成形模块通过将空间滤波器应用于所述第一和第二输入信号来执行波束成形,其中将空间滤波器应用于所述第一和第二输入信号放大来自第一方向的声音信号,同时衰减来自其它方向的声音信号。
22.根据权利要求21所述的通信装置,其中将空间滤波器应用于所述第一输入信号和第二输入信号放大所述第一输出信号中的所要话音信号且衰减所述第二输出信号中的所述所要话音信号。
23.根据权利要求20所述的通信装置,其中对所述第一和第二输入信号执行波束成形,所述波束成形模块进一步经配置以:
将自适应滤波器应用于所述第二输入信号;
从所述第二输入信号中减去所述第一输入信号;以及
将所述经滤波的第二输入信号添加到所述第一输入信号。
24.根据权利要求20所述的通信装置,其中校准所述第一和第二输入信号中的至少一者,所述校准模块进一步经配置以:
基于所述第一与第二输入信号之间的交叉相关估计与所述第二输入信号的能量估计的比率而产生校准因数;以及
将所述校准因数应用于所述第二输入信号。
25.根据权利要求20所述的通信装置,其中校准所述第一和第二输入信号中的至少一者,所述校准模块进一步经配置以:
基于所述第一与第二输入信号之间的交叉相关估计与所述第一输入信号的能量估计的比率而产生校准因数;以及
将所述校准因数应用于所述第一输入信号。
26.根据权利要求20所述的通信装置,其中校准所述第一和第二输入信号中的至少一者,所述校准模块进一步经配置以:
基于第一与第二输入信号之间的交叉相关和所述第二输入信号的能量估计而产生校准因数;
将所述第二输入信号乘以所述校准因数;以及
将所述第一输入信号除以所述校准因数。
27.根据权利要求20所述的通信装置,其中对所述第一和第二输入信号执行波束成形,所述波束成形模块进一步经配置以:
将所述第二输入信号添加到所述第一输入信号以获得经修改的第一信号;
从所述第二输入信号中减去所述第一输入信号以获得经修改的第二信号;
获得所述经修改的第一信号的第一噪声底限估计;
获得所述经修改的第二信号的第二噪声底限估计;且
所述校准模块进一步经配置以:
基于所述第一噪声底限估计与所述第二噪声底限估计的比率而产生校准因数;以及
将所述校准因数应用于所述经修改的第二信号。
28.根据权利要求20所述的通信装置,其进一步包括:
后处理模块,其经配置以将自适应滤波器应用于所述第一BSS信号以减少所述第一BSS信号中的噪声,其中所述第二BSS信号用作对所述自适应滤波器的输入。
29.根据权利要求20所述的通信装置,其中所述至少一个校准模块包含第一校准模块,所述第一校准模块经配置以将基于振幅的校准或基于交叉相关的校准中的至少一者应用于所述第一和第二输入信号。
30.根据权利要求20所述的通信装置,其中所述至少一个校准模块包含第二校准模块,所述第二校准模块经配置以将基于振幅的校准或基于交叉相关的校准中的至少一者应用于所述第一和第二输出信号。
31.根据权利要求20所述的通信装置,其中所述至少一个校准模块包含第三校准模块,所述第三校准模块经配置以将基于噪声的校准应用于所述第一和第二BSS信号。
32.一种通信装置,其包括:
用于接收与第一麦克风相关联的第一输入信号和与第二麦克风相关联的第二输入信号的装置;
用于将波束成形技术应用于所述第一和第二输入信号以给所述第一和第二输入信号提供方向性且获得对应的第一和第二输出信号的装置;
用于将盲源分离(BSS)技术应用于所述第一输出信号和第二输出信号以产生第一BSS信号和第二BSS信号的装置;以及
用于校准以下各者中的至少一者的装置:
应用所述波束成形技术之前的所述第一和第二输入信号,及
应用所述波束成形技术之后且在应用所述盲源分离技术之前的所述第一和第二输出信号。
33.根据权利要求32所述的通信装置,其进一步包括:
用于将自适应滤波器应用于所述第一BSS信号以减少所述第一BSS信号中的噪声的装置,其中所述第二BSS信号用作对所述自适应滤波器的输入。
34.根据权利要求32所述的通信装置,其进一步包括:
用于将自适应滤波器应用于所述第二输入信号的装置;
用于从所述第二输入信号中减去所述第一输入信号的装置;以及
用于将所述经滤波的第二输入信号添加到所述第一输入信号的装置。
35.根据权利要求32所述的通信装置,其进一步包括:
用于基于所述第一和第二输出信号获得校准因数的装置;以及
用于在将盲源分离技术应用于所述第一和第二输出信号之前校准所述第一和第二输出信号中的至少一者的装置。
36.根据权利要求32所述的通信装置,其进一步包括:
用于基于所述第一和第二输出信号获得校准因数的装置;以及
用于基于所述校准因数修改所述盲源分离技术的操作的装置。
37.一种用于增强两个或两个以上信号的盲源分离的电路,其中所述电路适于:
接收与第一麦克风相关联的第一输入信号和与第二麦克风相关联的第二输入信号;
将波束成形技术应用于所述第一和第二输入信号以给所述第一和第二输入信号提供方向性且获得对应的第一和第二输出信号;
将盲源分离(BSS)技术应用于所述第一输出信号和所述第二输出信号以产生第一BSS信号和第二BSS信号;以及
校准以下各者中的至少一者:
应用所述波束成形技术之前的所述第一和第二输入信号,及
应用所述波束成形技术之后且在应用所述盲源分离技术之前的所述第一和第二输出信号。
38.根据权利要求37所述的电路,其中所述波束成形技术将空间滤波应用于所述第一输入信号和第二输入信号,且所述空间滤波器放大来自第一方向的声音信号,同时衰减来自其它方向的声音信号。
39.根据权利要求37所述的电路,其中所述电路是集成电路。
40.一种计算机可读媒体,其包括用于增强两个或两个以上信号的盲源分离的指令,所述指令在由处理器执行时致使所述处理器:
获得与第一麦克风相关联的第一输入信号和与第二麦克风相关联的第二输入信号;
将波束成形技术应用于所述第一和第二输入信号以给所述第一和第二输入信号提供方向性且获得对应的第一和第二输出信号;
将盲源分离(BSS)技术应用于所述经预处理的第一信号和经预处理的第二信号以产生第一BSS信号和第二BSS信号;以及
校准以下各者中的至少一者:
所述第一和第二输入信号、应用所述波束成形技术之前的信号,及
所述第一和第二输出信号或应用所述波束成形技术之后且在应用所述盲源分离技术之前的所述第一和第二BSS信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/022,037 | 2008-01-29 | ||
US12/022,037 US8223988B2 (en) | 2008-01-29 | 2008-01-29 | Enhanced blind source separation algorithm for highly correlated mixtures |
CN2009801013913A CN101904182A (zh) | 2008-01-29 | 2009-01-29 | 用于高度相关的混合物的增强型盲源分离算法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801013913A Division CN101904182A (zh) | 2008-01-29 | 2009-01-29 | 用于高度相关的混合物的增强型盲源分离算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106887239A true CN106887239A (zh) | 2017-06-23 |
Family
ID=40673297
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610877684.2A Pending CN106887239A (zh) | 2008-01-29 | 2009-01-29 | 用于高度相关的混合物的增强型盲源分离算法 |
CN2009801013913A Pending CN101904182A (zh) | 2008-01-29 | 2009-01-29 | 用于高度相关的混合物的增强型盲源分离算法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801013913A Pending CN101904182A (zh) | 2008-01-29 | 2009-01-29 | 用于高度相关的混合物的增强型盲源分离算法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8223988B2 (zh) |
EP (1) | EP2245861B1 (zh) |
JP (2) | JP2011511321A (zh) |
KR (2) | KR20100113146A (zh) |
CN (2) | CN106887239A (zh) |
WO (1) | WO2009097413A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994120A (zh) * | 2017-12-29 | 2019-07-09 | 福州瑞芯微电子股份有限公司 | 基于双麦的语音增强方法、***、音箱及存储介质 |
CN110675892A (zh) * | 2019-09-24 | 2020-01-10 | 北京地平线机器人技术研发有限公司 | 多位置语音分离方法和装置、存储介质、电子设备 |
CN111863012A (zh) * | 2020-07-31 | 2020-10-30 | 北京小米松果电子有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN112151036A (zh) * | 2020-09-16 | 2020-12-29 | 科大讯飞(苏州)科技有限公司 | 基于多拾音场景的防串音方法、装置以及设备 |
CN113362847A (zh) * | 2021-05-26 | 2021-09-07 | 北京小米移动软件有限公司 | 音频信号处理方法及装置、存储介质 |
Families Citing this family (146)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8150054B2 (en) * | 2007-12-11 | 2012-04-03 | Andrea Electronics Corporation | Adaptive filter in a sensor array system |
US9392360B2 (en) | 2007-12-11 | 2016-07-12 | Andrea Electronics Corporation | Steerable sensor array system with video input |
WO2009076523A1 (en) | 2007-12-11 | 2009-06-18 | Andrea Electronics Corporation | Adaptive filtering in a sensor array system |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8184816B2 (en) | 2008-03-18 | 2012-05-22 | Qualcomm Incorporated | Systems and methods for detecting wind noise using multiple audio sources |
US8812309B2 (en) * | 2008-03-18 | 2014-08-19 | Qualcomm Incorporated | Methods and apparatus for suppressing ambient noise using multiple audio signals |
US9113240B2 (en) * | 2008-03-18 | 2015-08-18 | Qualcomm Incorporated | Speech enhancement using multiple microphones on multiple devices |
US8731211B2 (en) * | 2008-06-13 | 2014-05-20 | Aliphcom | Calibrated dual omnidirectional microphone array (DOMA) |
KR101178801B1 (ko) * | 2008-12-09 | 2012-08-31 | 한국전자통신연구원 | 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법 |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
KR101233271B1 (ko) * | 2008-12-12 | 2013-02-14 | 신호준 | 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템 |
KR20100111499A (ko) * | 2009-04-07 | 2010-10-15 | 삼성전자주식회사 | 목적음 추출 장치 및 방법 |
JP5493611B2 (ja) * | 2009-09-09 | 2014-05-14 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP5565593B2 (ja) * | 2009-10-01 | 2014-08-06 | 日本電気株式会社 | 信号処理方法、信号処理装置、及び信号処理プログラム |
DE112010004682T5 (de) * | 2009-12-04 | 2013-03-28 | Masimo Corporation | Kalibrierung für mehrstufige physiologische Monitore |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US8583428B2 (en) * | 2010-06-15 | 2013-11-12 | Microsoft Corporation | Sound source separation using spatial filtering and regularization phases |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
CN102447993A (zh) * | 2010-09-30 | 2012-05-09 | Nxp股份有限公司 | 声音场景操纵 |
US8682006B1 (en) * | 2010-10-20 | 2014-03-25 | Audience, Inc. | Noise suppression based on null coherence |
US10726861B2 (en) | 2010-11-15 | 2020-07-28 | Microsoft Technology Licensing, Llc | Semi-private communication in open environments |
CN102164328B (zh) * | 2010-12-29 | 2013-12-11 | 中国科学院声学研究所 | 一种用于家庭环境的基于传声器阵列的音频输入*** |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
JP5662276B2 (ja) * | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
TWI473077B (zh) * | 2012-05-15 | 2015-02-11 | Univ Nat Central | 盲訊號分離系統 |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20140031790A (ko) * | 2012-09-05 | 2014-03-13 | 삼성전자주식회사 | 잡음 환경에서 강인한 음성 구간 검출 방법 및 장치 |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
CZ2012831A3 (cs) * | 2012-11-23 | 2014-03-05 | Technická univerzita v Liberci | Způsob potlačení šumu a zvýraznění řečového signálu pro mobilní telefon se dvěma nebo více mikrofony |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9633670B2 (en) * | 2013-03-13 | 2017-04-25 | Kopin Corporation | Dual stage noise reduction architecture for desired signal extraction |
US9312826B2 (en) | 2013-03-13 | 2016-04-12 | Kopin Corporation | Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction |
US10306389B2 (en) | 2013-03-13 | 2019-05-28 | Kopin Corporation | Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN104244153A (zh) * | 2013-06-20 | 2014-12-24 | 上海耐普微电子有限公司 | 超低噪音高振幅音频捕获的数字麦克风 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN103903631B (zh) * | 2014-03-28 | 2017-10-03 | 哈尔滨工程大学 | 基于变步长自然梯度算法的语音信号盲分离方法 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
WO2016033364A1 (en) | 2014-08-28 | 2016-03-03 | Audience, Inc. | Multi-sourced noise suppression |
JP6703525B2 (ja) * | 2014-09-05 | 2020-06-03 | インターデジタル シーイー パテント ホールディングス | 音源を強調するための方法及び機器 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9456276B1 (en) * | 2014-09-30 | 2016-09-27 | Amazon Technologies, Inc. | Parameter selection for audio beamforming |
CN104637494A (zh) * | 2015-02-02 | 2015-05-20 | 哈尔滨工程大学 | 基于盲源分离的双话筒移动设备语音信号增强方法 |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
DK3278575T3 (da) * | 2015-04-02 | 2021-08-16 | Sivantos Pte Ltd | Høreindretning |
CN106297820A (zh) | 2015-05-14 | 2017-01-04 | 杜比实验室特许公司 | 具有基于迭代加权的源方向确定的音频源分离 |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
WO2017017569A1 (en) * | 2015-07-26 | 2017-02-02 | Vocalzoom Systems Ltd. | Enhanced automatic speech recognition |
US10079031B2 (en) * | 2015-09-23 | 2018-09-18 | Marvell World Trade Ltd. | Residual noise suppression |
US11631421B2 (en) | 2015-10-18 | 2023-04-18 | Solos Technology Limited | Apparatuses and methods for enhanced speech recognition in variable environments |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11234072B2 (en) | 2016-02-18 | 2022-01-25 | Dolby Laboratories Licensing Corporation | Processing of microphone signals for spatial playback |
WO2017143105A1 (en) | 2016-02-19 | 2017-08-24 | Dolby Laboratories Licensing Corporation | Multi-microphone signal enhancement |
US11120814B2 (en) | 2016-02-19 | 2021-09-14 | Dolby Laboratories Licensing Corporation | Multi-microphone signal enhancement |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
WO2018129086A1 (en) * | 2017-01-03 | 2018-07-12 | Dolby Laboratories Licensing Corporation | Sound leveling in multi-channel sound capture system |
US10701483B2 (en) | 2017-01-03 | 2020-06-30 | Dolby Laboratories Licensing Corporation | Sound leveling in multi-channel sound capture system |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
CN107025465A (zh) * | 2017-04-22 | 2017-08-08 | 黑龙江科技大学 | 光缆传输煤矿井下求救信号重构方法和装置 |
JP2018191145A (ja) * | 2017-05-08 | 2018-11-29 | オリンパス株式会社 | 収音装置、収音方法、収音プログラム及びディクテーション方法 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
GB2562518A (en) * | 2017-05-18 | 2018-11-21 | Nokia Technologies Oy | Spatial audio processing |
CN111512646B (zh) * | 2017-09-12 | 2021-09-07 | 维思博Ai公司 | 低延迟音频增强的方法和设备 |
WO2019084214A1 (en) | 2017-10-24 | 2019-05-02 | Whisper.Ai, Inc. | AUDIO SEPARATION AND RECOMBINATION FOR INTELLIGIBILITY AND COMFORT |
US10839822B2 (en) * | 2017-11-06 | 2020-11-17 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
CN108198569B (zh) * | 2017-12-28 | 2021-07-16 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10957337B2 (en) | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
DE102018220722A1 (de) * | 2018-10-31 | 2020-04-30 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Verarbeiten von komprimierten Daten |
US11277685B1 (en) * | 2018-11-05 | 2022-03-15 | Amazon Technologies, Inc. | Cascaded adaptive interference cancellation algorithms |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US12014710B2 (en) | 2019-01-14 | 2024-06-18 | Sony Group Corporation | Device, method and computer program for blind source separation and remixing |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11170760B2 (en) * | 2019-06-21 | 2021-11-09 | Robert Bosch Gmbh | Detecting speech activity in real-time in audio signal |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060058983A1 (en) * | 2003-09-02 | 2006-03-16 | Nippon Telegraph And Telephone Corporation | Signal separation method, signal separation device, signal separation program and recording medium |
US20070257840A1 (en) * | 2006-05-02 | 2007-11-08 | Song Wang | Enhancement techniques for blind source separation (bss) |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1335003C (en) | 1988-03-11 | 1995-03-28 | Daniel Kenneth Freeman | Voice activity detection |
US5276779A (en) * | 1991-04-01 | 1994-01-04 | Eastman Kodak Company | Method for the reproduction of color images based on viewer adaption |
IL101556A (en) | 1992-04-10 | 1996-08-04 | Univ Ramot | Multi-channel signal separation using cross-polyspectra |
US5825671A (en) | 1994-03-16 | 1998-10-20 | U.S. Philips Corporation | Signal-source characterization system |
SE502888C2 (sv) * | 1994-06-14 | 1996-02-12 | Volvo Ab | Adaptiv mikrofonanordning och förfarande för adaptering till en inkommande målbrussignal |
JP2758846B2 (ja) | 1995-02-27 | 1998-05-28 | 埼玉日本電気株式会社 | ノイズキャンセラ装置 |
US5694474A (en) | 1995-09-18 | 1997-12-02 | Interval Research Corporation | Adaptive filter for signal processing and method therefor |
FI100840B (fi) | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US5774849A (en) | 1996-01-22 | 1998-06-30 | Rockwell International Corporation | Method and apparatus for generating frame voicing decisions of an incoming speech signal |
JP3505085B2 (ja) | 1998-04-14 | 2004-03-08 | アルパイン株式会社 | オーディオ装置 |
US6526148B1 (en) | 1999-05-18 | 2003-02-25 | Siemens Corporate Research, Inc. | Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals |
US6694020B1 (en) | 1999-09-14 | 2004-02-17 | Agere Systems, Inc. | Frequency domain stereophonic acoustic echo canceller utilizing non-linear transformations |
US6424960B1 (en) | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
US20020172376A1 (en) | 1999-11-29 | 2002-11-21 | Bizjak Karl M. | Output processing system and method |
AU2000251208A1 (en) | 2000-06-05 | 2001-12-17 | Nanyang Technological University | Adaptive directional noise cancelling microphone system |
US20030179888A1 (en) | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
KR100394840B1 (ko) | 2000-11-30 | 2003-08-19 | 한국과학기술원 | 독립 성분 분석을 이용한 능동 잡음 제거방법 |
US7941313B2 (en) | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
JP3364487B2 (ja) | 2001-06-25 | 2003-01-08 | 隆義 山本 | 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体 |
GB0204548D0 (en) | 2002-02-27 | 2002-04-10 | Qinetiq Ltd | Blind signal separation |
US6904146B2 (en) | 2002-05-03 | 2005-06-07 | Acoustic Technology, Inc. | Full duplex echo cancelling circuit |
JP3682032B2 (ja) | 2002-05-13 | 2005-08-10 | 株式会社ダイマジック | オーディオ装置並びにその再生用プログラム |
US7082204B2 (en) | 2002-07-15 | 2006-07-25 | Sony Ericsson Mobile Communications Ab | Electronic devices, methods of operating the same, and computer program products for detecting noise in a signal based on a combination of spatial correlation and time correlation |
US7359504B1 (en) | 2002-12-03 | 2008-04-15 | Plantronics, Inc. | Method and apparatus for reducing echo and noise |
EP1570464A4 (en) | 2002-12-11 | 2006-01-18 | Softmax Inc | SYSTEM AND METHOD FOR LANGUAGE PROCESSING USING AN INDEPENDENT COMPONENT ANALYSIS UNDER STABILITY RESTRICTIONS |
JP2004274683A (ja) | 2003-03-12 | 2004-09-30 | Matsushita Electric Ind Co Ltd | エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体 |
US7099821B2 (en) | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
GB0321722D0 (en) | 2003-09-16 | 2003-10-15 | Mitel Networks Corp | A method for optimal microphone array design under uniform acoustic coupling constraints |
SG119199A1 (en) | 2003-09-30 | 2006-02-28 | Stmicroelectronics Asia Pacfic | Voice activity detector |
JP2005227512A (ja) | 2004-02-12 | 2005-08-25 | Yamaha Motor Co Ltd | 音信号処理方法及びその装置、音声認識装置並びにプログラム |
DE102004049347A1 (de) | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
WO2006077745A1 (ja) * | 2005-01-20 | 2006-07-27 | Nec Corporation | 信号除去方法、信号除去システムおよび信号除去プログラム |
WO2006131959A1 (ja) | 2005-06-06 | 2006-12-14 | Saga University | 信号分離装置 |
US7464029B2 (en) | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
JP4556875B2 (ja) | 2006-01-18 | 2010-10-06 | ソニー株式会社 | 音声信号分離装置及び方法 |
US7817808B2 (en) | 2007-07-19 | 2010-10-19 | Alon Konchitsky | Dual adaptive structure for speech enhancement |
US8046219B2 (en) * | 2007-10-18 | 2011-10-25 | Motorola Mobility, Inc. | Robust two microphone noise suppression system |
-
2008
- 2008-01-29 US US12/022,037 patent/US8223988B2/en active Active
-
2009
- 2009-01-29 WO PCT/US2009/032414 patent/WO2009097413A1/en active Application Filing
- 2009-01-29 CN CN201610877684.2A patent/CN106887239A/zh active Pending
- 2009-01-29 KR KR1020107019305A patent/KR20100113146A/ko not_active Application Discontinuation
- 2009-01-29 JP JP2010545157A patent/JP2011511321A/ja active Pending
- 2009-01-29 KR KR1020127015663A patent/KR20130035990A/ko not_active Application Discontinuation
- 2009-01-29 EP EP09706217.8A patent/EP2245861B1/en not_active Not-in-force
- 2009-01-29 CN CN2009801013913A patent/CN101904182A/zh active Pending
-
2012
- 2012-11-07 JP JP2012245596A patent/JP5678023B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060058983A1 (en) * | 2003-09-02 | 2006-03-16 | Nippon Telegraph And Telephone Corporation | Signal separation method, signal separation device, signal separation program and recording medium |
US20070257840A1 (en) * | 2006-05-02 | 2007-11-08 | Song Wang | Enhancement techniques for blind source separation (bss) |
Non-Patent Citations (1)
Title |
---|
PAN, QIONGFENG 等: "COMBINED SPATIAL/BEAMFORMING AND TIME/FREQUENCY PROCESSING FOR BLIND SOURCE SEPARATION", 《13.EUROPEAN SIGNAL PROCESSING CONFERENCE》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994120A (zh) * | 2017-12-29 | 2019-07-09 | 福州瑞芯微电子股份有限公司 | 基于双麦的语音增强方法、***、音箱及存储介质 |
CN110675892A (zh) * | 2019-09-24 | 2020-01-10 | 北京地平线机器人技术研发有限公司 | 多位置语音分离方法和装置、存储介质、电子设备 |
CN111863012A (zh) * | 2020-07-31 | 2020-10-30 | 北京小米松果电子有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN112151036A (zh) * | 2020-09-16 | 2020-12-29 | 科大讯飞(苏州)科技有限公司 | 基于多拾音场景的防串音方法、装置以及设备 |
CN113362847A (zh) * | 2021-05-26 | 2021-09-07 | 北京小米移动软件有限公司 | 音频信号处理方法及装置、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5678023B2 (ja) | 2015-02-25 |
EP2245861A1 (en) | 2010-11-03 |
US20090190774A1 (en) | 2009-07-30 |
US8223988B2 (en) | 2012-07-17 |
WO2009097413A1 (en) | 2009-08-06 |
KR20130035990A (ko) | 2013-04-09 |
KR20100113146A (ko) | 2010-10-20 |
CN101904182A (zh) | 2010-12-01 |
EP2245861B1 (en) | 2017-03-22 |
JP2011511321A (ja) | 2011-04-07 |
JP2013070395A (ja) | 2013-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106887239A (zh) | 用于高度相关的混合物的增强型盲源分离算法 | |
US10490204B2 (en) | Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment | |
US10446171B2 (en) | Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments | |
KR101726737B1 (ko) | 다채널 음원 분리 장치 및 그 방법 | |
CN110085248B (zh) | 个人通信中降噪和回波消除时的噪声估计 | |
CN107993670B (zh) | 基于统计模型的麦克风阵列语音增强方法 | |
US8107642B2 (en) | Spatial noise suppression for a microphone array | |
CN110088834B (zh) | 用于语音去混响的多输入多输出(mimo)音频信号处理 | |
US8392184B2 (en) | Filtering of beamformed speech signals | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
US8682006B1 (en) | Noise suppression based on null coherence | |
CN106716526A (zh) | 用于增强声源的方法和装置 | |
CN106663445A (zh) | 声音处理装置、声音处理方法及程序 | |
US9589572B2 (en) | Stepsize determination of adaptive filter for cancelling voice portion by combining open-loop and closed-loop approaches | |
US20090316929A1 (en) | Sound capture system for devices with two microphones | |
Jin et al. | Multi-channel noise reduction for hands-free voice communication on mobile phones | |
WO2020118290A1 (en) | System and method for acoustic localization of multiple sources using spatial pre-filtering | |
CN103999155B (zh) | 音频信号噪声衰减 | |
CN113889135A (zh) | 一种估计声源波达方向的方法、电子设备及芯片*** | |
CN113744752A (zh) | 语音处理方法及装置 | |
Zhao et al. | Closely coupled array processing and model-based compensation for microphone array speech recognition | |
Zhang et al. | Speech enhancement using improved adaptive null-forming in frequency domain with postfilter | |
Nakatani et al. | Robust blind dereverberation of speech signals based on characteristics of short-time speech segments | |
KWON et al. | Microphone array with minimum mean-square error short-time spectral amplitude estimator for speech enhancement | |
Kang et al. | On-line speech enhancement by time-frequency masking under prior knowledge of source location |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170623 |