CN103181190A - 用于远场多源追踪和分离的***、方法、设备和计算机可读媒体 - Google Patents
用于远场多源追踪和分离的***、方法、设备和计算机可读媒体 Download PDFInfo
- Publication number
- CN103181190A CN103181190A CN2011800510507A CN201180051050A CN103181190A CN 103181190 A CN103181190 A CN 103181190A CN 2011800510507 A CN2011800510507 A CN 2011800510507A CN 201180051050 A CN201180051050 A CN 201180051050A CN 103181190 A CN103181190 A CN 103181190A
- Authority
- CN
- China
- Prior art keywords
- coefficients
- value set
- frequency
- response
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 94
- 238000000926 separation method Methods 0.000 title abstract description 26
- 230000004044 response Effects 0.000 claims abstract description 132
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 description 64
- 238000010586 diagram Methods 0.000 description 43
- 239000000243 solution Substances 0.000 description 22
- 238000001914 filtration Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 18
- 101100401568 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MIC10 gene Proteins 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 16
- 230000008859 change Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 10
- 230000004913 activation Effects 0.000 description 9
- 238000003491 array Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 230000001747 exhibiting effect Effects 0.000 description 6
- 238000012880 independent component analysis Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 101001043818 Mus musculus Interleukin-31 receptor subunit alpha Proteins 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 101000608720 Helianthus annuus 10 kDa late embryogenesis abundant protein Proteins 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012958 reprocessing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 239000003855 balanced salt solution Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000465 moulding Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002285 radioactive effect Effects 0.000 description 2
- 239000000700 radioactive tracer Substances 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 1
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 244000105624 Arachis hypogaea Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101100229939 Mus musculus Gpsm1 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000003319 supportive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
一种用于多信道信号处理的设备通过以下操作来分离来自不同声源的信号分量:用所估计源方向上的波束来初始化分离滤波器组;在指定约束下调适所述分离滤波器组;以及基于相对于方向的最大响应来正规化经调适解决方案。此设备可用以分离来自在麦克风阵列的远场中彼此靠近的源的信号分量。
Description
根据35U.S.C.§119主张优先权
本专利申请案主张2010年10月22日申请的题为“用于远场多源追踪和分离的***、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR FAR-FIELD MULTI-SOURCE TRACKING ANDSEPARATION)”的第61/405,922号临时申请案的优先权,且所述临时申请案转让给本案受让人。
技术领域
本发明涉及音频信号处理。
背景技术
发明内容
根据一般配置的用于处理多信道信号的设备包含滤波器组,其具有(A)第一滤波器,其经配置以将多个第一系数应用到基于所述多信道信号的第一信号以产生第一输出信号,以及(B)第二滤波器,其经配置以将多个第二系数应用到基于所述多信道信号的第二信号以产生第二输出信号。此设备还包含滤波器定向模块,其经配置以产生基于第一源方向的所述多个第一系数的初始值集合,以及产生基于不同于所述第一源方向的第二源方向的所述多个第二系数的初始值集合。此设备还包含滤波器更新模块,其经配置以基于多个响应而确定具有指定性质的响应,且基于具有所述指定性质的所述响应而更新所述多个第一系数的所述初始值集合。在此设备中,所述多个响应中的每一响应为多个方向中的对应方向上的响应。
附图说明
图1A展示根据一般配置的设备A100的框图。
图1B展示包含麦克风阵列R100和设备A100的例子的装置D10的框图。
图1C说明从点源j接收的信号分量相对于阵列R100的麦克风MC10和MC20的轴线的波达方向θj。
图2展示设备A100的实施A110的框图。
图3A展示MVDR波束图的实例。
图3B和3C展示图3A的波束图在两个不同初始条件集合下的变化。
图4展示针对以下情况之一组四个BSS滤波器的实例:其中两个定向源位于距阵列二点五米处且相对于阵列彼此相隔约四十到六十度。
图5展示针对以下情况之一组四个BSS滤波器的实例:其中两个定向源位于距阵列二点五米处且相对于阵列彼此相隔约十五度。
图6展示从另一角度看的经BSS调适的波束图的实例。
图7A展示滤波器更新模块UM10的实施UM20的框图。
图7B展示滤波器更新模块UM20的实施UM22的框图。
图8展示在通过受约束BSS调适之前(顶部曲线图)和之后(底部曲线图)的两个源滤波器的实例。
图9展示在通过受约束BSS调适之前(顶部曲线图)和之后(底部曲线图)的两个源滤波器的另一实例。
图10展示部分调适之前(顶部曲线图)和之后(底部曲线图)的波束图的实例。
图11A展示滤波器组BK10的前馈实施BK20的框图。
图11B展示前馈滤波器FF10A的实施FF12A的框图。
图11C展示前馈滤波器FF10B的实施FF12B的框图。
图12展示FIR滤波器FIR10的框图。
图13展示前馈滤波器FF12A的实施FF14A的框图。
图14展示设备A100的实施A200的框图。
图15A展示具有相机CM10的阵列R100的四-麦克风实施R104的布置的一个实例的俯视图。
图15B展示用于波达方向的估计的远场模型。
图16展示设备A100的实施A120的框图。
图17展示设备A120和A200的实施A220的框图。
图18展示由于使用SRP-PHAT用于DOA估计而产生的直方图的实例。
图19展示针对使用IVA调适规则(40-60度的源分离)而调适的反混合矩阵的不同输出信道的一组四个直方图的实例。
图20展示针对使用IVA调适规则(15度的源分离)而调适的反混合矩阵的不同输出信道的一组四个直方图的实例。
图21展示固定在不同阵列端射方向上的四-信道***的滤波器的波束图的实例。
图22展示设备A110的实施A140的框图。
图23展示根据一般配置的处理多信道信号的方法M100的流程图。
图24展示用于方法M100的实施M120的流程图。
图25A展示根据另一一般配置的用于处理多信道信号的设备MF100的框图。
图25B展示设备MF100的实施MF120的框图。
图26A-26C展示来自所得阵列的麦克风间距和波束图的实例。
图27A展示典型单向麦克风响应的图。
图27B展示单向麦克风的非均匀线性阵列的图。
图28A展示阵列R100的实施R200的框图。
图28B展示阵列R200的实施R210的框图。
图29A展示为装置D10的实施的通信装置D20的框图。
图29B展示为装置D10的实施的通信装置D30的框图。
图30A-D展示装置D10的会议实施的若干实例的俯视图。
图31A展示装置D10的实施DS10的框图。
图31B展示装置D10的实施DS20的框图。
图32A和32B展示针对音频感测装置D10的实施的远场使用情况的实例。
图33展示手机H100的前视图、后视图和侧视图。
应注意,图3A-3C、4、5、8-10和21以及图26A-26C中的曲线图是仅呈现原始图中显示的信息的部分的伪彩色图的灰度级映射。在这些图中,原始中间级值映射为白色,且原始最小值和最大值均映射为黑色。
具体实施方式
用于波束形成的数据独立方法一般可用于多信道信号处理中,以基于不同源的方向估计来分离从相应源(例如,从所要的源以及从干扰源)波达的声音分量。然而,源方向估计和波束形成的现有方法通常不足以可靠分离从远距源波达的声音分量,尤其针对所要信号和干扰信号从类似方向波达的情况。可能需要使用基于来自空间滤波操作的实际分离输出的信息的自适应解决方案,而非仅使用开环波束形成解决方案。遗憾地是,提供足够鉴别等级的自适应解决方案可能具有长的收敛周期。具有长的收敛周期的解决方案可能对于涉及远距声音源的实时应用是不实际的,所述声音源可能处于运动中及/或彼此紧密接近。
来自远距源的信号也更有可能遭受混响,且自适应算法可能将额外混响引入到分离信号中。现有话音去混响方法包含反向滤波,其试图在不使源信号(例如,话音)的频谱白化的情况下使房间脉冲响应反向。然而,房间转移函数高度取决于源位置。因此,此类方法通常需要房间脉冲转移函数的盲反向,其可导致实质的话音失真。
可能需要提供一种用于去混响和/或干扰消除的***,所述***可用以(例如)改进在房间内及/或在存在干扰源的情况下使用的装置的话音质量。此***的应用实例包含经配置以支持语音通信应用的机顶盒或其它装置(例如电话)。可预期如本文所述的解决方案优于竞争性解决方案的性能优点随着所要源与干扰源的方向之间的差异变得较小而增加。
除非由术语上下文明确地限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包含如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非由术语上下文明确地限制,否则本文中使用术语“产生”来指示其普通意义中的任一者,例如运算或以其它方式产生。除非由术语上下文明确地限制,否则本文中使用术语“计算”来指示其普通意义中的任一者,例如运算、评估、平滑和/或从多个值中进行选择。除非由术语上下文明确地限制,否则使用术语“获得”来指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非由术语上下文明确地限制,否则术语“选择”用来指示其普通意义中的任一者,例如识别、指示、应用和/或使用两个或两个以上的集合中的至少一者以及少于全部。在术语“包括”用于本描述和权利要求书中的情况下,其不排除其它元件或操作。术语“基于”(如在“A基于B”中)用来指示其普通意义中的任一者,包含以下情况:(i)“从---导出”(例如,“B是A的前驱物”),(ii“至少基于”(例如,“A至少基于B”)以及,(在特定上下文中适当的情况下),(iii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用来指示其普通意义中的任一者,包含“至少响应于”。
除非上下文另外指示,否则对多麦克风音频感测装置的麦克风的“位置”的参考指示麦克风的声学敏感面的中心位置。根据特定上下文,有时使用术语“信道”来指示信号路径且有时指示此路径所携载的信号。除非另外指示,否则术语“系列”用来指示一序列两个或两个以上项目。术语“对数”用来指示基数为十的对数,但此运算到其它基数的扩展也在本发明的范围内。术语“频率分量”用来指示信号的频率或频带的集合中的一者,例如信号的频域表示的样本(例如,如通过快速傅立叶变换产生)或信号的子带(例如,巴克(Bark)级或梅尔(mel)级子带)。
除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。术语“配置”可用来参考如由其特定上下文指示的方法、设备和/或***。除非由特定上下文另外指示,否则一般地且互换地使用术语“方法”、“过程”、“程序”和“技术”。除非由特定上下文另外指示,否则还一般地且互换地使用术语“设备”和“装置”。术语“元件”和“模块”通常用来指示较大配置的一部分。除非由术语上下文明确地限制,否则本文中使用术语“***”来指示其普通意义中的任一者,包含“交互以服务共同目的的元件群组”。通过引用文档的一部分而进行的任何并入还应理解为并有所述部分内引用的术语或变量的定义(其中此类定义出现在文档的其它处)以及在所并入部分中引用的任何图。除非由定冠词最初引入,否则用来修饰技术方案元件的序数术语(例如,“第一”、“第二”、“第三”等)并不独自指示所述技术方案元件相对于另一者的任何优先权或次序,而是仅区别所述技术方案元件与具有相同名称的另一技术方案元件(若非使用序数术语)。除非由术语上下文明确地限制,否则本文中使用术语“多个”来指示大于一的整数数量。
用于远场音频处理的应用(例如,话音增强)可在一个或一个以上声源位于距声音记录装置较大距离处(例如,两米或两米以上的距离)时出现。在涉及电视显示器的许多应用中,例如坐在长椅上或正执行活动(例如观看电视、玩视频游戏、与音乐视频游戏交互等)的人类说话者通常位于远离显示器至少两米处。
在远场使用情况的第一实例中,将包含若干不同声源的声学场景的记录分解而获得来自个别源中的一者或一者以上的相应声音分量。举例来说,可能需要记录现场音乐性能而使得来自不同源(例如,不同语音及/或乐器)的声音经分离。在另一此实例中,可能需要在来自视频游戏(例如“摇滚乐团”类型的视频游戏)的两个或两个以上不同播放器的语音输入(例如,命令和/或振鸣)之间进行区分。
在远场使用情况的第二实例中,使用多麦克风装置来通过使声学视场变窄而执行远场话音增强(也称作“放大麦克风”)。举例来说,通过相机观看场景的用户可使用相机的镜头变焦功能来选择性地将视觉视场变焦到个别扬声器或其它声源。可能需要实施所述相机而使得经记录的声学区也对于选定的源变窄(与视觉变焦操作同步),从而产生互补的声学“放大”效应。
在远场使用情况的第三实例中,具有安装在电视机或机顶盒上或电视机或机顶盒中(例如,沿着屏幕的顶部边缘)的麦克风阵列的声音记录***经配置以区分彼此靠近坐在约两米或三米远的长椅上的诸多用户(例如,如图32A和32B所示)。举例来说,可能需要分离并肩坐着的说话者的语音。此操作可经设计以产生说话者站在收听者前方的声讯印象(与散射在房间中的声音相对比)。用于此使用情况的应用包含电话和语音激活的远程控制(例如,用于在电视频道、视频源和/或音量控制设置中进行语音控制的选择)。
远场话音增强应用呈现了独特的挑战。在这些远场使用情况下,诸多源与换能器之间的增加的距离倾向于在记录信号中导致强的混响,尤其在办公室中、家中或车辆内部中、或另一封闭空间中。源位置不确定性还促进了对针对远场应用的特定稳健解决方案的需要。由于所要扬声器与麦克风之间的距离较大,所以直接路径与混响比率较小且源位置难以确定。还可能需要在远场使用情况中执行额外话音频谱塑形(例如低频格式合成和/或高频提升),从而抵销例如房间低通滤波效应和低频率中的高混响功率的效应。
鉴别从特定距离源波达的声音分量并不仅仅是使波束图在特定方向上变窄的事。虽然波束图的空间宽度可通过增加滤波器的大小来变窄(例如,通过使用较长的初始系数值集合来定义波束图),但仅依赖于针对源的单一波达方向可能实际上使滤波器遗漏大部分源能量。举例来说,由于例如混响的效应,因此源信号通常以不同频率从稍微不同方向波达,使得针对远距源的波达方向通常未得以良好界定。因此,信号的能量可在一角度范围内展开而非集中在特定方向上,且将针对特定源的波达角度表征为频率范围内的重心而非单一方向上的峰值可能更有用。
可能需要滤波器的波束图涵盖不同频率下诸多方向的集中宽度而非仅单一方向(例如,在任何一个频率下最大能量所指示的方向)。举例来说,可能需要允许波束在不同的对应频率下指向此集中宽度内的稍微不同的方向。
可使用自适应波束形成算法来获得滤波器,其在一个频率下具有特定方向的最大响应且在另一频率下具有不同方向的最大响应。然而,自适应波束形成器(beamformer)通常取决于精确的语音活动检测,此对于远场扬声器是难以实现的。当来自所要源和干扰源的信号具有类似频谱时(例如,当两源两者均是人说话时),此算法也可能不良地执行。作为自适应波束形成器的替代,还可使用盲源分离(BSS)解决方案来获得滤波器,其在一个频率下具有特定方向的最大响应且在另一频率下具有不同方向的最大响应。然而,此算法可能展现慢收敛性、向局部最小值收敛和/或缩放模糊性。
可能需要组合提供良好的初始条件(例如,MVDR波束形成器)的数据独立、开环方法与最小化输出之间的相关性(在不使用语音活动检测器(例如,BSS)的情况下)的闭环方法,从而提供精确的且稳健的分离解决方案。因为BSS方法随时间来执行调适,所以可能预期甚至在混响环境中也产生稳健的解决方案。
与现有BSS初始化方法相对比,现有BSS初始化方法使用零点波束(null beam)来初始化滤波器,如本文描述的解决方案使用源波束来初始化滤波器从而聚焦在指定源方向上。在没有此初始化的情况下,预期BSS方法实时调适有用的解决方案可能是不实际的。
图1A展示根据一般配置的设备A100的框图,设备A100包含滤波器组BK10、滤波器定向模块OM10和滤波器更新模块UM10,且经布置以接收多信道信号(在此实例中,输入信道MCS10-1和MCS10-2)。滤波器组BK10经配置以将多个第一系数应用到基于多信道信号的第一信号,以产生第一输出信号OS10-1。滤波器组BK10还经配置以将多个第二系数应用到基于多信道信号的第二信号,以产生第二输出信号OS10-2。滤波器定向模块OM10经配置以产生基于第一源方向DA10的多个第一系数的初始值集合CV10,以及产生基于不同于第一源方向DA10的第二源方向DA20的多个第二系数的初始值集合CV20。滤波器更新模块UM10经配置以基于来自第一和第二输出信号的信息来更新多个第一和第二系数的初始值集合,从而产生对应的经更新值集合UV10和UV20。
可能需要源方向DA10和DA20中的每一者指示对应声源相对于麦克风阵列的所估计方向(例如,相对于阵列的麦克风的轴线),所述麦克风阵列产生输入信道MCS10-1和MCS10-2。图1B展示包含麦克风阵列R100和设备A100的例子的装置D10的框图,设备A100经布置以从阵列接收多信道信号MCS10(例如,包含输入信道MCS10-1和MCS10-2)。图1C说明从点源j接收的信号分量相对于阵列R100的麦克风MC10和MC20的轴线的波达方向θj。将阵列的轴线定义为通过麦克风的声学敏感面的中心的线。在此实例中,标记d指示麦克风MC10与MC20之间的距离。
滤波器定向模块OM10可经实施以执行波束形成算法,以产生描述相应源方向DA10、DA20中的波束的初始系数值集合CV10、CV20。波束形成算法的实例包含DSB(延迟求和波束形成器)、LCMV(线性约束最小方差)和MVDR(最小方差无失真响应)。在一个实例中,滤波器定向模块OM10经实施以根据例如以下表达式的数据独立表达式来计算波束形成器的N×M系数矩阵W,使得每一滤波器在其它源方向上具有零响应(或零点波束):
W(ω)=DH(ω,θ)[D(ω,θ)DH(ω,θ)+r(ω)×I]-1,
其中r(ω)是补偿不可逆性的正则项。在另一实例中,滤波器定向模块OM10经实施以根据例如以下表达式的表达式来计算MVDR波束形成器的N×M系数矩阵W:
在这些实例中,N指示输出信道数目,M指示输入信道数目(例如,麦克风数目),Φ指示噪声的正规化交叉功率谱密度矩阵,D(ω)指示M×N阵列流形矩阵(也称作方向性矩阵),且上标H指示共轭转置函数。M通常大于或等于N。
系数矩阵W的每一行界定滤波器组BK10的对应滤波器的系数的初始值。在一个实例中,系数矩阵W的第一行界定初始值CV10,且系数矩阵W的第二行界定初始值CV20。在另一实例中,系数矩阵W的第一行界定初始值CV20,且系数矩阵W的第二行界定初始值CV10。
矩阵D的每一列j是远场源j随频率ω而变的方向性向量(或“导引向量”),其可表达为:
Dmj(ω)=exp(-i×cos(θj)×pos(m)×ω/c)。
在这个表达式中,i指示虚数,c指示声音在介质中的传播速度(例如,在空气中为340m/s),θj指示源j相对于麦克风阵列的轴线的方向(例如,j=1时是方向DA10,且j=2时是方向DA20)为如图1C中所示的入射波达角度,且pos(m)指示M个麦克风的阵列中第m麦克风的空间坐标。对于具有均匀麦克风间间距d的线性麦克风阵列,因子pos(m)可表达为(m-1)d。
对于漫射噪声场,可使用例如以下函数的相干函数Г来替换矩阵Φ
其中dij指示麦克风i与j之间的距离。在另一实例中,用(Г+λ(ω)l)来替换矩阵Φ,其中λ(ω)是对角加载因子(例如,用于稳定性)。
通常,滤波器组BK10的输出信道数目N小于或等于输入信道数目M。尽管图1A展示设备A100的实施,其中N的值是二(即,具有两输出信道OS10-1和OS10-2),但应理解,N和M可具有大于二的值(例如,三、四或更多)。在此一般情况下,滤波器组BK10经实施以包含N个滤波器,且滤波器定向模块OM10经实施以产生针对这些滤波器的初始系数值的N个对应集合,且明确预料且特此揭示这些原理的此扩展。
举例来说,图2展示设备A100的实施A110的框图,其中N和M两者的值是四。设备A110包含滤波器组BK10(其包含四个滤波器)的实施BK12,每一滤波器经布置以过滤输入信道MCS10-1、MCS10-2、MCS10-3和MCS10-4中的相应输入信道,以产生输出信号(或信道)OS10-1、OS10-2、OS10-3和OS10-4中的对应输出信号(或信道)。设备A100还包含:滤波器定向模块OM10的实施OM12,其经配置以产生滤波器组BK12的滤波器的初始系数值集合CV10、CV20、CV30和CV40;以及滤波器调适模块AM10的实施AM12,其经配置以调适初始系数值集合,从而产生对应经更新值集合UV10、UV20、UV30和UV40。
图3A展示针对以下情况的在频率区间对入射角(也称作“波束图”)方面的滤波器组BK10的滤波器的初始响应的曲线图:其中由滤波器定向模块OM10根据MVDR波束形成算法(例如,上文表达式(1))产生滤波器的系数值。可见此响应关于入射角零(例如,麦克风阵列的轴线方向)是对称的。图3B和3C展示此波束图在两个不同初始条件集合下的变化(例如,来自所要源的声音和来自干扰源的声音的不同的所估计波达方向集合)。在这些图中,分别用黑色指示高低增益响应振幅(例如,波束和零点波束),用白色指示中等范围增益响应振幅,且用粗体实心虚线指示波束和零点波束的近似方向。
可能需要实施滤波器定向模块OM10以根据波束形成器设计来产生系数值CV10和CV20,所述波束形成器设计是根据被视为适于特定应用的方向性与旁瓣产生之间的折衷而进行选择。尽管上文实例描述频域波束形成器设计,但仍明确预料且特此揭示经配置以根据时域波束形成器设计来产生系数值集合的滤波器定向模块OM10的替代实施。
滤波器定向模块OM10可经实施以产生系数值CV10和CV20(例如,通过执行如上文所述的波束形成算法)或从存储器检索系数值CV10和CV20。举例来说,滤波器定向模块OM10可经实施以通过根据源方向(例如,DA10和DA20)从预先计算的值集合(例如,波束)中进行选择而产生初始系数值集合。可离线计算此类预先计算的系数值集合以按对应的所要分辨率来涵盖方向和/或频率的所要范围(例如,针对在从零、二十或三十度到150、160或180度的范围中的五、十或二十度的每一间隔的不同系数值集合)。
如由滤波器定向模块OM10产生的初始系数值(例如,CV10和CV20)可能不足以配置滤波器组BK10而提供源信号之间的所要分离等级。即使在这些初始值所基于的所估计源方向(例如,方向DA10和DA20)优选准确的情况下,仅仅将滤波器导引向某一方向无法提供远离阵列的诸多源之间的最佳分离或于特定远距源上的最佳聚焦。
滤波器更新模块UM10经配置以基于来自第一和第二输出信号OS10-1和OS10-2的信息来更新第一和第二系数CV10和CV20的初始值,从而产生对应的经更新值集合UV10和UV20。举例来说,滤波器更新模块UM10可经实施以执行自适应BSS算法来调适通过这些初始系数值描述的波束图。
BSS方法根据例如Yj(ω,l)=W(ω)Xj(ω,l)的表达式来分离来自不同源的统计独立的信号分量,其中Xj指示频域中输入(混频)信号的第j信道,Yj指示频域中输出(分离)信号的第j信道,ω指示频率区间索引,l指示时间帧索引,且W指示滤波器系数矩阵。一般来说,可将BSS方法描述为根据例如以下表达式的表达式的随着反混合矩阵W的时间而变的调适:
Wl+r(ω)=Wl(ω)+μ[I-<Φ(Y(ω,l))Y(ω,l)H>]Wl(ω), (2)
其中r指示调适间隔(或更新速率)参数,μ指示调适速度(或学***均运算(例如,在帧l到l+L-1内,其中L通常小于或等于r)。在一个实例中,μ的值是0.1。表达式(2)还称作BSS学习规则或BSS调适规则。激活函数Φ通常是非线性有界函数,其可经选择以近似于所要信号的累积密度函数。可在此方法中使用的激活函数Φ的实例包含双曲正切函数、S形函数和正负号函数。
滤波器更新模块UM10可经实施以根据如本文所述的BSS方法来调适由滤波器定向模块OM10产生的系数值(例如,CV10和CV20)。在此情况下,输出信号OS10-1和OS10-2是频域信号Y的信道(例如,分别是第一和第二信道);系数值CV10和CV20是反混合矩阵W的对应行(例如,分别是第一和第二行)的初始值;且经调适值是由反混合矩阵W的对应行(例如,分别是第一和第二行)在调适后界定。
在用于频域中的调适的滤波器更新模块UM10的典型实施中,反混合矩阵W是有限脉冲响应(FIR)多项式矩阵。此矩阵具有作为元素的FIR滤波器的频率变换(例如,离散傅立叶变换)。在用于时域中的调适的滤波器更新模块UM10的典型实施中,反混合矩阵W是FIR矩阵。此矩阵具有作为元素的FIR滤波器。将理解,在此类情况下,每一初始系数值集合(例如,CV10和CV20)通常将描述多个滤波器。举例来说,每一初始系数值集合可描述针对反混合矩阵W的对应行的每一元素的滤波器。对于频域实施,针对多信道信号的每一频率区间,每一初始系数值集合可描述针对反混合矩阵W的对应行的每一元素的滤波器的变换。
BSS学习规则通常经设计以减少输出信号之间的相关性。举例来说,BSS学习规则可经选择以最小化输出信号之间的互信息,增加输出信号的统计独立性,或最大化输出信号的熵。在一个实例中,滤波器更新模块UM10经实施以执行称为独立分量分析(ICA)的BSS方法。在此情况下,滤波器更新模块UM10可经配置以使用如上文描述的激活函数或(例如)激活函数Φ(Yj(ω,l))=Yj(ω,l)/|Yj(ω,l)|。众所周知的ICA实施的实例包含Infomax、FastICA(在www-dot-cis-dot-hut-dot-fi/projects/ica/fastica处在线可用)和JADE(本征矩阵的联合近似对角化)。
缩放和频率排列是通常在BSS中遭遇的两种模糊性。尽管由滤波器定向模块OM10产生的初始波束未经排列,但此模糊性可能在ICA的情况下在调适期间出现。为了保留未经排列解决方案,可能需要改为配置滤波器更新模块UM10以使用独立向量分析(IVA),其是复杂ICA的变体,其在使用源之前对频率区间中的预期相依性进行建模。在此方法中,激活函数Φ是多元激活函数,例如Φ(Yj(ω,l))=Yj(ω,l)/(Σω|Yj(ω,l)|p)1/p,其中p具有大于或等于一的整数值(例如,1、2或3)。在此函数中,分母中的项涉及在所有频率区间上的经分离的源频谱。在此情况下,排列模糊性得以解决。
由所得经调适系数值界定的波束图可显现为回旋状而非直线的。可预期此类图提供比由初始系数值CV10和CV20界定的波束图更佳的分离,后者通常不足以用于远距源的分离。举例来说,已观测到从10-12dB到18-20dB的干扰消除的增加。还可预期由经调适系数值表示的解决方案比开环波束形成解决方案对于麦克风响应(例如,增益及/或相位响应)中的失配更稳健。
图4展示滤波器组BK12的一个实例中的四个滤波器中的每一者的波束图(例如,如通过由滤波器更新模块UM10通过分别调适系数值集合CV10、CV20、CV30和CV40而获得的值所界定)。在此情况下,两个定向源位于距阵列二点五米处且相对于阵列彼此相隔约四十到六十度。图5展示针对以下另一情况的这些滤波器的波束图:其中两个定向源位于距阵列二点五米处且相对于阵列彼此相隔约十五度。在这些图中,分别用黑色指示高低增益响应振幅(例如,波束和零点波束),用白色指示中等范围增益响应振幅,且用粗体实心虚线指示波束和零点波束的近似方向。图6展示从另一角度看针对滤波器组BK10的两-信道实施中的经调适滤波器中的一者的波束图的实例。
尽管上文实例描述频域中的滤波器调适,但仍明确预料且特此揭示经配置以在时域中更新系数值集合的滤波器更新模块UM10的替代实施。时域BSS方法对于排列模糊性免疫,但其通常涉及使用比频域BSS方法长的滤波器且可能在实践中不实用。
虽然使用BSS方法调适的滤波器大体上实现良好的分离,但此算法也倾向于将额外混响引入到经分离信号中,尤其对于远距源来说。可能需要通过添加几何约束以在特定波达方向上强制执行单位增益来控制经调适BSS解决方案的空间响应。然而,如上所述,相对于单一波达方向定制滤波器响应在混响环境中可能是不足的。此外,试图在BSS调适中强制执行波束方向(与零点波束方向相对比)可能引起问题。
滤波器更新模块UM10经配置以基于经调适值集合相对于方向的所确定响应来调整多个第一系数的经调适值集合和多个第二系数的经调适值集合中的至少一者。此所确定响应是基于具有指定性质的响应且可在不同频率下具有不同的值。在一个实例中,所确定响应是最大响应(例如,指定性质是最大值)。举例来说,对于将进行调整的每一系数集合j且在将进行调整的范围内的每一频率ω下,可根据例如以下表达式的表达式将此最大响应Rj(ω)表达为所述频率下经调适集合的多个响应中的最大值
其中W是经调适值矩阵(例如,FIR多项式矩阵),Wjm指示矩阵W在行j和列m处的元素,且列向量Dθ(ω)的每一元素m指示针对在方向θ从远场源接收的信号在频率ω下的相位延迟,其可表达为:
Dθm(ω)=exp(-i×cos(θ)×pos(m)×ω/c)。
在另一实例中,所确定响应是最小响应(例如,在每一频率下经调适集合的多个响应中的最小值)。
在一个实例中,求表达式(3)的值而得到在范围[-π,+π]中的θ的六十四个均匀隔开的值。在其他实例中,可求表达式(3)的值而得到θ的不同数目个值(例如,16或32个均匀隔开的值、以五度或十度递增的值,等等)、非均匀间隔的θ的值(例如,为了在比端射方向范围宽的宽面方向范围内的较大分辨率,或反之亦然),和/或在不同的相关区内的θ的值(例如,[-π,0]、[-π/2,+π/2]、[-π,+π/2])。对于具有均匀麦克风间间距d的线性麦克风阵列,因子pos(m)可表达为(m-1)d,使得向量Dθ(ω)的每一元素m可表达为
Dθm(ω)=exp(-i×cos(θ)×(m-1)d×ω/c)。
可预期表达式(3)具有最大值所针对的方向θ的值针对频率ω的不同值而不同。应注意,源方向(例如,DA10和/或DA20)可包含在θ的诸多值内(求表达式(3)的值而得到所述值),或者源方向可与那些值分离(例如,针对源方向指示介于θ的诸多值(求表达式(3)的值而得到所述值)中的邻近值之间的角度的情况)。
图7A展示滤波器更新模块UM10的实施UM20的框图。滤波器更新模块UM10包含调适模块APM10,其经配置以基于来自输出信号OS10-1和OS10-2的信息而调适系数值CV10和CV20,从而产生对应的经调适值集合AV10和AV20。举例来说,调适模块APM10可经实施以执行本文所述的BSS方法中的任一者(例如,ICA、IVA)。
滤波器更新模块UM20还包含调整模块AJM10,其经配置以基于经调适值集合AV10相对于方向的最大响应(例如,根据上述表达式(3))而调整经调适值AV10,从而产生经更新值集合UV10。在此情况下,滤波器更新模块UM20经配置以在没有此调整的情况下产生经调适值AV20作为经更新值UV20。(应注意,本文所揭示的配置范围还包含不同于设备A100的设备,其不同之处在于既不调适也不调整系数值CV20。举例来说,可在信号从对应源经由具有很少或没有混响的直接路径而波达的情境中使用此布置。)
调整模块AJM10可经实施以通过正规化经调适值集合以相对于方向而具有在每一频率中的所要增益响应(例如,在最大值处的单位增益响应)而调整所述集合。在此情况下,调整模块AJM10可经实施以将经调适系数值集合j的每一值(例如,经调适值AV10)除以所述集合的最大响应Rj(ω)来获得对应的经更新系数值集合(例如,经更新值UV10)。
对于所要增益响应不同于单位增益响应的情况,调整模块AJM10可经实施而使得调整操作包含将增益因子应用到经调适值和/或经正规化值,其中增益因子值的值随频率变化以描述所要增益响应(例如,为了促进源的音调频率的谐波和/或为了衰减可能受干扰源支配的一个或一个以上频率)。对于所确定响应是最小响应的情况,调整模块AJM10可经实施以通过以下操作来调整经调适集合:通过减去最小响应(例如,在每一频率下),或通过重新映射所述集合以相对于方向而具有在每一频率中的所要增益响应(例如,在最小值处的为零的增益响应)。
可能需要实施调整模块AJM10以针对系数值集合中的一者以上及可能全部而执行此正规化(例如,针对至少已经与局部源相关联的滤波器)。图7B展示包含调整模块AJM10的实施AJM12的滤波器更新模块UM20的实施UM22的框图,调整模块AJM10也经配置以基于经调适值集合AV20相对于方向的最大响应而调整经调适值AV20,从而产生经更新值集合UV20。
应理解,此相应调整可以相同方式扩展到额外经调适滤波器(例如,扩展到经调适矩阵W的其它行)。举例来说,如图2中所示的滤波器更新模块UM12可配置为滤波器更新模块UM22的实施从而包含:调适模块APM10的实施,其经配置以调适四个系数值集合CV10、CV20、CV30和CV40以产生四个对应的经调适值集合;以及调整模块AJM12的实施,其经配置以基于对应的经调适值集合的最大响应来产生经更新值集合UV30和UV40中的一者或两者中的每一者。
传统音频处理解决方案可包含噪声参考的计算以及应用所计算噪声参考的后处理步骤。如本文所述的自适应解决方案可经实施以较少依赖于后处理且较多依赖于滤波器调适,从而通过消除干扰点源来改进干扰消除和去混响。混响可被视为转移函数(例如,房间响应转移函数),其具有随着频率变化的增益响应,其衰减一些频率分量且放大其它频率分量。举例来说,房间几何形状可能影响信号在不同频率下的相对强度,从而引起一些频率起支配作用。通过约束滤波器以在方向上具有在频率之间变化的所要增益响应(即,在每一频率下的主波束方向上),如本文描述的正规化操作可通过补偿度数差异而有助于对信号去混响,所述度数是信号能量在不同频率下在空间中展开的度数。
为了实现最佳分离和去混响结果,可能需要配置滤波器组BK10的滤波器以具有空间响应,所述空间响应使从某波达角度范围内的源波达的能量通过而阻挡以其他角度从干扰源波达的能量。如本文所述,可能需要配置滤波器更新模块UM10以使用BSS调适来允许滤波器找到接近初始解决方案的较好解决方案。然而,在不约束于保持指向所要源的主波束的情况下,滤波器调适可允许来自类似方向的干扰源侵蚀主波束(例如,通过产生宽的零点波束以从干扰源移除能量)。
滤波器更新模块UM10可经配置以经由受约束BSS而使用自适应零点波束形成,从而防止与源定位解决方案的大的偏差,同时允许小的定位误差的校正。然而,还可能需要对滤波器更新规则强制执行空间约束,其防止滤波器将方向改变到不同的源。举例来说,可能需要使调适滤波器的过程在干扰源的波达方向上包含零点约束。可能需要此约束以防止波束图将其定向改变到低频中的所述干扰方向。
可能需要实施滤波器更新模块UM10(例如,实施调适模块APM10)以通过在调适过程中包含一个或一个以上几何约束而使用受约束BSS方法。此约束(也称作空间或方向约束)抑制调适过程改变波束图中指定波束或零点波束的方向。举例来说,可能需要实施滤波器更新模块UM10(例如,实施调适模块APM10)以强加基于方向DA10和/或方向DA20的空间约束。
在受约束BSS调适的一个实例中,滤波器调适模块AM10经配置以通过添加基于方向性矩阵D(ω)的正则项J(ω)而在源方向波束和/或零点波束上强制执行几何约束。此项可表达为最小平方准则,例如J(ω)=||W(ω)D(ω)-C(ω)||2,其中||·||2指示弗罗贝纽斯(Frobenius)范数,且C(ω)是设置所要波束图的选择的M×M对角矩阵。
可能需要空间约束仅对零点波束强制执行,因为试图同样对源波束强制执行可能对滤波器调适过程引起问题。在一个此情况下,约束矩阵C(ω)等于diag(W(ω)D(ω)),使得在每一源滤波器的干扰方向上强制执行零点。此类约束通过在其它滤波器的源方向上强制执行零点波束来保持滤波器的主波束(例如,通过相对于滤波器在主波束方向上的响应而衰减滤波器在其它源方向上的响应),其防止滤波器调适过程将所要源的能量置于任何其它滤波器中。空间约束还抑制每一滤波器切换到另一源。
还可能需要正则项J(ω)包含调谐因子S(ω),其可针对每一频率ω而调谐以根据学***衡对调适的约束的强制执行。在此情况下,正则项可表达为J(ω)=S(ω)||W(ω)D(ω)-C(ω)||2,且可使用例如以下约束的约束来实施:
可通过将对应项添加到滤波器调适规则(如表达式(2)中所示)来将此约束应用到所述规则,如在以下表达式中:
Wconstr.l+r(ω)
=Wl(ω)+μ[I-<Φ(Y(ω,l))Y(ω,l)H>]Wl(ω) (4)
+2S(ω)(Wl(ω)D(ω)-C(ω))D(ω)H。
通过保持初始定向,此空间约束可允许零点波束相对于所要源波束的较积极调谐。举例来说,此调谐可包含使主波束尖锐以实现对干扰源的抑制,所述干扰源的方向非常接近所要源的方向。尽管积极调谐可产生旁瓣,但整体分离性能可由于自适应解决方案利用旁瓣中没有干扰能量的能力而增加。此响应性对于固定波束形成不可用,固定波束形成通常在所分布噪声分量从所有方向波达的假设下操作。
如上所指出,图5展示针对以下情况的滤波器组BK12的实例的经调适滤波器中的每一者的波束图:其中两个定向源位于距麦克风阵列二点五米处且相对于阵列彼此相隔约十五度。此特定解决方案未经正规化且在任何方向上不具有单位增益,是展示宽的零点波束的不受约束BSS解决方案的实例。在俯视图中的每一者中所展示的波束图中,消除两个源中的一者。在仰视图中的每一者中展示的波束图中,由于两个源两者均被阻挡,所以波束特别宽。
图8和9中的每一者展示两个系数值集合的波束图的实例(分别在左右列),其中顶部曲线图展示如由滤波器定向模块OM10产生的滤波器的波束图,且底部曲线图展示在由滤波器更新模块UM10使用如本文所述的几何约束BSS方法(例如,根据上文表达式(4))进行调适后的波束图。图8说明位于距阵列二点五米处且相隔四十到六十度的两个源(人类说话者)的情况,且图9说明位于距阵列二点五米处且相隔十五度的两个源(人类说话者)的情况。在这些图中,分别用黑色指示高低增益响应振幅(例如,波束和零点波束),用白色指示中等范围增益响应振幅,且用粗体实心虚线指示波束和零点波束的近似方向。
可能需要实施滤波器更新模块UM10(例如,实施调适模块APM10)以仅调适BSS反混合矩阵的部分。举例来说,可能需要固定滤波器组BK10的滤波器中的一者或一者以上。此约束可通过防止滤波器调适过程(例如,如上文表达式(2)中所示)改变系数矩阵W的对应行来实施。
在一个实例中,从调适过程的开始应用此约束以便保持对应于每一滤波器的初始系数值集合(例如,如由滤波器定向模块OM10产生)为固定的。举例来说,此实施对于波束图指向静止干扰源的滤波器可以是适当的。在另一实例中,在稍后时间应用此约束以防止经调适系数值集合的进一步调适(例如,在检测到滤波器已收敛后)。举例来说,此实施对于波束图指向稳定混响环境中的静止干扰源的滤波器可以是适当的。应注意,一旦滤波器系数值的正规化集合已固定,调整模块AJM10便不必要执行那些值的调整而所述集合保持固定,即使调整模块AJM10可能继续调整其它系数值集合也是如此(例如,响应于其由调适模块APM10进行的调适)。
或者或另外,可能需要实施滤波器更新模块UM10(例如,实施调适模块APM10)以调适其频率范围的仅一部分内的滤波器中的一者或一者以上。滤波器的此固定可通过不调适对应于所述范围之外的频率的滤波器系数值(例如,对应于上文表达式(2)中的ω的值)而实现。
可能需要调适仅在含有有用信息的频率范围中的滤波器中的一者或一者以上(可能全部)中的每一者,且固定另一频率范围中的滤波器。将要调适的频率范围可基于例如以下因素:扬声器距麦克风阵列的预期距离、麦克风之间的距离(例如,为避免调适在空间滤波将总是(例如)由于空间假频而失败的诸多频率中的滤波器)、房间的几何形状和/或房间内装置的布置。举例来说,输入信号可不含有在特定频率范围(例如,高频范围)内的足够信息,以支持在所述范围内的正确BSS学习。在此情况下,可能需要继续使用没有调适的针对此范围的初始(或其它最近)滤波器系数值。
当源距阵列三到四米或更远时,由所述源发射的非常少的高频能量将到达麦克风是典型的。由于很少信息可在高频范围中可用以适当支持此情况中的滤波器调适,因此可能需要固定高频中的滤波器而仅调适低频中的滤波器。
图10展示两个滤波器在此部分BSS调适之前(顶部曲线图)和之后(底部曲线图)的波束图的实例,此部分BSS调适限于指定低频范围中的滤波器系数值。在此特定情况中,将调适限于140个频率区间中的下部64个频率区间(例如,0到4kHz的范围中的约0到1800Hz的频带,或0到8kHz的范围中的约0到3650Hz的频带)。
另外或替代,关于哪些频率将进行调适的决策可根据例如以下因素而在运行时间期间改变:频带中当前可用的能量的量和/或当前扬声器距麦克风阵列的所估计距离,且所述决策可对于不同滤波器而不同。举例来说,可能需要在一个时间调适频率高达2kHz(或3或5kHz)的滤波器,以及在另一时间调适频率高达4kHz(或5、8或10kHz)的滤波器。应注意,调整模块AJM10不必调整对于特定频率固定且已经得以调整(例如,经正规化)的滤波器系数值,即使调整模块AJM10可能继续调整其它频率的系数值(例如,响应于其由调适模块APM10进行的调适)也是如此。
滤波器组BK10将经更新系数值(例如,UV10和UV20)应用到多信道信号的对应信道。经更新系数值是反混合矩阵W(例如,如由调适模块APM10调适)的对应行在如本文所述的调整(例如,由调整模块AJM10调整)之后的值,不同之处在于此类值已如本文所述为固定的。每一经更新系数值集合通常将描述多个滤波器。举例来说,每一经更新系数值集合可描述针对反混合矩阵W的对应行的每一元素的滤波器。
图11A展示滤波器组BK10的前馈实施BK20的框图。滤波器组BK20包含:第一前馈滤波器FF10A,其经配置以对输入信道MCS10-1和MCS10-2滤波以产生第一输出信号OS10-1;以及第二前馈滤波器FF10B,其经配置以对输入信道MCS10-1和MCS10-2滤波以产生第二输出信号OS10-2。
图11B展示前馈滤波器FF10A的实施FF12A的框图,FF12A包含:经布置以对第一输入信道MCS10-1滤波的直接滤波器FD10A、经布置以对第二输入信道MCS10-2滤波的交叉滤波器FC10A,以及经布置以使两个经滤波信号相加以产生第一输出信号OS10-1的加法器A10。图11C展示前馈滤波器FF10B的对应实施FF12B的框图,FF12B包含:经布置以对第二输入信道MCS10-2滤波的直接滤波器FD10B、经布置以对第一输入信道MCS10-1滤波的交叉滤波器FC10B,以及经布置以使两个经滤波信号相加以产生第二输出信号OS10-2的加法器A20。
滤波器组BK20可经实施而使得滤波器FF10A和FF10B应用对应于经调适反混合矩阵W的相应行的经更新系数值集合。在一个此实例中,将滤波器FF12A的滤波器FD10A和FC10A实施为系数值分别是经调适反混合矩阵W(可能在由调整模块AJM10调整后)的元素w11和w12的FIR滤波器,且将滤波器FF12B的滤波器FC10B和FD10B实施为系数值分别是经调适反混合矩阵W(可能在由调整模块AJM10调整后)的元素w21和w22的FIR滤波器。
一般来说,前馈滤波器FF10A和FF10B中的每一者(例如,交叉滤波器FC10A和FC10B中的每一者以及直接滤波器FD10A和FD10B中的每一者)可实施为有限脉冲响应(FIR)滤波器。图12展示FIR滤波器FIR10的框图,FIR滤波器FIR10经配置以将多个(q个)系数C10-1、C10-2,...,C10-q应用到输入信号以产生输出信号,其中滤波器更新模块UM10经配置以产生如本文所描述的系数的初始和经更新值。滤波器FIR10还包含(q-1)个延迟元件(例如,DL1、DL2)和(q-1)个加法器(例如,AD1、AD2)。
如本文所描述,滤波器组BK10还可经实施而具有三个、四个或四个以上信道。图13展示前馈滤波器FF12A的实施FF14A的框图,FF14A经配置以对N个输入信道MCS10-1、MCS10-2、MCS10-3,...,MCS10-N滤波,其中N是大于二的整数(例如,三或四)。滤波器FF14A包含:直接滤波器FD10A的例子,其经布置以对第一输入信道MCS10-1滤波;(N-1)个交叉滤波器FC10A(1)、FC10A(2),...,FC10A(N-1),其各自经布置以对输入信道MCS10-2到MCS10-N中的对应输入信道滤波;以及(N-1)个加法器AD10、AD10-1、AD10-2,...,(或例如第(N-1)输入加法器),其经布置以使N个经滤波信号相加以产生输出信号OS10-1。
在一个此实例中,将滤波器FF14A中的滤波器FD10A、FC10A(1)、FC10A(2),...,FC10A(N-1)实施为系数值分别是经调适反混合矩阵W的元素w11w12、w13,...,wIN的FIR滤波器(例如,可能在由调整模块AJM10调整后的经调适矩阵W的第一行)。滤波器组BK10的对应实施可包含类似于滤波器FF14A的若干滤波器,每一滤波器经配置而以此方式将经调适矩阵W(可能在由调整模块AJM10调整后)的对应行的系数值应用到相应输入信道MCS10-1到MCS10-N,以产生对应输出信号。
滤波器组BK10可经实施以对时域或频域中(例如,变换域)的信号滤波。可执行此滤波的变换域的实例包含修改离散余弦(MDCT)域和傅立叶变换,例如离散(DFT)傅立叶变换、离散时间短时(DT-STFT)傅立叶变换或快速(FFT)傅立叶变换。
除了本文描述的特定实例之外,滤波器组BK10还可根据将经调适反混合矩阵W应用到多信道输入信号(例如,使用FIR滤波器)的任何已知方法来实施。滤波器组BK10可经实施以将系数值应用到相同域中的多信道信号,其中所述值经初始化和更新(例如,在时域中或在频域中)或者在不同域中。如本文所述,基于相对于方向的最大响应,在此应用之前调整来自经调适矩阵的至少一行的值。
图14展示设备A100的实施A200的框图,A200经配置以执行频域(例如,DFT或MDCT域)中的初始系数值CV10、CV20的更新。在此实例中,滤波器组BK10经配置以将经更新系数值UV10、UV20应用到时域中的多信道信号MCS10。设备A200包含:逆变换模块IM10,其经布置以将经更新系数值UV10、UV20从频域变换到时域;以及变换模块XM10,其经配置以将输出信号OS10-1、OS10-2从时域变换到频域。应明确注意,设备A200还可经实施以支持两个以上输入和/或输出信道。举例来说,设备A200可实施为如图2中所示的设备A110的实施,使得逆变换模块IM10经配置以变换经更新值UV10、UV20、UV30和UV40,且变换模块XM10经配置以变换信号OS10-1、OS10-2、OS10-3和OS10-4。
如本文所述,滤波器定向模块OM10基于所估计源方向而产生滤波器组BK10的初始条件,且滤波器更新模块UM10更新滤波器系数以收敛为改进的解决方案。初始条件的质量可取决于所估计源方向(例如,DA10和DA20)的准确度。
一般来说,每一所估计源方向(例如,DA10和/或DA20)可经测量、计算、预测、投影和/或选择,且可指示来自所要源、干扰源或反射的声音的波达方向。滤波器定向模块OM10可经布置以从另一模块或装置(例如,从源定位模块)接收所估计源方向。此模块或装置可经配置以基于来自相机的图像信息(例如,通过执行面部和/或运动检测)和/或来自超声波反射的测距信息而产生所估计源方向。此模块或装置还可经配置以估计源的数目和/或追踪运动中的一个或一个以上源。图15A展示具有相机CM10的阵列R100的四-麦克风实施R104的布置的一个实例的俯视图,相机CM10可用来俘获此图像信息。
或者,设备A100可经实施以包含方向估计模块DM10,其经配置以基于多信道信号MCS10内的信息和/或由滤波器组BK10产生的输出信号内的信息而计算所估计源方向(例如,DA10和DA20)。在此类情况下,方向估计模块DM10还可经实施以基于如上所述的图像和/或测距信息来计算所估计源方向。举例来说,方向估计模块DM10可经实施以使用应用到多信道信号MCS10的广义交叉相关(GCC)算法或波束形成器算法来估计源DOA。
图16展示设备A100的实施A120的框图,A120包含方向估计模块DM10的例子,方向估计模块DM10经配置以基于多信道信号MCS10内的信息来计算所估计源方向DA10和DA20。在此情况下,方向估计模块DM10和滤波器组BK10经实施以在相同域中操作(例如,接收和处理作为频域信号的多信道信号MCS10)。图17展示设备A120和A200的实施A220的框图,其中方向估计模块DM10经布置以从变换模块XM20接收来自频域中的多信道信号MCS10的信息。
在一个实例中,方向估计模块DM10经实施以使用使用相位变换的导引响应功率(SRP-PHAT)算法来基于多信道信号MCS10内的信息而计算所估计源方向。根据最大似然源定位得出的SRP-PHAT算法确定输出信号相关性最大的时间延迟。交叉相关性通过每一区间中的功率来正规化,其给出较好的稳健性。在混响环境中,可预期SRP-PHAT提供比竞争源定位方法好的结果。
SRP-PHAT算法可在频域中用所接收信号向量X(即,多信道信号MCS10)来表达
X(ω)=[X1(ω),...,XP(ω)]T=S(ω)G(ω)+S(ω)H(ω)+N(ω),
其中S指示源信号向量,且增益矩阵G、房间转移函数向量H和噪声向量N可如下来表达:
X(ω)=[X1(ω),...,XP(ω)]T,
H(ω)=[H1(ω),...,HP(ω)]T,
N(ω)=[N1(ω),...,NP(ω)]T]。
在这些表达式中,P指示传感器数目(即,输入信道数目),α指示增益因子,且τ指示从源传播的时间。
在此实例中,可假设组合噪声向量Nc(ω)=S(ω)H(ω)+N(ω)具有以下零均值、频率独立、联合高斯分布:
其中Q(ω)是协方差矩阵,且p是常数。可通过最大化以下表达式来估计源方向:
在假设N(ω)=0时,可将此表达式重写为
其中0<γ<1是设计常数,且使表达式(4)的右手侧最大化的时间延迟τi指示源波达方向。
图18展示通过针对在频率范围ω内的不同的两-源情境而使用用于DOA估计的此SRP-PHAT实施所产生的曲线图的实例。在这些曲线图中,y轴指示的值,且x轴指示相对于阵列轴线的所估计源波达方向θi(=cos-1(τic/d))。在每一曲线图中,每一线对应于范围中的不同频率,且每一曲线图围绕麦克风阵列的端射方向(即,θ=0)对称。顶部左边曲线图展示距阵列四米距离处的两个源的直方图。顶部右边曲线图展示距阵列四米距离处的两个靠近源的直方图。底部左边曲线图展示距阵列二点五米距离处的两个源的直方图。底部右边曲线图展示距阵列二点五米距离处的两个靠近源的直方图。可见,这些曲线图中的每一者将所估计源方向指示为可通过重心表征的角度范围而非跨越所有频率的单一峰值。
在另一实例中,方向估计模块DM10经实施以使用盲源分离(BSS)算法基于多信道信号MCS10内的信息来计算所估计源方向。BSS方法倾向于产生可靠的零点波束以从干扰源移除能量,且这些零点波束的方向可用来指示对应源的波达方向。方向估计模块DM10的此实施可经实施以根据例如以下表达式来计算在频率f下源i相对于麦克风阵列j和j□的轴线的波达方向(DOA):
其中W指示反混合矩阵,且Pj和Pj□分别指示麦克风j和j′的空间坐标。在此情况下,可能需要与通过如本文所述的滤波器更新模块UM10更新的滤波器分开实施方向估计模块DM10的BSS滤波器(例如,反混合矩阵W)。
图19展示一组四个直方图的实例,每一直方图指示表达式(5)针对四-行反混合矩阵W的对应例子而映射到每一入射角(相对于阵列轴线)的频率区间的数目,其中W是基于多信道信号MCS10内的信息且是根据如本文所述的IVA调适规则通过方向估计模块DM10的实施而计算。在此实例中,输入多信道信号含有来自分离达约40到60度的角度的两个放射源的能量。顶部左边曲线图展示IVA输出1的直方图(指示源1的方向),且顶部右边曲线图展示IVA输出2的直方图(指示源2的方向)。可见,这些曲线图中的每一者将所估计源方向指示为可通过重心表征的角度范围而非跨越所有频率的单一峰值。底部曲线图展示IVA输出3和4的直方图,其阻挡来自两个源的能量且含有来自混响的能量。
图20展示针对(例如)两个放射源分离达约十五度的角度的实例的类似IVA反混合矩阵的对应信道的另一组直方图。如在图19中,顶部左边曲线图展示IVA输出1的直方图(指示源1的方向),顶部右边曲线图展示IVA输出2的直方图(指示源2的方向),且底部曲线图展示IVA输出3和4的直方图(指示混响能量)。
在另一实例中,方向估计模块DM10经实施以基于多个不同频率分量中的每一者的多信道信号MCS10的信道之间的相位差来计算所估计源方向。在远场中的单一点源(例如,使得如图15B中所示的平面波前的假设有效)且无混响的理想情况下,相位差与频率的比相对于频率是恒定的。参考图15B中所说明的模型,方向估计模块DM10的此实施可经配置以将源方向θi计算为量的逆余弦(也称作反余弦),其中c指示声速(近似340m/秒),d指示麦克风之间的距离,指示两个麦克风信道的对应相位估计之间的弧度差,且fi是相位估计所对应的频率分量(例如,对应FFT样本的频率,或对应子带的中心或边缘频率)。
设备A100可经实施而使得滤波器调适模块AM10经配置以处置声学环境中的小改变,例如说话者头部的移动。对于大的改变,例如说话者移动以从房间的不同部分说话,可能需要实施设备A100而使得直接估计模块DM10更新改变源的波达方向,且滤波器定向模块OM10获得(例如,产生或检索)所述方向上的波束以产生新的对应初始系数值集合(即,根据新的源方向重设对应的系数值)。在此情况下,可能需要滤波器定向模块OM10一次产生一个以上新的初始系数值集合。举例来说,可能需要滤波器定向模块OM10针对至少当前与所估计源方向相关联的滤波器来产生新的初始系数值集合。新的初始系数值接着通过如本文所述的滤波器更新模块UM10来更新。
为了支持实时源追踪,可能需要实施方向估计模块DM10(或提供所估计源方向的另一源定位模块或装置)来迅速地识别来自源的信号分量的DOA。可能需要此模块或装置估计存在于经记录的声学场景中的源数目和/或执行源追踪和/或测距。源追踪可包含使所估计源方向与区别特性相关联(例如频率分布或音调频率),使得模块或装置可随着时间继续追踪特定源,即使在其方向与另一源的方向交叉后也是如此。
即使仅两个源将被追踪,也可能需要实施设备A100以具有至少四个输入信道。举例来说,可使用四个麦克风的阵列来获得比两个麦克风的阵列可提供的波束窄的波束。
对于滤波器数目大于源数目的情况(例如,如由方向估计模块DM10指示),可能需要使用额外滤波器用于噪声估计。举例来说,一旦滤波器定向模块OM10已使滤波器与每一所估计源方向(例如,方向DA10和DA20)相关联,便可能需要将每一剩余滤波器定向到不存在源的固定方向上。对于麦克风阵列的轴线在相关区的侧面的应用,此固定方向可以是阵列轴线的方向(也称作端射方向),因为通常在此情况下没有目标源信号将从阵列端射方向中的任一者发出。
在一个此实例中,滤波器定向模块OM10经实施以通过将一个或一个以上非源滤波器(即,在每一所估计源方向已经与对应滤波器相关联后保持的滤波器组BK10中的一个或一个以上滤波器)中的每一者的波束指向阵列端射方向或以其它方式远离信号源来支持一个或一个以上噪声参考的产生。这些滤波器的输出可用作噪声减少操作中的混响参考以提供进一步去混响(例如,额外6dB)。所得感知效应可使得说话者如同他或她正直接对着麦克风说话而发声,而不是在房间内的某一远距离处发声。
图21展示滤波器组BK10(例如,滤波器组BK12)的四-信道实施的第三和第四滤波器的波束图的实例,其中第三滤波器(曲线图A)固定在阵列的一个端射方向上(+/-pi方向),且第四滤波器(曲线图B)固定在阵列的另一端射方向上(零方向)。此类固定定向可用于以下情况:其中滤波器组的第一和第二滤波器中的每一者经定向而朝向所估计源方向DA10和DA20中的对应所估计源方向。
图22展示设备A110的实施A140的框图,A140包含滤波器定向模块OM12的实施OM22,滤波器定向模块OM12经配置以产生系数值CV30以具有定向在麦克风阵列的一个端射方向上的响应以及产生系数值CV40以具有定向在麦克风阵列的另一端射方向上的响应(例如,如图21中所示)。设备A140还包含滤波器更新模块UM12的实施UM22,其经配置以将系数值集合CV30和CV40传到滤波器组BK12而无需将其更新(例如,不调适其)。可能需要配置滤波器更新模块UM22的调适规则以包含一约束(例如,如本文所述),所述约束在源滤波器中在端射方向上强制执行零点波束。
设备A140还包含噪声减少模块NR10,其经配置以基于来自固定滤波器的输出信号(例如,OS10-3和OS10-4)中的至少一者的信息来对源滤波器的输出信号(例如,OS10-1和OS10-2)中的至少一者执行噪声减少操作,从而产生对应的经去混响信号。在此特定实例中,噪声减少模块NR10经实施以对于每一源输出信号执行此操作,以产生对应的经去混响信号DS10-1和DS10-2。
噪声减少模块NR10可经实施以执行噪声减少来作为频域操作(例如,频谱相减或维纳(Wiener)滤波)。举例来说,噪声减少模块NR10可经实施以通过以下操作而从源输出信号产生经去混响信号:通过减去固定输出信号(还称作混响参考)的平均值;通过减去与最接近对应源方向的端射方向相关联的混响参考;或通过减去与距对应源方向最远的端射方向相关联的混响参考。设备A140还可经实施以包含逆变换模块,其经布置以将经去混响信号从频域转换到时域。
设备A140还可经实施以使用语音活动检测(VAD)指示来控制后处理积极性。举例来说,噪声减少模块NR10可经实施以使用一个或一个以上其它源滤波器中的每一者的输出信号(并非固定滤波器的输出信号或除了固定滤波器的输出信号之外)来作为语音不活动状态的间隔期间的混响参考。设备A140可经实施以从另一模块或装置接收VAD指示。或者,设备A140可经实施以包含VAD模块,其经配置以基于来自滤波器组BK12的输出信号中的一者或一者以上的信息来产生每一输出信道的VAD指示。在一个此实例中,VAD模块经实施以通过从特定源输出信号减去每一其它源输出信号(即,与所估计源方向相关联的滤波器组BK12的每一个别滤波器的输出)与每一非源输出信号(即,已固定在非源方向上的滤波器组BK12的每一滤波器的输出)的总功率而产生VAD指示。可能需要配置滤波器更新模块UM22以独立于任何VAD指示来执行系数值CV10和CV20的调适。
可能实施设备A100以基于源数目(例如,如由方向估计DM10检测)来改变在运行时间的滤波器组BK10中的滤波器数目。在此情况下,可能需要设备A100配置滤波器组BK10以包含固定在端射方向上的额外滤波器或固定在端射方向中的每一者上的两个额外滤波器,如本文所论述。
总之,由滤波器更新模块UM10应用的约束可包含:正规化一个或一个以上源滤波器以具有相对于方向的在每一频率中的单位增益响应;约束滤波器调适以在相应源方向上强制执行零点波束;和/或将滤波器系数值固定在一些频率范围中,而在其它频率范围中调适滤波器系数值。另外或替代,设备A100可经实施以在输入信道数目(例如,传感器数目)超过源的所估计数目时将过量滤波器固定在端射状方向上。
在一个实例中,将滤波器更新模块UM10实施为经配置以执行滤波器更新指令集的数字信号处理器(DSP),且将所得经调适及经正规化滤波器解决方案载入到现场可编程门阵列(FPGA)中的滤波器组BK10的实施中以用于应用到多信道信号。在另一实例中,DSP执行滤波器更新以及将滤波器应用到多信道信号。
图23展示根据一般配置的处理多信道信号的方法M100的流程图,方法M100包含任务T100、T200、T300、T400和T500。任务T100将多个第一系数应用到基于来自多信道信号的信息的第一信号以产生第一输出信号,且任务T200将多个第二系数应用到基于来自多信道信号的信息的第二信号以产生第二输出信号(例如,如本文参考滤波器组BK10的实施所描述)。任务T300产生基于第一源方向的多个第一系数的初始值集合,且任务T400产生基于不同于第一源方向的第二源方向的多个第二系数的初始值集合(例如,如本文参考滤波器定向模块OM10的实施所描述)。任务T500基于来自第一和第二输出信号的信息来更新多个第一和第二系数的初始值,其中所述更新多个第一系数的初始值集合是基于一响应,所述响应具有相对于方向的多个第一系数的初始值集合的指定性质(例如,最大响应)(例如,如本文参考滤波器更新模块UM10的实施所描述)。图24展示包含任务T600的方法M100的实施M120的流程图,任务T600基于多信道信号内的信息来估计第一和第二源方向(例如,如本文参考方向估计模块DM10的实施所描述)。
图25A展示根据另一一般配置的用于处理多信道信号的设备MF100的框图。设备MF100包含装置F100,其用于将多个第一系数应用到基于来自多信道信号的信息的第一信号以产生第一输出信号,且用于将多个第二系数应用到基于来自多信道信号的信息的第二信号以产生第二输出信号(例如,如本文中参考滤波器组BK10的实施所描述)。设备MF100还包含装置F300,其用于产生基于第一源方向的多个第一系数的初始值集合,且用于产生基于不同于第一源方向的第二源方向的多个第二系数的初始值集合(例如,如本文中参考滤波器定向模块OM10的实施所描述)。设备MF100还包含装置F500,其用于基于来自第一和第二输出信号的信息更新多个第一和第二系数的初始值,其中所述更新多个第一系数的初始值集合是基于相对于方向具有多个第一系数的初始值集合的指定性质的响应(例如,最大响应)(例如,如本文中参考滤波器更新模块UM10的实施所描述)。图25B展示设备MF100的实施MF120的框图,设备MF100包含装置F600,其用于基于多信道信号内的信息而估计第一和第二源方向(例如,如本文中参考方向估计模块DM10的实施所描述)。
麦克风阵列R100可用以在特定源方向上提供空间聚焦。阵列孔径(对于线性阵列,阵列的两个终端麦克风之间的距离)、麦克风的数目和麦克风的相对布置都可影响空间分离能力。图26A展示使用具有八厘米的均匀间距的阵列R100的四-麦克风实施获得的波束图的实例。图26B展示使用具有四厘米的均匀间距的阵列R100的四-麦克风实施获得的波束图的实例。在这些图中,频率范围为零到四千赫兹,且z轴指示增益响应。如上所述,相对于阵列轴线而指示波达方向(角度)。
非均匀麦克风间距可包含小间距和大间距两者,其可有助于在宽频率范围内使分离性能均衡。举例来说,此非均匀间距可用以实现在不同频率下具有类似宽度的波束。
为了提供在约500到4000Hz的范围中的信号分离的尖锐空间波束,可能需要实施阵列R100以在邻近麦克风之间具有非均匀间距和至少二十厘米的孔径,所述阵列R100朝经记录的声学场景侧向地定向。在一个实例中,阵列R100的四-麦克风实施具有二十厘米的孔径和相应邻近麦克风对之间的四、六和十厘米的非均匀间距。图26C展示使用此阵列获得的此间距和对应波束图的实例,其中频率范围为零到四千赫兹,z轴指示增益响应,且相对于阵列轴线指示波达方向(角度)。可见非均匀阵列与四厘米阵列相比在低频下提供较好分离,且此波束图没有在八厘米阵列的波束图中所见的高频假影。
使用如本文中描述的具有此非均匀地隔开的20cm孔径线性阵列的设备A100的实施,可在500-4000Hz的频带中获得高达18-20dB的干扰消除和去混响(具有少数假影,甚至在说话者并肩站在两到三米的距离处的情况下),从而导致稳健的声学放大效应。在三米以外,减小的直接路径与混响比率和增大的低频功率导致更多后处理失真,但声学放大效应仍为可能的(例如,高达15dB)。因此,可能需要组合这些方法与重建话音频谱技术,尤其在500Hz以下和2kHz以上,来提供“面对面对话”声音效应。为了消除500Hz以下的干扰,通常使用较大麦克风间距。
尽管图26A-26C展示使用全向麦克风阵列获得的波束图,但本文中描述的原理也可扩展到定向麦克风阵列。图27A展示典型单向麦克风响应的图。此特定实例展示对在约283度的方向上波达的信号分量的具有约0.65的灵敏度的麦克风响应。图27B展示这些麦克风的非均匀地隔开的线性阵列的图,其中识别在阵列轴线侧面的相关区。阵列R100的此实施可用以支持针对两至四米的距离的稳健的声学放大效应。在三米以外,可能有可能用此阵列获得18dB的放大效应。
可能需要调整方向性向量(或“导引向量”)以考虑麦克风方向性。在一个此实例中,实施滤波器定向模块OM10以使得上文的表达式(1)的矩阵D的每一列j表达为Dmj(ω)=vmk(ω,θj)×exp(-i×cos(θj)×pos(m)×ω/c),其中vmj(ω,θj)为指示麦克风m在频率ω和入射角θj下的相对响应的方向性因子。在此情况下,还可能需要调整相干函数Г(例如,通过类似因子)来考虑麦克风方向性。在另一实例中,实施滤波器更新模块UM10以使得如表达式(3)中展示的最大响应Rj(ω)改为表达为
其中vm(ω,θ)为指示麦克风m在频率ω和入射角θ下的相对响应的方向性因子。
在多麦克风音频感测装置D10的操作期间,麦克风阵列R100产生多信道信号,其中每一信道是基于麦克风中的对应麦克风对声学环境的响应。一个麦克风可比另一麦克风更直接地接收特定声音,使得对应信道彼此不同以共同地提供与使用单一麦克风可俘获的情形相比的声学环境的更完整的表示。
可能需要阵列R100对由麦克风产生的信号执行一个或一个以上处理操作以产生由设备A100处理的多信道信号MCS10。图28A展示阵列R100的实施R200的框图,R200包含经配置以执行一个或一个以上此类操作的音频处理级AP10,所述操作可包含(不限于)阻抗匹配、模/数转换、增益控制和/或模拟和/或数字域中的滤波。
图28B展示阵列R200的实施R210的框图。阵列R210包含音频处理级AP10的实施AP20,AP20包含模拟预处理级P10a和P10b。在一个实例中,级P10a和P10b各自经配置以对对应麦克风信号执行高通滤波操作(例如,用50、100或200Hz的截止频率)。
可能需要阵列R100将多信道信号产生为数字信号,即,产生为样本序列。举例来说,阵列R210包含模/数转换器(ADC)C10a和C10b,其各自经配置以对对应模拟信道取样。声学应用的典型取样速率包含8kHz、12kHz、16kHz,以及在约8到约16kHz的范围中的其它频率,但也可使用高达约44.1、48和192kHz的取样速率。在此特定实例中,阵列R210还包含数字预处理级P20a和P20b,其各自经配置以对对应数字化信道执行一个或一个以上预处理操作(例如,回声消除、噪声减少和/或频谱塑形),以产生多信道信号MCS10的对应信道MCS10-1、MCS10-2。另外或在替代例中,可实施数字预处理级P20a和P20b以对对应数字化信道执行频率变换(例如,FFT或MDCT操作),以在对应频域中产生多信道信号MCS10的对应信道MCS10-1、MCS10-2。尽管图28A和28B展示两-信道实施,但应理解,相同原理可扩展到任意数目个麦克风和多信道信号MCS10的对应信道(例如,如本文中描述的阵列R100的三-、四-或五-信道实施)。
阵列R100的每一麦克风可具有全向、双向或单向的响应(例如,心形线)。可用于阵列R100的各种类型的麦克风包含(不限于)压电麦克风、动态麦克风和驻极体麦克风。对于远场应用,阵列R100的邻近麦克风之间的中心间的间距通常在约四到十厘米的范围中,但在例如平板电视显示器的装置中,邻近麦克风对中的至少一些麦克风对之间的较大间距(例如,高达20、30或40厘米或更大)也是可能的。阵列R100的麦克风可沿着线布置(具有均匀或非均匀麦克风间距),或替代地,使得其中心位于二维(例如,三角形)或三维形状的顶点。
应明确注意,麦克风可更一般地实施为对除了声音以外的辐射或发射敏感的换能器。在一个此类实例中,将麦克风对实施为一对超声波换能器(例如,对大于十五、二十、二十五、三十、四十或五十千赫兹或更大的声频敏感的换能器)。
可能需要产生如图1B中所示的音频感测装置D10,其包含经配置以产生多信道信号MCS的阵列R100的例子以及经配置以处理多信道信号MCS的设备A100的例子。一般来说,装置D10包含本文中所揭示的麦克风阵列R100的实施中的任一者的例子以及本文中所揭示的设备A100(或MF100)的实施中的任一者的例子,且本文中所揭示的音频感测装置中的任一者可实施为装置D10的例子。可经实施以包含此阵列且可用于音频记录和/或语音通信应用的音频感测装置的实例包含电视显示器、机顶盒和音频和/或视频会议装置。
图29A展示为装置D10的实施的通信装置D20的框图。装置D20包含芯片或芯片组CS10(例如,移动站调制解调器(MSM)芯片组),其包含如本文中揭示的设备A100(或MF100)的实施。芯片/芯片组CS10可包含一个或一个以上处理器,其可经配置以执行设备A100或MF100的操作的全部或部分(例如,作为指令)。芯片/芯片组CS10还可包含阵列R100的处理元件(例如,如本文中描述的音频处理级AP10的元件)。
芯片/芯片组CS10包含接收器,其经配置以接收射频(RF)通信信号(例如,经由天线C40)且解码并再生(例如,经由扬声器SP10)编码于RF信号内的音频信号。芯片/芯片组CS10还包含发射器,其经配置以编码基于由设备A100产生的输出信号的音频信号且发射描述经编码音频信号的RF通信信号(例如,经由天线C40)。举例来说,芯片/芯片组CS10的一个或一个以上处理器可经配置以对多信道信号的一个或一个以上信道执行如上文所描述的噪声减少操作,以使得经编码音频信号基于噪声减少的信号。在此实例中,装置D20还包含小键盘C10和显示器C20以支持用户控制和交互。
图33展示可实施为装置D20的例子的手机H100(例如,智能机)的前视、后视和侧视图。手机H100包含:布置在正面的两个语音麦克风MV10-1和MV10-3;位于正面的顶部角落的误差麦克风ME10;以及布置在背面的语音麦克风MV10-2、噪声参考麦克风MR10和相机透镜。扬声器LS10布置在正面的顶部中心在误差麦克风ME10附近,而且还提供了两个其它扬声器LS20L、LS20R(例如,用于扬声器电话应用)。此手机的麦克风之间的最大距离通常为约十或十二厘米。
图29B展示为装置D10的实施的另一通信装置D30的框图。装置D30包含芯片或芯片组CS20,其包含如本文中描述的设备A100(或MF100)的实施。芯片/芯片组CS20可包含一个或一个以上处理器,其可经配置以执行设备A100或MF100的操作的全部或部分(例如,作为指令)。芯片/芯片组CS20还可包含阵列R100的处理元件(例如,如本文中描述的音频预处理级AP10的元件)。
装置D30包含网络接口NI10,其经配置以支持与网络(例如,与局域网和/或广域网)的数据通信。由接口NI10使用以用于这些通信的协议可包含乙太网(例如,如由IEEE802.2标准中的任一者描述)、无线局域联网(例如,如由IEEE802.11或802.16标准中的任一者描述)、蓝牙(例如,如在华盛顿,柯克兰(Kirkland,WA)蓝牙技术联盟(Bluetooth SIG,Inc.)的蓝牙核心规范版本4.0[其包含传统蓝牙、蓝牙高速和蓝牙低功耗协议]中描述的手机或其它简档)、花生(加利福尼亚州圣地亚哥(San Diego,CA)高通公司(QUALCOMMIncorporated))和/或紫峰(例如,如在加利福尼亚州圣罗马(San Ramon,CA)紫峰联盟(ZigBee Alliance)的紫峰2007规范和/或紫峰RF4CE规范中描述)。在一个实例中,网络接口NI10经配置以经由麦克风MC10和MC20以及扬声器SP10(例如,使用因特网语音协议或“VoIP”协议)支持语音通信应用。装置D30还包含经配置以支持装置D30的用户控制(例如,经由从手持式远程控制接收的红外信号和/或经由语音命令的辨识)的用户接口UI10。装置D30还包含经配置以向一个或一个以上用户显示视频内容的显示面板P10。
多信道经记录信号内的混响能量倾向于随着所要源与阵列R100之间的距离增加而增加。可能需要应用设备A100的另一应用为音频和/或视频会议。图30A-D展示装置D10的会议实施的若干实例的俯视图。图30A包含阵列R100的三-麦克风实施(麦克风MC10、MC20和MC30)。图30B包含阵列R100的四-麦克风实施(麦克风MC10、MC20、MC30和MC40)。图30C包含阵列R100的五-麦克风实施(麦克风MC10、MC20、MC30、MC40和MC50)。图30D包含阵列R100的六-麦克风实施(麦克风MC10、MC20、MC30、MC40、MC50和MC60)。可能需要将阵列R100的麦克风中的每一者定位于常规多边形的对应顶点处。用于再生远端音频信号的扬声器SP10可包含在装置内(例如,如图30A所示),和/或此扬声器可定位成与装置分离(例如,以减少声反馈)。
可能需要装置D10的会议实施针对一个以上空间扇区中的每一者(例如,90、120、150或180度的重叠或非重叠扇区)执行设备A100的实施的单独例子。在此情况下,还可能需要装置在将各种经去混响的话音信号发射到远端之前组合(例如,混合)所述话音信号。
在装置D10的会议应用(例如,装置D30)的另一实例中,阵列R100的水平线性实施包含在电视或机顶盒的前面板内。此装置可经配置以通过定位和去混响来自在阵列前方的区域内说话的人和来自离阵列约一到三或四米远的位置(例如,正在看电视的观众)的近端源信号来支持电话通信。
图31A展示装置D10的实施DS10(例如,电视或计算机监视器)的图,DS10包含显示面板P10以及包含以均匀间距线性地布置的四个麦克风MC10、MC20、MC30和MC40的阵列R100的实施。图31B展示装置D10的实施DS20(例如,电视或计算机监视器)的图,DS20包含显示面板P10以及包含以非均匀间距线性地布置的四个麦克风MC10、MC20、MC30和MC40的阵列R100的实施。装置DS10和DS20中的任一者还可实现为如本文中描述的装置D30的实施。明确地揭示,本文中揭示的***、方法和设备的适用性不限于本文中指出的特定实例。
本文中揭示的方法和设备可大体上应用于任何音频感测应用,尤其应用于来自远场源的信号分量的感测。本文中所揭示的配置的范围包含驻留于无线电话通信***中的通信装置,所述无线电话通信***经配置以经由空中接口而使用码分多址(CDMA)。然而,所属领域的技术人员将理解,具有本文中所描述的特征的方法和设备可驻留于采用所属领域的技术人员所已知的广泛范围的技术的各种通信***中的任一者中,例如经由有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)传输信道采用IP语音(VoIP)的***。
明确地预料且特此揭示,本文中揭示的通信装置可适用于包交换式网络(例如,经布置以根据例如VoIP的协议执行音频发射的有线和/或无线网络)和/或电路交换式网络中。还明确地预料且特此揭示,本文中揭示的通信装置可适用于窄带译码***(例如,对约四或五千赫兹的音频频率范围进行编码的***)和/或用于宽带译码***(例如,对大于五千赫兹的音频频率进行编码的***),包含全频带宽带译码***和分割频带宽带译码***。
提供所描述配置的上述呈现以使得所属领域的技术人员能够制作或使用本文中揭示的方法和其它结构。本文中展示和描述的流程图、框图和其它结构仅为实例,且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理还可应用于其它配置。因此,本发明不希望限于上文所展示的配置,而是应符合与在本文中(包含在所申请的附加权利要求书中)以任何方式揭示的原理和新颖特征一致的最广范围,所述权利要求书形成原始揭示内容的一部分。
所属领域的技术人员将理解,可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示可在整个以上描述中参考的数据、指令、命令、信息、信号、位以及符号。
用于实施本文中揭示的配置的重要设计要求可包含最小化处理延迟和/或计算复杂性(通常以每秒数百万个指令或MIPS测量),尤其是对于计算密集型应用,例如压缩音频或视听信息(例如,根据例如本文中识别的实例中的一者的压缩格式而编码的文件或流)的重放或宽带通信(例如,在高于八千赫兹的取样速率(例如,12、16、44.1、48或192kHz)下的语音通信)的应用。
多麦克风处理***的目标可包含实现十到十二dB的总噪声减少,保持所要扬声器的移动期间的语音电平和颜色,获得已移动到背景中的噪声而不是积极噪声移除的感知,话音的去混响和/或实现用于更多积极噪声减少的后处理的选项。
如本文中揭示的设备(例如,设备A100和MF100)可以硬件与软件和/或与固件的任何组合实施,所述组合被视为适合用于既定应用。举例来说,此设备的元件可制造为驻留(例如)在芯片组中的同一芯片上或两个或两个以上芯片中的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)的阵列,且所述设备的元件中的任一者可实施为一个或一个以上此类阵列。所述设备的元件中的任何两者或两者以上或甚至全部可在一个或一个以上相同的阵列内实施。所述阵列可实施于一个或一个以上芯片内(例如,包含两个或两个以上芯片的芯片组内)。
本文中所揭示的设备的各种实施的一个或一个以上元件可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路))上执行的一个或一个以上指令集。如本文中所揭示的设备的实施的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器,也称作“处理器”),且这些元件中的任何两者或两者以上或甚至全部可在一个或一个以上相同的此类计算机内实施。
如本文中揭示的处理器或用于处理的其它装置可制造为驻留(例如)在芯片组中的同一芯片上或两个或两个以上芯片中的一个或一个以上电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上此类阵列。所述阵列可实施于一个或一个以上芯片内(例如,包含两个或两个以上芯片的芯片组内)。此类阵列的实例包含固定或可编程逻辑元件阵列,例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。如本文中揭示的处理器或用于处理的其它装置还可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器)或其它处理器。如本文中揭示的处理器可能用以执行并非与如本文中描述的多信道定向音频处理程序直接有关的任务或其它指令集,例如关于嵌入有所述处理器的装置或***(例如,音频感测装置)的另一操作的任务。也可能如本文中揭示的方法的部分由音频感测装置的处理器执行且所述方法的另一部分在一个或一个以上其它处理器的控制下执行。
所属领域的技术人员将了解,结合本文中所揭示的配置描述的各种说明性模块、逻辑块、电路和测试以及其它操作可实施为电子硬件、计算机软件或两者的组合。可用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中揭示的配置的任何组合来实施或执行这些模块、逻辑块、电路和操作。举例来说,此配置可至少部分实施为硬连线电路、实施为制造成专用集成电路的电路配置,或实施为加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序,所述代码为可由例如通用处理器或其它数字信号处理单元的逻辑元件阵列执行的指令。通用处理器可为微处理器,但在替代例中,处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合,或任何其它此配置。软件模块可驻留在例如RAM(随机存取存储器)的非暂时性存储媒体、ROM(只读存储器)、例如快闪RAM的非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸磁盘或CD-ROM中;或技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代例中,存储媒体可与处理器成一体式。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代例中,处理器和存储媒体可作为离散组件驻留于用户终端中。
应注意,本文中揭示的各种方法(例如,方法M100和通过描述本文中描述的各种设备的操作而揭示的其它方法)可由例如处理器的逻辑元件阵列执行,且如本文中描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用,术语“模块”或“子模块”可指包含呈软件、硬件或固件形式的计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,多个模块或***可组合为一个模块或***,且一个模块或***可被分离成多个模块或***以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的要素本质上为用以执行例如与例程、程序、对象、组件、数据结构等有关的任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或序列以及此类实例的任何组合。程序或代码段可存储在处理器可读存储媒体中或通过体现在载波中的计算机数据信号经由传输媒体或通信链路进行传输。
本文中揭示的方法、方案和技术的实施还可有形地体现(例如,在如本文中列出的一个或一个以上计算机可读媒体中)为可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器读取和/或执行的一个或一个以上指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、可装卸或非可装卸媒体。处理器可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路,或可用于存储所要信息且可被存取的任何其它媒体。计算机数据信号可包含可经由传输媒体(例如电子网络通道、光纤、空气、电磁、RF链路等)传播的任何信号。代码段可经由例如因特网或企业内部网络的计算机网络来下载。在任何情况下,本发明的范围不应被解释为受这些实施例限制。
本文中描述的方法的任务中的每一者可直接体现在硬件、由处理器执行的软件模块或硬件与软件模块两者的组合中。在如本文中揭示的方法的实施的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至全部。所述任务中的一者或一者以上(可能全部)还可实施为在计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪或其它非易失性存储卡、半导体存储器芯片等)中体现的代码(例如,一个或一个以上指令集),所述计算机程序产品可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。如本文中揭示的方法的实施的任务还可由一个以上此阵列或机器执行。在这些或其它实施中,所述任务可在用于无线通信的装置内执行,所述装置例如蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换和/或包交换式网络通信(例如,使用一个或一个以上协议(例如VoIP))。举例来说,此装置可包含经配置以接收和/或发射经编码帧的RF电路。
明确地揭示,本文中揭示的各种方法可由通信装置执行,且本文中描述的各种设备可包含在此装置内。典型实时(例如,在线)应用为使用此装置进行的电话对话。
在一个或一个以上示范性实施例中,本文中所描述的操作可实施于硬件、软件、固件或其任一组合中。如果实施于软件中,那么这些操作可作为一个或一个以上指令或代码而存储在计算机可读媒体上或经由计算机可读媒体传输。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如,传输)媒体两者。通过实例(而非限制),计算机可读存储媒体可包括存储元件阵列,存储元件例如半导体存储器(其可包含(不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM),或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置;和/或磁盘存储装置或其它磁性存储装置。此存储媒体可以可由计算机存取的指令或数据结构的形式存储信息。通信媒体可包括可用以携载呈指令或数据结构的形式的所要程序码且可由计算机存取的任何媒体,包含促进计算机程序从一处到另一处的传送的任何媒体。同样,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光缆、双绞线、DSL或例如红外线、无线电和/或微波的无线技术包含于媒体的定义中。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和Blu-ray DiscTM(蓝光光盘协会,加利福尼亚州大学城(Universal City,CA)),其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。上文的组合也应包含在计算机可读媒体的范围内。
如本文中描述的声学信号处理设备(例如,设备A100或MF100)可并入到电子装置(例如,通信装置)中,所述电子装置接受话音输入以便控制某些操作,或可另外受益于所要噪声与背景噪声的分离。许多应用可受益于增强干净的所要声音或分离干净的所要声音与源自多个方向的背景声音。这些应用可包含电子或计算装置中的人机接口,所述电子或计算装置并有例如语音辨识和检测、话音增强和分离、语音激活式控制等能力。可能需要实施此声学信号处理设备以适合于仅提供有限处理能力的装置中。
举例来说,本文中描述的模块、元件和装置的各种实施的元件可制造为驻留(例如)在芯片组中的同一芯片上或两个或两个以上芯片中的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或门)的阵列。本文中所描述的设备的各种实施的一个或一个以上元件可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC)上执行的一个或一个以上指令集。
有可能如本文中所描述的设备的实施的一个或一个以上元件用于执行并非与所述设备的操作直接有关的任务或其它指令集,例如关于嵌入有所述设备的装置或***的另一操作的任务。还有可能使此设备的实施的一个或一个以上元件具有共同结构(例如,用于在不同时间执行对应于不同元件的代码的部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间对不同元件执行操作的电子和/或光学装置的布置)。
Claims (50)
1.一种用于处理多信道信号的设备,所述设备包括:
滤波器组,其具有(A)第一滤波器,其经配置以将多个第一系数应用到基于所述多信道信号的第一信号以产生第一输出信号,以及(B)第二滤波器,其经配置以将多个第二系数应用到基于所述多信道信号的第二信号以产生第二输出信号;
滤波器定向模块,其经配置以产生基于第一源方向的所述多个第一系数的初始值集合,以及产生基于不同于所述第一源方向的第二源方向的所述多个第二系数的初始值集合;以及
滤波器更新模块,其经配置以(A)基于对应方向的多个响应而确定具有指定性质的响应,且(B)基于具有所述指定性质的所述响应而更新所述多个第一系数的所述初始值集合。
2.根据权利要求1所述的设备,其中所述多个响应中的每一响应为在所述对应方向的基于所述多个第一系数的所述初始值集合的值集合的响应。
3.根据权利要求1所述的设备,其中所述更新所述多个第一系数的所述初始值集合包含基于来自所述第一和第二输出信号的信息调适所述多个第一系数的所述初始值集合。
4.根据权利要求1所述的设备,其中所述更新所述多个第一系数的所述初始值集合包含基于来自所述第一和第二输出信号的信息调适所述多个第一系数的所述初始值集合,以产生所述多个第一系数的经调适值集合。
5.根据权利要求1所述的设备,其中所述指定性质为所述多个响应中的最大值。
6.根据权利要求1所述的设备,其中所述滤波器更新模块经配置以计算在多个频率中的每一频率下具有一值的所确定响应,且
其中所述计算所述所确定响应包含在所述多个频率中的每一频率下执行所述确定,且
其中,在所述多个频率中的每一频率下,所述所确定响应的所述值为在所述频率下的所述多个响应中的具有指定性质的所述响应。
7.根据权利要求6所述的设备,其中,在所述多个频率中的每一频率下,所述所确定响应的所述值为在所述频率下的所述多个响应中的最大值。
8.根据权利要求6所述的设备,其中在所述多个频率中的第一频率下的所述所确定响应的所述值为第一方向上的响应,且
其中在所述多个频率中的第二频率下的所述所确定响应的所述值为不同于所述第一方向的第二方向上的响应。
9.根据权利要求6所述的设备,其中所述更新所述多个第一系数的所述初始值集合包含基于所述所确定响应而调整所述多个第一系数的所述经调适值集合,以产生所述多个第一系数的经更新值集合。
10.根据权利要求9所述的设备,其中所述调整包含基于所述所确定响应正规化所述多个第一系数的所述经调适值集合,以产生所述多个第一系数的所述经更新值集合。
11.根据权利要求9所述的设备,其中所述多个第一系数的所述经调适值集合包含(A)对应于所述多个频率中的第一频率的第一多个经调适值以及(B)对应于不同于所述多个频率中的所述第一频率的所述多个频率中的第二频率的第二多个经调适值,且
其中所述调整包括(A)基于对应于所述多个频率中的所述第一频率的所述所确定响应的所述值来正规化所述第一多个经调适值中的每一值,以及(B)基于对应于所述多个频率中的所述第二频率的所述所确定响应的所述值来正规化所述第二多个经调适值中的每一值。
12.根据权利要求9所述的设备,其中所述多个第一系数的所述经更新值集合中的每一值对应于所述多个第一系数的所述初始值集合中的不同值且对应于所述多信道信号的频率分量,且
其中对应于第一频率范围中的频率分量的所述多个第一系数的所述经更新值集合中的每一值具有与所述多个第一系数的所述初始值集合的所述对应值相同的值。
13.根据权利要求1所述的设备,其中所述第一和第二系数中的每一者对应于所述多信道信号的多个频率分量中的一者。
14.根据权利要求1所述的设备,其中所述多个第一系数的所述初始值集合描述定向在所述第一源方向上的波束。
15.根据权利要求1所述的设备,其中所述滤波器更新模块经配置以根据将非线性有界函数应用到所述第一和第二输出信号的频率分量的结果而更新所述多个第一系数的所述初始值集合。
16.根据权利要求1所述的设备,其中所述滤波器更新模块经配置以根据盲源分离学习规则而更新所述多个第一系数的所述初始值集合。
17.根据权利要求1所述的设备,其中所述更新所述多个第一系数的所述初始值集合是基于空间约束,且其中所述空间约束是基于所述第二源方向。
18.根据权利要求1所述的设备,其中所述更新所述多个第一系数的所述初始值集合包含相对于所述多个第一系数在所述第一源方向上的响应来衰减所述多个第一系数在所述第二源方向上的响应。
19.根据权利要求1所述的设备,其中所述设备包括方向估计模块,所述方向估计模块经配置以基于所述多信道信号内的信息而计算所述第一源方向。
20.根据权利要求1所述的设备,其中所述设备包括包含多个麦克风的麦克风阵列,且
其中所述多信道信号的每一信道是基于由所述多个麦克风中的不同的对应麦克风产生的信号,且
其中所述麦克风阵列具有至少二十厘米的孔径。
21.根据权利要求1所述的设备,其中所述设备包括包含多个麦克风的麦克风阵列,且
其中所述多信道信号的每一信道是基于由所述多个麦克风中的不同的对应麦克风产生的信号,且
其中所述麦克风阵列的第一对邻近麦克风之间的距离不同于所述麦克风阵列的第二对邻近麦克风之间的距离。
22.根据权利要求1所述的设备,其中所述滤波器组包含第三滤波器,所述第三滤波器经配置以将多个第三系数应用到所述多信道信号以产生第三输出信号,且
其中所述设备包含噪声减少模块,所述噪声减少模块经配置以基于来自所述第三输出信号的信息而对所述第一输出信号执行噪声减少操作,以产生经去混响信号。
23.根据权利要求22所述的设备,其中所述多信道信号的每一信道是基于由阵列的多个麦克风中的对应麦克风产生的信号,且
其中所述滤波器定向模块经配置以基于所述阵列的轴线的方向而产生所述多个第三系数的值集合。
24.根据权利要求1所述的设备,其中所述滤波器更新模块经配置以在频域中更新所述多个第一系数的所述初始值集合,且
其中所述滤波器组经配置以在时域中将所述多个第一系数应用到所述第一信号。
25.一种处理多信道信号的方法,所述方法包括:
将多个第一系数应用到基于所述多信道信号的第一信号以产生第一输出信号;
将多个第二系数应用到基于所述多信道信号的第二信号以产生第二输出信号;
产生基于第一源方向的所述多个第一系数的初始值集合;
产生基于不同于所述第一源方向的第二源方向的所述多个第二系数的初始值集合;
基于对应方向的多个响应而确定具有指定性质的响应;以及
基于具有所述指定性质的所述响应而更新所述多个第一系数的所述初始值集合。
26.根据权利要求25所述的方法,其中所述多个响应中的每一响应为在所述对应方向的基于所述多个第一系数的所述初始值集合的值集合的响应。
27.根据权利要求25所述的方法,其中所述更新所述多个第一系数的所述初始值集合包含基于来自所述第一和第二输出信号的信息调适所述多个第一系数的所述初始值集合。
28.根据权利要求25所述的方法,其中所述更新所述多个第一系数的所述初始值集合包含基于来自所述第一和第二输出信号的信息调适所述多个第一系数的所述初始值集合,以产生所述多个第一系数的经调适值集合。
29.根据权利要求25所述的方法,其中所述指定性质为所述多个响应中的最大值。
30.根据权利要求25所述的方法,其中所述方法包含计算在多个频率中的每一频率下具有一值的所确定响应,且
其中所述计算所述所确定响应包含在所述多个频率中的每一频率下执行所述确定,且
其中,在所述多个频率中的每一频率下,所述所确定响应的所述值为在所述频率下的所述多个响应中的具有指定性质的所述响应。
31.根据权利要求30所述的方法,其中,在所述多个频率中的每一频率下,所述所确定响应的所述值为在所述频率下的所述多个响应中的最大值。
32.根据权利要求30所述的方法,其中在所述多个频率中的第一频率下的所述所确定响应的所述值为第一方向上的响应,且
其中在所述多个频率中的第二频率下的所述所确定响应的所述值为不同于所述第一方向的第二方向上的响应。
33.根据权利要求30所述的方法,其中所述更新所述多个第一系数的所述初始值集合包含基于所述所确定响应而调整所述多个第一系数的所述经调适值集合,以产生所述多个第一系数的经更新值集合。
34.根据权利要求33所述的方法,其中所述调整包含基于所述所确定响应正规化所述多个第一系数的所述经调适值集合,以产生所述多个第一系数的所述经更新值集合。
35.根据权利要求33所述的方法,其中所述多个第一系数的所述经调适值集合包含(A)对应于所述多个频率中的第一频率的第一多个经调适值以及(B)对应于不同于所述多个频率中的所述第一频率的所述多个频率中的第二频率的第二多个经调适值,且
其中所述调整包括(A)基于对应于所述多个频率中的所述第一频率的所述所确定响应的所述值来正规化所述第一多个经调适值中的每一值,以及(B)基于对应于所述多个频率中的所述第二频率的所述所确定响应的所述值来正规化所述第二多个经调适值中的每一值。
36.根据权利要求33所述的方法,其中所述多个第一系数的所述经更新值集合中的每一值对应于所述多个第一系数的所述初始值集合中的不同值且对应于所述多信道信号的频率分量,且
其中对应于第一频率范围中的频率分量的所述多个第一系数的所述经更新值集合中的每一值具有与所述多个第一系数的所述初始值集合的所述对应值相同的值。
37.根据权利要求25所述的方法,其中所述第一和第二系数中的每一者对应于所述多信道信号的多个频率分量中的一者。
38.根据权利要求25所述的方法,其中所述多个第一系数的所述初始值集合描述定向在所述第一源方向上的波束。
39.根据权利要求25所述的方法,其中根据将非线性有界函数应用到所述第一和第二输出信号的频率分量的结果而执行所述更新所述多个第一系数的所述初始值集合。
40.根据权利要求25所述的方法,其中根据盲源分离学习规则而执行所述更新所述多个第一系数的所述初始值集合。
41.根据权利要求25所述的方法,其中所述更新所述多个第一系数的所述初始值集合是基于空间约束,且
其中所述空间约束是基于所述第二源方向。
42.根据权利要求25所述的方法,其中所述更新所述多个第一系数的所述初始值集合包含相对于所述多个第一系数在所述第一源方向上的响应来衰减所述多个第一系数在所述第二源方向上的响应。
43.根据权利要求25所述的方法,其中所述方法包含基于所述多信道信号内的信息而计算所述第一源方向。
44.根据权利要求25所述的方法,其中所述多信道信号的每一信道是基于由麦克风阵列的多个麦克风中的不同的对应麦克风产生的信号,且
其中所述麦克风阵列具有至少二十厘米的孔径。
45.根据权利要求25所述的方法,其中所述多信道信号的每一信道是基于由麦克风阵列的所述多个麦克风中的不同的对应麦克风产生的信号,且
其中所述麦克风阵列的第一对邻近麦克风之间的距离不同于所述麦克风阵列的第二对邻近麦克风之间的距离。
46.根据权利要求25所述的方法,其中所述方法包含:
将多个第三系数应用到所述多信道信号以产生第三输出信号;以及
基于来自所述第三输出信号的信息而对所述第一输出信号执行噪声减少操作,以产生经去混响信号。
47.根据权利要求46所述的方法,其中所述多信道信号的每一信道是基于由阵列的多个麦克风中的对应麦克风产生的信号,且
其中所述方法包含基于所述阵列的轴线的方向而产生所述多个第三系数的值集合。
48.根据权利要求25所述的方法,其中所述更新包含在频域中更新所述多个第一系数的所述初始值集合,且
其中在时域中执行所述将所述多个第一系数应用到所述第一信号。
49.一种用于处理多信道信号的设备,所述设备包括:
用于将多个第一系数应用到基于所述多信道信号的第一信号以产生第一输出信号以及用于将多个第二系数应用到基于所述多信道信号的第二信号以产生第二输出信号的装置;
用于产生基于第一源方向的所述多个第一系数的初始值集合以及用于产生基于不同于所述第一源方向的第二源方向的所述多个第二系数的初始值集合的装置;
用于基于对应方向的多个响应而确定具有指定性质的响应的装置;以及
用于基于具有所述指定性质的所述响应而更新所述多个第一系数的所述初始值集合的装置。
50.一种包含有形特征的非暂时性计算机可读存储媒体,所述特征在由处理器读取时致使所述处理器:
将多个第一系数应用到基于多信道信号的第一信号以产生第一输出信号;
将多个第二系数应用到基于所述多信道信号的第二信号以产生第二输出信号;
产生基于第一源方向的所述多个第一系数的初始值集合;
产生基于不同于所述第一源方向的第二源方向的所述多个第二系数的初始值集合;
基于对应方向的多个响应而确定具有指定性质的响应;以及
基于具有所述指定性质的所述响应而更新所述多个第一系数的所述初始值集合。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US40592210P | 2010-10-22 | 2010-10-22 | |
US61/405,922 | 2010-10-22 | ||
US13/243,492 US9100734B2 (en) | 2010-10-22 | 2011-09-23 | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
US13/243,492 | 2011-09-23 | ||
PCT/US2011/055441 WO2012054248A1 (en) | 2010-10-22 | 2011-10-07 | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103181190A true CN103181190A (zh) | 2013-06-26 |
Family
ID=45973046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011800510507A Pending CN103181190A (zh) | 2010-10-22 | 2011-10-07 | 用于远场多源追踪和分离的***、方法、设备和计算机可读媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9100734B2 (zh) |
EP (1) | EP2630807A1 (zh) |
JP (1) | JP2013543987A (zh) |
KR (1) | KR20130084298A (zh) |
CN (1) | CN103181190A (zh) |
WO (1) | WO2012054248A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427860A (zh) * | 2015-11-11 | 2016-03-23 | 百度在线网络技术(北京)有限公司 | 远场语音识别方法和装置 |
CN105702261A (zh) * | 2016-02-04 | 2016-06-22 | 厦门大学 | 带相位自校正功能的声聚焦麦克风阵列长距离拾音装置 |
CN105976822A (zh) * | 2016-07-12 | 2016-09-28 | 西北工业大学 | 基于参数化超增益波束形成器的音频信号提取方法及装置 |
CN105981404A (zh) * | 2013-12-11 | 2016-09-28 | 弗朗霍夫应用科学研究促进协会 | 使用麦克风阵列的混响声的提取 |
CN106019232A (zh) * | 2016-05-11 | 2016-10-12 | 北京地平线信息技术有限公司 | 声源定位***和方法 |
CN106576103A (zh) * | 2014-08-13 | 2017-04-19 | 微软技术许可有限责任公司 | 反向回声抵消器 |
CN107636758A (zh) * | 2015-05-15 | 2018-01-26 | 哈曼国际工业有限公司 | 声学回声消除***和方法 |
CN107690119A (zh) * | 2016-08-05 | 2018-02-13 | 奥迪康有限公司 | 配置成定位声源的双耳听力*** |
CN107785029A (zh) * | 2017-10-23 | 2018-03-09 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
CN110133572A (zh) * | 2019-05-21 | 2019-08-16 | 南京林业大学 | 一种基于Gammatone滤波器和直方图的多声源定位方法 |
CN110136733A (zh) * | 2018-02-02 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 一种音频信号的解混响方法和装置 |
CN110211601A (zh) * | 2019-05-21 | 2019-09-06 | 出门问问信息科技有限公司 | 一种空域滤波器参数矩阵的获取方法、装置及*** |
CN110415718A (zh) * | 2019-09-05 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN110888112A (zh) * | 2018-09-11 | 2020-03-17 | 中国科学院声学研究所 | 一种基于阵列信号的多目标定位识别方法 |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8759661B2 (en) | 2010-08-31 | 2014-06-24 | Sonivox, L.P. | System and method for audio synthesizer utilizing frequency aperture arrays |
JP2012238964A (ja) * | 2011-05-10 | 2012-12-06 | Funai Electric Co Ltd | 音分離装置、及び、それを備えたカメラユニット |
US8653354B1 (en) * | 2011-08-02 | 2014-02-18 | Sonivoz, L.P. | Audio synthesizing systems and methods |
US8971546B2 (en) * | 2011-10-14 | 2015-03-03 | Sonos, Inc. | Systems, methods, apparatus, and articles of manufacture to control audio playback devices |
US9857451B2 (en) | 2012-04-13 | 2018-01-02 | Qualcomm Incorporated | Systems and methods for mapping a source location |
US8880395B2 (en) * | 2012-05-04 | 2014-11-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis in conjunction with source direction information |
JP2013235050A (ja) * | 2012-05-07 | 2013-11-21 | Sony Corp | 情報処理装置及び方法、並びにプログラム |
US9258644B2 (en) * | 2012-07-27 | 2016-02-09 | Nokia Technologies Oy | Method and apparatus for microphone beamforming |
FR2996043B1 (fr) * | 2012-09-27 | 2014-10-24 | Univ Bordeaux 1 | Procede et dispositif pour separer des signaux par filtrage spatial a variance minimum sous contrainte lineaire |
EP2738762A1 (en) * | 2012-11-30 | 2014-06-04 | Aalto-Korkeakoulusäätiö | Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence |
US9833189B2 (en) * | 2012-12-17 | 2017-12-05 | Koninklijke Philips N.V. | Sleep apnea diagnosis system and method of generating information using non-obtrusive audio analysis |
GB201309781D0 (en) | 2013-05-31 | 2013-07-17 | Microsoft Corp | Echo cancellation |
CN104681034A (zh) * | 2013-11-27 | 2015-06-03 | 杜比实验室特许公司 | 音频信号处理 |
US9817634B2 (en) * | 2014-07-21 | 2017-11-14 | Intel Corporation | Distinguishing speech from multiple users in a computer interaction |
KR102262853B1 (ko) * | 2014-09-01 | 2021-06-10 | 삼성전자주식회사 | 복수의 마이크를 포함하는 전자 장치 및 이의 운용 방법 |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
WO2017007848A1 (en) | 2015-07-06 | 2017-01-12 | Dolby Laboratories Licensing Corporation | Estimation of reverberant energy component from active audio source |
US10244317B2 (en) | 2015-09-22 | 2019-03-26 | Samsung Electronics Co., Ltd. | Beamforming array utilizing ring radiator loudspeakers and digital signal processing (DSP) optimization of a beamforming array |
US10070661B2 (en) | 2015-09-24 | 2018-09-11 | Frito-Lay North America, Inc. | Feedback control of food texture system and method |
US10598648B2 (en) | 2015-09-24 | 2020-03-24 | Frito-Lay North America, Inc. | Quantitative texture measurement apparatus and method |
US9541537B1 (en) | 2015-09-24 | 2017-01-10 | Frito-Lay North America, Inc. | Quantitative texture measurement apparatus and method |
US10969316B2 (en) | 2015-09-24 | 2021-04-06 | Frito-Lay North America, Inc. | Quantitative in-situ texture measurement apparatus and method |
US10107785B2 (en) | 2015-09-24 | 2018-10-23 | Frito-Lay North America, Inc. | Quantitative liquid texture measurement apparatus and method |
US11243190B2 (en) | 2015-09-24 | 2022-02-08 | Frito-Lay North America, Inc. | Quantitative liquid texture measurement method |
US9996316B2 (en) * | 2015-09-28 | 2018-06-12 | Amazon Technologies, Inc. | Mediation of wakeword response for multiple devices |
US10412490B2 (en) | 2016-02-25 | 2019-09-10 | Dolby Laboratories Licensing Corporation | Multitalker optimised beamforming system and method |
EP3468514B1 (en) | 2016-06-14 | 2021-05-26 | Dolby Laboratories Licensing Corporation | Media-compensated pass-through and mode-switching |
US20170365271A1 (en) | 2016-06-15 | 2017-12-21 | Adam Kupryjanow | Automatic speech recognition de-reverberation |
JP7404067B2 (ja) | 2016-07-22 | 2023-12-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送 |
US10431211B2 (en) | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
CN109413543B (zh) * | 2017-08-15 | 2021-01-19 | 音科有限公司 | 一种源信号提取方法、***和存储介质 |
CN107396158A (zh) * | 2017-08-21 | 2017-11-24 | 深圳创维-Rgb电子有限公司 | 一种声控交互装置、声控交互方法和电视机 |
US10388268B2 (en) * | 2017-12-08 | 2019-08-20 | Nokia Technologies Oy | Apparatus and method for processing volumetric audio |
US10522167B1 (en) * | 2018-02-13 | 2019-12-31 | Amazon Techonlogies, Inc. | Multichannel noise cancellation using deep neural network masking |
WO2019198306A1 (ja) * | 2018-04-12 | 2019-10-17 | 日本電信電話株式会社 | 推定装置、学習装置、推定方法、学習方法及びプログラム |
EP3579020B1 (de) * | 2018-06-05 | 2021-03-31 | Elmos Semiconductor SE | Verfahren zur erkennung eines hindernisses mit hilfe von reflektierten ultraschallwellen |
US20200184994A1 (en) * | 2018-12-07 | 2020-06-11 | Nuance Communications, Inc. | System and method for acoustic localization of multiple sources using spatial pre-filtering |
US11049509B2 (en) | 2019-03-06 | 2021-06-29 | Plantronics, Inc. | Voice signal enhancement for head-worn audio devices |
TWI699090B (zh) * | 2019-06-21 | 2020-07-11 | 宏碁股份有限公司 | 訊號處理裝置、訊號處理方法及非暫態電腦可讀取記錄媒體 |
US10735887B1 (en) * | 2019-09-19 | 2020-08-04 | Wave Sciences, LLC | Spatial audio array processing system and method |
JP7486145B2 (ja) * | 2019-11-21 | 2024-05-17 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
JP7217716B2 (ja) | 2020-02-18 | 2023-02-03 | Kddi株式会社 | 複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法 |
CN112037813B (zh) * | 2020-08-28 | 2023-10-13 | 南京大学 | 一种针对大功率目标信号的语音提取方法 |
CN114550734A (zh) * | 2022-03-02 | 2022-05-27 | 上海又为智能科技有限公司 | 音频增强方法和装置、计算机存储介质 |
CN114636971B (zh) * | 2022-04-26 | 2022-08-16 | 海南浙江大学研究院 | 一种水听器阵列数据远场信号分离方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1081985A2 (en) * | 1999-09-01 | 2001-03-07 | TRW Inc. | Microphone array processing system for noisly multipath environments |
US6339758B1 (en) * | 1998-07-31 | 2002-01-15 | Kabushiki Kaisha Toshiba | Noise suppress processing apparatus and method |
US20050047611A1 (en) * | 2003-08-27 | 2005-03-03 | Xiadong Mao | Audio input system |
CN101800919A (zh) * | 2009-01-16 | 2010-08-11 | 三洋电机株式会社 | 音响信号处理装置及再现装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69611987T2 (de) * | 1995-09-22 | 2001-10-18 | Koninkl Philips Electronics Nv | Übertragungssystem mit zeitabhängigen filterbänken |
JP3910898B2 (ja) | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
US7174022B1 (en) | 2002-11-15 | 2007-02-06 | Fortemedia, Inc. | Small array microphone for beam-forming and noise suppression |
JP2004258422A (ja) | 2003-02-27 | 2004-09-16 | Japan Science & Technology Agency | 音源情報を用いた音源分離・抽出方法および装置 |
WO2007118583A1 (en) | 2006-04-13 | 2007-10-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal decorrelator |
ATE448638T1 (de) | 2006-04-13 | 2009-11-15 | Fraunhofer Ges Forschung | Audiosignaldekorrelator |
JP2008145610A (ja) | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | 音源分離定位方法 |
US8233353B2 (en) | 2007-01-26 | 2012-07-31 | Microsoft Corporation | Multi-sensor sound source localization |
JP4897519B2 (ja) * | 2007-03-05 | 2012-03-14 | 株式会社神戸製鋼所 | 音源分離装置,音源分離プログラム及び音源分離方法 |
US8131542B2 (en) | 2007-06-08 | 2012-03-06 | Honda Motor Co., Ltd. | Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function |
US8175291B2 (en) | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
WO2010005050A1 (ja) | 2008-07-11 | 2010-01-14 | 日本電気株式会社 | 信号分析装置、信号制御装置及びその方法と、プログラム |
US8391507B2 (en) | 2008-08-22 | 2013-03-05 | Qualcomm Incorporated | Systems, methods, and apparatus for detection of uncorrelated component |
US8724829B2 (en) | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
EP2211563B1 (en) | 2009-01-21 | 2011-08-24 | Siemens Medical Instruments Pte. Ltd. | Method and apparatus for blind source separation improving interference estimation in binaural Wiener filtering |
US8583428B2 (en) * | 2010-06-15 | 2013-11-12 | Microsoft Corporation | Sound source separation using spatial filtering and regularization phases |
-
2011
- 2011-09-23 US US13/243,492 patent/US9100734B2/en not_active Expired - Fee Related
- 2011-10-07 CN CN2011800510507A patent/CN103181190A/zh active Pending
- 2011-10-07 JP JP2013534943A patent/JP2013543987A/ja active Pending
- 2011-10-07 EP EP11770982.4A patent/EP2630807A1/en not_active Withdrawn
- 2011-10-07 WO PCT/US2011/055441 patent/WO2012054248A1/en active Application Filing
- 2011-10-07 KR KR1020137012859A patent/KR20130084298A/ko not_active Application Discontinuation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6339758B1 (en) * | 1998-07-31 | 2002-01-15 | Kabushiki Kaisha Toshiba | Noise suppress processing apparatus and method |
EP1081985A2 (en) * | 1999-09-01 | 2001-03-07 | TRW Inc. | Microphone array processing system for noisly multipath environments |
US20050047611A1 (en) * | 2003-08-27 | 2005-03-03 | Xiadong Mao | Audio input system |
CN101800919A (zh) * | 2009-01-16 | 2010-08-11 | 三洋电机株式会社 | 音响信号处理装置及再现装置 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105981404B (zh) * | 2013-12-11 | 2019-06-04 | 弗朗霍夫应用科学研究促进协会 | 使用麦克风阵列的混响声的提取 |
CN105981404A (zh) * | 2013-12-11 | 2016-09-28 | 弗朗霍夫应用科学研究促进协会 | 使用麦克风阵列的混响声的提取 |
CN106576103A (zh) * | 2014-08-13 | 2017-04-19 | 微软技术许可有限责任公司 | 反向回声抵消器 |
CN106576103B (zh) * | 2014-08-13 | 2020-01-07 | 微软技术许可有限责任公司 | 反向回声抵消器 |
CN107636758A (zh) * | 2015-05-15 | 2018-01-26 | 哈曼国际工业有限公司 | 声学回声消除***和方法 |
CN107636758B (zh) * | 2015-05-15 | 2022-05-24 | 哈曼国际工业有限公司 | 声学回声消除***和方法 |
CN105427860A (zh) * | 2015-11-11 | 2016-03-23 | 百度在线网络技术(北京)有限公司 | 远场语音识别方法和装置 |
CN105702261B (zh) * | 2016-02-04 | 2019-08-27 | 厦门大学 | 带相位自校正功能的声聚焦麦克风阵列长距离拾音装置 |
CN105702261A (zh) * | 2016-02-04 | 2016-06-22 | 厦门大学 | 带相位自校正功能的声聚焦麦克风阵列长距离拾音装置 |
CN106019232A (zh) * | 2016-05-11 | 2016-10-12 | 北京地平线信息技术有限公司 | 声源定位***和方法 |
CN106019232B (zh) * | 2016-05-11 | 2018-07-10 | 北京地平线信息技术有限公司 | 声源定位***和方法 |
CN105976822A (zh) * | 2016-07-12 | 2016-09-28 | 西北工业大学 | 基于参数化超增益波束形成器的音频信号提取方法及装置 |
CN107690119A (zh) * | 2016-08-05 | 2018-02-13 | 奥迪康有限公司 | 配置成定位声源的双耳听力*** |
CN107690119B (zh) * | 2016-08-05 | 2021-06-29 | 奥迪康有限公司 | 配置成定位声源的双耳听力*** |
WO2019080551A1 (zh) * | 2017-10-23 | 2019-05-02 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
US11308974B2 (en) | 2017-10-23 | 2022-04-19 | Iflytek Co., Ltd. | Target voice detection method and apparatus |
CN107785029A (zh) * | 2017-10-23 | 2018-03-09 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
CN110136733A (zh) * | 2018-02-02 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 一种音频信号的解混响方法和装置 |
CN110888112A (zh) * | 2018-09-11 | 2020-03-17 | 中国科学院声学研究所 | 一种基于阵列信号的多目标定位识别方法 |
CN110211601A (zh) * | 2019-05-21 | 2019-09-06 | 出门问问信息科技有限公司 | 一种空域滤波器参数矩阵的获取方法、装置及*** |
CN110133572A (zh) * | 2019-05-21 | 2019-08-16 | 南京林业大学 | 一种基于Gammatone滤波器和直方图的多声源定位方法 |
CN110415718A (zh) * | 2019-09-05 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN110415718B (zh) * | 2019-09-05 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20130084298A (ko) | 2013-07-24 |
JP2013543987A (ja) | 2013-12-09 |
EP2630807A1 (en) | 2013-08-28 |
US20120099732A1 (en) | 2012-04-26 |
US9100734B2 (en) | 2015-08-04 |
WO2012054248A1 (en) | 2012-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103181190A (zh) | 用于远场多源追踪和分离的***、方法、设备和计算机可读媒体 | |
Brandstein et al. | A practical methodology for speech source localization with microphone arrays | |
CN103339961B (zh) | 用于通过声波三角测量进行空间性选择声音获取的装置及方法 | |
Freiberger | Development and evaluation of source localization algorithms for coincident microphone arrays | |
US9291697B2 (en) | Systems, methods, and apparatus for spatially directive filtering | |
AU2005200699B2 (en) | A system and method for beamforming using a microphone array | |
Perotin et al. | Multichannel speech separation with recurrent neural networks from high-order ambisonics recordings | |
CN110140360B (zh) | 使用波束形成的音频捕获的方法和装置 | |
CN110140359B (zh) | 使用波束形成的音频捕获 | |
Delikaris-Manias et al. | Signal-dependent spatial filtering based on weighted-orthogonal beamformers in the spherical harmonic domain | |
US11483646B1 (en) | Beamforming using filter coefficients corresponding to virtual microphones | |
Nakadai et al. | Sound source tracking with directivity pattern estimation using a 64 ch microphone array | |
Bianchi et al. | High resolution imaging of acoustic reflections with spherical microphone arrays | |
Firoozabadi et al. | Combination of nested microphone array and subband processing for multiple simultaneous speaker localization | |
Ishi et al. | Integration of multiple microphone arrays and use of sound reflections for 3D localization of sound sources | |
Brutti et al. | An environment aware ML estimation of acoustic radiation pattern with distributed microphone pairs | |
Mendoza et al. | An Adaptive Algorithm for Speaker Localization in Real Environments using Smartphones | |
Kowalczyk et al. | Generating virtual microphone signals in noisy environments | |
Bountourakis et al. | Underwater soundfield visualisation using directionally constrained acoustic parameters | |
Milano et al. | Sector-Based Interference Cancellation for Robust Keyword Spotting Applications Using an Informed MPDR Beamformer | |
Hil'ovský et al. | MAPL-microphone array processing library | |
Pertilä et al. | Increasing the environment-awareness of rake beamforming for directive acoustic sources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130626 |