CN105516846A

CN105516846A - 用于优化耳机中的噪声消除的方法及用于话音通信的耳机

Info

Publication number: CN105516846A
Application number: CN201510645495.8A
Authority: CN
Inventors: 拉斯穆斯·孔斯格德·奥尔森; 马丁·龙
Original assignee: GN Netcom AS
Current assignee: GN Audio AS
Priority date: 2014-10-08
Filing date: 2015-10-08
Publication date: 2016-04-20
Anticipated expiration: 2035-10-08
Also published as: US20180167754A1; EP3007170A1; US10225674B2; CN105516846B; US20160105755A1

Abstract

公开了一种用于优化耳机中的噪声消除的方法及用于话音通信的耳机，耳机包括头戴受话器和包括至少第一麦克风和第二麦克风的麦克风单元，该方法包括：从至少第一麦克风生成至少第一音频信号；从至少第二麦克风生成至少第二音频信号；通过过滤并求和第一音频信号的至少一部分和第二音频信号的至少一部分来生成噪声消除输出，其中，过滤自适应地配置为持续使噪声消除输出的功率最小化，并且其中，过滤自适应地配置为持续提供至少噪声消除输出的对应于从至少一个麦克风中生成的基准音频信号的语音部分的振幅频谱。

Description

用于优化耳机中的噪声消除的方法及用于话音通信的耳机

技术领域

本发明通常涉及一种用于优化耳机中的噪声消除的方法，耳机包括头戴受话器和包括至少第一麦克风和第二麦克风的麦克风单元。更概括地说，该方法涉及：从至少第一麦克风生成至少第一音频信号，其中，第一音频信号包括来自耳机的用户的语音部分和来自周围的噪声部分；以及从至少第二麦克风生成至少第二音频信号，其中，第二音频信号包括来自耳机的用户的语音部分和来自周围的噪声部分。

背景技术

噪声消除麦克风被用于减小具有麦克风吊杆的耳机中的背景噪声。

噪声消除麦克风的性能取决于其相对于耳机用户的嘴的定位-其被校准为相对于嘴的一个特定距离和角度。当噪声消除麦克风被错误地放置时，例如，当麦克风吊杆指向嘴以下或以上时，语音拾取特征，诸如嘴对线(mouth-to-line)传递功能改变。灵敏度明显降低，意味着传输的语音不可接受地轻柔。另一方面，噪声拾取相对不受麦克风的错位的影响，导致传输信号中的信噪比减小。语音拾取的频率响应也可能由于错位而改变，传输语音的低频率相对于高频率而衰减。

噪声消除麦克风的基本限制在于空间灵敏度在生产时已固定。如果由于麦克风吊杆的错位，用户语音没有源自预定位置(即，相对于麦克风组件的距离和方向)，所传输信号的信噪比将是次优的。在下面，定位是指嘴与麦克风组件之间的距离以及麦克风组件的定向。

全向麦克风对定位不太敏感。这意味着在麦克风吊杆错误定位的情况下，相对于使用全向麦克风，使用噪声消除麦克风是不利的。

经验显示，耳机的用户常常错误地放置他们的麦克风，因此需要替代解决方案。

双麦克风DSP解决方案(在下面称作波束形成器)由麦克风组件中的两个全向麦克风组成，其可以取代并改进噪声消除麦克风。这在很大程度上通过保持自适应空间灵敏度以适合麦克风吊杆/麦克风对的所有或者一些定位来完成。用于这种***的典型全向麦克风利用单个麦克风的振幅和相位响应的变化而产生。另外，麦克风响应响应于温度、湿度、机械冲击及其他因素(漂移)而随时间无法预料地改变。如果要实现满意的噪声消除性能，则不能忽视响应变化。根据具体的噪声消除应用，可以代表不同问题集的两种方式之一来处理麦克风灵敏度的变化：

1.通过需要对于距离和/或角度而言的已知位置处的一个或多个主动声源的一些过程来校准麦克风灵敏度。校准可以在生产时进行或者在***的使用中进行。校准工具可以用作制造过程的一部分。如果麦克风吊杆/噪声消除麦克风处于相对于嘴已知的位置处，则可以使用用户语音。如果已知关于背景噪声的某些特征，则可以使用背景噪声。该方法不处理漂移。

2.使用对于麦克风敏感度和麦克风吊杆/麦克风对的位置的所有情况都固有地能最佳工作并且不明确或者隐含计算位置或者错位的***。该***为了校准的目的在任何时候都不依赖已知位置的声源，因为在噪声消除应用的寿命中未出现这种情形。因为麦克风灵敏度和麦克风吊杆/麦克风对的位置是共同涉及且不可分割的影响(参见下文)，所以不可能明确地或者隐含地从麦克风灵敏度或者麦克风吊杆/麦克风对的位置的观察信号提取信息。

US7346176(Plantronics)和US7561700(Plantronics)公开了检测麦克风装置是否相对于声源错误地定位并且自动补偿这种错位的***和方法。定位评估电路确定麦克风装置是否错误定位。控制器促进错位的自动补偿。该***和方法需要对麦克风进行预校准。

US8693703(GNNetcom)公开了使至少两个音频信号结合以生成增强的***输出信号的方法。该方法包括步骤：a)使用第一变换器(诸如第一麦克风)测量第一空间位置处的声音信号，以生成包括第一目标信号部分和第一噪声信号部分的第一音频信号，b)使用第二变换器(诸如第二麦克风)测量第二空间位置处的声音信号，以生成包括第二目标信号部分和第二噪声信号部分的第二音频信号，c)处理第一音频信号以使第一目标信号与第二目标信号在预定频率范围内相位匹配且振幅匹配并且生成第一处理输出，d)计算第二音频信号与第一处理输出之间的差以生成减成输出，e)计算第二音频信号与第一处理输出之间的总和以生成加成输出，f)处理减成输出以使噪声信号部分对***输出信号的贡献最小化并且生成第二处理输出，和g)计算加成输出与第二处理输出之间的差以生成***输出信号。

因此，不考虑麦克风的位置，使用未校准的麦克风获得耳机中的稳健的和最佳的噪声消除仍然是问题。

发明内容

本发明公开了一种用于优化耳机中的噪声消除的方法，耳机包括头戴受话器和包括至少第一麦克风和第二麦克风的麦克风单元，该方法包括：

-从至少第一麦克风生成至少第一音频信号，其中，第一音频信号包括来自耳机的用户的语音部分和来自周围的噪声部分；

-从至少第二麦克风生成至少第二音频信号，其中，第二音频信号包括来自耳机的用户的语音部分和来自周围的噪声部分；

-通过过滤(filter，滤波)并求和第一音频信号的至少一部分和第二音频信号的至少一部分生成噪声消除输出，

其中，过滤自适应地(adaptively适应性地)配置为持续地使噪声消除输出的功率最小化，并且

其中，过滤自适应地配置为持续地提供至少噪声消除输出的对应于从至少一个麦克风中生成的基准音频信号的语音部分的语音部分的振幅频谱。

因此，优势是过滤自适应地配置为持续地提供至少噪声消除输出的对应于从至少一个麦克风中生成的基准音频信号的语音部分的语音部分的振幅频谱，因为由此在保持语音的同时消除噪声。因此，语音未被消除，而语音消除是现有技术中耳机执行噪声消除的问题。

这里描述的方法提供上述的问题的解决方案。该方法通过提供一种噪声消除方法来解决这个问题，该噪声消除方法的优势是避免依赖工厂校准，工厂校准需要时间成本并且工厂校准无法处理麦克风漂移。此外，该方法在解决该问题时避免了使用用户语音用于校准时必须设定麦克风吊杆和/或麦克风对处于特定位置，并且这是优势，因为难以或甚至不可能假设背景噪声的任何特征。而且，该方法对于所有的麦克风位置都是最佳的。

如果放置得接近嘴，耳机中的噪声消除麦克风***则具有减小周围环境的噪声的最大潜力并且这需要长的麦克风吊杆。噪声消除麦克风***可以通过放置得接近嘴而以更多的方式产生益处：接近嘴是来自嘴的语音信号与来自周围环境的噪声信号之间的最高比率。接近嘴，语音信号的振幅还由于与嘴的距离而减小且同时噪声信号的振幅几乎保持不变。噪声消除麦克风***捕获空间中的两点处的声压。如果两点在相对于嘴径向的线上定向，则语音振幅在这两点处不同。然而，来自周围环境的噪声振幅实际上在两点处相同。噪声消除麦克风利用该性质(即，语音振幅在两点处不同)来辨别语音与噪声。语音振幅中的该差异通过与嘴的距离的增加而减小。因此，在与嘴较远的距离处，例如，如果噪声消除麦克风***装配在短麦克风吊杆中，则噪声消除麦克风变得不太有效。因此，此处所公开的方法在能够将噪声消除麦克风***定位得接近嘴的长麦克风吊杆中尤其有利。

在耳机具有长麦克风吊杆的现有技术中，问题是如果用户没有根据理想的位置布置麦克风吊杆，从那以后耳机的性能严重地降低，这是因为耳机的设置和/或处理器假设麦克风吊杆且因此麦克风布置最优，即接近用户的嘴。耳机用户没有正确地布置麦克风吊杆(即，使麦克风接近嘴)是普遍的问题。本发明的方法解决该问题，因为该方法不做关于麦克风位置的任何假设。

利用例如长麦克风吊杆，根据具有麦克风的麦克风吊杆相对于用户的嘴所布置的位置，在来自用户的语音部分的振幅方面将有大的差异。然而，在噪声部分的振幅方面没有差异或者仅很小的差异，因此无论麦克风吊杆和麦克风相对于用户的嘴布置在何处，噪声部分基本上是相同的。这是由于噪声来自周围环境，即来自多个方向且来自远场。语音仅来自用户的嘴，即来自接近于空间中的处于麦克风的近场的一个点，这意味着麦克风处的语音部分的振幅是不同的。

如果麦克风吊杆位置改变，噪声消除麦克风***也可以改变它相对于嘴的距离和方位。在简单、固定的噪声消除麦克风中，改变它的输出信号中的语音振幅将具有强烈的影响。全向麦克风在它的输出信号的语音振幅中将显示出较小的变化。当使用全向麦克风时，自适应地配置的噪声消除麦克风***可以使用它的两个全向麦克风中的一个作为用于语音的基准麦克风并约束噪声消除，以传输具有与语音基准的振幅相似的振幅的噪声消除语音。

当麦克风吊杆位置改变时，与麦克风吊杆端部最近的前麦克风与嘴的距离改变的可能比麦克风吊杆上的后麦克风多。另一方面，嘴与后麦克风之间的距离变化较小并且后麦克风处的语音振幅也是如此。因此，后麦克风有利于提供语音基准。

而且，现有技术的耳机中的问题是，麦克风在派送至用户之前在工厂被校准，并且因为麦克风特征由于许多原因，诸如使用、磨损、热量等而可能随时间改变，所以麦克风经过一段时间后可能未正确地校准。本发明的方法解决该问题，因为该方法不做关于麦克风灵敏度、电子设备等的任何假设。

可以利用A/D转换器在16kHz的频率(fx)下进行采样。

过滤配置为持续自适应地使噪声消除输出的功率最小化。持续可意味着不间断地和有规律地，当在一个麦克风中检测或者接收到语音时，诸如每秒一次或多次，诸如每200毫秒。优选地，可以在整个时间段进行过滤。因此，持续地进行过滤的自适应，诸如通过话音活动检测器(VAD)和/或通过非话音活动检测器(NVAD)激活和停用。

通常，自适应滤波器或者自适应滤波器算法的核心部分可能不了解什么是语音和什么是噪声。其可以仅自适应地修改滤波器使得输出最小化。然而，通过将自适应滤波器放在不能减小输入的语音分量的构造中，然后有效地使输出最小化与使输出中的噪声分量最小化是相同的。该性质通常称作对过滤的约束。

在通过广义旁瓣消除(GSC)计算自适应地配置一个或多个音频信号的过滤的情况下，自适应滤波器可以仅过滤并减去已经语音消除的信号。从而，自适应滤波器可以不或者不能修改语音分量，且因此使输出最小化导致使输出中的噪声最小化。

在通过最小方差无失真响应(MVDR)计算自适应地配置一个或多个音频信号的过滤的情况下，导向矢量可以表示该约束。

因此，使输出功率最小化导致输出中的噪声最小化。

术语“对应于”可以定义或者理解为“与…一样”或者“与…相等”，因此，特征“过滤自适应地配置为持续提供至少噪声消除输出的对应于从至少一个麦克风中生成的基准音频信号的语音部分的语音部分的振幅频谱”可以称为“过滤自适应地配置为持续提供至少噪声消除输出的与从至少一个麦克风中生成的基准音频信号的语音部分一样和/或相等的语音部分的振幅频谱”。

通过将噪声抑制应用至波束形成器的输出可以有利地使波束形成与噪声抑制器相结合。这是由于用户语音与外界噪声的比率(信噪比(SNR))在波束形成器的输出中得到改善。因为来自噪声抑制的不期望的处理瑕疵的水平通常取决于SNR，瑕疵减少源于波束形成与噪声抑制的结合。

通常，噪声抑制可以如在Proc.IEEEInt.Conf.Acoust.SpeechSignalProcessing，1983，1118-1121页中的Y.Ephraim和D.Malah的“Speechenhancementusingoptimalnon-linearspectralamplitudeestimation”中描述的或者如在关于噪声抑制技术的其他文献中所描述的那样来实施。通常，时变滤波器应用于信号。分析和/或过滤常常在以多个频带表示信号的频率变换域/滤波器库中实现。在每个表示的频率处，根据估计的期望信号与噪声分量的关系计算时变增益，例如，当估计的信噪比超过预定的、自适应的或者固定的阈值时，增益引导朝向1。相反地，当估计的信噪比没有超过阈值时，增益被设置为小于1的值。

通常，估计信号与噪声关系的方式基于跟踪噪声层，其中，通过明显超过噪声层电平的信号部分识别语音或者有噪声的语音。例如，可以通过最小化统计估计噪声电平，如在2001年7月的Trans.onSpeechandAudioProcessing第5期第9卷中R.Martin的“NoisePowerSpectralDensityEstimationBasedonOptimalSmoothingandMinimumStatistics”中所披露的，其中，自适应地估计最小信号电平。

识别信号和噪声部分的其他方式基于计算多个麦克风空间特征，诸如方向性和接近度，参见2004年7月的IEEETransactionsonSignalProcessing第7期第52卷1830-1847页中O.Yilmaz和S.Rickard的“BlindSeparationofSpeechMixturesviaTime-FrequencyMasking”，，或者相干性，参见2001年MicrophoneArrays.SpringerBerlinHeidelberg第39-60页中K.Simmer等人的“Post-filteringtechniques”。还可以应用将信号分解为码本时间/频率曲线的词典方法，参见M.Schmidt和R.Olsson的“Single-channelspeechseparationusingsparsenon-negativematrixfactorization，”Interspeech，2006。

该方法可以包括麦克风输出数字信号；在多频带中执行数字信号至时频表示法的变换；和执行至少组合信号至时域表示的逆变换。

可以通过应用于预定持续时间的信号块的快速傅里叶变换(FFT)执行变换。该变换可以包括应用汉宁(Hann)窗口或者另一类型的窗口。时域信号可以经由逆快速傅里叶变换(IFFT)而从时频表示进行重构。

预定持续时间的信号块可以具有50％重叠的8ms的持续时间，这意味着每4ms计算变换、适应更新、噪声减小更新和时域信号重构。然而，其他持续时间和/或更新间隔是可能的。数字信号可以是多倍过采样率的一位信号、或者两位或三位信号或者8位、10位、12位、16位或24位信号。

在替代的实现/实施方式中，所有或者部分***可以直接在时域中操作。例如，噪声抑制可以通过FIR或者IIR过滤、波束形成和在频域中计算的噪声抑制滤波器系数而应用于时域信号。

该方法可以包括麦克风输出模拟信号；执行模拟信号的模数转换以提供数字信号；在多频带中执行数字信号至时频表示的变换；以及执行至少组合信号至时域表示的逆变换。

关于在背景部分中引用的现有技术，其中，两件专利US7346176和US7561700主张类型1问题的解决方案，如在问题陈述部分描述的，但是未主张类型2问题的解决方案并且在现有技术中描述的方法不能解决类型2问题，本申请中要求保护的方法可以解决类型2问题。

US7346176和US7561700与类型2问题不兼容，其所主张的方法无法应用，因为现有技术需要计算定位或者错位的测量，例如，现有技术主张“定位估计电路，耦接为从第一麦克风和第二麦克风接收音频信号，并且适配为从来自第一麦克风和第二麦克风的音频信号产生误差信号以表示拾声设备相对于希望的位置的成角度的和/或距离错位。对于已经描述的原因，在问题类型2中，不可能计算位置或者错位的切合实际的测量和本申请的方法没有这样做。

因此，现有技术US7346176和US7561700描述的解决方案所解决的问题与本发明方法所解决的问题不同。现有技术通过需要在某些时间点用于校准的条件的校准麦克风“观察到”声场，然而本申请的方法没有。本申请的方法解决更加困难的问题，其从不需要访问(access，获得)允许对麦克风进行校准的条件。

在一些实施方式中，基准音频信号是第一音频信号，或者第二音频信号，或者第一音频信号和第二音频信号的加权平均值，或者第一音频信号和第二音频信号的滤波求和组合。

在一些实施方式中，至少噪声消除输出的对应于基准音频信号的语音部分的语音部分的振幅频谱包括至少噪声消除输出与基准音频信号的语音部分成比例的或者相似的语音部分的振幅频谱。

在一些实施方式中，噪声消除配置为在执行时不考虑/独立于/不管麦克风的位置和/或灵敏度。

在一些实施方式中，通过至少一个波束形成器执行一个或多个音频信号的过滤。

在一些实施方式中，通过广义旁瓣消除(GSC)计算自适应地配置一个或多个音频信号的过滤。

参见例如2009年7月，第388页，IvanTashev；SoundCaptureandProcessing：PracticalApproaches，Wiley，广义旁瓣消除是指具有嵌入处理结构以保存有价值的信号的约束的波束形成器，有价值的信号在耳机使用情形中指的是用户语音。

GSC具有两个计算分支：

第一分支是基准分支或者固定的波束形成器，其拾取用户语音和周围环境噪声的混合。基准分支的示例是延迟求和波束形成器，例如，对与用户语音对准的振幅和相位信号求和，或者将其中一个麦克风作为基准。基准分支应当优选地选择/设计成为尽可能对麦克风相对于用户的嘴的定位不灵敏，因为基准分支的用户语音响应确定GSC的用户语音响应，如以下将解释说明的。由于相对而言对于位置和麦克风灵敏度变化相对不灵敏的事实，因此全向麦克风可以是合适的。在多麦克风耳机式麦克风吊杆设计中，后麦克风(接近麦克风吊杆的旋转点而定位，其中，旋转点通常位于或者铰接在耳机的位于用户耳朵处的听筒处)可以是更可取的，因为其对麦克风吊杆的移动不太敏感。因此，优选地，这提供无变化的用户语音信号的振幅频谱。

GSC计算的第二分支计算语音消除信号，其中，信号通过块矩阵过滤并被减成，以尽可能多地减少用户语音信号。

最后，通过GSC自适应地过滤语音消除信号并从基准分支减去该语音消除信号来执行噪声消除，以使输出功率最小化。在理想的情形中，语音消除信号(理想地)不包含用户语音分量，由此产生噪声消除输出的减成没有改变存在于基准分支中的用户语音分量。因此，语音分量的振幅频谱在GSC基准分支和GSC波束形成器的输出可以是相同的或者非常相似的。可谓GSC波束形成器的射束以用户语音为中心。

本方法提供一种装置以确保GSC的语音消除分支一直是最优配置的。如果语音消除滤波器未准确地配置，则用户语音将泄漏到语音消除分支中。因此，GSC噪声消除操作将以不期望的方式改变用户语音响应，即，GSC波束形成器的射束将不再以用户语音为中心。本发明的方法提出持续地适应语音消除滤波器以使泄漏到语音消除分支中的语音泄漏最小化。可以使用能考虑的任何优化流程，例如最小均方(leastmeansquare)，进行最小化流程。通过话音活动检测器可以有利地控制最小化流程以使语音泄漏最小化，从而防止来自周围环境的噪声的干扰。

自适应的语音消除滤波器摸索地结合并补偿起源于麦克风振幅和相位响应、输入端电子响应和声路径响应的麦克风之间的用户语音响应差异。声路径响应取决于麦克风在麦克风吊杆上的位置、麦克风吊杆的位置、给定用户的头部的几何形状和从嘴、肩部反射及其他反射产生的声场。因为所有这些影响是线性的，所以可以根据本发明的方法利用一个共同的线性语音消除滤波器来对其进行处理。

在图1中可以看到GSC***的示例，其中，音频信号107和104分别是基准分支和语音消除分支。语音消除分支通过持续更新语音消除滤波器109以使两个输入与用户声音或者语音分量对准来计算。基准分支通过使对准的输入音频信号102和103求平均来计算。使用固定的滤波器110来调整语音消除分支，以便使噪声消除适应性111保持实时且位于特定数字范围内。另外，可以在无需VAD的情况下运行噪声消除操作。

为了更进一步增加GSC***的稳健性，当检测到用户话音或者语音时，可以采用话音活动检测器来中止或者调节GSC噪声消除滤波器的自适应。以此方式，将进一步防止GSC将噪声消除滤波器适应为非有意地消除用户语音。

因此，可以在该方法以及其他***中使用广义旁瓣消除器(GSC)***或者计算，诸如最小方差无失真响应(MVDR)计算或者***。

在一些实施方式中，通过最小方差无失真响应(MVDR)计算自适应地配置一个或多个音频信号的过滤。

最小方差无失真响应(MVDR)是指使受单个线性约束的滤波求和波束形成器的输出功率最小化(参见图4)的波束形成器。解决方案可以通过一步式、闭合式解决方案获得。常常，选择约束或者导向矢量使得波束形成器在观测方向(即，有价值的方向上的射束点)上保持一致的响应。本发明的方法有利地设计导向矢量，使得用户话音或语音分量的振幅频谱在输入(即基准)和MVDR波束形成器的输出处相同。

以下简要概括单个频带的MVDR波束形成器计算。信号模型，i’th输入，

x_i＝c_is+n_i

其中，s和n_i分别是用户语音和i’th周围环境噪声信号，c_i是合并麦克风振幅和相位响应、输入电子响应和声路径响应的完整的i’th复合响应。

滤波求和波束形成器可以写成，

y＝w^Hx

MVDR波束形成器使受标准化约束的输出最小化，

w_MVDR＝argmin_w<y²|>

以w^Ha＝q为条件

MVDR成本函数的闭合式解决方案是，

w_{M V D R} = \frac{C^{- 1} a}{a^{H} C^{- 1} a},

其中，C和a分别是噪声协方差矩阵和导向矢量。

在本发明的一个实施方式中，选择导向矢量a和q＝1以将波束形成器的话音或者语音响应约束为等于‘最好的’基准麦克风。以上描述了对于GSC波束形成器，考虑为了使麦克风吊杆定位稳健而选择最有利的麦克风。

通过使用相对嘴至麦克风传递函数作为导向矢量来实现使波束形成器的话音或者语音响应约束为等于基准(即“最好的”)麦克风，其中

a_{i} = \frac{c_{i}}{c_{r e f}},

其中，分数a_i可以接近于(无需通过估计来自i’th麦克风的复转移函数访问c_i)用户语音分量的基准麦克风。与GSC***类似，这可以使用话音活动检测器(VAD)控制并通过使语音泄漏成本函数最小化实现。

因此，基准麦克风中以及MVDR波束形成器的输出处的用户语音分量相同或者相似。这在以下进行证明：

进一步与GSC***类似，当VAD指示用户语音分量不会对估计造成太多影响时，可以估计并更新噪声协方差矩阵。

导向矢量、估计的噪声协方差和MVDR解决方案可以合适的间隔(例如每4、10或者100ms)进行更新，使计算成本与噪声消除收益平衡。可以向噪声协方差估计添加调整条件(regularizationterm)。

在一些实施方式中，MVDR计算包括持续自适应为音频信号的语音部分的导向矢量。

因此，这是如何适配最小方差无失真响应(MVDR)计算的示例。

在一些实施方式中，MVDR导向矢量被自适应为持续提供至少噪声消除输出的对应于从至少一个麦克风中生成的基准音频信号的语音部分的语音部分的振幅频谱。

在一些实施方式中，MVDR计算包括持续地自适应为音频信号中的噪声部分的噪声协方差矩阵。

在一些实施方式中，该方法包括对噪声消除输出语音信号执行噪声抑制。

在一些实施方式中，该方法包括将语音电平标准化增益应用至噪声消除输出语音信号。

约束为传输与通过基准麦克风捕获的那些相似的语音的噪声消除可以有利地与随后的语音电平标准化(SLN)结合。SLN可以作为输入接收包含一些电平下的语音的信号并将增益应用至该信号以输出具有定义的标准电平下的语音的信号。SLN检测语音的存在和输入电平并计算和应用标准化增益。然而，SLN应该提供的输入电平范围越宽，任务变得越困难并且瑕疵和不正确的增益的风险变得越高。

与简单的、固定的噪声消除相比，约束为传输与通过基准麦克风捕获的那些相似的语音的噪声消除使得通过改变麦克风吊杆位置发生的语音电平的范围减小。SLN可以好很多并且瑕疵较少，使得减少的残留语音电平变化降低。

因此，具有持续使语音电平标准化的增益是优势。在执行实际的噪声消除(如上所述)之后执行或者置入该语音电平标准化增益。语音电平标准化增益将进一步减小fx不同麦克风位置的电平差。

在一些实施方式中，第一麦克风和第二麦克风是未校准的。

在现有技术耳机中，为了使波束形成可靠地工作，必须知道麦克风的精确的相对灵敏度。因为麦克风的灵敏度将随着它们的寿命改变，例如，由于环境因素，所以如果麦克风未定期校准，波束形成将在不久之后工作不佳。本申请的麦克风的优势是不需要校准并且不需要为了准确地工作而重新校准。本申请的方法没有关于麦克风的任何假设，并且该方法对未校准的麦克风也适用。

在一些实施方式中，第一麦克风是耳机的麦克风吊杆的前麦克风并且第二麦克风是耳机的麦克风吊杆的后麦克风。

在一些实施方式中，前麦克风和后麦克风沿着麦克风吊杆的纵轴布置，使得前麦克风配置为布置得比后麦克风更接近用户的嘴。

前麦克风可以布置在麦克风吊杆的端部，且后麦克风可以布置在前麦克风与头戴受话器之间。

在一些实施方式中，麦克风沿着从用户的嘴至周围环境的轴线而布置。

在一些实施方式中，第一麦克风和/或第二麦克风是全向麦克风。

在一些实施方式中，第一麦克风和第二麦克风隔开一距离布置，使得第一音频信号中的语音部分和第二音频信号中的语音部分不同。

可以在耳机的所有***或者滤波器中持续执行过滤，并且当检测到语音时持续地自适应广义旁瓣消除器(GSC)中的其中一个滤波器。

在一些实施方式中，当检测到来自用户的语音时执行一个或多个音频信号的至少一部分的过滤的自适应。

在一些实施方式中，当检测到来自用户的语音时，持续自适应一个或多个音频信号的GSC语音消除过滤。

因此，通过GSC计算持续自适应一个或多个音频信号的过滤。

在一些实施方式中，当检测到来自用户的语音时执行MVDR中的导向矢量的自适应。

在一些实施方式中，通过话音活动检测器(VAD)检测语音。

单输入类型的话音活动检测器(VAD)可以被配置为通过接收输入信号并计算输入信号的幅度的缓慢变化平均值来估计噪声层电平N。当信号的幅度暂时超过估计的噪声层一预定义因数，比方说，10dB时，比较器可以输出指示语音信号的存在的信号。当检测到语音的存在时，VAD可以中止噪声层估计。当噪声是似稳定的并且当语音的幅度充分超过估计的噪声层时，这种语音检测器工作。这种话音活动检测器可以在有限带宽信号或者在多频带操作以生成从多频带集合的话音活动信号。当话音活动检测器在多频带工作时，其可以输出用于各自的多频带的多话音活动信号。

多输入类型的话音活动检测器(VAD)可以被配置为计算指示多个信号之间的相干性的信号。例如，由于嘴比噪声源更接近麦克风，语音信号可以呈现麦克风之间的更高级别的相干性。其他类型的话音活动检测器基于计算空间特征或者诸如方向性和接近度的线索，以及将信号分解为码本时间/频率曲线的词典方法。

在一些实施方式中，当未检测到来自用户的语音时执行一个或多个音频信号的至少一部分的过滤的自适应。

在一些实施方式中，当未检测到来自用户的语音时执行噪声协方差/部分的自适应。

在一些实施方式中，当未检测到来自用户的语音时执行噪声协方差输入(noisecovarianceinput，噪声协方差矩阵输入)至(对于)MVDR计算的自适应。

因此，计算噪声协方差输入以由MVDR计算使用。

在一些实施方式中，通过非话音活动检测器(NVAD)检测噪声和/或非语音。

在一些实施方式中，当检测到不存在来自用户的语音时执行通过噪声功率最小化的滤波器自适应。

在一些实施方式中，当检测到不存在来自用户的语音时，执行GSC噪声消除滤波器自适应。

因此，通过GSC计算执行通过噪声功率最小化的噪声消除滤波器适应。

在一些实施方式中，该方法包括使第一音频信号标准化至第二音频信号。

在一些实施方式中，该方法包括使第一音频信号的语音部分标准化至第二音频信号的语音部分。

当使第一音频信号的语音部分标准化至第二音频信号的语音部分时，还可能影响第一音频信号的噪声部分，诸如标准化至第二音频信号的噪声部分。

在一些实施方式中，使第一音频信号的语音部分标准化至第二音频信号的语音部分包括延迟并衰减第一音频信号。

在一些实施方式中，过滤一个或多个音频信号的至少一部分包括提供FIR滤波器和/或增益/延迟操作。

本发明涉及包括以上和在下面描述的方法，和对应的方法、设备、耳机、头戴受话器、***、全套工具、使用和/或产品装置的不同的方面，每一个均产生结合第一提到的方面描述的一种或多种益处和优势，并且各自具有对应于结合第一提到的方面描述的和/或在所附权利要求中公开的实施方式的一个或多个实施方式。

具体地，本文中公开的是用于话音通信的耳机，该耳机包括：

扬声器，

至少第一麦克风和第二麦克风，用于拾取进来的声音并且生成至少部分地来自至少第一麦克风生成的第一音频信号和至少部分地来自至少第二麦克风的第二音频信号，其中，第一音频信号和第二音频信号包括来自耳机的用户的语音部分和来自周围的噪声部分；

信号处理器，被配置为：

通过过滤并求和第一音频信号的至少一部分和第二音频信号的至少一部分生成噪声消除输出，

其中，过滤自适应地被配置为持续使噪声消除输出的功率最小化，并且

其中，过滤自适应地配置为持续提供至少噪声消除输出的对应于从至少一个麦克风中生成的基准音频信号的语音部分的语音部分的振幅频谱。

在一些实施方式中，耳机进一步包括麦克风吊杆并且其中，至少第一麦克风和第二麦克风沿着麦克风吊杆定位成使得第一麦克风是麦克风吊杆的前麦克风且第二麦克风是麦克风吊杆的后麦克风。

在一些实施方式中，第一麦克风和第二麦克风是未校准的。

在一些实施方式中，麦克风吊杆围绕固定点可旋转，其中，该固定点被适配为布置在耳机的用户的耳朵处。

在一些实施方式中，麦克风吊杆是可调节的，诸如麦克风吊杆配置为具有可调节的长度、可调节的旋转角度、和/或可调节的麦克风位置。麦克风吊杆可以灵活地移动，诸如在任一方向或者所有方向旋转和转向。

在一些实施方式中，麦克风吊杆具有等于或大于100mm的长度。

因此，麦克风吊杆可以具有至少100mm，诸如至少110mm、120mm、130mm、140mm、150mm的长度。具有这些长度的麦克风吊杆也称作长麦克风吊杆并且通常用于办公室耳机和呼叫中心耳机。

根据一方面，公开了一种用于执行耳机中的噪声消除的方法，耳机包括头戴受话器和包括至少第一麦克风和第二麦克风的麦克风单元，该方法包括：

--从至少第一麦克风生成至少第一音频信号，其中，第一音频信号包括来自耳机的用户的语音部分和来自周围的噪声部分；

-持续使第一音频信号相对于第二音频信号标准化以提供第三音频信号，其中，对语音部分执行标准化，借此，第三音频信号的语音部分对应于第二音频信号的语音部分；

-从第二音频信号减去第三音频信号以提供包含第三音频信号与第二音频信号之间的噪声差异的第四音频信号；

-持续过滤第四音频信号以提供包括对应于第二音频信号的噪声部分的噪声部分的第五音频信号；

-通过从包括第二音频信号的至少一部分的第六音频信号减去第五音频信号来获得噪声消除输出语音信号。

执行过滤以自适应地使噪声差异的功率或者其他度量最小化。

根据另一方面，公开了一种用于无论麦克风位置和/或麦克风灵敏度如何而优化耳机中的噪声消除的方法，耳机包括头戴受话器和包括至少第一麦克风和第二麦克风的麦克风单元，改方法包括：

在第一滤波器中过滤第一音频信号以生成第一过滤的音频信号，第一滤波器包括至少依赖麦克风灵敏度的组件和/或依赖麦克风位置的组件；

-处理至少第一过滤的音频信号的语音部分和至少第二音频信号的语音部分以生成反馈信号；

-接收第一过滤器中的反馈信号；

-响应于接收的反馈信号自适应地调节第一滤波器中的至少依赖麦克风灵敏度的组件和/或依赖麦克风位置的组件；以及

-生成噪声消除输出信号。

噪声消除输出信号可以从一种或多种音频信号生成，诸如第一音频信号和/或第二音频信号、第一过滤的音频信号、第二过滤的音频信号、第一音频信号和第二音频信号的加权平均值、和/或第一音频信号和第二音频信号的滤波求和组合。

在一些实施方式中，处理包括生成第一过滤音频信号与第二音频信号之间的噪声差异信号。

在一些实施方式中，第六音频信号包括第二音频信号与第三音频信号的平均值。

这可以是滤波求和。

在一些实施方式中，该方法包括对第二音频信号与第三音频信号求和以获得第七音频信号。由于过滤，这两个音频信号的语音部分基本上是相同的并且因此可以对这些音频信号求和。

在一些实施方式中，该方法包括使第七音频信号乘以或者要求(aver)二分之一(1/2)的因子以提供第六音频信号。因为第六音频信号是第二音频信号和第三音频信号的总和，所以这是可以执行的。

在一些实施方式中，当检测到来自用户的语音时执行第一音频信号相对于第二音频信号的标准化。

当通过话音活动检测器(VAD)检测到来自用户的语音时还可以允许MVDR计算中的导向矢量自适应。

在一些实施方式中，使第一音频信号的标准化和/或过滤第四音频信号是自适应的反馈过程。

在一些实施方式中，第四音频信号的过滤包括使用最小均方算法或者其他优化算法。

在一些实施方式中，使第一音频信号标准化至第二音频信号包括使第一音频信号和第二音频信号相对于声路径、麦克风灵敏度和/或输入电子设备对准。

这是优势，因为麦克风可以不校准。

使第一音频信号和第二音频信号对准可以持续地(诸如有规律地，诸如每秒一次或多次，诸如每200ms一次或多次)执行。

在一些实施方式中，使第一音频信号标准化至第二音频信号包括延迟并衰减第一音频信号的语音部分以对应于第二音频信号的语音部分。

在一些实施方式中，使第一音频信号标准化至第二音频信号包括提供FIR滤波器或者增益/延迟操作。

在一些实施方式中，使第一音频信号标准化至第二音频信号包括提供第一音频信号的语音部分在预定频率范围内相对于第二音频信号的语音部分的相位匹配和/或振幅匹配。

附图说明

本发明的以上和/或另外的目的、特征和优势将通过以下参考附图的本发明的说明性的而非限制性的实施方式的详细说明进一步阐明，其中：

图1示出耳机中的执行用于优化耳机中的噪声消除的方法的音频信号的示图的示例。

图2示出说明了用于优化耳机中的噪声消除的方法的流程图的示例。

图3a)和图3b)示出耳机的示例。

图4示出滤波求和波束形成器的示例。

具体实施方式

在以下描述中，将参考附图进行说明，这些附图通过示意的方式示出本发明可以如何实践。

图1示出耳机中的执行用于优化耳机中的噪声消除的方法的音频信号的示图的示例，耳机包括头戴受话器和包括至少第一麦克风523和第二麦克风524的麦克风单元，该方法包括：

-从至少第一麦克风523生成至少第一音频信号101，其中，第一音频信号101包括来自耳机的用户的语音部分和来自周围的噪声部分；

-从至少第二麦克风524生成至少第二音频信号102，其中，第二音频信号102包括来自耳机的用户的语音部分和来自周围的噪声部分；

-通过过滤W109、H110、K111生成噪声消除输出108，并且求和112、113、114至少第一音频信号101的一部分和至少第二音频信号102的一部分，

其中，过滤109、110、111自适应地配置为持续使噪声消除输出108的功率最小化，并且

其中，过滤109、110、111自适应地配置为至少持续提供噪声消除输出108的对应于从麦克风523、524中至少一个产生的基准音频信号的语音部分的语音部分的振幅频谱。

因此，该方法的波束形成器可以通过滤波器W109、H110和K111产生，包括最佳的，例如，以均方的意义。

为了使输入失配最小化，滤波器W109可以在线自适应为用于对后面或者第二麦克风524进行标准化语音拾取。

滤波器K111(实时的)可以在线适应和滤波器H110可以线下适应用于就均方误差而言接近最佳的噪声消除。

促进并应用双麦克风噪声抑制(NS)115。

可以通过语音电平标准化(SLN)控制增益116。

图1还示出广义旁瓣消除器(GSC)***，其中，音频信号107和104分别是GSC***的基准分支和语音消除分支。语音消除分支通过持续更新语音消除滤波器W109以使两输入关于用户话音或者语音分量对准来计算。基准分支通过对对准的输入、音频信号102和103求平均来计算。语音消除分支使用固定的滤波器H110调整，以便使噪声消除适应性K111保持实时并介于特定数字范围内。另外，噪声消除操作可以无需话音活动检测器(VAD)117而运行。

为了更进一步增加GSC***的稳健性，当检测到用户话音或者语音时可以采用话音活动检测器(VAD)117来中止或者衰减GSC噪声消除滤波器的自适应。以这种方式，将进一步防止GSC对噪声消除滤波器适应而非有意地消除用户语音。

图1还示出用于执行耳机中的噪声消除的方法的示例，耳机包括头戴受话器和包括至少第一麦克风523和第二麦克风524的麦克风单元，该方法包括：

-持续使第一音频信号101相对于第二音频信号102标准化109，以提供第三音频信号103，其中，针对语音部分执行标准化109，借此第三音频信号103的语音部分基本上对应于第二音频信号102的语音部分，因此，滤波器W109延迟并衰减来自第一麦克风523的语音部分，使得语音部分基本上对应于第二麦克风524处的音频信号102；

-从第二音频信号102减去112第三音频信号103以提供包括第三音频信号103与第二音频信号102之间的噪声差的第四音频信号104，并且因为语音部分由于W109处的标准化对于第二音频信号102和第三音频信号103基本上是相同的，所以减成112将导致语音部分消除并且仅剩余噪声部分的差异，这允许滤波器H110和K111的无约束最优化；

-持续过滤110、111第四音频信号104以提供包括对应于第二音频信号102的噪声部分的噪声部分的第五音频信号105；

-通过从包括第二音频信号102的至少一部分的第六音频信号106减去114第五音频信号105获得噪声消除输出语音信号108，其中，第六音频信号106可以是第二音频信号102和第三音频信号103的总和信号107除以2，并且由于在W109中的过滤，语音部分对于第二音频信号和第三音频信号基本上是相同的并且因此可以求和这些音频信号。

图2示出说明了用于优化耳机中的噪声消除的方法的流程图的示例，耳机包括头戴受话器和包括至少第一麦克风和第二麦克风的麦克风单元。

在步骤201中，从至少第一麦克风生成至少第一音频信号，其中，第一音频信号包括来自耳机的用户的语音部分和来自周围的噪声部分。

在步骤202中，从至少第二麦克风生成至少第二音频信号，其中，第二音频信号包括来自耳机的用户的语音部分和来自周围的噪声部分。

在步骤203，通过过滤并求和第一音频信号的至少一部分和第二音频信号的至少一部分而生成噪声消除输出，其中，过滤自适应地配置为持续使噪声消除输出的功率最小化，并且

图3a)和图3b)示出耳机的示例，诸如具有附接的麦克风的头戴受话器。

在图3a)中，耳机或者头戴受话器511包括通过头带514电连接的两个听筒512、513。可移动的缆线505附接在听筒513中。每个听筒512、513均包括耳垫521。麦克风吊杆515包括附接在听筒513上的两个麦克风523、524。两个麦克风可以是与用户的嘴最近的前麦克风523和与用户的嘴较远的后麦克风524。麦克风523、524可以布置在麦克风吊杆上的除附图中示出的之外的其他位置。

在图3b)中，耳机或者头戴受话器511包括具有附接的麦克风吊杆515的一个听筒513，麦克风吊杆515包括两个麦克风523、524。头带522附接至听筒513并且成形为适配在用户头部上。两个麦克风可以是与用户的嘴最近的前麦克风523和与用户的嘴较远的后麦克风524。麦克风523、524可以布置在麦克风吊杆上的除附图中示出的之外的其他位置中。

图4示出滤波求和波束形成器的示例。

最小方差无失真响应(MVDR)是指使受单一线性约束的滤波求和波束形成器的输出功率最小化的波束形成器。

在图4中示出第一麦克风523和第二麦克风524。第一音频信号401从第一麦克风523生成。第二音频信号402从第二麦克风524生成。

分别过滤403和404第一音频信号401和第二音频信号402，并且分别求和407过滤的音频信号405和406，并提供滤波求和输出信号408。

虽然已详细描述并示出一些实施方式，但是本发明不局限于这些实施方式，而且在以下权利要求中限定的主题的范围内还可以其他方式体现。具体地，应该理解的是，可以利用其他实施方式，并且在不背离本发明的范围的前提下可以进行结构或功能上的修改。

在列举多个装置的设备权利要求中，这些装置中的一些可以通过一个硬件及硬件的相同物件来具体体现。在相互不同从属关系的权利要求中叙述的或者在不同的实施方式中描述的特定措施并不意味着不能利用这些措施的组合来获得优势。

应强调的是，当用于该说明书时，术语“包括/含有”用于明确所陈述的特征、整体、步骤或组件的存在，但是不排除一个或多个其他特征、整体、步骤、组件或其组合的存在或增加。

上述的和下列的方法的特征可以在软件中实施并且在数据处理***或者通过计算机可执行指令执行的其他处理装置上执行。这些指令可以是经由计算机网络从存储介质或者从另一计算机加载在内存，诸如RAM中的程序代码装置。可替换地，所描述的特征可以通过代替软件的硬布线电路或者硬布线电路与软件结合来实施。

Claims

1.一种用于优化耳机中的噪声消除的方法，所述耳机包括头戴受话器以及具有至少第一麦克风和第二麦克风的麦克风单元，所述方法包括：

-从所述至少第一麦克风生成至少第一音频信号，其中，所述第一音频信号包括来自所述耳机的用户的语音部分和来自周围的噪声部分；

-从所述至少第二麦克风生成至少第二音频信号，其中，所述第二音频信号包括来自所述耳机的所述用户的语音部分和来自所述周围的噪声部分；

-通过对所述第一音频信号的至少一部分和所述第二音频信号的至少一部分进行过滤并求和来生成噪声消除输出，

其中，所述过滤自适应地配置为持续使所述噪声消除输出的功率最小化，并且

其中，所述过滤自适应地配置为持续提供至少所述噪声消除输出的语音部分的振幅频谱，该语音部分与从至少一个所述麦克风中生成的基准音频信号的语音部分对应。

2.根据权利要求1所述的方法，其中，所述噪声消除配置为与所述麦克风的位置和/或灵敏度无关地执行。

3.根据前述权利要求的任一项或多项所述的方法，其中，一个或多个所述音频信号的所述过滤通过广义旁瓣消除(GSC)计算而自适应地配置。

4.根据前述权利要求的任一项或多项所述的方法，其中，一个或多个所述音频信号的所述过滤通过最小方差无失真响应(MVDR)计算而自适应地配置。

5.根据前述权利要求的任一项或多项所述的方法，其中，所述方法包括对所述噪声消除输出的语音信号执行噪声抑制。

6.根据前述权利要求的任一项或多项所述的方法，其中，所述方法包括将语音电平标准化增益应用至所述噪声消除输出的语音信号。

7.根据前述权利要求的任一项或多项所述的方法，其中，所述第一麦克风是所述耳机的麦克风吊杆的前麦克风并且所述第二麦克风是所述耳机的麦克风吊杆的后麦克风。

8.根据前述权利要求的任一项或多项所述的方法，其中，当检测到来自所述用户的语音时，持续自适应一个或多个所述音频信号的GSC语音消除过滤。

9.根据前述权利要求的任一项或多项所述的方法，其中，当检测到来自所述用户的语音时，执行MVDR中的导向矢量的自适应。

10.根据前述权利要求的任一项或多项所述的方法，其中，当未检测到来自所述用户的语音时，执行噪声协方差输入到所述MVDR计算的自适应。

11.根据前述权利要求的任一项或多项所述的方法，其中，当检测到不存在来自所述用户的语音时，执行GSC噪声消除滤波器的自适应。

12.一种用于话音通信的耳机，所述耳机包括：

扬声器，

至少第一麦克风和第二麦克风，用于拾取进入的声音并生成至少部分地从所述至少第一麦克风生成的第一音频信号和至少部分地从所述至少第二麦克风生成的第二音频信号，其中，所述第一音频信号和所述第二音频信号均包括来自所述耳机的用户的语音部分和来自所述周围的噪声部分；

信号处理器，配置为：

-通过对所述第一音频信号的至少一部分和所述第二音频信号的至少一部分过滤并求和来生成噪声消除输出，

13.根据权利要求12所述的耳机，其中，所述耳机包括麦克风吊杆，其中，所述麦克风吊杆能围绕一固定点旋转，其中，所述固定点适配为布置在所述耳机的用户的耳朵处。

14.根据权利要求12至13中任一项所述的耳机，其中，所述麦克风吊杆是能调节的，诸如所述麦克风吊杆配置为具有能调节的长度、能调节的旋转角度、和/或能调节的麦克风位置。

15.根据权利要求12至14中任一项所述的耳机，其中，所述麦克风吊杆具有等于或大于100mm的长度。