CN203242334U

CN203242334U - 用于电子***的风抑制/替换部件

Info

Publication number: CN203242334U
Application number: CN2011900005908U
Authority: CN
Inventors: 尼古拉斯·佩蒂特; 格雷戈里·伯内特; 迈克尔·格尔茨
Original assignee: AliphCom LLC
Current assignee: AliphCom LLC
Priority date: 2010-05-03
Filing date: 2011-05-03
Publication date: 2013-10-16
Anticipated expiration: 2021-05-03
Also published as: EP2567377A4; EP2567377A1; AU2011248297A1; WO2011140110A1; CA2798282A1

Abstract

减少风对电子***的负面影响的***和方法包含使用接收第一信号的第一检测器和接收第二信号的第二检测器。当第一信号对应于浊语音时，耦接到第一检测器的语音活动检测器（VAD）产生VAD信号。耦接到第二检测器的风检测器使在第二检测器处接收到的信号相关，并且从相关性得出风度量，风度量表征作为声干扰的风噪音，声干扰对应于第二检测器中的气流和气压中的至少一个。风检测器按照多个风度量来控制第二检测器配置。风检测器使用多个风度量以便动态地控制第一信号和第二信号的混合，以产生用于传送的输出信号。

Description

用于电子***的风抑制/替换部件

相关申请

这个申请要求2009年5月1日提交的美国（US）专利申请第61/174,606号的权益。

这个申请是2008年6月13日提交的美国专利申请第12/139,333的一部分申请的延续部分。

这个申请是2009年10月26日提交的美国专利申请第12/606,140的一部分申请的延续部分。

这个申请是2007年5月25日提交的美国专利申请第11/805,987的一部分申请的延续部分。

这个申请是2008年10月1日提交的美国专利申请第12/243,718的一部分申请的延续部分。

技术领域

此处的公开大体涉及噪声抑制。尤其是，这个公开涉及声学应用中使用的噪声抑制***、装置和方法。

背景技术

正确地鉴别浊语音和清语音的能力对于许多语音应用来说是关键性的，许多语音应用包含语音识别、说话者验证、噪声抑制和许多其他的。在典型的声学应用中，来自人的扬声器的语音被捕获并且传送到位于不同位置的接收者。在扬声器的环境中，可能存在有一个以上的噪声源，该一个以上的噪声源以不需要的噪音来污染语音信号、感兴趣的信号。这使得接收者，不管是人还是机器，都难以或者不可能理解用户的语音。用于区分浊语音和清语音的典型的方法主要依赖于单个传声器数据的声学内容，单个传声器数据的声学内容被信号内容中的噪音和相应的不确定性的问题所困扰。这尤其对类似移动电话的便携式通讯装置的激增来说是成问题的。现有技术中已知有用于抑制存在于语音信号中的噪音的方法，但是，当正在产生语音时，这些通常需要耐用的确定方法。

引用结合

这个说明书中提及的每个专利、专利申请和/或公报通过以相同的程度全部引用而结合在此，就好像每个单独的专利、专利申请和/或公报被具体地和逐一地表示以通过引用被结合。

实用新型内容

一种用于电子***的风抑制/替换部件包含：

接收第一信号的第一检测器和接收第二信号的第二检测器；

耦接到所述第一检测器的语音活动检测器（VAD），当所述第一信号对应于浊语音时，所述VAD产生VAD信号；和

耦接到所述第二检测器的风检测器，其中，所述风检测器使在所述第二检测器处接收到的信号相关，并且从相关性得出多个风度量，所述多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个，其中，所述风检测器按照所述多个风度量来控制所述第二检测器的配置，其中，所述风检测器使用所述多个风度量来动态地控制所述第一信号和所述第二信号的混合，以产生用于传送的输出信号。

一种用于电子***的风抑制/替换部件，包含：

接收第一信号的第一检测器和接收第二信号的第二检测器；

耦接到所述第二检测器的风检测器，其中，所述风检测器使在所述第二检测器处接收到的信号相关，并且从相关性得出多个风度量，所述多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个，其中，所述风检测器使用所述多个风度量来动态地控制所述第一信号和所述第二信号的混合，以产生用于传送的输出信号。

一种用于电子***的风抑制/替换部件，包含：

接收第一信号的第一检测器和接收第二信号的第二检测器；

耦接到所述第二检测器的风检测器，其中，所述风检测器使在所述第二检测器处接收到的信号相关，并且从相关性得出多个风度量，所述多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个，其中，所述风检测器根据所述多个风度量来控制所述第二检测器的配置。

附图说明

图1是根据实施例的通信***的方框图。

图2是根据实施例的风检测器的方框图。

图3是根据实施例的用于控制包含风噪声的接收信号的处理的流程图。

图4是根据实施例的低通风检测滤波器响应。

图5是根据实施例的SSM均衡滤波器的幅度响应。

图6是根据实施例的将风指标映射到截止频率的查阅表实例。

图7是根据实施例的在混合SSM和传声器音频中使用的低通滤波器和相应的高通滤波器的滤波器响应。

图8是根据实施例的用于产生接收风适宜噪声的滤波器的幅度响应。

图9是根据实施例的用于产生传送风适宜噪声的滤波器的幅度响应。

图10是根据实施例的比较没有风的***的语音响应、具有10英里每小时风的***的语音响应以及具有10英里每小时风和风抑制的***的语音响应的实例曲线图。

图11是根据实施例的双传声器自适应的噪声抑制***。

图12是根据实施例的阵列以及语音源（S）配置。传声器被分开近似等于2d₀的距离，并且语音源以角度θ被定位在远离阵列的中点的距离d_s。该***是轴向对称的，因此只需要指定d_s和θ。

图13是根据实施例的使用两个全向元件O₁和O₂的第一级压差传声器的方框图。

图14是根据实施例的DOMA的方框图，该DOMA包括配置成形成两个虚拟传声器V₁和V₂的两个物理传声器。

图15是根据实施例的DOMA的方框图，该DOMA包括配置成形成N个虚拟传声器V₁到V_N的两个物理传声器，其中N是大于1的任何数。

图16是根据实施例，如此处描述的，包括DOMA的头戴式耳机或头戴装置的实例。

图17是根据实施例的用于使用DOMA对声学信号进行降噪的流程图。

图18是根据实施例的用于形成DOMA的流程图。

图19是根据实施例的虚拟传声器V₂对于在0.1m的距离处的1kHz语音源的线性响应的曲线图。零位在0度处，其中语音被正常定位。

图20是根据实施例的虚拟传声器V₂对于在1.0m的距离处的1kHz噪音源的线性响应的曲线图。没有零位，并且检测所有噪音源。

图21是根据实施例的虚拟传声器V₁对于在0.1m的距离处的1kHz语音源的线性响应的曲线图。没有零位，并且对于语音的响应大于图19中所示的响应。

图22是根据实施例的虚拟传声器V₁对于在1.0m的距离处的1kHz噪音源的线性响应的曲线图。没有零位，并且响应非常类似于图20中所示的V₂。

图23是根据实施例的虚拟传声器V₁对于在0.1m的距离处的100、500、1000、2000、3000和4000Hz频率的语音源的线性响应的曲线图。

图24是显示对于实施例的阵列和对于常规的心形传声器，对于语音的频率响应的对比的曲线图。

图25是根据实施例，随着d_s被假定为0.1m，显示对于V₁（上部，虚线）和V₂（下部，实线）的语音响应对比B的曲线图。在V₂中的空间零位是相对宽的。

图26是根据实施例的显示图10中所示的V₁/V₂语音响应的比率对比B的曲线图。对所有0.8<B<1.1，该比率是在10dB以上。这意指***的物理β不需要为了好的性能而被准确地建立模型。

图27是根据实施例，假定d_s=10cm并且θ=0，B对比实际d_s的曲线图。

图28是根据实施例，随着d_s=10cm并且假定d_s=10cm，B对比θ的曲线图。

图29是根据实施例，随着B=1并且D=－7.2μs，N（s）的振幅（上部）和相位（下部）响应的曲线图。结果的相位差影响高频比影响低频更明显。

图30是根据实施例，随着B=1.2并且D=－7.2μs，N(s)的振幅（上部）和相位（下部）响应的曲线图。非整数B影响整个频率范围。

图31是根据实施例，随着q1=0度并且q2=30度，因为语音源的位置错误而对V₂中的语音消除有影响的振幅（上部）和相位（下部）响应的曲线图。对于6kHz以下的频率，该消除保持在-10dB以下。

图32是根据实施例，随着q1=0度并且q2=45度，因为语音源的位置错误而对V₂中的语音消除有影响的振幅（上部）和相位（下部）响应的曲线图。该消除仅仅对于大约2.8kHz以下的频率是-10dB以下，并且预期性能降低。

图33显示根据实施例，在非常大声（～85dBA）的音乐/语音噪音环境中，对于在Bruel和Kjaer头和躯干模拟器（HATS）上使用0.83的线性β的2d₀=19mm阵列的实验结果。噪音已经被减少大约25dB并且语音几乎不受影响，没有显著的失真。

图34是根据实施例的具有语音源S的双传声器阵列的配置。

图35是根据实施例的使用固定的β(z)的V₂构造的方框图。

图36是根据实施例的使用自适应的β(z)的V₂构造的方框图。

图37是根据实施例的V₁构造的方框图。

图38是根据实施例的声学语音活动检测的流程图。

图39显示根据实施例，当仅仅存在噪音时，使用固定的β的算法的实验结果。

图40显示根据实施例，当仅仅存在语音时，使用固定的β的算法的实验结果。

图41显示根据实施例，当语音和噪音存在时，使用固定的β的算法的实验结果。

图42显示根据实施例，当仅仅存在噪音时，使用自适应的β的算法的实验结果。

图43显示根据实施例，当仅仅存在语音时，使用自适应的β的算法的实验结果。

图44显示根据实施例，当语音和噪音存在时，使用自适应的β的算法的实验结果。

图45是根据实施例的NAVSAD***的方框图。

图46是根据实施例的PSAD***的方框图。

图47是根据实施例的此处被称为导航器（Pathfinder）***的降噪***的方框图。

图48是根据实施例，在检测浊语音和清语音中使用的检测算法的流程图。

图49A绘制了用于发声的接收到的GEMS信号，以及GEMS信号和传声器Mic1信号之间的平均相关性和用于浊语音检测的阀值。

图49B绘制了用于发声的接收到的GEMS信号，以及GEMS信号的标准偏差和用于浊语音检测的阀值。

图50绘制了从发声检测到的浊语音，以及GEMS信号和噪声。

图51是根据PSAD***的实施例的使用的传声器阵列。

图52是根据实施例的对于一些Δd值的ΔΜ对比d₁的曲线图。

图53显示增益参数的曲线图，增益参数作为H₁(z)和来自传声器1的声学数据或者音频的绝对值的总和。

图54是在图53中呈现的声学数据的替换曲线图。

图55是根据实施例的声学振动传感器的横截面视图。

图56A是根据图55的实施例的声学振动传感器的分解图。

图56B是根据图55的实施例的声学振动传感器的立体图。

图57是根据图55的实施例的声学振动传感器的耦接器的示意图。

图58是根据替换实施例的声学振动传感器的分解图

图59显示根据实施例的在适合于声学振动传感器放置的人类头部上的敏感性的代表性区域。

图60是根据实施例的一般的头戴式耳机装置，该一般的头戴式耳机装置包含放置在许多位置中的任何位置的声学振动传感器。

图61是根据实施例的用于声学振动传感器的制造方法的图。

具体实施方式

以下描述减少风对于通信头戴式耳机的消极影响的***和方法。使用的通信头戴式耳机实例是由在加利福尼亚州的旧金山的艾利佛卡姆公司（AliphCom）生产的Jawbone Prime蓝牙头戴式耳机。这个头戴式耳机使用两个全向传声器以形成两个虚拟的传声器，两个虚拟的传声器使用以下描述的***（参见以下部分“双重全向传声器阵列（DOMA）”）以及第三振动传感器，以便检测在用户的脸部上的脸颊内部的人的语音。虽然脸颊位置是优选的，但是同样可以使用能够可靠地检测振动的任何传感器（诸如加速计或者无线振动检测器）（参见以下部分“使用声学和非声学传感器两者来检测浊语音和清语音”）。此处任何用斜体印刷的文本通常指的是此处描述的算法中的变量的名称。

在下面的描述中，引入很多具体细节，以便提供对于实施例的描述的彻底的了解，以及能够实现对于实施例的描述。然而，相关的领域中的一个技术人员将承认，在没有一个以上的具体细节，或者利用其它部件、***等等的情况下，可以实施这些实施例。在其它实例中，已知结构或操作未显示，或者没有详细描述，以避免揭示的实施例的不清楚的方面。

除非具体地声明，以下的缩略词和术语被如下定义。

术语ADC代表模数转换器。

术语AEC代表声学回音消除。

术语DAC代表数模转换器。

术语EQ代表均衡，通常是关于频率。

传声器是物理的声学传感元件。

标准化最小均方（NLMS）自适应滤波器是用于确定传声器信号之间的相关性的通用的自适应滤波器。可以使用任何类似的自适应滤波器。

术语O₁代表第一物理全向传声器。

术语O₂代表第二物理全向传声器。

皮肤表面传声器（SSM）是适合于检测皮肤的表面上的人类语音的传声器（参见以下部分“声学振动传感器”）。能够检测用户的皮肤中的语音振动而不受风噪声影响的任何类似的传感器可以被代替。

术语VAD代表语音活动检测，并且可以取决于上下文而被用作算法的名称或者信号。

虚拟传声器是由物理传声器信号的组合所组成的传声器信号。

风是空气的移动。

风适宜噪音是风或者类似风的噪音，风或者类似风的噪音包含在传送的或者接收的信号中，以便提醒正在与他们说话的用户和人注意风的存在，而没有过度地影响通信可懂度。

风噪声是来自所关心的传声器信号中的气压和/或气流的不需要的声干扰。

在下面的描述中，引入很多具体细节，以便提供对于实施例的描述的彻底的了解，以及能够实现对于实施例的描述。然而，相关的领域中的一个技术人员将承认，在没有一个以上的具体细节，或者利用其它部件、***等等的情况下，可以实行这些实施例。在其它实例中，已知结构或操作未显示，或者没有详细描述，以避免揭示的实施例的不清楚的方面。

通常，所附的风解决方案利用SSM变换器对于风噪音和噪声的高阻力及其在有风的情况下相对可以接受的1kHz以下的语音保真度。图1是根据实施例的通信***的方框图。

实施例的***大体包含五个***成分，该五个***成分包括但不限于风检测、SSM均衡、风模式音频、动态混合以及适宜风。以下详细地描述这些***成分中的每一个***成分。

在任何一个或两个传声器中的风存在和强度的检测被用于实现良好的风缓解。风检测算法利用每个传声器中的风噪音是不相关的事实。实际上，因为风在流动时物理地转移空气分子，所以它以非相关的方式独立地移动每个传声器的膜片。甚至声学的风噪音（由传声器附近的涡流所导致的）也不是高度相关的。如此，风对传声器的影响是混乱的和非线性的。真实的是，每个传声器中的风的强度是稍微相关的，但是即使传声器仅仅相隔数亳米，它们的波形也不能由线性的传递函数容易地表示。

因此，通过测量自适应滤波器误差的能量，线性的自适应滤波器可用于监控两个传声器信号之间的相关度（或它的不足），从自适应滤波器误差的能量可以得到风强度的度量。标准化最小均方（NLMS）或类似的自适应滤波器被用于实现这个任务。图2是根据实施例的风检测器的方框图。

更具体地，实施例的***包含接收第一信号的第一检测器和接收第二信号的第二检测器。语音活动检测器（VAD）耦接到第一检测器。当第一信号对应于浊语音时，VAD产生VAD信号。该***包含耦接到第二检测器的风检测器。风检测器使在第二检测器接收的信号相关，并且从相关性得到或产生风度量，风度量表征作为声干扰的风噪音，风噪音对应于第二检测器中的气流和气压中的至少一个。风度量被用作在此详细描述的控制信号。例如，通过使用风度量来动态地控制第一信号和第二信号的混合以便产生用于传送的输出信号，风检测器根据风度量来控制第二检测器配置。

风检测器包含耦接到第二检测器的自适应滤波器。通过计算自适应滤波器的自适应滤波器误差的能量，风检测器使信号相关。当信号不相关时，误差大，这是对于风噪声的情况。在典型地彼此相隔10-40毫米的传声器之间，正常的声学语音和噪音是高度相关的。实施例的风检测器包含耦接到自适应滤波器的第一指数均值滤波器和第二指数均值滤波器。风检测器将能量施加到第一指数均值滤波器和第二指数均值滤波器。实施例的***包含耦接到第一检测器和风检测器的增益控制器。

图3是根据实施例的用于控制包含风噪音的接收信号的处理300的流程图。信号处理接收第一检测器处的第一信号和第二检测器处的第二信号302。在第二检测器处接收到的信号之间确定相关性，以及风度量来源于表征作为声干扰的风噪音的相关性，风噪音对应于第二检测器中的气流和气压中的至少一个304。实施例根据风度量控制第二检测器配置306。实施例通过根据风度量动态地混合第一信号和第二信号来产生用于传送的输出信号308。

在以下描述中，呈现许多变量值。实施例的算法没有要求变量准确地具有呈现的值，并且一些变量是容许的，以致实施例不局限于在此呈现的值。

在NLMS自适应滤波之前，在两个传声器信号上使用具有40Hz截止频率的第五级低通巴待沃思滤波器(Butterworth filter)。图4是根据实施例的低通风检测滤波器响应。这个区域通常由风（并且不是声学的）噪音占据，使得检测更加准确和耐用。

然后滤过的信号被骤减21倍以便限制LMS计算的工作量，并且在“白的”骤减的信号上提供具有少量自适应抽头（tap）的更快的自适应。注意，在计算误差之前延迟参考LMS信号（在这种情况下，低通和骤减的O₁），以便允许来自所有角度的声音的因果模型入射在传声器阵列上。对于这个LMS滤波器，使用2个（骤减的）样品的延迟和7个自适应的LMS抽头。

然后计算LMS残留的能量。被发送到两个平滑的指数均值滤波器E₁(z)和E₂(z)：

E_{1} (z) = (\frac{1 - α_{1}}{1 - α_{1} z^{- 1}})

E_{2} (z) = (\frac{1 - α_{2}}{1 - α_{2} z^{- 1}})

其中α₁=0.895并且α₂=0.97375，以致使用骤减21的8kHz采样率的E1的时间常数是25微秒，并且E2的时间常数是100微秒。时间常数可以有些变化，但是E1应当显著地比E2更快地起反应。E1的输出产出称为instantWindLevel的变量，并且E2的输出产出变量currentWindLevel。为了清楚，这些变量将以dBFS赋值；相对于全刻度残留的输入以分贝测量（0dB）。

通过从currentWindLevel减去minWindLevel阀值（这个实现中的-86dBFS）并且将它的值限制为0-30dB的范围，获得这个模块的第一输出变量windIndex。这个变量稍后被用作与最小级别相比的风级别的度量，在最小级别之下，认为风对于噪声抑制、可懂度以及收听经历具有可忽略的影响。

当变量超过阀值时，通过将instantWindLevel与使二进制变量等于1的windPresentThreshold（例如-74dBFS）恒定阀值进行比较来获得另一个输出变量windPresent（二进制的）。然后二进制变量后面是保持块，每当输入是1时，保持块将二进制输出1维持20微秒。这个变量被***的其他部件使用，以便延缓活动，否则该活动在风存在的情况下就被消极地影响。

通过将instantWindLevel与windHighLevel、在这个实现中的-69dBFS的恒定阀值进行比较，来产生最终的二进制变量windMode，在-69dBFS的恒定阀值之上，认为风对于可懂度和适宜具有高的影响。然后所得到的二进制输出被2.5秒滑动均值滤波器过滤，2.5秒滑动均值滤波器的输出有效地表示最后2.5秒期间有风的时间的部分。当windMode=0时，这个百分比与35%阀值相比。如果超过，那么windMode被切换为1。当windMode=l时，这个百分比与8%阀值相比。如果低于，那么windMode被切换为0。这个滞后方法防止windMode快速地切换状态，并且在不希望这种快速变化的情形中代替windPresent而被使用。

转向实施例的SSM均衡成分，为了在传送的声谱中替代用于传声器音频的SSM音频，SSM级别及其频率响应应当被调节为与没有风的传送音频尽可能接近地相匹配。SSM或在皮肤处获得的类似信号被过滤，以便由与没有风或噪音的初级传声器（O1）获得的语音尽可能接近地相匹配。令人遗憾的是，由于一些原因，这个技术不能用来提取高保真度语音。一个原因是，SSM音频具有太少的在1kHz以外的语音内容，其中，它在传感器的噪音层附近或之下。另一个原因是，没有对于所有的音素，将SSM映射到O1响应的唯一的传递函数。又一个原因是，对语音的SSM响应受SSM拾音位置附近的脸部特征的影响，具体地，受分开SSM和颊骨的软组织的层面的影响。结果，传声器对SSM响应（甚至对于固定的语言产生）越过用户而改变。

由于这些原因，最佳的SSM-传声器语音响应转换只可能是近似的。在这个实现中，以两个连续的阶段来完成：一个大小适合所有静电的均衡滤波器和自适应增益控制阶段（AGC），以匹配规则的语音的RMS。

图5是根据实施例的SSM均衡滤波器的幅度响应。被实现为3双四元组(biquad)IIR滤波器的级联，但是并不局限于此。滤波器尝试匹配响应直到大约1kHz，其中，SSM语音响应变得太小。1kHz以外的区域被视为停止频带，并且被过滤出去，以防止放大大部分噪声和传感器自身噪音。

随后的AGC阶段调节它的增益，以使均衡的SSM信号的均方根（RMS）从0到1kHz与噪音抑制的语音的RMS相匹配。只有当满足两个条件时，增益调节才出现。第一个条件是没有风存在，如windPresent指示的。第二条件包括语音活动。在损害潜在的许多假阴性的情况下，使用保守的VAD来指示具有高级别信用的语音活动性。该想法是，当语音没有正在出现时，AGC增益应当是适合的。同样，从这个二进制VAD波形中排除小于60ms的短寿命的VAD脉冲。此外，为了增加耐用性，AGC增益被局限于+/-25dB范围。

最后，以上使用的保守的、排除脉冲的VAD还用于使SSM音频在混合之前噪音选通。这个消除了当没有语音存在于SSM时另外被感觉到的静电噪音。这个噪音选通减少15dB的无语音部分期间的噪音。

在Jawbone Prime中使用的全向传声器阵列（DOMA）（参见以下部分“双重全向传声器阵列（DOMA）”）提供相对良好的噪声抑制性能。令人遗憾的是，由于是形成虚拟传声器的全向传声器的组合，因此比单个全向传声器更加对风敏感。因此，在持续风的条件下，更好的是可以切换到传声器阵列配置，即使在损害低噪音抑制性能的情况下，传声器阵列配置呈现更好的风免疫性。

如果风检测器报告足够的持续风，那么风检测器的windMode变量打开。此时，进一步减少传声器中的风的好处胜过由传声器阵列提供的噪音降低优势。因此在风模式中，关掉DOMA阵列，以及噪音抑制算法被旁路。然而，代替使用来自单个传声器的音频，进一步减少风对语音比的简单的方式是添加来自两个全向传声器的信号。在所得到的语音内容增加6dB的同时，风RMS仅仅增加大约3dB，因为O1和O2中的风信号不相关。注意，O1音频被延迟了极少的延迟，极少的延迟说明语音从O1到O2的传播时间加上O2和O1音频信道之间的任何ADC采样时差。自然地，所得到的信号需要通过相关增益系数被换算，以匹配风模式之外的语音响应。

这个技术的问题是没有任何噪音抑制。为了减轻这个性能下降，诸如频谱相减的基本的单个传声器噪音抑制算法被用于减弱横穿光谱（0-4kHz）均匀分布的16频带中的固定的噪音。这些算法通过有选择地减弱语音对噪音（以及对风）比率低于12dB的频带而起作用。当SNR比3dB低时，在此使用的最大衰减是8dB。

关于实施例的动态混合成分，有可以对于风强度的每个级别被实现的低通SSM和高通传声器音频（DOMA或风模式音频）的最佳的混合。因为风连续地变化，所以混合器调节（动态的）滤波器的响应以获得希望的混合。因为SSM和传声器音频信号已经在先前的阶段中被处理，所以为了改变风量，它们必须以准确无误的方式被组合。在此使用的技术依赖于传声器对风的响应随着频率增加而下降的观测。实际上，风检测器windIndex变量随时提供大致的但是可靠的风量的度量，由此，可以得出风频率响应的推测。风频率响应曲线的另一个重要的特征是，它倾向于经过频谱和为了改变风的级别而以恒速随频率而减少，直到风响应最终到达噪音层为止。然而，注意，只有当风是足够缓和，例如没有使传声器和/或ADC转换器饱和时，这个才是正确的。

在极低或无风的条件下，（windIndex=0dB），没有SSM混合被需要。在非常大风的条件下（windIndex=30dB），只有均衡的SSM音频被用于直到1kHz的频率。在这两个极端之间，使用一组两个动态滤波器，以使传声器信号（DOMA/噪音抑制的或风模式输出）高通，并且使均衡的SSM音频低通。

对于Jawbone Prime，好处是，噪音抑制的或风模式音频在16频带分析形式中可用，以实现低通和高通滤波器，作为由每个子频带的一个实际的权数表征的子频带均衡器。使用查找表以找到开始频带指标B，开始频带指标B对应于-70dB的使用的滤波器的停止频带以使SSM低通。图6是根据实施例的将风指标映射到截止频率的查找表实例。然后使用这个指标以检索用于乘以每个频带的增益GLP，例如：

SSM频带指标	G_LP
		≤B-4	0dB
B-4	-5dB
		B-3	-12dB
B-2	-22dB
		B-1	-35dB
≥B	-70dB

对于每个频带，通过以下计算获得用于传声器音频的高通均衡器权数G_HP

G_{HP} = 20 * \log_{10} (1 - 10^{\frac{G_{LP}}{20}})

对于全频带实现，32抽头线性的相位低通FIR滤波器可以被存储在存储器中并且对于31个风指数中的每一个被检索，并且相应的高通滤波器可以通过从中心抽头减去1而被得出。图7是根据实施例的对于windIndex=12dB，用于混合SSM和传声器音频的低通滤波器和相应的高通滤波器的滤波器响应。

关于实施例的适宜风噪音成分，添加限制的风量噪音，以接收和传送音频，以便增大近端和远端用户意识到风利用对于可懂度和收听适宜具有少许消极影响而对于会话的影响。对于风减少的互补方法是使得近端用户在限制风曝光中起到领先活动的作用。通过添加限制量的风噪音以便以侧音的形式接收音频，用户将趋向于下意识地改变他相对于风的位置，以便使扬声器中的反馈最小化。

通过从O1减去O2开始实施例的适宜风噪音的产生。这减少了信号的许多非风成分。这个差由结合两个因素的增益调制。第一个因素是保证扬声器中的风反馈的适当的级别的静态增益。第二个因素是来源于二进制windPresent变量的选通因素，二进制windPresent变量经过二进制脉冲拒绝块，二进制脉冲拒绝块拒绝比20ms短的正脉冲，比20ms短的正脉冲后面是具有10ms的保持持续时间的保持块。一旦调节信号，就采用滤波器来限制到达头戴式接收器（假设它的小尺寸，它的低频响应是差的）的低频风量，并且按比例缩减可以造成大风中的不舒服的噪音的风的较高的频率成分。所得到的信号被设计为听起来好像是经过扬声器听到的风的隆隆声特征，而没有过度驱使接收器。

图8是根据实施例的用于产生接收风适宜噪音的滤波器的幅度响应。注意，这个滤波器是基于Jawbone Prime中使用的传声器和扬声器的特定特征，并且可能有对于不同的应用所需的一些变化。重要的部分是添加足够的风噪音，以便头戴式耳机用户听得到，而不是足以破坏交谈。

同样地，传送适宜风噪音被添加到传送的音频，以便提醒远端用户注意风存在，提供由于SSM混合和/或噪音抑制性能的退化而引起的语音响应中的差异的解释。然而，由于蓝牙传送以及电话/网络响应中的差异，做出许多变化。第一个变化是使用不同的静态增益以确保在线路的另一端上的适当的风反馈的级别；这个增益是根据实验设定的。另一个变化是使用不同的滤波器，其中图9是根据实施例的用于产生传送风适宜噪音的滤波器的幅度响应。此外，所得到的信号被延迟，以致在传送之前与要添加到的处理传送音频同步。

作为根据实施例获得的性能的例子，图10显示根据实施例，男性英语说话者无声地说话（左面）、在中速风中说话（10英里每小时，中心），以及利用风抑制算法活动在相同的风中说话（右面）的曲线图。上部是时间序列对比时间，当中是频谱图对比时间，以及下部是能量对比时间。明显地，风淹没大多数的语音，显著地破坏音质和可懂度。风抑制算法显著地减少风噪音，并且修复语音质量和可懂度。

已经呈现了使用来自振动传感器的数据的风噪音检测、抑制和语音替换的***和方法。此处描述的实施例利用振动传感器的风免疫性和噪声阻力，以便不仅排除风噪声，而且还修复大量语音存在和可懂度。风抑制的方法包括振动传感器信号、组合的全向信号、以及正常的虚拟传声器噪音抑制信号的自适应过滤组合。不管风对于传声器信号的严重的影响，这允许实现具有限制的语音失真的显著的风减少。

双重全向传声器阵列（DOMA）

此处描述提供改进的噪音抑制的双重全向传声器阵列（DOMA）。与设法通过使噪音源归零来减少噪音的常规的阵列和算法相比，实施例的阵列被用于形成两个有差别的虚拟定向传声器，这两个虚拟定向传声器被配置成具有非常相似的噪音响应以及非常不相似的语音响应。由DOMA形成的仅有的零位是用于从V2去除用户语音的那个。实施例的两个虚拟传声器可以与自适应滤波器算法和／或VAD算法配套，以显著地减少噪音而不使语音失真，超过常规的噪音抑制***，显著地改进期望语音的SNR。此处描述的实施例在操作上是稳定的，相对于虚拟传声器模式选择是灵活的，并且已经被证实相对于语音源对阵列距离和方位以及温度和校准技术是稳固的。

在以下描述中，许多具体细节被介绍以提供对DOMA的实施例的彻底了解，以及能够实现对于DOMA的实施例的描述。然而，相关领域中的一个技术人员将认识到，在没有一个以上的具体细节或者利用其它部件、***等等的情况下，可以实践这些实施例。在其它例子中，众所周知的结构或操作没有被显示，或者没有被详细地描述，以避免使揭示的实施例的方面不明显。

除非另有规定，以下术语具有除了它们可以传达给本领域的技术人员的任何含义或理解之外，还具有相应的含义。

术语“渗透（bleedthrough）”意指在语音期间不希望的存在噪音。

术语“降噪”意指从Mic1中去除不需要的噪音，并且还指的是以分贝（dB）为单位的信号中的噪音能量的减少量。

术语“清音化”意指从Mic1中去除期望语音／使期望语音失真。

术语“定向传声器（DM）”意指在传感膜片两侧上开孔的物理定向传声器。

术语“Mic1（M1）”意指通常包含比噪音更多的语音的自适应噪音抑制***传声器的统称。

术语“Mic2（M2）”意指通常包含比语音更多的噪音的自适应语音抑制***传声器的统称。

术语“噪音”意指不需要的环境噪声。

术语“零位”意指在物理或者虚拟定向传声器的空间响应中的零或者最小值。

术语“O₁”意指用于形成传声器阵列的第一物理全向传声器。

术语“O₂”意指用于形成传声器阵列的第二物理全向传声器。

术语“语音”意指用户的期望语音。

术语“皮肤表面传声器（SSM）”是在耳机（例如，能够从加利福尼亚州旧金山的Aliph公司得到的Jawbone耳机）中使用以检测用户皮肤上的语音振动的传声器。

术语“V₁”意指没有零位的虚拟定向“语音”传声器。

术语“V₂”意指对于用户语音具有零位的虚拟定向“噪音”传声器。

术语“语音活动检测（VAD）信号”意指指示用户语音在什么时候被检测到的信号。

术语“虚拟传声器（VM）”或“虚拟定向传声器”意指使用两个以上的全向传声器和相关信号处理构造的传声器。

图11是根据实施例的双传声器自适应噪音抑制***1100。包括物理传声器MIC1和MIC2的组合以及传声器耦接的处理或电路部件（以下具体描述，但在这个图中没有显示）的双传声器***1100在此被参考作为双重全向传声器阵列（DOMA）1110，但是实施例不会被如此限制。参考图11，在分析单个噪音源1101和到传声器的直接路径的过程中，进入MIC1（1102，可以是物理或虚拟传声器）的全部声学信息由m₁(n)表示。进入MIC2（1103，也可以是物理或虚拟传声器）的全部声学信息同样地被标记m₂(n)。在z（数字频率）域中，这些被表示为M₁(z)和M₂(z)。然后，

M₁(z)=S(z)+N₂(z)

M₂(z)=N(z)+S₂(z)

以及

N₂(z)=N(z)H₁(z)

S₂(z)=S(z)H₂(z)，

因此

M₁(z)=S(z)+N(z)H₁(z)

M₂(z)=N(z)+S(z)H₂(z)。等式1

这对于所有的双传声器***是普通情况。等式1具有四个未知数以及仅仅两个已知的关系，因此不能被明确地求解。

但是，有另一个方法来求出等式1中的一些未知数。分析从没有语音正被产生的情况的检查开始，没有语音正被产生的情况即来自VAD子***1104（任选的）的信号等于零的情况。在这种情况下，s(n)=S(z)=0，并且等式1减少成

M_1N(z)=N(z)H₁(z)

M_2N(z)=N(z)，

其中M变量上的N下标指示只有噪音正在被接收。这导致

M_1N(z)=M_2N(z)H₁(z)

H_{1} (z) = \frac{M_{1 N} (z)}{M_{2 N} (z)} .

等式2

可以使用任何可用的***识别算法来计算函数H₁(z)，并且当***确信只有噪音正在被接收时，传声器进行输出。该计算可以被自适应地完成，因此***可以对噪音变化作出反应。

对于等式1中的一个未知数H₁(z)，解法是现有的。可以通过使用正在制造语音并且VAD等于一的情况来确定最后的未知数H₂(z)。当这个正在出现，但是传声器的最近（或许小于1秒）历史指示低噪音水平时，可以假定n(s)=N(z)～0。然后，等式1减少成

M_1S(z)=S(z)

M_2S(z)=S(z)H₂(z)，

这随后导致

M_2S(z)=M_1S(z)H₂(z)

H_{2} (z) = \frac{M_{2 S} (z)}{M_{1 S} (z)},

这是H₁(z)计算的倒数。但是，注意，不同的输入正在被使用（现在只有语音正在出现，而之前只有噪音正在出现）。在计算H₂(z)的同时，为H₁(z)计算的值被保持不变（反之亦然），并且假定噪音水平没有足够高到造成H₂(z)计算中的误差。

在计算H₁(z)和H₂(z)之后，它们被用于从信号中去除噪音。如果等式1被重写为

S(z)=M₁(z)－N(z)H₁(z)

N(z)=M₂(z)－S(z)H₂(z)

S(z)=M₁(z)－[M₂(z)－S(z)H₂(z)]H₁(z)

S(z)[l－H₂(z)H₁(z)]=M₁(z)－M₂(z)H₁(z)，

那么N(z)可以如所示的被代入以求出S(z)为

S (z) = \frac{M_{1} (z) - M_{2} (z) H_{1} (z)}{1 - H_{1} (z) H_{2} (z)} .

等式3

如果可以用足够的精确度来描述传递函数H₁(z)和H₂(z)，那么可以完全去除噪音，并且恢复原始信号。这仍然是真的，而不管噪音的振幅或光谱特性。如果来自语音源的极少的泄漏或无泄漏到M₂中，那么H₂(z)≈0并且等式3减少成

S(z)≈M₁(z)－M₂(z)H₁(z)。等式4

假定H₁(z)是稳定的，等式4实现更简单并且非常稳定。但是，如果显著的语音能量处于M₂(z)，则清音化可能出现。为了构造良好执行的***并且使用等式4，对以下条件给予考虑：

R1.喧闹条件下的理想（或至少非常好）VAD的可用性

R2.足够精确的H₁(z)

R3.非常小的（理论上是零的）H₂(z)。

R4.在语音制造期间，H₁(z)基本上不能改变。

R5.在噪音期间，H₂(z)基本上不能改变。

如果期望语音对不需要的噪音的SNR足够高，则条件R1容易满足。“足够”意指取决于VAD产生的方法的不同事物。如果使用如Burnett（伯内特）7,256,048中的VAD振动传感器，则处于非常低的SNR（－10dB以下）的精确的VAD是可能的。使用来自O₁和O₂的信息的仅声学的方法也可以返回精确的VAD，但是为了适当的性能而被限制在～3dB以上的SNR。

条件R5通常易于满足，因为对于大多数应用，传声器不会经常或快速地相对于用户嘴来改变位置。在可能发生的那些应用（诸如，免提会议***）中，它可以通过配置Mic2来被满足，因此H₂(z)≈0。

满足条件R2、R3和R4是更加困难的，但是可以给予V₁和V₂的正确组合。已经证明对满足以上条件、导致实施例中的极好噪音抑制性能和最小语音去除和失真有效的方法在下面被检查。

各种实施例中的DOMA可以与导航器***（Pathfinder system）一起使用作为自适应滤波器***或噪音去除。在此处参考的其他专利和专利申请中具体描述了能够从加利福尼亚州旧金山的AliphCom得到的导航器***。或者，任何自适应滤波器或噪音去除算法可以在一个以上的各种替换实施例或配置中与DOMA一起使用。

当DOMA与导航器***一起使用时，通过在时域中滤波以及求和来组合两个传声器信号（例如，Mic1、Mic2），导航器***通常提供自适应噪音消除。自适应滤波器通常使用从DOMA的第一传声器接收到的信号，以去除来自从DOMA的至少一个其他传声器接收到的语音的噪音，这依赖噪音源的两个传声器之间的缓慢变化的线性传递函数。接着DOMA的两个信道的处理，如以下具体描述的，产生其中噪音内容相对于语音内容衰减的输出信号。

图12是根据实施例的包括阵列1201／1202和语音源S配置的概括的双传声器阵列（DOMA）。图13是根据实施例的使用两个全向元件O₁和O₂来产生或制造第一级压差（gradient）传声器V的***1300。实施例的阵列包括分开距离2d₀放置的两个物理传声器1201和1202（例如，全向传声器），以及以角度θ离开距离d_s定位的语音源1200。这个阵列是轴向对称的（至少在自由空间中），所以不需要其他角度。如图13中示范的，来自每个传声器1201和1202的输出可以被延迟（z₁和z₂），乘以增益（A₁和A₂），然后与另一个求和。如以下具体描述的，阵列的输出是至少一个虚拟传声器或者形成至少一个虚拟传声器。这个操作可以遍布任何期望的频率范围。通过改变延迟和增益的幅度和符号，可以实现在此还被称为虚拟定向传声器的多种虚拟传声器（VM）。本领域的技术人员已知有用于构造VM的其他方法，但是这个是通用的一个，并且将在以下实现中被使用。

举例来说，图14是根据实施例的DOMA1400的方框图，DOMA1400包括配置为形成两个虚拟传声器V₁和V₂的两个物理传声器。实施例中，DOMA包括使用两个传声器或元件O₁和O₂（1201和1202）的输出形成的两个第一级压差传声器V₁和V₂。如以上参考图12和13描述的，实施例的DOMA包括两个物理传声器1201和1202，两个物理传声器1201和1202是全向传声器。来自每个传声器的输出被耦接到处理部件1402或者电路，并且该处理部件输出代表或者对应于虚拟传声器V₁和V₂的信号。

在这个实例***1400中，物理传声器1201的输出被耦接到处理部件1402，处理部件1402包括第一处理路径和第二处理路径，第一处理路径包括第一延迟z₁₁和第一增益A₁₁的应用，第二处理路径包括第二延迟z₁₂和第二增益A₁₂的应用。物理传声器1202的输出被耦接到处理部件1402的第三处理路径和第四处理路径，第三处理路径包括第三延迟z₂₁和第三增益A₂₁的应用，第四处理路径包括第四延迟z₂₂和第四增益A₂₂的应用。第一和第三处理路径的输出被求和，以形成虚拟传声器V₁，以及第二和第四处理路径的输出被求和，以形成虚拟传声器V₂。

如以下具体描述的，改变处理路径的延迟和增益的幅度和符号，导致可以实现在此还被称为虚拟定向传声器的多种虚拟传声器（VM）。虽然在这个实例中描述的处理部件1402包括产生两个虚拟传声器或者传声器信号的四个处理路径，但是该实施例不会被如此限制。例如，图15是根据实施例的DOMA1500的方框图，DOMA1500包括配置为形成N个虚拟传声器V₁到V_N的两个物理传声器，其中N是大于一的任何数。因此，DOMA可以包括处理部件1502，该处理部件1502适当地具有任何数量的处理路径，以形成N个虚拟传声器。

实施例的DOMA可以被耦接或者连接到一个以上的远程装置。在***配置中，DOMA将信号输出到远程装置。远程装置包括但不局限于，移动电话、卫星电话、携带式电话、有线电话、因特网电话、无线收发机、无线通信收音机、个人数字助理（PDA）、个人计算机（PC）、头戴式耳机装置、头戴装置和耳机中的至少一个。

此外，实施例的DOMA可以是与主装置集成的部件或者子***。在这个***配置中，DOMA将信号输出到主装置的部件或者子***。主装置包括但不局限于，移动电话、卫星电话、携带式电话、有线电话、因特网电话、无线收发机、无线通信收音机、个人数字助理（PDA）、个人计算机（PC）、头戴式耳机装置、头戴装置和耳机中的至少一个。

举例来说，图16是根据实施例的包括如此处描述的DOMA的头戴式耳机或者头戴装置1600的实例。实施例的头戴式耳机1600包括外壳，该外壳具有容纳和保持两个传声器（例如，O₁和O₂）的两个区域或者容器（未显示）。头戴式耳机1600通常是说话者1602能够佩带的装置，例如将传声器放在或者保持在说话者的嘴附近的头戴式耳机或者耳机。实施例的头戴式耳机1600将第一物理传声器（例如，物理传声器O₁）放置在说话者的嘴唇附近。第二物理传声器（例如，物理传声器O₂）被放置在第一物理传声器之后的一距离内。实施例的距离处于第一物理传声器之后的几厘米的范围内或者如此处描述的（例如，参考图11-15描述的）。DOMA是对称的，并且以与单个近距离说话的传声器相同的配置或者方式被使用，但是不会被如此限制。

图17是根据实施例的使用DOMA使声学信号降噪1700的流程图。降噪1700从接收第一物理传声器和第二物理传声器处的声学信号1702开始。响应于该声学信号，从第一物理传声器输出第一传声器信号，以及从第二物理传声器输出第二传声器信号1704。通过产生第一传声器信号和第二传声器信号的第一组合来形成第一虚拟传声器1706。通过产生第一传声器信号和第二传声器信号的第二组合来形成第二虚拟传声器1708，并且第二组合不同于第一组合。第一虚拟传声器和第二虚拟传声器是对噪音具有基本上相似的响应以及对语音具有基本上不相似的响应的有差别的虚拟定向传声器。通过组合来自第一虚拟传声器和第二虚拟传声器的信号，降噪1700产生输出信号1710，并且该输出信号包括比声学信号少的噪声。

图18是根据实施例的用于形成DOMA1800的流程图。DOMA的形成1800包括形成物理传声器阵列1802，物理传声器阵列包括第一物理传声器和第二物理传声器。第一物理传声器输出第一传声器信号，以及第二物理传声器输出第二传声器信号。形成包括第一虚拟传声器和第二虚拟传声器的虚拟传声器阵列1804。第一虚拟传声器包括第一传声器信号和第二传声器信号的第一组合。第二虚拟传声器包括第一传声器信号和第二传声器信号的第二组合，并且第二组合不同于第一组合。虚拟传声器阵列包括单个零位，将该单个零位的方向确定在朝向人类说话者的语音源的方向上。

用于实施例的自适应噪音抑制***的VM的构造在V₁和V₂中包括基本上相似的噪音响应。此处使用的基本上相似的噪音响应意指H₁(z)易于建立模型，并且在语音期间不会改变很多，满足上面描述的条件R2和R4并且允许强降噪以及最小化的渗透。

用于实施例的自适应噪音抑制***的VM的构造对于V₂包括相对小的语音响应。对于V₂的相对小的语音响应意指H₂(z)≈0，这将满足上面描述的条件R3和R5。

用于实施例的自适应噪音抑制***的VM的构造进一步包括对于V₁的足够的语音响应，因此干净的语音将具有比由O₁获取的原始语音显著高的SNR。

以下描述假定，已经使全向传声器O₁和O₂对于同一声源的响应标准化，因此它们对那个源具有完全相同的响应（振幅和相位）。这可以使用精通本领域的技术人员众所周知的标准传声器阵列方法（诸如基于频率的校准）来实现。

参考用于实施例的自适应噪音抑制***的VM的构造对于V₂包括相对小的语音响应的情况，可见，对于分离的***，V₂(z)可以被表示为：

V₂(z)＝O₂(z)-z^-γβO₁(z)

其中

β = \frac{d_{1}}{d_{2}}

γ = \frac{d_{2} - d_{1}}{c} . f_{S}

（采样）

d_{1} = \sqrt{d_{S}^{2} - 2 d_{S} d_{0} cis (θ) + d_{0}^{2}}

d_{2} = \sqrt{d_{S}^{2} + 2 d_{S} d_{0} cis (θ) + d_{0}^{2}}

距离d₁和d₂分别是从O₁和O₂到语音源的距离（参见图12），以及γ是它们的差除以音速c并乘以采样频率f_s。因此，γ是在样本中，但不必是整数。对于非整数γ，可以使用极小延迟的滤波器（精通本领域的技术人员众所周知的）。

重要的是，注意，上面的β不是用于表示自适应波束形成中的VM的混合的常规β；它是取决于内部传声器距离d₀（固定的）以及可能改变的距离d_s和角度θ的***的物理变量。如以下所示，对于适当校准的传声器，***不必被编程为具有阵列的准确的β。实际的β中的近似10－15%的误差（即，由算法使用的β不是物理阵列的β）已经被使用，具有极少的质量下降。β的算法值可以被计算并且为特定用户而设定，或者当几乎没有噪音存在时，可以在语音制造期间被自适应地计算。但是，在使用期间的自适应对于象征性的性能是不需要的。

图19是根据实施例的具有β=0.8的虚拟传声器V₂对于在0.1m距离处的1kHz语音源的线性响应的曲线图。虚拟传声器V₂对于语音的线性响应中的零位位于0度，其中典型地期望语音被定位。图20是根据实施例的具有β=0.8的虚拟传声器V₂对于在1.0m处的1kHz噪音源的线性响应的曲线图。V₂对于噪音的线性响应缺乏或者不包括零位，意味着检测所有的噪音源。

以上V₂(z)的公式在语音位置具有零位，因此将显现对于语音的最小响应。对于具有d₀=10.7mm的阵列以及在阵列的轴（θ=0）上10cm（β=0.8）处的语音源，这在图19中被显示。注意，如具有近似1米距离的噪音源的图20所示，对于相同的传声器，零度处的语音零位对于远场中的噪音是不存在的。这保证了在用户前面的噪音将被检测到，因此它可以被去除。这不同于常规***，常规***可能难以去除在用户的嘴的方向上噪音。

可以使用V₁(z)的通式来用公式表示V₁(z)：

V_{1} (z) = α_{A} O_{1} (z) . z^{{- d}_{A}} - α_{B} O_{2} (z) . z^{{- d}_{B}}

因为

V₂(z)＝O₂(z)-z^-γβO₁(z)

以及，因为对于前向中的噪音

O_2N(z)＝O_1N(z).z^-γ

然后

V_2N(z)＝O_1N(z).z^-γ-z^-γβO_1N(z)

V_2N(z)＝(1-β)(O_1N(z).z^-γ)

然后如果这被设定成等于上面的V₁(z)，则结果是

V_{1 N} (z) = α_{A} O_{1 N} (z) . z^{{- d}_{A}} - α_{B} O_{1 N} (z) . z^{- γ} . z^{{- d}_{B}} = (1 - β) (O_{1 N} (z) . z^{- γ}

因此，我们可以设定

d_A＝γ

d_B＝0

α_A＝1

α_B＝β

以得到

V₁(z)＝O₁(z).z^-γ-βO₂(z)

以上对V₁和V₂的定义意味着对于噪音H₁(z)是：

H_{1} (z) = \frac{V_{1} (z)}{V_{2} (z)} = \frac{- β O_{2} (z) + O_{1} (z) . z^{- γ}}{O_{2} (z) - z^{- γ} β O_{1} (z)}

其中，如果幅度噪音响应是大致相同的，则具有全通滤波器的形式。这具有特别是在幅度响应中容易和精确地被建立模型、满足R2的优点。

这个公式保证了噪音响应将尽可能地相似，并且语音响应将与(1－β²)成比例。因为β是从O₁和O₂到语音源的距离的比率，所以它受到阵列大小以及从阵列到语音源的距离的影响。

图21是根据实施例的具有β=0.8的虚拟传声器V₁对于在0.1m的距离处的1kHz语音源的线性响应的曲线图。虚拟传声器V₁对于语音的线性响应缺乏或者不包括零位，并且对于语音的响应大于图14中所显示的。

图22是根据实施例的具有β=0.8的虚拟传声器V₁对于在1.0m的距离处的1kHz噪音源的线性响应的曲线图。虚拟传声器V₁对于噪音的线性响应缺乏或者不包括零位，并且该响应非常相似于图15中显示的V₂。

图23是根据实施例的具有β=0.8的虚拟传声器V₁对于在0.1m的距离处的100、500、1000、2000、3000和4000Hz频率的语音源的线性响应的曲线图。图24是显示对于实施例的阵列和对于常规的心形传声器，对于语音的频率响应的对比的曲线图。

V₁对于语音的响应被显示在图21中，以及对于噪音的响应显示在图22中。注意，与V₂相比的语音响应的差异被显示在图19中，以及噪音响应的相似性被显示在图20中。同样注意，图21中显示的对于V₁的语音响应的方位完全地与常规***的方位相反，在常规***中，通常将响应的主瓣定向为朝向语音源。实施例中将V₁的语音响应的主瓣定向为远离语音源的方位意指，V₁的语音敏感性比正常的定向传声器低，但是对于在阵列的轴的近似+－30度内的所有频率是平坦的，如图23所示。这个对于语音的平坦性意指不需要整形的后置滤波器来修复全向频率响应。这得到了代价——如图24所示，图24显示了具有β=0.8的V₁的语音响应和心形传声器的语音响应。对于近似16000Hz的采样频率，在近似500和7500Hz之间，V₁的语音响应是近似0到～13dB，小于正常的定向传声器，以及在近似500Hz以下和7500Hz以上，V₁的语音响应是近似0到10+dB，大于定向传声器。但是，使用这个***使得进行较好的噪音抑制是可能的，而不只是对初始较差的SNR的补偿。

应当注意，图19-22假定语音位于近似0度以及近似10cm，β=0.8，以及在所有角度的噪音离开阵列的中点的距离近似1.0米。通常，噪音距离不要求是1m以上，但是降噪对于那些距离是最好的。对于小于近似1m的距离，降噪因为V₁和V₂的噪音响应的较大的不相似性而不会是有效的。这在实际使用中没有被证明是阻碍——事实上，它可以被看作特征。远离耳机～10cm的任何“噪音”源很可能期望被获取和传输。

V₂的语音零位意指VAD信号不再是关键部件。VAD的目的是确保***不会对准语音，然后接着去除它，导致语音失真。但是，如果V₂不包含语音，则自适应***不能对准语音并且不能去除它。结果，***可以一直进行降噪而不必担忧清音化，然后结果的干净音频可以被用于产生在后续的诸如频谱相减的单信道噪音抑制算法中使用的VAD信号。另外，即使检测到语音，H₁(z)的绝对值上的约束（即，将它限制成小于两的绝对值）也可以阻止***完全地对准语音。然而，实际上，语音可能因为错误定位的V₂零位和／或回波或者其他现象而存在，并且推荐VAD传感器或者其他仅声学的VAD，以使语音失真最小化。

取决于应用，β和γ可以在噪音抑制算法中被固定，或者当该算法指示语音制造在几乎没有噪音的情况下正在发生时，可以估计它们。在任一情况中，在***的实际β和γ的估计中可能有误差。以下描述检查这些误差以及它们对***的性能的影响。如上，***的“好的性能”指示有足够的降噪以及最小的清音化。

通过检查以上定义，可以看到不正确的β和γ对V₁和V₂的响应的影响：

V_{1} (z) = O_{1} (z) . z^{{- γ}_{T}} - β_{T} O_{2} (z)

V_{2} (z) = O_{2} (z) . z^{{- γ}_{T}} - β_{T} O_{1} (z)

其中β_T和γ_T表示噪音抑制算法中使用的β和γ的理论估计值。实际上，O₂的语音响应是

O_{2 S} (z) = β_{R} O_{1 S} (z) . z^{{- γ}_{R}}

其中，β_R和γ_R表示物理***的真实的β和γ。β和γ的理论和实际值之间的差异可以是起因于语音源的错误位置（它不在假定的位置）和／或气温的改变（其改变音速）。将O₂对于语音的实际响应***到以上用于V₁和V₂的等式，得到

V_{2 S} (z) = O_{1 S} (z) [β_{R} z^{{- γ}_{R}} - β_{T} z^{{- γ}_{T}}]

如果相位差由以下等式代表

γ_R＝γ_T+γ_D

并且振幅差为

β_R＝Bβ_T

那么

等式5

V₂中的语音消除（直接影响清音化的程度）以及V₁的语音响应将取决于B和D两者。接下来是D=0的情况的检查。图25是显示根据实施例，随着d_s被假定为0.1m，对于V₁（上部，虚线）和V₂（下部，实线）的语音响应对比B的曲线图。这个曲线图显示了在V₂中的空间零位是相对宽的。图26是显示根据实施例的图20中所示的V₁/V₂语音响应的比率对比B的曲线图。对所有0.8<B<1.1，V₁/V₂的比率是在10dB以上，并且这意指***的物理β不需要为了好的性能而被准确地建立模型。图27是根据实施例，假定d_s=10cm并且θ=0，B对比实际d_s的曲线图。图28是根据实施例，随着d_s=10cm并且假定d_s=10cm，B对比θ的曲线图。

在图25中，当d_s被认为是近似10cm并且θ=0时，V₁（上部，虚线）和V₂（下部，实线）与O₁相比的语音响应被显示对比B。当B=1时，V₂缺少语音。在图26中，显示图20中的语音响应的比率。当0.8<B<1.1时，V₁/V₂比率在近似10dB以上——对于好的性能是足够的。明显地，如果D=0，则B可能显著地改变而不会不利地影响***的性能。再次，这假定已经执行了传声器的校准，以致它们的振幅和相位响应两者对于同一源是相同的。

由于种种原因，B系数可以是非整数。到语音源的距离或者阵列轴和语音源的相对方位或者两者，可以不同于期望的。如果对于B，包括距离和角度不匹配两者，那么

B = \frac{β_{R}}{β_{T}} \frac{\sqrt{d_{SR}^{2} - 2 d_{SR} d_{0} \cos (θ_{R}) + d_{0}^{2}}}{\sqrt{d_{SR}^{2} + 2 d_{SR} d_{0} \cos (θ_{R}) + d_{0}^{2}}} . \frac{\sqrt{d_{ST}^{2} + 2 d_{ST} d_{0} \cos (θ_{T}) + d_{0}^{2}}}{\sqrt{d_{ST}^{2} - 2 d_{ST} d_{0} \cos (θ_{T}) + d_{0}^{2}}}

其中，再次，T下标指示理论值以及R实际值。在图27中，假定d_s=10cm以及θ=0，系数B相对于实际的d_s被制图。因此，如果语音源在阵列的同轴上，则实际距离可以从近似5cm变化到18cm，而不显著地影响性能——大量。同样地，图28显示如果语音源离开近似10cm的距离但不在阵列的轴上，则发生什么。在这种情况下，角度可以变化直至近似+－55度，并且仍然导致B小于1.1，保证好的性能。这是大量的容许角偏差。如果有角度和距离误差两者，则上面的等式可以被用于判定偏差是否将导致适当的性能。当然，如果允许β_T的值在语音期间更新，基本上跟踪语音源，那么B可以对于几乎所有的配置被保持成接近整数。

接着检查B是整数而D是非零的情况。如果语音源不在它被认为的地方或者如果音速不同于它被认为的，则这可能发生。从以上等式5，可以看出，对于语音，使V₂中的语音零位减弱的系数是

N (z) = {Bz}^{- γ_{D}} - 1

或者在连续的s域中

N(s)＝Be^-Ds-1。

因为γ是与V₂相比语音到达V₁之间的时间差，所以它可以是在语音源相对于阵列的轴的角度位置估计中的和／或通过温度变化的误差。检查温度敏感性，音速随着温度而变化为

C=331.3+(0.606T)m/s

其中T是摄氏温度。当温度降低时，音速也降低。设定20C作为设计温度，以及将最大的期望温度范围设定为－40C到+60C（－40F到140F）。在20C处的设计音速是343m/s，并且在－40C处的最慢音速将是307m/s以及在60C处的最快音速362m/s。设定阵列长度（2d₀）为21mm。对于阵列的轴上的语音源，对于音速的最大变化的传播时间差是

&dtri; t_{MAX} = \frac{d}{c_{1}} - \frac{d}{c_{2}} = 0.02 lm (\frac{1}{343 m / s} - \frac{1}{307 m / s}) = - 7.2 \times 10^{- 6}

秒

d_{11} = \sqrt{d_{S 1}^{2} - 2 d_{S 1} d_{0} \cos (θ_{1}) + d_{0}^{2}}

或者近似7微秒。图29中显示了对于给予B=1以及D=7.2微秒（μs）的N(s)的响应。图29是根据实施例，B=1并且D=－7.2μs，N（s）的振幅（上部）和相位（下部）响应的曲线图。结果的相位差影响高频比影响低频更明显。振幅响应对于所有的小于7kHz的频率是小于近似－10dB，并且在8kHz处仅为大约－9dB。因此，假定B=1，这个***将可能在直至近似8kHz的频率处执行得很好。这意指适当补偿的***在格外宽（例如，－40C到80C）的温度范围内即使直至8kHz也将工作很好。注意，因为延迟估计误差而引起的相位失配使得N(s)在高频处比在低频处大很多。

如果B不是整数，则因为来自非整数B的影响随着非零D的累加而累加，所以降低了***的稳固性。图30显示了对于B=1.2并且D=7.2μs的振幅和相位响应。图30是根据实施例，随着B=1.2并且D=－7.2μs，N(s)的振幅（上部）和相位（下部）响应的曲线图。非整数B影响整个频率范围。现在，N(s)仅仅对于小于近似5kHz的频率是近似－10dB以下，并且在低频处的响应大很多。这种***在5kHz以下将仍然执行得很好，并且对于5kHz以上的频率将仅仅受到稍微升高的清音化。为了终极的性能，温度传感器可以被集成到***中以允许算法随着温度变化而调整γ_T。

D可能是非零的另一个情形是在语音源不在被认为的地方的时候——具体地，从阵列的轴到语音源的角度是不正确的。到该源的距离也可能是不正确的，但是那个引入B中的误差，而不是D中的误差。

参考图12，可见，对于两个语音源（各自具有它们自己的d_s和θ），语音到达O₁和语音到达O₂之间的时间差是

Δt = \frac{1}{c} (d_{12} - d_{11} - d_{22} + d_{21})

其中

d_{12} = \sqrt{d_{S 1}^{2} + 2 d_{S 1} d_{0} \cos (θ_{1}) + d_{0}^{2}}

d_{21} = \sqrt{d_{S 1}^{2} - 2 d_{S 2} d_{0} \cos (θ_{2}) + d_{0}^{2}}

d_{22} = \sqrt{d_{S 2}^{2} + 2 d_{S 2} d_{0} \cos (θ_{2}) + d_{0}^{2}}

图31中显示了对于θ₁=0度和θ₂=30度并且假定B=1的V₂语音消除响应。图31是根据实施例，随着q1=0度并且q2=30度，因为语音源的位置错误而对V₂中的语音消除有影响的振幅（上部）和相位（下部）响应的曲线图。注意，该消除对于6kHz以下的频率仍然是－10dB以下。因为该消除对于近似6kHz以下的频率仍然是近似－10dB以下，所以这个类型的误差将不会显著地影响***的性能。但是，如图32所示，如果θ₂被增加到近似45度，则该消除仅仅对于近似2.8kHz以下的频率是近似－10dB以下。图32是根据实施例，随着q1=0度并且q2=45度，因为语音源的位置错误而对V₂中的语音消除有影响的振幅（上部）和相位（下部）响应的曲线图。现在，该消除仅仅对于大约2.8kHz以下的频率是－10dB以下，并且性能降低是预期的。近似4kHz以上的差的V₂语音消除可能导致对于那些频率的显著清音化。

以上描述已经假定，传声器O₁和O₂被校准，因此对于离开相同距离的位置上的源，它们对于振幅和相位两者的响应是等同的。这并不总是可行的，所以以下呈现更加实用的校准过程。它不是精确的，但是更加易于实现。从定义滤波器α(z)开始，以致

O_1C(z)＝α(z)O_2C(z)

其中，“C”下标指示已知校准源的使用。使用的最简单的一个是用户的语音。然后

O_1S(z)＝α(z)O_2C(z)

现在，传声器定义是：

V₁(z)＝O₁(z).z^-γ-β(z)α(z)O₂(z)

V₂(z)＝α(z)O₂(z)-z^-γβ(z)O₁(z)

***的β应该是固定的并且尽可能接近于真实值。在实践中，***不对β的变化敏感，并且容易容忍近似+－5%的误差。在用户正在制造语音但几乎没有噪音时的期间，***可以对准α(z)以便去除尽可能多的语音。这伴随有：

1.利用“MIC1”位置上的βΟ_1S(z)z^-γ、“MIC2”位置上的Ο_2S(z)以及H₁(z)位置上的α(z)，来构造如图11所示的自适应***。

2.在语音期间，适应α(z)以使***的残余最小化。

3.如上构造V₁(z)和V₂(z)。

简单的自适应滤波器可以被用于α(z)，因此只有传声器之间的关系被良好地建立模型。只有当用户正在制造语音时，实施例的***才对准。像SSM的传感器对判定什么时候在无噪音的情况下正在制造语音是不可缺少的。如果语音源位置固定并且不会在使用期间（诸如当阵列在耳机上时）显著地变化，则自适应应该是不常见的并且更新缓慢，以便使由对准期间存在的噪音引入的任何误差最小化。

以上公式工作得非常好，因为V₁和V₂的噪音（远场）响应是非常相似的，而语音（近场）响应是非常不同的。但是，用于V₁和V₂的公式可能变化，并且总体上仍然导致***的好的性能。如果由上获得V₁和V₂的定义并且新变量B1和B2被***，则结果是：

V_{1} (z) = O_{1} (z) . z^{{- γ}_{T}} - B_{1} β_{T} O_{2} (z)

V_{2} (z) = O_{2} (z) . z^{{- γ}_{T}} - B_{2} β_{T} O_{1} (z)

其中，B1和B2两个都是正数或者零。如果B1和B2被设定成等于整数，则最优***结果如上所述。如果允许B1从整数变化，则V₁的响应被影响。接着是B2被保留在1并且B1被减少的情况的检查。当B1减少到近似零时，V₁变得越来越少地定向，直到当B1=0时，它变成简单的全向传声器。因为B2=1，语音零位保持在V₂中，所以对于V₁和V₂的非常不同的语音响应保持。但是，噪音响应更加不相似，所以降噪不会是有效的。然而，实际上，***仍然执行很好。B1也可以从整数被增加，并且再一次，***将仍然很好地进行降噪，只不过是没有B1=1时的好。

如果允许B2变化，则V₂中的语音零位被影响。只要语音零位仍然足够地深，***将仍然执行得很好。实际上，降至近似B2=0.6的值已经显示了足够的性能，但是为了最佳性能，建议将B2设定成接近于整数。

同样地，变量ε和Δ可以被引入，因此：

V₁(z)＝(ε-β)O_2N(z)+(1+Δ)O_1N(z)z^-γ

V₂(z)＝(1+Δ)O_2N(z)+(ε-β)O_1N(z)z^-γ

这个公式也允许虚拟传声器响应变化，但保持H₁(z)的全通特性。

总之，***足够灵活以在各种B1值操作地很好，但是为了最好的性能，B2值应该接近于整数以限制清音化。

图33中显示了在非常大声的（～85dBA）音乐/语音噪音环境中，对于在Bruel和Kjaer头和躯干模拟器（HATS）上使用0.83的线性β和B1=B2=1的2d₀=19mm阵列的实验结果。上面论述的替换传声器校准技术被用于校准传声器。噪音已经降低大约25dB，并且语音几乎不受影响，没有显著的失真。明显地，该技术显著地增加了原始语音的SNR，进一步胜过常规的噪音抑制技术。

DOMA可以是单个***、多个***和／或地理上分开的***的部件。DOMA也可以是单个***、多个***和／或地理上分开的***的子部件或者子***。DOMA可以被耦接到主***的或者耦接到该主***的***的一个以上的其它部件（未显示）。

DOMA的一个以上的部件和／或耦接或连接DOMA的相应的***或应用程序包括处理***，和／或在处理***下运行，和／或与处理***相关联地运行。如本领域中已知的，处理***包括基于处理器的装置或者一起操作的计算装置，或者处理***或装置的部件的任何集合。例如，处理***可以包括在通信网络和/或网络服务器中操作的一个以上的便携式计算机、便携式通信装置。便携式计算机可以是从个人计算机、蜂窝式移动电话、个人数字助理、便携式计算装置和便携式通信装置中选择的装置的任何数量和/或组合，但是不会被如此限制。处理***可以包括在大的计算机***之内的部件。

用于电子***的声学语音活动检测（AVAD）

此处描述了声学语音活动检测（AVAD）方法和***。包括算法或程序的AVAD方法和***使用传声器来产生具有非常相似的噪音响应和非常不相似的语音响应的虚拟定向传声器。然后在给定的窗口大小之上计算虚拟传声器的能量比率，并且该比率然后可以与各种方法一起使用以产生VAD信号。可以使用固定或者自适应滤波器来构造虚拟传声器。自适应滤波器通常导致更加精确的并且噪音稳固的VAD信号，但是需要对准。另外，可以对滤波器设置限制以确保它只对语音而不对环境噪音进行对准。

在以下描述中，许多具体细节被介绍以提供对实施例的彻底了解，以及能够实现对于实施例的描述。然而，相关领域中的一个技术人员将认识到，在没有一个以上的具体细节或者利用其它部件、***等等的情况下，可以实践这些实施例。在其它例子中，众所周知的结构或操作没有被显示，或者没有被详细地描述，以避免使揭示的实施例的方面不明显。

图34是根据实施例的具有语音源S的AVAD的双传声器阵列的配置。实施例的AVAD使用两个物理传声器（O₁和O₂）以形成两个虚拟传声器（V₁和V₂）。实施例的虚拟传声器是定向传声器，但是实施例不会被如此限制。实施例的物理传声器包括全向传声器，但是此处描述的实施例不局限于全向传声器。如此处具体描述的，虚拟传声器（VM）V₂以对用户的语音具有最小响应的方式被配置，同时V₁被配置成它响应于用户的语音，但是对V₂具有非常相似的噪音幅度响应。然后，PSAD VAD方法可以被用于判定语音什么时候正在产生。进一步的改进是自适应滤波器的使用，以进一步使V₂的语音响应最小化，从而增加PSAD中使用的语音能量比率，并且导致AVAD的更好的综合性能。

此处描述的PSAD算法计算两个定向传声器M₁和M₂的能量的比率：

R = \underset{i}{Σ} \sqrt{\frac{M_{1} {(z_{i})}^{2}}{M_{2} {(z_{i})}^{2}}}

其中，“z”指示离散频域，以及“i”的范围从感兴趣的窗口开始到结束，但是相同的关系保持在时域中。总和可以出现在任何长度的窗口之上；处于8kHz的采样率的200个样本已经被用于好的影响。传声器M₁被假定为具有比传声器M₂大的语音响应。比率R取决于由传声器检测出的感兴趣的声学信号的相对强度。

对于匹配的全向传声器（即，对于所有的空间方位和频率，它们对声学信号具有相同的响应），可以通过使语音和噪音波的传播近似为球形对称源，来为语音和噪音计算R的大小。为了这些，传播波的能量降低为1/r²：

R = \underset{i}{Σ} \sqrt{\frac{M_{1} {(z_{i})}^{2}}{M_{2} {(z_{i})}^{2}}} = \frac{d_{2}}{d_{1}} = \frac{d_{1} + d}{d_{1}}

距离d₁是从声源到M₁的距离，d₂是从声源到M₂的距离，以及d=d₂－d₁（参见图34）。假定O₁更接近于语音源（用户的嘴），因此d总是正的。如果传声器和用户的嘴全部在一条直线上，那么d=2d₀，传声器之间的距离。对于匹配的全向传声器，R的幅度只取决于传声器和声源之间的相对距离。对于噪音源，该距离典型地是一米以上，并且对于语音源，该距离大约是10cm，但是该距离不会被如此限制。因此，对于2-cm阵列，R的典型值是：

R_{S} = \frac{d_{2}}{d_{1}} \approx \frac{12 cm}{10 cm} = 1.2

R_{N} = \frac{d_{2}}{d_{1}} \approx \frac{102 cm}{100 cm} = 1.02

其中，“S”下标表示对于语音源的比率，以及“N”表示对于噪音源的比率。在这种情况下，噪音和语音源之间没有大量间隔，因此将难以使用简单的全向传声器来实现稳固的解决方案。

一种较好的实现是在第二传声器具有最小的语音响应的地方使用定向传声器。如此处描述的，可以使用全向传声器O₁和O₂来构造这种传声器：

\begin{matrix} V_{1} (z) = - β (z) α (z) O_{2} (z) + O_{1} (z) z^{- γ} \\ V_{2} (z) = α (z) O_{2} (z) - β (z) O_{1} (z) z^{- γ} \end{matrix}

[1]

其中，α(z)是用于补偿O₂的响应以使O₂与O₁相同的校准滤波器，β(z)是描述对于语音的O₁和校准的O₂之间的关系的滤波器，以及γ是取决于阵列大小的固定延迟。如上所述，没有限定α(z)中的一般性的损失，因为任何一个传声器可以被补偿以便与另一个相匹配。对于这个配置，如果

γ = \frac{d}{c}

那么V₁和V₂具有非常类似的噪音响应幅度以及非常不类似的语音响应幅度。其中再次，d=2d₀以及c是空气中的音速，c与温度有关，并且近似为

c = 331.3 \sqrt{1 + \frac{T}{273.15}} \frac{m}{\sec}

其中T是摄氏表中的空气的温度。

可以使用波动理论来将滤波器β(z)计算成

β (z) = \frac{d_{1}}{d_{2}} = \frac{d_{1}}{d_{1} + d} - - - [2]

其中再次，d_k是从用户的嘴到O_k的距离。图35是根据实施例的使用固定β(z)的V₂构造的方框图。如果校准滤波器α(z)是准确的并且d₁和d₂对于用户是准确的，那么这个固定的（或静态的）β足够好地工作。然而，这个固定β的算法忽略了重要的影响，例如反射、衍射、差的阵列方位（即，传声器和用户的嘴没有全部在一条线上），以及对于不同用户的不同d₁和d₂值的可能性。

还可以使用自适应滤波器来试验性地确定滤波器β(z)。图36是根据实施例的使用自适应β(z)的V₂构造的方框图，其中：

\tilde{β} (z) = \frac{α (z) O_{2} (z)}{z^{- γ} O_{1} (z)} - - - [3]

只有当语音正在被O₁和O₂接收时，自适应处理改变

以使V₂的输出最小化。少量的噪音可以忍受少许的恶意影响，但是，较佳的是只有当计算

的系数时，语音正被接收。可以使用任何自适应处理；在以下的实例中使用标准化最小均方（NLMS）算法。

可以使用的当前值来构造V₁，或者为简单起见可以使用固定滤波器β(z)。图37是根据实施例的V₁构造的方框图。

现在，比率R为

R = \frac{| | V_{1} (z) | |}{| | V_{2} (z) | |} = \sqrt{\frac{{(- \overset{&OverBar;}{β} (z) α (z) O_{2} (z) + O_{1} (z) z^{- γ})}^{2}}{{(α (z) O_{2} (z) - \overset{&OverBar;}{β} (z) O_{1} (z) z^{- γ})}^{2}}}

其中，双竖条指示模方，并且可以再次使用任何大小的窗口。如果已经准确地计算那么对于语音的比率应当是相对高的（例如，近似大于2），并且对于噪音的比率应当是相对低的（例如，近似小于1.1）。计算的比率将取决于语音和噪音两者的相对能量以及噪音的方位和环境的混响感。实际上，自适应滤波器

或者静态滤波器b(z)可以被用于V₁(z)，对于R具有少许影响——但是重要的是，为了最佳性能而在V₂(z)中使用自适应滤波器本领域的技术人员已知的许多技术（例如，平滑，等等）可用于使得R更加易控制以在产生VAD的过程中使用并且此处的实施例并不局限于此。

可以对于感兴趣的整个频带计算比率R，或者可以在频率次能带中计算比率R。发现的一个有效的次能带是250Hz到1250Hz，另一个是200Hz到3000Hz，但是许多其他的次能带是可能的并且有用的。

一旦产生，比率R对比时间（或者如果使用多个次能带，那么R的矩阵对比时间）的矢量可以被用于任何检测***（例如使用固定和/或自适应阈值的***），以便确定什么时侯语音正出现。虽然本领域的技术人员已知许多检测***和方法并且这些检测***和方法可以被使用，但是此处描述的用于产生R以致可容易地辨别语音的方法是新颖的。重要的是，注意，R并不取决于噪音的类型或它的方位或频率成分；R简单地取决于V₁和V₂的对于噪音的空间响应的类似度以及对于语音的空间响应的不类似度。如此，它是非常耐用的并且可以在各种嘈杂的声学环境中平稳地操作。

图38是根据实施例的声学语音活动检测3800的流程图。该检测包含通过组合第一物理传声器的第一信号和第二物理传声器的第二信号来形成第一虚拟传声器3802。该检测包含形成滤波器，该滤波器描述第一物理传声器和第二物理传声器之间对于语音的关系3804。该检测包含通过将滤波器应用到第一信号以产生第一中间信号、并且对第一中间信号和第二信号进行求和来形成第二虚拟传声器3806。该检测包含产生第一虚拟传声器和第二虚拟传声器的能量的能量比3808。该检测包含当能量比大于阈值时检测说话者的声学语音活动3810。

对于***的β(z)的自适应的准确度是确定AVAD的有效性中的因素。对于***的实际的β(z)的更加准确的自适应导致V₂中的语音响应的较低的能量，和较高的比率R。通过该自适应处理，没有大大地改变噪音（远场）幅度响应，所以对于准确地自适应的β，R将接近整数。为了准确度，***可以单独对准语音，或噪音应当是能量足够低，以便不影响对准或者对于对准具有极小的影响。

为了使得对准尽可能的精确，实施例的滤波器β(z)的系数大体根据以下情况被更新，但是实施例并不局限于此：语音正被产生（需要比较高的SNR或其他检测方法，诸如2004年1月30日提交的第10/769,302号美国专利申请中描述的艾利佛皮肤表面传声器（SSM），其全部内容通过引用被结合在此）；没有检测到风（可以使用现有技术中已知的不同的方法，诸如检查对于不相关的低频噪音，来检测风）；以及R的当前值比R值的平滑的历史大得多（这确保对准只有当强的语音存在时才出现）。这些过程是灵活的，而且在没有显著地影响***的性能的情况下可以使用其他的。这些限定可以使得***相对更加耐用。

即使采用这些预防措施，***也有可能意外地对准噪音（例如，在没有使用非声学VAD装置的情况下，可能有较高的这种可能性，非声学VAD装置诸如是在由加利福尼亚的旧金山的艾利佛生产的Jawbone头戴式耳机中使用的SSM）。如此，实施例包含进一步的故障保险***，以预防意外的对准显著地破坏***。自适应的β被局限于对于语音预期的某个值。例如，对于耳朵安装的头戴式耳机的对于d₁的值通常将落在9厘米和14厘米之间，所以使用2d₀=2.0cm的阵列长度以及上述等式2，

| β (z) | = \frac{d_{1}}{d_{2}} \approx \frac{d_{1}}{d_{1} + 2 d_{0}}

意指

0.82<|β(z)|<0.88.

因此β滤波器的幅度可以被局限于近似0.82和0.88之间，以预防噪音是否在对准期间存在的问题。较松的限制可用于补偿不准确的校准（全向传声器的响应通常被彼此校准，以致它们的频率响应对于相同的声源是相同的——如果校准不是完全地准确，那么虚拟传声器不可能被正确地形成）。

类似地，β滤波器的相位可以被局限于从阵列的轴线开始的+-30等级之内的语音源所预期的。如在此描述的，参考图34，

（秒）

γ = \frac{d_{2} - d_{1}}{c}

d_{1} = \sqrt{d_{S}^{2} - 2 d_{S} d_{0} \cos (θ) + d_{0}^{2}}

d_{2} = \sqrt{d_{S}^{2} + 2 d_{S} d_{0} \cos (θ) + d_{0}^{2}}

其中d_s是从阵列的中点到语音源的距离。使d_s从10cm变化到15cm并且允许θ在0和+-30度之间变化，对于d_s=10cm，γ中的最大差异由0度处的γ（58.8微秒）和+-30度处的γ（50.8微秒）的差异引起。这个意指最大预期的相位差是58.8-50.8=8.0微秒，或在8kHz取样率的0.064采样。因为

φ(f)=2πft=2πft(8.0×10^-6)rad

在4kHz实现的最大相位差只有0.2rad或大约11.4度，小的量，但是不是可以忽略的量。因此，β滤波器应当差不多是线性相位，但是在位置和角度上容许一些差异。实际上，使用稍微大的量（在8kHz的0.071采样），以便补偿差的校准和衍射效应，并且这个工作良好。以下实例中的相位上的限制被实现作为中心抽头能量与其他抽头的组合能量的比率：

其中β是当前估计值。这个通过限定非中心抽头的影响来限制相位。限制β滤波器的相位的其他方式为本领域的技术人员所知，并且在此呈现的算法并不局限于此。

在此呈现的实施例使用固定β(z)和自适应β(z)两者，如以上详细描述的。在两种情况下，使用在8kHz的200采样的窗口大小，使用在250Hz和3000Hz之间的频率来计算R。在图39-44中显示对于V₁（上部曲线图）、V₂（当中曲线图）、R（下部曲线图，实线，使用在8kHz的200采样矩形窗口来开窗的）和VAD（下部曲线图，虚线）的结果。图39-44分别表明在只有噪音（街道和公共汽车噪音，在耳朵处的近似70dB SPL）的条件下、在只有语音（在嘴基准点（MRP）处标准化为94dB SPL）的条件下、以及在混合噪音和语音的条件下的固定β滤波器β(z)的使用。Bruel Kjaer头部和身体模拟器（HATS）被用于测试和安装在HATS的耳部上的全向传声器，全向传声器具有离开MRP近似11cm的阵列的中线。使用的固定β滤波器是β_F(z)=0.82，其中“F”下标指示固定滤波器。使用固定的1.5阀值来计算VAD。

图39显示根据实施例，当仅仅存在噪音时，使用固定β的算法的实验结果。上部曲线图是V₁对比时间，当中曲线图是V2对比时间，以及下部曲线图是R（实线）和VAD结果（虚线）对比时间。查看图39，V₁和V₂两者的响应非常类似，而且比率R对于整个采样非常接近整数。VAD响应在R曲线图中具有由峰值表示的偶尔误报（由算法识别的窗口，当它们没有时包含语音），但是使用标准脉冲去除算法和/或R结果的平滑，容易地去除这些。

图40显示根据实施例，当仅仅存在语音时，使用固定β的算法的实验结果。上部曲线图是V₁对比时间，当中曲线图是V₂对比时间，以及下部曲线图是R（实线）和VAD结果（虚线）对比时间。R比率平均在近似2和近似7之间，并且使用固定阀值可容易地辨别语音。这些结果显示两个虚拟传声器对于语音的响应是悬殊的，并且实际上比率R在语音期间从2改变到7。有非常少量的误报并且非常少量的漏报（包含语音但是没有被识别为语音窗口的窗口）。语音被容易地和准确地检测。

图41显示根据实施例，当语音和噪音存在时，使用固定β的算法的实验结果。上部曲线图是V₁对比时间，当中曲线图是V₂对比时间，以及下部曲线图是R（实线）和VAD结果（虚线）对比时间。R比率比当没有噪音存在时低，但是VAD保持准确，具有仅仅少数误报。比没有噪音有更多漏报，但是使用标准阈值算法，语音保持容易地可检测。即使在适度大声的噪音环境中（图41），R比率保持显著地整数以上，和VAD再次返回少量误报。观察到更多漏报，但是这些可以使用诸如R的平滑的标准方法被减少，并且允许VAD在R低于阀值之后，继续对于一些窗口报告浊音的窗口。

在图42-44中显示使用自适应β滤波器的结果。使用的自适应滤波器是使用来自100Hz到3500Hz的频带的五个抽头NLMS FIR滤波器。z^-0.43的固定滤波器被用于过滤O₁，以致在计算自适应滤波器之前，对于语音排列O₁和O₂。使用0.73的低β限制、0.98的高β限制、和0.98的相位限制比率，使用以上方法抑制自适应滤波器。再次，固定阀值用于产生来自比率R的VAD结果，但是在这种情况下，使用2.5的阈值，因为使用自适应β滤波器的R值通常大于当使用固定滤波器时的R值。这允许减少误报，而没有显著地增加漏报。

图42显示根据实施例，当仅仅存在噪音时，使用自适应β的算法的实验结果。上部曲线图是V₁对比时间，当中曲线图是V₂对比时间，以及下部曲线图是R（实线）和VAD结果（虚线）对比时间，并且y轴扩展为0-50。再次，V₁和V₂在能量中非常接近，并且R比率接近整数。只有单个误报被产生。

图43显示根据实施例，当仅仅存在语音时，使用自适应β的算法的实验结果。上部曲线图是V₁对比时间，当中曲线图是V₂对比时间，以及下部曲线图是R（实线）和VAD结果（虚线）对比时间，扩展为0-50。使用自适应β来大大地减少V₂响应，并且R比率已经平均从近似2-7的范围增加到近似5-30的范围，使得使用标准阈值算法更加简单地检测语音。几乎没有误报或漏报。因此，V₂对于语音的响应是最小的，R很高，并且在几乎没有误报的情况下，所有的语音被容易地检测。

图44显示根据实施例，当语音和噪音存在时，使用自适应的β的算法的实验结果。上部曲线图是V₁对比时间，当中曲线图是V₂对比时间，以及下部曲线图是R（实线）和VAD结果（虚线）对比时间，并且y轴扩展为0-50。R比率再次比当没有噪音存在时低，但是具有显著的噪音的这个R在VAD信号中呈现结果，结果大约与使用没有噪音呈现的固定β的情况相同。这显示了自适应β的使用允许***在比固定β高的噪音环境中执行地好。因此，采用混合的噪音和语音，再次有比图41的结果更加少的误报和少的漏报，表明自适应滤波器在相同的噪音环境中可以胜过固定滤波器。实际上，已经证明自适应滤波器显著地对于语音更加敏感，并且对于噪音有较少敏感。

使用声学和非声学传感器两者来检测浊语音和清语音

以下提供用于从背景噪音区分浊语音和清语音的***和方法，包含非声学传感器浊语音活动性检测（NAVSAD）***和导航器语音活动性检测（PSAD）***。在此提供的噪音去除和减少方法在允许从背景噪音分离和分类轻音和浊音的人类语音的同时，通过在没有失真的情况下清除感兴趣的声学信号来应对现有技术中已知的典型的***的缺点。

图45是根据实施例的NAVSAD***4500的方框图。NAVSAD***将传声器10和传感器20耦接到至少一个处理器30。实施例的传感器20包含语音活动检测器或非声学传感器。处理器30控制子***，子***包含在此被称为检测算法的检测子***50和降噪子***40。在相关的申请中详细描述降噪子***40的操作。NAVSAD***在任何背景噪声环境中工作得非常好。

图46是根据实施例的PSAD***4600的方框图。PSAD***将传声器10耦接到至少一个处理器30。处理器30包含在此被称为检测算法的检测子***50和降噪子***40。PSAD***在低噪声环境中高度敏感，并且在高噪声环境中相对不敏感。PSAD可以独立操作或作为对于NAVSAD的备份，如果NAVSAD出故障，那么就检测浊语音。

注意，实施例的NAVSAD和PSAD***两者的检测子***50和降噪子***40是由处理器30控制的算法，但是并不局限于此。NAVSAD和PSAD***的替换实施例可以包含检测子***50和/或降噪子***40，检测子***50和/或降噪子***40包括其他的硬件、固件、软件和/或硬件、程序包和软件的组合。此外，检测子***50和降噪子***40的功能可以跨越NAVSAD和PSAD***的众多部件被分布。

图47是根据实施例的此处被称为导航器(Pathfinder)***的降噪子***4700的方框图。Pathfinder***以下被简要地描述，并且在相关的申请中被详细描述。在Pathfinder***中使用两个传声器Mic1和Mic2，并且Mic1被认为是“信号”传声器。参考图45，当语音活动检测器（VAD）4720是非声学调声传感器20并且噪音去除子***4740包含检测子***50和降噪子***40时，Pathfinder***4700相当于NAVSAD***4500。参考图46，在没有VAD4720时，并且当噪音去除子***4740包含检测子***50和降噪子***40时，Pathfinder***4700相当于PSAD***4600。

NAVSAD和PSAD***支持两个级别的商业方法，其中（i）相对价格比较低廉的PSAD***支持在大多数低噪音到中等噪音环境中起作用的声学方法，和（ii）NAVSAD***添加非声学传感器以使得能够在任何环境中检测浊语音。通常不使用传感器来检测清语音，因为它通常没有充分地震动人的组织。然而，在高噪音的情形中，检测清语音并不是重要的，因为它通常能量极低，并且容易被噪音冲走。因此在高噪音环境中，清语音不可能影响浊语音降噪。当少许噪音存在到没有噪音存在时，清语音信息是最重要的，并且因此，清音的检测应当在低噪音情形中是高度敏感的，并且在高的噪音情形中是不敏感的。这并不容易实现，并且现有技术中已知的可比较的声学清音检测器不能在这些环境要素下操作。

NAVSAD和PSAD***包含用于语音检测的阵列算法，阵列算法使用两个传声器之间的频率成分中的差异，来计算两个传声器的信号之间的关系。这与传统的阵列相反，传统的阵列尝试使用每个传声器的时间/相位差以将噪音排除到“敏感区域”之外。在此描述的方法提供显著的优势，因为它们不需要阵列相对于信号的特定方位。

此外，在此描述的***对于每个类型和每个方位的噪音是敏感的，不像取决于特定的噪音方位的传统的阵列。因此，在此呈现的基于频率的阵列是唯一的，因为它们仅仅取决于两个传声器本身的相对方位，而没有取决于噪音和信号相对于传声器的方位。这导致相对于噪音/信号源和传声器之间的噪音类型、传声器和方位的耐用的信号处理***。

在此描述的***使用来源于Pathfinder噪音抑制***和/或在相关的申请中描述的非声学传感器的信息，以确定输入信号的调声状态，如以下详细描述的。调声状态包含无声的、浊音的和清音的状态。例如NAVSAD***包含非声学传感器以检测与语音相关的人的组织的振动。实施例的非声学传感器是以下简要描述并且在相关的申请中详细描述的一般电磁移动传感器（General Electromagnetic Movement Sensor，GEMS），但是并不局限于此。然而，替换实施例可以使用任何传感器，任何传感器能够检测与语音相关的人类组织运动，并且不受背景噪声的影响。

GEMS是允许检测移动人类组织电介质界面的无线电频率装置（2.4GHz）。GEMS包含RF干扰计，RF干扰计使用零差混合以检测与目标运动相关的小的相移。实质上，传感器发出微弱的电磁波（小于1毫瓦），微弱的电磁波反映传感器周围的无论什么东西。反射波与原始发射波以及对于目标位置中的任何变化的分析的结果混合。移动接近传感器的任何物体将引起反射波的相位变化，该变化将随着来自传感器的输出电压中的变化而被放大和显示。类似的传感器在“声门电磁微功率传感器（GEMS）的生理基础和它们在限定对于人的声域的激励函数中的使用（The physiological basis of glottal electromagnetic micropower sensors(GEMS)and their use in defining an excitation function for the human vocal tract）中由格雷戈里·C·伯内特（1999）描述；博士论文，在戴维斯的加利福尼亚大学。

图48是根据实施例，用于检测浊语音和清语音的检测算法50的流程图。参考图45和46，实施例的NAVSAD和PSAD***两者包含作为检测子***50的检测算法50。这个检测算法50实时操作，并且在实施例中，在20毫秒窗口上操作，并且每次步进10毫秒，但是并不局限于此。对于第一个10毫秒记录语音活动确定，并且第二个10毫秒起“先行”缓冲的作用。虽然实施例使用20/10窗口，但是替换实施例可以使用众多其他窗口值的组合。

给出对于许多开发检测算法50中的多维因素的考虑。最大的考虑是维持Pathfinder降噪技术的有效性，在相关的申请中详细描述并且在此回顾。如果自适应滤波器对准在语音上执行而不是在噪音上执行，那么Pathfinder导航器性能可能被损害。因此，重要的是，从VAD排除任何显著量的语音，以将这种干扰保持为最少。

还给出对于浊语音和清语音信号之间的特征化的准确度的考虑，并且从噪音信号区分这些语音信号中的每一个信号。这个类型的特征化在作为语音识别和说话者验证的这种申请中可能是有用的。

此外，使用实施例的检测算法的***在包含变化量的背景噪声的环境中起作用。如果非声学传感器是可用的，那么这个外部噪音对于浊语音不是问题。然而，对于清语音（如果非声学传感器不可用或已经不正常工作，那么和浊语音），单独地对声学数据寄予信任，以从清语音分离噪音。在Pathfinder噪音抑制***的实施例中使用两个传声器具有优点，并且传声器之间的空间关系被开发，以帮助清语音的检测。然而，可能偶尔有足够高的噪音水平，以致语音将几乎不能被检测到，并且仅仅声学的方法将失效。在这些情形中，将需要非声学传感器（或此后仅仅传感器）以确保良好性能。

在双传声器***中，当与另一个传声器比较时，语音源在一个指定的传声器中应当是相对大声的。测试已经显示，当传声器被放置在头部上时，这个要求容易满足传统的传声器，因为任何噪音应当导致具有接近整数增益的H₁。

关于NAVSAD***，并且参考图45和图47，NAVSAD依赖于两个参数以检测浊语音。这两个参数包含感兴趣的窗口中的传感器的能量，在实施例中由标准偏差（SD）确定，在来自传声器1的声学信号和传感器数据之间可选择地互相关（XCORR）。可以以许多方式中的任何一个方式来确定传感器的能量，SD仅仅是确定能量的一个方便的方式。

对于传感器，SD近乎于信号的能量，SD通常十分准确地对应于调声状态，但是可能易受移动噪音（传感器相对于人的相对运动）和/或电磁噪音的影响。为了进一步从组织运动区分传感器噪音，可以使用XCORR。XCORR仅仅被计算为15个延迟，对应于仅仅在8000Hz的2毫秒之下。

当传感器信号以一些方式被变形或调制时，XCORR同样可以是有用的。例如，有传感器位置（诸如下巴或脖子的背部），其中可以检测到语音产生，但是信号可能具有错误的或变形的基于时间的信息。也就是说，它们在时间上可能并不具有将与声学波形相匹配的良好限定的特征。然而，XCORR更加易受来自噪声的误差的影响，并且在高的（<0dB SNR）环境几乎是无用的。因此，应当不是调声信息的唯一源。

传感器检测与声襞的闭合相关的人的组织运动，所以由声襞的闭合产生的声学信号与闭合是高度相关的。因此，与声学信号高度相关的传感器数据被表明为语音，并且没有很好相关的传感器数据被称为噪音。预期声学数据落后传感器数据大约0.1到0.8毫秒（或大约1-7采样），作为由于相对缓慢的音速（大约330m/s）而导致的延迟时间的结果。然而，实施例使用15采样相关，因为声波形状取决于产生的声音显著地改变，并且需要较大的相关宽度以确保检测。

SD和XCORR信号是关联的，但是是充分地不同，以致浊语音检测更加可靠。然而，为简单起见，可以使用任何参数。用于SD和XCORR的值与实验的阈值比较，并且如果两者在它们的阀值以上，那么表明是浊语音。实例数据被呈现并且在下面被描述。

图49A、49B和50显示根据实施例的用于实例的数据曲线图，其中，对象两次说短语“pop pan”。图49A绘制对于这个发声的接收的GEMS信号4902，以及在GEMS信号和Mic1信号之间的平均相关性4904和用于浊语音检测的阀值T1。图49B绘制对于这个发声的接收的GEMS信号4902，以及GEMS信号的标准偏差4906和用于浊语音检测的阀值T2。图50绘制从声学或音频信号5008检测到的浊语音5002，以及GEMS信号5004和噪声5006；由于沉重地背景嘈杂的噪音5006，在这个实例中没有清语音被检测到。已经设定阈值以致没有虚拟的漏报，并且仅仅有偶尔误报。在任何声学背景噪音情况之下，已经取得大于99%的浊语音活动检测准确度。

由于非声学传感器信息，NAVSAD可以以高等级的准确度确定浊语音在什么时侯正出现。然而，传感器为从噪音分离清语音提供少许协助，因为清语音通常导致在大多数非声学传感器中没有可检测的信号。如果有可检测的信号，那么可以使用NAVSAD，尽管随着清语音通常被差地相关，规定使用SD方法。当没有可检测的信号时，使用确定什么时侯出现清语音的Pathfinder噪音去除的***和方法。以下描述Pathfinder算法的简短回顾，同时在相关的申请中详细说明。

参考图47，进入传声器1的声学信息由m₁(n)表示，进入传声器2的声学信息类似地由m₂(n)标记，以及假定GEMS传感器可以用来确定浊语音区域。在z（数字频率)域中，这些信号被表示为M₁(z)和M₂(z)。然后

M₁(z)=S(z)+N₂(z)

M₂(z)=N(z)+S₂(z)

随着

N₂(z)=N(z)H₁(z)

S₂(z)=S(z)H₂(z)

所以

\begin{matrix} M_{1} (z) = S (z) + N (z) H_{1} (z) \\ M_{2} (z) = N (z) + S (z) H_{2} (z) \end{matrix} - - - (1)

对于所有双传声器***，这是普通情况。总是将要有一些噪音泄漏到Mic1中，以及一些信号泄漏到Mic2中。等式1具有四个未知数和仅仅两个关系式，并且不能被明确地求解。

然而，有另一个方法来求出等式1中的一些未知数。检查信号没有正被产生的情况——也就是说，GEMS信号表示调声没有出现。在这种情况下，s(n)=S(z)=0，并且等式1减少为

M_1n(z)=N(z)H₁(z)

M_2n(z)=N(z)

其中，M变量上的下标n指示只有噪音正被接收。这导致

M_1n(z)=M_2n(z)H₁(z)

H_{1} (z) = \frac{M_{1 n} (z)}{M_{2 n} (z)} - - - (2)

可以使用任何可用***的识别算法来计算H₁(z)，并且当只有噪音正被接收时传声器输出。计算可以被自适应地完成，以致如果噪音显著地变化，那么H₁(z)可以被迅速地重新计算。

利用等式1中的一个未知数的解法，可以使用GEMS或类似装置的振幅以及两个传声器的振幅来找到用于另一个H₂(z)的解法。当GEMS指示调声时，但是近来（小于1秒）的传声器的历史记录指示低水平的噪音，假定n(s)=N(z)～0。然后等式1减少为

M_ls(z)=S(z)

M_2s(z)=S(z)H₂(z)

随后导致

M_2s(z)=M_1s(z)H₂(z)

H_{2} (z) = \frac{M_{2 s} (z)}{M_{1 s} (z)}

是H₁(z)计算的倒数，但是注意，不同的输入正被使用。

在计算以上的H₁(z)和H₂(z)之后，它们被用于从信号去除噪音。等式1被重写为

S(z)=M₁(z)-N(z)H₁(z)

N(z)=M₂(z)-S(z)H₂(z)

S(z)=M₁(z)-[M₂(z)–S(z)H₂(z)]H₁(z)

S(z)[1-H₂(z)H₁(z)]=M₁(z)-M₂(z)H₁(z)

并且求出S(z)为：

S (z) = \frac{M_{1} (z) - M_{2} (z) H_{1} (z)}{1 - H_{2} (z) H_{1} (z)} . - - - (3)

实际上，H₂(z)通常是十分小的，以致H₂(z)H₁(z)＜＜1，以及

S(z)≈M₁(z)-M₂(z)H₁(z),

避免需要H₂(z)计算。

参考图46和图47，描述PSAD***。随着声波传播，它们通常随着它们由于衍射和散射所引起的行进而消耗能量。假定声波来源于点声源并且均质地散发，它们的振幅将随着函数1/r而减少，其中，r是离开起点的距离。与振幅成正比的这个函数1/r是最坏的情况，如果限制在较小的区域中，那么减少将是较少的。然而，它对于感兴趣的配置是适当的模型，具体地，噪音和语音传播到位于用户的头部上的某处的传声器。

图51是根据PSAD***的实施例的所使用的传声器阵列。将传声器Mic1和Mic2放置成与阵列中线上的嘴成线性阵列，Mic1和Mic2中的信号强度中的差异（假定传声器具有相同的频率响应）将与d₁和△d成正比。假定1/r（或者在这种情况下1/d）关系，可见

ΔM = \frac{| Mic 1 |}{| Mic 2 |} = Δ H_{1} (z) α \frac{d_{1} + Δd}{d_{1}}

其中ΔΜ是Mic1和Mic2之间的增益中的差异，因此，H₁(z)同上等式2中的。变量d₁是从Mic1到语音或者噪音源的距离。

图52是根据实施例的对于一些Δd值的ΔΜ对比d₁的曲线图5200。显然，随着Δd变得越大以及噪音源变得越近，ΔΜ变得越大。取决于语音/噪音源的方位，变量Δd将从阵列中线上的最大值变化为垂直于阵列中线的零点。从曲线图5200中，显然的是，对于小的Δd以及对于近似30厘米（cm）之上的距离，ΔΜ接近于整数。因为大多数噪音源比30cm更远并且不可能在阵列的中线上，所以很可能当计算如上等式2中的H₁(z)时，ΔΜ（或者等同于H₁(z)的增益）将接近于整数。相反地，对于接近（几厘米之内）的噪音源，取决于哪个传声器更接近噪音，可以在增益中有相当大的差异。

如果“噪音”是用户说话，并且Mic1比Mic2更接近嘴，那么增益增加。因为环境噪音通常在比语音更远离用户的头部处出现，所以在H₁(z)接近整数或者一些固定值的期间将找到噪音，并且可以在增益激增之后找到语音。语音可以是清音的或者浊音的，只要与周围噪音相比有足够的音量。在语音部分期间，增益将保持有些高，然后在语音停止之后迅速下降。增益H₁(z)的迅速增减足以允许在几乎任何情况之下检测语音。这个实例中的增益通过滤波系数的绝对值的总和来计算。这个总和并不等于增益，但是两者是相关的，因为绝对值的总和的上升反映了增益的上升。

作为这个性态的实例，图53显示增益参数5302的曲线图5300，增益参数5302作为H₁(z)和来自传声器1的声学数据5304或者音频的绝对值的总和。语音信号是重复两次短语“pop pan”的发声。估计的带宽包含从2500Hz到3500Hz的频率范围，尽管实际上1500Hz到2500Hz被另外使用。注意，当首先遇到清语音时，增益迅速增加，然后，当语音结束时迅速恢复正常。源于噪音和语音之间的传递的增益中的大变化可以通过任何标准信号处理技术被检测。使用最少增益计算的标准偏差，具有由标准偏差的运行平均值和标准偏差噪音层限定的阈值。为了清楚，对于浊语音的稍后的增益变化在这个曲线图5300中被抑制。

图54是图53在呈现的声学数据的替换曲线图5400。在这个曲线图5400中再次呈现用于形成曲线图5300的数据，以及没有噪音的音频数据5404和GEMS数据5406，使得清语音显而易见。浊音信号5402具有三个可能的值：0用于噪音，1用于清音，以及2用于浊音。只有当V=0时实现降噪。显然清语音被非常好的捕获，暂置不论清音的检测中的两个单个回动接近每个“pop”的末端。然而，这些单个窗口回动不是普遍的，并且没有显著地影响降噪算法。它们可以使用标准平滑技术被容易地去除。

从这个曲线图5400不明确的是，PSAD***起到对于NAVSAD自动备份的作用。这是因为如果传感器或者NAVSAD***由于任何原因失效，那么浊语音（因为它具有与作为清音的传声器的相同的空间关系）将被检测作为清语音。浊语音将被误分类为清语音，但是降噪将仍然没有发生，保持语音信号的品质。

然而，NAVSAD***的这个自动的备份在具有低噪音（近似10+dB SNR）的环境中起最佳作用，因为大量（10dB的SNR以下）的噪声可以迅速淹没任何只有声学的清音的检测器，包含PSAD。这分别在图50和54的曲线图5000和5400中显示的浊音的信号数据5002和5402中的差异中是明显的。

其中相同的发声被说出，但是曲线图5000的数据没有显示清语音，因为清语音是不可检测的。当进行降噪时这是想要的性态，因为如果清语音是不可检测的，那么它将不会显著地影响降噪处理。使用Pathfinder***检测清语音确保检测任何清语音足以大声以使降噪变形。

关于硬件考虑，以及参考图51，传声器配置可以对与语音相关的增益中的变化以及检测语音所需的阈值有影响。通常，每个配置将需要测试以确定适当的阈值，但是对于两个非常不同的传声器配置的测试显示相同的阈值及其他参数良好地工作。第一个传声器组具有接近嘴的信号传声器和距离耳朵几厘米的噪音传声器，同时第二配置将噪音和信号传声器背对背地放置在嘴的几厘米之内。使用第一传声器配置得出在此呈现的结果，但是使用另一个设定的结果是虚拟相同的，所以检测算法相对于传声器放置是相对耐用的。

许多配置可以使用NAVSAD和PSAD***以检测浊语音和清语音。一个配置使用NAVSAD***（仅仅非声学）以检测浊语音以及使用PSAD***以检测清语音；PSAD同样起对于NAVSAD***的备份的作用，用于检测浊语音。替换配置使用NAVSAD***（与声学相关的非声学）以检测浊语音以及使用PSAD***以检测清语音；PSAD同样起对于NAVSAD***的备份的作用，用于检测浊语音。另一个替换配置使用PSAD***以检测浊语音和清语音两者。

虽然已经参考从背景噪声分离浊语音和清语音描述了如上所述的***，但是没有理由不能做出更加复杂的分类。为了语音的更加深度的特征化，***可以使来自Mic1和Mic2的信息带通，以致可以看见Mic1数据中的哪个频带大量地由噪音组成，以及哪个语音的权重更大。使用这个知识，可以通过它们类似传统的声学方法的光谱特性来对发声分组；这个方法在噪音环境中起更好的作用。

作为实例，“kick”中的“k”具有显著频率成分形式500Hz到4000Hz，但是“she”中的“sh”仅仅包含来自1700-4000Hz的显著能量。可以按类似方式分类浊语音。例如，/i/（“ee”）具有大约300Hz和2500Hz的显著能量，并且/a/（“ah”）具有大约900Hz和1200Hz的能量。如此，在噪音存在的情况下区分清语音和浊语音的这个能力是非常有用的。

声学振动传感器

以下描述同样被称为语音传感装置的声学振动传感器。声学振动传感器与传声器的类似之处在于，它从噪音环境中的人类讲话者或者讲话者的头部区域捕获语音信息。对于这个问题的以前的解决方案已经易受噪音的影响，物理上对于某个应用太大，或者成本过高。相反，在实质上的空气传播的噪声存在的情况下，在此描述的声学振动传感器准确地检测和捕获语音振动，仍旧在较小的和较便宜的物理外壳之内。由声学振动传感器提供的噪音免疫的语音信息随后可以用于下游语音处理应用中（语音增强和噪音抑制，语音编码，语音识别，讲话者验证等等），以改善那些应用的性能。

图55是根据实施例的在此还被称为传感器5500的声学振动传感器5500的横截面视图。图56A是根据图55的实施例的声学振动传感器5500的分解图。图56B是根据图55的实施例的声学振动传感器5500的立体图。传感器5500包含壳体5502，壳体5502具有在壳体5502的第一侧上的第一端口5504和在壳体5502的第二侧上的至少一个第二端口5506。同样被称为感测膜片5508的膜片5508位于第一和第二端口之间。还被称为覆盖物5510或者盖子5510的耦接器5510形成壳体5502周围的声学密封，以致第一端口5504和膜片面对第一端口5504的一侧与人类讲话者的空气传播的声学环境隔离。实施例的耦接器5510是邻接的，但是并不局限于此。第二端口5506将膜片的第二侧耦接到外部环境。

传感器还包含电介体材料5520和耦接的相关部件和电子设备，以便经由耦接器5510和膜片5508接收来自讲话者的声学信号，并且将声学信号转换为代表人类语音的电信号。电触点5530提供电信号作为输出。替换实施例可以使用任何类型/组合的材料和/或电子设备，以便将声学信号转换为代表人类语音的电信号并且输出该电信号。

使用具有与人类皮肤的阻抗（皮肤的特征声学阻抗大致是1.5×10⁶Pa×s/m）相匹配的声学阻抗的材料来形成实施例的耦接器5510。因此，使用包含硅胶、电介质凝胶体、热塑性弹性体（TPE）和橡胶混合物中的至少一个来形成耦接器5510，但是并不局限于此。作为实例，使用Kraiburg TPE产品形成实施例的耦接器5510。作为另一个实例，使用有机硅产品来形成实施例的耦接器5510。

实施例的耦接器5510包含接触装置5512，接触装置5512包含例如从耦接器5510的一侧或两侧突出的螺纹接套或突起。在操作中，从连接器5510的两侧突出的接触装置5512包含接触装置5512与讲话者的皮肤表面接触的一侧和接触装置5512与膜片接触的另一侧，实施例并不局限于此。耦接器5510和接触装置5512可以由相同的或不同的材料形成。

耦接器5510有效地将声能从讲话者的皮肤/肉体传送到膜片，并且将膜片与周围的空气传播的声学信号密封。因此，具有耦接装置5512的连接器5510有效地直接声学信号从讲话者身体（语音振动）传送到膜片，同时使膜片与讲话者的空气传播的环境中的声学信号（空气的特征声学阻抗近似是415Pa×s/m）隔离。该膜片通过耦接器5510与讲话者的空气传播的环境中的声学信号隔离，因为耦接器5510防止信号到达膜片，因此反射和/或驱散空气传播的环境中的声学信号的大量能量。因此，传感器5500主要地响应从讲话者的皮肤而不是空气传送的声能。当靠着讲话者的头部放置时，传感器5500拾取皮肤表面上的语音感应的声学信号，同时空气传播的噪声信号被大规模的去除，因此增加信噪比并且提供非常可靠的语音信息源。

通过使用在膜片和讲话者的空气传播的环境之间设置的密封件，传感器5500的性能被改进。由耦接器5510提供该密封件。在实施例中使用改良的压差传声器，因为它在两端上具有压力孔。如此，当第一端口5504被耦接器5510密封时，第二端口5506提供用于气流经过传感器5500的通风孔。

图57是根据图55的实施例的声学振动传感器的耦接器5510的示意图。显示的尺寸是亳米，并且仅仅想要作为用于一个实施例的实例。耦接器的替换实施例可以具有不同的结构和/或尺寸。连接器5510的尺寸显示声学振动传感器5500是小的，实施例的传感器5500与移动通信装置中找到的典型的传声器膜盒有近似相同的大小。这个小的形状因素允许在高度可移动的小型化应用中使用传感器5510，其中，一些实例应用包含移动电话、卫星电话、携带式电话、有线电话、因特网电话、无线收发器、无线通信收音机、个人数字助理（PDA）、个人计算机（PC）、头戴式耳机装置、头戴式装置和耳机中的至少一个。

声学振动传感器在高噪音环境中提供非常准确的语音活动检测（VAD），其中，高噪音环境包含空气传播的声学环境，其中如果噪音振幅不大于语音振幅，那么噪音振幅与由传统的全向传声器测量的一样大。准确的VAD信息提供显著的性能以及许多重要的语音处理应用中的效率好处，然而并非局限于此：可从加利福尼亚的布里斯班的艾利佛得到、并且在相关的申请中被描述的诸如Pathfinder算法的噪音抑制算法；在许多商业体制中被开发的诸如改进的变化率代码（EVRC）的语音压缩算法；以及语音识别***。

除了提供具有改进的噪声比的信号，声学振动传感器还仅仅使用最小的功率来操作（例如，数量级为200微安Amps）。与需要电源、滤波器和/或显著的放大的替代方案相比，声学振动传感器使用标准传声器接口以便与信号处理装置连接。标准传声器接口的使用避免主机装置中的附加费用以及接口线路的大小，并且支持在高移动式应用中的传感器，其中，功率利用率是争论点。

图58是根据替换实施例的声学振动传感器5800的分解图。传感器5800包含壳体5802，壳体5802具有在壳体5802的第一侧上的第一端口5804和在壳体5802的第二侧上的至少一个第二端口（未显示）。膜片5808位于第一和第二端口之间。硅胶5809或其他类似物质的层形成与膜片5808的至少一部分接触。耦接器5810或覆盖物5810形成在壳体5802和硅胶5809周围，其中，耦接器5810的一部分与硅胶5809接触。耦接器5810和硅胶5809组合形成壳体5802周围的声学密封，以致第一端口5804和膜片面对第一端口5804的一侧与人类讲话者的声学环境隔离。第二端口将膜片的第二侧耦接到声学环境。

如上所述，传感器视情况而定包含其他的电子材料，其他的电子材料经由耦接器5810、硅胶5809和膜片5808接收来自讲话者的声学信号，并且将声学信号转换为代表人类语音的电信号。

替换实施例可以使用任何类型/组合的材料和/或电子设备，以便将声学信号转换为代表人类语音的电信号。

使用具有与人类皮肤的阻抗相匹配的材料来形成实施例的耦接器5810和/或凝胶体5809。因此，使用包含硅胶、电介质凝胶体、热塑性弹性体（TPE）和橡胶混合物中的至少一个来形成耦接器5810，但是并不局限于此。耦接器5810有效地将声能从讲话者的皮肤/肉体传送到膜片，并且使膜片与周围的空气传播的声学信号隔离。因此，耦接器5810有效地将声学信号从讲话者的身体（语音振动）直接传送到膜片，同时在讲话者的空气传播的环境中使膜片与声学信号隔离。该膜片通过硅胶5809/耦接器5810在讲话者的空气传播的环境中与声学信号隔离，因为硅胶5809/耦接器5810防止信号到达膜片，因此反射和/或驱散空气传播的环境中的声学信号的大量能量。

因此，传感器5800主要地响应从讲话者的皮肤而不是空气传送的声能。当靠着讲话者的头部放置时，传感器5800拾取皮肤表面上的语音感应的声学信号，同时空中传播的噪声信号被大规模地去除，因此增加信噪比并且提供非常可靠的语音信息源。

在耳机之外有许多位置，从这些位置，声学振动传感器可以检测与语音的产生相关联的皮肤振动。传感器可以以任何方式被安装在装置、电话听筒或耳机中，唯一的限制是，可靠的皮肤接触被用于检测与语音的产生相关联的皮肤负担的振动。图59显示根据实施例的在适合于声学振动传感器5500/5800放置的人类头部上的敏感性的代表区域5900-5920。敏感性的区域5900-5920包含在耳朵后面的区域5900中的多个位置5902-5908，在耳朵前面的区域5910中的至少一个位置5912，以及在耳道区域5920中的多个位置5922-5928。敏感性的区域5900-5920对于人类头部的两侧是相同的。这些敏感性的代表区域5900-5920仅仅被提供作为实例，并且没有限制在此描述的在这些区域中使用的实施例。

图60是根据实施例的一般的头戴式耳机装置6000，一般的头戴式耳机装置6000包含放置在多个位置6002-6010中的任何位置的声学振动传感器5500/5800。通常，声学振动传感器5500/5800可以放置在装置6000的对应于人类头部上的敏感性区域5900-5920（图59）的任何部分上。虽然头戴式耳机装置被显示作为实例，但是现有技术中已知的许多通信装置可以携带和/或耦接到声学振动传感器5500/5800。

图61是根据实施例的用于声学振动传感器的制造方法6100的图。例如，在块6102操作从单向传声器6120开始。在块6104，硅胶6122被形成在膜片（未显示）和相关联的端口上方/形成在膜片（未显示）和相关联的端口上。在块6106，例如聚氨脂薄膜的材料6124被形成或放置传声器6120/硅胶6122组合上方，以形成耦接器或覆盖物。在块6108，滑动配合卡圈或其他装置被放置在传声器上，以便确保在固化期间的耦接器的材料。

注意，如上所述，硅胶（块6102）是取决于正被制造的传感器的实施例的可选择的部件。因此，包含接触装置5512（参考图55）的声学振动传感器5500的制造将并不包含在膜片上方/上的硅胶6122的形成。此外，对于这个传感器5500的形成在传声器上方的耦接器将包含接触装置5512或接触装置5512的形成。

在此描述的实施例包含一种***，该***包括：接收第一信号的第一检测器和接收第二信号的第二检测器。实施例的***包括耦接到所述第一检测器的语音活动检测器（VAD）。当第一信号对应于浊语音时，VAD产生VAD信号。实施例的***包括耦接到所述第二检测器的风检测器。风检测器使在所述第二检测器处接收到的信号相关，并且从相关性得出多个风度量，所述多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个。风检测器按照所述多个风度量来控制所述第二检测器的配置。风检测器使用所述多个风度量来动态地控制所述第一信号和所述第二信号的混合，以产生用于传送的输出信号。

在此描述的实施例包含一种***，该***包括：接收第一信号的第一检测器和接收第二信号的第二检测器；耦接到所述第一检测器的语音活动检测器（VAD），当所述第一信号对应于浊语音时，所述VAD产生VAD信号；和耦接到所述第二检测器的风检测器，其中，所述风检测器使在所述第二检测器处接收到的信号相关，并且从相关性得出多个风度量，所述多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个，其中，所述风检测器按照所述多个风度量来控制所述第二检测器的配置，其中，所述风检测器使用所述多个风度量来动态地控制所述第一信号和所述第二信号的混合，以产生用于传送的输出信号。

实施例的第一检测器是振动传感器。

实施例的第一检测器是皮肤表面传声器（SSM）。实施例的第二检测器是声学传感器。

实施例的第二检测器包含两个全向传声器。

实施例的两个全向传声器彼此相邻安置，并且被分开近似在10亳米（mm）到40mm的范围中的距离。

实施例的风检测器包含耦接到所述第二检测器的自适应滤波器，其中，所述风检测器通过计算自适应滤波器误差的能量来使信号相关。

实施例的风检测器包含耦接到所述自适应滤波器的第一指数均值滤波器和第二指数均值滤波器，其中，所述风检测器将所述能量施加到所述第一指数均值滤波器和所述第二指数均值滤波器。

实施例的风检测器从所述能量产生瞬时风级别，其中，所述瞬时风级别代表所述风噪音的瞬间风级别。

实施例的多个风度量包含风存在度量，所述风存在度量表征相对于当前风阀值的所述瞬时风级别，在所述当前风阀值之上，所述风噪音负面地影响主机电子***中的电子操作。

实施例的多个风度量包含风模式度量，所述风模式度量表征相对于风高阈值的所述瞬时风级别，在所述风高阈值之上，所述风噪音被认为对主机电子***中的音频可懂度具有相对高的影响。

实施例的风检测器从所述能量产生当前风级别，其中，所述当前风级别代表所述风噪音的平均当前风级别。

实施例的多个风度量包含风指标度量，所述风指标度量表征相对于最小风阀值的所述当前风级别，在所述最小风阀值之下，所述风噪音被认为对主机电子***中的噪音抑制和音频可懂度具有可以忽略的影响。

实施例的多个风度量包含所述风检测器产生的风模式度量，以控制所述第二检测器的所述配置，其中，所述风模式度量表征相对于风高阈值的瞬时风级别，在所述风高阈值之上，所述风噪音被认为对主机电子***中的音频可懂度具有相对高的影响。

响应于指示瞬时风级别超过所述风高阈值的所述风模式度量，实施例的风检测器通过控制总和的检测器信号的产生来控制所述第二检测器的所述配置，通过对来自所述第二检测器的两个传声器中的每个传声器的信号进行求和得到所述总和的检测器信号。

实施例的检测器通过控制单个传声器噪声抑制对所述总和的检测器信号的应用来控制所述第二检测器的所述配置。

当所述风模式度量指示瞬时风级别处于所述风高阈值以下时，实施例的风检测器通过控制来自所述第二检测器的两个传声器中的每个传声器的信号的分离处理来控制所述第二检测器的所述配置。

实施例的风检测器通过控制双重传声器噪声抑制对来自所述传声器的所述信号的应用来控制所述第二检测器的所述配置。

实施例的***包含耦接到第一检测器和风检测器的增益控制器。

实施例的增益控制器响应于所述多个风度量和所述VAD信号控制施加到所述第一信号的增益。

当所述多个风度量指示没有风存在时，实施例的增益控制器调节施加到所述第一信号的增益。

实施例的多个风度量包含风存在度量，所述风存在度量表征相对于当前风阀值的来源于所述第二信号的瞬时风级别，在当前风阀值之上，所述风噪音负面地影响主机电子***中的电子操作。

实施例的***包含调节所述增益以使所述第一信号的第一均方根（RMS）与噪音抑制的语音信号的第二RMS相匹配。

实施例的***包含当所述第一信号对应于浊语音时产生VAD信号，以及使用VAD信号来噪音选通第一信号。

当所述VAD信号指示所述第一信号对应于浊语音时，实施例的增益控制器调节施加到所述第一信号的增益。

实施例的***包含耦接到所述第一检测器的第一滤波器和耦接到所述第二检测器的第二滤波器。

实施例的第一滤波器是低通滤波器，以及第二滤波器是高通滤波器。

实施例的多个风度量动态地控制所述第一信号和所述第二信号的混合。

实施例的多个风度量多个风度量动态地调节所述第一滤波器的响应，并且动态地调节所述第二滤波器的响应，所述第一信号被施加到所述第一滤波器，所述第二信号被施加到所述第二滤波器。

实施例的多个风度量包含风指标度量，所述风指标度量表征相对于最小风阀值的当前风级别，在所述最小风阀值之下，所述风噪音被认为对于主机电子***中的噪音抑制和音频可懂度具有可以忽略的影响，其中，所述当前风级别代表所述风噪音的平均当前风级别。

实施例的***包含从所述风指标度量估计所述风噪音的风频率响应。

实施例的***包括耦接到所述第二检测器的适宜均衡器。

实施例的适宜均衡器产生适宜风成分，并且将所述适宜风成分添加到音频信号，其中，所述适宜风成分为听者提供风存在的意识。

实施例的适宜均衡器被耦接到传送器，并且将所述适宜风成分添加到为传送而处理的音频信号。

实施例的适宜均衡器被耦接到接收器，并且将所述适宜风成分添加到为接收而处理的音频信号。

实施例的适宜均衡器通过减去来自所述第二检测器的两个传声器中的每个传声器的信号以产生差值信号，产生所述适宜风成分。

实施例的***包含通过增益调制所述差值信号，以产生调制信号。

实施例的增益包含静态增益，所述静态增益提供扬声器中的适当的风噪音反馈的级别。

实施例的增益包含选通因素，所述选通因素来源于由所述风检测器输出的风存在度量其中，所述风存在度量表征相对于当前风阀值的来源于所述第二信号的瞬时风级别，在所述当前风阀值之上，所述风噪音负面地影响主机电子***中的电子操作。

实施例的***包含过滤所述调制信号以提供所述适宜风成分，所述过滤包含限制低频风噪音和高频风噪音的量。

在此描述的实施例包含一种***，该***包括：接收第一信号的第一检测器和接收第二信号的第二检测器。实施例的***包括耦接到所述第一检测器的语音活动检测器（VAD）。当第一信号对应于浊语音时，VAD产生VAD信号。实施例的***包括耦接到所述第二检测器的风检测器。风检测器使在所述第二检测器接收的信号相关，并且从相关性得出多个风度量，所述多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个。风检测器使用所述多个风度量来动态地控制所述第一信号和所述第二信号的混合，以产生用于传送的输出信号。

在此描述的实施例包含一种***，该***包括：接收第一信号的第一检测器和接收第二信号的第二检测器；耦接到所述第一检测器的语音活动检测器（VAD），当所述第一信号对应于浊语音时，所述VAD产生VAD信号；和耦接到所述第二检测器的风检测器，其中，所述风检测器使在所述第二检测器处接收到的信号相关，并且从相关性得出多个风度量，所述多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个，其中，所述风检测器使用所述多个风度量来动态地控制所述第一信号和所述第二信号的混合，以产生用于传送的输出信号。

在此描述的实施例包含一种***，该***包括：接收第一信号的第一检测器和接收第二信号的第二检测器。实施例的***包括耦接到所述第一检测器的语音活动检测器（VAD）。当第一信号对应于浊语音时，VAD产生VAD信号。实施例的***包括耦接到所述第二检测器的风检测器。风检测器使在所述第二检测器处接收到的信号相关，并且从相关性得出多个风度量，所述多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个。风检测器按照所述多个风度量来控制所述第二检测器的配置。

在此描述的实施例包含一种***，该***包括：接收第一信号的第一检测器和接收第二信号的第二检测器；耦接到所述第一检测器的语音活动检测器（VAD），当所述第一信号对应于浊语音时，所述VAD产生VAD信号；和耦接到所述第二检测器的风检测器，其中，所述风检测器使在所述第二检测器处接收到的信号相关，并且从相关性得出多个风度量，所述多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个，其中，所述风检测器按照所述多个风度量来控制所述第二检测器的配置。

在此描述的实施例包含一种方法，该方法包括：接收在第一检测器处的第一信号和在第二检测器处的第二信号。实施例的方法包括确定在第二检测器处接收到的信号之间的相关性，并且从相关性得出多个风度量，多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个。实施例的方法包括按照所述多个风度量来控制所述第二检测器的配置。实施例的方法包括通过按照多个风度量动态地混合第一信号和第二信号来产生用于传送的输出信号。

在此描述的实施例包含一种方法，该方法包括：接收在第一检测器处的第一信号和在第二检测器处的第二信号；确定在第二检测器处接收到的信号之间的相关性，并且从相关性得出多个风度量，多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个；按照所述多个风度量来控制所述第二检测器的配置；和通过按照多个风度量动态地混合第一信号和第二信号来产生用于传送的输出信号。

实施例的第一检测器是振动传感器。

实施例的第一检测器是皮肤表面传声器（SSM）。

实施例的第二检测器是声学传感器。

实施例的第二检测器包含两个全向传声器。

实施例的方法包含彼此相邻地安置两个全向传声器，并且将两个全向传声器分开近似在10亳米（mm）到40mm的范围中的距离。

实施例的确定相关包含计算自适应滤波器误差的能量。

实施例的方法包含将能量施加到第一指数均值滤波器和第二指数均值滤波器。

实施例的方法包含从所述能量得出瞬时风级别，其中，所述瞬时风级别代表所述风噪音的瞬间风级别。

实施例的方法包含从所述能量得出当前风级别，其中，所述当前风级别代表所述风噪音的平均当前风级别。

实施例的多个风度量包含风指标度量，所述风度量度量表征相对于最小风阀值的所述当前风级别，在所述最小风阀值之下，所述风噪音被认为对主机电子***中的噪音抑制和音频可懂度具有可以忽略的影响。

实施例的方法包含响应于多个风度量和语音活动检测（VAD）信号，控制应用于第一信号的增益。

实施例的方法包含当所述多个风度量指示没有风存在时，调节增益。

实施例的方法包含当所述VAD信号指示所述第一信号对应于浊语音时，调节增益。

实施例的方法包含调节所述增益以使所述第一信号的第一均方根（RMS）与噪音抑制的语音信号的第二RMS相匹配。

实施例的方法包含当所述第一信号对应于浊语音时产生VAD信号，以及使用VAD信号来噪音选通第一信号。

按照多个风度量的实施例的第二检测器的配置的控制包含使用风模式度量，所述风模式度量表征相对于风高阈值的所述瞬时风级别，在所述风高阈值之上，所述风噪音被认为对主机电子***中的音频可懂度具有相对高的影响。

实施例的第二检测器的配置的控制包含，当风模式度量指示瞬时风级别超过风高阈值时，通过对来自第二检测器的两个传声器中的每个传声器的信号进行求和来产生总和的检测器信号。

实施例的第二检测器的配置的控制包含将单个传声器噪音抑制应用到总和的检测器信号。

实施例的第二检测器的配置的控制包含当所述风模式度量指示瞬时风级别处于所述风高阈值以下时，分别地处理来自第二检测器的两个传声器中的每个传声器的信号。

实施例的第二检测器的配置的控制包含将双重传声器噪音抑制应用到来自两个传声器的信号。

按照多个风度量的动态地混合实施例的第一信号和第二信号包含动态地调节所述第一滤波器的响应，并且动态地调节所述第二滤波器的响应，所述第一信号被施加到所述第一滤波器，所述第二信号被施加到所述第二滤波器。

实施例的多个风度量包含风指标度量，所述风度量度量表征相对于最小风阀值的当前风级别，在所述最小风阀值之下，所述风噪音被认为对主机电子***中的噪音抑制和音频可懂度具有可以忽略的影响，其中，所述当前风级别代表所述风噪音的平均当前风级别。

实施例的方法包含从所述风指标度量估计所述风噪音的风频率响应。

实施例的方法包含产生适宜风成分，并且添加适宜风成分以便接收和传送音频，其中，所述适宜风成分为听者提供风存在的意识。

实施例的方法包含通过减去来自所述第二检测器的两个传声器中的每个传声器的信号以产生差值信号，产生所述适宜风成分。

实施例的方法包含通过增益调制所述差值信号，以产生调制信号。

实施例的增益包含选通因素，所述选通因素来源于风存在度量，风存在度量表征相对于当前风阀值的来源于所述第二信号的瞬时风级别，在所述当前风阀值之上，所述风噪音负面地影响主机电子***中的电子操作。

实施例的方法包含过滤所述调制信号以提供所述适宜风成分，所述过滤包含限制到达接收器的低频风噪音和高频风噪音的量。

在此描述的实施例包含一种方法，该方法包括：接收在第一检测器的第一信号和在第二检测器的第二信号。实施例的方法包含确定在第二检测器处接收到的信号之间的相关性，并且从相关性得出多个风度量，多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个。实施例的方法包含按照所述多个风度量来控制所述第二检测器的配置。

在此描述的实施例包含一种方法，该方法包括：接收在第一检测器处的第一信号和在第二检测器处的第二信号；确定在第二检测器处接收到的信号之间的相关性，并且从相关性得出多个风度量，多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个；和按照所述多个风度量来控制所述第二检测器的配置。

在此描述的实施例包含一种方法，该方法包括：接收在第一检测器处的第一信号和在第二检测器处的第二信号。实施例的方法包含确定在第二检测器处接收到的信号之间的相关性，并且从相关性得出多个风度量，多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个。实施例的方法包含通过按照多个风度量动态地混合第一信号和第二信号来产生用于传送的输出信号。

在此描述的实施例包含一种方法，该方法包括：接收在第一检测器处的第一信号和在第二检测器处的第二信号；确定在第二检测器处接收到的信号之间的相关性，并且从相关性得出多个风度量，多个风度量表征作为声干扰的风噪音，所述声干扰对应于所述第二检测器中的气流和气压中的至少一个；和通过按照多个风度量动态地混合第一信号和第二信号来产生用于传送的输出信号。

此处描述的***和方法包括处理***和/或在处理***下运行和/或与处理***有关联。如本领域中已知的，处理***包括基于处理器的装置或者一起操作的计算装置，或者处理***或装置的部件的任何集合。例如，处理***可以包括在通信网络和/或网络服务器中操作的一个以上的便携式计算机、便携式通信装置。便携式计算机可以是从个人计算机、蜂窝式移动电话、个人数字助理、便携式计算装置和便携式通信装置中选择的装置的任何数量和/或组合，但是不会被如此限制。处理***可以包括在大的计算机***之内的部件。

实施例的处理***包括至少一个处理器以及至少一个存储装置或者子***。处理***也可以包括或者被耦接到至少一个数据库。通常使用的术语“处理器”此处指的是任何逻辑处理单元，诸如一个以上的中央处理单元（CPU）、数字信号处理器（DSP）、专用集成电路（ASIC）等等。处理器和存储器可以被统一地集成在单芯片之上，被分配在主***的许多芯片或者部件当中，和/或通过一些算法的组合被提供。在此描述的方法可以在一个以上的软件算法、程序、固件、硬件、部件、电路中以任何组合被实现。

使此处描述的***和方法具体化的***部件可以被放置在一起或者可以被放置在分开的位置上。因此，使此处描述的***和方法具体化的***部件可以是单个***、多个***和／或地理上分开的***的部件。这些部件也可以是单个***、多个***和／或地理上分开的***的子部件或者子***。这些部件可以被耦接到主***的或者耦接到该主***的***的一个以上的其它部件。

通信路径耦接***部件并且包含用于传递或者输送***部件当中的文件的任何介质。通信路径包括无线连接、有线连接以及混合式无线/有线连接。通信路径还包含对网络的耦接或者连接，该网络包括局域网（LAN）、城域网（MAN）、广域网（WAN）、专有网络、局间或者后端网络以及因特网。此外，通信路径包含可移动的固定介质，如软盘、硬盘驱动器和CD-ROM磁盘，以及闪速RAM、通用串行总线（USB）连接、RS-232连接、电话线路、总线以及电子邮件消息。

除非上下文另外清楚地需要，贯穿整个说明书，文字“包含”、“包括”等等将被视为包括在内的意义，与排他或者详尽的意义相对；换句话说，在某种意义上是“具有，但不局限于此”。另外，文字“此处”、“在此之下”、“以上”、“以下”、和类似含意的文字指的是这个申请作为一个整体，而不是指的是这个申请的任何特定的部分。当使用文字“或者”来关系到两个以上的项目的列表时，那个文字覆盖所有以下词的解释：列表中的任何项目、列表中的所有项目以及列表中的项目的任何组合。

实施例的以上描述不意指是详尽的或者将描述的***和方法限制为精确公开的形式。虽然特定实施例和实例是为了说明性的目的而在此被描述，但是如相关领域中的其他些技术人员将认识到，各种等效变形在其他***和方法的范围内是可能的。在此提供的教导可以应用于其他处理***和方法，不仅仅用于上述的处理***和方法。

上述各种实施例的要素和动作可以被组合以提供更多的实施例。考虑到以上的详细说明，可以对实施例做出这些及其他变化。

通常，在以下权利要求书中，使用的术语不应当被解释为将此处描述的实施例以及相应的***和方法限制成说明书和权利要求书中揭示的特定实施例，而是应当被解释为包含在权利要求书下操作的所有***和方法。因此，此处描述的实施例***和方法不会被该公开所限制，而是完全通过权利要求书来确定范围。

虽然下面以某些权利要求的形式呈现了此处描述的实施例的某些方面，但是发明人预料得到处于许多权利要求形式中的实施例以及相应的***和方法的各种方面。因此，发明人保留在提交申请之后添加附加权利要求的权利，以寻求用于此处描述的实施例的其它方面的这种附加权利要求形式。

Claims

1.一种用于电子***的风抑制/替换部件，其特征在于，包含：

接收第一信号的第一检测器和接收第二信号的第二检测器；

2.如权利要求1所述的用于电子***的风抑制/替换部件，其特征在于，所述第一检测器是振动传感器。

3.如权利要求2所述的用于电子***的风抑制/替换部件，其特征在于，所述第一检测器皮肤表面传声器（SSM）。

4.如权利要求2所述的用于电子***的风抑制/替换部件，其特征在于，所述第二检测器是声学传感器。

5.如权利要求4所述的用于电子***的风抑制/替换部件，其特征在于，所述第二检测器包含两个全向传声器。

6.如权利要求5所述的用于电子***的风抑制/替换部件，其特征在于，所述两个全向传声器彼此相邻安置，并且被分开近似在10毫米到40毫米的范围中的距离。

7.如权利要求1所述的用于电子***的风抑制/替换部件，其特征在于，所述风检测器包含耦接到所述第二检测器的自适应滤波器，其中，所述风检测器通过计算自适应滤波器误差的能量来使信号相关。

8.如权利要求7所述的用于电子***的风抑制/替换部件，其特征在于，所述风检测器包含耦接到所述自适应滤波器的第一指数均值滤波器和第二指数均值滤波器，其中，所述风检测器将所述能量施加到所述第一指数均值滤波器和所述第二指数均值滤波器。

9.如权利要求8所述的用于电子***的风抑制/替换部件，其特征在于，所述风检测器从所述能量产生瞬时风级别，其中，所述瞬时风级别代表所述风噪音的瞬间风级别。

10.如权利要求9所述的用于电子***的风抑制/替换部件，其特征在于，所述多个风度量包含风存在度量，所述风存在度量表征相对于当前风阀值的所述瞬时风级别，在所述当前风阀值之上，所述风噪音负面地影响主机电子***中的电子操作。

11.如权利要求9所述的用于电子***的风抑制/替换部件，其特征在于，所述多个风度量包含风模式度量，所述风模式度量表征相对于风高阈值的所述瞬时风级别，在所述风高阈值之上，所述风噪音被认为对主机电子***中的音频可懂度具有相对高的影响。

12.如权利要求8所述的用于电子***的风抑制/替换部件，其特征在于，所述风检测器从所述能量产生当前风级别，其中，所述当前风级别代表所述风噪音的平均当前风级别。

13.如权利要求12所述的用于电子***的风抑制/替换部件，其特征在于，所述多个风度量包含风指标度量，所述风指标度量表征相对于最小风阀值的所述当前风级别，在所述最小风阀值之下，所述风噪音被认为对主机电子***中的噪音抑制和音频可懂度具有可以忽略的影响。

14.如权利要求1所述的用于电子***的风抑制/替换部件，其特征在于，所述多个风度量包含所述风检测器产生的风模式度量，以控制所述第二检测器的所述配置，其中，所述风模式度量表征相对于风高阈值的瞬时风级别，在所述风高阈值之上，所述风噪音被认为对主机电子***中的音频可懂度具有相对高的影响。

15.如权利要求14所述的用于电子***的风抑制/替换部件，其特征在于，响应于指示瞬时风级别超过所述风高阈值的所述风模式度量，所述风检测器通过控制总和的检测器信号的产生来控制所述第二检测器的所述配置，通过对来自所述第二检测器的两个传声器中的每个传声器的信号进行求和得到所述总和的检测器信号。

16.如权利要求15所述的用于电子***的风抑制/替换部件，其特征在于，所述风检测器通过控制单个传声器噪声抑制对所述总和的检测器信号的应用来控制所述第二检测器的所述配置。

17.如权利要求14所述的用于电子***的风抑制/替换部件，其特征在于，当所述风模式度量指示瞬时风级别处于所述风高阈值以下时，所述风检测器通过控制来自所述第二检测器的两个传声器中的每个传声器的信号的单独处理来控制所述第二检测器的所述配置。

18.如权利要求17所述的用于电子***的风抑制/替换部件，其特征在于，所述风检测器通过控制双重传声器噪声抑制对来自所述两个传声器的所述信号的应用来控制所述第二检测器的所述配置。

19.如权利要求1所述的用于电子***的风抑制/替换部件，其特征在于，包含耦接到所述第一检测器和所述风检测器的增益控制器。

20.如权利要求19所述的用于电子***的风抑制/替换部件，其特征在于，所述增益控制器响应于所述多个风度量和所述VAD信号控制施加到所述第一信号的增益。

21.如权利要求20所述的用于电子***的风抑制/替换部件，其特征在于，当所述多个风度量指示没有风存在时，所述增益控制器调节施加到所述第一信号的增益。

22.如权利要求20所述的用于电子***的风抑制/替换部件，其特征在于，所述多个风度量包含风存在度量，所述风存在度量表征相对于当前风阀值的来源于所述第二信号的瞬时风级别，在所述当前风阀值之上，所述风噪音负面地影响主机电子***中的电子操作。

23.如权利要求20所述的用于电子***的风抑制/替换部件，其特征在于，包含调节所述增益以使所述第一信号的第一均方根（RMS）与噪音抑制的语音信号的第二RMS相匹配。

24.如权利要求20所述的用于电子***的风抑制/替换部件，其特征在于，包含当所述第一信号对应于浊语音时产生VAD信号，以及使用所述VAD信号来噪音选通所述第一信号。

25.如权利要求20所述的用于电子***的风抑制/替换部件，其特征在于，当所述VAD信号指示所述第一信号对应于浊语音时，所述增益控制器调节施加到所述第一信号的增益。

26.如权利要求1所述的用于电子***的风抑制/替换部件，其特征在于，包含耦接到所述第一检测器的第一滤波器和耦接到所述第二检测器的第二滤波器。

27.如权利要求26所述的用于电子***的风抑制/替换部件，其特征在于，所述第一滤波器是低通滤波器，以及所述第二滤波器是高通滤波器。

28.如权利要求26所述的用于电子***的风抑制/替换部件，其特征在于，所述多个风度量动态地控制所述第一信号和所述第二信号的混合。

29.如权利要求28所述的用于电子***的风抑制/替换部件，其特征在于，所述多个风度量动态地调节所述第一滤波器的响应，并且动态地调节所述第二滤波器的响应，所述第一信号被施加到所述第一滤波器，所述第二信号被施加到所述第二滤波器。

30.如权利要求29所述的用于电子***的风抑制/替换部件，其特征在于，所述多个风度量包含风指标度量，所述风指标度量表征相对于最小风阀值的当前风级别，在所述最小风阀值之下，所述风噪音被认为对主机电子***中的噪音抑制和音频可懂度具有可以忽略的影响，其中，所述当前风级别代表所述风噪音的平均当前风级别。

31.如权利要求30所述的用于电子***的风抑制/替换部件，其特征在于，包含从所述风指标度量估计所述风噪音的风频率响应。

32.如权利要求1所述的用于电子***的风抑制/替换部件，其特征在于，包含耦接到所述第二检测器的适宜均衡器。

33.如权利要求32所述的用于电子***的风抑制/替换部件，其特征在于，所述适宜均衡器产生适宜风成分，并且将所述适宜风成分添加到音频信号，其中，所述适宜风成分为听者提供风存在的意识。

34.如权利要求33所述的用于电子***的风抑制/替换部件，其特征在于，所述适宜均衡器被耦接到传送器，并且将所述适宜风成分添加到为传送而处理的音频信号。

35.如权利要求33所述的用于电子***的风抑制/替换部件，其特征在于，所述适宜均衡器被耦接到接收器，并且将所述适宜风成分添加到为接收而处理的音频信号。

36.如权利要求33所述的用于电子***的风抑制/替换部件，其特征在于，所述适宜均衡器通过减去来自所述第二检测器的两个传声器中的每个传声器的信号以产生差值信号，来产生所述适宜风成分。

37.如权利要求36所述的用于电子***的风抑制/替换部件，其特征在于，包含通过增益来调制所述差值信号，以产生调制信号。

38.如权利要求37所述的用于电子***的风抑制/替换部件，其特征在于，所述增益包含静态增益，所述静态增益提供扬声器中的适当的风噪音反馈的级别。

39.如权利要求38所述的用于电子***的风抑制/替换部件，其特征在于，所述增益包含选通因素，所述选通因素来源于由所述风检测器输出的风存在度量，其中，所述风存在度量表征相对于当前风阀值的来源于所述第二信号的瞬时风级别，在所述当前风阀值之上，所述风噪音负面地影响主机电子***中的电子操作。

40.如权利要求37所述的用于电子***的风抑制/替换部件，其特征在于，包含过滤所述调制信号以提供所述适宜风成分，所述过滤包含限制低频风噪音和高频风噪音的量。

41.一种用于电子***的风抑制/替换部件，其特征在于，包含：

接收第一信号的第一检测器和接收第二信号的第二检测器；

42.一种用于电子***的风抑制/替换部件，其特征在于，包含：

接收第一信号的第一检测器和接收第二信号的第二检测器；