CN111354368B

CN111354368B - 补偿处理后的音频信号的方法

Info

Publication number: CN111354368B
Application number: CN201911328125.6A
Authority: CN
Inventors: 拉斯穆斯·孔斯格德·奥尔森
Original assignee: GN Audio AS
Current assignee: GN Audio AS
Priority date: 2018-12-21
Filing date: 2019-12-20
Publication date: 2024-04-30
Anticipated expiration: 2039-12-20
Also published as: EP3671740A1; US11902758B2; US20200204915A1; CN111354368A; EP3671740B1; EP3671740C0

Abstract

本公开涉及补偿处理后的音频信号的方法，包括：在包括具有多个麦克风的麦克风阵列和处理器的电子装置处：从多个麦克风接收多个麦克风信号；使用波束成形和解卷积中的一者或两者从多个麦克风信号生成处理后的信号；通过根据补偿系数补偿处理后的音频信号生成补偿的处理后的信号。生成补偿的处理后的信号包括：从处理后的音频信号生成第一频谱值；根据从多个麦克风信号中的至少两个麦克风信号中的每一个生成的多个第二频谱值生成参考频谱值；以及从参考频谱值和第一频谱值生成补偿系数。补偿可以改进多麦克风***的输出处的与例如声染色相关的不期望的效果，而声染色涉及例如来自麦克风阵列的麦克风信号的波束成形和解卷积中的一者或两者。

Description

补偿处理后的音频信号的方法

技术领域

本公开涉及补偿处理后的音频信号的方法。

背景技术

一些电子装置，例如扬声电话、头戴式耳机和听力仪器等，以及其他类型的电子装置，被配置有麦克风阵列和处理器，该处理器被配置为从麦克风阵列接收多个麦克风信号，并且例如使用诸如作为音频信号处理领域中已知的波束成形和解卷积技术等的多麦克风算法，从多个麦克风信号生成处理后的信号。处理后的信号可以是单通道处理后的信号或多通道信号，例如立体声信号。

根据来自麦克风阵列中的多个麦克风的多个麦克风信号生成处理后的信号的一般优点是，包括可懂度(intelligibility)在内的声音质量能够相对于来自所述单个麦克风***的声音质量得到改进。在这方面，来自源(例如来自说话人)的声信号可以被表示为受关注的信号(signal of interest)，而来自其他源的声信号可以被表示为噪声，例如背景噪声。

特别地，诸如波束成形和解卷积技术的多麦克风算法至少能够在某些情况下减少来自周围房间的声影响，也称为声染色，例如直达信号在所述40毫秒内到达的所谓的早期反射的形式。包括解卷积和波束形成方法的多麦克风算法的最重要的作用是它们分别部分地消除混响和环境噪声。通常，波束成形可以用于获得空间聚焦或方向性。

然而，这种多麦克风算法可能会出现所谓的目标信号消除的问题，其中，目标语音信号(其是期望的信号)的一部分被多麦克风算法至少部分地消除。因此，结果，使用这种多麦克风算法的不幸的合成效果(net and unfortunate effect)可能是，由于多麦克风算法本身，期望的信号的声染色至少在一些情况下增加。

与此相关，术语音频信号的声染色或单纯声染色涉及由人测量或感知的音调频谱分布的变化。如上所述，声染色可以涉及例如麦克风从诸如说话的人的声源拾取声信号所在的房间产生的声影响。通常，墙壁、窗户、桌子-人-以及其他东西的存在在声染色中起作用。较大量的声染色可能被感知为品质刺耳或模糊，并且可显著降低语音可懂度。

在本文中，当提及波束成形和解卷积时，其可涉及频域和/或时域实施方式。

US 9721582 B1公开了具有后置滤波的固定波束成形，其抑制白噪声、扩散噪声及来自点干涉的噪声。所公开的后置滤波基于对输入固定波束成形器之前的多麦克风信号进行的离散时间傅里叶变换。来自固定波束成形器的单通道波束成形后的输出信号在进行离散时间傅里叶逆变换之前被后置滤波器滤波。用来降低后置滤波器滤波的噪声的后置滤波器系数，基于固定波束成形器的固定波束成形器系数以及基于麦克风信号的功率的估计来计算，麦克风信号的功率的估计进而基于所计算的协方差矩阵。

US 9241228 B2公开了定向麦克风阵列的自校准。在一个实施方式中，一种用于自适应自校准的方法包括将根据来自阵列中的多个麦克风的多个响应计算出的声响应的近似值与由阵列中的参考麦克风(基准麦克风)测量的实际声响应进行匹配。

在另一实施方式中，一种用于自校准定向麦克风阵列的方法包括低复杂度的频域校准过程。根据该方法，对于阵列中所有麦克风的平均幅度响应，针对每个麦克风执行幅度响应匹配。均衡器从多个麦克风接收多个频谱信号并计算功率谱密度(PSD)。此外，基于针对每个麦克风的PSD值来确定平均PSD值，用于确定均衡增益值。一种应用是在助听器或小型音频装置中，用于减轻这些***中的小型麦克风阵列的不利老化和针对声性能的力学效应。应当理解，用具有响应匹配差的定向麦克风阵列记录的声音在回放时将产生音频声场，而针对该音频声场，将难以辨别再现的声音的任何方向性。

US 9813833B1公开了一种用于在麦克风之间输出信号均衡的方法。可以利用多个麦克风来捕获音频信号。第一麦克风可以被放置在相应声源附近，并且第二麦克风可以被定位在距声源较远的距离处，以便捕获空间的环境(ambience，环绕感)以及由声源发射的音频信号。第一麦克风可以是放置在人的袖子或翻领上的Lavalier麦克风。在由第一麦克风和第二麦克风捕获音频信号之后，第一麦克风和第二麦克风的输出信号被混合。在混合第一麦克风和第二麦克风的输出信号时，第一麦克风和第二麦克风的输出信号可以被处理，以便使由第一麦克风捕获的音频信号与由第二麦克风捕获的音频信号的长期频谱更紧密地匹配。从第一麦克风和第二麦克风接收的信号被馈送到处理器，用于估计平均频率响应。在估计平均频率响应之后，然后质量信号被用于均衡第一麦克风和第二麦克风的长期平均频谱的目的。该方法还确定由第一麦克风和第二麦克风捕获的信号的频率响应之间的差值，并且处理由第一麦克风捕获的信号，用于基于该差值对于由第二麦克风捕获的信号进行滤波。

因此，尽管为各个麦克风提供了与定向麦克风阵列相关的可能有利的补偿，但是与波束成形器和其他类型的多麦克风增强算法和***相关的未识别问题仍有待解决，以提高涉及麦克风阵列的声音再现的质量。

发明内容

观察到，当例如使用波束成形、解卷积或其他麦克风增强方法从可以由麦克风阵列输出的多个麦克风信号生成处理后的信号时，可能出现与音频信号的不期望的声染色相关的问题。观察到，附加地或可选地，不期望的声染色可能是由于其中放置麦克风阵列的周围房间(包括其设备和周围房间中存在的其他东西)的声特性。后者也称为房间声染色效应。

提供了一种方法，包括：

在具有麦克风阵列和处理器的电子装置处：

从麦克风阵列接收多个麦克风信号；

从多个麦克风信号生成处理后的信号；

通过根据多个补偿系数补偿处理后的音频信号生成补偿的处理后的信号，包括：

从处理后的音频信号生成第一频谱值；

从根据多个麦克风信号中的至少两个麦克风信号中的每一个而生成的多个第二频谱值生成参考频谱值；以及

从参考频谱值和第一频谱值生成多个补偿系数。

不期望的声染色问题可以通过如本文所述的所要求保护的方法和电子装置中定义的补偿来至少部分地补救。补偿可以改进多麦克风***的输出处的与例如涉及例如来自麦克风阵列的麦克风信号的波束成形和解卷积中的一个或两者的声染色相关的不期望的但并非总是被识别的效果。

当电子装置用于再现由麦克风阵列中的至少一些麦克风拾取的声信号时，可以根据从麦克风信号生成的参考频谱来至少在一些频率补偿处理后的音频信号。

因此，尽管在生成处理后的音频信号的同时将不期望的声染色引入处理后的音频信号中，但是以绕过处理后的音频信号的生成的方式提供参考频谱值。因此，参考频谱值可用于补偿不期望的声染色。参考频谱值可以与从多个麦克风信号生成处理后的信号并行或同时地在前馈环路中提供。

在诸如扬声电话、头戴式耳机、听力仪器、语音控制装置等的电子装置中，麦克风被相对紧密地布置在例如在几毫米至小于25cm(例如小于4cm)的相互距离内。在一些较低的频率处，麦克风间相干性非常高，即麦克风信号在幅度和相位上非常相似，并且针对不期望的声染色的补偿在这些较低的频率处往往效率较低。在一些较高的频率处，针对不期望的声染色的补偿往往更有效。较低的频率和较高的频率在哪个频率处尤其取决于麦克风之间的空间距离。

在一些方面中，从多个麦克风信号中的每个麦克风信号生成多个第二频谱值。在一些方面中，从多个麦克风信号中的一些预定义的数量的麦克风信号的每个生成多个第二频谱值。例如，如果麦克风阵列具有八个麦克风，则多个第二频谱值可以从来自六个麦克风的麦克风信号生成，而不是从来自两个麦克风的麦克风信号生成。可以固定从哪些麦克风(信号)生成多个第二频谱值，或者可以例如响应于对每个或一些麦克风信号的评估而动态地确定使用哪些麦克风(信号)。

麦克风信号可以是由包括模数转换器的所谓的数字麦克风输出的数字麦克风信号。麦克风信号可以在串行多通道音频总线上传输。

在一些方面，麦克风信号可通过离散时间快速傅里叶变换FFT或者其他类型时域到频域变换进行变换，以提供频域表示的麦克风信号。补偿的处理后信号可通过离散时间快速傅里叶逆变换IFFT或者其他类型频域到时域变换进行变换，以提供时域表示的补偿的处理后信号。在其他方面，在时域中执行处理，并且处理后的信号通过离散时间快速傅里叶变换FFT或者其他类型频域到时域变换进行变换，以提供频域表示的(多个)处理后的信号。

从多个麦克风信号生成处理后的信号可以包括波束成形和解卷积中的一个或两者。在一些方面中，多个麦克风信号包括第一多个(N)麦克风信号，并且处理后的信号包括第二多个(M)信号，其中，第二多个小于第一多个(M＜N)，例如N＝2且M＝1或者N＝3且M＝1或者N＝4且M＝2。

频谱值可以以窗口(bin)的阵列或矩阵表示。该窗口可以是所谓的频率窗口。频谱值可以与对数标度，例如所谓的Bark标度或另一标度对应，或者与线性标度对应。

在一些实施方式中，通过根据补偿系数补偿处理后的音频信号生成补偿的处理后的音频信号，减少补偿的处理后的音频信号的频谱值的预定义范数与参考频谱值之间的预定义差值量度(predefined difference measure)。

因此，并且由于补偿，补偿的处理后的音频信号的频谱值可以被补偿为类似于参考频谱值，该参考频谱值是通过使用波束成形和解卷积中的一个或两者从多个麦克风信号生成处理后的音频信号而在不被声染色的情况下获得的。

差值量度可以是无符号差值、平方差或其他差值量度。

通过比较有补偿和无补偿的测量，可以验证减少补偿的处理后的音频信号的频谱值的预定义范数与参考频谱值之间的预定义差值量度的效果。

在一些实施方式中，多个第二频谱值各自以值的阵列(数组)表示；并且其中，参考频谱值通过分别计算跨多个第二频谱值中的至少两个或至少三个的平均值或中值来生成。

以这种方式生成参考频谱值利用了麦克风被布置在麦克风阵列中的不同空间位置处。在每个不同的空间位置处，并且因此在麦克风处，来自声音发射源(例如说话的人)的声波以不同的方式到达，并且可能以不同的方式受到声波的建设性反射或破坏性反射的影响。因此，当通过分别计算跨多个第二频谱值中的至少两个或至少三个的平均值或中值(median value)来生成参考频谱值时，观察到，建设性反射和破坏性反射的影响在计算出的平均值或中位数(median)中减小的机会很大。因此，参考频谱值用作用于补偿处理后的信号的可靠参考。已经观察到，分别计算跨多个第二频谱值中的至少两个或至少三个的平均值或中值减少了不期望的声染色。

可以针对所有第二频谱值或第二频谱值的子集计算平均值或中值。该方法可以包括计算值的阵列中的在阈值频率处或阈值频率之上(例如，阈值阵列元素之上)的值的平均值或中值，并且放弃计算针对值的阵列中的在阈值频率处或阈值频率之下的值的平均值或中值。阵列的阵列元素有时被表示为频率窗口(frequency bin)。

通常，在本文中，麦克风阵列可以是具有沿着直线布置的麦克风的线性阵列或具有沿着曲线布置的麦克风的弯曲阵列。麦克风阵列可以是椭圆形或圆形阵列。麦克风可以基本上等距地或以任何其他距离布置。麦克风可以以两个或多个麦克风的组进行布置。例如在电子装置被正常放置或正常使用的情况下，麦克风可以布置在基本上水平的平面中或不同的垂直水平处。

在一些实施方式中，生成补偿的处理后信号包括处理后的信号的频率响应均衡。

均衡对通过从多个麦克风信号生成处理后的信号而引入的声染色进行补偿。均衡调节处理后的信号的频率窗口或者频带之间的幅度均衡和相位均衡中的一个或两者。均衡可在频域或者时域中实现。

在频域中，多个补偿系数可包括分别与一组频率窗口相关联的一组频率特定的增益值和/或相位值。在一些实施方式中，方法在所选定的一组窗口执行均衡，并且放弃在其他窗口进行均衡。

在时域中，多个补偿系数可包括例如一个或多个线性滤波器上的FIR或IIR系数。

通常，可以利用线性滤波进行均衡。均衡器可用来执行均衡。均衡可在一定程度上补偿声染色。然而，均衡可不一定被配置为提供与在所有频率窗口生成处理后的信号和补偿的处理后的信号相关联的处理组合的“平坦频率响应”。术语“EQ”有时候用来指代均衡。

在一些实施方式中，生成补偿的处理后的信号包括噪声消减。噪声消减用来降低噪声，例如不被检测为语音活动信号的信号。在频域中，语音活动检测器可用来检测与语音活动有关的时频窗口，并因此，(其他)时频窗口更可能是噪声。噪声消减可以是非线性的，而均衡可以是线性的。

在一些方面，方法包括确定用于均衡的第一系数和确定用于噪声消减的第二系数。在一些方面，通过第一滤波器执行均衡，并且通过第二滤波器执行噪声消减。第一滤波器和第二滤波器可串联耦接。

在一些方面，第一系数和第二系数可组合(例如包括乘法)成上述多个补偿系数。从而可通过单个滤波器执行均衡和噪声消减。

可通过后置滤波器进行噪声消减，例如维纳后置滤波器，例如，所谓的Zelinski后置滤波器或者如在Iain A.McCowan的“Microphone Array Post-Filter Based on NoiseField Coherence”,IEEE Transactions on Speech and Audio Processing,vol.11,no.6,November 2003记载的后置滤波器。

在一些实施方式中，从多个麦克风信号生成处理后的信号(XP)包括以下中的一个或多个：空间滤波、波束成形和解卷积。

在一些实施方式中，针对元素的阵列中的各个元素计算第一频谱值和参考频谱值；并且其中，根据参考频谱值的值与第一频谱值的值之间的比率，按照相应各个元素计算补偿系数。

在一些方面中，第一频谱值、参考频谱值以及补偿系数是幅度值，例如获得作为复数的模数。元素也可以被表示为窗口或频率窗口。这样，计算针对频域表示是有效的。

在一些方面中，参考频谱值和补偿系数被计算为表示幅度的标量。在一些方面中，其计算放弃了计算相位角。从而可以更有效和更快地执行计算。

在一些方面中，其中，参考频谱值和第一频谱值表示1-范数，通过将参考频谱值的值除以第一频谱值的值来计算补偿系数(Z)。

在一些方面中，其中，参考频谱值和第一频谱值表示2-范数，通过将参考频谱值的值除以第一频谱值的值并计算其平方根来计算补偿系数。

在一些方面中，补偿系数被变换为滤波器系数，用于借助于时域滤波器执行补偿。

在一些实施方式中，针对元素的阵列中的各个元素计算处理后的音频信号的值和补偿系数；并且其中，根据处理后的音频信号的值与补偿系数的乘法，按照相应各个元素计算补偿后的处理后的音频信号的值。元素的阵列因此包括频域表示。

在一些方面中，补偿系数被计算为幅度值。元素也可以被表示为窗口或频率窗口。这样，计算针对频域表示是有效的。

在一些实施方式中，生成第一频谱值与第一频谱值上的第一时间平均值对应；和/或生成参考频谱值与参考频谱值上的第二时间平均值对应，和/或多个第二频谱值与相应多个第二频谱值上的第三时间平均值对应。

通常，可以通过诸如FFT变换的时域到频域变换，例如逐帧的来生成频谱值。观察到，在从一帧到下一帧的频谱值中可能发生显著的波动。

当诸如第一频谱值和参考频谱值等频谱值与时间平均值对应时，可以减小波动。这提供了更稳定和有效的声染色补偿。

第一时间平均值、第二时间平均值和/或第三时间平均值可以关于相应信号的过去值，例如包括相应信号的当前值。

在一些方面中，可以使用也称为FIR(有限脉冲响应)方法的移动平均值方法来计算第一时间平均值、第二时间平均值和/或第三时间平均值。平均可以跨例如5个帧或8个帧或更少或更多个帧。

在一些方面中，可以使用递归滤波方法来计算第一时间平均值、第二时间平均值和/或第三时间平均值。递归滤波也称为IIR(无限脉冲响应)方法。使用递归滤波方法来计算功率谱的一个优点是，与移动平均值方法相比需要更少的存储器。

递归滤波方法或移动平均值方法的滤波器系数可以从实验中确定，例如用以改进诸如POLQA MOS量度的质量量度和/或例如失真的另一质量量度的试验。

在一些实施方式中，第一时间平均值和第二时间平均值与相互对应的平均特性对应；和/或第一时间平均值和第三时间平均值与相互对应的平均特性对应。

因此，可以更有效地执行从参考频谱值和第一频谱值计算多个补偿系数。另外，改进了补偿的处理后的信号的声音质量。

相互对应的平均特性可以包括相似或相同的平均特性。平均特性可以包括以下中的一个或多个：滤波器系数值、IIR滤波器的阶数以及FIR滤波器的阶数。平均特性也可以表示为滤波器特性，例如平均滤波器特性或低通滤波器特性。

因此，第一频谱值和参考频谱值可以根据相同的时间滤波来计算。例如，当时间平均使用相同类型的时间滤波(例如IIR或FIR滤波)和/或当时间滤波使用相同的滤波器系数用于时间滤波时，它可以改进声音质量和/或减少声染色的影响。时间滤波可以跨帧。

第一频谱值和参考频谱值可以通过相同或基本上相同类型的离散快速傅立叶变换来计算。

例如，频谱值可以根据相同的范数(例如，1-范数或2-范数)和/或根据相同数量的频率窗口等量地计算。

在一些实施方式中，针对麦克风信号的连续帧计算第一频谱值、多个第二频谱值以及参考频谱值。

由于音频信号的逐帧处理是一个公认的实践，因此所要求保护的方法与现有的处理结构和算法兼容。

通常，在本文中，参考频谱可以随着麦克风信号以更新速率，例如以远低于采样速率的帧速率而改变。帧速率可以是例如约2ms(毫秒)、4ms、8ms、16ms、32ms或可以不同于2^Nms速率的另一速率。如本领域已知的，采样速率可以在4KHz至196KHz的范围内。每个帧可以包括例如每个信号128个样本、例如用于四个信号的四倍128个样本。每个帧可以包括每个信号多于或少于128个样本，例如64个样本或256个样本或512个样本。

参考频谱可以可选地以不同于帧速率的速率变化。参考频谱可以以规则或不规则速率计算。

在一些方面中，补偿系数以低于帧速率的更新速率计算。在一些方面中，处理后的音频信号根据补偿系数以低于帧速率的更新速率来补偿。更新速率可以是规则速率或不规则速率。

扬声电话装置可以包括扬声器，以再现例如结合电话呼叫或电话会议接收的远端音频信号。然而，观察到，由扬声器再现的声音可能降低补偿的性能。

在一些实施方式中，电子装置包括被配置为经由扬声器再现远端音频信号的电路；并且该方法包括：

确定远端音频信号满足第一标准和/或不满足第二标准，并且据此：

放弃以下中的一个或多个：补偿处理后的音频信号、从处理后的音频信号生成第一频谱值以及从多个第二频谱值生成参考频谱值；以及确定远端音频信号不满足第一标准和/或满足第二标准，并且据此：

执行以下中的一个或多个：补偿处理后的音频信号、从处理后的音频信号生成第一频谱值以及从多个第二频谱值生成参考频谱值。

例如，当电子装置被配置为扬声电话装置时，这种方法是有用的。特别地，观察到，例如当人在周围房间中说话时，补偿例如有时刚好在已由扬声器再现声音之后被改进。

根据该方法，可以至少有时避免或暂时禁止该方法执行以下中的一个或多个：补偿处理后的音频信号、从处理后的音频信号生成第一频谱值以及从多个第二频谱值生成参考频谱值。

在一些方面中，该方法包括确定远端音频信号满足第一标准和/或不满足第二标准，并且据此放弃以下中的一个或两者：在执行对处理后的音频信号的补偿的同时，从处理后的音频信号生成第一频谱值以及从多个第二频谱值生成参考频谱值。

相对于此，该补偿可以根据从最近的第一频谱值和/或最近的参考频谱值生成的补偿系数和/或根据预定义的补偿系数来执行。

因此，补偿处理后的音频信号可以在暂停或不继续从处理后的音频信号生成第一频谱值的同时以及在暂停或不继续从多个第二频谱值生成参考频谱值的同时继续。因此，例如当扬声器再现远端的声音时，补偿可以继续而不被不可靠的参考干扰。

第一标准可以是超过了远端音频信号的阈值幅度和/或幅度(amplitude)。

当呼叫的远端方(party)正在说话时，该方法可以放弃补偿声染色或放弃改变补偿声染色。然而，当呼叫的近端方正在说话时，该方法可以操作以补偿处理后的音频信号的声染色。

当电子装置已完成加电过程并且可操作为参与呼叫或已参与呼叫时，有时可以满足第二标准。

该方法可以例如在满足第一标准的同时，通过应用预定义的例如静态的补偿系数至少暂时地放弃补偿处理后的音频信号。在一些方面中，预定义的例如静态的补偿系数可以提供具有“平坦”(例如中性)或预定义的频率特性的补偿。

在一些实施方式中，第一频谱值和参考频谱值根据预定义的范数计算，该预定义的范数选自以下的组：1-范数、2-范数、3-范数、对数范数或另一预定义的范数。

在一些实施方式中，

从多个麦克风信号生成处理后的音频信号是在第一半导体部处执行的，该第一半导体部接收以时域表示的多个相应麦克风信号并输出以时域表示的处理后的音频信号；以及

在第二半导体部处：

通过麦克风信号的时域到频域变换从处理后的音频信号计算第一频谱值；以及

通过相应麦克风信号的相应时域到频域变换计算多个第二频谱值。

该方法适于与不提供用于访问麦克风信号或处理后的信号的频域表示的接口的组件集成。

因此，电子装置可以包括例如第一集成电路组件的形式的第一半导体部，并且包括例如第二集成电路组件的形式的第二半导体部。

在一些实施方式中，该方法包括：

将补偿后的处理后的音频信号实时地传送到以下中的一个或多个：

电子装置的扬声器，以及

邻近电子装置的接收装置；以及

远端接收装置。

该方法能够在实时传送补偿后的处理后的音频信号的同时动态地更新补偿。

通常，在本文中，该方法可以包括对以下中的一个或多个执行时域到频域变换：麦克风信号、处理后的信号以及补偿的处理后的信号。

该方法可以包括对以下中的一个或多个执行频域到时域变换：补偿系数和补偿的处理后的信号。

还提供了一种电子装置，包括：

具有多个麦克风的麦克风阵列；以及

一个或多个信号处理器，其中，一个或多个信号处理器被配置为执行以上方法中的任何一种。

电子装置可以被配置为对以下中的一个或多个执行时域到频域变换：麦克风信号、处理后的信号以及补偿的处理后的信号。

电子装置可以被配置为对以下中的一个或多个执行频域到时域变换：补偿系数和补偿的处理后的信号。

在一些实施方式中，电子装置被配置为扬声电话或头戴式耳机或听力仪器。

还提供了一种存储一个或多个程序的计算机可读存储介质，该一个或多个程序包括指令，当该指令由具有信号处理器的电子装置执行时，该指令使电子装置执行以上方法中的任何一种。

通常，在本文中，声染色可能是由于早期反射(直达信号在小于40毫秒内到达)引起的并导致语音质量的主观劣化。

通常，在本文中，周围的房间指的是其中放置电子装置的任何类型的房间。周围的房间也可以指的是区域或房间。周围的房间可以是开放式或半开放式房间或室外空间或区域。

附图说明

下面参考附图进行更详细的描述，其中：

图1示出了具有麦克风阵列和处理器的电子装置的框图；

图2示出了用于具有麦克风阵列和处理器的电子装置的方法的流程图；

图3示出了麦克风信号的幅度频谱值；

图4示出了被配置为具有麦克风阵列和处理器的扬声电话的电子装置；

图5示出了被配置为具有麦克风阵列和处理器的头戴式耳机或听力仪器的电子装置；

图6示出了电子装置的框图，其中，处理单元对频域信号进行操作；

图7示出了均衡器和噪声消减单元的框图；以及

图8示出了组合的均衡器和噪声消减单元的框图。

具体实施方式

图1示出了具有麦克风阵列和处理器的电子装置的框图。处理器102可包括数字信号处理器，例如可编程信号处理器。

电子装置100包括麦克风阵列101和处理器102，该麦克风阵列101被配置为输出多个麦克风信号。麦克风阵列101包括多个麦克风M1、M2以及M3。阵列可以包括附加的麦克风。例如，麦克风阵列可以包括四个、五个、六个、七个或八个麦克风。

麦克风可以是数字麦克风或模拟麦克风。在模拟麦克风的情况下，如本领域已知的，需要模数转换。

处理器102包括诸如多麦克风处理单元的处理单元104、均衡器106以及补偿器103。在该实施方式中，处理单元接收数字时域信号x1、x2以及x3，并输出数字时域处理后的信号xp。如本领域已知的，数字时域信号x1、x2以及x3被例如逐帧处理。

在该实施方式中，FFT(快速傅立叶变换)变换器105将时域信号xp变换为频域信号XP。在其他实施方式中，处理单元接收数字频域信号并输出数字频域处理后的信号XP，在这种情况下，可以省去FFT变换器105。

处理单元104被配置为使用波束成形和解卷积中的一个或两者，从多个麦克风信号生成处理后的音频信号xp。处理单元104可以被配置为使用诸如但不限于波束成形和/或解卷积和/或噪声抑制和/或时变(例如，自适应)滤波的处理方法(例如，表示多麦克风增强方法)，从多个麦克风信号生成处理后的音频信号xp，以从多个麦克风生成处理后的音频信号。

均衡器106被配置为通过根据补偿系数Z补偿处理后的音频信号XP来生成补偿的处理后的音频信号XO。补偿系数由系数处理器108计算。在该实施方式中，均衡器在频域中实现，但是在处理单元输出时域信号的情况下，或者出于其他原因，如果均衡器是根据系数对处理后的信号进行滤波的时域滤波器，则可能更有利。

补偿器103接收时域表示的麦克风信号x1、x2以及x3，由FFT变换器105提供的信号XP并输出系数Z。

补偿器103被配置有功率谱计算器107，以从作为从FFT变换器输出的处理后的音频信号XP生成第一频谱值PXP。如本领域已知的，功率谱计算器107可以计算功率谱。

功率谱计算器107可以计算第一频谱值PXP，包括计算幅度值的时间平均值(例如，无符号值)或根据多个帧上的频率窗口(frequency bin)计算平方值的平均值。即，计算频谱值的幅度值或频谱值的平方值的时间平均值。

功率谱计算器107可以使用也称为FIR(有限脉冲响应)方法的移动平均值方法来计算第一频谱值。平均可以跨例如5个帧或8个帧，或更少或更多个帧。

可选地，功率谱计算器107可以计算包括递归滤波(例如一阶递归滤波或二阶递归滤波)的第一频谱值。递归滤波也称为IIR(无限脉冲响应)方法。使用递归滤波方法来计算功率谱的一个优点是，与移动平均值方法相比需要更少的存储器。递归滤波的滤波器系数可以从实验中确定，例如为了改进诸如POLQA MOS量度的质量量度。

通常，第一频谱值PXP可以通过对例如来自FFT变换器105的幅度值或幅度平方值执行时间平均，根据例如由FFT变换器105获得的频域表示来计算。

通常，在本文中，以下提及的第一频谱值和第二频谱值，尽管不一定严格地是“功率”的量度，但可以被指定为“功率谱”，其用于指示使用例如如上所述的频谱值的时间平均来计算第一频谱值和第二频谱值。由于时间平均，第一频谱值和第二频谱值随时间的变化比来自FFT变换器105的频谱值更慢。

第一频谱值和第二频谱值可以由例如时间平均频谱值的1-范数或2-范数表示。

补偿器103可以被配置有一组功率谱计算器110、111、112，该一组功率谱计算器组110、111、112被配置为接收麦克风信号x1、x2以及x3并输出相应第二频谱值PX1、PX2以及PX3。功率谱计算器110、111、112可以各自执行FFT变换并计算第二频谱值。在一些实施方式中，功率谱计算器110、111、112可以各自执行FFT变换并例如使用移动平均值(FIR)方法或递归(IIR)方法来计算第二频谱值，包括如上所述地计算时间平均。

聚合器109接收第二频谱值PX1、PX2以及PX3，并根据针对多个麦克风信号中的至少两个麦克风信号中的每一个而生成的第二频谱值，生成参考频谱值<PX>。<PX>中的尖括号表示参考频谱值<PX>基于例如每个频率窗口的跨PX1、PX2以及PX3的平均值或中位数。因此，尽管功率谱计算器110、111、112可以各自执行时间平均，但是聚合器109计算跨PX1、PX2以及PX3的平均值或中位数。因此，参考频谱值<PX>可以具有与第二频谱值PX1、PX2以及PX3中的每一个相同的维数(dimensionality)(例如129个元素的阵列(array，数组)，例如针对N＝256的FFT)。

聚合器可以计算跨第二频谱值PX1、PX2和PX3以及每个频率窗口的平均值(均值)或中值。参考频谱值可以例如使用第二频谱值PX1、PX2以及PX3的加权平均值的另一种方式生成。第二频谱值可以根据相应麦克风的空间和/或声布置由预定权重加权。在一些实施方式中，来自麦克风阵列中的多个麦克风的一些麦克风信号被排除被包括在参考频谱值中。

系数处理器108接收第一频谱值PXP和参考频谱值<PX>，该参考频谱值<PX>例如以具有对应于频率窗口的元素数量的相应的阵列表示。系数处理器108可以逐元素地计算系数以输出对应的系数阵列。系数可以经受归一化或其他处理，例如，以平滑跨频率窗口的系数或增强在预定义的频率窗口处的系数。

均衡器接收系数并根据系数Z操纵处理后的信号XP。

功率谱计算器107和功率谱计算器110、111、112可以可替换地被配置为计算预定义的范数，例如该预定义的范数选自以下组：1-范数、2-范数、3-范数、对数范数或其他预定义的范数。

作为示例：

将处理后的信号XP视为具有表示复数的向量元素的行向量，以及系数Z作为具有表示标量数或复数的向量元素的行向量，然后，补偿的处理后的信号XO可以由均衡器通过逐元素运算来计算，例如包括逐元素的乘法或逐元素的除法。

此外，将第二频谱值PX1、PX2以及PX3视为矩阵中的具有表示标量数的向量元素的行向量，然后，聚合可以包括在矩阵中逐列求平均或计算中位数中的一个或两者，以提供参考频谱值<PX>，也作为具有平均值或中位数计算的结果的行向量。

图2示出了用于在具有麦克风阵列和处理器的电子装置处的方法的流程图。该方法可以在具有麦克风阵列101和处理器102的电子装置处执行。处理器可以由硬件和软件中的一个或两者来配置以执行该方法。

该方法包括在步骤201处从麦克风阵列接收多个麦克风信号，以及在步骤202处从多个麦克风信号生成处理后的信号。在步骤202准备就绪或与步骤202同时进行，该方法包括在步骤204处生成第二频谱值，该第二频谱值是从多个麦克风信号中的至少两个麦克风信号中的每一个生成的。

在步骤202之后，该方法包括步骤203，从处理后的音频信号生成第一频谱值。

在步骤204之后，该方法包括步骤205，从多个第二频谱值生成参考频谱值。

在步骤203和步骤205之后，该方法包括从参考频谱值和第一频谱值生成多个补偿系数。该方法然后前进到步骤207，以通过根据多个补偿系数补偿处理后的音频信号来生成补偿的处理后的信号。补偿的处理后的信号可以与频域表示一致，并且该方法可以包括将频域表示变换为时域表示。

在该方法的一些实施方式中，麦克风信号以连续的帧提供，并且该方法可以针对每个帧运行。结合如本文所述的电子装置阐述该方法的更详细的方面。

图3示出了麦克风信号的幅度频谱值。示出了四个麦克风信号“1”、“3”、“5”以及“7”的幅度频谱值，该四个麦克风信号是来自扬声电话的配置有八个麦克风的麦克风阵列中的相应麦克风的麦克风信号。扬声电话在一个小房间的桌子上操作。幅值频谱值以在从0Hz至约8000Hz所示的频带中从相对的约-84dB至相对的约-66dB的范围内的功率水平示出。

可以观察到，平均频谱值“mean”表示当聚合麦克风信号的频谱值时，由于来自房间及其设备的早期反射而引起的不期望的声染色较小。因此，平均频谱值“mean”表示用于执行本文所述的补偿的稳健参考。

图4示出了被配置为具有麦克风阵列和处理器的扬声电话的电子装置。扬声电话401具有麦克风阵列和处理器102，该麦克风阵列具有麦克风M1、M2、M3、M4、M5、M6、M7以及M8。

扬声电话401可以被配置有例如具有触敏按钮的边缘部402，用于操作扬声电话，例如用于控制扬声器音量、应答传入呼叫、结束呼叫等，如本领域已知的。

扬声器401可以被配置有中央部403，例如用于麦克风的开口(未示出)被中央部覆盖，同时能够从其中放置扬声电话的房间接收声信号。扬声电话401还可以被配置有连接到处理器102的扬声器404，例如，以再现从远端方传送到电话的声音，或者再现音乐、铃声等。

麦克风阵列和处理器102可以如本文中更详细地描述的那样配置。

图5示出了被配置为具有麦克风阵列和处理器的头戴式耳机或听力仪器的电子装置。尽管头戴式耳机和听力仪器可以或可以不用非常不同的方式配置，但是所示的配置可以用于头戴式耳机和听力仪器的实施方式两者中。

将电子装置视为头戴式耳机，示出了结合头戴式耳机左装置502和头戴式耳机右装置503的人的头部502的俯视图。头戴式耳机左装置502和头戴式耳机右装置503可以如本领域已知的那样处于有线或无线通信中。

头戴式耳机左装置502包括麦克风504、505、微型扬声器507以及处理器506。相应地，头戴式耳机右装置503包括麦克风507、508、微型扬声器510以及处理器509。

麦克风504、505可以被布置在麦克风阵列中，该麦克风阵列包括进一步的麦克风，例如一个、两个或三个进一步的麦克风。相应地，麦克风507、508可以被布置在麦克风阵列中，该麦克风阵列包括进一步的麦克风，例如一个、两个或三个进一步的麦克风

处理器506和509可以各自如结合处理器102所描述的那样配置。可选地，处理器中的一个，例如处理器506，可以从所有麦克风504、505、507以及508接收麦克风信号，并且至少执行计算系数的步骤。

图6示出了电子装置的框图，其中，处理单元对频域信号进行操作。通常，图6与图1密切对应，许多参考标记是相同的。

具体地，根据图6，处理单元604对与时域信号x1、x2和x3的相应变换分别对应的频域信号X1、X2和X3进行操作。处理单元604输出频域信号XP，该频域信号被均衡器106处理，如上所述。

不是执行时域到频域的变换，功率谱计算器110、111、112的组在此被配置为接收频域的麦克风信号X1、X2和X3，并且输出相应第二频谱值PX1、PX2、PX3。功率谱计算器110、111、112可以例如利用移动平均(FIR)方法或者递归(IIR)方法，如上所述地各自计算第二频谱值。

图7示出了均衡器和噪声消减单元的框图。均衡器可以耦接到以上结合图1或图6所述的系数处理器108。如示出的，均衡器106的输出被输入至噪声消减单元701以提供输出信号XO，其中，噪声被消减。噪声消减单元701可接收一组由噪声消减系数处理器708所计算的系数Z1。因此，生成补偿的处理后信号(XO)包括由噪声消减单元进行的噪声消减。噪声消减用于降低噪声，例如，不被检测为语音活动信号的信号。在频域中，语音活动检测器可用来检测与语音活动相关的时频窗口(time-frequency bin)，因此，(其他)时频窗口更可能是噪声。噪声消减可以是非线性的，而均衡可以是线性的。

因此，确定用于均衡的第一系数Z和确定用于噪声消减的第二系数Z1。在一些方面，通过第一滤波器执行均衡，并且通过第二滤波器执行噪声消减。如示出的，第一滤波器和第二滤波器可串联耦接。如文中提及的，可通过后置滤波器进行噪声消减，例如维纳后置滤波器，例如，所谓的Zelinski后置滤波器或者如在Iain A.McCowan的“Microphone ArrayPost-Filter Based on Noise Field Coherence”,IEEE Transactions on Speech andAudio Processing,vol.11,no.6,November 2003记载的后置滤波器。

图8示出了组合的均衡器和噪声消减单元的框图。组合的均衡器和噪声消减单元801接收系数组Z。在该实施方式中，上述第一系数和第二系数被组合(例如包括相乘)成上述多个补偿系数Z。从而通过单个单元801，例如一滤波器可执行均衡和噪声消减。

还提供了一种设备，包括：

麦克风阵列(101)，其被配置为输出多个麦克风信号；以及

处理器(102)，其被配置有：

处理单元(104)，其被配置为使用波束成形和解卷积中的一个或两者从多个麦克风信号生成处理后的音频信号(xp)；

均衡器(106)，其通过根据补偿系数(Z)补偿处理后的音频信号来生成补偿的处理后的音频信号；以及

补偿器(103)，其被配置为

从处理后的音频信号生成第一频谱值；

根据针对从多个麦克风信号中的至少两个麦克风信号中的每一个生成的第二频谱值，生成参考频谱值；以及

从参考频谱值和第一频谱值生成补偿系数。

关于本文所描述的方法描述了其实施方式，该实施方式包括方法的所有实施方式和方面。

如本文所阐述的补偿可以显著减少由使用波束成形和解卷积中的一个或两者从多个麦克风信号生成处理后的音频信号引起的不期望的声染色效果。

在一些实施方式中，在多麦克风扬声电话中，当多麦克风扬声电话在小房间中的桌子上操作时，该方法将补偿的处理后的信号的声音质量从2.7POLQA MOS(不使用本文所描述的方法)改进到3.0POLQA MOS。

Claims

1.一种方法，包括：

在具有麦克风阵列(101)和处理器(102)的电子装置(100)处：

从所述麦克风阵列接收多个麦克风信号(x1、x2、x3)；

从所述多个麦克风信号生成处理后的音频信号(XP)；

通过根据多个补偿系数(Z)补偿所述处理后的音频信号(XP)来生成补偿的处理后的音频信号(XO)，包括：

从所述处理后的音频信号生成第一频谱值(PXP)；

从根据所述多个麦克风信号(x1、x2、x3)之中的至少两个麦克风信号中的每一个而生成的多个第二频谱值(PX1、PX2、PX3)之一，来生成参考频谱值(<PX>)；以及

从所述参考频谱值(<PX>)和所述第一频谱值(PXP)生成所述多个补偿系数(Z)。

2.根据权利要求1所述的方法，其中，通过根据补偿系数(Z)补偿所述处理后的音频信号(XP)生成补偿的处理后的音频信号(XO)，减小了所述补偿的处理后的音频信号(XO)的频谱值的预定义范数与所述参考频谱值(<PX>)之间的预定义差值量度。

3.根据权利要求1或2所述的方法，其中，所述多个第二频谱值(PX1、PX2、PX3)各自以值的阵列表示；并且其中，所述参考频谱值(<PX>)通过分别计算跨所述多个第二频谱值(PX1、PX2、PX3)中的至少两个或至少三个第二频谱值的平均值或中值来生成。

4.根据权利要求1所述的方法，其中，生成所述补偿的处理后的音频信号(XO)包括所述处理后的音频信号(XP)的频率响应均衡。

5.根据权利要求1所述的方法，其中，生成所述补偿的处理后的音频信号(XO)包括噪声消减。

6.根据权利要求1所述的方法，其中，从所述多个麦克风信号生成处理后的音频信号(XP)包括以下各项中的一项或多项：空间滤波、波束成形和解卷积。

7.根据权利要求1所述的方法，其中，针对元素的阵列中的各个元素计算所述第一频谱值(PXP)和所述参考频谱值(<PX>)；并且其中，根据所述参考频谱值(<PX>)中的值与所述第一频谱值(PXP)中的值之间的比率，按照相应的各个元素计算所述补偿系数(Z)。

8.根据权利要求1所述的方法，其中，针对元素的阵列中的各个元素计算所述处理后的音频信号(XP)的值和所述补偿系数(Z)；并且

其中，根据所述处理后的音频信号(XP)的值与所述补偿系数(Z)的乘法，按照相应的各个元素计算所述补偿的处理后的音频信号(XO)的值。

9.根据权利要求1所述的方法，其中：

生成第一频谱值(PXP)与所述第一频谱值的第一时间平均值对应；和/或

生成参考频谱值(<PX>)与参考频谱值的第二时间平均值对应，和/或所述多个第二频谱值(PX1、PX2、PX3)与相应多个第二频谱值的第三时间平均值对应。

10.根据权利要求9所述方法，其中：

所述第一时间平均值和所述第二时间平均值与相互对应的平均特性对应；和/或

所述第一时间平均值和所述第三时间平均值与相互对应的平均特性对应。

11.根据权利要求1所述的方法，其中，针对麦克风信号(x1、x2、x3)的连续帧计算所述第一频谱值(PXP)、所述多个第二频谱值(PX1、PX2、PX3)以及所述参考频谱值(<PX>)。

12.根据权利要求1所述的方法，其中：

所述电子装置(100)包括被配置为经由扬声器再现远端音频信号的电路；

所述方法包括：

确定所述远端音频信号满足第一标准和/或不满足第二标准，并且根据该确定：

放弃以下各项中的一项或多项：补偿所述处理后的音频信号(XP)、从所述处理后的音频信号生成第一频谱值(PXP)以及从多个第二频谱值(PX1、PX2、PX3)生成参考频谱值(<PX>)；以及

确定所述远端音频信号不满足所述第一标准和/或满足所述第二标准，并且根据该确定：

执行以下各项中的一项或多项：补偿所述处理后的音频信号(XP)、从所述处理后的音频信号生成第一频谱值(PXP)以及从多个第二频谱值(PX1、PX2、PX3)生成参考频谱值(<PX>)。

13.根据权利要求1所述的方法，其中，所述第一频谱值(PXP)和所述参考频谱值(<PX>)根据预定义范数进行计算，所述预定义范数选自以下各项的组：1-范数、2-范数、3-范数、对数范数和另一预定义范数。

14.根据权利要求1所述的方法，

其中，从所述多个麦克风信号生成处理后的音频信号在接收以时域表示的多个相应麦克风信号并输出以时域表示的所述处理后的音频信号的第一半导体部处执行；以及

在第二半导体部处：

通过所述麦克风信号的时域到频域变换从所述处理后的音频信号计算所述第一频谱值；以及

通过相应所述麦克风信号的相应时域到频域变换计算所述多个第二频谱值。

15.根据权利要求1所述的方法，包括：

将所述补偿的处理后的音频信号实时地传送到以下各项中的一项或多项：

所述电子装置的扬声器，以及

邻近所述电子装置的接收装置；以及

远端接收装置。

16.一种电子装置，包括：

具有多个麦克风的麦克风阵列(101)；以及

一个或多个信号处理器，其中，所述一个或多个信号处理器被配置为执行权利要求1至12中任一项所述的方法。

17.根据权利要求16所述的电子装置，所述电子装置被配置为扬声电话或头戴式耳机或听力仪器。