CN111402917B

CN111402917B - 音频信号处理方法及装置、存储介质

Info

Publication number: CN111402917B
Application number: CN202010176172.XA
Authority: CN
Inventors: 侯海宁; 李炯亮; 李晓明
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2023-08-04
Anticipated expiration: 2040-03-13
Also published as: JP2021149084A; US11490200B2; KR20210117120A; JP7062727B2; US20210289293A1; CN111402917A; EP3879529A1; KR102497549B1

Abstract

本公开是关于一种音频信号的处理方法及装置、存储介质。该方法包括：由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自在时域上的原始带噪信号；对于时域上的每一帧，采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算，获取加窗带噪信号；对所述加窗带噪信号进行时频转换，获取所述至少两个声源各自的频域带噪信号；根据所述频域带噪信号，获取所述至少两个声源的频域估计信号；根据所述频域估计信号，获得至少两个声源各自发出的音频信号。通过本公开实施例提供的技术方案，能够减少***延迟，提升分离效率。

Description

音频信号处理方法及装置、存储介质

技术领域

本公开涉及信号处理领域，尤其涉及一种音频信号处理方法及装置、存储介质。

背景技术

相关技术中，智能产品设备拾音多采用麦克风阵列，应用麦克风波束形成技术提高语音信号处理质量，以提高真实环境下的语音识别率。但多个麦克风的波束形成技术对麦克风位置误差敏感，性能影响较大，另外麦克风个数增多了也会导致产品成本升高。

因此，目前越来越多的智能产品设备只配置两个麦克风；两个麦克风常采用完全不同于多个麦克风波束形成技术的盲源分离技术对语音进行增强，而如何提升盲源分离的处理效率，减少延迟是目前盲源分离技术中迫切需要解决的问题。

发明内容

本公开提供一种音频信号处理方法及装置、存储介质。

根据本公开实施例的第一方面，提供一种音频信号处理方法，包括：

由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自在时域上的原始带噪信号；

对于时域上的每一帧，采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算，获取加窗带噪信号；

对所述加窗带噪信号进行时频转换，获取所述至少两个声源各自的频域带噪信号；

根据所述频域带噪信号，获取所述至少两个声源的频域估计信号；

根据所述频域估计信号，获得至少两个声源各自发出的音频信号。

在一些实施例中，所述第一非对称窗h_A(m)的定义域为大于或等于0且小于或等于N，峰值为h_A(m₁)＝1，所述m₁小于N且大于0.5N，所述N为所述音频信号的帧长。

在一些实施例中，所述第一非对称窗h_A(m)包括：

其中，H_K(x)是窗长为K的汉宁窗，所述M为帧移。

在一些实施例中，所述根据所述频域估计信号，获得至少两个声源各自发出的音频信号，包括：

对所述频域估计信号进行时频转换，获取至少两个声源各自的时域分离信号；

采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算，获取加窗分离信号；

根据所述加窗分离信号，获取所述至少两个声源各自发出的音频信号。

在一些实施例中，所述采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算，获取加窗分离信号，包括：

采用第二非对称窗h_S(m)对第n帧所述时域分离信号进行加窗运算，得到第n帧加窗分离信号；

所述根据所述加窗分离信号，获取所述至少两个声源各自发出的音频信号，包括：

根据所述第n帧加窗分离信号叠加第n-1帧的音频信号，得到第n帧的音频信号，其中，n为大于1的整数。

在一些实施例中，所述第二非对称窗h_S(m)的定义域为大于或等于0且小于或等于N，峰值为h_S(m₂)＝1，所述m₂等于N-M，所述N为所述音频信号的帧长，所述M为帧移。

在一些实施例中，所述第二非对称窗h_S(m)包括：

其中，H_K(x)是窗长为K的汉宁窗。

在一些实施例中，根据所述频域带噪信号，获取所述至少两个声源的频域估计信号，包括：

根据所述频域带噪信号，获取频域先验估计信号；

根据所述频域先验估计信号，确定各频点的分离矩阵；

根据所述分离矩阵和所述频域带噪信号，获取所述至少两个声源的所述频域估计信号。

根据本公开实施例的第二方面，提供一种音频信号处理装置，包括：

第一获取模块，用于由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自在时域上的原始带噪信号；

第一加窗模块，用于对于时域上的每一帧，采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算，获取加窗带噪信号；

第一转换模块，用于对所述加窗带噪信号进行时频转换，获取所述至少两个声源各自的频域带噪信号；

第二获取模块，用于根据所述频域带噪信号，获取所述至少两个声源的频域估计信号；

第三获取模块，用于根据所述频域估计信号，获得至少两个声源各自发出的音频信号。

在一些实施例中，所述第一非对称窗h_A(m)包括：

其中，H_K(x)是窗长为K的汉宁窗，所述M为帧移。

在一些实施例中，所述第三获取模块，包括：

第二转换模块，用于对所述频域估计信号进行时频转换，获取至少两个声源各自的时域分离信号；

第二加窗模块，用于采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算，获取加窗分离信号；

第一获取子模块，用于根据所述加窗分离信号，获取所述至少两个声源各自发出的音频信号。

在一些实施例中，所述第二加窗模块，具体用于：

所述第一获取子模块，具体用于：

在一些实施例中，所述第二非对称窗h_S(m)包括：

其中，H_K(x)是窗长为K的汉宁窗。

在一些实施例中，根据第二获取模块，包括：

第二获取子模块，用于根据所述频域带噪信号，获取频域先验估计信号；

确定子模块，用于根据所述频域先验估计信号，确定各频点的分离矩阵；

第三获取子模块，用于根据所述分离矩阵和所述频域带噪信号，获取所述至少两个声源的所述频域估计信号。

根据本公开实施例的第三方面，提供一种音频信号处理装置，所述装置至少包括：处理器和用于存储能够在所述处理器上运行的可执行指令的存储器，其中：

处理器用于运行所述可执行指令时，所述可执行指令执行上述任一项音频信号处理方法中的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述任一项音频信号处理方法中的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：本公开实施例中通过加窗处理音频信号，使得每一帧音频信号由小变大，再由大变小。每相邻两帧之间存在重叠的区域，即帧移，从而使得分离后的信号能够保持连续性。同时，本公开实施例中采用非对称窗对音频信号进行加窗处理，从而使得帧移的长度可以根据实际需求来设定，如果设定较小的帧移，则可以带来较少的***延迟，进而提升处理效率，提升分离后的音频信号的时效性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种音频信号处理方法的流程图；

图2是根据一示例性实施例示出的一种音频信号处理方法的应用场景的框图；

图3是根据一示例性实施例示出的一种音频信号处理方法的流程图；

图4是根据一示例性实施例示出的一种非对称分析窗的函数图形；

图5是根据一示例性实施例示出的一种非对称合成窗的函数图形；

图6是根据一示例性实施例示出的一种音频信号处理装置的结构框图；

图7是根据一示例性实施例示出的一种音频信号处理装置的实体结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种音频信号处理方法的流程图，如图1所示，包括以下步骤：

步骤S101、由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自在时域上的原始带噪信号；

步骤S102、对于时域上的每一帧，采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算，获取加窗带噪信号；

步骤S103、对所述加窗带噪信号进行时频转换，获取所述至少两个声源各自的频域带噪信号；

步骤S104、根据所述频域带噪信号，获取所述至少两个声源的频域估计信号；

步骤S105、根据所述频域估计信号，获得至少两个声源各自发出的音频信号。

本公开实施例所述的方法应用在终端中。这里，所述终端为集成了两个或两个以上麦克风的电子设备。例如，所述终端可以为车载终端、计算机、或服务器等。

在一实施例中，所述终端还可以是：与集成了两个或两个以上麦克风的预定设备连接的电子设备；所述电子设备基于所述连接接收所述预定设备采集的音频信号，且基于所述连接将处理后的音频信号发送给所述预定设备。例如，所述预定设备为音箱等。

在实际应用中，所述终端中包括至少两个麦克风，所述至少两个麦克风同时检测至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自的原始带噪信号。这里，可以理解的是，本实施例中所述至少两个麦克风对所述两个声源发出的音频信号是同步进行检测的。

在本公开实施例的所述音频信号处理方法是，需要对预定时间内的音频帧的原始带噪信号获取完之后，才开始对该预定时间内的音频帧的音频信号进行分离。

在本公开实施例中，所述麦克风为2个或2个以上，所述声源为2个或2个以上。

在本公开实施例中，所述原始带噪信号为：包括至少两个声源发出的声音的混合信号。例如，所述麦克风为2个，分别为麦克风1和麦克风2；所述声源为2个，分别为声源1和声源2；则所述麦克风1的原始带噪信号为包括声源1和声源2的音频信号；所述麦克风2原始带噪信号同样也是均包括声源1和声源2音频信号。

例如，所述麦克风为3个，分别为麦克风1、麦克风2和麦克风3；所述声源为3个，分别为声源1、声源2和声源3；则所述麦克风1的原始带噪信号为包括声源1、声源2和声源3的音频信号；所述麦克风2和所述麦克风3的原始带噪信号同样也是均包括声源1、声源2和声源3的音频信号。

可以理解的是，若一个声源发出的声音在一个对应的麦克风中产生的信号为音频信号，则其它声源在所述麦克风中产生的信号为噪声信号。本公开实施例是需要从至少两个麦克风中恢复至少两个声源发出的声源。一般声源个数是与麦克风个数相同的，在一些实施例中，声源个数与麦克风个数也可以是不同的。

可以理解的是，麦克风采集声源发出声音的音频信号时，可以采集至少一帧音频帧的音频信号，此时采集到的音频信号为每一个麦克风的原始带噪信号。原始带噪信号可以是时域信号也可以是频域信号。如果原始带噪信号为时域信号，则可以根据时频转换的运算将时域信号转换为频域信号。

这里，时频转换是指时域信号与频域信号间的相互转换，可以基于快速傅里叶变换(FastFourierTransform，FFT)，将时域信号进行频域变换。或者，可以基于短时傅里叶变换(short-timeFouriertransform，STFT)，将时域信号进行频域变换。或者，还可以基于其它傅里叶变换，将时域信号进行频域变换。

示例性的，若第p个麦克风在第n帧的时域信号为：将第n帧的时域信号变变换为频域信号，确定第n帧的原始带噪信号为：/>其中，所述m为第n帧时域信号的离散时间点数量，k为频点。如此，本实施例可以通过所述时域到频域的变化，可以获得每一帧的原始带噪信号。当然，获取每一帧的原始带噪信号也可以基于其它的快速傅里叶变换公式，在此不做限制。

在本公开实施例中，采用非对称的分析窗对时域的原始带噪信号进行加窗运算，通过第一非对称窗截取每一帧的信号段，得到每一帧的加窗带噪信号。由于语音数据和视频数据不同，本没有帧的概念，但是为了传输与存储，以及程序能够进行批量处理，会根据指定的时间段或者离散时间点数进行分段，形成时域上的音频帧。然而，直接分段形成音频帧可能会破坏音频信号的连续性。为了保证音频信号的连续性，帧与帧之间需要保留重叠的部分数据，也就是存在帧移，相邻两针重叠的部分就是帧移。

这里，非对称窗是指窗函数的函数波形所形成的图形为非对称图形，例如，以峰值为轴的两侧的函数波形非对称。

在本公开实施例中，采用窗函数对音频信号对每一帧信号进行处理，使得信号从最小变化到最大，然后再变化到最小。这样，相邻两帧的重叠部分叠加后也不会造成失真。

如果采用对称的窗函数对音频信号进行处理，则帧移为帧长的一半，这样会导致较大的***延迟，从而降低分离效率，影响实时交互体验。因此，在本公开实施例中，采用非对称窗对音频信号进行加窗处理，使得每一帧音频信号加窗后强度较大的信号位于前半段或者后半段，这样，可以使相邻两帧信号之间的重叠部分集中在较短的区间内，从而减少延迟，提升分离效率。

在本公开实施例中，采用第一非对称窗h_A(m)作为分析窗来对每一帧原始带噪信号进行加窗处理。***的帧长为N，窗长则也为N，即每一帧信号具有N个离散时间点的音频信号采样。

这里，根据第一非对称窗h_A(m)进行加窗处理，实际上是对一帧音频信号的每个时间点上的采样值乘以函数h_A(m)的对应时间点的函数值，使得加窗后的每一帧的音频信号从0逐渐增大，再逐渐减小。在第一非对称窗的峰值的时间点m₁处，加窗后的音频信号与原始音频信号相同。

在本公开实施例中，第一非对称窗的峰值所在的时间点m₁小于N且大于0.5N，也就是在中心点以后，这样，可以减少相邻两帧之间重叠部分，也就是减少帧移，从而减少***延迟，提升信号处理的效率。

在一些实施例中，所述第一非对称窗h_A(m)包括如下公式(1)：

其中，H_K(x)是窗长为K的汉宁窗，所述M为帧移。

本公开实施例中，提供公式(1)所示的第一非对称窗，在时间点m取值小于N-M时，第一非对称窗的函数由来表示。其中，H_2(N-M)(m)为窗长为2(N-M)的汉宁窗。汉宁窗为余弦窗的一种，可以由如下公式(2)来表示：

而对于时间点m取值大于N-M时，第一非对称窗的函数由来表示。其中，H_2M(m-(N-2M))为窗长为2M的汉宁窗。

如此，第一非对称窗的峰值位于m＝N-M处。为了降低延迟，可以将帧移M设置较小，例如，M＝N/4或M＝N/8等等。这样，***的总延迟只有2M，而小于N，因此，能够达到降低延迟的作用。

在本公开实施例中，原始带噪信号经过加窗处理以及视频转换后，转换为频域带噪信号。根据频域带噪信号，进行分离处理，可以获取到分离后的至少两个声源的频域信号。为了还原出至少两个声源的音频信号，需要先将得到的频域信号经过时频转换回到时域。

时频转换可以基于快速傅里叶逆变换(InverseFastFourierTransform，IFFT)，将频域信号进行时域变换。或者，可以基于短时傅里叶逆变换(Inverseshort-timeFouriertransform，ISTFT)，将频域信号变成时域信号。或者，还可以基于其它傅里叶逆变换，将频域信号进行时域变换。

回到时域的分离信号为各声源分为不同帧的时域分离信号，为了得到声源发出连续的音频信号，可以通过再次加窗处理，去除不需要的重复部分。然后进行合成，得到连续的音频信号，还原出声源各自发出的音频信号。

如此，能够减少还原出的音频信号中的噪声，提升信号质量。

在本公开实施例中，采用第二非对称窗作为合成窗对上述时域分离信号进行加窗处理，得到加窗分离信号。然后将每一帧的加窗分离信号与上一帧时域重叠的部分相加，得到当前帧的时域分离信号。如此，能够使还原出的音频信号保持连续性，更加接近原始的声源发出的音频信号，提升还原出的音频信号质量。

在本公开实施例中，采用第二非对称窗作为合成窗对分离后的每一帧音频信号进行加窗处理。第二非对称窗可以仅在帧移的两倍长度内取值，截取每一帧的后2M段音频，再与前一帧的重叠部分，也就是帧移部分相加，得到当前帧的时域分离信号。这样，经过处理后的每一帧连续起来就还原出了原始的声源发出的音频信号。

在一些实施例中，所述第二非对称窗h_S(m)包括：

其中，H_K(x)是窗长为K的汉宁窗。

本公开实施例中，提供公式(3)所示的第二非对称窗，在时间点m取值小于N-M且大于N-2M+1时，第一非对称窗的函数由来表示。其中，H_2(N-M)(m)为窗长为2(N-M)的汉宁窗。H_2M(m-(N-2M))为窗长为2M的汉宁窗。

而对于时间点m取值大于N-M时，第二非对称窗的函数由来表示。其中，H_2M(m-(N-2M))为窗长为2M的汉宁窗。如此，第二非对称窗的峰值也位于m＝N-M处。

根据所述频域带噪信号，获取频域先验估计信号；

根据所述频域先验估计信号，确定各频点的分离矩阵；

根据初始化的分离矩阵，或者上一帧的分离矩阵，可以对频域带噪信号进行初步的分离，得到先验估计信号，然后再根据先验估计信号，对分离矩阵进行更新。最后再根据分离矩阵对频域带噪信号进行分离，得到分离后的频域估计信号，即频域后验估计信号。

示例性的，上述分离矩阵可以基于协方差矩阵解得的特征值确定得到。协方差矩阵V_p(k,n)满足如下关系其中，β为平滑系数，V_p(k,n-1)为上一帧的协方差矩阵，X_p(k,n)为当前帧的原始带噪信号，即频域带噪信号。/>为当前帧的原始带噪信号的共轭转置矩阵。/>为加权系数。其中，/>为辅助变量。/>称为对比函数。这里，/>代表了第p个声源的基于整个频带的多维超高斯先验概率密度分布模型，也就是上述分布函数。/>为Y_p(n)的共轭矩阵，Y_p(n)为第p个声源在第n帧的频域估计信号，Y_p(k,n)表示第p个声源在第n帧第k个频点的频域估计信号，即频域先验估计信号。

通过上述方法更新分离矩阵，能够以更高的分离性能分离得到更加准确的频域估计信号，进行时频转换后，即可还原出声源发出的音频信号。

本公开实施例还提供以下示例：

图3是根据一示例性实施例示出的一种音频信号处理方法的流程图；其中，所述音频信号处理方法中，如图2所示，声源包括声源1和声源2，麦克风包括麦克风1和麦克风2。基于所述音频信号处理方法，从麦克风1和麦克风2的原始带噪信号中恢复出声源1和声源2的音频信号。如图3所示，所述方法包括以下步骤：

步骤S301：初始化W(k)和V_p(k)；

其中，初始化包括以下步骤：设***帧长为Nfft，则频点K＝Nfft/2+1。

1)初始化各个频点的分离矩阵；

其中，所述/>为单位矩阵；所述k为频点；所述k＝1,L,K。

2)初始化各声源在各个频点的加权协方差矩阵V_p(k)。

其中，/>为零矩阵；其中，所述p用于表示麦克风；p＝1,2。

步骤S302：获得第p个麦克风在第n帧的原始带噪信号；

以代表第p个麦克风的一帧时域信号。m＝1,..,Nfft。Nfft代表***帧长，也是FFT的长度。帧移为M。

对加非对称分析窗并进行FFT得：

其中，所述m为傅里叶变换所选取的点数；其中，所述FFT为快速傅里叶变换；所述为第p个麦克风第n帧的时域信号；这里，所述时域信号为原始带噪信号。所述h_A(m)为非对称分析窗。

此时，X_p(k,n)的观测信号为：X(k,n)＝[X₁(k,n),X₂(k,n)]^T；其中，[X₁(k,n),X₂(k,n)]^T为转置矩阵。

STFT是对当前帧时域信号乘上分析窗并进行FFT得到时频数据。当算法由估计出分离矩阵得到分离后的信号的时频数据后进行IFFT回到时域，然后再乘上合成窗，与上一帧输出的时域重叠部分进行相加得到重建的分离后的时域信号，这称作重叠相加技术。

现有的加窗算法一般采用基于对称的汉宁窗或者海明窗等窗函数。示例性地，可以使用根号周期汉宁窗：

其中，帧移窗长N＝Nfft。***延迟为Nfft点。由于Nfft一般为4096或者更大，在f_s＝16kHz***采样率下，此时延迟为256ms或者更大。

在本公开实施例中，采用非对称分析窗与合成窗，设窗长为N＝Nfft，帧移为M。为了低延迟，此时的M一般较小。示例性地，可设为或者其他值。

示例性地，非对称分析窗可以采用如下函数：

非对称合成窗可以采用如下函数：

当N＝4096，M＝512时，上述非对称分析窗的函数曲线如图4所示；上述非对称合成窗的函数曲线如图5所示。

步骤S303：利用上一帧的W(k)获得两个声源信号的先验频域估计；

令两个声源信号的先验频域估计Y(k,n)＝[Y₁(k,n),Y₂(k,n)]^T，其中Y₁(k,n),Y₂(k,n)分别为声源1和声源2在时频点(k,n)处的估计值。

通过分离矩阵W(k)对观测矩阵X(k,n)进行分离得到：Y(k,n)＝W(k)'X(k,n)；其中，W'(k)为上一帧(即当前帧的前一帧)的分离矩阵。

则第p个声源在第n帧的先验频域估计为：

步骤S304：更新加权协方差矩阵V_p(k,n)；

计算更新的加权协方差矩阵：其中，所述β为平滑系数。在一实施例中，所述β为0.98；其中，所述V_p(k,n-1)为上一帧的加权协方差矩阵；所述/>为X_p(k,n)的共轭转置；所述/>为加权系数，其中，所述/>为辅助变量；所述/>为对比函数。

其中，所述代表了第p个声源的基于整个频带的多维超高斯先验概率密度函数。在一实施例中，/>此时，若所述/>则所述/>

步骤S305：解特征问题，以求得特征向量e_p(k,n)；

这里，所述e_p(k,n)为第p个麦克风对应的特征向量。

其中，求所述特征问题：V₂(k,n)e_p(k,n)＝λ_p(k,n)V₁(k,n)e_p(k,n)，得到，

其中，tr(A)是迹函数，tr(A)即对矩阵A主对角线上的元素求和；det(A)为对矩阵A求行列式；λ₁、λ₂、e₁以及e₂为特征值。

步骤S306：获得各个频点的更新后的分离矩阵W(k)；

基于上述特征问题的特征向量，求得更新后的当前帧的分离矩阵

步骤S307：利用当前帧的W(k)获得两个声源信号的后验频域估计；

利用当前帧的W(k)对原始带噪信号进行分离得到两个声源信号的后验频域估计Y(k,n)＝[Y₁(k,n),Y₂(k,n)]^T＝W(k)X(k,n)。

步骤S308：根据后验频域估计进行时频转换得到分离后的时域信号。

进行IFFT，加合成窗，和上一帧时域重叠部分相加，得当前帧的时域分离信号y_p(m),p＝1,2

其中，为当前帧的时域信号加窗处理后的信号；/>为当前帧以前的各帧的时域重叠部分，/>为当前帧时域重叠部分。

更新给下一帧重叠相加使用/>

分别对进行ISTFT和重叠相加得到分离后的时域声源信号/>即/>其中m＝1,…,Nfft。p＝1,2。

经过上述分析窗与合成窗的处理，最终，***延迟为2M点，时延为2M/f_s单位ms(毫秒)。在改变FFT点数的情况下，通过控制M的大小就可以得到满足实际需要的***延迟，解决了***延迟和算法性能之间的矛盾。

图6是根据一示例性实施例示出的一种音频信号处理装置的框图。参照图6，该装置600包括第一获取模块601、第一加窗模块602、第一转换模块603、第二获取模块604和第三获取模块605。

第一获取模块601，用于由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自在时域上的原始带噪信号；

第一加窗模块602，用于对于时域上的每一帧，采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算，获取加窗带噪信号；

第一转换模块603，用于对所述加窗带噪信号进行时频转换，获取所述至少两个声源各自的频域带噪信号；

第二获取模块604，用于根据所述频域带噪信号，获取所述至少两个声源的频域估计信号；

第三获取模块605，用于根据所述频域估计信号，获得至少两个声源各自发出的音频信号。

在一些实施例中，所述第一非对称窗h_A(m)包括：

其中，H_K(x)是窗长为K的汉宁窗，所述M为帧移。

在一些实施例中，所述第三获取模块，包括：

在一些实施例中，所述第二加窗模块，具体用于：

所述第一获取子模块，具体用于：

在一些实施例中，所述第二非对称窗h_S(m)包括：

其中，H_K(x)是窗长为K的汉宁窗。

在一些实施例中，根据第二获取模块，包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种音频信号处理装置700的实体结构框图。例如，装置700可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图7，装置700可以包括以下一个或多个组件：处理组件701，存储器702，电源组件703，多媒体组件704，音频组件705，输入/输出(I/O)接口706，传感器组件707，以及通信组件708。

处理组件701通常控制装置700的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件701可以包括一个或多个处理器710来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件701还可以包括一个或多个模块，便于处理组件701和其他组件之间的交互。例如，处理组件701可以包括多媒体模块，以方便多媒体组件704和处理组件701之间的交互。

存储器710被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件703为装置700的各种组件提供电力。电源组件703可以包括：电源管理***，一个或多个电源，及其他与为装置700生成、管理和分配电力相关联的组件。

多媒体组件704包括在所述装置700和用户之间提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件704包括一个前置摄像头和/或后置摄像头。当装置700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和/或后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件705被配置为输出和/或输入音频信号。例如，音频组件705包括一个麦克风(MIC)，当装置700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器710或经由通信组件708发送。在一些实施例中，音频组件705还包括一个扬声器，用于输出音频信号。

I/O接口706为处理组件701和***接口模块之间提供接口，上述***接口模块可以是键盘、点击轮、按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件707包括一个或多个传感器，用于为装置700提供各个方面的状态评估。例如，传感器组件707可以检测到装置700的打开/关闭状态、组件的相对定位，例如所述组件为装置700的显示器和小键盘，传感器组件707还可以检测装置700或装置700的一个组件的位置改变，用户与装置700接触的存在或不存在，装置700方位或加速/减速和装置700的温度变化。传感器组件707可以包括接近传感器，被配置为在没有任何的物理接触时检测附近物体的存在。传感器组件707还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件707还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件708被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络，如WiFi、2G或3G，或它们的组合。在一个示例性实施例中，通信组件708经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件708还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术或其他技术来实现。

在示例性实施例中，装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器702，上述指令可由装置700的处理器710执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述实施例中提供的任一种方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号处理方法，其特征在于，包括：

根据所述频域估计信号，获得至少两个声源各自发出的音频信号；其中，

所述根据所述频域估计信号，获得至少两个声源各自发出的音频信号，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一非对称窗h_A(m)的定义域为大于或等于0且小于或等于N，峰值为h_A(m₁)＝1，所述m₁小于N且大于0.5N，所述m为所述第一非对称窗h_A(m)对应的时间点，所述m₁为所述第一非对称窗h_A(m)的峰值的时间点，所述N为所述音频信号的帧长。

3.根据权利要求2所述的方法，其特征在于，所述第一非对称窗h_A(m)包括：

其中，H_K(x)是窗长为K的汉宁窗，所述M为帧移。

4.根据权利要求1所述的方法，其特征在于，所述采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算，获取加窗分离信号，包括：

5.根据权利要求1所述的方法，其特征在于，所述第二非对称窗h_S(m)的定义域为大于或等于0且小于或等于N，峰值为h_S(m₂)＝1，所述m₂等于N-M，所述m为所述第二非对称窗h_S(m)对应的时间点，所述m₂为所述第二非对称窗h_S(m)的峰值的时间点，所述N为所述音频信号的帧长，所述M为帧移。

6.根据权利要求5所述的方法，其特征在于，所述第二非对称窗h_S(m)包括：

其中，H_K(x)是窗长为K的汉宁窗。

7.根据权利要求1所述的方法，其特征在于，根据所述频域带噪信号，获取所述至少两个声源的频域估计信号，包括：

根据所述频域带噪信号，获取频域先验估计信号；

根据所述频域先验估计信号，确定各频点的分离矩阵；

8.一种音频信号处理装置，其特征在于，包括：

第三获取模块，用于根据所述频域估计信号，获得至少两个声源各自发出的音频信号；其中，

所述第三获取模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述第一非对称窗h_A(m)的定义域为大于或等于0且小于或等于N，峰值为h_A(m₁)＝1，所述m₁小于N且大于0.5N，所述m为所述第一非对称窗h_A(m)对应的时间点，所述m₁为所述第一非对称窗h_A(m)的峰值的时间点，所述N为所述音频信号的帧长。

10.根据权利要求9所述的装置，其特征在于，所述第一非对称窗h_A(m)包括：

其中，H_K(x)是窗长为K的汉宁窗，所述M为帧移。

11.根据权利要求8所述的装置，其特征在于，所述第二加窗模块，具体用于：

所述第一获取子模块，具体用于：

12.根据权利要求11所述的装置，其特征在于，所述第二非对称窗h_S(m)的定义域为大于或等于0且小于或等于N，峰值为h_S(m₂)＝1，所述m₂等于N-M，所述m为所述第二非对称窗h_S(m)对应的时间点，所述m₂为所述第二非对称窗h_S(m)的峰值的时间点，所述N为所述音频信号的帧长，所述M为帧移。

13.根据权利要求12所述的装置，其特征在于，所述第二非对称窗h_S(m)包括：

其中，H_K(x)是窗长为K的汉宁窗。

14.根据权利要求8所述的装置，其特征在于，根据第二获取模块，包括：

15.一种音频信号处理装置，其特征在于，所述装置至少包括：处理器和用于存储能够在所述处理器上运行的可执行指令的存储器，其中：

处理器用于运行所述可执行指令时，所述可执行指令执行上述权利要求1至7任一项提供的音频信号处理方法中的步骤。

16.一种非临时性计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述权利要求1至7任一项提供的音频信号处理方法中的步骤。