CN112863537B

CN112863537B - 一种音频信号处理方法、装置及存储介质

Info

Publication number: CN112863537B
Application number: CN202110001599.0A
Authority: CN
Inventors: 侯海宁
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2024-06-04
Anticipated expiration: 2041-01-04
Also published as: CN112863537A

Abstract

本文公开了一种音频信号处理方法、装置及存储介质，此方法包括：在所述分离矩阵的分离特性符合设定条件时，使用所述分离矩阵对相应帧音频时域信号进行不同声源音频信号的分离；在所述分离矩阵的分离特性不符合设定条件时，根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵，使用更新后的分离矩阵对当前帧音频时域信号进行不同声源音频信号的分离。本公开可以保证分离矩阵对盲源信号的分离效果，提高算法的鲁棒性和稳定性，提升分离性能，减少分离后的语音损伤度，提高识别性能。

Description

一种音频信号处理方法、装置及存储介质

技术领域

本文涉及移动终端数据处理技术领域，尤其涉及一种音频信号处理方法、装置及存储介质。

背景技术

在物联网、AI时代，智能语音作为人工智能核心技术之一，可以有效地改善人机交互的模式，大大提高智能产品使用的便捷性。

目前智能产品设备的声音采集设备多采用麦克风阵列，应用麦克风波束形成技术提高语音信号处理质量，以提高真实环境下的语音识别率。

盲源分离技术利用不同声源信号间的独立性进行声源的分离，从而将目标信号和噪声源信号分开，提高信号的信噪比。

如何提高盲源分离技术的性能是需要解决的技术问题。

发明内容

为克服相关技术中存在的问题，本文提供了一种音频信号处理方法、装置及存储介质。

根据本文实施例的第一方面，提供一种音频信号处理方法，此方法包括：

获取至少两个麦克风采集的至少两个声源的混叠音频信号；

对所述混叠音频信号进行分帧处理，获得多帧音频时域信号；

确定每一帧音频时域信号的分离矩阵；

判断每一帧音频时域信号的分离矩阵的分离特性是否符合设定条件；

在所述分离矩阵的分离特性符合设定条件时，使用所述分离矩阵对相应帧音频时域信号进行不同声源音频信号的分离；在所述分离矩阵的分离特性不符合设定条件时，根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵，使用更新后的分离矩阵对当前帧音频时域信号进行不同声源音频信号的分离。

在一实施方式中，所述根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵，包括以下中的一种：

将所述上一帧音频时域信号的分离矩阵作为当前帧音频时域信号的分离矩阵；

确定所述上一帧音频时域信号的分离矩阵与系数矩阵的乘积矩阵，将所述乘积矩阵作为当前帧音频时域信号的分离矩阵。

在一实施方式中，所述判断每一帧音频时域信号的分离矩阵的分离特性是否符合设定条件，包括：

使用求逆公式确定所述分离矩阵对应的辅助矩阵；

确定所述分离矩阵和所述辅助矩阵的乘积矩阵；

确定所述乘积矩阵与单位矩阵的第一差距值，确定所述乘积矩阵与单位矩阵的转置矩阵的第二差距值；

在所述第一差距值小于或等于第一阈值或者所述第二差距值小于或等于第二阈值时，确定所述分离矩阵的分离特性符合设定条件。

在一实施方式中，所述使用求逆公式确定所述分离矩阵对应的辅助矩阵，包括：

确定所述分离矩阵的伴随矩阵，以及确定所述分离矩阵的行列式；

确定所述伴随矩阵与所述行列式的比值结果；

将所述比值结果作为所述分离矩阵对应的辅助矩阵。

在一实施方式中，所述确定所述乘积矩阵与单位矩阵的第一差距值，包括：

确定所述乘积矩阵中位于主对角线上的每个元素与1的差值的绝对值，

确定所述乘积矩阵中位于主对角线之外的每个元素的绝对值；

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第一差距值。

在一实施方式中，所述确定所述乘积矩阵与单位矩阵的转置矩阵的第二差距值，包括：

确定所述乘积矩阵中位于次对角线上的每个元素与1的差值的绝对值，

确定所述乘积矩阵中位于次对角线之外的每个元素的绝对值；

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第二差距值。

在一实施方式中，所述方法还包括：

确定当前帧音频时域信号之前的多个历史帧音频时域信号对应的第一差距值，根据多个历史帧音频时域信号对应的第一差距值确定第一系数，确定所述第一阈值是第一固定值与第一系数的乘积；

确定当前帧音频时域信号之前的多个历史帧音频时域信号对应第二差距值，根据多个历史帧音频时域信号对应第二差距值确定第二系数，确定所述第二阈值是第二固定值与第二系数的乘积。

在一实施方式中，所述根据多个历史帧音频时域信号对应的第一差距值确定第一系数，包括：

确定每个历史帧音频时域信号对应的第一差距值与第一固定值的差值，确定每个历史帧音频时域信号对应的差值的平均值，根据所述平均值确定第一系数，所述平均值与所述第一系数正相关；

确定每个历史帧音频时域信号对应的第二差距值与第二固定值的差值，确定每个历史帧音频时域信号对应的差值的平均值，根据所述平均值确定第二系数，所述平均值与所述第二系数正相关。

根据本文实施例的第二方面，提供一种音频信号处理装置，应用于移动终端，所述移动终端包括至少两个麦克风，此装置包括：

获取模块，被配置为获取所述至少两个麦克风采集的至少两个声源的混叠音频信号；

分帧模块，被配置为对所述混叠音频信号进行分帧处理，获得多帧音频时域信号；

第一确定模块，被配置为确定每一帧音频时域信号的分离矩阵；

判断模块，被配置为判断每一帧音频时域信号的分离矩阵的分离特性是否符合设定条件；

处理模块，被配置为在所述分离矩阵的分离特性符合设定条件时，使用所述分离矩阵对相应帧音频时域信号进行不同声源音频信号的分离；在所述分离矩阵的分离特性不符合设定条件时，根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵，使用更新后的分离矩阵对当前帧音频时域信号进行不同声源音频信号的分离。

在一实施方式中，所述处理模块，还被配置为使用以下方法中的一种根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵：

在一实施方式中，所述判断模块包括：

第二确定模块，被配置为使用求逆公式确定所述分离矩阵对应的辅助矩阵；

第三确定模块，被配置为确定所述分离矩阵和所述辅助矩阵的乘积矩阵；

第四确定模块，被配置为确定所述乘积矩阵与单位矩阵的第一差距值，确定所述乘积矩阵与单位矩阵的转置矩阵的第二差距值；

第五确定模块，被配置为在所述第一差距值小于或等于第一阈值或者所述第二差距值小于或等于第二阈值时，确定所述分离矩阵的分离特性符合设定条件。

在一实施方式中，所述第二确定模块，被配置为采用以下方法使用求逆公式确定所述分离矩阵对应的辅助矩阵：

确定所述伴随矩阵与所述行列式的比值结果；

将所述比值结果作为所述分离矩阵对应的辅助矩阵。

在一实施方式中，所述第四确定模块，还被配置为采用以下方法确定所述乘积矩阵与单位矩阵的第一差距值：

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第一差距值。

在一实施方式中，所述第四确定模块，还被配置为采用以下方法确定所述乘积矩阵与单位矩阵的转置矩阵的第二差距值，包括：

确定所述乘积矩阵中位于次对角线上的每个元素与1的差值的绝对值，确定所述乘积矩阵中位于次对角线之外的每个元素的绝对值；

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第二差距值。

在一实施方式中，所述装置还包括：

第六确定模块，被配置为确定当前帧音频时域信号之前的多个历史帧音频时域信号对应的第一差距值，根据多个历史帧音频时域信号对应的第一差距值确定第一系数，确定所述第一阈值是第一固定值与第一系数的乘积；

第七确定模块，被配置为确定当前帧音频时域信号之前的多个历史帧音频时域信号对应第二差距值，根据多个历史帧音频时域信号对应第二差距值确定第二系数，确定所述第二阈值是第二固定值与第二系数的乘积。

在一实施方式中，所述第六确定模块，还被配置为使用以下方法根据多个历史帧音频时域信号对应的第一差距值确定第一系数：

所述第七确定模块，还被配置为使用以下方法根据多个历史帧音频时域信号对应第二差距值确定第二系数：

根据本文实施例的第三方面，提供一种音频信号处理装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述存储器中的可执行指令以实现所述方法的步骤。

根据本文实施例的第四方面，提供一种非临时性计算机可读存储介质，其上存储有可执行指令，该可执行指令被处理器执行时实现所述方法的步骤。

本文的实施例提供的技术方案可以包括以下有益效果：计算每一帧音频时域信号的分离矩阵后，对分离矩阵的分离特性进行判断，在分离矩阵的分离特性满足设定条件时使用当前帧音频时域信号的分离矩阵，在分离矩阵的分离特性不满足设定条件时使用上一帧音频时域信号的分离矩阵，从而保证分离矩阵对盲源信号的分离效果，提高算法的鲁棒性和稳定性，提升分离性能，减少分离后的语音损伤度，提高识别性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本文。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本文的实施例，并与说明书一起用于解释本文的原理。

图1是根据一示例性实施例示出的音频信号处理方法的流程图；

图2是根据一示例性实施例示出的音频信号处理装置的结构图；

图3是根据一示例性实施例示出的音频信号处理装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本文相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本文的一些方面相一致的装置和方法的例子。

现有技术中，在盲源分离算法中使用性能较好的有辅助函数AuxIVA算法利用辅助函数技术迭代求解最优分离矩阵，使用分离矩阵对音频信号中的不同声源的信号进行分离，可获得比较快的收敛性能和比较好的分离性能。但是常规算法中，并没有对分离矩阵进行任何约束。当迭代求得的分离矩阵进行声源信号分离的分离特性较差时，算法稳定性就会被破坏，分离性能恶化。

本公开实施例中提供一种音频信号处理方法，此方法应用终端，此终端是集成了两个或两个以上麦克风的电子设备。例如，所述终端可以为手机，笔记本、平板电脑、车载终端、计算机、或服务器等；或者此终端是与多个麦克风相连接的设备。

参照图1，图1是根据一示例性实施例示出的一种音频信号处理方法的流程图。如图1所示，此方法包括：

步骤S11，获取至少两个麦克风采集的至少两个声源的混叠音频信号。

步骤S12，对所述混叠音频信号进行分帧处理，获得多帧音频时域信号。

步骤S13，确定每一帧音频时域信号的分离矩阵。

步骤S14,判断每一帧音频时域信号的分离矩阵的分离特性是否符合设定条件。

步骤S15,在所述分离矩阵的分离特性符合设定条件时，使用所述分离矩阵对相应帧音频时域信号进行不同声源音频信号的分离；在所述分离矩阵的分离特性不符合设定条件时，根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵，使用更新后的分离矩阵对当前帧音频时域信号进行不同声源音频信号的分离。

本实施例中，麦克风为2个或2个以上，声源为2个或2个以上。一般声源的个数与麦克风的个数是相同的，在一些实施例中，声源个数与麦克风个数也可以是不同的。

在一种应用场景下，麦克风为2个，分别为麦克风1和麦克风2；声源为2个，分别为声源1和声源2。麦克风1收集到的混叠音频信号是声源1和声源2的混叠音频信号，麦克风2收集到的混叠音频信号是声源1和声源2的混叠音频信号。

在另一种应用场景下，麦克风为3个，分别为麦克风1、麦克风2和麦克风3；声源为3个，分别为声源1、声源2和声源3；则麦克风1、麦克风2、和麦克风3收集到的混叠音频信号是声源1、声源2和声源3的混叠音频信号。

在声源的个数大于2的情况下，一般认为声源的个数为2，即将一个声源的音频信号作为目标音频信号，将其它的声源的音频信号作为干扰目标音频信号，所以本实施例中分离声源信号时，一共分离出两个声源的信号。

在麦克风的个数大于2的情况下，在进行声源分离时，将多个麦克风采集到的信号进行去冗余处理(或者称为降维处理)，获得2个麦克风对应的混叠音频信号。

本实施例中，确定每一帧音频时域信号的分离矩阵后，对分离矩阵的分离特性进行判断，在分离矩阵的分离特性满足设定条件时使用当前帧音频时域信号的分离矩阵，在分离矩阵的分离特性不满足设定条件时使用上一帧音频时域信号的分离矩阵，从而保证分离矩阵对盲源信号的分离效果，提高算法的鲁棒性和稳定性，提升分离性能，减少分离后的语音损伤度，提高识别性能。

本公开实施例中提供一种音频信号处理方法，此方法包括图1所示的方法，并且：步骤S14中根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵，包括以下中的一种：

一，将所述上一帧音频时域信号的分离矩阵作为当前帧音频时域信号的分离矩阵；

二，确定所述上一帧音频时域信号的分离矩阵与系数矩阵的乘积矩阵，将所述乘积矩阵作为当前帧音频时域信号的分离矩阵。

本实施例中，在当前帧的分离矩阵的分离特性不符合设定条件时，放弃使用当前帧音频时域信号的分离矩阵，将上一帧音频时域信号的分离矩阵作为当前帧音频时域信号的分离矩阵，或者修正上一帧音频时域信号的分离矩阵后作为当前帧音频时域信号的分离矩阵，从而获得比使用当前帧音频时域信号的分离矩阵更好的分离效果。

本公开实施例中提供一种音频信号处理方法，此方法包括图1所示的方法，并且：

所述判断每一帧音频时域信号的分离矩阵的分离特性是否符合设定条件，包括：

步骤1，使用求逆公式确定所述分离矩阵对应的辅助矩阵；

步骤2，确定所述分离矩阵和所述辅助矩阵的乘积矩阵；

步骤3，确定所述乘积矩阵与单位矩阵的第一差距值，确定所述乘积矩阵与单位矩阵的转置矩阵的第二差距值；

步骤4，在所述第一差距值小于或等于第一阈值或者所述第二差距值小于或等于第二阈值时，确定所述分离矩阵的分离特性符合设定条件。在所述第一差距值大于第一阈值并且所述第二差距值大于第二阈值时，确定所述分离矩阵的分离特性不符合设定条件。

在一实施方式中，步骤1中使用求逆公式确定所述分离矩阵对应的辅助矩阵，包括：

确定所述伴随矩阵与所述行列式的比值结果；

将所述比值结果作为所述分离矩阵对应的辅助矩阵。

例如：分离矩阵是Wtmp(k,n)，其中k是指k＝1,..,K，k表示频点的位置标识，频点个数为K，其中，K＝Nfft/2+1，***帧长为Nfft,n表示帧号。

Wtmp(k,n)是2*2矩阵的情况下，

则使用下述所示的求逆公式确定出的辅助矩阵为invWtmp(k,n)：

在一实施方式中，步骤3中确定所述乘积矩阵与单位矩阵的第一差距值，包括：

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第一差距值。

例如：乘积矩阵为W_dot(k,n)，其与单位矩阵的第一差距值为amp1_W_dot(k,n)：

amp1_W_dot(k,n)＝abs(W_dot(1,1,k,n)-1)+abs(W_dot(1,2,k,n))+abs(W_dot(2,1,k,n))+abs(W_dot(2,2,k,n)-1)

在一实施方式中，确定所述乘积矩阵与单位矩阵的转置矩阵的第二差距值，包括：

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第二差距值。

例如：乘积矩阵为W_dot(k,n)，其与单位矩阵的转置矩阵的第二差距值为amp2_W_dot(k,n)：

amp2_W_dot(k,n)＝abs(W_dot(1,2,k,n)-1)+abs(W_dot(1,1,k,n))+abs(W_dot(2,2,k,n))+abs(W_dot(2,1,k,n)-1)

本实施例中，通过使用求逆公式计算分离矩阵对应的辅助矩阵，在分离矩阵的分离性能较好时，分离矩阵与相应辅助矩阵的乘积矩阵就越接近单位矩阵或者接近单位矩阵的逆矩阵；分离矩阵的分离性能较差时，分离矩阵与相应辅助矩阵的乘积矩阵就与单位矩阵或者单位矩阵的逆矩阵的差距就越大。通过本实施例中的方法，可以有效判断分离矩阵的分离特性。

本公开实施例中提供一种音频信号处理方法，此方法包括上一实施例所示的方法，并且：第一阈值和第二阈值的取值方式是以下方式中的一种：

方式一，第一阈值和第二阈值均是固定值，第一阈值和第二阈值相同或者不同。例如：第一阈值和第二阈值均为1e-2，或者，第一阈值为1e-2，第二阈值为1e-3。

方式二，第一阈值和第二阈值是可调整的动态的值。

例如：

针对第一阈值：确定当前帧之前的多个历史帧对应的第一差距值，根据多个历史帧对应的第一差距值确定第一系数，确定所述第一阈值是第一固定值与第一系数的乘积。

针对第二阈值：确定当前帧之前的多个历史帧对应第二差距值，根据多个历史帧对应第二差距值确定第二系数，确定所述第二阈值是第二固定值与第二系数的乘积。

在一实施方式中，根据多个历史帧对应的第一差距值确定第一系数，包括：确定每个历史帧对应的第一差距值与第一固定值的差值，确定每个历史帧对应的差值的平均值，根据所述平均值确定第一系数，所述平均值与所述第一系数正相关。

根据多个历史帧对应第二差距值确定第二系数，包括：确定每个历史帧对应的第二差距值与第二固定值的差值，确定每个历史帧对应的差值的平均值，根据所述平均值确定第二系数，所述平均值与所述第二系数正相关。

在本实施方式中，根据当前帧之间的多个历史帧对应的第一差距值和第二差距值相应的调整当前帧的第一阈值和第二阈值，使第一阈值和第二阈值与历史的声源分离情况密切相关，使整体分离效果更好。

下面通过具体实施例进行详细说明。

具体实施例：

设置有两个声源，音箱中具有两个麦克风，每个麦克风均接收到两个声源的混叠声音数据，根据两个麦克风接收到的混叠声音数据区分出两个声源的数据。

步骤1，设置参数值。

步骤1.1，设置***帧长为Nfft,频点个数为K，其中，K＝Nfft/2+1。

步骤1.2,根据公式(1)设置每个频点对应的分离矩阵的初始值：

其中，为单位矩阵，k＝1,..,K，k表示频点的位置标识。

其中的H表示共轭转置。

w₁(k，0)是第一声源的分离矩阵的初始值矩阵，w₂(k，0)是第二声源的分离矩阵的初始值矩阵。w₁(k，0)和w₂(k，0)中的0表示第0帧，对于声音数据进行分帧处理后，获得声音数据对应的第1帧数据、第2帧数据，依次类推；后续进行计算时，对于每个当前帧数据都要使用其上一帧的分离矩阵，所以为对方便对第1帧数据进行处理，设置初始值矩阵中用于表示当前帧号的值为0。

步骤1.3,根据公式(2)设置各个频点对应的加权协方差矩阵V_i(k)的初始值：

其中，为零矩阵，k＝1,..,K，k表示频点的位置标识。i＝1,2,i表示声源的标识。

步骤2，确定频域数据。

对每个麦克风采集到的混叠声音数据进行分帧处理，获得每个麦克风采集的声音信号的帧。

以表示第p个麦克风的第n帧的时域信号的离散序列，p＝1,2；m＝1,...,Nfft。

根据公式(3)对进行加窗的Nfft点的FFT变换，得到对应的频域信号X_p(k,n)，

根据各麦克风的X_p(k,n)构建观测信号矩阵为：

X(k,n)＝[X₁(k,n),X₂(k,n)]^T

其中，k＝1,..,K；T表示转置。

步骤3，确定频带估计。

根据公式(4)利用上一帧的分离矩阵W(k,n-1)和观测信号矩阵确定当前帧中所有声源信号的先验频域估计。

Y(k,n)＝W(k,n-1)X(k,n) (4)

其中，k＝1,..,K。

令Y(k,n)＝[Y₁(k,n),Y₂(k,n)]^T，k＝1,..,K。

Y₁(k,n),Y₂(k,n)是Y(k,n)中的两个元素，根据Y(k,n)确定Y₁(k,n),Y₂(k,n)。Y₁(k,n),Y₂(k,n)分别为声源s1和s2在时频点(k,n)处的估计值。

确定每个声源在当前帧的整个频带中的频域估计为：

其中，i＝1,2。

步骤4、根据各声源在当前帧的整个频带中的频域估计更新相应的加权协方差矩阵V_i(k,n)。

根据公式(6)更新各声源在第(k,n)个时频点上的加权协方差矩阵。

其中，β为加权系数，例如β的值是0.98。

由公式(7)确定：

其中

为对比函数，由公式(9)确定：

其中，代表了第i个声源的基于整个频带的多维超高斯先验概率密度分布模型。

一般情况下，根据公式(10)确定得到：

此时，

从而，

步骤5，求解特征值

根据公式(11)求解特征值：

V₂(k,n)e_i(k,n)＝λ_i(k,n)V₁(k,n)e_i(k,n) (11)

其中i＝1,2。求解得到：

其中，tr是迹函数。tr(A)即对矩阵A主对角线上的元素求和；det(A)为对矩阵A求行列式，λ₁、λ₂、e₁、e₂为特征值。

其中，

其中，H₂₂(k,n)表示H(k,n)矩阵中第2行第2列的元素，H₁₂(k,n)表示H(k,n)矩阵中第1行第2列的元素，H₁₁(k,n)表示H(k,n)矩阵中第1行第1列的元素。

步骤6.根据特征值确定当前帧中所有声源在各个频点的临时的分离矩阵：

Wtmp(k,n)＝[w₁(k,n),w₂(k,n)]^H，k＝1,..,K。 (17)

在现有算法中在此处没有对求得的临时的分离矩阵Wtmp(k,n)进行分离特性的判断，直接将临时的分离矩阵Wtmp(k,n)作为当前帧的分离矩阵W(k,n)，即W(k,n)＝Wtmp(k,n)。但是实际场景中，在Wtmp(k,n)的分离特性较差时直接赋值给W(k,n)去做后续的分离，会破坏算法稳定性，导致分离性能恶化。鉴于此，本申请中提出了对Wtmp(k,n)的分离特性进行判断，当分离特性满足设定条件时将其赋值给W(k,n)作为当前帧的分离矩阵,即W(k,n)＝Wtmp(k,n)；当其不满足设定条件时，使用上一帧的分离矩阵或者上一帧的分离矩阵的修正矩阵作为当前帧的分离矩阵，从而提高算法的鲁棒性，保证了算法收敛的稳定性，提升了语音质量。

步骤7，判断Wtmp(k,n)的分离特性是否符合设定条件。

使用求逆公式确定Wtmp(k,n)对应的辅助矩阵。

例如：Wtmp(k,n)是2*2矩阵的情况下，

则使用公式(1)所示的求逆公式确定出的辅助矩阵为invWtmp(k,n)：

/>

其中，det(Wtmp(k,n))表示Wtmp(k,n)的行列式。

在使用运算程序进行计算的过程中，det(Wtmp(k,n))的值不会出现为0的情况，如果Wtmp(k,n)的行列式的值为0时，将会自动增加一个修正值，使修正后的det(Wtmp(k,n))的值不为0。

计算两者的乘积，获得W_dot(k,n)：

计算W_dot(k,n)与单位矩阵的第一差距值为amp1_W_dot(k,n)：

amp1_W_dot(k,n)＝abs(W_dot(1,1,k,n)-1)+abs(W_dot(1,2,k,n))+abs(W_dot(2,1,k,n))+abs(W_dot(2,2,k,n)-1) (21)

计算W_dot(k,n)与单位矩阵的转置矩阵的第二差距值为amp2_W_dot(k,n)：

amp2_W_dot(k,n)＝abs(W_dot(1,2,k,n)-1)+abs(W_dot(1,1,k,n))+abs(W_dot(2,2,k,n))+abs(W_dot(2,1,k,n)-1) (22)

若满足amp1_W_dot(k,n)≤TH或者amp2_W_dot(k,n)≤TH时，确定当前帧的分离矩阵为Wtmp(k,n)；或不满足amp1_W_dot(k,n)≤TH或者amp2_W_dot(k,n)≤TH时，更新当前帧的分离矩阵为上一帧的分离矩阵，即W(k,n)＝W(k,n-1)。

其中TH为阈值，例如阈值为1e-2。

步骤8，利用求得W(k,n)对混叠音频信号进行分离得到声源信号的后验频域估计：

Y(k,n)＝[Y₁(k,n),Y₂(k,n)]^T＝W(k,n)X(k,n) (23)

步骤9，分别对进行IFFT和重叠相加得到分离后的时域声源信号s_i(m,n)。

其中，i＝1,2；m＝1,...,Nfft。

本公开实施例中提供一种音频信号处理装置，此装置应用于终端，此终端是集成了两个或两个以上麦克风的电子设备。例如，所述终端可以为手机，笔记本、平板电脑、车载终端、计算机、或服务器等；或者此终端是与多个麦克风相连接的设备。

参照图2，图2是根据一示例性实施例示出的一种音频信号处理装置的结构图。此装置，应用于移动终端，所述移动终端包括至少两个麦克风。如图2所示，此装置包括：

获取模块201，被配置为获取所述至少两个麦克风采集的至少两个声源的混叠音频信号；

分帧模块202，被配置为对所述混叠音频信号进行分帧处理，获得多帧音频时域信号；

第一确定模块203，被配置为确定每一帧音频时域信号的分离矩阵；

判断模块204，被配置为判断每一帧音频时域信号的分离矩阵的分离特性是否符合设定条件；

处理模块205，被配置为在所述分离矩阵的分离特性符合设定条件时，使用确定出的分离矩阵对相应帧音频时域信号进行不同声源音频信号的分离；在所述分离矩阵的分离特性不符合设定条件时，根据上一帧音频时域信号的分离矩阵确定当前帧音频时域信号的分离矩阵，使用更新后的分离矩阵对当前帧音频时域信号进行不同声源音频信号的分离。

本公开实施例中提供一种音频信号处理装置，此装置包括图2所示的装置，并且：

所述处理模块205，还被配置为使用以下方法中的一种根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵：

所述判断模块204包括：

在一实施方式中，所述第二确定模块，还被配置为采用以下方法使用求逆公式确定所述分离矩阵对应的辅助矩阵：

确定所述伴随矩阵与所述行列式的比值结果；

将所述比值结果作为所述分离矩阵对应的辅助矩阵。

确定所述乘积矩阵中位于主对角线上的每个元素与1的差值的绝对值，确定所述乘积矩阵中位于主对角线之外的每个元素的绝对值；

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第一差距值。

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第二差距值。

在一实施方式中，所述装置还包括：

第六确定模块，被配置为确定当前帧之前的多个历史帧对应的第一差距值，根据多个历史帧对应的第一差距值确定第一系数，确定所述第一阈值是第一固定值与第一系数的乘积；

第七确定模块，被配置为确定当前帧之前的多个历史帧对应第二差距值，根据多个历史帧对应第二差距值确定第二系数，确定所述第二阈值是第二固定值与第二系数的乘积。

在一实施方式中，所述第六确定模块，还被配置为使用以下方法根据多个历史帧对应的第一差距值确定第一系数：

确定每个历史帧对应的第一差距值与第一固定值的差值，确定每个历史帧对应的差值的平均值，根据所述平均值确定第一系数，所述平均值与所述第一系数正相关；

所述第七确定模块，还被配置为使用以下方法根据多个历史帧对应第二差距值确定第二系数：

确定每个历史帧对应的第二差距值与第二固定值的差值，确定每个历史帧对应的差值的平均值，根据所述平均值确定第二系数，所述平均值与所述第二系数正相关。

本公开实施例中提供一种音频信号处理装置，此装置包括：

处理器；

用于存储处理器可执行指令的存储器；

本公开实施例中提供一种非临时性计算机可读存储介质，其上存储有可执行指令，该可执行指令被处理器执行时实现所述方法的步骤。

图3是根据一示例性实施例示出的一种音频信号处理装置300的框图。例如，装置300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置300可以包括以下一个或多个组件：处理组件302，存储器304，电源组件306，多媒体组件308，音频组件310，输入/输出(I/O)的接口312，传感器组件314，以及通信组件316。

处理组件302通常控制装置300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理组件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件306为装置300的各种组件提供电力。电源组件306可以包括电源管理***，一个或多个电源，及其他与为装置300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当设备300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当装置300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口312为处理组件302和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为装置300提供各个方面的状态评估。例如，传感器组件314可以检测到设备300的打开/关闭状态，组件的相对定位，例如所述组件为装置300的显示器和小键盘，传感器组件314还可以检测装置300或装置300一个组件的位置改变，用户与装置300接触的存在或不存在，装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件316经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器304，上述指令可由装置300的处理器320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本文的其它实施方案。本申请旨在涵盖本文的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本文的一般性原理并包括本文未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本文的真正范围和精神由下面的权利要求指出。

应当理解的是，本文并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本文的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号处理方法，其特征在于，包括：

获取至少两个麦克风采集的至少两个声源的混叠音频信号；

确定每一帧音频时域信号的分离矩阵；

在所述分离矩阵的分离特性符合设定条件时，使用所述分离矩阵对相应帧音频时域信号进行不同声源音频信号的分离；在所述分离矩阵的分离特性不符合设定条件时，根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵，使用更新后的分离矩阵对当前帧音频时域信号进行不同声源音频信号的分离；

使用求逆公式确定所述分离矩阵对应的辅助矩阵；

确定所述分离矩阵和所述辅助矩阵的乘积矩阵；

2.如权利要求1所述的方法，其特征在于，

所述根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵，包括以下中的一种：

3.如权利要求1所述的方法，其特征在于，

所述使用求逆公式确定所述分离矩阵对应的辅助矩阵，包括：

确定所述伴随矩阵与所述行列式的比值结果；

将所述比值结果作为所述分离矩阵对应的辅助矩阵。

4.如权利要求1所述的方法，其特征在于，

所述确定所述乘积矩阵与单位矩阵的第一差距值，包括：

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第一差距值。

5.如权利要求1所述的方法，其特征在于，

所述确定所述乘积矩阵与单位矩阵的转置矩阵的第二差距值，包括：

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第二差距值。

6.如权利要求1所述的方法，其特征在于，

所述方法还包括：

7.如权利要求6所述的方法，其特征在于，

所述根据多个历史帧音频时域信号对应的第一差距值确定第一系数，包括：

8.一种音频信号处理装置，应用于移动终端，所述移动终端包括至少两个麦克风，其特征在于，包括：

处理模块，被配置为在所述分离矩阵的分离特性符合设定条件时，使用所述分离矩阵对相应帧音频时域信号进行不同声源音频信号的分离；在所述分离矩阵的分离特性不符合设定条件时，根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵，使用更新后的分离矩阵对当前帧音频时域信号进行不同声源音频信号的分离；

所述判断模块包括：

9.如权利要求8所述的装置，其特征在于，

所述处理模块，还被配置为使用以下方法中的一种根据上一帧音频时域信号的分离矩阵更新当前帧音频时域信号的分离矩阵：

10.如权利要求8所述的装置，其特征在于，

所述第二确定模块，还被配置为采用以下方法使用求逆公式确定所述分离矩阵对应的辅助矩阵：

确定所述伴随矩阵与所述行列式的比值结果；

将所述比值结果作为所述分离矩阵对应的辅助矩阵。

11.如权利要求8所述的装置，其特征在于，

所述第四确定模块，还被配置为采用以下方法确定所述乘积矩阵与单位矩阵的第一差距值：

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第一差距值。

12.如权利要求8所述的装置，其特征在于，

所述第四确定模块，还被配置为采用以下方法确定所述乘积矩阵与单位矩阵的转置矩阵的第二差距值，包括：

确定各绝对值的和；

将所述和作为所述乘积矩阵与单位矩阵的第二差距值。

13.如权利要求8所述的装置，其特征在于，

所述装置还包括：

14.如权利要求13所述的装置，其特征在于，

所述第六确定模块，还被配置为使用以下方法根据多个历史帧音频时域信号对应的第一差距值确定第一系数：

15.一种音频信号处理装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器;

其中，所述处理器被配置为执行所述存储器中的可执行指令以实现权利要求1至7中任一项所述方法的步骤。

16.一种非临时性计算机可读存储介质，其上存储有可执行指令，其特征在于，该可执行指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。