CN113314135B

CN113314135B - 声音信号识别方法及装置

Info

Publication number: CN113314135B
Application number: CN202110572969.6A
Authority: CN
Inventors: 何琪琪; 侯海宁
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2024-04-26
Anticipated expiration: 2041-05-25
Also published as: CN113314135A

Abstract

本公开是关于一种声音信号识别方法及装置。涉及智能语音交互技术，解决了强干扰低信噪比场景下声源定位准确率低、语音识别质量较差的问题。该方法包括：获取至少两个采集点分别对至少两个声源采集的原始观测数据；对所述原始观测数据进行第一级降噪处理，得到后验域估计数据；根据所述后验域估计数据，得到各个声源的信号分量；分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号；根据所述波束成形估计信号，得到各个所述声源的时域声源信号。本公开提供的技术方案适用于智能语音***，实现了高效、抗干扰能力强语音信号识别。

Description

声音信号识别方法及装置

技术领域

本公开涉及智能语音交互技术，尤其涉及一种声音信号识别方法及装置。

背景技术

在物联网、AI时代，智能语音作为人工智能核心技术之一，丰富了人机交互的模式，大大提高智能产品使用的便捷性。

智能产品设备拾音多采用多个麦克风构成的麦克风阵列，应用麦克风波束形成技术或盲源分离技术抑制环境干扰，提高语音信号处理质量，以提高真实环境下的语音识别率。

麦克风波束形成技术需要估计声源方向，另外为了赋予更强的智能性和感知性，一般智能设备会配备指示灯，当与用户交互时将指示灯准确指向用户而非干扰，让用户感觉在与智能设备面对面对话，增强用户的交互体验。基于此，在存在干扰音源的环境中，准确估计用户(也即声源)的方向十分重要。

声源寻向算法一般直接利用麦克风采集得到的数据，使用基于相位变换加权的可控响应功率的声源定位算法(Steered Response Power-Phase Transform，简称SRP-PHAT)等算法进行寻向估计。但这种算法依赖信号的信噪比，在低信噪比下准确率不够高，极容易寻向到干扰音源的方向上，无法准确对有效声源进行定位，进而影响了语音识别的准确性。

发明内容

为克服相关技术中存在的问题，本公开提供一种声音信号识别方法及装置。通过降噪获取后验域数据后，再形成信号分量并经波束成形进一步降噪，实现了高质量的语音识别。

根据本公开实施例的第一方面，提供一种声音信号识别方法，包括：

获取至少两个采集点分别对至少两个声源采集的原始观测数据；

对所述原始观测数据进行第一级降噪处理，得到后验域估计数据；

根据所述后验域估计数据，得到各个声源的信号分量；

分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号；

根据所述波束成形估计信号，得到各个所述声源的时域声源信号。

进一步的，对所述原始观测数据进行第一级降噪处理，得到后验域估计数据的步骤包括：

初始化各个频点的分离矩阵及各个声源在各个频点的加权协方差矩阵，所述分离矩阵的行数和列数均为声源的数量；

求取各个采集点处的时域信号，并根据所述时域信号对应的频域信号构建观测信号矩阵；

根据上一帧的分离矩阵和所述观测信号矩阵，求取当前帧各个声源的先验频域估计；

根据所述先验频域估计更新所述加权协方差矩阵；

根据更新后的所述加权协方差矩阵，更新所述分离矩阵；

校正更新后的所述分离矩阵；

根据校正后的所述分离矩阵，对所述原始观测数据进行分离，将分离得到的各个声源的后验域估计数据。

进一步的，根据上一帧的分离矩阵和所述观测信号矩阵，求取当前帧各个声源的先验频域估计的步骤包括：

根据上一帧的分离矩阵对所述观测信号矩阵进行分离，得到当前帧各个声源的先验频域估计。

进一步的，根据所述先验频域估计更新所述加权协方差矩阵的步骤包括：

根据所述观测信号矩阵及所述观测信号矩阵的共轭转置矩阵，更新所述加权协方差矩阵。

进一步的，根据更新后的所述加权协方差矩阵，更新所述分离矩阵的步骤包括：

根据各个声源的加权协方差矩阵，计算各个声源的特征向量；

根据所述特征向量，分别更新各个声源的分离矩阵；

更新所述分离矩阵为各个声源的分离矩阵合并后的共轭转置矩阵。

进一步的，校正更新后的所述分离矩阵的步骤包括：

根据所述分离矩阵的逆矩阵的对角阵，对所述分离矩阵进行频谱幅度解模糊处理，以校正所述分离矩阵的频谱畸变。

进一步的，根据所述后验域估计数据，得到各个声源的信号分量的步骤包括：

根据所述后验域估计数据，得到各个声源在波束成形滤波器的各通道中的信号分量，所述信号分量包括期望信号和残留噪声信号。

进一步的，分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号的步骤包括：

根据各个所述声源的信号分量，确定各个所述声源的输入信号；

分别对各个所述声源的所述输入信号逐帧进行如步骤一至二的处理：

步骤一、检测当前帧为噪声帧或非噪声帧，

步骤二、在当前帧是噪声帧的情况下，根据上一帧的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵，估计当前帧的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵，

在所述当前帧是非噪声帧的情况下，根据上一帧的所述期望信号的自相关矩阵，估计当前帧的所述期望信号的自相关矩阵；

根据各个所述声源的最终的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵，得到各个所述声源的权重向量；

根据各个所述声源的所述输入信号的共轭转置矩阵和所述权重向量，得到各个所述声源的波束成形估计信号。

进一步的，所述根据所述波束成形估计信号，得到各个所述声源的时域声源信号的步骤包括：

对所述各个声源的波束成形估计信号进行短时傅立叶逆变换后重叠相加，得到各个声源的时域声源信号。

根据本公开实施例的第二方面，提供一种声音信号识别方法，包括：

原始数据获取模块，用于获取至少两个采集点分别对至少两个声源采集的原始观测数据；

第一降噪模块，用于对所述原始观测数据进行第一级降噪处理，得到后验域估计数据；

信号映射模块，用于根据所述后验域估计数据，得到各个声源的信号分量；

第二降噪模块，用于分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号；

增强信号输出模块，用于根据所述波束成形估计信号，得到各个所述声源的时域声源信号。

进一步的，所述第一降噪模块包括：

矩阵初始化子模块，用于初始化各个频点的分离矩阵及各个声源在各个频点的加权协方差矩阵，所述分离矩阵的行数和列数均为声源的数量；

观测信号矩阵构建子模块，用于求取各个采集点处的时域信号，并根据所述时域信号对应的频域信号构建观测信号矩阵；

先验频域求取子模块，用于根据上一帧的分离矩阵和所述观测信号矩阵，求取当前帧各个声源的先验频域估计；

协方差矩阵更新子模块，用于根据所述先验频域估计更新所述加权协方差矩阵；

分离矩阵更新子模块，用于根据更新后的所述加权协方差矩阵，更新所述分离矩阵；

校正子模块，用于校正更新后的所述分离矩阵；

后验域求取子模块，用于根据校正后的所述分离矩阵，对所述原始观测数据进行分离，将分离得到的各个声源的后验域估计数据。

进一步的，所述先验频域求取子模块，用于根据上一帧的分离矩阵对所述观测信号矩阵进行分离，得到当前帧各个声源的先验频域估计。

进一步的，所述协方差矩阵更新子模块，用于根据所述观测信号矩阵及所述观测信号矩阵的共轭转置矩阵，更新所述加权协方差矩阵。

进一步的，所述分离矩阵更新子模块包括：

特征值计算子模块，用于根据各个声源的加权协方差矩阵，计算各个声源的特征向量；

第一更新子模块，用于根据所述特征向量，分别更新各个声源的分离矩阵；

第二更新子模块，用于更新所述分离矩阵为各个声源的分离矩阵合并后的共轭转置矩阵。

进一步的，所述校正子模块，用于根据所述分离矩阵的逆矩阵的对角阵，对所述分离矩阵进行频谱幅度解模糊处理，以校正所述分离矩阵的频谱畸变。

进一步的，所述信号映射模块，用于根据所述后验域估计数据，得到各个声源在波束成形滤波器的各通道中的信号分量，所述信号分量包括期望信号和残留噪声信号。

进一步的，所述第二降噪模块包括：

输入信号构建子模块，用于根据各个所述声源的信号分量，确定各个所述声源的输入信号；

自相关矩阵估算子模块，用于分别对各个所述声源的所述输入信号逐帧进行如步骤一至二的处理：

步骤一、检测当前帧为噪声帧或非噪声帧，

权重向量计算子模块，用于根据各个所述声源的最终的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵，得到各个所述声源的权重向量；

波束成形估计信号获取子模块，用于根据各个所述声源的所述输入信号的共轭转置矩阵和所述权重向量，得到各个所述声源的波束成形估计信号。

进一步的，所述增强信号输出模块，用于对所述各个声源的波束成形估计信号进行短时傅立叶逆变换后重叠相加，得到各个声源的时域声源信号。

根据本公开实施例的第三方面，提供一种计算机装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据所述后验域估计数据，得到各个声源的信号分量；

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种声音信号识别方法，所述方法包括：

根据所述后验域估计数据，得到各个声源的信号分量；

本公开的实施例提供的技术方案可以包括以下有益效果：获取至少两个采集点分别对至少两个声源采集的原始观测数据，然后对所述原始观测数据进行第一级降噪处理，得到后验域估计数据，然后根据所述后验域估计数据，得到后验域估计数据，再根据所述后验域估计数据，得到各个声源的信号分量，分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号，最后根据所述波束成形估计信号，得到各个所述声源的时域声源信号。对原始观测数据进行盲源分离得到后验域估计数据后，再通过波束增强进一步提升信噪比以突出信号，解决了强干扰低信噪比场景下声源定位准确率低、语音识别质量较差的问题，实现了高效、抗干扰能力强语音信号识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种声音信号识别方法的流程图。

图2是根据一示例性实施例示出的又一种声音信号识别方法的流程图。

图3是一种两麦克风采集点收音场景示意图。

图4是根据一示例性实施例示出的一种盲源分离原理示意图。

图5是根据一示例性实施例示出的一种盲源分离与波束成形结合应用的原理示意图。

图6是根据一示例性实施例示出的又一种声音信号识别方法的流程图。

图7是根据一示例性实施例示出的又一种声音信号识别方法的流程图。

图8是根据一示例性实施例示出的一种声音信号识别装置的框图。

图9是根据一示例性实施例示出的第一降噪模块802的结构示意图。

图10是根据一示例性实施例示出的分离矩阵更新子模块905的结构示意图。

图11是根据一示例性实施例示出的第二降噪模块804的结构示意图。

图12是根据一示例性实施例示出的一种装置的框图(移动终端的一般结构)。

图13是根据一示例性实施例示出的一种装置的框图(服务器的一般结构)。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

声源寻向算法一般直接利用麦克风采集得到的数据，使用麦克风阵列声源定位(SRP-PHAT)等算法进行寻向估计。但这种算法依赖信号的信噪比，在低信噪比下准确率不够高，极容易寻各到干扰音源的方向上，无法准确对有效声源进行定位。

为了解决上述问题，本公开的实施例提供了一种声音信号识别方法及装置。对采集的原始数据进行降噪处理后得到后验域数据，再针对后验域数据中的残留噪声再进行一次降噪处理进一步提高信噪比，得到最终的时域声源信号，消除干扰音源的影响，解决了强干扰低信噪比场景下声源定位准确率低的问题，实现了高效、抗干扰能力强语音信号识别。

本公开的一示例性实施例提供了一种声音信号识别方法，使用该方法完获取声源信号识别结果的流程如图1所示，包括：

步骤101、获取至少两个采集点分别对至少两个声源采集的原始观测数据。

本实施例中，所述采集点可为麦克风。例如，可为设置于同一设备上的多个麦克风，所述多个麦克风构成麦克风阵列。

本步骤中，在各个采集点处均进行数据采集，采集的数据来源可以是多个声源。多个声源中可能包括作为目标的有效声源，也可能包括干扰音源。

采集点采集得到了至少两个声源的原始观测数据。

步骤102、对所述原始观测数据进行第一级降噪处理，得到后验域估计数据。

本步骤中，对采集得到的原始观测数据进行第一级降噪处理，以消除干扰音源等产生的噪声影响。

可基于盲源分离技术，对原始观测数据进行第一级降噪处理，以得到降噪后的后验域估计数据。

基于独立向量分析的盲源分离技术不需要源信号和传输通道等先验信息，将接收到的观测信号按照统计独立的原则通过优化算法分解为近似期望信号和噪声信号，将噪声信号剥离，从而提高信号的信噪比。同时，经过盲源分离得到的近似期望信号仍保留着麦克风阵列及声源的空间信息。

步骤103、根据所述后验域估计数据，得到各个声源的信号分量。

本公开中，在获取后验域估计数据后，为对后验域估计数据中残留的噪声进行进一步剔除以获得较高信噪比的信号，对后验域估计数据进行处理，通过自适应滤波器过滤噪声。

步骤104、分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号。

本步骤中，针对步骤103得到的后验域估计数据中的噪声干扰残留，为求进一步提升声音信号质量，采用波束成形技术进行第二级降噪处理。增强声源信号的同时对其他方向信号(可能对声源的信号存在干扰的信号)进行抑制，从而进一步提高了声源信号的信噪比，在此基础上可进行进一步的声源定位识别，以获取更为准确的结果。

本步骤中，可采用基于参数化多通道维纳滤波(Parameterized MultichannelWiener Filter，简称PMWF)的波束形成进行第二级降噪处理。

步骤105、根据所述波束成形估计信号，得到各个所述声源的时域声源信号。

本步骤中，根据波束成形估计信号，通过短时傅立叶逆变换(ISTFT)和重叠相加得到分离波束处理后信噪比增强后的时域信号，时域信号相较于后验域估计数据，噪音更小，更能真实、准确的反映声源所发出的声音信号，实现了精准高效的声音信号识别。

本公开的一示例性实施例还提供了一种声音信号识别方法，基于盲源分离，对原始观测数据进行降噪处理，以获取后验域估计数据，具体流程如图2所示，包括：

步骤201、初始化各个频点的分离矩阵及各个声源在各个频点的加权协方差矩阵。

本步骤中，所述分离矩阵的行数和列数均为声源的数量，所述加权协方差矩阵为0矩阵。

本实施例中，以两个麦克风作为采集点的场景为例。如图3所示，智能音箱A具有两个麦克风：mic1和mic2；在智能音箱A周围空间存在两个声源：s1和s2。两个声源发出的信号均能够被两个麦克风采集到。在每个麦克风中两个声源的信号都会混叠在一起。

盲源分离的主要思想是求得分离矩阵w11、w12、w21、w22是分离矩阵W的元素，代表W由这四个元素组成。

根据分离矩阵，可以从两个麦克风采集的信号x₁、x₂中分离出声源s₁、s₂，实现原理如图4所示。通过分离矩阵W，从mic1采集的原始观测数据x₁[k]中分离出对声源s1的后验域估计信号分量y₁₁[k]及对声源s2的后验域估计信号分量y₂₁[k]，从mic2采集的原始观测数据x₂[k]中分离出对声源s1的后验域估计信号分量y₁₂[k]及对声源s2的后验域估计信号分量y₂₂[k]，并进一步得到后验域估计数据y₁[k]和y₂[k]。y₁[k]是根据y₁₁[k]和y₁₂[k]求得的声源s1的后验域数据；y₂[k]是根据y₂₁[k]和y₂₂[k]求得的声源s2的后验域数据。

本步骤中，根据表达式(1)定义初始化分离矩阵：

初始化的分离矩阵为单位阵，k＝1,..,K。k是表示频点的变量，表示当前计算的是第k个频点，k＝1,..,K表示k的取值变量为1,2,3,…K,K代表频点总数。

频点总数K＝Nfft/2+1，Nfft为智能音箱A的声音***中每个分帧的帧长度。

本步骤中，根据表达式(1)初始化各个频点的分离矩阵：

分离矩阵为单位阵；k＝1,..,K。

w₁(k,τ)和w₂(k,τ)分别表示为W的一列元素，τ代表当前帧数。

并根据表达式(2)初始化各声源在各个频点的加权协方差矩阵V_p(k)为零矩阵：

其中，k＝1,..,K，代表第k个频点；p为麦克风编号；p＝1,2。

步骤202、求取各个采集点处的时域信号，并根据所述时域信号对应的频域信号构建观测信号矩阵。

以代表第p个麦克风第n帧的时域信号。p＝1,2。m＝1,2,...,Nfft。

根据表达式(3)，对根据Nfft取得的帧进行加窗后，通过傅利叶变换(FFT)得到对应的频域信号X_p(k,n)：

则观测信号矩阵如表达式(4)所示，为：

X(k,n)＝[X₁(k,n),X₂(k,n)]^T (4)

其中，k＝1,..,K。

步骤203、根据上一帧的分离矩阵和所述观测信号矩阵，求取当前帧各个声源的先验频域估计。

本步骤中，首先根据上一帧的分离矩阵对所述观测信号矩阵进行分离，得到当前帧各个声源的先验频域估计。

具体到图3所示场景，令Y(k,n)＝[Y₁(k,n),Y₂(k,n)]^T，k＝1,..,K，其中Y₁(k,n),Y₂(k,n)分别为声源s₁和s₂在时频点(k,n)处的先验频域估计值。如表达式(5)所示，它是通过利用分离矩阵W(k)对观测矩阵X(k,n)进行分离得到：

Y(k,n)＝W(k)X(k,n)，k＝1,..,K (5)

则第p个声源在第n帧的整个频带的频域估计如表达式(6)所示，为：

步骤204、根据所述先验频域估计更新所述加权协方差矩阵。

本步骤中，根据所述观测信号矩阵及所述观测信号矩阵的共轭转置矩阵，更新所述加权协方差矩阵。

对于图3所示的应用场景，根据表达式(7)更新加权协方差矩阵V_p(k,n)。

其中，α为加权系数，可根据表达式(8)得到：

根据表达式(10)定义对比函数

代表了第p个声源的基于整个频带的多维超高斯先验概率密度分布模型。一般算法中，可根据表达式(11)计算/>

exp表示指数函数。

相应的，对比函数如表达式(12)所示：

可通过表达式(13)和(14)获取加权系数：

步骤205、根据更新后的所述加权协方差矩阵，更新所述分离矩阵。

本步骤中，根据各个声源的加权协方差矩阵，计算各个声源的特征向量，然后根据所述特征向量，分别更新各个声源的分离矩阵。

对于图3所示的应用场景，可对表达式(15)所示方程进行求解，根据表达式(16)得到声源s1的特征值，根据表达式(17)得到声源s1的特征向量。

V₂(k,n)e_p(k,n)＝λ_p(k,n)V₁(k,n)e_p(k,n)，p＝1,2 (15)

声源s1的特征值：

其中，Tr代表求矩阵的迹，det代表求矩阵的行列式，H可根据表达式(20)求得。

声源s1的特征向量：

根据表达式(18)得到声源s1的特征值，根据表达式(19)得到声源s2的特征向量。

声源s1的特征值：

声源s2的特征向量：

其中，

H₁₁、H₁₂、H₂₁、H₂₂分别为矩阵H(k,n)中的元素。

然后，根据表达式(21)计算各个频点的分离矩阵W(k)＝[w₁(k),w₂(k)]^H：

其中，k＝1,..,K，()^H表示取括号中的共轭转置。

步骤206、校正更新后的所述分离矩阵。

各个频点上频谱幅度的模糊会导致合成信号频谱产生畸变，因此，本步骤中，根据所述分离矩阵的逆矩阵的对角阵，对所述分离矩阵进行频谱幅度解模糊处理，以校正所述分离矩阵的频谱畸变。

例如，可使用表达式(22)校正W[k]。

W[k]＝diag(W^-1[k])W[k] (22)

其中，W^-1[k]为W[k]的逆矩阵，diag(·)表示由主对角元素构成的对角阵。

步骤207、根据校正后的所述分离矩阵，对所述原始观测数据进行分离，将分离得到的各个声源的后验域估计数据。

利用W(k)对原始麦克信号进行分离得到声源信号的后验频域估计：

Y(k,n)＝[Y₁(k,n),Y₂(k,n)]^T＝W(k)X(k,n) (23)

本公开的一示例性实施例还一种声音信号识别方法，对于从观测信号中分离得到的后验频域估计信号，在背景噪声较大、混响较强的场景下，对信号中的噪声残留可进行第二级降噪处理，以获取更高信噪比的声音信号。

首先根据所述后验域估计数据，得到各个声源的信号分量。可根据所述后验域估计数据，得到各个声源在波束成形滤波器的各通道中的信号分量，所述信号分量包括期望信号和残留噪声信号。

以图5所示盲源分离技术与波束形成技术联合增强***为例，采用PMWF的波束成形滤波器，存在第一通道和第二通道两个分量通道。在图3所示应用场景下，以X_p(k,n)作为第一级降噪处理盲源分离的输入(将其中对应于声源s1的频域信号简写为X₁[k],将其中对应于声源s2的频域信号简写为X₂[k])。将盲源分离的结果Y₁(k,n)(图5中简写为Y₁)视为声源s₁在第一通道的中的分量，Y₂(k,n)(图5中简写为Y₂)视为声源s₂在第二通道的中的分量。根据表达式(24)，基于观测信号矩阵X(k,n)和先验频域估计Y(k,n)求两通道中另一声源的成分：

此时，得到了声源s₁在两通道中的信号分量Y₁(k,n)和(图5中简写为/>)以及声源s₂在两通道中的信号分量Y₂(k,n)和/>(图5中简写为/>)。然后，就可以根据信号分量，进行PMWF滤波，得到对各声源更高信噪比的估计结果。

本公开的一示例性实施例还提供了一种声音信号识别方法，在获取了各个声源在波束成形滤波器中各通道的信号分量后，分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号。具体流程如图6所示，包括：

步骤601、根据各个所述声源的信号分量，确定各个所述声源的输入信号。

本步骤中，根据信号分量中的期望信号和残留噪声信号构成，确定输入信号。

以图3所示应用场景为例，对于声源s1，以Y₁(k,n)、作为PMWF的输入。对于任意一频点，输入信号由期望信号和残留噪声信号组成。

表达式(25)示出了声源s1任一频点下第一通道输入信号Y₁(k)的构成：

Y₁(k)＝S₁(k)+V₁(k),k＝1,...,K (25)

其中，S₁(k)为输入信号Y₁(k)的期望信号，V₁(k)为输入信号Y₁(k)的残留噪声信号。

表达式(26)示出了声源s1任一频点下第二通道输入信号的构成：/>

其中，为输入信号/>的期望信号，/>为输入信号/>的残留噪声信号。

用向量形式表示：

其中，Y(k)为输入信号，S(k)为期望信号，V(k)为残留噪声信号。

对于声源s2，Y₂(k,n)，作为PMWF的输入。对于任意一频点，输入信号由期望信号和残留噪声信号组成。

表达式(2)示出了声源s2一频点下第一通道输入信号的构成：

表达式(31)示出了声源s1任一频点下第二通道输入信号的构成：

Y₂(k)＝S₂(k)+V₂(k)，k＝1,…,K (31)

其中，S₂(k)为输入信号Y₂(k)的期望信号，V₂(k)为输入信号Y₂(k)的残留噪声信号。

用向量形式表示：

步骤602、估计所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵。

本步骤中，根据当前帧为噪声帧或非噪声帧，选择对期望信号和/或残留噪声信号的自相关矩阵进行估计，逐帧处理直至对整个输入信号处理完毕。具体如图7所示，包括：

分别对各个所述声源的所述输入信号逐帧进行如下处理：

步骤701、检测当前帧为噪声帧或非噪声帧。

本步骤中，本步骤中，通过检测观测信号数据中的静音期，进一步识别噪音。可通过任意语音活动检测(Voice Activity Detection，简称VAD)技术检测当前帧为噪声帧或非噪声帧。

检测当前帧是否为噪声帧，对于噪声帧进入步骤702，否则进入步骤703。

步骤702、在当前帧是噪声帧的情况下，根据上一帧的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵，估计当前帧的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵。

在信号S(k)与V(k)满足不相关的条件下，根据表达式(35)－(38)可以得到各自的自相关矩阵，具体如下：

输入信号的自相关矩阵：

期望信号的自相关矩阵：

残留噪声信号的自相关矩阵：

输入信号、期望信号与残留噪声信号的自相关矩阵之间的关系：

一般情况下，的估计只在噪声帧进行。

根据和/>去估计/>如表达式(39)所示。

在n时刻的和/>需要根据在n-1时刻的/>和/>去估计，即当前帧的/>和/>需要根据上一帧来估计，如表达式(40)、(41)所示。

其中，λ₁和λ₂为遗忘系数。

步骤703、在所述当前帧是非噪声帧的情况下，根据上一帧的所述期望信号的自相关矩阵，估计当前帧的所述期望信号的自相关矩阵。

在图3所示的应用场景中，可根据表达式(34)估计当前帧的所述期望信号的自相关矩阵。

步骤603、根据各个所述声源的最终的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵，得到各个所述声源的权重向量。

本步骤中，由频域参数化多通道维纳滤波可以推出，根据表达式(42)计算权重向量：

其中，长度为M，对应参考麦克风为1，其余都为0。β为可调参数，将β值设置越高可获得越好的噪声去除效果，将将β值设置越低对语音信号的还原度越高。

步骤604、根据各个所述声源的所述输入信号的共轭转置矩阵和所述权重向量，得到各个所述声源的波束成形估计信号。

本步骤中，根据表达式(43)，得到各个声源的波束成形估计信号：

Z_p(k)＝Y(k)^HH(k)，p＝1,2 (43)

在图3所示应用场景下，可得到声源s1的波束成形估计信号Z₁(k)和声源s2的波束成形估计信号Z₂(k)。通过波束成形，对盲源分离得到的后验域估计数据进行了进一步的降噪处理。

本公开的一示例性实施例还提供了一种声音信号识别方法，根据波束成形估计信号，得到各个所述声源的时域声源信号。可对所述各个声源的波束成形估计信号进行短时傅立叶逆变换后重叠相加，得到各个声源的时域声源信号。

在图3所示应用场景中，可通过表达式(44)计算时域声源信号：

本公开的一示例性实施例还提供了一种声音信号识别装置，其结构如图8所示，包括：

原始数据获取模块801，用于获取至少两个采集点分别对至少两个声源采集的原始观测数据；

第一降噪模块802，用于对所述原始观测数据进行第一级降噪处理，得到后验域估计数据；

信号映射模块803，用于根据所述后验域估计数据，得到各个声源的信号分量；

第二降噪模块804，用于分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号；

增强信号输出模块805，用于根据所述波束成形估计信号，得到各个所述声源的时域声源信号。

进一步的，所述第一降噪模块802的结构如图9所示，包括：

矩阵初始化子模块901，用于初始化各个频点的分离矩阵及各个声源在各个频点的加权协方差矩阵，所述分离矩阵的行数和列数均为声源的数量；

观测信号矩阵构建子模块902，用于求取各个采集点处的时域信号，并根据所述时域信号对应的频域信号构建观测信号矩阵；

先验频域求取子模块903，用于根据上一帧的分离矩阵和所述观测信号矩阵，求取当前帧各个声源的先验频域估计；

协方差矩阵更新子模块904，用于根据所述先验频域估计更新所述加权协方差矩阵；

分离矩阵更新子模块905，用于根据更新后的所述加权协方差矩阵，更新所述分离矩阵；

校正子模块906，用于校正更新后的所述分离矩阵；

后验域求取子模块907，用于根据校正后的所述分离矩阵，对所述原始观测数据进行分离，将分离得到的各个声源的后验域估计数据。

进一步的，所述先验频域求取子模块903，用于根据上一帧的分离矩阵对所述观测信号矩阵进行分离，得到当前帧各个声源的先验频域估计。

进一步的，所述协方差矩阵更新子模块904，用于根据所述观测信号矩阵及所述观测信号矩阵的共轭转置矩阵，更新所述加权协方差矩阵。

进一步的，所述分离矩阵更新子模块905的结构如图10所示，包括：

特征值计算子模块1001，用于根据各个声源的加权协方差矩阵，计算各个声源的特征向量；

更新子模块1002，用于根据所述特征向量，分别更新各个声源的分离矩阵。

进一步的，所述校正子模块906，用于根据所述分离矩阵的逆矩阵的对角阵，对所述分离矩阵进行频谱幅度解模糊处理，以校正所述分离矩阵的频谱畸变。

进一步的，所述信号映射模块803，用于根据所述后验域估计数据，得到各个声源在波束成形滤波器的各通道中的信号分量，所述信号分量包括期望信号和残留噪声信号。

进一步的，所述第二降噪模块804的结构如图11所示，包括：

输入信号构建子模块1101，用于根据各个所述声源的信号分量，确定各个所述声源的输入信号；

自相关矩阵估算子模块1102，用于分别对各个所述声源的所述输入信号逐帧进行如步骤一至二的处理：

步骤一、检测当前帧为噪声帧或非噪声帧，

权重向量计算子模块1103，用于根据各个所述声源的最终的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵，得到各个所述声源的权重向量；

波束成形估计信号获取子模块1104，用于根据各个所述声源的所述输入信号的共轭转置矩阵和所述权重向量，得到各个所述声源的波束成形估计信号。

上述装置可集成于智能终端设备或远程运算处理平台，也可将部分功能模块集成于智能终端设备而部分功能模块集成于远程运算处理平台，由智能终端设备和/或远程运算处理平台实现相应功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种用于声音信号识别的装置1200的框图。例如，装置1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图12，装置1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电力组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)的接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制装置1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1206为装置1200的各种组件提供电力。电力组件1206可以包括电源管理***，一个或多个电源，及其他与为装置1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口1212为处理组件1202和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为装置1200提供各个方面的状态评估。例如，传感器组件1214可以检测到设备1200的打开/关闭状态，组件的相对定位，例如所述组件为装置1200的显示器和小键盘，传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变，用户与装置1200接触的存在或不存在，装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由装置1200的处理器1220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种声音信号识别方法，所述方法包括：

根据所述后验域估计数据，得到各个声源的信号分量；

图13是根据一示例性实施例示出的一种用于声音信号识别的装置1300的框图。例如，装置1300可以被提供为一服务器。参照图13，装置1300包括处理组件1322，其进一步包括一个或多个处理器，以及由存储器1332所代表的存储器资源，用于存储可由处理组件1322的执行的指令，例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1322被配置为执行指令，以执行上述方法。

装置1300还可以包括一个电源组件1326被配置为执行装置1300的电源管理，一个有线或无线网络接口1350被配置为将装置1300连接到网络，和一个输入输出(I/O)接口1358。装置1300可以操作基于存储在存储器1332的操作***，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本公开提供了一种声音信号识别方法及装置，获取至少两个采集点分别对至少两个声源采集的原始观测数据，然后对所述原始观测数据进行第一级降噪处理，得到后验域估计数据，然后根据所述后验域估计数据，得到后验域估计数据，再根据所述后验域估计数据，得到各个声源的信号分量，分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号，最后根据所述波束成形估计信号，得到各个所述声源的时域声源信号。对原始观测数据进行盲源分离得到后验域估计数据后，再通过波束增强进一步提升信噪比以突出信号，解决了强干扰低信噪比场景下声源定位准确率低、语音识别质量较差的问题，实现了高效、抗干扰能力强语音信号识别。

通过基于盲源分离和波束形成的联合增强方案，将基于独立向量分析的盲源分离和基于多通道维纳滤波的波束形成联合处理，进一步去除残留噪声，大大提高了算法的降噪性能，提升了语音质量，减少噪声对声音信号识别的影响。

本公开提供的技术方案可用于以麦克风作为声音采集点设备的装置，可用于两个及两个以上采集点构成的声音采集点阵列，如麦克风阵列等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种声音信号识别方法，其特征在于，包括：

基于盲源分离，对所述原始观测数据进行第一级降噪处理，得到后验域估计数据；

根据所述后验域估计数据，得到各个声源的信号分量；

通过PMWF滤波，分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号；

2.根据权利要求1所述的声音信号识别方法，其特征在于，对所述原始观测数据进行第一级降噪处理，得到后验域估计数据的步骤包括：

根据所述先验频域估计更新所述加权协方差矩阵；

根据更新后的所述加权协方差矩阵，更新所述分离矩阵；

校正更新后的所述分离矩阵；

3.根据权利要求2所述的声音信号识别方法，其特征在于，根据上一帧的分离矩阵和所述观测信号矩阵，求取当前帧各个声源的先验频域估计的步骤包括：

4.根据权利要求2所述的声音信号识别方法，其特征在于，根据所述先验频域估计更新所述加权协方差矩阵的步骤包括：

5.根据权利要求2所述的声音信号识别方法，其特征在于，根据更新后的所述加权协方差矩阵，更新所述分离矩阵的步骤包括：

根据所述特征向量，分别更新各个声源的分离矩阵。

6.根据权利要求2所述的声音信号识别方法，其特征在于，校正更新后的所述分离矩阵的步骤包括：

7.根据权利要求1所述的声音信号识别方法，其特征在于，根据所述后验域估计数据，得到各个声源的信号分量的步骤包括：

8.据权利要求7所述的声音信号识别方法，其特征在于，分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号的步骤包括：

步骤一、检测当前帧为噪声帧或非噪声帧，

9.根据权利要求8所述的声音信号识别方法，其特征在于，所述根据所述波束成形估计信号，得到各个所述声源的时域声源信号的步骤包括：

10.一种声音信号识别装置，其特征在于，包括：

第一降噪模块，用于基于盲源分离，对所述原始观测数据进行第一级降噪处理，得到后验域估计数据；

第二降噪模块，用于通过PMWF滤波，分别对各个所述声源的信号分量进行第二级降噪处理，得到波束成形估计信号；

11.根据权利要求10所述的声音信号识别装置，其特征在于，所述第一降噪模块包括：

校正子模块，用于校正更新后的所述分离矩阵；

12.根据权利要求11所述的声音信号识别装置，其特征在于，

所述先验频域求取子模块，用于根据上一帧的分离矩阵对所述观测信号矩阵进行分离，得到当前帧各个声源的先验频域估计。

13.根据权利要求11所述的声音信号识别装置，其特征在于，

所述协方差矩阵更新子模块，用于根据所述观测信号矩阵及所述观测信号矩阵的共轭转置矩阵，更新所述加权协方差矩阵。

14.根据权利要求11所述的声音信号识别装置，其特征在于，所述分离矩阵更新子模块包括：

更新子模块，用于根据所述特征向量，分别更新各个声源的分离矩阵。

15.根据权利要求11所述的声音信号识别装置，其特征在于，

所述校正子模块，用于根据所述分离矩阵的逆矩阵的对角阵，对所述分离矩阵进行频谱幅度解模糊处理，以校正所述分离矩阵的频谱畸变。

16.根据权利要求10所述的声音信号识别装置，其特征在于，

所述信号映射模块，用于根据所述后验域估计数据，得到各个声源在波束成形滤波器的各通道中的信号分量，所述信号分量包括期望信号和残留噪声信号。

17.据权利要求16所述的声音信号识别装置，其特征在于，所述第二降噪模块包括：

步骤一、检测当前帧为噪声帧或非噪声帧，

18.根据权利要求17所述的声音信号识别装置，其特征在于，

所述增强信号输出模块，用于对所述各个声源的波束成形估计信号进行短时傅立叶逆变换后重叠相加，得到各个声源的时域声源信号。

19.一种计算机装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据所述后验域估计数据，得到各个声源的信号分量；

20.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种声音信号识别方法，所述方法包括：

根据所述后验域估计数据，得到各个声源的信号分量；