CN113077808A

CN113077808A - 一种语音处理方法、装置和用于语音处理的装置

Info

Publication number: CN113077808A
Application number: CN202110303349.2A
Authority: CN
Inventors: 崔国辉
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-07-06
Anticipated expiration: 2041-03-22
Also published as: WO2022198820A1; CN113077808B; EP4310841A1; US20230206937A1

Abstract

本发明实施例提供了一种语音处理方法、装置和用于语音处理的装置,应用于终端设备，所述终端设备设置有至少两个麦克风。其中的方法包括：将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号；将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号；基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号。本发明实施例可以优化语音去噪效果，进而在环境复杂多变、噪音或者干扰较大的情况下，提高终端设备的语音识别准确率。

Description

一种语音处理方法、装置和用于语音处理的装置

技术领域

本发明涉及智能控制技术领域，尤其涉及一种语音处理方法、装置和用于语音处理的装置。

背景技术

随着语音识别技术的日益成熟，市场中出现越来越多的智能设备，例如智能音箱、智能电视等，这些智能设备基于语音识别技术，为用户提供更便捷的交互方式。

智能设备通过语音识别技术可以把用户说话的声音转换成文字，进而通过分析文字理解用户发出的指令。通常，在比较安静或者高信噪比的环境下，智能设备可以准确识别用户的语音。但是实际应用中，用户所处的环境复杂多变，噪音或者干扰往往会影响智能设备进行语音识别的准确率，导致智能设备语音识别噪音过大，识别效果受到影响。

发明内容

本发明实施例提供一种语音处理方法、装置和用于语音处理的装置，可以提高智能进行设备语音识别的准确率。

为了解决上述问题，本发明实施例公开了一种语音处理方法，应用于终端设备，所述终端设备设置有至少两个麦克风，所述方法包括：

将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号；

将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号；

基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号。

另一方面，本发明实施例公开了一种语音处理装置，应用于终端设备，所述终端设备设置有至少两个麦克风，所述装置包括：

粗分离模块，用于将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号；

盲分离处理模块，用于将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号；

自适应噪音消除处理模块，用于基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号。

再一方面，本发明实施例公开了一种用于语音处理的装置，应用于终端设备，所述终端设备设置有至少两个麦克风，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语音处理方法。

本发明实施例包括以下优点：

本发明实施例的语音处理方法可应用于设置有至少两个麦克风的终端设备。首先，利用终端设备的两个或者以上的麦克风可以形成差分阵列，实现对语音信号和噪音信号的粗分离。具体地，将至少两个麦克风接收到的信号进行求和处理，可以在说话人前方形成波束，主要接收到说话人的语音，对说话人侧后方的噪音形成一定抑制，可以得到一路以语音为主的信号(第一路信号)。将至少两个麦克风接收到的信号进行求差处理，可以在说话人侧后方形成波束，主要接收说话人侧后方的噪音或者干扰，可以得到一路以噪声为主的信号(第二路信号)。接下来，基于盲分离技术对粗分离得到的第一路信号和第二路信号进行进一步分离，可以得到更加精准的语音信号和噪音信号。最后，基于盲分离得到的语音信号和噪音信号，进行自适应噪音消除处理，可以得到消除噪音的目标语音信号。本发明实施例利用差分麦克风阵列技术，结合盲分离技术和自适应噪音消除技术，对至少两个麦克风接收到的信号进行粗分离、进一步分离、以及自适应噪音消除三级处理，使得分离得到的语音信号和噪音信号更加精准，进而可以提高消除语音信号中噪音或者干扰的效率和精准度。此外，相较于已有的降噪算法，本发明实施例利用差分麦克风阵列技术，对至少两个麦克风接收到的信号进行粗分离，使得粗分离过程对噪音或者干扰的方向不敏感，可以提高去噪性能的鲁棒性，优化语音去噪效果，进而在环境复杂多变、噪音或者干扰较大的情况下，可以提高终端设备的语音识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种语音处理方法实施例的步骤流程图；

图2是本发明的一种对三个麦克风的信号进行求差处理的流程示意图；

图3是本发明的一种自适应噪音消除处理模块的信号流入示意图；

图4是本发明的一种语音处理装置实施例的结构框图；

图5是本发明的一种用于语音处理的装置800的框图；

图6是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种语音处理方法实施例的步骤流程图，应用于终端设备，所述终端设备设置有至少两个麦克风，所述方法具体可以包括如下步骤：

步骤101、将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号；

步骤102、将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号；

步骤103、基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号。

本发明实施例提供的语音处理方法可应用于终端设备，所述终端设备具有至少两个麦克风，可用于采集声音信号，所述终端设备包括但不限于：耳机、录音笔、家居智能终端(包括：空调、冰箱、电饭煲、热水器等)，商务智能终端(包括：可视电话、会议桌面智能终端等)，可穿戴设备(包括智能手表、智能眼镜等)，金融智能终端机，以及智能手机、平板电脑、个人数字助理(personal digital assistant，PDA)、车载设备、计算机等。

为便于描述，本发明实施例以所述终端设备为耳机为例进行说明，所述耳机具有至少两个麦克风。

本发明实施例的语音处理方法包括三级分离模块，第一级分离模块通过对至少两个麦克风接收到的信号进行求和处理以及求差处理，得到第一路信号和第二路信号，实现对语音信号和噪音信号的粗分离。第二级分离模块通过盲分离技术，对第一级分离模块提取的第一路信号和第二路信号进行进一步分离处理，得到语音信号和噪音信号。第三级分离模块基于第二级分离模块分离得到的噪音信号，对分离得到的语音信号进行自适应噪音消除处理，得到最终的目标语音信号。

本发明实施例首先对终端设备的至少两个麦克风接收到的信号进行初步提取。具体地，将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号。其中，第一路信号为说话人语音为主的信号，第二路信号为噪音为主的信号。

以两个麦克风为例，通常耳机的两个麦克风中有一个麦克风靠近说话人的嘴部，本发明实施例将两个麦克风中靠近说话人嘴部的麦克风称为第一麦克风，将另一个麦克风称为第二麦克风。本发明实施例用第一麦克风接收到的信号加上第二麦克风接收到的信号，此时在说话人前方(端射方向)形成波束，主要接收到说话人的语音，对说话人侧后方的噪音形成一定抑制，因此，将两个麦克风接收到的信号进行求和处理可以得到一路以语音为主的信号(第一路信号)。

用第二麦克风接收到的信号减去第一麦克风接收到的信号，此时在说话人后方形成波束，主要接收说话人后方的噪音或者干扰，因此，将两个麦克风接收到的信号进行求差处理可以得到一路以噪声为主的信号(第二路信号)。

通过步骤101的初步提取，可以得到一路以说话人语音为主的信号(第一路信号)以及一路以噪音为主的信号(第二路信号)。可以理解的是，通过提取第一路信号和第二路信号，本发明实施例实现了对语音信号和噪音信号的粗分离。第一路信号是以说话人语音为主的信号，其中仍然包含部分噪音信号；第二路信号是以噪音为主的信号，其中仍然包含部分语音信号。

需要说明的是，对于两个以上麦克风的情况，提取第一路信号的方式和两个麦克风相同，提取第二路信号的方式和两个麦克风略有不同。

在本发明的一种可选实施例中，所述方法还可以包括：将所述至少两个麦克风接收到的信号进行相位对齐；

步骤101所述将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号，具体可以包括：

将相位对齐后的所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将相位对齐后的所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号。

在实际应用中，由于终端设备的每个麦克风的位置不同，因此每个麦克风接收到的信号存在时间差，也即，每个麦克风接收到的信号相位是不对齐的。直接对多个麦克风接收到的信号进行求和处理或者求差处理，虽然可以在一定程度上降低白噪声，但是，如果在相位不对齐的情况下直接进行求差处理，可能会造成目标语音信号泄露到噪音为主的那路信号，将影响第二路信号的准确性，进而影响最终的降噪效果。因此，本发明实施例在将至少两个麦克风接收到的信号进行求和处理以及求差处理之前，将所述至少两个麦克风接收到的信号进行相位对齐，得到相位对齐后的所述至少两个麦克风接收到的信号，进而将相位对齐后的所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将相位对齐后的所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号，以提高提取第一路信号和第二路信号的精准度，进而提高对语音信号降噪的效果。

本发明实施例通过将至少两个麦克风接收到的信号进行求和处理以及求差处理，无需估计不同麦克风接收信号的时间差，可以简化降噪处理的操作步骤，得到的第一路信号和第二路信号可以作为后续进一步去噪的辅助估计，以提高最终的降噪效果。

在步骤101所述的粗分离阶段，将两个麦克风接收到的信号进行求和处理与将两个以上麦克风接收到的信号进行求和处理的过程相同，下面分别说明将两个麦克风接收到的信号进行求差处理与对两个以上麦克风接收到的信号进行求差处理的具体过程。

在本发明的一种可选实施例中，所述终端设备设置有两个麦克风，步骤101中所述将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号，包括：

步骤S11、在所述两个麦克风中确定第一麦克风和第二麦克风；

步骤S12、将所述第二麦克风接收到的每帧信号减去所述第一麦克风接收到的每帧信号，得到第二路信号。

在终端设备设置有两个麦克风的情况下，在所述两个麦克风中确定第一麦克风和第二麦克风。其中，第一麦克风为两个麦克风中靠近说话人嘴部的麦克风，第二麦克风为两个麦克风中远离说话人嘴部的麦克风。两个麦克风位于一条直线上。

在具体实施中，可选地，首先对第一麦克风接收到的信号和第二麦克风接收到的信号进行相位对齐操作，得到相位对齐后的两个麦克风的信号。然后对相位对齐后的两个麦克风的信号进行求和处理，得到第一路信号，形成对白噪声的抑制。对相位对齐后的两个麦克风的信号进行求差处理，具体地，用第二麦克风接收到的信号减去第一麦克风接收到的信号，可以得到第二路信号。

进一步地，本发明实施例对终端设备的每个麦克风接收到的信号以帧为单位进行处理，以对每个麦克风接收到的信号进行实时处理，提高处理的实时性和精准度。具体地，将所述第二麦克风接收到的每帧信号减去所述第一麦克风接收到的每帧信号，可以得到第二路信号。

在本发明的一种可选实施例中，所述终端设备设置有n个麦克风，n大于2，步骤101中所述将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号，包括：

步骤S21、将第i个麦克风接收到的当前帧信号减去第i-1个麦克风接收到的当前帧信号，得到n-1路帧信号，i的取值为1至n；

步骤S22、将所述n-1路帧信号分别与参考信号y(n)进行自适应滤波处理，得到处理后的n-1路帧信号，其中，y(n)＝yc(n)-N(n)，yc(n)为所述n个麦克风接收到的上一帧信号的和，N(n)为上一帧输出的第二路帧信号；

步骤S23、将所述处理后的n-1路帧信号求和，得到当前帧输出的第二路帧信号；

步骤S24、在所述n个麦克风接收到的所有帧信号处理完成之后，得到第二路信号。

在终端设备具有两个以上麦克风的情况下，可选地，首先将所有麦克风接收到的信号进行相位对齐操作，得到相位对齐后的所有麦克风的信号。然后将相位对齐后的所有麦克风的信号进行求和处理，得到第一路信号，形成对白噪声的抑制。将相位对齐后的所有麦克风的信号进行求差处理，具体地，将相位对齐后的所有麦克风信号的每一帧执行如下操作：将第i个麦克风接收到的当前帧信号减去第i-1个麦克风接收到的当前帧信号，得到n-1路帧信号，i的取值为1至n；将所述n-1路帧信号分别与参考信号y(n)进行自适应滤波处理，得到处理后的n-1路帧信号；将所述处理后的n-1路帧信号求和，得到当前帧输出的第二路帧信号。其中，参考信号y(n)＝yc(n)-N(n)，yc(n)为所述n个麦克风接收到的上一帧信号的和，N(n)为上一帧输出的第二路帧信号，本发明实施例利用上一帧的处理结果计算当前帧的参考信号y(n)，用y(n)更新自适应滤波器。

需要说明的是，在处理第一帧信号时，由于还未产生上一帧的处理结果，因此，可以设置一个初始参考信号y(n)，在第一帧信号处理完成之后，在处理第二帧信号时，即可用第一帧计算得到的y(n)更新自适应滤波器。同样地，在处理第三帧信号时，即可用第二帧计算得到的y(n)更新自适应滤波器，以此类推，直到最后一帧信号处理完成，可以得到完整的第二路信号。

本发明实施例对求差处理过程中采用的自适应滤波器的种类不做限制，例如可以为NLMS(Normalized Least Mean Square，归一化最小均方自适应滤波器)。

下面以三个麦克风为例，说明本发明实施例对终端设备的三个麦克风接收到的信号进行求差处理的具体过程。参照图2，示出了本发明实施例的一种对三个麦克风的信号进行求差处理的流程示意图。如图2所示，三个麦克风分别为麦克风1、麦克风2、麦克风3。

首先对麦克风1、麦克风2、麦克风3接收到的信号进行相位对齐，然后对相位对齐后的三个麦克风的信号相加可以得到第一路信号，形成对白噪声的抑制，以及对相位对齐后的三个麦克风的信号进行求差。求差过程具体包括：用麦克风2的信号减去麦克风1的信号，得到信号a；用麦克风3的信号减去麦克风2的信号，得到信号b。将信号a和信号b与参考信号y(n)进行自适应滤波处理，得到信号a’和信号b’；将信号a’和信号b’相加得到第二路信号。

如图2所示，在具体实施例中，对于第一帧信号可以执行如下操作：先进行自适应滤波处理(第一次计算时自适应滤波器有初始状态)，计算出N(n)；然后进行求和计算，得到yc(n)，yc(n)和N(n)相减后得到y(n)；接下来利用计算得到的y(n)更新自适应滤波器。此时完成第一帧信号的求差处理，得到第一帧输出的第二路帧信号。然后对后面的帧信号依次按照上面的步骤进行处理，在处理第二帧信号时，可以参考第一帧信号的处理结果，在处理第三帧信号时，可以参考第二帧信号的处理结果，以此类推，直到最后一帧信号处理完成之后，可以得到完整的第二路信号。

通过提取第一路信号和第二路信号，本发明实施例实现了对语音信号和噪音信号的粗分离。在提取得到第一路信号和第二路信号之后，可以将所述第一路信号和所述第二路信号进行盲分离处理，以将语音信号和噪音信号进行进一步的分离，得到更精准的语音信号和噪音信号。

其中，盲分离处理是指在源信号无法准确获知的情况下，从采集的混合信号中分离出各个源信号(如说话人的语音信号以及噪音信号)的技术。由于耳机中的麦克风通常具有孔径较小的特点，且麦克风的数量通常较少，因此，在比较嘈杂的环境下，采集的声音信号中包含大量的噪音信号，导致语音信号的质量较差。为了提高语音信号的质量，本发明实施例将提取的第一路信号和第二路信号分别进行盲分离处理，将第一路信号进行盲分离处理可以进一步降低第一路信号中的噪音信号，得到语音信号，该语音信号中包含更少的噪音；将第二路信号进行盲分离处理，可以进一步降低第二路信号中的语音信号，得到噪音信号，该噪音信号中包含更少的语音，为后续进一步降噪处理提供基础。

在本发明的一种可选实施例中，步骤102所述将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号，包括：

将所述第一路信号中的每帧信号采用独立向量分析盲分离算法进行盲分离处理，得到语音信号，以及将所述第二路信号中的每帧信号采用独立向量分析盲分离算法进行盲分离处理，得到噪音信号。

ICA(Independent Component Correlation Algorithm，独立成分分析)是指当假设源信号各分量间彼此统计独立，且没有时间结构时，在某一分离准则下通过对神经网络权值的反馈调整，使得变换后信号的不同分量之间的相依性最小，也即输出达到尽可能的独立。ICA的目的是通过线性变换使得观测信号的各个分量的统计独立性最大化。如果源信号之间具有统计独立性，那么可以通过ICA实现信号的分离。但是ICA不可避免的问题就是分离出来的信号由于其排序不一致导致的信号混杂。因此，本发明实施例采用IVA(Independent Vector Analysis，独立向量分析)盲分离算法，IVA是一种扩展的ICA算法，IVA考虑到了属于相同源的频率分量之间的相关性，将每一帧的所有频点统一进行分离计算，有效避免了排序模糊性问题。

本发明实施例的第二级分离模块采用IVA(独立向量分析技术)将第一路信号进行盲分离处理，得到语音信号，以及将第二路信号进行盲分离处理，得到噪音信号。本发明实施例采用IVA盲分离技术对噪音的方向并不敏感，对处于说话人前方的噪音仍然能达到鲁棒的分离效果，可以进一步提高语音降噪的效果。

需要说明的是，本发明实施例对采用的盲分离算法的种类不做限制，例如还可以采用PCA(Principal Component Analysis，主成分分析)的盲分离算法等。

在本发明的一种可选实施例中，步骤103所述基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号，包括：

将所述噪音信号作为参考信号，以及将所述语音信号作为目标信号，基于递归最小二乘法RLS的自适应滤波算法对所述语音信号进行自适应噪音消除处理，得到目标语音信号。

本发明实施例的自适应噪音消除处理采用RLS(Recursive Least Squares，递归最小二乘法)技术，RLS算法本身具有快速收敛的特点。

具体地，RLS自适应滤波算法如下：

1、初始化：

P(0)＝δ^-1I，δ是很小的正常数，I是单位阵

W(0)＝0

2、对于n＝1,2,…,N，进行如下计算：

e(n)＝d(n)-W^T(n-1)X(n) (2)

W(n)＝W(n-1)+G(n)e(n) (3)

P(n)＝λ^-1P(n-1)-λ^-1G(n)X^T(n)P(n-1) (4)

s(n)＝d(n)-W^T(n)X(n) (5)

其中，n代表帧号，W代表自适应滤波器系数向量，G代表增益向量。X代表盲分离输出的那路噪音信号。(3)式中d表示盲分离输出的那路语音信号。s(n)是最终输出的目标语音信号。遗忘因子λ可以选择一个常数如0.99。

然而，RLS自适应滤波算法的计算量较大，对于耳机等计算能力受限的终端设备，计算压力较大，因此，为了减小自适应滤波处理的计算量，使得本发明实施例的语音处理方法可以适用于不同计算能力的终端设备，本发明实施例引入话音激活检测模块来降低RLS自适应滤波算法的计算量。

在本发明的一种可选实施例中，步骤102所述将所述第一信号和所述第二信号进行盲分离处理，得到语音信号和噪音信号之后，所述方法还可以包括：

步骤S31、将所述语音信号中的每帧信号进行话音激活检测；

步骤S32、将话音激活检测结果为话音信号的帧信号设置话音信号标志位；

步骤103中所述将所述语音信号进行自适应噪音消除处理，包括：将所述语音信号中具有话音信号标志位的帧信号进行自适应噪音消除处理。

话音激活检测(VAD，Voice Activity Detection)，目的是检测当前语音信号中是否包含话音信号存在，即对输入信号进行判断，将话音信号与各种背景噪声信号区分出来。

在具体实施中，麦克风接收到的声音信号中并不是每一帧信号都包含说话人的话音信号，如果对每一帧信号都进行自适应噪音消除处理，不仅导致增加额外的计算成本，而且影响语音处理的效率。因此，本发明实施例对盲分离处理得到的语音信号进行话音激活检测，以检测当前帧信号是否包含话音信号，仅对包含话音信号的帧信号进行自适应噪音消除处理，以减少计算成本，提高语音处理的效率。

在本发明实施例中，在将第二级分离模块分离得到的语音信号和噪音信号输入自适应噪音消除模块(第三级分离模块)之前，先将第二级分离模块分离得到的语音信号输入话音激活检测模块，话音激活检测模块负责对输入的语音信号以帧为单位检测每一帧信号是否包含话音信号，对话音激活检测结果为话音信号的帧信号设置话音信号标志位，然后将每一帧信号的话音激活检测结果传给自适应噪音消除模块，自适应噪音消除模块根据话音激活检测结果是否包含话音信号标志位决定是否进行自适应噪音消除处理。

话音激活检测模块可以使用基于语音时域能量算法，设置阈值theshold，计算当前帧信号的能量，比如当前帧信号x有N个点,n＝1,2,3,...,N，则当前帧信号的能量enery＝sum(x[n]*x[n])，也即，把一帧所有点的能量相加求和。如果enery>theshold，则确定当前帧信号包含话音信号，可以对当前帧信号设置话音信号标志位，否则确定当前帧信号不包含话音信号，不对当前帧信号设置话音信号标志位。

在实际应用中，由于自适应滤波系数的更新需要一段的收敛时间，因此在自适应噪音消除处理开始之前的预设时间段(如前20s)内，话音激活检测模块可以先不工作，这段时间内自适应滤波器会一直更新。从预设时间段(20s)之后，自适应噪音消除处理是否进行开始依赖于话音信号标志位。由此既可以节约处理时间、降低功耗，又可以对自适应滤波系数进行更精准的更新，提高算法的鲁棒性。

可选地，可以采用活动窗策略，滑动窗可以存储过去预设帧数(如5帧到10帧)的话音信号标志位以及当前帧的话音信号标志位，只有在滑动窗内的所有帧信号全都具有话音信号标志位，也即在滑动窗内的所有帧信号均包含话音信号的情况下，才进行自适应噪音消除处理，更新自适应滤波系数。

本发明实施例基于盲分离技术，结合差分麦克风阵列技术和自适应滤波技术，可以快速消除语音中的噪音或者干扰，相较于已有算法，本发明实施例对噪音或者干扰的方向不敏感，去噪性能更加鲁棒。

一个示例中，以两个麦克风为例，首先将第一麦克风接收到的信号和第二麦克风接收到的信号进行相位对齐操作，得到相位对齐后的两个麦克风的信号。将相位对齐后的两个麦克风的信号进行求和处理，得到第一路信号，以及用第二麦克风接收到的信号减去第一麦克风接收到的信号，得到第二路信号。假设两个麦克风接收到的信号包含女孩A的语音信号和男孩B的语音信号，其中，男孩B的语音信号为需要提取的目标说话人的语音信号。通过第一级分离模块的处理，得到以男孩语音信号为主的第一路信号，以及以女孩语音信号为主的第二路信号。在该示例中，女孩语音信号相对于男孩语音信号可以作为噪音信号来处理。

然后，将男孩语音信号为主的第一路信号和女孩语音信号为主的第二路信号输入盲分离处理模块进行盲分离处理。经过盲分离处理模块的处理，第一路信号中的女孩语音信号进一步降低，得到语音信号；经过盲分离处理模块的处理，第二路信号中的男孩语音信号进一步降低，得到噪音信号。

接下来，将盲分离处理模块输出的语音信号和噪音信号输入自适应噪音消除处理模块，并且将盲分离处理模块输出的语音信号输入话音激活检测模块进行话音激活检测，话音激活检测模块将每一帧信号的语音激活检测结果输入自适应噪音消除处理模块。自适应噪音消除处理模块根据话音激活检测模块输出的语音激活检测结果是否包括话音信号标志位决定是否对当前帧进行自适应噪音消除处理。

参照图3，为自适应噪音消除处理模块的信号流入示意图。盲分离处理模块输出的语音信号和噪音信号以及话音激活检测模块输出的每一帧信号的语音激活检测结果作为图4的输入，最终输出目标语音信号。

综上，本发明实施例的语音处理方法可应用于设置有至少两个麦克风的终端设备。首先，利用终端设备的两个或者以上的麦克风可以形成差分阵列，实现对语音信号和噪音信号的粗分离。具体地，将至少两个麦克风接收到的信号进行求和处理，可以在说话人前方形成波束，主要接收到说话人的语音，对说话人侧后方的噪音形成一定抑制，可以得到一路以语音为主的信号(第一路信号)。将至少两个麦克风接收到的信号进行求差处理，可以在说话人侧后方形成波束，主要接收说话人侧后方的噪音或者干扰，可以得到一路以噪声为主的信号(第二路信号)。接下来，基于盲分离技术对粗分离得到的第一路信号和第二路信号进行进一步分离，可以得到更加精准的语音信号和噪音信号。最后，基于盲分离得到的语音信号和噪音信号，进行自适应噪音消除处理，可以得到消除噪音的目标语音信号。本发明实施例利用差分麦克风阵列技术，结合盲分离技术和自适应噪音消除技术，对至少两个麦克风接收到的信号进行粗分离、进一步分离、以及自适应噪音消除三级处理，使得分离得到的语音信号和噪音信号更加精准，进而可以提高消除语音信号中噪音或者干扰的效率和精准度。此外，相较于已有的降噪算法，本发明实施例利用差分麦克风阵列技术，对至少两个麦克风接收到的信号进行粗分离，使得粗分离过程对噪音或者干扰的方向不敏感，可以提高去噪性能的鲁棒性，优化语音去噪效果，进而在环境复杂多变、噪音或者干扰较大的情况下，可以提高终端设备的语音识别准确率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图4，示出了本发明的一种语音处理装置实施例的结构框图，所述装置可应用于终端设备，所述终端设备设置有至少两个麦克风，所述装置可以包括：

粗分离模块401，用于将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号；

盲分离处理模块402，用于将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号；

自适应噪音消除处理模块403，用于基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号。

可选地，所述装置还包括：

相位对齐模块，用于将所述至少两个麦克风接收到的信号进行相位对齐；

所述粗分离模块，具体用于将相位对齐后的所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将相位对齐后的所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号。

可选地，所述终端设备设置有两个麦克风，所述盲分离处理模块，包括：

确定子模块，用于在所述两个麦克风中确定第一麦克风和第二麦克风；

第一相减子模块，用于将所述第二麦克风接收到的每帧信号减去所述第一麦克风接收到的每帧信号，得到第二路信号。

可选地，所述终端设备设置有n个麦克风，n大于2，所述盲分离处理模块，包括：

第二相减子模块，用于将第i个麦克风接收到的当前帧信号减去第i-1个麦克风接收到的当前帧信号，得到n-1路帧信号，i的取值为1至n；

自适应滤波子模块，用于将所述n-1路帧信号分别与参考信号y(n)进行自适应滤波处理，得到处理后的n-1路帧信号，其中，y(n)＝yc(n)-N(n)，yc(n)为所述n个麦克风接收到的上一帧信号的和，N(n)为上一帧输出的第二路帧信号；

求和子模块，用于将所述处理后的n-1路帧信号求和，得到当前帧输出的第二路帧信号；

迭代完成子模块，用于在所述n个麦克风接收到的所有帧信号处理完成之后，得到第二路信号。

可选地，所述盲分离处理模块，具体用于将所述第一路信号中的每帧信号采用独立向量分析盲分离算法进行盲分离处理，得到语音信号，以及将所述第二路信号中的每帧信号采用独立向量分析盲分离算法进行盲分离处理，得到噪音信号。

可选地，所述装置还包括：

话音激活检测模块，用于将所述语音信号中的每帧信号进行话音激活检测，并且将话音激活检测结果为话音信号的帧信号设置话音信号标志位；

所述自适应噪音消除处理模块，具体用于将所述语音信号中具有话音信号标志位的帧信号进行自适应噪音消除处理。

可选地，所述自适应噪音消除处理模块，具体用于将所述噪音信号作为参考信号，以及将所述语音信号作为目标信号，基于RLS的自适应滤波算法对所述语音信号进行自适应噪音消除处理，得到目标语音信号。

本发明实施例利用终端设备的两个或者以上的麦克风形成差分阵列，基于盲分离技术，结合差分麦克风阵列技术和自适应滤波技术，可以快速消除语音中的噪音或者干扰，相较于已有算法，本发明实施例对噪音或者干扰的方向不敏感，去噪性能更加鲁棒，优化语音去噪效果，进而在环境复杂多变、噪音或者干扰的情况下，提高终端设备的语音识别准确率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于语音处理的装置，应用于终端设备，所述终端设备设置有至少两个麦克风，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号；将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号；基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号。

图5是根据一示例性实施例示出的一种用于语音处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以语音处理装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的语音处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种语音处理方法，所述方法包括：将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号；将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号；基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号。

本发明实施例公开了A1、一种语音处理方法，应用于终端设备，所述终端设备设置有至少两个麦克风，包括：

A2、根据A1所述的方法，所述方法还包括：

将所述至少两个麦克风接收到的信号进行相位对齐；

所述将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号，包括：

A3、根据A1所述的方法，所述终端设备设置有两个麦克风，所述将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号，包括：

在所述两个麦克风中确定第一麦克风和第二麦克风；

将所述第二麦克风接收到的每帧信号减去所述第一麦克风接收到的每帧信号，得到第二路信号。

A4、根据A1所述的方法，所述终端设备设置有n个麦克风，n大于2，所述将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号，包括：

将第i个麦克风接收到的当前帧信号减去第i-1个麦克风接收到的当前帧信号，得到n-1路帧信号，i的取值为1至n；

将所述n-1路帧信号分别与参考信号y(n)进行自适应滤波处理，得到处理后的n-1路帧信号，其中，y(n)＝yc(n)-N(n)，yc(n)为所述n个麦克风接收到的上一帧信号的和，N(n)为上一帧输出的第二路帧信号；

将所述处理后的n-1路帧信号求和，得到当前帧输出的第二路帧信号；

在所述n个麦克风接收到的所有帧信号处理完成之后，得到第二路信号。

A5、根据A1所述的方法，所述将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号，包括：

A6、根据A1所述的方法，所述将所述第一信号和所述第二信号进行盲分离处理，得到语音信号和噪音信号之后，所述方法还包括：

将所述语音信号中的每帧信号进行话音激活检测；

将话音激活检测结果为话音信号的帧信号设置话音信号标志位；

所述将所述语音信号进行自适应噪音消除处理，包括：

将所述语音信号中具有话音信号标志位的帧信号进行自适应噪音消除处理。

A7、根据A1所述的方法，所述基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号，包括：

本发明实施例公开了B8、一种语音处理装置，应用于终端设备，所述终端设备设置有至少两个麦克风，所述装置包括：

B9、根据B8所述的装置，所述装置还包括：

B10、根据B8所述的装置，所述终端设备设置有两个麦克风，所述盲分离处理模块，包括：

B11、根据B8所述的装置，所述终端设备设置有n个麦克风，n大于2，所述盲分离处理模块，包括：

B12、根据B8所述的装置，所述盲分离处理模块，具体用于将所述第一路信号中的每帧信号采用独立向量分析盲分离算法进行盲分离处理，得到语音信号，以及将所述第二路信号中的每帧信号采用独立向量分析盲分离算法进行盲分离处理，得到噪音信号。

B13、根据B8所述的装置，所述装置还包括：

B14、根据B8所述的装置，所述自适应噪音消除处理模块，具体用于将所述噪音信号作为参考信号，以及将所述语音信号作为目标信号，基于RLS的自适应滤波算法对所述语音信号进行自适应噪音消除处理，得到目标语音信号。

本发明实施例公开了C15、一种用于语音处理的装置，应用于终端设备，所述终端设备设置有至少两个麦克风，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C16、根据C15所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

将所述至少两个麦克风接收到的信号进行相位对齐；

C17、根据C15所述的装置，所述终端设备设置有两个麦克风，所述将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号，包括：

在所述两个麦克风中确定第一麦克风和第二麦克风；

C18、根据C15所述的装置，所述终端设备设置有n个麦克风，n大于2，所述将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号，包括：

C19、根据C15所述的装置，所述将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号，包括：

C20、根据C15所述的装置，所述将所述第一信号和所述第二信号进行盲分离处理，得到语音信号和噪音信号之后，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

将所述语音信号中的每帧信号进行话音激活检测；

所述将所述语音信号进行自适应噪音消除处理，包括：

C21、根据C15所述的装置，所述基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号，包括：

将所述噪音信号作为参考信号，以及将所述语音信号作为目标信号，基于RLS的自适应滤波算法对所述语音信号进行自适应噪音消除处理，得到目标语音信号。

本发明实施例公开了D22、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A7中一个或多个所述的语音处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种用于语音处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，应用于终端设备，所述终端设备设置有至少两个麦克风，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述至少两个麦克风接收到的信号进行相位对齐；

3.根据权利要求1所述的方法，其特征在于，所述终端设备设置有两个麦克风，所述将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号，包括：

在所述两个麦克风中确定第一麦克风和第二麦克风；

4.根据权利要求1所述的方法，其特征在于，所述终端设备设置有n个麦克风，n大于2，所述将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述第一信号和所述第二信号进行盲分离处理，得到语音信号和噪音信号之后，所述方法还包括：

将所述语音信号中的每帧信号进行话音激活检测；

所述将所述语音信号进行自适应噪音消除处理，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号，包括：

8.一种语音处理装置，其特征在于，应用于终端设备，所述终端设备设置有至少两个麦克风，所述装置包括：

9.一种用于语音处理的装置，其特征在于，应用于终端设备，所述终端设备设置有至少两个麦克风，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中任一所述的语音处理方法。