CN115641867B

CN115641867B - 语音处理方法和终端设备

Info

Publication number: CN115641867B
Application number: CN202211289123.2A
Authority: CN
Inventors: 宋兵兵; 谭靖骞; 玄建永; 刘镇亿
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-11-14
Anticipated expiration: 2042-10-20
Also published as: CN115641867A

Abstract

本申请实施例提供了一种语音处理方法和终端设备，能够提升语音的清晰度，降低周围环境噪声的干扰，从而提高用户体验。上述方法包括：通过多个麦克风获取语音信号；基于多个麦克风中至少两个麦克风的语音信号，确定至少两个麦克风的语音信号之间的增益，至少两个麦克风包括主麦克风；利用上述至少两个麦克风的语音信号之间的增益对主麦克风的语音信号进行降噪处理，得到第一语音信号；将主麦克风的语音信号输入到训练好的卷积循环神经网络模型进行降噪处理，得到第二语音信号；将第一语音信号和第二语音信号在频域进行融合，得到目标语音信号。

Description

语音处理方法和终端设备

技术领域

本申请涉及终端技术领域，尤其涉及一种语音处理方法和终端设备。

背景技术

随着终端技术发展，终端设备上可以安装多个麦克风，通过多个麦克风获取语音，并采用语音处理方法对该多个麦克风的语音进行增强处理。多个麦克风可以组成麦克风阵列。目前，传统的语音处理方法是通过麦克风阵列语音增强模块对麦克风阵列接收模块接收到的语音进行增强，然后音视频联合语音增强模块利用语音和视频信号联合对语音进行二次增强处理，来达到语音增强的目的。由于该方案中所用模块较多，使得实际场景中的变量多，会导致收敛困难、模型开销大。

为了解决上述问题，目前还存在一种语音处理方法，该方法利用较少的模块将带噪声的语音先进行降噪处理，然后进行混响消除，来达到语音增强的目的。但是，该方法第一步的降噪处理会对混响语音有影响，进而影响到第二步的去混响效果，导致处理后的语音的清晰度不高，影响用户体验。

发明内容

本申请提供了一种语音处理方法和终端设备，能够提升语音的清晰度，降低周围环境噪声的干扰，从而提高用户体验。

第一方面，提供了一种语音处理方法，应用于包括多个麦克风的终端设备，包括：通过多个麦克风获取语音信号；基于多个麦克风中至少两个麦克风的语音信号，确定至少两个麦克风的语音信号之间的增益，至少两个麦克风包括主麦克风；利用至少两个麦克风的语音信号之间的增益对主麦克风的语音信号进行降噪处理，得到第一语音信号；将主麦克风的语音信号输入到训练好的卷积循环神经网络模型进行降噪处理，得到第二语音信号；将第一语音信号和第二语音信号在频域进行融合，得到目标语音信号。

本申请实施例的语音处理方法，终端设备通过多个麦克风获取语音信号，利用包括主麦克风的至少两个麦克风的语音信号得到的增益对主麦克风的语音信号进行降噪处理，并且，利用提前训练好的卷积循环神经网络(convolutional recurrent neuralnetwork，CRNN)模型对主麦克风的语音信号进行降噪处理，并将利用增益降噪处理后得到的语音信号(即上述第一语音信号)和利用模型降噪处理后得到的语音信号(即上述第二语音信号)在频域进行融合，得到目标语音信号。这样，终端设备得到的目标语音信号包括目标方向的目标人声信号，即本申请的语音处理方法可以抑制非目标方向的语音信号，并且可以抑制目标方向的非目标语音信号。因此，本申请实施例的语音处理方法能够提升用户语音的清晰度，降低周围环境噪声的干扰，从而提高用户体验。

示例性地，目标方向指的是目标语音信号对应的目标声源与终端设备的中心点的连线和垂直于终端设备的显示屏所在平面且经过终端设备的中心点的线之间的夹角对应的方向，非目标方向是指该夹角外的方向。

针对没有显示屏的终端设备，目标方向是指目标语音信号对应的目标声源与终端设备的中心点的连线和垂直于终端设备的任一平面且经过终端设备的中心点的线之间的夹角对应的方向，非目标方向是指该夹角外的方向，上述任一平面可以是预设的，本申请实施例对此不作限定。

结合第一方面，在第一方面的某些实现方式中，基于多个麦克风中至少两个麦克风的语音信号，确定至少两个麦克风的语音信号之间的增益，包括：对至少两个麦克风的语音信号进行傅里叶变换，得到至少两个麦克风频域上的语音信号；根据至少两个麦克风频域上的语音信号，得到至少两个麦克风频域上的语音信号的相关性参数；根据该相关性参数，得到至少两个麦克风频域上的语音信号的信噪比和方位角；根据该信噪比和该方位角，得到至少两个麦克风的语音信号的增益。

结合第一方面，在第一方面的某些实现方式中，信噪比和所述方位角α满足如下公式：

其中，表示频域上的语音信号的相关性参数的虚部，/>表示频域上的语音信号的相关性参数的实部，θ表示上述至少两个麦克风的语音信号中干扰声源与终端设备中心点的连线和上述至少两个麦克风的语音信号中目标声源与终端设备中心点的连线之间的夹角。

结合第一方面，在第一方面的某些实现方式中，至少两个麦克风频域上的语音信号的增益G(w,k)为：

其中，k为上述至少两个麦克风频域上的语音信号的帧索引，且k为正整数，L表示上述至少两个麦克风频域上的语音信号的频点个数，且L为正整数。

本申请实施例的语音处理方法，利用两个麦克风获取的语音信号得到的方位角，有指向性地抑制了非目标方向的语音信号，并且对目标方向的语音信号进行降噪处理，能够提升用户语音的清晰度，降低周围环境噪声的干扰，从而提高用户的体验。

结合第一方面，在第一方面的某些实现方式中，在将主麦克风的语音信号输入到训练好的卷积循环神经网络模型进行降噪处理之前，还包括：将已标定的语音信号输入到卷积循环神经网络模型，对该卷积循环神经网络模型进行训练。

本申请实施例的语音处理方法，通过将主麦克风的语音信号输入预先训练好的CRNN模型，利用CRNN模型对主麦克风语音信号进行降噪处理，可以抑制非目标语音信号，能够提升用户语音的清晰度，降低周围环境噪声的干扰，从而提高用户的体验。

结合第一方面，在第一方面的某些实现方式中，至少两个麦克风还包括副麦克风，还包括：确定主麦克风的语音信号和副麦克风的语音信号之间的相似度；根据该相似度，进行噪声概率估计，得到降噪滤波函数；利用该降噪滤波函数对主麦克风的语音信号进行降噪处理，得到第三语音信号；将第一语音信号和所述第二语音信号在频域进行融合，得到目标语音信号，包括：将第一语音信号、第二语音信号及第三语音信号在频域进行融合，得到目标语音信号。

结合第一方面，在第一方面的某些实现方式中，将第一语音信号和第二语音信号在频域进行融合，得到目标语音信号，包括：获取第一语音信号的频点的能量和第二语音信号的频点的能量；以帧为单位，将第一语音信号和第二语音信号中相同频点位置处频点的能量较小的频点作为目标频点；基于目标频点，合成目标语音信号。

应理解，将第一语音信号和第二语音信号在相同频点位置处能量较小的频点作为目标频点，利用目标频点所对应的函数值合成目标语音信号。若还包括第三语音信号，将第一语音信号、第二语音信号以及第三语音信号在相同频点位置处能量较小的频点作为目标频点，利用目标频点所对应的函数值合成目标语音信号。

第二方面，提供了一种终端设备，用于执行上述第一方面中任一种可能的实现方式中的方法。具体地，该终端设备包括用于执行上述第一方面中任一种可能的实现方式中的方法的模块。

在一种设计中，该终端设备可以包括执行上述第一方面中所描述的方法/操作/步骤/动作所一一对应的模块，该模块可以是硬件电路，也可是软件，也可以是硬件电路结合软件实现。

第三方面，提供了一种终端设备，包括：处理器、多个麦克风以及存储器，该处理器用于处理多个麦克风中获取的语音信号，并读取存储器中存储的指令，以执行上述第一方面中的任一种可能实现方式中的方法。

可选地，处理器为一个或多个，存储器为一个或多个。

可选地，存储器可以与处理器集成在一起，或者存储器与处理器分离设置。

在具体实现过程中，存储器可以为非瞬时性(non-transitory)存储器，例如只读存储器(read only memory，ROM)，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请实施例对存储器的类型以及存储器与处理器的设置方式不作限定。

上述第三方面中的终端设备可以是一个芯片，该处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于该处理器之外，独立存在。

第四方面，提供了一种计算机程序产品，计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当计算机程序被运行时，使得计算机执行上述第一方面中的任一种可能实现方式中的方法。

第五方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序(也可以称为代码，或指令)当其在计算机上运行时，使得计算机执行上述第一方面中的任一种可能实现方式中的方法。

附图说明

图1是本申请实施例提供的终端设备的结构示意图；

图2是本申请实施例提供的终端设备的软件结构框图；

图3是本申请实施例提供的手机的麦克风布局的示意图；

图4是本申请实施例提供的一种语音处理方法的示意性流程图；

图5是本申请实施例提供的另一种语音处理方法的示意性流程图；

图6是本申请实施例提供的另一种语音处理方法的示意性流程图；

图7是本申请实施例提供的另一种语音处理方法的示意性流程图；

图8是本申请实施例提供的视频通话场景中选择智能降噪模式的一种界面变化图；

图9是本申请实施例提供的视频通话场景中选择智能降噪模式的另一种界面变化图；

图10是本申请实施例提供的一种终端设备的示意性框图；

图11是本申请实施例提供的另一种终端设备的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

此外，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a、b和c中的至少一项(个)，可以表示：a，或b，或c，或a和b，或a和c，或b和c，或a、b和c，其中a，b，c可以是单个，也可以是多个。

为了能够更好地理解本申请实施例，下面对本申请实施例的终端设备的硬件结构进行介绍。

图1示出了终端设备100的结构示意图。

终端设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对终端设备100的具体限定。在本申请另一些实施例中，终端设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了***的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现终端设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等***器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现终端设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现终端设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为终端设备100充电，也可以用于终端设备100与***设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他终端设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端设备100的结构限定。在本申请另一些实施例中，终端设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过终端设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯***(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位***(global positioning system，GPS)，全球导航卫星***(global navigation satellite system，GLONASS)，北斗卫星导航***(beidounavigation satellite system，BDS)，准天顶卫星***(quasi-zenith satellitesystem，QZSS)和/或星基增强***(satellite based augmentation systems，SBAS)。

终端设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，终端设备100可以包括1个或N个显示屏194，N为大于1的正整数。

终端设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端设备100可以支持一种或多种视频编解码器。这样，终端设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行终端设备100的各种功能应用以及数据处理。

终端设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端设备100可以设置至少一个麦克风170C。在另一些实施例中，终端设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。终端设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，终端设备100根据压力传感器180A检测所述触摸操作强度。终端设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定终端设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定终端设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测终端设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，终端设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。终端设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当终端设备100是翻盖机时，终端设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测终端设备100在各个方向上(一般为三轴)加速度的大小。当终端设备100静止时可检测出重力的大小及方向。还可以用于识别终端设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。终端设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，终端设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。终端设备100通过发光二极管向外发射红外光。终端设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定终端设备100附近有物体。当检测到不充分的反射光时，终端设备100可以确定终端设备100附近没有物体。终端设备100可以利用接近光传感器180G检测用户手持终端设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。终端设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测终端设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。终端设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，终端设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，终端设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，终端设备100对电池142加热，以避免低温导致终端设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，终端设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备100可以接收按键输入，产生与终端设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过***SIM卡接口195，或从SIM卡接口195拔出，实现和终端设备100的接触和分离。终端设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时***多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端设备100中，不能和终端设备100分离。终端设备100的软件***可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android***为例，示例性说明终端设备100的软件结构。

图2是本申请实施例的终端设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android***分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和***库，以及内核层。

应用程序层可以包括一系列应用程序包。如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图***，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图***包括可视控件，例如显示文字的控件，显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

***库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子***进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图、图像渲染、合成和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层用于驱动硬件，使得硬件工作。内核层至少包含显示驱动，屏幕驱动、图像处理器(graphics processing unit，GPU)驱动、摄像头、以及传感器驱动等，本申请实施例对此不做限制。例如，屏幕驱动可以驱动屏幕亮屏或息屏。

本申请实施例涉及的终端设备为具有显示屏的设备，可以为手机、平板电脑、个人计算机(personal computer，PC)、智慧屏、人工智能(artificial intelligence，AI)音箱、耳机、车机设备以及智能手表等可穿戴终端设备，还可以是各种教学辅助工具(例如学习机、早教机)、智能玩具、便携式机器人、个人数字助理(personal digital assistant，PDA)、增强现实技术(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备等，也可以是具有移动办公功能的设备、具有智能家居功能的设备、具有影音娱乐功能的设备、支持智能出行的设备等。应理解，本申请的实施例对终端设备所采用的具体技术和具体设备形态不做限定。

下面，以终端设备为手机为例，先对本申请实施例的终端设备的麦克风的布局进行介绍。

图3是本申请实施例提供的手机的麦克风布局的示意图。在图3所示的手机300中，设有3个麦克风，分别是顶部麦克风、底部麦克风和背部麦克风。其中，顶部麦克风设置在手机300的顶部，底部麦克风设置在手机300的底部，背部麦克风设置在手机300的背部。

应理解，本申请实施例只是示例性地给出麦克风的个数和位置关系，本申请实施例对麦克风的具体个数和位置关系不作限定。

为了解决上述问题，本申请提供了一种语音处理方法和终端设备，通过将包括主麦克风的至少两个麦克风的语音信号得到的增益对主麦克风的语音信号进行降噪处理后的语音信号和CRNN模型降噪处理后的语音信号在频域进行融合，得到目标语音信号，能够提升语音的清晰度，降低周围环境噪声的干扰，从而提高用户的体验。

下面，结合图4至图9，对本申请实施例的语音处理方法进行介绍。

图4是本申请实施例提供的一种语音处理方法400的示意性流程图。该方法400可以应用于语音通话场景或视频通话场景，或者其他需要获取用户语音的场景。该方法400可以应用于上述终端设备，例如手机300，该方法400所涉及的终端设备的硬件结构可以如图1所述，该方法400所涉及的终端设备的软件结构可以如图2所示。

方法400包括下列步骤：

S401，通过多个麦克风获取语音信号。

应理解，终端设备设有多个麦克风，这样，终端设备获取到的语音信号包括上述多个麦克风中的每个麦克风分别获取到的语音信号。

示例性地，上述多个麦克风可以包括主麦克风和副麦克风，其中，主麦克风为距离用户较近的麦克风，能够获取到用户的语音信号，该语音信号中包含环境噪声信号，副麦克风为距离用户较远的麦克风，获取到的用户的语音信号较弱，副麦克风获取到的大多为环境噪声信号。

以上述图3所示的手机300为例，在视频通话场景下，终端设备通过摄像头采集人脸信息，若终端设备使用的是前置摄像头，那么顶部麦克风为主麦克风，底部麦克风和背部麦克风为副麦克风；若终端设备使用的是后置摄像头，那么背部麦克风为主麦克风，顶部麦克风和底部麦克风为副麦克风。

主麦克风的数量为一个，多个麦克风中除了主麦克风之外的其余麦克风可以为副麦克风。若上述多个麦克风的数量为2，那么终端设备设有1个主麦克风和1个副麦克风。若上述多个麦克风的数量为3，那么终端设备设有1个主麦克风和2个副麦克风。3个麦克风在终端设备上的位置关系可以为图3所示的手机的麦克风布局，但本申请实施例对此不作限定。

S402，基于多个麦克风中至少两个麦克风的语音信号，确定至少两个麦克风的语音信号之间的增益，至少两个麦克风包括主麦克风。

应理解，这里的“确定至少两个麦克风的语音信号”可以包括确定主麦克风的语音信号和其中一个副麦克风的语音信号之间的增益，在此基础上，还可以包括确定两个副麦克风的语音信号之间的增益。例如，以上述多个麦克风为3个麦克风为例，该3个麦克风包括顶部麦克风、底部麦克风和背部麦克风，其中，顶部麦克风为主麦克风，这样，终端设备可以确定顶部麦克风的语音信号和背部麦克风的语音信号之间的增益，和/或，确定顶部麦克风的语音信号和底部麦克风的语音信号之间的增益，在此基础上，终端设备还可以确定底部麦克风的语音信号和背部麦克风的语音信号之间的增益。

S403，利用至少两个麦克风的语音信号之间的增益对主麦克风的语音信号进行降噪处理，得到第一语音信号。

示例性地，若上述多个麦克风包括3个麦克风，即顶部麦克风、底部麦克风和背部麦克风，这里的“利用至少两个麦克风的语音信号之间的增益对主麦克风的语音信号进行降噪处理”可以包括下列任一种或多种处理方式：

1、利用顶部麦克风的语音信号与背部麦克风的语音信号之间的增益对主麦克风的语音信号进行降噪处理；

2、利用顶部麦克风的语音信号与底部麦克风的语音信号之间的增益对主麦克风的语音信号进行降噪处理；

3、利用底部麦克风的语音信号与背部麦克风的语音信号之间的增益对主麦克风的语音信号进行降噪处理。

S404，将主麦克风的语音信号输入到训练好的CRNN模型进行降噪处理，得到第二语音信号。

S405，将第一语音信号与第二语音信号在频域进行融合，得到目标语音信号。

可选地，终端设备可以获取第一语音信号的频点的能量和第二语音信号的频点的能量，以帧为单位，将第一语音信号和第二语音信号中相同频点位置处能量较小的频点作为目标频点，基于该目标频点，合成目标语音信号。

示例性地，终端设备可以获取第一语音信号中所有频点的能量，并获取第二语音信号中所有频点的能量，以帧为单位，将第一语音信号和第二语音信号在相同频点位置处能量较小的频点作为目标频点，利用目标频点所对应的函数值合成目标语音信号。例如，第一语音信号和第二语音信号都包括N帧信号，其中每帧信号中都包括M个频点，N和M为正整数。在第一个频点位置处，若第一语音信号的频点能量比第二语音信号的频点能量小，则将该能量较小的频点作为第一个目标频点，该第一个目标频点对应第一个函数值。在第二个频点位置处，若第二语音信号的频点能量比第一语音信号的频点能量小，则将该能量较小的频点作为第二个目标频点，该第二个目标频点对应第二个函数值。以此类推，取遍N帧信号，在N帧信号中的每帧信号中取遍M个频点，能够得到N×M个函数值。对于第一帧的第一语音信号和第二语音信号而言，可以得到M个函数值，根据该M个函数值可以合成第一帧的目标语音信号。以此类推，以帧为单位，能够合成N帧目标语音信号。

本申请实施例的语音处理方法，终端设备通过多个麦克风获取语音信号，利用包括主麦克风的至少两个麦克风的语音信号得到的增益对主麦克风的语音信号进行降噪处理，并且，利用提前训练好的CRNN模型对主麦克风的语音信号进行降噪处理，并将利用增益降噪处理后得到的语音信号(即上述第一语音信号)和利用模型降噪处理后得到的语音信号(即上述第二语音信号)在频域进行融合，得到目标语音信号。这样，终端设备得到的目标语音信号包括目标方向的目标人声信号，即本申请的语音处理方法可以抑制非目标方向的语音信号，并且可以抑制目标方向的非目标语音信号。因此，本申请实施例的语音处理方法能够提升用户语音的清晰度，降低周围环境噪声的干扰，从而提高用户体验。

上述S402和S403可以理解为利用包括主麦克风的至少两个麦克风的语音信号得到的增益对主麦克风的语音信号进行降噪处理的过程，本文简称为“利用增益降噪的语音处理方法”。

上述S404可以理解为利用CRNN模型对主麦克风的语音信号进行降噪处理的过程，本文简称为“利用模型降噪的语音处理方法”。

下面结合图5，介绍本申请实施例的利用增益降噪的语音处理方法。

图5是本申请实施例提供的利用增益降噪的语音处理方法500的示意性流程图。该方法500可以应用于语音通话场景或视频通话场景，或者其他需要获取用户语音的场景。该方法500可以应用于上述终端设备，例如手机300，该方法500所涉及的终端设备的硬件结构可以如图1所述，该方法500所涉及的终端设备软的件结构可以如图2所示。

如图5所示，该方法500可以包括下列步骤：

步骤一，通过主麦克风和副麦克风获取语音信号。

步骤二，对主麦克风的语音信号进行开窗口处理，并对主麦克风语音信号的各个窗口下的各段的语音信号进行傅里叶变换，得到主麦克风频域上的语音信号。

示例性地，所开的窗口可以是两帧，如第一帧和第二帧在一个窗口下，第二帧和第三帧在一个窗口下等，对第一帧和第二帧所在窗口下的一段语音信号进行傅里叶变换，对第二帧和第三帧所在窗口下的一段语音信号进行傅里叶变换，以此类推，得到主麦克风频域上的语音信号。

步骤三，对副麦克风的语音信号进行开窗口处理，并对副麦克风语音信号的各个窗口下的各段的语音信号进行傅里叶变换，得到副麦克风频域上的语音信号。

应理解，主麦克风语音信号和副麦克风语音信号所开窗口的大小相等。还应理解，上述步骤二和步骤三可以同时执行，步骤三也可以在步骤二之前执行，本申请实施例对此不作限定。

步骤四，根据主麦克风和副麦克风频域上的语音信号，计算主麦克风和副麦克风频域上的语音信号的相关性参数。

步骤五，根据上述相关性参数，计算主麦克风频域上的语音信号和副麦克风频域上的语音信号之间的信噪比和方位角。

可选地，信噪比和方位角α满足如下公式：

其中，表示频域上的语音信号的相关性参数的虚部，/>表示频域上的语音信号的相关性参数的实部，θ表示上述主麦克风和副麦克风频域上的语音信号中干扰声源与终端设备中心点的连线和上述主麦克风和副麦克风频域上的语音信号中目标声源与终端设备中心点的连线之间的夹角。

步骤六，根据上述信噪比和方位角，计算得到主麦克风和副麦克风频域上的语音信号的增益G(w,k)，为：

其中，k为上述主麦克风和副麦克风频域上的语音信号的帧索引，且k为正整数，L表示上述主麦克风和副麦克风频域上的语音信号的频点个数，且L为正整数。

步骤七，利用上述增益对主麦克风频域上的语音信号进行降噪处理，得到第一语音信号。

应理解，利用增益对主麦克风频域上的语音信号进行降噪处理是指计算增益与主麦克风频域上的语音信号的乘积，该乘积可以理解为主麦克风频域上的语音信号和副麦克风频域上的语音信号的第k帧信号之间的增益与第k帧信号所在的后一个窗口中的语音信号的乘积，得到一个窗口中的降噪后的一个语音信号，k取遍所有帧，所有窗口中的降噪后的所有语音信号拼接为第一语音信号。

示例性地，假设第一帧和第二帧在第一个窗口中，第二帧和第三帧在第二个窗口中，终端设备可以用第一帧的增益对第一个窗口中的第一帧语音和第二帧语音进行降噪处理，用第二帧的增益对第二个窗口中的第二帧和第三帧语音进行降噪处理，以此类推，直到处理完所有窗口。即终端设备可以用第一帧的增益与第一个窗口中的语音信号相乘，用第二帧的增益与第二个窗口中的语音信号相乘，所有相乘后的结果拼接为第一语音信号。

步骤八，去掉第一语音信号中重复部分的语音信号。

示例性地，假设上述开窗口处理时，第一帧和第二帧在第一个窗口中，第二帧和第三帧在第二个窗口中等，终端设备在合成第一语音信号时，由于第一个窗口和第二个窗口中的第二帧信号重复，因此，终端设备可以保留第一个窗口中的第一帧信号，保留第二个窗口中的第二帧信号，以此类推，将保留的帧信号拼接为第一语音信号。

应理解，本申请实施例只是示例性地给出用主麦克风和副麦克风的语音信号之间的增益对主麦克风进行降噪处理，实际中还可以是上述中的在主麦克风和副麦克风的基础上再加上副麦克风的语音信号之间的增益对主麦克风的语音信号进行的降噪处理，为避免重复，在此不再赘述。

下面结合图6，介绍本申请实施例的利用模型降噪的语音处理方法。

图6是本申请实施例提供的利用模型降噪的语音处理方法600的示意性流程图。该方法600可以应用于语音通话场景或视频通话场景，或者其他需要获取用户语音的场景。该方法600可以应用于上述终端设备，例如手机300，该方法600所涉及的终端设备的硬件结构可以如图1所述，该方法600所涉及的终端设备的软件结构可以如图2所示。

S601，通过主麦克风获取语音信号。

S602，对主麦克风获取的语音信号进行开窗口处理，并对各个窗口下的各段语音信号进行傅里叶变换，得到主麦克风频域语音信号。

应理解，本步骤中的对主麦克风语音信号开窗口与上述方法500中的步骤二中的开窗口处理操作相同，且与步骤二的主麦克风语音信号开窗口处理是同一个操作。

S603，将主麦克风频域语音信号输入预先训练好的CRNN模型，对该语音信号进行降噪处理，得到第二语音信号。

可选地，将主麦克风的语音信号输入到训练好的CRNN模型进行降噪处理之前，终端设备可以将已标定的语音信号输入到CRNN模型，对该CRNN模型进行训练。

具体地，CRNN模型可以包括卷积神经网络(convolutional neural network，CNN)、长短期记忆神经网络(long short term memory，LSTM)以及全连接神经网络(fully-connected，FC)。在将主麦克风的语音信号输入到训练好的CRNN模型进行降噪处理之前，终端设备可以先对CRNN模型进行训练。

示例性地，终端设备可以对语音信号进行标定，也就是每输入一个语音信号，就会标定一个干净的语音信号(即不包括噪声的语音信号)，使得一个语音信号对应一个干净的语音信号。然后，终端设备通过将语音信号输入到模型中，并不断的调整模型中的参数对模型进行训练，通过调整模型中的参数值，从而使得输出的语音信号与标定的干净的语音信号之差小于或等于预设阈值，进而得到训练好的CRNN模型。

应理解，上述模型训练的过程可以是终端设备执行的，也可以是其他处理设备(例如服务器)将模型训练好之后，发送给终端设备，本申请实施例对此不作限定。

示例性地，上述模型训练所使用的语音数据可以包含汉语、英语等在内的多国语言，涵盖了各年龄段男女声，共5000多小时。上述模型训练所使用的噪声数据可以包含音乐噪声、车噪声等道路交通声，空调噪声、风声、雨声、水声、雷电声、冲击类噪声(比如敲桌子、键盘)、白噪、动物叫声等非人声噪声，共930小时。

S604，去掉第二语音信号中重复部分的语音信号。

应理解，该步骤的去重复过程与方法500中的步骤八类似，为避免重复，在此不再赘述。

可选地，本申请实施例的语音处理方法还包括：确定主麦克风的语音信号和副麦克风的语音信号之间的相似度，根据该相似度，进行噪声概率估计，得到降噪滤波函数，利用该降噪滤波函数对主麦克风的语音信号进行降噪处理，得到第三语音信号。终端设备将第一语音信号和第二语音信号在频域进行融合，得到目标语音信号，包括：终端设备将第一语音信号、第二语音信号及第三语音信号在频域进行融合，得到目标语音信号。

上述过程可以理解为利用滤波函数降噪对主麦克风的语音信号进行降噪处理的过程，本文简称为“利用滤波函数降噪的语音处理方法”。

下面结合图7，介绍本申请实施例的利用增益降噪、模型降噪及滤波函数降噪相结合的语音处理方法。

图7是本申请实施例提供的另一种语音处理方法700的示意性流程图。该方法700可以应用于语音通话场景或视频通话场景，或者其他需要获取用户语音的场景。该方法700可以应用于上述终端设备，例如手机300，该方法700所涉及的终端设备的硬件结构可以如图1所述，该方法700所涉及的终端设备的软件结构可以如图2所示。

步骤一，通过多个麦克风获取语音信号。

步骤二，对多个麦克风获取的语音信号进行开窗口处理，并对多个麦克风语音信号的各个窗口下的各段的语音信号进行傅里叶变换，得到多个麦克风频域上的语音信号。

示例性地，若上述多个麦克风包括3个麦克风，即顶部麦克风、底部麦克风和背部麦克风，终端设备可以分别对顶部麦克风、背部麦克风及顶部麦克风的语音信号开窗口，并对多个麦克风的语音信号的各个窗口下的各段的语音信号进行傅里叶变换，分别得到顶部麦克风频域上的语音信号、背部麦克风频域上的语音信号及顶部麦克风频域上的语音信号。

步骤三，通过上述方法500中的利用增益降噪、上述方法600中的利用模型降噪以及上述利用滤波函数降噪的处理，分别得到第一语音信号、第二语音信号以及第三语音信号。

步骤四，分别将上述三种降噪处理得到的第一语音信号、第二语音信号以及第三语音信号中的重复的部分去掉。

应理解，该步骤中，增益降噪中的去重复过程对应方法500中的步骤八，模型降噪中的去重复过程对应方法600中的S604，滤波函数降噪中的去重复过程与方法500中的步骤八类似，为避免重复，在此不再赘述。

步骤五，将上述去重复后的第一语音信号、第二语音信号以及第三语音信号在频域融合，得到目标语音信号。

应理解，将第一语音信号、第二语音信号以及第三语音信号在相同频点位置处能量较小的频点作为目标频点，利用目标频点所对应的函数值合成目标语音信号，与上述第一语音信号和第二语音信号在频域的融合类似，为避免重复，在此不再赘述。

步骤六，对上述目标语音信号进行逆傅里叶变换，得到时域目标语音信号，并将该目标语音信号输出。

本申请实施例的语音处理方法，通过多个麦克风获取语音信号，利用增益降噪、模型降噪以及滤波函数降噪对主麦克风的语音信号进行降噪处理，并对三种降噪处理后的语音信号在频域进行融合，得到目标语音信号，能够提升用户语音的清晰度，降低周围环境噪声的干扰，从而提高用户的体验。

在一种可能的实现方式中，为了节省终端设备的功耗，或者提高终端设备的***性能，终端设备默认不开启本申请实施例的语音处理功能，在用户手动开启的情况下，终端设备才开启本申请实施例的语音处理功能，即使用本申请实施例的语音处理方法对用户的语音进行降噪处理。

上述用户手动开启可以包括多种可能的开启方式，示例性地，用户可以在终端设备的设置界面中选择开启本申请实施例的语音处理功能，或者，用户也可以在进行语音通话或者视频通话时实时开启本申请实施例的语音处理功能，本申请实施例对此不作限定。

下面，以终端设备为手机为例，并结合图8和图9，对上述语音处理方法所对应的功能实现过程进行介绍。在下面的示例中，将本申请实施例的语音处理功能简称为“智能降噪模式”。

图8本申请实施例提供的视频通话场景中选择智能降噪模式的界面变化图，用于介绍手机作为终端设备响应用户操作的界面变化。在图8的界面a中，手机显示视频通话提示界面，以提示用户是否接通，当用户接通电话时，手机会跳转至图8中的界面b。在图8的界面b中，视频通话界面会显示是否开启智能降噪模式的弹窗，用户点击“开启”按钮，手机响应于用户的点击操作，并显示图8的界面c。在图8的界面c中，手机已经开启了智能降噪模式，用户可以体验通过本申请实施例的语音处理方法处理后实现的降噪功能。

图9本申请实施例提供的视频通话场景中选择智能降噪模式的另一种界面变化图，用于介绍手机作为终端设备响应用户操作的界面变化。在图9的界面a中，手机显示视频通话提示界面，以提示用户是否接通，当用户接通电话时，手机会跳转至图9中的界面b。在图9的界面b中，视频通话界面会显示是否开启智能降噪模式的弹窗，若经过大概5秒用户没有操作，该弹窗就会收回至通知栏，并显示图9的界面c。在图9的界面c中，用户正在进行视频通话，若用户想要开启智能降噪模式，则用户下划通知栏，手机响应于用户的下划操作，会显示图9的界面d。在图9的界面d中，通知栏显示是否开启智能降噪模式，用户点击“开启”按钮，手机响应于用户的点击操作，显示图9的界面e。在图9的界面e中，手机已经开启了智能降噪模式，用户可以体验通过本申请实施例的语音处理方法处理后实现的降噪功能。

应理解，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上面结合图4～图9详细描述了本申请实施例的语音处理方法，下面将结合图10和图11，详细描述本申请实施例的语音处理方法的终端设备。

图10是本申请实施例提供的一种终端设备1000，该终端设备1000包括：处理模块1001和获取模块1002。

其中，获取模块1002用于：通过多个麦克风获取语音信号；处理模块1001用于：基于上述多个麦克风中至少两个麦克风的语音信号，确定上述至少两个麦克风的语音信号之间的增益，上述至少两个麦克风包括主麦克风；利用上述至少两个麦克风的语音信号之间的增益对主麦克风的语音信号进行降噪处理，得到第一语音信号；将主麦克风的语音信号输入到训练好的卷积循环神经网络模型进行降噪处理，得到第二语音信号；将第一语音信号和第二语音信号在频域进行融合，得到目标语音信号。

可选地，处理模块1001还用于：对上述至少两个麦克风的语音信号进行傅里叶变换，得到上述至少两个麦克风频域上的语音信号；根据上述至少两个麦克风频域上的语音信号，得到上述至少两个麦克风频域上的语音信号的相关性参数；根据该相关性参数，得到上述至少两个麦克风频域上的语音信号的信噪比和方位角；根据该信噪比和该方位角，得到上述至少两个麦克风的语音信号的增益。

可选地，信噪比和方位角α满足如下公式：

/>

可选地，上述至少两个麦克风频域上的语音信号的增益G(w,k)为：

可选地，处理模块1001还用于：将已标定的语音信号输入到卷积循环神经网络模型，对该卷积循环神经网络模型进行训练。

可选地，上述至少两个麦克风还包括副麦克风，处理模块1001还用于：确定主麦克风的语音信号和副麦克风的语音信号之间的相似度；根据该相似度，进行噪声概率估计，得到降噪滤波函数；利用该降噪滤波函数对主麦克风的语音信号进行降噪处理，得到第三语音信号；将第一语音信号、第二语音信号及第三语音信号在频域进行融合，得到目标语音信号。

可选地，获取模块1002还用于：获取第一语音信号的频点的能量和第二语音信号的频点的能量；处理模块1001还用于：以帧为单位，将第一语音信号和第二语音信号中相同频点位置处频点的能量较小的频点作为目标频点；基于目标频点，合成目标语音信号。

应理解，这里的终端设备1000以功能模块的形式体现。这里的术语“模块”可以指应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中，本领域技术人员可以理解，终端设备1000可以具体为上述实施例中的终端设备，终端设备1000可以用于执行上述方法实施例中与终端设备对应的各个流程和/或步骤，为避免重复，在此不再赘述。

图11是本申请实施例提供的另一种终端设备1100。该终端设备1100包括：处理器1101、多个麦克风1102以及存储器1103。其中，处理器1101和存储器1103通过内部连接通路互相通信，该多个麦克风1102用于获取语音信号，该存储器1103用于存储指令，该处理器1101用于处理该多个麦克风1102获取的语音信号，并执行该存储器1103存储的指令。

应理解，终端设备1100可以具体为上述实施例中的终端设备，并且可以用于执行上述方法实施例中与终端设备对应的各个步骤和/或流程。可选地，该存储器1103可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。该处理器1101可以用于执行存储器中存储的指令，并且当该处理器1101执行存储器中存储的指令时，该处理器1101用于执行上述与该终端设备对应的方法实施例的各个步骤和/或流程。

应理解，在本申请实施例中，该处理器可以是中央处理单元(central processingunit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器执行存储器中的指令，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，该计算机程序用于实现上述实施例中与终端设备对应的方法。

本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机程序(也可以称为代码，或指令)，当该计算机程序在计算机上运行时，该计算机可以执行上述实施例所示的终端设备所对应的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音处理方法，其特征在于，应用于包括多个麦克风的终端设备，所述方法包括：

通过所述多个麦克风获取语音信号；

基于所述多个麦克风中至少两个麦克风的语音信号，确定所述至少两个麦克风的语音信号之间的增益，所述至少两个麦克风包括主麦克风；

利用所述至少两个麦克风的语音信号之间的增益对所述主麦克风的语音信号进行降噪处理，得到第一语音信号；

将所述主麦克风的语音信号输入到训练好的卷积循环神经网络模型进行降噪处理，得到第二语音信号；

将所述第一语音信号和所述第二语音信号在频域进行融合，得到目标语音信号。

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个麦克风中至少两个麦克风的语音信号，确定所述至少两个麦克风的语音信号之间的增益，包括：

对所述至少两个麦克风的语音信号进行傅里叶变换，得到所述至少两个麦克风频域上的语音信号；

根据所述至少两个麦克风频域上的语音信号，得到所述至少两个麦克风频域上的语音信号的相关性参数；

根据所述相关性参数，得到所述至少两个麦克风频域上的语音信号的信噪比和方位角；

根据所述信噪比和所述方位角，得到所述至少两个麦克风的语音信号的增益。

3.根据权利要求2所述的方法，其特征在于，所述信噪比SNR和所述方位角α满足如下公式：

其中，Γ_{Y_imag}表示频域上的语音信号的相关性参数的虚部，Γ_{Y_real}表示频域上的语音信号的相关性参数的实部，θ表示所述至少两个麦克风的语音信号中干扰声源与所述终端设备中心点的连线和所述至少两个麦克风的语音信号中目标声源与所述终端设备中心点的连线之间的夹角。

4.根据权利要求2所述的方法，其特征在于，所述至少两个麦克风频域上的语音信号的增益G(w,k)为：

其中，k为所述至少两个麦克风频域上的语音信号的帧索引，且k为正整数，L表示所述至少两个麦克风频域上的语音信号的频点个数，且L为正整数。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在所述将所述主麦克风的语音信号输入到训练好的卷积循环神经网络模型进行降噪处理之前，所述方法还包括：

将已标定的语音信号输入到所述卷积循环神经网络模型，对所述卷积循环神经网络模型进行训练。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述至少两个麦克风还包括副麦克风，所述方法还包括：

确定所述主麦克风的语音信号和所述副麦克风的语音信号之间的相似度；

根据所述相似度，进行噪声概率估计，得到降噪滤波函数；

利用所述降噪滤波函数对所述主麦克风的语音信号进行降噪处理，得到第三语音信号；

所述将所述第一语音信号和所述第二语音信号在频域进行融合，得到目标语音信号，包括：

将所述第一语音信号、所述第二语音信号及所述第三语音信号在频域进行融合，得到所述目标语音信号。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述将所述第一语音信号和所述第二语音信号在频域进行融合，得到目标语音信号，包括：

获取所述第一语音信号的频点的能量和所述第二语音信号的频点的能量；

以帧为单位，将所述第一语音信号和所述第二语音信号中相同频点位置处频点的能量较小的频点作为目标频点；

基于所述目标频点，合成所述目标语音信号。

8.一种终端设备，其特征在于，包括：

获取模块，用于通过多个麦克风获取语音信号；

处理模块，用于基于所述多个麦克风中至少两个麦克风的语音信号，确定所述至少两个麦克风的语音信号之间的增益，所述至少两个麦克风包括主麦克风；利用所述至少两个麦克风的语音信号之间的增益对所述主麦克风的语音信号进行降噪处理，得到第一语音信号；将所述主麦克风的语音信号输入到训练好的卷积循环神经网络模型进行降噪处理，得到第二语音信号；将所述第一语音信号和所述第二语音信号在频域进行融合，得到目标语音信号。

9.根据权利要求8所述的终端设备，其特征在于，所述处理模块还用于：

10.根据权利要求9所述的终端设备，其特征在于，所述信噪比SNR和所述方位角α满足如下公式：

11.根据权利要求9所述的终端设备，其特征在于，所述至少两个麦克风频域上的语音信号的增益G(w,k)为：

12.根据权利要求8至11中任一项所述的终端设备，其特征在于，所述处理模块还用于：

13.根据权利要求8至11中任一项所述的终端设备，其特征在于，所述至少两个麦克风还包括副麦克风，所述处理模块还用于：

根据所述相似度，进行噪声概率估计，得到降噪滤波函数；

14.根据权利要求8至11中任一项所述的终端设备，其特征在于，所述获取模块还用于：

所述处理模块还用于：

以帧为单位，将所述第一语音信号和所述第二语音信号中相同频点位置处频点的能量较小的频点作为目标频点；基于所述目标频点，合成所述目标语音信号。

15.一种终端设备，其特征在于，包括：多个麦克风和处理器，所述处理器与存储器耦合，所述存储器用于存储计算机程序，所述多个麦克风用于获取语音信号，当所述处理器调用所述计算机程序时，使得所述终端设备执行如权利要求1至7中任一项所述的方法，以处理所述多个麦克风获取的语音信号。

16.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序包括用于实现如权利要求1至7中任一项所述的方法的指令。