CN117116277A

CN117116277A - 声音降噪方法和电子设备

Info

Publication number: CN117116277A
Application number: CN202310093632.6A
Authority: CN
Inventors: 曹国智; 刘镇亿; 玄建永
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-11-24

Abstract

本申请公开了一种声音降噪方法和电子设备，涉及声音处理领域，用于在两个麦克风采集的两路声音信号的信噪比差异很小的场景下，实现声音降噪。声音降噪方法包括：对两路声音信号进行噪声估计以确定信噪比之差小于阈值；对来自M个麦克风的M路声音信号进行独立向量提取，得到第一语音信号和M‑1路噪声信号；对第一语音信号进行单麦噪声估计得到第一噪声信号；根据第一语音信号对M‑1路噪声信号进行滤波得到第二噪声信号；对第一噪声信号和第二噪声信号进行融合得到第三噪声信号；根据第三噪声信号和第一语音信号得到目标语音信号的频谱；对目标语音信号的频谱进行傅里叶逆变换得到目标语音信号。

Description

声音降噪方法和电子设备

技术领域

本申请涉及声音处理领域，尤其涉及一种声音降噪方法和电子设备。

背景技术

手机等电子设备通常包括距离较远的主麦和副麦，例如，主麦位于手机底部，用于采集语音数据，副麦位于手机顶部，用于采集环境噪声。用户在正常握持手机进行通话时，位于手机底部的主麦和位于手机顶部的副麦由于距离嘴巴的距离差别较大，使得这两个麦克风所采集的两路声音信号的信噪比差异较大，此时，手机可以采用双麦降噪算法来降低声音信号中的噪声。

但是在异常握持场景下，例如图1所示的免提通话场景，或者，如图2所示的大角度握持(手机底部相对于手机顶部远离脸颊)通话场景，主麦和副麦由于距离嘴巴的距离差别较小，所以采集的两路声音信号的信噪比差异很小，如果采用传统的双麦降噪容易对语音信号也造成抑制，如果采用单麦降噪，则噪声抑制力度不够。

发明内容

本申请实施例提供一种声音降噪方法和电子设备，用于在两个麦克风采集的两路声音信号的信噪比差异很小的场景下，实现声音降噪。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供了一种声音降噪方法，包括：分别对两路声音信号进行傅里叶变换后再进行噪声估计，以确定两路声音信号的信噪比之差小于信噪比阈值，两路声音信号来自距离大于距离阈值的两个麦克风；对来自M个麦克风的M路声音信号进行傅里叶变换后再进行独立向量提取，得到第一语音信号和M-1路噪声信号；M为大于等于2的整数；对第一语音信号进行单麦噪声估计得到第一噪声信号；根据第一语音信号对M-1路噪声信号进行滤波得到第二噪声信号；对第一噪声信号和第二噪声信号进行融合得到第三噪声信号；根据第三噪声信号和第一语音信号得到目标语音信号的频谱；对目标语音信号的频谱进行傅里叶逆变换得到目标语音信号。

本申请实施例提供的声音降噪方法，在确定两个麦克风采集的两路声音信号的信噪比差异很小的情况下，对M个麦克风的声音信号经过傅里叶变换得到的频谱进行独立向量提取，可以解耦得到一路第一语音信号和M-1路噪声信号。对第一语音信号进行单麦噪声估计得到第一噪声信号，以进一步消除第一噪声信号中的语音信号。根据第一语音信号对M-1路噪声信号进行滤波得到第二噪声信号，以进一步消除M-1路噪声信号中残留的语音信号。再对第一噪声信号和第二噪声信号进行融合得到第三噪声信号，此时第三噪声信号中残留的语音信号已经很少。最后，从第一语音信号中去除第三噪声信号，即得到纯净的语音信号，不会对语音信号造成损失。实现了在两个麦克风采集的两路声音信号的信噪比差异很小的场景下，对声音进行降噪。

在一种可能的实施方式中，对来自M个麦克风的M路声音信号进行傅里叶变换后再进行独立向量提取，得到第一语音信号和M-1路噪声信号，包括：对M路声音信号进行傅里叶变换得到M路声音信号的频谱；根据声源分离矩阵和M路声音信号的频谱计算每个声源的方差；根据每个声源的方差和M路声音信号的频谱计算每个声源的加权协方差矩阵；根据每个声源的加权协方差矩阵更新声源分离矩阵；根据声源分离矩阵和M路声音信号的频谱得到噪声分离矩阵；根据声源分离矩阵和M路声音信号的频谱得到第一语音信号的频谱，根据噪声分离矩阵和M路声音信号的频谱得到M-1路噪声信号的频谱。该实施方式提供了独立向量提取的方法，可以将多路声音信号中的噪声信号与语音信号进行解耦。

在一种可能的实施方式中，还包括：对上一帧的第一语音信号进行单麦噪声估计得到上一帧的第二语音信号；根据上一帧的第二语音信号的能量谱，对当前帧进行独立向量提取时得到的每个声源的方差进行修正。可以避免独立向量提取方差估计不准的问题。

在一种可能的实施方式中，还包括：通过语音活动检测来检测一路声音信号是否包括语音信号；如果包括语音信号，则用修正后的每个声源的方差更新声源分离矩阵和噪声分离矩阵；如果不包括语音信号，则用修正后的每个声源的方差更新噪声分离矩阵。从而降低运算工作量。

在一种可能的实施方式中，进行在线计算时，还包括：根据上一次迭代的加权协方差矩阵对本次迭代的加权协方差矩阵进行平滑处理。可以消除数据大幅度的波动。

在一种可能的实施方式中，对第一噪声信号和第二噪声信号进行融合得到第三噪声信号，包括：取第一噪声信号的能量谱和第二噪声信号的能量谱在同一时刻的最大值或者最小值或者平均值，得到第三噪声信号的能量谱。本申请对得到第三噪声信号的方式不作限定。

在一种可能的实施方式中，根据第一语音信号对M-1路噪声信号进行滤波得到第二噪声信号，包括：根据公式得到第二噪声信号的能量谱/>其中，/>表示L帧的第一语音信号的能量谱得到的长度L的向量，/>为滤波系数，D_t为M-1路噪声信号的能量谱求和后得到的噪声信号的能量谱。可以消除M-1路噪声信号中的语音信号。

在一种可能的实施方式中，对第一语音信号进行单麦噪声估计得到第一噪声信号，包括：根据第一语音信号的频谱得到第一语音信号的能量谱；对第一语音信号的能量谱进行平滑处理；对平滑后的第一语音信号的能量谱进行最小值跟踪，得到第一噪声信号的能量谱。最小值跟踪的原理是：包含噪声信号的声音信号在各个频段的能量谱最低会衰减到噪声信号的功率水平，通过跟踪各个频带的能量谱的最小值，就可以得到第一噪声信号的能量谱。

在一种可能的实施方式中，根据第三噪声信号和第一语音信号得到目标语音信号的频谱，包括：对第三噪声信号的能量谱进行开平方得到第三噪声信号的幅值；对第一语音信号的能量谱进行开平方得到第一语音信号的幅值；根据第三噪声信号的幅值和第一语音信号的幅值计算噪声增益，噪声增益等于第三噪声信号的幅值除以第一语音信号的幅值；根据第一语音信号的频谱*(1-噪声增益)得到目标语音信号的频谱。

第二方面，提供了一种电子设备，包括处理器和存储器，存储器中存储指令，当处理器执行指令时，如第一方面及其任一实施方式所述的方法被执行。

第三方面，提供了一种计算机可读存储介质，包括指令，当指令在电子设备上运行时，使得电子设备执行如第一方面及其任一实施方式所述的方法。

第四方面，提供了一种包含指令的计算机程序产品，当指令在上述电子设备上运行时，使得该电子设备执行如第一方面及其任一实施方式所述的方法。

第五方面，提供了一种芯片***，该芯片***包括处理器，用于支持电子设备实现上述第一方面中所涉及的功能。在一种可能的设计中，该装置还包括接口电路，接口电路可用于从其它装置(例如存储器)接收信号，或者，向其它装置(例如通信接口)发送信号。该芯片***可以包括芯片，还可以包括其他分立器件。

第二方面至第五方面的技术效果参照第一方面及其任一实施方式的技术效果，在此不再重复。

附图说明

图1为本申请实施例提供的一种免提通话场景的示意图；

图2为本申请实施例提供的一种大角度握持通话场景的示意图；

图3为本申请实施例提供的一种电子设备的结构示意图；

图4为本申请实施例提供的一种声音降噪方法的流程示意图；

图5为本申请实施例提供的另一种声音降噪方法的流程示意图；

图6为本申请实施例提供的一种最小值跟踪得到第一噪声信号的能量谱的示意图；

图7为本申请实施例提供的又一种声音降噪方法的流程示意图；

图8为本申请实施例提供的一种芯片***的结构示意图。

具体实施方式

首先对本申请涉及的一些概念进行描述。

本申请实施例涉及的术语“第一”、“第二”等仅用于区分同一类型特征的目的，不能理解为用于指示相对重要性、数量、顺序等。

本申请实施例涉及的术语“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例涉及的术语“耦合”、“连接”应做广义理解，例如，可以指物理上的直接连接，也可以指通过电子器件实现的间接连接，例如通过电阻、电感、电容或其他电子器件实现的连接。

本申请实施例提供了一种电子设备，该电子设备可以是一种具有显示功能的设备，电子设备可以是移动的，也可以是固定的。电子设备可以部署在陆地上(例如室内或室外、手持或车载等)，也可以部署在水面上(例如轮船等)，还可以部署在空中(例如飞机、气球和卫星等)。该电子设备可以称为用户设备(user equipment，UE)、接入终端、终端单元、用户单元(subscriber unit)、终端站、移动站(mobile station，MS)、移动台、终端代理或终端装置等。例如，该电子设备可以是手机、平板电脑、笔记本电脑、智能手环、智能手表、耳机、智能音箱、虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、工业控制(industrial control)中的终端、无人驾驶(self driving)中的终端、远程医疗(remote medical)中的终端、智能电网(smart grid)中的终端、运输安全(transportation safety)中的终端、智慧城市(smart city)中的终端、智慧家庭(smarthome)中的终端等。本申请实施例对电子设备的具体类型和结构等不作限定。下面对电子设备的一种可能结构进行说明。

以电子设备为手机为例，图3示出了电子设备101的一种可能的结构。该电子设备101可以包括处理器210、外部存储器接口220、内部存储器221、通用串行总线(universalserial bus，USB)接口230、电源管理模块240、电池241、无线充电线圈242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器270A、受话器270B、麦克风270C、耳机接口270D、传感器模块280、按键290、马达291、指示器292、摄像头293、显示屏294以及用户标识模块(subscriber identification module，SIM)卡接口295等。

其中，传感器模块280可以包括压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器、骨传导传感器等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备101的具体限定。在本申请另一些实施例中，电子设备101可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以为现场可编程门阵列(field programmable gate array，FPGA)、专用集成电路(application specificintegrated circuit，ASIC)、片上***(system on chip，SoC)、中央处理单元(centralprocessing unit，CPU)、应用处理器(application processor，AP)、网络处理器(networkprocessor，NP)、数字信号处理器(digital signal processor，DSP)、微控制单元(microcontroller unit，MCU)、可编程逻辑器件(programmable logic device，PLD)、调制解调处理器、图形处理器(graphics processing unit，GPU)、图像信号处理器(image signalprocessor，ISP)、控制器、视频编解码器、基带处理器以及神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。例如，处理器210可以是应用处理器AP。或者，上述处理器210可以集成在片上***(system on chip，SoC)中。或者，上述处理器210可以集成在集成电路(integrated circuit，IC)芯片中。该处理器210可以包括IC芯片中的模拟前端(analogfront end，AFE)和微控制单元(micro-controller unit，MCU)。

其中，控制器可以是电子设备101的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器210中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器210的等待时间，因而提高了***的效率。

在一些实施例中，处理器210可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口、集成电路内置音频(inter-integrated circuitsound，I2S)接口、脉冲编码调制(pulse code modulation，PCM)接口、通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口、移动产业处理器接口(mobile industry processor interface，MIPI)、通用输入输出(general-purposeinput/output，GPIO)接口、用户标识模块(subscriber identity module，SIM)接口和/或USB接口等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备101的结构限定。在本申请另一些实施例中，电子设备101也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电源管理模块240用于从充电器接收充电输入。其中，充电器可以是无线充电器(如电子设备101的无线充电底座或者其他可以为电子设备101无线充电的设备)，也可以是有线充电器。例如，电源管理模块240可以通过USB接口230接收有线充电器的充电输入。电源管理模块240可以通过电子设备的无线充电线圈242接收无线充电输入。

其中，电源管理模块240为电池241充电的同时，还可以为电子设备供电。电源管理模块240接收电池241的输入，为处理器210、内部存储器221、外部存储器接口220、显示屏294、摄像头293和无线通信模块260等供电。电源管理模块240还可以用于监测电池241的电池容量、电池循环次数、电池健康状态(漏电、阻抗)等参数。在其他一些实施例中，电源管理模块240也可以设置于处理器210中。

电子设备101的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备101中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块250可以提供应用在电子设备101上的包括2G/3G/4G/5G等无线通信的解决方案。无线通信模块260可以提供应用在电子设备101上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)、蓝牙(bluetooth，BT)、全球导航卫星***(global navigation satellite system，GNSS)、调频(frequency modulation，FM)、近距离无线通信技术(near field communication，NFC)、红外技术(infrared，IR)等无线通信的解决方案。在一些实施例中，电子设备101的天线1和移动通信模块250耦合，天线2和无线通信模块260耦合，使得电子设备101可以通过无线通信技术与网络以及其他设备通信。

电子设备101通过GPU、显示屏294以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏294和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏294用于显示图像，视频等。显示屏294包括显示面板。在一些实施例中，电子设备101可以包括1个或N个显示屏294，N为大于1的正整数。

电子设备101可以通过ISP、摄像头293、视频编解码器、GPU、显示屏294以及应用处理器等实现拍摄功能。ISP用于处理摄像头293反馈的数据。在一些实施例中，ISP可以设置在摄像头293中。摄像头293用于捕获静态图像或视频。在一些实施例中，电子设备101可以包括1个或N个摄像头293，N为大于1的正整数。

外部存储器接口220可以用于连接外部存储卡，例如微闪迪(micro SanDisk，Micro SD)卡，实现扩展电子设备101的存储能力。外部存储卡通过外部存储器接口220与处理器210通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器210通过运行存储在内部存储器221的指令，从而执行电子设备101的各种功能应用以及数据处理。此外，内部存储器221可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、通用闪存存储器(universal flashstorage，UFS)等。

本申请实施例涉及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。应注意，本文描述的***和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

电子设备101可以通过音频模块270、扬声器270A、受话器270B、麦克风270C、耳机接口270D以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块270用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。在一些实施例中，音频模块270可以设置于处理器210中，或将音频模块270的部分功能模块设置于处理器210中。扬声器270A，也称“喇叭”，用于将音频电信号转换为声音信号。受话器270B，也称“听筒”，用于将音频电信号转换成声音信号。麦克风270C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。耳机接口270D用于连接有线耳机。耳机接口270D可以是USB接口230，也可以是3.5mm的开放移动终端平台(open mobileterminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellulartelecommunications industry association of the USA，CTIA)标准接口。

按键290包括开机键、音量键等。按键290可以是机械按键。也可以是触摸式按键。电子设备101可以接收按键输入，产生与电子设备101的用户设置以及功能控制有关的键信号输入。马达291可以产生振动提示。马达291可以用于来电振动提示，也可以用于触摸振动反馈。指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息、未接来电、通知等。SIM卡接口295用于连接SIM卡。SIM卡可以通过***SIM卡接口295，或从SIM卡接口295拔出，实现和电子设备101的接触和分离。电子设备101可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口295可以支持纳SIN(Nano SIM)卡、微SIM(MicroSIM)卡、SIM卡等。在一些实施例中，电子设备101采用嵌入式(embedded SIM，eSIM)卡，eSIM卡可以嵌在电子设备101中，不能和电子设备101分离。

处理器210运行的程序可以基于操作***，例如等。处理器210可以执行存储器中存储的指令，从而执行本申请实施例提供的声音降噪方法。

电子设备101可以设置M个麦克风270C，M为大于等于2的整数。示例性的，麦克风270C可以包括位于手机底部的主麦和位于手机顶部的副麦。

在用户正常握持(贴近脸颊)电子设备(例如手机)进行通话的场景下，位于手机底部的主麦和位于手机顶部的副麦由于距离嘴巴的距离差别较大，使得这两个麦克风所采集的两路声音信号的信噪比差异较大(主麦的信噪比远高于副麦的信噪比)，电子设备可以使用传统的双麦声音降噪方法来降低声音信号中的噪声。但是在异常握持场景下，例如图1所示的免提通话场景，或者，如图2所示的手持大角度(手机底部相对于手机顶部远离脸颊)通话场景，主麦和副麦由于距离嘴巴的距离差别较小，所以采集的两路声音信号的信噪比差异很小(信噪比之差小于信噪比阈值)，无法采用传统的双麦声音降噪方法来降低声音信号中的噪声。

为此，本申请实施例提供的声音降噪方法，在确定两个麦克风采集的两路声音信号的信噪比差异很小的情况下，对M个麦克风的声音信号进行独立向量提取，可以得到一路第一语音信号和M-1路噪声信号。对第一语音信号进行单麦噪声估计得到第一噪声信号，根据第一语音信号对M-1路噪声信号进行滤波得到第二噪声信号，再对第一噪声信号和第二噪声信号进行融合得到第三噪声信号。最后，从第一语音信号中去除第三噪声信号即得到纯净的语音信号。从而实现在两个麦克风采集的两路声音信号的信噪比差异很小的场景下，对声音进行降噪。

如图4所示，本申请实施例提供的声音降噪方法包括：

S101、分别对两路声音信号进行傅里叶变换后再进行噪声估计，以确定两路声音信号的信噪比之差是否小于信噪比阈值。

两路声音信号来自距离大于距离阈值的两个麦克风，例如一个为位于手机底部的主麦，另一个为位于手机顶部的副麦。对于任一路声音信号来说，计算该路声音信号的信噪比的方式如下：对该路声音信号进行傅里叶变换后得到该路声音信号的频谱，再对该声音信号的频谱进行噪声估计，得到该路声音信号的信噪比。

该步骤用于确定是否为异常握持场景，当确定两路声音信号的信噪比之差小于信噪比阈值时，属于异常握持场景，执行步骤S102-S106；否则属于正常握持场景，采用传统的双麦降噪算法来降低声音信号中的噪声。异常握持场景包括：如图1所示的免提通话场景，或者，如图2所示的大角度握持(手机底部相对于手机顶部远离脸颊)通话场景。在异常握持场景下，主麦和副麦由于距离嘴巴的距离差别较小，所以采集的两路声音信号的信噪比差异很小。

S102、对来自M个麦克风的M路声音信号进行傅里叶变换后再进行独立向量提取(independent vector extraction，IVE)，得到第一语音信号和M-1路噪声信号。

M为大于等于2的整数，M个麦克风可以包括步骤S101所述的两个麦克风。对来自M个麦克风的M路声音信号进行傅里叶变换后可以得到M路声音信号的频谱。

如公式1所示，通过麦克风采集的M路声音信号x_ft可以表示为语音信号s_ft和噪声信号z_ft的频域混合信号，其中，A表示声源混合矩阵，ψ表示噪声混合矩阵，本申请中如无特别说明，则t表示时域索引(即第t帧)，f表示频域索引。

x_ft＝A_fs_ft+ψ_fz_ft 公式1

在已知M路声音信号x_ft的前提下，可以通过公式2反向求解语音信号s_ft，可以通过公式3反向求解噪声信号z_ft。其中，W_f＝[w_1f,...w_nf...,w_Nf]^H表示声源分离矩阵，表示声源分离矩阵W_f中第n个声源的系数，W_f∈C^N×M，U_f＝[J_f,-I_M-N]^H表示噪声分离矩阵，U_f∈C^(M ^-N)×M，J_f∈C^(M-N)×N。本申请中如无特别说明，则C表示复数矩阵，C^(M-N)×M表示M-N维乘以M维的复数矩阵，C^(M-N)×N表示M-N维乘以N维的复数矩阵，I_M-N表示M-N维乘以M-N维的单位矩阵，M表示麦克风的数目，N表示发出语音的声源(即说话人)的数目，1≤n≤N，示例性的声源的数目N为1。

s_ft＝W_fx_ft 公式2

z_ft＝U_fx_ft 公式3

因此，为了求解语音信号s_ft和噪声信号z_ft，就需要对声源分离矩阵W_f和噪声分离矩阵U_f构成的矩阵进行估计，其中，/>C^M×M表示M维乘以M维的复数矩阵。

语音信号s_ft服从时变高斯分布：噪声信号z_ft服从时不变高斯分布：/>其中，s_n,t∈C^F表示第n个声源的第t帧的所有频率成分，r_n,t表示第n个声源的第t帧的方差，F表示傅里叶变换的频点的数目，R_f表示噪声信号的协方差矩阵。因此，语音信号s_ft和噪声信号z_ft可以通过以下方式进行迭代推导：

首先根据声源分离矩阵W_f和M路声音信号x_ft计算N个声源中每个声源的方差，初始化时声源分离矩阵W_f为单位矩阵。例如，根据公式5计算N个声源中第n个声源的方差r_nt，表示声源分离矩阵W_f中第n个声源的系数，F表示傅里叶变换的频点的数目。

然后，根据N个声源中每个声源的方差r_nt和M路声音信号的x_ft计算N个声源中每个声源的加权协方差矩阵V_nf。例如，根据公式6计算第n个声源的加权协方差矩阵V_nf，T为总帧数：

然后，根据N个声源中每个声源的加权协方差矩阵更新声源分离矩阵W_f。例如，根据公式7和公式8更新声源分离矩阵W_f中的第n个声源的系数w_nf，其中，e_n表示单位阵中的第n个向量，表示上一次迭代计算得到的声源分离矩阵W_f和噪声分离矩阵U_f构成的矩阵(见公式4)：

然后，根据声源分离矩阵W_f和M路声音信号x_ft得到噪声分离矩阵U_f。例如，根据公式9得到噪声分离矩阵U_f中的J_f，其中，E₂＝[0_(M-N)×NI_M-N]：

最后，根据声源分离矩阵W_f和M路声音信号x_ft得到一路第一语音信号s_ft，根据噪声分离矩阵U_f和M路声音信号x_ft得到M-1路噪声信号z_ft。例如，根据前文所述的公式2即得计算得到一路第一语音信号s_ft，根据前文所述的公式3即可计算得到M-1路噪声信号z_ft。

需要说明的是，公式6可以应用于离线计算，进行在线计算时可以根据上一次迭代的数据对本次迭代的数据进行平滑处理(例如一阶递归平滑处理)，以消除数据大幅度的波动。例如可以采用公式10来进一步优化公式6，即根据上一次迭代的加权协方差矩阵对本次迭代的加权协方差矩阵进行平滑处理。同理，可以采用公式11来进一步优化α、β为系数，V_nf,t表示本次迭代按照公式6计算的V_nf，V_nf,t-1表示上一次迭代按照公式10计算的V_nf，C_f,t表示本次迭代按照/>计算的C_f，C_f,t-1表示上一次迭代按照公式11计算的C_f：

V_nf＝αV_nf,t+(1-α)V_nf,t-1 公式10

C_f＝βC_f,t+(1-β)C_f,t-1 公式11

S103、对第一语音信号进行单麦噪声估计得到第一噪声信号和第二语音信号。

第一语音信号的信噪比与原始声音信号的信噪比相比有了显著提升，但是还会有噪声残留，因此对第一语音信号进行单麦噪声估计，以实现进一步降噪。

单麦噪声估计可以通过多种方式来实现，在一种可能的实施方式中，如图5所示，首先根据第一噪声信号的频谱可以得到第一语音信号的能量谱(S201)(能量谱为频谱的平方)，对第一语音信号的能量谱进行平滑处理以消除大幅度的波动(S202)，对平滑后的第一语音信号的能量谱进行最小值跟踪，从而得到第一噪声信号的能量谱(S203)。最小值跟踪的原理是：包含噪声信号的声音信号在各个频段的能量谱最低会衰减到噪声信号的功率水平，通过跟踪各个频带的能量谱的最小值，就可以得到第一噪声信号的能量谱。

示例性的，如图6和公式12所示，假设|Y(λ,k)|²是第一语音信号的能量谱，λ为帧序号，k为频带序号，因为能量谱波动比较快，所以采用一阶递归平滑处理得到平滑后的能量谱P(λ,k)，α为系数。通过对平滑后的第一语音信号的能量谱P(λ,k)进行最小值跟踪，得到第一噪声信号的能量谱。

P(λ,k)＝αP(λ-1,k)+(1-α)|Y(λ,k)|² 公式12

将第一语音信号的能量谱减去第一噪声信号的能量谱即得到第二语音信号的能量谱，第二语音信号相当于第一语音信号中消除噪声信号后得到的语音信号。由于IVE存在方差估计不准的问题，所以可以对上一帧的第一语音信号进行单麦噪声估计得到上一帧的第二语音信号，根据上一帧的第二语音信号，对当前帧进行IVE时得到的每个声源的方差(即公式5得到的r_nt)进行修正(如公式13)，以避免IVE方差估计不准的问题：

E(s)＝αE(S)+(1-α)E(s) 公式13

其中，s表示当前帧进行IVE得到的当前帧的第一语音信号的能量谱，S表示对上一帧的第一语音信号进行单麦噪声估计得到的上一帧的第二语音信号的能量谱，E表示按照公式5计算方差。α为系数，取值范围为0-1，α＝0表示不用对第一语音信号的方差修正，α＝1表示完全采用上一帧的第二语音信号的方差代替当前帧的第一语音信号的方差。

如图7所示，可以通过语音活动检测(voice activity detection，VAD)来检测M路声音信号中任意一路声音信号是否包括语音信号(S301)。如果包括语音信号，则用修正后的每个声源的方差更新声源分离矩阵W_f和噪声分离矩阵U_f(S302、S303)，即需要更新公式8中的声源分离矩阵W_f中的第n个声源的系数w_nf，并更新公式9中噪声分离矩阵U_f中的J_f。如果不包括语音信号，则只需要用修正后的每个声源的方差更新噪声分离矩阵U_f(S303)，即更新公式9的噪声分离矩阵U_f中的J_f。从而降低运算工作量。

S104、根据第一语音信号对M-1路噪声信号进行滤波得到第二噪声信号。

具体的，可以利用第一语音信号的能量谱对M-1路噪声信号的能量谱进行滤波，以消除M-1路噪声信号中的语音信号。滤波方式可以为自适应滤波。

假设根据L帧的第一语音信号得到长度L的向量为X_t表示第t帧的第一语音信号的能量谱，X_t-L+1表示第t-L+1帧的第一语音信号的能量谱。滤波器系数为M-1路噪声信号的能量谱求和后得到的总体噪声信号的能量谱为D_t，则滤波后得到的第二噪声信号的能量谱为/>进一步地，根据第二噪声信号的能量谱和第一语音信号的能量谱对滤波器系数进行更新/>μ为系数。

或者，可以用来自主麦的声音信号的能量谱替换第一语音信号的能量谱从而得到新的向量并进行上述计算，即根据来自主麦的声音信号的能量谱对M-1路噪声信号的能量谱进行滤波得到第二噪声信号的能量谱。或者，可以用来自副麦的声音信号的能量谱替换M-1路噪声信号的能量谱求和后的总体噪声信号的能量谱D_t，并进行上述计算，即根据第一语音信号的能量谱对来自副麦的声音信号的能量谱进行滤波得到第二噪声信号的能量谱。

S105、对第一噪声信号和第二噪声信号进行融合得到第三噪声信号。

取第一噪声信号的能量谱和第二噪声信号的能量谱在同一时刻的最大值或者最小值或者平均值，得到第三噪声信号的能量谱。

S106、根据第三噪声信号和第一语音信号得到目标语音信号的频谱。

对第三噪声信号的能量谱进行开平方得到第三噪声信号的幅值，对第一语音信号的能量谱进行开平方得到第一语音信号的幅值，根据第三噪声信号的幅值和第一语音信号的幅值计算噪声增益，并根据噪声增益和第一语音信号得到目标语音信号。噪声增益等于第三噪声信号的幅值除以第一语音信号的幅值，根据第一语音信号的频谱*(1-噪声增益)即得到纯净的目标语音信号的频谱。

S107、对目标语音信号的频谱进行傅里叶逆变换得到目标语音信号。

此时，将目标语音信号从频域转换至频域即可输出。

如图8所示，本申请实施例还提供一种芯片***。该芯片***60包括至少一个处理器601和至少一个接口电路602。至少一个处理器601和至少一个接口电路602可通过线路互联。处理器601用于支持电子设备实现上述方法实施例中的各个步骤，例如图4、图5、图7所示的方法，至少一个接口电路602可用于从其它装置(例如存储器)接收信号，或者，向其它装置(例如通信接口)发送信号。该芯片***可以包括芯片，还可以包括其他分立器件。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质包括指令，当指令在上述电子设备上运行时，使得该电子设备执行上述方法实施例中的各个步骤，例如执行图4、图5、图7所示的方法。

本申请实施例还提供一种包括指令的计算机程序产品，当指令在上述电子设备上运行时，使得该电子设备执行上述方法实施例中的各个步骤，例如执行图4、图5、图7所示的方法。

关于芯片***、计算机可读存储介质、计算机程序产品的技术效果参照前面方法实施例的技术效果。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个设备，或者也可以分布到多个设备上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个设备中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个设备中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种声音降噪方法，其特征在于，包括：

分别对两路声音信号进行傅里叶变换后再进行噪声估计，以确定所述两路声音信号的信噪比之差小于信噪比阈值，所述两路声音信号来自距离大于距离阈值的两个麦克风；

对来自M个麦克风的M路声音信号进行傅里叶变换后再进行独立向量提取，得到第一语音信号和M-1路噪声信号；M为大于等于2的整数；

对所述第一语音信号进行单麦噪声估计得到第一噪声信号；

根据所述第一语音信号对所述M-1路噪声信号进行滤波得到第二噪声信号；

对所述第一噪声信号和所述第二噪声信号进行融合得到第三噪声信号；

根据所述第三噪声信号和所述第一语音信号得到目标语音信号的频谱；

对目标语音信号的频谱进行傅里叶逆变换得到目标语音信号。

2.根据权利要求1所述的方法，其特征在于，所述对来自M个麦克风的M路声音信号进行傅里叶变换后再进行独立向量提取，得到第一语音信号和M-1路噪声信号，包括：

对所述M路声音信号进行傅里叶变换得到所述M路声音信号的频谱；

根据声源分离矩阵和M路声音信号的频谱计算每个声源的方差；

根据每个声源的方差和所述M路声音信号的频谱计算每个声源的加权协方差矩阵；

根据每个声源的加权协方差矩阵更新所述声源分离矩阵；

根据所述声源分离矩阵和M路声音信号的频谱得到噪声分离矩阵；

根据所述声源分离矩阵和所述M路声音信号的频谱得到第一语音信号的频谱，根据所述噪声分离矩阵和所述M路声音信号的频谱得到M-1路噪声信号的频谱。

3.根据权利要求2所述的方法，其特征在于，还包括：

对上一帧的第一语音信号进行单麦噪声估计得到上一帧的第二语音信号；

根据所述上一帧的第二语音信号，对当前帧进行独立向量提取时得到的每个声源的方差进行修正。

4.根据权利要求3所述的方法，其特征在于，还包括：

通过语音活动检测来检测一路声音信号是否包括语音信号；

如果包括语音信号，则用修正后的每个声源的方差更新所述声源分离矩阵和所述噪声分离矩阵；

如果不包括语音信号，则用修正后的每个声源的方差更新所述噪声分离矩阵。

5.根据权利要求2-4任一项所述的方法，其特征在于，进行在线计算时，还包括：

根据上一次迭代的加权协方差矩阵对本次迭代的加权协方差矩阵进行平滑处理。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述对所述第一噪声信号和所述第二噪声信号进行融合得到第三噪声信号，包括：

取所述第一噪声信号的能量谱和所述第二噪声信号的能量谱在同一时刻的最大值或者最小值或者平均值，得到所述第三噪声信号的能量谱。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述根据所述第一语音信号对所述M-1路噪声信号进行滤波得到第二噪声信号，包括：

根据公式得到第二噪声信号的能量谱/>

其中，表示L帧的第一语音信号的能量谱得到的长度L的向量，/>为滤波系数，D_t为M-1路噪声信号的能量谱求和后得到的噪声信号的能量谱。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述对所述第一语音信号进行单麦噪声估计得到第一噪声信号，包括：

根据所述第一语音信号的频谱得到所述第一语音信号的能量谱；

对所述第一语音信号的能量谱进行平滑处理；

对平滑后的所述第一语音信号的能量谱进行最小值跟踪，得到所述第一噪声信号的能量谱。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述根据所述第三噪声信号和所述第一语音信号得到目标语音信号的频谱，包括：

对所述第三噪声信号的能量谱进行开平方得到所述第三噪声信号的幅值；

对所述第一语音信号的能量谱进行开平方得到所述第一语音信号的幅值；

根据所述第三噪声信号的幅值和所述第一语音信号的幅值计算噪声增益，所述噪声增益等于所述第三噪声信号的幅值除以所述第一语音信号的幅值；

根据所述第一语音信号的频谱*(1-噪声增益)得到所述目标语音信号的频谱。

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储指令，当所述处理器执行所述指令时，如权利要求1-9任一项所述的方法被执行。

11.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在电子设备上执行时，使得所述电子设备执行如权利要求1-9任一项所述的方法。