CN114373473A

CN114373473A - 通过低延迟深度学习实现同时降噪和去混响

Info

Publication number: CN114373473A
Application number: CN202110290225.5A
Authority: CN
Inventors: 赵晓涵; 陈若非; 刘子赫; 姚斯强
Original assignee: Dayin Network Technology Shanghai Co ltd
Current assignee: Dayin Network Technology Shanghai Co ltd
Priority date: 2020-10-16
Filing date: 2021-03-18
Publication date: 2022-04-19
Also published as: US11404055B2; US20220122597A1

Abstract

本发明提出了一种方法，包括从音频样本的帧中提取关于听觉***的耳蜗冲激响应的频谱特征；从神经网络处获得该帧中语音信号的估值(该神经网络在训练阶段接受过此类训练：即接受频谱特征作为输入并输出语音信号的估值)其中语音信号的估值包括混响，但不包括该帧中存在的噪声；使用在训练阶段获得的映射参数将语音信号的估值映射到该帧的频域，从而获得该帧中混响语音频谱的估值；从时间分布式神经网络中获得该帧的去混响帧，其中该帧中的混响语音频谱的估值被用作该时间分布式神经网络的输入。

Description

通过低延迟深度学习实现同时降噪和去混响

相关申请的交叉引用

本申请要求2020年10月16日提交的标题为“通过低延迟深度学习实现同时降噪和去混响”的美国专利申请号为17/072,605的专利申请的权益，其全部内容通过引用纳入本文。

技术领域

本发明总体上涉及语音增强领域，更具体而言，本发明涉及实时应用中的同时去混响和降噪技术。

背景技术

交互沟通很多时候是在不同的通信渠道中通过不同的媒体类型在线发生的。比如使用视频会议或视频流或简单的电话语音通话进行传输的实时通信。视频可包含音频和视频内容。一个用户(即发送方用户)可以将用户生成的内容(如视频)发送给一个或多个接收方用户。比如，可将一场音乐会直播给许多观众观看。又比如，老师可以向学生直播上课。再如，一些用户可进行包含实时视频的实时聊天。

这样的实时通信中的音频信号(如语音)可能会受到混响和背景噪声的破坏。当声音或信号被空间(如房间、大厅等)中的物体(如墙壁、家具等)吸收时，声音或信号的多次反射和最终衰减会产生混响。背景噪声则可能来自其他的干扰声源。混响和背景噪声都可能导致音频(如语音)质量和清晰度下降。

发明内容

一方面，本发明提出了一种用于对音频样本进行降噪和去混响的方法。该方法包括从音频样本的帧中提取关于听觉***的耳蜗冲激响应的频谱特征；从神经网络处获得该帧中语音信号的估值(该神经网络在训练阶段接受过此类训练：即接受频谱特征作为输入并输出语音信号的估值)其中语音信号的估值包括混响，但不包括该帧中存在的噪声；使用在训练阶段获得的映射参数将语音信号的估值映射到该帧的频域，从而获得该帧中混响语音频谱的估值；从时间分布的神经网络处获得该帧的去混响帧，其中该帧中的混响语音频谱的估值被用作该时间分布的神经网络的输入。

第二方面，本发明提出了一种用于对音频样本进行降噪和去混响的***。该***包括降噪模块、自适应映射模块和去混响模块。降噪模块被配置为从音频样本的帧中提取关于听觉***的耳蜗冲激响应的频谱特征；从神经网络获得该帧中语音信号的估值(该神经网络在训练阶段接受过此类训练：即接受频谱特征作为输入并输出语音信号的估值)其中语音信号的估值包括混响，但不包括该帧中存在的噪声。适应映射模块被配置为使用在训练阶段获得的映射参数将语音信号的估值映射到该帧的频域，从而获得该帧中混响语音频谱的估值。去混响模块被配置为从时间分布的神经网络处获得该帧的去混响帧，其中该帧中的混响语音频谱的估值被用作该时间分布的神经网络的输入。

第三方面本发明提出了一种包括处理器的实施设备。处理器被配置为从音频样本的帧中提取关于听觉***的耳蜗冲激响应的频谱特征；从神经网络获得该帧中语音信号的估值(该神经网络在训练阶段接受过此类训练：即接受频谱特征作为输入并输出语音信号的估值)其中语音信号的估值包括混响，但不包括该帧中存在的噪声；使用在训练阶段获得的映射参数将语音信号的估值映射到该帧的频域，从而获得该帧中混响语音频谱的估值；从时间分布的神经网络处获得该帧的去混响帧，其中该帧中的混响语音频谱的估值被用作该时间分布的神经网络的输入。

以上各个方面可以采用各种不同的实施方式来实现。例如，可以通过合适的计算机程序来实现以上各方面，这些计算机程序可以在合适的载体介质上实现，该合适的载体介质可以是有形的载体介质(如磁盘)或无形的载体介质(如通信信号)。也可以使用合适的设备来实现各方面功能，该合适的设备可以采取运行计算机程序的可编程计算机的形式，该计算机程序被配置为可实现本发明所述的方法和/或技术。以上各方面也可以组合使用，以使得某一方面技术所述的功能可以在另一方面的技术中实现。

附图说明

本文的描述以附图作为参考，其中在各个附图中相同的标识指代相同的组件。

图1是根据本发明实施例所绘制的用于对实时音频进行降噪和去混响的训练阶段技术的示例图。

图2是根据本发明实施例所绘制的将子带增益映射到频率仓的示意图。

图3是根据本发明实施例所绘制的用于对实时音频进行降噪和去混响的技术的示例图。

图4是根据本发明实施例所绘制的计算设备的实例框图。

图5是根据本发明实施例所绘制的深度特征卷积神经网络的结构的示例。

图6是根据本发明实施例所绘制的用于对音频样本进行降噪和去混响的技术的流程示例图。

具体实施方式

如上所述，音频信号(如语音)可能会受到混响和/或背景噪声的破坏。迄今已经开发了多种降噪和去混响技术，但是这些技术在执行时可能需要的时间过长或计算资源过多，从而可能会导致不必要的延迟和等待时间，尤其是在实时通信中(如实时视频通信中)这种情况更为明显。

根据本发明所提出的深度学习技术可以同时既有效消除由混响引起的模糊效果又有效抑制音频信号中的环境噪声。即使当瞬态噪声或房间脉冲处于不断变化时，也可以将消除(或至少减少)瞬态噪声(即背景噪声)和抵消室内脉冲响应(即混响)的影响同时且有效地实现(即消除或抑制)。本文所述的深度学习技术可用于在实时应用中(如视频会议等)采用低延迟去混响和降噪算法。在诸如智能电话、手持式设备等计算资源有限的用户设备处均可应用此类技术。

本文所述的技术可以在发送方用户的设备(即发送设备)处使用，也可以在接收方用户的设备(如接收设备)处使用，或两处同时使用。在本文描述中，发送方用户是指可能在讲话的一方并且其语音将被发送到接收方用户并被接收方用户听到的人。发送方用户的语音可能会被背景噪声和/或混响破坏。中央服务器(如基于云的服务器)也可以使用本文所述的技术，该中央服务器可以从发送方用户处接收音频信号并将该音频信号传送至接收方用户。

机器学习(ML)用于对音频信号(如语音信号)进行降噪和去混响(即从中去除混响杂音)。我们可以将本发明看作是分为两个部分：第一部分用于减少背景噪声，第二部分用于去混响。但是本发明的实施方式是在整体上执行降噪和去混响功能，即同时执行降噪和去混响，以下将对此进行阐明。

众所周知，机器学习涉及训练阶段(如分阶段训练等)和推断(如分类、使用、生产等)阶段。通常，在训练阶段机器学习模型所训练的都会直接用于推断阶段。但是，为了降低复杂度(如下所述)，在降低噪声和减少混响的实时应用(如音频或视频会议)中，虽然在训练阶段训练了几种ML模型，但在推理阶段并未使用所有经过训练的ML模型。

图1是根据本发明实施例所绘制的用于对实时音频进行降噪和去混响的训练阶段技术100的示例图。技术100接收训练用数据。训练用数据包括噪声和混响数据样本(如噪声和混响语音样本，在本文中也称为混合语音)和相应的参考样本(如无混响的纯净语音)。

技术100包括特征提取阶段(其中包括模块116和模块118)、降噪阶段102、自适应映射阶段104和去混响阶段106。对于一个给出的训练用混合语音数据，技术100可以将训练用混合语音划分为多个帧。每个帧的持续时间可以是10毫秒、50毫秒，也可以更短或更长。然后，由技术100处理这些帧中的至少一部分(如每个帧)。

在不失一般性原则下，用一个实现方式来举例说明：技术100可以概括为执行以下步骤(如阶段、分步骤等)：1)从混合语音(即从音频帧)中提取伽马通(gammatone)听觉特征并从相应的无混响的纯净语音(即其中的相应音频帧)中提取快速傅立叶变换(FFT)频谱；2)并行地训练两个神经网络，以等效矩形带宽(ERB)划分的子带为单位对语音和噪声进行分离；3)根据混合语音的FFT频谱调整增益映射的自适应参数；以及4)训练时间分布式深度神经网络(TD-DNN)去除后期混响。

我们通过对训练用数据的一帧(在本文中称为“当前帧”)应用技术100来进行阐述。但请注意，相同的操作可以应用于数据的每个帧。

模块116可以用于从当前帧中提取声波形的短时频谱特征。频谱特征可以是指听觉***的耳蜗冲激响应。在一个示例中，带通滤波器可以用于从当前帧中提取短期频谱特征。在另一个示例中，也可以使用伽马通滤波器组。在又一个示例中，还可以使用64路滤波器组。因此，可以从当前帧中提取64个通道的伽马通特征。伽马通滤波器组表示听觉***的耳蜗冲激响应。也就是说，伽马通滤波器组可以近似神经纤维的听觉反应。伽马通滤波器的脉冲响应如公式(1)所示:

在公式(1)中，A表示该帧的音频信号的幅度；n表示滤波器阶数，它在很大程度上决定了滤波器裙边的斜率；b_i(以赫兹为单位)表示带宽并控制脉冲响应函数的持续时间；f_i(以赫兹为单位)表示载波的中心频率，

(以弧度为单位)表示载波的相位。带宽b_i可以是b_i＝1.019ERB(f_i)，其中ERB表示等效矩形带宽。伽马通滤波器组的脉冲响应可以为耳蜗内基底膜的运动提供合适数据。

如上所述，通过具有不同中心频率f_i的64路伽马通滤波器组可以对当前帧进行滤波，以获得相应的特征数据。由此可以获得当前帧的64个特征。伽马通滤波器组通常可定义为：使滤波器中心频率与带宽成比例地分布在整个频率上，这称为等效矩形带宽(ERB)标度。

从伽马通滤波器组中提取的特征可以用作降噪阶段102的输入数据。训练阶段(即在技术100中)的降噪模块通过估算当前帧的每个子带(即每个频点)的ERB增益来将语音中的加性噪声分离出来。ERB标度为非线性频率标度，它可以基于人类听觉***。ERB标度在低频时呈现较窄的分辨率，而在高频时呈现较粗略的分辨率。因此，使用ERB增益可以有效地保留语音谐波并抑制混合语音中的噪声。此外，与短时傅立叶变换(STFT)时频表示相比，使用伽马通特征和ERB增益可以大大降低计算的复杂度，与使用STFT特征作为输入的神经网络相比也可以减少所需的节点数。例如，因为STFT比伽马通滤波器具有更多特征，因此计算输入中的网络第一层所需的计算量就会更大。

降噪阶段102包括第一个深度特征卷积神经网络(即FCN1 108)和第二个深度特征卷积神经网络(即FCN2 112)。图5分别描述了FCN1 108和FCN2 112的结构。使用预测仅语音伽马通特征与参考样本的仅语音伽马通特征之间的均方误差损失函数，对FCN1 108和FCN2112一起进行训练。

FCN1 108用于估算混合语音的帧中存在的噪声。因此，FCN1 108的输出是语音信号(即音频帧)中的噪声估值，从该噪声中提取了伽马通特征并将其输入到FCN1 108中。由此，FCN1 108在训练中学习从伽马通功能到噪声估值之间的映射。换句话说，FCN1 108生成一个反映噪声信号伽马通特征的掩模。例如，噪声的估值可以是理想软阈值掩模(idealratio mask，即IRM)的估值。IRM代表相对于当前帧的信号的每个子带(或频率仓)的频谱噪声增益。也就是说，可以训练FCN1 108学习从训练样本的帧的伽马通特征到每个子带的IRM(即统称为IRM 110)的映射。因此，IRM 110包含每个子带的IRM。IRM 110中的每个掩模可以是64维掩模。频率仓中的子带增益可以是纯净音频帧(即参考音频帧)与有噪声频帧(即当前帧)的比率，或者也可以是这两者之间比率的估值。将IRM应用于嘈杂语音时可以大大提高清晰度。在一个示例中，待估值的IRM可以由公式(2)给出。但也可以使用其他IRM掩模。

在公式(2)中，S(t,f)²和N(t,f)²分别表示时频单位内的语音能量和噪声能量。参数β可用于对该掩模进行缩放。例如，β可以取值为0.5。

FCN2 112用于估算在混合语音的帧中所存在的语音部分(即无噪声语音)。无噪声语音可以包括混响，因此被称为混响语音。因此，FCN2 112的输出是语音信号(即当前帧)中的混响语音的估值，该语音信号中提取出伽马通特征并将其输入至FCN2 112中。换句话说，FCN2 112生成一个语音信号伽马通特征的掩模。在一个示例中，语音的估值可以是相敏掩模(phase-sensitive mask，即PSM)的估值。PSM是时频掩模，隐含了与相位相关的信息。PSM是在纯净语音和嘈杂语音的短时傅立叶变换(STFT)幅度上定义的。也就是说，可以训练FCN2 112学习从训练样本的帧的伽马通特征到每个子带的PSM(即统称为PSM 114)之间的映射。因此，PSM 114包含每个子带的PSM。PSM114中的每个掩模可以是64维掩模。频率仓中的子带增益可以是纯净音频帧(即参考音频帧)与嘈杂音频帧(即当前帧)的比率，或者也可以是这两者之间比率的估值。在一个示例中，待估算的PSM可以由公式(3)给出。但也可以使用其他PSM掩模。

在公式(3)中，|S(t,f)|和|Y(t,f)|分别表示纯净语音(即与当前帧相对应的参考帧)和嘈杂语音(即当前帧)的频谱幅度；θ表示在时间-频率单位内的纯净语音(即与当前帧相对应的参考帧)相位与嘈杂语音(即当前帧)相位之差。

重申一下，FCN1 108用于生成噪声信号伽马通特征的掩模，FCN2 112用于生成语音信号伽马通特征的掩模。可以通过均方误差总和(MSE)的相应损失函数一起训练FCN1108和FCN2 112。用于训练FCN2 112的第一个损失函数可以是预测样本的纯语音伽马通特征与参考样本的纯语音伽马通特征之间的MSE。用于训练FCN1 108的第二个损失函数可以是预测样本的纯噪声伽马通特征与参考样本的纯噪声伽马通特征之间的MSE。

如上所述，在降噪阶段102获得ERB划分的子带的语音增益。不是直接将增益应用于相应的子带，而是可以由自适应映射阶段104将增益映射回傅立叶域，如STFT域。在训练阶段，自适应映射阶段104得到(如调整、优化等)映射参数{β_i-1,j β_i,j β_i+1,j}，下文将进一步阐述。映射参数可以是固定参数，并且可以根据经验(例如通过反复试验)进行调整，例如通过搜索等式(4)中定义的可能范围，以使收敛损失最小。映射参数{β_i-1,j β_i,j β_i+1,j}可满足以下条件：

本文描述了三个映射参数，但在实际应用中也可以使用更多或更少的映射参数。下面在公式(5)中进一步描述公式(4)的参数索引(即i和j)。如图5所示，FCN2 112(和FCN1108)的输出具有与FCN2 112(和FCN1 108)的输入相同的维度。当从FCN2112处获得用于子带的掩模(即PSM 114)时，由于从模块116处获得了64个伽马通特征并将其用作FCN2 112的输入，因此可得到64个子带。FCN2 112的输出是64维掩模，即PSM114。PSM114是与64个子带相对应的掩模。但是最好是能获得频谱的每个频率仓(如FFT频谱)的增益，因为最终输出将根据该频谱(如FFT频谱)来计算。使用模块118可以获得FFT频谱。也就是说，模块118可以接收当前帧并从当前帧中提取FFT频谱，该频谱是带噪声和混响的语音。也就是说，模块118可以从当前帧中提取噪声频率和混响频率。

如公式(5)所示，从对应的子带中可以估算出与子带内的每个频率仓相关的增益。假设第i个ERB子带由K个频点组成，则该子带内第j个频点的增益(表示为g_ij)可通过以下公式获得：

g_ij＝β_i-1，jG_i-1+β_i，jG_i+β_i+1，jG_i+1 (5)

自适应映射阶段104可以在训练过程中使用FCN1 108的输出，如下所示。FCN1 108和FCN2 112提供幅度增益和相位因子，它们将分别改变伽马通特征的幅度和相位。幅值增益(如MG_i)和相位因子(如PF_i)可以一起通过公式G_i＝MG_i*PF_i得到伽马通特征的增益(G_i)。然后，自适应映射阶段104可以使用如公式(5)中所述的伽马通特征的增益。

图2是根据本发明实施例所绘制的将子带增益映射到频率仓的示意图。示例200示出了公式(5)的运算过程。示例200示出了通过伽马通特征计算出的增益到完整FFT频谱的映射模式。示例200包括从FCN2 112获得的PSM掩模的ERB子带增益202(即ERB增益或PSM114的掩模)和从模块118获得的FFT频谱204的频率仓幅度。可以使用公式(5)，将映射参数作为ERB子带增益210(即G_i)、ERB子带增益208(即G_i-1)和ERB子带增益212(即G_i+1)的加权总和来计算ERB子带增益210的频率仓206的增益(g_ij)。

回头来看图1，自适应映射阶段104的输出是FFT域中估值的全频带噪声增益，可用于获得增强的帧。可将全频带增益乘以嘈杂语音(即当前帧)来获得增强的语音(即增强的当前帧)。更具体而言，可将有噪声和混响的当前帧的幅度谱乘以相应的全频带增益以获得增强的帧。增强帧指的是已被降噪但仍有混响的当前帧。这样，在自适应映射阶段之后，可以将估值的全频带增益应用于有噪声和混响语音(即当前帧)的幅度谱，以获得对混响语音的幅度谱的估值。

去混响阶段106包括对数压缩模块120和时间分布式深度神经网络(即TDDNN122)。在一些实现中，去混响阶段106也可以不包括对数压缩模块120。

对数压缩模块120可以用于计算增强语音的幅度谱图的对数压缩。对数压缩模块120可用于减小幅度谱中的值的动态范围。因此，采用对数计算而不是线性计算可以缩小动态范围。

在技术100的训练阶段期间，可以训练TDDNN 122实现从预测的混响帧(即增强帧)的频谱到纯净且无混响的语音帧(即参考帧)的频谱映射。例如，TDDNN 122可以接收当前帧的对数压缩特征作为输入。更具体而言，TDDNN 122接收增强帧(如降噪后但仍有混响的帧)的幅度谱的对数压缩估值。TDDNN 122的输出是纯净帧的频谱的估值。纯净帧是指当前帧经过降噪和去混响后的帧。

在一个示例中，TDDNN 122可以是具有三个隐藏层和一个线性输出层的时间分布式全连接深度神经网络。众所周知，时间分布式神经网络在一段时间内保持一个内部状态，该状态代表之前输入的上下文信息，该时间量不是先验确定的，而是取决于在训练过程中获得的权重和输入数据。同样为业界所熟知的是，时间分布网络可以在考虑上下文信息(即内部状态)的同时将输入序列转换为输出序列。因此，不需要将上下文信息(如当前帧之前的一个或多个帧的特征)与当前帧一起明确地输入至TDDNN 122。因此，通过减少对TDDNN122的输入可以降低TDDNN 122的复杂度。

图3是根据本发明实施例所绘制的用于对实时音频进行降噪和去混响的技术的示例图。在诸如音频和/或视频会议、电话通话等实时应用中可使用技术300，将通信方之间互相交换的语音或从一个发送方用户传达给一个或多个接收方用户的语音进行降噪和去混响。技术300可以由发送设备来实现。因此，在发送给接收方用户之前，可以在发送方用户的设备上对来自扬声器的语音进行降噪和去混响，使得接收方用户可以接收到纯净的语音(即降噪和去混响后的语音)。技术300也可以由接收设备来实现。因此，在接收方用户的接收设备处接收到的语音可能是有噪声和带混响的。可以对接收到的语音运行技术300以产生纯净的语音(即降噪和去混响后的语音)。然后将纯净的语音输出到接收方用户。技术300也可以由中央服务器来实现，该中央服务器从发送设备处接收混合语音，执行技术300以获得纯净且无混响的语音，并将纯净且无混响的语音发送(如转发、发送等)给一个或多个接收方。技术300可以计算设备实现，如图4中的计算设备。

技术300包含的各阶段与图1中所示技术100的各阶段相似。因此，技术300包括特征提取阶段，该特征提取阶段包括模块316和模块318，与图1中的模块116和模块118相似；降噪阶段302；自适应映射阶段304；以及去混响阶段306。

技术300使用图1的技术100所训练的一些组件，即降噪阶段302使用FCN2312，该FCN2 312使用图1所示的训练后的FCN2 112的参数；自适应映射阶段304使用由图1中自适应映射104调整过的映射参数；去混响阶段306使用的对数压缩模块320如图1中对数压缩模块120所示；以及TDDNN 322，它也使用了图1所示的被训练的TDDNN 122的参数。

在不失一般性原则下，用一个实施例来举例说明：技术300可以描述为执行以下步骤：1)为接收到的混合语音(即有噪声和混响的语音)的每个当前帧提取64通道伽马通特征；2)使用训练过的FCN2进行语音估算；3)使用自适应增益映射获得当前帧中的预测混响语音频谱；4)对预测的混响语音频谱进行对数压缩运算；5)利用时间分布式全连接深度神经网络(即TDDNN 322)估值每个当前帧中的纯净语音频谱。

技术300利用来自训练阶段(即图1的技术100)的完善的神经网络和冻结参数，可以有效地同时实现单声道去混响和降噪。可以采用逐帧完成并且以因果方式实现技术300。可以为当前帧提取64通道的伽马通特征，并将其与上下文窗口中的相应特征连接起来，形成FCN2 312的输入。对于伽马通过滤器，参照公式(1)所定义，可将FFT谱与上下文窗口相乘得出每个伽马通特征。

然后可以使用冻结参数{β_i-1,j β_i,j β_i+1,j}将预测的ERB子带增益映射到STFT域。当前帧的混合语音频谱与预测增益的乘积可以用作混响语音频谱的估值。通过对数压缩，然后将关于当前帧的估值语音频谱作为时间分布式全连接深度神经网络的输入，以实现去混响功能。

要注意的是，图1的自适应映射阶段104(即在训练期间)从FCN1 108和FCN2 112处接收输入数据。然而，在推断阶段(即在实时应用中)，技术302并没有使用与FCN1 108相对应的组件。在技术300中，仅使用了FCN2 312。FCN 312用于去混响。FCN2 312的输出直接用作自适应映射阶段312的输入(G_i＝PF_i)。

图4是根据本发明实施例所绘制的一个计算设备的示意框图。计算设备400可以是包括多个计算设备的计算***，也可以是一个计算设备，如移动电话、平板电脑、膝上电脑、笔记本电脑、台式计算机等等。

计算设备400中的处理器402可以是常规的中央处理器。处理器402也可以是能够操纵或处理现存或今后开发的信息的其他类型的设备或多个设备。例如，尽管本文示例中可以用所示的单个处理器(如处理器402)来实现，但是如果使用多个处理器将可体现速度和效率方面的优势。

在一个实现中，计算设备400中的存储器404可以是只读存储器(ROM)设备或随机存取存储器(RAM)设备。其他恰当类型的存储设备也可以用作存储器404。存储器204可以包含由处理器402使用总线412访问的代码和数据406。存储器404还可以包含操作***408和应用程序410，其中应用程序410包含至少一个程序，该程序允许处理器402执行本文所述的一个或多个技术。例如，应用程序410可以包括应用程序1到N，该应用程序1到N中包含在实现同时去混响和降噪应用中可用到的程序和技术。例如，应用程序410可以包括技术100或其各项技术，以实施训练阶段。例如，应用程序410可以包括技术300或其各项技术，以实现实时去混响和降噪功能。计算设备400还可以包括辅助存储设备414，比如与移动计算设备一起使用的存储卡。

计算设备400还可以包括一个或多个输出设备，如显示器418。在一个示例中，显示器418可以是显示器与可操作触摸输入的触敏元件组合而成的触敏显示器。显示器418可以通过总线412耦合到处理器402上。也可以使用其他允许用户编程或使用计算设备400的输出设备作为显示器418之外的附加或替代输出设备。如果输出设备是显示器或包含显示器，则该显示器可以以各种方式实现，包括液晶显示器(LCD)、阴极射线管(CRT)显示器或发光二极管(LED)显示器，如有机LED(OLED)显示器等。

计算设备400还可以包括图像传感设备420(如相机)，或者包括现存或以后开发的可以感测图像(如一幅用户操作计算设备400的图像)的任何其他图像传感设备420，或者与上述图像传感设备420通信。可将图像传感设备420摆放至面对操作计算设备400的用户的位置。在一个示例中，可以配置图像传感设备420的位置和光轴，使得视场范围包括与显示器418直接相邻并且可见到显示器418的区域。

计算设备400还可以包括声音传感设备422(如麦克风)，或者包括现存或以后开发的可以感测设备400附近的声音的任何其他声音传感设备422，或者与上述声音传感设备422通信。可将声音传感设备422摆放至面对操作计算设备400的用户的位置，并可以对其进行配置使其接收声音，并且可以被配置为接收声音，比如用户操作计算设备400时由用户发出的声音，如语音或其他声音。计算设备400还可以包括声音播放设备424或与之通信，如扬声器、头戴式耳机或现存或以后开发的可以根据计算设备400指令播放声音的任何其他声音播放设备。

图4仅描绘了计算设备400的处理器402和存储器404被集成到单个处理单元中的情况，除此之外也可以采用其他配置。处理器402的操作可以分布在多个机器(每个机器包含一个或多个处理器)上，这些机器可以直接耦合或跨局域或其他网络耦合。存储器404可以分布在多个机器上，例如基于网络的存储器或运行计算设备400的操作的多个机器中的存储器。本文仅描述了单个总线的情况，除此之外计算设备400的总线412也可以由多个总线组成。此外，辅助存储器414可以直接耦合到计算设备400的其他组件，也可以通过网络访问，或者也可以包括诸如存储卡的单个集成单元或诸如多个存储卡的多个单元。因此，计算设备400可以通过各种各样的配置实现。

图5是根据本发明实施例所绘制的深度特征卷积神经网络(CNN)的结构示例图。图1中的FCN1 108和FCN2 112，以及图3中的FCN2 312均可具有示例500所示的结构。但也可以有其他的结构形式。

在CNN中，特征提取部分通常包括一组卷积运算，该组卷积运算一般由一系列滤波器组成，根据滤波器(不妨假设通常为大小为k的平方)对输入数据(如图像、音频样本的音频帧等)进行滤波。例如，在机器视觉的应用中，这些滤波器可用于查找输入图像中的某些特征。这些特征可以包括例如边缘、拐角、端点等等。随着多层堆叠卷积运算的增加，之后的卷积运算将可以找到更高级别的特征。

在CNN中，分类部分通常是一组完全连接的层。可以将完全连接的层视为对音频帧所有输入特征进行检查，以便生成高级的分类器。经过几个阶段(如一系列)的高级分类器最终会生成理想的分类输出。

如上所述，典型的CNN网络由许多卷积运算(如特征提取部分)和随后的许多全连接层组成。通常在机器学习的训练阶段会确定每种类型的运算数目及其各自的大小。如本领域技术人员所熟知的，也可以在每个部分中包含附加的层和/或操作。例如，可以将池化(Pooling)、最大池化(MaxPooling)、随机失活(Dropout)、激活(Activation)、归一化，批量归一化(BatchNormalization)及其他运算的组合与卷积运算(即在特征提取部分的运算)和/或全连接运算(即在在分类部分的运算)一起联合使用。全连接层可被称为密集连接层。如本领域技术人员所熟知的，卷积运算可以使用SeparableConvolution2D或Convolution2D运算。

卷积层可以是一组运算，从Convolution2D或SeparableConvolution2D运算开始，然后是零个或多个运算(如，Pooling、Dropout、Activation、Normalization、BatchNormalization、其他运算等或以上运算的组合)，直到达到另一个卷积层、密集层或得到CNN的输出。类似地，密集层也可以是一组运算或层，从密集操作(即全连接层)开始，然后是零个或多个运算(如，Pooling、Dropout、Activation、Normalization、BatchNormalization、其他运算等或以上运算的组合)，直到达到另一个卷积层、密集层或得到CNN的输出。基于卷积网络的特征提取和使用密集运算的特征分类之间的区别可以以展平操作(Flatten)为界，该操作指将特征提取中的多维矩阵平化为矢量。

在典型的CNN中，每个卷积层都可以由一组滤波器组成。虽然一次操作中仅将滤波器应用于一个输入数据的子集，但该过滤器可通过如扫描输入信号等操作应用于整个输入。该层执行的运算通常是线性/矩阵乘法运算。激活函数可以是线性函数或非线性函数(如sigmoid函数、arcTan函数、tanH函数、ReLu函数等)。

每个全连接运算都是线性运算，其中每个输入通过权重(也称为参数)与每个输出相连。这样，具有N个输入和M个输出的全连接层总共可以有N×M个权重。如上所述，通常在密集运算之后会有一个非线性激活函数以生成该层的输出。

示例500包括一个输入层502。示例500还包括用于下采样的三个跨步卷积层(即层504、506、508)和用于上采样的三个转置卷积层(即层510、512、514)。随着感受野的增加，在时域和频域中都提取了全局信息。感受野可以定义为输入空间中特定特征正在观察和/或受到其影响的区域。

示例500是一种编码器-解码器结构。由此，下采样路径会将输入的伽马通频谱压缩到低分辨率特征图上，从而对更长的时间和频率依赖性进行建模。上采样路径将这种紧凑的表示形式作为输入，并提高分辨率以将输出映射回原始大小。

为了减轻由编码器中的压缩引起的信息损失并允许梯度的直接传播，可以跳过连接516、518而直接连接相同大小的层。带泄漏整流线性单位(ReLU)和S形函数(sigmoidfunction)可以分别用作隐藏层和输出层的激活函数。但也可以采用其他激活函数。

图6是根据本发明实施例所绘制的用于对音频样本进行降噪和去混响的技术的流程示例图。在一个示例中，技术600可以接收音频样本，例如音频流，而音频流可以是视频流的一部分。在另一个示例中，技术600可以接收音频流的帧以进行处理。在又一个示例中，技术600可以将音频样本按帧划分，并且根据图3中的技术300分别处理每个帧，如下文所述。

技术600可以由计算设备(如图4中的计算设备400)来实现。技术600可以被实现为由计算设备(如计算设备400)执行的软件程序。软件程序可以包括机器可读指令，该机器可读指令可以存储在存储器(如存储器404或辅助存储器414)中，并且在由处理器(如处理器402)运行行时可以使计算设备执行技术600。可以使用专用硬件或固件来实现技术600。也可以使用多个处理器和/或多个存储器。

在602处，技术600从音频样本的一帧中提取表示听觉***的耳蜗冲激响应的频谱特征。在一个示例中，可以使用伽马通滤波器组提取光谱特征，如上所述。

在604处，技术600从神经网络处获得该帧中语音信号的估值。该神经网络可以如图3的FCN2 314所示。因此，在图1所示的训练阶段对神经网络进行训练，以接受频谱特征作为输入并输出语音信号的估值。如上所述，语音信号的估值可以包括混响，但是不包括帧中存在的噪声。在一个示例中，从神经网络输出的语音信号的估值是对相敏掩模(PSM)的估值，如上所述。因此，对相敏掩模的估值可以包括预测的等效矩形带宽(ERB)子带增益。

在一个示例中，从神经网络处获得帧中的语音信号的估值可以包括将频谱特征与上下文窗口的相应特征连接以获得输入矢量；并将输入矢量作为神经网络的输入。

在606处，技术600使用在训练阶段获得的映射参数将语音信号的估值映射到帧的频域，以获取帧中的混响语音频谱的估值，如图3中的自适应映射阶段304所示。频域是指傅立叶域。在一个示例中，频域可以包括从帧中提取的短时傅立叶变换(STFT)特征。

使用映射参数将语音信号的估值映射到帧的频域可以包括使用公式(5)来估算子带内的每个频率仓的增益g_ij。

在608处，技术600从时间分布式神经网络获得该帧的去混响帧。该帧中的混响语音频谱的估值被用作时间分布式神经网络的输入。时间分布式神经网络可以如图3的TDDNN322所示。在一个示例中，技术600使用对数压缩来改变动态范围，如图3的对数压缩模块320所示。因此，从时间分布式神经网络获得该帧的去混响帧可以包括：对帧中的混响语音频谱进行对数压缩，以获得对数压缩运算后的混响语音频谱；并将对数压缩运算后的混响语音频谱作为时间分布式神经网络的输入。

本发明实施方案还涵盖了一种用于对音频样本进行降噪和去混响的***。该***包括降噪模块、自适应映射模块和去混响模块。

如图3所示，降噪模块可以被配置为从音频样本的帧中提取频谱特征；并在训练阶段从经训练后的第一个神经网络处获得该帧中语音信号的估值，其中第一个神经网络受到训练以接受频谱特征作为输入并输出语音信号的估值。同样如上所述，自适应映射模块可以被配置为使用在训练阶段期间获得的映射参数将语音信号的估值映射到该帧的频域，以获得该帧中混响语音频谱的估值。如上文所述，去混响模块可以被配置为从时间分布式神经网络处获得该帧的去混响帧，其中该帧中的混响语音频谱的估值作为该时间分布式神经网络的输入。

在训练阶段，如图1中的自适应映射阶段104所示，可以通过逐步训练自适应映射模块来接收训练用音频样本的训练帧的幅度谱，其中幅度谱包括噪声和混响频率；从降噪模块处接收训练用语音信号的估值；从降噪模块处接收训练用噪声信号的估值；并根据幅度谱调整用于增益映射的映射参数。如图1中的TDDNN 122所示，可以逐步训练去混响模块将混响语音频谱的幅度谱进行对数压缩；并训练时间分布式神经网络将混响语音频谱的对数压缩幅度谱映射到纯净的无混响的语音频谱。

本发明实施方案还涵盖了对音频(如语音)流进行降噪和去混响的技术。该技术包括接收音频流；针对音频流的至少其中一部分帧执行下列操作：提取音频流中这些帧的当前帧的伽马通特征；将伽马通特征输入至神经网络，该神经网络估算当前帧中的ERB子带增益；获取当前帧的幅度谱；将估算的ERB子带增益映射到幅度谱中以获得当前帧中混响语音谱的估值；将非线性函数应用于当前帧中的混响语音频谱以获得压缩的混响语音频谱；将压缩后的混响语音频谱输入到时间分布式神经网络中，得到去混响后的当前帧。

为了简化说明，图1，3和6中的技术100、300和600分别由一系列模块、步骤或操作绘制而成。但根据本发明，这些模块、步骤或操作可以以各种顺序和/或同时发生。另外，也可以使用本文未提到和描述的其他步骤或操作。此外，根据本发明设计的技术也可能不需要采用所有示出的步骤或操作即可实现。

本文采用“示例”一词来表示举例、实例或说明。本文所述用于“示例”的任何功能或设计不一定表示其优于或胜于其他功能或设计。相反，使用“示例”一词是为了以具体的方式呈现概念。本文中所使用的“或”字旨在表示包含性的“或”而不是排他性的“或”。也就是说，“X包括A或B”意在表示任何自然的包含性排列，除非另有说明，或者从上下文可明确判断则另当别论。换句话说，如果X包含A，X包含B，或X包含A和B，那么在任何前述实例下“X包含A或B”都成立。此外，在本申请以及所附权利要求书中，“一”、“一个”通常应该被解释为表示“一个或多个”，除非另有说明或从上下文中明确指出是单数形式。另外，本文通篇中的“一个功能”或“一项功能”这两个短语并不意味着同一个实施方式或同一项功能，除非另有特别说明。

图4所示的计算设备400和/或其中的任何组件以及图1或图3所示的任何模块或组件(以及存储在其上和/或由此执行的技术、算法、方法、指令等)可以用硬件、软件或其任何组合来实现。硬件包括如知识产权(IP)内核、专用集成电路(ASIC)、可编程逻辑阵列、光处理器、可编程逻辑控制器、微代码、固件、微控制器、服务器、微处理器、数字信号处理器或任何其他适用的电路。在本发明中，“处理器”一词应理解为包含任何上述内容中的一项或多项的组合。“信号”和“数据”等术语可互换使用。

此外，一方面该技术可以使用具有计算机程序的通用计算机或处理器来实现，该计算机程序在被运行时可执行本文所述的任何相应的技术、算法和/或指令。另一方面，也可以有选择地使用专用计算机或处理器，配备专用硬件设备用以执行本文描述的任何方法、算法或指令。

此外，本发明的全部或部分实施方式可采取计算机程序产品的形式，该程序产品可通过计算机使用或可由计算机可读介质进行访问等。计算机可用或计算机可读介质可以是任何设备，该设备可以具体包含、存储、传送或传输供任何处理器使用或与其结合使用的程序或数据结构。该介质可以是电子的、磁的、光学的、电磁的或半导体装置等等。也可包含其他适用的介质。

虽然已经结合某些实施例对本发明进行描述说明，但应理解为本发明并不限于所公开的实施方式，另一方面，本发明旨在覆盖权利要求范围之内所涵盖的各种变体和等同设置，该范围应被赋予最宽泛的解释以涵盖法律允许的所有上述变体和等同设置。

Claims

1.一种用于对音频样本进行降噪和去混响的方法：

从音频样本的帧中提取关于听觉***的耳蜗冲激响应的频谱特征；

从神经网络处获得该帧中语音信号的估值，该神经网络在训练阶段接受过此类训练：接受频谱特征作为输入并输出语音信号的估值，其中语音信号的估值包括混响，但不包括该帧中存在的噪声；

使用在训练阶段获得的映射参数将语音信号的估值映射到该帧的频域，从而获得该帧中混响语音频谱的估值；以及

从时间分布式神经网络处获得该帧的去混响帧，其中该帧中的混响语音频谱的估值被用作该时间分布式神经网络的输入。

2.根据权利要求1所述的方法，其中频谱特征由伽马通滤波器组提取。

3.根据权利要求1所述的方法，其中从神经网络输出的语音信号的估值是对相敏掩模的估值。

4.根据权利要求1所述的方法，其中对相敏掩模的估值包括预测的等效矩形带宽(ERB)子带增益。

5.根据权利要求4所述的方法，其中频域包括从该帧中提取的短时傅立叶变换(STFT)特征。

6.根据权利要求1所述的方法，其中从神经网络处获得该帧中语音信号的估值包括：

将频谱特征与上下文窗口的相应特征连接从而获得输入矢量；以及

将输入矢量作为神经网络的输入。

7.根据权利要求1所述的方法，其中从时间分布式神经网络处获得该帧的去混响帧包括：

对该帧中的混响语音频谱进行对数压缩从而获得对数压缩后的混响语音频谱；以及

将对数压缩后的混响语音频谱作为时间分布式神经网络的输入。

8.根据权利要求1所述的方法，其中使用在训练阶段获得的映射参数将语音信号的估值映射到该帧的频域，从而获得该帧中混响语音频谱的估值包括：

通过下列公式估算出子带内的每个频率仓的增益g_ij

g_ij＝β_i-1,jG_i-1+β_i,jG_i+β_i+1,jG_i+1,

其中g_ij表示第i个ERB子带中的第j个频率仓的增益，

其中G_i-1,G_i和G_i+1分别表示第(i-1)个、第i个和第(i+1)个子带的增益，

其中{β_i-1,jβ_i,jβ_i+1,j}为映射参数。

9.一套用于对音频样本进行降噪和去混响的***，包括：

降噪模块；

自适应映射模块；和

去混响模块，

将降噪模块配置为执行以下操作：

从音频样本的帧中提取关于听觉***的耳蜗冲激响应的频谱特征；并且

从神经网络处获得该帧中语音信号的估值，该神经网络在训练阶段接受过此类训练：即接受频谱特征作为输入并输出语音信号的估值，其中语音信号的估值包括混响，但不包括该帧中存在的噪声；

将自适应映射模块配置为执行以下操作：

将去混响模块配置为执行以下操作：

从时间分布式神经网络中获得该帧的去混响帧，其中该帧中的混响语音频谱的估值被用作该时间分布式神经网络的输入。

10.根据权利要求9所述的***，其中在训练阶段逐步训练降噪模块执行以下操作：

从训练用音频样本的训练用帧中提取训练用频谱特征；

使用训练用频谱特征训练第一个神经网络对包含在训练用音频样本中的训练用语音信号进行估算；并且

使用训练用频谱特征训练第二个神经网络对包含在训练用音频样本中的训练用语音信号进行估算。

11.根据权利要求10所述的***，其中

其中训练用频谱特征包括使用64路滤波器组提取出来的伽马通特征，

其中由相敏掩模估算出训练用语音信号，并且

由理想软阈值掩模估算出训练用噪声信号。

12.根据权利要求10所述的***，其中在训练阶段逐步训练自适应映射模块执行以下操作：

接收训练用音频样本的训练帧的幅度谱，其中幅度谱包括噪声频率和混响频率；

从降噪模块处接收训练用语音信号的估值；

从降噪模块处接收训练用噪声信号的估值；以及

根据幅度谱调整用于增益映射的映射参数。

13.根据权利要求12所述的***，其中在训练阶段逐步训练去混响模块执行以下操作：

将混响语音频谱的幅度谱进行对数压缩，以获得对数压缩后的混响语音频谱；以及

训练时间分布式神经网络将该对数压缩后的混响语音频谱映射到纯净的无混响的语音频谱上。

14.一套设备，包括：

配置为执行以下操作的处理器：

15.根据权利要求14所述的设备，其中频谱特征由伽马通滤波器组提取。

16.根据权利要求14所述的设备，其中从神经网络输出的语音信号的估值是对相敏掩模的估值。

17.根据权利要求16所述的设备，其中对相敏掩模的估值包括预测的等效矩形带宽(ERB)子带增益。

18.根据权利要求17所述的设备，其中频域包括从该帧中提取的短时傅立叶变换(STFT)特征。

19.根据权利要求14所述的设备，其中从神经网络处获得该帧中语音信号的估值包括：

将输入矢量作为神经网络的输入。

20.根据权利要求14所述的设备，其中从时间分布式神经网络处获得该帧的去混响帧包括：