WO2020042706A1

WO2020042706A1 - 一种基于深度学习的回声消除方法

Info

Publication number: WO2020042706A1
Application number: PCT/CN2019/090528
Authority: WO
Inventors: 张�浩; 马重
Original assignee: 大象声科（深圳）科技有限公司
Priority date: 2018-08-31
Filing date: 2019-06-10
Publication date: 2020-03-05
Also published as: CN109841206A; CN109841206B

Abstract

本公开揭示了一种基于深度学习的回声消除方法、装置及电子设备、存储介质，属于计算机技术领域。所述方法包括：从接收的麦克风信号中提取声学特征，所述麦克风信号包括近端信号和远端信号；将所述声学特征在预先训练的具有长短期记忆的递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜；采用所述比值膜对所述声学特征进行掩蔽，将经过掩蔽后的所述声学特征与所述麦克风信号的相位进行合成，得到经过回声消除后的近端信号。上述基于深度学习的回声消除方法及装置能够在背景噪声、双讲和非线性失真等情况下实现回声消除，大大提高回声消除的效果和适用场景。并且无需采用后置滤波器，有效简化电子设备，降低电子设备成本。

Description

一种基于深度学习的回声消除方法

技术领域

本公开涉及计算机应用技术领域，特别涉及一种基于深度学习的回声消除方法、装置及电子设备、存储介质。

背景技术

在通信***中，当扬声器和麦克风耦合时，麦克风将拾取扬声器发出的信号及其混响，由此产生回声。例如电话会议，免提电话和移动通信都存在回声的困扰。

回声消除面临许多问题，如双讲、背景噪声和非线性失真等。首先，双讲是通讯***中典型的对话方式，两端说话人时有同时说话。然而，近端语音信号将严重影响自适应算法的收敛性并且可能导致它们发散。此外，在麦克风处接收的信号不仅包含回声和近端语音信号，还包含背景噪声。传统上，回声消除的办法是通过一个有限脉冲响应(FIR)滤波器自适应地估算扬声器和麦克风之间的声学脉冲响应，从而实现回声的消除，然后通过一个后置滤波器来抑制背景噪声和回声消除后残留的回声。

AEC(Acoustic Echo Cancellation，回声消除)的最终目标是完全消除远端信号，只将近端信号发送出去。然而，传统的回声消除方法均是将回声路径建模为线性***，但由于功放和扬声器等组件的非线性限制，在回声消除的实际情况中，远端信号可能会出现非线性失真，严重影响了回声消除的效果。

发明内容

为了解决相关技术中回声消除的效果不好且需后置滤波器的技术问题，本公开提供了一种基于深度学习的回声消除方法、装置及电子设备、存储介质。

第一方面，提供了一种基于深度学习的回声消除方法，包括：

从接收的麦克风信号中提取声学特征，所述麦克风信号包括近端信号和远端信号；

将所述声学特征在预先训练的具有长短期记忆的递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜；

采用所述比值膜对所述声学特征进行掩蔽；

将经过掩蔽后的所述声学特征与所述麦克风信号的相位进行合成，得到经过回声消除后的近端信号。

可选的，所述从接收的麦克风信号中提取声学特征的步骤包括：

将接收的麦克风信号按照预设时间周期分为时间帧，所述麦克风信号包括近端信号和远端信号；

从所述时间帧中提取频谱幅度矢量；

对所述频谱幅度矢量进行归一化处理，形成声学特征。

可选的，所述频谱幅度矢量进行归一化处理，形成声学特征的步骤包括：

将当前时间帧与过去时间帧的频谱幅度矢量合并进行归一化处理形成声学特征。

可选的，预先训练的所述具有长短期记忆的递归神经网络模型的构建方法包括：

确定进行训练时的说话人声为近端和远端(参考)信号；

收集所述说话人声作为远端、近端时的远端信号、近端信号，并以此建立语音训练集，其中所述远端信号为回声信号，所述近端信号与所述回声信号形成麦克风信号；

通过所述具有长短期记忆的递归神经网络对所述语音训练集进行训练，构建所述具有长短期记忆的递归神经网络模型。

可选的，通过所述具有长短期记忆的递归神经网络对所述语音训练集进行训练，构建所述具有长短期记忆的递归神经网络模型的步骤包括：

分别提取所述麦克风信号、远端(回声)信号的声学特征；

根据所述麦克风信号、远端信号的声学特征，通过所述具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建所述具有长短期记忆的递归神经网络模型。

可选的，通过所述具有长短期记忆的递归神经网络对所述语音训练集进行训练，构建所述具有长短期记忆的递归神经网络模型的步骤也可以包括：

通过传统AEC算法对所述麦克风信号进行线性回声消除；

分别对所述远端信号、经过传统AEC算法进行线性回声消除的线性AEC输出进行声学特征的提取；

根据所述远端信号、所述线性AEC输出的声学特征，通过所述具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建所述具有长短期记忆的递归神经网络模型。

可选的，所述方法还可以包括：

分别对所述远端信号、麦克风信号、所述线性AEC输出进行声学特征的提取；

根据所述远端信号、麦克风信号、所述线性AEC输出的声学特征，通过所述具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建所述具有长短期记忆的递归神经网络模型。

第二方面，提供了一种基于深度学习的回声消除装置，包括：

声学特征提取模块，用于从接收的输入信号中提取声学特征，所述输入信号包括麦克风信号和远端信号；

比值膜计算模块，用于将所述声学特征在预先训练的具有长短期记忆的递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜；

掩蔽模块，用于采用所述比值膜对所述声学特征进行掩蔽；

语音合成模块，用于将经过掩蔽后的所述声学特征与所述麦克风信号的相位进行合成，得到经过回声消除后的近端信号。

可选的，采用理想比值膜作为具有长短期记忆的递归神经网络模型的训练目标。

第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的方法。

第四方面，提供了一种计算机可读存储介质，用于存储程序，所述程序在被执行时使得电子设备执行如第一方面所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

在进行回声消除时，从接收的麦克风信号中提取声学特征，将声学特征在预先训练的具有长短期记忆的递归神经网络模型中进行迭代运算计算声学特征的比值膜后，采用该比值膜对声学特征进行掩蔽。再将经过掩蔽后的声学特征与麦克风信号的相位进行合成，实现回声消除。由于该方案中采用了预先训练的具有长短期记忆的递归神经网络模型，从而能够在有背景噪声、双讲和非现性失真等情况下实现回声消除，大大提高回声消除的效果和适用场景。并且无需采用后置滤波器，有效简化了电子设备，降低了电子设备成本。

应当理解的是，以上的一般描述和后文的细节描述仅为示例性，并不能限制本公开范围。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于深度学习的回声消除方法的流程图。

图2是图1对应实施例的基于深度学习的回声消除方法中步骤S110的一种具体实现流程图。

图3是根据图1对应实施例示出的具有长短期记忆的递归神经网络模型的构建方法的一种具体实现流程图。

图4是根据一示例性实施例示出的回声消除的流程示意图。

图5是根据图4对应实施例示出的具有长短期记忆的递归神经网络模型的构建方法中步骤S123的一种具体实现流程图。

图6是根据图4对应实施例示出的具有长短期记忆的递归神经网络模型的构建方法中步骤S123的另一种具体实现流程图。

图7是根据图6对应实施例示出的具有长短期记忆的递归神经网络模型的构建方法中步骤S123的另一种具体实现流程图。

图8是根据一示例性实施例示出的采用智能手机采集的麦克风信号(a)、远端(参考)信号(b)、传统AEC算法线性回声消除输出(c)和LSTM3输出信号(d)的频谱图。

图9是根据一示例性实施例示出的一种基于深度学习的回声消除装置的框图。

图10是根据图9对应实施例示出的基于深度学习的回声消除装置中声学特征提取模块110的一种框图。

图11是根据图9对应实施例示出的比值膜计算模块120的一种框图。

图12是图11对应实施例示出的模型构建子模块123的一种框图。

图13是图11对应实施例示出的模型构建子模块123的另一种框图。

图14是图11对应实施例示出的模型构建子模块123的另一种框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、与本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种基于深度学习的回声消除方法的流程图。该基于深度学习的回声消除方法可用于智能手机、电脑等电子设备中。如图1所示，该基于深度学习的回声消除方法可以包括步骤S110、步骤S120、步骤S130、步骤S140。

步骤S110，从接收的麦克风信号中提取声学特征麦克风信号包括麦克风信号和远端信号(即回声信号)。

麦克风信号是进行回声消除时所接收到的声音信号，麦克风等录音设备将采集近端信号以及回声信号即，麦克风信号包含近端信号和远端信号(即回声信号)。

电子设备进行回声消除时，可以接收麦克风等录音设备采集的声音信号，也可以接收其它电子设备发送的声音信号，还可以是通过其它方式接收声音信号，在此不进行一一描述。

例如，在电话会议时，麦克风等录音设备将进行声音信号的采集，麦克风等录音设备采集的声音信号不仅包括麦克风所在室内的近端信号，还包括从远端传输过来经扬声器播放的远端信号。

可选的，麦克风等录音设备采集以16KHz的采集频率进行输入信号的采集。

声学特征是能够表征声音信号的数据特征。

从接收的声音信号中提取声学特征时，可以对声音信号采用STFT(Short-time Fourier transform，短时傅里叶变换)提取声学特征，也可以对声音信号采用小波变换提取声学特征，还可以采用其它形式从接收的声音信号中提取声学特征。

可选的，如图2所示，步骤S110可以包括步骤S111、步骤S112、步骤S113。

步骤S111，将接收的麦克风信号按照预设时间周期分为时间帧。

预设时间周期是预先设置的时间间隔期，按照预设时间周期，将声音信号分为多个时间帧。

可选的，将接收的麦克风信号按照预设时间周期进行时间帧的划分，且每相邻两个时间帧之间存在半个预设时间周期的重叠。

在一具体示例性实施例中，将接收的声音信号按照每帧20毫秒分为多个时间帧，且每两个相邻的时间帧之间具有10毫秒的重叠。然后对输入信号的每个时间帧应用320点STFT，这会产生161个频率区间。

步骤S112，从时间帧中提取频谱幅度矢量。

步骤S113，对频谱幅度矢量进行归一化处理，形成声学特征。

在一示例性实施例中，将STFT应用于每个时间帧以提取频谱幅度矢量，每一频谱幅度矢量经过归一化处理后，形成声学特征。

可选的，通过以当前时间帧为中心的多个连续帧连接成更大的矢量形成声学特征，以提高回声消除的效果。

例如，在对频谱幅度矢量进行归一化处理时，将当前时间帧与过去时间帧的频谱幅度矢量合并进行归一化处理，形成声学特征。具体地，将先前5帧和当前时间帧拼接成一个统一的特征向量，作为本发明的输入。过去时间帧的数量还可以小于5个，提高应用的实时性。

因此，在从声音信号中提取声学特征时，按照预设时间周期将声音信号分为时间帧，通过设置适当的时间周期，使基于从各时间帧提取的声学特征为回声消除处理提供输入，而且通过将当前时间帧与过去时间帧的频谱幅度矢量进行选择性合并形成声学特征，可提高回声消除性能。

步骤S120，将声学特征在预先训练的具有长短期记忆的递归神经网络模型中进行迭代运算，计算声学特征的比值膜。

比值膜是表征输入信号与近端信号之间的关系，其指示了抑制回声与保留近端信号的权衡。

理想情况下，通过比值膜对输入信号进行掩蔽处理后，可以对输入信号进行回声消除，还原出近端信号。

具有长短期记忆(LSTM，Long Short-Term Memory)的递归神经网络(RNN，Recurrent Neural Network)(以下将“具有长短期记忆的递归神经网络”简称为“LSTM”)是预先训练而成的。

将步骤S110得到的声学特征作为LSTM模型的输入，在该LSTM模型中进行迭代运算，计算对该声学特征的比值膜。

在该步骤中，将IRM(Ideal Ratio Mask，理想比值膜)作为迭代运算的目标。频谱图中的每个T-F(时频)单元的IRM可以用以下等式来表述：

其中S _STFT(t,f)和Y _STFT(t,f)分别为该时频元中的近端信号和麦克风信号幅度的大小。

通过在监督训练过程中预测理想比值膜，进而采用比值膜对声学特征进行掩蔽，以取得回声消除后的近端信号。

步骤S130，采用比值膜对声学特征进行掩蔽。

步骤S140，将经过掩蔽后的声学特征与麦克风信号的相位进行合成，得到经过回声消除后的近端信号。

训练完成之后，在推断或操作的过程中，直接使用训练的LSTM模型抑制回声和背景噪声。具体来讲，用已训练好的LSTM模型对一输入波形进行操作以产生估计的比值膜。接着用这个比值膜对有回声的声学特征进行加权(或掩蔽)，以产生消除回声的近端信号。

在一示例性实施例中，将经过掩蔽后的频谱幅度矢量连同麦克风信号的相位一起发送到逆傅立叶变换，以导出相应时域中的近端信号。

利用如上所述的方法，在进行回声消除时，从接收的输入信号中提取声学特征，将声学特征在预先训练的具有长短期记忆的递归神经网络模型中进行迭代运算计算声学特征的比值膜后，采用该比值膜对声学特征进行掩蔽。再将经过掩蔽后的声学特征与麦克风信号的相位进行合成，实现回声消除。由于该方案中采用了预先训练的具有长短期记忆的递归神经网络模型，从而能够在背景噪声、双讲和非现性失真等情况下实现回声消除，大大提高回声消除的效果和适用场景，并且无需采用后置滤波器，有效简化了电子设备，降低了电子设备成本。

图3是根据图1对应实施例示出的具有长短期记忆的递归神经网络模型的构建方法的一种具体实现流程图。如图3所示，该具有长短期记忆的递归神经网络模型的构建方法可以包括步骤S121、步骤S122和步骤S123。

步骤S121，确定进行训练时的说话人声作为近端和远端(参考)信号。

选取进行训练时的说话人声时的方式有多种，可以通过预先设立的方式选取特定的说话人声，也可以通过随机选取训练时的说话人声。

为了实现不受限于训练说话人声的回声消除，通过使用各种各样的男声和女声进行训练。

在一示例性实施例中，通过从TIMIT(The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus，由德州仪器、麻省理工学院和SRI International合作构建的声学－音素连续语音语料库)数据集里随机选取预设数量的说话人声。

TIMIT数据集的语音采样频率为16kHz，一共包含6300个句子，由来自美国八个主要方言地区的630个人每人说出给定的10个句子，所有的句子都在音素级别(phone level)上进行了手动分割、标记。其中，70％的说话人是男性，大多数说话者是成年白人。

步骤S122，收集说话人声作为近端、远端参考信号，并以此建立语音训练集。

回声信号由远端信号通过麦克风实际录制或者人工合成。语音训练集由近端、远端参考和麦克风信号构成。其中，麦克风信号是近端信号与回声信号混合而成。

可选的，从TIMIT数据集里630个说话人声中随机选择100对说话人声作为近端和远端说话人声(40对男性-女性、30对男性-男性、30对女性-女性)。以16kHz采样率录制每种说话人声的10句话语。这些说话人声的7条语音用于产生多个麦克风信号，麦克风信号由随机挑选的近端语音和随机挑选的远端语音的回声信号混合而成。剩下的3条语音用于产生300个测试麦克风信号。整个训练集持续约50个小时。为了进一步提高对于说话人声的泛化能力，我们从TIMIT数据集里剩下的430个说话人中随机选择另外10对说话人声(4对男性-女性、3对男性-男性和3对女性-女性)，生成100个未经训练的说话人声的测试混合信号。在2.7×3×4.5米的房间内用智能手机录制回声信号，然后将录制的回声信号加上近端的信号形成麦克风信号。

步骤S123，通过具有长短期记忆的递归神经网络对语音训练集进行训练，构建具有长短期记忆的递归神经网络模型。

LSTM是一种时间递归神经网络，论文首次发表于1997年。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

LSTM的表现通常比其它时间递归神经网络及隐马尔科夫模型(HMM)更好，比如用在不分段连续手写识别上。2009年，用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自动语音识别，2013年运用TIMIT自然演讲数据库达到17.7％错误率的纪录。作为非线性模型，LSTM可作为复杂的非线性单元构造更大型深度神经网络。

LSTM是一种特定类型的RNN，可以有效地捕获长期语境。与传统的RNN相比，LSTM改善了在训练过程中随着时间的推移而带来的梯度减少或梯度***问题。LSTM模块的存储单元有三个门：输入门、遗忘门和输出门。输入门控制应将多少当前信息添加到存储器单元，遗忘门控制应保留多少先前信息，输出门控制是否输出信息。具体的，LSTM可用数学公式描述如下。

i _t＝σ(W _ixx _t+W _ihh _t-1+b _i)

f _t＝σ(W _fxx _t+W _fhh _t-1+b _f)

o _t＝σ(W _oxx _t+W _ohh _t-1+b _o)

z _t＝g(W _zxx _t+W _zhh _t-1+b _z)

c _t＝f _t⊙c _t-1+i _t⊙z _t

h _t＝o _t⊙g(c _t)

其中i _t，f _t和o _t分别是输入门、遗忘门和输出门的输出。x _t和h _t分别表示在时间t的输入特征和隐藏激活。z _t和c _t分别表示块输入和存储单元。σ代表sigmoidal函数，即σ(x)＝1/(1+e ^x)，g代表双曲正切函数，即g(x)＝(e _x-e ^-x)/(e ^x+e ^-x)。b _i、b _f、b _o和b _z分别是输入门、遗忘门、输出门和输入块对应的偏移。符号⊙表示数组元素逐次相乘。输入门和遗忘门是根据先前的激活和当前输入计算的，并对存储器单元执行上下文敏感的更新。

图4是根据一示例性实施例示出的回声消除的流程示意图。如图4所示，输入为接收的输入信号，输出为回声消除后的近端信号，图中的“1”表示在训练期间涉及的步骤，图中的“2”表示预测(推断)阶段的步骤，图中的“3”表示训练和预测共享的步骤。作为有监督学习方法，本发明使用理想比值膜(IRM)为训练目标。IRM是通过比较麦克风信号的STFT和其相应的近端信号的STFT得到的。在训练阶段，具有LSTM的RNN估计每个输入信号(包括麦克风信号和远端信号)的IRM，然后计算与IRM之间的MSE(Mean Square Error，均方误差)。经过重复的多轮迭代将整个训练集的MSE最小化，而每轮迭代中训练样本仅使用一次。训练完成之后，在推断或操作的过程中，直接使用训练后的LSTM抑制回声和背景噪声。具体来讲，训练好的LSTM对输入信号进行处理并计算比值膜，然后使用计算的比值膜对输入信号进行处理，最后重新合成得到回声消除后的近端信号。

顶部的输出通过sigmoidal形函数(参见图4)以得到比值膜的预测，再与IRM进行比较，通过比较，生成MSE错误，用于调整LSTM权重。

可选的，图5是根据图3对应实施例示出的具有长短期记忆的递归神经网络模型的构建方法中步骤S123的一种具体实现流程图。如图5所示，该步骤S123可以包括步骤S1231和步骤S1232。

步骤S1231，分别提取麦克风信号、远端信号的声学特征。

步骤S1232，根据麦克风信号、远端信号的声学特征，通过具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建具有长短期记忆的递归神经网络模型。

可选的，图6是根据图3对应实施例示出的具有长短期记忆的递归神经网络模型的构建方法中步骤S123的另一种具体实现流程图。如图6所示，该步骤S123可以包括步骤S1233、步骤S1234和步骤S1235。

步骤S1233，通过传统AEC算法对麦克风信号进行线性回声消除。

通过传统的线性AEC的回声消除算法预先对麦克风信号进行处理，将AEC输出作为LSTM的输入信号，进而构建具有长短期记忆的递归神经网络模型。

步骤S1234，分别对远端信号、线性AEC输出进行声学特征的提取。

步骤S1235，根据远端信号、线性AEC输出的声学特征，通过具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建具有长短期记忆的递归神经网络模型。

可选的，图7是根据图3对应实施例示出的具有长短期记忆的递归神经网络模型的构建方法中步骤S123的另一种具体实现流程图。如图7所示，该步骤S123除包括步骤S1233、步骤S1234和步骤S1235外，还可以包括步骤S1236、步骤S1237。

步骤S1236，分别对远端信号、麦克风信号、线性AEC输出进行声学特征的提取。

步骤S1237，根据远端信号、麦克风信号、线性AEC输出的声学特征，通过具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建具有长短期记忆的递归神经网络模型。

将通过步骤S1231和步骤S1232，将麦克风信号、远端信号作为输入信号，采用具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建具有长短期记忆的递归神经网络模型称为LSTM1。

通过步骤S1233、步骤S1234和步骤S1235，预先通过传统AEC算法对麦克风信号进行处理得到AEC输出。并将线性AEC输出、远端信号作为输入信号，采用具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建具有长短期记忆的递归神经网络模型称为LSTM2。

通过步骤S1233、步骤S1236和步骤S1237，将远端信号、麦克风信号、线性AEC输出作为输入信号，采用具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建具有长短期记忆的递归神经网络模型称为LSTM3。

相比与LSTM1，LSTM3通过将传统AEC算法的输出作为附加特征进一步提高了对接收的输入信号进行回声消除的效果。

表1表示采用LSTM1、LSTM2、LSTM3三种模型进行回声消除时STOI(Short-Time Objective Intelligibility，短时客观可懂度)、PESQ(Perceptual Evaluation of Speech Quality，客观语音质量评估)和ERLE(Echo Return Loss Enhancement，回声回程损耗增量)三种性能指标的结果。这个过程中所使用的LSTM1、LSTM2、LSTM3三种模型均具有两个隐藏层，每层具有512个单元。“无”是未经处理信号的结果；“理想”是理想比值膜的结果，可以看作是最佳结果的上限。

表1：STOI、PESQ and ERLE中测试的***AEC结果

如表1所示，与传统AEC算法相比，LSTM1、LSTM2、LSTM3三个模型能进行更好的回声消除。将传统AEC算法与深度学习相结合可以进一步提高***性能。LSMT3比LSTM2更能显著改进STOI。

为了进一步说明线性AEC结果，图8是根据一示例性实施例示出的采用智能手机录制的麦克风信号及近端信号的的频谱图。图8(a)展示了麦克风信号的频谱图；图8(b)展示了相应的近端信号的频谱图；图8(c)和图8(d)展示采用LSTM3模型与采用传统线性AEC算法进行回声消除后的频谱结果对比示意图，其中，图8(c)展示了线性AEC输出的频谱图，图8(d)展示了LSTM3进行回声消除后得到的近端信号的频谱图。可以看出，通过LSTM3进行回声消除后的输出很类似于干净的近端信号。这表明所提出的方法可以很好地保留近端信号，即可以抑制具有非线性失真的回声以及背景噪声。

利用如上所述的方法，通过构建的具有长短期记忆的递归神经网络模型对输入信号进行回声消除时，能够有效提高回声消除性能。

下述为本公开装置实施例，可以用于执行本上述基于深度学习的回声消除方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开基于深度学习的回声消除方法实施例。

图9是根据一示例性实施例示出的一种基于深度学习的回声消除装置的框图，该装置包括但不限于：声学特征提取模块110、比值膜计算模块120、掩蔽模块130及语音合成模块140。

声学特征提取模块110，用于从接收的输入信号中提取声学特征，所述输入信号包括麦克风信号和远端信号；

比值膜计算模块120，用于将所述声学特征在预先训练的具有长短期记忆的递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜；

掩蔽模块130，用于采用所述比值膜对所述声学特征进行掩蔽；

语音合成模块140，用于将经过掩蔽后的所述声学特征与所述麦克风信号的相位进行合成，得到经过回声消除后的近端信号。

上述装置中各个模块的功能和作用的实现过程，具体见上述基于深度学习的回声消除方法中对应步骤的实现过程，在此不再赘述。

可选的，如图10所示，图9中所述的声学特征提取模块110包括但不限于：时间帧划分单元111、频谱幅度矢量提取单元112和声学特征形成单元113。

时间帧划分单元111，用于将接收的麦克风信号按照预设时间周期分为时间帧；

频谱幅度矢量提取单元112，用于从所述时间帧中提取频谱幅度矢量；

声学特征形成单元113，用于对所述频谱幅度矢量进行归一化处理，形成声学特征。

可选的，图10中所述的时间帧划分单元111包括但不限于：时间帧的划分子单元。

时间帧的划分子单元，用于将接收的麦克风信号按照预设时间周期进行时间帧的划分，且每相邻两个时间帧之间存在半个所述预设时间周期的重叠。

可选的，图10中所述的声学特征形成单元113包括但不限于：多时间帧归一化子单元。

多时间帧归一化子单元，用于将当前时间帧与过去时间帧的频谱幅度矢量合并进行归一化处理形成声学特征。

可选的，如图11所示，图9中所述的比值膜计算模块120还包括但不限于：人声确定子模块121、语音训练集建立子模块122和模型构建子模块123。

人声确定子模块121，用于确定进行训练时的说话人声为近端和远端(参考)信号；

语音训练集建立子模块122，用于收集所述说话人声作为远端、近端时的远端信号、近端信号，以此建立语音训练集，其中所述远端信号为回声信号，所述近端信号与所述回声信号形成麦克风信号；

模型构建子模块123，用于通过所述具有长短期记忆的递归神经网络对所述语音训练集进行训练，构建所述具有长短期记忆的递归神经网络模型。

可选的，如图12所示，图11中所述的模型构建子模块123还包括但不限于：第一声学特征单元1231和第一模型构建单元1232。

第一声学特征单元1231，用于分别提取所述麦克风信号、远端信号的声学特征；

第一模型构建单元1232，用于根据所述麦克风信号、远端信号的声学特征，通过所述具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建所述具有长短期记忆的递归神经网络模型。

可选的，如图13所示，图11中所述的模型构建模块123还可以包括但不限于：线性AEC处理单元1233、第二声学特征单元1234和第二模型构建单元1235。

线性AEC处理单元1233，用于通过传统AEC算法对所述麦克风信号进行处理；

第二声学特征单元1234，用于分别对所述远端信号、经过所述深度学习后的线性AEC输出进行声学特征的提取；

第二模型构建单元1235，用于根据所述远端信号、所述线性AEC输出的声学特征，通过所述具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建所述具有长短期记忆的递归神经网络模型。

可选的，如图14所示，图11中所述的模型构建模块123还可以包括但不限于：第三声学特征单元1236和第三模型构建单元1237。

第三声学特征单元1236，用于分别对所述远端信号、麦克风信号、线性AEC输出进行声学特征的提取；

第三模型构建单元1237，用于根据所述远端信号、麦克风信号、所述线性AEC输出的声学特征，通过所述具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建所述具有长短期记忆的递归神经网络模型。

可选的，本发明还提供一种电子设备，执行如上述示例性实施例任一所示的基于深度学习的回声消除方法的全部或者部分步骤。电子设备包括：

处理器；以及

与所述处理器通信连接的存储器；其中，

所述存储器存储有可读性指令，所述可读性指令被所述处理器执行时实现如上述任一示例性实施例所述的方法。

该实施例中的终端中处理器执行操作的具体方式已经在有关该基于深度学习的回声消除方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读性存储介质，例如可以为包括指令的临时性和非临时性计算机可读性存储介质。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，可以在不脱离其范围时进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

一种基于深度学习的回声消除方法，其特征在于，所述方法包括：

从接收的麦克风信号中提取声学特征，所述麦克风信号包括近端信号和远端信号；

将所述声学特征在预先训练的具有长短期记忆的递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜；

采用所述比值膜对所述声学特征进行掩蔽；

将经过掩蔽后的所述声学特征与所述麦克风信号的相位进行合成，得到经过回声消除后的近端信号。
根据权利要求1所述的方法，其特征在于，所述从接收的麦克风信号中提取声学特征的步骤包括：

将接收的麦克风信号按照预设时间周期分为时间帧，所述麦克风信号包括近端信号和远端信号；

从所述时间帧中提取频谱幅度矢量；

对所述频谱幅度矢量进行归一化处理，形成声学特征。
根据权利要求2所述的方法，其特征在于，所述频谱幅度矢量进行归一化处理，形成声学特征的步骤包括：

将当前时间帧与过去时间帧的频谱幅度矢量合并进行归一化处理形成声学特征。
根据权利要求1所述的方法，其特征在于，预先训练的所述具有长短期记忆的递归神经网络模型的构建方法包括：

确定进行训练时的说话人声为近端和远端(参考)信号；

收集所述说话人声作为远端、近端时的远端信号、近端信号，并以此建立语音训练集，其中所述远端信号为回声信号，所述近端信号与所述回声信号形成麦克风信号；

通过所述具有长短期记忆的递归神经网络对所述语音训练集进行训练，构建所述具有长短期记忆的递归神经网络模型。
根据权利要求4所述的方法，其特征在于，通过所述具有长短期记忆的递归神经网络对所述语音训练集进行训练，构建所述具有长短期记忆的递归神经网络模型的步骤包括：

分别提取所述麦克风信号、远端(回声)信号的声学特征；

根据所述麦克风信号、远端信号的声学特征，通过所述具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建所述具有长短期记忆的递归神经网络模型。
根据权利要求4所述的方法，其特征在于，通过所述具有长短期记忆的递归神经网络对所述语音训练集进行训练，构建所述具有长短期记忆的递归神经网络模型的步骤也可以包括：

通过传统AEC算法对所述麦克风信号进行线性回声消除；

分别对所述远端信号、经过所述传统AEC算法进行线性回声消除的线性AEC输出进行声学特征的提取；

根据所述远端信号、所述线性AEC输出的声学特征，通过所述具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建所述具有长短期记忆的递归神经网络模型。
根据权利要求6所述的方法，其特征在于，所述方法还可以包括：

分别对所述远端信号、麦克风信号、所述线性AEC输出进行声学特征的提取；

根据所述远端信号、麦克风信号、所述线性AEC输出的声学特征，通过所述具有长短期记忆的递归神经网络进行回声消除时理想比值膜的估算，构建所述具有长短期记忆的递归神经网络模型。
一种基于深度学习的回声消除装置，其特征在于，所述装置包括：

声学特征提取模块，用于从接收的输入信号中提取声学特征，所述输入信号包括麦克风信号和远端信号；

比值膜计算模块，用于将所述声学特征在预先训练的具有长短期记忆的递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜；

掩蔽模块，用于采用所述比值膜对所述声学特征进行掩蔽；

语音合成模块，用于将经过掩蔽后的所述声学特征与所述麦克风信号的相位进行合成，得到经过回声消除后的近端信号。
一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7任一项所述的方法。
一种计算机可读存储介质，用于存储程序，其特征在于，所述程序在被执行时使得电子设备执行如权利要求1-7任一项所述的方法。