CN112687288B

CN112687288B - 回声消除方法、装置、电子设备和可读存储介质

Info

Publication number: CN112687288B
Application number: CN202110272697.8A
Authority: CN
Inventors: 马路; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-12-03
Anticipated expiration: 2041-03-12
Also published as: CN112687288A

Abstract

本申请提供了一种回声消除方法、装置、电子设备和可读存储介质，回声消除方法包括：获取待处理混合语音信号和待处理远端语音信号；将待处理混合语音信号输入预先训练的第一网络模型，以提取待处理混合语音信号的第一特征，以及，将待处理远端语音信号输入预先训练的第二网络模型，以提取待处理远端语音信号的第二特征；将第一特征和第二特征输入预先训练的具有多头注意力层的回声估计网络模型，以获得第三特征；根据第一特征和第三特征，获得消除回声后的近端语音。本申请提供的回声消除方法、装置、电子设备和可读存储介质，具有更好的回音消除效果。

Description

回声消除方法、装置、电子设备和可读存储介质

技术领域

本申请涉及声学领域，尤其涉及一种回声消除方法、装置、电子设备和可读存储介质。

背景技术

在语音交互和语音通话等场景中，回声消除性能的好坏直接影响后端语音识别率和用户听感体验，是语音技术的关键核心技术。

现有技术通过源自网页即时通信（WebRTC）的方法回声消除，即：首先利用时延估计算法对齐近端语音数据和远端语音数据，再利用自适应滤波器估计回声，从而消除线性回声。其不足在于，易存在残余回声，回声消除效果差。

发明内容

为了解决上述技术问题中的至少一个，本申请提供了一种回声消除方法、装置、电子设备和可读存储介质，以提高回音消除效果。

本申请的第一方面，一种回声消除方法，包括：

获取待处理混合语音信号和待处理远端语音信号；

将所述待处理混合语音信号输入预先训练的第一网络模型，以提取所述待处理混合语音信号的第一特征，以及，将所述待处理远端语音信号输入预先训练的第二网络模型，以提取所述待处理远端语音信号的第二特征；

将所述第一特征和所述第二特征输入预先训练的具有多头注意力层的回声估计网络模型，以获得第三特征，所述第三特征包含所述待处理远端语音信号对所述待处理混合语音信号的回声估计信息；

根据所述第一特征和所述第三特征，获得消除回声后的近端语音信号。

可选的，所述第一网络模型和所述第二网络模型均为卷积网络模型。

可选的，所述回声估计网络模型基于所述第一特征生成所述多头注意力层所对应的查询向量，基于所述第二特征生成所述多头注意力层所对应的键向量和所述多头注意力层所对应的值向量。

可选的，所述回声估计网络模型包括长短时记忆网络层，其中，所述多头注意力层的输入端用于输入所述第一特征和所述第二特征，所述长短时记忆网络层的输入端用于输入所述第一特征和所述多头注意力层输出的特征。

可选的，所述多头注意力层至少包括用于以线性角度估计回声的第一注意力层和用于以非线性角度估计回声的第二注意力层。

可选的，所述根据所述第一特征和所述第三特征，获得消除回声后的近端语音信号，包括：

将所述第一特征和所述第三特征输入预先训练的掩膜估计模型，以获得所述待处理混合语音的每个时频点的掩膜值；

根据所述掩膜值和所述待处理混合语音的每个时频点的值，获得消除回声后的近端语音信号。

可选的，所述获取待处理混合语音信号和待处理远端语音信号之前，还包括：训练模型的步骤；

所述训练模型的步骤包括：

获取待训练混合语音时频域信号、待训练远端语音时频域信号和待训练掩膜值，所述待训练掩膜值为根据所述待训练混合语音时频域信号和待训练远端语音时频域信号所确定的掩膜值；

以所述待训练混合语音时频域信号和待训练远端语音时频域信号作为联合模型的输入，以所述待训练掩膜值作为所述联合模型的输出，训练所述联合模型，其中，所述联合模型包括所述第一网络模型、所述第二网络模型、所述回声估计网络模型和所述掩膜估计模型。

可选的，所述获取待训练混合语音时频域信号、待训练远端语音时频域信号和待训练掩膜值，包括：

获取待训练近端语音信号和待训练远端语音信号；

根据所述待训练远端语音信号模拟得到待训练回声信号；

叠加所述待训练回声信号和待训练近端语音信号得到待训练混合语音信号；

将所述待训练混合语音信号转化为待训练混合语音时频域信号，将所述待训练近端语音信号转化为待训练近端语音时频域信号；

计算所述每个时频点的所述待训练近端语音时频域信号在所述待训练混合语音时频域信号中的能量占比，作为待训练掩膜值。

本申请的第二方面，一种回声消除装置，包括：

信号获取模块，用于获取待处理混合语音信号和待处理远端语音信号；

特征提取模块，用于将所述待处理混合语音信号输入预先训练的第一网络模型，以提取所述待处理混合语音信号的第一特征，以及，将所述待处理远端语音信号输入预先训练的第二网络模型，以提取所述待处理远端语音信号的第二特征；

回声估计模块，用于将所述第一特征和所述第二特征输入预先训练的具有多头注意力层的回声估计网络模型，以获得第三特征，所述第三特征包含所述待处理远端语音信号对所述待处理混合语音信号的回声估计信息；

回声消除模块，根据所述第一特征和所述第三特征，获得消除回声后的近端语音信号。

可选的，所述回声消除模型，具体用于：

可选的，还包括训练模块；

所述训练模块用于：

以所述待训练混合语音时频域信号和待训练远端语音时频域信号作为联合模型的输入，以所述待训练掩膜值作为所述联合模型的输出，训练所述联合模型，所述联合模型包括所述第一网络模型、所述第二网络模型、所述回声估计网络模型和所述掩膜估计模型。

本申请的第三方面，一种电子设备，包括存储器和处理器，所述存储器用于存储计算机指令，其特征在于，所述计算机指令被所述处理器执行以实现如本申请的第一方面任一所述的方法。

本申请的第四方面，一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现如本申请的第一方面任一所述的方法。

通过实施本申请的技术方案可以取得以下有益技术效果：。通过实施本申请的技术方案可以取得以下有益技术效果：本专利方案根据作为需要消除回音的待处理混合语音信号的第一特征和作为远端参考声音的待处理远端语音信号的第二特征，利用多头注意力机制估计待处理混合语音信号的回声，并基于估计的回声消除回声，从而恢复语音，达到回声消除的目的，提高了回声消除效果

本专利方案利用卷积网络模型得到待处理混合语音信号的第一特征和待处理远端语音信号的第二特征，具有更少的网络参数，根据远端参考声音的特征，利用注意力机制从混合语音中提取出回声，从而恢复出有效语音，达到回声消除的目的。

附图说明

附图示出了本申请的示例性实施方式，并与其说明一起用于解释本申请的原理，其中包括了这些附图以提供对本申请的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本申请实施例公开的一种回声消除方法的流程图；

图2是本申请实施例公开的一种回声消除网络的示意图；

图3是本申请实施例公开的一种多头注意力层的网络结构示意图；

图4是本申请实施例公开的一种回声消除方法的训练数据示意图；

图5是本申请实施例公开的一种回声消除方法的模型训练示意图；

图6是本申请实施例公开的一种回声消除装置的结构框图；

图7是本申请实施方式中的一种电子设备的结构框图；

图8是本申请实施方式中的一种回声消除方法的计算机***的结构示意图。

具体实施方式

下面结合附图和实施方式对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本申请。

本申请实施例提供的回声消除方法及装置可应用在语音交互场景中，其中，该语音交互场景可以为用户用座机通话、用户用车载电话通话等，本申请实施例对此不做特别限定。

参见图1和图2，本申请实施例提供了一种回声消除方法,包括：

S101，获取待处理混合语音信号和待处理远端语音信号；

其中，待处理混合语音信号是混合了近端语音信号与回声混合信号的语音信号，例如麦克风接收的混合语音信号；待处理远端语音信号是参考语音信号，例如扬声器播放的语音信号。其中，待处理混合语音信号和待处理远端语音信号可以是时频域信号，在获取待处理混合语音信号和待处理远端语音信号时，可以先获取待处理远端语音和待处理混合语音，再将其转换为时频域信号；

S102，将待处理混合语音信号输入预先训练的第一网络模型，以提取待处理混合语音信号的第一特征，以及，将待处理远端语音信号输入预先训练的第二网络模型，以提取待处理远端语音信号的第二特征；

其中，第一网络模型和第二网络模型是用于提取特征的模型；具体的，第一网络模型和第二网络模型可以是卷积网络模型，即CNN网络模型，由卷积网络模型在时频两个维度进行二维卷积得到相应的特征，第一网络模型和第二网络模型也可采用其他类型的网络模型，以提取待处理混合语音信号的第一特征，第二网络模型也可采用其他类型的网络模型，以提取待处理远端语音信号的第二特征。

S103，将第一特征和第二特征输入预先训练的具有多头注意力层的回声估计网络模型，以获得第三特征，第三特征包含待处理远端语音信号对待处理混合语音信号的回声估计信息；

其中，多头注意力层用于将待处理混合语音信号的第一特征与待处理远端语音信号的第二特征进行比对得到信息权重，即：待处理混合语音信号当前帧的第一特征在待处理远端语音信号的第二特征的信息分布，信息权重与待处理远端语音信号的第二特征相乘之后得到待处理远端语音信号对待处理混合语音信号中的回声信息的估计，采用多头注意力层的目的是从不同维度对近端回声进行估计，以提高回声估计的精度，例如：采用两个头，分别从线性与非线性两个角度进行估计，具体可通过用于以线性角度估计回声的第一注意力层和用于以非线性角度估计回声的第二注意力层分别进行两个角度的估计；具体的，例如从线性回声路径角度、扬声器的非线性角度（比如：高次谐波、截幅）进行估计。

从多头注意力层利用多头注意力机制，使得回声估计网络模型在训练后可以从不同维度对近端回声进行估计，提高了回声估计的精度。

S104，根据第一特征和第三特征，获得消除回声后的近端语音信号。

其中，S104中的近端语音信号也就是把待处理混合语音信号的回声消除后所得到的信号；

其中，根据第一特征和第三特征，获得消除回声后的近端语音信号，具体可以是：将第一特征和第三特征输入预先训练的掩膜估计模型，以获得待处理混合语音的每个时频点的掩膜值；根据掩膜值和待处理混合语音的每个时频点的值，获得消除回声后的近端语音信号。本实施方式对此不作特别限定。

本申请实施例的一种回声消除方法，利用预先训练的第一网络模型生成待处理混合语音信号的第一特征，利用预先训练的第二网络模型生成待处理远端语音信号的第二特征；再利用预先训练的具有多头注意力层的回声估计网络模型根据第一特征和第二特征得到第三特征；再根据第一特征和第三特征，获得消除回声后的近端语音信号。其中，回声估计网络模型利用多头注意力机制实现了双端软对齐。

本申请实施例的一种回声消除方法，，根据作为需要消除回音的待处理混合语音信号的第二特征和作为远端参考声音的待处理远端语音信号的第一特征，利用多头注意力机制从待处理混合语音信号估计回声，并基于估计的回声消除回声，从而恢复语音，达到回声消除的目的，提高了回声消除效果。其中，本申请实施例采用多头注意力层的回声估计模型使其能够从第一特征和第二特征中提炼出更多的关键信息，从而提升回声估计的准确性。

本申请实施例的一种回声消除方法，将第一网络模型和第二网络模型输出的第一特征和第二特征与具有多头注意力层的回声估计网络模型配合生成估计的回声，其估计得到的回声与实际回声更接近，使得回声消除效果更好。

具体的，获取待处理混合语音信号和待处理远端语音信号时可以将原始时域混合语音转换到时频域的语谱图，以获得待处理混合语音信号；将原始远端语音变换到时频域的语谱图，以获得待处理远端语音信号。

在一个实施方式中，第一网络模型和第二网络模型均可以是卷积网络模型，具体的，第一网络模型和第二网络模型均可以由多个卷积子网络组成，例如，由8个卷积子网络构成。多层卷积网络可以在时频两个维度进行二维卷积，以得到相应的深度特征。

本专利方案采用多个卷积子网络组成的深度卷积网络实现回声消除，具有更少的网络参数，根据远端参考声音的深度特征，利用注意力机制从混合语音中提取出回声，从而恢复出有效语音，达到回声消除的目的。

在一个实施方式中，参见图2，回声估计网络模型除包含一个多头注意力层Multi-head Attention外，还包括一个长短期记忆网络层LSTM，其中，多头注意力层的输入端用于输入第一特征和第二特征，回声估计网络模型的长短时记忆网络层的输入端用于输入第一特征和多头注意力层输出的特征，由长短时记忆网络层根据输入的多头注意力层输出的特征和第一特征得到第三特征。回声估计网络模型的长短时记忆网络层可以兼顾相应的时间特征，使得采用回声估计网络模型得到的第三特征能更好的表示回声特征，进而使根据该第三特征消除回声时具有更高的精度。

在一个实施方式中，回声估计网络模型基于第一特征生成多头注意力层所对应的查询向量（query），基于第二特征生成多头注意力层所对应的键向量（key）和多头注意力层所对应的值向量（value）。

具体的，参见图3，图3是多头注意力层Multi-head Attention的一种网络结构，多头注意力层的每一个Attention可采用放缩点积注意力结构Scaled Dot-ProductAttention。其中，图3中，D表示特征（第一特征或第二特征）的长度，H表示多头注意力层的输入维度，Linear表示输入线性层，Concat表示将多个头计算得到的特征进行拼接，h表示多头注意力层的头数，MatMul表示矩阵相乘，SoftMax表示进行归一化操作，Mask表示做掩码操作，即：通过一个由0和1组成的向量指示对应位置是否参与后面的softmax操作，opt.表示可选项，Scale是除以尺度因子

。

参见图3，Attention的查询向量Q（query）取自待处理混合语音信号的第一特征与矩阵W_Q的相乘结果，Attention的键向量K（key）取自待处理远端语音信号的第二特征与矩阵W_K相乘结果，Attention的值向量V（value）取自待处理远端语音信号的第二特征输出结果与矩阵W_V相乘结果。其中，W_Q、W_K和W_V分别是Attention模型需要训练的参数，待处理远端语音信号的第二特征依次存储在N个寄存器中作为键向量和值向量的基础数据。Attention的输出为

，其中，

为尺度因子以防止Q和K^T相乘结果过大，上标T表示矩阵转置，d_k为一个query和value的向量维度。

Attention的查询机制，可以实现混合数据（含近端和回声）与远端数据的对齐，即：真实场景中，回声信号相对远端参考信号有延迟，而采用Attention可以实现时间对齐，从而更好的估计回声。Attention中根据（query, key）查询得到的权重对Value信息的提取可以实现对回声的估计，实时跟踪回声路径变化，其中，采用多头注意力层的目的是在多个维度估计回声，以更准确地估计回声。参见图2，Attention的输出结果与第一特征一起经过一个长短期记忆网络LSTM对回声进行更精确估计，最后将回声估计结果与待处理混合语音信号的第一特征一起送入另一个长短期记忆网络LSTM和全连接层FC组成的掩膜估计模型对每个频点进行干净语音的掩膜值mask估计。

在一个实施方式中，根据第一特征和第三特征，获得消除回声后的近端语音信号，包括：

将第一特征和第三特征输入预先训练的掩膜估计模型，以获得待处理混合语音的每个时频点的掩膜值；

根据掩膜值和待处理混合语音的每个时频点的值，获得消除回声后的待处理混合语音信号。

参见图2，掩膜估计模型包括一个长短期记忆网络层LSTM和一个全连接层FC，其中，全连接层FC输出采用Sigmoid激活函数。

参见表一，本申请实施例中的第一/第二网络模型、回声估计网络模型和掩膜估计模型可以按表一的方式配置：

表一

在一个实施方式中，获取待处理混合语音信号和待处理远端语音信号之前，还包括训练模型的步骤；

训练模型的步骤包括：

获取待训练混合语音时频域信号、待训练远端语音时频域信号和待训练掩膜值，待训练掩膜值为根据待训练混合语音时频域信号和待训练远端语音时频域信号所确定的掩膜值。

以待训练混合语音时频域信号和待训练远端语音时频域信号作为联合模型的输入，以待训练掩膜值作为联合模型的输出，训练联合模型，联合模型包括第一网络模型、第二网络模型、回声估计网络模型和掩膜估计模型。

其中，获取待训练混合语音时频域信号、待训练远端语音时频域信号和待训练掩膜值，包括：

获取待训练近端语音信号和待训练远端语音信号；

根据待训练远端语音信号模拟得到待训练回声信号；

叠加待训练回声信号和待训练近端语音信号得到待训练混合语音信号；

将待训练混合语音信号转化为待训练混合语音时频域信号，将待训练近端语音信号转化为待训练近端语音时频域信号；

计算每个时频点的待训练近端语音时频域信号在待训练混合语音时频域信号中的能量占比，作为待训练掩膜值；

其中，第一网络模型和第二网络模型可以是结构相同的网络模型。在训练模型时，第一网络模型和第二网络模型可共享参数。训练时，待训练混合语音时频域信号经第一网络模型后进入回声估计网络模型；待训练远端语音时频域信号经第二网络模型后进入回声估计网络模型，在训练时，自动适应待训练远端语音时频域信号和待训练混合语音时频域信号的特征，实现针对性的训练，以使第一网络模型和第二网络模型分别生成能更好的用于区分语音和回声的特征。

具体的，参见图4，RIR（Room Impulse Response）表示房间冲激响应，用来构建混响数据，模拟回声；NLP（Non-Linear Processing）表示非线性处理，用来构建非线性数据，模拟扬声器引入的非线性；STFT（Short-Time Fourier Transform）表示短时傅里叶变换，用于将时域波形转换带频域。source1表示待训练近端语音信号，source2表示待训练远端语音信号。

参见4和图5，纯净的待训练近端语音信号source1经过房间冲激响RIR之后，经过短时傅里叶变换STFT变换得到待训练近端语音时频域信号S(t,f)，计算该待训练近端语音时频域信号的每个时频点的能量，其中，t是时间，f是频率；同理，将纯净的待训练远端语音信号source2分别经过房间冲激响应RIR和NLP非线性处理后叠加作为待训练回声信号echo，该待训练回声信号叠加到待训练近端语音信号待训练近端语音时频域信号S(t,f)上得到待训练混合语音信号，经过短时傅里叶变换STFT变换到时频域后得到待训练混合语音时频域信号X(t,f)，计算待训练混合语音信号的每个时频点能量；计算每个时频点的待训练近端语音时频域信号在待训练混合语音时频域信号中的能量占比，即mask(t,f)。

参见图4和图5，将待训练混合语音时频域信号X(t,f)、待训练远端语音信号source2经过短时傅里叶变换STFT得到的待训练远端语音时频域信号R(t,f)分别经过作为联合模型的输入，mask(t,f)作为联合模型的输出，送给联合模型训练，其中，联合模型包括第一网络模型、第二网络模型、回声估计网络模型和回声消除模块的掩膜估计模型。

若待训练近端语音时频域信号的能量是E _s (t,f)，待训练混合语音时频域信号的能量是E _x (t,f)，则每个时频点的mask(t,f)计算如下：

若联合模型估计的mask表示为

，即图5中的predict

，则采用交叉熵损失函数植作为联合模型的损失函数

：

或，采用MSE(均方误差)的损失作为联合模型的损失函数，即：

其中，

表示mask的标签，

表示由网络估计的mask值；

根据损失函数进行反向传播（back propagation），以训练上述混合模型。

本申请实施例还公开了一种回声消除装置，参见图6，回声消除装置包括：

信号获取模块601，用于获取待处理混合语音信号和待处理远端语音信号；

特征提取模块602，用于将待处理混合语音信号输入预先训练的第一网络模型，以提取待处理混合语音信号的第一特征，以及，将待处理远端语音信号输入预先训练的第二网络模型，以提取待处理远端语音信号的第二特征；

回声估计模块603，用于将第一特征和第二特征输入预先训练的具有多头注意力层的回声估计网络模型，以获得第三特征，第三特征包含待处理远端语音信号对待处理混合语音信号的回声估计信息；

回声消除模块604，根据第一特征和第三特征，获得消除回声后的近端语音信号。

在一个实施方式中，第一网络模型和所述第二网络模型均为卷积网络模型，该卷积网络模型由多个卷积子网络组成。

在一个实施方式中，回声估计网络模型基于第一特征生成多头注意力层所对应的查询向量，基于第二特征生成多头注意力层所对应的键向量和多头注意力层所对应的值向量。

在一个实施方式中，回声估计网络模型还包括长短时记忆网络层，其中，多头注意力层的输入端用于输入第一特征和第二特征，长短时记忆网络层的输入端用于输入第一特征和多头注意力层输出的特征。

在一个实施方式中，多头注意力层至少包括用于以线性角度估计回声的第一注意力层和用于以非线性角度估计回声的第二注意力层。

在一个实施方式中，回声消除模块具体用于：获得消除回声后的近端语音信号

在一个实施方式中，装置还包括训练模块：

训练模块用于：

获取待训练混合语音时频域信号、待训练远端语音时频域信号和待训练掩膜值，所述待训练掩膜值为根据所述待训练混合语音时频域信号和待训练远端语音时频域信号所确定的掩膜值

获取待训练近端语音信号和待训练远端语音信号；

根据待训练远端语音信号模拟得到待训练回声信号；

本实施例的原理效果以及其他可选实施方式可以参考上述一种回声消除方法的技术方案。

参见图7，一种电子设备700，包括处理器701和存储器702，存储器702用于存储计算机指令，计算机指令被处理器701执行以实现本申请实施例中任一的回声消除方法。

本申请还提供了一种可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例中任一的回声消除方法。

图8为适于用来实现根据本申请一实施方式的一种回声消除方法的计算机***的结构示意图。

参见图8，计算机***包括处理单元801，其可以根据存储在只读存储器（ROM）802中的程序或者从存储部分808加载到随机访问存储器（RAM）803中的程序而执行上述附图所示的实施方式中的各种处理。在RAM803中，还存储有***操作所需的各种程序和数据。处理单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。其中，处理单元801可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本申请的实施方式，上文描述的方法可以被实现为计算机软件程序。例如，本申请的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。

附图中的流程图和框图，图示了按照本申请各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本说明书的描述中，参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本申请，而并非是对本申请的范围进行限定。对于所属领域的技术人员而言，在上述申请的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本申请的范围内。

Claims

1.一种回声消除方法，其特征在于，包括：

获取待处理混合语音信号和待处理远端语音信号；

将所述第一特征和所述第二特征输入预先训练的具有多头注意力层的回声估计网络模型，以获得第三特征，所述第三特征包含所述待处理远端语音信号对所述待处理混合语音信号的回声估计信息，其中，所述多头注意力层用于将所述待处理混合语音信号的第一特征与所述待处理远端语音信号的第二特征进行比对得到信息权重；

根据所述第一特征和所述第三特征，获得所述待处理混合语音信号消除回声后的近端语音信号。

2.根据权利要求1所述的回声消除方法，其特征在于，所述第一网络模型和所述第二网络模型均为卷积网络模型。

3.根据权利要求1所述的回声消除方法，其特征在于，所述回声估计网络模型基于所述第一特征生成所述多头注意力层所对应的查询向量，基于所述第二特征生成所述多头注意力层所对应的键向量和所述多头注意力层所对应的值向量。

4.根据权利要求1所述的回声消除方法，其特征在于，所述回声估计网络模型包括长短时记忆网络层，其中，所述多头注意力层的输入端用于输入所述第一特征和所述第二特征，所述长短时记忆网络层的输入端用于输入所述第一特征和所述多头注意力层输出的特征。

5.根据权利要求1所述的回声消除方法，其特征在于，所述多头注意力层至少包括用于以线性角度估计回声的第一注意力层和用于以非线性角度估计回声的第二注意力层。

6.根据权利要求1所述的回声消除方法，其特征在于，所述根据所述第一特征和所述第三特征，获得消除回声后的近端语音信号，包括：

7.根据权利要求6所述的回声消除方法，其特征在于，所述获取待处理混合语音信号和待处理远端语音信号之前，还包括：训练模型的步骤；

所述训练模型的步骤包括：

8.根据权利要求7所述的回声消除方法，其特征在于，所述获取待训练混合语音时频域信号、待训练远端语音时频域信号和待训练掩膜值，包括：

获取待训练近端语音信号和待训练远端语音信号；

根据所述待训练远端语音信号模拟得到待训练回声信号；

9.一种回声消除装置，其特征在于，包括：

回声估计模块，用于将所述第一特征和所述第二特征输入预先训练的具有多头注意力层的回声估计网络模型，以获得第三特征，所述第三特征包含所述待处理远端语音信号对所述待处理混合语音信号的回声估计信息，其中，所述多头注意力层用于将所述待处理混合语音信号的第一特征与所述待处理远端语音信号的第二特征进行比对得到信息权重；

回声消除模块，根据所述第一特征和所述第三特征，获得所述待处理混合语音信号消除回声后的近端语音信号。

10.根据权利要求9所述的一种回声消除装置，其特征在于，所述回声消除模块，具体用于：

11.根据权利要求10所述的一种回声消除装置，其特征在于，还包括训练模块；

所述训练模块用于：

12.一种电子设备，包括存储器和处理器，所述存储器用于存储计算机指令，其特征在于，所述计算机指令被所述处理器执行以实现如权利要求1-8任一项所述的方法。

13.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现如权利要求1-8任一项所述的方法。