CN111312273A

CN111312273A - 混响消除方法、装置、计算机设备和存储介质

Info

Publication number: CN111312273A
Application number: CN202010389871.2A
Authority: CN
Inventors: 李娟娟; 朱睿; 王燕南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-06-19

Abstract

本申请涉及一种混响消除方法、装置、计算机设备和存储介质。所述方法包括：获取带混响语音信号；对带混响语音信号进行处理得到第一幅度谱，基于第一幅度谱获得带混响语音信号的带混响语音特征；根据带混响语音特征确定对应的时频掩蔽量，基于时频掩蔽量对第一幅度谱进行混响消除，得到第二幅度谱；根据第二幅度谱，确定消除混响后的语音信号。采用本方法能够提升混响消除效果和消除混响后的语音质量。

Description

混响消除方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音处理技术领域，特别是涉及一种混响消除方法、装置、计算机设备和存储介质。

背景技术

室内混响是日常生活中较为普通的一种现象，但混响信号会影响音频信号的清晰度和可懂度，进而影响语音识别、助听器、声源定位等性能。因此，有必要对混响进行消除。

传统技术中，通过估计房间脉冲响应的逆滤波器来解卷积混响信号，然而由于房间脉冲响应是未知的、时变的、且长度较长，因此对房间脉冲响应的跟踪和估计十分困难，从而导致混响消除的效果差。目前基于人工智能之机器学习的混响消除方法，通常是直接估计音频信号的幅度谱，但是幅度谱的变化范围较大，学习难度较大，导致消除混响后的语音质量较差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升混响消除效果和消除混响后的语音质量的混响消除方法、装置、计算机设备和存储介质。

一种混响消除方法，所述方法包括：

获取带混响语音信号；

对所述带混响语音信号进行处理得到第一幅度谱，基于所述第一幅度谱获得所述带混响语音信号的带混响语音特征；

根据所述带混响语音特征确定对应的时频掩蔽量，基于所述时频掩蔽量对所述第一幅度谱进行混响消除，得到第二幅度谱；

根据所述第二幅度谱，确定消除混响后的语音信号。

一种混响消除装置，所述装置包括：

获取模块，用于获取带混响语音信号；

处理模块，用于对所述带混响语音信号进行处理得到第一幅度谱，基于所述第一幅度谱获得所述带混响语音信号的带混响语音特征；

消除模块，用于根据所述带混响语音特征确定对应的时频掩蔽量，基于所述时频掩蔽量对所述第一幅度谱进行混响消除，得到第二幅度谱；

确定模块，用于根据所述第二幅度谱，确定消除混响后的语音信号。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取带混响语音信号；

根据所述第二幅度谱，确定消除混响后的语音信号。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取带混响语音信号；

根据所述第二幅度谱，确定消除混响后的语音信号。

上述混响消除方法、装置、计算机设备和存储介质，通过获取带混响语音信号，对带混响语音信号进行处理得到第一幅度谱，基于第一幅度谱获得带混响语音信号的带混响语音特征，根据带混响语音特征确定对应的时频掩蔽量，基于时频掩蔽量对第一幅度谱进行混响消除，得到第二幅度谱，根据第二幅度谱，确定消除混响后的语音信号。通过引入时频掩蔽量，对带混响语音信号的幅度谱进行混响消除，可以有效去除混响，同时减少语音损伤，提升消除混响后的语音质量。

附图说明

图1为一个实施例中混响消除方法的流程示意图；

图2为一个实施例中带混响语音信号从时域向频域转换的示意图；

图3为一个实施例中混响消除模型的结构示意图；

图4为一个实施例中训练获得混响消除模型步骤的流程示意图；

图5为一个实施例中混响消除方法的流程示意图；

图6为一个实施例中带混响语音信号的质量测试结果；

图7为一个实施例中消除混响后的语音信号的质量测试结果；

图8为一个实施例中混响消除装置的结构框图；

图9为一个实施例中计算机设备的内部结构图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

人工智能（Artificial Intelligence, AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术（Speech Technology）的关键技术有自动语音识别技术（ASR）和语音合成技术（TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习（Machine Learning, ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请涉及人工智能中的语音技术和机器学习，具体涉及神经网络模型，将神经网络模型应用于混响消除技术领域，用以对带混响语音信号进行混响消除。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种混响消除方法，本实施例以该方法应用于终端为例进行说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的***，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤S102至步骤S108。

S102，获取带混响语音信号。

其中，带混响语音信号可以是各种可能产生混响的场景下的语音信号，例如室内培训会议，主讲老师的培训语音可视为带混响语音信号，当参训人员想要将主讲老师的培训语音录下来以便学习，可以通过带有录音功能的终端（如手机、录音笔等）采集主讲老师的培训语音，终端获得带混响语音信号。

S104，对带混响语音信号进行处理得到第一幅度谱，基于第一幅度谱获得带混响语音信号的带混响语音特征。

其中，第一幅度谱作为带混响语音信号的频域描述，用于表征组成带混响语音信号的各个频率成分的幅度值的分布情况。带混响语音特征用于表征带混响语音信号的频域特性，可以直接将第一幅度谱作为带混响语音特征，也可以将第一幅度谱对应的对数幅度谱或对数能量谱作为带混响语音特征。

具体地，终端可以对带混响语音信号进行时频分析，将带混响语音信号从时域转换到频域，获得带混响语音信号的频谱，再根据频谱计算获得对应的幅度谱。

S106，根据带混响语音特征确定对应的时频掩蔽量，基于时频掩蔽量对第一幅度谱进行混响消除，得到第二幅度谱。

其中，时频掩蔽量定义为带混响语音信号中的干净语音信号的幅度谱与该带混响语音信号的幅度谱的比，例如用Mask表示，则Mask=X/Y，X表示带混响语音信号中的干净语音信号的幅度谱，Y表示该带混响语音信号的第一幅度谱，Mask可以是一个数值序列，其中每个数值对应一个幅度比值。第二幅度谱表示带混响语音信号消除混响后的幅度谱。

终端在获得带混响语音信号的带混响语音特征后，可以通过训练好的预测模型根据该带混响语音特征，预测获得该带混响语音信号对应的时频掩蔽量。终端在获得带混响语音信号的第一幅度谱（Y）和时频掩蔽量（Mask）后，可以通过时频掩蔽量对第一幅度谱中进行混响消除，具体通过关系式Mask=X/Y，计算获得该带混响语音信号中的干净语音信号的幅度谱（X），这里的干净语音信号可以理解为带混响语音信号消除混响后的语音信号，从而计算获得的幅度谱X可以作为第二幅度谱。

S108，根据第二幅度谱，确定消除混响后的语音信号。

其中，消除混响后的语音信号表示对带混响语音信号进行混响消除后得到的语音信号。终端在获得第二幅度谱后，可以对第二幅度谱进行时频分析，将第二幅度谱从频域转换到时域，获得第二幅度谱对应的语音信号，即为消除混响后的语音信号。

上述混响消除方法中，通过获取带混响语音信号，对带混响语音信号进行处理得到第一幅度谱，基于第一幅度谱获得带混响语音信号的带混响语音特征，根据带混响语音特征确定对应的时频掩蔽量，基于时频掩蔽量对第一幅度谱进行混响消除，得到第二幅度谱，根据第二幅度谱，确定消除混响后的语音信号。通过引入时频掩蔽量，对带混响语音信号的幅度谱进行混响消除，可以有效去除混响，同时减少语音损伤，提升消除混响后的语音质量。

在一个实施例中，对带混响语音信号进行处理得到第一幅度谱的步骤，具体可以包括以下步骤：对带混响语音信号进行分帧和加窗处理，得到语音信号帧；对各语音信号帧进行傅里叶变换得到对应的傅里叶变换系数，对各傅里叶变换系数进行取模得到对应的幅度值，基于各幅度值得到第一幅度谱。

如图2所示，提供了一个实施例中带混响语音信号从时域向频域转换的示意图。终端获得的初始带混响语音信号为时域信号，终端根据预设帧长和预设帧移对初始带混响语音信号进行分帧和加窗处理，得到若干语音信号帧。其中，预设帧长和预设帧移可以结合实际情况进行设定，例如预设帧长设为20ms，预设帧移设为10ms。终端对每一帧语音分别进行傅里叶变换(FFT)，得到每一帧语音进行FFT之后的傅里叶变换系数，并对傅里叶变换系数进行取模得到对应的幅度值。具体地，傅里叶变换系数包括实部和虚部，例如用a+bi表示，则对其取模得到的幅度值为(a²+b²)^0.5。然后终端基于得到的各幅度值得到第一幅度谱，从而将初始带混响语音信号从时域信号转换为频域信号。

本实施例中，通过对带混响语音信号进行分帧、加窗和傅里叶变换处理，将其从时域信号转换为频域信号，对频域信号进行计算获得的幅度谱，可以更准确的描述带混响语音信号的特性。

在一个实施例中，基于第一幅度谱获得带混响语音信号的带混响语音特征的步骤，具体可以是将第一幅度谱作为带混响语音信号对应的带混响语音特征。

第一幅度谱可以描述带混响语音信号的频域特性，不同的带混响语音信号对应的幅度谱不同，将第一幅度谱作为带混响语音特征有助于分辨带混响语音信号中的混响成分。

在一个实施例中，基于第一幅度谱获得带混响语音信号的带混响语音特征的步骤，具体可以是对第一幅度谱中的各幅度值进行取对数处理，获得相应的对数幅度谱，作为带混响语音信号对应的带混响语音特征。

在一个实施例中，基于第一幅度谱获得带混响语音信号的带混响语音特征的步骤，具体可以是对第一幅度谱中的各幅度值进行先求平方再取对数处理，获得相应的对数能量谱，作为带混响语音信号对应的带混响语音特征。

终端在得到第一幅度谱后，可以对第一幅度谱中的各幅度值取对数，得到相应的对数幅度谱，也可以对第一幅度谱中的各幅度值先求平方再取对数，得到相应的对数能量谱。将对数幅度谱或对数能量谱作为带混响语音特征，可以在不改变特征数据的性质和相对关系的前提下，压缩特征数据的变化尺度，使特征数据更加平稳，从而减小特征数据处理过程中由于数据差异太大带来的误差。

在一个实施例中，根据带混响语音特征确定对应的时频掩蔽量，基于时频掩蔽量对第一幅度谱进行混响消除，得到第二幅度谱的步骤，具体可以是采用训练好的混响消除模型，对带混响语音特征进预测，确定对应的时频掩蔽量，并将时频掩蔽量与第一幅度谱进行相乘，得到第二幅度谱。

其中，训练好的混响消除模型的输入为带混响语音信号的带混响语音特征，输出为对该带混响语音信号进行去混响处理后得到的幅度谱，即第二幅度谱。具体地，混响消除模型包括两部分结构，第一部分结构的输入为带混响语音特征，采用第一部分结构对带混响语音特征进预测，第一部分结构的输出为对应的时频掩蔽量。第二部分结构的输入包括时频掩蔽量和第一幅度谱，采用第二部分结构将时频掩蔽量与第一幅度谱进行相乘，第二部分结构的输出为第二幅度谱。

本实施例中，通过训练好的混响消除模型先预测带混响语音信号对应的时频掩蔽量，再将预测得到的时频掩蔽量与带混响语音信号的第一幅度谱进行相乘，得到对应于去混响后语音信号的第二幅度谱。由于幅度谱的变化范围较大，学习难度大，直接预测幅度谱会导致恢复出来的语音损伤较多、可懂度低、自然度不够，基于此，本实施例使用的混响消除模型不直接预测第二幅度谱，而是通过引入时频掩蔽量作为中间量来帮助预测第二幅度谱，从而可以减少去混响后语音信号的语音损伤，提升可懂度和音质。

在一个实施例中，如图3所示，提供了混响消除模型的结构示意图，其中包括长短期记忆网络层和时频掩蔽处理层。如图4所示，训练获得混响消除模型的方法，具体可以包括以下步骤S402至步骤S410。

S402，获取带混响样本语音信号、以及带混响样本语音信号对应的干净样本语音信号的标签幅度谱。

其中，带混响样本语音信号可以通过干净样本语音信号和样本混响信号进行合成而得到，可以覆盖大多数室内混响场景，如会议室、教室、家、大厅等室内混响场景，由于室内大小不同、或墙壁及地面材质不同、或麦克风和声源之间的距离不同，可能产生不同程度的混响，通过模拟各种室内场景下的不同程度混响，可以得到大量的样本混响信号，从而合成的带混响样本语音信号可以覆盖大多数室内混响场景。干净样本语音信号的标签幅度谱用于作为混响消除模型的训练目标。具体地，终端可以获取干净样本语音信号，并对获得的干净样本语音信号进行分帧、加窗、傅里叶变换等处理，得到干净样本语音信号的幅度谱，作为标签幅度谱。

S404，对带混响样本语音信号进行处理得到带混响样本幅度谱，基于带混响样本幅度谱获得带混响样本语音信号的带混响样本语音特征。

具体地，终端可以对带混响样本语音信号进行分帧、加窗、傅里叶变换等处理，获得带混响样本语音信号的带混响样本幅度谱，然后对带混响样本幅度谱中的各幅度值先求平方再取对数，得到相应的带混响样本对数能量谱，作为带混响样本语音特征。

S406，采用待训练混响消除模型的长短期记忆网络层，对带混响样本语音特征进行预测，获得对应的预测时频掩蔽量。

具体地，将带混响样本语音特征输入长短期记忆网络层（LSTM），通过LSTM对带混响样本语音特征进预测，输出对应的预测时频掩蔽量。LSTM不仅可以考虑当前时刻的输入，还赋予网络对之前内容的记忆功能，网络结构中的输入门、输出门、遗忘门、细胞状态单元使得LSTM在时序建模能力上得到提升，能够记忆更多的信息，有效抓取数据中的长时依赖。

S408，采用待训练混响消除模型的时频掩蔽处理层，将预测时频掩蔽量与带混响样本幅度谱进行相乘，得到预测幅度谱。

具体地，待LSTM输出预测时频掩蔽量后，将预测时频掩蔽量和带混响样本幅度谱一起输入时频掩蔽处理层，通过时频掩蔽处理层将预测时频掩蔽量与带混响样本幅度谱进行逐元素相乘，最后输出预测的去除混响后语音信号的幅度谱，即预测幅度谱。

S410，基于预测幅度谱与标签幅度谱的误差，调整待训练混响消除模型的参数，获得训练好的混响消除模型。

具体地，在不满足训练结束条件时，基于预测幅度谱与标签幅度谱的误差，调整待训练混响消除模型中LSTM的参数，之后返回步骤S406至步骤S408进行迭代，直至满足训练结束条件，获得训练好的混响消除模型。其中，训练结束条件可以是迭代次数达到预设次数，也可以是预测幅度谱相对于标签幅度谱的损失值小于预设阈值。

上述模型训练过程中，模型的输入是基于带混响样本幅度谱获得的带混响样本语音信号的带混响语音特征，模型的输出是带混响样本语音信号的预测幅度谱，训练目标是减小带混响样本语音信号的预测幅度谱与对应的干净样本语音信号的标签幅度谱之间的差异。具体地，基于最小均方误差的目标函数可以定义如下：

其中，y _n和x _n分别表示第n帧带混响样本语音信号的预测幅度谱和对应的标签幅度谱，

表示预测时频掩蔽量，W和b分别是模型的权重及偏置。在优化模型时，标签幅度谱（即带混响样本语音信号去除混响后期望达到的幅度谱）参与了指导模型的学习，该模型训练方法直接追求预测幅度谱与标签幅度谱之间的近似，通过该模型训练方法训练获得的混响消除模型，可以直接优化去混响后的幅度谱，相对于间接优化去混响后的幅度谱的模型，具有更优的表现。

本实施例中，使用隐式的时频掩蔽方法将时频掩蔽融合到LSTM中组成混响消除模型，将时频掩蔽处理层作为中间层以辅助预测去混响后语音信号的幅度谱，实现对带混响语音信号的混响消除，相比于传统的基于信号处理的去混响方法，混响消除能力大大提升，并且能够减少语音损伤，提升语音的可懂度。此外，本实施例训练获得的混响消除模型具有较好的泛化能力，在大多数混响场景下都具有不错的混响消除能力。举例来说，在带有玻璃墙的会议室内，由于玻璃墙的反射导致在该会议室内采集到的实际音频的混响较重，频谱比较模糊，具有较为明显的拖尾现象，采用本实施例的混响消除模型对采集到的实际音频进行去混响处理后，得到的频谱变得清晰，拖尾现象得到较大改善，从听感上来说，处理后的音频质量具有较为明显的提升，在不损伤语音的前提下，语音的清晰度和可懂度得到提升。

在一个实施例中，获取带混响样本语音信号的步骤，具体可以包括以下步骤：获取干净样本语音信号和模拟房间脉冲响应信号；将模拟房间脉冲响应信号与干净样本语音信号进行卷积，得到带混响样本语音信号。

其中，干净样本语音信号表示无混响或者混响可忽略不计的环境下的语音信号，具体地，终端可以在无混响或者混响可忽略不计的环境下采集语音信号，获得干净样本语音信号。模拟房间脉冲响应信号表示模拟房间脉冲响应的信号，具体地，可以使用模拟工具模拟生成各种室内混响场景下的房间脉冲响应，获得模拟房间脉冲响应信号。

本实施例中，通过将模拟房间脉冲响应信号与干净样本语音信号进行卷积，得到的带混响样本语音信号，可以覆盖大多数室内混响场景，将其作为训练数据训练混响消除模型，训练获得的混响消除模型具有较好的泛化能力。

在一个实施例中，根据第二幅度谱，确定消除混响后的语音信号的步骤，具体可以是对第二幅度谱进行傅里叶逆变换，得到消除混响后的语音信号。

第二幅度谱表示对带混响语音信号进行去混响处理后得到的幅度谱，通过对第二幅度谱进行傅里叶逆变换，实现从频域到时域的转换，获得消除混响后的时域语音信号。

在一个实施例中，如图5所示，提供了一种混响消除方法，该方法包括以下步骤S501至步骤S507。

S501，获取带混响语音信号。

S502，对带混响语音信号进行分帧和加窗处理，得到语音信号帧。

S503，对各语音信号帧进行傅里叶变换得到对应的傅里叶变换系数，对各傅里叶变换系数进行取模得到对应的幅度值，基于各幅度值得到第一幅度谱。

S504，对第一幅度谱中的各幅度值进行先求平方再取对数处理，获得相应的对数能量谱，作为带混响语音信号对应的带混响语音特征。

S505，采用训练好的混响消除模型的长短期记忆网络层，对带混响样本语音特征进行预测，获得对应的时频掩蔽量。

S506，采用训练好的混响消除模型的时频掩蔽处理层，将时频掩蔽量与第一幅度谱进行相乘，得到第二幅度谱。

S507，对第二幅度谱进行傅里叶逆变换，得到消除混响后的语音信号。

关于步骤S501~S507的具体描述可以参见前文实施例，在此不再赘述。本实施例中，使用隐式的时频掩蔽方法将时频掩蔽融合到LSTM中组成混响消除模型，将带混响语音信号的对数能量谱作为模型输入，最终模型输出去混响后语音信号的幅度谱，实现对带混响语音信号的混响消除，同时能够减少语音损伤，提升消除混响后的语音可懂度和音质。

请参阅图6和图7，图6为带混响语音信号（去混响前的语音信号）的质量测试结果，图7为消除混响后的语音信号（去混响后的语音信号）的质量测试结果。质量测试结果包含多个客观指标，具体包括主观语音质量评估（PESQ）、短时客观可懂度（STOI）、分段信噪比（SSNR）、对数谱距离（LSD）和语音对混响调制能量比（SRMR）。其中，PESQ指标越大，语音整体质量越好；STOI指标越大，语音可懂度越好；SSNR指标越大，干扰声消除效果越好；LSD指标越小，语音损伤越少；SRMR指标越大，混响消除地越多。对比图7和图8的测试结果可以看出，通过上述方法实施例对三种不同混响等级（轻度混响、中度混响、重度混响）的带混响语音信号进行混响消除后，得到的消除混响后的语音信号的各客观指标，相较于去混响前的语音信号均表现更优异，既有效消除了混响，又减少可语音损伤，提升了语音质量。

应该理解的是，虽然图1、4-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、4-5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种混响消除装置800，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块810、处理模块820、消除模块830和确定模块840，其中：

获取模块810，用于获取带混响语音信号。

处理模块820，用于对带混响语音信号进行处理得到第一幅度谱，基于第一幅度谱获得带混响语音信号的带混响语音特征。

消除模块830，用于根据带混响语音特征确定对应的时频掩蔽量，基于时频掩蔽量对第一幅度谱进行混响消除，得到第二幅度谱。

确定模块840，用于根据第二幅度谱，确定消除混响后的语音信号。

在一个实施例中，处理模块820在对带混响语音信号进行处理得到第一幅度谱时，具体用于：对带混响语音信号进行分帧和加窗处理，得到语音信号帧；对各语音信号帧进行傅里叶变换得到对应的傅里叶变换系数，对各傅里叶变换系数进行取模得到对应的幅度值，基于各幅度值得到第一幅度谱。

在一个实施例中，处理模块820在基于第一幅度谱获得带混响语音信号的带混响语音特征时，具体用于将第一幅度谱作为带混响语音信号对应的带混响语音特征。

在一个实施例中，处理模块820在基于第一幅度谱获得带混响语音信号的带混响语音特征时，具体用于对第一幅度谱中的各幅度值进行取对数处理，获得相应的对数幅度谱，作为带混响语音信号对应的带混响语音特征。

在一个实施例中，处理模块820在基于第一幅度谱获得带混响语音信号的带混响语音特征时，具体用于对第一幅度谱中的各幅度值进行先求平方再取对数处理，获得相应的对数能量谱，作为带混响语音信号对应的带混响语音特征。

在一个实施例中，消除模块830在根据带混响语音特征确定对应的时频掩蔽量，基于时频掩蔽量对第一幅度谱进行混响消除，得到第二幅度谱时，具体用于：采用训练好的混响消除模型，对带混响语音特征进预测，确定对应的时频掩蔽量，并将时频掩蔽量与第一幅度谱进行相乘，得到第二幅度谱。

在一个实施例中，混响消除模型包括长短期记忆网络层和时频掩蔽处理层；该装置还包括训练模块，用于训练获得混响消除模型；训练模块包括：获取单元、处理单元、第一预测单元、第二预测单元和调整单元，其中：

获取单元，用于获取带混响样本语音信号、以及带混响样本语音信号对应的干净样本语音信号的标签幅度谱。

处理单元，用于对带混响样本语音信号进行处理得到带混响样本幅度谱，基于带混响样本幅度谱获得带混响样本语音信号的带混响样本语音特征。

第一预测单元，用于采用待训练混响消除模型的长短期记忆网络层，对带混响样本语音特征进行预测，获得对应的预测时频掩蔽量。

第二预测单元，用于采用待训练混响消除模型的时频掩蔽处理层，将预测时频掩蔽量与带混响样本幅度谱进行相乘，得到预测幅度谱。

调整单元，用于基于预测幅度谱与标签幅度谱的误差，调整待训练混响消除模型的参数，获得训练好的混响消除模型。

在一个实施例中，获取单元在获取带混响样本语音信号时，具体用于：获取干净样本语音信号和模拟房间脉冲响应信号；将模拟房间脉冲响应信号与干净样本语音信号进行卷积，得到带混响样本语音信号。

在一个实施例中，确定模块840在根据第二幅度谱，确定消除混响后的语音信号时，具体用于对第二幅度谱进行傅里叶逆变换，得到消除混响后的语音信号。

关于混响消除装置的具体限定可以参见上文中对于混响消除方法的限定，在此不再赘述。上述混响消除装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种混响消除方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种混响消除方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9或图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要理解的是，上述实施例中的术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种混响消除方法，其特征在于，所述方法包括：

获取带混响语音信号；

根据所述第二幅度谱，确定消除混响后的语音信号。

2.根据权利要求1所述的方法，其特征在于，对所述带混响语音信号进行处理得到第一幅度谱，包括：

对所述带混响语音信号进行分帧和加窗处理，得到语音信号帧；

对各所述语音信号帧进行傅里叶变换得到对应的傅里叶变换系数，对各所述傅里叶变换系数进行取模得到对应的幅度值，基于各所述幅度值得到第一幅度谱。

3.根据权利要求2所述的方法，其特征在于，基于所述第一幅度谱获得所述带混响语音信号的带混响语音特征，包括下述各项中的任意一项：

第一项：将所述第一幅度谱作为所述带混响语音信号对应的带混响语音特征；

第二项：对所述第一幅度谱中的各幅度值进行取对数处理，获得相应的对数幅度谱，作为所述带混响语音信号对应的带混响语音特征；

第三项：对所述第一幅度谱中的各幅度值进行先求平方再取对数处理，获得相应的对数能量谱，作为所述带混响语音信号对应的带混响语音特征。

4.根据权利要求1所述的方法，其特征在于，根据所述带混响语音特征确定对应的时频掩蔽量，基于所述时频掩蔽量对所述第一幅度谱进行混响消除，得到第二幅度谱，包括：

采用训练好的混响消除模型，对所述带混响语音特征进预测，确定对应的时频掩蔽量，并将所述时频掩蔽量与所述第一幅度谱进行相乘，得到第二幅度谱。

5.根据权利要求4所述的方法，其特征在于，所述混响消除模型包括长短期记忆网络层和时频掩蔽处理层，训练获得所述混响消除模型的方法包括：

获取带混响样本语音信号、以及所述带混响样本语音信号对应的干净样本语音信号的标签幅度谱；

对所述带混响样本语音信号进行处理得到带混响样本幅度谱，基于所述带混响样本幅度谱获得所述带混响样本语音信号的带混响样本语音特征；

采用待训练混响消除模型的长短期记忆网络层，对所述带混响样本语音特征进行预测，获得对应的预测时频掩蔽量；

采用待训练混响消除模型的时频掩蔽处理层，将所述预测时频掩蔽量与所述带混响样本幅度谱进行相乘，得到预测幅度谱；

基于所述预测幅度谱与所述标签幅度谱的误差，调整所述待训练混响消除模型的参数，获得训练好的混响消除模型。

6.根据权利要求5所述的方法，其特征在于，获取带混响样本语音信号，包括：

获取干净样本语音信号和模拟房间脉冲响应信号；

将所述模拟房间脉冲响应信号与所述干净样本语音信号进行卷积，得到带混响样本语音信号。

7.根据权利要求1至6中任一项所述的方法，其特征在于，根据所述第二幅度谱，确定消除混响后的语音信号，包括：

对所述第二幅度谱进行傅里叶逆变换，得到消除混响后的语音信号。

8.一种混响消除装置，其特征在于，所述装置包括：

获取模块，用于获取带混响语音信号；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。