CN111489760B

CN111489760B - 语音信号去混响处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111489760B
Application number: CN202010250009.3A
Authority: CN
Inventors: 朱睿; 李娟娟; 王燕南; 李岳鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2023-05-16
Anticipated expiration: 2040-04-01
Also published as: CN111489760A; US20220230651A1; WO2021196905A1

Abstract

本申请涉及基于机器学习的一种语音信号去混响处理方法、装置、计算机设备和存储介质。所述方法包括：获取原始语音信号，提取所述原始语音信号中当前帧的幅度谱特征和相位谱特征；提取所述幅度谱特征的子带幅度谱，将所述子带幅度谱输入至第一混响预测器，输出所述当前帧对应的混响强度指标；利用第二混响预测器根据所述子带幅度谱和所述混响强度指标确定所述当前帧的纯净语音子带谱；对所述纯净语音子带谱和所述相位谱特征进行信号转换，得到去混响后的纯净语音信号。采用本方法能够有效提高语音信号的消除混响的准确率。

Description

语音信号去混响处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及通信技术领域，特别是涉及一种语音信号去混响处理方法、装置、计算机设备和存储介质。

背景技术

随着计算机通信技术的迅速发展，出现了基于VoIP(Voice over InternetProtocol，基于IP的语音传输)的语音通话技术，经由互联网来进行通信，以实现语音通话和多媒体会议等通信功能。在基于VoIP点对点通话或者多人在线电话会议中，由于说话人距离麦克风远或者室内声学环境欠佳导致的混响声，会导致语音不清晰，影响语音通话质量。通过对单通道语音去混响，可以提高语言通话质量。

传统单通道语音去混响技术，需通过获取过去一段时间的历史帧信息，利用最优维纳解、LPC预测、自回归模型、统计模型等方式预测当前帧混响信息。这些预测手段往往依赖语音混响成分的统计平稳性或短时平稳性假设，但对包括早期反射声在内的早期混响无法准确估计。对于环境不断变换的通信场景，通常是采用基于历史帧信息混响估计方式进行混响估计，这种方式对混响程度估计存在一定误差，导致对单通道语音中的混响消除的准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高语音信号的消除混响的准确率的语音信号去混响处理方法、装置、计算机设备和存储介质。

一种语音信号去混响处理方法，所述方法包括：

获取原始语音信号，提取所述原始语音信号中当前帧的幅度谱特征和相位谱特征；

提取所述幅度谱特征的子带幅度谱，将所述子带幅度谱输入至第一混响预测器，输出所述当前帧对应的混响强度指标；

利用第二混响预测器根据所述子带幅度谱和所述混响强度指标确定所述当前帧的纯净语音子带谱；

对所述纯净语音子带谱和所述相位谱特征进行信号转换，得到去混响后的纯净语音信号。

一种语音信号去混响处理装置，所述装置包括：

语音信号处理模块，用于获取原始语音信号，提取所述原始语音信号中当前帧的幅度谱特征和相位谱特征；

第一混响预测模块，用于提取所述幅度谱特征的子带幅度谱，将所述子带幅度谱输入至第一混响预测器，输出所述当前帧对应的混响强度指标；

第二混响预测模块，用于利用第二混响预测器根据所述子带幅度谱和所述混响强度指标确定所述当前帧的纯净语音子带谱；

语音信号转换模块，用于对所述纯净语音子带谱和所述相位谱特征进行信号转换，得到去混响后的纯净语音信号。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述语音信号去混响处理方法、装置、计算机设备和存储介质，获取原始语音信号并提取原始语音信号中当前帧的幅度谱特征和相位谱特征后，对当前帧的幅度谱特征进行频带划分提取对应的子带幅度谱。通过第一混响预测器对基于子带的子带幅度谱进行混响强度预测，能够准确地预测当前帧的混响强度指标。再利用第二混响预测器结合得到的混响强度指标对当前帧的子带幅度谱进一步预测当前帧的纯净语音子带谱，由此能够准确地提取当前帧的纯净语音幅度谱并得到对应的纯净语音信号，从而有效提高了语音信号的混响消除准确性。

附图说明

图1为一个实施例中语音信号去混响处理方法的应用环境图；

图2为一个实施例中的会议界面示意图；

图3为一个实施例中混响功能设置面页的界面示意图；

图4为另一个实施例中混响功能设置面页的界面示意图；

图5为一个实施例中语音信号去混响处理方法的流程示意图；

图6为一个实施例中纯净语音和带混响语音的语谱图；

图7为一个实施例中语音信号的混响强度分布图和混响强度预测分布图；

图8为一个实施例中采用传统方式的混响强度预测分布图和采用语音信号去混响处理方法的混响强度预测分布图；

图9为一个实施例中重混响的原始语音信号对应的语音时域波形和语谱图；

图10为一个实施例中纯净语音信号对应的语音时域波形和语谱图；

图11为另一个实施例中语音信号去混响处理方法的流程示意图；

图12为一个实施例中利用第二混响预测器根据子带幅度谱和混响强度指标确定当前帧的纯净语音子带谱的步骤流程示意图；

图13为另一个具体的实施例中语音信号去混响处理方法的流程示意图；

图14为一个实施例中语音信号去混响处理装置的结构框图；

图15为一个实施例中语音信号去混响处理装置的结构框图；

图16为一个实施例中计算机设备的内部结构图；

图17为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音信号去混响处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信，终端102采集用户录制的语音数据，终端102或服务器104获取原始语音信号，提取原始语音信号中当前帧的幅度谱特征和相位谱特征后，对当前帧的幅度谱特征进行频带划分提取对应的子带幅度谱。通过第一混响预测器对基于子带的子带幅度谱进行混响强度预测，能够准确地预测当前帧的混响强度指标。再利用第二混响预测器结合得到的混响强度指标对当前帧的子带幅度谱进一步预测当前帧的纯净语音子带谱，由此能够准确地提取当前帧的纯净语音幅度谱并得到对应的纯净语音信号。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例提供的方案涉及人工智能的语音增强等技术。语音技术(SpeechTechnology)的关键技术有语音分离(SS)和语音增强(SE)及自动语音识别技术(ASR)。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本申请实施例提供的语音信号去混响处理方法还可应用与云会议，云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。

目前国内云会议主要集中在以SaaS(Software as a Service,软件即服务)模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。在云会议时代，数据的传输、处理、存储全部由视频会议厂家的计算机资源处理，用户完全无需再购置昂贵的硬件和安装繁琐的软件，只需打开浏览器，登录相应界面，就能进行高效的远程会议。

云会议***支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。近年来，视频会议因能大幅提高沟通效率，持续降低沟通成本，带来内部管理水平升级，而获得众多用户欢迎，已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问，视频会议运用云计算以后，在方便性、快捷性、易用性上具有更强的吸引力，必将激发视频会议应用新高潮的到来。

本申请还提供一种应用场景，可用于语音通话场景，具体还可应用于会议场景，会议场景可以为语音会议，还可以为视频会议场景。该应用场景应用上述的语音信号去混响处理方法。具体地，该场景的语音信号去混响处理方法应用于用户终端，该语音信号去混响处理方法在该应用场景的应用如下：

用户可以通过对应的用户终端发起或参加语音会议，用户利用用户终端进入会议后，则开始会议。如图2所示，为一个实施例中的会议界面示意图，当用户终端进入会议界面后，则开始会议。会议界面中包括一些会议选项，如图11所示，可以包括麦克风、摄像头、屏幕共享、成员、设置以及退出会议的选项，这些选项用于设置会议场景的各种功能。

当接收方用户收听对方发言，发现对方声音浑浊，混响较重时，会导致听不清发言内容。接收方用户可以通过用户终端的会议应用程序的会议界面中的设置选项，开启去混响功能。其中，会议界面中混响功能设置界面如图3所示。用户可以通过点击“设置”选项，即如图2所示的会议界面中的设置选项，在如图3所示的混响功能设置面页中，勾选“音频混响消除”选项，开启“扬声器”对应的音频去混响功能。此时，内置于会议应用程序中的语音去混响功能开启，用户终端则会对接收的语音数据进行去混响处理。

用户终端在会议界面中展示通信配置页面，展示通信配置页面包括混响消除配置选项，用户触发示通信配置页面进行混响消除设置。用户终端则获取通过混响消除配置选项触发的混响消除请求，基于混响消除请求对当前获取的带混响语音信号进行去混响处理。具体地，语音接收方的用户终端接收到发送方终端发送的原始语音信号，并对原始语音信号进行分帧加窗等预处理后，提取当前帧的幅度谱特征和相位铺特征。用户终端进而对当前帧的幅度谱特征进行频带划分提取对应的子带幅度谱，通过第一混响预测器对基于子带的子带幅度谱进行混响强度预测，能够准确地预测当前帧的混响强度指标。再利用第二混响预测器结合得到的混响强度指标对当前帧的子带幅度谱进一步预测当前帧的纯净语音子带谱，由此能够准确地提取当前帧的纯净语音幅度谱。用户终端则对纯净语音子带谱和相位谱特征进行信号转换，从而得到去混响后的纯净语音信号，并通过用户终端的扬声器设备输出去混响后的纯净语音信号。由此用户终端在接收对方发送过来的语音数据时，可以消除用户扬声器或耳机播放声音中，其他用户语音中的混响成分，保留其他用户发言中的纯洁语音，有效提高了语音去混响的准确率和效率，从而能够有效提升会议通话体验。

在另一个应用场景中，用户进入会议后，当用户发言时，用户发现自己所处的环境混响比较重，或者对方反馈听不清发言内容。用户还可以通过如图12所示的混响功能设置界面中的设置选项，进行混响功能配置，以开启去混响功能。即如图4所示的混响功能设置界面页中，勾选“音频混响消除”选项，开启“麦克风”对应的音频去混响功能。此时，内置于会议应用程序中的语音去混响功能开启，发送方对应的用户终端则会对录制的语音数据进行去混响处理，去混响处理过程与上述处理过程相同，在此不再赘述。由此用户终端可以消除麦克风采集到语音发送方的发言语音中的混响成分，提取出发言语音中的纯净语音信号再发送出去，有效提高了语音去混响的准确率和效率，从而能够有效提升会议通话体验。

本申请还另外提供一种应用场景，应用于语音通话场景，具体仍可以应用于语音会议或视频会议场景。该应用场景应用上述的语音信号去混响处理方法。具体地，该语音信号去混响处理方法在该应用场景的应用如下：

在多人会议中，多个用户终端与服务器进行通信连接，以进行多端语音交互，用户终端发送语音信号至服务器，服务器将语音信号传输至相应的接收方用户终端。每个用户需要接受其他所有用户的语音流，即N人会议，每一个用户需要收听其他N-1路语音数据，因此需要有混音流控操作。多人会议中，发言方用户可以选择开启去混响，使得发送方用户终端发送出去的语音信号没有混响。收听方用户也可以在对应的接收方用户终端开启去混响功能，使得接收方用户终端接收的声音信号没有混响。服务器也可以开启去混响，使得服务器对经过的语音数据进行去混响处理。服务器或者接收方用户终端的进行去混响处理时，通常将多路语音数据混音成1路语音数据以后，再进行去混响处理，以降低计算资源。进一步地，服务器也可以对混音前的每一路流做去混响处理，或者自动判断该路流是否存在混响，再确定是否进行去混响处理。

在一个实施例中，服务器把N-1路数据都下发给相应的接收方用户终接收方用户终端将多路接收的语音数据混音成1路，并进行去混响处理后通过用户终端的扬声器输出。

在另一个实施例中，通过服务器对接收的1路或多路与运输局进行混音操作，即服务器需要把N-1路数据混成1路，并对混音后的语音数据进行去混响后，再将去混响后的语音数据下发给相应的接收方用户终端。具体地，服务器获取发送方用户终端上传的原始语音数据后，获取对应的原始语音信号。服务器对原始语音信号进行分帧加窗等预处理后，提取当前帧的幅度谱特征和相位铺特征。服务器进而对当前帧的幅度谱特征进行频带划分提取对应的子带幅度谱，通过第一混响预测器对基于子带的子带幅度谱进行混响强度预测，能够准确地预测当前帧的混响强度指标。再利用第二混响预测器结合得到的混响强度指标对当前帧的子带幅度谱进一步预测当前帧的纯净语音子带谱。服务器则对纯净语音子带谱和相位谱特征进行信号转换，从而得到去混响后的纯净语音信号。服务器进而将去混响后的纯净语音信号发送至当前会议中相应的接收方用户终端，并通过用户终端的扬声器设备输出去混响后的纯净语音信号，从而能够有效得到混响消除率较高的纯净语音信号，有效提高了语音去混响的准确率和效率。

在一个实施例中，如图5所示，提供了一种语音信号去混响处理方法，本实施例主要以该方法应用于计算机设备来举例说明，该计算机设备具体可以是上图中的终端102或者服务器104。参照图5，语音信号去混响处理方法包括以下步骤：

步骤S502，获取原始语音信号，提取原始语音信号中当前帧的幅度谱特征和相位谱特征。

其中，通常在音频信号采集或录制的情况下,传声器除了接收到所需要的声源发射声波直接到达的部分外,还会接收声源发出的、经过其它途径传递而到达的声波,以及所在环境其它声源产生的不需要的声波(即背景噪声)。在声学上,延迟时间达到约50ms以上的反射波称为回声,其余的反射波产生的效应称为混响。

音频采集装置可以通过音频通道采集用户发出的原始语音信号，原始语音信号可能是带混响的音频信号。通常情况下，由于说话人距离麦克风较远或者室内声学环境欠佳会产生混响声，会导致语音不清晰，从而影响语音通信质量。因此需要对带混响的原始语音信号进行去混响处理。本实施例中的语音信号去混响处理方法可以适用于对单通道的原始语音信号进行处理。

计算机设备获取原始语音信号后，首先对原始语音信号进行预处理，预处理包括预加重和分帧加窗等处理。具体地，对采集到的原始语音信号进行分帧、加窗处理，得到预处理后原始语音信号，进而对每一帧的原始语音信号进行处理。例如，可以采用三角窗或汉宁窗将原始语音信号分为多个帧长为10-30ms(毫秒)的帧，帧移可以取10ms，从而可以将原始语音信号分为多帧语音信号。

傅里叶变换可实现时频转换，在傅里叶分析中，把各个分量的幅度值随着频率的变化称为信号的幅度谱；而把各个分量的相位值随角频率变化称为信号的相位谱。原始语音信号经傅里叶变换后得到幅度谱和相位谱。

计算机设备对原始语音信号进行加窗分帧后，对加窗分帧后的原始语音信号进行快速傅里叶转换，由此得到原始语音信号的频谱。计算机设备则可以根据原始语音信号的频谱提取当前帧的幅度谱特征和相位谱特征。

步骤S504，提取幅度谱特征的子带幅度谱，将子带幅度谱输入至第一混响预测器，输出当前帧对应的混响强度指标。

其中，子带幅度谱是通过对每一帧的幅度谱进行子带划分得到的多个子带幅度谱，多个为至少两个以上。具体地，计算机设备可以对幅度谱特征进行频带划分，将每一帧的幅度谱划分为多个子带幅度谱，得到当前帧的幅度谱特征所对应的子带幅度谱。每一帧都会计算相应的子带幅度谱。

其中，第一混响预测器可以是一种机器学习模型。机器学习模型是通过样本学习后具备某种能力的模型，具体可以是神经网络模型，比如CNN(Convolutional NeuralNetworks，卷积神经网络)模型、RNN(Recurrent Neural Networks，循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)模型等。具体地，第一混响预测器可以为基于LSTM神经网络模型的混响强度预测器。第一混响预测器为预先训练的具有混响预测能力神经网络模型。

具体地，计算机设备对当前帧的幅度谱特征进行频带划分，得到多个子带幅度谱，即将每一帧的幅度谱特征划分为多个子带幅度谱，每个子带幅度谱包括对应的子带标识。

计算机设备进一步将当前帧的幅度谱特征所对应的子带幅度谱输入至第一混响预测器。具体地，第一混响预测器包括多层神经网络，计算机设备将每个子带幅度谱的幅度谱特征作为网络模型的输入特征，通过第一混响强度预测器中的多层网络结构以及相应的网络参数和网络权重对各个子带幅度谱的幅度谱特征进行分析，预测当前帧中各个子带的纯净语音能量比，进而输出根据各个子带的纯净语音能量比输出当前帧对应的混响强度指标。

步骤S506，利用第二混响预测器根据子带幅度谱和混响强度指标确定当前帧的纯净语音子带谱。

其中，第二混响预测器可以为基于历史帧的混响强度预测算法模型。例如，混响强度预测算法可以是加权递归最小二乘法、自回归预测模型、语音信号线性预测等算法，此处不做限定。

计算机设备还利用第二混响预测器提取当前帧中每个子带所含的稳态噪声谱和稳态混响幅度谱，利用每个子带的稳态噪声谱和稳态混响幅度谱以及子带幅度谱计算后验信干比，进而利用后验信干比和第一混响预测器输出的混响强度指标计算先验信干比，再利用先验信干比对子带幅度谱加权处理，从而能够精准有效地得到所估计的纯净语音子带幅度谱。

步骤S508，对纯净语音子带谱和相位谱特征进行信号转换，得到去混响后的纯净语音信号。

计算机设备利用第一混响预测器预测的当前帧对应的混响强度指标后，利用第二混响预测器根据子带幅度谱和混响强度指标确定当前帧的纯净语音子带谱，由此能够准确有效地估计出不带混响的纯净语音子带幅度谱。

计算机设备进而对纯净语音子带谱进行逆恒变换，得到变换后的纯净语音幅度谱，并将纯净语音幅度谱和相位谱特征结合，进行时域变换，从而得到去混响后的纯净语音信号。通过利用基于神经网络的第一混响预测器，与基于历史帧的第二混响预测器结合进行混响估计，能够提高混响强度估计的准确率，从而有效提高了语音信号的混响消除准确性，进而能够有效提高语音识别的准确率。

上述语音信号去混响处理方法中，获取原始语音信号，并提取原始语音信号中当前帧的幅度谱特征和相位谱特征后，对当前帧的幅度谱特征进行频带划分提取对应的子带幅度谱。通过第一混响预测器对基于子带的子带幅度谱进行混响强度预测，能够准确地预测当前帧的混响强度指标。再利用第二混响预测器结合得到的混响强度指标对当前帧的子带幅度谱进一步预测当前帧的纯净语音子带谱，由此能够准确地提取当前帧的纯净语音幅度谱，从而有效提高了语音信号的混响消除准确性。

传统的语音信号去混响处理方式中，利用传统的混响预测器基于历史帧的功率谱线性叠加，估计出晚期混响的功率谱，再当前帧中减去晚期混响的功率谱，得到去混响后的功率谱，以得到去混响后的时域语音信号。这种方式依赖语音混响成分的统计平稳性或短时平稳性假设但对于包括早期反射声在内的早期混响无法准确估计。传统的基于神经网络直接预测幅度谱的方式，幅度谱的变化范围较大，学习难度也比较大，导致语音损伤较多；且往往需要复杂的网络结构处理多个频点特征，计算量较大，导致处理效率较低。

本实施例中，利用一段纯净语音信号和一段在混响环境录制的带混响语音信号进行实验测试，采用本实施例中的语音信号去混响处理方法在混响环境录制的带混响语音信号进行处理。实验测试包括：通过展示纯净语音的语音谱、在混响环境录制的带混响语音的语谱图、混响强度分布图谱进行比较。其中，如图6(a)中所示，为纯净语音的语音谱，横轴为时间轴，纵轴为频率轴。6(b)为纯净语音在混响环境录制的带混响语音的语谱图。通过将图6(a)与6(b)比对，可以看出6(b)中的语音谱线出现模糊失真。如图7(a)所示，7(a)展示了具体不同时刻不同频带失真的大小，即混响干扰的强度，颜色越亮混响越强。图7(a)反映了带混响语音的混响强度，也是本实施例中利用第一混响预测器预测的目标。

利用基于神经网络的第一混响预测器对带混响语音的混响强度进行混响强度预测，得到的预测结果可以如图7(b)所示。从图7(b)可以看出利用第一混响预测器较为准确地预测出了图7(a)中真实混响强度分布。

相比之下，利用不采用本方案中基于神经网络的第一混响预测器，仅采用传统的基于历史帧的混响预测器进行预测，得到的结果如图8(a)所示。从图8(a)可以看出其无法准确估计出混响强度分布的细节。

进一步地，通过将基于神经网络的第一混响预测器预测的结果，结合基于历史帧的第二混响预测器进行混响强度预测，得到的结果如图8(b)所示。相比传统的方式，采用本实施例的方案得到的结果更接近真实的混响强度分布，显著提高了带混响语音信号的混响预测准确率。

图9为一个实施例中重混响的原始语音信号对应的语音时域波形和语谱图，如图9所示，可见由于混响存在，语音存在较长的拖尾，字与字波形连在一起，语谱图谱线模糊，语音信号的整体可懂度和清晰度较低。

通过采用本实施例中的语音信号去混响处理方法对重混响的原始语音信号进行处理，得到的纯净语音信号对应的语音时域波形和语谱图如图10所示。通过第一混响预测器对基于子带的当前帧的子带幅度谱进行混响强度预测，得到当前帧的混响强度指标。再利用第二混响预测器结合得到的混响强度指标对当前帧的子带幅度谱进一步预测当前帧的纯净语音子带谱，由此能够准确地提取出纯净语音信号，有效提高了语音信号的混响消除的准确率。

在一个实施例中，将子带幅度谱输入至第一混响预测器，输出当前帧对应的混响强度指标包括：利用第一混响预测器预测当前帧中各个子带的纯净语音能量比；根据各个子带的纯净语音能量比确定当前帧对应的混响强度指标。

其中，第一混响预测器为预先利用大量带混响语音数据和纯净语音数据训练得到的基于神经网络模型的混响预测器。第一混响预测器包括多层网络结构，每层网络包括对应的网络参数和网络权重，以用于预测带混响的原始语音信号中各个子带的纯净语音占比。

计算机设备提取出当前帧的幅度谱对应的子带幅度谱后，将当前帧的子带幅度谱输入至第一混响预测器，第一混响预测器的各层网络分别对各个子带幅度谱进行分析。第一混响预测器将每个子带幅度谱中带混响原始语音与纯净语音的能量比作为预测目标，通过第一混响预测器的各个网络层的网络参数和网络权重可以分析出各个子带幅度谱的纯净语音能量比，进而可以根据当前帧的各个子带幅度谱的纯净语音能量比预测出当前帧的混响强度分布，从而得到当前帧对应的混响强度指标。通过利用预先训练的基于神经网络的第一混响预测器对各个子带幅度谱进行混响预测，由此能够准确地估计出当前帧的混响强度指标。

在一个实施例中，如图11所示，提供了一种语音信号去混响处理方法，包括以下步骤：

步骤S1102，获取原始语音信号，提取原始语音信号中当前帧的幅度谱特征和相位谱特征。

步骤S1104，提取幅度谱特征的子带幅度谱，将子带幅度谱输入至第一混响预测器，通过第一混响预测器的输入层提取各个子带幅度谱的维度特征。

步骤S1106，利用第一混响预测器的预测层根据维度特征提取各个子带幅度谱的表征信息，根据表征信息确定各个子带幅度谱的纯净语音能量比。

步骤S1108，利用第一混响预测器的输出层根据各个子带对应的纯净语音能量比输出当前帧对应的混响强度指标。

步骤S1110，利用第二混响预测器根据子带幅度谱和混响强度指标确定当前帧的纯净语音子带谱。

步骤S1112，对纯净语音子带谱和相位谱特征进行信号转换，得到去混响后的纯净语音信号。

其中，第一混响预测器为基于LSTM长短期记忆网络的神经网络模型，第一混响预测器包括输入层、预测层和输出层。输入层和输出层可以为全连接层，输入层用于提取模型输入数据的特征维度，输出层用于规整化均值和取值范围以及输出结果等。具体地，预测层可以为LSTM结构的网络层，其中，预测层至少包括两层LSTM结构的网络层。预测层的网络结构中包括输入门、输出门、遗忘门和细胞状态单元，使得LSTM在时序建模能力上得到显著的提升，能够记忆更多的信息，有效地抓住数据中的长时依赖，从而准确有效地提取输入特征的表征信息。

计算机设备利用第一混响预测器预测当前帧的混响强度指标的过程中，将当前帧的各个子带幅度谱输入至第一混响预测器后，首先通过第一混响强度预测器的输入层提取各个子带幅度谱的维度特征。具体地，计算机设备可以将恒Q频带提取的子带幅度谱作为网络的输入特征。例如，Q频带数目可以用K表示，也即第一混响预测器的输入特征维度。如当输入语音采样率为16kHz，帧长为20ms时，进行512点STFT(短时傅里叶变换)后，K取值则为8。通过第一混响预测器对输入特征进行预测分析后，输出也是一个8维特征，即表示8个恒Q带上预测的混响强度。

在其中一个实施例中，第一混响预测器的各层网络结构可以采用1024节点的网络层。预测层为两层1024节点的LSTM网络。如图7所示，为采用两层1024节点LSTM网络的第一混响预测器所对应的网络层结构示意图。

其中，预测层为基于LSTM的网络层，LSTM网络中包括三个门，分别为遗忘门、输入门和输出门。遗忘门决定之前状态中的信息有多少应该舍弃，例如可以通过输出一个0和1之间的数值，代表保留的信息部分。上一时刻的隐藏层输出的数值可以作为遗忘门的参数。输入门用于决定哪些信息应该保留在细胞状态单元中，输入门的参数可以通过训练得到。忘记门计算出旧的细胞状态单元中有多少信息被遗弃，接着输入门将所得的结果加入到细胞状态，表示新的输入信息中有多少加入到细胞状态中。细胞状态单元更新之后，基于细胞状态计算输出。输入数据通过sigmoid激活函数得到“输出门”的值。然后将细胞状态单元的信息经过处理后，并与输出门的值结合进行处理得到细胞状态单元的输出结果。

计算机设备通过第一混响强度预测器的输入层提取各个子带幅度谱的维度特征后，利用第一混响预测器的预测层根据维度特征提取各个子带幅度谱的表征信息。其中，预测层中的各个网络层结构通过相应的网络参数和网络权重分别提取各个子带幅度谱的表征信息，表征信息还可以包括多层次的表征信息。例如每一层网络层提取相应的子带幅度谱的表征信息，通过多层网络层进行提取后，从而可以提取出各个子带幅度谱的深层表征信息，以进一步准确地利用所提取得到的表征信息进行预测分析。

计算机设备进而通过预测层根据表征信息输出各个子带幅度谱的纯净语音能量比，并通过输出层根据各个子带对应的纯净语音能量比输出当前帧对应的混响强度指标。计算机设备进一步利用第二混响预测器根据子带幅度谱和混响强度指标确定当前帧的纯净语音子带谱。通过对纯净语音子带谱和相位谱特征进行信号转换，由此得到去混响后的纯净语音信号。

本实施例中，通过利用预先训练的基于神经网络的第一混响预测器的各个网络层的网络参数和网络权重对各个子带幅度谱进行分析，可以精准地分析出各个子带幅度谱的纯净语音能量比，由此能够准确有效地估计出当前帧的混响强度指标。

在一个实施例中，利用第二混响预测器根据子带幅度谱和混响强度指标确定当前帧的纯净语音子带谱包括：利用第二混响预测器根据当前帧的幅度谱特征确定当前帧的后验信干比；利用后验信干比和混响强度指标计算当前帧的先验信干比；利用先验信干比对当前帧的子带幅度谱进行滤波增强处理，得到当前帧的纯净语音子带幅度谱。

其中，信干比(signal to interference ratio,SIR)是指信号的能量与干扰能量(如同频干扰、多径等)和加性噪声能量的和的比值。先验信干比表示根据以往经验和分析得到的信干比，后验信干比则表示基于新的信息修正原来的先验信息后获得的更接近实际情况的信干比估计。

计算机设备在预测子带幅度谱的混响时，还利用第二混响预测器对每个子带幅度谱进行平稳噪声估计，并根据估计结果计算当前帧的后验信干比。第二混响预测器进而根据当前帧的后验信干比结合第一混响预测器预测得到的混响强度指标计算当前帧的先验信干比，通过第二混响预测器得到当前帧的先验信干比后，利用先验信干比对当前帧的子带幅度谱进行加权增强处理，从而可以得到预测的当前帧的纯净语音子带谱。通过第一混响预测器能够精准地预测得到当前帧的混响强度指标，进而利用混响强度指标动态调节去混响量，由此能够准确地计算当前帧的先验信干比，从而能够精准地估计出其中的纯净语音子带谱。

在一个实施例中，如图12所示，利用第二混响预测器根据子带幅度谱和混响强度指标确定当前帧的纯净语音子带谱的步骤，具体包括以下内容：

步骤S1202，利用第二混响预测器提取当前帧中各个子带对应的稳态噪声幅度谱。

步骤S1204，利用第二混响预测器提取当前帧中各个子带对应的稳态混响幅度谱。

步骤S1206，利用稳态噪声幅度谱、稳态混响幅度谱和子带幅度谱确定当前帧的后验信干比。

步骤S1208，利用后验信干比和混响强度指标计算当前帧的先验信干比。

步骤S1210，利用先验信干比对当前帧的子带幅度谱进行滤波增强处理，得到当前帧的纯净语音子带幅度谱。

其中，稳态噪声是指噪声强度波动范围在5dB以内的连续性噪声，或重复频率大于10Hz的脉冲噪声。稳态噪声幅度谱表示子带的噪声幅度分布的幅度谱，稳态混响幅度谱表示子带的混响幅度分布的幅度谱。

第二混响预测器对当前帧的子带幅度谱进行处理时，第二混响预测器提取当前帧中各个子带对应的稳态噪声幅度谱，以及提取当前帧中各个子带对应的稳态混响幅度谱。第二混响预测器进而利用各个子带的稳态噪声幅度谱、稳态混响幅度谱和子带幅度谱计算出当前帧的后验信干比，进一步利用后验信干比和混响强度指标计算当前帧的先验信干比。用过利用先验信干比对当前帧的子带幅度谱进行滤波增强处理，例如可以利用先验信干比对当前帧的子带幅度谱进行加权，从而得到当前帧的纯净语音子带幅度谱。

其中，计算机设备对当前帧的幅度谱特征进行频带划分，提取当前帧所对应的子带幅度谱后，第一混响预测器预测当前帧对应的混响强度指标，第二混响预测器也可以同时对当前帧的子带幅度谱进行分析处理，第一混响预测器和第二混响预测器的处理顺序在此不做限定。第一混响预测器输出当前帧的混响强度指标，以及第二混响预测器计算出当前帧的后验信干比后，第二混响预测器进而利用后验信干比和混响强度指标计算当前帧的先验信干比，利用先验信干比对当前帧的子带幅度谱进行滤波增强处理，从而能够精准地估计出当前帧的纯净语音子带幅度谱。

在一个实施例中，该方法还包括：获取上一帧的纯净语音幅度谱；基于上一帧的纯净语音幅度谱，利用稳态噪声幅度谱、稳态混响幅度谱和子带幅度谱确定当前帧的后验信干比。

其中，第二混响预测器为基于历史帧分析的混响强度预测算法模型。例如，若当前帧是第p帧，则历史帧可以是(p-1)帧、(p-2)帧等。

具体地，本实施例中的历史帧为当前帧的上一帧。计算机设备对原始语音信号的上一帧语音信号进行处理后，可以直接获得上一帧的纯净语音幅度谱。计算机设备进一步处理当前帧的语音信号，利用第一混响预测器获得当前帧的混响强度指标后，利用第二混响预测器预测当前帧的纯净语音子带谱时，第二混响预测器提取当前帧中各个子带对应的稳态噪声幅度谱和稳态混响幅度谱后，进而利用上一帧的纯净语音幅度谱，结合当前帧的稳态噪声幅度谱、稳态混响幅度谱和子带幅度谱计算当前帧的后验信干比。由于第二混响预测器在分析当前帧的后验信干比时，是在基于历史帧的基础上，并结合第一混响预测器所预测的当前帧的混响强度指标，由此能够计算出准确度较高的后验信干比，从而能够利用得到的后验信干比进一步精准地估计出当前帧的纯净语音子带幅度谱。

在一个实施例中，该方法还包括：对原始语音信号进行分帧加窗处理，得到原始语音信号中当前帧对应的幅度谱特征和相位谱特征；获取预设频带系数，根据频带系数对当前帧的幅度谱特征进行频带划分，得到当前帧对应的子带幅度谱。

其中，频带系数用于根据频带系数值将每一帧划分为相应数量的子频带，频带系数可以为一个常量系数。例如，可以采用恒Q(恒定Q值，Q为常量)频带划分的方式对当前帧的幅度谱特征进行频带划分，其中，中心频率与带宽比为常量Q，恒定Q值即为频带系数。

具体地，计算机设备获取原始语音信号后，对原始语音信号进行加窗分帧，并对加窗分帧后的原始语音信号进行快速傅里叶转换，由此得到原始语音信号的频谱。计算机设备进而一次对每一帧原始语音信号的频谱进行处理。

计算机设备首先根据原始语音信号的频谱提取当前帧的幅度谱特征和相位谱特征，对当前帧的幅度谱特征进行恒Q频带划分，得到对应的子带幅度谱。其中，一个子带对应一段子频带，一段子频带可能包括一系列频点，例如子带1对应0-100Hz，子带2对应100-300Hz，依次类推。某个子带的幅度谱特征是对该子带内所含频点的一种加权求和。通过对每一帧的幅度谱进行频带划分，能够有效降低幅度谱的特征维度，如恒Q划分符合人耳对声音低频的分辨率高于高频的生理听觉特征，由此能够有效提高对幅度谱进行分析的精度，从而能够更加精准地对语音信号进行混响预测分析。

在一个实施例中，对纯净语音子带谱和相位谱特征进行信号转换，得到去混响后的纯净语音信号包括：根据频带系数对纯净语音子带谱进行逆恒变换，得到当前帧对应的纯净语音幅度谱；利用纯净语音幅度谱和相位谱特征进行时频转换，得到去混响后的纯净语音信号。

计算机设备通过将每一帧的幅度谱划分为多个子带幅度谱，利用第一混响预测器分别对各个子带幅度谱进行混响预测，得到当前帧的混响强度指标。并利用第二混响预测器根据子带幅度谱和混响强度指标计算出当前帧的纯净语音子带谱后，计算机设备进而对纯净语音子带谱进行逆恒变换。具体可以采用逆恒Q变换方式对纯净语音子带谱进行变化，以将频率不均匀分布的恒Q子带谱变换回频率均衡分布的STFT幅度谱，从而得到当前帧的纯净语音幅度谱。计算机设备进一步将获得的纯净语音幅度谱与原始语音信号的当前帧对应的相位谱结合，进行逆傅里叶变换，以实现语音信号的视频转换，得到转换后的纯净语音信号，即为去混响后的纯净语音信号，由此能够准确地提取出纯净语音信号，有效提高了语音信号的混响消除的准确率。

在一个实施例中，第一混响预测器经过以下步骤进行训练：获取带混响语音数据和纯净语音数据，利用带混响语音数据和纯净语音数据生成训练样本数据；将混响与纯净语音能量比确定为训练目标；提取带混响语音数据对应的带混响频带幅度谱，提取纯净语音数据的纯净语音频带幅度谱；利用带混响频带幅度谱和纯净语音频带幅度谱以及训练目标训练第一混响预测器。

计算机设备在对原始语音信号进行处理之前，还需要预先训练出第一混响预测器，第一混响预测器为神经网络模型。其中，纯净语音数据是指没有混响噪声的纯净语音，带混响语音数据是指存在混响噪声的语音，例如可以是在混响环境下录制的语音数据。

具体地，计算机设备获取带混响语音数据和纯净语音数据，利用带混响语音数据和纯净语音数据生成训练样本数据，训练样本数据用于对预设的神经网络进行训练。训练样本数据具体可以是带混响语音数据和其对应的纯净语音数据对。利用带混响语音数据和纯净语音数据的混响与纯净语音能量比作为训练标签，即模型训练的训练目标。训练标签用于对每次的训练结果进行调参等处理，以进一步训练和优化神经网络模型。

计算机设备获取带混响语音数据和纯净语音数据生成训练样本数据后，将训练样本数据输入至预设的神经网络模型，通过对带混响语音数据进行特征提取以及混响强度预测分析，得到相应的混响与纯净语音能量比。具体地，计算机设备并将带混响语音数据和纯净语音数据的混响与纯净语音能量比作为预测目标，利用带混响语音数据通过预设的函数训练神经网络模型。

在训练预测模型的过程中，利用带混响语音数据和训练目标对预设的神经网络模型进行多次迭代训练，每次得到相应的训练结果。计算机设备进而利用训练目标根据训练结果对预设神经网络模型的参数进行调整，并继续进行迭代训练，直到满足训练条件时，得到训练完成的第一混响预测器。通过利用神经网络对带混响语音数据和纯净语音数据进行训练，从而可以有效地训练得到混响预测准确较高的第一混响预测器。

在一个实施例中，利用带混响频带幅度谱和纯净语音频带幅度谱以及所述训练目标训练第一混响预测器包括：将带混响频带幅度谱和纯净语音频带幅度谱输入至预设网络模型，得到训练结果；基于训练结果与训练目标的差异，调整预设神经网络模型的参数并继续训练，直至满足训练条件时结束训练，得到所需的第一混响预测器。

其中，训练条件是指满足模型训练的条件。训练条件可以是达到预设的迭代次数，也可以是调整参数后的图片分类器的分类性能指标达到预设指标。

具体地，计算机设备每次利用带混响语音数据对预设的神经网络模型进行训练，得到相应的训练结果后，将训练结果与训练目标进行比较，得到训练结果与训练目标的差异。计算机设备则进一步以减少差异为目标，调整预设神经网络模型的参数，并继续进行训练。若调参后的神经网络模型的训练结果不满足训练条件时，则继续利用训练标签对神经网络模型进行调参并继续训练。直到满足训练条件时结束训练，得到所需的预测模型。

其中，训练结果与训练目标的差异可以用代价函数来衡量，可以选择交叉熵损失函数或均方误差等函数作为代价函数。可以在代价函数的值小于预先设定的值时结束训练，从而提高对带混响语音数据中的混响的预测准确性。例如，预设神经网络模型为基于LSTM模型，选择最小均方误差准则更新网络权重，最终在损失参数稳定后，确定LSTM网络各层参数，通过sigmoid激活函数将训练目标约束在[0,1]范围。使得面对带混响的新语音数据时，网络可以预测出该语音中各带纯净语音占比。

本实施例中，在训练预测模型时，通过训练标签对神经网络模型进行指导和调参优化，由此能够有效提高对带混响语音数据中的混响的预测精度，从而有效提提高了第一混响预测器的预测准确度，进而能够有效提高语音信号的混响消除的准确度。

如图13所示，在一个具体地实施例中，语音信号去混响方法包括以下步骤：

步骤S1302，获取原始语音信号，提取原始语音信号中当前帧的幅度谱特征和相位谱特征。

步骤S1304，获取预设频带系数，根据频带系数对当前帧的幅度谱特征进行频带划分，得到当前帧对应的子带幅度谱。

步骤S1306，将子带幅度谱输入至第一混响预测器，通过输入层提取各个子带幅度谱的维度特征。

步骤S1308，利用预测层根据维度特征提取各个子带幅度谱的表征信息，根据表征信息确定各个子带幅度谱的纯净语音能量比。

步骤S1310，利用输出层根据各个子带对应的纯净语音能量比输出当前帧对应的混响强度指标。

步骤S1312，利用第二混响提取当前帧中各个子带对应的稳态噪声幅度谱和稳态混响幅度谱。

步骤S1314，基于上一帧的纯净语音幅度谱，利用稳态噪声幅度谱、稳态混响幅度谱和子带幅度谱确定当前帧的后验信干比。

步骤S1316，利用后验信干比和混响强度指标计算当前帧的先验信干比。

步骤S1318，利用先验信干比对当前帧的子带幅度谱进行滤波增强处理，得到当前帧的纯净语音子带幅度谱。

步骤S1320，根据频带系数对纯净语音子带谱进行逆恒变换，得到当前帧对应的纯净语音幅度谱。

步骤S1322，利用纯净语音幅度谱和相位谱特征进行时频转换，得到去混响后的纯净语音信号。

具体地，原始语音信号可以表示为x(n)，计算机设备对采集的原始语音信号进行分帧、加窗等预处理后，提取当前帧p对应的幅度谱特横X(p,m)和相位谱特征θ(p,m)，其中，其中m为频点标识，p为当前帧标识。计算机设备进一步对当前帧的幅度谱特横X(p,m)进行恒Q频带划分，得到子带幅度谱Y(p,q)。计算公式可以如下：

其中，q为恒Q频带标识，即子带标识；w_q为第q个子带的加权窗，例如可以采用三角窗或汉宁窗进行加窗处理。

计算机设备则将提取的当前帧的子带q的子带幅度谱Y(p,q)输入至第一混响强度预测器中，通过第一混响强度预测器对当前帧的子带幅度谱Y(p,q)进行分析处理，可以得到当前帧中的混响强度指标η(p,q)。

计算机设备进一步利用第二混响强度预测器估计每个子带所含的稳态噪声幅度谱λ(p,q)和每个子带所含的稳态混响幅度谱l(p,q)，利用稳态噪声幅度谱λ(p,q)和稳态混响幅度谱l(p,q)以及结合子带幅度谱Y(p,q)计算后验信干比γ(p,q)，计算公式可以如下：

计算机设备进一步利用后验信干比γ(p,q)和第一混响强度预测器输出的混响强度指标η(p,q)计算先验信干比ξ(p,q)，计算公式可以如下：

其中，

其中，η(p,q)的主要作用是动态调整去混响量，估计的η(p,q)越大，表明p时刻子带q混响越重，去混响的量相对也会越大；反之，估计的η(p,q)越小，表明p时刻子带q混响较轻，去混响的量相对减小，音质损伤也会相对减少。G(p,q)为预测增益函数，用于衡量混响语音中的纯净语音能量占比。

计算机设备再利用先验信干比ξ(p,q)对输入子带幅度谱Y(p,q)加权，从而获得估计的纯净语音子带幅度谱S(p,q)。通过对不带混响的纯净语音子带幅度谱S(p,q)进行如下逆恒Q变换：

其中，Z(p,m)表示纯净语言幅度谱特征。计算机设备再结合当前帧的相位谱特征θ(p,m)进行逆STFT，实现从频域到时域的转换，从而得到去混响后的时域语音信号S(n)。

本实施例中，通过第一混响预测器对基于子带的子带幅度谱进行混响强度预测，能够准确地预测当前帧的混响强度指标；再利用第二混响预测器结合得到的混响强度指标对当前帧的子带幅度谱进一步预测当前帧的纯净语音子带谱，由此能够准确地提取当前帧的纯净语音幅度谱，从而有效提高了语音信号的混响消除准确性。

应该理解的是，虽然图5、11、12、13的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图5、11、12、13中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图14所示，提供了一种语音信号去混响处理装置1400，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：语音信号处理模块1402模块、第一混响预测模块1404、第二混响预测模块1406和语音信号转换模块1408，其中：

语音信号处理模块1402，用于获取原始语音信号，提取原始语音信号中当前帧的幅度谱特征和相位谱特征；

第一混响预测模块1404，用于提取幅度谱特征的子带幅度谱，将子带幅度谱输入至第一混响预测器，输出当前帧对应的混响强度指标；

第二混响预测模块1406，用于利用第二混响预测器根据子带幅度谱和混响强度指标确定当前帧的纯净语音子带谱；

语音信号转换模块1408，用于对纯净语音子带谱和相位谱特征进行信号转换，得到去混响后的纯净语音信号。

在一个实施例中，第一混响预测模块1404还用于利用第一混响预测器预测当前帧中各个子带的纯净语音能量比；根据各个子带的纯净语音能量比确定当前帧对应的混响强度指标。

在一个实施例中，第一混响预测器包括输入层、预测层和输出层，第一混响预测模块1404还用于通过输入层提取各个子带幅度谱的维度特征；利用预测层根据维度特征提取各个子带幅度谱的表征信息，根据表征信息确定各个子带幅度谱的纯净语音能量比；利用输出层根据各个子带对应的纯净语音能量比输出当前帧对应的混响强度指标。

在一个实施例中，第二混响预测模块1406还用于利用第二混响预测器根据当前帧的幅度谱特征确定当前帧的后验信干比；利用后验信干比和混响强度指标计算当前帧的先验信干比；利用先验信干比对当前帧的子带幅度谱进行滤波增强处理，得到当前帧的纯净语音子带幅度谱。

在一个实施例中，第二混响预测模块1406还用于利用第二混响提取当前帧中各个子带对应的稳态噪声幅度谱；利用第二混响提取当前帧中各个子带对应的稳态混响幅度谱；利用稳态噪声幅度谱、稳态混响幅度谱和子带幅度谱确定当前帧的后验信干比。

在一个实施例中，第二混响预测模块1406还用于获取上一帧的纯净语音幅度谱；基于上一帧的纯净语音幅度谱，利用稳态噪声幅度谱、稳态混响幅度谱和子带幅度谱确定当前帧的后验信干比。

在一个实施例中，语音信号处理模块1402还用于对原始语音信号进行分帧加窗处理，得到原始语音信号中当前帧对应的幅度谱特征和相位谱特征；获取预设频带系数，根据频带系数对当前帧的幅度谱特征进行频带划分，得到当前帧对应的子带幅度谱。

在一个实施例中，语音信号转换模块1408还用于根据频带系数对纯净语音子带谱进行逆恒变换，得到当前帧对应的纯净语音幅度谱；利用纯净语音幅度谱和相位谱特征进行时频转换，得到去混响后的纯净语音信号。

在一个实施例中，如图15所示，该装置还包括混响预测器训练模块1401，用于获取带混响语音数据和纯净语音数据，利用带混响语音数据和纯净语音数据生成训练样本数据；将带混响语音数据和纯净语音数据的混响与纯净语音能量比确定为训练目标；提取带混响语音数据对应的带混响频带幅度谱，提取纯净语音数据的纯净语音频带幅度谱；利用带混响频带幅度谱和纯净语音频带幅度谱以及训练目标训练第一混响预测器。

在一个实施例中，混响预测器训练模块1401还用于将带混响频带幅度谱和纯净语音频带幅度谱输入至预设网络模型，得到训练结果；基于训练结果与训练目标的差异，调整预设神经网络模型的参数并继续训练，直至满足训练条件时结束训练，得到所需的第一混响预测器。

关于语音信号去混响处理装置的具体限定可以参见上文中对于语音信号去混响处理方法的限定，在此不再赘述。上述语音信号去混响处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图16所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音信号去混响处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图17所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏、麦克风、扬声器和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音信号去混响处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图16和图17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音信号去混响处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述子带幅度谱输入至第一混响预测器，输出所述当前帧对应的混响强度指标包括：

利用第一混响预测器预测所述当前帧中各个子带的纯净语音能量比；

根据所述各个子带的纯净语音能量比确定所述当前帧对应的混响强度指标。

3.根据权利要求2所述的方法，其特征在于，所述第一混响预测器包括输入层、预测层和输出层，所述将所述子带幅度谱输入至第一混响预测器，输出所述当前帧对应的混响强度指标包括：

通过所述输入层提取各个子带幅度谱的维度特征；

利用所述预测层根据所述维度特征提取各个子带幅度谱的表征信息，根据所述表征信息确定各个子带幅度谱的纯净语音能量比；

利用所述输出层根据所述各个子带对应的纯净语音能量比输出所述当前帧对应的混响强度指标。

4.根据权利要求1所述的方法，其特征在于，所述利用第二混响预测器根据所述子带幅度谱和所述混响强度指标确定所述当前帧的纯净语音子带谱包括：

利用所述第二混响预测器根据所述当前帧的幅度谱特征确定所述当前帧的后验信干比；

利用所述后验信干比和所述混响强度指标计算所述当前帧的先验信干比；

利用所述先验信干比对所述当前帧的子带幅度谱进行滤波增强处理，得到所述当前帧的纯净语音子带幅度谱。

5.根据权利要求4所述的方法，其特征在于，所述利用所述第二混响预测器根据所述当前帧的幅度谱特征确定所述当前帧的后验信干比包括：

利用所述第二混响提取所述当前帧中各个子带对应的稳态噪声幅度谱；

利用所述第二混响提取所述当前帧中各个子带对应的稳态混响幅度谱；

利用所述稳态噪声幅度谱、所述稳态混响幅度谱和所述子带幅度谱确定所述当前帧的后验信干比。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取上一帧的纯净语音幅度谱；

基于所述上一帧的纯净语音幅度谱，利用所述稳态噪声幅度谱、所述稳态混响幅度谱和所述子带幅度谱确定所述当前帧的后验信干比。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述原始语音信号进行分帧加窗处理，得到所述原始语音信号中当前帧对应的幅度谱特征和相位谱特征；

获取预设频带系数，根据所述频带系数对所述当前帧的幅度谱特征进行频带划分，得到所述当前帧对应的子带幅度谱。

8.根据权利要求7所述的方法，其特征在于，所述对所述纯净语音子带谱和所述相位谱特征进行信号转换，得到去混响后的纯净语音信号包括：

根据所述频带系数对所述纯净语音子带谱进行逆恒变换，得到所述当前帧对应的纯净语音幅度谱；

利用所述纯净语音幅度谱和所述相位谱特征进行时频转换，得到去混响后的纯净语音信号。

9.根据权利要求1所述的方法，其特征在于，所述第一混响预测器经过以下步骤进行训练：

获取带混响语音数据和纯净语音数据，利用所述带混响语音数据和所述纯净语音数据生成训练样本数据；

将所述带混响语音数据和所述纯净语音数据的混响与纯净语音能量比确定为训练目标；

提取所述带混响语音数据对应的带混响频带幅度谱，提取所述纯净语音数据的纯净语音频带幅度谱；

利用所述带混响频带幅度谱和所述纯净语音频带幅度谱以及所述训练目标训练第一混响预测器。

10.根据权利要求9所述的方法，其特征在于，所述利用所述带混响频带幅度谱和所述纯净语音频带幅度谱以及所述训练目标训练第一混响预测器包括：

将所述带混响频带幅度谱和所述纯净语音频带幅度谱输入至预设网络模型，得到训练结果；

基于所述训练结果与所述训练目标的差异，调整所述预设网络模型的参数并继续训练，直至满足训练条件时结束训练，得到所需的第一混响预测器。

11.一种语音信号去混响处理装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述第一混响预测器包括输入层、预测层和输出层，所述第一混响预测模块还用于通过所述输入层提取各个子带幅度谱的维度特征；利用所述预测层根据所述维度特征提取各个子带幅度谱的表征信息，根据所述表征信息确定各个子带幅度谱的纯净语音能量比；利用所述输出层根据各个子带对应的纯净语音能量比输出所述当前帧对应的混响强度指标。

13.根据权利要求11所述的装置，其特征在于，所述第二混响预测模块还用于利用所述第二混响预测器根据所述当前帧的幅度谱特征确定所述当前帧的后验信干比；利用所述后验信干比和所述混响强度指标计算所述当前帧的先验信干比；利用所述先验信干比对所述当前帧的子带幅度谱进行滤波增强处理，得到所述当前帧的纯净语音子带幅度谱。

14.根据权利要求11所述的装置，其特征在于，

所述第一混响预测模块，还用于利用第一混响预测器预测所述当前帧中各个子带的纯净语音能量比；根据所述各个子带的纯净语音能量比确定所述当前帧对应的混响强度指标。

15.根据权利要求13所述的装置，其特征在于，

所述第二混响预测模块，还用于利用所述第二混响提取所述当前帧中各个子带对应的稳态噪声幅度谱；利用所述第二混响提取所述当前帧中各个子带对应的稳态混响幅度谱；利用所述稳态噪声幅度谱、所述稳态混响幅度谱和所述子带幅度谱确定所述当前帧的后验信干比。

16.根据权利要求15所述的装置，其特征在于，

所述第二混响预测模块，还用于获取上一帧的纯净语音幅度谱；基于所述上一帧的纯净语音幅度谱，利用所述稳态噪声幅度谱、所述稳态混响幅度谱和所述子带幅度谱确定所述当前帧的后验信干比。

17.根据权利要求11所述的装置，其特征在于，

所述语音信号处理模块，还用于对所述原始语音信号进行分帧加窗处理，得到所述原始语音信号中当前帧对应的幅度谱特征和相位谱特征；获取预设频带系数，根据所述频带系数对所述当前帧的幅度谱特征进行频带划分，得到所述当前帧对应的子带幅度谱。

18.根据权利要求17所述的装置，其特征在于，

所述语音信号转换模块，还用于根据所述频带系数对所述纯净语音子带谱进行逆恒变换，得到所述当前帧对应的纯净语音幅度谱；利用所述纯净语音幅度谱和所述相位谱特征进行时频转换，得到去混响后的纯净语音信号。

19.根据权利要求17所述的装置，其特征在于，所述装置还包括：

混响预测器训练模块，用于获取带混响语音数据和纯净语音数据，利用所述带混响语音数据和所述纯净语音数据生成训练样本数据；将所述带混响语音数据和所述纯净语音数据的混响与纯净语音能量比确定为训练目标；提取所述带混响语音数据对应的带混响频带幅度谱，提取所述纯净语音数据的纯净语音频带幅度谱；利用所述带混响频带幅度谱和所述纯净语音频带幅度谱以及所述训练目标训练第一混响预测器。

20.根据权利要求19所述的装置，其特征在于，

所述混响预测器训练模块，还用于将所述带混响频带幅度谱和所述纯净语音频带幅度谱输入至预设网络模型，得到训练结果；基于所述训练结果与所述训练目标的差异，调整所述预设网络模型的参数并继续训练，直至满足训练条件时结束训练，得到所需的第一混响预测器。

21.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

22.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。