CN112750461B

CN112750461B - 语音通信优化方法、装置、电子设备及可读存储介质

Info

Publication number: CN112750461B
Application number: CN202010121470.9A
Authority: CN
Inventors: 夏咸军; 王燕南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2023-08-01
Anticipated expiration: 2040-02-26
Also published as: CN112750461A

Abstract

本申请提供了一种语音通信优化方法、装置、电子设备及可读存储介质，包括：每间隔预设时长获取目标语音片段，并对每一目标语音片段进分帧得到多帧语音信号；获取每一帧语音信号以及历史语音信号的特征向量；将每一帧语音信号以及历史语音信号的特征向量输入预设GRU模型，并基于输出结果确定该帧语音信号是否包含混响；若该目标语音片段中包含混响的语音信号的帧数占总帧数的比例不小于第一预设门限值，则在获取到下一目标语音片段之前对语音进行混响消除。由于GRU模型的输入中除了包含待检测语音信号的特征向量外，还包含了多帧历史语音信号的特征向量，使得GRU模型在计算过程中综合了历史语音信号的特征，提高了单帧语音信号的检测准确率。

Description

语音通信优化方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种语音通信优化方法、装置、电子设备及可读存储介质。

背景技术

在语音通信中，往往需要对语音中包含的语音信息的类别进行鉴别，以便于采取相应的数据处理方式，进而获得更好的语音通信效果。具体来说，人们往往希望在语音通信过程中保留或增强说话、音乐等有用信号，而抑制或消除噪声、混响等无用信号，那么首先就需要对这些类别的信号进行检测。

目前，一般利用神经网络模型(Neural Network，NN)对语音中的混响进行检测，检测过程一般是将语音片段中单帧语音信号的频域离散频谱对应的向量作为神经网络模型的输入，输出该帧语音信号包含混响的概率，进而得出该语音片段中所有帧语音信号的混响检测结果，但是该方式对每帧语音信号的检测准确率不高。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，本申请实施例所提供的技术方案如下：

第一方面，本申请实施例提供了一种语音通信优化方法，包括：

每间隔预设时长从语音通信中的近端设备获取目标语音片段，并对每一目标语音片段进行分帧处理得到至少两帧语音信号；

获取每一帧语音信号的特征向量，以及该帧语音信号之前的第一帧数的历史语音信号中各帧历史语音信号的特征向量；

将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设门循环卷积单元GRU模型，并基于训练好的预设GRU模型的输出结果确定该帧语音信号是否包含混响，其中，训练好的预设GRU模型通过语音信号样本训练得到，语音信号样本标注有用于指示该语音信号样本是否包含混响的标签；

对于每一目标语音片段，若该目标语音片段中包含混响的语音信号的帧数占该目标语音片段对应的语音信号的总帧数的比例不小于第一预设门限值，则在获取到下一目标语音片段之前对近端设备发送的语音进行混响消除处理后发送至语音通信中的对端设备。

在本申请的一种可选实施例中，方法还包括：

获取预设数量的语音信号样本；

基于各语音信号样本对预设GRU模型进行训练，得到训练好的预设GRU模型。

在本申请的一种可选实施例中，训练好的预设GRU模型的输出结果为每一帧语音信号包含混响的第一概率；

基于训练好的预设GRU模型的输出结果确定每一帧语音信号是否包含混响，包括：

基于每一帧语音信号包含混响的第一概率和第二预设门限值，确定该帧语音信号是否包含混响。

在本申请的一种可选实施例中，方法还包括：

获取第二帧数的历史语音信号中各帧历史语音信号包含混响的第二概率；

基于每一帧语音信号包含混响的第一概率和第二预设门限值，确定该帧语音信号是否包含混响，包括：

获取每一帧语音信号对应的第一概率与对应的各帧历史语音信号对应的第二概率的平均值，得到该帧语音信号包含混响的平均概率；

若平均概率不小于第二预设门限值，则确定每一帧语音信号中包含混响。

第二方面，本申请实施例提供了一种语音通信优化装置，包括：

目标语音片段获取模块，用于每间隔预设时长从语音通信中的近端设备获取目标语音片段，并对每一目标语音片段进行分帧处理得到至少两帧语音信号；

特征向量获取模块，用于获取每一帧语音信号的特征向量，以及该帧语音信号之前的第一帧数的历史语音信号中各帧历史语音信号的特征向量；

混响检测模块，用于将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设门循环卷积单元GRU模型，并基于训练好的预设GRU模型的输出结果确定该帧语音信号是否包含混响，其中，训练好的预设GRU模型通过语音信号样本训练得到，语音信号样本标注有用于指示该语音信号样本是否包含混响的标签；

优化模块，用于对于每一目标语音片段，若该目标语音片段中包含混响的语音信号的帧数占该目标语音片段对应的语音信号的总帧数的比例不小于第一预设门限值，则在获取到下一目标语音片段之前对近端设备发送的语音进行混响消除处理后发送至语音通信中的对端设备。

在本申请的一种可选实施例中，特征向量获取模块具体用于：

提取每一帧语音信号的对数梅尔频谱特征；

对每一帧语音信号的对数梅尔频谱特征进行归一化处理，得到该帧语音信号的特征向量。

在本申请的一种可选实施例中，该装置还可以包括模型训练模块，用于：

获取预设数量的语音信号样本；

相应地，混响检测模块具体用于：

在本申请的一种可选实施例中，该装置还可以包括历史语音信号获取模块，用于：

相应地，混响检测模块具体用于：

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器；

存储器中存储有计算机程序；

处理器，用于执行计算机程序以实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

本申请提供的技术方案带来的有益效果是：

本申请提供的方案，采用单向多对一的GRU模型来检测语音信号中是否包含混响，由于其输入中除了包含待检测的一帧语音信号的特征向量外，还包含了多帧历史语音信号的特征向量，使得GRU模型在计算过程中综合了历史语音信号的特征，提高了单帧语音信号的检测准确率，便于后续对包含混响的语音信号进行处理，提高用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种语音中检测混响的方法的流程示意图；

图2为本申请实施例中特征提取过程的示意图；

图3为本申请实施例中一种可选的实施方式的示意图；

图4为本申请再实施例中一个检测结果示例的示意图；

图5为本申请实施例中的一种语音通信优化方法的流程示意图；

图6为本申请实施例提供的一种语音通信优化装置的结构框图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、机器学习等技术，具体通过如下实施例进行说明，首先对几个名词进行解释和说明：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

GRU：门控循环单元(Gated Recurrent Unit，GRU)，是循环神经网络(RecurrentNeural Network，RNN)中的一种门控机制，与其他门控机制相似，其旨在解决标准RNN中的梯度消失/***问题并同时保留序列的长期信息，GRU包含一个重置门(reset gate)和一个更新门(update gate)。

对数梅尔频谱特征：Log Mel频谱特征是通过对语音信号的频谱图加上预设梅尔滤波函数后再经过取对数操作得到的，由于人耳对声音的感知不是线性的，人耳对声音的低频比对声音的高频更加敏感，所以常常需要将线性频谱转换到非线性的梅尔频谱。

混响(reverberation)：声波在室内传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，我们就感觉到声源停止发声后还有若干个声波混合持续一段时间(室内声源停止发声后仍然存在的声延续现象)。这种现象叫做混响，这段时间叫做混响时间。

在语音通信中，往往需要对语音中包含的语音信息的类别进行鉴别，以便于采取相应的数据处理方式，进而获得更好的语音通信效果。具体来说，人们往往希望在语音通信过程中保留或增强说话、音乐等有用信号，而抑制或消除噪声、混响等无用信号，那么就需要对这些类别的信号进行检测。目前，一般利用神经网络模型(Neural Network，NN)对语音中的混响进行检测，检测过程一般是将语音片段中单帧语音信号的频域离散频谱对应的向量作为神经网络模型的输入，输出该帧语音信号包含混响的概率，进而得出该语音片段中所有帧语音信号的混响检测结果。但是该方式对每帧语音信号的检测准确率不高。针对上述问题，本申请实施例提供了一种语音中检测混响的方法。

图1为本申请实施例提供的一种语音中检测混响的方法的流程示意图，如图1所示，该方法可以包括：

步骤S101，获取语音片段，并对语音片段进行分帧处理得到至少两帧语音信号。

其中，语音信号在宏观上是不平稳的，在微观上是平稳的，即具有短时平稳性(10-30ms内可以认为语音信号近似不变)，因此可以把语音信号分为一些短段来进行处理，每一个短段称为一帧(Chunk)。

具体地，设置好每帧语音信号的时长(例如20ms)，再按对应的采样频率进行采样，进而完成分帧操作得到多帧语音信号，其中每次采样的时间点成为采样时刻。需要说明的是，为了避免分帧带来的误差，可以在分帧之后对各帧做加窗处理。

步骤S102，获取每一帧语音信号的特征向量，以及该帧语音信号之前的第一帧数的历史语音信号中各帧历史语音信号的特征向量。

其中，各帧语音信号的特征向量是指该语音信号的频域离散频谱对应的特征向量。各帧语音信号之前的历史语音信号为该帧语音信号的采样时刻之前各采样时刻对应的语音信号。

具体来说，可以理解的是，待检测的一帧语音信号的采样时刻以及第一帧数历史语音信号中的各帧历史语音信号的采样时刻包括至少两个采样时刻，这至少两个采样时刻可以为在采样顺序上依次相邻的采样时刻，也可以是不相邻的采样时刻。可以理解的是，若这多个采样时刻依次相邻，后续步骤中GRU模型的输出结果的准确率更高。

需要说明的是，第一帧数可以影响后续检测过程的处理速度，第一帧数越大处理速度越慢，第一帧数越小处理速度快，同时，第一帧数越大后续GRU模型输出结果的准确率也越高，因此，第一帧数的具体数值可以根据实际需求进行设定。

步骤S103，将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设门循环卷积单元GRU模型，并基于训练好的预设GRU模型的输出结果确定该帧语音信号是否包含混响。

其中，训练好的预设GRU模型通过语音信号样本训练得到，语音信号样本标注有用于指示该语音信号样本是否包含混响的标签。

其中，预设GRU模型为单向多对一模型，换言之，该预设GRU模型的输入为待检测的一帧语音信号的特征向量，以及该待检测的一帧语音信号对应的多帧历史语音信号对应的多个特征向量，该预设GRU模型的输出为待检测的一帧语音信号中包含混响的概率，或不包含混响的概率。那么，可以理解的是，在对预设GRU模型进行训练时，所采用的训练样本集中包括包含混响的语音信号样本和不包含混响的语音信号样本。

具体地，在将待检测的一帧语音信号的特征向量以及该待检测的一帧语音信号对应的多帧语音信号的特征向量输入训练好的预设GRU模型后，该GRU模型中的计算过程可以理解为依次进行的多次子计算的过程，每次子计算的输入包含一帧语音信号的特征向量，多次子计算按各子计算对应的语音信号的采样时刻的先后顺序执行，最后一次子计算的输出即为该GRU模型的输出结果。具体来说，第二次至最后一次子计算的输入为前一次子计算的输出结果和本次子计算对应的特征向量，由此可见，每次子计算都考虑了前一帧语音信号的特征，由于待检测的一帧语音信号对应于最后一次子计算，因此该待检测的一帧语音信号的计算过程考虑了所有历史语音信号的特征，基于语音信号短时间的稳定性，该GRU模型的处理过程考虑了历史语音信号的特征，相较于现有技术中只输入待检测的一帧语音信号的方案，该方案输出结果的准去性更高。获取到语音片段中每一帧语音信号对应的输出结果后，基于输出结果即可对待检测的一帧语音信号是否包含混响进行判断得出检测结果。

举例来说，待检测的一帧语音信号成为当前帧语音信号，将当前帧语音信号的特征向量，以及当前帧语音信号对应的2帧历史语音信号对应的2个特征向量作为训练好的预设GRU模型的输入，用于输出该待检测的一帧语音信号包含语音的概率。2帧历史语音信号按采样时间的先后顺序依次为第一帧语音信号和第二帧语音信号，那么在GRU模型中的计算过程为，首先将第一帧语音信号的特征向量作为输入进行第一次子计算得到第一计算结果，再将第一计算结果和第二帧语音信号的特征向量作为输入进行第二次子计算得到第二计算结果，再将第二计算结果和当前帧语音信号的特征向量作为输入进行第三次子计算得到第三计算结果，那么第三计算结果就为该GRU模型的输出结果，即该当前帧语音信号包含混响的概率。

本申请提供的方案，采用单向多对一的GRU模型来检测语音信号中是否包含混响，由于其输入中除了包含待检测的一帧语音信号的特征向量外，还包含了多帧历史语音信号的特征向量，使得GRU模型在计算过程中综合了历史语音信号的特征，提高了单帧语音信号的检测准确率。

在本申请的一种可选实施例中，获取每一帧语音信号的特征向量，包括：

提取每一帧语音信号的对数梅尔频谱特征；

具体地，如图2所示，对于一段时域的语音片段，首先对该语音片段进行分帧和加窗处理，然后对每帧语音信号进行快速傅里叶变化(Fast Fourier transform，FFT)得到对应的频域离散频谱，在将每帧语音片段对应的频域历史那频谱通过梅尔频谱滤波器组，并将滤波结果一次进行对数操作和归一化处理，得到每帧语音片段的特征向量。

在本申请的一种可选实施例中，该方法还可以包括：

获取预设数量的语音信号样本；

其中，由前文描述可知，语音信号样本分为包含混响的语音信号样本和不包含混响的语音信号样本，一个包含混响的语音信号样本具体包括一帧包含混响的语音混响信号，以及该帧包含混响的语音信号对应的第一帧数的历史语音信号，且该语音样本上带有指示该语音样本为包含混响的标签，同理，一个不包含混响的语音信号样本具体包括一帧不包含的语音混响信号，以及该帧不包含混响的语音信号对应的第一帧数的历史语音信号，且该语音样本上带有指示该语音样本为不包含混响的标签。

具体地，可以获取一段连续的语音片段并进行分帧处理，并确定该语音片段中各帧语音信号是否包含语音，确定方式可以为人工识别，然后对每一帧语音信号进行标注，进而根据包含混响的语音信号样本和不包含混响的语音信号样本的组成获取对应的语音信号样本。在实际操作中，可以对不包含混响的语音片段采用大量房间脉冲响应进行卷积处理，得到包含混响的语音片段。

可以理解的是，预设数量可以根据实际需求进行设定，在此不做限定。

具体地，训练过程中，将各语音信号样本输入预设的GRU模型，将输出结果与对应的标签进行比较，并根据输出结果与标签之间的差距来调整GRU模型的参数，指示输出结果与标签之间的差距小于预设阈值，则可认为训练完成，得到训练好的预设GRU模型。

其中，该GRU模型的输出结果中还括有每一帧语音信号不包含混响的概率。

具体地，在获取到一帧语音信号包含混响的第一概率后，可以将该第一概率与第二预设门限值进行比较，若该第一概率不小于该第二预设门限值则确定该帧语音信号包含混响。其中，第二预设门限值可以根据实际需求进行设定，再次不做限定，例如，该第二预设门限值可以设置为0.85，即只要第一概率大于0.85就可以认为该帧语音信号中包含混响。

在本申请的一种可选实施例中，该方法还可以包括：

其中，本申请的方案中所采用的GRU模型为多对一模型，由前文描述可知，该GRU模型在计算过程中需要对输入的多个特征向量依次进行子计算，其计算复杂度较高，在实际应用时为了保证计算速度，可以对输入的特征向量的数量进行限制，换言之，需要对第一帧数进行限制，同时还可以减少该GRU模型中的隐藏层(或称隐藏节点)。在采用上述限制和减少节点的操作后，为了进一步保证检测结果的准确性，可以在GRU模型输出结果之后，判断是否包含混响之前，对该GRU输出的第一概率进行概率平滑操作。

其中，由前文描述可知，待检测的一帧语音信号的采样时刻以及第二帧数历史语音信号中的各帧历史语音信号的采样时刻包括至少两个采样时刻，这至少两个采样时刻可以为在采样顺序上依次相邻的采样时刻，也可以是不相邻的采样时刻。可以理解的是，若这多个采样时刻依次相邻，后续概率平滑的效果更好。其中，第二帧数大于第一帧数，第二帧数的具体取值可以根据实际情况来确定，在此不做限定。

可以理解的是，历史语音信号对应的第二概率可以是由训练好的预设GRU模型得出的，其中第二概率很小的语音信号可能对应的是静音或低能量背景音。

具体地，将待检测的一帧语音信号对应的第一概率与第二帧数的历史语音信号中各历史语音信号对应的第二概率求平均值，得到该待检测的一帧语音信号的平均概率，基于语音信号段时间的稳定性，可认为历史语音信号与该待检测的一帧语音信号为一个稳定的语音片段，因此该平均概率能够更准确的反映该待检测的一帧语音信号中包含混响的概率。所以将该平均概率与第二预设门限值进行比较，若该平均概率不小于第二预设门限值，则认为该待检测的一帧语音信号包含混响。可以理解的是，概率平滑可以对GRU模型输出的第一概率进行修正，例如，待检测的一帧语音信号实际是包含混响的，但GRU模型因为误差输出的第一概率小于门限值，若不经概率平滑，该帧待检测语音信号将被判定为不包含混响，那么经概率平滑后得到的对应的平均概率将大于门限值，使得该帧待检测语音信号被判定为包含混响。

进一步地，如图3所示，图中示出了本申请的一个完整的可选方案，对于给定语音片段，首先进行梅尔频谱特征的提取，对于待检测的一帧语音信号需要提取该待检测的一帧语音信号的特征向量，以及各帧历史语音信号的特征向量，至此完成特征提取步骤(图中用各语音信号对照标识对应的特征向量)。将这些特征向量输入训练好的GRU模型，再对搞GRU模型的输出的待检测的一帧语音对应的第一概率进行概率平滑，得到对应的平均概率。最后对平均概率进行门限判断，即比较平均概率与门限值的大小关系，若平均概率大于该门限值则确定该待检测的一帧语音信号中包含混响。

图4为本申请的一个语音中混响检测结果的示例，该语音片段的检测结果如图所示，由于声波传递需要一定时间，混响从产生到被检测到有一定的时间间隔，在本示例中，在1-2min检测到了混响，这一时间段的混响是在0-1min的产生的；在1-2min没有检测到混响，同理，说明前一分钟(1-2min)没有产生混响。

图5为本申请实施例中的一种语音通信优化方法的流程示意图，如图5所示，该方法可以包括：

步骤S501，每间隔预设时长从语音通信中的近端设备获取目标语音片段，并对每一目标语音片段进行分帧处理得到至少两帧语音信号。

其中，对应一次语音通信过程，用户所处的环境一般不会发生改变，即用户一般都会处于同一个室内，例如，在会议室或房间里等，那么该次语音通信过程中要么一直存在混响，要么一直不存在混响，故在每一次语音通话过程中可以只对是否包含混响进行一次判断。那么，为了兼顾效率和稳定性，本方案中每间隔一定时间段检测一次混响。

具体地，基于上述原理，每间隔预设时长获取目标语音片段，对该语音片段进行混响检测，来确定该目标语音片段所在的时间间隔对应的语音通信中是否存在混响。举例来说，某一目标语音片段所在时间间隔为t1时刻至t2时刻，该目标语音片段对应的时长为1min，t2-t1大于1min，例如t2-t1＝30min，如果该目标片段不包含混响可以认为t1时刻至t2时刻的语音通信过程都不包含混响。

步骤S502，获取每一帧语音信号的特征向量，以及该帧语音信号之前的第一帧数的历史语音信号中各帧历史语音信号的特征向量；

步骤S503，将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设门循环卷积单元GRU模型，并基于训练好的预设GRU模型的输出结果确定该帧语音信号是否包含混响，其中，训练好的预设GRU模型通过语音信号样本训练得到，语音信号样本标注有用于指示该语音信号样本是否包含混响的标签。

具体地，步骤S502和步骤503中的语音信号相当于图1中步骤S101分帧处理得到的语音信息，对其采用上述实施例中的检测混响的方法进行检测，获取每一目标语音片段中各帧语音信号包含混响的情况，具体检测混响过程在此不再赘述。

步骤S504，对于每一目标语音片段，若该目标语音片段中包含混响的语音信号的帧数占该目标语音片段对应的语音信号的总帧数的比例不小于第一预设门限值，则在获取到下一目标语音片段之前对近端设备发送的语音进行混响消除处理后发送至所述语音通信中的对端设备。

具体地，步骤S503中确定出目标片段中每帧语音信号的检测结果，那么只要目标片段中包含混响的语音信号的帧数达到一定数量，即目标语音片段中包含混响的语音信号的帧数占该目标语音片段对应的语音信号的总帧数的比例不小于第一预设门限值，即可确定该目标语音片段为包含混响的片段，进而确定该目标语音片段所在的时间间隔对应的语音通话中存在混响，那么需要在这个时间间隔对应的语音通话中启动混响消除算法。

需要说明的是，上述语音通信优化方法可以用于对音频会议或视频会议中的语音通信进行优化，具体来说，该优化过程可以包括：

(1)用户启动终端设备(例如手机或个人电脑等)上的音频会议或视频会议应用程序，即开始通过终端设备的收音装置(例如麦克风)按预设时长采集用户输入的目标语音片段。

(2)对于采集到的每一目标语音片段，终端设备将该目标语音片段发送至对应的服务器，服务器对该目标片段进行分帧处理得到对帧语音信号；然后获取每一帧语音信号的特征向量，以及该帧语音信号之前的第一帧数的历史语音信号中各帧历史语音信号的特征向量；再将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设门循环卷积单元GRU模型，并基于所述训练好的预设GRU模型的输出结果确定该帧语音信号是否包含混响。

(3)对于每一目标语音片段，若该目标语音片段中包含混响的语音信号的帧数占该目标语音片段对应的语音信号的总帧数的比例不小于第一预设门限值，则服务器判断该目标语音片段包含混响。

(4)对于每一目标语音片段，若判断获知该语音片段包含混响，则在获取到下一目标语音片段之前，服务器对近端设备发送的语音进行混响消除处理后再发送至所述语音通信中的对端设备。

经过上述步骤对语音会议或视频会议中各参与用户输入的语音进行优化后，可以及时准确消除语音会议或视频会议中的混响，提升会议效果。

图6为本申请实施例提供的一种语音通信优化装置的结构框图，如图6所示，该装置600可以包括：目标语音片段获取模块601、特征向量获取模块602、混响检测模块603以及优化模块603，其中：

目标语音片段获取模块601用于每间隔预设时长从语音通信中的近端设备获取目标语音片段，并对每一目标语音片段进行分帧处理得到至少两帧语音信号；

特征向量获取模块602用于获取每一帧语音信号的特征向量，以及该帧语音信号之前的第一帧数的历史语音信号中各帧历史语音信号的特征向量；

混响检测模块603用于将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设门循环卷积单元GRU模型，并基于训练好的预设GRU模型的输出结果确定该帧语音信号是否包含混响，其中，训练好的预设GRU模型通过语音信号样本训练得到，语音信号样本标注有用于指示该语音信号样本是否包含混响的标签；

优化模块604用于对于每一目标语音片段，若该目标语音片段中包含混响的语音信号的帧数占该目标语音片段对应的语音信号的总帧数的比例不小于第一预设门限值，则在获取到下一目标语音片段之前对近端设备发送的语音进行混响消除处理后发送至语音通信中的对端设备。

提取每一帧语音信号的对数梅尔频谱特征；

获取预设数量的语音信号样本；

相应地，混响检测模块具体用于：

基于相同的原理，本申请实施例还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该计算机程序时，实现本申请任一可选实施例中所提供的方法，具体可实现如下情况：

每间隔预设时长从语音通信中的近端设备获取目标语音片段，并对每一目标语音片段进行分帧处理得到至少两帧语音信号；获取每一帧语音信号的特征向量，以及该帧语音信号之前的第一帧数的历史语音信号中各帧历史语音信号的特征向量；将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设门循环卷积单元GRU模型，并基于训练好的预设GRU模型的输出结果确定该帧语音信号是否包含混响，其中，训练好的预设GRU模型通过语音信号样本训练得到，语音信号样本标注有用于指示该语音信号样本是否包含混响的标签；对于每一目标语音片段，若该目标语音片段中包含混响的语音信号的帧数占该目标语音片段对应的语音信号的总帧数的比例不小于第一预设门限值，则在获取到下一目标语音片段之前对近端设备发送的语音进行混响消除处理后发送至语音通信中的对端设备。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请任一实施例所示的方法。

可以理解的是，介质中存储的可以是语音通信优化方法对应的计算机程序。

图7中示出了本申请实施例所适用的一种电子设备的结构示意图，如图7所示，图7所示的电子设备700包括：处理器701和存储器703。其中，处理器701和存储器703相连，如通过总线702相连。进一步地，电子设备700还可以包括收发器704，电子设备700可以通过收发器704与其他电子设备进行数据的交互。需要说明的是，实际应用中收发器704不限于一个，该电子设备700的结构并不构成对本申请实施例的限定。

其中，处理器701应用于本申请实施例中，可以用于实现图6所示的语音通信优化装置的功能。

处理器701可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器701也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线702可包括一通路，在上述组件之间传送信息。总线702可以是PCI总线或EISA总线等。总线702可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器703可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器703用于存储执行本申请方案的应用程序代码，并由处理器701来控制执行。处理器701用于执行存储器703中存储的应用程序代码，以实现图6所示实施例提供的语音通信优化装置的动作。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音通信优化方法，其特征在于，包括：

将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设门循环卷积单元GRU模型，并基于所述训练好的预设GRU模型的输出结果确定该帧语音信号是否包含混响，其中，所述训练好的预设GRU模型通过语音信号样本训练得到，所述语音信号样本标注有用于指示该语音信号样本是否包含混响的标签；

对于每一目标语音片段，若该目标语音片段中包含混响的语音信号的帧数占该目标语音片段对应的语音信号的总帧数的比例不小于第一预设门限值，则在获取到下一目标语音片段之前对近端设备发送的语音进行混响消除处理后发送至所述语音通信中的对端设备。

2.根据权利要求1所述的方法，其特征在于，获取每一帧语音信号的特征向量，包括：

提取每一帧语音信号的对数梅尔频谱特征；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取预设数量的所述语音信号样本；

基于各语音信号样本对所述预设GRU模型进行训练，得到训练好的预设GRU模型。

4.根据权利要求1所述的方法，其特征在于，所述训练好的预设GRU模型的输出结果为所述每一帧语音信号包含混响的第一概率；

基于所述训练好的预设GRU模型的输出结果确定每一帧语音信号是否包含混响，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述基于每一帧语音信号包含混响的第一概率和第二预设门限值，确定该帧语音信号是否包含混响，包括：

若所述平均概率不小于所述第二预设门限值，则确定所述每一帧语音信号中包含混响。

6.一种语音通信优化装置，其特征在于，包括：

混响检测模块，用于将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设门循环卷积单元GRU模型，并基于所述训练好的预设GRU模型的输出结果确定该帧语音信号是否包含混响，其中，所述训练好的预设GRU模型通过语音信号样本训练得到，所述语音信号样本标注有用于指示该语音信号样本是否包含混响的标签；

优化模块，用于对于每一目标语音片段，若该目标语音片段中包含混响的语音信号的帧数占该目标语音片段对应的语音信号的总帧数的比例不小于第一预设门限值，则在获取到下一目标语音片段之前对近端设备发送的语音进行混响消除处理后发送至所述语音通信中的对端设备。

7.根据权利要求6所述的装置，其特征在于，所述特征向量获取模块具体用于：

提取每一帧语音信号的对数梅尔频谱特征；

8.根据权利要求6所述的装置，其特征在于，所述装置还包括模型训练模块，用于：

获取预设数量的所述语音信号样本；

9.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器中存储有计算机程序；

所述处理器，用于执行所述计算机程序以实现权利要求1至5中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法。