CN110289016A

CN110289016A - 一种基于实时对话的语音质检方法、装置及电子设备

Info

Publication number: CN110289016A
Application number: CN201910540169.9A
Authority: CN
Inventors: 王逐尘; 王志成; 黄伟军
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-09-27

Abstract

本发明提供了一种基于实时对话的语音质检方法、装置及电子设备，该方法包括：获取正在对话过程中的实时语音流；将获取到的所述实时语音流输入到预先训练好的语音活动检测模型，以从所述实时语音流中提取出人声语音片段；调用空置的流式自动语音识别资源将所述人声语音片段中的语音信息转译为文本信息。本发明实施例能够在语音质检中减少流式自动语音识别资源的占用率，从而减少语音质检整体成本开销。

Description

一种基于实时对话的语音质检方法、装置及电子设备

技术领域

本发明涉及语音质检技术领域，尤其涉及一种基于实时对话的语音质检方法、装置及电子设备。

背景技术

随着经济收入的提高，相比于对产品的在意程度，客户对关系到自己切身利益的服务水平的重视程度更是有着显著增长，这就使得对客服与客户之间的通话或者对话内容进行实时语音质检显得尤为重要，起着为客服提供实时辅助的作用。传统的呼叫中心中，为了能对客服与客户之间的对话内容进行实时语音质检，需要采用ASR(自动语音识别，Automatic Speech Recognition)的流式语音识别功能。且现有技术中，为保证语音转文本的时效性，客服和客户会分别占用1路流式ASR资源，对对话双方的语音流进行流式识别。然而，由于市面上流式ASR的价格较高，且在购买实时客服质检或实时客服助手产品时，需要成倍采购流式ASR资源，这就导致语音质检整体成本开销较高。

发明内容

本发明提供了一种能够在语音质检中减少流式自动语音识别资源的占用率，从而减少语音质检整体成本开销的基于实时对话的语音质检方法、装置及电子设备。

为实现上述目的，本发明实施例第一方面提供了一种基于实时对话的语音质检方法，包括：

获取正在对话过程中的实时语音流；

将获取到的所述实时语音流输入到预先训练好的语音活动检测模型，以从所述实时语音流中提取出人声语音片段；

调用空置的流式自动语音识别资源将所述人声语音片段中的语音信息转译为文本信息。

作为一种可选的实施方式，所述将获取到的所述实时语音流输入到预先训练好的语音活动检测模型，以从所述实时语音流中提取出人声语音片段，包括：

通过所述语音活动检测模型对所述实时语音流进行分析，以识别出所述实时语音流中的所述人声语音片段和环境噪音片段的端点；

基于所述人声语音片段和所述环境噪音片段的端点，从所述实时语音流中提取出所述人声语音片段。

作为一种可选的实施方式，所述实时语音流中包括多个所述人声语音片段；在所述从所述实时语音流中提取出人声语音片段之后，所述方法还包括：

按时间正序顺序对提取出的多个所述人声语音片段中的每个所述人声语音片段进行标识，得到每个所述人声语音片段的标识信息；

所述调用空置的流式自动语音识别资源将所述人声语音片段中的语音信息转译为文本信息，包括：

根据每个所述人声语音片段的标识信息依次调用空置的流式自动语音识别资源将每个所述人声语音片段中的语音信息转译为文本信息。

作为一种可选的实施方式，所述语音活动检测模型的训练过程，包括：

获取多个历史对话的语音录音数据；

对所述语音录音数据中的人声语音片段和环境噪音片段的端点进行标注，得到所述语音录音数据中的人声语音片段和环境噪音片段的端点的标注数据；

对所述语音录音数据及所述标注数据进行分组，得到第一训练组数据和第一测试组数据；其中，所述第一训练组数据中包括第一训练语音录音数据及该第一训练语音录音数据中的人声语音片段和环境噪音片段的端点的标注数据；所述第一测试组数据中包括第一测试语音录音数据及该第一测试语音录音数据中的人声语音片段和环境噪音片段的端点的标注数据；

将所述第一训练组数据输入到预设深度学习网络中进行深度学习训练，以得到所述语音活动检测模型。

作为一种可选的实施方式，所述方法还包括：

将所述第一测试组数据输入至所述语音活动检测模型中，获取测试结果；

根据所述测试结果调整所述深度学习网络的参数，并再次执行对所述语音录音数据及所述标注数据进行分组的操作，得到第二训练组数据和第二测试组数据；其中，所述第二训练组数据中包括第二训练语音录音数据及该第二训练语音录音数据中的人声语音片段和环境噪音片段的端点的标注数据；所述第二测试组数据中包括第二测试语音录音数据及该第二测试语音录音数据中的人声语音片段和环境噪音片段的端点的标注数据；

将所述第二训练组数据输入到所述深度学习网络中进行深度学习训练，以得到更新后的语音活动检测模型。

作为一种可选的实施方式，所述实时语音流对应有唯一的会话ID；所述方法还包括：

将转译得到的所述文本信息发送给前端，以使前端根据所述实时语音流与所述实时语音流的会话ID之间的对应关系显示所述文本信息。

本发明实施例第二方面提供了一种基于实时对话的语音质检装置，包括：

语音获取模块，用于获取正在对话过程中的实时语音流；

人声提取模块，用于将获取到的所述实时语音流输入到预先训练好的语音活动检测模型，以从所述实时语音流中提取出人声语音片段；

资源调用模块，用于调用空置的流式自动语音识别资源将所述人声语音片段中的语音信息转译为文本信息。

本发明实施例第三方面提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的基于实时对话的语音质检方法中的步骤。

本发明实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于实时对话的语音质检方法中的步骤。

本发明的上述方案至少包括以下有益效果：

本发明实施例通过获取正在对话过程中的实时语音流；将获取到的所述实时语音流输入到预先训练好的语音活动检测模型，以从所述实时语音流中提取出人声语音片段；调用空置的流式自动语音识别资源将所述人声语音片段中的语音信息转译为文本信息。由于是动态调用空置的流式自动语音识别资源对实时语音流中的人声语音片段进行转译，而不是将空置的流式自动语音识别资源一直调用在整条实时语音流上，因此，能够在语音质检中减少流式自动语音识别资源的占用率，从而减少语音质检整体成本开销。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用环境的示意图；

图2为本发明实施例提供的一种基于实时对话的语音质检方法的流程示意图；

图3为本发明实施例提供的另一种基于实时对话的语音质检方法的流程示意图；

图4为本发明实施例提供的一种从实时语音流中提取人声语音片段的示意图；

图5为本发明实施例提供的一种基于实时对话的语音质检装置的结构示意图；

图6为本发明实施例提供的另一种基于实时对话的语音质检装置的结构示意图；

图7为本发明实施例提供的另一种基于实时对话的语音质检装置的结构示意图；

图8为本发明实施例提供的另一种基于实时对话的语音质检装置的结构示意图；

图9为本发明实施例提供的另一种基于实时对话的语音质检装置的结构示意图；

图10为本发明实施例提供的另一种基于实时对话的语音质检装置的结构示意图；

图11为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

首先结合相关附图来举例介绍下本申请实施例可能的应用环境，请参见图1，图1为本发明实施例提供的一种应用环境的示意图，如图1所示，涉及到中控中心、话务平台、客户以及客服。客户通过终端设备发起服务请求，话务平台接入客户的服务请求，为客户接通未在通话状态的客服终端，以使客服与客户之间实现一对一的对话，客户与客服之间对话的语音经过话务平台，中控中心对接话务平台，与话务平台通过有线或无线的网络连接，进行实时通信，还通过相应的软件***对话务平台进行自主监测，例如，采用IVR(Interactive Voice Response，互动式语音应答)获取经过话务平台的语音、采用ASR对获取到的语音进行识别等等。

另外，该话务平台可以是负责不同区域的多个话务平台，当某个区域的话务平台出现问题时，可以将该话务平台负责的区域的业务转移到其他话务平台。客户的终端设备包括但不限于手机、电话机、智能穿戴设备、电脑、平板电脑等电子设备。

需要说明的是，本申请实施例可能的应用场景不局限于客户和客服之间线上通话的场景，有实时语音流的场景均包括在本申请实施例的保护范围内。例如，一些常见的线下办事厅，需要对工作人员的服务内容进行实时语音质检，可通过语音采集设备实时采集工作人员和客户之间的对话语音，并将其发送给中控中心。再例如，在多人电话会议过程中，需要对每人的通话内容进行实时语音质检，可通过中控中心实时获取每人的通话语音，再进行转译操作。

请参见图2，图2为本发明实施例提供的一种基于实时对话的语音质检方法的流程示意图，如图2所示，包括如下步骤：

S21，获取正在对话过程中的实时语音流。

其中，在本发明的具体实施例中，上述实时语音流指对话中的双方或多方在对话过程中持续输入的语音流，该实时语音流可以是通过能够进行通话的终端设备输入的，例如：电话机、手机等，也可以是通过声音采集设备输入的，例如：麦克风、音频采集器等。上述获取正在对话过程中的实时语音流，可以是中控中心对接话务平台获取每通正在对话过程中的客服和客户的语音流，也可以是中控中心获取声音采集设备采集的线下办事厅的工作人员和服务对象的实时语音流，或者也可以是中控中心获取正在进行多人会议过程中的各方的实时语音流。

S22，将获取到的所述实时语音流输入到预先训练好的语音活动检测模型，以从所述实时语音流中提取出人声语音片段。

其中，在本发明的具体实施例中，语音活动检测(Voice Activity Detection，VAD)，又称语音端点检测、语音边界检测，能在语音信号流中识别出人声语音片段和环境噪音片段，人声语音片段是实时语音流中对话者发声的片段，而环境噪音片段是对话者静默的片段。上述语音活动检测模型通过将大量训练数据输入至深度学***台将会获取到来自客服和来自客户的200路实时语音流，将这200路实时语音流输入至上述语音活动检测模型，以识别并提取出这200路实时语音流中的人声语音片段。再例如，线下办事厅有50对工作人员和服务对象正在进行对话，那么中控中心将会得到100路实时语音流，将这100路实时语音流或者仅仅是工作人员的50路实时语音流输入至上述语音活动检测模型，以识别并提取出这100或50路实时语音流中的人声语音片段。再例如，有7人正在进行多人电话会议，那么中控中心将会获取到7路实时语音流，同样，将这7路实时语音流输入至上述语音活动检测模型，以识别并提取出这7路实时语音流中的人声语音片段。

另外，可以在将获取到的实时语音流输入到预先训练好的语音活动检测模型之前，对每路实时语音流进行编码，以得到每路实时语音流的会话ID(identity，编码)，并将会话ID与每个角色的实时语音流的对应关系进行保存。例如：客服A和客户A正在进行对话，那么他们的会话ID为1213，即客服A的实时语音流和客户A的实时语音流的会话ID同为1213，只是对应的角色不同。再例如：股东1，股东2，股东3，股东4正在进行电话会议，那么可将他们实时语音流的会话ID分别编定为1，2，3，4。

S23，调用空置的流式自动语音识别资源将所述人声语音片段中的语音信息转译为文本信息。

其中，在本发明的具体实施例中，流式自动语音识别资源，简称流式ASR资源，能够将人类语音中的语音信息转换为计算机可读的输入，例如：字符序列、按键、二进制编码等。在ASR服务中，ASR License(ASR许可证)用于许可流式ASR资源的数量，例如：50或100等，此处不作限定。当调用空置的流式ASR资源对某个人声语音片段进行识别转译时，就会占用一路ASR License，待该某个人声语音片段完成识别转译后，被占用的ASR License将得到释放，之前调用的空置的流式ASR资源也再次空置。例如，现在有从多人电话会议中获取到的4条实时语音流，其会话ID分别为101、102、103和104，语音活动检测模型识别出101中有人声语音片段A1、A2，102中有人声语音片段B1、B2，103中有人声语音片段C1、C2，104中有人声语音片段D1、D2，那么随机调用空置的流式ASR资源对人声语音片段A1、B1进行识别转译，得到语音信息对应的文本信息，当将要对人声语音片段C1进行识别转译时，可能没有空置的流式ASR资源可调用了，这时就需要等到被调用的流式ASR资源再次空置时，再进行调用以对人声语音片段C1进行识别转译。

需要说明的是，上述示例仅仅是对本发明实施例进行补充说明，对本发明实施例并不造成任何限定。

可以理解的，本发明实施例通过获取正在对话过程中的实时语音流；将获取到的所述实时语音流输入到预先训练好的语音活动检测模型，以从所述实时语音流中提取出人声语音片段；调用空置的流式自动语音识别资源将所述人声语音片段中的语音信息转译为文本信息。由于是动态调用空置的流式自动语音识别资源对实时语音流中的人声语音片段进行转译，而不是将空置的流式自动语音识别资源一直调用在整条实时语音流上，因此，能够在语音质检中减少流式自动语音识别资源的占用率，从而减少语音质检整体成本开销。

请参见图3，图3为本发明实施例提供的另一种基于实时对话的语音质检方法的流程示意图，如图3所示，包括如下步骤：

S31，获取正在对话过程中的实时语音流；

其中，在本发明具体实施例中，上述实时语音流主要指多组客服和客户在对话时通过终端设备输入的语音流，中控中心实时监测话务平台，便能从话务平台获取到该实时语音流，或者中控中心向话务平台发送一数据上传指令，话务平台响应于该数据上传指令，将实时语音流发送至中控中心。

S32，将获取到的所述实时语音流输入到预先训练好的语音活动检测模型，以从所述实时语音流中提取出人声语音片段；

其中，上述步骤S32包括：

S3201，通过所述语音活动检测模型对所述实时语音流进行分析，以识别出所述实时语音流中的所述人声语音片段和环境噪音片段的端点；

S3202，基于所述人声语音片段和所述环境噪音片段的端点，从所述实时语音流中提取出所述人声语音片段。

其中，在本发明具体实施例中，由于语音活动检测模型采用大量真实场景中的语音录音数据训练而成，且事先对该语音录音数据中的人声语音片段和环境噪音片段的端点进行了标注，所以该模型具备了从语音流中识别出人声语音片段和环境噪音片段的端点的能力。将实时语音流输入至语音活动检测模型，语音活动检测模型自动对实时语音流进行处理分析，最后识别出其中的人声语音片段和环境噪音片段的端点，得到人声语音片段和所述环境噪音片段的端点，便识别出了实时语音流中的人生语音片段。例如，如图4所示，将会话ID为1213和1214，角色分别为客服和客户的4路实时语音流输入语音活动检测模型中，语音活动检测模型会识别出人声语音片段1.1和环境噪音片段的端点及人声语音片段2.1和环境噪音片段的端点，从而得到人声1.1和人声2.1，同时，由于会话ID为1214的通话与会话ID为1213的通话同时在进行，所以语音活动检测模块还会从会话ID为1214的通话中得到人声3.1和人声4.1。同理，在会话ID为1213的2路实时语音流中得到人声1.2、人声2.2的同时，还从会话I定位1214的2路实时语音流中得到了人声3.2、人声4.2。

S33，调用空置的流式自动语音识别资源将所述人声语音片段中的语音信息转译为文本信息。

其中，在本发明的具体实施例中，随机动态调用空置的流式ASR资源对上述所有会话ID中每路实时语音流中的人声语音片段进行转译，将其中的语音信息转译为对应的文本信息，以为客服提供实时辅助。

通过中控中心的动态调度，在不影响转译时效性的基础上，最大化的减少了所需占用的流式ASR资源，降低了各个场景下需使用流式ASR资源进行文本转译的产品的整体成本。根据分析，在呼叫中心话务平台中，客户和客服同时输入语音的时间在总对话时间中不超过10％，使用提取人声语音片段、动态调用流式ASR资源进行转译后，计算100通(共200路实时语音流)实时通话，客户和客服存在10％的语音输入重叠比例，且考虑客户和客服都一直在输入语音而没有停歇的极端情况，在充分保障了语音转译时效性的基础上，测出所需使用的流式ASR资源仅为130路。即原本需要200路流式ASR资源同时对200路的实时语音流进行转译，现在仅需130路流式ASR资源，ASR成本开销仅为原来的65％。

其中在本发明具体实施例中，如图4所示，由于会话ID为1213和会话ID为1214的通话是同时进行的，所以按照时间正序顺序提取出的人声语音片段分别为人声1.1、人声2.1、人声3.1、人声4.1，人声1.2、人声2.2、人声3.2、人声4.2，人声1.3、人声2.3、人声3.3、人声4.3等等，“人声1.1”、“人声2.1”、“人声3.1”即为每个人声语音片段对应的标识信息。当然，由于正在对话的客服和客户可能有多组，所以得到的人声语音片段的量会很大，对应的标识信息也是海量的。

其中，在本发明具体实施例中，基于上述每个人声语音片段的标识信息，调用空置的流式ASR资源对每个人声语音片段进行转译。例如，按照人声1.1、人声2.1、人声3.1、人声4.1、人声1.2、人声2.2、人声3.2、人声4.2、人声1.3、人声2.3、人声3.3、人声4.3的顺序调用空置的流式自动语音识别资源，转译出每个人声语音片段中的语音信息对应的文本信息。

可以理解的，本发明实施例也可以不对识别出的人声语音片段进行标识，按照每个人声语音片段识别出的时间顺序直接调用空置的流式ASR资源将其中的语音信息转译为文本信息。例如，先识别出人声1.1、人声1.2、人声1.3、人声1.4，则调用空置的流式ASR资源依次对人声1.1、人声1.2、人声1.3、人声1.4进行转译。

该实施方式中，当人声4.1调用流式ASR资源时，此前的人声1.1中的语音信息已经转译为文本信息，不再占用流式ASR资源，加上ASR处理所需时间远短于实时语音流的时间，所以即使有2通通话，4路实时语音流，通过提取人声语音片段，动态调用流式ASR资源的方式，实际仅同时占用了2-3路的流式ASR资源，大大降低了流式ASR资源的占用率。

获取多个历史对话的语音录音数据；

其中，在本发明具体实施例中，深度学习网络即为深度学习模型，历史对话的语音录音数据可以是客服和客户之间真实通话场景中的语音录音数据，也可以是线下办事厅的语音录音数据，或者还可以是多人电话会议中的语音录音数据，此处不作限定。标注出语音录音数据中人声语音片段和环境噪音片段的端点，得到对应的标注数据，例如：图4中人声1.1与后面的环境噪音的端点标注数据可以为1.1，人声1.2与其前面的环境噪音的端点标注数据可以为1.2，人声1.2与其后面的环境噪音的端点标注数据可以为1.3等等。对标注完成的语音录音数据及标注数据进行分组，例如：有100个语音录音数据，将其中70个语音录音数据及其中的人声语音片段和环境噪音片段的端点标注数据分为第一训练组数据，剩下的分为第一测试组数据，第一测试组数据用于测试语音活动检测模型对从语音流中识别出人声语音片段和环境噪音片段的端点的准确性。

该实施方式中，对大量真实场景中的语音录音数据进行标注及深度学习训练，以得到语音活动检测模型，使语音活动检测模型初步具有了从语音流中分离人声语音片段的功能。

作为一种可选的实施方式，所述方法还包括：

其中，在本发明具体实施例中，当第一测试数据对语音活动检测模型的测试结果不理想时，需要对深度学习网络中的参数进行调优，并再次对语音录音数据及标注数据进行分组，例如，可将上述100个语音录音数据中的80个语音录音数据及其中的人声语音片段和环境噪音片段的端点标注数据分为第二训练组数据，并对该第二训练组数据再次进行深度学习训练，得到更新后的语音活动检测模型，如此重复，直到达到场景需求的理想结果。

该实施方式中，由于根据对语音活动检测模型的测试结果对深度学习网络中的参数进行调优，并重复分组、训练的步骤，以对语音活动检测模型进行更新，随着不同场景的数据增量输入语音活动检测模型，模型的泛化能力也将逐步提升，适合各种环境下的人声语音片段识别。

其中，在本发明具体实施例中，每路实时语音流都对应有唯一的会话ID，如图4中的1213和1214，例如：将会话ID为1213、角色为客服的实时语音流中人声语音片段对应的文本信息发送至前端，前端根据实时语音流与会话ID之间的对应关系，显示会话ID为1213、角色为客户的实时语音流中的人声1.1、人声1.2、人声1.3对应的文本信息，当然也可以是将会话ID为1213、角色为客服和客户的2路实时语音流中人声语音片段对应的文本信息发送至前端，同时显示会话ID为1213的2路实时语音流中的人声1.1、人声2.1，人声1.2、人声2.2，人声1.3、人声2.3对应的文本信息。

该实施方式中，及时将转译得到文本信息推送至前端，并根据会话ID显示每路实时语音流中人声语音片段中的语音信息对应的文本信息，能够保证语音质检的时效性。

请参见图5，图5为本发明实施例提供的一种基于实时对话的语音质检装置的结构示意图，如图5所示，包括：

语音获取模块51，用于获取正在对话过程中的实时语音流；

人声提取模块52，用于将获取到的所述实时语音流输入到预先训练好的语音活动检测模型，以从所述实时语音流中提取出人声语音片段；

资源调用模块53，用于调用空置的流式自动语音识别资源将所述人声语音片段中的语音信息转译为文本信息。

作为一种可选的实施方式，如图6所示，上述人声提取模块52包括：

端点识别单元5201，用于通过所述语音活动检测模型对所述实时语音流进行分析，以识别出所述实时语音流中的所述人声语音片段和环境噪音片段的端点；

人声提取单元5202，用于基于所述人声语音片段和所述环境噪音片段的端点，从所述实时语音流中提取出所述人声语音片段。

作为一种可选的实施方式，如图7所示，所述装置还包括：

人声标识模块54，用于按时间正序顺序对提取出的多个所述人声语音片段中的每个所述人声语音片段进行标识，得到每个所述人声语音片段的标识信息；

所述资源调用模块53，包括：资源调用单元5301，用于根据每个所述人声语音片段的标识信息依次调用空置的流式自动语音识别资源将每个所述人声语音片段中的语音信息转译为文本信息。

作为一种可选的实施方式，如图8所示，所述装置还包括：

录音获取模块55，用于获取多个历史对话的语音录音数据；

端点标注模块56，用于对所述语音录音数据中的人声语音片段和环境噪音片段的端点进行标注，得到所述语音录音数据中的人声语音片段和环境噪音片段的端点的标注数据；

数据分组模块57，用于对所述语音录音数据及所述标注数据进行分组，得到第一训练组数据和第一测试组数据；其中，所述第一训练组数据中包括第一训练语音录音数据及该第一训练语音录音数据中的人声语音片段和环境噪音片段的端点的标注数据；所述第一测试组数据中包括第一测试语音录音数据及该第一测试语音录音数据中的人声语音片段和环境噪音片段的端点的标注数据；

模型训练模块58，用于将所述第一训练组数据输入到预设深度学习网络中进行深度学习训练，以得到所述语音活动检测模型。

作为一种可选的实施方式，如图9所示，所述装置还包括：

模型测试模块59，用于将所述第一测试组数据输入至所述语音活动检测模型中，获取测试结果；

调整分组模块510，用于根据所述测试结果调整所述深度学习网络的参数，并再次执行对所述语音录音数据及所述标注数据进行分组的操作，得到第二训练组数据和第二测试组数据；其中，所述第二训练组数据中包括第二训练语音录音数据及该第二训练语音录音数据中的人声语音片段和环境噪音片段的端点的标注数据；所述第二测试组数据中包括第二测试语音录音数据及该第二测试语音录音数据中的人声语音片段和环境噪音片段的端点的标注数据；

模型更新模块511，用于将所述第二训练组数据输入到所述深度学习网络中进行深度学习训练，以得到更新后的语音活动检测模型。

作为一种可选的实施方式，如图10所示，所述装置还包括：

文本显示模块512，用于将转译得到的所述文本信息发送给前端，以使前端根据所述实时语音流与所述实时语音流的会话ID之间的对应关系显示所述文本信息。

本发明实施例提供的基于实时对话的语音质检装置能够实现图2和图3的方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

需要说明的是，本发明实施例中提供的基于实时对话的语音质检装置可以应用于各种语音转译场景中。具体的，上述装置可以应用于服务器、计算机或者移动终端等能够进行语音转译的设备中。

请参见图11，图11为本发明实施例提供的一种电子设备的结构示意图，如图11所示，包括：存储器1101、处理器1102及存储在所述存储器1101上并可在所述处理器1102上运行的计算机程序，其中，处理器1102用于调用存储器1101存储的计算机程序，执行如下步骤：

获取正在对话过程中的实时语音流；

可选的，处理器1102执行所述将获取到的所述实时语音流输入到预先训练好的语音活动检测模型，以从所述实时语音流中提取出人声语音片段，包括：

可选的，所述实时语音流中包括多个所述人声语音片段；处理器1102还用于：

处理器1102执行所述调用空置的流式自动语音识别资源将所述人声语音片段中的语音信息转译为文本信息，包括：

可选的，处理器1102还用于：获取多个历史对话的语音录音数据；

可选的，处理器1102进一步用于：将所述第一测试组数据输入至所述语音活动检测模型中，获取测试结果；

可选的，所述实时语音流对应有唯一的会话ID；处理器1102还用于：将转译得到的所述文本信息发送给前端，以使前端根据所述实时语音流与所述实时语音流的会话ID之间的对应关系显示所述文本信息。

示例性的，上述电子设备可以是手机、计算机、笔记本电脑、平板电脑、掌上电脑及可穿戴设备等。电子设备可包括但不仅限于处理器1102、存储器1101。本领域技术人员可以理解，所述示意图仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，由于电子设备的处理器1102执行计算机程序1103时实现上述的基于实时对话的语音质检方法中的步骤，因此上述基于实时对话的语音质检方法的实施方式均适用于该电子设备，且均能达到相同或相似的有益效果。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述的基于实时对话的语音质检方法中的步骤。

示例性的，计算机可读存储介质的计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，由于计算机可读存储介质的计算机程序被处理器执行时实现上述的基于实时对话的语音质检方法中的步骤，因此上述基于实时对话的语音质检方法的所有实施方式均适用于该计算机可读存储介质，且均能达到相同或相似的有益效果。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于实时对话的语音质检方法，其特征在于，所述方法包括：

获取正在对话过程中的实时语音流；

2.根据权利要求1所述的方法，其特征在于，所述将获取到的所述实时语音流输入到预先训练好的语音活动检测模型，以从所述实时语音流中提取出人声语音片段，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述实时语音流中包括多个所述人声语音片段；在所述从所述实时语音流中提取出人声语音片段之后，所述方法还包括：

4.根据权利要求1或2所述的方法，其特征在于，所述语音活动检测模型的训练过程，包括：

获取多个历史对话的语音录音数据；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述实时语音流对应有唯一的会话ID；所述方法还包括：

7.一种基于实时对话的语音质检装置，其特征在于，包括：

语音获取模块，用于获取正在对话过程中的实时语音流；

8.根据权利要求7所述的装置，其特征在于，所述人声提取模块包括：

端点识别单元，用于通过所述语音活动检测模型对所述实时语音流进行分析，以识别出所述实时语音流中的所述人声语音片段和环境噪音片段的端点；

人声提取单元，用于基于所述人声语音片段和所述环境噪音片段的端点，从所述实时语音流中提取出所述人声语音片段。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于实时对话的语音质检方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于实时对话的语音质检方法中的步骤。