CN114218427A

CN114218427A - 语音质检分析方法、装置、设备及介质

Info

Publication number: CN114218427A
Application number: CN202111518554.7A
Authority: CN
Inventors: 刘攀伟
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-22

Abstract

本发明涉及语音处理技术领域，本发明公开了一种语音质检分析方法、装置、设备及介质，所述方法包括：通过获取预约客户数据和业务服务列表，预测出客户标识，并通过Native连接方法建立服务端的连接，以及向该服务端发送预约客户数据和将预约客户数据加入客户服务列表中，在接收到来自服务端的音频流文件时，运用高级音频编码算法，进行音频编码转换，得到音频文件，令服务端通知胸牌清理空间；通过质检检测模型对预约客户数据和音频文件进行音频质检，得到质检结果；将质检结果和各历史质检结果输入质检聚类模型中，进行图聚类分析，得到质检分析结果。因此，本发明实现了提高了质检结果的准确性，自动分析出不足的业务事项的质检分析结果。

Description

语音质检分析方法、装置、设备及介质

技术领域

本发明涉及人工智能的语义解析技术领域，尤其涉及一种语音质检分析方法、装置、设备及介质。

背景技术

目前，银行大厅的工作人员在为客户的服务进行沟通时，大部分缺乏有效的监督手段，可能会由于工作人员的语气、语调、专业知识业务讲解不到位造成客户的体验感不佳，以及无法从客户的对话中发现现场服务的业务能力的不足和提升方向，那么，如何对现场客户服务的服务质量进行质检，以便银行等金融机构作出调整，利于相关业务的开展，在现有的质检方式，一般为工作人员自述或者人为总结分析，因此，存在质检结果可信度不高，质检分析结果客观不够真实以及不准确的问题。

发明内容

本发明提供一种语音质检分析方法、装置、设备及介质，实现了实时接收到胸牌返回的音频文件，并对音频文件进行质检，提高了质检结果的准确性，自动分析出不足的业务事项的质检分析结果，以提高后续客服的服务质量。

一种语音质检分析方法，包括：

获取预约客户数据和业务服务列表，所述预约客户数据包括预约标识、客户信息和业务事项，所述业务服务列表包括客服标识和与所述客服标识关联的客户服务列表；

从所述业务服务列表中预测出与所述客户信息和所述业务事项均匹配的所述客服标识，并通过Native连接方法建立与该客服标识对应的服务端的连接，以及向该服务端发送所述预约客户数据和将所述预约客户数据加入该客服标识所关联的所述客户服务列表中，以令所述服务端通知与该客户标识所关联的胸牌展示所述预约标识和启动录音；

在接收到来自所述服务端的音频流文件时，运用高级音频编码算法，对接收的音频流文件进行音频编码转换，得到与所述预约客户数据关联的音频文件，并从所述客户服务列表中移除所述预约客户数据，以及令所述服务端通知所述胸牌清理空间；

通过质检检测模型对所述预约客户数据和所述音频文件进行基于对话情绪的音频质检，得到与所述业务事项对应的质检结果；

将所述质检结果和各历史质检结果输入质检聚类模型中，通过所述质检聚类模型进行图聚类分析，得到质检分析结果。

一种语音质检分析装置，包括：

获取模块，用于获取预约客户数据和业务服务列表，所述预约客户数据包括预约标识、客户信息和业务事项，所述业务服务列表包括客服标识和与所述客服标识关联的客户服务列表；

预测模块，用于从所述业务服务列表中预测出与所述客户信息和所述业务事项均匹配的所述客服标识，并通过Native连接方法建立与该客服标识对应的服务端的连接，以及向该服务端发送所述预约客户数据和将所述预约客户数据加入该客服标识所关联的所述客户服务列表中，以令所述服务端通知与该客户标识所关联的胸牌展示所述预约标识和启动录音；

转换模块，用于在接收到来自所述服务端的音频流文件时，运用高级音频编码算法，对接收的音频流文件进行音频编码转换，得到与所述预约客户数据关联的音频文件，并从所述客户服务列表中移除所述预约客户数据，以及令所述服务端通知所述胸牌清理空间；

质检模块，用于通过质检检测模型对所述预约客户数据和所述音频文件进行基于对话情绪的音频质检，得到与所述业务事项对应的质检结果；

分析模块，用于将所述质检结果和各历史质检结果输入质检聚类模型中，通过所述质检聚类模型进行图聚类分析，得到质检分析结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音质检分析方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音质检分析方法的步骤。

本发明提供的语音质检分析方法、装置、设备及介质，该方法通过获取预约客户数据和业务服务列表，从所述业务服务列表中预测出与所述客户信息和所述业务事项均匹配的所述客户标识，并通过Native连接方法建立与该客户标识对应的服务端的连接，以及向该服务端发送所述预约客户数据和将所述预约客户数据加入该客服标识所关联的所述客户服务列表中，以令所述服务端通知与该客户标识所关联的胸牌展示所述预约标识和启动录音；在接收到来自所述服务端的音频流文件时，运用高级音频编码算法，对接收的音频流文件进行音频编码转换，得到与所述预约客户数据关联的音频文件，并从所述客户服务列表中移除，以及令所述服务端通知所述胸牌清理空间；通过质检检测模型对所述预约客户数据和所述音频文件进行基于对话情绪的音频质检，得到与所述业务事项对应的质检结果；将所述质检结果和各历史质检结果输入质检聚类模型中，通过所述质检聚类模型进行图聚类分析，得到质检分析结果，如此，能够通过实时接收到胸牌返回的音频文件，并对音频文件进行质检，综合客服服务的文本匹配程度和客户的情绪响应，运用图聚类分析，提高了质检结果的准确性，自动分析出不足的业务事项的质检分析结果，以提高后续客服的服务质量，以及提高了客户的体验满意度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音质检分析方法的应用环境示意图；

图2是本发明一实施例中语音质检分析方法的流程图；

图3是本发明一实施例中语音质检分析方法的步骤S10的流程图；

图4是本发明一实施例中语音质检分析装置的原理框图；

图5是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的语音质检分析方法，可应用在如图1的应用环境中，其中，客户端(计算机设备或终端)通过网络与服务器进行通信。其中，客户端(计算机设备或终端)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一实施例中，如图2所示，提供一种语音质检分析方法，其技术方案主要包括以下步骤S10-S50：

S10，获取预约客户数据和业务服务列表，所述预约客户数据包括预约标识、客户信息和业务事项，所述业务服务列表包括客服标识和与所述客服标识关联的客户服务列表。

可理解地，所述预约客户数据为预约的客户所关联的办理业务相关的数据，所述预约客户数据包括预约标识、客户信息和业务事项，所述业务服务列表包括客服标识和与所述客服标识关联的客户服务列表，所述预约标识为客户预约返回的唯一标识，所述客户信息为与客户相关的基础信息，所述业务事项为所述客户需要办理的业务类别，所述业务服务列表为当前各个客服服务的客户列表的集合。

在一实施例中，如图3所示，所述步骤S10之前，即所述获取预约客户数据和业务服务列表之前，包括：

S11，接收采集视频；所述采集视频为通过视频采集设备采集到客户进出的视频。

可理解地，所述采集视频为通过视频采集设备采集到客户进出的视频，所述视频采集设备为安装在业务办理门口的附近，用于监控业务办理门口进出的客户，所述视频采集设备可以定时采集一段视频作为所述采集视频，并通过预设接口将采集到的视频传输至服务端，也可以服务器采集到业务办理门口的开闭状态之后，通过预设接口传输至视频采集设备，视频采集设备通过预设接口检测到业务办理门口的开闭状态进行采集，比如在通过预设接口检测到业务办理门口的开状态时候，开始启动采集，在通过预设接口检测到业务办理门口的闭状态时候，停止采集，将开始启动采集和相邻的下一个停止采集的两个时间点之间的视频记录为所述采集视频。

其中，所述接收采集视频的方式可以通过预设接口接收到所述采集视频，从而获取到所述采集视频，所述预设接口为用于传输服务端和视频采集设备的接口。

S12，对所述采集视频进行分帧处理，得到多个帧图像。

可理解地，所述采集视频为有多个一帧的图像组成的按时间顺序播放的图像集合，所述分帧处理为对输入的视频的每一帧或者预设间隔帧上进行分割或者抽取出一帧图像的操作过程，对所述采集视频进行所述分帧处理，能够获得多个所述帧图像，所述帧图像为所述采集视频中的其中的一个帧的图像。

S13，通过人体属性检测模型对各所述帧图像进行人体属性识别和人脸识别，得到各帧图像的识别结果，所述识别结果包括客户标识和与该客户标识对应的进出类型。

可理解地，所述人体属性检测模型为训练完成的用于识别输入的图像中的人体，并对每个人体的进出类型和客户标识进行识别的目标检测网络，所述人体属性检测模型的训练过程可以为：通过收集历史的样本图像，所述样本图像包含了多个人体，每个人体与一组标签组关联，所述标签组包括一个人体区域标签、一个进出标签和一个客户标签，将所述样本图像输入含有初始参数的人体属性检测模型，通过人体属性检测模型对所述样本图像进行单个人体的识别，识别出单个人体的人体区域，对每个人体区域进行移动特征和人脸特征的提取，根据提取的移动特征和人脸特征识别出该人体区域的进出类型和客户标识，运用损失函数，计算人体区域与相应的人体区域标签的区域损失值，和人体区域的进出类型与相应的进出标签的进出损失值，以及人体区域的客户标识与相应的客户标签的标识损失值，根据区域损失值、进出损失值和标识损失值，确定出总损失值，在总损失值未达到收敛条件时，迭代更新人体属性检测模型的初始参数，继续执行通过人体属性检测模型对所述样本图像进行单个人体的识别的步骤，不断训练，直至总损失值达到收敛条件时，停止训练，得到训练完成的人体属性检测模型。

其中，所述人体属性检测模型包括目标检测网络、人体属性分支网络和人脸分支网络，所述对各所述帧图像进行人体属性识别和人脸识别的过程为：首先，对所述帧图像进行人体识别，识别出所述帧图像中的包含单个人体的区域，所述人体识别的过程可以为：首先，通过目标检测网络识别出所述帧图像中的单个人体的区域，将该区域的图像进行提取，得到多个人体图像；其次，通过人体属性分支网络对所述人体图像进行移动特征提取，所述移动特征为拍摄的人体正面移动或者背面移动的特征，根据提取的移动特征识别出该人体图像的进出类型；第三，通过所述人脸分支网络对所述人体图像进行人脸识别，得到该人体图像的客户标识，所述客户标识包括存储在服务端中的真实客户的唯一标识，以及未存储在服务端的新客户赋予新客户标识；最后，建立该人体图像的所述客户标识和所述进出类型之间的对应关系，从而得到一个人体图像对应的一个所述客户标识和一个所述进出类型，将该帧图像的所有所述客户标识和所述进出类型进行对应关系的汇总，得到所述所述识别结果，所述识别结果体现了一个帧图像中的各个人体的进出类型和客户标识，通过所述识别结果能够区分出帧图像中的人体哪些为进门口或出门口的老客户/新客户。

在一实施例中，所述步骤S13中，即所述对各所述帧图像进行人体属性识别和人脸识别，得到各帧图像的识别结果，所述识别结果包括客户标识和与该客户标识对应的进出类型，包括：

对所述帧图像进行人体识别，得到多个人体图像。

可理解地，所述对所述帧图像进行人体识别的过程可以通过目标检测网络实现，所述目标检测网络用于识别各个所述帧图像中单个人体的坐标区域的网络模型，所述目标检测网络的网络结构可以根据需求进行设定，比如目标检测网络的网络结构可以为FasterR-CNN、SSD和YOLO等网络结构，优选地，所述目标检测网络的网络结构为CenterNet的网络结构，所述目标检测网络的处理过程为对输入的帧图像缩放至预设尺寸，即运用图像缩放技术，将图像的长边和短边按照长边缩放和短边补零的方式进行缩放至预设尺寸，再将缩放后的帧图像输入目标检测网络中，通过所述基于CenterNet的目标检测网络中的ResNet50网络进行人体特征的提取，所述目标检测网络为将人体当成一个点来检测，即用目标区域的中心点来表示这个人体目标，预测人体目标的中心点偏移量(offset)，宽高(size)以得到人体实际区域，所述人体特征为具有人体特有的相关特征，比如比如头、头发、手、人脸、躯干、衣服、腿、脚等能体现一个人体的特征，然后对提取的人体特征进行反卷积模块进行上采样，即反卷积，可进行三次上采样得到预测特征图，最后将所述预测特征图进行三个分支网络的预测，三个分支网络分别为热力图预测网络、长宽预测网络和区域中心偏移预测网络，通过热力图预测网络对所述预测特征图进行人体预测，以及对各目标物的目标区域的中心点预测和高斯圆的半径计算，以中心点为圆心，沿着计算出的半径向外按高斯函数递减，从而得到与预测特征图对应的热力图，通过长宽预测网络进行多个人体的长宽区域预测，得到与预测特征图对应的目标物的长宽图，通过区域中心偏移预测网络进行多个目标物的偏移值进行预测，得到与预测特征图对应的人体的中心偏移值，根据热力图、长宽图和中心偏移值，确定出各个人体的区域，从而可以得到该帧图像中的一个人体图像。

通过人体属性分支网络对所述人体图像进行移动特征提取，根据提取的移动特征识别出该人体图像的进出类型；所述人体属性检测模型包括人体属性分支网络和人脸分支网络。

可理解地，所述人体属性分支网络为训练完成的用于识别出输入的图像中的人体的进出类型的网络模型，所述人体属性分支网络的网络结构可以根据需求进行设定，比如人体属性分支网络的网络结构可以为ResNet、CNN和VGG等网络结构，优选地，所述人体属性分支网络的网络结构为VGG16的网络结构，通过所述人体属性分支网络对所述人体图像进行所述移动特征的提取，即对所述人体图像进行卷积，所述移动特征为拍摄的人体正面移动或者背面移动的特征，对卷积获得的特征图进行二分类处理，分类出进出类型的概率分布，所述进出类型包括进和出，将最大的概率所对应的进出类型记录为所述人体图像的进出类型。

通过所述人脸分支网络对所述人体图像进行人脸识别，得到该人体图像的客户标识。

可理解地，所述人脸分支网络为训练完成的用于识别出输入的图像中的人脸的网络模型，所述人脸分支网络的网络结构可以根据需求进行设定，比如人脸分支网络的网络结构可以为ResNet、CNN和YOLO等网络结构，优选地，所述人脸分支网络的网络结构为YOLOv2的网络结构，通过所述人脸分支网络对所述人体图像进行所述人脸特征的提取，即对所述人体图像进行卷积，所述人脸特征为包含眼睛、口、鼻子、眉毛和头发等人脸相关的特征，对卷积获得的特征图进行人脸区域提取，在对该人脸区域进行客户标识的识别，即对该人脸区域进行历史客户的人脸图进行相似度匹配，所述相似度匹配的方法可以为比对两个图像之间的人脸特征图之间的各向量之间余弦相似度的均值，匹配出相似度最大且达到预设阈值的人脸图所对应的客户标识，将该客户标识记录为该人体图像的客户标识，如果未匹配出相似度达到预设阈值的人脸图，说明该人体图像为新客户，按照新客户的命名格式对该人体图像赋予客户标识。

其中，所述历史客户的人脸图为历史办理过业务的用户在服务端存储的人脸图像。

建立该人体图像的所述客户标识和所述进出类型之间的对应关系。本发明实现了通过对所述帧图像进行人体识别，得到多个人体图像；通过人体属性分支网络对所述人体图像进行移动特征提取，根据提取的移动特征识别出该人体图像的进出类型；通过所述人脸分支网络对所述人体图像进行人脸识别，得到该人体图像的客户标识；建立该人体图像的所述客户标识和所述进出类型之间的对应关系，如此，能够自动识别出帧图像中的人体的进出类型和客户标识，无需人工识别，能够快速地区分出进入业务门口的客户，提高了识别的准确性和效率。

S14，获取与进出类型为进对应的所有所述客户标识，对获取的所述客户标识进行去重处理，得到去重后的客户标识，从预约数据库中查找与去重后的客户标识对应的所述预约客户数据。

可理解地，从所有所述识别结果中筛选出进出类型为进的客户标识，对筛选出的所有所述客户标识中进行去除重复项的处理，将重复的客户标识进行去除，仅保留一个不重复的客户标识，从而得到去重后的客户标识，在从服务端中的所述预约数据库中查找与去重后的客户标识对应的所述预约客户数据，所述预约数据库存储了已经预约的客户标识相关的数据，所述预约客户数据为预约的客户办理相关预约业务所需的数据。

本发明实现了通过接收采集视频；所述采集视频为通过视频采集设备采集到客户进出的视频；对所述采集视频进行分帧处理，得到多个帧图像；通过人体属性检测模型对各所述帧图像进行人体属性识别和人脸识别，得到各帧图像的识别结果；获取与进出类型为进对应的所有所述客户标识，对获取的所述客户标识进行去重处理，得到去重后的客户标识，从预约数据库中查找与去重后的客户标识对应的所述预约客户数据，如此，实现了通过采集视频，运用人体属性识别和人脸识别，自动匹配出客户标识以及预约客户数据，让客户一进店就能够被知悉，且为后续的客服服务提高了效率，提高了客户的体验满意度。

S20，从所述业务服务列表中预测出与所述客户信息和所述业务事项均匹配的所述客服标识，并通过Native连接方法建立与该客服标识对应的服务端的连接，以及向该服务端发送所述预约客户数据和将所述预约客户数据加入该客服标识所关联的所述客户服务列表中，令所述服务端通知与该客户标识所关联的胸牌展示所述预约标识和启动录音。

可理解地，根据所述客户信息和所述业务事项，生成客户服务矩阵，将所述客户服务矩阵和所述业务服务列表输入服务分配预测模型中，通过所述服务分配预测模型对所述客户服务矩阵和所述业务服务列表进行匹配预测，预测出最佳的客服标识，运用Native连接方法，建立与该客服标识对应的服务端的连接，即运用Native连接H5页面的方式，向所述服务端的H5页面发起连接，并向该服务端的H5页面发送所述预约客户数据，并在建立连接的H5页面上加你个接收到的预约客户数据加入客户服务列表中。

其中，以令所述服务端通知与该客户标识所关联的胸牌展示所述预约标识和启动录音，包括所述服务端与所述胸牌建立蓝牙连接，在检测到所述服务端与所述胸牌建立蓝牙连接之后，通过所述服务端通知所述胸牌展示所述预约标识，运用分段录制方式，通过所述服务端令所述胸牌启动录，在检测到针对所述开启指令反馈的结束录音响应时，通过所述服务端获取录音后的文件列表，通过所述服务端下载与所述文件列表对应的音频流文件，如此，能够让客户快速与服务的客服沟通，而且能够记录下客户和客服之间的沟通过程，保证及时获取沟通的录音内容。

在一实施例中，所述步骤S20中，所述令所述服务端通知与该客户客服标识所关联的胸牌展示所述预约标识和启动录音，包括：

根据所述客服标识所关联的蓝牙码和连接密钥，运用非对称加密算法，令所述服务端与所述胸牌建立蓝牙连接。

可理解地，一个所述客服标识与一个所述蓝牙码及一个所述连接密钥关联，获取该客服标识所关联的所述蓝牙码和所述连接密钥，所述蓝牙码为佩戴在该客服标识的胸牌的蓝牙设备赋予的唯一标识的编码，所述蓝牙码可以为胸牌的蓝牙设备的MAC地址(MediaAccess Control Address，媒体存取控制位址)，所述连接密钥为与蓝牙设备进行连接所需的钥匙编码，所述蓝牙连接的过程为：将所述连接密钥作为私有密钥，所述服务端通过所述连接密钥所对应的公共密钥对配对数据进行加密，得到加密后的配对数据，按照广播方式发送加密后的配对数据，在该客服标识的胸牌的蓝牙设备接收到加密后的配对数据后，对其进行基于连接密钥的解密，得到解密后的配对数据，并将其进行反馈至所述服务端，将接收到正确的解密后的配对数据所对应的胸牌确定为与该客服标识的胸牌，确定为与其建立了蓝牙连接。

其中，所述非对称加密算法包括两个密钥：公开密钥(publickey)和私有密钥(privatekey)，公开密钥与私有密钥是一对，所述非对称加密算法为如果用公开密钥对数据进行加密，只有用对应的私有密钥才能解密；如果用私有密钥对数据进行加密，那么只有用对应的公开密钥才能解密的算法。

在检测到所述服务端与所述胸牌建立蓝牙连接之后，通过所述服务端通知所述胸牌展示所述预约标识。

可理解地，在检测到所述服务端与所述胸牌建立蓝牙连接之后，通过所述服务端向已建立蓝牙连接的所述胸牌发送包含有所述预约标识的展示指令，所述胸牌接收到所述展示指令后在该胸牌的展示区或者显示器显示所述预约标识，以便客户快速找到提供服务的客服。

运用分段录制方式，通过所述服务端向所述胸牌令发送开启指令，以令所述胸牌启动录音。

可理解地，在所述胸牌展示所述预约标识之后，通过所述服务端发送启动录音的开启指令，所述开启指令包含分段录制方式，以向所述胸牌令发送开启指令，以令所述胸牌启动录音功能，所述分段录制方式为按照蓝牙设备的存储的划分区域进行一段一段的录制方式，即一个划分区域存储满后自动跳至下一序号的划分区域，如果结束录音的时候，录音着的划分区域未满，则下一个启动录音的时候，自动跳至未满的划分区域的下一序号的划分区域，从而能够保证某一范围的划分区段存储一段录音内容，在所述客服标识所对应的客服人员和与所述客户标识所对应的客户进行对话完后，通过该客服人员触动胸牌的结束按钮，可以自动触发结束录音的结束录音响应，并发送该结束录音响应至所述服务端。

在检测到针对所述开启指令反馈的结束录音响应时，通过所述服务端获取录音后的文件列表。

可理解地，所述结束录音响应包含有所述开启指令，所述结束录音响应还包括与所述开启指令对应的划分区域，以及结束录音响应所对应的结束存储的划分区域，所述服务端将所述结束录音响应中的与所述开启指令对应的划分区域作为开始划分区域，以及将结束录音响应所对应的划分区域作为结束划分区域，根据所述开始划分区域和所述结束划分区域生成获取指令，并将所述获取指令发送至所述胸牌，所述胸牌接收到该获取指令后，将所述开始划分区域和所述结束划分区域之间的划分区域生成一个所述文件列表，所述文件列表体现了所述开始划分区域和所述结束划分区域之间存储的录音内容的存储空间的列表(或者划分区域的清单)，所述胸牌将该文件列表发送至所述服务端，所述服务端接收到该文件列表，以获取录音后的所述文件列表。

通过所述服务端下载与所述文件列表对应的音频流文件，并获取该音频流文件。

可理解地，所述下载过程为向所述胸牌发送读取指令，所述读取指令包括所述文件列表和读取代码，所述胸牌接收到所述读取指令后执行所述读取指令，并将读取的所述文件列表中存储的所述音频流文件发送至服务端的处理过程，如此，所述服务端可以获取到该音频流文件，所述音频流文件为与启动录音获得的相应的PCM(Pulse CodeModulation，脉冲编码调制)格式的音频数据。

本发明实现了通过根据所述客服标识所关联的蓝牙码和连接密钥，运用非对称加密算法，令所述服务端与所述胸牌建立蓝牙连接；在检测到所述服务端与所述胸牌建立蓝牙连接之后，通过所述服务端通知所述胸牌展示所述预约标识；运用分段录制方式，通过所述服务端向所述胸牌令发送开启指令，以令所述胸牌启动录音；在检测到针对所述开启指令反馈的结束录音响应时，通过所述服务端获取录音后的文件列表；通过所述服务端下载与所述文件列表对应的音频流文件，并获取该音频流文件，如此，运用非对称加密算法，建立与胸牌的蓝牙连接，提高了连接的安全性，以及运用分段录制方式，能够合理地存储在胸牌的存储区，供服务端的下载，以获取准确地音频流文件。

S30，在接收到来自所述服务端的音频流文件时，运用高级音频编码算法，对接收的音频流文件进行音频编码转换，得到与所述预约客户数据关联的音频文件，并从所述客户服务列表中移除所述预约客户数据，以及令所述服务端通知所述胸牌清理空间。

可理解地，所述高级音频编码算法(AAC，Advanced Audio Coding)为将PCM格式的音频数据进行压缩编码，转换成AAC格式的音频数据，所述PCM格式的音频数据就是未被压缩的音频原始数据，AAC格式的音频数据是有损压缩后的数据，所述音频文件为AAC格式的文件，从所述客户服务列表中移除所述预约客户数据，表明已经服务完该预约标识的客户，以及令所述服务端通知所述胸牌清理空间，保证下一次录音有充足的空间。

S40，通过质检检测模型对所述预约客户数据和所述音频文件进行基于对话情绪的音频质检，得到与所述业务事项对应的质检结果。

可理解地，所述基于对话情绪的音频质检为对对话中的文本进行情绪识别，识别出情绪类别，以及比对对话中的文本与标准的词汇、用语和术语解释是否符合的质检过程，所述音频质检的过程为运用语音分割算法对所述音频文件进行角色分割处理，以及对角色分割处理后的音频文件进行语音识别，得到客服文本文件和客户文本文件，运用上下文语义识别算法，通过文本质检模型对所述客服文本文件进行业务关键词比对，得到客服质检结果，以及通过情绪检测模型对所述客户文本文件进行情绪语义识别，得到客户情绪结果，综合所述客户质检结果和所述客户情绪结果，得到质检结果的过程。

其中，所述上下文语义识别算法为根据正向和逆向的语义预测的方式识别出词语的算法，

在一实施例中，所述步骤S40中，即所述通过质检检测模型对所述预约客户数据和所述音频文件进行基于对话情绪的音频质检，得到与所述业务事项对应的质检结果，包括：

运用语音分割算法对所述音频文件进行角色分割处理，以及对角色分割处理后的音频文件进行语音识别，得到客服文本文件和客户文本文件。

可理解地，所述语音分割算法为对所述音频文件进行分段处理，得到多个录音片段，然后对各个录音片段进行角色识别，识别出客服的录音片段和客户的录音片段的算法，所述分段处理为运用BIC算法检测所述音频文件中的分割点，并运用VAD(Voice ActivityDetection)方法对各个分割点进行之间的语音进行过滤，得到多个录音片段的过程，所述VAD方法为对每个两分割点之间的语音进行VAD检测，若VAD检测有语音端点，则不做处理；若VAD检测无语音端点，则剔除该两分割点之间的语音，通过所述分段处理能够划分出多个有人声的录音片段，将间隔的无声部分去除，只保留有用的录音片段，在对所述音频文件划分出多个录音片段之后，获取与所述客服标识对应的音频样本，所述音频样本为历史录制的客服发出的声音，通过角色识别模型比对各所述录音片段和获取的音频样本，得到所述音频样本与各所述录音片段的相似度，并将大于或者等于预设相似度阈值的所述相似度所对应的所述录音片段标记为客服角色，将剩余的所述录音片段标记为客户角色，其中，所述角色识别模型为训练完成的用于识别输入的音频片段是否为与输入的音频样本相似，通过计算两者之间的相似度，并根据相似度判断输入的音频片段是否为客服或者客户的模型，通过所述角色识别模型分别提取所述录音片段和所述音频样本的声纹特征，比对提取的所述录音片段的声纹特征和提取的所述音频样本的声纹特征，得到所述音频样本与所述录音片段的相似度，从而能够比对出所述音频样本与各所述录音片段的相似度，所述声纹特征为与人发出的声波频谱相关的特征，所述预设相似度阈值为预设的符合相似要求的阈值，比如：92％、95％等等。

其中，所述对角色分割处理后的音频文件进行语音识别的过程为：对所有标为客服角色的录音片段进行拼接，运用语音识别技术(Automatic Speech Recognition，ASR，是一种将人的语音转换为文本的技术)将拼接后的标为客服角色的录音片段进行文本转换，得到所述客服文本文件，同时对所有标为客户角色的录音片段进行拼接，运用语音识别技术将拼接后的标为客户角色的录音片段进行文本转换，得到所述客户文本文件。

获取与所述预约客户数据中的业务事项对应的文本质检模型。

可理解地，所述预约客户数据包含所述业务事项，所述业务事项为该预约客户所需要办理的业务，一个业务事项对应一个文本质检模型，所述文本之间模型为训练完成的用于对输入的文本进行相应的业务事项的质检的模型，所述文本质检模型为训练完成的用于识别相应业务事项的关键词以及比对输入文本的质量的模型。

通过获取的文本质检模型对所述客服文本文件进行业务关键词比对，得到客服质检结果。

可理解地，通过所述文本质检模型对所述客服文本文件进行分词处理，所述分词处理为划分成最小单元的词语的处理过程，得到多个分词单元，对各所述分词单元进行业务关键词识别，识别出与所述业务事项相关的关键词，所述业务关键词比对为将识别出的关键词与所述文本质检模型中存储的各业务模板词进行比对，比对出识别出的关键词在所有所述业务模板词中的覆盖率的比对过程，所述业务模板词为与所述业务事项对应的服务所涉及的字或词语的模板，将比对的覆盖率记录为所述客服质检结果。

通过情绪检测模型对所述客户文本文件进行情绪识别，得到客户情绪结果。

可理解地，所述情绪检测模型为训练完成的用于识别输入的文本的情绪的神经网络模型，所述情绪语义识别的过程为对所述客户文本文件进行词向量标注、词性标注和声调标注，得到标注信息；再运用上下文语义识别算法，对该标注信息进行情绪语义识别，得到情绪语义结果；对所述标注信息进行情绪语调识别，得到情绪语调结果；根据情绪语义结果和情绪语调结果，确定出所述客户情绪结果的过程，所述客户情绪结果体现了客户在服务过程中的情绪。

在一实施例中，所述通过情绪检测模型对所述客户文本文件进行情绪语义识别，得到客户情绪结果，包括：

通过所述情绪检测模型对所述客户文本文件进行词向量标注、词性标注和声调标注，得到与所述客户文本文件关联的标注信息。

可理解地，所述词向量标注为运用Word2vec技术(嵌入词向量技术)将各个字或者词语转换为在预设字典库中与其相应的向量的标注过程，对所述客户文本文件进行所述词向量标注，得到词向量标注信息，所述词性标注为对每个字或词语标注其相应的词性的标注过程，对所述客户文本文件进行所述词性标注，得到词性标注信息，所述声调标注为对每个字标注其平厄声调的标注过程，对所述客户文本文件中的每个字进行所述声调标注，得到声调标注信息，将所述词向量标注信息、所述词性标注信息和所述声调标注信息记录为所述标注信息。

运用上下文语义识别算法，通过所述情绪检测模型对所述标注信息进行情绪语义识别，得到情绪语义结果。

可理解地，所述上下文语义识别算法为对正向和逆向的每个词向量结合其词性进行语义的情绪类别的识别算法，所述情绪语义识别为对每个词向量运用所述上下文语义识别算法识别出所述标注信息中的每个词向量标注信息和相应的词性标注信息所属的情绪类别的概率分布的识别过程，再将每个词向量的情绪类别进行聚类，得到最高的概率的情绪类别，将其记录为所述情绪语义结果。

通过所述情绪检测模型对所述标注信息进行情绪语调识别，得到情绪语调结果。

可理解地，所述情绪语调识别为通过所述标注信息中的声调标注信息的顺序进行卷积，提取每句的语调特征，根据提取的语调特征确定出情绪类别的识别过程，所述语调特征为一句话中声调体现的情绪的规律特征，从而得到所述情绪语调结果，所述情绪语调结果体现了所述客户文本文件在语调维度具有的情绪类别结果。

根据所述情绪语义结果和所述情绪语调结果，确定出所述客户情绪结果。

可理解地，将所述情绪语义结果和所述情绪语调结果进行组合，得到所述客户情绪结果。

将所述客户质检结果和所述客户情绪结果记录为所述质检结果。

可理解地，将所述客户质检结果和所述客户情绪结果按照一对一的方式组成一维数组，将其确定为所述质检结果，所述质检结果体现了客服服务的覆盖率及客户的反响结果。

本发明实现了通过运用语音分割算法对所述音频文件进行角色分割处理，以及对角色分割处理后的音频文件进行语音识别，得到客服文本文件和客户文本文件；获取与所述预约客户数据中的业务事项对应的文本质检模型；通过获取的文本质检模型对所述客服文本文件进行业务关键词比对，得到客服质检结果；通过情绪检测模型对所述客户文本文件进行情绪识别，得到客户情绪结果；将所述客户质检结果和所述客户情绪结果记录为所述质检结果，如此，运用语音分割算法，自动对音频文件进行角色区分，分割出客服文本文件和客户文本文件，自动获取相应的文本质检模型，运用上下文语义识别算法，进行业务关键词比对和情绪语义识别，输出质检结果，为后续的质检分析提供数据。

S50，将所述质检结果和各历史质检结果输入质检聚类模型中，通过所述质检聚类模型进行图聚类分析，得到质检分析结果。

可理解地，所述质检聚类模型为训练完成的用于识别业务图谱中的不足的业务事项的分析结果的模型，所述图聚类分析的过程为基于质检结果所对应的业务事项，建立所述质检结果和各所述历史质检结果的业务图谱的图节点，基于各质检结果，对各图节点进行赋值和节点度量，得到各图节点的节点值和边长，再对业务图谱进行图聚类处理，得到质检分析结果的过程，其中，所述质检分析结果分析出不足的业务事项。

本发明实现了通过获取预约客户数据和业务服务列表，从所述业务服务列表中预测出与所述客户信息和所述业务事项均匹配的所述客户标识，并通过Native连接方法建立与该客户标识对应的服务端的连接，以及向该服务端发送所述预约客户数据和将所述预约客户数据加入该客服标识所关联的所述客户服务列表中，以令所述服务端通知与该客户标识所关联的胸牌展示所述预约标识和启动录音；在接收到来自所述服务端的音频流文件时，运用高级音频编码算法，对接收的音频流文件进行音频编码转换，得到与所述预约客户数据关联的音频文件，并从所述客户服务列表中移除，以及令所述服务端通知所述胸牌清理空间；通过质检检测模型对所述预约客户数据和所述音频文件进行基于对话情绪的音频质检，得到与所述业务事项对应的质检结果；将所述质检结果和各历史质检结果输入质检聚类模型中，通过所述质检聚类模型进行图聚类分析，得到质检分析结果，如此，能够通过实时接收到胸牌返回的音频文件，并对音频文件进行质检，综合客服服务的文本匹配程度和客户的情绪响应，运用图聚类分析，提高了质检结果的准确性，自动分析出不足的业务事项的质检分析结果，以提高后续客服的服务质量，以及提高了客户的体验满意度。

在一实施例中，所述步骤S50中，即所述将所述质检结果和各历史质检结果输入质检聚类模型中，通过所述质检聚类模型进行图聚类分析，得到质检分析结果，包括：

基于质检结果所对应的业务事项，建立所述质检结果和各所述历史质检结果的业务图谱的图节点。

可理解地，所述历史质检结果为历史的质检结果，优选为当天零时至当前时间段内所生成的质检结果，将所述质检结果所对应的业务事项，以及各历史质检结果所对应的业务事项，进行业务事项维度的分类，将相同业务事项类别的质检结果连接该业务事项的中心点，将连接的质检结果作为图节点，从而构建出业务图谱。

基于质检结果中的客户质检结果，对各所述图节点进行赋值，得到各所述图节点的节点值。

可理解地，根据各个所述图节点所对应的质检结果中的所述客户质检结果，赋予各个所述图节点一个与所述客户质检结果相映射的值，将其作为各个所述图节点的所述节点值，比如根据客户质检结果的百分比的映射成1至10的等级范围的数值，例如82％映射成8，69％映射成9。

基于质检结果中的客户情绪结果，对各所述图节点进行节点度量，确定出各所述图节点的边长。

可理解地，根据各个所述图节点所对应的质检结果中的所述客户情绪结果，赋予各个所述图节点一个与所述客户情绪结果相映射的度量值，将其作为各个所述图节点的边长，比如客户情绪结果为[欢喜-欢喜]，将映射成[10-10]，则边长为20(相加)或者100(相乘)的度量值，客户情绪结果为[发怒-平和]，将映射成[1-5]，则边长为6(相加)或者5(相乘)的度量值。

对添加节点值和边长后的所述业务图谱进行图聚类，得到所述质检分析结果。

可理解地，在完成了各个图节点的节点值和边长之后，对该业务图谱进行图聚类，即对每个图节点进行节点值和边长相乘，将同一中心点的各个图节点的相乘结果进行均值聚类处理，得到每个中心点的值，将与最小的值所对应的中心点对应的业务事项记录为所述质检分析结果，所述质检分析结果为分析出不足的业务事项。

本发明实现了通过基于质检结果所对应的业务事项，建立所述质检结果和各所述历史质检结果的业务图谱的图节点；基于质检结果中的客户质检结果，对各所述图节点进行赋值，得到各所述图节点的节点值；基于质检结果中的客户情绪结果，对各所述图节点进行节点度量，确定出各所述图节点的边长；对添加节点值和边长后的所述业务图谱进行图聚类，得到所述质检分析结果，如此，能够通过业务图谱的建立，以及对图节点的赋值和节点度量，再通过图聚类，自动识别出质检分析结果，提高了质检分析结果输出的准确性和可靠性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音质检分析装置，该语音质检分析装置与上述实施例中语音质检分析方法一一对应。如图4所示，该语音质检分析装置包括获取模块11、预测模块12、转换模块13、质检模块14和分析模块15。各功能模块详细说明如下：

获取模块11，用于获取预约客户数据和业务服务列表，所述预约客户数据包括预约标识、客户信息和业务事项，所述业务服务列表包括客服标识和与所述客服标识关联的客户服务列表；

预测模块12，用于从所述业务服务列表中预测出与所述客户信息和所述业务事项均匹配的所述客服标识，并通过Native连接方法建立与该客服标识对应的服务端的连接，以及向该服务端发送所述预约客户数据和将所述预约客户数据加入该客服标识所关联的所述客户服务列表中，以令所述服务端通知与该客户标识所关联的胸牌展示所述预约标识和启动录音；

转换模块13，用于在接收到来自所述服务端的音频流文件时，运用高级音频编码算法，对接收的音频流文件进行音频编码转换，得到与所述预约客户数据关联的音频文件，并从所述客户服务列表中移除所述预约客户数据，以及令所述服务端通知所述胸牌清理空间；

质检模块14，用于通过质检检测模型对所述预约客户数据和所述音频文件进行基于对话情绪的音频质检，得到与所述业务事项对应的质检结果；

分析模块15，用于将所述质检结果和各历史质检结果输入质检聚类模型中，通过所述质检聚类模型进行图聚类分析，得到质检分析结果。

关于语音质检分析装置的具体限定可以参见上文中对于语音质检分析方法的限定，在此不再赘述。上述语音质检分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端或者服务端，其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作***、计算机程序和数据库。该内存储器为可读存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音质检分析方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音质检分析方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语音质检分析方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音质检分析方法，其特征在于，包括：

2.如权利要求1所述的语音质检分析方法，其特征在于，所述获取预约客户数据和业务服务列表之前，包括：

接收采集视频；所述采集视频为通过视频采集设备采集到客户进出的视频；

对所述采集视频进行分帧处理，得到多个帧图像；

通过人体属性检测模型对各所述帧图像进行人体属性识别和人脸识别，得到各帧图像的识别结果，所述识别结果包括客户标识和与该客户标识对应的进出类型；

获取与进出类型为进对应的所有所述客户标识，对获取的所述客户标识进行去重处理，得到去重后的客户标识，从预约数据库中查找与去重后的客户标识对应的所述预约客户数据。

3.如权利要求2所述的语音质检分析方法，其特征在于，所述对各所述帧图像进行人体属性识别和人脸识别，得到各帧图像的识别结果，所述识别结果包括客户标识和与该客户标识对应的进出类型，包括：

对所述帧图像进行人体识别，得到多个人体图像；

通过人体属性分支网络对所述人体图像进行移动特征提取，根据提取的移动特征识别出该人体图像的进出类型；所述人体属性检测模型包括人体属性分支网络和人脸分支网络；

通过所述人脸分支网络对所述人体图像进行人脸识别，得到该人体图像的客户标识；

建立该人体图像的所述客户标识和所述进出类型之间的对应关系。

4.如权利要求1所述的语音质检分析方法，其特征在于，所述令所述服务端通知与该客服标识所关联的胸牌展示所述预约标识和启动录音，包括：

根据所述客服标识所关联的蓝牙码和连接密钥，运用非对称加密算法，令所述服务端与所述胸牌建立蓝牙连接；

在检测到所述服务端与所述胸牌建立蓝牙连接之后，通过所述服务端通知所述胸牌展示所述预约标识；

运用分段录制方式，通过所述服务端向所述胸牌令发送开启指令，以令所述胸牌启动录音；

在检测到针对所述开启指令反馈的结束录音响应时，通过所述服务端获取录音后的文件列表；

5.如权利要求1所述的语音质检分析方法，其特征在于，所述通过质检检测模型对所述预约客户数据和所述音频文件进行基于对话情绪的音频质检，得到与所述业务事项对应的质检结果，包括：

运用语音分割算法对所述音频文件进行角色分割处理，以及对角色分割处理后的音频文件进行语音识别，得到客服文本文件和客户文本文件；

获取与所述预约客户数据中的业务事项对应的文本质检模型；

通过获取的文本质检模型对所述客服文本文件进行业务关键词比对，得到客服质检结果；

通过情绪检测模型对所述客户文本文件进行情绪识别，得到客户情绪结果；

6.如权利要求5所述的语音质检分析方法，其特征在于，所述通过情绪检测模型对所述客户文本文件进行情绪语义识别，得到客户情绪结果，包括：

通过所述情绪检测模型对所述客户文本文件进行词向量标注、词性标注和声调标注，得到与所述客户文本文件关联的标注信息；

运用上下文语义识别算法，通过所述情绪检测模型对所述标注信息进行情绪语义识别，得到情绪语义结果；

通过所述情绪检测模型对所述标注信息进行情绪语调识别，得到情绪语调结果；

7.如权利要求1所述的语音质检分析方法，其特征在于，所述将所述质检结果和各历史质检结果输入质检聚类模型中，通过所述质检聚类模型进行图聚类分析，得到质检分析结果，包括：

基于质检结果所对应的业务事项，建立所述质检结果和各所述历史质检结果的业务图谱的图节点；

基于质检结果中的客户质检结果，对各所述图节点进行赋值，得到各所述图节点的节点值；

基于质检结果中的客户情绪结果，对各所述图节点进行节点度量，确定出各所述图节点的边长；

8.一种语音质检分析装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音质检分析方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音质检分析方法。