CN109151218B

CN109151218B - 通话语音质检方法、装置、计算机设备及存储介质

Info

Publication number: CN109151218B
Application number: CN201810952241.4A
Authority: CN
Inventors: 黄锦伦
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2021-11-19
Anticipated expiration: 2038-08-21
Also published as: CN109151218A

Abstract

本发明公开一种通话语音质检方法、装置、计算机设备及存储介质，应用在人工智能领域。该方法包括：获取在质检周期内的通话录音数据，通话录音数据携带坐席人员标识；采用目标语音静态解码网络对通话录音数据进行文本翻译，获取通话文本数据；对通话文本数据进行敏感词验证，提取目标敏感词，并基于目标敏感词获取第一质检评分值；采用与质检评分表相对应的多维度质检评分模型，对通话录音数据及通话文本数据进行质检评分，获取第二质检评分值；根据第一质检评分值和第二质检评分值，获取与坐席人员标识相对应的综合质检结果。该方法进行通话语言质检时成本低、效率高且质检结果更客观。

Description

通话语音质检方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音处理领域，尤其涉及一种通话语音质检方法、装置、计算机设备及存储介质。

背景技术

在银行、证券和保险等金融机构或者其他机构中，随着业务的开展，需配备专业的坐席人员给客户提供服务，以满足业务开展的需求。为了规范坐席人员与客户沟通过程，需预设设置相应操作规范，并由培训好的专业的质检人员依据该操作规范对坐席人员与客户沟通过程中的通话录音进行质检，此过程耗费大量人力成本和时间成本，且质检效率较低。而且，随着质检工作量的加大，质检人员在质检过程中，很容易因为疲劳或者个人情绪等原因导致质检失误，使得质检结果受人为影响影响较大，不够客观。

发明内容

本发明实施例提供一种通话语音质检方法、装置、计算机设备及存储介质，以解决当前人工语音质检存在的成本高、效率低且质检结果不够客观的问题。

一种通话语音质检方法，包括：

获取在质检周期内的通话录音数据，所述通话录音数据携带坐席人员标识；

采用目标语音静态解码网络对所述通话录音数据进行文本翻译，获取通话文本数据；

对所述通话文本数据进行敏感词验证，提取目标敏感词，并基于所述目标敏感词获取第一质检评分值；

采用与质检评分表相对应的多维度质检评分模型，对所述通话录音数据及所述通话文本数据进行质检评分，获取第二质检评分值；

根据所述第一质检评分值和所述第二质检评分值，获取与所述坐席人员标识相对应的综合质检结果。

一种通话语音质检装置，包括：

录音数据获取模块，用于获取在质检周期内的通话录音数据，所述通话录音数据携带坐席人员标识；

文本数据获取模块，用于采用目标语音静态解码网络对所述通话录音数据进行文本翻译，获取通话文本数据；

第一质检处理模块，用于对所述通话文本数据进行敏感词验证，提取目标敏感词，并基于所述目标敏感词获取第一质检评分值；

第二质检处理模块，用于采用与质检评分表相对应的多维度质检评分模型，对所述通话录音数据及所述通话文本数据进行质检评分，获取第二质检评分值；

综合质检处理模块，用于根据所述第一质检评分值和所述第二质检评分值，获取与所述坐席人员标识相对应的综合质检结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述通话语音质检方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述通话语音质检方法的步骤。

上述通话语音质检方法、装置、计算机设备及存储介质，通过获取质检周期内的通话录音数据，以便实现对质检周期内的批量通话录音数据进行批量处理，提高通话录音数据的质检效率。采用目标语音静态解码网络对通话录音数据进行文本翻译，其解码速度较快且解码准确率较高。对通话文本数据进行敏感词验证，以获取第一质检评分值，并通过多维度质检评分模型进行质检验证，以获取第二质检评分值，以使其获取的第一质检评分值和第二质检评分值的客观性更强，不受质检人员个人因素的影响，降低质检成本且提高质检效率，保证质检结果的客观性。而且，基于第一质检评分值和第二质检评分值获取到的综合质检结果，使其从整体上可反馈该坐席人员与客户通话过程的整体情况，更具有客观性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中通话语音质检方法的一应用环境示意图；

图2是本发明一实施例中通话语音质检方法的一流程图；

图3是本发明一实施例中通话语音质检方法的另一流程图；

图4是本发明一实施例中通话语音质检方法的另一流程图；

图5是本发明一实施例中通话语音质检方法的另一流程图；

图6是本发明一实施例中通话语音质检方法的另一流程图；

图7是本发明一实施例中通话语音质检方法的另一流程图；

图8是本发明一实施例中通话语音质检装置的一示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的通话语音质检方法，该通话语音质检方法可应用如图1所示的应用环境中。具体地，该通话语音质检方法应用在语音质检***中，该语音质检***包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于实现对坐席***采集的通话录音数据进行质检，以规范坐席人员与客户的沟通过程。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种通话语音质检方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取在质检周期内的通话录音数据，通话录音数据携带坐席人员标识。

其中，质检周期是预先设置的需要进行通话语音质检的时间周期。该时间周期可以为1天，也可以为1周或者其他时间。坐席人员标识是用于唯一识别坐席人员的标识。可以理解地，该通话录音数据还携带有数据标识，该数据标识是用于识别通话录音数据的标识。

具体地，坐席人员在与客户沟通过程中，通过录音平台实时采集坐席人员与客户沟通过程中的通话录音数据，并将通话录音数据存储在录音平台对应的数据库中。可以理解地，录音平台所采集到的每一通话录音数据均携带有数据标识，以便区别不同通话录音数据；均携带有坐席人员标识，以便区分该通话录音数据的来源，实现对坐席人员的通话录音数据进行语音质检。并且，录音平台所采集到的每一通话录音数据均携带录音时间，以便对通话录音数据进行管理。

进一步地，录音平台上配置有Kettle工具，Kettle工具用于将录音平台对应的数据库中需要进行质检的通话录音数据推送给语音质检***，以使语音质检***对录音平台批量推送的通话录音数据进行质检。Kettle工具具有GUI图形界面，支持多线程批量调度，处理速度快且具备完善的监控日志等优点。

本实施例中，可预先配置定时质检任务，该定时质检任务包括定时触发时间、质检周期和坐席人员标识，该坐席人员标识可以包括一个，也可以包括多个。服务器在检测到***当前时间为定时触发时间时，可向录音平台发送数据获取请求，以使录音平台通过Kettle工具将数据库中存储的录音时间在质检周期内的通话录音数据推送给语音质检***，以使语音质检***对该通话录音数据进行质检。例如，可通过录音平台对坐席人员当日的通话进行录音，并存储通话录音数据在数据库中，在次日00：00可自动获取或跑批，以获取批量通话录音数据，以保证对批量通话录音数据进行质检，无需等待数据实时传输，提高质检效率。

S20：采用目标语音静态解码网络对通话录音数据进行文本翻译，获取通话文本数据。

目标语音静态解码网络是预先采用训练话术文本数据和对应的训练话术语音数据进行模型训练后获取的用于识别语音中文字内容的静态解码网络。该话术文本数据具体为金融机构或者其他机构预先设置与其业务相关的话术文本，即用于规范坐席人员与客户沟通过程的话术文本。由于目标语音静态解码是基于特定领域的话术文本进行训练所获取的静态解码网络，使得其在对该特定领域坐席人员的通话录音数据进行识别时，针对性强，使得解码准确率较高。由于静态解码网络已经把搜索空间全部展开，因此其在进行文本翻译时，解码速度非常快，从而可快速获取通话文本数据。

S30：对通话文本数据进行敏感词验证，提取目标敏感词，并基于目标敏感词获取第一质检评分值。

敏感词是相对某一特定领域而言，可能违反该特定领域对应的相关法律规定或者违背公序良俗的约定的词语。本实施例中，服务器中预先建立敏感词库，该敏感词库中预先存储有本领域通用的敏感词，以便后续在敏感词验证中进行调用。

具体地，服务器在获取通话文本数据之后，可先采用去停用词算法对通话文本数据进行处理，以获取去除停用词之后的关键词，再采用字符串匹配算法匹配该关键词与敏感词库中的敏感词，若两者相对应，则该关键词为目标敏感词。该字符串匹配算法包括但不限于BF(Brute Force，暴力检索)、RK(Robin-Karp，哈希检索)、KMP(The Knuth-Morris-PrattAlgorithm，普拉特)等算法。由于服务器中预先存储有敏感词库，采用去停用词算法之后再采用字符串匹配算法可快速获取对应的目标敏感词，提高目标敏感词的获取效率。

本实施例中，服务器预先存储有敏感词分类表，该敏感词分类表中预先存储有每一目标敏感词对应的类别分值，基于通话文本数据中所有目标敏感词对应的类别分值的和，可确定其第一质检评分值。可以理解地，步骤S30从通话录音数据的内容是否包括敏感词这一维度对通话录音数据进行质检，使得第一质检评分值从敏感词这一层面反映质检结果，以便于计算综合质检结果，其过程无需质检人员人工听取通话录音数据中是否提及敏感词，可提高对通话录音数据进行敏感词质检的效率，并提高质检结果的客观性。

S40：采用与质检评分表相对应的多维度质检评分模型，对通话录音数据及通话文本数据进行质检评分，获取第二质检评分值。

服务器预先存储有设置质检评分表，该质检评分表是用于评估坐席人员与客户电话沟通行为是否规范的评分标准。该质检评分表包括评分类型、评分标准、分值、评判条件和指引等。该评分类型包括但不限于语言规范类、销售规范类、业务办理规范类和产品说明规范类等类型。其中，语言规范类主要用于评估坐席人员在线表达是否流畅规范，用词是否恰当等规范。销售规范类主要用于评估坐席人员在线营销时，销售技巧的应用与销售态度是否符合相应规范。业务办理规范类主要用于评估坐席人员在确定客户意愿后，办理业务时是否按照流程准确操作等规范。产品说明规范类主要用于评估坐席人员在线做产品介绍时是否使客户完全理解没有偏差等规范。

质检评分表中每一评分类型包括至少一个评分标准，每一评分标准包括至少两个评判条件和对应的分值。例如，语言规范类包括开头结束语、语言舒适度和服务礼仪等评分标准，而在开关结束语这一评分标准下包括未表明自己身份及来电意图、未进行自我介绍或整句播报不清、姓名或工号播报不清、未征询客户是否方便接听电话、未提示客户此通电话有录音和客户还有疑问还未解决或还在讲话，打断客户结束通话等评判条件，以及上述评判条件对应的分值分别为10、10、10、10、20和100等。可以理解地，此处的分值为扣分值，而且所有扣分值在均为100分制或10分制的数值，以使不同扣分值之间具有可比性。指引用于说明符合上述评判条件但不扣分的例外情况，此处例外主要是客户行为。

由于质检评分表中包含不同的评分类型，每一评分类型包含不同的评分标准，且每一评分标准包含多个评判条件，使得在依据该质检评分表对通话录音数据进行质检时，需配置多维度质检评分模型对通话录音数据或者其对应的通话文本数据分别进行质检评分，以获取第二质检评分值。该多维度质检评分模型是指分别与多个质检维度相对应的评分模型。

S50：根据第一质检评分值和第二质检评分值，获取与坐席人员标识相对应的综合质检结果。

由于第一质检评分值是基于敏感词分类表中预先设置的敏感词进行质检评分的结果，而第二质检评分值是基于质检评分表中预先设置的不同评分标准和评判条件进行质检评分的结果，两者从不同层面反应该通话录音数据所对应的质检结果，如单独评价，可能不能很好地体现其整体的质检结果。例如，对于第一质检评分值较高而第二质检评分值较低，或者第一质检评分值较低而第二质检评分值较高这两种相反的评分结果，上述两个质检评分值无法单独体现其最终的质检结果。因此，服务器在获取第一质检评分值和第二质检评分值之后，还需要对第一质检评分值和第二质检评分值进行综合处理，以获取与坐席人员标识相对应的综合质检结果，该综合质检结果从整体上体现该坐席人员本次通话录音数据对应的质检结果。

进一步地，服务器预先设置第一质检评分值和第二质检评分值对应的综合评估尺度，如均为100分制或均为10分制，在对通话录音数据进行质检时，需将第一质检评分值和第二质检评分值均转换成100分制或均为10分制的数值，即使其进行数据标准化处理，以使两者有可比性，便于进行综合评估，获取综合质检结果。

本实施例所提供的通话录音质检方法中，通过获取质检周期内的通话录音数据，以便实现对质检周期内的批量通话录音数据进行批量处理，提高通话录音数据的质检效率。采用目标语音静态解码网络对通话录音数据进行文本翻译，其解码速度较快且解码准确率较高。对通话文本数据进行敏感词验证，以获取第一质检评分值，并通过多维度质检评分模型进行质检验证，以获取第二质检评分值，以使其获取的第一质检评分值和第二质检评分值的客观性更强，不受质检人员个人因素的影响，降低质检成本且提高质检效率，保证质检结果的客观性。而且，基于第一质检评分值和第二质检评分值获取到的综合质检结果，使其从整体上可反馈该坐席人员与客户通话过程的整体情况，更具有客观性。

在一实施例中，如图3所示，在采用目标语音静态解码网络对通话录音数据进行文本翻译的步骤之前，通话语音质检方法还包括：

S201：从话术语料库中获取训练话术文本数据。

其中，话术语料库是专用于存储话术文本数据的数据库。训练话术文本数据是从话术语料库中提取出来的用于进行模型训练的话术文本数据。该话术文本数据具体为金融机构或者其他机构预先设置与特定领域业务相关的话术文本，即是用于规范坐席人员与客户沟通过程的话术文本。例如，“您好！我是XX公司的工作人员XX，工号为XX，请问您方便接听电话吗？”为一训练话术文本数据。

S202：将训练话术文本数据输入到N-gram模型进行模型训练，获取目标语言模型。

其中，N-gram是大词汇连续语音识别中常用的一种语言模型，利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现到汉字的自动转换，无需用户手动选择，避开许多汉字对应一个相同拼音而导致重码问题。N-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成了长度是n的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。

N-gram基于马尔科夫假设：第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从所有训练话术文本数据中统计N个词同时出现的次数得到。即P(T)＝P(W₁W₂W₃…W_n)＝P(W₁)P(W₂|W₁)P(W₃|W₁W₂)…P(W_n|W₁W₂…W_n-1)，其中，P(W_n|W₁W₂…W_n-1)是指第n个分词出现在n-1个分词组成的语序序列之后的概率。在N-gram模型中，通常使用最大似然估计(Maximum LikelihoodEstimate)来计算P(W_n|W₁W₂…W_n-1)，即

其中，C(W_n)为第n个分词在所有训练话术文本数据中的词频，C(W₁W₂…W_n)为(W₁W₂…W_n)序列在所有训练话术文本数据中的词序列频度，C(W₁W₂…W_n-1)为(W₁W₂…W_n-1)序列在所有训练话术文本数据中的词序列频度。

本实施例中，将话术语料库中提取出来的训练话术文本数据输入到N-gram模型进行模型训练，使得获取的目标语言模型可用于评估需要进行识别的文本是否符合坐席通话过程的语言使用习惯的模型。即采用N-gram模型对训练话术文本数据训练所得的目标语言模型，可对坐席通话过程中的通话录音数据的识别更准确。

S203：基于训练话术文本数据，采集与每一训练话术文本数据相对应的训练话术语音数据。

具体地，服务器中预先设置有语音采集工具，在用户点击客户端上的“开始录音”按钮后，采集不同坐席人员阅读该训练话术文本数据时的语音，以获取与每一训练话术文本数据相对应的训练话术语音数据。可以理解地，服务器每采集到一训练话术语音数据之后，将该训练话术语音数据存储在数据库中，作为后续训练目标声学模型的训练样本。

S204：将训练话术语音数据输入到GMM-HMM模型进行模型训练，获取目标声学模型。

其中，目标声学模型是采用训练话术语音数据对GMM-HMM模型进行训练后获取的声学模型。具体地，服务器将训练话术语音数据输入到GMM-HMM模型进行模型训练，获取目标声学模型的过程包括如下步骤：

首先，对训练话术语音数据进行特征提取，获取MFCC(Mel-frequency CepstrumCoefficients，即梅尔频率倒谱系数)特征。其中，梅尔频率倒谱系数可采用多维特征向量(m维n列)的方式表达，m维1列向量为一帧波形，若干帧波形对应一个状态，每三个状态组合成一个音素。

然后，采用MFCC特征对GMM(Gaussian Mixed Model，高斯混合模型)进行训练，获取目标GMM模型，其过程具体包括：(1)初始化GMM的参数，该初始参数包括分量数目K，混合系数π_k，均值μ_k和协方差∑_k，对于所有MFCC特征所形成的点x＝{x₁，x₂，...，x_N}，其GMM模型为

(2)采用EM(Expectation MaximizationAlgorithm，最大期望)算法更新GMM的参数，获取目标GMM。该EM算法包括E step和MStep。在E step中，根据当前的混合系数π_k，均值μ_k和协方差∑_k，计算后验概率γ(z_nk)，其中，

在M step中，根据计算得到的后验概率γ(z_nk)，计算新的混合系数π_k，均值μ_k和协方差∑_k，在参数收敛时获取目标GMM模型，即

其中，

N为点的个数。

最后，将目标GMM模型输入到HMM进行模型训练，获取目标声学模型，其过程具体包括：(1)假设状态观测序列中服从单核高斯概率分布b_j(x)＝p(x|s_j)＝N(x；μ_j，∑_j)，初始化HMM的参数λ，该参数λ包括前向转移概率α_ij、后面转移概率β_t(s_j)、均值μ_j和协方差∑_j，其中，α_ij为从状态s_i转移到其他状态s_j的转移概率，且

β_t(s_j)为时刻t处于状态s_j的话，t时刻未来观测的概率，即β_t(s_j)＝p(x_t+1,x_t+2,x_T|s(t)＝s_j,λ)，其中，α_ij为从状态s_i转移到其他状态s_j的转移概率，b_j(x_t+1)为状态i下观测到x_t+1的概率，β_t+1(s_j)为t时刻处于状态s_j的话，t+1后观测的概率。(2)采用EM算法更新HMM的前向转移概率α_ij、均值μ_j和协方差∑_j，获取目标声学模型。采用EM算法更新HMM中参数的过程与更新GMM中参数的过程一致，在此不一一赘述。

S205：基于目标语言模型和目标声学模型构建知识源搜索空间，并根据知识源搜索空间获取目标语音静态解码网络。

具体地，服务器基于步骤S202获取到的目标语言模型、步骤S204获取到的目标声学模型和预先设置的发音词典和声学上下文构建知识源搜索空间，其构建过程包括如下步骤：

(1)将目标语言模型、目标声学模型、发音词典和声学上下文转换成WFST(WeightedFinite-state Transduce，加权有限状态转换器)网络，即分别获得语言模型WFST(以下简称为G)、发音词典WFST(以下简称为L)、声学上下文WFST(以下简称为C)和声学模型WFST(以下简称为H)。该语言模型WFST中，是一个WFSA(acceptor接受机)，可与其它三个WFST进行操作，将其视为一个输入符号和输出符号相同的WFST，具体定义词序列出现的概率。发音词典WFST，输入符号为monophone(音素)，输出符号为词。发音词典定义音素序列所表示的词，根据跨词三音子模型产生的可能的音素序列，可以得到相应的词序列。声学上下文WFST，输入符号为triphone(三音子)，输出符号为monophnoe(音素)，该WFST网络定义从三音子到音素的对应关系，根据HMM模型产生的三音子序列。声学模型WFST，输入符号为HMM transitions-ids(transition identifiers转换标识符，用于指示对应的特征向量)，输出符号为triphone(三音子)，定义每个三音子所对应的HMM状态序列。在语音识别时，通过对每一帧所对应的状态进行假设，可以在HMM的状态序列上进行搜索，从而产生可能的三音子序列。

(2)对四个WFST网络进行合并和压缩优化，获取目标语音静态解码网络。

具体地，先采用H°C°L°G°对四个WFST网络进行合并，获取原始语音静态解码网络，其中，H为声学模型WFST，C为声学上下文WFST，L为发音词典WFST，G为语言模型WFST，°指模型合并(Composition)。然后，对原始语音静态解码网络进行压缩优化，获取目标语音静态解码网络。由于原始语音静态解码网络的占用内存非常大，需进一步优化，以使优化后的目标语音静态解码网络能够有较小的体积。具体地，采用N＝π_ε(min(det(H°det(C°det(L°G)))))对原始语音静态解码网络进行压缩优化，获取目标语音静态解码网络，使得其形成的识别网络较小，其中，det(Determinization)为确定化算法，min(Minimization)为最小化算法，π_ε为空转移去除(ε-Removal)算法。

本实施例中，所获取的目标语音静态解码网络采用迭代计算，让概率信息在网络节点间传递更新，以进行语音解码，并且由于静态解码网络已经把搜索空间全部展开，因此，不需要根据解码路径的前驱词构造搜索空间副本，也不需要在词尾节点根据历史信息查询语音模型，使得其后续进行语音识别时，解码速度非常快。

在一实施例中，目标语音静态解码网络包括目标语言模型对应的语言模型WFST(以下简称为G)、发音词典对应的发音词典WFST(以下简称为L)、声学上下文对应的声学上下文WFST(以下简称为C)和目标声学模型对应的声学模型WFST(以下简称为H)，并将四个WFST进行合并、确定化、最小化和空转移去除之后获得的静态解码网络。依据四个WFST对应的输入输出关系可知，步骤S20中采用目标语音静态解码网络对通话录音数据进行文本翻译，获取通话文本数据，具体包括如下步骤：(1)采用声学模型WFST对通话录音数据进行处理，获取HMM状态序列，每一HMM状态序列为一triphone(三音子)的状态序列。(2)采用声学上下文WFST对HMM状态序列进行处理，获取对应的音素序列。声学上下文WFST定义了三音子到音素的对应关系，因此，可采用声学上下文WFST对HMM状态序列进行处理，获取对应的音素序列。(3)采用发音词典WFST对音素序列进行处理，获取对应的词序列。(4)采用语言模型WFST对词序列进行处理，获取通话文本数据。

其中，目标声学模型是采用训练话术语音数据对GMM-HMM模型进行训练后获取的声学模型。本实施例中，服务器先对通话录音数据进行分帧，并对每一帧语音数据进行特征提取，获取对应的MFCC特征，该MFCC特征中包括12维n列矩阵，根据人耳的生理特性，将每一帧波形用12维的向量表示。然后，将每一帧语音数据提取到的MFCC特征输入到训练好的GMM中，获取每一帧语音数据属于每个状态的概率。最后，根据每个单词的HMM状态转移概率计算每个状态属于该帧语音数据的概率，选取概率最大的HMM状态序列确定其对应的HMM状态序列。HMM(Hidden Markov Model，隐马尔可夫模型)是预先训练好的状态网络，将获取到的每一帧语音数据属于每个状态的概率输入HMM中，可从该状态网络中寻找帧与状态间最匹配路径，将最匹配路径对应的状态作为目标状态，从状态网络中寻找状态与音素间最匹配路径，将最匹配路径对应的音素作为音素数据。其中，HMM中路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi(维特比)算法，用于寻找全局最优路径，进而实现将MFCC特征转换为HMM状态序列。

可以理解地，由于声学模型WFST、声学上下文WFST、发音词典WFST和语言模型WFST是训练好的目标语音静态解码网络中四个串联的子***，每一个子***的输出是下一个子***的输入，使得对四个WFST进行合并、确定化、最小化和空转移去除之后获得的静态解码网络，可以直接将通话录音数据输入到声学模型WFSTT，依次经过声学上下文WFST、发音词典WFST和语言模型WFST处理，可获取对应的通话录音文本数据，其解码过程中由于已经将搜索空间全部展开，可采用Viterbi(维特比)算法快速获取最优解码结果，使得其解码速度快。

在一实施例中，如图4所示，步骤S30中基于目标敏感词获取第一质检评分值，具体包括如下步骤：

S31：基于目标敏感词查询敏感词分类表，获取每一目标敏感词所属的敏感类别和对应的类别分值。

敏感词库在预先存储有敏感词分类表，该敏感词分类表中依据敏感词的类型和严重程度划分成多个敏感类别，并配置每一种敏感类别对应一类别分值，以便利用该敏感词分类表对目标敏感词进行评分。可以理解地，敏感词库中的每一敏感词在存储到敏感词库时，需预先标注其对应的敏感类别，以使得敏感词库中的每一敏感词均可存在对应的敏感类别。

本实施例中，服务器采用查询语句，以目标敏感词为查询字段查询敏感词分类表，可快速获取该目标敏感词对应的敏感类别，从而确定该敏感类别对应的类别分值，其获取过程简单方便。

S32：统计每一敏感类别对应的目标敏感词的类别数量，基于类别数量和类别分值，获取总评分值。

具体地，服务器采用总评分值计算公式对每一敏感类别对应的目标敏感词的类别数量和类别分值进行计算，获取总评分值，该总评分值计算公式为S＝∑s_iq_i，其中，S为总评分值，s_i为第i个敏感类别对应的类别分值，q_i为第i个敏感类别对应的目标敏感词的类别数量。即服务器先根据每一种敏感类别对应的目标敏感词的类别数量和该敏感类别对应的类别分值，计算两者的积作为其类别评分值；然后，将所有敏感类别对应的类别评分值进行求和计算，获取其和作为总评分值。

例如，在敏感词分类表中依据敏感词的类型和严重程度划分成三个敏感类别，每一种敏感类别对应一类别分值。如本实施例中包括高度敏感、中级敏感和普通敏感这三种敏感类别，其对应的类别分值分别为3分、2分和1分。敏感词分类表中还存储有每一敏感类别对应的敏感词，服务器根据获取的目标敏感词查询其该敏感词分类表，可获取其所属的敏感类别；在确定所有目标敏感词对应的敏感类别之后，统计每一敏感类别对应的目标敏感词的类别数量，如分别为1、4和3，则采用该总评分值计算公式进行计算，可获取其总评分值S＝3*1+2*4+1*3＝14。

可以理解地，依据敏感词的类型和严重程度，将敏感词划分成不同敏感类别，且每一敏感类别对应一类别分值，以使得后续基于目标敏感词所属的敏感类别的类别数量和对应的类别分值计算出的总评分值更合理，使得其对坐席人员通话录音数据的质检效果更客观。

S33：对总评分值进行标准化处理，获取第一质检评分值。

由于本实施例中，对坐席人员的通话录音数据进行质检，不仅包括质检坐席人员在通话过程中是否提及敏感词，还包括质检其通话过程中的情绪、语气以及通话内容是否属于预设的质检评分表中的评判条件，因此后续需要对两者进行综合评估，为了保证综合评估在同一评估尺度上，因此需要对敏感词质检所得的总评分值进行标准化处理，以获取可进行综合评估的第一质检评分值。

本实施例中，服务器预先存储有标准分值表，该标准分值表存储有实际评分值与标准评分值之间的映射关系。对总评分值进行标准化处理的过程具体包括如下步骤：基于该总评分值查询标准分值表，将该总评分值所在的实际评分值对应的标准评分值作为第一质检评分值。可以理解地，标准化处理后的第一质检评分值可采用100分制也可以采用10分制，以便于后续进行综合判断。

步骤S31-S33中，在对通话文本数据进行敏感词验证后，提取其中包含的目标敏感词后，依据敏感词分类表确定该目标敏感词所属的敏感类别及其类别分值，从而获取到总评分值，使得该总评分值可从客观上反映坐席人员在与客户沟通中是否提及敏感词的情况，以保证后续获取的第一质检评分值的客观性。再对总评分值进行标准化处理，使得其可与第二质检评分值进行综合评估，提高综合评估结果的客观性。

在一实施例中，如图5所示，采用与质检评分表相对应的多维度质检评分模型，对通话录音数据及通话文本数据进行质检评分，获取第二质检评分值，即步骤S40具体包括如下步骤：

S41：采用语音激活检测算法对通话录音数据进行识别，获取首尾语音数据对应的时间标签，基于时间标签从通话文本数据获取对应的首尾文本数据，对首尾文本数据与质检评分表中对应的评判条件进行模糊匹配，获取第一维度分值。

其中，语音激活检测(Voice Activity Detection，简称VAD)算法，又称语音端点检测,语音边界检，是指在噪声环境中检测语音的存在与否的算法。服务器采用VAD算法可检测通话录音数据中的首尾语音数据(即通话录音数据中的开头语音数据和结尾语音数据)，并确定该首尾语音数据在通话录音数据中的时间标签。由于通话录音数据与其解码获取到的通话文本数据时间同步，因此可根据该首尾语音数据的时间标签获取通话文本数据中对应的首尾文本数据。

服务器中预先存储的质检评分表中语言规范类这一评分类型中包含开头结束语对应的评分标准。该评分标准包含多个评判条件，如未表明自己身份及来电意图、未进行自我介绍或整句播报不清、姓名或工号播报不清、未征询客户是否方便接听电话和未提示客户此通电话有录音等针对开头语音数据的评判条件，或者未在通话结束向客户道别，感谢客户支持并致以节日祝福、通话结束前未播报或播报不完整以及未按照通话结束标准话术执行等针对结尾语音数据的评判条件。

本实施例中，服务器采用模糊匹配算法对首尾文本数据和质检评分表中开头结束语对应的评分标准中所有评判条件进行模糊匹配，将模糊匹配成功的评判条件对应的分值进行汇总，即可获取第一维度分值，以实现对首尾语音数据进行质检，保证质检结果的客观性。其中，该模糊匹配算法包括但不限于本实施例中采集的编辑距离算法。

S42：采用情绪识别模型对通话录音数据进行识别，获取情绪识别结果，基于情绪识别结果和质检评分表中对应的评判条件，获取第二维度分值。

其中，情绪识别模型是服务器预先训练好的用于识别通话录音数据中情绪变化的模型。该情绪识别模型的训练过程中可包括如下步骤：1)获取用于模型训练的训练语音数据，每一训练语音数据携带一情绪标签。2)对训练语音数据进行特征提取，获取基于声道的LPCC(Linear prediction cepstrum coefficient)特征参数和MFCC(MelFrequencyCepstral Coefficinets)特征参数。3)采用概率神经网络(Probabilistic NeuralNetwork，简称PNN)或者其他神经网络对LPCC特征参数和MFCC特征参数进行训练，获取情绪识别模型。可以理解地，训练得到的情绪识别模型可快速识别到通话录音数据中的情绪变化，以便实现智能识别坐席人员与客户通话过程中的情绪变化。

服务器预先存储的质检评分表中销售规范类这一评分类型中包含情绪控制对应的评分标准，该评分标准包含多个评判条件，如客户质疑时情绪有波动，但能基本能做到耐心应答、销售时坐席在线表现不够耐心，或以非正当理由拒绝客户的合理要求和自我控制差，客户拒绝时明显出现情绪波动等。

本实施例中，服务器采用情绪识别模型对通话录音数据进行识别，获取其对应的情绪识别结果，将该情绪识别结果与质检评分表中情绪控制对应的评分标准中所有评判条件进行匹配，并将匹配成功的评判条件对应的分值进行汇总，以获取第二维度分值，实现对通话录音数据中情绪维度的质检，以保证最终获取的第二质检评分值的客观性。可以理解地，质检评分表中还可以明确焦虑、紧张、愤怒、沮丧、悲伤和痛苦等负面情绪对应的分值，根据情绪识别结果将相应的分值进行汇总，可获取第二维度分值，使得第二维度分值的匹配过程更简单方便。

S43：采用语气分析器对通话文本数据进行识别，获取语气分析结果，基于语气分析结果和质检评分表中对应的评判条件，获取第三维度分值。

其中，语气分析器(Tone Analyzer)是用于分析语言文字，以确定其中蕴含的语气的分析器。该语气分析器可以采用IBM的Watson语气分析器。本实施例中，服务器调用预先配置的语气分析器对通话文本数据进行语气分析，以确定坐席人员与客户沟通过程中的语气，以便对坐席人员的语气进行质检。

服务器预先存储的质检评分表中语言规范类这一评分类型中包含语言舒适度这一评分标准。该评分标准包含多个与语气相关的评判条件，如语气平淡，无激情、语气僵硬，显示冷淡和以不屑、不满的语气向客户发出提问(例如“这个问题我刚才不是给您说过了吗？”、“您难道连这都需要我再解释吗？”)等。

本实施例中，服务器采用语气分析器对通话文本数据进行语气分析，获取其对应的语气分析结果，将该语气分析结果与质检评分表中与语气相关的所有评判条件进行匹配，并将匹配成功的评判条件对应的分值进行汇总，以获取第三维度分值，实现对通话录音数据中语气维度的质检，以保证最终获取的第二质检评分值的客观性。

S44：采用动态规划搜索算法，对通话文本数据和质检评分表中对应的评判条件进行匹配处理，获取第四维度分值。

其中，动态规划搜索算法是将待求解的问题分解为若干个子问题(阶段)，按顺序求解子阶段，前一子问题的解，为后一子问题的求解提供有用的信息。在求解任一子问题时，列出各种可能的局部解，通过决策保留那些有可能达到最优的局部解，丢弃其他局部解，依次解决各子问题，最后一个子问题就是初始问题的解。

本实施例中，服务器采用动态规划搜索算法，对通话文本数据和质检评分表中剩余评判条件(即步骤S41-S43所采用的评判条件之外的评判条件)进行匹配处理，可快速获取与该通话文本数据相匹配的评判条件的最优解(即最匹配的评判条件)，将所有最优解对应的评判条件对应的分值进行汇总，即可获取第四维度分值。可以理解地，动态规划搜索算法选取质检评分表中除步骤S41-S43之外的所有评判条件的最优解，以避免对相似评判条件重复计算，以使得最终获取到的第四维度分值存在较大误差。即第四维度分值是对质检评分表中剩余评判条件中选取最优解对应的评判条件进行匹配处理，以达到去除重复评判条件的目的。

S45：对第一维度分值、第二维度分值、第三维度分值和第四维度分值进行加权求和，获取第二质检评分值。

具体地，服务器采用加权算法对第一维度分值、第二维度分值、第三维度分值和第四维度分值进行加权求和，以获取第二质检评分值。其中，加权算法的公式为

且

s_i为第一维度分值、第二维度分值、第三维度分值或第四维度分值，w_i为第一维度分值、第二维度分值、第三维度分值或第四维度分值对应的权重。本实施例中，由于第一维度分值、第二维度分值、第三维度分值或第四维度分值是基于同一质检评分表获取的分值，其评分标准相同，因此无需进行标准化处理，即可直接进行加权求和处理，以保证处理效率。

本实施例中，依据步骤S41-S44，分别获取第一维度分值、第二维度分值、第三维度分值和第四维度分值，这四个维度分值从不同的质检评估维度对通话语音数据或通话文本数据进行质检分析，以保证质检结果的客观性。再通过对第一维度分值、第二维度分值、第三维度分值和第四维度分值进行加权求和，使得获取到的第二质检评分值客观性更好，不受质检人员个人因素影响，以保障语音质检的准确性。

可以理解地，在获取第二质检评分值之后，带可以对该第二质检评分值进行标准化处理，以将其转化成与第一质检评分值具有可比性的第二质检评分值，其标准化处理过程与步骤S33类似，在此不一一赘述。

在一实施例中，如图6所示，根据第一质检评分值和第二质检评分值，获取与坐席人员标识相对应的综合质检结果，包括：

S51：判断第一质检评分值是否大于第一阈值，并判断第二质检评分值是否大于第二阈值。

其中，第一阈值是用于评估第一质检评分值是否质检合格的阈值，第二阈值是用于评估第二质检评分值是否质检合格的阈值。具体地，服务器可以先将第一质检评分值与第一阈值进行比较，以判断第一质检评分值是否大于第一阈值，再将第二质检评分值与第二阈值进行比较，以判断第二质检评分值是否大于第二阈值，两个比较判断的顺序不限定。

S52：若第一质检评分值大于第一阈值或者第二质检评分值大于第二阈值，则生成质检不合格的综合质检结果。

本实施例中，若第一质检评分值大于第一阈值，则说明基于敏感词层面进行质检可直接认定其通话录音数据质检不合格，生成质检不合格的综合质检结果。若第二质检评分值大于第二阈值，则说明基于质检评分表中预先设置的评分标准和评判条件可直接认定其通话录音数据质检不合格，直接生成质检不合格的综合质检结果。

S53：若第一质检评分值不大于第一阈值且第二质检评分值不大于第二阈值，则采用加权算法对第一质检评分值和第二质检评分值进行加权运算，获取综合评分值。

本实施例中，若第一质检评分值不大于第一阈值且第二质检评分值不大于第二阈值，则说明基于第一质检评分值和第二质检评分值这两个单一质检层面无法直接确定其是否质检合格。此外，服务器采用预先设置的加权算法对第一质检评分值和第二质检评分值进行加权运算，以获取综合两者的综合评分值。

其中，加权算法的公式为

且

p_i为第一质检评分值或第二质检评分值，w_i为第一质检评分值的权重或第二质检评分值的权重。本实施例中，由于第一质检评分值是仅从敏感词层面质检的评分值，而第二质检评分值是基于质检评分表上多个评分标准和评判条件进行综合判断，因此，可设置第二质检评分值的权重大于第一质检评分值的权重。例如，使第一质检评分值的权重为30％，而第二质检评分值的权重为70％，以使得所获取的综合评分值可更合理地体现该通话录音数据的质检结果。

S54：判断综合评分值是否大于第三阈值；若综合评分值大于第三阈值，则生成质检不合格的综合质检结果；若综合评分值不大于第三阈值，则生成质检合格的综合质检结果。

其中，第三阈值是用于评估综合评分值是否合格的阈值，该第三阈值小于第一阈值和第二阈值，以保证基于第三阈值进行综合评估的顺利进行。具体地，服务器将综合评分值与第三阈值进行比较，若综合评分值大于第三阈值，则说明根据综合评分值进行评估，可认定其质检不合格，以生成质检不合格的综合质检结果；相应地，若综合评分值不大于敏感阈值，则说明根据综合评分值进行评分，可认定其质检合格，以生成质检合格的综合质检结果。

例如，设第一阈值和第二阈值均为90，第三阈值为80，p₁为第一质检评分值，w₁为第一质检评分值的权重，p₂为第二质检评分值，w₂为第二质检评分值的权重，且w₁＝30％，w₂＝70％。若p₁＝92或p₂＝93，则可以直接生成质检不合格的综合质检结果；若p₁＝75或p₂＝85，则依据加权公式计算得到综合评分值P＝75*30％+85*70％＝82，该综合评分值大于第三阈值，则生成质检不合格的综合质检结果；反之，p₁＝85或p₂＝75，则依据加权公式计算得到综合评分值P＝85*30％+75*70％＝78，该综合评分值不大于第三阈值，则生成质检合格的综合质检结果。

步骤S51-S54中，可根据第一质检评分值大于第一阈值，或者第二质检评分值大于第二阈值，直接生成质检不合格的综合质检结果，说明其可依据单一质检评分值确定其质检不合格，说明该通话录音数据对应的坐席人员在与客户通话过程中的存在的问题较严重。在第一质检评分值不大于第一阈值且第二质检评分值不大于第二阈值时，基于第一质检评分值和第二质检评分值进行加权运算，获取综合评分值，使得该综合评分值可从两个质检评分值综合考虑，质检评估过程更合理。最后，根据综合评分值与第三阈值的比较结果，确定质检合格与否，使得最终的综合质检结果更合理，不受质检人员个人因素影响。

在一实施例中，通话录音数据不仅携带坐席人员标识，还携带有数据标识，该数据标识是用于识别通话录音数据的标识。如图7所示，在步骤S50之后，即在获取与坐席人员标识相对应的综合质检结果步骤之后，通话语音质检方法还包括：

S61：将综合质检结果与数据标识关联存储在质检结果数据表中。

其中，质检结果数据表是用于存储质检结果的数据表。服务器在获取到质检周期内的通话录音数据之后，会获取该通话录音数据所携带的坐席人员标识和数据标识。然后，服务器基于质检周期内的所有通话录音数据创建一质检结果数据表，该质检结果数据表包括坐席人员标识字段、数据标识字段和质检结果字段，还可以包括质检评分值字段。

本实施例中，在通过步骤S20-S50获取到综合质检结果时，会将综合质检结果和数据标识关联存储在预先创建的质检结果数据表中，以便对所有通话录音数据的综合质检结果进行统计分析。

S62：依据质检结果数据表中的质检结果类型，获取与质检结果类型相对应的信息通知模板。

其中，质检结果类型是综合质检结果对应的类型，包括质检合格和质检不合格两种类型。服务器预先存储与两种质检结果类型相对应的信息通知模板，例如，与质检合格这一质检结果类型相对应的信息通知模板中包含坐席信息(如坐席人员标识、姓名)、通话录音信息(如录音时间)和质检结果信息；而与质检不合格这一质检结果类型相对应的信息通知模板不仅包含坐席信息、通话录音信息和质检结果信息，还包括回访时间和回访问题等信息。

S63：基于信息通知模板，获取质检结果通知信息。

具体地，服务器基于信息通知模板，获取质检结果通知信息是指从质检结果数据表中获取与信息通知模板所需填充的内容，其该内容填充到信息通知模板中，即可生成质检结果通知信息，使得质检结果通知信息可自动化生成，提高其生成效率。

S64：将质检结果通知信息发送给与坐席人员标识相对应的客户端。

服务器将质检结果通知信息发送给与坐席人员标识相对应的客户端，以使坐席人员标识对应的坐席人员可通过客户端查询该质检结果通知信息，并依据该质检结果通知信息进行相应的处理。例如，基于质检不合格这一质检结果类型的信息通知模板生成的质检结果通知信息中，包含回访时间和回访问题等信息，坐席人员需按该回访时间和回访问题对客户进行再次访问，以提高客户的满意度。

本实施例中，将综合质检结果存储在质检结果数据表中，以便对所有通话录音数据的综合质检结果进行批量处理，以提高后续质检结果通知信息的生成效率。可根据质检结果类型不同自动生成不同的质检结果通知信息，提高质检结果通知信息的生成效率，节省人工操作时间。将质检结果通知信息发送给坐席人员标识相对应的客户端，以提醒坐席人员依据质检结果通知信息进行后续处理。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种通话语音质检装置，该通话语音质检装置与上述实施例中通话语音质检方法一一对应。如图8所示，该通话语音质检装置包括录音数据获取模块10、文本数据获取模块20、第一质检处理模块30、第二质检处理模块40和综合质检处理模块50。各功能模块详细说明如下：

录音数据获取模块10，用于获取在质检周期内的通话录音数据，通话录音数据携带坐席人员标识。

文本数据获取模块20，用于采用目标语音静态解码网络对通话录音数据进行文本翻译，获取通话文本数据。

第一质检处理模块30，用于对通话文本数据进行敏感词验证，提取目标敏感词，并基于目标敏感词获取第一质检评分值。

第二质检处理模块40，用于采用与质检评分表相对应的多维度质检评分模型，对通话录音数据及通话文本数据进行质检评分，获取第二质检评分值。

综合质检处理模块50，用于根据第一质检评分值和第二质检评分值，获取与坐席人员标识相对应的综合质检结果。

优选地，通话语音质检装置还包括：训练文本数据获取单元201、目标语言模型获取单元202、训练语音数据获取单元203、目标声学模型获取单元204和静态解码网络获取单元205。

训练文本数据获取单元201，用于从话术语料库中获取训练话术文本数据。

目标语言模型获取单元202，用于将训练话术文本数据输入到N-gram模型进行模型训练，获取目标语言模型。

训练语音数据获取单元203，用于基于训练话术文本数据，采集与每一训练话术文本数据相对应的训练话术语音数据。

目标声学模型获取单元204，用于将训练话术语音数据输入到GMM-HMM模型进行模型训练，获取目标声学模型。

静态解码网络获取单元205，用于基于目标语言模型和目标声学模型构建知识源搜索空间，并根据知识源搜索空间获取目标语音静态解码网络。

优选地，第一质检处理模块30包括：敏感词查询单元31、总评分值获取单元32和标准化处理单元33。

敏感词查询单元31，用于基于目标敏感词查询敏感词分类表，获取每一目标敏感词所属的敏感类别和对应的类别分值。

总评分值获取单元32，用于统计每一敏感类别对应的目标敏感词的类别数量，基于类别数量和类别分值，获取总评分值。

标准化处理单元33，用于对总评分值进行标准化处理，获取第一质检评分值。

优选地，第二质检处理模块40包括：第一维度分值获取单元41、第二维度分值获取单元42、第三维度分值获取单元43、第四维度分值获取单元44和第二质检评分值获取单元45。

第一维度分值获取单元41，用于采用语音激活检测算法对通话录音数据进行识别，获取首尾语音数据对应的时间标签，基于时间标签从通话文本数据获取对应的首尾文本数据，对首尾文本数据与质检评分表中对应的评判条件进行模糊匹配，获取第一维度分值。

第二维度分值获取单元42，用于采用情绪识别模型对通话录音数据进行识别，获取情绪识别结果，基于情绪识别结果和质检评分表中对应的评判条件，获取第二维度分值。

第三维度分值获取单元43，用于采用语气分析器对通话文本数据进行识别，获取语气分析结果，基于语气分析结果和质检评分表中对应的评判条件，获取第三维度分值。

第四维度分值获取单元44，用于采用动态规划搜索算法，对通话文本数据和质检评分表中对应的评判条件进行匹配处理，获取第四维度分值。

第二质检评分值获取单元45，用于对第一维度分值、第二维度分值、第三维度分值和第四维度分值进行加权求和，获取第二质检评分值。

优选地，综合质检处理模块50包括：第一判断处理单元51、第一结果获取单元52、第二判断处理单元53和第二结果获取单元54。

第一判断处理单元51，用于判断第一质检评分值是否大于第一阈值，并判断第二质检评分值是否大于第二阈值。

第一结果获取单元52，用于若第一质检评分值大于第一阈值或者第二质检评分值大于第二阈值，则生成质检不合格的综合质检结果。

第二判断处理单元53，用于若第一质检评分值不大于第一阈值且第二质检评分值不大于第二阈值，则采用加权算法对第一质检评分值和第二质检评分值进行加权运算，获取综合评分值。

第二结果获取单元54，用于判断综合评分值是否大于第三阈值；若综合评分值大于第三阈值，则生成质检不合格的综合质检结果；若综合评分值不大于第三阈值，则生成质检合格的综合质检结果。

优选地，通话录音数据携带数据标识。

通话语音质检装置还包括：质检结果存储单元61、通知模板获取单元62、通知信息获取单元63和通知信息发送单元64。

质检结果存储单元61，用于将综合质检结果与数据标识关联存储在质检结果数据表中。

通知模板获取单元62，用于依据质检结果数据表中的质检结果类型，获取与质检结果类型相对应的信息通知模板。

通知信息获取单元63，用于基于信息通知模板，获取质检结果通知信息。

通知信息发送单元64，用于将质检结果通知信息发送给与坐席人员标识相对应的客户端。

关于通话语音质检装置的具体限定可以参见上文中对于通话语音质检方法的限定，在此不再赘述。上述通话语音质检装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于通话录音数据、敏感词分类表和质检评分表等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种通话语音质检方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取在质检周期内的通话录音数据，通话录音数据携带坐席人员标识；采用目标语音静态解码网络对通话录音数据进行文本翻译，获取通话文本数据；对通话文本数据进行敏感词验证，提取目标敏感词，并基于目标敏感词获取第一质检评分值；采用与质检评分表相对应的多维度质检评分模型，对通话录音数据及通话文本数据进行质检评分，获取第二质检评分值；根据第一质检评分值和第二质检评分值，获取与坐席人员标识相对应的综合质检结果。

在一个实施例中，在采用目标语音静态解码网络对通话录音数据进行文本翻译的步骤之前，处理器执行计算机程序时还实现以下步骤：从话术语料库中获取训练话术文本数据；将训练话术文本数据输入到N-gram模型进行模型训练，获取目标语言模型；基于训练话术文本数据，采集与每一训练话术文本数据相对应的训练话术语音数据；将训练话术语音数据输入到GMM-HMM模型进行模型训练，获取目标声学模型；基于目标语言模型和目标声学模型构建知识源搜索空间，并根据知识源搜索空间获取目标语音静态解码网络。

在一个实施例中，对通话文本数据进行敏感词验证，提取目标敏感词，并基于目标敏感词获取第一质检评分值，包括：基于目标敏感词查询敏感词分类表，获取每一目标敏感词所属的敏感类别和对应的类别分值；统计每一敏感类别对应的目标敏感词的类别数量，基于类别数量和类别分值，获取总评分值；对总评分值进行标准化处理，获取第一质检评分值。

在一个实施例中，采用与质检评分表相对应的多维度质检评分模型，对通话录音数据及通话文本数据进行质检评分，获取第二质检评分值，包括：采用语音激活检测算法对通话录音数据进行识别，获取首尾语音数据对应的时间标签，基于时间标签从通话文本数据获取对应的首尾文本数据，对首尾文本数据与质检评分表中对应的评判条件进行模糊匹配，获取第一维度分值；采用情绪识别模型对通话录音数据进行识别，获取情绪识别结果，基于情绪识别结果和质检评分表中对应的评判条件，获取第二维度分值；采用语气分析器对通话文本数据进行识别，获取语气分析结果，基于语气分析结果和质检评分表中对应的评判条件，获取第三维度分值；采用动态规划搜索算法，对通话文本数据和质检评分表中对应的评判条件进行匹配处理，获取第四维度分值；对第一维度分值、第二维度分值、第三维度分值和第四维度分值进行加权求和，获取第二质检评分值。

在一个实施例中，根据第一质检评分值和第二质检评分值，获取与坐席人员标识相对应的综合质检结果，包括：判断第一质检评分值是否大于第一阈值，并判断第二质检评分值是否大于第二阈值；若第一质检评分值大于第一阈值或者第二质检评分值大于第二阈值，则生成质检不合格的综合质检结果；若第一质检评分值不大于第一阈值且第二质检评分值不大于第二阈值，则采用加权算法对第一质检评分值和第二质检评分值进行加权运算，获取综合评分值；判断综合评分值是否大于第三阈值；若综合评分值大于第三阈值，则生成质检不合格的综合质检结果；若综合评分值不大于第三阈值，则生成质检合格的综合质检结果。

在一个实施例中，在获取与坐席人员标识相对应的综合质检结果的步骤之后，处理器执行计算机程序时还实现以下步骤：将综合质检结果与数据标识关联存储在质检结果数据表中；依据质检结果数据表中的质检结果类型，获取与质检结果类型相对应的信息通知模板；基于信息通知模板，获取质检结果通知信息；将质检结果通知信息发送给与坐席人员标识相对应的客户端。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取在质检周期内的通话录音数据，通话录音数据携带坐席人员标识；采用目标语音静态解码网络对通话录音数据进行文本翻译，获取通话文本数据；对通话文本数据进行敏感词验证，提取目标敏感词，并基于目标敏感词获取第一质检评分值；采用与质检评分表相对应的多维度质检评分模型，对通话录音数据及通话文本数据进行质检评分，获取第二质检评分值；根据第一质检评分值和第二质检评分值，获取与坐席人员标识相对应的综合质检结果。

在一实施例中，在采用目标语音静态解码网络对通话录音数据进行文本翻译的步骤之前，计算机程序被处理器执行时还实现以下步骤：从话术语料库中获取训练话术文本数据；将训练话术文本数据输入到N-gram模型进行模型训练，获取目标语言模型；基于训练话术文本数据，采集与每一训练话术文本数据相对应的训练话术语音数据；将训练话术语音数据输入到GMM-HMM模型进行模型训练，获取目标声学模型；基于目标语言模型和目标声学模型构建知识源搜索空间，并根据知识源搜索空间获取目标语音静态解码网络。

在一实施例中，对通话文本数据进行敏感词验证，提取目标敏感词，并基于目标敏感词获取第一质检评分值，包括：基于目标敏感词查询敏感词分类表，获取每一目标敏感词所属的敏感类别和对应的类别分值；统计每一敏感类别对应的目标敏感词的类别数量，基于类别数量和类别分值，获取总评分值；对总评分值进行标准化处理，获取第一质检评分值。

在一实施例中，采用与质检评分表相对应的多维度质检评分模型，对通话录音数据及通话文本数据进行质检评分，获取第二质检评分值，包括：采用语音激活检测算法对通话录音数据进行识别，获取首尾语音数据对应的时间标签，基于时间标签从通话文本数据获取对应的首尾文本数据，对首尾文本数据与质检评分表中对应的评判条件进行模糊匹配，获取第一维度分值；采用情绪识别模型对通话录音数据进行识别，获取情绪识别结果，基于情绪识别结果和质检评分表中对应的评判条件，获取第二维度分值；采用语气分析器对通话文本数据进行识别，获取语气分析结果，基于语气分析结果和质检评分表中对应的评判条件，获取第三维度分值；采用动态规划搜索算法，对通话文本数据和质检评分表中对应的评判条件进行匹配处理，获取第四维度分值；对第一维度分值、第二维度分值、第三维度分值和第四维度分值进行加权求和，获取第二质检评分值。

在一实施例中，根据第一质检评分值和第二质检评分值，获取与坐席人员标识相对应的综合质检结果，包括：判断第一质检评分值是否大于第一阈值，并判断第二质检评分值是否大于第二阈值；若第一质检评分值大于第一阈值或者第二质检评分值大于第二阈值，则生成质检不合格的综合质检结果；若第一质检评分值不大于第一阈值且第二质检评分值不大于第二阈值，则采用加权算法对第一质检评分值和第二质检评分值进行加权运算，获取综合评分值；判断综合评分值是否大于第三阈值；若综合评分值大于第三阈值，则生成质检不合格的综合质检结果；若综合评分值不大于第三阈值，则生成质检合格的综合质检结果。

在一实施例中，在获取与坐席人员标识相对应的综合质检结果的步骤之后，计算机程序被处理器执行时还实现以下步骤：将综合质检结果与数据标识关联存储在质检结果数据表中；依据质检结果数据表中的质检结果类型，获取与质检结果类型相对应的信息通知模板；基于信息通知模板，获取质检结果通知信息；将质检结果通知信息发送给与坐席人员标识相对应的客户端。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种通话语音质检方法，其特征在于，包括：

根据所述第一质检评分值和所述第二质检评分值，获取与所述坐席人员标识相对应的综合质检结果；

其中，所述采用与质检评分表相对应的多维度质检评分模型，对所述通话录音数据及所述通话文本数据进行质检评分，获取第二质检评分值，包括：

采用语音激活检测算法对所述通话录音数据进行识别，获取首尾语音数据对应的时间标签，基于所述时间标签从所述通话文本数据获取对应的首尾文本数据，对所述首尾文本数据与所述质检评分表中对应的评判条件进行模糊匹配，获取第一维度分值；

采用情绪识别模型对所述通话录音数据进行识别，获取情绪识别结果，基于所述情绪识别结果和所述质检评分表中对应的评判条件，获取第二维度分值；

采用语气分析器对所述通话文本数据进行识别，获取语气分析结果，基于所述语气分析结果和所述质检评分表中对应的评判条件，获取第三维度分值；

采用动态规划搜索算法，对所述通话文本数据和所述质检评分表中对应的评判条件进行匹配处理，获取第四维度分值；

对所述第一维度分值、所述第二维度分值、所述第三维度分值和所述第四维度分值进行加权求和，获取第二质检评分值。

2.如权利要求1所述的通话语音质检方法，其特征在于，在所述采用目标语音静态解码网络对所述通话录音数据进行文本翻译的步骤之前，所述通话语音质检方法还包括：

从话术语料库中获取训练话术文本数据；

将所述训练话术文本数据输入到N-gram模型进行模型训练，获取目标语言模型；

基于所述训练话术文本数据，采集与每一所述训练话术文本数据相对应的训练话术语音数据；

将所述训练话术语音数据输入到GMM-HMM模型进行模型训练，获取目标声学模型；

基于所述目标语言模型和所述目标声学模型构建知识源搜索空间，并根据所述知识源搜索空间获取目标语音静态解码网络。

3.如权利要求1所述的通话语音质检方法，其特征在于，所述对所述通话文本数据进行敏感词验证，提取目标敏感词，并基于所述目标敏感词获取第一质检评分值，包括：

基于所述目标敏感词查询敏感词分类表，获取每一目标敏感词所属的敏感类别和对应的类别分值；

统计每一所述敏感类别对应的目标敏感词的类别数量，基于所述类别数量和所述类别分值，获取总评分值；

对所述总评分值进行标准化处理，获取第一质检评分值。

4.如权利要求1所述的通话语音质检方法，其特征在于，所述根据所述第一质检评分值和所述第二质检评分值，获取与所述坐席人员标识相对应的综合质检结果，包括：

判断所述第一质检评分值是否大于第一阈值，并判断所述第二质检评分值是否大于第二阈值；

若所述第一质检评分值大于所述第一阈值或者所述第二质检评分值大于所述第二阈值，则生成质检不合格的综合质检结果；

若所述第一质检评分值不大于所述第一阈值且所述第二质检评分值不大于所述第二阈值，则采用加权算法对所述第一质检评分值和所述第二质检评分值进行加权运算，获取综合评分值；

判断所述综合评分值是否大于第三阈值；若所述综合评分值大于所述第三阈值，则生成质检不合格的综合质检结果；若所述综合评分值不大于所述第三阈值，则生成质检合格的综合质检结果。

5.如权利要求1所述的通话语音质检方法，其特征在于，所述通话录音数据携带数据标识；

在所述获取与所述坐席人员标识相对应的综合质检结果的步骤之后，所述通话语音质检方法还包括：

将所述综合质检结果与所述数据标识关联存储在质检结果数据表中；

依据所述质检结果数据表中的质检结果类型，获取与所述质检结果类型相对应的信息通知模板；

基于信息通知模板，获取质检结果通知信息；

将所述质检结果通知信息发送给与所述坐席人员标识相对应的客户端。

6.一种通话语音质检装置，其特征在于，包括：

综合质检处理模块，用于根据所述第一质检评分值和所述第二质检评分值，获取与所述坐席人员标识相对应的综合质检结果；

其中，所述第二质检处理模块，包括：

第一维度分值获取单元，用于采用语音激活检测算法对所述通话录音数据进行识别，获取首尾语音数据对应的时间标签，基于所述时间标签从所述通话文本数据获取对应的首尾文本数据，对所述首尾文本数据与所述质检评分表中对应的评判条件进行模糊匹配，获取第一维度分值；

第二维度分值获取单元，用于采用情绪识别模型对所述通话录音数据进行识别，获取情绪识别结果，基于所述情绪识别结果和所述质检评分表中对应的评判条件，获取第二维度分值；

第三维度分值获取单元，用于采用语气分析器对所述通话文本数据进行识别，获取语气分析结果，基于所述语气分析结果和所述质检评分表中对应的评判条件，获取第三维度分值；

第四维度分值获取单元，用于采用动态规划搜索算法，对所述通话文本数据和所述质检评分表中对应的评判条件进行匹配处理，获取第四维度分值；

第二质检评分值获取单元，用于对所述第一维度分值、所述第二维度分值、所述第三维度分值和所述第四维度分值进行加权求和，获取第二质检评分值。

7.如权利要求6所述的通话语音质检装置，其特征在于，所述综合质检处理模块包括：

第一判断处理单元，用于判断所述第一质检评分值是否大于第一阈值，并判断所述第二质检评分值是否大于第二阈值；

第一结果获取单元，用于若所述第一质检评分值大于所述第一阈值或者所述第二质检评分值大于所述第二阈值，则生成质检不合格的综合质检结果；

第二判断处理单元，用于若所述第一质检评分值不大于所述第一阈值且所述第二质检评分值不大于所述第二阈值，则采用加权算法对所述第一质检评分值和所述第二质检评分值进行加权运算，获取综合评分值；

第二结果获取单元，用于判断所述综合评分值是否大于第三阈值；若所述综合评分值大于所述第三阈值，则生成质检不合格的综合质检结果；若所述综合评分值不大于所述第三阈值，则生成质检合格的综合质检结果。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述通话语音质检方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述通话语音质检方法的步骤。