CN110309216A

CN110309216A - 一种基于文本分类的客服语音质检方法

Info

Publication number: CN110309216A
Application number: CN201910387524.3A
Authority: CN
Inventors: 陈宏�; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-10-08

Abstract

本发明公开了一种基于文本分类的客服语音质检方法，其特征在于，包括步骤1：设计数据库表结构、开发ETL；步骤2：使用语音识别软件识别电话语音；步骤3：训练身份识别模型，再对文本的身份进行识别；步骤4：对已区分客服、客户身份的文本作敏感词匹配，并将匹配的结果写入数据库；步骤5：数据入库，定时调度。可以有效地帮助质检人员提升了效率，节约人力与时间成本；在较高准确率语音识别技术的前提下，做了客服、客户身份识别，质检人员据此对***已识别出敏感词的客服说话内容做人工审查，未识别出敏感内容的进行抽查；同时，对已经过人工审核的对话进行留存，作为语料，为后期尝试基于语义模型对文本做敏感检测提供基础。

Description

一种基于文本分类的客服语音质检方法

技术领域

本发明涉及语音质检领域，特别是涉及一种基于文本分类的客服语音质检方法。

背景技术

一般来说，客服外呼语音要永久保留，很多行业都有双录要求，以待永久备查；以保险行业为例，当遇到纠纷投诉时，监管会会要求检查电销电话中是否有敏感词，所以保留购险客户的电话回访信息，协助理赔很重要。而长期以来，客服语音质检的工作方式主要是以人工抽查为主，依靠客服听语音、看与客户的聊天记录并结合自己的专业判断来进行合规性质检，但随着业务量越来越大，传统语音质检方法的弊端(人工抽检的比例很低，意味着大量的固话语音被忽略，其中也包括隐藏有价值或有风险的语音没有被发掘出来)明显暴露出来。

由以上传统语音质检方式的现状，一个高效的语音质检方案变成迫切的需求。随着人工智能技术的发展，语音及自然语音技术的不断完善，全量自动化的语音质检方式成为可能；它能实时地输出质检结果；有效地节约人力；提升质检客服的工作效率；显著降低企业运营成本。就目前的方案而言，语音质检方案主要涉及语音识别、自然语言处理以及语音关键词检索等核心技术。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于文本分类的客服语音质检方法。

为解决上述技术问题，本发明提供一种基于文本分类的客服语音质检方法，其特征在于，包括如下步骤：

步骤1：设计数据库表结构，在数据仓库中提取客服及客户数据，开发ETL(Extract-Transform-Load)，并进行相应的参数配置；

步骤2：使用语音识别软件识别电话语音，将语音识别成文本并进行话者分离；

步骤3：训练身份识别模型使其准确率达到98％以上，再对文本的身份进行识别；

步骤4：基于已给的敏感词词库，对已区分客服、客户身份的文本作敏感词匹配，并将匹配的结果写入数据库；

步骤5：数据入库，定时调度，即监控每日识别失败语音数的占比，根据识别失败状态，进行反复上传识别，并进行预警。

所述步骤1中，所述数据库表中要提取客服及客户数据，所提取的表字段有：座席姓名、座席号码、座席工号、所属部门、客户电话、接听开始时间、接听结束时间、通话时长、语音文件和识别对话内容，在数据库表中设置监控字段，所述监控字段包括新增数据字段、敏感词字段和语音识别状态字段。

所述步骤2中，对语音的识别结果进行状态识别并标记在语音识别状态字段：标记0为待识别语音；标记1为识别成功已转成文本的语音；标记2为识别失败等待继续上传识别的语音；标记3为反复上传识别超过额定次数且都识别失败的语音，将被记录识别失败信息并弃用。

所述步骤1中，所述监控字段中的新增数据字段，判断每日新增的数据是否有缺失，缺失则标记为0，并作出预警；否则则标记为1；所述敏感词字段包括：是否出现敏感词、出现哪些敏感词和敏感词出现的位置；所述语音识别状态字段包括：识别耗时、识别结果和识别失败信息；所述监控字段的程序是用SQL写的，通过调度程序来执行；所述步骤4中，所述匹配的结果包括是否有敏感词、敏感词内容和出现敏感词的位置；所述步骤5中，客服外呼的电话语音会永久保留，语音识别状态字段中包括识别失败率字段，标记0表示失败率低于3％；标记1表示失败率大于3％，则预警，所述失败率是指反复上传识别超过3次且都识别失败的语音数量在所有语音中的占比。

所述步骤1中，所述表字段中还包括职位，在职位中增加字段标记，用以判断语音是否需要上传识别，利用表字段中的所属部门统计各事业部的语音识别的使用时长，在所述新增数据字段中判断新增数据是否有冗余，并去除冗余新增数据，冗余问题在关系型数据库oracle中进行去重处理，具体为：利用sql语句distinct语音文件名后count数据量，判断与***数据总量是否一致，并增加用于判断冗余的标记字段；所述监控字段的程序中还包括Java，所述Java用于连接数据库，在查询数据库表的SQL基础上，通过判断标记字段，过滤非必要上传识别的语音数据，对已上传识别的语音记录其语音识别状态，包括识别结果、识别耗时和识别失败信息，将状态信息重新写入数据库，整个过程通过调度jar包来执行。

所述步骤2中，所述语音识别软件为科大讯飞语音识别服务，所述科大讯飞语音识别服务启动8个线程，每天从凌晨一点开始进行调度，测试科大讯飞语音识别服务至未检测出异常，则封装代码，利用Django开发接口，所述标记3为反复上传识别超过3次且都识别失败的语音。

所述步骤3中，所述身份识别模型为Fasttext模型，将已经识别完全的文本分成训练集和测试集，放入Fasttext模型进行训练，具体操作如下：

步骤3.1，抽取500条已识别的文本；

步骤3.2，人工判断文本对应的客服、客户身份，打上标签用以区分身份；

步骤3.3，将文本数据集Jieba分词，去除停用词，分成训练集与测试集，所述训练集与测试集占比为3:1；

步骤3.4，在linux***中安装fasttext包；

步骤3.5，模型训练，fasttext.supervised()中的第一个参数输入训练集，用于拟合模型数据，第二个参数为模型存储的绝对路径，第三个参数为文本与标签的分隔符；

步骤3.6，模型预测，待训练完成，通过load_model加载模型，对测试集使用test方法，得到模型在测试集上的准确率。

所述步骤3中，所述身份识别模型还可以是朴素贝叶斯模型，具体实现过程如下：

1)人工标注数据区分客服、客户对话文本，取两组身份确认且已经识别好的文本各8000条，一组为客服文本，另一组为客户文本；

2)对文本进行预处理，具体为对两组文本进行分词，去除停用词；

3)计算联合概率，具体为：service表示客服说话内容，client表示客户说话内容，假定P(service)和P(client)先验概率都为50％，P(word|service)和P(word|client)表示这个词出现在客服或客户文本的概率，从文本中选出P(service|word)最高的15个词，计算联合概率；

4)模型预测，朴素贝叶斯推断公式如下：

本发明所达到的有益效果:有效地帮助质检人员提升了效率，节约人力与时间成本。当前的语音质检方法，在较高准确率语音识别技术的前提下，做了客服、客户身份识别，质检人员据此对***已识别出敏感词的客服说话内容做人工审查，未识别出敏感内容的进行抽查。同时，对已经过人工审核的对话进行留存，作为语料，为后期尝试基于语义模型对文本做敏感检测提供基础。

附图说明

图1为本发明的示例性实施例的方法流程简图。

具体实施方式

一种基于文本分类的客服语音质检方法，其特征在于，包括如下步骤：

步骤3.1，抽取500条已识别的文本；

步骤3.4，在linux***中安装fasttext包；

4)模型预测，朴素贝叶斯推断公式如下：

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示，本实施例的一种基于文本分类的客服语音质检方案，包括：

步骤11、设计数据库表结构，在数据仓库中提取客服及客户数据，开发ETL(Extract-Transform-Load)，确定待提取的数据源表的字段信息，进行相应的参数配置。

设计的表中要提取详细的客服及客户数据，方便日后备查；确定需要进行监控的指标及内容，设置监控字段，添加新增数据、敏感数据、语音识别状态等字段，判断是否异常，并及时作出预警。提取的表字段有：座席姓名、座席号码、座席工号、所属部门、客户电话、接听开始时间、接听结束时间、通话时长、语音文件、识别对话内容等。

参数配置的内容分三种：

1)新增数据监控配置

新增数据监控主要是判断表当日新增的数据量是否有异常，判断每日更新的数据是否有缺失，并作出预警；异常的标准首先是判断数据是否有缺失，缺失则为0，0表示异常；否则则为1，1为正常。其次是判断新增数据是否有冗余(判断方法为：利用sql语句distinct语音文件名后count数据量，判断与***数据总量是否一致)或非新一站其它事业部数据(通过增加标记字段进行标记)，冗余问题在关系型数据库oracle中进行去重处理，去除多余及不相关数据，减少数据库存储。监控程序是用Java与SQL写的，Java连接数据库，在原先查询表的SQL基础上，增加一些逻辑处理数据，通过判断标记字段，过滤敏感及非必要上传识别的语音数据，同时，对已上传识别的语音记录其语音识别状态如识别结果、识别耗时和识别失败信息，将状态信息重新写入数据库，整个过程通过调度jar包来执行。

2)语音识别状态监控配置

客服外呼电话语音会永久保留，以待备查,主要是针对客户投诉以及***的定期抽查，录音可作为查询的凭证。在数据库表字段中需要记录客服、客户对话的文字内容，从电话语音到文字的识别过程通过语音识别软件完成。这里我们需要对识别结果做监控，分析其识别状态：标记0为待识别语音；1为识别成果，已转成文字；2为识别失败。

3)所属部门监控配置

购买的科大讯飞语音识别使用时长是有限的，每日待识别的录音中分为敏感与非敏感录音(领导的录音会涉及到一些机密，我们认为是敏感的)，敏感录音不进行上传识别。标记敏感与非敏感的规则是根据职位，职位是主管及主管以上增加字段标记。同时，统计各事业部语音识别服务的使用时长，进行合理分配使用时间。

步骤12、语音识别软件的效果测试，Django服务搭建。

语音识别是非实时的，耗时和当前处理的任务量有关，需要排队处理，当任务量较大时，排队时间会长一些。所以我们需要测试科大语音识别服务在哪个时间段较稳定，将同一批语音数据，在不同时段进行语音识别，待全部识别完成，记录耗时，以及测试支持最大并发个数(科大语音识别服务支持的最大线程数是10)，为保障调度的稳定性，以及在每日调度与提取数据的时间范围内，能否全部识别完前一天的语音数据，由以上测试，决定启用8个线程，从凌晨1点开始调度，大约2到3小时可将1500左右的语音量全部识别完成；待测试完成，如果未检测出异常，下一步则封装代码，利用Django开发接口。

例如，科大讯飞电话版语音识别软件是基于深度全序列卷积神经网络，将音频数据转换为文本数据，为信息处理和数据挖掘提供基础。通过反复测试与评估，科大讯飞电话版语音识别的准确率接近90％，达到可应用程度。科大讯飞电话版语音识别软件主要涉及两个技术，语音转文字与话者分离(区分不同的说话者)，输出的形式是：

speak1:start_time-end_time:文字…….；

Speak2:start_time-end_time:文字…….。

步骤13、基于文本分类的身份识别效果测试，Django服务搭建。

通过语音识别软件识别的语音文本，已经区分开不同的说话者(分别用speak1、speak2表示)，接下来就是要识别speak1和speak2身份，哪个是客服，哪个是客户。以下是两种基于文本分类的身份识别方法

1)Fasttext模型

Fasttext是word2vec(word2vec是一种词向量化的模型)的一种衍生模型，也是一种基于语言形态学的词向量训练方法。Fasttext实际是在word2vec模型中CBOW(Continuous Bag-of-Words，CBOW模型原理是通过训练输入某一个特征词的上下文相关词对应的词向量，来推出这个特定词的词向量)基础上，将原本用上下文来预测中间词方式，改成了用整个序列文本预测分类标签。具体操作如下：

1.抽取500条已识别的文本(已区分不同说话者，用speak1、speak2表示)；

2.人工判断文本对应的客服、客户身份，打上标签(如：speak1为‘__label__客服’，speak2为‘__label__客户’)；

3.将文本数据集Jieba分词，去除停用词，分成训练集与测试集(两者占比3:1)；

4.在linux***中安装fasttext包，其中，python2操作语句：pip installfasttext；

5.模型训练，fasttext.supervised()中的第一个参数输入训练集，用于拟合模型数据，第二个参数为模型存储的绝对路径，第三个参数为文本与标签的分隔符；

6.模型预测，待训练完成，通过load_model加载模型，对测试集使用test方法，得到模型在测试集上的准确率。

2)朴素贝叶斯模型

贝叶斯分类器是一个概率分类器，也是贝叶斯公式的推广，适合处理单点分类问题。那么朴素贝叶斯算法如何对文本进行分类，如何基于文本信息做身份识别呢？

每个电话语音经过电话版语音识别生成一篇文本，识别出这篇文本speak1和speak2对应的身份就是分类的过程，而类别是：{客服，客户}。文本分类需要文本的特征，而词袋模型是表征文本特征的一种方式。一段文本中，它会有很多文本特征，比如文本中每个词出现的次数、频率，而词袋模型只需要计算已经经过话者分离后的文本(文本先预处理，1.分词；2.去除停用词，如：‘的’、‘了’等)不同词出现的频率(次数)，用每个词出现的频率作为文本的特征，训练朴素贝叶斯(计算先验概率和似然函数)，具体实现过程如下：

5)人工标注数据区分客服、客户对话文本(取两组已经识别好且身份确认的文本，一组客服文本，另一组客户文本，各取8000条)；

6)文本预处理(对两组文本分词，去除停用词)；

7)计算联合概率(service表示客服说话内容，client表示客户说话内容，假定P(service)和P(client)先验概率都为50％，P(word|service)和P(word|client)表示这个词出现在客服或客户文本的概率。由于一个文本中包含很多词，单从一个词判断是客服还是客户会有些片面，所以我们的做法是从文本中选出P(service|word)最高的前15个词，计算联合概率)；

8)模型预测，朴素贝叶斯推断公式如下：

其中，words_j为由P(service|word)计算得到最高的前15个词word_j1,word_j2,…,word_j15。

通过两者对比分析，Fasttext的特点是fast，对于大量的训练集，Fasttext训练拟合模型只花费了60s左右；从准确率来说，Fasttext预测准确率相对朴素贝叶斯要高一些，经过测试，Fasttext预测准确率能达到97％，而朴素贝叶斯方法可达89％(后面扩展，将朴素贝叶斯方法与无监督方法结合用于文本分类，相对于单个模型，准确率有所提升)。另外，考虑模型本身的特性选择合适的文本分类模型，朴素贝叶斯模型的特点是对小规模数据表现较好，适合增量式训练，但条件独立性假设(忽略了词的顺序及关联)会带来精度上的损失；而Fasttext是一种深度神经网络模型，为考虑词序对分类结果的影响，Fasttext模型加入了N-gram特征，在有足够的数据量前提下，经过少量的非线性变换、特征组合学习到文本局部序列信息，可快速捕获更多分类信息。基于以上我们选择Fasttext模型作为主要的身份识别模型，但这不是否定朴素贝叶斯在文本分类上的应用，当分类类别比较小或数据集比较少的时候，Fasttext很容易过拟合，相对来说，朴素贝叶斯模型对小规模数据表现较好。具体选择什么模型，是由数据本身决定。

测试返回值是否异常，以及测试最大并发个数(科大语音识别服务支持的最大线程数是10)，为保障调度的稳定性，以及在每日调度与提取数据的时间范围内，能否全部识别完前一天的语音数据，由以上测试，决定启用多少线程；待测试完成，如果未检测出异常，下一步则封装代码，利用Django开发接口。

步骤14、敏感词检索。

由业务方提供的行业敏感词词库，基于已给的词库，对已区分客服、客户身份的文本作敏感词匹配，并将匹配的结果(是否有敏感词、敏感词内容、出现敏感词的位置)写入数据库。

通过对文本的分析，实现对客服电话语音中的敏感词监测及客服人员语音敏感词监督，达到应保险公司、***风险控制要求；当然，自动化的敏感词监测也需要人工审核步骤，审核完成的文本可用于基于语义的文本敏感检测模型的语料，同时，也可以对客户常见问题进行保留，丰富问答语料库，为以后实现智能客服***(智能问答***)提供完备的数据集

步骤15、数据入库、定时调度。

所有步骤生成的数据都记录在一张表中，主要是方便查询与维护。设计表缺失的数据(语音识别的文本及身份识别的结果)都会在调度中生成，并上传至数据库表对应位置。同时，监控每日识别失败录音数的占比(根据识别失败状态，进行反复上传识别)，及时预警。

本发明主要用于提供一种基于文本分类的客服语音质检方法，有效地帮助质检人员提升了效率，节约人力与时间成本；在较高准确率语音识别技术的前提下，做了客服、客户身份识别，质检人员据此对***已识别出敏感词的客服说话内容做人工审查，未识别出敏感内容的进行抽查；同时，对已经过人工审核的对话进行留存，作为语料，为后期尝试基于语义模型对文本做敏感检测提供基础。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种基于文本分类的客服语音质检方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于文本分类的客服语音质检方法，其特征在于：所述步骤1中，所述数据库表中要提取客服及客户数据，所提取的表字段有：座席姓名、座席号码、座席工号、所属部门、客户电话、接听开始时间、接听结束时间、通话时长、语音文件和识别对话内容，在数据库表中设置监控字段，所述监控字段包括新增数据字段、敏感词字段和语音识别状态字段。

3.如权利要求2所述的一种基于文本分类的客服语音质检方法，其特征在于：所述步骤2中，对语音的识别结果进行状态识别并标记在语音识别状态字段：标记0为待识别语音；标记1为识别成功已转成文本的语音；标记2为识别失败等待继续上传识别的语音；标记3为反复上传识别超过额定次数且都识别失败的语音，将被记录识别失败信息并弃用。

4.如权利要求3所述的一种基于文本分类的客服语音质检方法，其特征在于：所述步骤1中，所述监控字段中的新增数据字段，判断每日新增的数据是否有缺失，缺失则标记为0，并作出预警；否则则标记为1；所述敏感词字段包括：是否出现敏感词、出现哪些敏感词和敏感词出现的位置；所述语音识别状态字段包括：识别耗时、识别结果和识别失败信息；所述监控字段的程序是用SQL写的，通过调度程序来执行；所述步骤4中，所述匹配的结果包括是否有敏感词、敏感词内容和出现敏感词的位置；所述步骤5中，客服外呼的电话语音会永久保留，语音识别状态字段中包括识别失败率字段，标记0表示失败率低于3％；标记1表示失败率大于3％，则预警，所述失败率是指反复上传识别超过3次且都识别失败的语音数量在所有语音中的占比。

5.如权利要求4所述的一种基于文本分类的客服语音质检方法，其特征在于，所述步骤1中，所述表字段中还包括职位，在职位中增加字段标记，用以判断语音是否需要上传识别，利用表字段中的所属部门统计各事业部的语音识别的使用时长，在所述新增数据字段中判断新增数据是否有冗余，并去除冗余新增数据，冗余问题在关系型数据库oracle中进行去重处理，具体为：利用sql语句distinct语音文件名后count数据量，判断与***数据总量是否一致，并增加用于判断冗余的标记字段；所述监控字段的程序中还包括Java，所述Java用于连接数据库，在查询数据库表的SQL基础上，通过判断标记字段，过滤非必要上传识别的语音数据，对已上传识别的语音记录其语音识别状态，包括识别结果、识别耗时和识别失败信息，将状态信息重新写入数据库，整个过程通过调度jar包来执行。

6.如权利要求5所述的一种基于文本分类的客服语音质检方法，其特征在于，所述步骤2中，所述语音识别软件为科大讯飞语音识别服务，所述科大讯飞语音识别服务启动8个线程，每天从凌晨一点开始进行调度，测试科大讯飞语音识别服务至未检测出异常，则封装代码，利用Django开发接口，所述标记3为反复上传识别超过3次且都识别失败的语音。

7.如权利要求6所述的一种基于文本分类的客服语音质检方法，其特征在于，所述步骤3中，所述身份识别模型为Fasttext模型，将已经识别完全的文本分成训练集和测试集，放入Fasttext模型进行训练，具体操作如下：

步骤3.1，抽取500条已识别的文本；

步骤3.4，在linux***中安装fasttext包；

8.如权利要求6所述的一种基于文本分类的客服语音质检方法，其特征在于，所述步骤3中，所述身份识别模型还可以是朴素贝叶斯模型，具体实现过程如下：

3)计算联合概率，具体为：service表示客服说话内容，client表示客户说话内容，假定P(service)和P(client)先验概率都为50％，P(word|service)和P(word|client)表示这个词出现在客服或客户文本的概率，从文本中选出P(service|word)最高的前15个词，计算联合概率；

4)模型预测，朴素贝叶斯推断公式如下：