CN110309216A - 一种基于文本分类的客服语音质检方法 - Google Patents
一种基于文本分类的客服语音质检方法 Download PDFInfo
- Publication number
- CN110309216A CN110309216A CN201910387524.3A CN201910387524A CN110309216A CN 110309216 A CN110309216 A CN 110309216A CN 201910387524 A CN201910387524 A CN 201910387524A CN 110309216 A CN110309216 A CN 110309216A
- Authority
- CN
- China
- Prior art keywords
- text
- customer service
- voice
- data
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013461 design Methods 0.000 claims abstract description 7
- 230000001960 triggered effect Effects 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 29
- 238000012544 monitoring process Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 12
- 238000011161 development Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000010998 test method Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 abstract description 16
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000000717 retained effect Effects 0.000 abstract description 4
- 238000012795 verification Methods 0.000 abstract description 4
- 238000012552 review Methods 0.000 abstract description 3
- 238000011896 sensitive detection Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于文本分类的客服语音质检方法,其特征在于,包括步骤1:设计数据库表结构、开发ETL;步骤2:使用语音识别软件识别电话语音;步骤3:训练身份识别模型,再对文本的身份进行识别;步骤4:对已区分客服、客户身份的文本作敏感词匹配,并将匹配的结果写入数据库;步骤5:数据入库,定时调度。可以有效地帮助质检人员提升了效率,节约人力与时间成本;在较高准确率语音识别技术的前提下,做了客服、客户身份识别,质检人员据此对***已识别出敏感词的客服说话内容做人工审查,未识别出敏感内容的进行抽查;同时,对已经过人工审核的对话进行留存,作为语料,为后期尝试基于语义模型对文本做敏感检测提供基础。
Description
技术领域
本发明涉及语音质检领域,特别是涉及一种基于文本分类的客服语音质检方法。
背景技术
一般来说,客服外呼语音要永久保留,很多行业都有双录要求,以待永久备查;以保险行业为例,当遇到纠纷投诉时,监管会会要求检查电销电话中是否有敏感词,所以保留购险客户的电话回访信息,协助理赔很重要。而长期以来,客服语音质检的工作方式主要是以人工抽查为主,依靠客服听语音、看与客户的聊天记录并结合自己的专业判断来进行合规性质检,但随着业务量越来越大,传统语音质检方法的弊端(人工抽检的比例很低,意味着大量的固话语音被忽略,其中也包括隐藏有价值或有风险的语音没有被发掘出来)明显暴露出来。
由以上传统语音质检方式的现状,一个高效的语音质检方案变成迫切的需求。随着人工智能技术的发展,语音及自然语音技术的不断完善,全量自动化的语音质检方式成为可能;它能实时地输出质检结果;有效地节约人力;提升质检客服的工作效率;显著降低企业运营成本。就目前的方案而言,语音质检方案主要涉及语音识别、自然语言处理以及语音关键词检索等核心技术。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于文本分类的客服语音质检方法。
为解决上述技术问题,本发明提供一种基于文本分类的客服语音质检方法,其特征在于,包括如下步骤:
步骤1:设计数据库表结构,在数据仓库中提取客服及客户数据,开发ETL(Extract-Transform-Load),并进行相应的参数配置;
步骤2:使用语音识别软件识别电话语音,将语音识别成文本并进行话者分离;
步骤3:训练身份识别模型使其准确率达到98%以上,再对文本的身份进行识别;
步骤4:基于已给的敏感词词库,对已区分客服、客户身份的文本作敏感词匹配,并将匹配的结果写入数据库;
步骤5:数据入库,定时调度,即监控每日识别失败语音数的占比,根据识别失败状态,进行反复上传识别,并进行预警。
所述步骤1中,所述数据库表中要提取客服及客户数据,所提取的表字段有:座席姓名、座席号码、座席工号、所属部门、客户电话、接听开始时间、接听结束时间、通话时长、语音文件和识别对话内容,在数据库表中设置监控字段,所述监控字段包括新增数据字段、敏感词字段和语音识别状态字段。
所述步骤2中,对语音的识别结果进行状态识别并标记在语音识别状态字段:标记0为待识别语音;标记1为识别成功已转成文本的语音;标记2为识别失败等待继续上传识别的语音;标记3为反复上传识别超过额定次数且都识别失败的语音,将被记录识别失败信息并弃用。
所述步骤1中,所述监控字段中的新增数据字段,判断每日新增的数据是否有缺失,缺失则标记为0,并作出预警;否则则标记为1;所述敏感词字段包括:是否出现敏感词、出现哪些敏感词和敏感词出现的位置;所述语音识别状态字段包括:识别耗时、识别结果和识别失败信息;所述监控字段的程序是用SQL写的,通过调度程序来执行;所述步骤4中,所述匹配的结果包括是否有敏感词、敏感词内容和出现敏感词的位置;所述步骤5中,客服外呼的电话语音会永久保留,语音识别状态字段中包括识别失败率字段,标记0表示失败率低于3%;标记1表示失败率大于3%,则预警,所述失败率是指反复上传识别超过3次且都识别失败的语音数量在所有语音中的占比。
所述步骤1中,所述表字段中还包括职位,在职位中增加字段标记,用以判断语音是否需要上传识别,利用表字段中的所属部门统计各事业部的语音识别的使用时长,在所述新增数据字段中判断新增数据是否有冗余,并去除冗余新增数据,冗余问题在关系型数据库oracle中进行去重处理,具体为:利用sql语句distinct语音文件名后count数据量,判断与***数据总量是否一致,并增加用于判断冗余的标记字段;所述监控字段的程序中还包括Java,所述Java用于连接数据库,在查询数据库表的SQL基础上,通过判断标记字段,过滤非必要上传识别的语音数据,对已上传识别的语音记录其语音识别状态,包括识别结果、识别耗时和识别失败信息,将状态信息重新写入数据库,整个过程通过调度jar包来执行。
所述步骤2中,所述语音识别软件为科大讯飞语音识别服务,所述科大讯飞语音识别服务启动8个线程,每天从凌晨一点开始进行调度,测试科大讯飞语音识别服务至未检测出异常,则封装代码,利用Django开发接口,所述标记3为反复上传识别超过3次且都识别失败的语音。
所述步骤3中,所述身份识别模型为Fasttext模型,将已经识别完全的文本分成训练集和测试集,放入Fasttext模型进行训练,具体操作如下:
步骤3.1,抽取500条已识别的文本;
步骤3.2,人工判断文本对应的客服、客户身份,打上标签用以区分身份;
步骤3.3,将文本数据集Jieba分词,去除停用词,分成训练集与测试集,所述训练集与测试集占比为3:1;
步骤3.4,在linux***中安装fasttext包;
步骤3.5,模型训练,fasttext.supervised()中的第一个参数输入训练集,用于拟合模型数据,第二个参数为模型存储的绝对路径,第三个参数为文本与标签的分隔符;
步骤3.6,模型预测,待训练完成,通过load_model加载模型,对测试集使用test方法,得到模型在测试集上的准确率。
所述步骤3中,所述身份识别模型还可以是朴素贝叶斯模型,具体实现过程如下:
1)人工标注数据区分客服、客户对话文本,取两组身份确认且已经识别好的文本各8000条,一组为客服文本,另一组为客户文本;
2)对文本进行预处理,具体为对两组文本进行分词,去除停用词;
3)计算联合概率,具体为:service表示客服说话内容,client表示客户说话内容,假定P(service)和P(client)先验概率都为50%,P(word|service)和P(word|client)表示这个词出现在客服或客户文本的概率,从文本中选出P(service|word)最高的15个词,计算联合概率;
4)模型预测,朴素贝叶斯推断公式如下:
本发明所达到的有益效果:有效地帮助质检人员提升了效率,节约人力与时间成本。当前的语音质检方法,在较高准确率语音识别技术的前提下,做了客服、客户身份识别,质检人员据此对***已识别出敏感词的客服说话内容做人工审查,未识别出敏感内容的进行抽查。同时,对已经过人工审核的对话进行留存,作为语料,为后期尝试基于语义模型对文本做敏感检测提供基础。
附图说明
图1为本发明的示例性实施例的方法流程简图。
具体实施方式
一种基于文本分类的客服语音质检方法,其特征在于,包括如下步骤:
步骤1:设计数据库表结构,在数据仓库中提取客服及客户数据,开发ETL(Extract-Transform-Load),并进行相应的参数配置;
步骤2:使用语音识别软件识别电话语音,将语音识别成文本并进行话者分离;
步骤3:训练身份识别模型使其准确率达到98%以上,再对文本的身份进行识别;
步骤4:基于已给的敏感词词库,对已区分客服、客户身份的文本作敏感词匹配,并将匹配的结果写入数据库;
步骤5:数据入库,定时调度,即监控每日识别失败语音数的占比,根据识别失败状态,进行反复上传识别,并进行预警。
所述步骤1中,所述数据库表中要提取客服及客户数据,所提取的表字段有:座席姓名、座席号码、座席工号、所属部门、客户电话、接听开始时间、接听结束时间、通话时长、语音文件和识别对话内容,在数据库表中设置监控字段,所述监控字段包括新增数据字段、敏感词字段和语音识别状态字段。
所述步骤2中,对语音的识别结果进行状态识别并标记在语音识别状态字段:标记0为待识别语音;标记1为识别成功已转成文本的语音;标记2为识别失败等待继续上传识别的语音;标记3为反复上传识别超过额定次数且都识别失败的语音,将被记录识别失败信息并弃用。
所述步骤1中,所述监控字段中的新增数据字段,判断每日新增的数据是否有缺失,缺失则标记为0,并作出预警;否则则标记为1;所述敏感词字段包括:是否出现敏感词、出现哪些敏感词和敏感词出现的位置;所述语音识别状态字段包括:识别耗时、识别结果和识别失败信息;所述监控字段的程序是用SQL写的,通过调度程序来执行;所述步骤4中,所述匹配的结果包括是否有敏感词、敏感词内容和出现敏感词的位置;所述步骤5中,客服外呼的电话语音会永久保留,语音识别状态字段中包括识别失败率字段,标记0表示失败率低于3%;标记1表示失败率大于3%,则预警,所述失败率是指反复上传识别超过3次且都识别失败的语音数量在所有语音中的占比。
所述步骤1中,所述表字段中还包括职位,在职位中增加字段标记,用以判断语音是否需要上传识别,利用表字段中的所属部门统计各事业部的语音识别的使用时长,在所述新增数据字段中判断新增数据是否有冗余,并去除冗余新增数据,冗余问题在关系型数据库oracle中进行去重处理,具体为:利用sql语句distinct语音文件名后count数据量,判断与***数据总量是否一致,并增加用于判断冗余的标记字段;所述监控字段的程序中还包括Java,所述Java用于连接数据库,在查询数据库表的SQL基础上,通过判断标记字段,过滤非必要上传识别的语音数据,对已上传识别的语音记录其语音识别状态,包括识别结果、识别耗时和识别失败信息,将状态信息重新写入数据库,整个过程通过调度jar包来执行。
所述步骤2中,所述语音识别软件为科大讯飞语音识别服务,所述科大讯飞语音识别服务启动8个线程,每天从凌晨一点开始进行调度,测试科大讯飞语音识别服务至未检测出异常,则封装代码,利用Django开发接口,所述标记3为反复上传识别超过3次且都识别失败的语音。
所述步骤3中,所述身份识别模型为Fasttext模型,将已经识别完全的文本分成训练集和测试集,放入Fasttext模型进行训练,具体操作如下:
步骤3.1,抽取500条已识别的文本;
步骤3.2,人工判断文本对应的客服、客户身份,打上标签用以区分身份;
步骤3.3,将文本数据集Jieba分词,去除停用词,分成训练集与测试集,所述训练集与测试集占比为3:1;
步骤3.4,在linux***中安装fasttext包;
步骤3.5,模型训练,fasttext.supervised()中的第一个参数输入训练集,用于拟合模型数据,第二个参数为模型存储的绝对路径,第三个参数为文本与标签的分隔符;
步骤3.6,模型预测,待训练完成,通过load_model加载模型,对测试集使用test方法,得到模型在测试集上的准确率。
所述步骤3中,所述身份识别模型还可以是朴素贝叶斯模型,具体实现过程如下:
1)人工标注数据区分客服、客户对话文本,取两组身份确认且已经识别好的文本各8000条,一组为客服文本,另一组为客户文本;
2)对文本进行预处理,具体为对两组文本进行分词,去除停用词;
3)计算联合概率,具体为:service表示客服说话内容,client表示客户说话内容,假定P(service)和P(client)先验概率都为50%,P(word|service)和P(word|client)表示这个词出现在客服或客户文本的概率,从文本中选出P(service|word)最高的15个词,计算联合概率;
4)模型预测,朴素贝叶斯推断公式如下:
下面结合附图和示例性实施例对本发明作进一步的说明:
如图1所示,本实施例的一种基于文本分类的客服语音质检方案,包括:
步骤11、设计数据库表结构,在数据仓库中提取客服及客户数据,开发ETL(Extract-Transform-Load),确定待提取的数据源表的字段信息,进行相应的参数配置。
设计的表中要提取详细的客服及客户数据,方便日后备查;确定需要进行监控的指标及内容,设置监控字段,添加新增数据、敏感数据、语音识别状态等字段,判断是否异常,并及时作出预警。提取的表字段有:座席姓名、座席号码、座席工号、所属部门、客户电话、接听开始时间、接听结束时间、通话时长、语音文件、识别对话内容等。
参数配置的内容分三种:
1)新增数据监控配置
新增数据监控主要是判断表当日新增的数据量是否有异常,判断每日更新的数据是否有缺失,并作出预警;异常的标准首先是判断数据是否有缺失,缺失则为0,0表示异常;否则则为1,1为正常。其次是判断新增数据是否有冗余(判断方法为:利用sql语句distinct语音文件名后count数据量,判断与***数据总量是否一致)或非新一站其它事业部数据(通过增加标记字段进行标记),冗余问题在关系型数据库oracle中进行去重处理,去除多余及不相关数据,减少数据库存储。监控程序是用Java与SQL写的,Java连接数据库,在原先查询表的SQL基础上,增加一些逻辑处理数据,通过判断标记字段,过滤敏感及非必要上传识别的语音数据,同时,对已上传识别的语音记录其语音识别状态如识别结果、识别耗时和识别失败信息,将状态信息重新写入数据库,整个过程通过调度jar包来执行。
2)语音识别状态监控配置
客服外呼电话语音会永久保留,以待备查,主要是针对客户投诉以及***的定期抽查,录音可作为查询的凭证。在数据库表字段中需要记录客服、客户对话的文字内容,从电话语音到文字的识别过程通过语音识别软件完成。这里我们需要对识别结果做监控,分析其识别状态:标记0为待识别语音;1为识别成果,已转成文字;2为识别失败。
3)所属部门监控配置
购买的科大讯飞语音识别使用时长是有限的,每日待识别的录音中分为敏感与非敏感录音(领导的录音会涉及到一些机密,我们认为是敏感的),敏感录音不进行上传识别。标记敏感与非敏感的规则是根据职位,职位是主管及主管以上增加字段标记。同时,统计各事业部语音识别服务的使用时长,进行合理分配使用时间。
步骤12、语音识别软件的效果测试,Django服务搭建。
语音识别是非实时的,耗时和当前处理的任务量有关,需要排队处理,当任务量较大时,排队时间会长一些。所以我们需要测试科大语音识别服务在哪个时间段较稳定,将同一批语音数据,在不同时段进行语音识别,待全部识别完成,记录耗时,以及测试支持最大并发个数(科大语音识别服务支持的最大线程数是10),为保障调度的稳定性,以及在每日调度与提取数据的时间范围内,能否全部识别完前一天的语音数据,由以上测试,决定启用8个线程,从凌晨1点开始调度,大约2到3小时可将1500左右的语音量全部识别完成;待测试完成,如果未检测出异常,下一步则封装代码,利用Django开发接口。
例如,科大讯飞电话版语音识别软件是基于深度全序列卷积神经网络,将音频数据转换为文本数据,为信息处理和数据挖掘提供基础。通过反复测试与评估,科大讯飞电话版语音识别的准确率接近90%,达到可应用程度。科大讯飞电话版语音识别软件主要涉及两个技术,语音转文字与话者分离(区分不同的说话者),输出的形式是:
speak1:start_time-end_time:文字…….;
Speak2:start_time-end_time:文字…….。
步骤13、基于文本分类的身份识别效果测试,Django服务搭建。
通过语音识别软件识别的语音文本,已经区分开不同的说话者(分别用speak1、speak2表示),接下来就是要识别speak1和speak2身份,哪个是客服,哪个是客户。以下是两种基于文本分类的身份识别方法
1)Fasttext模型
Fasttext是word2vec(word2vec是一种词向量化的模型)的一种衍生模型,也是一种基于语言形态学的词向量训练方法。Fasttext实际是在word2vec模型中CBOW(Continuous Bag-of-Words,CBOW模型原理是通过训练输入某一个特征词的上下文相关词对应的词向量,来推出这个特定词的词向量)基础上,将原本用上下文来预测中间词方式,改成了用整个序列文本预测分类标签。具体操作如下:
1.抽取500条已识别的文本(已区分不同说话者,用speak1、speak2表示);
2.人工判断文本对应的客服、客户身份,打上标签(如:speak1为‘__label__客服’,speak2为‘__label__客户’);
3.将文本数据集Jieba分词,去除停用词,分成训练集与测试集(两者占比3:1);
4.在linux***中安装fasttext包,其中,python2操作语句:pip installfasttext;
5.模型训练,fasttext.supervised()中的第一个参数输入训练集,用于拟合模型数据,第二个参数为模型存储的绝对路径,第三个参数为文本与标签的分隔符;
6.模型预测,待训练完成,通过load_model加载模型,对测试集使用test方法,得到模型在测试集上的准确率。
2)朴素贝叶斯模型
贝叶斯分类器是一个概率分类器,也是贝叶斯公式的推广,适合处理单点分类问题。那么朴素贝叶斯算法如何对文本进行分类,如何基于文本信息做身份识别呢?
每个电话语音经过电话版语音识别生成一篇文本,识别出这篇文本speak1和speak2对应的身份就是分类的过程,而类别是:{客服,客户}。文本分类需要文本的特征,而词袋模型是表征文本特征的一种方式。一段文本中,它会有很多文本特征,比如文本中每个词出现的次数、频率,而词袋模型只需要计算已经经过话者分离后的文本(文本先预处理,1.分词;2.去除停用词,如:‘的’、‘了’等)不同词出现的频率(次数),用每个词出现的频率作为文本的特征,训练朴素贝叶斯(计算先验概率和似然函数),具体实现过程如下:
5)人工标注数据区分客服、客户对话文本(取两组已经识别好且身份确认的文本,一组客服文本,另一组客户文本,各取8000条);
6)文本预处理(对两组文本分词,去除停用词);
7)计算联合概率(service表示客服说话内容,client表示客户说话内容,假定P(service)和P(client)先验概率都为50%,P(word|service)和P(word|client)表示这个词出现在客服或客户文本的概率。由于一个文本中包含很多词,单从一个词判断是客服还是客户会有些片面,所以我们的做法是从文本中选出P(service|word)最高的前15个词,计算联合概率);
8)模型预测,朴素贝叶斯推断公式如下:
其中,wordsj为由P(service|word)计算得到最高的前15个词wordj1,wordj2,…,wordj15。
通过两者对比分析,Fasttext的特点是fast,对于大量的训练集,Fasttext训练拟合模型只花费了60s左右;从准确率来说,Fasttext预测准确率相对朴素贝叶斯要高一些,经过测试,Fasttext预测准确率能达到97%,而朴素贝叶斯方法可达89%(后面扩展,将朴素贝叶斯方法与无监督方法结合用于文本分类,相对于单个模型,准确率有所提升)。另外,考虑模型本身的特性选择合适的文本分类模型,朴素贝叶斯模型的特点是对小规模数据表现较好,适合增量式训练,但条件独立性假设(忽略了词的顺序及关联)会带来精度上的损失;而Fasttext是一种深度神经网络模型,为考虑词序对分类结果的影响,Fasttext模型加入了N-gram特征,在有足够的数据量前提下,经过少量的非线性变换、特征组合学习到文本局部序列信息,可快速捕获更多分类信息。基于以上我们选择Fasttext模型作为主要的身份识别模型,但这不是否定朴素贝叶斯在文本分类上的应用,当分类类别比较小或数据集比较少的时候,Fasttext很容易过拟合,相对来说,朴素贝叶斯模型对小规模数据表现较好。具体选择什么模型,是由数据本身决定。
测试返回值是否异常,以及测试最大并发个数(科大语音识别服务支持的最大线程数是10),为保障调度的稳定性,以及在每日调度与提取数据的时间范围内,能否全部识别完前一天的语音数据,由以上测试,决定启用多少线程;待测试完成,如果未检测出异常,下一步则封装代码,利用Django开发接口。
步骤14、敏感词检索。
由业务方提供的行业敏感词词库,基于已给的词库,对已区分客服、客户身份的文本作敏感词匹配,并将匹配的结果(是否有敏感词、敏感词内容、出现敏感词的位置)写入数据库。
通过对文本的分析,实现对客服电话语音中的敏感词监测及客服人员语音敏感词监督,达到应保险公司、***风险控制要求;当然,自动化的敏感词监测也需要人工审核步骤,审核完成的文本可用于基于语义的文本敏感检测模型的语料,同时,也可以对客户常见问题进行保留,丰富问答语料库,为以后实现智能客服***(智能问答***)提供完备的数据集
步骤15、数据入库、定时调度。
所有步骤生成的数据都记录在一张表中,主要是方便查询与维护。设计表缺失的数据(语音识别的文本及身份识别的结果)都会在调度中生成,并上传至数据库表对应位置。同时,监控每日识别失败录音数的占比(根据识别失败状态,进行反复上传识别),及时预警。
本发明主要用于提供一种基于文本分类的客服语音质检方法,有效地帮助质检人员提升了效率,节约人力与时间成本;在较高准确率语音识别技术的前提下,做了客服、客户身份识别,质检人员据此对***已识别出敏感词的客服说话内容做人工审查,未识别出敏感内容的进行抽查;同时,对已经过人工审核的对话进行留存,作为语料,为后期尝试基于语义模型对文本做敏感检测提供基础。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (8)
1.一种基于文本分类的客服语音质检方法,其特征在于,包括如下步骤:
步骤1:设计数据库表结构,在数据仓库中提取客服及客户数据,开发ETL(Extract-Transform-Load),并进行相应的参数配置;
步骤2:使用语音识别软件识别电话语音,将语音识别成文本并进行话者分离;
步骤3:训练身份识别模型使其准确率达到98%以上,再对文本的身份进行识别;
步骤4:基于已给的敏感词词库,对已区分客服、客户身份的文本作敏感词匹配,并将匹配的结果写入数据库;
步骤5:数据入库,定时调度,即监控每日识别失败语音数的占比,根据识别失败状态,进行反复上传识别,并进行预警。
2.如权利要求1所述的一种基于文本分类的客服语音质检方法,其特征在于:所述步骤1中,所述数据库表中要提取客服及客户数据,所提取的表字段有:座席姓名、座席号码、座席工号、所属部门、客户电话、接听开始时间、接听结束时间、通话时长、语音文件和识别对话内容,在数据库表中设置监控字段,所述监控字段包括新增数据字段、敏感词字段和语音识别状态字段。
3.如权利要求2所述的一种基于文本分类的客服语音质检方法,其特征在于:所述步骤2中,对语音的识别结果进行状态识别并标记在语音识别状态字段:标记0为待识别语音;标记1为识别成功已转成文本的语音;标记2为识别失败等待继续上传识别的语音;标记3为反复上传识别超过额定次数且都识别失败的语音,将被记录识别失败信息并弃用。
4.如权利要求3所述的一种基于文本分类的客服语音质检方法,其特征在于:所述步骤1中,所述监控字段中的新增数据字段,判断每日新增的数据是否有缺失,缺失则标记为0,并作出预警;否则则标记为1;所述敏感词字段包括:是否出现敏感词、出现哪些敏感词和敏感词出现的位置;所述语音识别状态字段包括:识别耗时、识别结果和识别失败信息;所述监控字段的程序是用SQL写的,通过调度程序来执行;所述步骤4中,所述匹配的结果包括是否有敏感词、敏感词内容和出现敏感词的位置;所述步骤5中,客服外呼的电话语音会永久保留,语音识别状态字段中包括识别失败率字段,标记0表示失败率低于3%;标记1表示失败率大于3%,则预警,所述失败率是指反复上传识别超过3次且都识别失败的语音数量在所有语音中的占比。
5.如权利要求4所述的一种基于文本分类的客服语音质检方法,其特征在于,所述步骤1中,所述表字段中还包括职位,在职位中增加字段标记,用以判断语音是否需要上传识别,利用表字段中的所属部门统计各事业部的语音识别的使用时长,在所述新增数据字段中判断新增数据是否有冗余,并去除冗余新增数据,冗余问题在关系型数据库oracle中进行去重处理,具体为:利用sql语句distinct语音文件名后count数据量,判断与***数据总量是否一致,并增加用于判断冗余的标记字段;所述监控字段的程序中还包括Java,所述Java用于连接数据库,在查询数据库表的SQL基础上,通过判断标记字段,过滤非必要上传识别的语音数据,对已上传识别的语音记录其语音识别状态,包括识别结果、识别耗时和识别失败信息,将状态信息重新写入数据库,整个过程通过调度jar包来执行。
6.如权利要求5所述的一种基于文本分类的客服语音质检方法,其特征在于,所述步骤2中,所述语音识别软件为科大讯飞语音识别服务,所述科大讯飞语音识别服务启动8个线程,每天从凌晨一点开始进行调度,测试科大讯飞语音识别服务至未检测出异常,则封装代码,利用Django开发接口,所述标记3为反复上传识别超过3次且都识别失败的语音。
7.如权利要求6所述的一种基于文本分类的客服语音质检方法,其特征在于,所述步骤3中,所述身份识别模型为Fasttext模型,将已经识别完全的文本分成训练集和测试集,放入Fasttext模型进行训练,具体操作如下:
步骤3.1,抽取500条已识别的文本;
步骤3.2,人工判断文本对应的客服、客户身份,打上标签用以区分身份;
步骤3.3,将文本数据集Jieba分词,去除停用词,分成训练集与测试集,所述训练集与测试集占比为3:1;
步骤3.4,在linux***中安装fasttext包;
步骤3.5,模型训练,fasttext.supervised()中的第一个参数输入训练集,用于拟合模型数据,第二个参数为模型存储的绝对路径,第三个参数为文本与标签的分隔符;
步骤3.6,模型预测,待训练完成,通过load_model加载模型,对测试集使用test方法,得到模型在测试集上的准确率。
8.如权利要求6所述的一种基于文本分类的客服语音质检方法,其特征在于,所述步骤3中,所述身份识别模型还可以是朴素贝叶斯模型,具体实现过程如下:
1)人工标注数据区分客服、客户对话文本,取两组身份确认且已经识别好的文本各8000条,一组为客服文本,另一组为客户文本;
2)对文本进行预处理,具体为对两组文本进行分词,去除停用词;
3)计算联合概率,具体为:service表示客服说话内容,client表示客户说话内容,假定P(service)和P(client)先验概率都为50%,P(word|service)和P(word|client)表示这个词出现在客服或客户文本的概率,从文本中选出P(service|word)最高的前15个词,计算联合概率;
4)模型预测,朴素贝叶斯推断公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910387524.3A CN110309216A (zh) | 2019-05-10 | 2019-05-10 | 一种基于文本分类的客服语音质检方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910387524.3A CN110309216A (zh) | 2019-05-10 | 2019-05-10 | 一种基于文本分类的客服语音质检方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110309216A true CN110309216A (zh) | 2019-10-08 |
Family
ID=68074662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910387524.3A Withdrawn CN110309216A (zh) | 2019-05-10 | 2019-05-10 | 一种基于文本分类的客服语音质检方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309216A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728145A (zh) * | 2019-10-11 | 2020-01-24 | 集奥聚合(北京)人工智能科技有限公司 | 一种基于录音对话的自然语言理解模型的建立方法 |
CN110853676A (zh) * | 2019-11-18 | 2020-02-28 | 广州国音智能科技有限公司 | 一种音频比对方法、装置及设备 |
CN110866032A (zh) * | 2019-11-14 | 2020-03-06 | 北京首汽智行科技有限公司 | 一种客服人员服务质量检验方法 |
CN110929011A (zh) * | 2019-11-28 | 2020-03-27 | 北京思特奇信息技术股份有限公司 | 一种对话分析方法、装置和设备 |
CN111341324A (zh) * | 2020-05-18 | 2020-06-26 | 浙江百应科技有限公司 | 一种基于fasttest模型的识别纠错及训练方法 |
CN111405128A (zh) * | 2020-03-24 | 2020-07-10 | 中国—东盟信息港股份有限公司 | 一种基于语音转文字的通话质检*** |
CN111539221A (zh) * | 2020-05-13 | 2020-08-14 | 北京焦点新干线信息技术有限公司 | 一种数据处理方法及*** |
CN112053681A (zh) * | 2020-08-28 | 2020-12-08 | 广州探迹科技有限公司 | 一种asr和nlu联合训练的电话客服质量评分技术及*** |
CN112199084A (zh) * | 2020-10-22 | 2021-01-08 | 北京计算机技术及应用研究所 | 基于Django的文本标注平台 |
TWI725577B (zh) * | 2019-10-17 | 2021-04-21 | 中國信託商業銀行股份有限公司 | 智能語音資訊質檢方法及系統 |
CN112860868A (zh) * | 2021-03-09 | 2021-05-28 | 上海华客信息科技有限公司 | 客服电话分析方法、***、设备及存储介质 |
CN112966071A (zh) * | 2021-02-03 | 2021-06-15 | 北京奥鹏远程教育中心有限公司 | 一种用户反馈信息分析方法、装置、设备及可读存储介质 |
CN113011928A (zh) * | 2021-04-02 | 2021-06-22 | 深圳市中深伟业科技有限公司 | 一种基于深度学习的客服预警分析*** |
CN113095076A (zh) * | 2021-04-20 | 2021-07-09 | 平安银行股份有限公司 | 敏感词识别方法、装置、电子设备及存储介质 |
CN114299957A (zh) * | 2021-11-29 | 2022-04-08 | 北京百度网讯科技有限公司 | 声纹分离方法、装置、电子设备以及存储介质 |
CN114554015A (zh) * | 2022-02-25 | 2022-05-27 | 马上消费金融股份有限公司 | 呼叫中心***和通讯建立方法 |
CN115099829A (zh) * | 2022-06-15 | 2022-09-23 | 马上消费金融股份有限公司 | 数据处理方法及装置 |
-
2019
- 2019-05-10 CN CN201910387524.3A patent/CN110309216A/zh not_active Withdrawn
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728145B (zh) * | 2019-10-11 | 2023-08-29 | 集奥聚合(北京)人工智能科技有限公司 | 一种基于录音对话的自然语言理解模型的建立方法 |
CN110728145A (zh) * | 2019-10-11 | 2020-01-24 | 集奥聚合(北京)人工智能科技有限公司 | 一种基于录音对话的自然语言理解模型的建立方法 |
TWI725577B (zh) * | 2019-10-17 | 2021-04-21 | 中國信託商業銀行股份有限公司 | 智能語音資訊質檢方法及系統 |
CN110866032A (zh) * | 2019-11-14 | 2020-03-06 | 北京首汽智行科技有限公司 | 一种客服人员服务质量检验方法 |
CN110853676A (zh) * | 2019-11-18 | 2020-02-28 | 广州国音智能科技有限公司 | 一种音频比对方法、装置及设备 |
CN110853676B (zh) * | 2019-11-18 | 2023-06-09 | 广州国音智能科技有限公司 | 一种音频比对方法、装置及设备 |
CN110929011A (zh) * | 2019-11-28 | 2020-03-27 | 北京思特奇信息技术股份有限公司 | 一种对话分析方法、装置和设备 |
CN111405128A (zh) * | 2020-03-24 | 2020-07-10 | 中国—东盟信息港股份有限公司 | 一种基于语音转文字的通话质检*** |
CN111405128B (zh) * | 2020-03-24 | 2022-02-18 | 中国—东盟信息港股份有限公司 | 一种基于语音转文字的通话质检*** |
CN111539221A (zh) * | 2020-05-13 | 2020-08-14 | 北京焦点新干线信息技术有限公司 | 一种数据处理方法及*** |
CN111539221B (zh) * | 2020-05-13 | 2023-09-12 | 北京焦点新干线信息技术有限公司 | 一种数据处理方法及*** |
CN111341324A (zh) * | 2020-05-18 | 2020-06-26 | 浙江百应科技有限公司 | 一种基于fasttest模型的识别纠错及训练方法 |
CN112053681B (zh) * | 2020-08-28 | 2024-04-16 | 广州探迹科技有限公司 | Asr和nlu联合训练的电话客服质量评分方法及*** |
CN112053681A (zh) * | 2020-08-28 | 2020-12-08 | 广州探迹科技有限公司 | 一种asr和nlu联合训练的电话客服质量评分技术及*** |
CN112199084A (zh) * | 2020-10-22 | 2021-01-08 | 北京计算机技术及应用研究所 | 基于Django的文本标注平台 |
CN112199084B (zh) * | 2020-10-22 | 2023-07-18 | 北京计算机技术及应用研究所 | 基于Django的文本标注平台 |
CN112966071A (zh) * | 2021-02-03 | 2021-06-15 | 北京奥鹏远程教育中心有限公司 | 一种用户反馈信息分析方法、装置、设备及可读存储介质 |
CN112966071B (zh) * | 2021-02-03 | 2023-09-08 | 北京奥鹏远程教育中心有限公司 | 一种用户反馈信息分析方法、装置、设备及可读存储介质 |
CN112860868A (zh) * | 2021-03-09 | 2021-05-28 | 上海华客信息科技有限公司 | 客服电话分析方法、***、设备及存储介质 |
CN113011928A (zh) * | 2021-04-02 | 2021-06-22 | 深圳市中深伟业科技有限公司 | 一种基于深度学习的客服预警分析*** |
CN113095076A (zh) * | 2021-04-20 | 2021-07-09 | 平安银行股份有限公司 | 敏感词识别方法、装置、电子设备及存储介质 |
CN113095076B (zh) * | 2021-04-20 | 2023-08-22 | 平安银行股份有限公司 | 敏感词识别方法、装置、电子设备及存储介质 |
CN114299957A (zh) * | 2021-11-29 | 2022-04-08 | 北京百度网讯科技有限公司 | 声纹分离方法、装置、电子设备以及存储介质 |
CN114554015A (zh) * | 2022-02-25 | 2022-05-27 | 马上消费金融股份有限公司 | 呼叫中心***和通讯建立方法 |
CN115099829A (zh) * | 2022-06-15 | 2022-09-23 | 马上消费金融股份有限公司 | 数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309216A (zh) | 一种基于文本分类的客服语音质检方法 | |
CN110197672B (zh) | 一种语音通话质量检测方法、服务器、存储介质 | |
CA2311439C (en) | Conversational data mining | |
CN109151218A (zh) | 通话语音质检方法、装置、计算机设备及存储介质 | |
CN110335609A (zh) | 一种基于语音识别的地空通话数据分析方法及*** | |
CN110491416A (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN113468296B (zh) | 可配置业务逻辑的模型自迭代式智能客服质检***与方法 | |
KR102353545B1 (ko) | 재난대응 추천방법 및 그 장치 | |
CN112667777A (zh) | 一种用于客户来电诉求的分类方法 | |
CN109871449A (zh) | 一种基于语义描述的端到端的零样本学习方法 | |
Santosh et al. | Deconfounding legal judgment prediction for European court of human rights cases towards better alignment with experts | |
Bergam et al. | Legal and political stance detection of SCOTUS language | |
CN114528395A (zh) | 一种文本字词特征双线注意力融合的风险预测方法 | |
Chen et al. | Development and research of topic detection and tracking | |
CN112464670A (zh) | 识别方法、识别模型的训练方法、装置、设备、存储介质 | |
Wan et al. | Evaluation model of power operation and maintenance based on text emotion analysis | |
CN116305257A (zh) | 隐私信息监测装置和隐私信息监测方法 | |
CN109684479A (zh) | 一种基于人工智能来实现业务分析的方法 | |
Noursalehi et al. | Machine-learning-augmented analysis of textual data: application in transit disruption management | |
CN113345419B (zh) | 基于方言口音的语音转译方法、***和可读存储介质 | |
Song et al. | Intelligent assessment of 95598 speech transcription text quality based on topic model | |
CN117690439B (zh) | 一种基于营销场景的语音识别语意理解方法及*** | |
CN114444484B (zh) | 一种基于双层图的文档级事件抽取方法及*** | |
Lee et al. | Conceptual approach to the development of technology evolution network based on structural and semantic analysis | |
CN115600589A (zh) | 一种警方报案信息分析方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20191008 |