CN113743124B

CN113743124B - 一种智能问答异常的处理方法、装置及电子设备

Info

Publication number: CN113743124B
Application number: CN202110985077.9A
Authority: CN
Inventors: 陈超; 杨梦影
Original assignee: Nanjing Xingyun Digital Technology Co Ltd
Current assignee: Nanjing Xingyun Digital Technology Co Ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2024-03-29
Anticipated expiration: 2041-08-25
Also published as: CN113743124A; CA3170622A1

Abstract

本发明公开了一种智能问答异常的处理方法、装置及电子设备，涉及自然语言处理及智能问答技术领域。其方法包括获取智能客服与用户的会话记录，所述会话记录至少包括两个语句，所述语句包括用户发出的提问语句及智能客服发出的答复语句；根据预设的预处理方法，对所述提问语句进行预处理；根据预设的异常问题判定方法，判断预处理之后的提问语句是否为异常问题；根据预设的异常问题处理规则，设定异常问题对应的语句对；根据所述语句对，更新智能客服的知识库。本发明提供的一种智能问答异常的处理方法、装置及电子设备，能够对异常问题进行监测分析，高效生成智能问答语句。

Description

一种智能问答异常的处理方法、装置及电子设备

技术领域

本发明涉及自然语言处理及智能问答技术领域，具体涉及一种智能问答异常的处理方法、装置及电子设备。

背景技术

在传统服务行业中，人工客服作为劳动密集型岗位，是一种全时段高强度且高重复性的工作。因此，为了降低人工成本、提高效率，越来越多的企业引入了可以根据用户的问题自动回复相应的答复语句的智能客服，一定程度上缓解了人工客服的工作压力，且提升了企业服务的准确性、规范性和稳定性。

而为了保证智能客服可以准确地答复用户，需要为其维护一个庞大的知识库体系。知识库中包含大量的标准问题与相应答案，而问答***的智能客服的问答流程主要是将用户的问题与知识库里的标准问题进行匹配，若匹配成功，则返回该标准问题对应的答案。然而，用户的问题从来不是一成不变的，通常用户会因为各种各样的原因问出新的、并未囊括在知识库内以及因问答话术而导致智能客服无法准确识别的异常问题，如此一来，就会导致用户所提出的问题无法在第一时间得到解决，不但会降低用户的资讯体验，而且之后的转人工操作，也会增加人工客服的工作量。因此及时监测和推送智能客服无法解决的异常问题并对知识库进行实时维护更新是非常有必要的。

因此，亟需一种可对异常问题进行监测分析、以高效生成智能问答异常的处理方法、装置及电子设备，以解决现有技术的上述技术问题。

发明内容

为了解决上述背景技术中提到的至少一个问题，本发明提供了一种智能问答异常的处理方法、装置及电子设备，能够对异常问题进行监测分析，高效生成智能问答语句。

本发明实施例提供的具体技术方案如下：

一种智能问答异常的处理方法，所述方法包括以下步骤：

S1：获取智能客服与用户的会话记录，所述会话记录至少包括两个语句，所述语句包括用户发出的提问语句及智能客服发出的答复语句；

S3：根据预设的预处理方法，对所述提问语句进行预处理；

S4：根据预设的异常问题判定方法，判断预处理之后的提问语句是否为异常问题，若是，则执行步骤S5，若不是，则结束处理；

S5：根据预设的异常问题处理规则，设定异常问题对应的语句对；

S6：根据所述语句对，更新智能客服的知识库。

进一步地，所述步骤S1之前，还包括以下步骤：

S0：触发预先设定的日志编码。

进一步地，所述步骤S1和步骤S3之间还包括以下步骤：

S2：将获取的会话记录存储至存储介质；

所述存储介质包括文件***、***内存、Kafka。

进一步地，所述会话记录的预处理包括：

会话记录归一化，将获取的会话记录转换成字符编码数据。

进一步地，所述会话记录的预处理还包括：

会话记录纠错，利用预设的纠错规则，对会话记录包括的错别字进行纠错；

会话记录过滤，对会话记录进行过滤处理；

提问语句去重，将获取得到的提问语句与智能客服的知识库中已存的提问语句进行比对去重；

提问问题归一化，基于语义相似度算法，将获取得到的语义相似的提问问题归一化为标准问题。

进一步地，所述提问问题归一化包括以下步骤：

S31：初始化，利用预设的初始化含有<key，value>键值对的字典dict_t，统计提问问题出现的频次，其中：key为问题，value为问题出现频次；

S32：相似度计算；利用语义相似度算法，对新输入的提问问题query与字典中的每个问题key进行语义相似度计算，确定最大相似度得分score_max对应的问题，并记为key_max；

S33：新增提问问题归属判定；当score_max大于等于设定的相似度阈值时，则判定新输入的提问问题query与最大相似度得分对应的问题key_max表达的属于同一个问题，同时key_max对应的value+1；当score_max小于设定的相似度阈值时，则判定新输入的query为新问题，则在字典dict_t新增对应数量的<key，value>键值对；

S34：确定归一化字典dict_t。

进一步地，所述步骤S4包括以下步骤：

S41：获取周期t内的归一化字典dict_t及前一周期的t-T问题归一化字典dict_t-T；

S42：获取得到周期t内归一化字典dict_t任一提问问题i的数量qc_it、数量占比qcr_it、平滑环比增长率qsr_it；

S43：根据步骤S42获取得到的数据信息，计算得到周期t内任一提问问题i的异常增长率qr_it：

其中：前一周期t-T的问题归一化字典dict_t-T，qr_it是周期t内任一提问问题i的异常增长率，qcr_it是周期t内归一化字典dict_t任一提问问题i的数量占比，qsr_it是周期t内归一化字典dict_t任一提问问题i的平滑环比增长率，qc_it是周期t内归一化字典dict_t任一提问问题i的数量，qc_i(t-T)是前一周期t-T内归一化字典dict_t任一提问问题i的数量；

S44：根据预设的异常判定阈值，若步骤S43得到的任一提问问题i的异常增长率qr_it超过预设的异常判定阈值，则执行步骤S5，反之，则结束处理。

进一步地，所述语义相似度算法为基于Bert的文本相似度算法和/或基于WMD的文本相似度算法。

本发明还提供一种智能问答异常的装置，所述装置包括：获取模块，用于获取会话记录，所述会话记录至少包括两个语句，所述语句包括用户发出的提问语句及智能客服发出的答复语句；

存储模块，用于存储获取的会话记录；

预处理模块，将获取的会话记录进行预处理；

判断模块，用于判定获取的提问问题是否为异常问题；

处理模块，对确定为异常问题的提问语句制订对应的答复语句；

更新模块，用于根据所述会话记录，更新问答***的知识库。

本发明还提供一种电子设备，所述电子设备包括：一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行如权利要求1-8任一项所述的智能问答异常的处理方法。

本发明实施例具有如下有益效果：

本发明实施例提供的一种智能问答异常的处理方法，包括获取智能客服与用户的会话记录，所述会话记录至少包括两个语句，所述语句包括用户发出的提问语句及智能客服发出的答复语句；根据预设的预处理方法，对所述提问语句进行预处理；根据预设的异常问题判定方法，判断预处理之后的提问语句是否为异常问题；根据预设的异常问题处理规则，设定异常问题对应的语句对；根据所述语句对，更新智能客服的知识库。解决了现实技术中无法对用户和智能客服之间的包括提问语句和答复语句分析挖掘速度慢、因对用户和智能客服之间的包括提问语句和答复语句分析挖掘速度慢而导致的知识库更新速度慢、答复成功率低、人工客服工作压力大的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出根据本申请实施例示出的智能问答异常的处理方法流程图(一)；

图2示出根据本申请实施例示出的智能问答异常的处理方法流程图(二)。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

具体地，如图1所示，根据本申请实施例提供的智能问答异常的处理方法对智能客服及用户的智能问答异常进行分析挖掘的过程包括：

在产品的设计开发阶段，本领域的技术人员即可根据不同***的工作需求及工作场景可以出现的问题进行汇总，然后通过“埋码”的方式，提前在代码中植入需要收集问题的编码标识，上述需要收集的问题可以是以下几种情况：该问题(含该问题对应的标准问题或相似问题)在知识库中不存在、智能客服无法给出答案、用户得到答案后，选择了转人工；当智能客服问答流程触发该点时，即当用户和问答***发生会话的时候，将智能客服和客户之间的会话记录进行采集，所述会话记录至少包括两个语句，所述语句包括用户发出的提问语句及智能客服发出的答复语句，如表1所示，即为部分问题编码示例：

表1问题编码示例表

将采集得到的会话记录存入到指定的存储介质中，存储介质可以是：文件***、***内存、Kafka等，可以根据不同的情况具体选择对应的存储方式。例如：当分析周期较长且问题总量大时，可以存入文件***；当周期较短且问题总量适中可入存入***内存；当需要实时进行分析时，可使用Kafka进行问题传递。

获取得到智能客服与用户之间的会话记录之后，根据预设的预处理方法，对所述提问语句进行预处理；

具体地，会话记录进行预处理的过程包括：

文本纠错，利用预设的纠错规则，对文本包括的错别字进行纠错；

文本可以包括语音语句及文本语句。当会话记录是文本语句时，主要的错别字是由于用户输入法导致的同音字；当会话记录是语音语句时，需要首先通过语音识别技术将语音语句转换成文本语句，在此语句转化的过程中，不但包括同音字，而且包括任意读音或者读音相同的字词。因此，本申请实施例结合语言模型与词频特征，为语音语句及文本语句分别设置了相应地纠错规则，可根据相应地纠错规则对错别字进行纠错；

禁用词过滤，对文本中的禁用词进行过滤操作；

具体地，上述禁用词包括去除不符合礼貌用语的脏话及其他不符合要求的语句，并将其进行过滤操作。

数据去噪，将获取得到的文本中包含的“噪音”进行去除；

具体地，上述噪音包括预设的无用的标点和预设的停用词在内的无关字符，以及任一文本包含的无关信息，如商品名、地名等；

数据去重，将采集获取的文本与智能客服的知识库中已存的文本进行比对去重；可以根据语义相似度算法，对采集获取的文本与智能客服的知识库中的文本进行比对；其中，语义相似度算法可以是基于Bert的文本相似度算法和/或基于WMD的文本相似度算法。

问题归一化和确定问题词典dict_t，基于Bert的文本相似度算法和/或基于WMD的文本相似度算法的语义相似度计算，将采集得到的提问问题归一化为标准问题。

具体地，上述的问题归一化可以包括步骤：

初始化，利用预设的初始化含有<key，value>键值对的问题词典dict_t，统计提问问题出现的频次，其中：key为问题，value为问题出现频次；

相似度计算；利用语义相似度算法，对新输入的提问问题query与字典中的每个问题key进行语义相似度计算，确定最大相似度得分score_max对应的问题，并记为key_max；

新增提问问题归属判定；当score_max大于等于设定的相似度阈值时，则判定新输入的提问问题query与最大相似度得分对应的问题key_max表达的属于同一个问题，同时key_max对应的value+1；当score_max小于设定的相似度阈值时，则判定新输入的query为新问题，则在问题词典dictt新增对应数量的<key，value>键值对；

确定问题词典dict_t。

异常问题判定，判断预处理之后的提问语句是否为异常问题；

具体地，上述异常问题判定可以包括以下步骤：获取周期t内的归一化字典dict_t及前一周期的t-T问题归一化字典dict_t-T；

获取得到周期t内归一化字典dict_t任一提问问题i的数量qc_it、数量占比qcr_it、平滑环比增长率qsr_it；以queryi表示归一化字典dict_t内采集到的用户提出的若干个提问问题，以表2-表4为例进行说明：

表2周期t内提问问题次数汇总表

query(提问问题)	Count(次数)
		query1	200
query2	122
		query3	800
query4	900
		query5	78
query6	500
		query7	56
query8	99
		query9	111
query10	89
		query11	10

表3周期t-T内提问问题次数汇总表

表4异常增长率一览表

基于图2-表4可以看出：query₆的异常增长率是最高的，从78增长到500，无论从数量的绝对占比还是从回正平滑环比增长率上看，都符合异常问题的判定要求；query₁₁的回正平滑环比增长率虽然很高，但是因为数据的绝对占比很低，所以不适合作为异常问题进行处理，因此，可以反映出采用数据的绝对占比作为判定因素及对环比增长率进行平滑处理的必要性；query₄的绝对占比为30.35％，依然是最大占比问题，但是因为其环比增长率为负，反映出该问题的咨询量正在下行，且在上一个周期内可能作为异常问题已经推送，在当前周期内，其异常增长率排第4，没有因为其负增长则对其重要性进行忽略，同时也能反映出下行趋势；因此也可以说明对数据进行平滑环比增长率回正及考虑数据绝对占比的必要性；

根据获取得到的数据信息，计算得到周期t内任一提问问题i的异常增长率qr_it：

根据预设的异常判定阈值，若得到的任一提问问题i的异常增长率qr_it超过预设的异常判定阈值，却确定该提问问题为异常问题；其中，对于异常判定阈值的设置不作限定，本领域的技术人员可以根据业务场景需求，即采样周期t的长短、归一化字典dict_t的可采样量及业务需求，选择适合的异常判定阈值。

将确定为异常问题的提问问题推送至推送***，其中，上述推送***可以是信、IM、邮件等多种途径作为推送的通道。

优选地，当判定为异常问题的提问问题推送至推送***之后，可以通过运维人员对上述异常问题进行二次人为判定，如果运维人员二次确定上述提问问题为异常问题之后，则借助“动态规则库”配置页面，将问题和对应的话术通过“动态规则库”添加至问答***中，完成以后，该问题实时生效，后续用户的类似问题，都可以由智能客服***自动应答。

实施例二

对应上述实施例，本申请提供了一种智能问答异常的处理方法，参照图2，所述方法包括以下步骤：

S3：根据预设的预处理方法，对所述提问语句进行预处理；

S6：根据所述语句对，更新智能客服的知识库。

优选地，所述步骤S1之前，还包括以下步骤：

S0：触发预先设定的日志编码。

优选地，所述步骤S1和步骤S3之间还包括以下步骤：

S2：将获取的会话记录存储至存储介质；

所述存储介质包括文件***、***内存、Kafka。

本实施例中，所述会话记录的预处理包括：

会话记录归一化，将获取的会话记录转换成字符编码数据。

本实施例中，所述会话记录的预处理还包括：

会话记录过滤，对会话记录进行过滤处理；

本实施例中，所述提问问题归一化包括以下步骤：

S34：确定归一化字典dict_t。

本实施例中，所述步骤S4包括以下步骤：

其中：前一周期t-T的问题归一化字典dict_t-T；

本实施例中，所述语义相似度算法包括基于Bert的文本相似度算法和基于WMD的文本相似度算法。

实施例三

对应实施例一和实施例二，本申请提供了一种智能问答异常的装置，所述装置包括：

获取模块，用于获取会话记录，所述会话记录至少包括两个语句，所述语句包括用户发出的提问语句及智能客服发出的答复语句；

存储模块，用于存储获取的会话记录；

预处理模块，将获取的会话记录进行预处理；

判断模块，用于判定获取的提问问题是否为异常问题；

更新模块，用于根据所述会话记录，更新问答***的知识库。

优选地，所述存储模块包括将获取的会话记录存储至存储介质，所述存储介质包括文件***、***内存、Kafka；对于会话记录的存储介质不做要求，本领域的技术人员可以根据实际的业务场景需求，选择符合存储要求的存储介质和数据存储方案。

优选地，本实施例中，当分析周期较长且问题总量大时，可以存入文件***；当周期较短且问题总量适中可入存入***内存；当需要实时进行分析时，可使用Kafka进行问题传递。

优选地，所述预处理模块包括以下步骤：将获取的会话记录转换成字符编码(uTF-8编码)数据；利用预设的纠错规则，对会话记录包括的错别字进行纠错；对会话记录进行过滤处理，例如：当智能客服和用户的会话长度低于两个回合的时候，就将该会话记录进行删除，上述例子仅仅说明了一种对会话记录进行过滤的方法，本领域的技术人员可以根据业务场景的实际需要，设置不同的过滤规则算法，将不符合要求的信息进行滤除；将获取得到的提问语句与智能客服的知识库中已存的提问语句进行比对去重；基于Bert的文本相似度算法和/或基于WMD的文本相似度算法，将获取得到的语义相似的提问问题归一化为标准问题。

优选地，所述判断模块包括以下步骤：S41：获取周期t内的归一化字典dict_t及前一周期的t-T问题归一化字典dict_t-T；S42：获取得到周期t内归一化字典dict_t任一提问问题i的数量qc_it、数量占比qcr_it、平滑环比增长率qsr_it；S43：根据步骤S42获取得到的数据信息，计算得到周期t内任一提问问题i的异常增长率qr_it：

其中：前一周期t-T的问题归一化字典dict_t-T；S44：根据预设的异常判定阈值，若步骤S43得到的任一提问问题i的异常增长率qr_it超过预设的异常判定阈值，则执行步骤S5，反之，则结束处理，对于异常判定阈值的设置不作限定，本领域的技术人员可以根据业务场景需求，即采样周期t的长短、归一化字典dict_t的可采样量及业务需求，选择适合的异常判定阈值。

实施例四

对应上述所有实施例，本申请实施例提供的一种电子设备，包括：

一个或多个处理器；

以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行如上实施例1和实施例2所述的智能问答异常的处理方法。

优选地，本申请实施例提供的一种电子设备，具体可以包括处理器、通过通信总线通信连接的处理器、输入/输出接口、网络接口和存储器。

其中，处理器可以采用的通用的CPU，微处理器、应用专用集成电路、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案；

所述存储器可以采用ROM、RAM、静态存储设备、动态存储设备等形式实现。存储器可以存储用于控制电子设备运行的通过软件和/或固件实现本申请所述的智能问答异常的处理方法；

输入/输出接口用于连接输入/输出模块，以实现信息的输入和输出。输入/输出模块可以作为组建配置在电子设备中，也可以外接于设备以提供相应功能。其中，输入设备可以包括键盘、鼠标、触摸屏等各类传感元件，也可以是类似于移动网络、wifi、蓝牙等无线通信。

需要说明的是，尽管上述电子设备仅仅说明了处理器、输入/输出接口、网络接口和存储器，但是在具体实施过程中，该电子设备还可以包括其他实现电子设备正常运行所必需的其他组件。

尽管已描述了本发明实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种智能问答异常的处理方法，其特征在于，所述方法包括以下步骤：

S3：根据预设的预处理方法，对所述提问语句进行预处理；

S6：根据所述语句对，更新智能客服的知识库；

其中，所述会话记录的预处理包括：

会话记录过滤，对会话记录进行过滤处理；

提问问题归一化，基于语义相似度算法，将获取得到的语义相似的提问问题归一化为标准问题；

其中，所述提问问题归一化包括以下步骤：

S34：确定归一化字典dict_t；

其中，所述步骤S4包括以下步骤：

S41：获取周期t内的归一化字典dict_t及前一周期t-T内问题归一化字典dict_t-T；

2.根据权利要求1所述的智能问答异常的处理方法，其特征在于，

所述步骤S1之前，还包括以下步骤：

S0：触发预先设定的日志编码。

3.根据权利要求1或2所述的智能问答异常的处理方法，其特征在于，所述步骤S1和步骤S3之间还包括以下步骤：

S2：将获取的会话记录存储至存储介质；

所述存储介质包括文件***、***内存、Kafka。

4.根据权利要求3所述的智能问答异常的处理方法，其特征在于，所述会话记录的预处理包括：

会话记录归一化，将获取的会话记录转换成字符编码数据。

5.根据权利要求1所述的智能问答异常的处理方法，其特征在于，所述语义相似度算法为基于Bert的文本相似度算法和/或基于WMD的文本相似度算法。

6.一种智能问答异常的装置，其特征在于，所述装置包括：

存储模块，用于存储获取的会话记录；

预处理模块，将获取的会话记录进行预处理；

判断模块，用于判定获取的提问问题是否为异常问题；

更新模块，用于根据所述会话记录，更新问答***的知识库；

其中，所述预处理模块包括以下步骤：会话记录纠错，利用预设的纠错规则，对会话记录包括的错别字进行纠错；会话记录过滤，对会话记录进行过滤处理；提问语句去重，将获取得到的提问语句与智能客服的知识库中已存的提问语句进行比对去重；提问问题归一化，基于语义相似度算法，将获取得到的语义相似的提问问题归一化为标准问题；

其中，所述提问问题归一化包括以下步骤：

S34：确定归一化字典dict_t；

其中，所述判断模块包括以下步骤：S41：获取周期t内的归一化字典dict_t及前一周期的t-T问题归一化字典dict_t-T；S42：获取得到周期t内归一化字典dict_t任一提问问题i的数量qc_it、数量占比qcr_it、平滑环比增长率qsr_it；S43：根据步骤S42获取得到的数据信息，计算得到周期t内任一提问问题i的异常增长率qr_it：

7.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行如权利要求1-5任一项所述的智能问答异常的处理方法。