CN113743124B - 一种智能问答异常的处理方法、装置及电子设备 - Google Patents
一种智能问答异常的处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113743124B CN113743124B CN202110985077.9A CN202110985077A CN113743124B CN 113743124 B CN113743124 B CN 113743124B CN 202110985077 A CN202110985077 A CN 202110985077A CN 113743124 B CN113743124 B CN 113743124B
- Authority
- CN
- China
- Prior art keywords
- question
- sentences
- key
- dictionary
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title description 4
- 230000002159 abnormal effect Effects 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 28
- 230000005856 abnormality Effects 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241001122315 Polites Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种智能问答异常的处理方法、装置及电子设备,涉及自然语言处理及智能问答技术领域。其方法包括获取智能客服与用户的会话记录,所述会话记录至少包括两个语句,所述语句包括用户发出的提问语句及智能客服发出的答复语句;根据预设的预处理方法,对所述提问语句进行预处理;根据预设的异常问题判定方法,判断预处理之后的提问语句是否为异常问题;根据预设的异常问题处理规则,设定异常问题对应的语句对;根据所述语句对,更新智能客服的知识库。本发明提供的一种智能问答异常的处理方法、装置及电子设备,能够对异常问题进行监测分析,高效生成智能问答语句。
Description
技术领域
本发明涉及自然语言处理及智能问答技术领域,具体涉及一种智能问答异常的处理方法、装置及电子设备。
背景技术
在传统服务行业中,人工客服作为劳动密集型岗位,是一种全时段高强度且高重复性的工作。因此,为了降低人工成本、提高效率,越来越多的企业引入了可以根据用户的问题自动回复相应的答复语句的智能客服,一定程度上缓解了人工客服的工作压力,且提升了企业服务的准确性、规范性和稳定性。
而为了保证智能客服可以准确地答复用户,需要为其维护一个庞大的知识库体系。知识库中包含大量的标准问题与相应答案,而问答***的智能客服的问答流程主要是将用户的问题与知识库里的标准问题进行匹配,若匹配成功,则返回该标准问题对应的答案。然而,用户的问题从来不是一成不变的,通常用户会因为各种各样的原因问出新的、并未囊括在知识库内以及因问答话术而导致智能客服无法准确识别的异常问题,如此一来,就会导致用户所提出的问题无法在第一时间得到解决,不但会降低用户的资讯体验,而且之后的转人工操作,也会增加人工客服的工作量。因此及时监测和推送智能客服无法解决的异常问题并对知识库进行实时维护更新是非常有必要的。
因此,亟需一种可对异常问题进行监测分析、以高效生成智能问答异常的处理方法、装置及电子设备,以解决现有技术的上述技术问题。
发明内容
为了解决上述背景技术中提到的至少一个问题,本发明提供了一种智能问答异常的处理方法、装置及电子设备,能够对异常问题进行监测分析,高效生成智能问答语句。
本发明实施例提供的具体技术方案如下:
一种智能问答异常的处理方法,所述方法包括以下步骤:
S1:获取智能客服与用户的会话记录,所述会话记录至少包括两个语句,所述语句包括用户发出的提问语句及智能客服发出的答复语句;
S3:根据预设的预处理方法,对所述提问语句进行预处理;
S4:根据预设的异常问题判定方法,判断预处理之后的提问语句是否为异常问题,若是,则执行步骤S5,若不是,则结束处理;
S5:根据预设的异常问题处理规则,设定异常问题对应的语句对;
S6:根据所述语句对,更新智能客服的知识库。
进一步地,所述步骤S1之前,还包括以下步骤:
S0:触发预先设定的日志编码。
进一步地,所述步骤S1和步骤S3之间还包括以下步骤:
S2:将获取的会话记录存储至存储介质;
所述存储介质包括文件***、***内存、Kafka。
进一步地,所述会话记录的预处理包括:
会话记录归一化,将获取的会话记录转换成字符编码数据。
进一步地,所述会话记录的预处理还包括:
会话记录纠错,利用预设的纠错规则,对会话记录包括的错别字进行纠错;
会话记录过滤,对会话记录进行过滤处理;
提问语句去重,将获取得到的提问语句与智能客服的知识库中已存的提问语句进行比对去重;
提问问题归一化,基于语义相似度算法,将获取得到的语义相似的提问问题归一化为标准问题。
进一步地,所述提问问题归一化包括以下步骤:
S31:初始化,利用预设的初始化含有<key,value>键值对的字典dictt,统计提问问题出现的频次,其中:key为问题,value为问题出现频次;
S32:相似度计算;利用语义相似度算法,对新输入的提问问题query与字典中的每个问题key进行语义相似度计算,确定最大相似度得分scoremax对应的问题,并记为keymax;
S33:新增提问问题归属判定;当scoremax大于等于设定的相似度阈值时,则判定新输入的提问问题query与最大相似度得分对应的问题keymax表达的属于同一个问题,同时keymax对应的value+1;当scoremax小于设定的相似度阈值时,则判定新输入的query为新问题,则在字典dictt新增对应数量的<key,value>键值对;
S34:确定归一化字典dictt。
进一步地,所述步骤S4包括以下步骤:
S41:获取周期t内的归一化字典dictt及前一周期的t-T问题归一化字典dictt-T;
S42:获取得到周期t内归一化字典dictt任一提问问题i的数量qcit、数量占比qcrit、平滑环比增长率qsrit;
S43:根据步骤S42获取得到的数据信息,计算得到周期t内任一提问问题i的异常增长率qrit:
其中:前一周期t-T的问题归一化字典dictt-T,qrit是周期t内任一提问问题i的异常增长率,qcrit是周期t内归一化字典dictt任一提问问题i的数量占比,qsrit是周期t内归一化字典dictt任一提问问题i的平滑环比增长率,qcit是周期t内归一化字典dictt任一提问问题i的数量,qci(t-T)是前一周期t-T内归一化字典dictt任一提问问题i的数量;
S44:根据预设的异常判定阈值,若步骤S43得到的任一提问问题i的异常增长率qrit超过预设的异常判定阈值,则执行步骤S5,反之,则结束处理。
进一步地,所述语义相似度算法为基于Bert的文本相似度算法和/或基于WMD的文本相似度算法。
本发明还提供一种智能问答异常的装置,所述装置包括:获取模块,用于获取会话记录,所述会话记录至少包括两个语句,所述语句包括用户发出的提问语句及智能客服发出的答复语句;
存储模块,用于存储获取的会话记录;
预处理模块,将获取的会话记录进行预处理;
判断模块,用于判定获取的提问问题是否为异常问题;
处理模块,对确定为异常问题的提问语句制订对应的答复语句;
更新模块,用于根据所述会话记录,更新问答***的知识库。
本发明还提供一种电子设备,所述电子设备包括:一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如权利要求1-8任一项所述的智能问答异常的处理方法。
本发明实施例具有如下有益效果:
本发明实施例提供的一种智能问答异常的处理方法,包括获取智能客服与用户的会话记录,所述会话记录至少包括两个语句,所述语句包括用户发出的提问语句及智能客服发出的答复语句;根据预设的预处理方法,对所述提问语句进行预处理;根据预设的异常问题判定方法,判断预处理之后的提问语句是否为异常问题;根据预设的异常问题处理规则,设定异常问题对应的语句对;根据所述语句对,更新智能客服的知识库。解决了现实技术中无法对用户和智能客服之间的包括提问语句和答复语句分析挖掘速度慢、因对用户和智能客服之间的包括提问语句和答复语句分析挖掘速度慢而导致的知识库更新速度慢、答复成功率低、人工客服工作压力大的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出根据本申请实施例示出的智能问答异常的处理方法流程图(一);
图2示出根据本申请实施例示出的智能问答异常的处理方法流程图(二)。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
具体地,如图1所示,根据本申请实施例提供的智能问答异常的处理方法对智能客服及用户的智能问答异常进行分析挖掘的过程包括:
在产品的设计开发阶段,本领域的技术人员即可根据不同***的工作需求及工作场景可以出现的问题进行汇总,然后通过“埋码”的方式,提前在代码中植入需要收集问题的编码标识,上述需要收集的问题可以是以下几种情况:该问题(含该问题对应的标准问题或相似问题)在知识库中不存在、智能客服无法给出答案、用户得到答案后,选择了转人工;当智能客服问答流程触发该点时,即当用户和问答***发生会话的时候,将智能客服和客户之间的会话记录进行采集,所述会话记录至少包括两个语句,所述语句包括用户发出的提问语句及智能客服发出的答复语句,如表1所示,即为部分问题编码示例:
表1问题编码示例表
将采集得到的会话记录存入到指定的存储介质中,存储介质可以是:文件***、***内存、Kafka等,可以根据不同的情况具体选择对应的存储方式。例如:当分析周期较长且问题总量大时,可以存入文件***;当周期较短且问题总量适中可入存入***内存;当需要实时进行分析时,可使用Kafka进行问题传递。
获取得到智能客服与用户之间的会话记录之后,根据预设的预处理方法,对所述提问语句进行预处理;
具体地,会话记录进行预处理的过程包括:
文本纠错,利用预设的纠错规则,对文本包括的错别字进行纠错;
文本可以包括语音语句及文本语句。当会话记录是文本语句时,主要的错别字是由于用户输入法导致的同音字;当会话记录是语音语句时,需要首先通过语音识别技术将语音语句转换成文本语句,在此语句转化的过程中,不但包括同音字,而且包括任意读音或者读音相同的字词。因此,本申请实施例结合语言模型与词频特征,为语音语句及文本语句分别设置了相应地纠错规则,可根据相应地纠错规则对错别字进行纠错;
禁用词过滤,对文本中的禁用词进行过滤操作;
具体地,上述禁用词包括去除不符合礼貌用语的脏话及其他不符合要求的语句,并将其进行过滤操作。
数据去噪,将获取得到的文本中包含的“噪音”进行去除;
具体地,上述噪音包括预设的无用的标点和预设的停用词在内的无关字符,以及任一文本包含的无关信息,如商品名、地名等;
数据去重,将采集获取的文本与智能客服的知识库中已存的文本进行比对去重;可以根据语义相似度算法,对采集获取的文本与智能客服的知识库中的文本进行比对;其中,语义相似度算法可以是基于Bert的文本相似度算法和/或基于WMD的文本相似度算法。
问题归一化和确定问题词典dictt,基于Bert的文本相似度算法和/或基于WMD的文本相似度算法的语义相似度计算,将采集得到的提问问题归一化为标准问题。
具体地,上述的问题归一化可以包括步骤:
初始化,利用预设的初始化含有<key,value>键值对的问题词典dictt,统计提问问题出现的频次,其中:key为问题,value为问题出现频次;
相似度计算;利用语义相似度算法,对新输入的提问问题query与字典中的每个问题key进行语义相似度计算,确定最大相似度得分scoremax对应的问题,并记为keymax;
新增提问问题归属判定;当scoremax大于等于设定的相似度阈值时,则判定新输入的提问问题query与最大相似度得分对应的问题keymax表达的属于同一个问题,同时keymax对应的value+1;当scoremax小于设定的相似度阈值时,则判定新输入的query为新问题,则在问题词典dictt新增对应数量的<key,value>键值对;
确定问题词典dictt。
异常问题判定,判断预处理之后的提问语句是否为异常问题;
具体地,上述异常问题判定可以包括以下步骤:获取周期t内的归一化字典dictt及前一周期的t-T问题归一化字典dictt-T;
获取得到周期t内归一化字典dictt任一提问问题i的数量qcit、数量占比qcrit、平滑环比增长率qsrit;以queryi表示归一化字典dictt内采集到的用户提出的若干个提问问题,以表2-表4为例进行说明:
表2周期t内提问问题次数汇总表
query(提问问题) | Count(次数) |
query1 | 200 |
query2 | 122 |
query3 | 800 |
query4 | 900 |
query5 | 78 |
query6 | 500 |
query7 | 56 |
query8 | 99 |
query9 | 111 |
query10 | 89 |
query11 | 10 |
表3周期t-T内提问问题次数汇总表
表4异常增长率一览表
基于图2-表4可以看出:query6的异常增长率是最高的,从78增长到500,无论从数量的绝对占比还是从回正平滑环比增长率上看,都符合异常问题的判定要求;query11的回正平滑环比增长率虽然很高,但是因为数据的绝对占比很低,所以不适合作为异常问题进行处理,因此,可以反映出采用数据的绝对占比作为判定因素及对环比增长率进行平滑处理的必要性;query4的绝对占比为30.35%,依然是最大占比问题,但是因为其环比增长率为负,反映出该问题的咨询量正在下行,且在上一个周期内可能作为异常问题已经推送,在当前周期内,其异常增长率排第4,没有因为其负增长则对其重要性进行忽略,同时也能反映出下行趋势;因此也可以说明对数据进行平滑环比增长率回正及考虑数据绝对占比的必要性;
根据获取得到的数据信息,计算得到周期t内任一提问问题i的异常增长率qrit:
其中:前一周期t-T的问题归一化字典dictt-T,qrit是周期t内任一提问问题i的异常增长率,qcrit是周期t内归一化字典dictt任一提问问题i的数量占比,qsrit是周期t内归一化字典dictt任一提问问题i的平滑环比增长率,qcit是周期t内归一化字典dictt任一提问问题i的数量,qci(t-T)是前一周期t-T内归一化字典dictt任一提问问题i的数量;
根据预设的异常判定阈值,若得到的任一提问问题i的异常增长率qrit超过预设的异常判定阈值,却确定该提问问题为异常问题;其中,对于异常判定阈值的设置不作限定,本领域的技术人员可以根据业务场景需求,即采样周期t的长短、归一化字典dictt的可采样量及业务需求,选择适合的异常判定阈值。
将确定为异常问题的提问问题推送至推送***,其中,上述推送***可以是信、IM、邮件等多种途径作为推送的通道。
优选地,当判定为异常问题的提问问题推送至推送***之后,可以通过运维人员对上述异常问题进行二次人为判定,如果运维人员二次确定上述提问问题为异常问题之后,则借助“动态规则库”配置页面,将问题和对应的话术通过“动态规则库”添加至问答***中,完成以后,该问题实时生效,后续用户的类似问题,都可以由智能客服***自动应答。
实施例二
对应上述实施例,本申请提供了一种智能问答异常的处理方法,参照图2,所述方法包括以下步骤:
S1:获取智能客服与用户的会话记录,所述会话记录至少包括两个语句,所述语句包括用户发出的提问语句及智能客服发出的答复语句;
S3:根据预设的预处理方法,对所述提问语句进行预处理;
S4:根据预设的异常问题判定方法,判断预处理之后的提问语句是否为异常问题,若是,则执行步骤S5,若不是,则结束处理;
S5:根据预设的异常问题处理规则,设定异常问题对应的语句对;
S6:根据所述语句对,更新智能客服的知识库。
优选地,所述步骤S1之前,还包括以下步骤:
S0:触发预先设定的日志编码。
优选地,所述步骤S1和步骤S3之间还包括以下步骤:
S2:将获取的会话记录存储至存储介质;
所述存储介质包括文件***、***内存、Kafka。
本实施例中,所述会话记录的预处理包括:
会话记录归一化,将获取的会话记录转换成字符编码数据。
本实施例中,所述会话记录的预处理还包括:
会话记录纠错,利用预设的纠错规则,对会话记录包括的错别字进行纠错;
会话记录过滤,对会话记录进行过滤处理;
提问语句去重,将获取得到的提问语句与智能客服的知识库中已存的提问语句进行比对去重;
提问问题归一化,基于语义相似度算法,将获取得到的语义相似的提问问题归一化为标准问题。
本实施例中,所述提问问题归一化包括以下步骤:
S31:初始化,利用预设的初始化含有<key,value>键值对的字典dictt,统计提问问题出现的频次,其中:key为问题,value为问题出现频次;
S32:相似度计算;利用语义相似度算法,对新输入的提问问题query与字典中的每个问题key进行语义相似度计算,确定最大相似度得分scoremax对应的问题,并记为keymax;
S33:新增提问问题归属判定;当scoremax大于等于设定的相似度阈值时,则判定新输入的提问问题query与最大相似度得分对应的问题keymax表达的属于同一个问题,同时keymax对应的value+1;当scoremax小于设定的相似度阈值时,则判定新输入的query为新问题,则在字典dictt新增对应数量的<key,value>键值对;
S34:确定归一化字典dictt。
本实施例中,所述步骤S4包括以下步骤:
S41:获取周期t内的归一化字典dictt及前一周期的t-T问题归一化字典dictt-T;
S42:获取得到周期t内归一化字典dictt任一提问问题i的数量qcit、数量占比qcrit、平滑环比增长率qsrit;
S43:根据步骤S42获取得到的数据信息,计算得到周期t内任一提问问题i的异常增长率qrit:
其中:前一周期t-T的问题归一化字典dictt-T;
S44:根据预设的异常判定阈值,若步骤S43得到的任一提问问题i的异常增长率qrit超过预设的异常判定阈值,则执行步骤S5,反之,则结束处理。
本实施例中,所述语义相似度算法包括基于Bert的文本相似度算法和基于WMD的文本相似度算法。
实施例三
对应实施例一和实施例二,本申请提供了一种智能问答异常的装置,所述装置包括:
获取模块,用于获取会话记录,所述会话记录至少包括两个语句,所述语句包括用户发出的提问语句及智能客服发出的答复语句;
存储模块,用于存储获取的会话记录;
预处理模块,将获取的会话记录进行预处理;
判断模块,用于判定获取的提问问题是否为异常问题;
处理模块,对确定为异常问题的提问语句制订对应的答复语句;
更新模块,用于根据所述会话记录,更新问答***的知识库。
优选地,所述存储模块包括将获取的会话记录存储至存储介质,所述存储介质包括文件***、***内存、Kafka;对于会话记录的存储介质不做要求,本领域的技术人员可以根据实际的业务场景需求,选择符合存储要求的存储介质和数据存储方案。
优选地,本实施例中,当分析周期较长且问题总量大时,可以存入文件***;当周期较短且问题总量适中可入存入***内存;当需要实时进行分析时,可使用Kafka进行问题传递。
优选地,所述预处理模块包括以下步骤:将获取的会话记录转换成字符编码(uTF-8编码)数据;利用预设的纠错规则,对会话记录包括的错别字进行纠错;对会话记录进行过滤处理,例如:当智能客服和用户的会话长度低于两个回合的时候,就将该会话记录进行删除,上述例子仅仅说明了一种对会话记录进行过滤的方法,本领域的技术人员可以根据业务场景的实际需要,设置不同的过滤规则算法,将不符合要求的信息进行滤除;将获取得到的提问语句与智能客服的知识库中已存的提问语句进行比对去重;基于Bert的文本相似度算法和/或基于WMD的文本相似度算法,将获取得到的语义相似的提问问题归一化为标准问题。
优选地,所述判断模块包括以下步骤:S41:获取周期t内的归一化字典dictt及前一周期的t-T问题归一化字典dictt-T;S42:获取得到周期t内归一化字典dictt任一提问问题i的数量qcit、数量占比qcrit、平滑环比增长率qsrit;S43:根据步骤S42获取得到的数据信息,计算得到周期t内任一提问问题i的异常增长率qrit:
其中:前一周期t-T的问题归一化字典dictt-T;S44:根据预设的异常判定阈值,若步骤S43得到的任一提问问题i的异常增长率qrit超过预设的异常判定阈值,则执行步骤S5,反之,则结束处理,对于异常判定阈值的设置不作限定,本领域的技术人员可以根据业务场景需求,即采样周期t的长短、归一化字典dictt的可采样量及业务需求,选择适合的异常判定阈值。
实施例四
对应上述所有实施例,本申请实施例提供的一种电子设备,包括:
一个或多个处理器;
以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如上实施例1和实施例2所述的智能问答异常的处理方法。
优选地,本申请实施例提供的一种电子设备,具体可以包括处理器、通过通信总线通信连接的处理器、输入/输出接口、网络接口和存储器。
其中,处理器可以采用的通用的CPU,微处理器、应用专用集成电路、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案;
所述存储器可以采用ROM、RAM、静态存储设备、动态存储设备等形式实现。存储器可以存储用于控制电子设备运行的通过软件和/或固件实现本申请所述的智能问答异常的处理方法;
输入/输出接口用于连接输入/输出模块,以实现信息的输入和输出。输入/输出模块可以作为组建配置在电子设备中,也可以外接于设备以提供相应功能。其中,输入设备可以包括键盘、鼠标、触摸屏等各类传感元件,也可以是类似于移动网络、wifi、蓝牙等无线通信。
需要说明的是,尽管上述电子设备仅仅说明了处理器、输入/输出接口、网络接口和存储器,但是在具体实施过程中,该电子设备还可以包括其他实现电子设备正常运行所必需的其他组件。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种智能问答异常的处理方法,其特征在于,所述方法包括以下步骤:
S1:获取智能客服与用户的会话记录,所述会话记录至少包括两个语句,所述语句包括用户发出的提问语句及智能客服发出的答复语句;
S3:根据预设的预处理方法,对所述提问语句进行预处理;
S4:根据预设的异常问题判定方法,判断预处理之后的提问语句是否为异常问题,若是,则执行步骤S5,若不是,则结束处理;
S5:根据预设的异常问题处理规则,设定异常问题对应的语句对;
S6:根据所述语句对,更新智能客服的知识库;
其中,所述会话记录的预处理包括:
会话记录纠错,利用预设的纠错规则,对会话记录包括的错别字进行纠错;
会话记录过滤,对会话记录进行过滤处理;
提问语句去重,将获取得到的提问语句与智能客服的知识库中已存的提问语句进行比对去重;
提问问题归一化,基于语义相似度算法,将获取得到的语义相似的提问问题归一化为标准问题;
其中,所述提问问题归一化包括以下步骤:
S31:初始化,利用预设的初始化含有<key,value>键值对的字典dictt,统计提问问题出现的频次,其中:key为问题,value为问题出现频次;
S32:相似度计算;利用语义相似度算法,对新输入的提问问题query与字典中的每个问题key进行语义相似度计算,确定最大相似度得分scoremax对应的问题,并记为keymax;
S33:新增提问问题归属判定;当scoremax大于等于设定的相似度阈值时,则判定新输入的提问问题query与最大相似度得分对应的问题keymax表达的属于同一个问题,同时keymax对应的value+1;当scoremax小于设定的相似度阈值时,则判定新输入的query为新问题,则在字典dictt新增对应数量的<key,value>键值对;
S34:确定归一化字典dictt;
其中,所述步骤S4包括以下步骤:
S41:获取周期t内的归一化字典dictt及前一周期t-T内问题归一化字典dictt-T;
S42:获取得到周期t内归一化字典dictt任一提问问题i的数量qcit、数量占比qcrit、平滑环比增长率qsrit;
S43:根据步骤S42获取得到的数据信息,计算得到周期t内任一提问问题i的异常增长率qrit:
其中:前一周期t-T的问题归一化字典dictt-T,qrit是周期t内任一提问问题i的异常增长率,qcrit是周期t内归一化字典dictt任一提问问题i的数量占比,qsrit是周期t内归一化字典dictt任一提问问题i的平滑环比增长率,qcit是周期t内归一化字典dictt任一提问问题i的数量,qci(t-T)是前一周期t-T内归一化字典dictt任一提问问题i的数量;
S44:根据预设的异常判定阈值,若步骤S43得到的任一提问问题i的异常增长率qrit超过预设的异常判定阈值,则执行步骤S5,反之,则结束处理。
2.根据权利要求1所述的智能问答异常的处理方法,其特征在于,
所述步骤S1之前,还包括以下步骤:
S0:触发预先设定的日志编码。
3.根据权利要求1或2所述的智能问答异常的处理方法,其特征在于,所述步骤S1和步骤S3之间还包括以下步骤:
S2:将获取的会话记录存储至存储介质;
所述存储介质包括文件***、***内存、Kafka。
4.根据权利要求3所述的智能问答异常的处理方法,其特征在于,所述会话记录的预处理包括:
会话记录归一化,将获取的会话记录转换成字符编码数据。
5.根据权利要求1所述的智能问答异常的处理方法,其特征在于,所述语义相似度算法为基于Bert的文本相似度算法和/或基于WMD的文本相似度算法。
6.一种智能问答异常的装置,其特征在于,所述装置包括:
获取模块,用于获取会话记录,所述会话记录至少包括两个语句,所述语句包括用户发出的提问语句及智能客服发出的答复语句;
存储模块,用于存储获取的会话记录;
预处理模块,将获取的会话记录进行预处理;
判断模块,用于判定获取的提问问题是否为异常问题;
处理模块,对确定为异常问题的提问语句制订对应的答复语句;
更新模块,用于根据所述会话记录,更新问答***的知识库;
其中,所述预处理模块包括以下步骤:会话记录纠错,利用预设的纠错规则,对会话记录包括的错别字进行纠错;会话记录过滤,对会话记录进行过滤处理;提问语句去重,将获取得到的提问语句与智能客服的知识库中已存的提问语句进行比对去重;提问问题归一化,基于语义相似度算法,将获取得到的语义相似的提问问题归一化为标准问题;
其中,所述提问问题归一化包括以下步骤:
S31:初始化,利用预设的初始化含有<key,value>键值对的字典dictt,统计提问问题出现的频次,其中:key为问题,value为问题出现频次;
S32:相似度计算;利用语义相似度算法,对新输入的提问问题query与字典中的每个问题key进行语义相似度计算,确定最大相似度得分scoremax对应的问题,并记为keymax;
S33:新增提问问题归属判定;当scoremax大于等于设定的相似度阈值时,则判定新输入的提问问题query与最大相似度得分对应的问题keymax表达的属于同一个问题,同时keymax对应的value+1;当Scoremax小于设定的相似度阈值时,则判定新输入的query为新问题,则在字典dictt新增对应数量的<key,value>键值对;
S34:确定归一化字典dictt;
其中,所述判断模块包括以下步骤:S41:获取周期t内的归一化字典dictt及前一周期的t-T问题归一化字典dictt-T;S42:获取得到周期t内归一化字典dictt任一提问问题i的数量qcit、数量占比qcrit、平滑环比增长率qsrit;S43:根据步骤S42获取得到的数据信息,计算得到周期t内任一提问问题i的异常增长率qrit:
其中:前一周期t-T的问题归一化字典dictt-T;S44:根据预设的异常判定阈值,若步骤S43得到的任一提问问题i的异常增长率qrit超过预设的异常判定阈值,则执行步骤S5,反之,则结束处理,对于异常判定阈值的设置不作限定,本领域的技术人员可以根据业务场景需求,即采样周期t的长短、归一化字典dictt的可采样量及业务需求,选择适合的异常判定阈值。
7.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如权利要求1-5任一项所述的智能问答异常的处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985077.9A CN113743124B (zh) | 2021-08-25 | 2021-08-25 | 一种智能问答异常的处理方法、装置及电子设备 |
CA3170622A CA3170622A1 (en) | 2021-08-25 | 2022-08-17 | Method of intelligently processing q&a abnormality, device and electronic equipment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985077.9A CN113743124B (zh) | 2021-08-25 | 2021-08-25 | 一种智能问答异常的处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743124A CN113743124A (zh) | 2021-12-03 |
CN113743124B true CN113743124B (zh) | 2024-03-29 |
Family
ID=78732952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110985077.9A Active CN113743124B (zh) | 2021-08-25 | 2021-08-25 | 一种智能问答异常的处理方法、装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113743124B (zh) |
CA (1) | CA3170622A1 (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103377239A (zh) * | 2012-04-26 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 计算文本间相似度的方法和装置 |
CN104679910A (zh) * | 2015-03-25 | 2015-06-03 | 北京智齿博创科技有限公司 | 智能应答方法及*** |
CN107315766A (zh) * | 2017-05-16 | 2017-11-03 | 广东电网有限责任公司江门供电局 | 一种集合智能与人工问答的语音问答方法及其装置 |
CN107609101A (zh) * | 2017-09-11 | 2018-01-19 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
WO2019153613A1 (zh) * | 2018-02-09 | 2019-08-15 | 平安科技(深圳)有限公司 | 聊天应答方法、电子装置及存储介质 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及*** |
WO2020019686A1 (zh) * | 2018-07-27 | 2020-01-30 | 众安信息技术服务有限公司 | 一种会话交互方法及装置 |
CN110737763A (zh) * | 2019-10-18 | 2020-01-31 | 成都华律网络服务有限公司 | 一种融合知识图谱和深度学习的中文智能问答***及方法 |
CN112148743A (zh) * | 2020-09-18 | 2020-12-29 | 北京达佳互联信息技术有限公司 | 智能客服知识库的更新方法、装置、设备及存储介质 |
CN113282733A (zh) * | 2021-06-11 | 2021-08-20 | 上海寻梦信息技术有限公司 | 客服问题匹配方法、***、设备及存储介质 |
-
2021
- 2021-08-25 CN CN202110985077.9A patent/CN113743124B/zh active Active
-
2022
- 2022-08-17 CA CA3170622A patent/CA3170622A1/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103377239A (zh) * | 2012-04-26 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 计算文本间相似度的方法和装置 |
CN104679910A (zh) * | 2015-03-25 | 2015-06-03 | 北京智齿博创科技有限公司 | 智能应答方法及*** |
CN107315766A (zh) * | 2017-05-16 | 2017-11-03 | 广东电网有限责任公司江门供电局 | 一种集合智能与人工问答的语音问答方法及其装置 |
CN107609101A (zh) * | 2017-09-11 | 2018-01-19 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
WO2019153613A1 (zh) * | 2018-02-09 | 2019-08-15 | 平安科技(深圳)有限公司 | 聊天应答方法、电子装置及存储介质 |
WO2020019686A1 (zh) * | 2018-07-27 | 2020-01-30 | 众安信息技术服务有限公司 | 一种会话交互方法及装置 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及*** |
CN110737763A (zh) * | 2019-10-18 | 2020-01-31 | 成都华律网络服务有限公司 | 一种融合知识图谱和深度学习的中文智能问答***及方法 |
CN112148743A (zh) * | 2020-09-18 | 2020-12-29 | 北京达佳互联信息技术有限公司 | 智能客服知识库的更新方法、装置、设备及存储介质 |
CN113282733A (zh) * | 2021-06-11 | 2021-08-20 | 上海寻梦信息技术有限公司 | 客服问题匹配方法、***、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
农业问答***中问题分类和相似度计算的研究;高森;《中国优秀硕士学位论文全文数据库信息科技辑》(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113743124A (zh) | 2021-12-03 |
CA3170622A1 (en) | 2023-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190220752A1 (en) | Method, apparatus, server, and storage medium for incorporating structured entity | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
CN110619506B (zh) | 一种岗位画像生成方法、岗位画像生成装置及电子设备 | |
WO2018205389A1 (zh) | 语音识别方法、***、电子装置及介质 | |
CN110555101A (zh) | 一种客服知识库更新方法、装置、设备及存储介质 | |
CN115168562A (zh) | 一种智能问答***的构建方法、装置、设备及介质 | |
US8806455B1 (en) | Systems and methods for text nuclearization | |
CN116469500A (zh) | 一种基于医疗文档后结构化的数据质量控制方法及*** | |
CN111723559B (zh) | 一种实时信息抽取方法及装置 | |
CN113342954A (zh) | 一种应用于问答***的图像信息处理方法、装置及电子设备 | |
CN113743124B (zh) | 一种智能问答异常的处理方法、装置及电子设备 | |
CN115658903B (zh) | 文本分类方法、模型训练方法、相关装置及电子设备 | |
CN116955406A (zh) | Sql语句生成方法、装置、电子设备及存储介质 | |
US20230052623A1 (en) | Word mining method and apparatus, electronic device and readable storage medium | |
CN113468176B (zh) | 信息录入方法和装置、电子设备、计算机可读存储介质 | |
CN115906797A (zh) | 文本实体对齐方法、装置、设备及介质 | |
CN115600592A (zh) | 文本内容的关键信息提取方法、装置、设备及介质 | |
CN114138743A (zh) | 基于机器学习的etl任务自动配置方法及装置 | |
CN114840507A (zh) | 数据治理方法、装置、电子设备及存储介质 | |
CN114141235A (zh) | 语音语料库生成方法、装置、计算机设备和存储介质 | |
CN111191095A (zh) | 网页数据获取方法、装置、设备及介质 | |
CN112115237A (zh) | 烟草科技文献数据推荐模型的构建方法及装置 | |
CN112906650B (zh) | 教学视频的智能处理方法、装置、设备和存储介质 | |
CN112836529B (zh) | 生成目标语料样本的方法和装置 | |
CN114818683B (zh) | 一种基于移动端的运维方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |