CN111552789A

CN111552789A - 一种客服知识库自学习方法及装置

Info

Publication number: CN111552789A
Application number: CN202010343622.XA
Authority: CN
Inventors: 申亚坤
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-18
Anticipated expiration: 2040-04-27
Also published as: CN111552789B

Abstract

本申请公开了一种客服知识库自学习方法及装置，所述方法包括：获取盲点知识；将所述盲点知识输入到预先建立的多层前馈神经网络模型中，获得所述盲点知识对应的至少一个问题集合；在所述客服知识库中分别查找所述问题集合对应的各个答案数据；计算所述各个答案数据与所述盲点知识的文本相似度，将最高的文本相似度对应的答案数据作为所述盲点知识对应的答案数据；将所述盲点知识与所述盲点知识对应的答案数据均补充至所述客服知识库中。通过不断的获取盲点知识与盲点知识对应的答案数据，然后将其均补充到客服知识库中，实现寻找盲点知识对应的客服知识库的自学习。

Description

一种客服知识库自学习方法及装置

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种客服知识库自学习方法及装置。

背景技术

客服知识库是存储客服知识的数据库。例如，银行业中的客服知识库包括常见问题解答知识、网点知识、理财知识、坐席常用知识等。银行业的客服知识库用于解答客户问题和为银行机器人提供数据支撑。

在日常使用中，经常会出现客户提出一个问题，然后收到“对不起，该问题暂时没有答案”的回答。这些只有问题没有答案的知识被称为盲点知识，盲点知识是客服知识库中遗漏掉的知识。

现有技术中，通过人工寻找盲点知识的答案并将其补充到客服知识库中，工作量较大且时间花费较多。

发明内容

针对上述问题，本申请提供一种客服知识库自学习方法及装置，用于把盲点知识及其答案自动补充到知识库中。

在本申请第一方面提供一种客服知识库自学习方法，所述客服知识库包括问题数据以及与所述问题数据对应的答案数据，所述方法包括：

获取盲点知识；其中，所述盲点知识为无效答案数据对应的问题数据；

将所述盲点知识输入到预先建立的多层前馈神经网络模型中，获得所述盲点知识对应的至少一个问题集合；

在所述客服知识库中分别查找所述问题集合对应的各个答案数据；

计算所述各个答案数据与所述盲点知识的文本相似度，将最高的文本相似度对应的答案数据作为所述盲点知识对应的答案数据；

将所述盲点知识与所述盲点知识对应的答案数据均补充至所述客服知识库中。

可选的，所述将所述盲点知识输入到预先建立的多层前馈神经网络模型中，获得所述盲点知识对应的至少一个问题集合，具体包括：

将所述盲点知识输入到预先建立的多层前馈神经网络模型中，利用粒子群算法调节所述多层前馈神经网络模型的正则化参数和所述多层前馈神经网络模型的迭代次数，获得所述盲点知识对应的至少一个问题集合。

可选的，预先建立所述多层前馈神经网络模型，具体包括：

将历史盲点数据和所述历史盲点数据的属性标签数据输入至所述多层前馈神经网络模型进行训练，得到所述多层前馈神经网络模型；

其中，所述历史盲点数据的属性标签数据包括知识场景、知识标题、提问时间、产品标签、客户标签和渠道标签中的一种或多种。

可选的，所述将历史盲点数据和所述历史盲点数据的属性标签数据输入至所述多层前馈神经网络模型进行训练，得到所述多层前馈神经网络模型，具体包括：

将所述历史盲点数据输入到所述多层前馈神经网络模型中，获得所述历史盲点数据对应的至少一个预测问题集合；

基于所述预测问题集合、所述历史盲点数据的属性标签数据与所述多层前馈神经网络模型的损失函数训练调整所述多层前馈神经网络模型的参数，获得所述预先建立的多层前馈神经网络模型。

可选的，所述在所述客服知识库中分别查找所述问题集合对应的各个答案数据，包括：

通过句法逻辑将所述客服知识库分层；

在分层后的客服知识库中查找所述问题集合对应的各个答案数据。

在本申请第二方面提供一种客服知识库自学习装置，所述客服知识库包括问题数据以及与所述问题数据对应的答案数据，所述装置包括：

获取单元、神经网络模型单元、查找单元、计算单元和补充单元；

所述获取单元，用于获取盲点知识；其中，所述盲点知识为无效答案数据对应的问题数据；

所述神经网络模型单元，用于将所述盲点知识输入到预先建立的多层前馈神经网络模型中，获得所述盲点知识对应的至少一个问题集合；

所述查找单元，用于在所述客服知识库中分别查找所述问题集合对应的各个答案数据；

所述计算单元，用于计算所述各个答案数据与所述盲点知识的文本相似度，将最高的文本相似度对应的答案数据作为所述盲点知识对应的答案数据；

所述补充单元，用于将所述盲点知识与所述盲点知识对应的答案数据均补充至所述客服知识库中。

可选的，所述神经网络模型单元具体用于将所述盲点知识输入到预先建立的多层前馈神经网络模型中，利用粒子群算法调节所述多层前馈神经网络模型的正则化参数和所述多层前馈神经网络模型的迭代次数，获得所述盲点知识对应的至少一个问题集合。

可选的，所述神经网络模型单元包括训练单元，具体用于将历史盲点数据和所述历史盲点数据的属性标签数据输入至所述多层前馈神经网络模型进行训练，得到所述多层前馈神经网络模型；

可选的，所述训练单元具体用于将所述历史盲点数据输入到所述多层前馈神经网络模型中，获得所述历史盲点数据对应的至少一个预测问题集合；

可选的，所述查找单元具体用于通过句法逻辑将所述客服知识库分层；在分层后的客服知识库中查找所述问题集合对应的各个答案数据相对于现有技术，本申请上述技术方案的优点在于：

在本申请实施例中，首先，获得盲点知识后，可以通过预先建立的多层前馈神经网络模型，获得盲点知识在客服知识库中对应的问题集合，寻找盲点知识对应的客服知识类型属于一对多分类问题，预先建立的多层前馈神经网络能够逼近任何非线性函数，能够较快将盲点知识进行分类，寻找盲点知识对应的问题集合；然后，计算问题集合对应的各个答案数据与盲点知识的文本相似度，将最高的文本相似度对应的答案数据作为盲点知识的答案数据，可以获得更加准确的盲点知识的答案数据；最后，将盲点知识与盲点知识对应的答案数据均补充到客服知识库中，实现更新完善客服知识库中的数据，通过不断的获取盲点知识与盲点知识对应的答案数据，然后将其均补充到客服知识库中，实现客服知识库的自学习。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请提供的一种客服知识库自学习方法的流程图；

图2为本申请提供的一种客服知识库自学习装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在很多行业的客服务场景下，以银行行业为例，例如可以有银行APP中自动回答用户问题的客服机器人、通过电话回答用户问题的客服服人员、银行大厅中回答用户问题的客服机器人等客服务场景，在这些场景中，客服通过查询客服知识库回答用户的问题。但是经常会出现用户在提出一个问题后，经常后收到类似于“对不起，我不知道”等没有实质答案的无效答案。无效答案对应的问题被称为盲点知识，盲点知识是可能不常用的冷门知识或者新增的问题却没有添加到客服知识库中。

目前，在收集到盲点知识后，再通过人工寻找答案并将其补充至客服知识库中，工作量大且耗时长。

为了解决这一问题，在本申请实施例中，首先，获得盲点知识后，可以通过预先建立的多层前馈神经网络模型，获得盲点知识在客服知识库中对应的问题集合，寻找盲点知识对应的客服知识类型属于一对多分类问题，预先建立的多层前馈神经网络模型能够逼近任何非线性函数，能够较快将盲点知识进行分类，寻找盲点知识对应的问题集合；然后，计算问题集合对应的各个答案数据与盲点知识的文本相似度，将最高的文本相似度对应的答案数据作为盲点知识的答案数据，可以获得更加准确的盲点知识的答案数据；最后，将盲点知识与盲点知识对应的答案数据均补充到客服知识库中，实现更新完善客服知识库中的数据，通过不断的获取盲点知识与盲点知识对应的答案数据，然后将其均补充到客服知识库中，实现客服知识库的自学习。

参见图1，示出了本申请实施例中一种客服知识库自学习方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

S101：获取盲点知识；其中，所述盲点知识为无效答案数据对应的问题数据。

为客服知识库更加完善，应先获取盲点知识为数据分析提供基础。盲点知识的获取方式有多种，本申请不限定盲点知识的获取方式，例如可以在日志中获取盲点知识，或者通过上报渠道获取盲点知识，还可以通过定时脚本自动收集盲点知识。

以在日志中获取盲点知识为例，通过固定话术“对不起，我不知道”或预设的关键词“无法”等方式在日志中寻找无效答案数据，并将无效答案数据对应的问题数据作为盲点知识进行收集。

S102:将所述盲点知识输入到预先建立的多层前馈神经网络模型中，获得所述盲点知识对应的至少一个问题集合。

需要说明的是，由于客服知识属于非常繁杂的业务场景，例如银行的客服知识库，虽然可以将其按照例如“产品”、“分行”、“客户类型”、“渠道”等进行分类，但是在“产品”类别下还具有成千上万个问题。例如“富登通知存款”、“富登定活两便”、“富登整存整取”、“富登零存整取”、“富等大额存单”等等。

而本申请实施例根据上述场景的特点，即一个问题可能在客服知识库中对应多个问题，预先建立了多层前馈神经网络模型。该神经网络模型具有强大的非线性映射能力，能够实现一个从输入到输出的映射功能，以任意精度逼近任何非线性连续函数。这个特点使得多层前馈神经网络模型模型适合于求解内部机制复杂、分类多样的问题。

将获得的盲点知识输入到预先建立的多层前馈神经网络模型中，可以获得该盲点知识在客服知识库中对应的问题集合。该问题集合可以是一个，也可以是多个。

例如，盲点知识为“我想办一个中国银行X主题的Visa***，我需要什么材料？”，将该盲点知识输入到预先建立的多层前馈神经网络模型中，会获得一个关于“X主题***”的问题集合。该问题集合对应于客服知识库中的“产品”下X主题中关于***的多个问题。同理还可以获得“产品”和“分行”分别对应的两个问题集合，在此不再一一举例。

在一种可能实现的方式中，用户提出一个问题需要在短时间内对该问题进行回答，这就需要快速的响应用户，提高对问题答案的查找速度。又由于客服知识库是一个非常庞大的数据库，遍历查找起来会使用户的等待时间较长，从而导致用户的体验感差。所以，可以通过粒子群算法对预先建立的多层前馈神经网络模型进行参数调节。

采用较小惯性因子与随机权重的原则，其中较小惯性因子有利于对当前的搜索区域进行精确局部搜索，加速算法收敛，随机的选择权重，使得微粒历史速度对当前速度的影响是随机的，以实现利用粒子群算法快速调节多层前馈神经网络模型的正则化参数与迭代次数。

具体的，可以将所述盲点知识输入到预先建立的多层前馈神经网络模型中，利用粒子群算法调节所述多层前馈神经网络模型的正则化参数和所述多层前馈神经网络模型的迭代次数，获得所述盲点知识对应的至少一个问题集合。

通过采用粒子群算法可以提高搜索速度和搜索效率、且粒子群算法简单，非常适合高响应低延迟的客服服务领域。

具体应用中，多层前馈神经网络模型的训练过程实际上是指在获取历史盲点数据以及对应的属性标签数据的基础上，将历史盲点数据和所述历史盲点数据的属性标签数据输入至所述多层前馈神经网络模型进行训练，不断迭代优化参数，例如当模型指标中的auc最高时，停止迭代，将此时的优化参数代入到模型中，得到所述多层前馈神经网络模型。

获取历史盲点数据的属性标签数据是通过例如特征工程等方式获得的，可以是知识场景、知识标题、提问时间、产品标签、客户标签和渠道标签中的一种或多种。

在本申请实施例一种可选的实施方式中，预先建立的多层神经网络模型的训练步骤例如可以包括以下步骤：

步骤A：将所述历史盲点数据输入到所述多层前馈神经网络模型中，获得所述历史盲点数据对应的至少一个预测问题集合；

步骤B：基于所述预测问题集合、所述历史盲点数据的属性标签数据与所述多层前馈神经网络模型的损失函数训练调整所述多层前馈神经网络模型的参数，获得所述预先建立的多层前馈神经网络模型。

S103：在所述客服知识库中分别查找所述问题集合对应的各个答案数据。

获得问题集合后，在客服知识中查找到问题集合中每个问题对应的答案数据。

在一种可能的实现方式中，可以通过句法逻辑将所述客服知识库分层；在分层后的客服知识库中查找所述问题集合对应的各个答案数据。

具体的，把客服知识库中的数据按照句法逻辑，即主、谓、宾、补进行分层，然后以树的形式展示。在银行中存在大量相似、具有强规则性的知识，如“中银富登对公单位协定存款介绍”、“中银富登特色定期存款再接再厉介绍”、“中银富登个人人民币存款介绍”、“中银富登个人活期储蓄存款介绍”、“中银富登特色定期存款鑫鑫向荣介绍”等，通过按照句法逻辑将所述客服知识库分层，可以快速的在分层后的客服知识库中查找所述问题集合对应的各个答案数据，提高搜索答案的速度。

S104：计算所述各个答案数据与所述盲点知识的文本相似度，将最高的文本相似度对应的答案数据作为所述盲点知识对应的答案数据。

生成句法分析树以后，计算所述各个答案数据与盲点知识的文本相似度，例如在客服知识库中“中银富登_存贷款计息规定”中有这样一段话：“金融机构通知存款是客户在存款时不约定存期，支取时须提前通知银行，并约定支取日和金额方能支取的存款。存款须一次性存入，可以一次或分次支取。通知存款无论实际存期多长，按存款人提前通知的期限长短划分品种，开办人民币一天和七天通知存款。”，这段话是介绍通知存款特性的，如果盲点知识是“通知存库能不能多次存入呢”，显然，盲点知识跟这段话匹配度较高，因为“通知存款”和“存入”都是这篇源文档出现较少的词，两者文本相似度较高。可以将“金融机构通知存款是客户在存款时不约定存期，支取时须提前通知银行，并约定支取日和金额方能支取的存款。存款须一次性存入，可以一次或分次支取。通知存款无论实际存期多长，按存款人提前通知的期限长短划分品种，开办人民币一天和七天通知存款。”作为盲点知识“通知存库能不能多次存入呢”的答案数据。

S105:将所述盲点知识与所述盲点知识对应的答案数据均补充至所述客服知识库中。

由于客服知识库包括问题数据以及与问题数据对应的答案数据，所以应该将盲点知识与盲点知识对应的答案数据对应后，均补充到客服知识库中，以便后续再出现与盲点知识类似的问题，用户就可以获得该问题的有效答案。

在本申请实施例中，首先，获得盲点知识后，可以通过预先建立的多层前馈神经网络模型，获得盲点知识在客服知识库中对应的问题集合，寻找盲点知识对应的客服知识类型属于一对多分类问题，预先建立的多层前馈神经网络模型能够逼近任何非线性函数，能够较快将盲点知识进行分类，寻找盲点知识对应的问题集合；然后，计算问题集合对应的各个答案数据与盲点知识的文本相似度，将最高的文本相似度对应的答案数据作为盲点知识的答案数据，可以获得更加准确的盲点知识的答案数据；最后，将盲点知识与盲点知识对应的答案数据均补充到客服知识库中，实现更新完善客服知识库中的数据，通过不断的获取盲点知识与盲点知识对应的答案数据，然后将其均补充到客服知识库中，实现客服知识库的自学习。

本发明实施例除了提供的客服知识库自学习方法外，还提供了客服知识库自学习装置，如图2所示，包括：获取单元201、神经网络模型单元202、查找单元203、计算单元204和补充单元205，其中：

获取单元201，用于获取盲点知识；其中，所述盲点知识为无效答案数据对应的问题数据；

神经网络模型单元202，用于将所述盲点知识输入到预先建立的多层前馈神经网络模型中，获得所述盲点知识对应的至少一个问题集合；

查找单元203，用于在所述客服知识库中分别查找所述问题集合对应的各个答案数据；

计算单元204，用于计算所述各个答案数据与所述盲点知识的文本相似度，将最高的文本相似度对应的答案数据作为所述盲点知识对应的答案数据；

补充单元205，用于将所述盲点知识与所述盲点知识对应的答案数据均补充至所述客服知识库中。

在一种可能实现的方式中，神经网络模型单元202具体用于将所述盲点知识输入到预先建立的多层前馈神经网络模型中，利用粒子群算法调节所述多层前馈神经网络模型的正则化参数和所述多层前馈神经网络模型的迭代次数，获得所述盲点知识对应的至少一个问题集合。

在一种可能实现的方式中，神经网络模型单元202包括训练单元，具体用于将历史盲点数据和所述历史盲点数据的属性标签数据输入至所述多层前馈神经网络模型进行训练，得到所述多层前馈神经网络模型；

在一种可能实现的方式中，训练单元具体用于将所述历史盲点数据输入到所述多层前馈神经网络模型中，获得所述历史盲点数据对应的至少一个预测问题集合；基于所述预测问题集合、所述历史盲点数据的属性标签数据与所述多层前馈神经网络模型的损失函数训练调整所述多层前馈神经网络模型的参数，获得所述预先建立的多层前馈神经网络模型。

在一种可能实现的方式中，查找单元203具体用于通过句法逻辑将所述客服知识库分层；在分层后的客服知识库中查找所述问题集合对应的各个答案数据。

采用本申请实施例提供的客服知识库自学习装置，首先，获得盲点知识后，可以通过预先建立的多层前馈神经网络模型，获得盲点知识在客服知识库中对应的问题集合，寻找盲点知识对应的客服知识类型属于一对多分类问题，预先建立的多层前馈神经网络模型能够逼近任何非线性函数，能够较快将盲点知识进行分类，寻找盲点知识对应的问题集合；然后，计算问题集合对应的各个答案数据与盲点知识的文本相似度，将最高的文本相似度对应的答案数据作为盲点知识的答案数据，可以获得更加准确的盲点知识的答案数据；最后，将盲点知识与盲点知识对应的答案数据均补充到客服知识库中，实现更新完善客服知识库中的数据，通过不断的获取盲点知识与盲点知识对应的答案数据，然后将其均补充到客服知识库中，实现客服知识库的自学习。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种客服知识库自学习方法，其特征在于，所述客服知识库包括问题数据以及与所述问题数据对应的答案数据，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述盲点知识输入到预先建立的多层前馈神经网络模型中，获得所述盲点知识对应的至少一个问题集合，具体包括：

3.根据权利要求1所述的方法，其特征在于，预先建立所述多层前馈神经网络模型，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述将历史盲点数据和所述历史盲点数据的属性标签数据输入至所述多层前馈神经网络模型进行训练，得到所述多层前馈神经网络模型，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述在所述客服知识库中分别查找所述问题集合对应的各个答案数据，包括：

通过句法逻辑将所述客服知识库分层；

6.一种客服知识库自学习装置，其特征在于，所述客服知识库包括问题数据以及与所述问题数据对应的答案数据，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述神经网络模型单元具体用于将所述盲点知识输入到预先建立的多层前馈神经网络模型中，利用粒子群算法调节所述多层前馈神经网络模型的正则化参数和所述多层前馈神经网络模型的迭代次数，获得所述盲点知识对应的至少一个问题集合。

8.根据权利要求6所述的装置，其特征在于，所述神经网络模型单元包括训练单元，具体用于将历史盲点数据和所述历史盲点数据的属性标签数据输入至所述多层前馈神经网络模型进行训练，得到所述多层前馈神经网络模型；

9.根据权利要求8所述的装置，其特征在于，所述训练单元具体用于将所述历史盲点数据输入到所述多层前馈神经网络模型中，获得所述历史盲点数据对应的至少一个预测问题集合；

10.根据权利要求6所述的装置，其特征在于，所述查找单元具体用于通过句法逻辑将所述客服知识库分层；在分层后的客服知识库中查找所述问题集合对应的各个答案数据。