CN109189931B

CN109189931B - 一种目标语句的筛选方法及装置

Info

Publication number: CN109189931B
Application number: CN201811034021.XA
Authority: CN
Inventors: 李几鞅
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2021-05-11
Anticipated expiration: 2038-09-05
Also published as: CN109189931A

Abstract

本申请实施例提供了一种目标语句的筛选方法及装置，涉及智能客服技术领域，该方法包括：首先根据语句特征信息从信息咨询的对话记录中提取目标语句集，然后利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息确定任意两条目标语句之间的相似度。之后再根据任意两条目标语句之间的相似度对目标语句集中的目标语句进行聚类，最后从聚类后的目标语句中筛选出符合设定条件的目标语句。由于多维度的文本特征更全面地表达了目标语句的特征，故利用相似度拟合模型，根据目标语句之间的多维度文本特征信息确定目标语句之间的相似度，能有效提高确定相似度的精度，从而提高筛选目标语句的效率和准确性。

Description

一种目标语句的筛选方法及装置

技术领域

本申请实施例涉及智能客服技术领域，尤其涉及一种目标语句的筛选方法及装置。

背景技术

目前，国内整个客服的市场规模已经超过千亿。在用户体验上，在线客服是企业使用率最高的客服***，其中，智能客服的使用率逐年在提高。知识库构建是智能客服的核心问题，只要知识库的数据足够全面，智能客服对问题的解答就越能令用户满意。现有技术中，知识库通常由人工编辑，在更新知识库时，通过人工从用户的咨询记录中筛选出语句添加至知识库，其效率和准确性较低。

发明内容

由于现有技术中，在更新知识库时，通过人工从用户的咨询记录中筛选出语句添加至知识库，其效率和准确性较低的问题，本申请实施例提供了一种目标语句的筛选方法及装置，用于自动从信息咨询对话中提取满足预设条件的目标语句，提高筛选目标语句的效率和准确性。

第一方面，本申请实施例提供了一种目标语句的筛选方法，该方法包括：

根据语句特征信息，从信息咨询的对话记录中提取目标语句集；

获取任意两条目标语句的多维度文本特征信息；

利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息，获得任意两条目标语句之间的相似度，所述相似度拟合模型是预先采用目标语句的多维度文本特征信息训练得到的；

根据任意两条目标语句之间的相似度对所述目标语句集中的目标语句进行聚类；

从聚类后的目标语句中筛选出符合设定条件的目标语句。

由于根据语句特征信息从信息咨询的对话记录中提取目标语句集，然后根据目标语句集中的目标语句之间的相似度对目标语句进行聚类，将包含相似特征的目标语句聚为一类，故可以根据需求从聚类后的目标语句中筛选出符合预设条件的目标语句，相较于人工从信息咨询对话中筛选语句来说，提高了筛选目标语句的效率。其次，由于相似度拟合模型是预先采用目标语句的多维度文本特征信息训练得到的，故相似度拟合模型充分学习了目标语句之间的相似度与目标语句的多维度文本特征之间的关系，另外多维度的文本特征更全面地表达了目标语句的特征，故利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息，获得任意两条目标语句之间的相似度，能有效提高确定任意两条目标语句之间的相似度的精度，从而提高筛选目标语句的准确性。

可选地，所述多维度文本特征信息包括关键词特征信息和词序特征信息；

所述利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息，获得任意两条目标语句之间的相似度，包括：

利用相似度拟合模型，根据任意两条目标语句的关键词特征信息确定所述任意两条目标语句之间的文本相似度；

利用所述相似度拟合模型，根据所述任意两条目标语句的词序特征信息确定所述任意两条目标语句之间的语义相似度；

根据所述任意两条目标语句之间的文本相似度和语义相似度确定所述任意两条目标语句之间的相似度。

由于在确定任意两条目标语句之间的相似度时，不仅仅只考虑任意两条目标语句的关键词，同时考虑了任意两条目标语句的词序关系，从而使确定的目标语句的相似度与目标语句之间实际的相似度更接近，提高了确定目标语句之间的相似度的精度。

利用相似度拟合模型，根据任意两条目标语句的关键词特征信息确定任意两条目标语句之间的文本相似度；

判断所述任意两条目标语句之间的文本相似度是否大于预设阈值；

若是，则将所述任意两条目标语句之间的文本相似度确定为所述任意两条目标语句之间的相似度；

否则，利用所述相似度拟合模型，根据所述任意两条目标语句的词序特征信息确定所述任意两条目标语句之间的语义相似度，并根据所述任意两条目标语句之间的文本相似度和语义相似度确定所述任意两条目标语句之间的相似度。

由于在确定任意两条目标语句的相似度时，以关键词特征信息为主要特征确定任意两条目标语句之间的相似度，当根据关键词特征信息确定任意两条目标语句之间的文本相似度大于预设阈值时，直接将文本相似度确定为任意两条目标语句之间的相似度，而不再根据词序特征信息确定任意两条目标语句之间的语义相似度，提高了确定任意两条目标语句之间的相似度的效率。当根据关键词特征信息确定任意两条目标语句之间的文本相似度不大于预设阈值时，结合任意两条目标语句之间的文本相似度和语义相似度确定任意两条目标语句之间的相似度，提高了确定任意两条目标语句之间的相似度的精度。

可选地，所述根据语句特征信息，从信息咨询的对话记录中提取目标语句集，包括：

从所述信息咨询的对话记录中提取包含疑问词的目标语句组成目标语句集。

当用户需要提取信息咨询的对话记录中用户或客服提出的问题时，采用疑问词匹配的方法提取目标语句组成目标语句集，提高了从信息咨询的对话记录提取目标语句集的效率。

可选地，所述从聚类后的目标语句中筛选出符合设定条件的目标语句，包括：

根据聚类后的各个类别的目标语句数量以及目标语句之间的相似度从各个类别中确定出目标类别及所述目标类别中的目标语句。

可选地，所述对话记录为客服和用户之间的对话记录，则所述方法还包括：

将符合设定条件的目标语句更新到智能客服知识库中。

根据聚类后的各个类别的目标语句数量以及目标语句之间的相似度确定了出现频次较高且相似度较高的目标语句，将出现频次较高且相似度较高的目标语句添加至智能客服知识库能提高知识库的适用性，同时提高智能客服回答用户咨询问题的准确性，从而提高用户体验。

第二方面，本申请实施例提供了一种目标语句的筛选装置，包括：

提取模块，用于根据语句特征信息，从信息咨询的对话记录中提取目标语句集；

处理模块，用于获取任意两条目标语句的多维度文本特征信息；利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息，获得任意两条目标语句之间的相似度，所述相似度拟合模型是预先采用目标语句的多维度文本特征信息训练得到的；

聚类模块，用于根据任意两条目标语句之间的相似度对所述目标语句集中的目标语句进行聚类；

筛选模块，用于从聚类后的目标语句中筛选出符合设定条件的目标语句。

所述处理模块具体用于：

可选地，所述提取模块具体用于：

可选地，所述筛选模块具体用于：

可选地，所述对话记录为客服和用户之间的对话记录，所述筛选模块还用于：将符合设定条件的目标语句更新到智能客服知识库中。

第三方面，本申请实施例提供了一种智能客服***，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行第一方面所述方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由智能客服***执行的计算机程序，当所述程序在智能客服***上运行时，使得所述智能客服***执行第一方面所述方法的步骤。

本申请实施例中，由于根据语句特征信息从信息咨询的对话记录中提取目标语句集，然后根据目标语句集中的目标语句之间的相似度对目标语句进行聚类，将包含相似特征的目标语句聚为一类，故可以根据需求从聚类后的目标语句中筛选出符合预设条件的目标语句，相较于人工从信息咨询对话中筛选语句来说，提高了筛选目标语句的效率。其次，由于相似度拟合模型是预先采用目标语句的多维度文本特征信息训练得到的，故相似度拟合模型充分学习了目标语句之间的相似度与目标语句的多维度文本特征之间的关系，另外多维度的文本特征更全面地表达了目标语句的特征，故利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息，获得任意两条目标语句之间的相似度，能有效提高确定任意两条目标语句之间的相似度的精度，从而提高筛选目标语句的准确性。另外，根据聚类后各个类别的目标语句数量和目标语句的相似度从各个类别中确定目标类别，将目标类别中的目标语句更新至智能客服知识库，从而提高了智能客服知识库对用户所提问题的覆盖度，同时提高了智能客服回答用户所提问题的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景图；

图2为本申请实施例提供的一种咨询窗口的示意图；

图3为本申请实施例提供的一种咨询窗口的示意图；

图4为本申请实施例提供的一种智能客服***的结构示意图；

图5为本申请实施例提供的一种目标语句的筛选方法的流程示意图；

图6为本申请实施例提供的一种BiMPM模型的结构示意图；

图7为本申请实施例提供的确定目标语句之间的相似度的方法的流程示意图；

图8为本申请实施例提供的确定目标语句之间的相似度的方法的流程示意图；

图9为本申请实施例提供的一种更新智能客服知识库的方法的流程示意图；

图10为本申请实施例提供的一种目标语句的筛选装置的结构示意图；

图11为本申请实施例提供的一种智能客服***结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本申请实施例中涉及的名词进行解释。

智能客服***：智能客服***是在大规模知识处理基础上发展起来的一项面向行业应用的，适用大规模知识处理、自然语言理解、知识管理、自动问答***、推理等等技术行业，智能客服不仅为企业提供了细粒度知识管理技术，还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段；同时还能够为企业提供精细化管理所需的统计分析信息。

知识库：一种是指专家***设计所应用的规则集合，包含规则所联系的事实及数据，它们的全体构成知识库。这种知识库是与具体的专家***有关，不存在知识库的共享问题；另一种是指具有咨询性质的知识库，这种知识库是共享的，不是一家所独有的。

在具体实践过程中，本申请的发明人发现，现有技术中商户申请智能客服后，首先根据经验在智能客服知识库中添加用户经常会提问的问题，然后将问题与对应的答案关联。当用户向智能客服提交问题时，智能客服根据用户所提的问题从智能客服知识库中查找关联的答案并反馈给用户。然而用户在实际咨询智能客服时，所提的问题以及提问的方式与个人习惯和实际需求相关，因此会出现智能客服知识库没有覆盖有些用户咨询的问题的情况，从而导致智能客服不能对这些用户提出的问题作出解答。为了提高智能客服知识库对用户所提问题的覆盖程度，商户提取信息咨询的对话记录中智能客服不能回答的问题添加至知识库，但是该方法需要借助人工从信息咨询的对话记录筛选出目标语句，其效率和准确性较低。

为此，本申请的发明人考虑到，可以获取商户在一段时间内客服与用户的对话记录，然后根据语句特征信息，从信息咨询的对话记录中提取目标语句集。比如需要从信息咨询的对话记录中筛选出用户所提的问题时，可以将信息咨询的对话记录与预设的疑问词进行匹配，提取出包含疑问词的目标语句组成目标语句集。

为了提高添加至智能客服知识库中的目标语句的适用性，从信息咨询的对话记录中筛选的目标语句应该是大多数用户会提出的，因此，可以根据任意两条目标语句之间的相似度对目标语句集中的目标语句进行聚类，然后根据聚类后的各个类别的目标语句数量从各个类别中确定出目标类别及目标类别中的目标语句。具体地，可以按照目标语句数量从高到低的顺序对各个类别进行排序，选取排在前N的类别，然后将排在前N类中的目标语句推送至商户，由商户按照实际需求将推送的目标语句保存至智能客服知识库。由于不需要用户从信息咨询的对话记录中筛选出用户经常提出的问题，从而提高了更新智能客服知识库的效率。

由于根据任意两条目标语句之间的相似度对目标语句集中的目标语句进行聚类，因此任意两条目标语句之间的相似度决定了聚类效果，从而进一步影响从信息咨询的对话记录中筛选出目标语句的准确性。为此，本申请中在获取每条目标语句的多维度文本特征信息后，利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息，获得任意两条目标语句之间的相似度，其中相似度拟合模型是预先采用目标语句的多维度文本特征信息训练得到的。由于相似度拟合模型是预先采用目标语句的多维度文本特征信息训练得到的，故相似度拟合模型充分学习了目标语句之间的相似度与目标语句的多维度文本特征之间的关系，另外多维度的文本特征更全面地表达了目标语句的特征，故利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息，获得任意两条目标语句之间的相似度，能有效提高确定任意两条目标语句之间的相似度的精度，从而提高筛选目标语句的准确性。

本申请实施例中的目标语句的筛选方法可以应用于如图1所示的应用场景，在该应用场景中包括用户终端101、客服终端102、智能客服***103。

用户终端101和客服终端102是具备网络通信能力的电子设备，该电子设备可以是智能手机、平板电脑或便携式个人计算机等等。用户终端101通过无线网络与智能客服***103连接，客服终端102通过无线网络与智能客服***103连接。智能客服***103包括知识库以及目标语句的筛选装置，智能客服***103是一台服务器或若干台服务器组成的服务器集群或云计算中心。

用户在用户终端101中点击商户网站后进入商户网页。当用户点击商户网页中的客服图标时，用户终端101向智能客服***103发送咨询请求，智能客服***103响应后在用户终端101弹出咨询窗口，具体如图2所示。当用户在咨询窗口中输入问题“请问商品A的价格是多少？”时，用户终端101将用户输入的问题提交至智能客服***103。智能客服***103查找商户对应的知识库，若知识库中包含用户输入的问题或者与用户输入的问题相似的问题时，从知识库中获取用户输入的问题对应的答案。若智能客服***103查询知识库确定问题“请问商品A的价格是多少？”对应的答案为“100元”，则将该答案发送至用户终端101，商户网页上的咨询窗口显示“100元”，具体如图3所示。若智能客服***103查询知识库确定问题“请问商品A的价格是多少？”没有对应的答案时，智能客服***103将该问题发送至客服终端102。可选地，一个商户中可能包含多个人工客服，智能客服***103将该问题发送至客服终端102之前，先确定该商户中处于空闲状态的客服终端102，然后将该问题发送至处于空闲状态的客服终端102。客服终端102弹出咨询界面或显示提醒信息，人工客服在客服终端102弹出的咨询界面中输入答案“100元”后提交至。客服终端102将该答案发送至智能客服***103，由智能客服***103将答案发送至用户终端101。用户终端101商户网页上的咨询窗口显示“100元”，具体如图3所示。

智能客服***103可以为多个商户提供智能客服服务，每一个商户在智能客服***103中对应一个知识库。比如智能客服***103为商户A、商户B和商户C提供智能客服服务，商户A、商户B和商户C在智能客服***103中分别对应知识库1、知识库2和知识库3。针对任意一个商户，比如商户A，智能客服***103更新知识库时，智能客服***103可以获取商户A在使用智能客服一段时间后，人工客服与用户之间的对话记录，然后从对话记录中筛选出符合预设条件的目标语句添加至知识库1。智能客服***103也可以获取商户A在使用智能客服之前，人工客服与用户之间的对话记录，然后从对话记录中筛选出符合预设条件的目标语句添加至知识库1。智能客服***103还可以同时获取商户A在使用智能客服之前以及商户A在使用智能客服一段时间后，人工客服与用户之间的对话记录，然后从对话记录中筛选出符合预设条件的目标语句添加至知识库1。智能客服***103筛选出符合预设条件的目标语句后，将目标语句发送至商户A中客服管理人员对应的客服终端102，客服终端102显示目标语句推荐界面。由客服管理人员确定是否将推荐目标语句添加至知识库1。若客服管理人员在目标语句推荐界面选择所有推荐的目标语句并提交。智能客服***103将所有推荐的目标语句添加至知识库1。若推荐的目标语句为用户所提的问题时，客服管理人员在目标语句推荐界面选择目标语句后填写目标语句对应的答案后提交，智能客服***103将客服管理人员选择的目标语句以及目标语句对应的答案添加至知识库1。

进一步地，在图1所示的应用场景图中，智能客服***103的结构示意图如图4所示，智能客服***103包括：提取模块1031、相似度拟合模型1032、聚类模块1033、筛选模块1034、知识库1035、存储器1036。

提取模块1031从存储器1036中获取在商户在使用智能客服一段时间后，人工客服与用户之间信息咨询的对话记录，然后根据语句特征信息，从信息咨询的对话记录中提取目标语句集。提取模块1031将目标语句集输入相似度拟合模型1032。相似度拟合模型1032获取每条目标语句的多维度文本特征信息，根据任意两条目标语句的多维度文本特征信息确定任意两条目标语句之间的相似度。提取模块1031将确定了任意两条目标语句之间的相似度的目标语句集发送至聚类模块1033。聚类模块1033根据任意两条目标语句之间的相似度对目标语句集中的目标语句进行聚类。筛选模块1034从聚类后的目标语句中筛选出符合设定条件的目标语句，然后将符合设定条件的目标语句发送至客服终端102。筛选模块1034在接收到客服终端102发送的目标语句选择指令时，将客服管理人员选择的目标语句添加至知识库1035。

基于图1所示的应用场景图和图4所示的智能客服***的结构示意图，本申请实施例提供了一种目标语句的筛选方法的流程，该方法的流程可以由目标语句的筛选装置执行，如图5所示，包括以下步骤：

步骤S501，根据语句特征信息，从信息咨询的对话记录中提取目标语句集。

信息咨询的对话记录可以是客服与用户之间的对话记录，也可以是咨询机构与企业之间的对话记录，还可以是咨询顾问与客户之间的对话记录。语句特征信息可以根据实际需求进行设定，可以是一个词、一句话或者一个符号等等。将语句特征信息与信息咨询的对话记录中的语句进行匹配，提取包含语句特征信息的目标语句组成目标语句集。

步骤S502，获取任意两条目标语句的多维度文本特征信息。

多维度文本特征信息至少包括关键词特征信息和词序特征信息，其中，关键词特征信息包括连续命中词占比、关键词重复数量、关键词相似度、Biterm相似度、Levenshtein距离等。

步骤S503，利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息，获得任意两条目标语句之间的相似度。

相似度拟合模型是预先采用目标语句的多维度文本特征信息训练得到的。

步骤S504，根据任意两条目标语句之间的相似度对目标语句集中的目标语句进行聚类。

可选地，对目标语句集中的目标语句进行聚类时，可以采用K-Means(K均值)聚类、均值漂移聚类、基于密度的聚类方法、层次聚类等聚类算法。

步骤S505，从聚类后的目标语句中筛选出符合设定条件的目标语句。

具体地，在上述步骤S501中，提取目标语句集至少包括以下几种实施方式：

在一种可能的实施方式中，语句特征信息可以是疑问词，从信息咨询的对话记录中提取包含疑问词的语句组成目标语句集。示例性地，预先设置疑问词“吗”、“呢”、“什么”、“为什么”、“多少”，获取一段客服与用户之间的对话记录，将对话记录中每个语句与上述疑问词进行匹配，确定出包含上述至少一个疑问词的语句。设定客服与用户之间的对话记录中语句1“商品A的价格是多少？”包含疑问词“多少”，语句2“商品A的功能是什么”包含疑问词“什么”，则将语句1和语句2组成目标语句集。

在一种可能的实施方式中，语句特征信息可以是包含关键词且关键词权重大于阈值，从信息咨询的对话记录中提取包含关键词且关键词权重大于阈值的目标语句组成目标语句集。示例性地，获取一段客服与用户之间的对话记录，采用TF-IDF(term frequency–inverse document frequency)确定对话记录中每个语句包含的关键词以及关键词的权重，若语句3“商品A的价格”中包含关键词“价格”，且该关键词的权重大于预设阈值，则将语句3“商品A的价格”组成目标语句集。

在上述步骤S502和步骤S503中，相似度拟合模型包括文本相似度拟合模型、语义相似度拟合模型以及融合模型。文本相似度拟合模型可以是XGBoost模型，语义相似度拟合模型可以是BiMPM(Bilateral Multi-Perspective Matching)模型、BiLSTM模型等。融合模型可以是逻辑回归模型(Logistic Regression，简称LR)。

采用目标语句的多维度文本特征信息训练相似度拟合模型时，将文本相似度拟合模型、语义相似度拟合模型以及融合模型进行组合训练。示例性地，设定文本相似度拟合模型为XGBoost模型，语义相似度拟合模型为BiMPM模型，融合模型是LR模型。预先获取30万对语句作为训练样本，这30万对语句中包括语义相关的也包括语义不相关的。人工标记训练样本中语句对的文本相似度后输入XGBoost模型进行训练。在训练过程中，XGBoost模型提取语句对的关键词特征信息，关键词特征信息具体包括连续命中词占比、关键词重复数量、关键词相似度、Biterm相似度、Levenshtein距离等。

人工标记训练样本中语句对的语义相似度后输入BiMPM模型进行训练，BiMPM模型的结构如图6所示，包括词表示层(Word Representation Layer)、词序表示层(ContextRepresentation Layer)、匹配层(Matching Layer)、聚合层(Aggregation Layer)、预测层(Prediction Layer)。针对任意一个语句对P、Q，分别对语句对中的语句进行分词。具体地，在词表示层将语句P表示为词语p1、p2、p3、……pM。将语句Q表示为词语q1、q2、q3、……qN。词表示层将语句P、Q分词后输入词序表示层。词序表示层提取语句中任意两个相邻词语的词序关系并使用词序表示向量表示。具体地，任意两个相邻词语的词序关系可以是从句首至句尾的词序关系，即图6词序表示层中指向右侧的箭头。任意两个相邻词语的词序关系也可以是从句尾至句首的词序关系，即图6词序表示层中指向左侧的箭头。匹配层将语句P的词序表示向量与语句Q中任意两个相邻词语的词序表示向量进行匹配输出匹配向量。匹配层将语句P中任意两个相邻词语的词序表示向量与语句Q的词序表示向量进行匹配输出匹配向量。匹配层将匹配向量输入聚合层，聚合层将各个匹配向量根据词序关系进行聚合，图6所示的聚合层中指向右侧的箭头表示根据从句首至句尾的词序关系对匹配向量进行聚合得到聚合向量。指向左侧的箭头表示根据从句尾至句首的词序关系对匹配向量进行聚合得到聚合向量。将聚合向量输入预测层，预测层根据4个聚合向量预测语句P和语句Q之间的语义相似度Pr(y|P,Q)。

在训练过程中，XGBoost模型预测输出的文本相似度和BiMPM模型预测输出的语义相似度输入LR模型，LR模型输出语句对的相似度。当XGBoost模型、BiMPM模型以及LR模型组成的模型的目标函数满足预设条件时，训练结束，得到最终的相似度拟合模型。

在上述步骤S503中，利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息，获得任意两条目标语句之间的相似度时，至少存在以下几种实施方式：

在一种可能的实施方式中，如图7所示，包括以下步骤：

步骤S701，利用相似度拟合模型，根据任意两条目标语句的关键词特征信息确定任意两条目标语句之间的文本相似度。

可选地，利用训练好的XGBoost模型，根据目标语句集中任意两条目标语句的关键词特征信息确定任意两条目标语句之间的文本相似度。

步骤S702，利用相似度拟合模型，根据任意两条目标语句的词序特征信息确定任意两条目标语句之间的语义相似度。

可选地，利用训练好的BiMPM模型，根据目标语句集中任意两条目标语句的词序特征信息确定任意两条目标语句之间的语义相似度。

步骤S703，根据任意两条目标语句之间的文本相似度和语义相似度确定任意两条目标语句之间的相似度。

可选地，利用训练好的LR模型，根据任意两条目标语句之间的文本相似度和语义相似度确定任意两条目标语句之间的相似度。

在一种可能的实施方式中，如图8所示，包括以下步骤：

步骤S801，利用相似度拟合模型，根据任意两条目标语句的关键词特征信息确定任意两条目标语句之间的文本相似度。

步骤S802，判断任意两条目标语句之间的文本相似度是否大于预设阈值，若是，则执行步骤S803，否则执行步骤S804。

步骤S803，将任意两条目标语句之间的文本相似度确定为任意两条目标语句之间的相似度。

步骤S804，利用相似度拟合模型，根据任意两条目标语句的词序特征信息确定任意两条目标语句之间的语义相似度。

步骤S805，根据任意两条目标语句之间的文本相似度和语义相似度确定任意两条目标语句之间的相似度。

在上述步骤S505，至少包括以下几种筛选符合设定条件的目标语句的方法：

在一种可能的实施方式中，根据聚类后的各个类别的目标语句数量从各个类别中确定出目标类别及目标类别中的目标语句。示例性地，设定目标语句聚类后得到20个类别，然后将20个类别按照目标语句的数量从大到小进行排序，确定排在前10的目标类别及目标类别中的目标语句。

在一种可能的实施方式中，根据聚类后的各个类别的目标语句之间的相似度从各个类别中确定出目标类别及目标类别中的目标语句。示例性地，设定目标语句集聚类后得到20个类别，然后针对任意一个类别，计算该类别中目标语句之间的平均相似度。按照平均相似度从大到小的顺序将20个类别进行排序，确定排在前10的目标类别及目标类别中的目标语句。

在一种可能的实施方式中，根据聚类后的各个类别的目标语句数量以及目标语句之间的相似度从各个类别中确定出目标类别及目标类别中的目标语句。示例性地，设定目标语句聚类后得到20个类别，将20个类别按照目标语句的数量从大到小进行排序，确定排在前15的类别。然后分别计算这15个类别中目标语句之间的平均相似度，按照平均相似度从大到小的顺序对这15个类别进行排序，确定排在前10的目标类别及目标类别中的目标语句。

当对话记录为客服和用户之间的对话记录时，在上述步骤S505之后，将符合设定条件的目标语句更新到智能客服知识库中。示例性地，设定目标语句为客服和用户之间的对话记录中包含疑问词的语句。根据聚类后的各个类别的目标语句数量以及目标语句之间的相似度从各个类别中确定出10个目标类别。分别从每个类别中随机挑选3条目标语句，将挑选的目标语句推送至客服终端。由客服管理人员从推送的目标语句中选择添加至智能客服知识库中的目标语句。客服管理人员在客服终端选择目标语句后，填写目标语句对应的答案，然后将选择的目标语句和对应的答案提交至智能客服知识库。

为了更好的解释本申请实施例，下面结合具体的实施场景描述本申请实施例提供的一种更新智能客服知识库的方法，该方法的流程可以由智能客服***执行，如图9所示，该方法包括以下步骤：

步骤S901，获取客服与用户之间的对话记录。

客服与用户之间的对话记录是智能客服***采集的人工客服与用户之间的对话记录。

步骤S902，从对话记录中提取包含疑问词的目标语句组成目标语句集。

若在客服与用户之间的对话记录中没有包含疑问词的语句，则从对话记录中选择包含关键词且关键词权重大于阈值的最长语句作为目标语句。

步骤S903，将目标语句集中的目标语句输入XGBoost模型，输出任意两条目标语句之间的文本相似度。

XGBoost模型是预先根据人工标记相似度的目标语句的关键词特征信息训练得到的。

步骤S904，判断任意两条目标语句之间的文本相似度是否不大于预设阈值，若是，则执行步骤S905，否则执行步骤S912。

步骤S905，将目标语句集中的目标语句输入BiMPM模型，输出任意两条目标语句之间的语义相似度。

BiMPM模型是预先根据人工标记相似度的目标语句的词序特征信息训练得到的。

步骤S906，将目标语句集中的目标语句的文本相似度和语义相似度输入LR模型。

步骤S907，利用训练好的LR模型，根据任意两条目标语句之间的文本相似度和语义相似度确定任意两条目标语句之间的相似度。

步骤S908，根据任意两条目标语句之间的相似度对目标语句集中的目标语句进行层次聚类。

步骤S909，计算每个类别中目标语句的数量以及目标语句的平均相似度。

步骤S910，根据目标语句的数量以及目标语句的平均相似度从各个类别中确定目标类别。

步骤S911，从目标类别中挑选目标语句更新到智能客服知识库。

步骤S912，将任意两条目标语句之间的文本相似度确定为任意两条目标语句之间的相似度。

由于根据语句特征信息从信息咨询的对话记录中提取目标语句集，然后根据目标语句集中的目标语句之间的相似度对目标语句进行聚类，将包含相似特征的目标语句聚为一类，故可以根据需求从聚类后的目标语句中筛选出符合预设条件的目标语句，相较于人工从信息咨询对话中筛选语句来说，提高了筛选目标语句的效率。其次，由于相似度拟合模型是预先采用目标语句的多维度文本特征信息训练得到的，故相似度拟合模型充分学习了目标语句之间的相似度与目标语句的多维度文本特征之间的关系，另外多维度的文本特征更全面地表达了目标语句的特征，故利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息，获得任意两条目标语句之间的相似度，能有效提高确定任意两条目标语句之间的相似度的精度，从而提高筛选目标语句的准确性。另外，根据聚类后各个类别的目标语句数量和目标语句的相似度从各个类别中确定目标类别，将目标类别中的目标语句更新至智能客服知识库，从而提高了智能客服知识库对用户所提问题的覆盖度，同时提高了智能客服回答用户所提问题的准确性。

基于相同的技术构思，本申请实施例提供了一种目标语句的筛选装置，如图10所示，该装置1000包括：提取模块1001、处理模块1002、聚类模块1003以及筛选模块1004。

提取模块1001，用于根据语句特征信息，从信息咨询的对话记录中提取目标语句集；

处理模块1002，用于获取任意两条目标语句的多维度文本特征信息；利用相似度拟合模型，根据任意两条目标语句的多维度文本特征信息，获得任意两条目标语句之间的相似度，所述相似度拟合模型是预先采用目标语句的多维度文本特征信息训练得到的；

聚类模块1003，用于根据任意两条目标语句之间的相似度对所述目标语句集中的目标语句进行聚类；

筛选模块1004，用于从聚类后的目标语句中筛选出符合设定条件的目标语句。

所述处理模块1002具体用于：利用相似度拟合模型，根据任意两条目标语句的关键词特征信息确定所述任意两条目标语句之间的文本相似度；利用所述相似度拟合模型，根据所述任意两条目标语句的词序特征信息确定所述任意两条目标语句之间的语义相似度；根据所述任意两条目标语句之间的文本相似度和语义相似度确定所述任意两条目标语句之间的相似度。

所述处理模块1002具体用于：利用相似度拟合模型，根据任意两条目标语句的关键词特征信息确定任意两条目标语句之间的文本相似度；判断所述任意两条目标语句之间的文本相似度是否大于预设阈值；若是，则将所述任意两条目标语句之间的文本相似度确定为所述任意两条目标语句之间的相似度；否则，利用所述相似度拟合模型，根据所述任意两条目标语句的词序特征信息确定所述任意两条目标语句之间的语义相似度，并根据所述任意两条目标语句之间的文本相似度和语义相似度确定所述任意两条目标语句之间的相似度。

可选地，所述提取模块1001具体用于：从所述信息咨询的对话记录中提取包含疑问词的目标语句组成目标语句集。

可选地，所述筛选模块1004具体用于：根据聚类后的各个类别的目标语句数量以及目标语句之间的相似度从各个类别中确定出目标类别及所述目标类别中的目标语句。

可选地，所述对话记录为客服和用户之间的对话记录，所述筛选模块1004还用于：将符合设定条件的目标语句更新到智能客服知识库中。

基于相同的技术构思，本申请实施例提供了一种智能客服***，如图11所示，包括至少一个处理器1101，以及与至少一个处理器连接的存储器1102，本申请实施例中不限定处理器1101与存储器1102之间的具体连接介质，图11中处理器1101和存储器1102之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器1102存储有可被至少一个处理器1101执行的指令，至少一个处理器1101通过执行存储器1102存储的指令，可以执行前述的目标语句的筛选方法中所包括的步骤。

其中，处理器1101是智能客服***的控制中心，可以利用各种接口和线路连接智能客服***的各个部分，通过运行或执行存储在存储器1002内的指令以及调用存储在存储器1102内的数据，从而筛选目标语句。可选的，处理器1101可包括一个或多个处理单元，处理器1101可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1101中。在一些实施例中，处理器1101和存储器1102可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1101可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1102作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1102可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器1102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1102还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

该智能客服***还包括输入单元1103、显示单元1104、射频单元1105、电源1106、外部接口1107等。

输入单元1103可包括触摸屏11031以及其它输入设备11032。触摸屏11031可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏11031上或在触摸屏11031附近的操作)，即触摸屏11031可用于检测触摸压力以及触摸输入位置和触摸输入面积，并根据预先设定的程序驱动相应的连接装置。触摸屏11031可以检测用户对触摸屏11031的触控操作，将触控操作转换为触控信号发送给处理器1101，或者理解为可将触控操作的触控信息发送给处理器1101，并能接收处理器1101发来的命令并加以执行。触控信息至少可以包括压力大小信息和压力持续时长信息中的至少一种。触摸屏11031可以提供智能客服***和用户之间的输入界面和输出界面。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏11031。除了触摸屏11031，输入单元1103还可以包括其它输入设备11032。比如，其它输入设备111032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1104可用于显示筛选出的目标语句。进一步的，触摸屏11031可覆盖显示单元1104，当触摸屏11031检测到在其上或附近的触控操作后，传送给处理器1101以确定的触控操作的压力信息。在本申请实施例中，触摸屏11031与显示单元1104可以集成为一个部件而实现智能客服***的输入、输出、显示功能。为便于描述，本申请实施例以触摸屏11031代表触摸屏11031和显示单元1104的功能集合为例进行示意性说明，当然在某些实施例中，触摸屏11031与显示单元1104也可以作为两个独立的部件。

当显示单元1104和触摸板以层的形式彼此叠加以形成触摸屏11031时，显示单元1104可以用作输入装置和输出装置，在作为输出装置时，可以用于显示图像。显示单元1104可以包括液晶显示器(Liquid Crystal Display，LCD)、薄膜晶体管液晶显示器(Thin FilmTransistor Liquid Crystal Display，TFT-LCD)、有机发光二极管(Organic LightEmitting Diode，OLED)显示器、有源矩阵有机发光二极体(Active Matrix Organic LightEmitting Diode，AMOLED)显示器、平面转换(In-Plane Switching，IPS)显示器、柔性显示器、3D显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看，这可以称为透明显示器，根据特定想要的实施方式，智能客服***可以包括两个或更多显示单元。

射频单元1105可用于收发信息或通话过程中信号的接收和发送。通常，射频电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，射频单元1005还可以通过无线通信与网络设备和其它设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

智能客服***还可以包括电源1106(比如电池)，其用于接收外部电力为智能客服***内的各个部件供电。优选的，电源1106可以通过电源管理***与处理器1106逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

智能客服***还可以包括外部接口1107，该外部接口1107可以包括标准的MicroUSB接口，也可以包括多针连接器，可以用于连接智能客服***与其它设备进行通信，也可以用于连接充电器为智能客服***充电。

基于同一发明构思，本申请实施例还提供一种计算机可读存储介质，该可读存储介质存储有计算机指令，当该计算机指令在智能客服***上运行时，使得智能客服***执行如前述的目标语句的筛选方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种目标语句的筛选方法，其特征在于，包括：

根据语句特征信息，从信息咨询的对话记录中提取目标语句集，所述语句特征信息至少包括疑问词，所述对话记录为客服和用户之间的对话记录；

获取任意两条目标语句的多维度文本特征信息；

从聚类后的目标语句中筛选出符合设定条件的目标语句，并将符合设定条件的目标语句以及符合设定条件的目标语句对应的答案更新到智能客服知识库中，所述符合设定条件的目标语句对应的答案是由客服管理人员在目标语句推荐界面中填写的。

2.如权利要求1所述的方法，其特征在于，所述多维度文本特征信息包括关键词特征信息和词序特征信息；

3.如权利要求1所述的方法，其特征在于，所述多维度文本特征信息包括关键词特征信息和词序特征信息；

4.如权利要求1所述的方法，其特征在于，所述根据语句特征信息，从信息咨询的对话记录中提取目标语句集，包括：

5.如权利要求1所述的方法，其特征在于，所述从聚类后的目标语句中筛选出符合设定条件的目标语句，包括：

6.一种目标语句的筛选装置，其特征在于，包括：

提取模块，用于根据语句特征信息，从信息咨询的对话记录中提取目标语句集，所述语句特征信息至少包括疑问词，所述对话记录为客服和用户之间的对话记录；

筛选模块，用于从聚类后的目标语句中筛选出符合设定条件的目标语句，并将符合设定条件的目标语句以及符合设定条件的目标语句对应的答案更新到智能客服知识库中，所述符合设定条件的目标语句对应的答案是由客服管理人员在目标语句推荐界面中填写的。

7.如权利要求6所述的装置，其特征在于，所述多维度文本特征信息包括关键词特征信息和词序特征信息；

所述处理模块具体用于：

8.如权利要求6所述的装置，其特征在于，所述多维度文本特征信息包括关键词特征信息和词序特征信息；

所述处理模块具体用于：

9.如权利要求6所述的装置，其特征在于，所述提取模块具体用于：

10.如权利要求6所述的装置，其特征在于，所述筛选模块具体用于：

11.一种智能客服***，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～5任一权利要求所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，其存储有可由智能客服***执行的计算机程序，当所述程序在智能客服***上运行时，使得所述智能客服***执行权利要求1～5任一所述方法的步骤。