CN109918498B

CN109918498B - 一种问题入库方法和装置

Info

Publication number: CN109918498B
Application number: CN201910038367.5A
Authority: CN
Inventors: 张建威
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2023-08-11
Anticipated expiration: 2039-01-16
Also published as: CN109918498A

Abstract

本发明实施例提供了一种问题入库方法和装置。本发明涉及人工智能技术领域，该方法包括：将目标问题转换为目标句向量；获取预先计算好的N个聚簇类别中每个聚簇类别的聚簇中心点；计算目标句向量与N个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到N个距离；筛选出N个距离中最小的距离对应的聚簇类别，得到目标聚簇类别；分别计算目标句向量与目标聚簇类别中所有问题对应的句向量之间的相似度，得到M个相似度；如果M个相似度均小于或等于预设相似度阈值，则将目标问题存储到知识库中。本发明实施例提供的技术方案能够解决现有技术中需要计算目标问题(即新问题)与知识库中存储的所有问题之间的相似度导致计算开销大、效率低的问题。

Description

一种问题入库方法和装置

【技术领域】

本发明涉及人工智能技术领域，尤其涉及一种问题入库方法和装置。

【背景技术】

目前知识库中加入新问题之前，需要将新问题与知识库中的所有问题进行比较，以判断知识库中是否存在与该新问题重复的问题，如果知识库中存在与该新问题重复的问题，则不将此新问题加入到知识库中；如果知识库中不存在与该新问题重复的问题，则将此新问题加入到知识库中。

这种方法存在的问题是：需要计算目标问题(即新问题)与知识库中存储的所有问题之间的相似度，计算开销大、效率低。

【发明内容】

有鉴于此，本发明实施例提供了一种问题入库方法和装置，用以解决现有技术中需要计算目标问题(即新问题)与知识库中存储的所有问题之间的相似度导致计算开销大、效率低的问题。

一方面，本发明实施例提供了一种问题入库方法，所述方法包括：获取目标问题；将所述目标问题转换为目标句向量；获取预先计算好的N个聚簇类别中每个聚簇类别的聚簇中心点，其中，所述N个聚簇类别以及所述N个聚簇类别中每个聚簇类别的聚簇中心点是通过以下步骤得到的：获取知识库中的多个问题；将所述多个问题分别转换为句向量，得到多个句向量；对所述多个句向量进行聚类，得到N个聚类结果，所述N个聚类结果包括所述N个聚簇类别以及所述N个聚簇类别中每个聚簇类别的聚簇中心点，N为大于或等于2的自然数；计算所述目标句向量与所述N个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到N个距离；筛选出所述N个距离中最小的距离对应的聚簇类别，得到目标聚簇类别；分别计算所述目标句向量与所述目标聚簇类别中所有问题对应的句向量之间的相似度，得到M个相似度，M为所述目标聚簇类别中问题的数量；将所述M个相似度分别与预设相似度阈值进行比较；如果所述M个相似度均小于或等于所述预设相似度阈值，则将所述目标问题存储到所述知识库中。

进一步地，所述分别计算所述目标句向量与所述目标聚簇类别中所有问题对应的句向量之间的相似度，包括：将所述目标句向量与所述目标聚簇类别中所有问题对应的句向量组成第一句向量集合；对所述第一句向量集合进行离群点计算；根据离群点计算的结果判断所述目标句向量是否为离群点；如果所述目标句向量不是离群点，则分别计算所述目标句向量与所述目标聚簇类别中所有问题对应的句向量之间的相似度。

进一步地，所述方法还包括：如果所述M个相似度中有至少一个相似度大于所述预设相似度阈值，则筛选出大于所述预设相似度阈值的相似度对应的问题；将筛选出的问题作为所述目标问题的相似问题；输出提示信息，所述提示信息用于提示用户所述知识库中已有相似问题，所述提示信息携带了所述目标问题的相似问题。

进一步地，所述将筛选出的问题作为所述目标问题的相似问题，包括：将所述目标聚簇类别中所有问题对应的句向量组成第二句向量集合；对所述第二句向量集合进行离群点计算；根据离群点计算的结果判断所述筛选出的问题是否为离群点；如果所述筛选出的问题不是离群点，则将所述筛选出的问题作为所述目标问题的相似问题。

进一步地，所述对所述多个句向量进行聚类，得到N个聚类结果，包括：S1，根据先验经验确定N值，N为聚类的簇数；S2，随机选择N个句向量作为N个聚簇类别的聚簇中心点；S3，对于第一句向量，计算所述第一句向量与N个聚簇中心点中每个聚簇中心点之间的距离，并将所述第一句向量归类到与所述第一句向量距离最近的聚簇中心点对应的类别中，所述第一句向量为剩余的L-N个句向量中的任意一个句向量，L为句向量的总数量；S4，当所有的句向量归类完成之后，根据每个类别中的句向量重新计算N个类别的聚簇中心点，并更新N个类别的聚簇中心点，循环执行S3和S4，直到N个类别中每个类别的相邻两次聚簇中心点的距离在预设距离之内。

进一步地，计算所述目标句向量与所述聚簇中心点之间的距离，包括：根据公式计算所述目标句向量与所述聚簇中心点之间的相似度，其中，S表示所述目标句向量与所述聚簇中心点之间的相似度，A表示所述目标句向量，B表示所述聚簇中心点，A_i表示所述目标句向量的第i个元素，B_i表示所述聚簇中心点的第i个元素，n表示所述目标句向量包含的元素的数量。

一方面，本发明实施例提供了一种问题入库装置，所述装置包括：第一获取单元，用于获取目标问题；转换单元，用于将所述目标问题转换为目标句向量；第二获取单元，用于获取预先计算好的N个聚簇类别中每个聚簇类别的聚簇中心点，其中，所述N个聚簇类别以及所述N个聚簇类别中每个聚簇类别的聚簇中心点是通过以下步骤得到的：获取知识库中的多个问题；将所述多个问题分别转换为句向量，得到多个句向量；对所述多个句向量进行聚类，得到N个聚类结果，所述N个聚类结果包括所述N个聚簇类别以及所述N个聚簇类别中每个聚簇类别的聚簇中心点，N为大于或等于2的自然数；第一计算单元，用于计算所述目标句向量与所述N个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到N个距离；第一筛选单元，用于筛选出所述N个距离中最小的距离对应的聚簇类别，得到目标聚簇类别；第二计算单元，用于分别计算所述目标句向量与所述目标聚簇类别中所有问题对应的句向量之间的相似度，得到M个相似度，M为所述目标聚簇类别中问题的数量；比较单元，用于将所述M个相似度分别与预设相似度阈值进行比较；存储单元，用于如果所述M个相似度均小于或等于所述预设相似度阈值，则将所述目标问题存储到所述知识库中。

进一步地，所述第二计算单元包括：第一确定子单元，用于将所述目标句向量与所述目标聚簇类别中所有问题对应的句向量组成第一句向量集合；第一计算子单元，用于对所述第一句向量集合进行离群点计算；第一判断子单元，用于根据离群点计算的结果判断所述目标句向量是否为离群点；第二计算子单元，用于如果所述目标句向量不是离群点，则分别计算所述目标句向量与所述目标聚簇类别中所有问题对应的句向量之间的相似度。

进一步地，所述装置还包括：第二筛选单元，用于如果所述M个相似度中有至少一个相似度大于所述预设相似度阈值，则筛选出大于所述预设相似度阈值的相似度对应的问题；确定单元，用于将筛选出的问题作为所述目标问题的相似问题；输出单元，用于输出提示信息，所述提示信息用于提示用户所述知识库中已有相似问题，所述提示信息携带了所述目标问题的相似问题。

进一步地，所述确定单元包括：第二确定子单元，用于将所述目标聚簇类别中所有问题对应的句向量组成第二句向量集合；第三计算子单元，用于对所述第二句向量集合进行离群点计算；第二判断子单元，用于根据离群点计算的结果判断所述筛选出的问题是否为离群点；第三确定子单元，用于如果所述筛选出的问题不是离群点，则将所述筛选出的问题作为所述目标问题的相似问题。

进一步地，所述第一计算单元用于：根据公式计算所述目标句向量与所述聚簇中心点之间的相似度，其中，S表示所述目标句向量与所述聚簇中心点之间的相似度，A表示所述目标句向量，B表示所述聚簇中心点，A_i表示所述目标句向量的第i个元素，B_i表示所述聚簇中心点的第i个元素，n表示所述目标句向量包含的元素的数量。

一方面，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的问题入库方法。

一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的问题入库方法的步骤。

在本发明实施例中，知识库中已有的问题被分为N个聚簇类别，将目标问题转换为目标句向量，获取预先计算好的N个聚簇类别中每个聚簇类别的聚簇中心点，计算目标句向量与N个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到N个距离，筛选出N个距离中最小的距离对应的聚簇类别，得到目标聚簇类别，分别计算目标句向量与目标聚簇类别中所有问题对应的句向量之间的相似度，得到M个相似度，M为目标聚簇类别中问题的数量，将M个相似度分别与预设相似度阈值进行比较，如果M个相似度均小于或等于预设相似度阈值，说明知识库中不存在与目标问题重复的问题，则将目标问题存储到知识库中，由于避免了计算目标问题与知识库中存储的所有问题之间的相似度，大大减少了计算量，提高了计算效率，解决了现有技术中需要计算目标问题与知识库中存储的所有问题之间的相似度导致计算开销大、效率低的问题。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是根据本发明实施例一种可选的问题入库方法的流程图；

图2是根据本发明实施例一种可选的问题入库装置的示意图；

图3是本发明实施例提供的一种可选的计算机设备的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1是根据本发明实施例一种可选的问题入库方法的流程图，如图1所示，该方法包括：

步骤S102，获取目标问题。

步骤S104，将目标问题转换为目标句向量。

步骤S106，获取预先计算好的N个聚簇类别中每个聚簇类别的聚簇中心点，其中，N个聚簇类别以及N个聚簇类别中每个聚簇类别的聚簇中心点是通过以下步骤得到的：获取知识库中的多个问题；将多个问题分别转换为句向量，得到多个句向量；对多个句向量进行聚类，得到N个聚类结果，N个聚类结果包括N个聚簇类别以及N个聚簇类别中每个聚簇类别的聚簇中心点，N为大于或等于2的自然数。

步骤S108，计算目标句向量与N个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到N个距离。

步骤S110，筛选出N个距离中最小的距离对应的聚簇类别，得到目标聚簇类别。

步骤S112，分别计算目标句向量与目标聚簇类别中所有问题对应的句向量之间的相似度，得到M个相似度，M为目标聚簇类别中问题的数量。

步骤S114，将M个相似度分别与预设相似度阈值进行比较。

步骤S116，如果M个相似度均小于或等于预设相似度阈值，则将目标问题存储到知识库中。

N值可以根据先验经验确定。

先验经验指的是现有知识库中所有问题的分类情况，故N值可以根据已有的分类来确定。

预设相似度阈值可以根据实际需求进行设置，例如，设置为80％、85％、90％、95％等。

举例对本发明实施例提供的问题入库方法进行说明。例如，假设N＝20，获取目标问题，将目标问题转换为目标句向量，计算目标句向量与20个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到20个距离，假设最小的距离对应的是第5个聚簇类别的聚簇中心点，则将第5个聚簇类别作为目标聚簇类别，假设第5个聚簇类别一共包括35个问题(M＝35)，则分别计算目标句向量与目标聚簇类别中这35个问题对应的句向量之间的相似度，得到35个相似度，假设预设相似度阈值是90％，则将35个相似度分别与预设相似度阈值90％进行比较，如果35个相似度均小于或等于预设相似度阈值90％，则认为知识库中没有与目标问题重复的问题，将目标问题存储到知识库中。

需要注意的是：N个聚簇类别中每个聚簇类别的聚簇中心点是提前计算好的，只需要预先计算一次，计算目标句向量与N个聚簇类别中每个聚簇类别的聚簇中心点之间的距离时只需要直接拿来使用即可。

对多个句向量进行聚类，得到N个聚类结果，包括：S1，根据先验经验确定N值，N为聚类的簇数；S2，随机选择N个句向量作为N个聚簇类别的聚簇中心点；S3，对于第一句向量，计算第一句向量与N个聚簇中心点中每个聚簇中心点之间的距离，并将第一句向量归类到与第一句向量距离最近的聚簇中心点对应的类别中，第一句向量为剩余的L-N个句向量中的任意一个句向量，L为句向量的总数量；S4，当所有的句向量归类完成之后，根据每个类别中的句向量重新计算N个类别的聚簇中心点，并更新N个类别的聚簇中心点，循环执行S3和S4，直到N个类别中每个类别的相邻两次聚簇中心点的距离在预设距离之内。

本发明实施例中采用的聚类算法的聚类过程如下：假设待聚类的句向量的数量为L，首先从L个句向量中任意选择N个句向量作为初始聚类中心；而对于其余L-N个句向量中的每个句向量，则根据该句向量与这些聚类中心的相似度(距离)，分别将它们分给与其最相似的(聚类中心所代表的)聚类；然后再计算每个新聚类的聚类中心；不断重复这一过程直到标准测度函数开始收敛为止。一般采用均方差作为标准测度函数。该聚类算法具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开，同一聚类中的句向量相似度较高；而不同聚类中的句向量相似度较小。

可选地，如果M个相似度中有至少一个相似度大于预设相似度阈值，则筛选出大于预设相似度阈值的相似度对应的问题；将筛选出的问题作为目标问题的相似问题；输出提示信息，提示信息用于提示用户知识库中已有相似问题，提示信息携带了目标问题的相似问题。

例如，假设N＝20，获取目标问题，将目标问题转换为目标句向量，计算目标句向量与20个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到20个距离，假设最小的距离对应的是第5个聚簇类别的聚簇中心点，则将第5个聚簇类别作为目标聚簇类别，假设第5个聚簇类别一共包括35个问题(M＝35)，则分别计算目标句向量与目标聚簇类别中这35个问题对应的句向量之间的相似度，得到35个相似度，假设预设相似度阈值是90％，则将35个相似度分别与预设相似度阈值90％进行比较，如果35个相似度中有2个相似度大于预设相似度阈值90％，则筛选出这2个相似度对应的问题，假设筛选出的问题是问题Q1和问题Q2，即，问题Q1和问题Q2对应的句向量与目标句向量之间的相似度均大于90％，问题Q1和问题Q2与目标问题可能为重复问题。在这种情况下，输出提示信息，提示信息用于提示用户知识库中已有相似问题，提示信息携带了问题Q1和问题Q2，例如，提示信息可以为：尊敬的用户您好，知识库中的问题Q1和问题Q2与您输入的问题可能为重复问题。

有一种可能的情况是，对知识库中已有问题进行聚类的时候，聚类的误差较大，有些问题被分类错误。如果M个相似度中有至少一个相似度大于预设相似度阈值，则筛选出大于预设相似度阈值的相似度对应的问题；将目标聚簇类别中所有问题对应的句向量组成第二句向量集合；对第二句向量集合进行离群点计算；根据离群点计算的结果判断筛选出的问题是否为离群点；如果筛选出的问题是离群点，那么说明该问题有可能被分类错误，该问题不该被分到目标聚簇类别中，也不应当将该问题作为目标问题的相似问题。

可选地，将目标句向量与目标聚簇类别中所有问题对应的句向量组成第一句向量集合；对第一句向量集合进行离群点计算；根据离群点计算的结果判断目标句向量是否为离群点；如果目标句向量不是离群点，则分别计算目标句向量与目标聚簇类别中所有问题对应的句向量之间的相似度，得到M个相似度，M为目标聚簇类别中问题的数量，将M个相似度分别与预设相似度阈值进行比较，如果M个相似度均小于或等于预设相似度阈值，则将目标问题存储到知识库中。

例如，假设N＝20，获取目标问题，将目标问题转换为目标句向量，计算目标句向量与20个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到20个距离，假设最小的距离对应的是第5个聚簇类别的聚簇中心点，则将第5个聚簇类别作为目标聚簇类别，假设第5个聚簇类别一共包括35个问题(M＝35)，将目标句向量与第5个聚簇类别中所有问题对应的句向量组成第一句向量集合，则第一句向量集合包括36个问题，对第一句向量集合进行离群点计算；根据离群点计算的结果判断目标句向量是否为离群点，如果目标句向量是离群点，则说明目标句向量与第一句向量集合中的其他句向量的规律不太相同，有可能是因为目标问题被归类到了错误的类别中导致的，即，目标问题不应该被归类到第5个聚簇类别，在这种情况下，需要对目标问题重新归类。之前已经计算目标句向量与20个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到了20个距离，这20个距离按照从小到大的顺序排列，最小的距离对应的是第5个聚簇类别的聚簇中心点，其次小的距离对应的是第12个聚簇类别的聚簇中心点，此时，可以将目标问题归类到第12个聚簇类别，假设第12个聚簇类别包括226(M＝226)个问题。将目标句向量与第12个聚簇类别中所有问题对应的句向量组成第一句向量集合(第一句向量集合包括227个问题)；对第一句向量集合进行离群点计算；根据离群点计算的结果判断目标句向量是否为离群点；如果目标句向量不是离群点，则分别计算目标句向量与目标聚簇类别中226个问题对应的句向量之间的相似度，得到226个相似度，将226个相似度分别与预设相似度阈值90％进行比较，如果226个相似度均小于或等于预设相似度阈值90％，说明知识库中不存在与目标问题重复的问题，则将目标问题存储到知识库中。

离群点分析是用于挖掘与大部分数据不同的数据的方法，具体地，可以采用孤立森林算法作离群点分析，孤立森林算法是基于划分思想的一种算法，由大量的孤立树组成，用于挖掘异常数据，或者说离群点挖掘，是在一大堆数据中，找出与其他数据的规律不太符合的数据。例如：假设一个类中有n个问题的句向量，首先需要训练构建多棵孤立树。训练第t棵孤立树方法为：从n个问题中随机抽出m个问题作为第t棵孤立树的训练样本，在m个训练样本中，随机选一个样本作为二叉树的根节点的值，根据根节点的值对m个训练样本进行二叉划分，将m个训练样本中小于该值的划分到节点左边，大于或等于该值的划分到节点的右边，得到一个***条件和左、右两边的数据集，然后分别在左右两边的数据集上重复二叉划分的过程，直到数据不可再分，确定第t棵孤立树，其中t为大于2的自然数。将n个问题的句向量在第t棵孤立树上沿对应的条件分支往下走，直到叶子节点，并记录第X个问题的句向量从根节点到达叶子节点走过的边的数量即路径长度h_t(x)，然后根据第X个问题的句向量在多棵孤立树的路径长度，确定第X个问题的句向量的路径长度平均值h(x)。可以通过计算句向量的异常分数来判断一个句向量是否为离群点。计算每个句向量的异常分数公式为：其中m为训练样本的个数，/>ε是欧拉常数，值为0.5772156649。s(x,m)为异常分数的值，取值范围是[0,1]，异常分数的值越接近1，则第X个问题的句向量是离群点的可能性越高。

可以采用以下公式计算目标句向量与聚簇中心点之间的距离：计算目标句向量与聚簇中心点之间的相似度，其中，S表示目标句向量与聚簇中心点之间的相似度，A表示目标句向量，B表示聚簇中心点，A_i表示目标句向量的第i个元素，B_i表示聚簇中心点的第i个元素，n表示目标句向量包含的元素的数量。

计算目标句向量与目标聚簇类别中任一问题对应的句向量之间的相似度的公式与上述公式相似，不再赘述。

本发明实施例提供了一种问题入库装置，该装置用于执行上述问题入库方法，图2是根据本发明实施例一种可选的问题入库装置的示意图，如图2所示，该装置包括：第一获取单元12、转换单元14、第二获取单元16、第一计算单元18、第一筛选单元20、第二计算单元22、比较单元24、存储单元26。

第一获取单元12，用于获取目标问题。

转换单元14，用于将目标问题转换为目标句向量。

第二获取单元16，用于获取预先计算好的N个聚簇类别中每个聚簇类别的聚簇中心点，其中，N个聚簇类别以及N个聚簇类别中每个聚簇类别的聚簇中心点是通过以下步骤得到的：获取知识库中的多个问题；将多个问题分别转换为句向量，得到多个句向量；对多个句向量进行聚类，得到N个聚类结果，N个聚类结果包括N个聚簇类别以及N个聚簇类别中每个聚簇类别的聚簇中心点，N为大于或等于2的自然数。

第一计算单元18，用于计算目标句向量与N个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到N个距离。

第一筛选单元20，用于筛选出N个距离中最小的距离对应的聚簇类别，得到目标聚簇类别。

第二计算单元22，用于分别计算目标句向量与目标聚簇类别中所有问题对应的句向量之间的相似度，得到M个相似度，M为目标聚簇类别中问题的数量。

比较单元24，用于将M个相似度分别与预设相似度阈值进行比较。

存储单元26，用于如果M个相似度均小于或等于预设相似度阈值，则将目标问题存储到知识库中。

可选地，第二计算单元22包括：第一确定子单元、第一计算子单元、第一判断子单元、第二计算子单元。第一确定子单元，用于将目标句向量与目标聚簇类别中所有问题对应的句向量组成第一句向量集合。第一计算子单元，用于对第一句向量集合进行离群点计算。第一判断子单元，用于根据离群点计算的结果判断目标句向量是否为离群点。第二计算子单元，用于如果目标句向量不是离群点，则分别计算目标句向量与目标聚簇类别中所有问题对应的句向量之间的相似度。

可选地，装置还包括：第二筛选单元、确定单元、输出单元。第二筛选单元，用于如果M个相似度中有至少一个相似度大于预设相似度阈值，则筛选出大于预设相似度阈值的相似度对应的问题。确定单元，用于将筛选出的问题作为目标问题的相似问题。输出单元，用于输出提示信息，提示信息用于提示用户知识库中已有相似问题，提示信息携带了目标问题的相似问题。

可选地，确定单元包括：第二确定子单元、第三计算子单元、第二判断子单元、第三确定子单元。第二确定子单元，用于将目标聚簇类别中所有问题对应的句向量组成第二句向量集合。第三计算子单元，用于对第二句向量集合进行离群点计算。第二判断子单元，用于根据离群点计算的结果判断筛选出的问题是否为离群点。第三确定子单元，用于如果筛选出的问题不是离群点，则将筛选出的问题作为目标问题的相似问题。

可选地，对多个句向量进行聚类，得到N个聚类结果，包括：S1，根据先验经验确定N值，N为聚类的簇数；S2，随机选择N个句向量作为N个聚簇类别的聚簇中心点；S3，对于第一句向量，计算第一句向量与N个聚簇中心点中每个聚簇中心点之间的距离，并将第一句向量归类到与第一句向量距离最近的聚簇中心点对应的类别中，第一句向量为剩余的L-N个句向量中的任意一个句向量，L为句向量的总数量；S4，当所有的句向量归类完成之后，根据每个类别中的句向量重新计算N个类别的聚簇中心点，并更新N个类别的聚簇中心点，循环执行S3和S4，直到N个类别中每个类别的相邻两次聚簇中心点的距离在预设距离之内。

可选地，第一计算单元用于：根据公式计算目标句向量与聚簇中心点之间的相似度，其中，S表示目标句向量与聚簇中心点之间的相似度，A表示目标句向量，B表示聚簇中心点，A_i表示目标句向量的第i个元素，B_i表示聚簇中心点的第i个元素，n表示目标句向量包含的元素的数量。

一方面，本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：获取目标问题；将目标问题转换为目标句向量；获取预先计算好的N个聚簇类别中每个聚簇类别的聚簇中心点，其中，N个聚簇类别以及N个聚簇类别中每个聚簇类别的聚簇中心点是通过以下步骤得到的：获取知识库中的多个问题；将多个问题分别转换为句向量，得到多个句向量；对多个句向量进行聚类，得到N个聚类结果，N个聚类结果包括N个聚簇类别以及N个聚簇类别中每个聚簇类别的聚簇中心点，N为大于或等于2的自然数；计算目标句向量与N个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到N个距离；筛选出N个距离中最小的距离对应的聚簇类别，得到目标聚簇类别；分别计算目标句向量与目标聚簇类别中所有问题对应的句向量之间的相似度，得到M个相似度，M为目标聚簇类别中问题的数量；将M个相似度分别与预设相似度阈值进行比较；如果M个相似度均小于或等于预设相似度阈值，则将目标问题存储到知识库中。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：将目标句向量与目标聚簇类别中所有问题对应的句向量组成第一句向量集合；对第一句向量集合进行离群点计算；根据离群点计算的结果判断目标句向量是否为离群点；如果目标句向量不是离群点，则分别计算目标句向量与目标聚簇类别中所有问题对应的句向量之间的相似度。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：如果M个相似度中有至少一个相似度大于预设相似度阈值，则筛选出大于预设相似度阈值的相似度对应的问题；将筛选出的问题作为目标问题的相似问题；输出提示信息，提示信息用于提示用户知识库中已有相似问题，提示信息携带了目标问题的相似问题。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：将目标聚簇类别中所有问题对应的句向量组成第二句向量集合；对第二句向量集合进行离群点计算；根据离群点计算的结果判断筛选出的问题是否为离群点；如果筛选出的问题不是离群点，则将筛选出的问题作为目标问题的相似问题。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：S1，根据先验经验确定N值，N为聚类的簇数；S2，随机选择N个句向量作为N个聚簇类别的聚簇中心点；S3，对于第一句向量，计算第一句向量与N个聚簇中心点中每个聚簇中心点之间的距离，并将第一句向量归类到与第一句向量距离最近的聚簇中心点对应的类别中，第一句向量为剩余的L-N个句向量中的任意一个句向量，L为句向量的总数量；S4，当所有的句向量归类完成之后，根据每个类别中的句向量重新计算N个类别的聚簇中心点，并更新N个类别的聚簇中心点，循环执行S3和S4，直到N个类别中每个类别的相邻两次聚簇中心点的距离在预设距离之内。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：根据公式计算目标句向量与聚簇中心点之间的相似度，其中，S表示目标句向量与聚簇中心点之间的相似度，A表示目标句向量，B表示聚簇中心点，A_i表示目标句向量的第i个元素，B_i表示聚簇中心点的第i个元素，n表示目标句向量包含的元素的数量。

一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现以下步骤：获取目标问题；将目标问题转换为目标句向量；获取预先计算好的N个聚簇类别中每个聚簇类别的聚簇中心点，其中，N个聚簇类别以及N个聚簇类别中每个聚簇类别的聚簇中心点是通过以下步骤得到的：获取知识库中的多个问题；将多个问题分别转换为句向量，得到多个句向量；对多个句向量进行聚类，得到N个聚类结果，N个聚类结果包括N个聚簇类别以及N个聚簇类别中每个聚簇类别的聚簇中心点，N为大于或等于2的自然数；计算目标句向量与N个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到N个距离；筛选出N个距离中最小的距离对应的聚簇类别，得到目标聚簇类别；分别计算目标句向量与目标聚簇类别中所有问题对应的句向量之间的相似度，得到M个相似度，M为目标聚簇类别中问题的数量；将M个相似度分别与预设相似度阈值进行比较；如果M个相似度均小于或等于预设相似度阈值，则将目标问题存储到知识库中。

可选地，程序指令被处理器加载并执行时还实现以下步骤：将目标句向量与目标聚簇类别中所有问题对应的句向量组成第一句向量集合；对第一句向量集合进行离群点计算；根据离群点计算的结果判断目标句向量是否为离群点；如果目标句向量不是离群点，则分别计算目标句向量与目标聚簇类别中所有问题对应的句向量之间的相似度。

可选地，程序指令被处理器加载并执行时还实现以下步骤：如果M个相似度中有至少一个相似度大于预设相似度阈值，则筛选出大于预设相似度阈值的相似度对应的问题；将筛选出的问题作为目标问题的相似问题；输出提示信息，提示信息用于提示用户知识库中已有相似问题，提示信息携带了目标问题的相似问题。

可选地，程序指令被处理器加载并执行时还实现以下步骤：将目标聚簇类别中所有问题对应的句向量组成第二句向量集合；对第二句向量集合进行离群点计算；根据离群点计算的结果判断筛选出的问题是否为离群点；如果筛选出的问题不是离群点，则将筛选出的问题作为目标问题的相似问题。

可选地，程序指令被处理器加载并执行时还实现以下步骤：S1，根据先验经验确定N值，N为聚类的簇数；S2，随机选择N个句向量作为N个聚簇类别的聚簇中心点；S3，对于第一句向量，计算第一句向量与N个聚簇中心点中每个聚簇中心点之间的距离，并将第一句向量归类到与第一句向量距离最近的聚簇中心点对应的类别中，第一句向量为剩余的L-N个句向量中的任意一个句向量，L为句向量的总数量；S4，当所有的句向量归类完成之后，根据每个类别中的句向量重新计算N个类别的聚簇中心点，并更新N个类别的聚簇中心点，循环执行S3和S4，直到N个类别中每个类别的相邻两次聚簇中心点的距离在预设距离之内。

可选地，程序指令被处理器加载并执行时还实现以下步骤：根据公式计算目标句向量与聚簇中心点之间的相似度，其中，S表示目标句向量与聚簇中心点之间的相似度，A表示目标句向量，B表示聚簇中心点，A_i表示目标句向量的第i个元素，B_i表示聚簇中心点的第i个元素，n表示目标句向量包含的元素的数量。

图3是本发明实施例提供的一种计算机设备的示意图。如图3所示，该实施例的计算机设备50包括：处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53，该计算机程序53被处理器51执行时实现实施例中的问题入库方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器51执行时实现实施例中问题入库装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图3仅仅是计算机设备50的示例，并不构成对计算机设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以是计算机设备50的内部存储单元，例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备，例如计算机设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种问题入库方法，其特征在于，所述方法包括：

获取目标问题；

将所述目标问题转换为目标句向量；

获取预先计算好的N个聚簇类别中每个聚簇类别的聚簇中心点，其中，所述N个聚簇类别以及所述N个聚簇类别中每个聚簇类别的聚簇中心点是通过以下步骤得到的：获取知识库中的多个问题；将所述多个问题分别转换为句向量，得到多个句向量；对所述多个句向量进行聚类，得到N个聚类结果，所述N个聚类结果包括所述N个聚簇类别以及所述N个聚簇类别中每个聚簇类别的聚簇中心点，N为大于或等于2的自然数；

计算所述目标句向量与所述N个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到N个距离；

筛选出所述N个距离中最小的距离对应的聚簇类别，得到目标聚簇类别；

分别计算所述目标句向量与所述目标聚簇类别中所有问题对应的句向量之间的相似度，得到M个相似度，M为所述目标聚簇类别中问题的数量；

将所述M个相似度分别与预设相似度阈值进行比较；

如果所述M个相似度均小于或等于所述预设相似度阈值，则将所述目标问题存储到所述知识库中；

其中，所述分别计算所述目标句向量与所述目标聚簇类别中所有问题对应的句向量之间的相似度，包括：

将所述目标句向量与所述目标聚簇类别中所有问题对应的句向量组成第一句向量集合；

对所述第一句向量集合进行离群点计算；

根据离群点计算的结果判断所述目标句向量是否为离群点；

如果所述目标句向量不是离群点，则分别计算所述目标句向量与所述目标聚簇类别中所有问题对应的句向量之间的相似度；

其中，所述对所述多个句向量进行聚类，得到N个聚类结果，包括：

S1，根据先验经验确定N值，N为聚类的簇数；

S2，随机选择N个句向量作为N个聚簇类别的聚簇中心点；

S3，对于第一句向量，计算所述第一句向量与N个聚簇中心点中每个聚簇中心点之间的距离，并将所述第一句向量归类到与所述第一句向量距离最近的聚簇中心点对应的类别中，所述第一句向量为剩余的L-N个句向量中的任意一个句向量，L为句向量的总数量；

S4，当所有的句向量归类完成之后，根据每个类别中的句向量重新计算N个类别的聚簇中心点，并更新N个类别的聚簇中心点，

循环执行S3和S4，直到N个类别中每个类别的相邻两次聚簇中心点的距离在预设距离之内。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

如果所述M个相似度中有至少一个相似度大于所述预设相似度阈值，则筛选出大于所述预设相似度阈值的相似度对应的问题；

将筛选出的问题作为所述目标问题的相似问题；

输出提示信息，所述提示信息用于提示用户所述知识库中已有相似问题，所述提示信息携带了所述目标问题的相似问题。

3.根据权利要求1至2任一项所述的方法，其特征在于，计算所述目标句向量与所述聚簇中心点之间的距离，包括：

根据公式计算所述目标句向量与所述聚簇中心点之间的相似度，其中，S表示所述目标句向量与所述聚簇中心点之间的相似度，A表示所述目标句向量，B表示所述聚簇中心点，A_i表示所述目标句向量的第i个元素，B_i表示所述聚簇中心点的第i个元素，n表示所述目标句向量包含的元素的数量。

4.一种问题入库装置，其特征在于，所述装置包括：

第一获取单元，用于获取目标问题；

转换单元，用于将所述目标问题转换为目标句向量；

第二获取单元，用于获取预先计算好的N个聚簇类别中每个聚簇类别的聚簇中心点，其中，所述N个聚簇类别以及所述N个聚簇类别中每个聚簇类别的聚簇中心点是通过以下步骤得到的：获取知识库中的多个问题；将所述多个问题分别转换为句向量，得到多个句向量；对所述多个句向量进行聚类，得到N个聚类结果，所述N个聚类结果包括所述N个聚簇类别以及所述N个聚簇类别中每个聚簇类别的聚簇中心点，N为大于或等于2的自然数；

第一计算单元，用于计算所述目标句向量与所述N个聚簇类别中每个聚簇类别的聚簇中心点之间的距离，得到N个距离；

第一筛选单元，用于筛选出所述N个距离中最小的距离对应的聚簇类别，得到目标聚簇类别；

第二计算单元，用于分别计算所述目标句向量与所述目标聚簇类别中所有问题对应的句向量之间的相似度，得到M个相似度，M为所述目标聚簇类别中问题的数量；

比较单元，用于将所述M个相似度分别与预设相似度阈值进行比较；

存储单元，用于如果所述M个相似度均小于或等于所述预设相似度阈值，则将所述目标问题存储到所述知识库中，

其中，所述第二计算单元包括：

第一确定子单元，用于将所述目标句向量与所述目标聚簇类别中所有问题对应的句向量组成第一句向量集合；

第一计算子单元，用于对所述第一句向量集合进行离群点计算；

第一判断子单元，用于根据离群点计算的结果判断所述目标句向量是否为离群点；

第二计算子单元，用于如果所述目标句向量不是离群点，则分别计算所述目标句向量与所述目标聚簇类别中所有问题对应的句向量之间的相似度；

其中，所述对所述多个句向量进行聚类，得到N个聚类结果的过程，包括：

S1，根据先验经验确定N值，N为聚类的簇数；

S2，随机选择N个句向量作为N个聚簇类别的聚簇中心点；

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：

第二筛选单元，用于如果所述M个相似度中有至少一个相似度大于所述预设相似度阈值，则筛选出大于所述预设相似度阈值的相似度对应的问题；

确定单元，用于将筛选出的问题作为所述目标问题的相似问题；

输出单元，用于输出提示信息，所述提示信息用于提示用户所述知识库中已有相似问题，所述提示信息携带了所述目标问题的相似问题。

6.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至3中任意一项所述的问题入库方法。

7.一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于：所述程序指令被处理器加载并执行时实现权利要求1至3任意一项所述的问题入库方法的步骤。