CN111930920A

CN111930920A - 基于知识增强处理的faq相似度计算方法、装置及电子设备

Info

Publication number: CN111930920A
Application number: CN202011060858.9A
Authority: CN
Inventors: 廖智霖; 高峰; 吕杨苗; 林金曙
Original assignee: Hundsun Technologies Inc
Current assignee: Hundsun Technologies Inc
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2020-11-13
Anticipated expiration: 2040-09-30
Also published as: CN111930920B

Abstract

本申请实施例提出了基于知识增强处理的FAQ相似度计算方法、装置及电子设备，包括接收客户文本，确定对应客户文本的目标文本，对客户文本、目标文本进行基于知识分布的知识增强处理，基于处理结果进行FAQ相似度计算，根据相似度计算结果与预设阈值的大小关系进行不同处理。在经过上述处理后基于FAQ相似度结果与预设阈值的大小关系判定是否继续进行扩充客户文本、目标文本语义范围的同义句句组的操作，进而基于同义句句组进行FAQ相似度计算。通过在两种判断结果中分别采用不同的方式对目标文本进行扩容，扩大了用户提问和目标文本的相同词语范围，提升相似度的计算结果。

Description

基于知识增强处理的FAQ相似度计算方法、装置及电子设备

技术领域

本发明属于相似度计算领域，尤其涉及基于知识增强处理的FAQ相似度计算方法、装置及电子设备。

背景技术

FAQ（Frequently Asked Questions）相似度计算在各个业务领域中有着广泛的应用。如在证券行业，各大证券公司都会对客户常问的一些问题进行总结，将这些问题归纳成一系列的目标文本。然后利用FAQ相似度计算方法从目标文本中选出相似度最大的文本对应的答案作为客户提问的最佳答案。现有的FAQ相似度计算方法有专利多种，可以概括为三大类：基于词语匹配的方法、词语匹配和词向量混合的方法、基于词向量或句子向量的方法。

上述相似度计算方法都是直接计算客户提问文本和目标文本的相似度。单句的用户提问和目标文本数据量都十分有限，使得两文本表达的语义不够丰富，容易造成用户提问与目标文本匹配不上的结果。如客户提问“我手续费多少”和目标文本“A股交易费用”之间差距过大，直接计算相似度容易匹配不到正确答案。因此，为了解决两文本直接计算相似度时，数据量有限和语义不够丰富的问题，需要对客户提问或者目标文本进行知识增强。

发明内容

为了解决现有技术中存在的缺点和不足，本发明提出了基于知识增强处理的FAQ相似度计算方法、装置及电子设备，通过针对客户文本的长短不同分别采取基于知识分布的知识增强处理、生成用于扩充客户文本、目标文本语义范围的同义句句组的方式扩大目标文本的词语范围，从而提升了相似度的计算结果。

为了达到上述技术目的，根据本公开实施例的第一方面，本实施例提供了基于知识增强处理的FAQ相似度计算方法，包括：

接收客户文本，确定对应客户文本的目标文本；

对客户文本、目标文本进行基于知识分布的知识增强处理，基于处理结果进行FAQ相似度计算；

如果FAQ相似度结果大于预设阈值，输出FAQ相似度结果；

如果FAQ相似度结果不大于预设阈值，生成用于扩充客户文本、目标文本语义范围的同义句句组，基于同义句句组进行FAQ相似度计算。

可选的，所述对客户文本、目标文本进行基于知识分布的知识增强处理，基于处理结果进行FAQ相似度计算，包括：

对客户文本以及目标文本进行分词处理；

选取与目标文本对应的同义句构建对应目标文本的知识分布集合，判断知识分布集合中是否存在对应客户文本中已得到的分词内容；

如果存在，则将已得到的分词内容增加至目标文本中，基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。

可选的，所述知识分布集合中还设有对应每个同义词组的权重值。

可选的，所述生成用于扩充客户文本、目标文本语义范围的同义句句组，基于同义句句组进行FAQ相似度计算，包括：

构建同义句生成模型；

基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句，将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组；

将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。

可选的，所述构建同义句生成模型，包括：

构建初始深度学习模型；

在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量；

在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码，得到与客户文本相近的同义句；

在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练，得到同义句生成模型。

可选的，所述将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算，包括：

调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量；

基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度，基于计算结果构建相似度矩阵；

选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。

为了达到上述技术目的，根据本公开实施例的第二方面，本实施例提供了基于知识增强处理的FAQ相似度计算装置，包括：

文本接收模块，用于接收客户文本，确定对应客户文本的目标文本；

相似度计算模块，用于对客户文本、目标文本进行基于知识分布的知识增强处理，基于处理结果进行FAQ相似度计算；

所述相似度计算模块，包括：

相似度第一执行单元，用于如果FAQ相似度结果大于预设阈值，输出FAQ相似度结果；

相似度第二执行单元，用于如果FAQ相似度结果不大于预设阈值，生成用于扩充客户文本、目标文本语义范围的同义句句组，基于同义句句组进行FAQ相似度计算。

可选的，所述相似度计算模块，包括：

分词处理单元，用于对客户文本以及目标文本进行分词处理；

分词判断单元，用于选取与目标文本对应的同义句构建对应目标文本的知识分布集合，判断知识分布集合中是否存在对应客户文本中已得到的分词内容；

分词填充单元，用于如果存在，则将已得到的分词内容增加至目标文本中，基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。

可选的，所述相似度第二执行单元，包括：

模型构建子单元，用于构建同义句生成模型；

同义句组合子单元，用于基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句，将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组；

内容转换子单元，用于将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。

可选的，所述模型构建子单元包括：

初始模型构建子单元，用于构建初始深度学习模型；

编码子单元，用于在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量；

解码子单元，用于在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码，得到与客户文本相近的同义句；

模型训练子单元，用于在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练，得到同义句生成模型。

可选的，所述内容转换子单元，包括：

向量转换子单元，用于调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量；

相似度计算子单元，用于基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度，基于计算结果构建相似度矩阵；

相似度数值选取子单元，用于选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。

为了达到上述技术目的，根据本公开实施例的第三方面，本实施例提供了一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求所述基于知识增强处理的FAQ相似度计算方法的步骤。

为了达到上述技术目的，根据本公开实施例的第四方面，本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行根据权利要求所述基于知识增强处理的FAQ相似度计算方法的步骤。

本发明提供的技术方案带来的有益效果是：

针对客户文本依次执行分词处理、对客户文本、与客户文本对应的目标文本进行基于知识分布的知识增强处理，基于处理结果进行FAQ相似度计算。利用了目标文本的知识分布，扩大目标文本的词语范围，从而扩大了用户提问和目标文本的相同词语范围，提升相似度的计算结果。

在对前一步相似度结果进行判断后如果出现结果小于或等于阈值的情况则再依次执行构建同义句生成模型，调用同义句生成模型得到客户文本同义句句组、目标文本同义句句组，根据得到的两套同义句句组计算相似度FAQ计算。借助句子层面识增强方法利用深度学习的生成模型VAE生成同义句来进行数据增强，使得生成的多个同义句可以从不同的方向扩充单个用户提问和目标文本的语义范围，能够解决数据过少造成的语义表达范围过窄的问题。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施提出的基于知识增强处理的FAQ相似度计算方法的流程示意图一；

图2是本申请实施提出的基于知识增强处理的FAQ相似度计算方法的流程示意图二；

图3是本申请实施提出的基于知识增强处理的FAQ相似度计算装置的结构示意图一；

图4是本申请实施提出的基于知识增强处理的FAQ相似度计算装置的结构示意图二；

图5是本申请实施例提出的一种电子设备的结构示意图。

具体实施方式

为使本发明的结构和优点更加清楚，下面将结合附图对本发明的结构作进一步地描述。本申请实施例中的M、N、m、n的取值均为非零正整数。

实施例一

在词语层面，搜集数个目标文本的同义句作为知识积累，将目标文本及其同义句分词，将分词后的结果构成一个对应的知识分布；在相似度计算时，利用知识分布对目标文本进行知识增强。

为了达到上述技术目的，根据本公开实施例的第一方面，本实施例提供了基于知识增强处理的FAQ相似度计算方法，如图1所示，所述FAQ相似度计算方法包括：

11、接收客户文本，确定对应客户文本的目标文本；

12、对客户文本、目标文本进行基于知识分布的知识增强处理，基于处理结果进行FAQ相似度计算。

步骤12提出的知识增强处理，具体包括：

121、对客户文本以及目标文本进行分词处理。

分词是中文自然语言处理的常规步骤，中文分词的算法有多种，如HMM、CRF和 BiLSTM+CRF等。这里采用基于HMM的常规中文分词工具分别对用户提问

和目标文本

分词。先去除所有的标点符号，然后进行分词。分词后的结果为

,和

。

122、选取与目标文本对应的同义句构建对应目标文本的知识分布集合，判断知识分布集合中是否存在对应客户文本中已得到的分词内容。

在实施中，为了解决现有技术中在计算客户文本与目标文本之间因差距过大导致相似度计算差值较低无法满足问答匹配要求的缺陷，本申请实施例提出了一种FAQ相似度计算方法，在现有相似度计算的基础上，增加了对目标文本进行扩充的知识增强处理步骤，相对于现有技术能够明显提升目标文本的容量，进而提高了客户文本与目标文本进行相似度计算后的结果，从而能够增加目标文本相对于客户文本的命中率，令客户文本得到更为精确的语义表述范围。

设目标文本

对应的知识积累（同义句）文本为

,则目标文本对应的知识分布可以表示为

,其中

为出现在

中的词语集合，

为对应的词语权重。然后，根据知识分布

对客户提问和目标文本的相似语义进行增强。

逐个判断用户提问

中的词语

是否出现在目标文本的知识分布

中。如果存在，则对两文本的相似度进行词语

的语义增强，将词语

增加到目标文本分词结果的后面。例如客户提问中的词语

和

在知识分布

中，则知识增强后目标文本的分词结果为

（

增补到目标文本中时依次记为

）。如果不存在，则不进行任何处理。知识增强可以利用目标文本的知识分布，从而扩大用户提问与目标文本的相似语义范围。

123、如果存在，则将已得到的分词内容增加至目标文本中，基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。

采用word2vec的词向量和余弦相似度计算用户提问词语

和目标文本词语

的相似度

，

其中

是词语

对应的词向量。词语相似度计算后可以得到如表1所示的相似度矩阵

表1 词语相似度矩阵

表2词语与文本的相似度

取相似度矩阵行最大值

作为用户提问词语

与目标文本的相似度，如表2所示，取相似度矩阵列最大值

作为目标文本词语

与用户提问的相似度。

值得注意的是，如果计算得到的FAQ相似度结果大于预设阈值，输出FAQ相似度结果即可；如果FAQ相似度结果不大于预设阈值，还需要生成用于扩充客户文本、目标文本语义范围的同义句句组，基于同义句句组进行FAQ相似度计算，即后续实施例二的内容。详细内容在实施例二中进行介绍，此处不再赘述。

设词语

在知识分布中的权重为

,词语

在知识分布中的权重为

（另，定义没有出现在知识分布中的词语权重为1），权重

、

可以根据需要进行调整，也可以简单地将名词的权重

设为2，其他词的权重

设为1。

则客户提问

和目标文本

的相似度计算公式为

。

该方法额外利用了目标文本的知识分布，扩大了客户提问与目标文本的相似语义范围，可以提升相似度的计算结果。实验评估集有5585个（客户提问，目标文本）样本，其中目标文本有1617个，采用基于知识增强的FAQ相似度计算方法的正确率为78%，直接计算客户提问和目标文本相似度的方法正确率为65%，相似度计算结果有显著提高。

除了根据前述内容增加知识分布集合中的权重以外，还可以对选取的同义词组的内容和数量进行限定。

在生成目标文本的知识分布时，需要对其同义句内容和数量进行限定，以免导致知识分布的语义范围过于庞大，降低知识增强的效果。限定的措施有两个：第一个是内容限定，同义句分词结果的词语数量与目标文本分词结果的词语数量相差不能超过3；第二个是数量限定，目标文本最多可以选择7个同义句。

针对是否增加限定的示例如下文所示：

正样例1：

客户提问：我手续费多少。

目标文本：A股交易费用。

目标文本的同义句：我股票买入印花税多少。股票卖出手续费。A股交易费用多少。

步骤1：

客户提问：我、手续费、多少。

目标文本：A股、交易、费用。

步骤2：

对目标文本和同义句分词后可以得到知识分布{我：1，A股：2，手续费：2，多少：1，交易：2，费用：2，股票：2，买入：2，卖出：2，印花税：2}。逐个判断用户提问中的词语是否出现在知识分布中，可以得到“我、手续费、多少”三个词语出现在知识分布中。将这三个词语增加到目标文本分词结果的后面，得到“A股、交易、费用、我、手续费、多少”。

步骤3：

两文本直接计算相似度的矩阵为

相似度为

。

知识增强后计算相似度的矩阵为

相似度为

。

不采取限定措施生成知识分布的反样例2：

客户提问：请问、现在股票买入、卖出的印花税是多少，谢谢；

正确目标文本：A股交易费用，；

错误目标文本：沪B股交易费用；

正确目标文本的同义句：我交易手续费多少。我股票买入印花税多少。股票卖出费用。A股交易手续费多少。

错误目标文本的同义句：沪B股票交易费用。上海B股交易手续费多少。请问、现在B股股票买入、卖出的印花税是多少，谢谢。

步骤1：如果客户文本属于短文本，则对客户文本、与客户文本对应的目标文本进行分词处理。

客户提问：请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢

正确目标文本：A股、交易、费用；

错误目标文本：沪B股、交易、费用；

步骤2：选取与目标文本对应的同义句构建对应目标文本的知识分布集合，判断知识分布集合中是否存在对应客户文本中已得到的分词内容。

对正确目标文本和同义句分词后可以得到知识分布{我：1，A股：2，手续费：2，多少：1，交易：2，费用：2，股票：2，买入：2，卖出：2，印花税：2}。逐个判断用户提问中的词语是否出现在知识分布中，可以得到“股票、买入、卖出、印花税、多少”5个词语出现在知识分布中。将这5个词语增加到目标文本分词结果的后面，得到“A股、交易、费用、股票、买入、卖出、印花税、多少”。

不采用限定措施，对错误目标文本和同义句分词后可以得到知识分布{沪B股：2，交易：2，费用，沪B：2，股票：2，上海：2，手续费：2，多少：1，请问：1，现在：1，B股：2，买入：2，卖出：2的：1，印花税：2，是：1，谢谢：1}。逐个判断用户提问中的词语是否出现在知识分布中，可以得到“请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢”10个词语出现在知识分布中。将这10个词语增加到目标文本分词结果的后面，得到“沪B股、交易、费用、请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢”。

采用限定措施，错误目标文本的同义句“上海B股交易手续费多少。请问、现在B股股票买入、卖出的印花税是多少，谢谢”的分词结果“上海、B股、交易、手续费、多少、请问、现在、B股、股票、买入、卖出、的、印花税、是、多少、谢谢”中有16个词语，而目标文本“沪B股交易费用”的分词结果“沪B股、交易、费用”中只有3个词语，两个句子的词语数量相差为13，大于3所以该同义句不能用于生成目标文本的知识分布。对处理后的目标文本和同义句分后可以得到知识分布{沪B股：2，交易：2，费用，沪B：2，股票：2，上海：2，手续费：2，多少：1， B股：2 }。逐个判断用户提问中的词语是否出现在知识分布中，可以得到“股票、多少”2个词语出现在知识分布中。将这10个词语增加到目标文本分词结果的后面，得到“沪B股、交易、费用、股票、多少”。

步骤3：如果存在，则将已得到的分词内容增加至目标文本中，基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。

A．客户提问与正确目标文本的相似度计算矩阵

客户提问与正确目标文本的相似度为

。

B．不采用限定措施，客户提问与错误目标文本的相似度计算矩阵

不采用限定措施，客户提问与错误目标文本的相似度为

。

C．采用限定措施后，客户提问与错误目标文本的相似度计算矩阵

采用限定措施，客户提问与错误目标文本的相似度为

。

客户提问与正确的目标文本间相似度为0.745，不采取限定措施的情况下客户提问与错误目标文本间相似度为0.87，采取内容限定的情况下客户提问与错误目标文本的相似度为0.485，所以在生成知识分布时，采取限定措施是必要的。

综上，依次执行分词、构建知识分布集合、对目标文本进行扩容再进行相似度计算的步骤，与常规的词语匹配方法相比，该方法额外利用了目标文本的知识分布，可以扩大目标文本的词语范围，从而扩大了用户提问和目标文本的相同词语范围，提升相似度的计算结果。与基于词向量的传统方法相比，该方法额外利用了目标文本已有的知识分布，可以在传统WMD方法的基础上进一步增加客户提问与词分布相同的词语相似度，从而提升相似度的计算结果。

实施例二

在前述实施例一的基础上，如果对得到的FAQ相似度结果与预设阈值进行判定，如果FAQ相似度结果不大于预设阈值，生成用于扩充客户文本、目标文本语义范围的同义句句组，基于同义句句组进行FAQ相似度计算。如图2所示，具体包括：

311、构建同义句生成模型。

构建同义句生成模型的详细内容包括：

3111、构建初始深度学习模型；

3112、在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量；

3113、在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码，得到与客户文本相近的同义句；

3114、在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练，得到同义句生成模型。

示例性的，构建同义句生成模型所使用的深度学习模型为VAE（Variational Autoencoder），该模型的处理过程主要分为两个部分：编码过程（Encoder）和解码过程 (Decoder)。例如给定句子

，编码过程会利用LSTM和MLP将其编码成两个向量

和

；解码过程会利用MLP和LSTM将编码向量解码成和

相近的句子

。

考虑到通常的VAE模型训练时采用的自身监督，即模型输入和目标输出的监督信号是同一个句子。这样的训练机制得到的模型生成的句子与输入的句子过于相似，难以对输入的句子进行语义增强，扩大其表达范围。因此，本实施例提出，在训练同义句生成模型时修改了自身监督机制，将输入文本的同义句当作监督信号。即：首先构建大量的训练样本

，

是一个句子文本，d是

的同义句文本。然后将句子

作为VAE模型的输入，d作为VAE目标输出的监督信号。最后利用训练样本和深度学习的训练机制，训练出同义句生成模型。这样能够起到扩大表达范围的目的。

312、基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句，将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组。

利用步骤311得到的同义句生成模型分别生成用户提问

的m个（m为大于1的自然数）同义句

，目标文本

的m个同义句

。然后组成两个同义句句组：用户提问同义句句组

，目标文本同义句句组

。在生成同义句句组时，需要对同义句的内容和数量进行限定，以免同义句句组的语义覆盖范围过大，降低知识增强的效果。限定的措施有两个：第一个是内容限定，同义句的

与目标文本的

距离不能大于

；第二个是数量限定，m小于等于7。同义句生成模型会对用户提问

和目标文本

分别进行数据增强，从而扩充用户提问

和目标文本

的语义范围，缩短两个文本之间的距离。

313、将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。具体包括：

3131、调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量。

首先利用LSTM将用户提问同义句句组

，目标文本同义句句组

分别编码成向量。

3132、基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度，基于计算结果构建相似度矩阵。

然后采用余弦相似度分别计算用户提问同义句句组中的句子

和目标文本同义句句组中句子

的相似度

，得到如表3所示的相似度矩阵，

表3 相似度矩阵

3133、选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。

取相似度矩阵中行的最大值

当作用户提问同义句句组

的句子

与目标文本同义句句组的相似度，

取相似度矩阵中列的最大值

当作句子

与用户提问同义句句组的相似度。

最后取

和

中的最大值作为用户提问

和目标文本

的相似度

。

将同义句组间的相似度作为用户提问和目标文本的相似度，可以提升相似度的计算结果。

综上，针对客户文本被判断为短文本的情况下，依次执行分词处理、对客户文本、与客户文本对应的目标文本进行基于知识分布的知识增强处理，基于处理结果进行FAQ相似度计算。利用了目标文本的知识分布，扩大目标文本的词语范围，从而扩大了用户提问和目标文本的相同词语范围，提升相似度的计算结果。

实施例三

为了达到上述技术目的，根据本公开实施例的第二方面，本实施例提供了基于知识增强处理的FAQ相似度计算装置4，如图3所示，所述数据处理装置包括：

文本接收模块41，用于接收客户文本，确定对应客户文本的目标文本；

相似度计算模块42，用于对客户文本、目标文本进行基于知识分布的知识增强处理，基于处理结果进行FAQ相似度计算。

针对相似度计算模块42所执行的与客户文本对应的目标文本进行基于知识分布的知识增强处理步骤，具体包括：

分词处理单元421，用于对客户文本以及目标文本进行分词处理。

和目标文本

,和

。

分词判断单元422，用于选取与目标文本对应的同义句构建对应目标文本的知识分布集合，判断知识分布集合中是否存在对应客户文本中已得到的分词内容。

在实施中，为了解决现有技术中在计算客户文本与目标文本之间因差距过大导致相似度计算差值较低无法满足问答匹配要求的缺陷，本申请实施例提出了一种FAQ相似度计算装置，在现有相似度计算的基础上，增加了对目标文本进行扩充的知识增强处理步骤，相对于现有技术能够明显提升目标文本的容量，进而提高了客户文本与目标文本进行相似度计算后的结果，从而能够增加目标文本相对于客户文本的命中率，令客户文本得到更为精确的语义表述范围。

设目标文本

对应的知识积累（同义句）文本为

,则目标文本对应的知识分布可以表示为

,其中

为出现在

中的词语集合，

为对应的词语权重。然后，根据知识分布

对客户提问和目标文本的相似语义进行增强。

逐个判断用户提问

中的词语

是否出现在目标文本的知识分布

中。如果存在，则对两文本的相似度进行词语

的语义增强，将词语

增加到目标文本分词结果的后面。例如客户提问中的词语

和

在知识分布

中，则知识增强后目标文本的分词结果为

（

增补到目标文本中时依次记为

分词填充单元423，用于如果存在，则将已得到的分词内容增加至目标文本中，基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。

采用word2vec的词向量和余弦相似度计算用户提问词语

和目标文本词语

的相似度

，

其中

是词语

对应的词向量。词语相似度计算后可以得到如表1所示的相似度矩阵：

表1 词语相似度矩阵

表2词语与文本的相似度

取相似度矩阵行最大值

作为用户提问词语

与目标文本的相似度，如表2所示，取相似度矩阵列最大值

作为目标文本词语

与用户提问的相似度。

值得注意的是，所述相似度计算模块42，包括：

相似度第二执行单元43，用于如果FAQ相似度结果不大于预设阈值，生成用于扩充客户文本、目标文本语义范围的同义句句组，基于同义句句组进行FAQ相似度计算，即后续实施例四的内容。详细内容在实施例四中进行介绍，此处不再赘述。

设词语

在知识分布中的权重为

,词语

在知识分布中的权重为

（另，定义没有出现在知识分布中的词语权重为1），权重

、

可以根据需要进行调整，也可以简单地将名词的权重

设为2，其他词的权重

设为1。

则客户提问

和目标文本

的相似度计算公式为

。

针对是否增加限定的示例如下文所示：

正样例1：

客户提问：我手续费多少。

目标文本：A股交易费用。

步骤1：

客户提问：我、手续费、多少

目标文本：A股、交易、费用

步骤2：

步骤3：

两文本直接计算相似度的矩阵为

相似度为

。

知识增强后计算相似度的矩阵为

相似度为

。

不采取限定措施生成知识分布的反样例2：

客户提问：请问、现在股票买入、卖出的印花税是多少，谢谢

正确目标文本：A股交易费用

错误目标文本：沪B股交易费用，

步骤1：分词处理单元421，用于如果客户文本属于短文本，则对客户文本、与客户文本对应的目标文本进行分词处理。

正确目标文本：A股、交易、费用

错误目标文本：沪B股、交易、费用

步骤2：分词判断单元422，用于选取与目标文本对应的同义句构建对应目标文本的知识分布集合，判断知识分布集合中是否存在对应客户文本中已得到的分词内容。

采用限定措施，错误目标文本的同义句“上海B股交易手续费多少。请问、现在B股股票买入、卖出的印花税是多少，谢谢”的分词结果“上海、B股、交易、手续费、多少、请问、现在、B股、股票、买入、卖出、的、印花税、是、多少、谢谢”中有16个词语，而目标文本“沪B股交易费用”的分词结果“沪B股、交易、费用”中只有3个词语，两个句子的词语数量相差为13，大于3.所以该同义句不能用于生成目标文本的知识分布。对处理后的目标文本和同义句分后可以得到知识分布{沪B股：2，交易：2，费用，沪B：2，股票：2，上海：2，手续费：2，多少：1， B股：2 }。逐个判断用户提问中的词语是否出现在知识分布中，可以得到“股票、多少”2个词语出现在知识分布中。将这10个词语增加到目标文本分词结果的后面，得到“沪B股、交易、费用、股票、多少”。

A．客户提问与正确目标文本的相似度计算矩阵

客户提问与正确目标文本的相似度为

。

不采用限定措施，客户提问与错误目标文本的相似度为

。

采用限定措施，客户提问与错误目标文本的相似度为

。

实施例四

所述相似度第二执行单元43，用于如果FAQ相似度结果不大于预设阈值，生成用于扩充客户文本、目标文本语义范围的同义句句组，基于同义句句组进行FAQ相似度计算，如图4所示，包括：

模型构建子单元431，用于构建同义句生成模型。

具体包括：初始模型构建子单元4311，用于构建初始深度学习模型；

编码子单元4312，用于在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量；

解码子单元4313，用于在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码，得到与客户文本相近的同义句；

模型训练子单元4314，用于在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练，得到同义句生成模型。

，编码过程会利用LSTM和MLP将其编码成两个向量

和

；解码过程会利用MLP和LSTM将编码向量解码成和

相近的句子

。

，

是一个句子文本，d是

的同义句文本。然后将句子

作为VAE模型的输入，d为 VAE目标输出的监督信号。最后利用训练样本和深度学习的训练机制，训练出同义句生成模型。这样能够起到扩大表达范围的目的。

同义句组合子单元432，用于基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句，将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组。

基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句，将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组。

利用得到的同义句生成模型分别生成用户提问

的m个（m为大于1的自然数）同义句

，目标文本

的m个同义句

。然后组成两个同义句句组：用户提问同义句句组

，目标文本同义句句组

与目标文本的

距离不能大于

和目标文本

分别进行数据增强，从而扩充用户提问

和目标文本

的语义范围，缩短两个文本之间的距离。

内容转换子单元433，用于将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。

将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。具体包括：

向量转换子单元4331，用于调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量；

首先利用LSTM将用户提问同义句句组

，目标文本同义句句组

分别编码成向量。

相似度计算子单元4332，用于基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度，基于计算结果构建相似度矩阵；

然后采用余弦相似度分别计算用户提问同义句句组中的句子

和目标文本同义句句组中句子

的相似度

，得到如表3所示的相似度矩阵：

表3 相似度矩阵

相似度数值选取子单元4333，用于选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。

取相似度矩阵中行的最大值

当作用户提问同义句句组

的句子

与目标文本同义句句组的相似度，

取相似度矩阵中列的最大值

当作句子

与用户提问同义句句组的相似度。

最后取

和

中的最大值作为用户提问

和目标文本

的相似度

。

综上，针对客户文本被判断为长文本的情况下，依次执行构建同义句生成模型，调用同义句生成模型得到客户文本同义句句组、目标文本同义句句组，根据得到的两套同义句句组计算相似度FAQ计算。借助句子层面识增强方法利用深度学习的生成模型VAE生成同义句来进行数据增强，使得生成的多个同义句可以从不同的方向扩充单个用户提问和目标文本的语义范围，能够解决数据过少造成的语义表达范围过窄的问题。另外在句子层面知识增强方法中生成的用户提问同义句句组和目标文本同义句组，比直接扩充客户提问和目标文本中的词语得到的客户提问句组和目标文本句组更能扩大客户提问和目标文本的语义表达范围，从而缩小两文本间的距离，提高远距离文本间的相似度。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本示例实施方式中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例中所述基于知识增强处理的FAQ相似度计算方法的步骤。所述基于知识增强处理的FAQ相似度计算方法的具体步骤可参考前述实施例中关于上述数据处理步骤的详细描述，此处不再赘述。所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本示例实施方式中，还提供一种电子设备，该电子设备可以包括处理器以及用于存储所述处理器的可执行指令的存储器。其中，所述处理器配置为经由执行所述可执行指令来执行上述任一实施例中所述基于知识增强处理的FAQ相似度计算方法的步骤。该生成方法的步骤可参考前述方法实施例中的详细描述，此处不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

图5示出根据本公开示例实施方式中一种电子设备的示意图。例如，装置可以被提供为一服务器或客户端。参照图5，设备包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述方法。

装置800还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置800可以操作基于存储在存储器532的操作***，例如Windows Server TM，Mac OS XTM，Unix TM、Linux TM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本实施例旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.基于知识增强处理的FAQ相似度计算方法，其特征在于，所述FAQ相似度计算方法包括：

接收客户文本，确定对应客户文本的目标文本；

如果FAQ相似度结果大于预设阈值，输出FAQ相似度结果；

2.根据权利要求1所述的基于知识增强处理的FAQ相似度计算方法，其特征在于，所述对客户文本、目标文本进行基于知识分布的知识增强处理，基于处理结果进行FAQ相似度计算，包括：

对客户文本以及目标文本进行分词处理；

3.根据权利要求2所述的基于知识增强处理的FAQ相似度计算方法，其特征在于，所述知识分布集合中还设有对应每个同义词组的权重值。

4.根据权利要求1所述的基于知识增强处理的FAQ相似度计算方法，其特征在于，所述生成用于扩充客户文本、目标文本语义范围的同义句句组，基于同义句句组进行FAQ相似度计算，包括：

构建同义句生成模型；

5.根据权利要求4所述的基于知识增强处理的FAQ相似度计算方法，其特征在于，所述构建同义句生成模型，包括：

构建初始深度学习模型；

6.根据权利要求4所述的基于知识增强处理的FAQ相似度计算方法，其特征在于，所述将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算，包括：

7.基于知识增强处理的FAQ相似度计算装置，其特征在于，所述数据处理装置包括：

所述相似度计算模块，包括：

8.根据权利要求7所述的基于知识增强处理的FAQ相似度计算装置，其特征在于，所述相似度计算模块，包括：

9.根据权利要求8所述的基于知识增强处理的FAQ相似度计算装置，其特征在于，所述知识分布集合中还设有对应每个同义词组的权重值。

10.根据权利要求7所述的基于知识增强处理的FAQ相似度计算装置，其特征在于，所述相似度第二执行单元，包括：

模型构建子单元，用于构建同义句生成模型；

11.根据权利要求10所述的基于知识增强处理的FAQ相似度计算装置，其特征在于，所述模型构建子单元包括：

初始模型构建子单元，用于构建初始深度学习模型；

12.根据权利要求10所述的基于知识增强处理的FAQ相似度计算装置，其特征在于，所述内容转换子单元，包括：

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至6任一项所述基于知识增强处理的FAQ相似度计算方法的步骤。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行根据权利要求1至6任一项所述基于知识增强处理的FAQ相似度计算方法的步骤。