CN110348539A

CN110348539A - 短文本相关性判别方法

Info

Publication number: CN110348539A
Application number: CN201910653618.0A
Authority: CN
Inventors: 薛娇; 黄波; 李大任; 李大海
Original assignee: Zhizhe Information Technology Service Chengdu Co Ltd
Current assignee: Zhizhe Information Technology Service Chengdu Co Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-10-18
Anticipated expiration: 2039-07-19
Also published as: CN110348539B

Abstract

本公开涉及一种短文本相关性判别方法。根据本公开的一个实施方式，该方法包括：获取两个短文本的相似度得分；获取两个短文本的重复度；以及根据相似度得分和重复度将两个短文本之间的相关性判别为无关、相似和重复之一。本公开的方法及装置至少具有以下有益技术效果之一：将两个短文本的相似度得分和重复度联合起来，对两个短文本的相关性进行三级判别，该相关性判别方法更加合理准确，且应用场景更加广泛。

Description

短文本相关性判别方法

技术领域

本公开涉及网络信息处理领域，具体地，涉及一种短文本相关性判别方法、装置、存储介质和电子设备。

背景技术

网络中问答社区的主要内容是问题和回答，其中问题大多是短文本，短文本的相关性判别在该业务场景中有着广泛的应用。例如，根据某个问题，推荐出该问题相关的其他问题；对相关问题进行重定位处理，以更多地曝光高质量的回答；当用户提出的问题存在重复情况时，可以引导用户直接查看已有的重复问题，或者更清晰地陈述自己的问题。现有的文本相关性判别方法，仅能够将两个文本判别为无关和相似，并未对相似性的程度进一步确定，导致其应用单一，对复杂场景无法满足需求。

发明内容

在下文中将给出关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。应当理解，此概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分，也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本公开的第一方面，提供了一种短文本相关性判别方法，包括：

获取两个短文本的相似度得分；

获取两个短文本的重复度；以及

根据相似度得分和重复度将两个短文本之间的相关性判别为无关、相似和重复之一。

在一个实施例中，

根据本公开的第二方面，提供了一种短文本相关性判别装置，包括：

第一获取单元，被配置成获取两个短文本的相似度得分；

第二获取单元，被配置成获取两个短文本的重复度；以及

判别单元，被配置成根据相似度得分和重复度将两个短文本之间的相关性判别为无关、相似和重复之一。

根据本公开的第三方面，提供一种存储介质，其上存储有实现上述第一方面的短文本相关性判别方法的程序。

根据本公开的第四方面，提供一种电子设备，包括处理器；存储器，存储器上存储有指令，指令在被处理器执行时实现上述第一方面的短文本相关性判别方法的程序。

本公开的技术方案至少具有以下技术效果之一：将两个短文本的相似度得分和重复度联合起来，对两个短文本的相关性进行三级判别，该相关性判别方法更加合理准确，使得应用场景更加广泛。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解，附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。在附图中：

图1是根据本公开的一个实施例的短文本相关性判别方法的流程示意图；

图2是根据本公开的一个实施例的获取两个短文本的相似度得分的流程示意图；

图3是根据本公开的一个实施例的分别获取两个短文本的相似度得分向量的流程示意图；

图4是根据本公开的一个实施例的对每个相似度得分向量进行归一化IDF加权的流程示意图；

图5是根据本公开的一个实施例的获取两个短文本的重复度的流程示意图；

图6是根据本公开的一个实施例的提取短文本的关键词的流程示意图；

图7是根据本公开的一个实施例的根据相似度得分和重复度确定两个短文本之间的相关性的流程示意图；以及

图8是根据本公开的一个实施例的短文本相关性判别装置的结构框图；

图9是根据本公开的一个实施例的电子设备的结构示意图。

具体实施方式

在下文中将结合附图对本公开的示例性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施例的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施例的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的装置结构，而省略了与本公开关系不大的其他细节。

应理解的是，本公开并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中，在可行的情况下，实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。

根据本公开的一个实施例，将两个短文本的相似度得分和重复度联合起来，对两个短文本的相关性进行三级判别，该相关性判别方法更加合理准确，且应用场景更加广泛。

具体地，图1是根据本公开的一个实施例的短文本相关性判别方法的流程示意图。参见图1，短文本相关性判别方法，包括：

S10、获取两个短文本的相似度得分；

S11、获取两个短文本的重复度；以及

S12、根据相似度得分和重复度将两个短文本之间的相关性判别为无关、相似和重复之一。

其中，两个短文本的重复度指的是两个短文本中的词的重复程度。本实施例将两个短文本的相似度得分和重复度联合起来，对两个短文本的相关性进行三级判别，即无关、相似和重复。这三个等级的相关性依次增强。无关表示相关性最弱，表示两个短文本表述的语义差别较大；重复表示相关性最强，表示两个短文本的语义没有差别，即在描述同一个事件、陈述同一个事实和表达相同的观点等。相关性为相似的两个短文本，他们的相关程度介于无关和重复之间。

在某复杂的业务场景中，当用户提出新问题时，必须判断在已有的问题库中是否已存在语义重复的问题，即判断两个短文本是否重复。如果用户提出的问题在问题库中存在重复，则可以引导用户直接查看已有的重复问题，或者更清晰地陈述自己的问题。另外，可以对已有的问题库进行滤重处理，即对重复的问题仅保留一个，可以有效提高问题库中的问题的质量。

此外，对于相关性为相似的短文本，属于推荐***的非常重要的数据源，通过推荐相关性为相似的问题，能够尽可能多地曝光高质量的问题和回答，为用户提供更好的体验。

图2是根据本公开的一个实施例的获取两个短文本的相似度得分的流程示意图。参见图2，获取两个短文本的相似度得分，例如可以包括：

S20、分别获取两个短文本的相似度得分向量；

S21、对每个相似度得分向量进行归一化IDF(逆文本频率指数)加权，得到加权值；以及

S22、计算所有加权值的均值，作为两个短文本的相似度得分。

图3是根据本公开的一个实施例的分别获取两个短文本的相似度得分向量的流程示意图。参见图3，分别获取两个短文本的相似度得分向量，例如可以包括：

S30、对短文本sentence1和短文本sentence2分别进行分词预处理，得到分词序列terms1和分词序列terms2；其中，分词序列terms1的序列长度可以为M，分词序列terms2的序列长度可以为N，M和N可以是大于或等于1的自然数；

S31、从词向量查找表里，分别查找分词序列terms1和分词序列terms2中的每个词对应的词向量，其中，词向量查找表可以是利用开源word2vec算法对全库内容进行训练得到的。例如，分词序列terms1中每个词对应的词向量可以用vecs1表示，vecs1是一个1xD的向量，分词序列terms1对应的所有的词向量形成一个维度为MxD的矩阵；分词序列terms2中每个词对应的词向量可以用vecs2表示，vecs2是一个1xD的向量，分词序列terms2对应的所有的词向量形成一个维度为NxD的矩阵；本实施例中取D为256，但不限于此；

S32、计算分词序列terms1中每个词对应的词向量和分词序列terms2中每个词对应的词向量之间的余弦相似度分数，得到相似度矩阵；该相似度矩阵为维度为MxN的矩阵；

其中，余弦相似度分数s_ij可以用如下公式(1)计算得到：

s_ij＝dot_product(v_i,v_j)/||v_i||*||v_j|| (1)

式(1)中，v_i表示分词序列terms1中第i个词对应的词向量，v_j表示分词序列terms2中第j个词对应的词向量，dot_product表示点乘运算，s_ij表示v_i和v_j之间的余弦相似度分数；

S33、针对相似度矩阵，分别按行最大采样和按列最大采样，得到两个短文本的相似度得分向量。按行最大采样指的是，选取相似度矩阵中每行元素的最大值，得到分词序列terms1对应的相似度分数向量similarity1；按列最大采样指的是，选取相似度矩阵中每列元素的最大值，得到分词序列terms2对应的相似度分数向量similarity2。

图4是根据本公开的一个实施例的对每个相似度得分向量进行归一化IDF加权的流程示意图。参见图4，对每个相似度得分向量进行归一化IDF加权，得到加权值，例如可以包括：

S40、求分词序列中每个词的IDF值，得到一个IDF向量；

S41、对该IDF向量进行归一化处理，得到归一化后的IDF向量；

S42、将相似度分数向量与该归一化后的IDF向量进行点乘，得到加权值。

举例来说，对于分词序列中的词t，词t的IDF值可以用如下公式(2)计算得到：

IDF＝log(N_total/N_df) (2)

式(2)中，N_total表示全部文章的数量，N_df表示包含词t的文章的数量，其中的文章是指定网站内的文章，如知乎网站。

从词t的IDF的定义可知，IDF越大，表示该词是常用词的可能性越小，则该词越有可能是表征句子主旨含义的词。因此，通过IDF加权能充分考虑主旨词的重要性，可更好地表征短文本的语义信息。加权时对词序列的IDF进行归一化，将最后的得分区间限定在0～1.0，使得不同的分数之间具有更强的可比性。

图5是根据本公开的一个实施例的获取两个短文本的重复度的流程示意图。参见图5，获取两个短文本的重复度，例如可以包括：

S50、获取两个短文本的关键词重复度和编辑重复度；

S51、将关键词重复度和编辑重复度累加，获取两个短文本的重复度。

其中，获取两个短文本的关键词重复度，例如可以包括：

获取两个短文本的关键词覆盖率；若关键词覆盖率大于或等于第一设定阈值，则关键词重复度为1，否则关键词重复度为0。其中，优选地，第一设定阈值为0.5。

两个短文本的关键词覆盖率可以定义为两个短文本中相同关键词的数量与两个短文本中非重复关键词的数量的比值；其中，相同关键词的数量指的是两个短文本的关键词的交集的元素的个数，非重复关键词的数量指的是两个短文本的关键词的并集的元素的个数。举例来说，一个短文本的关键词为t_1，t_4，另一个短文本的关键词为t_1，t_2，则两个短文本中相同关键词为t_1，非重复关键词为t_1，t_2，t_4，因此，两个短文本中相同关键词的数量为1，两个短文本中非重复关键词的数量为3。

进一步地，在获取两个短文本的关键词覆盖率的步骤之前，还可以包括：分别提取两个短文本的关键词。

图6是根据本公开的一个实施例的提取短文本的关键词的流程示意图。参见图6，提取短文本的关键词，例如可以包括：

S60、对短文本进行分词处理，得到分词序列；

S61、去除分词序列中的停用词，得到处理后的分词序列；其中，停用词包括语气助词、副词、介词、连词等功能词。具体地，对短文本进行分词处理，得到分词序列；将分词序列中的词与停用词表中的词进行匹配，若分词序列中存在与停用词表中的停用词匹配的停用词，则将其从分词序列中去除。其中，停用词表为事先将所有的停用词进行整理得到。

S62、计算处理后的分词序列中每个词的IDF值，如上参考公式(2)所述；

S63、将IDF值中的最大值的设定百分比作为提取阈值；其中，设定百分比可以为例如80％，但不限于此。此处百分比的选取能够使得保留下来的词具有更高的相似性或重复性，即留下来的词都在表达更相似或重复的语义

S64、选取IDF值中大于该提取阈值的IDF值对应的词作为关键词。

综上，上述对短文本关键词的提取，首先去除短文本对应的分词序列中的停用词，然后，再采用计算IDF值的方式得到关键词的权重，其充分考虑到了短文本字数大多在约10字左右的特点，问题中的主题或者主体词极少会出现重复，出现重复的词大多是停用词或者其他无意义的词，因此，将停用词去除且计算IDF值能够最大程度减少无意义词的干扰，同时保留主题词。另外，将IDF值中的最大值的设定百分比作为提取阈值，同样考虑到短文本字数较少的特点，且考虑到短文本描述的主题或者主体具有单一性且较为具体，采用最大值的百分位阈值更能挖掘出准确的关键词。

获取两个短文本的编辑重复度，例如可以包括：

若两个短文本的编辑距离系数大于第二设定阈值，则编辑重复度为1，否则编辑重复度为0。

两个短文本的编辑距离系数可以用如下公式(3)计算得到：

score＝1-editLength/max(length1,length2) (3)

式(3)中，score为两个短文本的编辑距离系数，length1为一个短文本对应的分词序列的长度，length2为另一个短文本对应的分词序列的长度，editLength为两个短文本的编辑距离。

优选地，第二设定阈值可以为0.65。若两个短文本的编辑距离系数为0.65，则两个短文本最多有35％的词需要经过编辑，此处的编辑操作包括将一个词替换成另一个词、***一个词和删除一个词，即两个短文本至少有75％的词是相同的。

图7是根据本公开的一个实施例的根据相似度得分和重复度确定两个短文本之间的相关性的流程示意图。参见图7，根据相似度得分和重复度将两个短文本之间的相关性判别为无关、相似和重复之一，包括：在获取相似度得分和重复度之后

若相似度得分小于第三设定阈值，则将两个短文本之间的相关性判别为无关；

若相似度得分大于或等于第三设定阈值且小于第四设定阈值，或者，相似度得分大于或等于第四设定阈值，且重复度等于0，则将两个短文本之间的相关性判别为相似；其中，第四设定阈值大于第三设定阈值；

若相似度得分大于或等于第四设定阈值，且重复度不等于0，则将两个短文本之间的相关性判别为重复。

其中，优选地，第三设定阈值可以为0.5，第四设定阈值可以为0.8。本实施例通过设定第三阈值，将相似度得分小于第三设定阈值的两个短文本判别为无关；对于相似度大于第三设定阈值的两个短文本进一步利用第四设定阈值和重复度进行判别，进一步将短文本判别为相似或者重复。使得相关性判别方法更加合理准确，应用场景更加广泛。

本公开的第二方面，还提供一种短文本相关性判别装置。图8是根据本公开提供的一个实施例中的短文本相关性判别装置的结构框图。参见图8，短文本相关性判别装置包括：第一获取单元80、第二获取单元81和确定单元82。

第一获取单元80，用于获取两个短文本的相似度得分；

第二获取单元81，用于获取两个短文本的重复度；以及

判别单元82，用于根据相似度得分和重复度将两个短文本之间的相关性判别为无关、相似和重复之一。

本公开第三个方面，提供一种电子设备，包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述第一方面的短文本相关性判别方法。图9是根据本公开的一个实施例的电子设备900的结构示意图。如图9所示，电子设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有电子设备操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

本公开的第四方面，提供一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述第一方面的短文本相关性判别方法。特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，包括承载指令的在计算机可读介质，在这样的实施例中，该指令可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该指令被中央处理单元(CPU)901执行时，执行本发明中描述的各个方法步骤。

尽管已经描述了示例实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本发明构思的精神和范围的情况下，可以进行各种改变和修改。因此，应当理解，上述示例实施例不是限制性的，而是说明性的。

Claims

1.一种短文本相关性判别方法，包括：

获取两个短文本的相似度得分；

获取两个短文本的重复度；以及

根据所述相似度得分和所述重复度将所述两个短文本之间的相关性判别为无关、相似和重复之一。

2.根据权利要求1所述的短文本相关性判别方法，其中，获取两个短文本的相似度得分，包括：

分别获取所述两个短文本的相似度得分向量；

对每个所述相似度得分向量进行归一化IDF加权，得到加权值；以及

计算所有所述加权值的均值，作为所述两个短文本的相似度得分。

3.根据权利要求1所述的短文本相关性判别方法，其中，获取两个短文本的重复度，包括：

获取所述两个短文本的关键词重复度和编辑重复度；以及

将所述关键词重复度和所述编辑重复度累加，获取所述两个短文本的重复度。

4.根据权利要求3所述的短文本相关性判别方法，其中，获取所述两个短文本的关键词重复度，包括：

获取所述两个短文本的关键词覆盖率；

若所述关键词覆盖率大于或等于第一设定阈值，则所述关键词重复度为1，否则所述关键词重复度为0。

5.根据权利要求4所述的短文本相关性判别方法，其中，在获取所述两个短文本的关键词覆盖率的步骤之前，还包括：

分别提取所述两个短文本的关键词，包括：

分别对所述两个短文本进行分词处理，得到分词序列；

去除所述分词序列中的停用词，得到处理后的分词序列；

计算所述处理后的分词序列中每个词的IDF值；

将所述IDF值中的最大值的设定百分比作为提取阈值；以及

选取所述IDF值中大于所述提取阈值的IDF值对应的词作为所述关键词。

6.根据权利要求3所述的短文本相关性判别方法，其中，获取所述两个短文本的编辑重复度，包括：

若所述两个短文本的编辑距离系数大于第二设定阈值，则所述编辑重复度为1，否则所述编辑重复度为0。

7.根据权利要求1所述的短文本相关性判别方法，其中，根据所述相似度得分和所述重复度将所述两个短文本之间的相关性判别为无关、相似和重复之一，包括：

若所述相似度得分小于第三设定阈值，则将所述两个短文本之间的相关性判别为无关；

若所述相似度得分大于或等于所述第三设定阈值且小于第四设定阈值，或者，所述相似度得分大于或等于所述第四设定阈值，且所述重复度等于0，则将所述两个短文本之间的相关性判别为相似；其中，所述第四设定阈值大于所述第三设定阈值；

若所述相似度得分大于或等于所述第四设定阈值，且所述重复度不等于0，则将所述两个短文本之间的相关性判别为重复。

8.一种短文本相关性判别装置，包括：

第一获取单元，被配置成获取两个短文本的相似度得分；

第二获取单元，被配置成获取两个短文本的重复度；以及

判别单元，被配置成根据所述相似度得分和所述重复度将所述两个短文本之间的相关性判别为无关、相似和重复之一。

9.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7中任一项所述的方法。

10.一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如权利要求1至7中任一所述的方法。