CN113806486A

CN113806486A - 长文本相似度的计算方法及装置、存储介质、电子装置

Info

Publication number: CN113806486A
Application number: CN202111115022.9A
Authority: CN
Inventors: 王昕�; 程刚; 蒋志燕
Original assignee: Shenzhen Raisound Technology Co ltd
Current assignee: Shenzhen Raisound Technology Co ltd
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-17
Anticipated expiration: 2041-09-23
Also published as: CN113806486B

Abstract

本发明提供了一种长文本相似度的计算方法及装置、存储介质、电子装置，其中，该方法包括：获取待比较的第一文本和第二文本；分别计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；若所述第一文本长度和所述第二文本长度均大于第一阈值，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。通过本发明，解决了相关技术计算长文本的相似度的准确率低技术问题，自动判断并针对两个长文本选择特定的文本语义匹配模型，计算两个长文本之间的相似度，可以节约成本、高效、方便。

Description

长文本相似度的计算方法及装置、存储介质、电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种长文本相似度的计算方法及装置、存储介质、电子装置。

背景技术

相关技术中，文本语义匹配是自然语言处理领域的关键问题，常见的很多自然语言处理任务，如机器翻译、问答***和网页搜索等，都可以归结为文本语义相似度匹配问题。文本语义匹配包括长文本-长文本语义匹配和长文本-短文本语义匹配。相关技术中，每种类型的相似度匹配方式相同，都是直接计算两个文本中各个字符的相似度，进而得到整个文本的相似度。

相关技术中，对于长文本的匹配，由于其包含的单词较多，且前后句之后存在语义的关联关系，因此如果直接采用短文本的字符比对方式来计算相似度，则得到的相似度的准确率较低，基本不具备参考价值。

针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种长文本相似度的计算方法及装置、存储介质、电子装置。

根据本发明的一个实施例，提供了一种长文本相似度的计算方法，包括：获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；若所述第一文本长度和所述第二文本长度均大于第一阈值，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

可选的，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度包括：统计所述第一文本和所述第二文本中各个单词的频次信息；基于所述频次信息将所述第一文本和所述第二文本分别转换为第一词袋向量和第二词袋向量；采用文档频率逆文档频率TF-IDF模型将所述第一词袋向量和第二词袋向量分别转换为相同维度的第一变换向量和第二变换向量；将所述第一变换向量和所述第二变换向量分别转换为第一文本主题矩阵和第二文本主题矩阵；基于所述第一文本主题矩阵和所述第二文本主题矩阵计算所述第一文本和所述第二文本之间的相似度。

可选的，将所述第一变换向量和所述第二变换向量分别转换为第一文本主题矩阵和第二文本主题矩阵包括：设置K个文本主题；采用以下公式将所述第一变换向量和所述第二变换向量分别转换为第一文本主题矩阵和第二文本主题矩阵：

其中，A_ij表示第i个文本的第j个词的特征，U_ij表示第i个文本和第j个主题的相关度，V_ij表示第i个词和第j个词义的相关度，i的取值从1到m，j的取值从1到n，

表示V_n×m矩阵的转置,k为文本的主题数量，k的取值小于矩阵A的秩。

可选的，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度包括：针对第一文本和所述第二文本，将文本中的每个句子作为一个候选事件，从句子中抽取事件特征，分别构建第一事件实例和第二事件实例，其中，所述第一事件实例或所述第二事件实例对应包括至少一个事件特征的句子；利用分类器对所述第一文本和所述第二文本进行二分类，得到事件实例和非事件实例；将所述第一事件实例和第二事件实例的相似度计算为所述第一文本和所述第二文本之间的相似度。

可选的，在将所述第一事件实例和第二事件实例的相似度计算为所述第一文本和所述第二文本之间的相似度之前，所述方法还包括：针对所述第一事件实例和所述第二事件实例，采用K-均值算法进行聚类，分别得到K个类，其中，每个类表示同一个文本中不同实例的集合，K为大于0的正整数；针对所述第一事件实例和所述第二事件实例，选取每个类中最靠近中心点的事件实例。

可选的，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度包括：分别抽取所述第一文本和所述第二文本中第一事件信息和第二事件信息；按照条目将所述第一事件信息填充至第一事件模板，按照条目将所述第二事件信息填充至第二事件模板，其中，所述第一事件模板和所述第二事件模板的模板条目相同；比较所述第一事件模板和所述第二事件模板对应条目的语义相似度，并对所有条目的语义相似度进行加权求和，得到第一文本和所述第二文本之间的相似度。

可选的，若所述第一文本长度和所述第二文本长度均大于第一阈值包括以下之一：若所述第一文本长度大于第二阈值，且所述第二文本长度大于第二阈值；若所述第一文本长度大于第一阈值且小于第二阈值，且所述第二文本长度大于第二阈值；若所述第一文本长度大于第一阈值且小于第二阈值，且所述第二文本长度大于第一阈值且小于第二阈值；其中，所述第一阈值小于所述第二阈值。

根据本发明的另一个实施例，提供了一种长文本相似度的计算装置，包括：第一计算模块，用于获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；比对模块，用于将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；第二计算模块，用于若所述第一文本长度和所述第二文本长度均大于第一阈值，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

可选的，所述第二计算模块包括：统计单元，用于统计所述第一文本和所述第二文本中各个单词的频次信息；第一转换单元，用于基于所述频次信息将所述第一文本和所述第二文本分别转换为第一词袋向量和第二词袋向量；第二转换单元，用于采用文档频率逆文档频率TF-IDF模型将所述第一词袋向量和第二词袋向量分别转换为相同维度的第一变换向量和第二变换向量；第三转换单元，用于将所述第一变换向量和所述第二变换向量分别转换为第一文本主题矩阵和第二文本主题矩阵；第一计算单元，用于基于所述第一文本主题矩阵和所述第二文本主题矩阵计算所述第一文本和所述第二文本之间的相似度。

可选的，所述第三转换单元包括：设置子单元，用于设置K个文本主题；转换子单元，用于采用以下公式将所述第一变换向量和所述第二变换向量分别转换为第一文本主题矩阵和第二文本主题矩阵：

可选的，所述第二计算模块包括：构建单元，用于针对第一文本和所述第二文本，将文本中的每个句子作为一个候选事件，从句子中抽取事件特征，分别构建第一事件实例和第二事件实例，其中，所述第一事件实例或所述第二事件实例对应包括至少一个事件特征的句子；分类单元，用于利用分类器对所述第一文本和所述第二文本进行二分类，得到事件实例和非事件实例；计算单元，用于将所述第一事件实例和第二事件实例的相似度计算为所述第一文本和所述第二文本之间的相似度。

可选的，所述装置还包括：聚类模块，用于在所述第二计算模块将所述第一事件实例和第二事件实例的相似度计算为所述第一文本和所述第二文本之间的相似度之前，针对所述第一事件实例和所述第二事件实例，采用K-均值算法进行聚类，分别得到K个类，其中，每个类表示同一个文本中不同实例的集合，K为大于0的正整数；选取模块，用于针对所述第一事件实例和所述第二事件实例，选取每个类中最靠近中心点的事件实例。

可选的，所述第二计算模块包括：抽取单元，用于分别抽取所述第一文本和所述第二文本中第一事件信息和第二事件信息；填充单元，用于按照条目将所述第一事件信息填充至第一事件模板，按照条目将所述第二事件信息填充至第二事件模板，其中，所述第一事件模板和所述第二事件模板的模板条目相同；第二计算单元，用于比较所述第一事件模板和所述第二事件模板对应条目的语义相似度，并对所有条目的语义相似度进行加权求和，得到第一文本和所述第二文本之间的相似度。

可选的，所述第二计算模块用于在以下条件之一时，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度：若所述第一文本长度大于第二阈值，且所述第二文本长度大于第二阈值；若所述第一文本长度大于第一阈值且小于第二阈值，且所述第二文本长度大于第二阈值；若所述第一文本长度大于第一阈值且小于第二阈值，且所述第二文本长度大于第一阈值且小于第二阈值；其中，所述第一阈值小于所述第二阈值。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取待比较的第一文本和第二文本，分别计算第一文本的第一文本长度和第二文本的第二文本长度，若第一文本长度和所述第二文本长度均大于第一阈值，采用文本语义匹配模型计算第一文本和第二文本之间的相似度通过计算两个文本的文本长度，通过计算和比对两个文本的文本长度，实现了针对长文本之间的相似度计算，解决了相关技术计算长文本的相似度的准确率低技术问题，自动判断并针对两个长文本选择特定的文本语义匹配模型，计算两个长文本之间的相似度，可以节约成本、高效、方便。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种计算机的硬件结构框图；

图2是根据本发明实施例的一种长文本相似度的计算方法的流程图；

图3是本发明实施例的***原理图；

图4是根据本发明实施例的一种长文本相似度的计算装置的结构框图；

图5是本发明实施例的一种电子装置的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本申请实施例一所提供的方法实施例可以在服务器、计算机、手机或者类似的运算装置中执行。以运行在计算机上为例，图1是本发明实施例的一种计算机的硬件结构框图。如图1所示，计算机可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述计算机还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机的结构造成限定。例如，计算机还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的一种长文本相似度的计算方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种长文本相似度的计算方法，图2是根据本发明实施例的一种长文本相似度的计算方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取待比较的第一文本和第二文本，并计算第一文本的第一文本长度和第二文本的第二文本长度；

本实施例中，第一文本和第二文本可以是语音识别的，或者是直接获取到的文本，包括多个文字字符。

通过计算，可以得到第一文本和第二文本的文本类型，文本类型包括：长文本、短文本，中间文件(文本长度介入长文本和短文本之间)，每个类型对应一个长度区间，如0～300对应短文本。文本长度用于表征文本的文本类型。

步骤S204，将第一文本长度与预设的第一阈值和第二阈值进行比对，并将第二文本长度与第一阈值和第二阈值进行比对，其中，第一阈值小于第二阈值；

可选的，第一阈值为300，第二阈值为1000。

步骤S206，若第一文本长度和第二文本长度均大于第一阈值，采用文本语义匹配模型计算第一文本和第二文本之间的相似度；

在本实施例中，基于第一文本和第二文本的文本长度的不同，自动选择匹配的文本语义匹配模型，并计算第一文本和第二文本的相似度。

通过上述步骤，获取待比较的第一文本和第二文本，分别计算第一文本的第一文本长度和第二文本的第二文本长度，若第一文本长度和所述第二文本长度均大于第一阈值，采用文本语义匹配模型计算第一文本和第二文本之间的相似度通过计算两个文本的文本长度，通过计算和比对两个文本的文本长度，实现了针对长文本之间的相似度计算，解决了相关技术计算长文本的相似度的准确率低技术问题，自动判断并针对两个长文本选择特定的文本语义匹配模型，计算两个长文本之间的相似度，可以节约成本、高效、方便。

在本实施例中，采用预训练的文本语义匹配模型，样本文本或者带比较的文本如果是没有经过专门处理的数据集，可能会存在“脏”的情况，即包含一些无意义的字符或者多余的标点符号，这些都会对文本数据造成干扰，因此本实施例借助正则表达式(可选的)进行数据清洗，可以得到经过清洗的文本对context_pair{textA,textB}，在本实施例中，textA、textB表示待处理的两个文本，即第一文本和第二文本。在训练阶段将所有的数据以文本对的形式，按比例(可修改的工程参数)划分为训练集、验证集和测试集。

本实施例的方案可以应用在长文本与长文本之间的相似度计算和比较。基于第一文本和第二文本的文本类型选择匹配的语义匹配模型以及对应的策略。

可选的，长度小于第一阈值的文本为短文本，长度大于第二阈值的文本为长文本，在一些示例中，长度大于第一阈值的也可以认为是长文本。在一个示例中，取第一阈值为300，第二阈值为1000，len(textA)>1000且len(textB)>1000，或者300<len(textA)<1000，len(textB)>1000，或者300<len(textA)<1000且300<len(textB)<1000。可以采用如下方案来实现：

在长长文本的一个实施方式中，采用文本语义匹配模型计算第一文本和第二文本之间的相似度包括：

S11，统计第一文本和第二文本中各个单词的频次信息；

S12，基于频次信息将第一文本和第二文本分别转换为第一词袋向量和第二词袋向量；

S13，采用文档频率逆文档频率TF-IDF模型将第一词袋向量和第二词袋向量分别转换为相同维度的第一变换向量和第二变换向量；

S14，将第一变换向量和第二变换向量分别转换为第一文本主题矩阵和第二文本主题矩阵；

在一个示例中，将第一变换向量和第二变换向量分别转换为第一文本主题矩阵和第二文本主题矩阵包括：设置K个文本主题；采用以下公式将第一变换向量和第二变换向量分别转换为第一文本主题矩阵和第二文本主题矩阵：

其中，Aij表示第i个文本的第j个词的特征，Uij表示第i个文本和第j个主题的相关度，Vij表示第i个词和第j个词义的相关度，i的取值从1到m，j的取值从1到n，

S14，基于第一文本主题矩阵和第二文本主题矩阵计算第一文本和第二文本之间的相似度。

在长长文本的另一个实施方式中，采用文本语义匹配模型计算第一文本和第二文本之间的相似度包括：

S21，针对第一文本和第二文本，将文本中的每个句子作为一个候选事件，从句子中抽取事件特征，分别构建第一事件实例和第二事件实例，其中，第一事件实例或第二事件实例对应包括至少一个事件特征的句子；

S22，利用分类器对第一文本和第二文本进行二分类，得到事件实例和非事件实例；

可选的，在将第一事件实例和第二事件实例的相似度计算为第一文本和第二文本之间的相似度之前，还包括：针对第一事件实例和第二事件实例，采用K-均值算法进行聚类，分别得到K个类，其中，每个类表示同一个文本中不同实例的集合，K为大于0的正整数；针对第一事件实例和第二事件实例，选取每个类中最靠近中心点的事件实例。

S23，将第一事件实例和第二事件实例的相似度计算为第一文本和第二文本之间的相似度。

针对长-长文本匹配，本实施例可以采用以下两种方案来实现：

实现方式一：通过使用主题模型，得到两个长文本的主题分布，再通过计算两个多项分布的距离来衡量两个文本语义相似度。包括：

a)分词和去除停用词、低频词和标点符号后，建立字典。对于英文将文本内容进行大小写转换和根据空格分词。对于中文，需要借助jieba、Hanlp等分词工具进行分词。然后根据文本建立一个字典，字典对文本中的每个单词建立索引。

b)文本向量化。统计每个词出现的次数，假设对于一个文本，有['human','happy','interest']，这三个单词在文本中各出现1次，它们在上述的字典中的编号分别为2，0，1。则可以将该文本表示如下：[(2,1)，(0,1)，(1,1)]，这种向量表达称为BOW(BagofWord，词袋)。

c)向量变换，即将输入向量从一个向量空间转换到另外一个向量空间。这里采用TF-IDF(Term Frequency*Inverse Document Frequency，文档频率*逆文档频率)模型进行训练，在训练之后的变换中，TF-IDF模型输入一个词袋向量，并得到同样维度的变换向量。变换后的向量输出单词在训练文本中的稀有程度，越稀有，则值越大。这个值可以进行归一化设置，使它的取值范围在0^～1之间。

d)将上述得到的每个文本中所有的词向量拼接写成矩阵A，并做SVD(SingularValue Decomposition，SVD)分解，如公式(2)所示，i表示第i个文本，i的取值从1到m；t表示第t个主题，t的取值从1到m；j表示第j个词，j的取值从1到n；s表示第s个词义，s的取值从1到n，A_ij表示第i个文本的第j个词的特征，U_ij表示第i个文本和第j个主题的相关度，V_ij表示第i个词和第j个词义的相关度。m表示文本数量，n表示每个文本中词的数量，对于公式(2)中的第一行，认为m个文本就有m个主题，n个词就有n种词义。但实际计算中可以采用公式(2)中的第二行，也就是认为只有k个主题，k的取值小于矩阵A的秩。

表示V_n×n矩阵的转置。

先假设有k个主题数，通过式(2)求解得到词和词义之间的分布关系以及文本和主题的分布关系。

e)利用文本主题矩阵计算文本的相似度，这里是通过海林格距离(可替代方法)来计算，计算公式(3)如下所示，其中P、Q表示的是概率分布。

P＝{p_i}_i∈[n]，Q＝{q_i}_i∈[n] (3)；

其中，[n]表示从1到n的所有正整数组成的集合，i表示属于集合的任意一个数。

实现方式二：基于事件实例的事件抽取方法。假定已知所有文本是属于同一个类别的。首先，将文本中的每个句子作为一个候选事件，然后从句子中抽取出能够描述事件的有代表性的特征，把它们构成事件实例表示；其次，利用分类器对其进行二分类，区分文本中的事件实例和非事件实例；最后，计算两个文本的事件实例相似度。具体包括：

a)对于中文文本，需要对文本再处理，如中文分词、词性标注、根据标点符号？！。进行句子切分等。

b)特征选取。在a)的基础上，选取句子的特征为：长度、位置、命名实体的数量、词语的数量、时间的个数等。这里认为只有当一个句子含有事件特征时才构成事件实例,否则为非事件实例(相当于有了标签)。

c)对候选事件进行向量化。在特征的基础上，利用VSM(VectorSpaceModel，向量空间模型)对候选事件作向量表示。

d)利用分类器进行二分类。分类器可以选用SVM(支持向量机)或者利用常用的经过预训练的网络，如CNN等。训练时，对训练集a)到c)的操作后，使用分类器进行训练，参数更新，得到分类模型。测试时，也需要进行a)到c)的操作，再输入训练好的分类器中，完成事件实例的识别。

e)对事件实例进行聚类。可以采用K-均值方法(可替代的方案)。算法最后得到k个类，每个类表示的是同一个文本中不同实例的集合，这里考虑选取每个类中最靠近中心点的事件实例作为对文本的描述。

f)进行相似度计算。

在本实施例的另一些实施例中，采用文本语义匹配模型计算第一文本和第二文本之间的相似度包括：分别抽取第一文本和第二文本中第一事件信息和第二事件信息；按照条目将第一事件信息填充至第一事件模板，按照条目将第二事件信息填充至第二事件模板，其中，第一事件模板和第二事件模板的模板条目相同；比较第一事件模板和第二事件模板对应条目的语义相似度，并对所有条目的语义相似度进行加权求和，得到第一文本和第二文本之间的相似度。

基于该实施方式，基于模式匹配从每个文本中找到一个特定类型的事件表述语句，根据当前的事件抽取模式和事件模板的对应关系，对该文本进行事件信息的抽取，并将相应的信息填充到事件模板中，最后直接比较两个事件模版的对应条目的语义相似度，最终结果是所有条目相似度加和取平均，作为两个文本语义相似度。就中文文本来说，事件信息抽取中的模式匹配分为两步：寻找概念语义类和事件模式匹配。包括：

a)寻找概念语义类。就是从经过预处理的文本中依次搜索模式中的动词概念语义类、名词性概念语义类(这些语义类一般对应到一个相应的命名实体或名词性词组)等，并对这些概念语义类都要进行相应的标识，最终将含有相应的概念语义类的句子作为候选的语句。

b)对候选语句进行处理。也就是要过滤掉候选语句中的修饰性词语和中文停用词。

c)对候选语句进行特征的向量化。将动词性概念语义类以及其前后的相关类型命名实体、名词性短语对应的命名实体类型或语义类，生成该语句的特征向量Ts。

d)比较当前模式和候选语句特征向量中动词性概念语义类前后的实体类型或语义类是否一致，如果有两个命名实体类别或语义类匹配，则将当前模式对应的向量Tp和该候选语句生成的向量Ts用传统的余弦公式计算两者的相似度，当相似度达到阈值(可修改的工程参数)时，就认为该候选语句和当前模式匹配，将该事件表述语句填进相应的事件模版中。

e)当两个文本textA和textB都完成了a)到d)的操作，最后直接比较两个事件模版的对应条目的语义相似度，然后将所有条目相似度加和取平均，作为两个文本语义相似度。

图3是本发明实施例的***原理图，整个***包括：预处理模块，用于对文本进行清洗、格式修改等数据处理操作；长短文本类型判断模块，用于按照工程经验值和文本长度对两个文本进行分类；模型处理模块，用于根据得到的文本对类型选择合适的相似度求解模型；结果输出模块，用于输出模型求得的文本语义相似度，输出两个文本之间的语义相似度计算结果，供别的下游任务使用。

本方案提出的文本语义匹配模型自动选择框架，根据工程经验值去设定长短文本划分阈值，让框架自动判断并选择相应的求解模型，计算两个文本之间的相似度，可以节约成本、高效、方便。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种长文本相似度的计算装置，用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的一种长文本相似度的计算装置的结构框图，如图4所示，该装置包括：第一计算模块40，比对模块42，第二计算模块44，其中，

第一计算模块40，用于获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；

比对模块42，用于将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；

第二计算模块44，用于若所述第一文本长度和所述第二文本长度均大于第一阈值，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本申请实施例还提供了一种电子装置，图5是本发明实施例的一种电子装置的结构图，如图5所示，包括处理器51、通信接口52、存储器53和通信总线54，其中，处理器51，通信接口52，存储器53通过通信总线54完成相互间的通信，存储器53，用于存放计算机程序；

处理器51，用于执行存储器53上所存放的程序时，实现如下步骤：获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；若所述第一文本长度和所述第二文本长度均大于第一阈值，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的长文本相似度的计算方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的长文本相似度的计算方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种长文本相似度的计算方法，其特征在于，包括：

获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；

将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；

若所述第一文本长度和所述第二文本长度均大于第一阈值，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

2.根据权利要求1所述的方法，其特征在于，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度包括：

统计所述第一文本和所述第二文本中各个单词的频次信息；

基于所述频次信息将所述第一文本和所述第二文本分别转换为第一词袋向量和第二词袋向量；

采用文档频率逆文档频率TF-IDF模型将所述第一词袋向量和第二词袋向量分别转换为相同维度的第一变换向量和第二变换向量；

将所述第一变换向量和所述第二变换向量分别转换为第一文本主题矩阵和第二文本主题矩阵；

基于所述第一文本主题矩阵和所述第二文本主题矩阵计算所述第一文本和所述第二文本之间的相似度。

3.根据权利要求2所述的方法，其特征在于，将所述第一变换向量和所述第二变换向量分别转换为第一文本主题矩阵和第二文本主题矩阵包括：

设置K个文本主题；

采用以下公式将所述第一变换向量和所述第二变换向量分别转换为第一文本主题矩阵和第二文本主题矩阵：

其中，A_ij表示第i个文本的第j个词的特征，U_ij表示第i个文本和第j个主题的相关度，V_ij表示第i个词和第j个词义的相关度，i的取值从1到m，j的取值从1到n，V_n×m ^T表示V_n×m矩阵的转置,k为文本的主题数量，k的取值小于矩阵A的秩。

4.根据权利要求1所述的方法，其特征在于，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度包括：

针对第一文本和所述第二文本，将文本中的每个句子作为一个候选事件，从句子中抽取事件特征，分别构建第一事件实例和第二事件实例，其中，所述第一事件实例或所述第二事件实例对应包括至少一个事件特征的句子；

利用分类器对所述第一文本和所述第二文本进行二分类，得到事件实例和非事件实例；

将所述第一事件实例和第二事件实例的相似度计算为所述第一文本和所述第二文本之间的相似度。

5.根据权利要求4所述的方法，其特征在于，在将所述第一事件实例和第二事件实例的相似度计算为所述第一文本和所述第二文本之间的相似度之前，所述方法还包括：

针对所述第一事件实例和所述第二事件实例，采用K-均值算法进行聚类，分别得到K个类，其中，每个类表示同一个文本中不同实例的集合，K为大于0的正整数；

针对所述第一事件实例和所述第二事件实例，选取每个类中最靠近中心点的事件实例。

6.根据权利要求1所述的方法，其特征在于，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度包括：

分别抽取所述第一文本和所述第二文本中第一事件信息和第二事件信息；

按照条目将所述第一事件信息填充至第一事件模板，按照条目将所述第二事件信息填充至第二事件模板，其中，所述第一事件模板和所述第二事件模板的模板条目相同；

比较所述第一事件模板和所述第二事件模板对应条目的语义相似度，并对所有条目的语义相似度进行加权求和，得到第一文本和所述第二文本之间的相似度。

7.根据权利要求1所述的方法，其特征在于，若所述第一文本长度和所述第二文本长度均大于第一阈值包括以下之一：

若所述第一文本长度大于第二阈值，且所述第二文本长度大于第二阈值；

若所述第一文本长度大于第一阈值且小于第二阈值，且所述第二文本长度大于第二阈值；

若所述第一文本长度大于第一阈值且小于第二阈值，且所述第二文本长度大于第一阈值且小于第二阈值；

其中，所述第一阈值小于所述第二阈值。

8.一种长文本相似度的计算装置，其特征在于，包括：

第一计算模块，用于获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；

比对模块，用于将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；

第二计算模块，用于若所述第一文本长度和所述第二文本长度均大于第一阈值，采用文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项中所述的方法。