CN107967255A

CN107967255A - 一种判定文本相似性的方法和***

Info

Publication number: CN107967255A
Application number: CN201711088831.9A
Authority: CN
Inventors: 冯素梅; 江国进; 孙永滨; 白涛; 杜乔瑞; 王晓燕; 张亚栋; 徐先柱
Original assignee: China General Nuclear Power Corp; China Techenergy Co Ltd
Current assignee: China General Nuclear Power Corp; China Techenergy Co Ltd
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2018-04-27

Abstract

本发明属于文本分类的技术领域，为了解决现有技术中三种文本相似性判断算法分别存在的不足，本发明提供一种判定文本相似性的方法和***，所述方法包括：S1、构建向量空间模型，使得文本量化成可处理的对象；S2、使用Siamese网络构建文本语义相似性提取模型，并且在Siamese网络中，语义特征提取网络与相似性判别网络串联在一起，同时在样本训练阶段进行优化；S3、基于训练阶段样本的语义特征表达，构造基于特征向量的夹角余弦的文本相似度计算函数，以及最终的损失函数；S4、输入两个待测文本，基于Siamese网络对待测文本进行语义特征提取之后，计算两个向量的余弦夹角距离，并设置阈值，当两个向量的余弦夹角距离大于阈值时，判定为相似，否则判定为不相似。

Description

一种判定文本相似性的方法和***

技术领域

本发明涉及文本分类的技术领域，尤其涉及核安全级软件验证与确认的技术领域；更具体地，涉及一种判定文本相似性的方法和***。

背景技术

在核安全级软件验证和确认(V&V)的过程中，需要对执行文档进行评估，对可追踪性进行分析，以及对危险进行分析等，随着技术文档的不断增加，每个项目每个阶段重复的执行这些活动需要大量人力，因此在文档评估过程中自动识别待评估项，可追踪分析中自动判断上下级文件的语义相关性，危险分析过程中相似产品的失效模式的自动匹配，成为V&V人员需要解决的问题。

目前用于判断文本相似性的方法主要有余弦相似度、SimHash算法以及隐性语义标引法(LSI)。其中，余弦相似度法通过预处理、文本特征项选择、加权、生成向量空间模型后计算余弦；SimHash为Google处理海量网页的采用的文本相似判定方法，该方法的主要目的是降维，即将高维的特征向量映射成f-bit的指纹，通过比较两篇文档指纹的汉明距离来表征文档重复或相似性。；隐性语义标引(LSI)利用矩阵理论中的“奇异值分解(SVD)”技术，将词频矩阵转化为奇异矩阵，然后将该矩阵进行奇异值分解，较小的奇异值被剔除，结果奇异向量以及奇异值矩阵用于将文档向量和查询向量映射到一个子空间中，在该空间中，来自文档矩阵的语义关系被保留，然后可以通过标准化的内积计算来计算向量之间的夹角余弦相似度，进而根据计算结果比较文本间的相似度；所以LSI剔除了对文档相似度计算影响较小的特征，保留下来的那些对文档向量在m维空间中的位置大有影响的特征。

但是发明人在实现本发明的过程中发现：1、余弦相似度算法多应用于网页标题合并和标题聚类中，计算结果准确，但是该算法只考虑了词在上下文中的统计特性，假定关键词之间线性无关，而没有考虑词本身的语义信息，不能很好地解决文本中存在的自然语言问题，如同义词和多义词，因此具有一定的局限性。2、SimHash方法处理速率快，对海量文本相似判定非常适合；但是由于短文本的用于哈希计算的数据源较少，因此短文本相似度识别率低。3、隐性语义标引法比原来基于原文本向量的相似度计算更可靠，但是对于海量的文本数据，奇异值分解计算困难，且过于稀疏的语料不能很好的体现其潜在的语义。

发明内容

为了解决现有技术中三种文本相似性判断算法分别存在的不足，本发明提供一种判定文本相似性的方法和***，能够解决多种类别文本判定且识别率高。

为了实现上述目的，本发明提供的技术方案包括：

本发明一方面提供一种判定文本相似性的方法，其特征在于，包括：

S1、构建向量空间模型，使得文本量化成可处理的对象；

S2、使用Siamese网络构建文本语义相似性提取模型，并且在所述Siamese网络中，语义特征提取网络与相似性判别网络串联在一起，同时在样本训练阶段进行优化；

S3、基于训练阶段样本的语义特征表达，构造基于特征向量的夹角余弦的文本相似度计算函数，以及最终的损失函数，使得同类样本对的特征向量映射到空间某个区域；

S4、输入两个待测文本，基于所述Siamese网络对待测文本进行语义特征提取之后，计算两个向量的余弦夹角距离，并设置阈值，当两个向量的余弦夹角距离大于阈值时，判定为相似，否则判定为不相似。

本发明实施例优选地，所述步骤S2中，所述Siamese网络的结构可以有两个或者多个并行的通路，相应地，能够将两个或者多个文本特征同时输入，所述Siamese网络经过各自通路的非线性映射提取特征，然后多个文本的特征可以在特征层后相结合进而语义相关性判断。

本发明实施例优选地，所述步骤S2中，将所述Siamese网络分成前半部分和后半部分；前半部分用于文本语义特征的提取，由全连接层组成；后半部分用于相似性度量，将网络前半部分抽取的特征整合；计算经不同分支提取之后的一对样本特征之间的距离，或者将对应元素直接加权连接；进而在步骤S3中经过余弦夹角度量函数判别样本间的相似性。

本发明实施例优选地，所述前半部分用于文本语义特征的提取，由全连接层组成，并且包括词、短语、句子、段落、文章和语义，构建5层隐藏层的网络结构。

本发明实施例优选地，所述S3和S4中夹角余弦的计算采用三元度量函数，在三元组样本(x，x⁺，x^-)经过特征提取后具有相同的网络参数W，得到三个样本的语义特征表达，分别记为G_w(x)、G_w(x⁺)，G_w(x^-)；夹角余弦的文本相似度计算函数为：D(x_i,x_j)＝cos(x_i,x_j)＝x_i.x_j/|x_i|.|x_j|。

本发明实施例进一步优选地，与所述夹角余弦的文本相似度计算函数，对应的损失函数为：

其中，α为x与x⁺之间的距离和x与x^-之间的距离中最小的间隔，并且是预设的固定参数。

本发明实施例优选地，所述S3和S4中夹角余弦的计算采用三元度量函数，在三元组样本(x'，x，x')经过特征提取后具有不同的网络参数W，得到三个样本的语义特征表达，分别记为G_w1(x')、G_w2(x)，G_w3(x')；当D(G_w1(x'),G_w2(x))-D(G_w3(x'),G_w2(x))＞α时，判断为相似，否则判断为不相似；其中，α为x与x⁺之间的距离和x与x^-之间的距离中最小的间隔，并且是预设的固定参数。

本发明进一步实施例优选地，所述样本x为从训练数据集中随机选一个样本，所述样本为x⁺为和x属于同一类的一个样本，所述样本x^-为和x不同类的一个样本；在样本训练的原则是：要求x和x⁺特征向量之间的夹角尽可能小，而x和x^-语义特征向量之间的夹角尽可能大。

本发明实施例优选地，所述步骤S2中选择一对文本作为输入，记为(x_i,x_j)；将文本的段落标题以及正文分成两部分，同时，将两个文本的正文和标题分别合并作为输入。

本发明另一方面还提供一种判定文本相似性的***，其特征在于，包括：控制器，所述控制器用于加载并执行上述任意一种判定文本相似性的方法对应的程序。

采用本申请提供的上述技术方案，可以至少获得以下有益效果中的一种：

1、使用的神经网络是线性变换与简单非线性函数的串联叠加，在训练阶段使用经典的随机梯度下降方法，因此在训练的过程和测试的过程中都不存在计算上的困难。

2、不仅仅只停留在词的级别上对文本进行处理，而是基于语义的级别判定文档的相似性，能很好地解决文本中存在的自然语言问题；判断的结果更加准确。

3、利用Siamese网络训练出来的相似度度量模型，具备使得相似的文本距离变小，不相似的文本距离变大；对文本的类别、数量和长短都没有要求，所以能够很好的解决那些类别数多，且部分类别的样本数据较少的判定问题。

4、由于采用Siamese网络结合三元损失函数，在网络训练阶段，本申请对应技术方案的相似性判定过程中，目标是使得相关的文本提取的特征尽可能小，不相关的文本提取的特征差别尽可能大；由于训练样本包含很多对的数据，经过训练后网络学习出了这种判断文本是否相关的能力，并且这种能力是建立在很多、很多种数据对之上的，是统计出来的能力，可以推广到没有出现的类别上，这就是神经网络的泛化能力；即型的泛化能力导致了这个性质；这样即使针对样本中没有的类别，利用本申请提供的技术方案依然可以判定两个文本的相似性。

5、使用三元损失函数将同类样本映射到空间中的一个区域而不是空间中的一个点，简化了问题的难易程度，使得算法的泛化能力大幅提升。

发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

图1为本发明一实施例提供的一种判定文本相似性方法的流程图。

图2为本发明一实施例提供一种文本相似性训练网络结构示意图。

图3为本发明一实施例提供的一种全连接层结构示意图。

图4为本发明一实施例提供的一种相似性预测模型结构示意图。

图5为本发明一实施例提供的一种判定文本相似性***的结构示意框图。

图6为本发明另一实施例提供的一种相似性度量模型结构图。

图7为本发明再一实施例提供的一种相似性度量模型结构图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，这些具体的说明只是让本领域普通技术人员更加容易、清晰理解本发明，而非对本发明的限定性解释；并且只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组控制器可执行指令的控制***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

下面通过附图和具体实施例，对本发明的技术方案进行详细描述：

实施例一

如图1所示，本实施例提供一种判定文本相似性的方法，该方法是基于Siamese网络的文本相似性判定方法；首先，需要对文本数据建立VSM模型，其过程包括预处理，分词，去除停用词，将文本量化成可处理的特征向量；然后构建Siamese网络(也称孪生网络)提取基于特征向量的样本对的语义相似性特征；最后构造基于高维向量夹角余弦的tripletloss(也称三重损失)损失函数用以判别文本对的相关性。该方法具体地包括：

S1、构建向量空间模型，使得文本量化成可处理的对象；

在文本处理中，首先需要将文本量化成可处理的对象，优选地，采用了文本处理中构建向量空间模型(简称VSM)方法，包括：1、文本预处理：预处理主要是是处理文本乱码及非文本内容，分词和去停用词，按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉。2、特征向量计算：过滤掉常用副词、助词等频度高的词之后，根据剩下词的频度确定若干特征项。优选地，采用TF-IDF(Termfrequency-Inverse document frequency)方法计算文本特征项的权重，并且进行归一化处理，得到原始文本特征向量。

其中，向量空间模型的基本思想是把文档简化为以特征项的权重为分量的m维向量表示，即将文本转化为通过数学符号描述的可处理的量化特征。这个模型的量化过程假设词与词间线性无关，因此该模型无法直接进行语义相关的判断，而是利用后续的Siamese网络(中文也称暹罗网络)对原始文本的量化特征进行进一步的语义特征提取，以达到判断文本语义相似性的目的。

S2、使用Siamese网络构建文本语义相似性提取模型，并且在Siamese网络中，语义特征提取网络与相似性判别网络串联在一起，同时在样本训练阶段进行优化；

要判断两段文本的语义相似性，在得到各文本段的量化向量后，需要提取样本对的相似性特征进行判断；本实施例结合Siamese网络来对原始文本的量化特征进行进一步的语义特征提取，语义特征提取网络与相似性判别网络串联在一起，同时在样本训练阶段进行优化；

S4、输入两个待测文本，基于Siamese网络对待测文本进行语义特征提取之后，计算两个向量的余弦夹角距离，并设置阈值，当两个向量的余弦夹角距离大于阈值时，判定为相似，否则判定为不相似。

下面结合训练阶段的示意图2(同时输入三个样本，两个相关的，一个不相关的，用来训练网路)和测试阶段的示意图4(只需要输入两个样本判断相不相关)；对本实施例的技术进一步解释说明：

其中，S2对应网络的结构及赋予的物理意义，网络的参数为W，本实施例中网络的前部分用来提取语义特征，后部分用来提取相似性特征；S3对应下文中的损失函数部分的实现，即D(下文会结合图2进一步解释说明)。神经网络由节点间的权重系数链接，训练的目的就是优化这些系数，使得神经网络在训练数据的指导下达到所需的功能。待神经网络训练好后，这些系数固定，测试的时候，输入经过这些系数的变化后，得到结果，进而判断是否相似。

本实施例优选地，步骤S2中，Siamese网络的结构可以有两个或者多个并行的通路，相应地，能够将两个或者多个文本特征同时输入，Siamese网络经过各自通路的非线性映射提取特征，然后多个文本的特征可以在特征层后相结合进而语义相关性判断。为了使得本领技术人员更加清楚理解本实施例的技术方案，本实施例的下文在结合图2解释Siamese网络的结构的时候，以三通道进行说明。

本实施例进一步优选地，步骤S2中，将Siamese网络分成前半部分和后半部分；前半部分用于文本语义特征的提取，由全连接层组成；后半部分用于相似性度量，将网络前半部分抽取的特征整合；计算经不同分支提取之后的一对样本特征之间的距离；进而在步骤S3中经过余弦夹角度量函数判别样本间的相似性。

本实施例优选地，前半部分用于文本语义特征的提取，由全连接层组成，并且包括词、短语、句子、段落、文章和语义，构建5层隐藏层的网络结构。

本实施例优选地，S3和S4中夹角余弦的计算采用三元度量函数，在三元组样本(x，x⁺，x^-)经过特征提取后具有相同的网络参数W，得到三个样本的语义特征表达，分别记为G_w(x)、G_w(x⁺)，G_w(x^-)；夹角余弦的文本相似度计算函数为：D(x_i,x_j)＝cos(x_i,x_j)＝x_i.x_j/|x_i|.|x_j|。

由于三元是两个相关的样本，一个不相关的样本；因此，考虑了相关样本间特征的距离又考虑了不相关样本特征的距离，也就是即考虑了类内距离又考虑了类间距离，这样得到的分类器更稳定，泛化能力更强。传统的方法，只是考虑了相关样本的距离，在处理容易混淆的样本间的相关性判断等容易出错。

本实施例优选地，与夹角余弦的文本相似度计算函数，对应的损失函数为：

本实施例优选地，样本x为从训练数据集中随机选一个样本，样本为x⁺为和x属于同一类的一个样本，样本x^-为和x不同类的一个样本；在样本训练的原则是：要求x和x⁺特征向量之间的夹角尽可能小，而x和x^-语义特征向量之间的夹角尽可能大。

更具体地优选方案：在上述步骤S2中，考虑到Siamese网络结构(如图2所示)的特点，即Siamese网络模型的结构可以有两个或者多个并行的通路，因此可以将两个或者多个文本特征同时输入网络，经过各自通路的非线性映射提取特征，而后多个文本的特征可以在特征层后相结合进而语义相关性判断。因此本实施例将引入Siamese网络来提取文本对的语义相似性特征提取。

在训练阶段，该网络有三个分支(如图2所示)，这三个分支具备同样的网络结构，并且为了提取公共特征便于进行相似性判断，我们将各分支设置成权重共享，即三个分支具有同样的网络参数W。我们将Siamese网络分成前半部分、后半部分。前半部分用于文本语义特征的提取，由全连接层组成，激活函数选择ReLU，即f(x)＝max(0,x)。针对前半部分的网络结构，为了更好的提取文本的语义，根据文本本身的特征层次结构由浅到深包括词、短语、句子、段落、文章和语义，构建5层隐藏层的网络结构(如图3所示仅示意出其中两层，其他的类似)，且每层属于全连接层，实现提取文本语义，同时降低向量维数的目的。

后半部分用于相似性度量，将网络前半部分抽取的特征整合，进而经过某种度量函数判别样本间的相似性，关于度量函数的选择，将在下节进一步阐述。训练时的样本按照下面的方式组织，先从训练数据集中随机选一个样本作为锚点，该样本记为x，然后再随机选取属于同一类的一个样本和不同类的一个样本,这两个样本对应的称为Positive(记为x⁺)和Negative(记为x^-)，由此构成一组训练样本(x，x⁺，x^-)，同时输入Siamese网络，通过BP算法，优化网络参数，使得网络输出值与真值逐渐接近，直到网络收敛。

在上述Siamese网络结构中，语义特征提取网络与相似性判别网络串联在一起，同时优化，即是端对端(end-to-end)的网络结构。特征提取部分受到判别部分的影响，使得提取的特征利于判别样本的相似性。相比于分部优化的方法，end-to-end方法是全局优化，效果更好。

更具体地优选方案：在上述步骤S3中，三元组样本经过特征提取后，得到三个样本的语义特征表达，分别记为G_w(x)、G_w(x⁺)，G_w(x^-)。在网络的判别部分，下面构造基于特征向量之间的距离度量函数判断样本的相似性。由于提取的特征向量是高维向量，传统的欧式距离等不能很好的反应高维向量间的距离，本发明构造了基于特征向量的夹角余弦的文本相似度计算函数，即为：

D(x_i,x_j)＝cos(x_i,x_j)＝x_i.x_j/|x_i|.|x_j| (公式1)

相对于使用二元损失函数度量样本对的相似性，由于二元损失函数作用是把所有同类样本映射到特征空间中的一个点，这要求特征提取函数对所有同类样本有相同的响应，网络学习起来困难。本实施例选择三元损失函数完成判别任务；得到三元组样本的特征向量后，同时要求x和x⁺特征向量之间的夹角尽可能小(即距离的值尽可能大，即夹角尽可能小)，而x和x^-语义特征向量之间的夹角尽可能大(即尽可能小)，且要让x与x⁺之间的距离和x与x^-之间的距离之间有一个最小的间隔α；其中，α为给定的超参数，最终的损失函数为：

其中，α在初始阶段给定的一个小数，例如0.1，一般是由所定义的距离度量函数的量纲决定，例如本文中采用余弦，值域是[0,1],参数选择0.1即可。

与二元损失函数不同，三元损失函数的目的是将同类样本映射到空间中的一个区域，使得类内距离小于类间距离，并且类内类间分界面之间受到固定参数α约束控制；将同类样本对的特征向量映射到空间某个区域而不是空间中的一个点，使得问题的难易程度大大简化，同时又不影响判断相似性问题本身的效果，因此算法的效果以及泛化能力有很大的提升。

更具体地优选方案：在上述步骤S4中，在预测时，只需要选择网络的两个通路(由于网络各个通路是权值共享的，因此选择哪两个通路没有影响)；输入样本对后，首先按照S1提取两个待测文本的量化向量，分别记为input1，input2；然后输入Siamese网络模型结构如图4所示，通过Siamese网络对样本对进行语义特征提取之后，传入判别网络计算两个向量的余弦夹角距离，设置阈值ζ，当计算值大于ζ时，判定为相似，否则判定为不相似。

其中，阈值ζ参数是提前给定的；网络输出的距离可以认为是文本对相似性的概率，这个参数给出满足什么概率值既认定为相似，取决于具体任务对相似性级别的需求；并且需求越高，该阈值可以设置的越大。

如图5所示，本实施例另一方面还提供一种判定文本相似性的***，该***包括：控制器，控制器用于加载并执行上述任意一种判定文本相似性的方法对应的程序。

实施例二

本实施例在实施例一的基础上，为了使训练模型更为灵活，可以使得Siamese网络的三个分支中的权重不同，层数不同，也即三个函数互不相关；只是在最后的距离计算，将他们关联在一起；其他未重复说明的内容与实施例一相同。具体地，如图6所示，本实施例优选地，在图1对应的S3和S4中夹角余弦的计算采用三元度量函数，在三元组样本(x'，x，x')经过特征提取后具有不同的网络参数W，得到三个样本的语义特征表达，分别记为

G_w1(x')、G_w2(x)，G_w3(x')；

当D(G_w1(x'),G_w2(x))-D(G_w3(x'),G_w2(x))＞α时，判断为相似，否则判断为不相似；其中，α为x与x⁺之间的距离和x与x^-之间的距离中最小的间隔，并且是预设的固定参数。关于α的取值，参照实施例一的描述，在此不再赘述。

相应地，本实施例另一方面也提供一种判定文本相似性的***，该***包括：控制器，控制器用于加载并执行与图6中Siamese网络结构对应的程序。

实施例三

作为软件开发的技术文件，尤其是用于核电领域的软件，其文件编写要符合标准规范，标题具有高度的概括性和相似性，如果在对文本建立向量空间模型的时候，采取将整个文本统一处理，会极大的损失标题给分类带来的重要信息。因此，在训练和测试的过程中应适当的考虑段落标题对文本相似性度量的贡献。如图7所示，本实施例优选地，在实施例一或者实施例二对应步骤S2中选择一对文本作为输入，记为(x_i,x_j)；将文本的段落标题以及正文分成两部分，同时，将两个文本的正文和标题分别合并作为输入。

具体地，首先选取一对文本作为输入，记为,可以是相似或者不相似，将文本的段落标题以及正文分成两部分，同时，将两个文本的正文和标题分别合并作为输入。训练模型结构如图7所示，其中，决策层网络采用全连接层结构，激活函数采用Sigmoid函数，

即σ(x)＝1/(1+exp(-x))；a∈(0,1)，

x_Text＝(x_i_Text,x_j_Text)，x_Title＝(x_i_Title,x_j_Title)。

测试时，仍然使用该模型，设置阈值，当输出大于阈值时，判断为相似，否则，为不相似。关于阈值，请参照实施例一中ζ的描述，在此不再赘述。

但是本实施例对应的相似性判断方法中，在S2步骤中相应地执行过程中，不再采用“计算经不同分支提取之后的一对样本特征之间的距离”，而是将对应元素直接加权连接。

相应地，本实施例也提供一种判定文本相似性的***，该***包括：控制器，控制器用于加载并执行与图7中Siamese网络结构对应的程序。

1、使用的神经网络是线性变换与简单非线性函数的串联叠加，在训练阶段使用经典的随机梯度下降方法，因此，在训练的过程和测试的过程中都不存在计算上的困难。

4、由于采用Siamese网络结合三元损失函数，在网络训练阶段，本申请对应技术方案的相似性判定过程中，目标是使得相关的文本提取的特征尽可能小，不相关的文本提取的特征差别尽可能大；由于训练样本包含很多对的数据，经过训练后网络学习出了这种判断文本是否相关的能力，并且这种能力是建立在很多、很多种数据对之上的，是统计出来的能力，可以推广到没有出现的类别上，这就是神经网络的泛化能力；即模型的泛化能力导致了这个性质；这样即使针对样本中没有的类别，利用本申请提供的技术方案依然可以判定两个文本的相似性。

最后需要说明的是，上述说明仅是本发明的最佳实施例而已，并非对本发明做任何形式上的限制。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围内，都可利用上述揭示的做法和技术内容对本发明技术方案做出许多可能的变动和简单的替换等，这些都属于本发明技术方案保护的范围。

Claims

1.一种判定文本相似性的方法，其特征在于，包括：

S1、构建向量空间模型，使得文本量化成可处理的对象；

2.根据权利要求1所述的方法，其特征在于，所述步骤S2中，所述Siamese网络的结构可以有两个或者多个并行的通路，相应地，能够将两个或者多个文本特征同时输入，所述Siamese网络经过各自通路的非线性映射提取特征，然后多个文本的特征可以在特征层后相结合进而语义相关性判断。

3.根据权利要求2所述的方法，其特征在于，所述步骤S2中，将所述Siamese网络分成前半部分和后半部分；前半部分用于文本语义特征的提取，由全连接层组成；后半部分用于相似性度量，将网络前半部分抽取的特征整合；计算经不同分支提取之后的一对样本特征之间的距离，或者将对应元素直接加权连接；进而在步骤S3中经过余弦夹角度量函数判别样本间的相似性。

4.根据权利要求2或3所述的方法，其特征在于，所述前半部分用于文本语义特征的提取，由全连接层组成，并且包括词、短语、句子、段落、文章和语义，构建5层隐藏层的网络结构。

5.根据权利要求1所述的方法，其特征在于，所述S3和S4中夹角余弦的计算采用三元度量函数，在三元组样本(x，x⁺，x^-)经过特征提取后具有相同的网络参数W，得到三个样本的语义特征表达，分别记为G_w(x)、G_w(x⁺)，G_w(x^-)；夹角余弦的文本相似度计算函数为：D(x_i,x_j)＝cos(x_i,x_j)＝x_i.x_j/|x_i|.|x_j|。

6.根据权利要求5所述的方法，其特征在于，与所述夹角余弦的文本相似度计算函数，对应的损失函数为：

<mrow> <mi>l</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mi>&alpha;</mi> <mo>-</mo> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mi>w</mi> </msub> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>,</mo> <msub> <mi>G</mi> <mi>w</mi> </msub> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>+</mo> </msubsup> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mi>w</mi> </msub> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>,</mo> <msub> <mi>G</mi> <mi>w</mi> </msub> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>-</mo> </msubsup> <mo>)</mo> <mo>)</mo> </mrow> <mo>}</mo> <mo>.</mo> </mrow>

7.根据权利要求1所述的方法，其特征在于，所述S3和S4中夹角余弦的计算采用三元度量函数，在三元组样本(x'，x，x')经过特征提取后具有不同的网络参数W，得到三个样本的语义特征表达，分别记为G_w1(x')、G_w2(x)，G_w3(x')；当D(G_w1(x'),G_w2(x))-D(G_w3(x'),G_w2(x))＞α时，判断为相似，否则判断为不相似；其中，α为x与x⁺之间的距离和x与x^-之间的距离中最小的间隔，并且是预设的固定参数。

8.根据权利要求7所述的方法，其特征在于，所述样本x为从训练数据集中随机选一个样本，所述样本为x⁺为和x属于同一类的一个样本，所述样本x^-为和x不同类的一个样本；在样本训练的原则是：要求x和x⁺特征向量之间的夹角尽可能小，而x和x^-语义特征向量之间的夹角尽可能大。

9.根据权利要求1所述的方法，其特征在于，所述步骤S2中选择一对文本作为输入，记为(x_i,x_j)；将文本的段落标题以及正文分成两部分，同时，将两个文本的正文和标题分别合并作为输入。

10.一种判定文本相似性的***，其特征在于，包括：控制器，所述控制器用于加载并执行如权利要求1-9中任意一种判定文本相似性的方法对应的程序。