CN107967255A - 一种判定文本相似性的方法和*** - Google Patents
一种判定文本相似性的方法和*** Download PDFInfo
- Publication number
- CN107967255A CN107967255A CN201711088831.9A CN201711088831A CN107967255A CN 107967255 A CN107967255 A CN 107967255A CN 201711088831 A CN201711088831 A CN 201711088831A CN 107967255 A CN107967255 A CN 107967255A
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- feature
- network
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于文本分类的技术领域,为了解决现有技术中三种文本相似性判断算法分别存在的不足,本发明提供一种判定文本相似性的方法和***,所述方法包括:S1、构建向量空间模型,使得文本量化成可处理的对象;S2、使用Siamese网络构建文本语义相似性提取模型,并且在Siamese网络中,语义特征提取网络与相似性判别网络串联在一起,同时在样本训练阶段进行优化;S3、基于训练阶段样本的语义特征表达,构造基于特征向量的夹角余弦的文本相似度计算函数,以及最终的损失函数;S4、输入两个待测文本,基于Siamese网络对待测文本进行语义特征提取之后,计算两个向量的余弦夹角距离,并设置阈值,当两个向量的余弦夹角距离大于阈值时,判定为相似,否则判定为不相似。
Description
技术领域
本发明涉及文本分类的技术领域,尤其涉及核安全级软件验证与确认的技术领域;更具体地,涉及一种判定文本相似性的方法和***。
背景技术
在核安全级软件验证和确认(V&V)的过程中,需要对执行文档进行评估,对可追踪性进行分析,以及对危险进行分析等,随着技术文档的不断增加,每个项目每个阶段重复的执行这些活动需要大量人力,因此在文档评估过程中自动识别待评估项,可追踪分析中自动判断上下级文件的语义相关性,危险分析过程中相似产品的失效模式的自动匹配,成为V&V人员需要解决的问题。
目前用于判断文本相似性的方法主要有余弦相似度、SimHash算法以及隐性语义标引法(LSI)。其中,余弦相似度法通过预处理、文本特征项选择、加权、生成向量空间模型后计算余弦;SimHash为Google处理海量网页的采用的文本相似判定方法,该方法的主要目的是降维,即将高维的特征向量映射成f-bit的指纹,通过比较两篇文档指纹的汉明距离来表征文档重复或相似性。;隐性语义标引(LSI)利用矩阵理论中的“奇异值分解(SVD)”技术,将词频矩阵转化为奇异矩阵,然后将该矩阵进行奇异值分解,较小的奇异值被剔除,结果奇异向量以及奇异值矩阵用于将文档向量和查询向量映射到一个子空间中,在该空间中,来自文档矩阵的语义关系被保留,然后可以通过标准化的内积计算来计算向量之间的夹角余弦相似度,进而根据计算结果比较文本间的相似度;所以LSI剔除了对文档相似度计算影响较小的特征,保留下来的那些对文档向量在m维空间中的位置大有影响的特征。
但是发明人在实现本发明的过程中发现:1、余弦相似度算法多应用于网页标题合并和标题聚类中,计算结果准确,但是该算法只考虑了词在上下文中的统计特性,假定关键词之间线性无关,而没有考虑词本身的语义信息,不能很好地解决文本中存在的自然语言问题,如同义词和多义词,因此具有一定的局限性。2、SimHash方法处理速率快,对海量文本相似判定非常适合;但是由于短文本的用于哈希计算的数据源较少,因此短文本相似度识别率低。3、隐性语义标引法比原来基于原文本向量的相似度计算更可靠,但是对于海量的文本数据,奇异值分解计算困难,且过于稀疏的语料不能很好的体现其潜在的语义。
发明内容
为了解决现有技术中三种文本相似性判断算法分别存在的不足,本发明提供一种判定文本相似性的方法和***,能够解决多种类别文本判定且识别率高。
为了实现上述目的,本发明提供的技术方案包括:
本发明一方面提供一种判定文本相似性的方法,其特征在于,包括:
S1、构建向量空间模型,使得文本量化成可处理的对象;
S2、使用Siamese网络构建文本语义相似性提取模型,并且在所述Siamese网络中,语义特征提取网络与相似性判别网络串联在一起,同时在样本训练阶段进行优化;
S3、基于训练阶段样本的语义特征表达,构造基于特征向量的夹角余弦的文本相似度计算函数,以及最终的损失函数,使得同类样本对的特征向量映射到空间某个区域;
S4、输入两个待测文本,基于所述Siamese网络对待测文本进行语义特征提取之后,计算两个向量的余弦夹角距离,并设置阈值,当两个向量的余弦夹角距离大于阈值时,判定为相似,否则判定为不相似。
本发明实施例优选地,所述步骤S2中,所述Siamese网络的结构可以有两个或者多个并行的通路,相应地,能够将两个或者多个文本特征同时输入,所述Siamese网络经过各自通路的非线性映射提取特征,然后多个文本的特征可以在特征层后相结合进而语义相关性判断。
本发明实施例优选地,所述步骤S2中,将所述Siamese网络分成前半部分和后半部分;前半部分用于文本语义特征的提取,由全连接层组成;后半部分用于相似性度量,将网络前半部分抽取的特征整合;计算经不同分支提取之后的一对样本特征之间的距离,或者将对应元素直接加权连接;进而在步骤S3中经过余弦夹角度量函数判别样本间的相似性。
本发明实施例优选地,所述前半部分用于文本语义特征的提取,由全连接层组成,并且包括词、短语、句子、段落、文章和语义,构建5层隐藏层的网络结构。
本发明实施例优选地,所述S3和S4中夹角余弦的计算采用三元度量函数,在三元组样本(x,x+,x-)经过特征提取后具有相同的网络参数W,得到三个样本的语义特征表达,分别记为Gw(x)、Gw(x+),Gw(x-);夹角余弦的文本相似度计算函数为:D(xi,xj)=cos(xi,xj)=xi.xj/|xi|.|xj|。
本发明实施例进一步优选地,与所述夹角余弦的文本相似度计算函数,对应的损失函数为:
其中,α为x与x+之间的距离和x与x-之间的距离中最小的间隔,并且是预设的固定参数。
本发明实施例优选地,所述S3和S4中夹角余弦的计算采用三元度量函数,在三元组样本(x',x,x')经过特征提取后具有不同的网络参数W,得到三个样本的语义特征表达,分别记为Gw1(x')、Gw2(x),Gw3(x');当D(Gw1(x'),Gw2(x))-D(Gw3(x'),Gw2(x))>α时,判断为相似,否则判断为不相似;其中,α为x与x+之间的距离和x与x-之间的距离中最小的间隔,并且是预设的固定参数。
本发明进一步实施例优选地,所述样本x为从训练数据集中随机选一个样本,所述样本为x+为和x属于同一类的一个样本,所述样本x-为和x不同类的一个样本;在样本训练的原则是:要求x和x+特征向量之间的夹角尽可能小,而x和x-语义特征向量之间的夹角尽可能大。
本发明实施例优选地,所述步骤S2中选择一对文本作为输入,记为(xi,xj);将文本的段落标题以及正文分成两部分,同时,将两个文本的正文和标题分别合并作为输入。
本发明另一方面还提供一种判定文本相似性的***,其特征在于,包括:控制器,所述控制器用于加载并执行上述任意一种判定文本相似性的方法对应的程序。
采用本申请提供的上述技术方案,可以至少获得以下有益效果中的一种:
1、使用的神经网络是线性变换与简单非线性函数的串联叠加,在训练阶段使用经典的随机梯度下降方法,因此在训练的过程和测试的过程中都不存在计算上的困难。
2、不仅仅只停留在词的级别上对文本进行处理,而是基于语义的级别判定文档的相似性,能很好地解决文本中存在的自然语言问题;判断的结果更加准确。
3、利用Siamese网络训练出来的相似度度量模型,具备使得相似的文本距离变小,不相似的文本距离变大;对文本的类别、数量和长短都没有要求,所以能够很好的解决那些类别数多,且部分类别的样本数据较少的判定问题。
4、由于采用Siamese网络结合三元损失函数,在网络训练阶段,本申请对应技术方案的相似性判定过程中,目标是使得相关的文本提取的特征尽可能小,不相关的文本提取的特征差别尽可能大;由于训练样本包含很多对的数据,经过训练后网络学习出了这种判断文本是否相关的能力,并且这种能力是建立在很多、很多种数据对之上的,是统计出来的能力,可以推广到没有出现的类别上,这就是神经网络的泛化能力;即型的泛化能力导致了这个性质;这样即使针对样本中没有的类别,利用本申请提供的技术方案依然可以判定两个文本的相似性。
5、使用三元损失函数将同类样本映射到空间中的一个区域而不是空间中的一个点,简化了问题的难易程度,使得算法的泛化能力大幅提升。
发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书变得显而易见,或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。
附图说明
图1为本发明一实施例提供的一种判定文本相似性方法的流程图。
图2为本发明一实施例提供一种文本相似性训练网络结构示意图。
图3为本发明一实施例提供的一种全连接层结构示意图。
图4为本发明一实施例提供的一种相似性预测模型结构示意图。
图5为本发明一实施例提供的一种判定文本相似性***的结构示意框图。
图6为本发明另一实施例提供的一种相似性度量模型结构图。
图7为本发明再一实施例提供的一种相似性度量模型结构图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,这些具体的说明只是让本领域普通技术人员更加容易、清晰理解本发明,而非对本发明的限定性解释;并且只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组控制器可执行指令的控制***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
下面通过附图和具体实施例,对本发明的技术方案进行详细描述:
实施例一
如图1所示,本实施例提供一种判定文本相似性的方法,该方法是基于Siamese网络的文本相似性判定方法;首先,需要对文本数据建立VSM模型,其过程包括预处理,分词,去除停用词,将文本量化成可处理的特征向量;然后构建Siamese网络(也称孪生网络)提取基于特征向量的样本对的语义相似性特征;最后构造基于高维向量夹角余弦的tripletloss(也称三重损失)损失函数用以判别文本对的相关性。该方法具体地包括:
S1、构建向量空间模型,使得文本量化成可处理的对象;
在文本处理中,首先需要将文本量化成可处理的对象,优选地,采用了文本处理中构建向量空间模型(简称VSM)方法,包括:1、文本预处理:预处理主要是是处理文本乱码及非文本内容,分词和去停用词,按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉。2、特征向量计算:过滤掉常用副词、助词等频度高的词之后,根据剩下词的频度确定若干特征项。优选地,采用TF-IDF(Termfrequency-Inverse document frequency)方法计算文本特征项的权重,并且进行归一化处理,得到原始文本特征向量。
其中,向量空间模型的基本思想是把文档简化为以特征项的权重为分量的m维向量表示,即将文本转化为通过数学符号描述的可处理的量化特征。这个模型的量化过程假设词与词间线性无关,因此该模型无法直接进行语义相关的判断,而是利用后续的Siamese网络(中文也称暹罗网络)对原始文本的量化特征进行进一步的语义特征提取,以达到判断文本语义相似性的目的。
S2、使用Siamese网络构建文本语义相似性提取模型,并且在Siamese网络中,语义特征提取网络与相似性判别网络串联在一起,同时在样本训练阶段进行优化;
要判断两段文本的语义相似性,在得到各文本段的量化向量后,需要提取样本对的相似性特征进行判断;本实施例结合Siamese网络来对原始文本的量化特征进行进一步的语义特征提取,语义特征提取网络与相似性判别网络串联在一起,同时在样本训练阶段进行优化;
S3、基于训练阶段样本的语义特征表达,构造基于特征向量的夹角余弦的文本相似度计算函数,以及最终的损失函数,使得同类样本对的特征向量映射到空间某个区域;
S4、输入两个待测文本,基于Siamese网络对待测文本进行语义特征提取之后,计算两个向量的余弦夹角距离,并设置阈值,当两个向量的余弦夹角距离大于阈值时,判定为相似,否则判定为不相似。
下面结合训练阶段的示意图2(同时输入三个样本,两个相关的,一个不相关的,用来训练网路)和测试阶段的示意图4(只需要输入两个样本判断相不相关);对本实施例的技术进一步解释说明:
其中,S2对应网络的结构及赋予的物理意义,网络的参数为W,本实施例中网络的前部分用来提取语义特征,后部分用来提取相似性特征;S3对应下文中的损失函数部分的实现,即D(下文会结合图2进一步解释说明)。神经网络由节点间的权重系数链接,训练的目的就是优化这些系数,使得神经网络在训练数据的指导下达到所需的功能。待神经网络训练好后,这些系数固定,测试的时候,输入经过这些系数的变化后,得到结果,进而判断是否相似。
本实施例优选地,步骤S2中,Siamese网络的结构可以有两个或者多个并行的通路,相应地,能够将两个或者多个文本特征同时输入,Siamese网络经过各自通路的非线性映射提取特征,然后多个文本的特征可以在特征层后相结合进而语义相关性判断。为了使得本领技术人员更加清楚理解本实施例的技术方案,本实施例的下文在结合图2解释Siamese网络的结构的时候,以三通道进行说明。
本实施例进一步优选地,步骤S2中,将Siamese网络分成前半部分和后半部分;前半部分用于文本语义特征的提取,由全连接层组成;后半部分用于相似性度量,将网络前半部分抽取的特征整合;计算经不同分支提取之后的一对样本特征之间的距离;进而在步骤S3中经过余弦夹角度量函数判别样本间的相似性。
本实施例优选地,前半部分用于文本语义特征的提取,由全连接层组成,并且包括词、短语、句子、段落、文章和语义,构建5层隐藏层的网络结构。
本实施例优选地,S3和S4中夹角余弦的计算采用三元度量函数,在三元组样本(x,x+,x-)经过特征提取后具有相同的网络参数W,得到三个样本的语义特征表达,分别记为Gw(x)、Gw(x+),Gw(x-);夹角余弦的文本相似度计算函数为:D(xi,xj)=cos(xi,xj)=xi.xj/|xi|.|xj|。
由于三元是两个相关的样本,一个不相关的样本;因此,考虑了相关样本间特征的距离又考虑了不相关样本特征的距离,也就是即考虑了类内距离又考虑了类间距离,这样得到的分类器更稳定,泛化能力更强。传统的方法,只是考虑了相关样本的距离,在处理容易混淆的样本间的相关性判断等容易出错。
本实施例优选地,与夹角余弦的文本相似度计算函数,对应的损失函数为:
其中,α为x与x+之间的距离和x与x-之间的距离中最小的间隔,并且是预设的固定参数。
本实施例优选地,样本x为从训练数据集中随机选一个样本,样本为x+为和x属于同一类的一个样本,样本x-为和x不同类的一个样本;在样本训练的原则是:要求x和x+特征向量之间的夹角尽可能小,而x和x-语义特征向量之间的夹角尽可能大。
更具体地优选方案:在上述步骤S2中,考虑到Siamese网络结构(如图2所示)的特点,即Siamese网络模型的结构可以有两个或者多个并行的通路,因此可以将两个或者多个文本特征同时输入网络,经过各自通路的非线性映射提取特征,而后多个文本的特征可以在特征层后相结合进而语义相关性判断。因此本实施例将引入Siamese网络来提取文本对的语义相似性特征提取。
在训练阶段,该网络有三个分支(如图2所示),这三个分支具备同样的网络结构,并且为了提取公共特征便于进行相似性判断,我们将各分支设置成权重共享,即三个分支具有同样的网络参数W。我们将Siamese网络分成前半部分、后半部分。前半部分用于文本语义特征的提取,由全连接层组成,激活函数选择ReLU,即f(x)=max(0,x)。针对前半部分的网络结构,为了更好的提取文本的语义,根据文本本身的特征层次结构由浅到深包括词、短语、句子、段落、文章和语义,构建5层隐藏层的网络结构(如图3所示仅示意出其中两层,其他的类似),且每层属于全连接层,实现提取文本语义,同时降低向量维数的目的。
后半部分用于相似性度量,将网络前半部分抽取的特征整合,进而经过某种度量函数判别样本间的相似性,关于度量函数的选择,将在下节进一步阐述。训练时的样本按照下面的方式组织,先从训练数据集中随机选一个样本作为锚点,该样本记为x,然后再随机选取属于同一类的一个样本和不同类的一个样本,这两个样本对应的称为Positive(记为x+)和Negative(记为x-),由此构成一组训练样本(x,x+,x-),同时输入Siamese网络,通过BP算法,优化网络参数,使得网络输出值与真值逐渐接近,直到网络收敛。
在上述Siamese网络结构中,语义特征提取网络与相似性判别网络串联在一起,同时优化,即是端对端(end-to-end)的网络结构。特征提取部分受到判别部分的影响,使得提取的特征利于判别样本的相似性。相比于分部优化的方法,end-to-end方法是全局优化,效果更好。
更具体地优选方案:在上述步骤S3中,三元组样本经过特征提取后,得到三个样本的语义特征表达,分别记为Gw(x)、Gw(x+),Gw(x-)。在网络的判别部分,下面构造基于特征向量之间的距离度量函数判断样本的相似性。由于提取的特征向量是高维向量,传统的欧式距离等不能很好的反应高维向量间的距离,本发明构造了基于特征向量的夹角余弦的文本相似度计算函数,即为:
D(xi,xj)=cos(xi,xj)=xi.xj/|xi|.|xj| (公式1)
相对于使用二元损失函数度量样本对的相似性,由于二元损失函数作用是把所有同类样本映射到特征空间中的一个点,这要求特征提取函数对所有同类样本有相同的响应,网络学习起来困难。本实施例选择三元损失函数完成判别任务;得到三元组样本的特征向量后,同时要求x和x+特征向量之间的夹角尽可能小(即距离的值尽可能大,即夹角尽可能小),而x和x-语义特征向量之间的夹角尽可能大(即尽可能小),且要让x与x+之间的距离和x与x-之间的距离之间有一个最小的间隔α;其中,α为给定的超参数,最终的损失函数为:
其中,α在初始阶段给定的一个小数,例如0.1,一般是由所定义的距离度量函数的量纲决定,例如本文中采用余弦,值域是[0,1],参数选择0.1即可。
与二元损失函数不同,三元损失函数的目的是将同类样本映射到空间中的一个区域,使得类内距离小于类间距离,并且类内类间分界面之间受到固定参数α约束控制;将同类样本对的特征向量映射到空间某个区域而不是空间中的一个点,使得问题的难易程度大大简化,同时又不影响判断相似性问题本身的效果,因此算法的效果以及泛化能力有很大的提升。
更具体地优选方案:在上述步骤S4中,在预测时,只需要选择网络的两个通路(由于网络各个通路是权值共享的,因此选择哪两个通路没有影响);输入样本对后,首先按照S1提取两个待测文本的量化向量,分别记为input1,input2;然后输入Siamese网络模型结构如图4所示,通过Siamese网络对样本对进行语义特征提取之后,传入判别网络计算两个向量的余弦夹角距离,设置阈值ζ,当计算值大于ζ时,判定为相似,否则判定为不相似。
其中,阈值ζ参数是提前给定的;网络输出的距离可以认为是文本对相似性的概率,这个参数给出满足什么概率值既认定为相似,取决于具体任务对相似性级别的需求;并且需求越高,该阈值可以设置的越大。
如图5所示,本实施例另一方面还提供一种判定文本相似性的***,该***包括:控制器,控制器用于加载并执行上述任意一种判定文本相似性的方法对应的程序。
实施例二
本实施例在实施例一的基础上,为了使训练模型更为灵活,可以使得Siamese网络的三个分支中的权重不同,层数不同,也即三个函数互不相关;只是在最后的距离计算,将他们关联在一起;其他未重复说明的内容与实施例一相同。具体地,如图6所示,本实施例优选地,在图1对应的S3和S4中夹角余弦的计算采用三元度量函数,在三元组样本(x',x,x')经过特征提取后具有不同的网络参数W,得到三个样本的语义特征表达,分别记为
Gw1(x')、Gw2(x),Gw3(x');
当D(Gw1(x'),Gw2(x))-D(Gw3(x'),Gw2(x))>α时,判断为相似,否则判断为不相似;其中,α为x与x+之间的距离和x与x-之间的距离中最小的间隔,并且是预设的固定参数。关于α的取值,参照实施例一的描述,在此不再赘述。
相应地,本实施例另一方面也提供一种判定文本相似性的***,该***包括:控制器,控制器用于加载并执行与图6中Siamese网络结构对应的程序。
实施例三
作为软件开发的技术文件,尤其是用于核电领域的软件,其文件编写要符合标准规范,标题具有高度的概括性和相似性,如果在对文本建立向量空间模型的时候,采取将整个文本统一处理,会极大的损失标题给分类带来的重要信息。因此,在训练和测试的过程中应适当的考虑段落标题对文本相似性度量的贡献。如图7所示,本实施例优选地,在实施例一或者实施例二对应步骤S2中选择一对文本作为输入,记为(xi,xj);将文本的段落标题以及正文分成两部分,同时,将两个文本的正文和标题分别合并作为输入。
具体地,首先选取一对文本作为输入,记为,可以是相似或者不相似,将文本的段落标题以及正文分成两部分,同时,将两个文本的正文和标题分别合并作为输入。训练模型结构如图7所示,其中,决策层网络采用全连接层结构,激活函数采用Sigmoid函数,
即σ(x)=1/(1+exp(-x));a∈(0,1),
x_Text=(xi_Text,xj_Text),x_Title=(xi_Title,xj_Title)。
测试时,仍然使用该模型,设置阈值,当输出大于阈值时,判断为相似,否则,为不相似。关于阈值,请参照实施例一中ζ的描述,在此不再赘述。
但是本实施例对应的相似性判断方法中,在S2步骤中相应地执行过程中,不再采用“计算经不同分支提取之后的一对样本特征之间的距离”,而是将对应元素直接加权连接。
相应地,本实施例也提供一种判定文本相似性的***,该***包括:控制器,控制器用于加载并执行与图7中Siamese网络结构对应的程序。
采用本申请提供的上述技术方案,可以至少获得以下有益效果中的一种:
1、使用的神经网络是线性变换与简单非线性函数的串联叠加,在训练阶段使用经典的随机梯度下降方法,因此,在训练的过程和测试的过程中都不存在计算上的困难。
2、不仅仅只停留在词的级别上对文本进行处理,而是基于语义的级别判定文档的相似性,能很好地解决文本中存在的自然语言问题;判断的结果更加准确。
3、利用Siamese网络训练出来的相似度度量模型,具备使得相似的文本距离变小,不相似的文本距离变大;对文本的类别、数量和长短都没有要求,所以能够很好的解决那些类别数多,且部分类别的样本数据较少的判定问题。
4、由于采用Siamese网络结合三元损失函数,在网络训练阶段,本申请对应技术方案的相似性判定过程中,目标是使得相关的文本提取的特征尽可能小,不相关的文本提取的特征差别尽可能大;由于训练样本包含很多对的数据,经过训练后网络学习出了这种判断文本是否相关的能力,并且这种能力是建立在很多、很多种数据对之上的,是统计出来的能力,可以推广到没有出现的类别上,这就是神经网络的泛化能力;即模型的泛化能力导致了这个性质;这样即使针对样本中没有的类别,利用本申请提供的技术方案依然可以判定两个文本的相似性。
5、使用三元损失函数将同类样本映射到空间中的一个区域而不是空间中的一个点,简化了问题的难易程度,使得算法的泛化能力大幅提升。
最后需要说明的是,上述说明仅是本发明的最佳实施例而已,并非对本发明做任何形式上的限制。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围内,都可利用上述揭示的做法和技术内容对本发明技术方案做出许多可能的变动和简单的替换等,这些都属于本发明技术方案保护的范围。
Claims (10)
1.一种判定文本相似性的方法,其特征在于,包括:
S1、构建向量空间模型,使得文本量化成可处理的对象;
S2、使用Siamese网络构建文本语义相似性提取模型,并且在所述Siamese网络中,语义特征提取网络与相似性判别网络串联在一起,同时在样本训练阶段进行优化;
S3、基于训练阶段样本的语义特征表达,构造基于特征向量的夹角余弦的文本相似度计算函数,以及最终的损失函数,使得同类样本对的特征向量映射到空间某个区域;
S4、输入两个待测文本,基于所述Siamese网络对待测文本进行语义特征提取之后,计算两个向量的余弦夹角距离,并设置阈值,当两个向量的余弦夹角距离大于阈值时,判定为相似,否则判定为不相似。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2中,所述Siamese网络的结构可以有两个或者多个并行的通路,相应地,能够将两个或者多个文本特征同时输入,所述Siamese网络经过各自通路的非线性映射提取特征,然后多个文本的特征可以在特征层后相结合进而语义相关性判断。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2中,将所述Siamese网络分成前半部分和后半部分;前半部分用于文本语义特征的提取,由全连接层组成;后半部分用于相似性度量,将网络前半部分抽取的特征整合;计算经不同分支提取之后的一对样本特征之间的距离,或者将对应元素直接加权连接;进而在步骤S3中经过余弦夹角度量函数判别样本间的相似性。
4.根据权利要求2或3所述的方法,其特征在于,所述前半部分用于文本语义特征的提取,由全连接层组成,并且包括词、短语、句子、段落、文章和语义,构建5层隐藏层的网络结构。
5.根据权利要求1所述的方法,其特征在于,所述S3和S4中夹角余弦的计算采用三元度量函数,在三元组样本(x,x+,x-)经过特征提取后具有相同的网络参数W,得到三个样本的语义特征表达,分别记为Gw(x)、Gw(x+),Gw(x-);夹角余弦的文本相似度计算函数为:D(xi,xj)=cos(xi,xj)=xi.xj/|xi|.|xj|。
6.根据权利要求5所述的方法,其特征在于,与所述夹角余弦的文本相似度计算函数,对应的损失函数为:
<mrow>
<mi>l</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msubsup>
<mi>x</mi>
<mi>i</mi>
<mo>+</mo>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>x</mi>
<mi>i</mi>
<mo>-</mo>
</msubsup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<mi>&alpha;</mi>
<mo>-</mo>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>G</mi>
<mi>w</mi>
</msub>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>,</mo>
<msub>
<mi>G</mi>
<mi>w</mi>
</msub>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>i</mi>
<mo>+</mo>
</msubsup>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>G</mi>
<mi>w</mi>
</msub>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>,</mo>
<msub>
<mi>G</mi>
<mi>w</mi>
</msub>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>i</mi>
<mo>-</mo>
</msubsup>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>}</mo>
<mo>.</mo>
</mrow>
其中,α为x与x+之间的距离和x与x-之间的距离中最小的间隔,并且是预设的固定参数。
7.根据权利要求1所述的方法,其特征在于,所述S3和S4中夹角余弦的计算采用三元度量函数,在三元组样本(x',x,x')经过特征提取后具有不同的网络参数W,得到三个样本的语义特征表达,分别记为Gw1(x')、Gw2(x),Gw3(x');当D(Gw1(x'),Gw2(x))-D(Gw3(x'),Gw2(x))>α时,判断为相似,否则判断为不相似;其中,α为x与x+之间的距离和x与x-之间的距离中最小的间隔,并且是预设的固定参数。
8.根据权利要求7所述的方法,其特征在于,所述样本x为从训练数据集中随机选一个样本,所述样本为x+为和x属于同一类的一个样本,所述样本x-为和x不同类的一个样本;在样本训练的原则是:要求x和x+特征向量之间的夹角尽可能小,而x和x-语义特征向量之间的夹角尽可能大。
9.根据权利要求1所述的方法,其特征在于,所述步骤S2中选择一对文本作为输入,记为(xi,xj);将文本的段落标题以及正文分成两部分,同时,将两个文本的正文和标题分别合并作为输入。
10.一种判定文本相似性的***,其特征在于,包括:控制器,所述控制器用于加载并执行如权利要求1-9中任意一种判定文本相似性的方法对应的程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711088831.9A CN107967255A (zh) | 2017-11-08 | 2017-11-08 | 一种判定文本相似性的方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711088831.9A CN107967255A (zh) | 2017-11-08 | 2017-11-08 | 一种判定文本相似性的方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107967255A true CN107967255A (zh) | 2018-04-27 |
Family
ID=62000824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711088831.9A Pending CN107967255A (zh) | 2017-11-08 | 2017-11-08 | 一种判定文本相似性的方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967255A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145529A (zh) * | 2018-09-12 | 2019-01-04 | 重庆工业职业技术学院 | 一种用于版权认证的文本相似性分析方法与*** |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
CN110046240A (zh) * | 2019-04-16 | 2019-07-23 | 浙江爱闻格环保科技有限公司 | 结合关键词检索与孪生神经网络的目标领域问答推送方法 |
CN110309503A (zh) * | 2019-05-21 | 2019-10-08 | 昆明理工大学 | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 |
CN110348010A (zh) * | 2019-06-21 | 2019-10-18 | 北京小米智能科技有限公司 | 同义短语获取方法及装置 |
CN110413988A (zh) * | 2019-06-17 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度量的方法、装置、服务器及存储介质 |
CN110555198A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN110597986A (zh) * | 2019-08-16 | 2019-12-20 | 杭州微洱网络科技有限公司 | 一种基于微调特征的文本聚类***及方法 |
CN110598066A (zh) * | 2019-09-10 | 2019-12-20 | 民生科技有限责任公司 | 基于词向量表达和余弦相似度的银行全称快速匹配方法 |
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN110888920A (zh) * | 2019-12-06 | 2020-03-17 | 北京中电普华信息技术有限公司 | 一种项目功能相似度的确定方法及装置 |
CN111144129A (zh) * | 2019-12-26 | 2020-05-12 | 成都航天科工大数据研究院有限公司 | 一种基于自回归与自编码的语义相似度获取方法 |
CN111178084A (zh) * | 2019-12-26 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种提高语义相似度训练方法及装置 |
CN111460401A (zh) * | 2020-05-20 | 2020-07-28 | 南京大学 | 结合软件制品过程信息和文本相似度的制品自动追踪方法 |
CN111723164A (zh) * | 2019-03-18 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 地址信息的处理方法和装置 |
CN111738010A (zh) * | 2019-03-20 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 用于生成语义匹配模型的方法和装置 |
CN111930929A (zh) * | 2020-07-09 | 2020-11-13 | 车智互联(北京)科技有限公司 | 一种文章标题生成方法、装置及计算设备 |
CN112561904A (zh) * | 2020-12-24 | 2021-03-26 | 凌云光技术股份有限公司 | 一种降低显示屏外观aoi缺陷误检率的方法及*** |
CN112949319A (zh) * | 2021-03-12 | 2021-06-11 | 江南大学 | 文本中多义性单词的标注方法、设备、处理器和存储介质 |
CN113221530A (zh) * | 2021-04-19 | 2021-08-06 | 杭州火石数智科技有限公司 | 一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质 |
CN115630613A (zh) * | 2022-12-19 | 2023-01-20 | 长沙冉星信息科技有限公司 | 一种问卷调查中评价类问题的自动编码***及其方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184778A (zh) * | 2015-08-25 | 2015-12-23 | 广州视源电子科技股份有限公司 | 一种检测方法及装置 |
US20160350336A1 (en) * | 2015-05-31 | 2016-12-01 | Allyke, Inc. | Automated image searching, exploration and discovery |
CN106909625A (zh) * | 2017-01-20 | 2017-06-30 | 清华大学 | 一种基于Siamese网络的图像检索方法及*** |
CN107292259A (zh) * | 2017-06-15 | 2017-10-24 | 国家新闻出版广电总局广播科学研究院 | 基于AdaRank的深度特征和传统特征的集成方法 |
-
2017
- 2017-11-08 CN CN201711088831.9A patent/CN107967255A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160350336A1 (en) * | 2015-05-31 | 2016-12-01 | Allyke, Inc. | Automated image searching, exploration and discovery |
CN105184778A (zh) * | 2015-08-25 | 2015-12-23 | 广州视源电子科技股份有限公司 | 一种检测方法及装置 |
CN106909625A (zh) * | 2017-01-20 | 2017-06-30 | 清华大学 | 一种基于Siamese网络的图像检索方法及*** |
CN107292259A (zh) * | 2017-06-15 | 2017-10-24 | 国家新闻出版广电总局广播科学研究院 | 基于AdaRank的深度特征和传统特征的集成方法 |
Non-Patent Citations (6)
Title |
---|
FLORIAN SCHROFF 等: ""A unified embedding for face recognition and clustering"", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
PO-SEN HUANG: ""Learning deep structured semantic models for web search using clickthrough data"", 《PROCEEDINGS OF THE 22ND ACM INTERNATIONAL CONFERENCE ON CONFERENCE ON INFORMATION & KNOWLEDGE MANAGEMENT》 * |
SUMIT CHOPRA 等: ""Learning a similarity metric discriminatively, with application to face verification"", 《2005 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR"05)》 * |
刘博: ""子空间学习及其在图像集分类中的应用研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
刘阳: ""基于LSTM的英文文本蕴含识别方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
庞亮 等: ""深度文本匹配综述"", 《计算机学报》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555198A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN110555198B (zh) * | 2018-05-31 | 2023-05-23 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
CN109145529A (zh) * | 2018-09-12 | 2019-01-04 | 重庆工业职业技术学院 | 一种用于版权认证的文本相似性分析方法与*** |
CN111723164B (zh) * | 2019-03-18 | 2023-12-12 | 阿里巴巴集团控股有限公司 | 地址信息的处理方法和装置 |
CN111723164A (zh) * | 2019-03-18 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 地址信息的处理方法和装置 |
CN111738010A (zh) * | 2019-03-20 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 用于生成语义匹配模型的方法和装置 |
CN111738010B (zh) * | 2019-03-20 | 2023-10-17 | 百度在线网络技术(北京)有限公司 | 用于生成语义匹配模型的方法和装置 |
CN110046240A (zh) * | 2019-04-16 | 2019-07-23 | 浙江爱闻格环保科技有限公司 | 结合关键词检索与孪生神经网络的目标领域问答推送方法 |
CN110309503A (zh) * | 2019-05-21 | 2019-10-08 | 昆明理工大学 | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 |
CN110413988A (zh) * | 2019-06-17 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度量的方法、装置、服务器及存储介质 |
CN110413988B (zh) * | 2019-06-17 | 2023-01-31 | 平安科技(深圳)有限公司 | 文本信息匹配度量的方法、装置、服务器及存储介质 |
CN110348010A (zh) * | 2019-06-21 | 2019-10-18 | 北京小米智能科技有限公司 | 同义短语获取方法及装置 |
CN110348010B (zh) * | 2019-06-21 | 2023-06-02 | 北京小米智能科技有限公司 | 同义短语获取方法及装置 |
CN110597986A (zh) * | 2019-08-16 | 2019-12-20 | 杭州微洱网络科技有限公司 | 一种基于微调特征的文本聚类***及方法 |
CN110598066A (zh) * | 2019-09-10 | 2019-12-20 | 民生科技有限责任公司 | 基于词向量表达和余弦相似度的银行全称快速匹配方法 |
CN110598066B (zh) * | 2019-09-10 | 2022-05-10 | 民生科技有限责任公司 | 基于词向量表达和余弦相似度的银行全称快速匹配方法 |
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN110826338B (zh) * | 2019-10-28 | 2022-06-17 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN110888920A (zh) * | 2019-12-06 | 2020-03-17 | 北京中电普华信息技术有限公司 | 一种项目功能相似度的确定方法及装置 |
CN111178084A (zh) * | 2019-12-26 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种提高语义相似度训练方法及装置 |
CN111144129A (zh) * | 2019-12-26 | 2020-05-12 | 成都航天科工大数据研究院有限公司 | 一种基于自回归与自编码的语义相似度获取方法 |
CN111144129B (zh) * | 2019-12-26 | 2023-06-06 | 成都航天科工大数据研究院有限公司 | 一种基于自回归与自编码的语义相似度获取方法 |
CN111460401A (zh) * | 2020-05-20 | 2020-07-28 | 南京大学 | 结合软件制品过程信息和文本相似度的制品自动追踪方法 |
CN111460401B (zh) * | 2020-05-20 | 2023-08-22 | 南京大学 | 结合软件制品过程信息和文本相似度的制品自动追踪方法 |
CN111930929A (zh) * | 2020-07-09 | 2020-11-13 | 车智互联(北京)科技有限公司 | 一种文章标题生成方法、装置及计算设备 |
CN111930929B (zh) * | 2020-07-09 | 2023-11-10 | 车智互联(北京)科技有限公司 | 一种文章标题生成方法、装置及计算设备 |
CN112561904A (zh) * | 2020-12-24 | 2021-03-26 | 凌云光技术股份有限公司 | 一种降低显示屏外观aoi缺陷误检率的方法及*** |
CN112949319A (zh) * | 2021-03-12 | 2021-06-11 | 江南大学 | 文本中多义性单词的标注方法、设备、处理器和存储介质 |
CN113221530A (zh) * | 2021-04-19 | 2021-08-06 | 杭州火石数智科技有限公司 | 一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质 |
CN113221530B (zh) * | 2021-04-19 | 2024-02-13 | 杭州火石数智科技有限公司 | 一种文本相似度匹配方法、装置、计算机设备和储存介质 |
CN115630613A (zh) * | 2022-12-19 | 2023-01-20 | 长沙冉星信息科技有限公司 | 一种问卷调查中评价类问题的自动编码***及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967255A (zh) | 一种判定文本相似性的方法和*** | |
CN104462066B (zh) | 语义角色标注方法及装置 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及*** | |
CN113095415B (zh) | 一种基于多模态注意力机制的跨模态哈希方法及*** | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及*** | |
CN110033022A (zh) | 文本的处理方法、装置和存储介质 | |
CN108563703A (zh) | 一种罪名的判定方法、装置及计算机设备、存储介质 | |
CN106910497A (zh) | 一种中文词语发音预测方法及装置 | |
Jayakodi et al. | WordNet and cosine similarity based classifier of exam questions using bloom’s taxonomy | |
CN109710744A (zh) | 一种数据匹配方法、装置、设备及存储介质 | |
CN110795571A (zh) | 基于深度学习和知识图谱的文化旅游资源推荐方法 | |
CN107480196A (zh) | 一种基于动态融合机制的多模态词汇表示方法 | |
CN106779053A (zh) | 一种基于影响因子和神经网络的知识点摸底方法 | |
CN107608953A (zh) | 一种基于不定长上下文的词向量生成方法 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
CN112559734A (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
CN112000788B (zh) | 一种数据处理方法、装置以及计算机可读存储介质 | |
CN112579794A (zh) | 一种为中英文单词对预测义原树的方法及*** | |
CN114841151A (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN109670169B (zh) | 一种基于特征提取的深度学习情感分类方法 | |
Schicchi et al. | Machine learning models for measuring syntax complexity of english text | |
CN114492451A (zh) | 文本匹配方法、装置、电子设备及计算机可读存储介质 | |
CN113779190A (zh) | 事件因果关系识别方法、装置、电子设备与存储介质 | |
Pathuri et al. | Feature based sentimental analysis for prediction of mobile reviews using hybrid bag-boost algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180427 |