CN110852056A - 一种获取文本相似度的方法、装置、设备及可读存储介质 - Google Patents

一种获取文本相似度的方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110852056A
CN110852056A CN201810827262.3A CN201810827262A CN110852056A CN 110852056 A CN110852056 A CN 110852056A CN 201810827262 A CN201810827262 A CN 201810827262A CN 110852056 A CN110852056 A CN 110852056A
Authority
CN
China
Prior art keywords
text
obtaining
word
distance
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810827262.3A
Other languages
English (en)
Inventor
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201810827262.3A priority Critical patent/CN110852056A/zh
Priority to PCT/CN2019/097691 priority patent/WO2020020287A1/zh
Publication of CN110852056A publication Critical patent/CN110852056A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文公开了一种获取文本相似度的方法、装置、设备及可读存储介质,属于通信技术领域,该方法包括:根据文本对数据集得到所述文本对的数值特征;通过所述文本对的数值特征构造样本特征矩阵;根据所述样本特征矩阵和预测向量进行模型训练,得到预测模型;获取目标文本对,根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分;通过获取文本对的多个数值特征,兼顾语义和句法结构,来判断文本相似度,具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点,提高了用户体验。

Description

一种获取文本相似度的方法、装置、设备及可读存储介质
技术领域
本文涉及通信技术领域,尤其涉及一种获取文本相似度的方法、装置、设备及可读存储介质。
背景技术
在信息***的时代下,人们对从海量信息中快速准确获取所需内容的需求与日俱增,为实现这一需求,许多应用应运而生,如信息检索、智能问答、文献查重、个性推荐等,在这些应用背后,文本相似度计算技术是关键的核心技术之一。
文本相似度在不同领域被广泛讨论,由于应用场景不同,其内涵有所差异,故没有统一、公认的定义。从信息论的角度来看,文本相似度与文本之间的共性和差异有关,共性越大、差异越小,则文本间的相似度越高;反之,共性越小、差异越大,则文本间的相似度越低。
发明内容
本文在于提供一种获取文本相似度的方法、装置、设备及可读存储介质,通过获取文本对的多个数值特征,兼顾语义和句法结构,来判断文本相似度,具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点,提高了用户体验。
本文解决上述技术问题所采用的技术方案如下:
根据本文的一个方面,提供的一种获取文本相似度的方法,包括:
根据文本对数据集得到所述文本对的数值特征;
通过所述文本对的数值特征构造样本特征矩阵;
根据所述样本特征矩阵和预测向量进行模型训练,得到预测模型;
获取目标文本对,根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。
可选地,所述数值特征包括:基于有序编辑距离的语义特征,基于无序编辑距离的语义特征,基于词义距离的语义特征,基于依存关系的句法特征。
可选地,所述根据文本对数据集得到所述文本对的数值特征包括:
获取训练语料文件,所述训练语料文件包括若干组文本对及每组文本对的相似度得分;
根据所述训练语料文件得到训练数据集;
从所述训练数据集中得到词向量矩阵;
根据所述词向量矩阵和编辑距离,获取文本对之间的第一改进编辑距离,作为基于有序编辑距离的语义特征;
根据所述编辑距离和词袋模型,获取文本对之间的第二改进编辑距离,作为基于无序编辑距离的语义特征;
根据所述词向量矩阵,获取文本对之间的词义距离,作为基于词义距离的语义特征;
对文本对进行依存句法分析,获取文本对之间的句法距离,作为基于依存关系的句法特征。
可选地,所述获取目标文本对,根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分包括:
获取目标文本对,获取所述目标文本对的数值特征,构成目标文本对的特征向量;
将所述目标文本对的特征向量代入所述预测模型,获得所述目标文本对的相似度得分。
根据本发明的另一个方面,提供的一种获取文本相似度的装置,包括:
训练模块,用于根据文本对数据集得到所述文本对的数值特征;
矩阵构造模块,用于通过所述文本对的数值特征构造样本特征矩阵;
预测模块,用于根据所述样本特征矩阵和预测向量进行模型训练,得到预测模型;
在线获取模块,用于获取目标文本对,根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。
可选地,所述数值特征包括:基于有序编辑距离的语义特征,基于无序编辑距离的语义特征,基于词义距离的语义特征,基于依存关系的句法特征。
可选地,所述训练模块包括:
获取单元,用于获取训练语料文件,所述训练语料文件包括若干组文本对及每组文本对的相似度得分;
提取单元,用于根据所述训练语料文件得到训练数据集;
词向量获取单元,用于从所述训练数据集中得到词向量矩阵;
有序编辑距离获取单元,用于根据所述词向量矩阵和编辑距离,获取文本对之间的第一改进编辑距离,作为基于有序编辑距离的语义特征;
无序编辑距离获取单元,用于根据所述编辑距离和词袋模型,获取文本对之间的第二改进编辑距离,作为基于无序编辑距离的语义特征;
词义距离获取单元,用于根据所述词向量矩阵,获取文本对之间的词义距离,作为基于词义距离的语义特征;
句法距离获取单元,用于对文本对进行依存句法分析,获取文本对之间的句法距离,作为基于依存关系的句法特征。
可选地,所述在线获取模块包括:
特征向量获取单元,用于获取目标文本对,获取所述目标文本对的数值特征,构成目标文本对的特征向量;
相似度获取单元,用于将所述目标文本对的特征向量代入所述预测模型,获得所述目标文本对的相似度得分。
根据本文的再一个方面,提供的一种电子设备,包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行以上所述的获取文本相似度的方法。
根据本文的再一个方面,提供的一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上所述的获取文本相似度的方法。
本发明实施例的一种获取文本相似度的方法、装置、设备及可读存储介质,该方法包括:根据文本对数据集得到所述文本对的数值特征;通过所述文本对的数值特征构造样本特征矩阵;根据所述样本特征矩阵和预测向量进行模型训练,得到预测模型;获取目标文本对,根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分;通过获取文本对的多个数值特征,兼顾语义和句法结构,来判断文本相似度,具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点,提高了用户体验。
附图说明
图1为本发明实施例一提供的一种获取文本相似度的方法流程图;
图2为图1中步骤S10的一种方法流程图;
图3为图1中步骤S40的一种方法流程图;
图4为本发明实施例二提供的一种获取文本相似度的装置示范性结构框图;
图5为图4中训练模块的示范性结构框图;
图6为图4中在线获取模块模块的示范性结构框图。
本文目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本文所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本文进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本文,并不用于限定本文。
实施例一
如图1所示,在本实施例中,一种获取文本相似度的方法,包括:
S10、根据文本对数据集得到所述文本对的数值特征;
S20、通过所述文本对的数值特征构造样本特征矩阵;
S30、根据所述样本特征矩阵和预测向量进行模型训练,得到预测模型;
S40、获取目标文本对,根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。
在本实施例中,通过获取文本对的多个数值特征,兼顾语义和句法结构,来判断文本相似度,考虑了文本间包含词义、编辑距离、词袋模型等特征在内的语义相似度,还考虑了包含句法结构的语法相似度,并将语义与句法相结合,使用神经网络进行了更高层面的特征抽取,具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点,提高了用户体验。
在步骤S10中,首先要准备大量已标注文本对数据作为训练语料;训练语料中每个样本,为一组文本对与对应的标注相似度得分,可形式化表述为[text1;text2;score],其中text1和text2为进行相似度获取的文本对,score为标注的相似度得分。标注得分可以来源于人工标注,亦可来源于其它先验信息,如问答***中用户对***本次答复的满意程度、检索***中用户对***本次排列信息的浏览情况等。所有样本保存在文件originalData.txt中,每行为一个训练样本,每个训练样本中text1、text2、score之间可通过制表符tab进行分割。其中,标注相似度得分score为0到1之间的实数,数字越大表示文本对之间相似度越高,反之亦然;特别地,score为0表示文本对完全不相关,score为1表示文本对完全相同。根据来源不同,score的精度不固定,如来源于人工标注可能多为0.3,0.6等一位精度小数,如来源于其他应用***可能多为0.563,0.8192等多位精度小数。
在本实施例中,文件originalData.txt形式如下:
我想问下在哪里可以购入中兴手机、中兴手机在哪里购买、0.769
中兴公司在南京市雨花台区、南京雨花台区的中兴通讯公司、0.816
智能问答***团队又出新成果、智能问答领域日新月异、0.324
办理***的渠道有哪些、借记卡申请的方式、0.814。
在本实施例中,假设训练语料文件共M行文本对,且针对训练语料中的每个文本对得到N个数值特征,则从训练语料中抽取出的样本特征矩阵可以表示为X∈RM×N。针对训练语料中的每个文本对将其标注相似度得分作为该样本的预测值,可以从训练语料中抽取出预测向量y∈RM×1。因此,训练数据集可以表示为D=[X,y]。
在本实施例中,所述数值特征包括:基于有序编辑距离的语义特征,基于无序编辑距离的语义特征,基于词义距离的语义特征,基于依存关系的句法特征。
在本实施例中,除了有序编辑距离,还考虑了无序词语的移动距离,这对简单颠倒语序的文本具有更强的适应性,可大大提升***召回率。而且,本实施例还根据语句中的有效依存配对数来获取句法相似度,可以更好的衡量句中核心词和与其存在依赖关系的词的数量。
如图2所示,在本实施例中,所述步骤S10包括:
S11、获取训练语料文件,所述训练语料文件包括若干组文本对及每组文本对的相似度得分;
S12、根据所述训练语料文件得到训练数据集;
S13、从所述训练数据集中得到词向量矩阵;
在本实施例中,词向量训练方法采用业界通用的方式即可,这里采用Word2Vec方法,具体步骤如下:
S131、由文件originalData.txt生成新的训练语料文件originalDataForWord2Vec.txt:对文件originalData.txt中每行样本只获取text1和text2,然后将text1和text2分为两行存储。
语料文件originalDataForWord2Vec.txt形式如下:
我想问下在哪里可以购入中兴手机
中兴手机在哪里购买
中兴公司在南京市雨花台区
南京雨花台区的中兴通讯公司
智能问答***团队又出新成果
智能问答领域日新月异
办理***的渠道有哪些
借记卡申请的方式
S132、采用word2vec进行词向量训练,向量长度记为dw(比如dw=400)。
S133、将训练得到的wordv2ec模型记为矩阵
Figure BDA0001742777920000061
其中V为语料文件中所有词汇构成的词汇表,|V|为该词汇表中的词汇个数,表示|V|行dw列的实数矩阵。
S134、单词w由该模型得到的词向量可以表示为
Figure BDA0001742777920000063
其中,
Figure BDA0001742777920000064
表示词向量为1行dw列的矩阵,其中,w为变量,可以指代任意单词,如“中兴”。
S14、根据所述词向量矩阵和编辑距离,获取文本对之间的第一改进编辑距离,作为基于有序编辑距离的语义特征;
在本实施例中,第一改进编辑距离cA中定义的编辑操作包括:匹配(Mat)、***(Ins)、删除(Del)、替换(Sub),分别对应的操作代价为cMat、cIns、cDel、cSub。具体计算步骤如下:
S141、对文本text1和text2,分别进行分词、去停止词操作后,得到词序列t1和t2。
例如,text1为“我想申请内购中兴手机了”,分词后为[我|想|申请|内购|中兴|手机|了],去掉停用词后,得到词序列t1为[申请|内购|中兴|手机];text2为“如何申请一下中兴产品的内购呢”,分词后为[如何|申请|一下|中兴|产品|的|内购|呢],去掉停用词后,得到词序列t2为[如何|申请|中兴|产品|内购]。其中,“我”“想”“了”“一下”“的”“呢”均为停止词。
S142、使用通用方法(如基于动态规划的方法)计算词序列t1到词序列t2的编辑路径PathA和对应编辑元素序列ElementsA
例如,使用通用方法可以计算出t1=[申请|内购|中兴|手机]到t2=[如何|申请|中兴|产品|内购]的编辑路径PathA为[Ins,Mat,Sub,Sub,Sub],对应编辑元素序列ElementsA为[如何,申请,内购→中兴,中兴→产品,手机→内购]。其中,无箭头表示Mat、Ins、Del操作,有箭头表示Sub操作。
S143、对编辑路径PathA得到相应的编辑操作代价向量ActionA。具体的,将所有编辑操作换成对应的操作代价,形成编辑操作代价向量即可。
例如,编辑路径PathA为[Ins,Mat,Sub,Sub,Sub],对应编辑操作代价向量即为[cIns,cMat,cSub,cSub,cSub]。
S144、对编辑元素序列ElementsA中每个元素计算编辑元素距离,从而得到编辑元素距离向量DisA。具体的,进行Mat、Ins、Del操作的编辑元素距离为1,进行Sub操作的编辑元素距离为simcos(w1,w2)。其中,simcos(w1,w2)为词w1和词w2的余弦相似度,可以表示为
Figure BDA0001742777920000081
例如,编辑元素序列ElementsA为[如何,申请,内购→中兴,中兴→产品,手机→内购],对应的编辑元素距离向量DisA为[1,1,0.218,0.294,0.511]。
S145、根据编辑操作代价向量ActionA和对应的编辑元素距离向量DisA,计算两文本间的改进编辑距离
Figure BDA0001742777920000082
作为基于有序编辑距离的语义特征。
例如,编辑操作代价向量为[cIns,cMat,cSub,cSub,cSub],对应的编辑元素距离向量为[1,1,0.218,0.294,0.511],则有:
cA=1*cIns+1*cMat+1*cIns+0.218*cSub+0.294*cSub+0.511*cSub
S15、根据所述编辑距离和词袋模型,计算文本对之间的第二改进编辑距离,作为基于无序编辑距离的语义特征;
在本实施例中,第二改进编辑距离cB中定义的编辑操作包括:匹配(Mat)、***(Ins)、删除(Del),分别对应的操作代价为cMat、cIns、cDel。具体计算步骤如下:
S151、对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。
S152、将词序列t1和t2中所有不重复的词加入到集合中,构成词袋BOW。
例如,针对t1=[申请|内购|中兴|手机]和t2=[如何|申请|中兴|产品|内购],得到的词袋BOW为[如何|申请|内购|中兴|手机|产品]。
S153、根据词袋BOW和t1、t2,计算t1到t2的编辑距离。计算方式为:对词袋BOW中某词w,如t1中存在该词或其同义词,如t2中存在该词或其同义词,则记操作Mat;如t1中存在该词或其同义词,如t2中不存在该词或其同义词,则记操作Del;t1中不存在该词或其同义词,如t2中存在该词或其同义词,则记操作Ins。对词袋BOW中所有词依次执行上述操作后,可以得到编辑路径PathB,进而得到相应的编辑操作代价向量ActionB
例如,t1=[申请|内购|中兴|手机]到t2=[如何|申请|中兴|产品|内购]的编辑路径PathB为[Ins,Mat,Mat,Mat,Del,Ins],则编辑操作代价向量ActionB为[cIns,cMat,cMat,cMat,cDel,cIns]。
S154、将编辑操作代价向量ActionB中所有元素加和,得到两文本间的第二改进编辑距离cB,作为基于无序编辑距离的语义特征。
例如,对编辑操作代价向量ActionB=[cIns,cMat,cMat,cMat,cDel,cIns],cB=cIns+cMat+cMat+cMat+cDel+cIns
S16、根据所述词向量矩阵,计算文本对之间的词义距离,作为基于词义距离的语义特征;
在本步骤中,首先,对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。假设t1包含的词为
Figure BDA0001742777920000091
t2包含的词为其次,计算词
Figure BDA0001742777920000093
与词之间的词义距离
Figure BDA0001742777920000095
其中,以
Figure BDA0001742777920000096
为例,下标m表示t1词序列的总数,上标1表示该词属于t1,序列,同理,表示,下标n表示t2词序列的总数,上标2表示该词属于t2,从而定义t1中词
Figure BDA0001742777920000098
与t2的词义距离为
Figure BDA0001742777920000099
t2中词
Figure BDA00017427779200000910
与t1的词义距离为
Figure BDA00017427779200000911
最后,计算两文本间的词义相似度
Figure BDA00017427779200000912
作为基于词义距离的语义特征。
S17、对文本对进行依存句法分析,计算文本对之间的句法距离,作为基于依存关系的句法特征。
在本步骤中,首先,对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。其次,使用通用方法(如StanfordNLP、FNLP等工具),对t1和t2分别进行依存句法分析,并分别计算t1和t2中有效词搭配对的数量,记为p1和p2。其中,有效搭配对,指句中核心词和直接依存于它的有效词组成的搭配对。核心词,即句子经依存句法分析后得到的全句中唯一的核心词汇;有效词,即句子经依存句法分析后的名词、动词和形容词。
例如,针对t1=[申请|内购|中兴|手机],经依存句法分析后,核心词为“内购”,与之直接依存的词有“申请”“手机”,且这两个词都是有效词,因此,t1的有效搭配对数量为2。根据为p1和p2计算两文本间的句法结构距离cD=|p1-p2|,作为基于依存关系的句法特征。
如图3所示,在本实施例中,所述步骤S40包括:
S41、获取目标文本对,获取所述目标文本对的数值特征,构成目标文本对的特征向量;
S42、将所述目标文本对的特征向量代入所述预测模型,获得所述目标文本对的相似度得分。
在本实施例中,首先搭建训练用的网络结构,然后根据上节得到的样本特征矩阵X和预测向量y进行模型训练,最后保存模型用于后续的在线获取。
其中,网络结构采用多层感知机(MLP,Multi-layer Perceptron),利用样本特征矩阵X和预测向量y,使用通用方法,对上述网络结构进行模型训练。
训练后,得到的模型参数记为W1*、b1*、W2*、b2*,其中,W1*表示MLP中第一层的连接权重,b1*为MLP中第二层的偏置,W2*为MLP中第二层的连接权重,b2*为MLP中第二层的偏置,则预测模型可以表示为
Figure BDA0001742777920000101
其中xT为待预测样本的特征向量,g1为MLP中第一层的非线性激活函数,g2为MLP中第二层的非线性激活函数,xT为目标文本对的特征向量。
在本实施例中,针对输入***的目标文本对t1和t2,根据上述数值特征的计算步骤,依次计算出文本对的四个数值特征cA、cB、cC、cD,构成目标文本对的特征向量xT=[cA,cB,cC,cD]。
将上述目标文本对的特征向量代入预测模型,即可得到目标文本对t1和t2的相似度得分:
Figure BDA0001742777920000102
实施例二
如图4所示,在本实施例中,一种获取文本相似度的装置,包括:
训练模块10,用于根据文本对数据集得到所述文本对的数值特征;
矩阵构造模块20,用于通过所述文本对的数值特征构造样本特征矩阵;
预测模块30,用于根据所述样本特征矩阵和预测向量进行模型训练,得到预测模型;
在线获取模块40,用于获取目标文本对,根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。
在本实施例中,通过获取文本对的多个数值特征,兼顾语义和句法结构,来判断文本相似度,考虑了文本间包含词义、编辑距离、词袋模型等特征在内的语义相似度,还考虑了包含句法结构的语法相似度,并将语义与句法相结合,使用神经网络进行了更高层面的特征抽取,具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点,提高了用户体验。
在本实施例中,首先要准备大量已标注文本对数据作为训练语料;训练语料中每个样本,为一组文本对与对应的标注相似度得分,可形式化表述为[text1;text2;score],其中text1和text2为进行相似度计算的文本对,score为标注的相似度得分。标注得分可以来源于人工标注,亦可来源于其它先验信息,如问答***中用户对***本次答复的满意程度、检索***中用户对***本次排列信息的浏览情况等。所有样本保存在文件originalData.txt中,每行为一个训练样本,每个训练样本中text1、text2、score之间可通过制表符tab进行分割。其中,标注相似度得分score为0到1之间的实数,数字越大表示文本对之间相似度越高,反之亦然;特别地,score为0表示文本对完全不相关,score为1表示文本对完全相同。根据来源不同,score的精度不固定,如来源于人工标注可能多为0.3,0.6等一位精度小数,如来源于其他应用***可能多为0.563,0.8192等多位精度小数。
在本实施例中,文件originalData.txt形式如下:
我想问下在哪里可以购入中兴手机、中兴手机在哪里购买、0.769
中兴公司在南京市雨花台区、南京雨花台区的中兴通讯公司、0.816
智能问答***团队又出新成果、智能问答领域日新月异、0.324
办理***的渠道有哪些、借记卡申请的方式、0.814。
在本实施例中,假设训练语料文件共M行文本对,且针对训练语料中的每个文本对得到N个数值特征,则从训练语料中抽取出的样本特征矩阵可以表示为X∈RM×N。针对训练语料中的每个文本对将其标注相似度得分作为该样本的预测值,可以从训练语料中抽取出预测向量y∈RM×1。因此,训练数据集可以表示为D=[X,y]。
在本实施例中,所述数值特征包括:基于有序编辑距离的语义特征,基于无序编辑距离的语义特征,基于词义距离的语义特征,基于依存关系的句法特征。
在本实施例中,除了有序编辑距离,还考虑了无序词语的移动距离,这对简单颠倒语序的文本具有更强的适应性,可大大提升***召回率。而且,本实施例还根据语句中的有效依存配对数来计算句法相似度,可以更好的衡量句中核心词和与其存在依赖关系的词的数量。
如图5所示,在本实施例中,所述训练模块包括:
获取单元11,用于获取训练语料文件,所述训练语料文件包括若干组文本对及每组文本对的相似度得分;
提取单元12,用于根据所述训练语料文件得到训练数据集;
词向量获取单元13,用于从所述训练数据集中得到词向量矩阵;
在本实施例中,词向量训练方法采用业界通用的方式即可,这里采用Word2Vec方法,具体步骤如下:
S131、由文件originalData.txt生成新的训练语料文件originalDataForWord2Vec.txt:对文件originalData.txt中每行样本只获取text1和text2,然后将text1和text2分为两行存储。
语料文件originalDataForWord2Vec.txt形式如下:
我想问下在哪里可以购入中兴手机
中兴手机在哪里购买
中兴公司在南京市雨花台区
南京雨花台区的中兴通讯公司
智能问答***团队又出新成果
智能问答领域日新月异
办理***的渠道有哪些
借记卡申请的方式
S132、采用word2vec进行词向量训练,向量长度记为dw(比如dw=400)。
S133、将训练得到的wordv2ec模型记为矩阵
Figure BDA0001742777920000131
其中V为语料文件中所有词汇构成的词汇表,|V|为该词汇表中的词汇个数,
Figure BDA0001742777920000132
表示|V|行dw列的实数矩阵。
S134、单词w由该模型得到的词向量可以表示为
Figure BDA0001742777920000133
其中,
Figure BDA0001742777920000134
表示词向量为1行dw列的矩阵,其中,w为变量,可以指代任意单词,如“中兴”。
有序编辑距离获取单元14,用于根据所述词向量矩阵和编辑距离,获取文本对之间的第一改进编辑距离,作为基于有序编辑距离的语义特征;
在本实施例中,第一改进编辑距离cA中定义的编辑操作包括:匹配(Mat)、***(Ins)、删除(Del)、替换(Sub),分别对应的操作代价为cMat、cIns、cDel、cSub。具体计算步骤如下:
S141、对文本text1和text2,分别进行分词、去停止词操作后,得到词序列t1和t2。
例如,text1为“我想申请内购中兴手机了”,分词后为[我|想|申请|内购|中兴|手机|了],去掉停用词后,得到词序列t1为[申请|内购|中兴|手机];text2为“如何申请一下中兴产品的内购呢”,分词后为[如何|申请|一下|中兴|产品|的|内购|呢],去掉停用词后,得到词序列t2为[如何|申请|中兴|产品|内购]。其中,“我”“想”“了”“一下”“的”“呢”均为停止词。
S142、使用通用方法(如基于动态规划的方法)计算词序列t1到词序列t2的编辑路径PathA和对应编辑元素序列ElementsA
例如,使用通用方法可以计算出t1=[申请|内购|中兴|手机]到t2=[如何|申请|中兴|产品|内购]的编辑路径PathA为[Ins,Mat,Sub,Sub,Sub],对应编辑元素序列ElementsA为[如何,申请,内购→中兴,中兴→产品,手机→内购]。其中,无箭头表示Mat、Ins、Del操作,有箭头表示Sub操作。
S143、对编辑路径PathA得到相应的编辑操作代价向量ActionA。具体的,将所有编辑操作换成对应的操作代价,形成编辑操作代价向量即可。
例如,编辑路径PathA为[Ins,Mat,Sub,Sub,Sub],对应编辑操作代价向量即为[cIns,cMat,cSub,cSub,cSub]。
S144、对编辑元素序列ElementsA中每个元素计算编辑元素距离,从而得到编辑元素距离向量DisA。具体的,进行Mat、Ins、Del操作的编辑元素距离为1,进行Sub操作的编辑元素距离为simcos(w1,w2)。其中,simcos(w1,w2)为词w1和词w2的余弦相似度,可以表示为
Figure BDA0001742777920000141
例如,编辑元素序列ElementsA为[如何,申请,内购→中兴,中兴→产品,手机→内购],对应的编辑元素距离向量DisA为[1,1,0.218,0.294,0.511]。
S145、根据编辑操作代价向量ActionA和对应的编辑元素距离向量DisA,计算两文本间的改进编辑距离
Figure BDA0001742777920000142
作为基于有序编辑距离的语义特征。
例如,编辑操作代价向量为[cIns,cMat,cSub,cSub,cSub],对应的编辑元素距离向量为[1,1,0.218,0.294,0.511],则有:
cA=1*cIns+1*cMat+1*cIns+0.218*cSub+0.294*cSub+0.511*cSub
无序编辑距离获取单元15,用于根据所述编辑距离和词袋模型,获取文本对之间的第二改进编辑距离,作为基于无序编辑距离的语义特征;
在本实施例中,第二改进编辑距离cB中定义的编辑操作包括:匹配(Mat)、***(Ins)、删除(Del),分别对应的操作代价为cMat、cIns、cDel。具体计算步骤如下:
S151、对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。
S152、将词序列t1和t2中所有不重复的词加入到集合中,构成词袋BOW。
例如,针对t1=[申请|内购|中兴|手机]和t2=[如何|申请|中兴|产品|内购],得到的词袋BOW为[如何|申请|内购|中兴|手机|产品]。
S153、根据词袋BOW和t1、t2,计算t1到t2的编辑距离。计算方式为:对词袋BOW中某词w,如t1中存在该词或其同义词,如t2中存在该词或其同义词,则记操作Mat;如t1中存在该词或其同义词,如t2中不存在该词或其同义词,则记操作Del;t1中不存在该词或其同义词,如t2中存在该词或其同义词,则记操作Ins。对词袋BOW中所有词依次执行上述操作后,可以得到编辑路径PathB,进而得到相应的编辑操作代价向量ActionB
例如,t1=[申请|内购|中兴|手机]到t2=[如何|申请|中兴|产品|内购]的编辑路径PathB为[Ins,Mat,Mat,Mat,Del,Ins],则编辑操作代价向量ActionB为[cIns,cMat,cMat,cMat,cDel,cIns]。
S154、将编辑操作代价向量ActionB中所有元素加和,得到两文本间的第二改进编辑距离cB,作为基于无序编辑距离的语义特征。
例如,对编辑操作代价向量ActionB=[cIns,cMat,cMat,cMat,cDel,cIns],cB=cIns+cMat+cMat+cMat+cDel+cIns
词义距离获取单元16,用于根据所述词向量矩阵,获取文本对之间的词义距离,作为基于词义距离的语义特征;
在本实施例中,首先,对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。假设t1包含的词为t2包含的词为其次,计算词
Figure BDA0001742777920000153
与词
Figure BDA0001742777920000154
之间的词义距离
Figure BDA0001742777920000155
其中,以
Figure BDA0001742777920000156
为例,下标m表示t1词序列的总数,上标1表示该词属于t1,序列,同理,
Figure BDA0001742777920000157
表示,下标n表示t2词序列的总数,上标2表示该词属于t2,从而定义t1中词
Figure BDA0001742777920000158
与t2的词义距离为
Figure BDA0001742777920000159
t2中词
Figure BDA00017427779200001510
与t1的词义距离为
Figure BDA00017427779200001511
最后,计算两文本间的词义相似度
Figure BDA00017427779200001512
作为基于词义距离的语义特征。
句法距离获取单元17,用于对文本对进行依存句法分析,获取文本对之间的句法距离,作为基于依存关系的句法特征。
在本实施例中,首先,对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。其次,使用通用方法(如StanfordNLP、FNLP等工具),对t1和t2分别进行依存句法分析,并分别计算t1和t2中有效词搭配对的数量,记为p1和p2。其中,有效搭配对,指句中核心词和直接依存于它的有效词组成的搭配对。核心词,即句子经依存句法分析后得到的全句中唯一的核心词汇;有效词,即句子经依存句法分析后的名词、动词和形容词。
例如,针对t1=[申请|内购|中兴|手机],经依存句法分析后,核心词为“内购”,与之直接依存的词有“申请”“手机”,且这两个词都是有效词,因此,t1的有效搭配对数量为2。根据为p1和p2计算两文本间的句法结构距离cD=|p1-p2|,作为基于依存关系的句法特征。
如图6所示,在本实施例中,所述在线获取模块包括:
特征向量获取单元41,用于获取目标文本对,计算所述目标文本对的数值特征,构成目标文本对的特征向量;
相似度获取单元42,用于将所述目标文本对的特征向量代入所述预测模型,获得所述目标文本对的相似度得分。
在本实施例中,首先搭建训练用的网络结构,然后根据上节得到的样本特征矩阵X和预测向量y进行模型训练,最后保存模型用于后续的在线计算。
其中,网络结构采用多层感知机(MLP),利用样本特征矩阵X和预测向量y,使用通用方法,对上述网络结构进行模型训练。
训练后,得到的模型参数记为W1*、b1*、W2*、b2*,则预测模型可以表示为
Figure BDA0001742777920000161
其中xT为待预测样本的特征向量。
在本实施例中,针对输入***的目标文本对t1和t2,根据上述数值特征的计算步骤,依次计算出文本对的四个数值特征cA、cB、cC、cD,构成目标文本对的特征向量xT=[cA,cB,cC,cD]。
将上述目标文本对的特征向量代入预测模型,即可得到目标文本对t1和
t2的相似度得分:
Figure BDA0001742777920000171
实施例三
在本实施例中,一种电子设备,包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行实施例一所述的获取文本相似度的方法。
实施例四
本发明实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述获取文本相似度的方法实施例中任一所述的方法实施例。
需要说明的是,上述装置、设备实和可读存储介质实施例与方法实施例属于同一构思,其具体实现过程详见方法实施例,且方法实施例中的技术特征在装置实施例中均对应适用,这里不再赘述。
本发明实施例的一种获取文本相似度的方法、装置、设备及可读存储介质,该方法包括:根据文本对数据集得到所述文本对的数值特征;通过所述文本对的数值特征构造样本特征矩阵;根据所述样本特征矩阵和预测向量进行模型训练,得到预测模型;获取目标文本对,根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分;通过获取文本对的多个数值特征,兼顾语义和句法结构,来判断文本相似度,具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点,提高了用户体验。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

Claims (10)

1.一种获取文本相似度的方法,其特征在于,包括:
根据文本对数据集得到所述文本对的数值特征;
通过所述文本对的数值特征构造样本特征矩阵;
根据所述样本特征矩阵和预测向量进行模型训练,得到预测模型;
获取目标文本对,根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。
2.根据权利要求1所述的一种获取文本相似度的方法,其特征在于,所述数值特征包括:基于有序编辑距离的语义特征,基于无序编辑距离的语义特征,基于词义距离的语义特征,基于依存关系的句法特征。
3.根据权利要求2所述的一种获取文本相似度的方法,其特征在于,所述根据文本对数据集得到所述文本对的数值特征包括:
获取训练语料文件,所述训练语料文件包括若干组文本对及每组文本对的相似度得分;
根据所述训练语料文件得到训练数据集;
从所述训练数据集中得到词向量矩阵;
根据所述词向量矩阵和编辑距离,获取文本对之间的第一改进编辑距离,作为基于有序编辑距离的语义特征;
根据所述编辑距离和词袋模型,获取文本对之间的第二改进编辑距离,作为基于无序编辑距离的语义特征;
根据所述词向量矩阵,获取文本对之间的词义距离,作为基于词义距离的语义特征;
对文本对进行依存句法分析,获取文本对之间的句法距离,作为基于依存关系的句法特征。
4.根据权利要求3所述的一种获取文本相似度的方法,其特征在于,所述获取目标文本对,根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分包括:
获取目标文本对,获取所述目标文本对的数值特征,构成目标文本对的特征向量;
将所述目标文本对的特征向量代入所述预测模型,获得所述目标文本对的相似度得分。
5.一种获取文本相似度的装置,其特征在于,包括:
训练模块,用于根据文本对数据集得到所述文本对的数值特征;
矩阵构造模块,用于通过所述文本对的数值特征构造样本特征矩阵;
预测模块,用于根据所述样本特征矩阵和预测向量进行模型训练,得到预测模型;
在线获取模块,用于获取目标文本对,根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。
6.根据权利要求1所述的一种获取文本相似度的装置,其特征在于,所述数值特征包括:基于有序编辑距离的语义特征,基于无序编辑距离的语义特征,基于词义距离的语义特征,基于依存关系的句法特征。
7.根据权利要求6所述的一种获取文本相似度的装置,其特征在于,所述训练模块包括:
获取单元,用于获取训练语料文件,所述训练语料文件包括若干组文本对及每组文本对的相似度得分;
提取单元,用于根据所述训练语料文件得到训练数据集;
词向量获取单元,用于从所述训练数据集中得到词向量矩阵;
有序编辑距离获取单元,用于根据所述词向量矩阵和编辑距离,获取文本对之间的第一改进编辑距离,作为基于有序编辑距离的语义特征;
无序编辑距离获取单元,用于根据所述编辑距离和词袋模型,获取文本对之间的第二改进编辑距离,作为基于无序编辑距离的语义特征;
词义距离获取单元,用于根据所述词向量矩阵,获取文本对之间的词义距离,作为基于词义距离的语义特征;
句法距离获取单元,用于对文本对进行依存句法分析,获取文本对之间的句法距离,作为基于依存关系的句法特征。
8.根据权利要求7所述的一种获取文本相似度的装置,其特征在于,所述在线获取模块包括:
特征向量获取单元,用于获取目标文本对,获取所述目标文本对的数值特征,构成目标文本对的特征向量;
相似度获取单元,用于将所述目标文本对的特征向量代入所述预测模型,获得所述目标文本对的相似度得分。
9.一种电子设备,包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,其特征在于,所述应用程序被配置为用于执行权利要求1-4任一项所述的获取文本相似度的方法。
10.一种可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-4任一所述的获取文本相似度的方法。
CN201810827262.3A 2018-07-25 2018-07-25 一种获取文本相似度的方法、装置、设备及可读存储介质 Pending CN110852056A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810827262.3A CN110852056A (zh) 2018-07-25 2018-07-25 一种获取文本相似度的方法、装置、设备及可读存储介质
PCT/CN2019/097691 WO2020020287A1 (zh) 2018-07-25 2019-07-25 一种获取文本相似度的方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810827262.3A CN110852056A (zh) 2018-07-25 2018-07-25 一种获取文本相似度的方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN110852056A true CN110852056A (zh) 2020-02-28

Family

ID=69181349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810827262.3A Pending CN110852056A (zh) 2018-07-25 2018-07-25 一种获取文本相似度的方法、装置、设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN110852056A (zh)
WO (1) WO2020020287A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400584A (zh) * 2020-03-16 2020-07-10 南方科技大学 联想词的推荐方法、装置、计算机设备和存储介质
WO2022116436A1 (zh) * 2020-12-01 2022-06-09 平安科技(深圳)有限公司 长短句文本语义匹配方法、装置、计算机设备及存储介质
CN117573815A (zh) * 2024-01-17 2024-02-20 之江实验室 一种基于向量相似度匹配优化的检索增强生成方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460783B (zh) * 2020-03-30 2021-07-27 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111626039A (zh) * 2020-05-26 2020-09-04 深圳壹账通智能科技有限公司 文本相似度识别模型的训练方法、装置及相关设备
CN112395886B (zh) * 2021-01-19 2021-04-13 深圳壹账通智能科技有限公司 相似文本确定方法及相关设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
CN107729300B (zh) * 2017-09-18 2021-12-24 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN108090047B (zh) * 2018-01-10 2022-05-24 华南师范大学 一种文本相似度的确定方法及设备
CN108170684B (zh) * 2018-01-22 2020-06-05 京东方科技集团股份有限公司 文本相似度计算方法及***、数据查询***和计算机产品

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400584A (zh) * 2020-03-16 2020-07-10 南方科技大学 联想词的推荐方法、装置、计算机设备和存储介质
WO2022116436A1 (zh) * 2020-12-01 2022-06-09 平安科技(深圳)有限公司 长短句文本语义匹配方法、装置、计算机设备及存储介质
CN117573815A (zh) * 2024-01-17 2024-02-20 之江实验室 一种基于向量相似度匹配优化的检索增强生成方法
CN117573815B (zh) * 2024-01-17 2024-04-30 之江实验室 一种基于向量相似度匹配优化的检索增强生成方法

Also Published As

Publication number Publication date
WO2020020287A1 (zh) 2020-01-30

Similar Documents

Publication Publication Date Title
CN110852056A (zh) 一种获取文本相似度的方法、装置、设备及可读存储介质
CN109522553B (zh) 命名实体的识别方法及装置
CN110377740B (zh) 情感极性分析方法、装置、电子设备及存储介质
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
US11163936B2 (en) Interactive virtual conversation interface systems and methods
US10795921B2 (en) Determining answers to questions using a hierarchy of question and answer pairs
CN110321537B (zh) 一种文案生成方法和装置
CN109325146B (zh) 一种视频推荐方法、装置、存储介质和服务器
CN110991187A (zh) 一种实体链接的方法、装置、电子设备及介质
CN107562925B (zh) 用于推荐文章的方法、设备和电子设备
CN107918778B (zh) 一种信息匹配方法及相关装置
CN112528010B (zh) 知识推荐方法、装置、计算机设备及可读存储介质
CN112364204A (zh) 视频搜索方法、装置、计算机设备及存储介质
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN113032520A (zh) 信息分析方法及装置、电子设备和计算机可读存储介质
CN111538830A (zh) 法条检索方法、装置、计算机设备及存储介质
CN117609444B (zh) 一种基于大模型的搜索问答方法
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN112800209A (zh) 会话语料推荐方法、装置、存储介质和电子设备
CN112541069A (zh) 一种结合关键词的文本匹配方法、***、终端及存储介质
CN115905472A (zh) 商机业务处理方法、装置、服务器及计算机可读存储介质
CN116662523B (zh) 一种基于gpt模型的生化知识问答方法、***及存储介质
CN113505246B (zh) 数据处理方法、装置、终端设备以及存储介质
CN115374372B (zh) 网络社区虚假信息快速识别方法及装置、设备、存储介质
CN110502698B (zh) 一种信息推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination