CN110852056A

CN110852056A - 一种获取文本相似度的方法、装置、设备及可读存储介质

Info

Publication number: CN110852056A
Application number: CN201810827262.3A
Authority: CN
Inventors: 李鹏
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2020-02-28
Also published as: WO2020020287A1

Abstract

本文公开了一种获取文本相似度的方法、装置、设备及可读存储介质，属于通信技术领域，该方法包括：根据文本对数据集得到所述文本对的数值特征；通过所述文本对的数值特征构造样本特征矩阵；根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分；通过获取文本对的多个数值特征，兼顾语义和句法结构，来判断文本相似度，具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点，提高了用户体验。

Description

一种获取文本相似度的方法、装置、设备及可读存储介质

技术领域

本文涉及通信技术领域，尤其涉及一种获取文本相似度的方法、装置、设备及可读存储介质。

背景技术

在信息***的时代下，人们对从海量信息中快速准确获取所需内容的需求与日俱增，为实现这一需求，许多应用应运而生，如信息检索、智能问答、文献查重、个性推荐等，在这些应用背后，文本相似度计算技术是关键的核心技术之一。

文本相似度在不同领域被广泛讨论，由于应用场景不同，其内涵有所差异，故没有统一、公认的定义。从信息论的角度来看，文本相似度与文本之间的共性和差异有关，共性越大、差异越小，则文本间的相似度越高；反之，共性越小、差异越大，则文本间的相似度越低。

发明内容

本文在于提供一种获取文本相似度的方法、装置、设备及可读存储介质,通过获取文本对的多个数值特征，兼顾语义和句法结构，来判断文本相似度，具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点，提高了用户体验。

本文解决上述技术问题所采用的技术方案如下：

根据本文的一个方面，提供的一种获取文本相似度的方法，包括：

根据文本对数据集得到所述文本对的数值特征；

通过所述文本对的数值特征构造样本特征矩阵；

根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；

获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。

可选地，所述数值特征包括：基于有序编辑距离的语义特征，基于无序编辑距离的语义特征，基于词义距离的语义特征，基于依存关系的句法特征。

可选地，所述根据文本对数据集得到所述文本对的数值特征包括：

获取训练语料文件，所述训练语料文件包括若干组文本对及每组文本对的相似度得分；

根据所述训练语料文件得到训练数据集；

从所述训练数据集中得到词向量矩阵；

根据所述词向量矩阵和编辑距离，获取文本对之间的第一改进编辑距离，作为基于有序编辑距离的语义特征；

根据所述编辑距离和词袋模型，获取文本对之间的第二改进编辑距离，作为基于无序编辑距离的语义特征；

根据所述词向量矩阵，获取文本对之间的词义距离，作为基于词义距离的语义特征；

对文本对进行依存句法分析，获取文本对之间的句法距离，作为基于依存关系的句法特征。

可选地，所述获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分包括：

获取目标文本对，获取所述目标文本对的数值特征，构成目标文本对的特征向量；

将所述目标文本对的特征向量代入所述预测模型，获得所述目标文本对的相似度得分。

根据本发明的另一个方面，提供的一种获取文本相似度的装置，包括：

训练模块，用于根据文本对数据集得到所述文本对的数值特征；

矩阵构造模块，用于通过所述文本对的数值特征构造样本特征矩阵；

预测模块，用于根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；

在线获取模块，用于获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。

可选地，所述训练模块包括：

获取单元，用于获取训练语料文件，所述训练语料文件包括若干组文本对及每组文本对的相似度得分；

提取单元，用于根据所述训练语料文件得到训练数据集；

词向量获取单元，用于从所述训练数据集中得到词向量矩阵；

有序编辑距离获取单元，用于根据所述词向量矩阵和编辑距离，获取文本对之间的第一改进编辑距离，作为基于有序编辑距离的语义特征；

无序编辑距离获取单元，用于根据所述编辑距离和词袋模型，获取文本对之间的第二改进编辑距离，作为基于无序编辑距离的语义特征；

词义距离获取单元，用于根据所述词向量矩阵，获取文本对之间的词义距离，作为基于词义距离的语义特征；

句法距离获取单元，用于对文本对进行依存句法分析，获取文本对之间的句法距离，作为基于依存关系的句法特征。

可选地，所述在线获取模块包括：

特征向量获取单元，用于获取目标文本对，获取所述目标文本对的数值特征，构成目标文本对的特征向量；

相似度获取单元，用于将所述目标文本对的特征向量代入所述预测模型，获得所述目标文本对的相似度得分。

根据本文的再一个方面，提供的一种电子设备，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行以上所述的获取文本相似度的方法。

根据本文的再一个方面，提供的一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以上所述的获取文本相似度的方法。

本发明实施例的一种获取文本相似度的方法、装置、设备及可读存储介质，该方法包括：根据文本对数据集得到所述文本对的数值特征；通过所述文本对的数值特征构造样本特征矩阵；根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分；通过获取文本对的多个数值特征，兼顾语义和句法结构，来判断文本相似度，具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点，提高了用户体验。

附图说明

图1为本发明实施例一提供的一种获取文本相似度的方法流程图；

图2为图1中步骤S10的一种方法流程图；

图3为图1中步骤S40的一种方法流程图；

图4为本发明实施例二提供的一种获取文本相似度的装置示范性结构框图；

图5为图4中训练模块的示范性结构框图；

图6为图4中在线获取模块模块的示范性结构框图。

本文目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本文所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本文进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本文，并不用于限定本文。

实施例一

如图1所示，在本实施例中，一种获取文本相似度的方法，包括：

S10、根据文本对数据集得到所述文本对的数值特征；

S20、通过所述文本对的数值特征构造样本特征矩阵；

S30、根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；

S40、获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。

在本实施例中，通过获取文本对的多个数值特征，兼顾语义和句法结构，来判断文本相似度，考虑了文本间包含词义、编辑距离、词袋模型等特征在内的语义相似度，还考虑了包含句法结构的语法相似度，并将语义与句法相结合，使用神经网络进行了更高层面的特征抽取，具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点，提高了用户体验。

在步骤S10中，首先要准备大量已标注文本对数据作为训练语料；训练语料中每个样本，为一组文本对与对应的标注相似度得分，可形式化表述为[text1；text2；score]，其中text1和text2为进行相似度获取的文本对，score为标注的相似度得分。标注得分可以来源于人工标注，亦可来源于其它先验信息，如问答***中用户对***本次答复的满意程度、检索***中用户对***本次排列信息的浏览情况等。所有样本保存在文件originalData.txt中，每行为一个训练样本，每个训练样本中text1、text2、score之间可通过制表符tab进行分割。其中，标注相似度得分score为0到1之间的实数，数字越大表示文本对之间相似度越高，反之亦然；特别地，score为0表示文本对完全不相关，score为1表示文本对完全相同。根据来源不同，score的精度不固定，如来源于人工标注可能多为0.3,0.6等一位精度小数，如来源于其他应用***可能多为0.563,0.8192等多位精度小数。

在本实施例中，文件originalData.txt形式如下：

我想问下在哪里可以购入中兴手机、中兴手机在哪里购买、0.769

中兴公司在南京市雨花台区、南京雨花台区的中兴通讯公司、0.816

智能问答***团队又出新成果、智能问答领域日新月异、0.324

办理***的渠道有哪些、借记卡申请的方式、0.814。

在本实施例中，假设训练语料文件共M行文本对，且针对训练语料中的每个文本对得到N个数值特征，则从训练语料中抽取出的样本特征矩阵可以表示为X∈R^M×N。针对训练语料中的每个文本对将其标注相似度得分作为该样本的预测值，可以从训练语料中抽取出预测向量y∈R^M×1。因此，训练数据集可以表示为D＝[X,y]。

在本实施例中，所述数值特征包括：基于有序编辑距离的语义特征，基于无序编辑距离的语义特征，基于词义距离的语义特征，基于依存关系的句法特征。

在本实施例中，除了有序编辑距离，还考虑了无序词语的移动距离，这对简单颠倒语序的文本具有更强的适应性，可大大提升***召回率。而且，本实施例还根据语句中的有效依存配对数来获取句法相似度，可以更好的衡量句中核心词和与其存在依赖关系的词的数量。

如图2所示，在本实施例中，所述步骤S10包括：

S11、获取训练语料文件，所述训练语料文件包括若干组文本对及每组文本对的相似度得分；

S12、根据所述训练语料文件得到训练数据集；

S13、从所述训练数据集中得到词向量矩阵；

在本实施例中，词向量训练方法采用业界通用的方式即可，这里采用Word2Vec方法，具体步骤如下：

S131、由文件originalData.txt生成新的训练语料文件originalDataForWord2Vec.txt：对文件originalData.txt中每行样本只获取text1和text2，然后将text1和text2分为两行存储。

语料文件originalDataForWord2Vec.txt形式如下：

我想问下在哪里可以购入中兴手机

中兴手机在哪里购买

中兴公司在南京市雨花台区

南京雨花台区的中兴通讯公司

智能问答***团队又出新成果

智能问答领域日新月异

办理***的渠道有哪些

借记卡申请的方式

S132、采用word2vec进行词向量训练，向量长度记为d_w(比如d_w＝400)。

S133、将训练得到的wordv2ec模型记为矩阵

其中V为语料文件中所有词汇构成的词汇表，|V|为该词汇表中的词汇个数，表示|V|行d_w列的实数矩阵。

S134、单词w由该模型得到的词向量可以表示为

其中，

表示词向量为1行d_w列的矩阵，其中，w为变量，可以指代任意单词，如“中兴”。

S14、根据所述词向量矩阵和编辑距离，获取文本对之间的第一改进编辑距离，作为基于有序编辑距离的语义特征；

在本实施例中，第一改进编辑距离c_A中定义的编辑操作包括：匹配(Mat)、***(Ins)、删除(Del)、替换(Sub)，分别对应的操作代价为c_Mat、c_Ins、c_Del、c_Sub。具体计算步骤如下：

S141、对文本text1和text2，分别进行分词、去停止词操作后，得到词序列t1和t2。

例如，text1为“我想申请内购中兴手机了”，分词后为[我|想|申请|内购|中兴|手机|了]，去掉停用词后，得到词序列t1为[申请|内购|中兴|手机]；text2为“如何申请一下中兴产品的内购呢”，分词后为[如何|申请|一下|中兴|产品|的|内购|呢]，去掉停用词后，得到词序列t2为[如何|申请|中兴|产品|内购]。其中，“我”“想”“了”“一下”“的”“呢”均为停止词。

S142、使用通用方法(如基于动态规划的方法)计算词序列t1到词序列t2的编辑路径Path_A和对应编辑元素序列Elements_A。

例如，使用通用方法可以计算出t1＝[申请|内购|中兴|手机]到t2＝[如何|申请|中兴|产品|内购]的编辑路径Path_A为[Ins,Mat,Sub,Sub,Sub]，对应编辑元素序列Elements_A为[如何,申请,内购→中兴,中兴→产品,手机→内购]。其中，无箭头表示Mat、Ins、Del操作，有箭头表示Sub操作。

S143、对编辑路径Path_A得到相应的编辑操作代价向量Action_A。具体的，将所有编辑操作换成对应的操作代价，形成编辑操作代价向量即可。

例如，编辑路径Path_A为[Ins,Mat,Sub,Sub,Sub]，对应编辑操作代价向量即为[c_Ins,c_Mat,c_Sub,c_Sub,c_Sub]。

S144、对编辑元素序列Elements_A中每个元素计算编辑元素距离，从而得到编辑元素距离向量Dis_A。具体的，进行Mat、Ins、Del操作的编辑元素距离为1，进行Sub操作的编辑元素距离为sim_cos(w₁,w₂)。其中，sim_cos(w₁,w₂)为词w₁和词w₂的余弦相似度，可以表示为

例如，编辑元素序列Elements_A为[如何,申请,内购→中兴,中兴→产品,手机→内购]，对应的编辑元素距离向量Dis_A为[1,1,0.218,0.294,0.511]。

S145、根据编辑操作代价向量Action_A和对应的编辑元素距离向量Dis_A，计算两文本间的改进编辑距离

作为基于有序编辑距离的语义特征。

例如，编辑操作代价向量为[c_Ins,c_Mat,c_Sub,c_Sub,c_Sub]，对应的编辑元素距离向量为[1,1,0.218,0.294,0.511]，则有：

c_A＝1*c_Ins+1*c_Mat+1*c_Ins+0.218*c_Sub+0.294*c_Sub+0.511*c_Sub。

S15、根据所述编辑距离和词袋模型，计算文本对之间的第二改进编辑距离，作为基于无序编辑距离的语义特征；

在本实施例中，第二改进编辑距离c_B中定义的编辑操作包括：匹配(Mat)、***(Ins)、删除(Del)，分别对应的操作代价为c_Mat、c_Ins、c_Del。具体计算步骤如下：

S151、对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。

S152、将词序列t1和t2中所有不重复的词加入到集合中，构成词袋BOW。

例如，针对t1＝[申请|内购|中兴|手机]和t2＝[如何|申请|中兴|产品|内购]，得到的词袋BOW为[如何|申请|内购|中兴|手机|产品]。

S153、根据词袋BOW和t1、t2，计算t1到t2的编辑距离。计算方式为：对词袋BOW中某词w，如t1中存在该词或其同义词，如t2中存在该词或其同义词，则记操作Mat；如t1中存在该词或其同义词，如t2中不存在该词或其同义词，则记操作Del；t1中不存在该词或其同义词，如t2中存在该词或其同义词，则记操作Ins。对词袋BOW中所有词依次执行上述操作后，可以得到编辑路径Path_B，进而得到相应的编辑操作代价向量Action_B。

例如，t1＝[申请|内购|中兴|手机]到t2＝[如何|申请|中兴|产品|内购]的编辑路径Path_B为[Ins,Mat,Mat,Mat,Del,Ins]，则编辑操作代价向量Action_B为[c_Ins,c_Mat,c_Mat,c_Mat,c_Del,c_Ins]。

S154、将编辑操作代价向量Action_B中所有元素加和，得到两文本间的第二改进编辑距离c_B，作为基于无序编辑距离的语义特征。

例如，对编辑操作代价向量Action_B＝[c_Ins,c_Mat,c_Mat,c_Mat,c_Del,c_Ins]，c_B＝c_Ins+c_Mat+c_Mat+c_Mat+c_Del+c_Ins。

S16、根据所述词向量矩阵，计算文本对之间的词义距离，作为基于词义距离的语义特征；

在本步骤中，首先，对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。假设t1包含的词为

t2包含的词为其次，计算词

与词之间的词义距离

其中，以

为例，下标m表示t1词序列的总数，上标1表示该词属于t1，序列，同理，表示，下标n表示t2词序列的总数，上标2表示该词属于t2，从而定义t1中词

与t2的词义距离为

t2中词

与t1的词义距离为

最后，计算两文本间的词义相似度

作为基于词义距离的语义特征。

S17、对文本对进行依存句法分析，计算文本对之间的句法距离，作为基于依存关系的句法特征。

在本步骤中，首先，对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。其次，使用通用方法(如StanfordNLP、FNLP等工具)，对t1和t2分别进行依存句法分析，并分别计算t1和t2中有效词搭配对的数量，记为p₁和p₂。其中，有效搭配对，指句中核心词和直接依存于它的有效词组成的搭配对。核心词，即句子经依存句法分析后得到的全句中唯一的核心词汇；有效词，即句子经依存句法分析后的名词、动词和形容词。

例如，针对t1＝[申请|内购|中兴|手机]，经依存句法分析后，核心词为“内购”，与之直接依存的词有“申请”“手机”，且这两个词都是有效词，因此，t1的有效搭配对数量为2。根据为p₁和p₂计算两文本间的句法结构距离c_D＝|p₁-p₂|，作为基于依存关系的句法特征。

如图3所示，在本实施例中，所述步骤S40包括：

S41、获取目标文本对，获取所述目标文本对的数值特征，构成目标文本对的特征向量；

S42、将所述目标文本对的特征向量代入所述预测模型，获得所述目标文本对的相似度得分。

在本实施例中，首先搭建训练用的网络结构，然后根据上节得到的样本特征矩阵X和预测向量y进行模型训练，最后保存模型用于后续的在线获取。

其中，网络结构采用多层感知机(MLP，Multi-layer Perceptron)，利用样本特征矩阵X和预测向量y，使用通用方法，对上述网络结构进行模型训练。

训练后，得到的模型参数记为W^1*、b^1*、W^2*、b^2*，其中，W^1*表示MLP中第一层的连接权重，b^1*为MLP中第二层的偏置，W^2*为MLP中第二层的连接权重，b^2*为MLP中第二层的偏置，则预测模型可以表示为

其中x^T为待预测样本的特征向量，g¹为MLP中第一层的非线性激活函数，g²为MLP中第二层的非线性激活函数，x^T为目标文本对的特征向量。

在本实施例中，针对输入***的目标文本对t1和t2，根据上述数值特征的计算步骤，依次计算出文本对的四个数值特征c_A、c_B、c_C、c_D，构成目标文本对的特征向量x^T＝[c_A,c_B,c_C,c_D]。

将上述目标文本对的特征向量代入预测模型，即可得到目标文本对t1和t2的相似度得分：

实施例二

如图4所示，在本实施例中，一种获取文本相似度的装置，包括：

训练模块10，用于根据文本对数据集得到所述文本对的数值特征；

矩阵构造模块20，用于通过所述文本对的数值特征构造样本特征矩阵；

预测模块30，用于根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；

在线获取模块40，用于获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。

在本实施例中，首先要准备大量已标注文本对数据作为训练语料；训练语料中每个样本，为一组文本对与对应的标注相似度得分，可形式化表述为[text1；text2；score]，其中text1和text2为进行相似度计算的文本对，score为标注的相似度得分。标注得分可以来源于人工标注，亦可来源于其它先验信息，如问答***中用户对***本次答复的满意程度、检索***中用户对***本次排列信息的浏览情况等。所有样本保存在文件originalData.txt中，每行为一个训练样本，每个训练样本中text1、text2、score之间可通过制表符tab进行分割。其中，标注相似度得分score为0到1之间的实数，数字越大表示文本对之间相似度越高，反之亦然；特别地，score为0表示文本对完全不相关，score为1表示文本对完全相同。根据来源不同，score的精度不固定，如来源于人工标注可能多为0.3,0.6等一位精度小数，如来源于其他应用***可能多为0.563,0.8192等多位精度小数。

在本实施例中，文件originalData.txt形式如下：

智能问答***团队又出新成果、智能问答领域日新月异、0.324

办理***的渠道有哪些、借记卡申请的方式、0.814。

在本实施例中，除了有序编辑距离，还考虑了无序词语的移动距离，这对简单颠倒语序的文本具有更强的适应性，可大大提升***召回率。而且，本实施例还根据语句中的有效依存配对数来计算句法相似度，可以更好的衡量句中核心词和与其存在依赖关系的词的数量。

如图5所示，在本实施例中，所述训练模块包括：

获取单元11，用于获取训练语料文件，所述训练语料文件包括若干组文本对及每组文本对的相似度得分；

提取单元12，用于根据所述训练语料文件得到训练数据集；

词向量获取单元13，用于从所述训练数据集中得到词向量矩阵；

语料文件originalDataForWord2Vec.txt形式如下：

我想问下在哪里可以购入中兴手机

中兴手机在哪里购买

中兴公司在南京市雨花台区

南京雨花台区的中兴通讯公司

智能问答***团队又出新成果

智能问答领域日新月异

办理***的渠道有哪些

借记卡申请的方式

S133、将训练得到的wordv2ec模型记为矩阵

其中V为语料文件中所有词汇构成的词汇表，|V|为该词汇表中的词汇个数，

表示|V|行d_w列的实数矩阵。

S134、单词w由该模型得到的词向量可以表示为

其中，

有序编辑距离获取单元14，用于根据所述词向量矩阵和编辑距离，获取文本对之间的第一改进编辑距离，作为基于有序编辑距离的语义特征；

作为基于有序编辑距离的语义特征。

c_A＝1*c_Ins+1*c_Mat+1*c_Ins+0.218*c_Sub+0.294*c_Sub+0.511*c_Sub。

无序编辑距离获取单元15，用于根据所述编辑距离和词袋模型，获取文本对之间的第二改进编辑距离，作为基于无序编辑距离的语义特征；

词义距离获取单元16，用于根据所述词向量矩阵，获取文本对之间的词义距离，作为基于词义距离的语义特征；

在本实施例中，首先，对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。假设t1包含的词为t2包含的词为其次，计算词

与词

之间的词义距离

其中，以

为例，下标m表示t1词序列的总数，上标1表示该词属于t1，序列，同理，

表示，下标n表示t2词序列的总数，上标2表示该词属于t2，从而定义t1中词

与t2的词义距离为

t2中词

与t1的词义距离为

最后，计算两文本间的词义相似度

作为基于词义距离的语义特征。

句法距离获取单元17，用于对文本对进行依存句法分析，获取文本对之间的句法距离，作为基于依存关系的句法特征。

在本实施例中，首先，对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。其次，使用通用方法(如StanfordNLP、FNLP等工具)，对t1和t2分别进行依存句法分析，并分别计算t1和t2中有效词搭配对的数量，记为p₁和p₂。其中，有效搭配对，指句中核心词和直接依存于它的有效词组成的搭配对。核心词，即句子经依存句法分析后得到的全句中唯一的核心词汇；有效词，即句子经依存句法分析后的名词、动词和形容词。

如图6所示，在本实施例中，所述在线获取模块包括：

特征向量获取单元41，用于获取目标文本对，计算所述目标文本对的数值特征，构成目标文本对的特征向量；

相似度获取单元42，用于将所述目标文本对的特征向量代入所述预测模型，获得所述目标文本对的相似度得分。

在本实施例中，首先搭建训练用的网络结构，然后根据上节得到的样本特征矩阵X和预测向量y进行模型训练，最后保存模型用于后续的在线计算。

其中，网络结构采用多层感知机(MLP)，利用样本特征矩阵X和预测向量y，使用通用方法，对上述网络结构进行模型训练。

训练后，得到的模型参数记为W^1*、b^1*、W^2*、b^2*，则预测模型可以表示为

其中x^T为待预测样本的特征向量。

将上述目标文本对的特征向量代入预测模型，即可得到目标文本对t1和

t2的相似度得分：

实施例三

在本实施例中，一种电子设备，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行实施例一所述的获取文本相似度的方法。

实施例四

本发明实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述获取文本相似度的方法实施例中任一所述的方法实施例。

需要说明的是，上述装置、设备实和可读存储介质实施例与方法实施例属于同一构思，其具体实现过程详见方法实施例，且方法实施例中的技术特征在装置实施例中均对应适用，这里不再赘述。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种获取文本相似度的方法，其特征在于，包括：

根据文本对数据集得到所述文本对的数值特征；

通过所述文本对的数值特征构造样本特征矩阵；

2.根据权利要求1所述的一种获取文本相似度的方法，其特征在于，所述数值特征包括：基于有序编辑距离的语义特征，基于无序编辑距离的语义特征，基于词义距离的语义特征，基于依存关系的句法特征。

3.根据权利要求2所述的一种获取文本相似度的方法，其特征在于，所述根据文本对数据集得到所述文本对的数值特征包括：

根据所述训练语料文件得到训练数据集；

从所述训练数据集中得到词向量矩阵；

4.根据权利要求3所述的一种获取文本相似度的方法，其特征在于，所述获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分包括：

5.一种获取文本相似度的装置，其特征在于，包括：

6.根据权利要求1所述的一种获取文本相似度的装置，其特征在于，所述数值特征包括：基于有序编辑距离的语义特征，基于无序编辑距离的语义特征，基于词义距离的语义特征，基于依存关系的句法特征。

7.根据权利要求6所述的一种获取文本相似度的装置，其特征在于，所述训练模块包括：

提取单元，用于根据所述训练语料文件得到训练数据集；

8.根据权利要求7所述的一种获取文本相似度的装置，其特征在于，所述在线获取模块包括：

9.一种电子设备，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，其特征在于，所述应用程序被配置为用于执行权利要求1-4任一项所述的获取文本相似度的方法。

10.一种可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-4任一所述的获取文本相似度的方法。