CN107729300A

CN107729300A - 文本相似度的处理方法、装置、设备和计算机存储介质

Info

Publication number: CN107729300A
Application number: CN201710841945.XA
Authority: CN
Inventors: 范淼; 李传勇; 孙明明; 施鹏; 冯悦; 李平
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2018-02-23
Anticipated expiration: 2037-09-18
Also published as: CN107729300B

Abstract

本发明提供一种文本相似度的处理方法、装置、设备和计算机存储介质，其中所述文本相似度的处理方法包括：获取由多种相似度确定方法得到的文本对的相似度确定结果；将所述文本对的相似度确定结果进行拼接，得到拼接特征；将所述拼接特征作为相似度确定模型的输入，根据所述相似度确定模型的输出得到所述文本对的文本相似度；其中，所述相似度确定模型是预先训练得到的。通过本发明所提供的技术方案，能够实现对多种相似度确定方法所得到的相似度确定结果进行集成处理，并提高确定文本对的文本相似度的准确性，使得集成处理后的相似度计算准确性高于任何一种单一的相似度计算方式。

Description

文本相似度的处理方法、装置、设备和计算机存储介质

【技术领域】

本发明涉及自然语言处理技术，尤其涉及一种文本相似度的处理方法、装置、设备和计算机存储介质。

【背景技术】

多种互联网应用(例如搜索引擎、问答平台等)都需要依赖准确的文本相似度的计算方法，从而向用户提供与所输入的查询或者与所提出的问题相匹配的内容，因此文本相似度计算一直以来都是亟待解决和提高的研发课题。现有技术中存在多种文本相似度的计算方法，仍然停留在传统自然语言学的词法、词性分析、句法模板提取的层面进行文本相似度的计算，需要使用例如切词工具、词性鉴别、文本匹配模板等方式对文本进行处理。然而，各种单一的相似度计算方法因其算法的限制往往在计算准确性上具有一定局限。

【发明内容】

有鉴于此，本发明提供了一种文本相似度的处理方法、装置、设备和计算机存储介质，用于实现对文本对的多种相似度确定结果进行集成处理，并提高文本对相似度的计算准确性。

本发明为解决技术问题所采用的技术方案是提供一种文本相似度的处理方法，所述方法包括：获取由多种相似度确定方法得到的文本对的相似度确定结果；将所述文本对的相似度确定结果进行拼接，得到拼接特征；将所述拼接特征作为相似度确定模型的输入，根据所述相似度确定模型的输出得到所述文本对的文本相似度；其中，所述相似度确定模型是预先训练得到的。

根据本发明一优选实施例，所述相似度确定模型是采用如下方式预先训练得到的：获取由多种相似度确定方法得到的已标注相似度的文本对的相似度确定结果；将所述各文本对的相似度确定结果进行拼接，得到各文本对的拼接特征；将所述各文本对的拼接特征与所述各文本对的标注相似度作为训练样本，训练分类模型，以得到相似度确定模型。

根据本发明一优选实施例，所述分类模型的训练目标为最小化所述分类模型的损失值；在所述训练分类模型的过程中，利用所述损失值对所述分类模型进行参数调整。

根据本发明一优选实施例，所述损失值为所述分类模型输出的文本对的文本相似度与所述文本对的标注相似度之间的误差。

根据本发明一优选实施例，所述由多种相似度确定方式得到的文本对的相似度确定结果包括：文本对的相似度特征向量与相似度得分。

根据本发明一优选实施例，所述将所述文本对的相似度确定结果进行拼接之前，还包括：对所述相似度特征向量进行随机采样，得到采样特征向量；将所述采样特征向量与所述相似度得分进行拼接，得到所述拼接特征。

根据本发明一优选实施例，所述对所述相似度特征向量进行随机采样，得到采样特征向量包括：按照预设概率对所述相似度特征向量中的特征值进行随机采样，并将所述相似度特征向量中未被采样的特征值设置为0，得到采样特征向量。

根据本发明一优选实施例，所述相似度确定模型为基于神经网络的分类模型。

本发明为解决技术问题所采用的技术方案是提供一种文本相似度的处理装置，所述装置包括：获取单元，用于获取由多种相似度确定方法得到的文本对的相似度确定结果；拼接单元，用于将所述文本对的相似度确定结果进行拼接，得到拼接特征；处理单元，用于将所述拼接特征作为相似度确定模型的输入，根据所述相似度确定模型的输出得到所述文本对的文本相似度；其中，所述相似度确定模型是预先训练得到的。

根据本发明一优选实施例，所述装置还包括：训练单元，用于采用如下方式预先训练得到所述相似度确定模型：获取由多种相似度确定方法得到的已标注相似度的文本对的相似度确定结果；将所述各文本对的相似度确定结果进行拼接，得到各文本对的拼接特征；将所述各文本对的拼接特征与所述各文本对的标注相似度作为训练样本，训练分类模型，以得到相似度确定模型。

根据本发明一优选实施例，所述分类模型的的训练目标为最小化所述分类模型的损失值；在所述训练分类模型的过程中，利用所述损失值对所述分类模型进行参数调整。

根据本发明一优选实施例，所述拼接单元将所述文本对的相似度确定结果进行拼接之前，还执行：对所述相似度特征向量进行随机采样，得到采样特征向量；将所述采样特征向量与所述相似度得分进行拼接，得到所述拼接特征。

根据本发明一优选实施例，所述拼接单元对所述相似度特征向量进行随机采样，得到采样特征向量时具体执行：按照预设概率对所述相似度特征向量中的特征值进行随机采样，并将所述相似度特征向量中未被采样的特征值设置为0，得到采样特征向量。

由以上技术方案可以看出，本发明通过对由多种相似度确定方法得到的文本对的相似度确定结果进行拼接，将拼接特征作为相似度确定模型的输入，从而实现对文本对的多种相似度确定结果进行集成处理，并提高文本对的文本相似度的计算准确性，使得集成处理后的相似度计算准确性高于任何一种单一的相似度计算方式。

【附图说明】

图1为本发明一实施例提供的文本相似度的处理方法的流程图。

图2为本发明一实施例提供的文本相似度的处理装置的结构图。

图3为本发明一实施例提供的计算机***/服务器的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

本发明所提出的用于文本相似度的处理方法的核心思想在于：提供一种对文本相似度的多种相似度确定结果进行集成处理的方法，使得该集成处理方法能够对由多种单一的文本相似度确定方法所得到的相似度确定结果进行集成计算，并使得由该集成处理方法所得到的文本相似度能够比任一单一相似度确定方法所得到的文本相似度更加准确。在本发明中，以文本对的相似度特征向量与文本对的相似度得分这两种文本相似度确定结果为例进行说明。可以理解的是，无论是相似度特征向量还是相似度得分，都能够反映其所对应文本对的相似性情况。

图1为本发明一实施例提供的文本相似度的处理方法的流程图，如图1中所示，所述方法包括：

在101中，获取由多种相似度确定方法得到的文本对的相似度确定结果。

在本步骤中，获取由多种相似度确定方法得到的同一文本对的相似度确定结果。多种相似度确定方式可以为两种、三种或者更多种，因此所得到的文本对的相似度确定结果也相应地为两种、三种或者更多种。

在本实施例中，所获取的文本对的相似度确定结果为文本对的相似度特征向量与相似度得分。可选地，在本实施例的一个具体实现过程中，可以使用既有的文本相似度计算***获取文本对的相似度得分，也可以使用余弦相似度计算方法、BM25相似度计算方法等获取文本对的相似度得分。可以使用基于神经网络或者深度学习模型的文本相似度计算方法获取文本对的相似度特征向量，例如将某文本对输入基于卷积神经网络的文本匹配算法后，该算法会输出对应该文本对的特征向量，则将该特征向量作为该文本对的相似度特征向量。本发明对神经网络或者学习模型的种类不进行限定，能够根据所输入的文本对输出特征向量的神经网络或者学习模型均可。

例如，对于一对文本P和Q，在获取文本对的相似度得分时，可以通过既有的文本相似度计算***A获取，该既有***A可以被封装为一个可调用接口，通过调用该接口便可以直接得到该文本对的相似度得分，由于该既有***A被封装，因此其内部参数或者代码不可更改。在获取文本对的相似度特征向量时，可以通过新研制的基于神经网络的相似度计算方法B获取，由于该计算方法B是新研制的，因此可以对其内部参数或者进行更改。可以将本步骤中所获取的相似度得分记为X_A，相似度特征向量记为X_B。

可以理解的是，本步骤中所获取的文本对的相似度确定结果也可以为由不同的相似度确定方法所获取的文本对的相似度特征向量，从而作为该文本对的多种相似度确定结果进行后续处理。

在102中，将所述文本对的相似度确定结果进行拼接，得到拼接特征。

在本步骤中，对步骤101中所获取的多种相似度确定结果进行拼接，从而得到多种相似度确定结果的拼接特征。

其中，若步骤101中所获取的多种相似度确定结果中有相似度特征向量时，还可以对相似度特征向量进行以下处理：对相似度特征向量进行随机采样后，将采样特征向量与其他的相似度确定结果进行拼接，从而得到文本对的拼接特征。

具体地，在对相似度特征向量进行随机采样时，可以采用以下方式：按照预设概率对相似度特征向量中的特征值进行随机采样，并将相似度特征向量中未被采样的特征值设置为0，从而得到采样特征向量。

例如，若由步骤101所获取的相似度特征向量的维度为5，预设概率为0.6时，则会随机保留相似度特征向量的5个维度中3个(5×0.6)维度的特征值，而其他两个维度的特征值设置为0。若所得到的相似度特征向量为X_B＝[8.0,6.0,3.0,4.0,5.0]，预设概率为0.6，则对相似度特征向量中任意3个维度的特征值进行采样，另外两个维度的特征值置为0。若采样特征向量为X_B'＝[8.0,6.0,0.0,0.0,5.0]，则表明该次采样是对索引号为0、1和4的特征值进行的采样，索引号为2和3的特征值设置为0；若X_B'＝[8.0,0.0,0.0,4.0,5.0]，则表明该次采样是对索引号为0、3和4的特征值进行的采样，索引号为1和2的特征值设置为0。其中，预设概率可以根据实际情况进行设置。

在本步骤中，在对相似度特征向量进行随机采样得到采样特征向量之后，将所得到的采样特征向量与步骤101中所获取的文本相似度得分进行拼接。在对采样特征向量与文本相似度得分进行拼接时，可以通过以下公式进行：

在公式中：X_C为拼接特征，X_A为文本相似度得分，为行向量拼接运算符，X_B'为采样特征向量，T为向量转置运算符。

在进行拼接时，还可以使用预设函数对步骤101中所获取的多种相似度确定结果进行拼接。例如，若步骤101中所获取的多种相似度确定结果均为相似度特征向量时，在对各相似度特征向量进行随机采样得到采样特征向量后，可以采用matlab里的[]函数，对各采样相似度特征向量进行拼接，以得到多种相似度确定结果的拼接特征。

优选地，在本步骤中，在对文本对的相似度特征向量进行随机采样时，可以将预设概率设置为1，即可以不对所获取的相似度特征向量进行随机采样，将步骤101中所获取的相似度特征向量与相似度得分进行直接拼接，以得到拼接特征。

在103中，将所述拼接特征作为相似度确定模型的输入，根据所述相似度确定模型的输出得到所述文本对的文本相似度。

在本步骤中，将在步骤102中所得到的拼接特征作为相似度确定模型的输入，将相似度计算模型的输出作为该文本对的文本相似度。

在本步骤中，所使用的相似度确定模型可以采用如下方式预先训练得到:

1)获取由多种相似度确定方法得到的已标注相似度的文本对的相似度确定结果。

在本步骤中，预先对各文本对的相似度进行标注，即通过标注的相似度能够得知该文本对是否相似。例如，若某文本对所标注的相似度为1，则表明该文本对相似；若为0，则表明不相似。

其中，所获取的文本对的相似度确定结果为文本对的相似度特征向量与文本对的相似度得分。同样地，在获取由不同相似度确定方法得到的已标注相似度的文本对的相似度特征向量与相似度得分时，与步骤101中的过程一致，在此不再进行赘述。

2)对所获取的各文本对的相似度确定结果进行拼接，得到各文本对的拼接特征。

在本步骤中，将获取的已标注相似度的文本对的相似度特征向量与相似度得分进行拼接，得到对应各文本对的拼接特征。在拼接之前，还可以对文本对的相似度特征向量进行随机采样后，将采样特征向量与相似度得分进行拼接，以得到该文本对的拼接特征。本步骤的随机采样过程、拼接过程与步骤102中的一致，在此不进行赘述。优选地，在本步骤中，在进行对相似度特征向量的随机采样时，将进行采样的预设概率设置为小于1。

3)将各文本对的拼接特征与各文本对的标注相似度作为训练样本，训练分类模型，得到相似度确定模型。

在本步骤中，将各文本对的拼接特征作为分类模型的输入，各文本对的标注相似度作为分类模型的输出，对分类模型进行训练。其中，分类模型的训练目标是最小化该分类模型的损失值。具体地，该损失值可以为分类模型输出的文本对的计算相似度与该文本对的标注相似度之间的误差。

其中，分类模型输出的文本对的计算相似度与该文本对的标注相似度之间的误差，可以使用如下公式进行获取：

在公式中：L为文本对的计算相似度与标注相似度的误差，y为文本对的标注相似度，为文本对的计算相似度。

具体地，最小化该分类模型的损失值，即为最小化文本对输出的计算相似度与文本对的标注相似度之间的误差L。可选地，在本实施例的一个具体实现过程中，若在预设次数内所得到的误差收敛，则认为该分类模型的损失值最小化；也可以为若所得到的误差收敛到预设值，则认为该分类模型的损失值最小化；还可以为若训练次数超过预设次数时，则认为该分类模型的损失值最小化。当分类模型的损失值最小化时，即认为分类模型的训练过程完成，得到相似度确定模型。其中，分类模型为基于神经网络的分类模型，可以为卷积神经网络，还可以为循环神经网络，本发明对此不进行限定。

在对分类模型的训练过程中，最小化损失值的过程实际上是利用损失值进行反馈对分类模型进行调参的过程。其中，调整的参数包括分类模型中采用的多种相似度确定方法得到的相似度确定结果的权重。经过循环迭代后，最终得到的分类模型所采用的参数使得损失值最小，从而实现自动地对不同相似度确定方法进行权重调配。

同时，在对分类模型进行训练时，还可以依据分类模型的损失值对各相似度确定方法的参数进行调整。例如，在上述描述中的基于神经网络的相似度计算方法B，由于其内部参数可以更改，因此可以根据分类模型的损失值对该基于神经网络的相似度计算方法中的参数进行更改，使得该计算方法的参数逐渐达到最优值。当在训练分类模型所得到的损失值最小化时，分类模型中的参数达到最优，方法B中的参数也达到最优。因此，方法B会根据所输入的文本对输出一个更加准确的表示该文本对相似性的特征向量，从而进一步提升相似度确定模型所输出的文本相似度的准确性。

在训练得到相似度确定模型之后，便可以由该模型得到文本对的文本相似度。即在步骤103中，将步骤102所得到的文本对的拼接特征输入相似度确定模型，相似度确定模型所得到的输出即为该文本对的文本相似度。

由于在相似度确定模型的训练过程中，已经将该模型内的参数、各相似度确定方法的权重参数以及各相似度确定方法内的参数优化到最优值，因此能够根据所输入的对应文本对的拼接特征，输出该文本对的更加准确的文本相似度的确定结果。

对上述描述进行举例说明：

若所使用的文本相似度确定方法为文本相似度计算***A与基于神经网络的文本匹配算法B，所获取的文本相似度确定结果分别为相似度得分与相似度特征向量。在进行相似度确定模型的训练时，将分类模型所得到的计算相似度与标注相似度之间的误差作为损失值，来更新分类模型中的参数、以及方法B中的参数。当损失值最小化时，分类模型中的参数达到最优，从而得到相似度确定模型；同时，方法B中的参数也达到最优，能够得到更加准确的表示文本对相似性的相似度特征向量。对于待评估文本对，通过A获取该文本对的相似度得分，通过参数更新后的B得到相似度特征向量，进行拼接后将拼接特征输入相似度确定模型，从而得到待评估文本对的文本相似度。因此通过上述方法，能够进一步提升对文本对相似度的计算准确性。

图2为本发明一实施例提供的文本相似度的处理装置的结构图，如图2中所示，所述装置包括：获取单元21、拼接单元22、训练单元23以及处理单元24。

获取单元21，用于获取由多种相似度确定方法得到的文本对的相似度确定结果。

由获取单元21获取由多种相似度确定方法得到的同一文本对的相似度确定结果。多种相似度确定方式可以为两种、三种或者更多种，因此获取单元21所得到的文本对的相似度确定结果也相应地为两种、三种或者更多种。

在本实施例中，获取单元21所获取的文本对的相似度确定结果为文本对的相似度特征向量与相似度得分。可选地，在本实施例的一个具体实现过程中，获取单元21可以使用既有的文本相似度计算***获取文本对的相似度得分，也可以使用余弦相似度计算方法、BM25相似度计算方法等获取文本对的相似度得分。可以使用基于神经网络或者深度学习模型的文本相似度计算方法获取文本对的相似度特征向量，例如将某文本对输入基于卷积神经网络的文本匹配算法后，该算法会输出对应该文本对的特征向量，则获取单元21将该特征向量作为该文本对的相似度特征向量。本发明对神经网络或者学习模型的种类不进行限定，能够根据所输入的文本对输出特征向量的神经网络或者学习模型均可。

例如，对于一对文本P和Q，在获取单元21获取文本对的相似度得分时，可以通过既有的文本相似度计算***A获取，该既有***A可以被封装为一个可调用接口，通过调用该接口便可以直接得到该文本对的相似度得分，由于该既有***A被封装，因此其内部参数或者代码不可更改。在获取单元21获取文本对的相似度特征向量时，可以通过新研制的基于神经网络的相似度计算方法B获取，由于该计算方法B是新研制的，因此可以对其内部参数或者进行更改。可以将本步骤中所获取的相似度得分记为X_A，相似度特征向量记为X_B。

可以理解的是，获取单元21所获取的文本对的相似度确定结果也可以为由不同的相似度确定方法所获取的文本对的相似度特征向量，从而作为该文本对的多种相似度确定结果进行后续处理。

拼接单元22，用于将所述文本对的相似度确定结果进行拼接，得到拼接特征。

拼接单元22对由获取单元21所获取的多种相似度确定结果进行拼接，从而得到多种相似度确定结果的拼接特征。

其中，若获取单元21所获取的多种相似度确定结果中有相似度特征向量时，拼接单元22还可以对相似度特征向量进行以下处理：对相似度特征向量进行随机采样后，将采样特征向量与其他的相似度确定结果进行拼接，从而得到文本对的拼接特征。

具体地，拼接单元22在对相似度特征向量进行随机采样时，可以采用以下方式：按照预设概率对相似度特征向量中的特征值进行随机采样，并将相似度特征向量中未被采样的特征值设置为0，从而得到采样特征向量。

例如，若由获取单元21所获取的相似度特征向量的维度为5，预设概率为0.6时，则拼接单元22会随机保留相似度特征向量的5个维度中3个(5×0.6)维度的特征值，而其他两个维度的特征值设置为0。若所得到的相似度特征向量为X_B＝[8.0,6.0,3.0,4.0,5.0]，预设概率为0.6，则对相似度特征向量中任意3个维度的特征值进行采样，另外两个维度的特征值置为0。若采样特征向量为X_B'＝[8.0,6.0,0.0,0.0,5.0]，则表明该次采样是对索引号为0、1和4的特征值进行的采样，索引号为2和3的特征值设置为0；若X_B'＝[8.0,0.0,0.0,4.0,5.0]，则表明该次采样是对索引号为0、3和4的特征值进行的采样，索引号为1和2的特征值设置为0。其中，预设概率可以根据实际情况进行设置。

拼接单元22在对相似度特征向量进行随机采样得到采样特征向量之后，将所得到的采样特征向量与由获取单元21所获取的文本相似度得分进行拼接。在对采样特征向量与文本相似度得分进行拼接时，拼接单元22可以通过以下公式进行：

在进行拼接时，拼接单元22还可以使用预设函数对由获取单元21所获取的多种相似度确定结果进行拼接。例如，若获取单元21所获取的多种相似度确定结果均为相似度特征向量时，拼接单元22在对各相似度特征向量进行随机采样得到采样特征向量后，可以采用matlab里的[]函数，对各采样相似度特征向量进行拼接，以得到多种相似度确定结果的拼接特征。

优选地，拼接单元22在对文本对的相似度特征向量进行随机采样时，可以将预设概率设置为1，即拼接单元22可以不对所获取的相似度特征向量进行随机采样，将获取单元21中所获取的相似度特征向量与相似度得分进行直接拼接，以得到拼接特征。

训练单元23，用于预先训练得到相似度确定模型。

训练单元23预先训练得到的相似度确定模型用于确定待评估文本对的文本相似度。具体地，训练单元23可以采用如下方式预先训练得到相似度确定模型:

训练单元23所使用的文本对为预先标注相似度的各文本对，即通过标注的相似度能够得知该文本对是否相似。例如，若某文本对所标注的相似度为1，则表明该文本对相似；若为0，则表明不相似。

其中，所获取的文本对的相似度确定结果为文本对的相似度特征向量与文本对的相似度得分。同样地，在获取由不同相似度确定方法得到的已标注相似度的文本对的相似度特征向量与相似度得分时，与获取单元21获取的过程一致，在此不再进行赘述。

训练单元23将获取的已标注相似度的文本对的相似度特征向量与相似度得分进行拼接，得到对应各文本对的拼接特征。在拼接之前，训练单元23还可以对文本对的相似度特征向量进行随机采样后，将采样特征向量与相似度得分进行拼接，以得到该文本对的拼接特征。训练单元23进行的随机采样过程、拼接过程与拼接单元22所进行的过程一致，在此不进行赘述。优选地，在训练单元23进行对文本对的相似度特征向量的随机采样时，将采样的预设概率设置为小于1。

训练单元23将各文本对的拼接特征作为分类模型的输入，各文本对的标注相似度作为分类模型的输出，对分类模型进行训练。其中，分类模型的训练目标是最小化该分类模型的损失值。具体地，该损失值可以为分类模型输出的文本对的计算相似度与该文本对的标注相似度之间的误差。

具体地，训练单元23最小化该分类模型的损失值，即为最小化文本对输出的计算相似度与文本对的标注相似度之间的误差L。可选地，在本实施例的一个具体实现过程中，若训练单元23在预设次数内所得到的误差收敛，则认为该分类模型的损失值最小化；也可以为若训练单元23所得到的误差收敛到预设值，则认为该分类模型的损失值最小化；还可以为若训练单元23的训练次数超过预设次数时，则认为该分类模型的损失值最小化。当分类模型的损失值最小化时，即认为训练单元23对分类模型的训练过程完成，得到相似度确定模型。其中，分类模型为基于神经网络的分类模型，可以为卷积神经网络，还可以为循环神经网络，本发明对此不进行限定。

在训练单元23对分类模型的训练过程中，最小化损失值的过程实际上是利用损失值进行反馈，以对分类模型进行调参的过程。其中，调整的参数包括分类模型中采用的多种相似度确定方法得到的相似度确定结果的权重。经过循环迭代后，最终得到的分类模型所采用的参数使得损失值最小，从而实现自动地对不同相似度确定方法进行权重调配。

同时，在训练单元23对分类模型进行训练时，还可以依据分类模型的损失值对各相似度确定方法的参数进行调整。例如，在上述描述中的基于神经网络的相似度计算方法B，由于其内部参数可以更改，因此可以根据分类模型的损失值对该基于神经网络的相似度计算方法中的参数进行更改，使得该计算方法的参数逐渐达到最优值。当在训练分类模型所得到的损失值最小化时，分类模型中的参数达到最优，方法B中的参数也达到最优。因此，方法B会根据所输入的文本对输出一个更加准确的表示该文本对相似性的特征向量，从而进一步提升相似度确定模型所输出的文本相似度的准确性。

处理单元24，用于将所述拼接特征作为相似度确定模型的输入，根据所述相似度确定模型的输出得到所述文本对的文本相似度。

处理单元24将在拼接单元22中所得到的拼接特征作为训练单元23所训练得到的相似度确定模型的输入，将相似度计算模型的输出作为该文本对的文本相似度。

在训练单元23训练得到相似度确定模型之后，处理单元24便可以由该模型得到文本对的文本相似度。即处理单元24将拼接单元22所得到的文本对的拼接特征输入相似度确定模型，相似度确定模型所得到的输出即为该文本对的文本相似度。

由于在相似度确定模型的训练过程中，已经将该模型内的参数以及各相似度确定方法内的参数优化到最优值，因此能够根据所输入的对应文本对的拼接特征，输出该文本对的更加准确的文本相似度的确定结果。

图3示出了适于用来实现本发明实施方式的示例性计算机***/服务器012的框图。图3显示的计算机***/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机***/服务器012以通用计算设备的形式表现。计算机***/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，***存储器028，连接不同***组件(包括***存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机***/服务器012典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器028可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机***/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***034可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机***/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机***/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机***/服务器012交互的设备通信，和/或与使得该计算机***/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机***/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机***/服务器012的其它模块通信。应当明白，尽管图中未示出，可以结合计算机***/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元016通过运行存储在***存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现一种文本相似度的处理方法，可以包括：

获取由多种相似度确定方法得到的文本对的相似度确定结果；

将所述文本对的相似度确定结果进行拼接，得到拼接特征；

将所述拼接特征作为相似度确定模型的输入，根据所述相似度确定模型的输出得到所述文本对的文本相似度；

其中，所述相似度确定模型是预先训练得到的。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行的方法流程，可以包括：

将所述文本对的相似度确定结果进行拼接，得到拼接特征；

其中，所述相似度确定模型是预先训练得到的。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

利用本发明所提供的技术方案，通过对所获取的多种相似度确定方法得到的文本对的相似度确定结果进行拼接，将拼接特征作为相似度确定模型的输入，从而实现对多种相似度确定结果的集成处理，并提高文本对相似度的准确性，使得集成处理后的相似度计算准确性高于任何一种单一的相似度计算方式。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文本相似度的处理方法，其特征在于，所述方法包括：

将所述文本对的相似度确定结果进行拼接，得到拼接特征；

其中，所述相似度确定模型是预先训练得到的。

2.根据权利要求1所述的方法，其特征在于，所述相似度确定模型是采用如下方式预先训练得到的：

获取由多种相似度确定方法得到的已标注相似度的文本对的相似度确定结果；

将所述各文本对的相似度确定结果进行拼接，得到各文本对的拼接特征；

将所述各文本对的拼接特征与所述各文本对的标注相似度作为训练样本，训练分类模型，以得到相似度确定模型。

3.根据权利要求2所述的方法，其特征在于，所述分类模型的训练目标为最小化所述分类模型的损失值；

在所述训练分类模型的过程中，利用所述损失值对所述分类模型进行参数调整。

4.根据权利要求3所述的方法，其特征在于，所述损失值为所述分类模型输出的文本对的文本相似度与所述文本对的标注相似度之间的误差。

5.根据权利要求1或2所述的方法，其特征在于，所述由多种相似度确定方式得到的文本对的相似度确定结果包括：文本对的相似度特征向量与相似度得分。

6.根据权利要求5所述的方法，其特征在于，所述将所述文本对的相似度确定结果进行拼接之前，还包括：

对所述相似度特征向量进行随机采样，得到采样特征向量；

将所述采样特征向量与所述相似度得分进行拼接，得到所述拼接特征。

7.根据权利要求6所述的方法，其特征在于，所述对所述相似度特征向量进行随机采样，得到采样特征向量包括：

按照预设概率对所述相似度特征向量中的特征值进行随机采样，并将所述相似度特征向量中未被采样的特征值设置为0，得到采样特征向量。

8.根据权利要求1所述的方法，其特征在于，所述相似度确定模型为基于神经网络的分类模型。

9.一种文本相似度的处理装置，其特征在于，所述装置包括：

获取单元，用于获取由多种相似度确定方法得到的文本对的相似度确定结果；

拼接单元，用于将所述文本对的相似度确定结果进行拼接，得到拼接特征；

处理单元，用于将所述拼接特征作为相似度确定模型的输入，根据所述相似度确定模型的输出得到所述文本对的文本相似度；

其中，所述相似度确定模型是预先训练得到的。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：训练单元，用于采用如下方式预先训练得到所述相似度确定模型：

11.根据权利要求10所述的装置，其特征在于，所述分类模型的训练目标为最小化所述分类模型的损失值；

12.根据权利要求11所述的装置，其特征在于，所述损失值为所述分类模型输出的文本对的文本相似度与所述文本对的标注相似度之间的误差。

13.根据权利要求9或10所述的装置，其特征在于，所述由多种相似度确定方式得到的文本对的相似度确定结果包括：文本对的相似度特征向量与相似度得分。

14.根据权利要求13所述的装置，其特征在于，所述拼接单元将所述文本对的相似度确定结果进行拼接之前，还执行：

对所述相似度特征向量进行随机采样，得到采样特征向量；

15.根据权利要求14所述的装置，其特征在于，所述拼接单元对所述相似度特征向量进行随机采样，得到采样特征向量时具体执行：

16.根据权利要求9所述的装置，其特征在于，所述相似度确定模型为基于神经网络的分类模型。

17.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的方法。