WO2019223103A1

WO2019223103A1 - 文本相似度的获取方法、装置、终端设备及介质

Info

Publication number: WO2019223103A1
Application number: PCT/CN2018/097497
Authority: WO
Inventors: 李育儒; 王鸿滨; 吴晓贝; 汪伟
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-05-22
Filing date: 2018-07-27
Publication date: 2019-11-28
Also published as: CN108710613B; CN108710613A

Abstract

本方案提供了一种文本相似度的获取方法、装置、终端设备及介质，适用于数据处理技术领域，该方法包括：获取每一待分析文本所分别对应的多个分词后，将分词存入词袋模型；获取每一分词在词袋模型中的TF-IDF信息；基于各个待分析文本所关联的TF-IDF信息，分别生成与多个比对文本对应的文本集特征矩阵以及与参照文本对应的文本向量；对文本集特征矩阵进行奇异值分解，并根据得到的单词特征矩阵以及特征向量比重矩阵，对文本向量进行反向映射处理，得到第二特征向量；分别计算每一第二特征向量与第一特征向量的相似度，并将计算结果输出为预设文本与该第二特征向量所匹配的比对文本之间的相似度。本方案提高了文本相似度的计算准确率以及文本比对效率。

Description

文本相似度的获取方法、装置、终端设备及介质

本申请要求于2018年05月22日提交中国专利局、申请号为201810495130.5、发明名称为“文本相似度的获取方法、终端设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于数据处理技术领域，尤其涉及一种文本相似度的获取方法、装置、终端设备及计算机可读存储介质。

背景技术

文本相似度用于度量文本与文本之间的相似程度。传统方式中，可通过人工判断的方式来确定文本相似度。然而，人工判断大量相似文本常常是一个耗时且繁琐的工作，因此，为了解决这一问题，随着科学研究的不断发展，衍生出了词频统计以及simhash等向量空间模型。这些向量空间模型通过识别两篇文章所共同存在的单词，并基于单词的出现与否及各单词的词频等信息来计算文本相似度。因此，仅当两篇文章均存在数目较多且完全相同的单词时，计算得到的文本相似度才会相对较高。

然而，单词具有多义性和同义性，即，用于表示相同语义的单词在表达形式上可能不同，而相同表达形式的单词也可能表达出不同的语义，故基于上述向量空间模型来计算文本相似度时，可能会出现两篇文章实际表达的意思相同(文本相似度理应非常高)，但计算得到的文本相似度却较为低下的情况。因此，现有的文本相似度计算方法存在计算准确率较低的问题。

技术问题

有鉴于此，本申请实施例提供了一种文本相似度的获取方法、装置、终端设备及计算机可读存储介质，以解决现有技术中文本相似度的计算准确率较为低下的问题。

技术解决方案

本申请实施例的第一方面提供了一种文本相似度的获取方法，包括：

获取预设的待分析文本，所述待分析文本包括参照文本以及多个比对文本；

对所述待分析文本进行分词处理，以得到每一所述待分析文本所分别对应的多个分词后，将所述分词存入词袋模型；

对每一所述待分析文本所对应的每一所述分词，获取该分词在所述词袋模型中的词频逆文本频率TF-IDF信息；

基于各个所述待分析文本所关联的所述TF-IDF信息，分别生成与所述多个比对文本对应的文本集特征矩阵以及与所述参照文本对应的文本向量；其中，所述文本集特征矩阵包含多个第一特征向量，每一所述第一特征向量与一所述比对文本匹配；

对所述文本集特征矩阵进行奇异值分解，得到单词特征矩阵、文档特征矩阵和特征向量比重矩阵；

根据所述单词特征矩阵以及所述特征向量比重矩阵，对所述文本向量进行反向映射处理，得到与所述参照文本匹配的第二特征向量；

分别计算每一所述第二特征向量与所述第一特征向量的相似度，并将计算结果输出为所述参照文本与该第二特征向量所匹配的所述比对文本之间的相似度。

本申请实施例的第二方面提供了一种文本相似度的获取装置，所述识别装置包括用于执行上述第一方面所述的文本相似度的获取方法的单元。

本申请实施例的第三方面提供了一种终端设备，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如第一方面所述的文本相似度的获取方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如第一方面所述的文本相似度的获取方法的步骤。

有益效果

本申请实施例中，通过生成参照文本所关联的文本向量以及生成多个比对文本所共同关联的文本集特征矩阵，基于对文本集特征矩阵的奇异值分解，并计算分解后用于表征各待分析文本的特征向量之间的相似度，保证了计算得出的文本相似度能够较为准确地体现文本之间的主题相似性，而并非仅仅依赖于文本之间共同存在的单词来计算相似度，因此，提高了文本相似度的计算准确率。并且，在一次运算过程中，本申请实施例能够同时计算参照文本分别与多个对比文本之间的相似度，故也提高了文本的比对效率。

附图说明

图1是本申请实施例提供的文本相似度的获取方法的实现流程图；

图2是本申请实施例提供的基于多个比对文本所生成的文本集特征矩阵的示意图；

图3是本申请另一实施例提供的文本相似度的获取方法的实现流程图；

图4是本申请另一实施例提供的文本相似度的获取方法S109的具体实现流程图；

图5是本申请另一实施例提供的文本相似度的获取方法S1091的具体实现流程图；

图6是本申请实施例提供的文本相似度的获取方法S102的具体实现流程图；

图7是本申请实施例提供的文本相似度的获取装置的结构框图；

图8是本申请实施例提供的终端设备的示意图。

本发明的实施方式

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

图1示出了本申请实施例提供的信息的输入方法的实现流程，该方法流程包括步骤S101至S107。各步骤的具体实现原理如下：

S101：获取预设的待分析文本，所述待分析文本包括参照文本以及多个比对文本。

本申请实施例中，参照文本为预先选定的一个文本。对用户而言，若其需要获取任一文本与参照文本之间的文本相似度，则所述的任一文本为比对文本。比对文本可以为一个，也可以为一个以上。优选地，将参照文本以及比对文本统称为待分析文本，且获取预设的一个参照文本以及一个以上的比对文本。

本申请实施例中，待分析文本包括但不限于从各类新闻网站中所收集得到的数据文本以及企业自身所发布的公开文本等。上述公开文本例如可以是财务年报、财务季报以及招股书。

S102：对所述待分析文本进行分词处理，以得到每一所述待分析文本所分别对应的多个分词后，将所述分词存入词袋模型。

对获取得到的每一待分析文本，通过预设的分词算法对该待分析文本进行分词处理，得到该待分析文本所对应的各个分词后，从中筛选出互不重复的分词，并将这些互不重复的分词输出至词袋模型。因此，对于当前时刻所获得的任一待分析文本，词袋模型中将包含有存在于该待分析文本中的各个分词。

S103：对每一所述待分析文本所对应的每一所述分词，获取该分词在所述词袋模型中的词频逆文本频率TF-IDF信息。

S104：基于各个所述待分析文本所关联的所述TF-IDF信息，分别生成与所述多个比对文本对应的文本集特征矩阵以及与所述参照文本对应的文本向量；其中，所述文本集特征矩阵包含多个第一特征向量，每一所述第一特征向量与一所述比对文本匹配。

对于词袋模型中的每一个分词，确定该分词在每一待分析文本中所出现的频率，则上述频率即为该分词在词袋模型中的词频逆文本频率(TF-IDF，term frequency Inverse Document Frequency)。

本申请实施例中，生成每一比对文本对应的一个第一特征向量。具体地，将词袋模型中每一分词在比对文本中的TF-IDF信息输出为该比对文本所对应的第一特征向量中的一个元素。因此，第一特征向量所包含的元素数量与词袋模型所存储的分词数量相同。同理，生成与参照文本对应的一个文本向量，使得词袋模型中每一分词在参照文本中的TF-IDF信息能够输出为文本向量中的一个元素。

示例性地，假设有三个比对文本，分别为d1、d2和d3，参照文本为q，且各待分析文本所包含的单词如下：

d1：Shipment of gold damaged in fire.

d2：Delivery of silver arrived in a silver truck.

d3：Shipment of gold arrived in a truck.

q：Gold silver truck.

则对上述各个待分析文本进行分词处理后，得到的不包含重复分词的词袋模型为：{a arrived damaged delivery fire gold in of shipment silver truck}。以d1为例，词袋模型所包含的各个分词在d1中的TF-IDF信息分别为1、0、1、0、1、1、1、1、1、0以及0，因此，d1所对应生成的第一特征向量为[1 0 1 0 1 1 1 1 1 0 0]；词袋模型所包含的各个分词在q中的TF-IDF信息分别为0、0、0、0、0、1、0、0、0、1以及1，因此，q所对应生成的文本向量为[0 0 0 0 0 1 0 0 0 1 1]。

本申请实施例中，将包含各个比对文本所对应的第一特征向量的集合作为上述文本集特征矩阵。其中，每一第一特征向量表示文本集特征矩阵中的一列矩阵元素。因此，上述示例中，与比对文本d1、d2以及d3所匹配的文本集特征矩阵A可参见图2。

S105：对所述文本集特征矩阵进行奇异值分解，得到单词特征矩阵、文档特征矩阵和特征向量比重矩阵。

本申请实施例中，通过预设的奇异值分解算法，对文本集特征矩阵A进行奇异值分解处理，以求解得到单词特征矩阵U、文档特征矩阵V和特征向量比重矩阵S。

示例性地，基于A＝USV ^T，可将文本集特征矩阵A拆分为多个矩阵正交相乘的形式，则对于上述图2所示的文本集特征矩阵A，其分解得到的单词特征矩阵U、文档特征矩阵V和特征向量比重矩阵S具体如下：

S106：根据所述单词特征矩阵以及所述特征向量比重矩阵，对所述文本向量进行反向映射处理，得到与所述参照文本匹配的第二特征向量。

本申请实施例中，为了比较参照文本与各个比对文本的文本相似度，在生成参照文本所对应的文本向量q后，将其映射到与文本集特征矩阵奇异值分解后相同的文档特征空间中。即，利用相应的单词特征矩阵U和特征向量比重矩阵S，反向映射回文档特征空间V _q，使得V _q＝q ^TUS ^-1，从而得到与参照文本匹配的第二特征向量。

S107：分别计算每一所述第二特征向量与所述第一特征向量的相似度，并将计算结果输出为所述参照文本与该第二特征向量所匹配的所述比对文本之间的相似度。

本申请实施例中，读取文本集特征矩阵中的各个第一特征向量，并基于读取得到的每一第一特征向量与参照文本所匹配的第二特征向量的相似度，确定各个比对文本分别与参照文本之间的文本相似度。

示例性地，第一特征向量与第二特征向量之间的相似度具体为余弦相似度。余弦相似度S的计算公式具体如下：

其中，x _i表示第一特征向量的第i个元素值；y _i表示第二特征向量的第i个元素值；n表示第一特征向量或第二特征向量的元素总数。

由于每一个第一特征向量与一个比对文本对应，故在计算任一第一特征向量与第二特征向量的余弦相似度后，将该余弦相似度输出为该第一特征向量所对应的比对文本与参照文本之间的文本相似度。

本申请实施例中，通过生成参照文本所关联的文本向量以及生成多个比对文本所共同关联的文本集特征矩阵，基于对文本集特征矩阵的奇异值分解，并计算分解后用于表征各待分析文本的特征向量之间的相似度，保证了计算得出的文本相似度能够较为准确地体现文本之间的主题相似性，而并非仅仅依赖于文本之间所共同存在的单词来计算相似度，因此，提高了文本相似度的计算准确率。并且，在一次运算过程中，本申请实施例能够同时计算参照文本分别与多个对比文本之间的相似度，故也提高了文本的比对效率。

作为本申请另一实施例，如图3所示，在上述S104之后，还包括：

S108：获取超参数值，所述超参数值根据用户预设的矩阵目标维度来确定。

S109：基于所述超参数值，分别对各个分解矩阵进行降维处理，以使所述每一所述分解矩阵的特征维度变更为所述超参数值；其中，所述分解矩阵包括所述单词特征矩阵、所述文档特征矩阵以及所述特征向量比重矩阵。

本申请实施例中，在对文本集特征矩阵进行奇异值分解，得到单词特征矩阵、文档特征矩阵和特征向量比重矩阵等多个分解矩阵后，由于各个分解矩阵的特征维度较大，故需要对其特征维度进行降维处理。

具体地，分别对单词特征矩阵、文档特征矩阵以及特征向量比重矩阵中的多个矩阵元素执行删除操作，以实现对各个分解矩阵的降维处理。在获取预设的超参数值(上述超参数值表示用户所预先设置的矩阵目标)后，判断降维后每一分解矩阵的特征维度与超参数值是否相同。若存在特征维度与超参数值不相同的分解矩阵，则将该分解矩阵执行进一步的降维处理，直至其特征维度与超参数值相同。

作为本申请的一个实施例，图4示出了本申请实施例提供的文本相似度的获取方法S109的具体实现流程，详述如下：

S1091：在每一所述分解矩阵中，根据矩阵元素的大小顺序，对该分解矩阵所包含的各个所述矩阵元素进行排序处理，并读取排序后所述分解矩阵中所存在的各个矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素。

本申请实施例中，单词特征矩阵、文档特征矩阵以及特征向量比重矩阵所包含的矩阵元素均不相同。在每一分解矩阵中，根据各个矩阵元素的数值大小，对该分解矩阵所包含的各个矩阵元素进行重新排序。由于分解矩阵的行列数由词袋模型所包含的分词数目以及比对文本的数目来确定，故矩阵元素重新排序后所得到的分解矩阵的行列数以及矩阵元素数目均保持不变。

S1092：提取排序在前的多个所述矩阵列，并将提取得到的多个所述矩阵列组合为更新后的所述分解矩阵；其中，所述矩阵列的提取数目与所述超参数值相等。

本申请实施例中，根据每一矩阵列的列序号，从上述重新排序后的分解矩阵中提取排序在前的N个矩阵列。其中，N为上述预先获取得到的超参数值，N为大于零的整数。

将提取得到的N个矩阵列进行依次排列，以组合得到另一分解矩阵后，删除原本包含该N个矩阵列的分解矩阵，由此实现分解矩阵的更新及降维处理。

值得注意的是，本申请实施例中的分解矩阵包括上述单词特征矩阵、文档特征矩阵以及特征向量比重矩阵中的一个或多个，在此不做限定。

特别地，当上述分解矩阵为特征向量比重矩阵时，如图5所示，上述步骤S1091具体包括：

S10911：识别所述特征向量比重矩阵中的各个奇异值，所述奇异值为所述特征向量比重矩阵中的非零值矩阵元素。

S10912：基于所述奇异值的数值大小，依次对各个所述奇异值所属的所述矩阵列进行排序，并读取排序后所得到的各个所述矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素。

在对文本集特征矩阵进行奇异值分解后所得到的特征向量比重矩阵中，每一矩阵列将包含有一非零值的矩阵元素，则该矩阵元素为特征向量比值矩阵的奇异值。本申请实施例中，检测出特征向量比值矩阵中的各个奇异值后，依照各奇异值的数值大小，对各个奇异值所属的矩阵列进行排序处理，以使包含数值较大的奇异值的矩阵列能够排列于包含数值较小的奇异值的矩阵列之前。在对各个矩阵列的排序进行调整后，将当前的特征向量比值矩阵确定为更新后的特征向量比值矩阵。此时，再基于上述步骤S1092，提取当前特征向量比值矩阵中排序在前的N个矩阵列。

例如，上一实施例所示例的特征向量比值矩阵S如下：

由于该特征向量比值矩阵所包含的奇异值分别为4.0989、2.3616以及1.2737，且每一奇异值的数值依序递减，因此，更新后的特征向量比值矩阵S不变，即：将4.0989所属的矩阵列排列作为特征向量比值矩阵S中的第一个矩阵列，将2.3616所属的矩阵列排列作为特征向量比值矩阵S中的第二个矩阵列，将1.2737所属的矩阵列排列作为特征向量比值矩阵S中的第三个矩阵列。

优选地，在更新后的特征向量比值矩阵S中，对每相邻的两个矩阵列，计算排序在前的奇异值与排序在后的奇异值的比值。若该比值大于预设阈值，则获取其中排序较前的矩阵列的序列号，并将该序列号更新为当前时刻的超参数值。

例如，若第二列矩阵列所包含的奇异值为4.0989，第三列矩阵列所包含的奇异值为0.0589，且预设阈值为50，则上述两个奇异值的比值69.59大于50，故将当前的超参数值确定为排序在前的矩阵列的序列号，即，将当前的超参数值确定为2，由此实现了超参数值的自动确定及更新。

本申请实施例中，各个奇异值沿着特征向量比值矩阵的对角线由大到小依次排列，且数值下降速度通常较快，由于数值较小的奇异值较难体现比对文本的主题特征，因此，通过将数值较大的N个奇异值所在的矩阵列进行提取，将其他矩阵列进行删除，在降低了特征向量比值矩阵的矩阵维度的同时，保证了更新后的特征向量比值矩阵能够维持比对文本的主题特征，故提高了文本相似度的计算准确性。

作为本申请的一个实施例，图6示出了本申请实施例提供的文本相似度的获取方法S102的具体实现流程，详述如下：

S1021：分别对每一待分析文本进行分词处理，以得到每一所述待分析文本所对应的多个分词。

S1022：根据预设的停用词列表，检测各个所述分词中是否存在停用词。

S1023：若存在与所述停用词匹配的所述分词，则将该分词进行删除，并将剩余的各个所述分词存入词袋模型。

在待分析文本中，不具备实际语义的字符或词组为上述停用词，即，对待分析文本所表达主题特征的影响程度相对较小的词语为停用词。停用词包括但不限于语气助词、副词、介词以及连接词等。

本申请实施例中，在加载停用词列表之前，获取多个预设的字词，并在预设的时间窗口内，检测每一字符在各网页文章中所出现的总次数。对任一字符，若该字符在各网页文章中所出现的总次数大于第一阈值，且在每一网页文章中的出现概率大于第二阈值，则判断该字符为停用词。此时，将该字符添加至停用词列表。

通过加载停用词列表，获取预存储于停用词列表中的各个停用词。对待分析文本所对应的每一分词，检测其与停用词列表中的停用词是否相同。若检测结果为是，则将该分词进行删除处理，以减少待分析文本所对应的分词的总数。仅当待分词文本所对应的每一分词均与停用词列表中的停用词不相同时，才将当前的各个分词存入词袋模型。

本申请实施例中，通过利用预设的停用词列表来检测各个分词中所存在停用词，并将其中的停用词删除后，将剩余的其他分词存入词袋模型，能够减少词袋模型的分词总数，保证了词袋模型中的各个分词均能够表征待分析文本的主题特征，因而降低了文本相似度的计算复杂度，提高了文本相似度的获取效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于本申请实施例所提供的文本相似度的获取方法，图7示出了本申请实施例提供的文本相似度的获取装置的结构框图。为了便于说明，仅示出了与本实施例相关的部分。

参照图7，该装置包括：

第一获取单元71，用于获取预设的待分析文本，所述待分析文本包括参照文本以及多个比对文本。

分词单元72，用于对所述待分析文本进行分词处理，以得到每一所述待分析文本所分别对应的多个分词后，将所述分词存入词袋模型。

第二获取单元73，用于对每一所述待分析文本所对应的每一所述分词，获取该分词在所述词袋模型中的词频逆文本频率TF-IDF信息。

生成单元74，用于基于各个所述待分析文本所关联的所述TF-IDF信息，分别生成与所述多个比对文本对应的文本集特征矩阵以及与所述参照文本对应的文本向量；其中，所述文本集特征矩阵包含多个第一特征向量，每一所述第一特征向量与一所述比对文本匹配。

分解单元75，用于对所述文本集特征矩阵进行奇异值分解，得到单词特征矩阵、文档特征矩阵和特征向量比重矩阵。

映射单元76，用于根据所述单词特征矩阵以及所述特征向量比重矩阵，对所述文本向量进行反向映射处理，得到与所述参照文本匹配的第二特征向量。

计算单元77，用于分别计算每一所述第二特征向量与所述第一特征向量的相似度，并将计算结果输出为所述参照文本与该第二特征向量所匹配的所述比对文本之间的相似度。

可选地，上述文本相似度的获取装置还包括：

第三获取单元，用于获取超参数值，所述超参数值根据用户预设的矩阵目标维度来确。

降维单元，用于基于所述超参数值，分别对各个分解矩阵进行降维处理，以使所述每一所述分解矩阵的特征维度变更为所述超参数值。

其中，所述分解矩阵包括所述单词特征矩阵、所述文档特征矩阵以及所述特征向量比重矩阵。

可选地，所述降维单元包括：

排序子单元，用于在每一所述分解矩阵中，根据矩阵元素的大小顺序，对该分解矩阵所包含的各个所述矩阵元素进行排序处理，并读取排序后所述分解矩阵中所存在的各个矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素。

提取子单元，用于提取排序在前的多个所述矩阵列，并将提取得到的多个所述矩阵列组合为更新后的所述分解矩阵；其中，所述矩阵列的提取数目与所述超参数值相等。

可选地，所述排序子单元具体用于：

若所述分解矩阵为特征向量比重矩阵，则识别所述特征向量比重矩阵中的各个奇异值，所述奇异值为所述特征向量比重矩阵中的非零值矩阵元素；

基于所述奇异值的数值大小，依次对各个所述奇异值所属的所述矩阵列进行排序，并读取排序后所得到的各个所述矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素。

可选地，所述分词单元72包括：

分词子单元，用于分别对每一待分析文本进行分词处理，以得到每一所述待分析文本所对应的多个分词。

检测子单元，用于根据预设的停用词列表，检测各个所述分词中是否存在停用词。

删除子单元，用于若存在与所述停用词匹配的所述分词，则将该分词进行删除，并将剩余的各个所述分词存入词袋模型。

图8是本申请一实施例提供的终端设备的示意图。如图8所示，该实施例的终端设备8包括：处理器80以及存储器81，所述存储器81中存储有可在所述处理器80上运行的计算机可读指令82，例如文本相似度的获取程序。所述处理器80执行所述计算机可读指令82时实现上述各个文本相似度的获取方法实施例中的步骤，例如图1所示的步骤101至107。或者，所述处理器80执行所述计算机可读指令82时实现上述各装置实施例中各模块/单元的功能，例如图7所示单元71至77的功能。

示例性的，所述计算机可读指令82可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器81中，并由所述处理器80执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令82在所述终端设备8中的执行过程。

所述终端设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于处理器80和存储器81。本领域技术人员可以理解，图8仅仅是终端设备8的示例，并不构成对终端设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81可以是所述终端设备8的内部存储单元，例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备，例如所述终端设备8上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种文本相似度的获取方法，其特征在于，包括：

获取预设的待分析文本，所述待分析文本包括参照文本以及多个比对文本；

对所述待分析文本进行分词处理，以得到每一所述待分析文本所分别对应的多个分词后，将所述分词存入词袋模型；

对每一所述待分析文本所对应的每一所述分词，获取该分词在所述词袋模型中的词频逆文本频率TF-IDF信息；

基于各个所述待分析文本所关联的所述TF-IDF信息，分别生成与所述多个比对文本对应的文本集特征矩阵以及与所述参照文本对应的文本向量；其中，所述文本集特征矩阵包含多个第一特征向量，每一所述第一特征向量与一所述比对文本匹配；

对所述文本集特征矩阵进行奇异值分解，得到单词特征矩阵、文档特征矩阵和特征向量比重矩阵；

根据所述单词特征矩阵以及所述特征向量比重矩阵，对所述文本向量进行反向映射处理，得到与所述参照文本匹配的第二特征向量；

分别计算每一所述第二特征向量与所述第一特征向量的相似度，并将计算结果输出为所述参照文本与该第二特征向量所匹配的所述比对文本之间的相似度。
如权利要求1所述的文本相似度的获取方法，其特征在于，在所述对所述文本集特征矩阵进行奇异值分解，得到单词特征矩阵、文档特征矩阵和特征向量比重矩阵之后，还包括：

获取超参数值，所述超参数值根据用户预设的矩阵目标维度来确定；

基于所述超参数值，分别对各个分解矩阵进行降维处理，以使所述每一所述分解矩阵的特征维度变更为所述超参数值；

其中，所述分解矩阵包括所述单词特征矩阵、所述文档特征矩阵以及所述特征向量比重矩阵。
如权利要求2所述的文本相似度的获取方法，其特征在于，所述基于所述超参数值，分别对各个分解矩阵进行降维处理，以使所述每一所述分解矩阵的特征维度变更为所述超参数值，包括：

在每一所述分解矩阵中，根据矩阵元素的大小顺序，对该分解矩阵所包含的各个所述矩阵元素进行排序处理，并读取排序后所述分解矩阵中所存在的各个矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素；

提取排序在前的多个所述矩阵列，并将提取得到的多个所述矩阵列组合为更新后的所述分解矩阵；其中，所述矩阵列的提取数目与所述超参数值相等。
如权利要求3所述的文本相似度的获取方法，其特征在于，所述在每一所述分解矩阵中，根据矩阵元素的大小顺序，对该分解矩阵所包含的各个所述矩阵元素进行排序处理，并读取排序后所述分解矩阵中所存在的各个矩阵列，包括：

若所述分解矩阵为特征向量比重矩阵，则识别所述特征向量比重矩阵中的各个奇异值，所述奇异值为所述特征向量比重矩阵中的非零值矩阵元素；

基于所述奇异值的数值大小，依次对各个所述奇异值所属的所述矩阵列进行排序，并读取排序后所得到的各个所述矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素。
如权利要求1所述的文本相似度的获取方法，其特征在于，所述对所述待分析文本进行分词处理，以得到每一所述待分析文本所分别对应的多个分词后，将所述分词存入词袋模型，包括：

分别对每一待分析文本进行分词处理，以得到每一所述待分析文本所对应的多个分词；

根据预设的停用词列表，检测各个所述分词中是否存在停用词；

若存在与所述停用词匹配的所述分词，则将该分词进行删除，并将剩余的各个所述分词存入词袋模型。
一种文本相似度的获取装置，其特征在于，包括：

第一获取单元，用于获取预设的待分析文本，所述待分析文本包括参照文本以及多个比对文本；

分词单元，用于对所述待分析文本进行分词处理，以得到每一所述待分析文本所分别对应的多个分词后，将所述分词存入词袋模型；

第二获取单元，用于对每一所述待分析文本所对应的每一所述分词，获取该分词在所述词袋模型中的词频逆文本频率TF-IDF信息；

生成单元，用于基于各个所述待分析文本所关联的所述TF-IDF信息，分别生成与所述多个比对文本对应的文本集特征矩阵以及与所述参照文本对应的文本向量；其中，所述文本集特征矩阵包含多个第一特征向量，每一所述第一特征向量与一所述比对文本匹配；

分解单元，用于对所述文本集特征矩阵进行奇异值分解，得到单词特征矩阵、文档特征矩阵和特征向量比重矩阵；

映射单元，用于根据所述单词特征矩阵以及所述特征向量比重矩阵，对所述文本向量进行反向映射处理，得到与所述参照文本匹配的第二特征向量；

计算单元，用于分别计算每一所述第二特征向量与所述第一特征向量的相似度，并将计算结果输出为所述参照文本与该第二特征向量所匹配的所述比对文本之间的相似度。
根据权利要求6所述的文本相似度的获取装置，其特征在于，还包括：

第三获取单元，用于获取超参数值，所述超参数值根据用户预设的矩阵目标维度来确；

降维单元，用于基于所述超参数值，分别对各个分解矩阵进行降维处理，以使所述每一所述分解矩阵的特征维度变更为所述超参数值；

其中，所述分解矩阵包括所述单词特征矩阵、所述文档特征矩阵以及所述特征向量比重矩阵。
根据权利要求7所述的文本相似度的获取装置，其特征在于，所述降维单元包括：

排序子单元，用于在每一所述分解矩阵中，根据矩阵元素的大小顺序，对该分解矩阵所包含的各个所述矩阵元素进行排序处理，并读取排序后所述分解矩阵中所存在的各个矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素；

提取子单元，用于提取排序在前的多个所述矩阵列，并将提取得到的多个所述矩阵列组合为更新后的所述分解矩阵；其中，所述矩阵列的提取数目与所述超参数值相等。
根据权利要求8所述的文本相似度的获取装置，其特征在于，所述排序子单元具体用于：

若所述分解矩阵为特征向量比重矩阵，则识别所述特征向量比重矩阵中的各个奇异值，所述奇异值为所述特征向量比重矩阵中的非零值矩阵元素；

基于所述奇异值的数值大小，依次对各个所述奇异值所属的所述矩阵列进行排序，并读取排序后所得到的各个所述矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素。
根据权利要求6所述的文本相似度的获取装置，其特征在于，所述分词单元包括：

分词子单元，用于分别对每一待分析文本进行分词处理，以得到每一所述待分析文本所对应的多个分词；

检测子单元，用于根据预设的停用词列表，检测各个所述分词中是否存在停用词；

删除子单元，用于若存在与所述停用词匹配的所述分词，则将该分词进行删除，并将剩余的各个所述分词存入词袋模型。
一种终端设备，其特征在于，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取预设的待分析文本，所述待分析文本包括参照文本以及多个比对文本；

对所述待分析文本进行分词处理，以得到每一所述待分析文本所分别对应的多个分词后，将所述分词存入词袋模型；

对每一所述待分析文本所对应的每一所述分词，获取该分词在所述词袋模型中的词频逆文本频率TF-IDF信息；

基于各个所述待分析文本所关联的所述TF-IDF信息，分别生成与所述多个比对文本对应的文本集特征矩阵以及与所述参照文本对应的文本向量；其中，所述文本集特征矩阵包含多个第一特征向量，每一所述第一特征向量与一所述比对文本匹配；

对所述文本集特征矩阵进行奇异值分解，得到单词特征矩阵、文档特征矩阵和特征向量比重矩阵；

根据所述单词特征矩阵以及所述特征向量比重矩阵，对所述文本向量进行反向映射处理，得到与所述参照文本匹配的第二特征向量；

分别计算每一所述第二特征向量与所述第一特征向量的相似度，并将计算结果输出为所述参照文本与该第二特征向量所匹配的所述比对文本之间的相似度。
根据权利要求11所述的终端设备，其特征在于，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取超参数值，所述超参数值根据用户预设的矩阵目标维度来确定；

基于所述超参数值，分别对各个分解矩阵进行降维处理，以使所述每一所述分解矩阵的特征维度变更为所述超参数值；

其中，所述分解矩阵包括所述单词特征矩阵、所述文档特征矩阵以及所述特征向量比重矩阵。
根据权利要求12所述的终端设备，其特征在于，所述基于所述超参数值，分别对各个分解矩阵进行降维处理，以使所述每一所述分解矩阵的特征维度变更为所述超参数值，包括：

在每一所述分解矩阵中，根据矩阵元素的大小顺序，对该分解矩阵所包含的各个所述矩阵元素进行排序处理，并读取排序后所述分解矩阵中所存在的各个矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素；

提取排序在前的多个所述矩阵列，并将提取得到的多个所述矩阵列组合为更新后的所述分解矩阵；其中，所述矩阵列的提取数目与所述超参数值相等。
根据权利要求13所述的终端设备，其特征在于，所述在每一所述分解矩阵中，根据矩阵元素的大小顺序，对该分解矩阵所包含的各个所述矩阵元素进行排序处理，并读取排序后所述分解矩阵中所存在的各个矩阵列，包括：

若所述分解矩阵为特征向量比重矩阵，则识别所述特征向量比重矩阵中的各个奇异值，所述奇异值为所述特征向量比重矩阵中的非零值矩阵元素；

基于所述奇异值的数值大小，依次对各个所述奇异值所属的所述矩阵列进行排序，并读取排序后所得到的各个所述矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素。
根据权利要求11所述的终端设备，其特征在于，所述对所述待分析文本进行分词处理，以得到每一所述待分析文本所分别对应的多个分词后，将所述分词存入词袋模型，包括：

分别对每一待分析文本进行分词处理，以得到每一所述待分析文本所对应的多个分词；

根据预设的停用词列表，检测各个所述分词中是否存在停用词；

若存在与所述停用词匹配的所述分词，则将该分词进行删除，并将剩余的各个所述分词存入词袋模型。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被至少一个处理器执行时实现如下步骤：

获取预设的待分析文本，所述待分析文本包括参照文本以及多个比对文本；

对所述待分析文本进行分词处理，以得到每一所述待分析文本所分别对应的多个分词后，将所述分词存入词袋模型；

对每一所述待分析文本所对应的每一所述分词，获取该分词在所述词袋模型中的词频逆文本频率TF-IDF信息；

基于各个所述待分析文本所关联的所述TF-IDF信息，分别生成与所述多个比对文本对应的文本集特征矩阵以及与所述参照文本对应的文本向量；其中，所述文本集特征矩阵包含多个第一特征向量，每一所述第一特征向量与一所述比对文本匹配；

对所述文本集特征矩阵进行奇异值分解，得到单词特征矩阵、文档特征矩阵和特征向量比重矩阵；

根据所述单词特征矩阵以及所述特征向量比重矩阵，对所述文本向量进行反向映射处理，得到与所述参照文本匹配的第二特征向量；

分别计算每一所述第二特征向量与所述第一特征向量的相似度，并将计算结果输出为所述参照文本与该第二特征向量所匹配的所述比对文本之间的相似度。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述计算机可读指令被至少一个处理器执行时还实现如下步骤：

获取超参数值，所述超参数值根据用户预设的矩阵目标维度来确定；

基于所述超参数值，分别对各个分解矩阵进行降维处理，以使所述每一所述分解矩阵的特征维度变更为所述超参数值；

其中，所述分解矩阵包括所述单词特征矩阵、所述文档特征矩阵以及所述特征向量比重矩阵。
根据权利要求17所述的计算机可读存储介质，其特征在于，所述基于所述超参数值，分别对各个分解矩阵进行降维处理，以使所述每一所述分解矩阵的特征维度变更为所述超参数值，包括：

在每一所述分解矩阵中，根据矩阵元素的大小顺序，对该分解矩阵所包含的各个所述矩阵元素进行排序处理，并读取排序后所述分解矩阵中所存在的各个矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素；

提取排序在前的多个所述矩阵列，并将提取得到的多个所述矩阵列组合为更新后的所述分解矩阵；其中，所述矩阵列的提取数目与所述超参数值相等。
根据权利要求18所述的计算机可读存储介质，其特征在于，所述在每一所述分解矩阵中，根据矩阵元素的大小顺序，对该分解矩阵所包含的各个所述矩阵元素进行排序处理，并读取排序后所述分解矩阵中所存在的各个矩阵列，包括：

若所述分解矩阵为特征向量比重矩阵，则识别所述特征向量比重矩阵中的各个奇异值，所述奇异值为所述特征向量比重矩阵中的非零值矩阵元素；

基于所述奇异值的数值大小，依次对各个所述奇异值所属的所述矩阵列进行排序，并读取排序后所得到的各个所述矩阵列；每一所述矩阵列包含预设数量的所述矩阵元素。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述对所述待分析文本进行分词处理，以得到每一所述待分析文本所分别对应的多个分词后，将所述分词存入词袋模型，包括：

分别对每一待分析文本进行分词处理，以得到每一所述待分析文本所对应的多个分词；

根据预设的停用词列表，检测各个所述分词中是否存在停用词；

若存在与所述停用词匹配的所述分词，则将该分词进行删除，并将剩余的各个所述分词存入词袋模型。