CN112257410A

CN112257410A - 一种非平衡文本的相似度计算方法

Info

Publication number: CN112257410A
Application number: CN202011107977.5A
Authority: CN
Inventors: 谢乾; 马甲林; 蒋圣; 戴晶; 周国栋; 汪涛; 吴大超
Original assignee: Nanjing Haoxiang Basic Software Research Institute Co ltd; Nanjing Keti Software Technology Co ltd; Jiangsu Zhuoyi Information Technology Co ltd; Huaiyin Institute of Technology
Current assignee: Nanjing Haoxiang Basic Software Research Institute Co ltd; Nanjing Keti Software Technology Co ltd; Jiangsu Zhuoyi Information Technology Co ltd; Huaiyin Institute of Technology
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-22

Abstract

本发明公开一种非平衡文本的相似度计算方法，包括以下步骤：输入语料库并进行预处理；采用word2vec模型对语料库预训练词向量；保存上述预训练所得的词向量结果；输入待计算相似度的较短文本T₁和较长文本T₂；采用TF‑IDF对文本T₁和文本T₂进行关键词提取。对文本T₁的所有关键词基于词向量结果进行语义相关词扩充至和文本T₂长度相等；计算文本T₁和文本T₂的相似度。采用本发明公开的相似度计算方法，可提高计算非平衡文本相似度的准确率。

Description

一种非平衡文本的相似度计算方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种非平衡文本的相似度计算方法。

背景技术

文本相似度计算是文本分析的核心步骤之一，在文本分类、信息检索、自动问答、情感分析等众多文本处理任务中均要用到。目前常用的文本相似度计算方法主要有欧式距离、余弦距离、KL距离(Kullback-Leibler Divergence)及其他基于深度学***衡文本(文本长度差距较小)相似度时准确率较高，而对非平衡文本(文本长度差距较大)准确率较差。然而，当前信息技术许多应用中常常需要计算非平衡文本的相似度，例如：在搜索引擎中，由检索词查找目标页面；在论文检索中，由论文标题或摘要匹配论文内容；在自动问答中，由问句查找答案等。由于长度较短文本携带较少的信息，导致与长文计算相似度时，传统方法效果较差，计算准确率低。

发明内容

本发明解决的术问题：技长度较短文本携带较少的信息，导致与长文计算相似度时，传统方法效果较差，计算准确率低。

技术方案：为了解决上述技术问题，本发明采用的技术方案如下：

一种非平衡文本的相似度计算方法，包括以下步骤：

S1：输入语料库并进行预处理；

S2：对语料库预训练词向量；

S3：保存步骤S2预训练所得的词向量结果；

S4：输入待计算相似度的较短文本T₁和较长文本T₂；

S5：对文本T₁和文本T₂进行关键词提取；

S6：对文本T₁的所有关键词基于词向量结果进行语义相关词扩充至和文本T₂长度相等；

S7：计算文本T₁和文本T₂的相似度。

进一步地，步骤S1中，对语料库预训练词向量前采用python的jieba分词工具包对预料库中的所有文本进行分词和停用词处理。

进一步地，步骤S2中，采用word2vec模型对语料库预训练词向量。

进一步地，步骤S5中，采用TF-IDF对文本T₁和文本T₂进行关键词提取，具体步骤如下：

S51：对文本T₁和文本T₂进行分词；

S52：对文本T₁和文本T₂去掉停用词；

S53：计算文本T₁和文本T₂的所有词的TF-IDF值，选取大于阈值μ的词为文本关键词，其中，TF-DF的计算方式如下：

TF-IDF＝TF*IDF

式中：TF＝某词在文本中出现的频次/该文本的总词数计算，

IDF＝log(语料库中文本总数/包含该词的文本数+1)。

进一步地，步骤S6，对文本T₁的所有关键词基于词向量结果进行语义相关词扩充至和文本T₂长度相等的具体步骤如下：

S61：遍历文本T₁的所有关键词，对文本T₁中的每一个关键词w_i，从步骤S3所得到词向量结果中计算其语义距离，选取和w_i距离最小的前N_i个词作为w_i的语义相关词；

S62：输出较短文本T₁扩充后的文本T₁’。

进一步地，语义距离采用余弦相似度计算，具体方式如下：

上式中，Sim()表示相似度计算；

Sim(w_i，w_j)表示关键词w_i和w_j的语义距离；

W_i和W_j分别为关键词w_i和w_j的词向量；

K为词向量的长度；

W_i，n和W_j，n分别为关键词w_i和w_j的词向量的第n个分量。

进一步地，文本T₁的关键词w_i，选取与w_i距离最近的前N_i个语义相关词，所述参数N_i由以下公式确定：

上式中，TF-IDF(w_i)为步骤S5对词w_i的所计算的TF-IDF值；

|T₁|和|T₂|为分别为文本T₁和文本T₂关键词的数量。

进一步地，步骤7中，计算文本T₁和文本T₂的相似度的具体步骤如下：

S71：计算文本T₁’的文本向量T_1-1’；

S72：计算文本T₂的文本向量T_2-2，

S73：采用余弦公式计算文本向量T_1-1’和T_2-2的相似度；

S74：输出文本T₁和T₂相似度。

进一步地，步骤S71中，文本T₁’的文本向量T_1-1’，通过以下方式得到：

上式中，N_T为文本T₁’和文本T2的关键词个数，

W_n为词w_n在步骤S3所得预训练模型结果中的词向量。

步骤S72中，文本T₂的文本向量T_2-2，通过以下方式得到：

上式中，N_T为文本T₁’和文本T₂的关键词个数；

W_m为词w_m在步骤S3所得预训练模型结果中的词向量。

进一步地，步骤S73中，采用余弦公式计算文本向量T_1-1’和T_2-2的相似度：

T’_1-1，h和T_2-2，h分别为文本向量T_1-1’和T_2-2的第h个分量；

步骤S74中，Sim(T₁，T₂)＝Sim(T_1-1’，T_2-2)，输出文本T₁和T₂相似度Sim(T₁，T₂)。

有益效果：与现有技术相比，本发明具有以下优点：

本发明公开的非平衡文本的相似度计算方法，基于深度学***衡状态，从而非平解决该短文本与长文本在非平衡长度下相似度计算结果准确率差的问题。而目前常用的文本相似度计算方法，如：欧式距离、余弦距离、KL距离及其他基于深度学***衡长度文本的相似度计算结果准确率差的问题。本发明提供的非平衡文本的相似度计算方法，可大幅度提高非平衡文本相似度计算结果的准确率。

具体实施方式

下面结合具体实施例，进一步阐明本发明，实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

本申请的非平衡文本的相似度计算方法，具体包括以下步骤：

步骤S1：输入语料库并进行预处理；

本发明实施例采用的语料库是信息科技类的学术期刊已发表公开的100万篇学术论文。每篇论文包括题目(作为短文本)和摘要(作为对应长文本)构成非平衡文本。具体的对语料库预训练词向量前采用python的jieba分词工具包对预料库中的所有文本进行分词和停用词处理。

步骤S2：采用word2vec模型对语料库预训练词向量；

具体的对语料库预训练词向量采用python开源的gensim包中的word2vec模型进行训练，

步骤S3：保存上述步骤2预训练所得的词向量结果，结果保持到磁盘文件中。

步骤S4：输入待计算相似度的较短文本T₁和较长文本T₂

步骤S5：采用TF-IDF(term frequency-inverse document frequency)对文本T₁和文本T₂进行关键词提取，具体步骤如下：

步骤S51：对文本T₁和文本T₂进行分词；

步骤S52：对文本T₁和文本T₂去掉停用词；

步骤S53：计算文本T₁和文本T₂的所有词的TF-IDF值，选取大于阈值μ的词为文本关键词。其中，TF-IDF的计算公式如下：

TF-IDF＝TF*IDF

上式中，TF＝某词在文本中出现的频次/该文本的总词数计算，

IDF＝log(语料库中文本总数/包含该词的文本数+1)。阈值μ为参数，在实际案例中通过人工经验或实验确定。本例中取μ＝0.4。

步骤S6：对文本T₁的所有关键词基于词向量结果进行语义相关词扩充至和文本T₂长度相等，具体步骤如下：

步骤S61：遍历文本T₁的所有关键词，对文本T₁中的每一个关键词w_i，从步骤S3所得到词向量结果中计算其语义距离，选取与w_i距离最小的前N_i个词作为w_i的语义相关词。

其中，语义距离采用余弦相似度计算，具体公式如下：

上式中，Sim()表示相似度计算；

Sim(w_i，w_j)表示关键词w_i和w_j的语义距离；

K为词向量的长度；

W_i，n和W_j，n分别为关键词w_i和w_j的词向量的第n个分量。

进一步，其中，文本T₁的关键词w_i，选取与w_i距离最近的前N_i个语义相关词，参数N_i由以下公式确定：

上式中，TF-IDF(w_i)为步骤S5对词w_i的所计算的TF-IDF值；

|T₁|和|T₂|为分别为文本T₁和文本T₂关键词的数量。

步骤S62：输出较短文本T₁扩充后的文本T₁’。

步骤S7：计算文本T₁和文本T₂的相似度。具体步骤如下：

步骤S71：文本T₁’的文本向量T_1-1’，由如下公式得到：

上式中，N_T为文本T₁’和文本T₂的关键词个数；

W_n为词w_n在步骤S3所得预训练模型结果中的词向量。

步骤S72：文本T₂的文本向量T_2-2，由如下公式得到：

上式中，N_T为文本T₁’和文本T₂的关键词个数；

W_m为词w_m在步骤3所得预训练模型结果中的词向量。

步骤S73：采用余弦公式计算文本向量T_1-1’和T_2-2的相似度：

步骤S74：Sim(T₁，T₂)＝Sim(T_1-1’，T_2-2)，输出文本T₁和T₂相似度Sim(T₁，T₂)。

为进一步说明本发明提供方法的实施效果，另选用信息科技类的学术期刊已发表公开的1000篇学术论文，每篇论文包括题目(作为短文本)和摘要(作为对应长文本)构成非平衡文本作为数据进行验证。

将1000篇论文的题目与该1000个摘要采用本发明提供的相似度计算方法分别计算相似度，选取结果中相似度值最大的为本发明提供方法的最终结果。

评价标准：实验结果所显示相似度值最大者，如果题目和摘要与实际相符，即为结果正确。

评价基准：本发明提出的方面与余弦相似度计算方法进行比较。

验证结果：余弦相似度计算方法正确率64.6％，而本发明提出的方法正确率可达到80.2％，可见，采用发明提供的非平衡文本的相似度计算方法，可大幅度提高非平衡文本相似度计算结果的准确率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种非平衡文本的相似度计算方法，其特征在于，包括以下步骤：

S1：输入语料库并进行预处理；

S2：对语料库预训练词向量；

S3：保存步骤S2预训练所得的词向量结果；

S4：输入待计算相似度的较短文本T₁和较长文本T₂；

S5：对文本T₁和文本T₂进行关键词提取；

S7：计算文本T₁和文本T₂的相似度。

2.根据权利要求1所述的非平衡文本的相似度计算方法，其特征在于：步骤S1中，对语料库预训练词向量前采用python的jieba分词工具包对预料库中的所有文本进行分词和停用词处理。

3.根据权利要求1所述的非平衡文本的相似度计算方法，其特征在于：步骤S2中，采用word2vec模型对语料库预训练词向量。

4.根据权利要求1所述的非平衡文本的相似度计算方法，其特征在于：步骤S5中，采用TF-IDF对文本T₁和文本T₂进行关键词提取，具体步骤如下：

S51：对文本T₁和文本T₂进行分词；

S52：对文本T₁和文本T₂去掉停用词；

S53：计算文本T₁和文本T₂的所有词的TF-IDF值，选取大于阈值μ的词为文本关键词，其中，TF-IDF的计算方式如下：

TF-IDF＝TF*IDF

式中：TF＝某词在文本中出现的频次/该文本的总词数计算，

IDF＝log(语料库中文本总数/包含该词的文本数+1)。

5.根据权利要求1所述的非平衡文本的相似度计算方法，其特征在于：步骤S6，对文本T₁的所有关键词基于词向量结果进行语义相关词扩充至和文本T₂长度相等的具体步骤如下：

S62：输出较短文本T₁扩充后的文本T₁’。

6.根据权利要求5所述的非平衡文本的相似度计算方法，其特征在于：语义距离采用余弦相似度计算，具体方式如下：

上式中，Sim()表示相似度计算；

Sim(w_i，w_j)表示关键词w_i和w_j的语义距离；

W_i和W_j分别为关键词w_i和w_j的词向量；

K为词向量的长度；

W_i，n和W_j，n分别为关键词w_i和w_j的词向量的第n个分量。

7.根据权利要求6所述的非平衡文本的相似度计算方法，其特征在于：文本T₁的关键词w_i，选取与w_i距离最近的前N_i个语义相关词，所述参数N_i由以下公式确定：

上式中，TF-IDF(w_i)为步骤S5对词w_i的所计算的TF-IDF值；

|T₁|和|T₂|为分别为文本T₁和文本T₂关键词的数量。

8.根据权利要求1所述的非平衡文本的相似度计算方法，其特征在于：步骤7中，计算文本T₁和文本T₂的相似度的具体步骤如下：

S71：计算文本T₁’的文本向量T_1-1’；

S72：计算文本T₂的文本向量T_2-2，

S73：采用余弦公式计算文本向量T_1-1’和T_2-2的相似度；

S74：输出文本T₁和T₂相似度。

9.根据权利要求8所述的非平衡文本的相似度计算方法，其特征在于：步骤S71中，文本T₁’的文本向量T_1-1’，通过以下方式得到：

上式中，N_T为文本T₁’和文本T₂的关键词个数，

W_n为词w_n在步骤S3所得预训练模型结果中的词向量。

步骤S72中，文本T₂的文本向量T_2-2，通过以下方式得到：

上式中，N_T为文本T₁’和文本T₂的关键词个数；

W_m为词w_m在步骤S3所得预训练模型结果中的词向量。

10.根据权利要求8所述的非平衡文本的相似度计算方法，其特征在于：步骤S73中，采用余弦公式计算文本向量T_1-1’和T_2-2的相似度：

T_1-1’_，h和T_2-2，h分别为文本向量T_1-1’和T_2-2的第h个分量；