CN107908622A

CN107908622A - 一种基于同义关联词的文本对比方法

Info

Publication number: CN107908622A
Application number: CN201711174795.8A
Authority: CN
Inventors: 杜庆治; 陈鸣; 邵玉斌; 龙华
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2018-04-13

Abstract

本发明涉及一种基于同义关联词的文本对比方法，属于自然语言处理技术领域。本发明本发明对Simhash算法中TF‑IDF算法进行了改进，首先，对文章预处理，去除文章中无意义的词，留下实义词；然后，抽取与文章主题相关的同义词，及同义词的相关词进行权重的加权和调整，再将以上词进行权重排序后，选取关键字权重最大的前N个词作为文本的特征词，计算文章的Simhash值；最后，重复以上步骤，计算对比文章的特征词Simhash值，从两者之间的汉明距离，判断两篇文章的是否相似。本发明主要解决Simhash算法文本查重效果慢，准确率低等问题，大大提高了文本查重的效率和计算准确性。

Description

一种基于同义关联词的文本对比方法

技术领域

本发明涉及一种基于同义关联词的文本对比方法，属于自然语言处理技术领域。

背景技术

在数据挖掘及知识信息发现领域，大量数据的喷涌带来的一大挑战就是信息的大量重复，在国内，据统计有30％重复网页，而重复信息太多是造成了检索困难的主要问题之一。simhash算法专门解决亿万级网页去重问题，当然在文本去重方面应用也非常广泛，不过相比网页去重更加复杂，因为中文句式结构特殊且一词多义。此算法主要的核心思想就是降维，将高维的特征向量映射到低维的特征向量，通过计算两个向量的汉明距离判断两文档相似或重复程度。在信息论中，两个等长字符串之间的汉明距离是两字符串之间对应位置数字不同的个数。比如，1000110和1000001的汉明距离为3。基于以上所述，可以推广到文本特征值进行查重，而且是基于反映主题同义词及相关词权重进行加权，选取权重最大的前N个词作为特征词计算进行查重。

发明内容

本发明提供了一种基于同义关联词的文本对比方法，以用于Simhash算法文本查重效果慢，准确率低等问题，本发明大大提高了文本查重的效率和计算准确性。

本发明的技术方案是：一种基于同义关联词的文本对比方法，所述方法的具体步骤如下：

Step1、对文章进行预处理；预处理包括：分词，去停用词，分别使用分词包，停用词库进行分词和去停用词；

Step2、选取文章主题词的同义词及同义词的相关词进行权重加权和调整，之后选出文章的特征词；

Step2.1、根据相似度查找文章主题词的同义词；

Step2.2、同义词加权；

Step2.3、同义词的相关词的权重加权和调整；

Step2.4、计算完所有词语的权重后，找出权重最大的前N个词语作为文本的特征词；其中30≤N≤50；

Step3、根据选出的特征词计算其Simhash值来作为被查文章的Simhash值；

Step4、重复以上步骤，计算对比文章Simhash值，然后计算两者的汉明距离，当两篇文档的汉明距离小于20，说明这两篇文章相似度很高，否则认为两篇文章的相似度不高。

所述步骤Step2.1中，文章主题词的同义词的查找通过《同义词词林》再结合相似度进行查找，采用相似度计算公式计算2个词语的相似度，表示为：其中，Sim_j(S₁,S₂)为2个概念的义原描述式，β_i是可调参数，而且有β₁+β₂+β₃+β₄＝1，β₁≥β₂≥β₃≥β₄；

同义词集合指词语t和与t在文本中有同义关系的所有词语的集合，用S＝{S₁,S₂,S₃,...,S_m}表示。

所述步骤Step2.2中，同义词加权的方式为：同义词集合中权重最大的词作为标准词，其他的词语根据词语相似度来对标准词进行加权，给出了一个值β，0.6≤β＜1只有相似度大于β的才被认为是能给标准词加权的同义词，同义词加权分3种情况：

1)词语t_i没有同义词则w_i不变；2)t_i的同义词在V中，计算t_i与其同义词之间的相似度Sim并与β比较,若Sim＞β，则给t_i加权并删除t_i的同义词，若Sim＜β,则不认为它是同义词，寻找下一个同义词；3)t_i的同义词没有在V中，计算t_i与其同义词之间的相似度Sim并与β比较，若Sim＞β，则给t_i加权，若Sim＜β，寻找下一个同义词，若t_i有同义词t_j，则t_i加权公式为：w_i ^*＝w_i+w_j*Sim(t_i,t_j)，其中，V为同义词集合，w_i为第i词对应的权重值。

所述步骤Step2.3中，文章主题词同义词的相关词也是通过《同义词词林》查找出来的，文章主题词同义词的相关词的权重加权和调整，是通过两个词出现在同一句子频对相关词权重加权和调整，表示为：其中,p_ij表示词语t_i与词语t_j的在同一个句子出现概率，词语t_j在文本出现的次数为m_j，词语t_i在文本出现的次数为m_i，词语t_i与t_j之间的在同一个句子出现频率m_ij，m_ij＝m_ji，m_ii＝m_i，同义词集合中多个词语出现在同一个句子中的加权方式为：其中p_s为与同义词集合中的多个词具有在同一个句子出现的概率；对同义词集合中的词语及其相关词进行权重调整，同义词集合中的词语修正方式为：同义词的相关词修正方式为：其中w_i为第i词对应的权重值。

本发明的有益效果是：

本发明对Simhash算法中TF-IDF算法进行了改进，首先，对文章预处理，去除文章中无意义的词，留下实义词；然后，抽取与文章主题相关的同义词，及同义词的相关词进行权重的加权和调整，再将以上词进行权重排序后，选取关键字权重最大的前N个词作为文本的特征词，计算文章的Simhash值；最后，重复以上步骤，计算对比文章的特征词Simhash值，从两者之间的汉明距离，判断两篇文章的是否相似。本发明与现有技术相比，主要解决Simhash算法文本查重效果慢，准确率低等问题，大大提高了文本查重的效率和计算准确性。

附图说明

图1为本发明中的总流程图；

图2为本发明中步骤Step1详细流程图；

图3为本发明中步骤Step2详细流程图。

具体实施方式

实施例1：如图1-3所示，一种基于同义关联词的文本对比方法，所述方法的具体步骤如下：

Step2、选取文章主题词的同义词及同义词的相关词进行权重加权和调整，之后选出文章的特征词；比如一篇讲国足的文章，(国足*4，球队*3，球员*2，…)

Step2.1、根据相似度查找文章主题词的同义词；

所述步骤Step2.1中，文章主题词的同义词的查找通过《同义词词林》再结合相似度进行查找，《同义词词林》查找同义词，《同义词词林》是一部类义词典，先找到“国足”这个词，再一次比对找出文章中全部与其同义的词，及相关的词；采用相似度计算公式计算2个词语的相似度，表示为：其中，Sim_j(S₁,S₂)为2个概念的义原描述式，即更形象具体的描述一个词，比如“国足”，球是圆的，只能用脚踢等多个词描述国足的特点，β_i是可调参数，而且有β₁+β₂+β₃+β₄＝1，β₁≥β₂≥β₃≥β₄；

同义词集合指词语t和与t在文本中有同义关系的所有词语的集合，用S＝{S₁,S₂,S₃,...,S_m}表示。比如，文中{国足，球队，球员，国家队，……}，集合中指的是“国足”的所有同义词集合；

同一文本中某个词的同义词出现较多时，表明这篇文本的主题与这个同义词集合所表达的概念是相近的.因此，进行词频统计时将同义词因素考虑到特征词的选择中，能更好地选择表示文本主题的特征词,更能提高提取特征词的准确度。

Step2.2、同义词加权；

加权的标准：同义词集合中权重最大的词作为标准词,其他的词语根据词语相似度来对标准词进行加权.

《同义词词林》是一部类义词典,有些同属一类的词语之间的相似度并不高；所述步骤Step2.2中，同义词加权的方式为：同义词集合中权重最大的词作为标准词，其他的词语根据词语相似度来对标准词进行加权，给出了一个值β，β取0.6，只有相似度大于β的才被认为是能给标准词加权的同义词，同义词加权分3种情况：

1)词语t_i没有同义词则w_i不变；2)t_i的同义词在V中，计算t_i与其同义词之间的相似度Sim并与β比较,若Sim＞β，则给t_i加权并删除t_i的同义词，若Sim＜β,则不认为它是同义词，寻找下一个同义词；3)t_i的同义词没有在V中，计算t_i与其同义词之间的相似度Sim并与β比较，若Sim＞β，则给t_i加权，若Sim＜β，寻找下一个同义词，若t_i有同义词t_j，则t_i加权公式为：w_i ^*＝w_i+w_j*Sim(t_i,t_j)，其中，V为同义词集合，w_i为第i词对应的权重值。比如通过上面的方式：将所有跟“国足”的同义词进行合并加权；

Step2.3、同义词的相关词的权重加权和调整；

同义词集合表达的概念与文本的主题相近,那么同义词集合中的词语的相关词也必定与文本的主题有密切关系,在特征提取中它的权重也应该相应的增加；所述步骤Step2.3中，文章主题词同义词的相关词也是通过《同义词词林》查找出来的，文章主题词同义词的相关词的权重加权和调整，是通过两个词出现在同一句子频对相关词权重加权和调整，表示为：其中,2m_ij＜m_i+m_j，p_ij表示词语t_i与词语t_j的在同一个句子出现概率，词语t_j在文本出现的次数为m_j，词语t_i在文本出现的次数为m_i，词语t_i与t_j之间的在同一个句子出现频率m_ij，m_ij＝m_ji，m_ii＝m_i，比如，“国足”在文章出现了200次，球队出现100次，同时在同一个句子当中出现了50次，则概率为0.2；计算结果会得到同义词集合中的所有词与文本中词语的在同一个句子出现概率，一个m行n列的矩阵.在文本中因为同义词表达的是同一个概念,因此跟同义词集合中多个词都有同现关系的词语的权重也应该得到加强；

其中，同义词集合中多个词语出现在同一个句子中的加权方式为：其中p_s为与同义词集合中的多个词具有在同一个句子出现的概率；

对同义词集合中的词语及其相关词进行权重调整，同义词集合中的词语修正方式为：

同义词的相关词修正方式为：其中w_i为第i词对应的权重值。

同义词集合中的词语的权重得到了加强，跟同义词关联比较大的词语权重也得到了加强；比如：{国足，球队，球员，国家队，……中每个词权重通过公式加权，与主题相关的词比如：“世界杯”、“出线”等与主题相关的词也通过公式对权重加权；

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于同义关联词的文本对比方法，其特征在于：所述方法的具体步骤如下：

Step2.1、根据相似度查找文章主题词的同义词；

Step2.2、同义词加权；

Step2.3、同义词的相关词的权重加权和调整；

2.根据权利要求1所述的基于同义关联词的文本对比方法，其特征在于：所述步骤Step2.1中，文章主题词的同义词的查找通过《同义词词林》再结合相似度进行查找，采用相似度计算公式计算2个词语的相似度，表示为：

其中，Sim_j(S₁,S₂)为2个概念的义原描述式，β_i是可调参数，而且有β₁+β₂+β₃+β₄＝1，β₁≥β₂≥β₃≥β₄；

3.根据权利要求2所述的基于同义关联词的文本对比方法，其特征在于：所述步骤Step2.2中，同义词加权的方式为：同义词集合中权重最大的词作为标准词，其他的词语根据词语相似度来对标准词进行加权，给出了一个值β，0.6≤β＜1只有相似度大于β的才被认为是能给标准词加权的同义词，同义词加权分3种情况：

1)词语t_i没有同义词则w_i不变；2)t_i的同义词在V中，计算t_i与其同义词之间的相似度Sim并与β比较,若Sim＞β，则给t_i加权并删除t_i的同义词，若Sim＜β,则不认为它是同义词，寻找下一个同义词；3)t_i的同义词没有在V中，计算t_i与其同义词之间的相似度Sim并与β比较，若Sim＞β，则给t_i加权，若Sim＜β，寻找下一个同义词，若t_i有同义词t_j，则t_i加权公式为：其中，V为同义词集合，w_i为第i词对应的权重值。

4.根据权利要求1所述的基于同义关联词的文本对比方法，其特征在于：

所述步骤Step2.3中，文章主题词同义词的相关词也是通过《同义词词林》查找出来的，文章主题词同义词的相关词的权重加权和调整，是通过两个词出现在同一句子频对相关词权重加权和调整，表示为：

其中,p_ij表示词语t_i与词语t_j的在同一个句子出现概率，词语t_j在文本出现的次数为m_j，词语t_i在文本出现的次数为m_i，词语t_i与t_j之间的在同一个句子出现频率m_ij，m_ij＝m_ji，m_ii＝m_i，同义词集合中多个词语出现在同一个句子中的加权方式为：

其中p_s为与同义词集合中的多个词具有在同一个句子出现的概率；

同义词的相关词修正方式为：其中w_i为第i词对应的权重值。