CN108647322A

CN108647322A - 基于词网识别大量Web文本信息相似度的方法

Info

Publication number: CN108647322A
Application number: CN201810445807.4A
Authority: CN
Inventors: 靳宇倡; 安俊秀; 文仁强
Original assignee: Sichuan Normal University
Current assignee: Sichuan Normal University
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2018-10-12
Anticipated expiration: 2038-05-11
Also published as: CN108647322B

Abstract

本发明公开了一种基于词网识别大量Web文本信息相似度的方法，包括以下步骤：(1)构建词网；(2)新Web网页文本信息相似度识别，包括以下步骤：从新Web网页中提取文本信息构成新文档，从新文档中提取特征词f₁、f₂、…、f_m；求解每一个特征词f的相似词的集合；求解每一个特征词f的相似文档集合；确定新文档的相似文档并计算相似文档集中文档的相似度值；过滤相似文档集中的文档，得到最终的相似度文档集合；(3)按步骤(1)的方法对新Web网页进行词网更新。利用本方法，可以用于发现信息剽窃或信息模仿、篡改，可以用于发掘不同领域之间隐含存在的相关关系，可以消除重复的网页，降低搜索引擎的负担，优化存储和索引结构。

Description

基于词网识别大量Web文本信息相似度的方法

技术领域

本发明涉及一种识别互联网文本信息相似度的方法，尤其涉及一种基于词网识别大量Web文本信息相似度的方法。

背景技术

互联网技术的变革在传递信息和知识的同时，也为线下上网用户提供了一个发布信息、交流沟通的平台，引入普通用户参与大量在线信息的快速增长，促成互联网成为信息资源库的重要组成部分之一。

为了努力应对互联网信息的高速增长，许多研究项目把目标定位于如何有效地组织这些大量的信息，使终端用户能够快速、准确地获取所需信息，并降低组织信息的成本。互联网中的Web信息是以文本的形式通过HTML标记进行合理地格式化操作显示给终端用户，因此许多Web文档处理***都是基于文本数据处理技术实现对Web文档采用普通文本的一般化处理方式。Web文档处理技术包括很多过程，按照一般形式有：网页爬取、去除HTML标记、消除多余的空行、去除干扰词、提取词干、文本数据挖掘、信息展示等。如果针对存在链接关系的相关网页进行特别处理，还需要分析网页之间的连接关系，整个处理过程的核心是文本数据挖掘。文本数据挖掘与传统的数据挖掘技术在方法上存在许多共同的地方，包括分析数据潜在的固有结构，对相似数据进行聚类，当应用于普通文本数据，聚类方法试着识别文本文档的所属组，然后根据文档之间的相似程度形成不同的簇，其中簇内的文档之间具有很高的相似度，而簇间的文档之间具有很低的相似度。

因此，针对互联网对信息进行有序规范的组织，提高互联网***息的透明化和有序化，是为终端用户在提供信息获取服务过程中不被海量信息淹没的首要解决途径之一。尤其是进入移动互联网时代，要快速地从大量的信息海洋中获取并展示给终端用户有价值的信息，同时还要确保参与信息产生的个人或机构组织的财产安全和隐私保密，消除互联网中的无用信息、重复信息、敏感信息，是提高互联网用户体验的必要工作之一。

传统方法在比较文本相似的过程中所采用的普遍手段是基于文本字面内容比较的方式，具有代表性的这类方法包括基于文本内容的散列方法、文档向量空间模型方法以及编辑距离方法等，如：(1)通过终端用户提供的查询关键词去同预先建立好的文档索引库中各个文档提供的主题词进行比较，若查询关键词和文档主题词的相似度在某一预先设定的阈值内，则认为包含该主题词的文档为用户所需要的返回结果；(2)或者用于比较大量的Web文本文档之间相似度的一种更高效、简单的方法，即simhash法，该方法由Google实践于其搜索引擎中在爬取网页时去除大量的重复网页，经验证明具有很好的相似文本识别能力和适用于Google快速地处理海量Web网页的需求，且不会产生蝴蝶效应。考虑到一个文本文档是由一系列词组成，采用k-gram方法选取K个相继连续的词构成一个子序列，然后把子序列转换成一个散列值形成一个shingle，最终一个文档由若干个shingle构成，代表一个文档的所有特征集合，作为该文档区别于其他文档的唯一标识，这样，基于文本内容的shingle方法通过比较不同文档的shingle散列值实现对相似文档的识别。(3)与散列方法相对应，另一类方法将文档经过预处理只包含若干个特征词，特征词的特点是在某个文本文档中的出现频率很高，而在其它文本文档中的出现频率很低，因此特征词针对不同文本具有很好的区分能力。文档向量空间模型方法就是提取出文档中的所有特征词，然后计算所有特征词的TF-IDF值，把文档转换成由一系列特征词的TF-IDF值构成的文本特征向量，通过比较两个文档的文本特征向量的差异即可计算出两个文档的相似度；(4)编辑距离方法的思想是通过***、删除、替换等编辑操作将一个文本串变成为另一个文本串，其计算两个文本串之间相似度的方式是统计经过上述编辑操作的总次数，该方法与散列方法和向量空间模型方法相比，更直接基于文本串内容进行不同文本串之间的相似度比较，所计算的结果也更准确，但该方法并不适用于长文本串，计算过程所需内存和CPU时间随着文本串的长度的增加而成倍数增长。

上述方法根据文本的字面内容确定文本的相似度方法能够返回查询请求所需要的基本结果或从字面内容上能够比较文本的相似度，但是存在如下不足： (1)没有考虑到终端用户查询方法具有一定的模糊性，即对查询请求应该返回的目标结果不明确从而使输入的查询请求内容没有针对性，以至返回的查询结果很可能并不是用户所期望的结果；(2)不能识别出两个文档虽然内容字面形式差异很大，但蕴含的信息或意思却大同小异，只是用不同的词汇从不同的角度来描述，甚至是相同问题的同义转述。

Web网页的相似识别除了上述几类方法外，还有基于网页链接关系方法，锚文本(anchor text)、锚窗口(anchor window)方法等。比如，为了识别出相关的网页，运用Web网页之间存在的链接关系提出若两个不同的网页包含相同的被指向链接(传入链接，incoming links)或两个不同的网页包含相同的指向其它网页的链接(输出链接，outcoming links)，则认为两个网页存在相关性。再比如，存在引用关系的不同对象之间，若两个对象被其相似的对象所引用，则认为两个对象相似，并把这种识别对象相似性的方法同时应用于网页之间的链接关系和科技论文之间的引用关系。Havelivala等人指出基于网页链接关系识别相关网页的方法在链接数目很少的情况下并不具有很好的效果，他提出结合锚文本和锚窗口方法来弥补网页链接数目很少的情况，这类方法很容易受网页之间的链接数目、网页类型或质量的影响。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于词网识别大量Web 文本信息相似度的方法。

本发明通过以下技术方案来实现上述目的：

一种基于词网识别大量Web文本信息相似度的方法，包括以下步骤：

(1)构建词网，包括以下步骤：

1.1、从Web网页中提取文本信息构成由多个文档d组成的文档集合D，对文档集合D内的一个文档d提取特征词，计算其所有特征词中任意两个f_i、f_j两两之间的归一化互信息值norm_I_ij和norm_I_ji，根据所计算出的norm_I_ij和 norm_I_ji值分别构建特征词f_i、f_j之间的互信息关系词对＜f_i,f_j＞和＜f_j,f_i＞， norm_I_ij作为互信息关系词对＜f_i,f_j＞的权值，norm_I_ji作为互信息关系词对＜f_j,f_i＞的权值，但norm_I_ij＝norm_I_ji，将互信息关系词对＜f_i,f_j＞和词对＜f_j,f_i＞添加进词网；

1.2、对文档集合D内的所有文档d执行步骤1.1中的操作，直至文档集合D 中的所有文档d处理完；在此过程中，当引入一个新的文档d'，提取特征词f'_i、 f'_j，计算其所有特征词中任意两个f'_i、f'_j两两之间的两个相等的归一化互信息值norm_I'_ij和norm_I'_ji，并确立两者之间的互信息关系词对＜f'_i,f'_j＞和＜f'_j,f'_i＞，若互信息关系词对＜f'_i,f'_j＞和＜f'_j,f'_i＞在词网中存在，则用 norm_I'_ij值更新其在词网中的互信息关系的权值，若互信息关系词对＜f'_i,f'_j＞和＜f'_j,f'_i＞在词网中不存在，则将其添加进词网中，最终构成整个词网，将词网存储于数据库***中；

(2)新Web网页文本信息相似度识别，包括以下步骤：

2.1、从新Web网页中提取文本信息构成新文档，从新文档中提取特征词f：对新文档进行分词，计算各个词的权重度量TF-IDF值，根据TF-IDF值选取特征词f₁、f₂、…、f_m；

2.2、求解每一个特征词f的相似词的集合：针对每一个特征词f，在数据库***中的词网中寻找与其存在直接互信息关系的词并同时记录与各词的互信息值，形成每一个特征词对应的相似词集合，即f₁→{t₁₁:I₁₁,t₁₂:I₁₂,...}， f₂→{t₂₁:I₂₁,t₂₂:I₂₂,...}，…，f_m→{t_m1:I_m1,t_m2:I_m2,...}，其中同一特征词f_m对应的相似词集合{t_m1,t_m2,...}中的所有词均不同，特征词f两两之间可能存在共有的相似词，即对于任意两个特征词f_l和f_k(1≤l,k≤m)之间其对应的相似词集合的交集运算满足其中表示空集；

2.3、求解每一个特征词f的相似文档集合：针对所有特征词f所对应的相似词集合{t₁:I₁,t₂:I₂,...,t_n:I_n}，分别求解相似词集合中所有词对应的文档集，构成相似词集合对应的文档集合，并计算文档集合中各文档累积的互信息值。即对相似词集合{t₁:I₁,t₂:I₂,...,t_n:I_n}中的每一个词t_i，求解包含t_i的所有文档构成的文档集{I_i:(d_i1,d_i2,...)}，其中I_i为对应的互信息值，d_i1,d_i2,...均为包含 t_i的不同的文档；所有的t完成上述过程后，对所有求得的t所对应的文档集求并集，即{I₁:(d₁₁,d₁₂,...)}∪{I₂:(d₂₁,d₂₂,...)}∪...∪{I_n:(d_n1,d_n2,...)}，得到新的集合{d₁:I_d1,d₂:I_d2,...}，对于集合中的项d_i:I_di，所有的d均为不同的文档， I_di为求并集时包含d_i的集合对应的互信息值I与相应的t在d_i中的tf-idf值的乘积的总和，此时{d₁:I_d1,d₂:I_d2,...}即为与特征词f具有一定互信息关系的文档集合，即f→{d₁:I_d1,d₂:I_d2,...}；假设f₁→{d₁₁:I₁₁,d₁₂:I₁₂,...}， f₂→{d₂₁:I₂₁,d₂₂:I₂₂,...}，…，f_m→{d_m1:I_m1,d_m2:I_m1,...}，其中d_i1,d_i2,...,d_ij为文档库中不同的文档，文档集合两两之间可能包含相同文档，即对于任意两个特征词f_l和f_k(1≤l,k≤m)之间与其互信息相关的文档集合的交集运算满足

2.4、确定新文档的相似文档：对步骤2.3中所求得的与特征词f具有互信息关系的文档集合运用交集运算，即求得相似文档集 Ω＝{d₁₁:I₁₁,d₁₂:I₁₂,...}∧{d₂₁:I₂₁,d₂₂:I₂₂,...}∧...∧{d_m1:I_m1,d_m2:I_m1,...}，假设 Ω的计算结果为其中为所有集合中都存在的某文档，I_i为文档对应的相似度值，其值为求交集时所有集合中相应文档对应的互信息值的总和；则与包含有特征词f₁、f₂、…、f_m的文档相似的文档为

2.5、过滤相似文档集中的文档，得到最终的相似度文档集合：对于相似度文档集中的每一篇文档根据对应的相似度值I_i，和阈值δ进行比较，若小于δ，则过滤丢弃，否则保留，即得到过滤后的相似文档集该集合即为最终的相似度文档集合；

(3)按步骤(1)的方法对新Web网页进行词网更新，为下一次更新的 Web网页文本信息相似度识别作准备。

说明：特征词在文档中的初始权重值用传统信息检索领域里常用的权重度量即TF-IDF度量方法；特征词之间的相关性用互信息进行量化，互信息表示两个不同特征词在文本中的出现情况是两个随机事件，了解了其中一个事件对消除另一个事件不确定性所提供的信息量，定义两特征词之间的互信息大小作为两者之间相关程度或相似性的度量。

作为优选，所述步骤1.1和步骤2.1中，提取特征词f包括以下步骤：

A、先提取文本信息；

B、过滤符号并分词；

C、分词列表；

D、将每一个词转换为小写；

E、用波特词干算法还原单词；

F、过滤数字和停止词，得到特征词f。

所述步骤1.1中，计算其所有特征词中任意两个f_i、f_j两两之间的归一化互信息值norm_I_ij包括以下步骤：

①构造两特征词f_i和f_j在文档集合D内所有文档d中的权重度量TF-IDF 向量：在特定文档集合D中根据两特征词f_i和f_j在各个文档d的TF-IDF值分别构造两特征词的具有相同维度的TF-IDF向量，若特征词在文档d_i中出现，则其 TF-IDF向量中第i个位置上的值为该词在相应文档d_i中的TF-IDF值；若词特征词在文档d_i中未出现，则其TF-IDF向量中第i个位置上的值用0表示；

②计算两特征词f_i和f_j的TF-IDF向量距离：计算两TF-IDF向量的余弦值作为度量两词的TF-IDF向量距离，计算方式如公式(I)所示，向量距离定量地说明了两TF-IDF向量的相似度，反映两特征词f_i和f_j在文档集合D内所表达信息的相似程度：

其中,表示词f_i在文档集合D内的TF-IDF向量；表示词f_j在文档集合D内的TF-IDF向量；

③计算两特征词f_i和f_j的归一化互信息值norm_I_ij：用两特征词f_i和f_j的 TF-IDF向量距离对按公式(II)计算出的两特征词f_i和f_j的互信息值进行归一化操作，最后按公式(III)求得两特征词f_i和f_j的归一化互信息值norm_I_ij：

其中，X、Y分别表示词f_i和f_j出现情况的两个随机事件，“0”表示词f_i或 f_j在文档集合的特定文档中未出现，“1”表示词f_i或f_j在文档集合的特定文档中出现，p(x,y)表示词f_i和f_j同时出现在文档集合的某些特定文档中的联合概率，p(x)和p(y)分别表示词f_i和f_j出现在文档集合的某些特定文档中的边缘概率；

所述步骤2.1中，以计算词w的权重度量TF-IDF值为例，计算各个词的权重度量TF-IDF值包括以下步骤：

a、按下式计算词w在文档d中出现的频率TF，即词w在文档d中出现的次数与文档d总词数的比值：

TF(w,d)＝count(w,d)/size(d)

其中，TF(w,d)表示词w在文档d中出现的频率，count(w,d)表示词w在文档d中出现的次数，size(d)表示文档d所包含的总词数；

b、按下式计算词w在整个文档集合D中的逆文本频率IDF，即计算文档集合中总文档数与包含词w的文档数的比值然后取对数：

其中，IDF(w,d；D)表示词w在文档集合D中的逆文本频率，sum(D)表示文档集合D中的文档总数，count(w,d；D)表示文档集合D中包含词w的文档数；

c、按下式计算词w在文档d中的TF-IDF值，即词w的TF值与IDF值的乘积：

TF-IDF(w,d)＝TF×IDF。

所述步骤2.5中，所述阈值δ的取值范围为0.5～0.7。

所述步骤1.2中的数据库***为分布式数据库HBase。

本发明的有益效果在于：

本发明从词相关性统计方法出发提出通过词与词之间的互信息关系构建词网模型，然后基于分别位于两个不同文本文档之中一定数量的具有互信息关系的词，来比较两个不同文本文档的相似程度，即建立起“文档-互信息词-文档” 关系模型，本方法可以作为基于内容字面形式比较文本文档相似度方法的补充，应用该“互信息词”关系模型实现具有一定真正意义上的文本相似度比较，为具有模糊性的查询请求提供更多的可选结果，同时也解决了传统方法中基于相同信息的同义描述方式不能识别的问题，消除了内容剽窃、模仿，或拓展有效信息的提取范围，为终端查询用户返回更多的相关结果。

利用本方法，可以用于发现信息剽窃或信息模仿、篡改，同时，还可以用于发掘不同领域之间隐含存在的相关关系；通过重复Web文本信息的研究可以消除重复的网页，降低搜索引擎的负担，优化存储和索引结构，提高搜索引擎 ***的检索效率和检索结果的质量。

附图说明

图1是本发明具体实施方式中构建词网所用时间随着文本内容大小的变化曲线图；

图2是本发明具体实施方式中精确率、召回率和F1度量随着相似度阈值δ的变化曲线图；

图3是本发明具体实施方式中Mahout中的Naive Bayes方法与本发明方法实验效果对比示意图；

图4是本发明具体实施方式中簇间密度、簇内密度和F1度量随着相似度阈值δ的变化曲线图；

图5是本发明具体实施方式中Mahout中的k-means方法与本发明方法实验效果对比示意图。

具体实施方式

下面结合附图对本发明作进一步说明：

本发明所述基于词网识别大量Web文本信息相似度的方法，包括以下步骤：

(1)构建词网，包括以下步骤：

上述计算其所有特征词中任意两个f_i、f_j两两之间的归一化互信息值 norm_I_ij包括以下步骤：

1.2、对文档集合D内的所有文档d执行步骤1.1中的操作，直至文档集合D 中的所有文档d处理完；在此过程中，当引入一个新的文档d'，提取特征词f'_i、 f'_j，计算其所有特征词中任意两个f'_i、f'_j两两之间的两个相等的归一化互信息值norm_I'_ij和norm_I'_ji，并确立两者之间的互信息关系词对＜f'_i,f'_j＞和＜f'_j,f'_i＞，若互信息关系词对＜f'_i,f'_j＞和＜f'_j,f'_i＞在词网中存在，则用 norm_I'_ij值更新其在词网中的互信息关系的权值，若互信息关系词对＜f'_i,f'_j＞和＜f'_j,f'_i＞在词网中不存在，则将其添加进词网中，最终构成整个词网，将词网存储于数据库***中，数据库***优选为分布式数据库HBase；

上述提取特征词f包括以下步骤：

A、先提取文本信息；

B、过滤符号并分词；

C、分词列表；

D、将每一个词转换为小写；

E、用波特词干算法还原单词；

F、过滤数字和停止词，得到特征词f；

(2)新Web网页文本信息相似度识别，包括以下步骤：

2.1、从新Web网页中提取文本信息构成新文档，从新文档中提取特征词f，对新文档进行分词，计算各个词的权重度量TF-IDF值，根据TF-IDF值选取特征词f₁、f₂、…、f_m；

以计算词w的权重度量TF-IDF值为例，上述计算各个词的权重度量 TF-IDF值包括以下步骤：

TF(w,d)＝count(w,d)/size(d)

TF-IDF(w,d)＝TF×IDF；

2.5、过滤相似文档集中的文档，得到最终的相似度文档集合：对于相似度文档集中的每一篇文档根据对应的相似度值I_i，和阈值δ进行比较，若小于δ，则过滤丢弃，否则保留，即得到过滤后的相似文档集该集合即为最终的相似度文档集合，这里阈值δ的取值范围为0.5～0.7；

下面以实验验证本方法的有效性：

分别在数据集20-NewsGroups和Reuters-21578上进行实验，并与Mahout 提供的Naive Bayes文本分类方法在数据集20-NewsGroups上进行实验对比，与 Mahout提供的K-means文本聚类方法在数据集Reuters-21578上进行实验对比。实验操作过程分为两个阶段，第一阶段为根据现有所有文档构造主题分类的词网，相当于词网模型生成阶段；第二阶段为根据第一阶段生成的词网模型查找某一文档的相似文档。

实验设置：

实验环境为具有19个机器节点的Hadoop集群，总配置容量为6.42TB，其中一个节点为NameNode节点，一个节点为SecondaryNameNode节点，其余为 DataNode节点；实验所用分布式数据库HBase集群拥有13个机器节点，其中一个为HMaster节点，其它为HRegionServer节点。集群所用Hadoop的版本号为2.2.0，所用HBase的版本号为0.98.6。整个Hadoop集群环境结构及机器节点性能如表1所示，HBase集群环境结构及机器节点性能如表2所示。

表1 Hadoop集群结构及机器节点性能

表2 HBase集群结构及机器节点性能

目前，文本聚类或分类技术中使用最多的Web数据集是20-NewsGroups。

数据集20-NewsGroups由预先定义好的20个分类组成，除了分类目录soc.religion.christian下包含997个文件外，其余每个分类目录下平均包含1000 个文件，整个20-NewsGroups数据集19997个文件，数据类型多为用户检索数据，文件头部包括主题行、内容所处路径、检索关键字等信息，涉及领域包括经济、政治、宗教等。该数据集中不同分类目录间包含不同程度的相似信息，比如，comp.sys.ibm.pc.hardware与comp.sys.mac.hardware之间所含信息很接近， misc.forsale与soc.religion.christian之间所含的信息差异比较大。20-NewsGroups 数据集常用作文本分类算法的数据语料。

数据集Reuters-21578由人工从路透社新闻专线上搜集并整理而成，分布在 22个数据文件中，从reut2-000.sgm到reut2-020.sgm，每个数据文件包含1000 个文档，数据文件reut2-021.sgm包含578个文档，因此该数据集被称为 reuters21578。每个数据文件开头以格式<！DOCTYPE lewis SYSTEM"lewis.dtd"> 声明一个文档类型，紧接着以<REUTERS>开始，</REUTERS>为结尾定义一个文档内容所属的范围。Reuters-21578数据集都是SGML格式的文件，在使用其中的文本内容之前都需要进行预处理操作，去除SGML格式符，提取出文本内容，才能进行后续分析操作。Reuters-21578数据集常用作文本聚类算法的数据语料。

实验评价：

通常评价一个计算机***或程序的性能好坏是从其所消耗的资源情况，如空间或时间，进行分析的。然而，文本挖掘***除了考虑整个***的时间或空间资源消耗情况外，还会比较***发掘相关文档的能力。召回率(Recall)和精确率(Precision)是衡量一个文本处理***发掘相关文档能力的两种度量方式，这两类度量方式各有优缺点，互为补充。召回率被定义为***中相关文档被检索出的比例，侧重于考虑***的查全率，其计算方式如公式(4-1)所示；精确率被定义为被检索出的文档中相关文档所占的比例，侧重于考虑***的查准率，其计算方式如公式(4-2)所示。

目前，常用的度量方式是将召回率和精确率两者综合起来考虑，即F1度量方式：

采用本发明所述方法计算各个文档间的相似度，将相似度在一定阈值范围内的文档归类在一起，形成新的文档集Θ，通过分析所形成的新文档集Θ中各文档被正确归类到与原始数据集预先建立好的相同类别下的文档比例作为度量算法性能正确性的标准。比如，针对数据集某分类目录的召回率为相似度位于一定阈值δ范围内属于该分类目录的文档数目与原始文档集该分类目录下的文档总数之间的比值；准确率为相似度位于一定阈值δ范围内属于该分类目录的文档数目与相似度值位于该阈值δ范围内检索出的文档总数之间的比值。

处理20-NewsGroups的实验结果及分析：

20-NewsGroups中的数据大多是网页检索结果的文本内容，内部存在很多空行或空格，以及对文本内容起说明作用的文本属性。因此，需要对原始数据集进行预处理，比如去除空行、标点符号、单个字母、数字、无用词等，对文档进行分词，提取词干，计算词在文档中的权重等操作。

实验操作过程分为两个阶段，第一阶段是将经过预处理的所有文档构造词网，相当于词网模型生成阶段；第二阶段为根据第一阶段生成的词网模型查找某一文档的相似文档。

第一阶段构建词网过程中，***所用时间与文本内容长度关系如图1所示。

数据集20-NewsGroups所构成的词网中词网边数为77053480，即存在互信息关系的词对数目为7700多万条。

在使用词网模型识别相似文档之前，本文将20-NewsGroups数据集中各个分类目录下的文档按3:2的比例分成训练集和测试集，训练集用于训练文档相似度阈值δ，测试集最终验证相似度大于阈值δ范围内模型的准确性。

训练阶段取δ值为0.1～1之间，分别求解训练集中20个不同分类目录下文档在该分类的召回率和精确率，最后求得所有分类的召回率和精确率平均值作为数据集的整体召回率和精确率值。其中，召回率平均值和精确率平均值，以及对应的F1度量值随δ值变化情况如图2所示。

由图2可以看出，综合精确率和召回率的F1度量值在0.5≤δ≤0.6之间取最大值，且当δ≈0.55时，精确率、召回率和F1三者相交于一点，F1度量值可以取得极大值。因此，在使用本发明所述方法识别相似文档对数据集20-NewsGroups 进行分类过程中，取文档相似度阈值δ为0.55，即当文档间的相似度大于0.55 时，认为两者所含文本信息相似。

然后本文用数据集的测试数据使用Mahout提供的Naive Bayes文本分类方法和本发明所述方法取相似度阈值δ为0.55进行实验对比，两者之间的精确率平均值、召回率平均值和F1-Measure度量如图3所示。

从图3可以看出本发明所述方法对文本进行相似分类，其精确率高于 Mahout中的Naive Bayes文本分类方法，召回率略低于Mahout中的Naive Bayes 方法，但其精确率和召回率的综合评价指数F1值高于前者，说明本发明所述方法比较适合于文本相似分类。

在时间效率方面，使用Mahout中的Naive Bayes文本分类方法所用时间为 95642秒，使用词相关性方法所用时间128397秒，所有实验操作都是在Hadoop 分布式集群环境下进行。词相关性方法每次从词网中获取相关信息时都需要访问分布式数据库，因此，需要消耗大量的时间。

处理Reuters-21578的实验结果及分析：

Reuters-25178数据集中的文本内容都是以SGML格式存储在各个数据文件中，各个文本内容按生成时间先后顺序平均分布在从reut2-000.sgm到 reut2-021.sgm的22个数据文件中，除了数据文件reut2-021.sgm包含578个不同文档内容外，其余每个数据文件平均包含1000个不同文档内容，因此，不同类型的信息在不同数据文件之间分布并不均匀，在对Reuters-25178数据集执行相关操作之前，必须将所有数据文件中的文档内容提取到各个单独的文件中。

首先将所有数据文件中的文档内容提取出来形成各个单独的文本文件，然后使用Mod Apté划分法所生成的数据标准训练集和测试集，目前认为最好的划分法是将Reuters-21578数据集分成10个主题类型，但这种划分法存在一个问题是某些文档所含交叉信息比较多，很难确定属于哪个主题分类，如corn和wheat 两个主题分类与grain主题分类之间的信息交叉度很难界定。Ana采用一种更为简单、直观的方法，将包含多于一个主题信息的文档丢弃，同时将包含corn、 wheat和grain三个主题信息的文档归类到grain主题分类，最终Reuters-21578 数据集被划分成8个主题类型，各个主题类型下的文档分布情况如表3所示，本实验即采用这种划分法所得的训练集和测试集，使用Mahout中的k-means聚类算法在训练集上获得各个主题类别下的文档聚类，并计算各类别的簇间密度 (Inter-Cluster Density)和簇内密度(Intra-Cluster Density)，使用本文提出的词相关性方法在训练数据集上训练出各个簇内文本相似度的阈值δ。最后，使用 Mahout中的k-means聚类算法以及本发明所述方法在测试数据集上进行实验对比。

表3 Reuters-21578数据集划分成8个主题类型的文档分布情况

针对数据集Reuters-21578的实验操作过程仍分为两个阶段，第一阶段是将经过预处理的所有文档构造词网，相当于词网模型生成阶段；第二阶段为根据第一阶段生成的词网模型查找某一文档的相似文档。第一阶段的词网构造过程与4.3节一致，所构成的词网中词网边数为27526742条，即存在互信息关系的词对数目为2700多万条。

基于k-means方法对训练数据集进行文本聚类后，各个簇内文档间的最小相似度值平均为0.527，簇间密度为0.5969，簇内密度为0.7038。采用发明所述方法在训练集上进行实验，其簇间密度、簇内密度以及F1度量随着相似度阈值δ的变化情况如图4所示，图中所求值为各簇类目之间的平均值。

发明所述方法在处理Reuters-21578数据集时相似度阈值0.5≤δ≤0.7范围内 F1度量值可以取得极大值。同时，为了确保算法的F1度量值可以取得极大值，以及簇间密度更小、簇内密度更大，本实验取δ值为0.7，即当文档间的相似度大于0.7，则认为两者属于同一个簇，若文档与多个簇间的相似度都大于δ值，则将文档归类到相似度最大的那个簇中。

针对测试数据本节使用Mahout提供的k-means文本聚类方法和本发明所述方法取相似度阈值δ为0.7进行实验对比，两者之间的簇间平均密度、簇内平均密度和F1-Measure度量如图5所示。

从图5可以看出本发明所述方法在文本聚类中其簇间密度低于k-means算法的结果，簇内密度略高于k-means算法，说明词相关性方法所生成的聚类簇比较紧凑。但从其F1度量值分析，k-means方法在文本聚类应用中的优越性高于词相关性方法。随后本实验进一步使用Naive Bayes算法和C4.5算法按照表3所示数据集划分法处理对应主题下的文档，得出Naive Bayes算法和C4.5算法的F1度量值分布情况如表4所示。

表4 Naive Bayes算法和C4.5算法处理表3所示数据集的F1度量结果(％)

从表4可以看出Reuters-21578数据集中的一些文档存在很大程度上的信息倾斜，比如主题trade下的文档，采用不同的方法其F1度量值差异很大。

在时间效率方面，使用Mahout中的k-means文本聚类方法所用时间为2342 秒，使用词相关性方法所用时间3971秒，所有实验操作都是在Hadoop分布式集群环境下进行。词相关性方法每次从词网中获取相关信息时都需要访问分布式数据库，因此，需要消耗大量的时间。

本发明针对互联网中信息传播的特点，提出基于文本文档上下文语境关系的词相关性模糊识别算法对文档相似信息进行识别，解决传统方法中根据文本片段的字面内容进行相似信息识别的局限性。

互联网中存在着大量形式自由、内容参差不齐的信息，从而大大增加了获取有效信息的难度。然而传统方法或者为了提高问题的求解精度而造成所设计的算法极其复杂，或者为了提高问题的求解效率而忽视了问题求解结果的精度，总之很难实现简捷、高效、精确三者之间的平衡。本发明基于Hadoop这一优秀的开源分布式处理平台，提出基于词相关性的相似文档模糊识别方法，通过构建某一信息主题领域的词网，从统计语言处理模型出发，识别广义上存在相似信息的文档，即文档中普遍存在的同义转换类型的信息，提高相似信息的识别范围。

在未来的研究工作中可以采用更广泛的数据语料对本文提出的词相关性模型进行更深入的研究，对模型中的参数进行多层次优化，从而研究通过中间词所建立起的词与词之间的互信息关系以及互信息关系大小的衰减过程。此外，由于该模型在前期构建词网的过程中，需要对代表每一类型信息主题的词之间进行充分的相关性训练，使词网构建初期需要消耗大量时间，这也是未来的一个研究方向。

上述实施例只是本发明的较佳实施例，并不是对本发明技术方案的限制，只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案，均应视为落入本发明专利的权利保护范围内。

Claims

1.一种基于词网识别大量Web文本信息相似度的方法，其特征在于：包括以下步骤：

(1)构建词网，包括以下步骤：

1.1、从Web网页中提取文本信息构成由多个文档d组成的文档集合D，对文档集合D内的一个文档d提取特征词，计算其所有特征词中任意两个f_i、f_j两两之间的归一化互信息值norm_I_ij和norm_I_ji，根据所计算出的norm_I_ij和norm_I_ji值分别构建特征词f_i、f_j之间的互信息关系词对＜f_i,f_j＞和＜f_j,f_i＞，norm_I_ij作为互信息关系词对＜f_i,f_j＞的权值，norm_I_ji作为互信息关系词对＜f_j,f_i＞的权值，但norm_I_ij＝norm_I_ji，将互信息关系词对＜f_i,f_j＞和词对＜f_j,f_i＞添加进词网；

1.2、对文档集合D内的所有文档d执行步骤1.1中的操作，直至文档集合D中的所有文档d处理完；在此过程中，当引入一个新的文档d'，提取特征词f_i'、f'_j，计算其所有特征词中任意两个f_i'、f'_j两两之间的两个相等的归一化互信息值norm_I'_ij和norm_I'_ji，并确立两者之间的互信息关系词对＜f_i',f'_j＞和＜f'_j,f_i'＞，若互信息关系词对＜f_i',f'_j＞和＜f'_j,f_i'＞在词网中存在，则用norm_I'_ij值更新其在词网中的互信息关系的权值，若互信息关系词对＜f_i',f'_j＞和＜f'_j,f_i'＞在词网中不存在，则将其添加进词网中，最终构成整个词网，将词网存储于数据库***中；

(2)新Web网页文本信息相似度识别，包括以下步骤：

2.2、求解每一个特征词f的相似词的集合：针对每一个特征词f，在数据库***中的词网中寻找与其存在直接互信息关系的词并同时记录与各词的互信息值，形成每一个特征词对应的相似词集合，即f₁→{t₁₁:I₁₁,t₁₂:I₁₂,...}，f₂→{t₂₁:I₂₁,t₂₂:I₂₂,...}，…，f_m→{t_m1:I_m1,t_m2:I_m2,...}，其中同一特征词f_m对应的相似词集合{t_m1,t_m2,...}中的所有词均不同，特征词f两两之间可能存在共有的相似词，即对于任意两个特征词f_l和f_k(1≤l,k≤m)之间其对应的相似词集合的交集运算满足其中表示空集；

2.3、求解每一个特征词f的相似文档集合：针对所有特征词f所对应的相似词集合{t₁:I₁,t₂:I₂,...,t_n:I_n}，分别求解相似词集合中所有词对应的文档集，构成相似词集合对应的文档集合，并计算文档集合中各文档累积的互信息值。即对相似词集合{t₁:I₁,t₂:I₂,...,t_n:I_n}中的每一个词t_i，求解包含t_i的所有文档构成的文档集{I_i:(d_i1,d_i2,...)}，其中I_i为对应的互信息值，d_i1,d_i2,...均为包含t_i的不同的文档；所有的t完成上述过程后，对所有求得的t所对应的文档集求并集，即{I₁:(d₁₁,d₁₂,...)}∪{I₂:(d₂₁,d₂₂,...)}∪...∪{I_n:(d_n1,d_n2,...)}，得到新的集合{d₁:I_d1,d₂:I_d2,...}，对于集合中的项d_i:I_di，所有的d均为不同的文档，I_di为求并集时包含d_i的集合对应的互信息值I与相应的t在d_i中的tf-idf值的乘积的总和，此时{d₁:I_d1,d₂:I_d2,...}即为与特征词f具有一定互信息关系的文档集合，即f→{d₁:I_d1,d₂:I_d2,...}；假设f₁→{d₁₁:I₁₁,d₁₂:I₁₂,...}，f₂→{d₂₁:I₂₁,d₂₂:I₂₂,...}，…，f_m→{d_m1:I_m1,d_m2:I_m1,...}，其中d_i1,d_i2,...,d_ij为文档库中不同的文档，文档集合两两之间可能包含相同文档，即对于任意两个特征词f_l和f_k(1≤l,k≤m)之间与其互信息相关的文档集合的交集运算满足

2.4、确定新文档的相似文档：对步骤2.3中所求得的与特征词f具有互信息关系的文档集合运用交集运算，即求得相似文档集Ω＝{d₁₁:I₁₁,d₁₂:I₁₂,...}∧{d₂₁:I₂₁,d₂₂:I₂₂,...}∧...∧{d_m1:I_m1,d_m2:I_m1,...}，假设Ω的计算结果为其中为所有集合中都存在的某文档，I_i为文档对应的相似度值，其值为求交集时所有集合中相应文档对应的互信息值的总和；则与包含有特征词f₁、f₂、…、f_m的文档相似的文档为

(3)按步骤(1)的方法对新Web网页进行词网更新，为下一次更新的Web网页文本信息相似度识别作准备。

2.根据权利要求1所述的基于词网识别大量Web文本信息相似度的方法，其特征在于：所述步骤1.1和步骤2.1中，提取特征词f包括以下步骤：

A、先提取文本信息；

B、过滤符号并分词；

C、分词列表；

D、将每一个词转换为小写；

E、用波特词干算法还原单词；

F、过滤数字和停止词，得到特征词f。

3.根据权利要求1所述的基于词网识别大量Web文本信息相似度的方法，其特征在于：所述步骤1.1中，计算其所有特征词中任意两个f_i、f_j两两之间的归一化互信息值norm_I_ij包括以下步骤：

①构造两特征词f_i和f_j在文档集合D内所有文档d中的权重度量TF-IDF向量：在特定文档集合D中根据两特征词f_i和f_j在各个文档d的TF-IDF值分别构造两特征词的具有相同维度的TF-IDF向量，若特征词在文档d_i中出现，则其TF-IDF向量中第i个位置上的值为该词在相应文档d_i中的TF-IDF值；若词特征词在文档d_i中未出现，则其TF-IDF向量中第i个位置上的值用0表示；

③计算两特征词f_i和f_j的归一化互信息值norm_I_ij：用两特征词f_i和f_j的TF-IDF向量距离对按公式(II)计算出的两特征词f_i和f_j的互信息值进行归一化操作，最后按公式(III)求得两特征词f_i和f_j的归一化互信息值norm_I_ij：

其中，X、Y分别表示词f_i和f_j出现情况的两个随机事件，“0”表示词f_i或f_j在文档集合的特定文档中未出现，“1”表示词f_i或f_j在文档集合的特定文档中出现，p(x,y)表示词f_i和f_j同时出现在文档集合的某些特定文档中的联合概率，p(x)和p(y)分别表示词f_i和f_j出现在文档集合的某些特定文档中的边缘概率；

4.根据权利要求1所述的基于词网识别大量Web文本信息相似度的方法，其特征在于：所述步骤2.1中，以计算词w的权重度量TF-IDF值为例，计算各个词的权重度量TF-IDF值包括以下步骤：

TF(w,d)＝count(w,d)/size(d)

TF-IDF(w,d)＝TF×IDF。

5.根据权利要求1所述的基于词网识别大量Web文本信息相似度的方法，其特征在于：所述步骤2.5中，所述阈值δ的取值范围为0.5～0.7。

6.根据权利要求1所述的基于词网识别大量Web文本信息相似度的方法，其特征在于：所述步骤1.2中的数据库***为分布式数据库HBase。