CN108647322A - 基于词网识别大量Web文本信息相似度的方法 - Google Patents

基于词网识别大量Web文本信息相似度的方法 Download PDF

Info

Publication number
CN108647322A
CN108647322A CN201810445807.4A CN201810445807A CN108647322A CN 108647322 A CN108647322 A CN 108647322A CN 201810445807 A CN201810445807 A CN 201810445807A CN 108647322 A CN108647322 A CN 108647322A
Authority
CN
China
Prior art keywords
document
word
collection
feature words
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810445807.4A
Other languages
English (en)
Other versions
CN108647322B (zh
Inventor
靳宇倡
安俊秀
文仁强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Normal University
Original Assignee
Sichuan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Normal University filed Critical Sichuan Normal University
Priority to CN201810445807.4A priority Critical patent/CN108647322B/zh
Publication of CN108647322A publication Critical patent/CN108647322A/zh
Application granted granted Critical
Publication of CN108647322B publication Critical patent/CN108647322B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于词网识别大量Web文本信息相似度的方法,包括以下步骤:(1)构建词网;(2)新Web网页文本信息相似度识别,包括以下步骤:从新Web网页中提取文本信息构成新文档,从新文档中提取特征词f1、f2、…、fm;求解每一个特征词f的相似词的集合;求解每一个特征词f的相似文档集合;确定新文档的相似文档并计算相似文档集中文档的相似度值;过滤相似文档集中的文档,得到最终的相似度文档集合;(3)按步骤(1)的方法对新Web网页进行词网更新。利用本方法,可以用于发现信息剽窃或信息模仿、篡改,可以用于发掘不同领域之间隐含存在的相关关系,可以消除重复的网页,降低搜索引擎的负担,优化存储和索引结构。

Description

基于词网识别大量Web文本信息相似度的方法
技术领域
本发明涉及一种识别互联网文本信息相似度的方法,尤其涉及一种基于词 网识别大量Web文本信息相似度的方法。
背景技术
互联网技术的变革在传递信息和知识的同时,也为线下上网用户提供了一 个发布信息、交流沟通的平台,引入普通用户参与大量在线信息的快速增长, 促成互联网成为信息资源库的重要组成部分之一。
为了努力应对互联网信息的高速增长,许多研究项目把目标定位于如何有 效地组织这些大量的信息,使终端用户能够快速、准确地获取所需信息,并降 低组织信息的成本。互联网中的Web信息是以文本的形式通过HTML标记进行 合理地格式化操作显示给终端用户,因此许多Web文档处理***都是基于文本 数据处理技术实现对Web文档采用普通文本的一般化处理方式。Web文档处理 技术包括很多过程,按照一般形式有:网页爬取、去除HTML标记、消除多余 的空行、去除干扰词、提取词干、文本数据挖掘、信息展示等。如果针对存在 链接关系的相关网页进行特别处理,还需要分析网页之间的连接关系,整个处 理过程的核心是文本数据挖掘。文本数据挖掘与传统的数据挖掘技术在方法上 存在许多共同的地方,包括分析数据潜在的固有结构,对相似数据进行聚类, 当应用于普通文本数据,聚类方法试着识别文本文档的所属组,然后根据文档 之间的相似程度形成不同的簇,其中簇内的文档之间具有很高的相似度,而簇 间的文档之间具有很低的相似度。
因此,针对互联网对信息进行有序规范的组织,提高互联网***息的透 明化和有序化,是为终端用户在提供信息获取服务过程中不被海量信息淹没的 首要解决途径之一。尤其是进入移动互联网时代,要快速地从大量的信息海洋 中获取并展示给终端用户有价值的信息,同时还要确保参与信息产生的个人或 机构组织的财产安全和隐私保密,消除互联网中的无用信息、重复信息、敏感 信息,是提高互联网用户体验的必要工作之一。
传统方法在比较文本相似的过程中所采用的普遍手段是基于文本字面内容 比较的方式,具有代表性的这类方法包括基于文本内容的散列方法、文档向量 空间模型方法以及编辑距离方法等,如:(1)通过终端用户提供的查询关键词 去同预先建立好的文档索引库中各个文档提供的主题词进行比较,若查询关键 词和文档主题词的相似度在某一预先设定的阈值内,则认为包含该主题词的文 档为用户所需要的返回结果;(2)或者用于比较大量的Web文本文档之间相似 度的一种更高效、简单的方法,即simhash法,该方法由Google实践于其搜索 引擎中在爬取网页时去除大量的重复网页,经验证明具有很好的相似文本识别 能力和适用于Google快速地处理海量Web网页的需求,且不会产生蝴蝶效应。考虑到一个文本文档是由一系列词组成,采用k-gram方法选取K个相继连续的 词构成一个子序列,然后把子序列转换成一个散列值形成一个shingle,最终一 个文档由若干个shingle构成,代表一个文档的所有特征集合,作为该文档区别 于其他文档的唯一标识,这样,基于文本内容的shingle方法通过比较不同文档 的shingle散列值实现对相似文档的识别。(3)与散列方法相对应,另一类方法 将文档经过预处理只包含若干个特征词,特征词的特点是在某个文本文档中的 出现频率很高,而在其它文本文档中的出现频率很低,因此特征词针对不同文 本具有很好的区分能力。文档向量空间模型方法就是提取出文档中的所有特征 词,然后计算所有特征词的TF-IDF值,把文档转换成由一系列特征词的TF-IDF值构成的文本特征向量,通过比较两个文档的文本特征向量的差异即可计算出 两个文档的相似度;(4)编辑距离方法的思想是通过***、删除、替换等编辑 操作将一个文本串变成为另一个文本串,其计算两个文本串之间相似度的方式 是统计经过上述编辑操作的总次数,该方法与散列方法和向量空间模型方法相 比,更直接基于文本串内容进行不同文本串之间的相似度比较,所计算的结果 也更准确,但该方法并不适用于长文本串,计算过程所需内存和CPU时间随着 文本串的长度的增加而成倍数增长。
上述方法根据文本的字面内容确定文本的相似度方法能够返回查询请求所 需要的基本结果或从字面内容上能够比较文本的相似度,但是存在如下不足: (1)没有考虑到终端用户查询方法具有一定的模糊性,即对查询请求应该返回 的目标结果不明确从而使输入的查询请求内容没有针对性,以至返回的查询结 果很可能并不是用户所期望的结果;(2)不能识别出两个文档虽然内容字面形 式差异很大,但蕴含的信息或意思却大同小异,只是用不同的词汇从不同的角 度来描述,甚至是相同问题的同义转述。
Web网页的相似识别除了上述几类方法外,还有基于网页链接关系方法, 锚文本(anchor text)、锚窗口(anchor window)方法等。比如,为了识别出相 关的网页,运用Web网页之间存在的链接关系提出若两个不同的网页包含相同 的被指向链接(传入链接,incoming links)或两个不同的网页包含相同的指向 其它网页的链接(输出链接,outcoming links),则认为两个网页存在相关性。 再比如,存在引用关系的不同对象之间,若两个对象被其相似的对象所引用, 则认为两个对象相似,并把这种识别对象相似性的方法同时应用于网页之间的 链接关系和科技论文之间的引用关系。Havelivala等人指出基于网页链接关系识 别相关网页的方法在链接数目很少的情况下并不具有很好的效果,他提出结合 锚文本和锚窗口方法来弥补网页链接数目很少的情况,这类方法很容易受网页之间的链接数目、网页类型或质量的影响。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于词网识别大量Web 文本信息相似度的方法。
本发明通过以下技术方案来实现上述目的:
一种基于词网识别大量Web文本信息相似度的方法,包括以下步骤:
(1)构建词网,包括以下步骤:
1.1、从Web网页中提取文本信息构成由多个文档d组成的文档集合D,对 文档集合D内的一个文档d提取特征词,计算其所有特征词中任意两个fi、fj两 两之间的归一化互信息值norm_Iij和norm_Iji,根据所计算出的norm_Iij和 norm_Iji值分别构建特征词fi、fj之间的互信息关系词对<fi,fj>和<fj,fi>, norm_Iij作为互信息关系词对<fi,fj>的权值,norm_Iji作为互信息关系词对 <fj,fi>的权值,但norm_Iij=norm_Iji,将互信息关系词对<fi,fj>和词对 <fj,fi>添加进词网;
1.2、对文档集合D内的所有文档d执行步骤1.1中的操作,直至文档集合D 中的所有文档d处理完;在此过程中,当引入一个新的文档d',提取特征词f'i、 f'j,计算其所有特征词中任意两个f'i、f'j两两之间的两个相等的归一化互信息 值norm_I'ij和norm_I'ji,并确立两者之间的互信息关系词对<f'i,f'j>和 <f'j,f'i>,若互信息关系词对<f'i,f'j>和<f'j,f'i>在词网中存在,则用 norm_I'ij值更新其在词网中的互信息关系的权值,若互信息关系词对<f'i,f'j> 和<f'j,f'i>在词网中不存在,则将其添加进词网中,最终构成整个词网,将词 网存储于数据库***中;
(2)新Web网页文本信息相似度识别,包括以下步骤:
2.1、从新Web网页中提取文本信息构成新文档,从新文档中提取特征词f: 对新文档进行分词,计算各个词的权重度量TF-IDF值,根据TF-IDF值选取特 征词f1、f2、…、fm
2.2、求解每一个特征词f的相似词的集合:针对每一个特征词f,在数据 库***中的词网中寻找与其存在直接互信息关系的词并同时记录与各词的互信 息值,形成每一个特征词对应的相似词集合,即f1→{t11:I11,t12:I12,...}, f2→{t21:I21,t22:I22,...},…,fm→{tm1:Im1,tm2:Im2,...},其中同一特征词fm对 应的相似词集合{tm1,tm2,...}中的所有词均不同,特征词f两两之间可能存在共有 的相似词,即对于任意两个特征词fl和fk(1≤l,k≤m)之间其对应的相似词 集合的交集运算满足其中表示空集;
2.3、求解每一个特征词f的相似文档集合:针对所有特征词f所对应的相 似词集合{t1:I1,t2:I2,...,tn:In},分别求解相似词集合中所有词对应的文档集, 构成相似词集合对应的文档集合,并计算文档集合中各文档累积的互信息值。 即对相似词集合{t1:I1,t2:I2,...,tn:In}中的每一个词ti,求解包含ti的所有文档 构成的文档集{Ii:(di1,di2,...)},其中Ii为对应的互信息值,di1,di2,...均为包含 ti的不同的文档;所有的t完成上述过程后,对所有求得的t所对应的文档集求 并集,即{I1:(d11,d12,...)}∪{I2:(d21,d22,...)}∪...∪{In:(dn1,dn2,...)},得到新 的集合{d1:Id1,d2:Id2,...},对于集合中的项di:Idi,所有的d均为不同的文档, Idi为求并集时包含di的集合对应的互信息值I与相应的t在di中的tf-idf值 的乘积的总和,此时{d1:Id1,d2:Id2,...}即为与特征词f具有一定互信息关系的 文档集合,即f→{d1:Id1,d2:Id2,...};假设f1→{d11:I11,d12:I12,...}, f2→{d21:I21,d22:I22,...},…,fm→{dm1:Im1,dm2:Im1,...},其中di1,di2,...,dij为文档库中不同的文档,文档集合两两之间可能包含相同文档,即对于任意两 个特征词fl和fk(1≤l,k≤m)之间与其互信息相关的文档集合的交集运算满 足
2.4、确定新文档的相似文档:对步骤2.3中所求得的与特征词f具有互信息 关系的文档集合运用交集运算,即求得相似文档集 Ω={d11:I11,d12:I12,...}∧{d21:I21,d22:I22,...}∧...∧{dm1:Im1,dm2:Im1,...},假设 Ω的计算结果为其中为所有集合中都存在的某 文档,Ii为文档对应的相似度值,其值为求交集时所有集合中相应文档对应 的互信息值的总和;则与包含有特征词f1、f2、…、fm的文档相似的文档为
2.5、过滤相似文档集中的文档,得到最终的相似度文档集合:对于相似度 文档集中的每一篇文档根据对应的相似度值Ii, 和阈值δ进行比较,若小于δ,则过滤丢弃,否则保留,即得到过滤后的相似 文档集该集合即为最终的相似度文档集合;
(3)按步骤(1)的方法对新Web网页进行词网更新,为下一次更新的 Web网页文本信息相似度识别作准备。
说明:特征词在文档中的初始权重值用传统信息检索领域里常用的权重度 量即TF-IDF度量方法;特征词之间的相关性用互信息进行量化,互信息表示两 个不同特征词在文本中的出现情况是两个随机事件,了解了其中一个事件对消 除另一个事件不确定性所提供的信息量,定义两特征词之间的互信息大小作为 两者之间相关程度或相似性的度量。
作为优选,所述步骤1.1和步骤2.1中,提取特征词f包括以下步骤:
A、先提取文本信息;
B、过滤符号并分词;
C、分词列表;
D、将每一个词转换为小写;
E、用波特词干算法还原单词;
F、过滤数字和停止词,得到特征词f。
所述步骤1.1中,计算其所有特征词中任意两个fi、fj两两之间的归一化互 信息值norm_Iij包括以下步骤:
①构造两特征词fi和fj在文档集合D内所有文档d中的权重度量TF-IDF 向量:在特定文档集合D中根据两特征词fi和fj在各个文档d的TF-IDF值分别 构造两特征词的具有相同维度的TF-IDF向量,若特征词在文档di中出现,则其 TF-IDF向量中第i个位置上的值为该词在相应文档di中的TF-IDF值;若词特征 词在文档di中未出现,则其TF-IDF向量中第i个位置上的值用0表示;
②计算两特征词fi和fj的TF-IDF向量距离:计算两TF-IDF向量的余弦值 作为度量两词的TF-IDF向量距离,计算方式如公式(I)所示,向量距离定量 地说明了两TF-IDF向量的相似度,反映两特征词fi和fj在文档集合D内所表达 信息的相似程度:
其中,表示词fi在文档集合D内的TF-IDF向量; 表示词fj在文档集合D内的TF-IDF向量;
③计算两特征词fi和fj的归一化互信息值norm_Iij:用两特征词fi和fj的 TF-IDF向量距离对按公式(II)计算出的两特征词fi和fj的互信息值进行归一 化操作,最后按公式(III)求得两特征词fi和fj的归一化互信息值norm_Iij
其中,X、Y分别表示词fi和fj出现情况的两个随机事件,“0”表示词fi或 fj在文档集合的特定文档中未出现,“1”表示词fi或fj在文档集合的特定文档 中出现,p(x,y)表示词fi和fj同时出现在文档集合的某些特定文档中的联合概 率,p(x)和p(y)分别表示词fi和fj出现在文档集合的某些特定文档中的边缘概 率;
所述步骤2.1中,以计算词w的权重度量TF-IDF值为例,计算各个词的权 重度量TF-IDF值包括以下步骤:
a、按下式计算词w在文档d中出现的频率TF,即词w在文档d中出现的次数 与文档d总词数的比值:
TF(w,d)=count(w,d)/size(d)
其中,TF(w,d)表示词w在文档d中出现的频率,count(w,d)表示词w在文 档d中出现的次数,size(d)表示文档d所包含的总词数;
b、按下式计算词w在整个文档集合D中的逆文本频率IDF,即计算文档集 合中总文档数与包含词w的文档数的比值然后取对数:
其中,IDF(w,d;D)表示词w在文档集合D中的逆文本频率,sum(D)表示 文档集合D中的文档总数,count(w,d;D)表示文档集合D中包含词w的文档 数;
c、按下式计算词w在文档d中的TF-IDF值,即词w的TF值与IDF值的乘积:
TF-IDF(w,d)=TF×IDF。
所述步骤2.5中,所述阈值δ的取值范围为0.5~0.7。
所述步骤1.2中的数据库***为分布式数据库HBase。
本发明的有益效果在于:
本发明从词相关性统计方法出发提出通过词与词之间的互信息关系构建词 网模型,然后基于分别位于两个不同文本文档之中一定数量的具有互信息关系 的词,来比较两个不同文本文档的相似程度,即建立起“文档-互信息词-文档” 关系模型,本方法可以作为基于内容字面形式比较文本文档相似度方法的补充, 应用该“互信息词”关系模型实现具有一定真正意义上的文本相似度比较,为 具有模糊性的查询请求提供更多的可选结果,同时也解决了传统方法中基于相 同信息的同义描述方式不能识别的问题,消除了内容剽窃、模仿,或拓展有效 信息的提取范围,为终端查询用户返回更多的相关结果。
利用本方法,可以用于发现信息剽窃或信息模仿、篡改,同时,还可以用 于发掘不同领域之间隐含存在的相关关系;通过重复Web文本信息的研究可以 消除重复的网页,降低搜索引擎的负担,优化存储和索引结构,提高搜索引擎 ***的检索效率和检索结果的质量。
附图说明
图1是本发明具体实施方式中构建词网所用时间随着文本内容大小的变化 曲线图;
图2是本发明具体实施方式中精确率、召回率和F1度量随着相似度阈值δ的 变化曲线图;
图3是本发明具体实施方式中Mahout中的Naive Bayes方法与本发明方法 实验效果对比示意图;
图4是本发明具体实施方式中簇间密度、簇内密度和F1度量随着相似度阈 值δ的变化曲线图;
图5是本发明具体实施方式中Mahout中的k-means方法与本发明方法实验 效果对比示意图。
具体实施方式
下面结合附图对本发明作进一步说明:
本发明所述基于词网识别大量Web文本信息相似度的方法,包括以下步骤:
(1)构建词网,包括以下步骤:
1.1、从Web网页中提取文本信息构成由多个文档d组成的文档集合D,对 文档集合D内的一个文档d提取特征词,计算其所有特征词中任意两个fi、fj两 两之间的归一化互信息值norm_Iij和norm_Iji,根据所计算出的norm_Iij和 norm_Iji值分别构建特征词fi、fj之间的互信息关系词对<fi,fj>和<fj,fi>, norm_Iij作为互信息关系词对<fi,fj>的权值,norm_Iji作为互信息关系词对 <fj,fi>的权值,但norm_Iij=norm_Iji,将互信息关系词对<fi,fj>和词对 <fj,fi>添加进词网;
上述计算其所有特征词中任意两个fi、fj两两之间的归一化互信息值 norm_Iij包括以下步骤:
①构造两特征词fi和fj在文档集合D内所有文档d中的权重度量TF-IDF 向量:在特定文档集合D中根据两特征词fi和fj在各个文档d的TF-IDF值分别 构造两特征词的具有相同维度的TF-IDF向量,若特征词在文档di中出现,则其 TF-IDF向量中第i个位置上的值为该词在相应文档di中的TF-IDF值;若词特征 词在文档di中未出现,则其TF-IDF向量中第i个位置上的值用0表示;
②计算两特征词fi和fj的TF-IDF向量距离:计算两TF-IDF向量的余弦值 作为度量两词的TF-IDF向量距离,计算方式如公式(I)所示,向量距离定量 地说明了两TF-IDF向量的相似度,反映两特征词fi和fj在文档集合D内所表达 信息的相似程度:
其中,表示词fi在文档集合D内的TF-IDF向量; 表示词fj在文档集合D内的TF-IDF向量;
③计算两特征词fi和fj的归一化互信息值norm_Iij:用两特征词fi和fj的 TF-IDF向量距离对按公式(II)计算出的两特征词fi和fj的互信息值进行归一 化操作,最后按公式(III)求得两特征词fi和fj的归一化互信息值norm_Iij
其中,X、Y分别表示词fi和fj出现情况的两个随机事件,“0”表示词fi或 fj在文档集合的特定文档中未出现,“1”表示词fi或fj在文档集合的特定文档 中出现,p(x,y)表示词fi和fj同时出现在文档集合的某些特定文档中的联合概 率,p(x)和p(y)分别表示词fi和fj出现在文档集合的某些特定文档中的边缘概 率;
1.2、对文档集合D内的所有文档d执行步骤1.1中的操作,直至文档集合D 中的所有文档d处理完;在此过程中,当引入一个新的文档d',提取特征词f'i、 f'j,计算其所有特征词中任意两个f'i、f'j两两之间的两个相等的归一化互信息 值norm_I'ij和norm_I'ji,并确立两者之间的互信息关系词对<f'i,f'j>和 <f'j,f'i>,若互信息关系词对<f'i,f'j>和<f'j,f'i>在词网中存在,则用 norm_I'ij值更新其在词网中的互信息关系的权值,若互信息关系词对<f'i,f'j> 和<f'j,f'i>在词网中不存在,则将其添加进词网中,最终构成整个词网,将词 网存储于数据库***中,数据库***优选为分布式数据库HBase;
上述提取特征词f包括以下步骤:
A、先提取文本信息;
B、过滤符号并分词;
C、分词列表;
D、将每一个词转换为小写;
E、用波特词干算法还原单词;
F、过滤数字和停止词,得到特征词f;
(2)新Web网页文本信息相似度识别,包括以下步骤:
2.1、从新Web网页中提取文本信息构成新文档,从新文档中提取特征词f, 对新文档进行分词,计算各个词的权重度量TF-IDF值,根据TF-IDF值选取特 征词f1、f2、…、fm
以计算词w的权重度量TF-IDF值为例,上述计算各个词的权重度量 TF-IDF值包括以下步骤:
a、按下式计算词w在文档d中出现的频率TF,即词w在文档d中出现的次数 与文档d总词数的比值:
TF(w,d)=count(w,d)/size(d)
其中,TF(w,d)表示词w在文档d中出现的频率,count(w,d)表示词w在文 档d中出现的次数,size(d)表示文档d所包含的总词数;
b、按下式计算词w在整个文档集合D中的逆文本频率IDF,即计算文档集 合中总文档数与包含词w的文档数的比值然后取对数:
其中,IDF(w,d;D)表示词w在文档集合D中的逆文本频率,sum(D)表示 文档集合D中的文档总数,count(w,d;D)表示文档集合D中包含词w的文档 数;
c、按下式计算词w在文档d中的TF-IDF值,即词w的TF值与IDF值的乘积:
TF-IDF(w,d)=TF×IDF;
2.2、求解每一个特征词f的相似词的集合:针对每一个特征词f,在数据 库***中的词网中寻找与其存在直接互信息关系的词并同时记录与各词的互信 息值,形成每一个特征词对应的相似词集合,即f1→{t11:I11,t12:I12,...}, f2→{t21:I21,t22:I22,...},…,fm→{tm1:Im1,tm2:Im2,...},其中同一特征词fm对 应的相似词集合{tm1,tm2,...}中的所有词均不同,特征词f两两之间可能存在共有 的相似词,即对于任意两个特征词fl和fk(1≤l,k≤m)之间其对应的相似词 集合的交集运算满足其中表示空集;
2.3、求解每一个特征词f的相似文档集合:针对所有特征词f所对应的相 似词集合{t1:I1,t2:I2,...,tn:In},分别求解相似词集合中所有词对应的文档集, 构成相似词集合对应的文档集合,并计算文档集合中各文档累积的互信息值。 即对相似词集合{t1:I1,t2:I2,...,tn:In}中的每一个词ti,求解包含ti的所有文档 构成的文档集{Ii:(di1,di2,...)},其中Ii为对应的互信息值,di1,di2,...均为包含 ti的不同的文档;所有的t完成上述过程后,对所有求得的t所对应的文档集求 并集,即{I1:(d11,d12,...)}∪{I2:(d21,d22,...)}∪...∪{In:(dn1,dn2,...)},得到新 的集合{d1:Id1,d2:Id2,...},对于集合中的项di:Idi,所有的d均为不同的文档, Idi为求并集时包含di的集合对应的互信息值I与相应的t在di中的tf-idf值 的乘积的总和,此时{d1:Id1,d2:Id2,...}即为与特征词f具有一定互信息关系的 文档集合,即f→{d1:Id1,d2:Id2,...};假设f1→{d11:I11,d12:I12,...}, f2→{d21:I21,d22:I22,...},…,fm→{dm1:Im1,dm2:Im1,...},其中di1,di2,...,dij为文档库中不同的文档,文档集合两两之间可能包含相同文档,即对于任意两 个特征词fl和fk(1≤l,k≤m)之间与其互信息相关的文档集合的交集运算满 足
2.4、确定新文档的相似文档:对步骤2.3中所求得的与特征词f具有互信息 关系的文档集合运用交集运算,即求得相似文档集 Ω={d11:I11,d12:I12,...}∧{d21:I21,d22:I22,...}∧...∧{dm1:Im1,dm2:Im1,...},假设 Ω的计算结果为其中为所有集合中都存在的某 文档,Ii为文档对应的相似度值,其值为求交集时所有集合中相应文档对应 的互信息值的总和;则与包含有特征词f1、f2、…、fm的文档相似的文档为
2.5、过滤相似文档集中的文档,得到最终的相似度文档集合:对于相似度 文档集中的每一篇文档根据对应的相似度值Ii, 和阈值δ进行比较,若小于δ,则过滤丢弃,否则保留,即得到过滤后的相似 文档集该集合即为最终的相似度文档集合,这里阈值δ的取值范围 为0.5~0.7;
(3)按步骤(1)的方法对新Web网页进行词网更新,为下一次更新的 Web网页文本信息相似度识别作准备。
下面以实验验证本方法的有效性:
分别在数据集20-NewsGroups和Reuters-21578上进行实验,并与Mahout 提供的Naive Bayes文本分类方法在数据集20-NewsGroups上进行实验对比,与 Mahout提供的K-means文本聚类方法在数据集Reuters-21578上进行实验对比。 实验操作过程分为两个阶段,第一阶段为根据现有所有文档构造主题分类的词 网,相当于词网模型生成阶段;第二阶段为根据第一阶段生成的词网模型查找 某一文档的相似文档。
实验设置:
实验环境为具有19个机器节点的Hadoop集群,总配置容量为6.42TB,其 中一个节点为NameNode节点,一个节点为SecondaryNameNode节点,其余为 DataNode节点;实验所用分布式数据库HBase集群拥有13个机器节点,其中 一个为HMaster节点,其它为HRegionServer节点。集群所用Hadoop的版本号 为2.2.0,所用HBase的版本号为0.98.6。整个Hadoop集群环境结构及机器节点 性能如表1所示,HBase集群环境结构及机器节点性能如表2所示。
表1 Hadoop集群结构及机器节点性能
表2 HBase集群结构及机器节点性能
目前,文本聚类或分类技术中使用最多的Web数据集是20-NewsGroups。
数据集20-NewsGroups由预先定义好的20个分类组成,除了分类目录soc.religion.christian下包含997个文件外,其余每个分类目录下平均包含1000 个文件,整个20-NewsGroups数据集19997个文件,数据类型多为用户检索数 据,文件头部包括主题行、内容所处路径、检索关键字等信息,涉及领域包括 经济、政治、宗教等。该数据集中不同分类目录间包含不同程度的相似信息, 比如,comp.sys.ibm.pc.hardware与comp.sys.mac.hardware之间所含信息很接近, misc.forsale与soc.religion.christian之间所含的信息差异比较大。20-NewsGroups 数据集常用作文本分类算法的数据语料。
数据集Reuters-21578由人工从路透社新闻专线上搜集并整理而成,分布在 22个数据文件中,从reut2-000.sgm到reut2-020.sgm,每个数据文件包含1000 个文档,数据文件reut2-021.sgm包含578个文档,因此该数据集被称为 reuters21578。每个数据文件开头以格式<!DOCTYPE lewis SYSTEM"lewis.dtd"> 声明一个文档类型,紧接着以<REUTERS>开始,</REUTERS>为结尾定义一个 文档内容所属的范围。Reuters-21578数据集都是SGML格式的文件,在使用其 中的文本内容之前都需要进行预处理操作,去除SGML格式符,提取出文本内 容,才能进行后续分析操作。Reuters-21578数据集常用作文本聚类算法的数据 语料。
实验评价:
通常评价一个计算机***或程序的性能好坏是从其所消耗的资源情况,如 空间或时间,进行分析的。然而,文本挖掘***除了考虑整个***的时间或空 间资源消耗情况外,还会比较***发掘相关文档的能力。召回率(Recall)和精 确率(Precision)是衡量一个文本处理***发掘相关文档能力的两种度量方式, 这两类度量方式各有优缺点,互为补充。召回率被定义为***中相关文档被检 索出的比例,侧重于考虑***的查全率,其计算方式如公式(4-1)所示;精确 率被定义为被检索出的文档中相关文档所占的比例,侧重于考虑***的查准率, 其计算方式如公式(4-2)所示。
目前,常用的度量方式是将召回率和精确率两者综合起来考虑,即F1度量 方式:
采用本发明所述方法计算各个文档间的相似度,将相似度在一定阈值范围 内的文档归类在一起,形成新的文档集Θ,通过分析所形成的新文档集Θ中各文 档被正确归类到与原始数据集预先建立好的相同类别下的文档比例作为度量算 法性能正确性的标准。比如,针对数据集某分类目录的召回率为相似度位于一 定阈值δ范围内属于该分类目录的文档数目与原始文档集该分类目录下的文档 总数之间的比值;准确率为相似度位于一定阈值δ范围内属于该分类目录的文档 数目与相似度值位于该阈值δ范围内检索出的文档总数之间的比值。
处理20-NewsGroups的实验结果及分析:
20-NewsGroups中的数据大多是网页检索结果的文本内容,内部存在很多空 行或空格,以及对文本内容起说明作用的文本属性。因此,需要对原始数据集 进行预处理,比如去除空行、标点符号、单个字母、数字、无用词等,对文档 进行分词,提取词干,计算词在文档中的权重等操作。
实验操作过程分为两个阶段,第一阶段是将经过预处理的所有文档构造词 网,相当于词网模型生成阶段;第二阶段为根据第一阶段生成的词网模型查找 某一文档的相似文档。
第一阶段构建词网过程中,***所用时间与文本内容长度关系如图1所示。
数据集20-NewsGroups所构成的词网中词网边数为77053480,即存在互信 息关系的词对数目为7700多万条。
在使用词网模型识别相似文档之前,本文将20-NewsGroups数据集中各个 分类目录下的文档按3:2的比例分成训练集和测试集,训练集用于训练文档相似 度阈值δ,测试集最终验证相似度大于阈值δ范围内模型的准确性。
训练阶段取δ值为0.1~1之间,分别求解训练集中20个不同分类目录下文 档在该分类的召回率和精确率,最后求得所有分类的召回率和精确率平均值作 为数据集的整体召回率和精确率值。其中,召回率平均值和精确率平均值,以 及对应的F1度量值随δ值变化情况如图2所示。
由图2可以看出,综合精确率和召回率的F1度量值在0.5≤δ≤0.6之间取最大 值,且当δ≈0.55时,精确率、召回率和F1三者相交于一点,F1度量值可以取得 极大值。因此,在使用本发明所述方法识别相似文档对数据集20-NewsGroups 进行分类过程中,取文档相似度阈值δ为0.55,即当文档间的相似度大于0.55 时,认为两者所含文本信息相似。
然后本文用数据集的测试数据使用Mahout提供的Naive Bayes文本分类方 法和本发明所述方法取相似度阈值δ为0.55进行实验对比,两者之间的精确率 平均值、召回率平均值和F1-Measure度量如图3所示。
从图3可以看出本发明所述方法对文本进行相似分类,其精确率高于 Mahout中的Naive Bayes文本分类方法,召回率略低于Mahout中的Naive Bayes 方法,但其精确率和召回率的综合评价指数F1值高于前者,说明本发明所述方 法比较适合于文本相似分类。
在时间效率方面,使用Mahout中的Naive Bayes文本分类方法所用时间为 95642秒,使用词相关性方法所用时间128397秒,所有实验操作都是在Hadoop 分布式集群环境下进行。词相关性方法每次从词网中获取相关信息时都需要访 问分布式数据库,因此,需要消耗大量的时间。
处理Reuters-21578的实验结果及分析:
Reuters-25178数据集中的文本内容都是以SGML格式存储在各个数据文件 中,各个文本内容按生成时间先后顺序平均分布在从reut2-000.sgm到 reut2-021.sgm的22个数据文件中,除了数据文件reut2-021.sgm包含578个不同 文档内容外,其余每个数据文件平均包含1000个不同文档内容,因此,不同类 型的信息在不同数据文件之间分布并不均匀,在对Reuters-25178数据集执行相 关操作之前,必须将所有数据文件中的文档内容提取到各个单独的文件中。
首先将所有数据文件中的文档内容提取出来形成各个单独的文本文件,然 后使用Mod Apté划分法所生成的数据标准训练集和测试集,目前认为最好的划 分法是将Reuters-21578数据集分成10个主题类型,但这种划分法存在一个问题 是某些文档所含交叉信息比较多,很难确定属于哪个主题分类,如corn和wheat 两个主题分类与grain主题分类之间的信息交叉度很难界定。Ana采用一种更为 简单、直观的方法,将包含多于一个主题信息的文档丢弃,同时将包含corn、 wheat和grain三个主题信息的文档归类到grain主题分类,最终Reuters-21578 数据集被划分成8个主题类型,各个主题类型下的文档分布情况如表3所示, 本实验即采用这种划分法所得的训练集和测试集,使用Mahout中的k-means聚类算法在训练集上获得各个主题类别下的文档聚类,并计算各类别的簇间密度 (Inter-Cluster Density)和簇内密度(Intra-Cluster Density),使用本文提出的词 相关性方法在训练数据集上训练出各个簇内文本相似度的阈值δ。最后,使用 Mahout中的k-means聚类算法以及本发明所述方法在测试数据集上进行实验对 比。
表3 Reuters-21578数据集划分成8个主题类型的文档分布情况
针对数据集Reuters-21578的实验操作过程仍分为两个阶段,第一阶段是将 经过预处理的所有文档构造词网,相当于词网模型生成阶段;第二阶段为根据 第一阶段生成的词网模型查找某一文档的相似文档。第一阶段的词网构造过程 与4.3节一致,所构成的词网中词网边数为27526742条,即存在互信息关系的 词对数目为2700多万条。
基于k-means方法对训练数据集进行文本聚类后,各个簇内文档间的最小相 似度值平均为0.527,簇间密度为0.5969,簇内密度为0.7038。采用发明所述方 法在训练集上进行实验,其簇间密度、簇内密度以及F1度量随着相似度阈值δ的 变化情况如图4所示,图中所求值为各簇类目之间的平均值。
发明所述方法在处理Reuters-21578数据集时相似度阈值0.5≤δ≤0.7范围内 F1度量值可以取得极大值。同时,为了确保算法的F1度量值可以取得极大值, 以及簇间密度更小、簇内密度更大,本实验取δ值为0.7,即当文档间的相似度 大于0.7,则认为两者属于同一个簇,若文档与多个簇间的相似度都大于δ值, 则将文档归类到相似度最大的那个簇中。
针对测试数据本节使用Mahout提供的k-means文本聚类方法和本发明所述 方法取相似度阈值δ为0.7进行实验对比,两者之间的簇间平均密度、簇内平均 密度和F1-Measure度量如图5所示。
从图5可以看出本发明所述方法在文本聚类中其簇间密度低于k-means算法 的结果,簇内密度略高于k-means算法,说明词相关性方法所生成的聚类簇比较 紧凑。但从其F1度量值分析,k-means方法在文本聚类应用中的优越性高于词相 关性方法。随后本实验进一步使用Naive Bayes算法和C4.5算法按照表3所示 数据集划分法处理对应主题下的文档,得出Naive Bayes算法和C4.5算法的F1度 量值分布情况如表4所示。
表4 Naive Bayes算法和C4.5算法处理表3所示数据集的F1度量结果(%)
从表4可以看出Reuters-21578数据集中的一些文档存在很大程度上的信息 倾斜,比如主题trade下的文档,采用不同的方法其F1度量值差异很大。
在时间效率方面,使用Mahout中的k-means文本聚类方法所用时间为2342 秒,使用词相关性方法所用时间3971秒,所有实验操作都是在Hadoop分布式 集群环境下进行。词相关性方法每次从词网中获取相关信息时都需要访问分布 式数据库,因此,需要消耗大量的时间。
本发明针对互联网中信息传播的特点,提出基于文本文档上下文语境关系 的词相关性模糊识别算法对文档相似信息进行识别,解决传统方法中根据文本 片段的字面内容进行相似信息识别的局限性。
互联网中存在着大量形式自由、内容参差不齐的信息,从而大大增加了获 取有效信息的难度。然而传统方法或者为了提高问题的求解精度而造成所设计 的算法极其复杂,或者为了提高问题的求解效率而忽视了问题求解结果的精度, 总之很难实现简捷、高效、精确三者之间的平衡。本发明基于Hadoop这一优秀 的开源分布式处理平台,提出基于词相关性的相似文档模糊识别方法,通过构 建某一信息主题领域的词网,从统计语言处理模型出发,识别广义上存在相似 信息的文档,即文档中普遍存在的同义转换类型的信息,提高相似信息的识别 范围。
在未来的研究工作中可以采用更广泛的数据语料对本文提出的词相关性模 型进行更深入的研究,对模型中的参数进行多层次优化,从而研究通过中间词 所建立起的词与词之间的互信息关系以及互信息关系大小的衰减过程。此外, 由于该模型在前期构建词网的过程中,需要对代表每一类型信息主题的词之间 进行充分的相关性训练,使词网构建初期需要消耗大量时间,这也是未来的一 个研究方向。
上述实施例只是本发明的较佳实施例,并不是对本发明技术方案的限制, 只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案,均应视 为落入本发明专利的权利保护范围内。

Claims (6)

1.一种基于词网识别大量Web文本信息相似度的方法,其特征在于:包括以下步骤:
(1)构建词网,包括以下步骤:
1.1、从Web网页中提取文本信息构成由多个文档d组成的文档集合D,对文档集合D内的一个文档d提取特征词,计算其所有特征词中任意两个fi、fj两两之间的归一化互信息值norm_Iij和norm_Iji,根据所计算出的norm_Iij和norm_Iji值分别构建特征词fi、fj之间的互信息关系词对<fi,fj>和<fj,fi>,norm_Iij作为互信息关系词对<fi,fj>的权值,norm_Iji作为互信息关系词对<fj,fi>的权值,但norm_Iij=norm_Iji,将互信息关系词对<fi,fj>和词对<fj,fi>添加进词网;
1.2、对文档集合D内的所有文档d执行步骤1.1中的操作,直至文档集合D中的所有文档d处理完;在此过程中,当引入一个新的文档d',提取特征词fi'、f'j,计算其所有特征词中任意两个fi'、f'j两两之间的两个相等的归一化互信息值norm_I'ij和norm_I'ji,并确立两者之间的互信息关系词对<fi',f'j>和<f'j,fi'>,若互信息关系词对<fi',f'j>和<f'j,fi'>在词网中存在,则用norm_I'ij值更新其在词网中的互信息关系的权值,若互信息关系词对<fi',f'j>和<f'j,fi'>在词网中不存在,则将其添加进词网中,最终构成整个词网,将词网存储于数据库***中;
(2)新Web网页文本信息相似度识别,包括以下步骤:
2.1、从新Web网页中提取文本信息构成新文档,从新文档中提取特征词f:对新文档进行分词,计算各个词的权重度量TF-IDF值,根据TF-IDF值选取特征词f1、f2、…、fm
2.2、求解每一个特征词f的相似词的集合:针对每一个特征词f,在数据库***中的词网中寻找与其存在直接互信息关系的词并同时记录与各词的互信息值,形成每一个特征词对应的相似词集合,即f1→{t11:I11,t12:I12,...},f2→{t21:I21,t22:I22,...},…,fm→{tm1:Im1,tm2:Im2,...},其中同一特征词fm对应的相似词集合{tm1,tm2,...}中的所有词均不同,特征词f两两之间可能存在共有的相似词,即对于任意两个特征词fl和fk(1≤l,k≤m)之间其对应的相似词集合的交集运算满足其中表示空集;
2.3、求解每一个特征词f的相似文档集合:针对所有特征词f所对应的相似词集合{t1:I1,t2:I2,...,tn:In},分别求解相似词集合中所有词对应的文档集,构成相似词集合对应的文档集合,并计算文档集合中各文档累积的互信息值。即对相似词集合{t1:I1,t2:I2,...,tn:In}中的每一个词ti,求解包含ti的所有文档构成的文档集{Ii:(di1,di2,...)},其中Ii为对应的互信息值,di1,di2,...均为包含ti的不同的文档;所有的t完成上述过程后,对所有求得的t所对应的文档集求并集,即{I1:(d11,d12,...)}∪{I2:(d21,d22,...)}∪...∪{In:(dn1,dn2,...)},得到新的集合{d1:Id1,d2:Id2,...},对于集合中的项di:Idi,所有的d均为不同的文档,Idi为求并集时包含di的集合对应的互信息值I与相应的t在di中的tf-idf值的乘积的总和,此时{d1:Id1,d2:Id2,...}即为与特征词f具有一定互信息关系的文档集合,即f→{d1:Id1,d2:Id2,...};假设f1→{d11:I11,d12:I12,...},f2→{d21:I21,d22:I22,...},…,fm→{dm1:Im1,dm2:Im1,...},其中di1,di2,...,dij为文档库中不同的文档,文档集合两两之间可能包含相同文档,即对于任意两个特征词fl和fk(1≤l,k≤m)之间与其互信息相关的文档集合的交集运算满足
2.4、确定新文档的相似文档:对步骤2.3中所求得的与特征词f具有互信息关系的文档集合运用交集运算,即求得相似文档集Ω={d11:I11,d12:I12,...}∧{d21:I21,d22:I22,...}∧...∧{dm1:Im1,dm2:Im1,...},假设Ω的计算结果为其中为所有集合中都存在的某文档,Ii为文档对应的相似度值,其值为求交集时所有集合中相应文档对应的互信息值的总和;则与包含有特征词f1、f2、…、fm的文档相似的文档为
2.5、过滤相似文档集中的文档,得到最终的相似度文档集合:对于相似度文档集中的每一篇文档根据对应的相似度值Ii,和阈值δ进行比较,若小于δ,则过滤丢弃,否则保留,即得到过滤后的相似文档集该集合即为最终的相似度文档集合;
(3)按步骤(1)的方法对新Web网页进行词网更新,为下一次更新的Web网页文本信息相似度识别作准备。
2.根据权利要求1所述的基于词网识别大量Web文本信息相似度的方法,其特征在于:所述步骤1.1和步骤2.1中,提取特征词f包括以下步骤:
A、先提取文本信息;
B、过滤符号并分词;
C、分词列表;
D、将每一个词转换为小写;
E、用波特词干算法还原单词;
F、过滤数字和停止词,得到特征词f。
3.根据权利要求1所述的基于词网识别大量Web文本信息相似度的方法,其特征在于:所述步骤1.1中,计算其所有特征词中任意两个fi、fj两两之间的归一化互信息值norm_Iij包括以下步骤:
①构造两特征词fi和fj在文档集合D内所有文档d中的权重度量TF-IDF向量:在特定文档集合D中根据两特征词fi和fj在各个文档d的TF-IDF值分别构造两特征词的具有相同维度的TF-IDF向量,若特征词在文档di中出现,则其TF-IDF向量中第i个位置上的值为该词在相应文档di中的TF-IDF值;若词特征词在文档di中未出现,则其TF-IDF向量中第i个位置上的值用0表示;
②计算两特征词fi和fj的TF-IDF向量距离:计算两TF-IDF向量的余弦值作为度量两词的TF-IDF向量距离,计算方式如公式(I)所示,向量距离定量地说明了两TF-IDF向量的相似度,反映两特征词fi和fj在文档集合D内所表达信息的相似程度:
其中,表示词fi在文档集合D内的TF-IDF向量;表示词fj在文档集合D内的TF-IDF向量;
③计算两特征词fi和fj的归一化互信息值norm_Iij:用两特征词fi和fj的TF-IDF向量距离对按公式(II)计算出的两特征词fi和fj的互信息值进行归一化操作,最后按公式(III)求得两特征词fi和fj的归一化互信息值norm_Iij
其中,X、Y分别表示词fi和fj出现情况的两个随机事件,“0”表示词fi或fj在文档集合的特定文档中未出现,“1”表示词fi或fj在文档集合的特定文档中出现,p(x,y)表示词fi和fj同时出现在文档集合的某些特定文档中的联合概率,p(x)和p(y)分别表示词fi和fj出现在文档集合的某些特定文档中的边缘概率;
4.根据权利要求1所述的基于词网识别大量Web文本信息相似度的方法,其特征在于:所述步骤2.1中,以计算词w的权重度量TF-IDF值为例,计算各个词的权重度量TF-IDF值包括以下步骤:
a、按下式计算词w在文档d中出现的频率TF,即词w在文档d中出现的次数与文档d总词数的比值:
TF(w,d)=count(w,d)/size(d)
其中,TF(w,d)表示词w在文档d中出现的频率,count(w,d)表示词w在文档d中出现的次数,size(d)表示文档d所包含的总词数;
b、按下式计算词w在整个文档集合D中的逆文本频率IDF,即计算文档集合中总文档数与包含词w的文档数的比值然后取对数:
其中,IDF(w,d;D)表示词w在文档集合D中的逆文本频率,sum(D)表示文档集合D中的文档总数,count(w,d;D)表示文档集合D中包含词w的文档数;
c、按下式计算词w在文档d中的TF-IDF值,即词w的TF值与IDF值的乘积:
TF-IDF(w,d)=TF×IDF。
5.根据权利要求1所述的基于词网识别大量Web文本信息相似度的方法,其特征在于:所述步骤2.5中,所述阈值δ的取值范围为0.5~0.7。
6.根据权利要求1所述的基于词网识别大量Web文本信息相似度的方法,其特征在于:所述步骤1.2中的数据库***为分布式数据库HBase。
CN201810445807.4A 2018-05-11 2018-05-11 基于词网识别大量Web文本信息相似度的方法 Expired - Fee Related CN108647322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810445807.4A CN108647322B (zh) 2018-05-11 2018-05-11 基于词网识别大量Web文本信息相似度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810445807.4A CN108647322B (zh) 2018-05-11 2018-05-11 基于词网识别大量Web文本信息相似度的方法

Publications (2)

Publication Number Publication Date
CN108647322A true CN108647322A (zh) 2018-10-12
CN108647322B CN108647322B (zh) 2021-12-17

Family

ID=63754348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810445807.4A Expired - Fee Related CN108647322B (zh) 2018-05-11 2018-05-11 基于词网识别大量Web文本信息相似度的方法

Country Status (1)

Country Link
CN (1) CN108647322B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134760A (zh) * 2019-05-17 2019-08-16 北京思维造物信息科技股份有限公司 一种搜索方法、装置、设备及介质
CN110175234A (zh) * 2019-04-08 2019-08-27 北京百度网讯科技有限公司 未登录词识别方法、装置、计算机设备及存储介质
CN110276390A (zh) * 2019-06-14 2019-09-24 六盘水市食品药品检验检测所 一种第三方食品检测机构综合信息处理***及方法
CN110852090A (zh) * 2019-11-07 2020-02-28 中科天玑数据科技股份有限公司 一种用于舆情爬取的机构特征词汇扩展***和方法
CN111539028A (zh) * 2020-04-23 2020-08-14 周婷 档案存储方法、装置、存储介质及电子设备
CN111881256A (zh) * 2020-07-17 2020-11-03 中国人民解放军战略支援部队信息工程大学 文本实体关系抽取方法、装置及计算机可读存储介质设备
US20220058690A1 (en) * 2017-03-29 2022-02-24 Ebay Inc. Generating keywords by associative context with input words

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275870A1 (en) * 2005-12-12 2008-11-06 Shanahan James G Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance
CN101582080A (zh) * 2009-06-22 2009-11-18 浙江大学 一种基于图像和文本相关性挖掘的Web图像聚类方法
US7689531B1 (en) * 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
CN102033867A (zh) * 2010-12-14 2011-04-27 西北工业大学 用于xml文档分类的语义相似度度量方法
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
US20130060785A1 (en) * 2005-03-30 2013-03-07 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
CN104063502A (zh) * 2014-07-08 2014-09-24 中南大学 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104615714A (zh) * 2015-02-05 2015-05-13 北京中搜网络技术股份有限公司 基于文本相似度和微博频道特征的博文排重方法
CN105183813A (zh) * 2015-08-26 2015-12-23 山东省计算中心(国家超级计算济南中心) 基于互信息的用于文档分类的并行特征选择方法
CN105701167A (zh) * 2015-12-31 2016-06-22 北京工业大学 基于煤矿安全事件主题相关性判别方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130060785A1 (en) * 2005-03-30 2013-03-07 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
US7689531B1 (en) * 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
US20080275870A1 (en) * 2005-12-12 2008-11-06 Shanahan James G Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance
CN101582080A (zh) * 2009-06-22 2009-11-18 浙江大学 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN102033867A (zh) * 2010-12-14 2011-04-27 西北工业大学 用于xml文档分类的语义相似度度量方法
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN104063502A (zh) * 2014-07-08 2014-09-24 中南大学 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104615714A (zh) * 2015-02-05 2015-05-13 北京中搜网络技术股份有限公司 基于文本相似度和微博频道特征的博文排重方法
CN105183813A (zh) * 2015-08-26 2015-12-23 山东省计算中心(国家超级计算济南中心) 基于互信息的用于文档分类的并行特征选择方法
CN105701167A (zh) * 2015-12-31 2016-06-22 北京工业大学 基于煤矿安全事件主题相关性判别方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QINGLIN GUO: "The similarity computing of documents based on VSM", 《2008 32ND ANNUAL IEEE INTERNATIONAL COMPUTER SOFTWARE AND APPLICATIONS CONFERENCE》 *
公冶小燕 等: "基于改进的TF-IDF算法及共现词的主题词抽取算法", 《南京大学学报(自然科学)》 *
程芃森: "基于特征词群的新闻类重复网页和近似网页识别算法", 《成都信息工程学院学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11769173B2 (en) * 2017-03-29 2023-09-26 Ebay Inc. Generating keywords by associative context with input words
US20220058690A1 (en) * 2017-03-29 2022-02-24 Ebay Inc. Generating keywords by associative context with input words
CN110175234B (zh) * 2019-04-08 2022-02-25 北京百度网讯科技有限公司 未登录词识别方法、装置、计算机设备及存储介质
CN110175234A (zh) * 2019-04-08 2019-08-27 北京百度网讯科技有限公司 未登录词识别方法、装置、计算机设备及存储介质
CN110134760A (zh) * 2019-05-17 2019-08-16 北京思维造物信息科技股份有限公司 一种搜索方法、装置、设备及介质
CN110276390A (zh) * 2019-06-14 2019-09-24 六盘水市食品药品检验检测所 一种第三方食品检测机构综合信息处理***及方法
CN110276390B (zh) * 2019-06-14 2022-09-16 六盘水市食品药品检验检测所 一种第三方食品检测机构综合信息处理***及方法
CN110852090A (zh) * 2019-11-07 2020-02-28 中科天玑数据科技股份有限公司 一种用于舆情爬取的机构特征词汇扩展***和方法
CN110852090B (zh) * 2019-11-07 2024-03-19 中科天玑数据科技股份有限公司 一种用于舆情爬取的机构特征词汇扩展***和方法
CN111539028B (zh) * 2020-04-23 2023-05-12 国网浙江省电力有限公司物资分公司 档案存储方法、装置、存储介质及电子设备
CN111539028A (zh) * 2020-04-23 2020-08-14 周婷 档案存储方法、装置、存储介质及电子设备
CN111881256A (zh) * 2020-07-17 2020-11-03 中国人民解放军战略支援部队信息工程大学 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN111881256B (zh) * 2020-07-17 2022-11-08 中国人民解放军战略支援部队信息工程大学 文本实体关系抽取方法、装置及计算机可读存储介质设备

Also Published As

Publication number Publication date
CN108647322B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN108647322A (zh) 基于词网识别大量Web文本信息相似度的方法
Bollacker et al. Discovering relevant scientific literature on the web
Yu et al. Hierarchical topic modeling of Twitter data for online analytical processing
CN105045875B (zh) 个性化信息检索方法及装置
US20030115188A1 (en) Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application
US20150310000A1 (en) Methods and computer-program products for organizing electronic documents
US8732194B2 (en) Systems and methods for generating issue libraries within a document corpus
CN108132927A (zh) 一种融合图结构与节点关联的关键词提取方法
Saleh et al. A semantic based Web page classification strategy using multi-layered domain ontology
Rautray et al. Document summarization using sentence features
CN111382276A (zh) 一种事件发展脉络图生成方法
Tao et al. Doc2cube: Allocating documents to text cube without labeled data
Zaw et al. Web document clustering by using PSO-based cuckoo search clustering algorithm
Bounabi et al. A comparison of Text Classification methods Method of weighted terms selected by different Stemming Techniques
Tao et al. Doc2cube: Automated document allocation to text cube via dimension-aware joint embedding
Chen et al. Web services clustering using SOM based on kernel cosine similarity measure
CN114722304A (zh) 异质信息网络上基于主题的社区搜索方法
Chen et al. MGNETS: multi-graph neural networks for table search
Chen et al. Community discovery algorithm of citation semantic link network
Xu et al. A hybrid deep neural network model for query intent classification
Wang et al. LSA-PTM: a propagation-based topic model using latent semantic analysis on heterogeneous information networks
Wu et al. Web image retrieval using self‐organizing feature map
Silveira et al. Ranking keyphrases from semantic and syntactic features of textual terms
Gustafson et al. Generating fuzzy equivalence classes on RSS news articles for retrieving correlated information
Kumari et al. Reducing Search Space in Big Data Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211217