CN109388665A - 作者关系在线挖掘方法及*** - Google Patents

作者关系在线挖掘方法及*** Download PDF

Info

Publication number
CN109388665A
CN109388665A CN201811155138.3A CN201811155138A CN109388665A CN 109388665 A CN109388665 A CN 109388665A CN 201811155138 A CN201811155138 A CN 201811155138A CN 109388665 A CN109388665 A CN 109388665A
Authority
CN
China
Prior art keywords
cluster
author
content blocks
clusters
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811155138.3A
Other languages
English (en)
Other versions
CN109388665B (zh
Inventor
包铁
刘露
葛亮
王上
彭涛
崔海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201811155138.3A priority Critical patent/CN109388665B/zh
Publication of CN109388665A publication Critical patent/CN109388665A/zh
Application granted granted Critical
Publication of CN109388665B publication Critical patent/CN109388665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种作者关系在线挖掘方法及***,该作者关系在线挖掘方法根据爬行队列中的URL获取目标页面并将所述目标页面解析为文档对象模型;根据内容分割策略将所述文档对象模型划分为多个内容块;分别从每个所述内容块中提取作者信息,并在完成爬取操作后根据提取到的作者信息,对内容块进行增量层次化聚类,得到聚簇;对各个所述聚簇中的作者信息进行关联规则挖掘,实现了在线从网页中挖掘作者之间关系的目的。

Description

作者关系在线挖掘方法及***
技术领域
本发明属于数据挖掘技术领域,尤其涉及一种作者关系在线挖掘方法及 ***。
背景技术
通过查找学术团队并挖掘学术团队中作者之间的关系,有助于了解学术 团队的兴趣以及该领域的研究动态,并且可以了解团队中作者的关系强度, 研究作者的兴趣变化。
随着网络的发展,用户经常访问网络以查找并获取所需要的信息。但是, 现有技术中并没有提供在线查找学术团队并挖掘学术团队中作者之间的关系 的方法,使得不能在学术文献网络环境下,在线挖掘出作者之间的关系。
发明内容
有鉴于此,本发明的目的在于提供一种作者关系在线挖掘方法及***, 以解决现有不能在线挖掘出作者关系的问题。
技术方案如下:
本发明提供一种作者关系在线挖掘方法,包括:
根据爬行队列中的统一资源定位符URL获取目标页面;
将所述目标页面解析为文档对象模型;
根据内容分割策略将所述文档对象模型划分为多个内容块;分别从每个 所述内容块中提取作者信息;
根据所述作者信息,对所述内容块进行增量层次化聚类,得到聚簇;
对各个所述聚簇中的作者信息进行关联规则挖掘,以确定作者之间的关 系。
优选地,所述根据所述作者信息,对所述内容块进行聚类,得到聚簇包 括:
从所述作者信息中获取特征;
基于公式:
计算两个聚簇之间的相似度;其中,Ci表示第i个聚簇,Cj表示第j个聚簇,sim(Ci,Cj)表示聚簇Ci和聚 簇Cj之间的相似度;Fi为聚簇Ci的特征集合,Fj为聚簇Cj的特征集合;xik表示聚簇i中第k个特征权值,xjk表示聚簇j中第k个特征权值;M为特征数; 初始状态下,将每个内容块作为一个聚簇;
其中,基于公式:
计算聚簇中的特征权值;xui表示聚簇u中第i个特征 权值;fui为第i个特征在聚簇u中的频率,N为页面中内容块的数量,ni为出 现第i个特征的内容块的数量;
基于公式:
确定是否将两个聚簇合并为一个聚簇;其中,Uk为聚簇Ci的内容块,Ug为聚簇Cj的内容块;n为 聚类Cj中内容块的数量,m为聚类Cj中内容块的数量,λ为预设参数;
若CV(Ci,Cj)取值为1,则将聚簇Ci和聚簇Cj合并为一个聚簇。
优选地,所述分别从每个所述内容块中提取作者信息包括:
分别对每个所述内容块进行预处理,得到预处理后的内容块;
分别从每个所述预处理后的内容块中提取作者信息。
优选地,在所述根据所述作者信息,对所述内容块进行聚类,得到聚簇 之后,在所述对各个所述聚簇中的作者信息进行关联规则挖掘,以确定作者 之间的关系之前,还包括:
计算输入的匹配特征与各个所述聚簇之间的相似性;
根据所述相似性,确定目标聚簇;
获取所述目标聚簇中的URL;
将所述目标聚簇中的URL加入到爬行队列,返回执行从爬行队列中获取 目标页面的步骤及其后续步骤。
优选地,所述将所述目标聚簇中的URL加入到爬行队列,返回执行从爬 行队列中获取目标页面的步骤及其后续步骤包括:
确定所述目标聚簇中的URL是否位于所述爬行队列中;
确定所述目标聚簇中的URL没有位于所述爬行队列中,则将所述目标聚 簇中的URL加入爬行队列,并返回执行从爬行队列中获取目标页面的步骤及 其后续步骤。
优选地,所述对各个所述聚簇中的作者信息进行关联规则挖掘,以确定 作者之间的关系包括:
基于关联分析算法,从各个所述聚簇中提取关联规则;
通过置信度计算团队中作者间的关系强度。
本发明还提供了一种作者关系在线挖掘***,包括:
第一获取单元,用于根据爬行队列中的统一资源定位符URL获取目标页 面;
解析单元,用于将所述目标页面解析为文档对象模型;
划分单元,用于根据内容分割策略将所述文档对象模型划分为多个内容 块;提取单元,用于分别从每个所述内容块中提取作者信息;
聚类单元,用于根据所述作者信息,对所述内容块进行增量层次化聚类, 得到聚簇;
挖掘单元,用于对各个所述聚簇中的作者信息进行关联规则挖掘,以确 定作者之间的关系。
优选地,所述提取单元包括:
预处理子单元,用于分别对每个所述内容块进行预处理,得到预处理后 的内容块;
第一提取子单元,用于分别从每个所述预处理后的内容块中提取作者信 息。
优选地,还包括:
计算单元,用于计算输入的匹配特征与各个所述聚簇之间的相似性;
确定单元,用于根据所述相似性,确定目标聚簇;
第二获取单元,用于获取所述目标聚簇中的URL;
加入单元,用于将所述目标聚簇中的URL加入到爬行队列,并调用所述 第一获取单元。
优选地,所述挖掘单元包括:
第二提取子单元,用于基于关联分析算法,从各个所述聚簇中提取关联 规则;
关系计算子单元,用于通过置信度计算团队中作者间的关系强度。
与现有技术相比,本发明提供的上述技术方案具有如下优点:
从上述技术方案可知,本申请中根据爬行队列中的URL获取目标页面并 将所述目标页面解析为文档对象模型;根据内容分割策略将所述文档对象模 型划分为多个内容块;分别从每个所述内容块中提取作者信息,并在完成爬 取操作后根据提取到的作者信息,对内容块进行增量层次化聚类,得到聚簇; 对各个所述聚簇中的作者信息进行关联规则挖掘,实现了在线从网页中挖掘 作者之间关系的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种作者关系在线挖掘方法的流程图;
图2是本发明实施例中实现聚类的示意图;
图3是本发明实施例中对内容块聚类后得到的结果示意图;
图4是本发明实施例确定得到的作者之间的关系的示意图;
图5是本发明实施例提供的另一种作者关系在线挖掘方法的流程图;
图6是本发明实施例提供的根据选取的种子链接获取到的目标页面示意 图;
图7是本发明实施例提供的一种作者关系在线挖掘***的结构示意图;
图8是本发明实施例提供的另一种作者关系在线挖掘***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发 明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获 得的所有其他实施例,都属于本发明保护的范围。
本实施例公开了一种作者关系在线挖掘方法,参见图1,该实施例包括以 下步骤:
S101、根据爬行队列中的统一资源定位符URL获取目标页面;
互联网上的每个网页都有自己唯一的统一资源定位符URL,基于网络爬行 技术从互联网的网页中搜索内容是从一组初始种子URL开始的,这些种子URL 被添加到爬行队列中。基于爬行队列中的URL,采用多个线程执行根据URL 下载网页的操作,从下载得到的网页中获取目标页面。
S102、将所述目标页面解析为文档对象模型;
在将目标页面解析为文档对象模型(Document Object Model,DOM)之 前,先将HTML页面整理成格式规范的Web页面,对整理后得到的Web页面 进行解析得到页面的DOM树。通过对页面解析之前进行整理操作,可以简化 对页面的分析,进而加快解析得到DOM树的进度。
可选地,本实施例中采用HTML tidy工具将HTML页面整理成格式规范的Web页面。
文档对象模型(Document Object Model,简称DOM),是W3C组织推荐 的处理可扩展标志语言的标准编程接口,在网页上,组织页面(或文档)的 对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DOM。
S103、根据内容分割策略将所述文档对象模型划分为多个内容块;
在执行爬行前需要预先制定爬行策略,对与用户输入信息的相关性的判 断基本单位可以选择锚文本、连接上下文、内容块,判断基本单位决定了DOM 树中子树的大小。根据不同的判断基本单位,确定得到的内容分割策略是不 同的,进而基于内容分割策略划分得到的内容块的大小是不同的。
DOM树中的每个节点都可以表示一个内容块,每个内容块都是由标记构 造以及标识的。
本实施例中在对作者关系在线挖掘这一应用场景下,将网页中每一条文 献记录划分为一个内容块。在其他实施例中,在对作者关系在线挖掘这一应 用场景下,还可以将网页中文献划分为一个内容块,在标识文献的这一内容 块下,包括多条文献记录。即文献内容块作为一个节点,在文献内容块这一 节点的下一层节点中包括多个子节点,每个子节点表示一条文献记录。
S104、分别从每个所述内容块中提取作者信息;
本实施例中每一条文献记录划分为一个内容块,每条文献记录中包括文 献题目、文献作者以及文献出版物等内容。需要从每个内容块中分别提取出 作者信息,具体为作者名称。通常情况下,一篇文献对应的作者信息为由多 个作者名称组成的作者组。如,从一个内容块中提取到的作者信息为由tao peng,wanlizuo,yilinliu三个作者名称组成的作者组。
在其他实施例中,若划分得到的内容块为文献内容块,则需要先从多个 内容块中定位到文献内容块,然后在从文献内容块中分别提取每个子节点内 的作者信息。
S105、根据所述作者信息,对所述内容块进行增量层次化聚类,得到聚 簇;
本实施例中聚类过程是用于文献作者团队发现以及作者关系挖掘的,采 用基于特征的层次聚类方法,采用自底向上的策略。
在初始状态下,将每个内容块作为一个聚簇,并根据聚簇中的作者信息, 计算两个聚簇之间的相似度;若两个聚簇之间的相似度不满足预定条件,则 认为两个聚簇不属于同一类,再分别计算这两个聚簇与其他聚簇之间的相似 度;
若两个聚簇之间的相似度满足预定条件,则将两个聚簇合并为一个聚簇, 得到一个新的聚簇,再计算这一新的聚簇与其他聚簇之间的相似度;
通过重复执行合并两个聚簇的操作,完成对所述内容块的聚类,得到聚 簇。
如图2所示,内容块包括C1、C2、······、Ci,初始状态下,将C1、C2、······、Ci分别作为一个聚簇,如图2(a)所示,对于聚簇Ci,根据聚 簇Ci中的作者信息以及聚簇C2中的作者信息,计算聚簇Ci与聚簇C2之间 的相似度,确定聚簇Ci与聚簇C2之间的相似度满足预定条件,将聚簇Ci与 聚簇C2合并为一个新的聚簇,记为Cb,如图2(b)所示;合并得到聚簇 Cb后,聚簇Cb内的作者信息包括聚簇Ci中的作者信息和聚簇C2中的作者 信息,基于聚簇Cb内的作者信息以及聚簇C5中的作者信息,计算聚簇Cb 与聚簇C5之间的相似度,确定聚簇Cb与聚簇C5之间的相似度满足预定条 件,将聚簇Cb与聚簇C5合并为一个新的聚簇,记为Cc,如图2(c)所示; 同理,将聚簇C6与聚簇C9合并为一个新的聚簇,记为Ca;将聚簇C1、C3、 C4、C7、C8聚类为一个新的聚簇。
通过对内容块进行的增量层次化聚类,最终得到三个聚簇,分别为聚簇 C1、C3、C4、C7、C8聚类成的一个聚簇、聚簇Cc以及聚簇Ca。如图2(c) 所示,每个虚线框构成一个聚簇。
需要注意的是,在其他实施例中,若内容块为文献内容块,那么执行的 不是对文献内容块的聚类,而是对文献内容块下的子节点即文献记录的聚类。
参见图3所示,为本实施例中对内容块聚类后得到的结果。将标号0-28 分别对应的每组作者,聚类为聚簇1。
S106、对各个所述聚簇中的作者信息进行关联规则挖掘,以确定作者之 间的关系。
本实施例中,基于关联分析算法,如FP-Growth算法,从各个所述聚簇中 提取关联规则,并通过置信度计算团队中作者间的关系强度。
具体地,对聚簇中每组作者进行关联规则提取,通过频繁模式树中的各 节点构造条件模式库,并采用分治策略,将表示频繁项的数据集构建频繁模 式树,其包含与频繁模式挖掘相关的数据集的完整信息;递归挖掘条件模式 树并生成所获得的频繁模式,通过置信度计算团队中作者间关系强度。
如图4所示,为本实施例中确定得到的作者之间的关系。fengling he与 wanlizuo之间的关系强度为100%,即文献中的作者有fengling he,则此篇文 献中的作者一定有wanli zuo。
从上述技术方案可知,本实施例中根据爬行队列中的URL获取目标页面 并将所述目标页面解析为DOM树;根据内容分割策略将所述DOM树划分为 多个内容块;分别从每个所述内容块中提取作者信息,并在完成爬取操作后 根据提取到的作者信息,对内容块进行增量层次化聚类,得到聚簇;对各个 所述聚簇中的作者信息进行关联规则挖掘,实现了从网页中挖掘到作者之间 的关系,进而提供了一种作者关系在线挖掘的方法。
同时,本实施例中基于DOM对Web页面进行分区得到多个内容块,不 能使得web页面内容更加精练,而且不会淡化和混淆Web页面中高度相关的 区域,相较于现有技术中使用原始HTML标记进行聚类爬行,本实施例中将每 个内容块作为提取内容的对象,而不是将整个web页面作为提取内容的对象, 提高了聚类爬行的性能。另外,使用增量层次化聚类方法,可以使聚类过程 获得良好的速度和可扩展性。
本实施例中提供了另一种作者关系在线挖掘方法,参见图5所示,该实 施例包括以下步骤:
S201、根据爬行队列中的统一资源定位符URL获取目标页面;
在初始执行爬行的过程中,需要选取种子链接,其中选取的种子链接对 爬行层数以及爬行结果产生影响。本实施例中根据团队中作者的知名度或者 作者发表论文的数量,选取种子链接。如,选择知名度最高的作者或者发表 论文的数量最大的作者相关的网页链接作为种子链接。根据种子链接获取网 页,并从获取到的网页中获取目标页面。
如图6所示,为本实施例提供的根据选取的种子链接获取到的目标页面 示意图。
S202、将所述目标页面解析为文档对象模型;
S203、根据内容分割策略将所述文档对象模型划分为多个内容块;本实 施例中步骤S202-S203的实现方式与上一实施例中步骤S102-S103的实现方式 类似,此处不再赘述。
S204、分别从每个所述内容块中提取作者信息;
本实施例中在从内容块中提取作者信息时,先对内容块进行预处理,然 后从预处理后的内容块中提取作者信息。从预处理后的内容块中提取作者信 息的实现方式与上一实施例中步骤S104中从内容块中提取作者信息的方式类 似,但是经过对内容块的预处理,可以提高提取作者信息的效率以及准确性。
其中,预处理包括对内容块中的文献作者、文献题目以及文献出版物等 内容的分割,还包括对网页清洗,如对多余或者丢失标记的处理、对空格的 处理等。
S205、根据所述作者信息,对所述内容块进行增量层次化聚类,得到聚 簇;
本实施例中聚类过程是用于文献作者团队发现以及作者关系挖掘的,采 用基于特征的层次聚类方法,采用自底向上的策略。
从所述作者信息中获取到特征,其中,特征可以为词汇。
基于公式:
计算两个聚簇之间的相似度;其中,Ci表示第i个聚簇,Cj表示第j个聚簇,sim(Ci,Cj)表示聚簇Ci和聚 簇Cj之间的相似度;Fi为聚簇Ci的特征集合,Fj为聚簇Cj的特征集合;xik表示聚簇i中第k个特征权值,xjk表示聚簇j中第k个特征权值;M为特征数; 初始状态下,将每个内容块作为一个聚簇;
其中,基于公式计算聚簇中的特征权值;xui表示聚 簇u中第i个特征权值;fui为第i个特征在聚簇u中的频率,N为页面中内容 块的数量,ni为出现第i个特征的内容块的数量;
基于公式:确定是否将两个聚簇合并为一个聚簇;其中,Uk为聚簇Ci的内容块,Ug为聚簇Cj的内 容块;n为聚类Cj中内容块的数量,m为聚类Cj中内容块的数量,λ为预设 参数;优选地,λ=2;
若CV(Ci,Cj)取值为1,则将聚簇Ci和聚簇Cj合并为一个聚簇;
若CV(Ci,Cj)取值为0,则不将聚簇Ci和聚簇Cj合并为一个聚簇。
即预定条件为或者
本实施例中从内容块中提取到的是文献的作者列表,因此内容块中的特 征少,通常不超过10个特征,是短文本微聚类的过程。
S206、计算输入的匹配特征与各个所述聚簇之间的相似性;
得到聚簇后输入匹配特征,并计算输入的匹配特征与得到的多个聚簇之 间的相似性。
S207、根据所述相似性,确定目标聚簇;
确定匹配特征与多个聚簇之间的相似性最大的聚簇,作为目标聚簇。其 中,输入的匹配特征不同将导致确定得到的目标聚簇是不同的。
S208、获取所述目标聚簇中的URL;
获取到的目标聚簇中的URL至少为一项。
S209、确定所述目标聚簇中的URL是否位于所述爬行队列中;
确定所述目标聚簇中的URL没有位于所述爬行队列中,则执行步骤S210;
确定所述目标聚簇中的URL位于所述爬行队列中,则忽略所述目标聚簇 中的URL,并执行步骤S211;
若确定所述目标聚簇中的URL没有位于爬行队列中,则说明没有对此URL 指定的web页面进行过处理,则将此URL加入爬行队列的尾部,等待对此URL 指定的web页面的处理,实现了对目标聚簇中的URL的跟踪。
S210、将所述目标聚簇中的URL加入到爬行队列,返回执行步骤S201;
当一个新的URL加入到爬行队列后,需要调整爬行队列中URL的顺序, 在本实施例中将目标聚簇中的URL加入到爬行队列的尾部,使得先加入爬行 队列中的URL先处理,后加入爬行队列中的URL后处理。
S211、确定是否满足爬行停止条件;
若确定满足爬行停止条件,则执行步骤S212;
若确定不满足爬行停止条件,则返回执行步骤S201;爬行停止条件可以 设置最大时间,即当间隔最大时间后都没有新的URL加入爬行队列中,则确 定满足爬行停止条件;否则,确定不满足爬行停止条件,需要继续执行爬行 操作;
爬行停止条件还可以设置为爬行层数,即当爬行层数达到预设爬行层数 后,确定满足爬行停止条件;否则,确定不满足爬行停止条件,需要继续执 行爬行操作。
可以理解的是,本实施例中并不是只有在确定目标聚簇中的URL位于爬 行队列中后,才执行确定是否满足爬行停止条件的操作,可以在执行完步骤 S205的聚类操作后就确定是否满足爬行停止条件的操作。
S212、对各个所述聚簇中的作者信息进行关联规则挖掘,以确定作者之 间的关系。
本实施例中步骤S212的实现方式与上一实施例中步骤S106的实现方式 类似,此处不再赘述。
从上述技术方案可知,本实施例中基于DOM对Web页面进行分区得到 多个内容块,分别从每个所述内容块中提取作者信息,并在完成爬取操作后 根据提取到的作者信息,对内容块进行增量层次化聚类,得到聚簇;对各个 所述聚簇中的作者信息进行关联规则挖掘,实现了作者关系在线挖掘。由于 从内容块中提取到的是文献的作者列表,因此内容块中的特征少,通常不超 过10个特征,是短文本微聚类的过程,且在一个在线文献网络环境中利用聚 类爬行技术挖掘出作者之间的关系的过程中,并不需要训练数据,本实施例 是基于非监督学习的web微聚类方法。
而现有基于主题爬行对web特定主题信息获取时通常采用监督学习方 法,即利用分类器指导爬行。但分类器有一个明显的缺点,需要大量的高质 量训练数据,其中,获取训练数据是一项费事费力,高成本的任务,尤其是 可信反例的获取。另外,需要预先指定分类的类别,不能发现非预定类别信 息。因此,本申请基于非监督学习的web微聚类,实现对文献网络这一特定 领域的信息检索,如对DBLP(https://dblp.uni-trier.de/)这一文献网络进行信 息检索的方案,相较于现有采用监督学习的聚类,大大缩短了聚类所需时间。 且不需要预先指定分类的类别,可以发现其他非预定类别的信息。
对应上述实施例公开的作者关系在线挖掘方法,本实施例公开了一种作 者关系在线挖掘***,该作者关系在线挖掘***结构示意图请参阅图7所示, 本实施例中作者关系在线挖掘***包括:
第一获取单元701、解析单元702、划分单元703、提取单元704、聚类 单元705和挖掘单元706;
第一获取单元701,用于根据爬行队列中的统一资源定位符URL获取目 标页面;
解析单元702,用于将所述目标页面解析为文档对象模型;
划分单元703,用于根据内容分割策略将所述文档对象模型划分为多个内 容块;提取单元704,用于分别从每个所述内容块中提取作者信息;
聚类单元705,用于根据所述作者信息,对所述内容块进行增量层次化聚 类,得到聚簇;
具体地,基于公式:
计算两个聚簇之间的相似度;其中,Ci表示第i个聚簇,Cj表示第j个聚簇,sim(Ci,Cj)表示聚簇Ci和聚 簇Cj之间的相似度;Fi为聚簇Ci的特征集合,Fj为聚簇Cj的特征集合;xik表示聚簇i中第k个特征权值,xjk表示聚簇j中第k个特征权值;M为特征数; 初始状态下,将每个内容块作为一个聚簇;
其中,基于公式计算聚簇中的特征权值;xui表示聚 簇u中第i个特征权值;fui为第i个特征在聚簇u中的频率,N为页面中内容 块的数量,ni为出现第i个特征的内容块的数量;
基于公式:确定是否将两个聚簇合并为一个聚簇;其中,Uk为聚簇Ci的内容块,Ug为聚簇Cj的内 容块;n为聚类Cj中内容块的数量,m为聚类Cj中内容块的数量,λ为预设 参数;优选地,λ=2;
若CV(Ci,Cj)取值为1,则将聚簇Ci和聚簇Cj合并为一个聚簇;
若CV(Ci,Cj)取值为0,则不将聚簇Ci和聚簇Cj合并为一个聚簇。
挖掘单元706,用于对各个所述聚簇中的作者信息进行关联规则挖掘,以 确定作者之间的关系。
从上述技术方案可知,本实施例中根据爬行队列中的URL获取目标页面 并将所述目标页面解析为DOM树;根据内容分割策略将所述DOM树划分为 多个内容块;分别从每个所述内容块中提取作者信息,并在完成爬取操作后 根据提取到的作者信息,对内容块进行增量层次化聚类,得到聚簇;对各个 所述聚簇中的作者信息进行关联规则挖掘,实现了从网页中挖掘到作者之间 的关系,进而提供了一种作者关系在线挖掘的方法。
同时,本实施例中基于DOM对Web页面进行分区得到多个内容块,不 能使得web页面内容更加精练,而且不会淡化和混淆Web页面中高度相关的 区域,相较于现有技术中使用原始HTML标记进行聚类爬行,本实施例中将每 个内容块作为提取内容的对象,而不是将整个web页面作为提取内容的对象, 提高了聚类爬行的性能。另外,使用增量层次化聚类方法,可以使聚类过程 获得良好的速度和可扩展性。
本实施例还公开了另一种作者关系在线挖掘***,该作者关系在线挖掘 ***结构示意图请参阅图8所示,相较于图7所示的作者关系在线挖掘***, 本实施例中作者关系在线挖掘***还包括:
计算单元801、确定单元802、第二获取单元803和加入单元804;
计算单元801,用于计算输入的匹配特征与各个所述聚簇之间的相似性;
确定单元802,用于根据所述相似性,确定目标聚簇;
第二获取单元803,用于获取所述目标聚簇中的URL;
加入单元804,用于将所述目标聚簇中的URL加入到爬行队列,并调用所 述第一获取单元;
可选地,提取单元704包括:
预处理子单元和第一提取子单元;
所述预处理子单元,用于分别对每个所述内容块进行预处理,得到预处 理后的内容块;
所述第一提取子单元,用于分别从每个所述预处理后的内容块中提取作 者信息。
可选地,挖掘单元706包括:
第二提取子单元和关系计算子单元;
所述第二提取子单元,用于基于关联分析算法,从各个所述聚簇中提取 关联规则;
所述关系计算子单元,用于通过置信度计算团队中作者间的关系强度。
从上述技术方案可知,本实施例中基于DOM对Web页面进行分区得到 多个内容块,分别从每个所述内容块中提取作者信息,并在完成爬取操作后 根据提取到的作者信息,对内容块进行增量层次化聚类,得到聚簇;对各个 所述聚簇中的作者信息进行关联规则挖掘,实现了作者关系在线挖掘。由于 从内容块中提取到的是文献的作者列表,因此内容块中的特征少,通常不超 过10个特征,是短文本微聚类的过程,且在一个在线文献网络环境中利用聚 类爬行技术挖掘出作者之间的关系的过程中,并不需要训练数据,本实施例 是基于非监督学习的web微聚类方法。
而现有基于主题爬行对web特定主题信息获取时通常采用监督学习方 法,即利用分类器指导爬行。但分类器有一个明显的缺点,需要大量的高质 量训练数据,其中,获取训练数据是一项费事费力,高成本的任务,尤其是 可信反例的获取。另外,需要预先指定分类的类别,不能发现非预定类别信 息。因此,本申请基于非监督学习的web微聚类,实现对文献网络这一特定 领域的信息检索,如对DBLP(https://dblp.uni-trier.de/)这一文献网络进行信 息检索的方案,相较于现有采用监督学习的聚类,大大缩短了聚类所需时间。 且不需要预先指定分类的类别,可以发现其他非预定类别的信息。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。 对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述 的比较简单,相关之处参见方法部分说明即可。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设 备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括 为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下, 由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、 物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发 明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文 中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实 施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要 符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普 通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润 饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种作者关系在线挖掘方法,其特征在于,包括:
根据爬行队列中的统一资源定位符URL获取目标页面;
将所述目标页面解析为文档对象模型;
根据内容分割策略将所述文档对象模型划分为多个内容块;分别从每个所述内容块中提取作者信息;
根据所述作者信息,对所述内容块进行增量层次化聚类,得到聚簇;
对各个所述聚簇中的作者信息进行关联规则挖掘,以确定作者之间的关系。
2.根据权利要求1所述的方法,其特征在于,所述根据所述作者信息,对所述内容块进行聚类,得到聚簇包括:
从所述作者信息中获取特征;
基于公式:
(i≠j)计算两个聚簇之间的相似度;其中,Ci表示第i个聚簇,Cj表示第j个聚簇,sim(Ci,Cj)表示聚簇Ci和聚簇Cj之间的相似度;Fi为聚簇Ci的特征集合,Fj为聚簇Cj的特征集合;xik表示聚簇i中第k个特征权值,xjk表示聚簇j中第k个特征权值;M为特征数;初始状态下,将每个内容块作为一个聚簇;
其中,基于公式:
计算聚簇中的特征权值;xui表示聚簇u中第i个特征权值;fui为第i个特征在聚簇u中的频率,N为页面中内容块的数量,ni为出现第i个特征的内容块的数量;
基于公式:
确定是否将两个聚簇合并为一个聚簇;其中,Uk为聚簇Ci的内容块,Ug为聚簇Cj的内容块;n为聚类Cj中内容块的数量,m为聚类Cj中内容块的数量,λ为预设参数;
若CV(Ci,Cj)取值为1,则将聚簇Ci和聚簇Cj合并为一个聚簇。
3.根据权利要求1或2所述的方法,其特征在于,所述分别从每个所述内容块中提取作者信息包括:
分别对每个所述内容块进行预处理,得到预处理后的内容块;
分别从每个所述预处理后的内容块中提取作者信息。
4.根据权利要求1或2所述的方法,其特征在于,在所述根据所述作者信息,对所述内容块进行聚类,得到聚簇之后,在所述对各个所述聚簇中的作者信息进行关联规则挖掘,以确定作者之间的关系之前,还包括:
计算输入的匹配特征与各个所述聚簇之间的相似性;
根据所述相似性,确定目标聚簇;
获取所述目标聚簇中的URL;
将所述目标聚簇中的URL加入到爬行队列,返回执行从爬行队列中获取目标页面的步骤及其后续步骤。
5.根据权利要求4所述的方法,其特征在于,所述将所述目标聚簇中的URL加入到爬行队列,返回执行从爬行队列中获取目标页面的步骤及其后续步骤包括:
确定所述目标聚簇中的URL是否位于所述爬行队列中;
确定所述目标聚簇中的URL没有位于所述爬行队列中,则将所述目标聚簇中的URL加入爬行队列,并返回执行从爬行队列中获取目标页面的步骤及其后续步骤。
6.根据权利要求1-4任意一项所述的方法,其特征在于,所述对各个所述聚簇中的作者信息进行关联规则挖掘,以确定作者之间的关系包括:
基于关联分析算法,从各个所述聚簇中提取关联规则;
通过置信度计算团队中作者间的关系强度。
7.一种作者关系在线挖掘***,其特征在于,包括:
第一获取单元,用于根据爬行队列中的统一资源定位符URL获取目标页面;
解析单元,用于将所述目标页面解析为文档对象模型;
划分单元,用于根据内容分割策略将所述文档对象模型划分为多个内容块;提取单元,用于分别从每个所述内容块中提取作者信息;
聚类单元,用于根据所述作者信息,对所述内容块进行增量层次化聚类,得到聚簇;
挖掘单元,用于对各个所述聚簇中的作者信息进行关联规则挖掘,以确定作者之间的关系。
8.根据权利要求7所述的***,其特征在于,所述提取单元包括:
预处理子单元,用于分别对每个所述内容块进行预处理,得到预处理后的内容块;
第一提取子单元,用于分别从每个所述预处理后的内容块中提取作者信息。
9.根据权利要求7或8所述的***,其特征在于,还包括:
计算单元,用于计算输入的匹配特征与各个所述聚簇之间的相似性;
确定单元,用于根据所述相似性,确定目标聚簇;
第二获取单元,用于获取所述目标聚簇中的URL;
加入单元,用于将所述目标聚簇中的URL加入到爬行队列,并调用所述第一获取单元。
10.根据权利要求7或8所述的***,其特征在于,所述挖掘单元包括:
第二提取子单元,用于基于关联分析算法,从各个所述聚簇中提取关联规则;
关系计算子单元,用于通过置信度计算团队中作者间的关系强度。
CN201811155138.3A 2018-09-30 2018-09-30 作者关系在线挖掘方法及*** Active CN109388665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811155138.3A CN109388665B (zh) 2018-09-30 2018-09-30 作者关系在线挖掘方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811155138.3A CN109388665B (zh) 2018-09-30 2018-09-30 作者关系在线挖掘方法及***

Publications (2)

Publication Number Publication Date
CN109388665A true CN109388665A (zh) 2019-02-26
CN109388665B CN109388665B (zh) 2020-10-09

Family

ID=65419129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811155138.3A Active CN109388665B (zh) 2018-09-30 2018-09-30 作者关系在线挖掘方法及***

Country Status (1)

Country Link
CN (1) CN109388665B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595713A (zh) * 2018-05-14 2018-09-28 中国科学院计算机网络信息中心 确定对象集合的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
CN103853831A (zh) * 2014-03-10 2014-06-11 中国电子科技集团公司第二十八研究所 一种基于用户兴趣的个性化搜索实现方法
CN106970938A (zh) * 2017-02-13 2017-07-21 上海大学 面向聚焦的Web网页获取和信息抽取方法
US20180218241A1 (en) * 2015-05-08 2018-08-02 Guangzhou Ucweb Computer Technology Co., Ltd. Webpage classification method and apparatus, calculation device and machine readable storage medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
CN103853831A (zh) * 2014-03-10 2014-06-11 中国电子科技集团公司第二十八研究所 一种基于用户兴趣的个性化搜索实现方法
US20180218241A1 (en) * 2015-05-08 2018-08-02 Guangzhou Ucweb Computer Technology Co., Ltd. Webpage classification method and apparatus, calculation device and machine readable storage medium
CN106970938A (zh) * 2017-02-13 2017-07-21 上海大学 面向聚焦的Web网页获取和信息抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田利云: ""面向学位论文的致谢分析和生成研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈晨: ""面向Web文本挖掘的主题网络爬虫研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595713A (zh) * 2018-05-14 2018-09-28 中国科学院计算机网络信息中心 确定对象集合的方法和装置
CN108595713B (zh) * 2018-05-14 2020-09-29 中国科学院计算机网络信息中心 确定对象集合的方法和装置

Also Published As

Publication number Publication date
CN109388665B (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
US7660804B2 (en) Joint optimization of wrapper generation and template detection
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
CN105550171B (zh) 一种垂直搜索引擎的查询信息纠错方法和***
Chakrabarti et al. Page-level template detection via isotonic smoothing
Eyal-Salman et al. Feature-to-code traceability in a collection of software variants: Combining formal concept analysis and information retrieval
CN106130809A (zh) 一种基于日志分析的IaaS云平台网络故障定位方法及***
CN103430179A (zh) 在图像数据库中添加新图像和其相关信息的方法、***以及计算机可读存储介质
CN103559259A (zh) 基于云平台的消除近似重复网页方法
JP2009099124A (ja) データ構築方法とシステム
Yang OntoCrawler: A focused crawler with ontology-supported website models for information agents
CN112352232A (zh) 分类树生成
CN110309386B (zh) 一种网页爬取的方法和装置
CN102968431B (zh) 一种基于依存树的中文实体关系挖掘的控制装置
CN102760149A (zh) 开源软件主题自动标注方法
CN103064966A (zh) 一种从单记录网页中抽取规律噪音的方法
CN109388665A (zh) 作者关系在线挖掘方法及***
Peng et al. Focused crawling enhanced by CBP–SLC
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选***
CN115577696B (zh) 一种基于wbs树的项目相似度评估及分析方法
CN102541913B (zh) 面向Web的VSM分类器训练、OSSP页面识别及OSS资源提取方法
Nethra et al. WEB CONTENT EXTRACTION USING HYBRID APPROACH.
Klassen et al. Web document classification by keywords using random forests
Liu et al. Clustering-based topical Web crawling using CFu-tree guided by link-context
CN114238735B (zh) 一种互联网数据智能采集方法
CN103544167A (zh) 一种基于中文检索的逆向分词方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant