CN103023714A

CN103023714A - 基于网络话题的活跃度与集群结构分析***及方法

Info

Publication number: CN103023714A
Application number: CN2012104773175A
Authority: CN
Inventors: 陈秀真; 李生红; 李建华; 李琳; 楼昊; 蔡贵贤; 陶彤彤
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2012-11-21
Filing date: 2012-11-21
Publication date: 2013-04-03
Anticipated expiration: 2032-11-21
Also published as: CN103023714B

Abstract

一种基于网络话题的活跃度与集群结构分析***，包括：数据获取归一模块、数据存储模块、应用分析模块、用户交互与展示模块，用户交互与展示模块提供与用户交互以及数据分析结果展示的接口。数据获取归一模块通过接收用户指定的URL，借助网络数据爬取子单元和网页数据归一子单元获取并归一化网络数据。数据存储模块存放归一化网页数据，为应用解析模块提供分析数据。应用解析模块在网页聚类和热点挖掘的基础上，深度挖掘话题活跃度和社团结构，并通过用户交互与展示单元向用户展示结果。本发明克服了网络舆情***领域检测手段单一，不能进行网页内容挖掘等局限性，很好的解决了网页信息分析中集群结构挖掘与状态评估的深层次信息挖掘的问题。

Description

基于网络话题的活跃度与集群结构分析***及方法

技术领域

本发明涉及的是一种网络舆情监控与分析领域的***，具体是一种基于网络话题的活跃度与集群结构分析***及方法。

背景技术

互联网的高度发达，尤其是博客、微博、论坛等新兴应用的出现，使得网络成为现代生活中大量信息传播的主要媒介，成为网民用于获取信息、发表评论、网络推广、网络营销的主要平台，被称为继报纸、广播、电视之后的“第四媒体”。实时监控网络舆情、合理引导网络舆论，关乎国家安危、和谐社会、领导决策及企业生存，对于政府办公室、网宣办、外宣办等政府部门来说越来越重要。目前的网络舆情***通过网络爬虫（网页蜘蛛，网络机器人，在FOAF社区中间经常称为网页追逐者）技术，即一种按照一定规则自动抓取万维网信息的程序或脚本，获取大量网络数据，进一步对这些数据进行过滤与去噪，借助分词、聚类、统计分析等方法发现网络中传播的热门话题。

但是由于目前大部分的网站都采用了Ajax技术，对于网络评论数据一般都通过JavaScript动态加入到网页中，使得网络爬虫很难去获取这些评论内容。因此目前针对网页评论的分析研究仅仅停留在对评论观点主题的识别，通过分词工具对评论内容进行分词后，用统计方法得到观点主题词。这些***没有对网络话题数据的集群结构状态进行挖掘与评估，不能获得网络数据的深层次关系。

经过进一步检索，已有的舆情***中并没有对网页的评论数据进行深层次分析，也没有对网络话题数据的集群结构进行挖掘与评估。

也就是说，现有的网络爬虫很难从技术的角度来实现精准获取所需的数据或资料，存在实现难度大的技术问题。

发明内容

本发明针对现有技术上的问题，提供一种基于网络话题数据的活跃度与集群结构挖掘与评估***。

本发明是通过以下技术方案实现的，本发明包括：数据获取归一模块、数据存储模块、应用分析模块、用户交互与展示模块，其中：用户交互与展示模块提供与用户交互以及数据分析结果展示的接口。数据获取归一模块通过接收用户指定的统一资源定位符(Universal Resource Locator，URL)，借助网络数据爬取子单元和网页数据归一子单元，获取并归一化网络数据。数据存储模块存放归一化网页数据，为应用解析模块提供分析数据。应用分析模块在网页聚类和热点挖掘的基础上，利用热点挖掘的结果对归一化数据进一步分析，深度挖掘话题活跃度和社团结构，并通过用户交互与展示单元向用户展示分析结果。

1.所述的数据获取归一模块包括网络数据爬取子单元和网页数据归一子单元。其中，网络数据爬取子单元获取指定网站的网页数据，并将网页数据和网页本地存放地址保存起来。网页数据归一子单元通过处理原始页面数据，将分析提取的页面关键信息存入归一化网页数据库。

所述的网络数据爬取子单元通过读取SeedURL表，获得种子URL，利用网页链接爬虫模块获得指定网站的链接并存入网页链接队列；网页拉取模块从网页链接队列中获得页面URL，在抓取整个网页的基础上，将该网页的页面数据、URL与本地存储地址的信息，通过网页信息存储模块存入原始网页数据库。

所述的SeedURL表指示爬虫爬取网页的起始URL，每一个记录都将对应的开启一个爬虫线程，该线程只爬取指定网站的网页。该表所包含的字段包括：（1）URL字段，表示指定的URL链接；（2）Parser字段：指定该URL对应的解析方法；（3）inUse字段：该种子URL是否在使用；（4）finish字段：该URL是否爬取完毕；（5）Depth字段：爬取的层数。

所述的网页链接爬虫模块按照SeedURL表中的记录数，启动多个链接爬虫模块线程，每个线程在指定网站中爬取指定层数的所有链接，将其添加到网页链接队列中。每个链接爬虫模块线程都维护了一个URL过滤数据库，用来存放已经爬取过的页面信息。当***获得一个URL后，会检查URL过滤数据库，如果该库中已有该URL相关的记录，则表示该URL已经被爬取过，直接丢弃该URL;如果没有记录，则将该URL加入URL队列，等待网络数据请求模块处理该URL的页面。该URL过滤数据库用Java中的Hashset实现。网络数据请求模块使用htmlParser包中的对象从网络中获取数据，将网络页面数据传递给URL提取模块，再将已处理的URL存入URL过滤数据库。URL提取模块使用htmlParser包中的LinkBean对象提取URL，经过URL过滤数据库放入网页链接队列和URL队列。当该网页链接爬虫模块爬取达到一定的层数后，清空URL过滤数据库中的记录，再以种子URL为初始，爬取网页。链接爬虫的开辟是根据数据库中的SeedURL表中的记录来进行的，每一条inUse字段为0的记录都将在网页链接爬虫模块中开辟一个线程。网页链接爬虫模块的主线程将每十分钟去检查SeedURL中的记录，看是否有新记录添加。SeedURL中的字段Parser将被添加到由该链接爬虫线程所爬取的链接队列中的记录LocalRecord对象中，以指定该网页的解析方式。

所述的网页拉取模块提取页面链接队列中的记录，据此去请求网页数据并将网页数据存储在本地磁盘中。将拉取页面的URL和本地存储的地址一起存入页面存储队列中，并将获取的原始页面数据和拉取的页面数据的URL以及本地存储的地址一起送入页面信息存储模块。

所述的网页信息存储模块使用了hibernate形式的数据访问接口（DAO）。数据库中对应的表为LocalRecord表，该表包含的字段为：（1）URL字段：存放网页的URL信息；（2）LocalDir字段：网页数据的本地存放地址；（3）Parsed字段：解析该网页的方法信息；（4）Processed字段：该网页是否被解析过。在Java中的类为LocalRecord，相应的DAO为LocalRecordDAO。

所述的网页数据归一子单元通过分析原始网页数据，提取出标题、作者、时间、网页主要内容以及评论。该子单元由原始网页数据提取模块获取保存在本地的原始网页，放入待析网页队列。网页分析模块从待析网页队列中获取原始网页数据，利用网页解析数据库提供的解析方法分析网页数据，并将处理完毕的网页数据的URL放入解析记录队列。同时通过原始网页数据提取模块，对存储在原始网页数据库中的已被解析过的网页做标记。网页分析模块将分析过后的数据存入归一网页队列，等待归一数据存储模块处理。归一数据存储模块从归一网页队列中获取分析后的网页数据，并通过数据访问接口存入归一化网页数据。本模块中的原始网页数据提取模块、网页分析模块和归一数据存储模块都作为一个独立线程来实现，在网页解析时开辟多个线程。

所述的原始网页数据提取模块定期的从原始网页数据库中获取页面数据，并将该数据存入待析网页队列中；根据解析记录队列中的数据将原始网页数据库中的相应记录Processed字段设为1，表示该网页已经被解析过。

所述的待析网络队列是一个LocalRecord格式的链表。用来为网页分析模块提供分析数据，以平衡网页分析模块和原始网页数据提取模块之间的速度。

所述的网页分析模块根据网页记录中指定的网页解析方法，从网页解析库中提取相应的方法去解析网页，将原始页面数据解析结果送入归一网页队列中缓存，并将解析页面的标识信息存入解析记录队列。

所述的网页解析库为一个针对不同网站页面解析类的集合，该库中的各类都继承一个共同的抽象基类：

不同的解析方法以面向对象的方式重写该方法，不同网站各自实现自己的解析方法。该方法中的返回的类型FormatForParseResult中定义了如下的字段：

private String title;

private String url;

private String content;

private String date;

private String author;

private String site;//表示哪个网站中的网页，由主线程设定该值，具体方法中无需设定

private List<Comment>comments;

该解析库中针对网页编程语言的特点，采用Java中的htmlParser对HTML格式的页面进行解析。将每个HTML页面当成一个树状结构，通过对应的标签获取网页的信息。网页主要内容的获取部分，对于输入的HTML页面，按顺序遍历HTML页面中的各标签节点。对于文本节点，分析该文本节点中文本内容长度是否大于30字符并且中文字符大于英文字符数，如果满足该条件，就作为页面的主要内容提取出来。对于含有子节点的HTML标签节点，提取子节点并继续用上述方式分析各子节点，直到页面中所有节点都分析完毕为止。对于网页评论的获取，针对网易和新浪的新闻页面要构造相应的评论页面所在URL，进而获取评论信息。网易和新浪的新闻页面评论URL构造方式如下。网易新闻页面评论URL结构为："http://comment."+channelID+".163.com/data/"+tieChannel+"/df/"+articleID+"_"+pageNum+".html"。其中channelID字段可以遍历新闻页面的所有的script节点，查找具有关键词”站点ID”的script节点。该节点中“ntes_nacc=”后面的引号中的内容即为channelID的内容。查找含有“tieAnywhere.HotTieArea”关键字的script节点，将该函数中的第二和第三个参数作为articleID和tieChannel的字段内容。而该script节点内，replyCount字段的内容作为数字除以每页的评论数就是pageNum的内容。新浪新闻页面评论URL的结构为："http://comment5.news.sina.com.cn/page/info?format=js&jsvar=pagedata&channel="+Channel+"&newsid="+NewsId+"&group=0&page=1"，其中Channel和NewsId字段为参数。在新浪新闻页面内查找含有sinaCMNT.embed.init的script节点，该函数的参数字符串中channel：后面的部分就是参数Channel的内容，newsid：后面的部分就是参数NewsId的内容。

所述的归一网页队列缓存解析出来的FormatForParseResult对象，等待归一数据存储模块定期去将这些记录存储到数据库中。

所述的归一数据存储模块定期将归一网页队列中的数据，借助数据访问接口存入归一化网页数据库。

2.所述的数据存储模块即归一化网页数据库。网页归一数据库用于存储网页数据归一子单元生成的网页标题、作者、时间、主要内容、评论等信息。该数据库包含三张表格：网页基本信息表，包括字段：（1）URL字段：记录网页的URL信息；（2）Title字段：记录网页的标题信息；（3）Publisher字段：网页的发布者信息；（4）Data字段：页面的发布时间；（5）Site字段：网页所属网站信息；（6）id字段，作为该表的主键。网页主要内容表，包括字段：（1）URL字段：网页的URL信息；（2）MainContent字段：页面主要内容字段；（3）DataId字段：该表的主键。评论表，主要包括字段：（1）URL字段：保存页面的URL信息；（2）Commented字段：发布评论的ID信息；（3）BeCommentedID字段：评论所针对的ID（若该评论没有具体针对某个个体，则认为它是网页的发布者）；（4）CommentContent字段：保存评论的内容信息；（5）CommentDate字段：记录评论时间信息；（6）DataId字段：该表的主键。对数据库的访问采用Hibernate技术，将每一张表映射成为一个类，表中的记录映射成为类的对象，相应的三个类分别为Data、Content和Comment。三个表通过网页基本信息表中的id值关联在一起，每次存储网页基本信息表中的记录时，获取该记录的id值，并将该值赋予给待存储的网页主要内容表和评论表对象中的DataId字段。

3.所述的应用分析模块包括网页聚类子单元、热点挖掘子单元、话题活跃度分析与可视化单元和社团结构挖掘与可视化单元。其中，热点挖掘子单元在网页聚类子单元进行网络聚类的基础上，通过分析原始页面数据的网页内容，从而得到热点话题，该单元也可以针对用户给出的关键词进行热点的查询。话题活跃度分析与可视化单元和社团结构挖掘与可视化单元在热点挖掘子单元的基础上深度分析网络结构和网页内容，进而将分析结果反馈给用户交互与展示模块，可视化呈现分析结果。

所述的网页聚类子单元通过对网页主要内容进行切词和分词，统计各个词的权重，将网页内容映射为向量空间中的向量。利用K均值方法将指定时间段内的网页聚类，从而按照子话题对网络数据分类。

所述的热点挖掘子单元利用网页聚类子单元的聚类结果和网页数据，通过对某一时间段内收集到的所有网页标题分词，借助词性等性质提取热门词汇，最终得到热门词汇表，借助该词汇表挖掘出热点话题。该单元也可以针对用户指定的关键词进行相关热点挖掘。热点话题的挖掘方法主要采用的是极大评论法：取某一段时间内评论数最多的网页标题为该段时间内的热点，从评论表中提取出某段时间内评论数目最多的前100个网页，计算两两之间的相似度，将相似度很高的网页合并为一类，并从各类中提取出公共词作为这一类网页的热点话题。

所述的社团结构挖掘与展示单元通过检索各网站中指定关键词相关的网页评论，依据各评论的留言关系构建网络图。通过基于网络势能的社团挖掘方法分析网络社团结构，然后将图中各个节点随机分布在指定窗口中，各节点之间的边看作弹簧，利用***受力分析计算各个节点的相对位置，从而展现整个网络，并对不同网络社团的节点以不同的颜色展示。

所述的基于网络势能的社团挖掘方法把物理中势能的概念引入到复杂网络分析中，提出了网络势能的定义，并且通过最优化网络的势能函数，达到挖掘出复杂网络中社区结构的目的。该方法的具体实现如下：去除网络中节点度为1的节点的基础上，得到预处理后的邻接矩阵A'，利用宽度优先的搜索算法在A'中计算任意两节点之间最短路径所包含的边数，得到距离矩阵D。通过公式

（其中R是一个正常量，D为距离矩阵）计算网络中任意两个节点之间的势能利用获得整个网络G的网络势能。对于网络中的每条边e_k，计算删除这条边后子网络G_k=G-{e_k}的网络势能与原网络G的网络势能差

移除

值最大的边，如果没有产生子网络，

则继续移除网络中现存

值最大的边；如果产生新的非连通子网络，则用强弱社团结构定义检验划分生成的子网络是否符合预先设定的强弱社区结构。若计算结果符合强弱社区结构，则在现存网络结构中计算新的距离矩阵D，并重复上述势能计算步骤，进一步***网络；如果不符合强弱社区结构，则对于预处理阶段去除的节点度数为1的节点，将其划归入与其直接相连的节点所在的社区结构，从而得到网络节点的社团结构划分。

第一步，对于复杂网络G=(V,E)，V表示节点的集合，E表示边的集合。输入网络G的邻接矩阵A做数据预处理，得到预处理后的网络邻接矩阵A′。所述的数据预处理，是指去掉网络中度为1的节点，即在网络输入的邻接矩阵中去掉该点对应的行和列。

第二步，对于预处理后的网络邻接矩阵A'，分析网络的拓扑结构。对于每个节点以宽度优先的搜索方法检索整个网络中的其他节点，得到任意两个节点之间的距离，从而建立距离矩阵D。所述的任意两个节点之间的距离，是指网络中两点之间最短路径所包含的边数。

第三步，基于网络节点的距离矩阵，计算整个网络的网络势能。将网络中每个节点看作一个引力场的源，可以得到网络中任意两个节点之间的势能

计算公式如下：

其中，R是一个常量，可以设定为一个正数，D是第二步中所得到的距离矩阵。

整个网络G的网络势能是网络所包含的所有节点之间的势能之和，计算公式如下：

第四步，对于网络中的每条边e_k，计算删除这条边后子网络G_k＝G-{e_k}的网络势能与原网络G的网络势能差

计算公式如下：

第五步，移除

值最大的边，并查看是否生成了独立的子网络。如果没有，则回到第四步；如果有独立的子网络产生，则检验划分生成的子网络是否符合预先设定的强弱社区结构。若计算结果符合强弱社区结构，则转第一步，方法继续；若计算结果不符合强弱社区结构，则方法结束，转第六步。

第六步，对于第五步得到的结果，重新构造原始网络图。将第一步中预处理掉的节点，重新加入原始网络图中，并且属于与其直接相连的节点所在的社区结构。

所述的话题活跃度分析与可视化单元通过对论坛中基于话题的网络集群进行分析研究，提出一种层次化的集群活跃度量化评估模型及计算方法。该模型由上到下分为“集群层”、“个体层”、“行为层”三个层次，综合考虑集群的规模、个体行为差异等要素，构建整个集群的活跃状态评估模型，量化活跃状态，定量的给出集群活跃程度评估方法。具体方法如下：

将BBS中参与互动的ID称为个体，每个个体有三类行为：（1）提出某个话题，称为发主题帖行为；（2）针对某一话题的回复，称为发回复帖行为；（3）不参与任何话题的讨论，但是会以游客的身份浏览论坛中的话题，称为浏览行为。并将发主题帖和发回复帖行为，统称为发帖行为。以某一个话题联系在一起的个体集合，即针对同一话题，有发帖和浏览行为的所有个体称为集群。根据行为的不同，集群中的个体可分为两类：一类是真正参与讨论的ID，即有发帖行为（发主题帖和发回复帖）的ID，称为实个体；另一类是没有发帖的个体，但是浏览过该话题，称为虚个体。从上至下将网络集群分为集群层、个体层和行为层三个层次，采用自下而上的评估策略进行评价。

定义如下概念和符号：

定义1.集群：C(T,I,B)，其中

T表示集群基于的某一个话题；

I={i₁,...,i_m}，表示参与话题T的个体集合，i_k∈{real,virual}，且m为有限值；

B={post_fst,post_rpl,browse}，表示个体的行为集合，其中post_fst表示发主题帖行为，post_rpl表示发回复帖行为，browse表示浏览行为；

则

满足

i_{k} = \{\begin{matrix} real & b_{ik} = {post}_{fst} or & {post}_{rpl} \\ virtual & b_{ik} = browse \end{matrix}

其中，b_ik表示个体i_k的行为。

定义2.弱化因子(ω)：个体行为发生后，随着时间的推移，其活性不断下降。ω因子即反映个体行为活跃度弱化的程度，取值范围为(0,1)。

定义3.半衰期(Half-life)：个体行为的活跃度降到初始值1/2所需的时间间隔。弱化因子与半衰期存在关系：

集群中的实个体，可以产生多次发帖行为。对于在半衰期内的发帖行为，其活跃度比较高，可以反应该个体的活跃度，是有效行为；对于半衰期以外的行为，因其活跃度已衰减过半，视为无效行为。

定义如下符号变量：

表1符号变量说明

集群的活跃状态评估模型由上到下分为“集群层”、“个体层”、“行为层”三个层次。

所述的行为层将以话题为基础的网络集群个体分为两类：实个体和虚个体。两种不同个体对应两种不同类型的行为：发贴和浏览。这两种行为的活跃度量化方法定义如下

（1）发帖：设发帖行为x发生在T时刻，定义活跃度为单位值1，则计算公式B_ijx post(t)为：

（2）浏览：浏览行为对集群活跃度的贡献远低于发帖行为，在(0,1)之间。其计算公式为：

B_{il browse} (t) = \frac{{Num}_{i post} (t)}{{Num}_{i browse} (t)} - - - (2)

经对历史数据的大量统计运算可得，当t足够大时，有B_il browse(t)≈10^-3。

所述的个体层对于实个体和虚个体分别定义其活跃度计算公式，其中

（1）实个体j在t时刻的活跃度计算公式：

N_{ijpost} (t) = \underset{x}{Σ} B_{ijxpost} (t) - - - (3)

（2）虚个体l在t时刻的活跃度计算公式：

N_ilbrowse(t)=B_ilbrowse(t) (4)

所述的集群层的活跃度由t时刻集群中所有实个体和虚个体的活跃度确定。其计算公式为：

其中：

1)

是时刻t集群i中实个体的活跃度向量，元素N_ij post(t)(j=1,…,p)为由式(3)计算得到的实个体活跃度，p为集群中实个体数。

2)

\overset{&RightArrow;}{W (N_{ij post} (t))} = (W (N_{ilpost} (t)), \cdot \cdot \cdot, W (N_{ip post} (t)))

为t时刻实个体在集群i中的重要性权重向量。

3)

\overset{&RightArrow;}{N_{il browse} (t)} = (N_{ilbrowse} (t), \cdot \cdot \cdot, N_{iq browse} (t))

是时刻t集群i中虚个体的活跃度向量，元素N_il browse(t)(l=1,…,q)为由式(4)计算得到的虚个体活跃度指标，q为集群中虚个体数。

4)

\overset{&RightArrow;}{W (N_{il browse} (t))} = (W (N_{ilbrowse} (t)), \cdot \cdot \cdot, W (N_{iq browse} (t)))

为时刻t虚个体在集群i中的重要性权重向量。

5)t时刻集群i中的实个体j重要性权重为W(N_ijpost(t))，其计算公式为：

W (N_{ijpost} (t)) = \{\begin{matrix} 1 & b_{j} = {post}_{fst} \\ \frac{Σ_{t = 0}^{t - Half - life} p {Num}_{ij} (t)}{\max_{j} {Σ_{t = 0}^{t - Half - life} p {Num}_{ij} (t)}} & b_{j} = {post}_{rpl} \end{matrix} - - - (6)

其中：b_j表示实个体j的行为；分子中pNum_ij(t)表示实个体j的历史发帖行为总和，

即所有半衰期外的发帖行为总和；分母

表示取所有个体中半衰期外的发帖行为总和的最大值。

6)t时刻集群i中的虚个体l重要性权重W(N_il browse(t))=1

7)ω值的确定：通过对采集到的大量数据进行统计分析得到，天涯社区“天涯杂谈”论坛中，发帖行为的半衰期约为3小时，因而其弱化因子ω≈0.71。

8)W(C_i(t))可由集群中的个体数量占整个论坛在线人数的比例定义：

W (C_{i} (t)) = \frac{{Num}_{ipost} (t) + {Num}_{ibrowse} (t)}{{Num}_{online} (t)} - - - (7)

该公式用于在不同集群之间进行活跃度比较。

所述的用户交互与展示模块获取用户的输入查询、参数设置和***控制等命令，并以可视化的方式呈现热点分析、社团挖掘等模块的结果。

与现有技术相比，本发明克服了现有网络舆情***检测手段单一，分析结果简单，不能进行网页内容挖掘等局限性，很好的解决了网页信息分析中集群结构挖掘与状态评估的深层次信息挖掘问题，从网络话题活跃度和集群结构两方面为舆情行为预测等提供支持。本发明在舆情信息***方面首次以话题为核心，分析集群活跃度及集群结构。使用本发明可以对网页信息进行分析和获取网络热点话题，在此基础上挖掘网络集群行为内在的结构特点以及集群活跃度。因此，本发明具有很好的应用前景，可为突发公共事件的引导、控制提供有用信息。从技术实现的角度来说，本发明具有极强的技术实现性，并且，精准度非常高，是一款不可多得的分析方法。

附图说明

图1为本发明结构示意图。

图2为网页数据爬取单元结构示意图。

图3为网页链接爬虫模块示意图。

图4为网页数据归一模块示意图。

图5为层次化网络集群状态量化评估模型图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例包括：数据获取归一模块、数据存储模块、应用分析模块、用户交互与展示模块，其中：用户交互与展示模块提供与用户交互以及数据分析结果展示的接口。数据获取归一模块通过接收用户指定的URL，借助网络数据爬取子单元和网页数据归一子单元获取并归一化网络数据。数据存储模块存放归一化网页数据，为应用分析模块提供分析数据。应用分析模块在网页聚类和热点挖掘的基础上，利用热点挖掘的结果对归一化数据进一步分析，深度挖掘话题活跃度和社团结构，并通过用户交互与展示单元向用户展示分析结果。

所述的数据获取归一模块包括网络数据爬取子单元和网页数据归一子单元。其中，网络数据爬取子单元获取指定网站的网页数据，并将网页数据和网页本地存放地址保存起来。网页数据归一子单元通过处理原始页面数据，将分析提取的页面关键信息存入归一化网页数据库。

如图2所示，网络数据爬取子单元通过读取SeedURL表，获得种子URL，利用网页链接爬虫模块获得指定网站的链接并存入网页链接队列；网页拉取模块从网页链接队列中获得页面URL，在抓取整个网页的基础上，将该网页的页面数据、URL与本地存储地址的信息，通过网页信息存储模块存入原始网页数据库。

如图3所示，网页链接爬虫模块按照SeedURL表中的记录数，启动多个链接爬虫模块线程，每个线程在指定网站中爬取指定层数的所有链接，将其添加到网页链接队列中。每个链接爬虫模块线程都维护了一个URL过滤数据库，用来存放已经爬取过的页面信息。当***获得一个URL后，会检查URL过滤数据库，如果该库中已有该URL相关的记录，则表示该URL已经被爬取过，直接丢弃该URL;如果没有记录，则将该URL加入URL队列，等待网络数据请求模块处理该URL的页面。该URL过滤数据库用Java中的Hashset实现。网络数据请求模块使用htmlParser包中的对象从网络中获取数据，将网络页面数据传递给URL提取模块，再将已处理的URL存入URL过滤数据库。URL提取模块使用htmlParser包中的LinkBean对象提取URL，经过URL过滤数据库放入网页链接队列和URL队列。当该网页链接爬虫模块爬取达到一定的层数后，清空URL过滤数据库中的记录，再以种子URL为初始，爬取网页。链接爬虫的开辟是根据数据库中的SeedURL表中的记录来进行的，每一条inUse字段为0的记录都将在网页链接爬虫模块中开辟一个线程。网页链接爬虫模块的主线程将每十分钟去检查SeedURL中的记录，看是否有新记录添加。SeedURL中的字段Parser将被添加到由该链接爬虫线程所爬取的链接队列中的记录LocalRecord对象中，以指定该网页的解析方式。

如图4所示，网页数据归一子单元通过分析原始网页数据，提取出标题、作者、时间、网页主要内容以及评论。该子单元由原始网页数据提取模块获取保存在本地的原始网页，放入待析网页队列。网页分析模块从待析网页队列中获取原始网页数据，利用网页解析数据库提供的解析方法分析网页数据，并将处理完毕的网页数据的URL放入解析记录队列。同时通过原始网页数据提取模块，对存储在原始网页数据库中的已被解析过的网页做标记。网页分析模块将分析过后的数据存入归一网页队列，等待归一数据存储模块处理。归一数据存储模块从归一网页队列中获取分析后的网页数据，并通过数据访问接口存入归一化网页数据。本模块中的原始网页数据提取模块、网页分析模块和归一数据存储模块都作为一个独立线程来实现，在网页解析时开辟多个线程。

数据存储模块即归一化网页数据库。网页归一数据库用于存储网页数据归一子单元生成的网页标题、作者、时间、主要内容、评论等信息。该数据库包含三张表格：网页基本信息表、网页主要内容表和评论表。对数据库的访问采用Hibernate技术，将每一张表映射成为一个类，表中的记录映射成为类的对象，相应的三个类分别为Data、Content和Comment。三个表通过网页基本信息表中的id值关联在一起，每次存储网页基本信息表中的记录时，获取该记录的id值，并将该值赋予给待存储的网页主要内容表和评论表对象中的DataId字段。

应用分析模块从归一化网页数据库获取数据，利用网页聚类子单元、热点挖掘子单元、话题活跃度分析与可视化单元和社团结构挖掘与可视化单元深度挖掘信息。其中，热点挖掘子单元在网页聚类子单元进行网络聚类的基础上，通过分析原始页面数据的网页内容，从而得到热点话题，该单元也可以针对用户给出的关键词进行热点的查询。话题活跃度分析与可视化单元和社团结构挖掘与可视化单元在热点挖掘子单元的基础上深度分析网络结构和网页内容，进而将分析结果反馈给用户交互与展示模块，可视化呈现分析结果。网页聚类子单元通过对网页主要内容进行切词和分词，统计各个词的权重，将网页内容映射为向量空间中的向量。利用K均值方法将指定时间段内的网页聚类，从而按照子话题对网络数据分类。

热点挖掘子单元利用网页聚类子单元的聚类结果和网页数据，通过对某一时间段内收集到的所有网页标题分词，借助词性等性质提取热门词汇，最终得到热门词汇表，借助该词汇表挖掘出热点话题。该单元也可以针对用户指定的关键词进行相关热点挖掘。热点话题的挖掘方法主要采用的是极大评论法：取某一段时间内评论数最多的网页标题为该段时间内的热点，从评论表中提取出某段时间内评论数目最多的前100个网页，计算两两之间的相似度，将相似度很高的网页合并为一类，并从各类中提取出公共词作为这一类网页的热点话题。

社团结构挖掘与展示子单元通过检索各网站中指定关键词相关的网页评论，依据各评论的留言关系构建网络图。通过基于网络势能的社团挖掘方法分析网络社团结构，然后将图中各个节点随机分布在指定窗口中，各节点之间的边看作弹簧，利用***受力分析计算各个节点的相对位置，从而展现整个网络，并对不同网络社团的节点以不同的颜色展示。所述的话题活跃度分析与可视化子单元通过对论坛中基于话题的网络集群进行分析研究，提出一种层次化的集群活跃度量化评估模型及计算方法。该模型由上到下分为“集群层”、“个体层”、“行为层”三个层次，综合考虑集群的规模、个体行为差异等要素，构建整个集群的活跃状态评估模型，量化活跃状态，定量的给出集群活跃程度评估方法。

通过将网易、新浪、交大饮水思源论坛三个网站作为目标站点，采集2011-06-01到2011-07-01之间的数据，本实施例的工作流程包括以下步骤：

(1)当用户输入URL后，***以该URL为种子，通过网络数据爬取子单元获取网站的原始网页数据，并将每个原始网页和该网页的存储地址存放在本地。通过网页数据归一子单元，提取出标题、作者、时间、网页主要内容并存入归一化网页数据库。分析指定网站的URL格式，构造Ajax下获取评论的目的URL，进而获取相关评论并存入数据库。

(2)对归一化网页数据库中的网页数据通过聚类方法将网页进行分类。热点挖掘子单元利用网页聚类的聚类结果对网络数据进行热点挖掘。

(3)将归一化网页数据库中的数据和热点挖掘子单元的分析结果作为输入数据，提供给话题活跃度评估单元和社团结构挖掘与可视化单元。这两个单元的分析结果和热点挖掘子单元的分析结果一起，展示给用户。

本实施例实现了网页信息结构挖掘和话题活跃度评估以及与用户友好的交互界面，适用于网络舆情分析等诸多领域网页信息分析问题，解决了现有技术中存在的检测手段单一，分析结果简单，不能进行网页内容挖掘等问题。具有功能全面、模块化结构、可扩展及交互友好等特点，具有很好的推广前景。

Claims

1.一种基于网络话题的活跃度与集群结构分析***，其特征在于，包括数据获取归一模块、数据存储模块、应用分析模块、用户交互与展示模块，其中：

用户交互与展示模块：用于提供与用户交互以及数据分析结果展示的接口；

数据获取归一模块：用于通过接收用户指定的统一资源定位符，借助网络数据爬取子单元和网页数据归一子单元获取并归一化网络数据。其包括网络数据爬取子单元和网页数据归一子单元，网络数据爬取子单元用于获取指定网站的网页数据，并将网页数据和网页本地存放地址保存起来，网页数据归一子单元通过处理原始页面数据，将分析提取的页面关键信息存入相应的数据存储模块中；

数据存储模块：用于存放网络页面的原始数据和归一化网页数据，为应用解析模块提供分析数据；

应用分析模块：在网页聚类和热点挖掘的基础上，利用热点挖掘的结果对归一化数据深度挖掘话题活跃度和社团结构，并通过用户交互与展示单元向用户展示结果。

2.根据权利要求1所述的基于网络话题的活跃度与集群结构分析***，其特征是，网络数据爬取子单元包括网页链接爬虫模块、网页拉取模块、网页信息存储模块，这些模块借助网页链接队列和网页存储队列获取并存储网页数据。

3.根据权利要求1所述的基于网络话题的活跃度与集群结构分析***，其特征是，所述网页数据归一子单元进一步包括原始网页数据提取模块、网页分析模块、归一数据存储模块。该子单元由原始网页数据提取模块获取保存在本地的原始网页，放入待析网页队列以及待析网页队列、解析记录队列和归一网页队列。网页分析模块从待析网页队列中获取原始网页数据，利用网页解析数据库提供的解析方法分析网页数据，并将处理完毕的网页数据的URL放入解析记录队列。同时通过原始网页数据提取模块，对存储在原始网页数据库中的已被解析过的网页做标记。网页分析模块将分析过后的数据存入归一网页队列，等待归一数据存储模块处理。归一数据存储模块从归一网页队列中获取分析后的网页数据，并通过数据访问接口存入归一化网页数据。

4.根据权利要求1所述的基于网络话题的活跃度与集群结构分析***，其特征是，所述的应用分析模块包括网页聚类子单元、热点挖掘子单元、话题活跃度分析与可视化单元和社团结构挖掘与可视化单元，其中，热点挖掘子单元在网页聚类子单元进行网络聚类的基础上，通过分析原始页面数据的网页内容，从而得到热点话题，该子单元也可以针对用户给出的关键词进行热点查询，话题活跃度分析与可视化单元和社团结构挖掘与可视化子单元在热点挖掘子单元的基础上，深度分析网络结构和网页内容，进而将分析结果反馈给用户交互与展示模块呈现结果。

5.一种基于网络话题的活跃度与集群结构分析方法，其特征在于，包括：

(1)当用户输入URL后，***以该URL为种子，通过网络数据爬取子单元获取网站的原始网页数据，并将每个原始网页和该网页的存储地址存放在本地，通过网页数据归一子单元，提取出标题、作者、时间、网页主要内容并存入归一化网页数据库，分析指定网站的URL格式，构造Ajax下获取评论的目的URL，进而获取相关评论并存入数据库；

(2)对原始页面数据库中的网页数据通过聚类方法将网页进行分类，热点挖掘子单元利用网页聚类的聚类结果对网络数据进行热点挖掘；

(3)将归一化网页数据库中的数据和热点挖掘子单元的分析结果作为输入数据，提供给话题活跃度评估单元和社团结构挖掘与可视化单元，这两个单元的分析结果和热点挖掘子单元的分析结果一起，展示给用户。

6.如权利要求5所述的方法，其特征在于，还包括：

通过读取SeedURL表，获得种子URL，利用网页链接爬虫模块获得指定网站的链接并存入网页链接队列；网页拉取模块从网页链接队列中获得页面URL，在抓取整个网页的基础上，将该网页的页面数据、URL与本地存储地址的信息，通过网页信息存储模块存入原始网页数据库，并且，所述的SeedURL表指示爬虫爬取网页的起始URL，每一个记录都将对应的开启一个爬虫线程，该线程只爬取指定网站的网页。该表所包含的字段包括：（1）URL字段，表示指定的URL链接；（2）Parser字段：指定该URL对应的解析方法；（3）inUse字段：该种子URL是否在使用；（4）finish字段：该URL是否爬取完毕；（5）Depth字段：爬取的层数；

网页链接爬虫模块按照SeedURL表中的记录数，启动多个链接爬虫模块线程，每个线程在指定网站中爬取指定层数的所有链接，将其添加到网页链接队列中，每个链接爬虫模块线程都维护了一个URL过滤数据库，用来存放已经爬取过的页面信息，当***获得一个URL后，会检查URL过滤数据库，如果该库中已有该URL相关的记录，则表示该URL已经被爬取过，直接丢弃该URL;如果没有记录，则将该URL加入URL队列，等待网络数据请求模块处理该URL的页面，网络数据请求模块使用htmlParser包中的对象从网络中获取数据，将网络页面数据传递给URL提取模块，再将已处理的URL存入URL过滤数据库，URL提取模块使用htmlParser包中的LinkBean对象提取URL，经过URL过滤数据库放入网页链接队列和URL队列，

当该网页链接爬虫模块爬取达到一定的层数后，清空URL过滤数据库中的记录，再以种子URL为初始，爬取网页，链接爬虫的开辟是根据数据库中的SeedURL表中的记录来进行的，每一条inUse字段为0的记录都将在网页链接爬虫模块中开辟一个线程，网页链接爬虫模块的主线程将每隔一段时间去检查SeedURL中的记录，看是否有新记录添加，

SeedURL中的字段Parser将被添加到由该链接爬虫线程所爬取的链接队列中的记录LocalRecord对象中，以指定该网页的解析方式，

所述的网页拉取模块提取页面链接队列中的记录，据此去请求网页数据并将网页数据存储在本地磁盘中，将拉取页面的URL和本地存储的地址一起存入页面存储队列中，并将获取的原始页面数据和拉取的页面数据的URL以及本地存储的地址一起送入页面信息存储模块，

并且，所述的网页信息存储模块使用了hibernate形式的数据访问接口（DAO）。数据库中对应的表为LocalRecord表，该表包含的字段为：（1）URL字段：存放网页的URL信息；（2）LocalDir字段：网页数据的本地存放地址；（3）Parsed字段：解析该网页的方法信息；（4）Processed字段：该网页是否被解析过。在Java中的类为LocalRecord，相应的DAO为LocalRecordDAO。

7.如权利要求5所述的方法，还包括：

所述的网页数据归一子单元通过分析原始网页数据，提取出标题、作者、时间、网页主要内容以及评论，该子单元由原始网页数据提取模块获取保存在本地的原始网页，放入待析网页队列，网页分析模块从待析网页队列中获取原始网页数据，利用网页解析数据库提供的解析方法分析网页数据，并将处理完毕的网页数据的URL放入解析记录队列，同时通过原始网页数据提取模块，对存储在原始网页数据库中的已被解析过的网页做标记，网页分析模块将分析过后的数据存入归一网页队列，等待归一数据存储模块处理，归一数据存储模块从归一网页队列中获取分析后的网页数据，并通过数据访问接口存入归一化网页数据，

并且，本模块中的原始网页数据提取模块、网页分析模块和归一数据存储模块都作为一个独立线程来实现，在网页解析时开辟多个线程。

8.如权利要求7所述的方法，还包括：

待析网络队列是一个LocalRecord格式的链表，用来为网页分析模块提供分析数据，以平衡网页分析模块和原始网页数据提取模块之间的速度，

private String title;

private String url;

private String content;

private String date;

private String author;

private List<Comment>comments;

将每个HTML页面当成一个树状结构，通过对应的标签获取网页的信息。网页主要内容的获取部分，对于输入的HTML页面，按顺序遍历HTML页面中的各标签节点。对于文本节点，分析该文本节点中文本内容长度是否大于30字符并且中文字符大于英文字符数，如果满足该条件，就作为页面的主要内容提取出来，对于含有子节点的HTML标签节点，提取子节点并继续用上述方式分析各子节点，直到页面中所有节点都分析完毕为止。

9.如权利要求8所述的方法，其特征在于，还包括：

第一步，对于复杂网络G=(V,E)，V表示节点的集合，E表示边的集合，输入网络G的邻接矩阵A做数据预处理，得到预处理后的网络邻接矩阵A'，所述的数据预处理，是指去掉网络中度为1的节点，即在网络输入的邻接矩阵中去掉该点对应的行和列，

第二步，对于预处理后的网络邻接矩阵A'，分析网络的拓扑结构，对于每个节点以宽度优先的搜索方法检索整个网络中的其他节点，得到任意两个节点之间的距离，从而建立距离矩阵D，所述的任意两个节点之间的距离，是指网络中两点之间最短路径所包含的边数，

第三步，基于网络节点的距离矩阵，计算整个网络的网络势能，将网络中每个节点看作一个引力场的源，可以得到网络中任意两个节点之间的势能

计算公式如下：

其中，R是一个常量，可以设定为一个正数，D是第二步中所得到的距离矩阵，

计算公式如下：

第五步，移除

值最大的边，并查看是否生成了独立的子网络，如果没有，则回到第四步；如果有独立的子网络产生，则检验划分生成的子网络是否符合预先设定的强弱社区结构，若计算结果符合强弱社区结构，则转第一步，方法继续；若计算结果不符合强弱社区结构，则方法结束，转第六步。