CN101819573B

CN101819573B - 一种自适应的网络舆情识别方法

Info

Publication number: CN101819573B
Application number: CN2009101676398A
Authority: CN
Inventors: 高辉; ***; 佘莉; 曾奉尧; 周民
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2009-09-15
Filing date: 2009-09-15
Publication date: 2012-07-25
Anticipated expiration: 2029-09-15
Also published as: CN101819573A

Abstract

本发明公开了一种网络舆情识别方法，首先通过爬虫工具从互联网中采集网页文档并对其预处理，得到的信息文档进行文档向量化处理，然后基于信息类别库对信息文档向量流进行分类，从内容方面识别已知舆情，接下来对分类识别失败的信息文档按事件聚类，判断聚类结果所属类别并写入各个信息类别库，最后定期地对候选舆情信息库的信息文档进行行为识别，识别出新的未知舆情写入舆情信息类别库以完善舆情分类模型。本发明通过内容识别和行为识别相结合的方式不但可以有效地发现网络中的已知舆情信息，还可以在未知舆情事件萌发阶段就对其进行有效的识别，弥补了以往舆情识别方法采用热点话题发现技术进行识别网络舆情所带来的时间滞后的不足。

Description

一种自适应的网络舆情识别方法

技术领域

本发明涉及网络信息处理技术领域，具体来讲，涉及一种网络舆情识别方法。

背景技术

网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点，主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点，越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量，会反作用于热点事件并对社会发展和事态进程产生一定的影响。如果引导不善，负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说，如何准确的识别网络舆情信息并加于及时监测和有效引导，对维护社会稳定、促进国家发展具有重要的现实意义，也是构建和谐网络的应有内涵。

因此，对网络信息中的舆情信息进行及时准确的识别具有重要的意义，如何将处在萌发状态的舆情信息识别出来具有至关重要的作用，甚至可以被认为是网络舆情监控***的核心。

目前国内的舆情监控***大多侧重于从海量网络信息中发现热点话题为出发点来实现对网络舆情的识别和监控，其热点话题发现的实现通常采用关键词匹配、统计词频的方式，根据新闻出处权威度、发言时间密集程度等参数，识别出给定时间段内的热门话题，再利用内容主题词和敏感词库进行综合语义分析，识别出热门话题中的敏感话题。这些监控***对于社会热门事件引起的网络舆情的发现具有一定的效果，适合给有关机构提供分析和参考。但是由于热点发现的速度一般比较慢，往往是需要流行了一段时间才能发现出来，而且发现出来的热点话题也仅仅是印证当前社会的热点，容易失去网络舆情识别的时效性，因此采用热点话题发现技术来识别网络舆情具有一定的滞后性，如何及时准确地识别网络中的舆情信息成为一个亟待解决的问题。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种能及时准确地了解网络舆论的网络舆情识别方法。

为实现本发明目的，本发明的网络舆情识别方法，包括以下步骤：

(1)、从互联网中采集网页文档并对其预处理，得到的信息文档存放到网页数据库；

(2)、导出网页数据库中的信息文档进行文档向量化，对所有的信息文档进行分类，结果分别写入舆情信息类别库、非舆情信息类别库和候选舆情信息类别库，该步骤从内容方面识别已知舆情信息类别的信息文档；

(3)、分类失败的信息文档聚类，判断聚类结果所属类别并将其写入相应的信息类别库；

(4)、对候选舆情信息类别库的信息文档进行行为识别，基于同一类别相关文档之间的关系建立社会网络并对其进行社会网络分析，关系行为符合舆情行为特征的识别为新的舆情，把新的舆情类别信息写入舆情信息类别库。

进一步，为使本发明获得更好的发明效果，在上述步骤1中，通过网络爬虫从互联网中采集网页；通过信息提取单元对网页进行解析预处理，获取到的标题、正文等信息组装成网页信息文档。

进一步，为使本发明获得更好的发明效果，在上述步骤2中，所述的信息文档分类做法是：首先构建舆情信息类别库、非舆情信息类别库和候选舆情信息类别库，然后基于各个信息类别库的分类模型对所有的信息文档分类，分类结果写入相应信息类别库以更新其分类模型。

进一步，为使本发明获得更好的发明效果，在上述步骤3中，分类失败的剩余文档按事件进行聚类；聚类结果通过卡方计算的方式判断其所属类别。

进一步，为使本发明获得更好的发明效果，在上述步骤4中，所述的行为识别是通过社会网络分析的方式实现的，做法是定期对候选舆情类别库中的信息文档进行检测，当某个事件小类的相关信息文档数量达到一定规模，抽取这个事件的信息文档集合建立社会网络并分析社会网络参数，网络行为符合舆情行为特征的则识别为舆情，识别结果写入舆情信息类别库以完善其分类模型。

进一步，为使本发明获得更好的发明效果，在上述步骤4中，所述的构建社会网络是以图的形式来表述网络上信息文档之间的关系结构，所述的图可以是有向图或者无向图。

本发明通过未知舆情事件发现技术和已知舆情信息类别识别技术相结合的方式，可以在未知舆情事件萌发阶段就对其进行有效的识别，然后再采用已知舆情信息类别识别技术对其进行监控，从而达到及时而又准确的识别网络舆情，弥补了以往舆情识别方法采用热点话题发现技术识别网络舆情所带来的时间滞后的不足。

附图说明

图1是本发明一种网络舆情识别方法的具体实施方式的整体流程图；

图2是图1所示的网络舆情识别方法中，步骤ST2内容识别的流程图；

图3是图1所示的网络舆情识别方法中，步骤ST3建立候选舆情信息类别库的流程图；

图4是图1所示的网络舆情识别方法中，步骤ST4行为识别的流程图；

图5是步骤ST4行为识别方法中，构建舆情信息行为特征库的流程图；

图6是具体实例中的实验结果图；

具体实施方式

下面对本发明的具体实施方式进行描述，需要特别提醒注意的是，在以下的描述中，当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这儿将被省略。

图1是本发明一种网络舆情识别方法具体实施方式的整体流程图。在本实施方式中，一种网络舆情识别方法包括以下步骤：

(1)、利用网络爬虫工具对互联网中的网页文档信息进行实时采集，采集的网页包括新闻网页文档、论坛网页文档和博客网页文档，由于网页文档包含很多HTML标记，以及公告、导航等无关信息，因此需要对采集的网页文档进行HTML标记过滤和文档标题、正文内容提取等预处理过程，然后将预处理结果组装成信息文档并保存到网页数据库中。该步骤为图1中的步骤ST1，目的是采集互联网中的网页信息文档；

(2)、导出网页数据库中的信息文档并进行文档向量化，建立舆情信息类别库、非舆情信息类别库和候选舆情信息类别库以存放信息文档的舆情类别信息，然后基于各个信息类别库的小类类别对文档向量流分类，分类结果写入相应的信息类别库。该步骤为图1中的步骤ST2，经过该步骤从内容方面识别出舆情信息类别库里已有记录的已知舆情信息文档，同时识别出非舆情信息类别库已有记录的非舆情信息文档和候选舆情信息类别库已有记录的候选舆情信息文档；

(3)、内容识别失败的信息文档按事件聚类，聚类结果通过卡方计算的方式判断所属类别，结果写入相应的信息类别库以更新分类模型；该步骤为图1中的步骤ST3，经过该步骤主要是建立候选舆情信息类别库；

(4)、对候选舆情信息库的信息文档进行行为识别，当某个事件的相关文档数量达到一定规模则抽取这个事件的相关信息文档集，针对文档集中相关文档之间的关系建立社会网络并进行社会网络分析，关系行为符合舆情行为特征的识别为新的舆情，把新的舆情类别信息写入舆情信息类别库以完善分类模型。该步骤为图1中的步骤ST4，经过该步骤从行为方面识别出舆情信息类别库里面没有记录的新的舆情类别信息。

图2是图1所示的网络舆情识别方法中，步骤ST2内容识别的流程图。进一步，为使本发明获得更好的发明效果，步骤ST2内容识别主要包括如下步骤：

步骤ST201：文档向量化

把所有的信息文档都按照特征词进行文档向量化，其中向量的维数为所有文档选取的特征词的个数之和，向量每一维上的值即为该维所对应的特征词的权重，特征词主要从文章标题和内容中提取，文档向量化流程如下：

1)对文章标题和文章内容进行分词；

2)统计每个词出现的次数，其中参与统计可包括名词、动词、形容词等；

3)结合搜狗词库计算每个词的权重，文章标题中的特征词权重计算公式：

\frac{TitlePara * FileF}{(float) (1 + Math . \log (1 + SogouF)) * F_MAX} * σ - - - (1)

文章正文中的特征词权重计算公式：

\frac{TextPara * FileF}{(float) (1 + Math . \log (1 + SogouF)) * F_MAX} * σ - - - (2)

其中TitlePara和TextPara为人为设置参数，取值范围为[1，3]，TitlePara值一般为TextPara值的两倍，FileF为该特征词在文档中出现的次数，SogouF为该特征词在搜狗词库里面记录的词频，F_MAX为文档中出现次数最多的特征词的出现次数，σ为衰减因子，取值范围为[0，1]，对于搜狗词库里面没有记录的个别特征词，这样的特征词一般比较关键，权重计算公式：

\frac{Pre_T}{Max_T} * Value_Max - - - (3)

Pre_T为该特征词在文档中出现的次数，Value_Max文档中权重最大的特征词的权重，Max_T为文档中权重最大的特征词的出现次数；

4)对权重计算结果排序，取前S个为文档的特征词。然后把每个特征词作为特征向量的一维，如果文档甲含有该特征词，则该维值为特征词权重，否则取0。由此得到每篇文档的特征向量。

步骤ST202：构建网页文档信息类别库

1)网页文档信息类别库主要来存放信息文档的舆情类别信息，信息类别库采用小类和大类两级数据结构，其中小类类别代表针对同一事件相关信息文档的类别信息集，而把具有同性质、同领域的小类类别归结为一个大类类别；

2)构建小类的分类模型：统计该类中所有特征词权重的平均值，取权值最大的T个特征词作为该类的类别选取特征词，T个特征词的权重组成的向量作为类中心向量，然后计算该类中每个文档与类中心向量的距离，取最小距离作为该类的类半径，将类别选取特征词、类中心向量和类半径作为分类模型信息保存到信息类别库；

3)基于***管理员自身关注的信息类别把信息类别库分成舆情信息类别库、非舆情信息类别库和候选舆情信息类别库，其中舆情信息类别库用来存放现有已知舆情的信息文档类别信息，非舆情信息类别库用来存放***管理员自身不关注可判断为非舆情的信息文档类别信息，候选舆情信息类别库用来存放需要特殊识别步骤处理的待识别的信息文档类别信息。三种信息类别库采用一样的数据结构。

步骤ST203：基于舆情信息类别库中小类类别对信息文档分类

1)加载舆情信息类别库所有分类模型信息，包括：类别选取的特征词、类中心向量以及类半径，分类模型的建立方式可查看步骤ST202的第(2)小步。

2)进行文档分类：首先对信息文档向量流基于舆情信息类别库中已有的小类类别进行分类，做法是用文档特征词向量与所有分类模型的类中心向量两两计算距离，向量之间距离为向量之间余弦相似度的倒数，计算公式如下：

dist (\overset{&RightArrow;}{i}, \overset{&RightArrow;}{j}) = \frac{| \overset{&RightArrow;}{i} | | \overset{&RightArrow;}{j} |}{\overset{&RightArrow;}{i} \cdot \overset{&RightArrow;}{j}} - - - (4)

两个向量之间的余弦相似度越大，表明两者之间越相似，则两者之间距离

越小。

接下来选取距离最小的分类模型，判断文档向量与该分类模型类中心向量之间的距离

是否在类半径以内，如果在则分类成功，属于同一事件的文档分到已有的小类类别中，成功识别出舆情信息类别库已有记录的舆情，并把该舆情信息文档的相应类别信息写入舆情信息类别库以更新分类模型，作法包括把新特征词写入类别的特征词库、调整小类类半径；如果不在则分类不成功，转如下步骤处理。

步骤ST204：基于非舆情信息类别库中小类类别对剩余信息文档分类

基于非舆情信息类别库的小类类别对剩余信息文档向量流分类，做法和步骤ST203一样，识别出非舆情信息类别库中已有记录的非舆情信息文档并把该非舆情信息文档的相应更新信息写入非舆情信息类别库；

步骤ST205：基于候选舆情信息类别库中小类类别对剩余信息文档分类

基于候选舆情信息类别库的小类类别对剩余信息文档向量流分类，做法和步骤ST203一样，识别出候选舆情信息类别库中已有记录的候选舆情信息文档并把该候选舆情信息文档的相应更新信息写入候选舆情信息类别库。

图3是图1所示的网络舆情识别方法中，步骤ST3建立候选舆情信息类别库的流程图。进一步，为使本发明获得更好的发明效果，步骤ST3建立候选舆情信息类别库包括如下步骤：

步骤ST301：剩余信息文档聚类

对基于各个信息类别库中小类类别分类失败的剩余文档进行聚类，聚类流程如下：

1)加载所有文档的特征词及特征词对应权重；

2)采用公式4计算所有文档相互之间的距离，并求出距离的平均值；

3)对距离的值进行排序并记录对应的文档ID，对于那些距离在平均值以内的相似文档进行合并：若文档A与B的距离在平均值以内，B与C的距离也在平均值以内，则文档A，B，C合并为一类。循环进行这样的合并操作，直到不能合并为止。这样便得到若干个类。

4)查看聚类的结果，若某个小类的文档个数超过某一阈值，则建立该类的分类模型，分类模型的建立方式可查看步骤ST202的第(2)小步。

步骤ST302：卡方计算聚类结果中所有小类所属的大类

通过步骤ST301剩余文档聚类得到的若干新的小类，接下来采用卡方计算的方法把这些小类分配给舆情信息类别库、非舆情信息类别库、候选舆情信息类别库这三个信息类别库中的某个大类。

其具体步骤是：计算一个小类中的某个关键词在所有大类中的卡方值，如果这个关键词在某个大类中的卡方值最大，那么就认为这个关键词投了这个大类一票，按这样的方法计算这个小类中的每一个关键词在所有大类中的卡方值，最后把这个小类分给得票数最多的那个大类，直至所有小类都分到所属大类。卡方值表示特征词与所在类的关联度，特征词的卡方值计算公式为：

χ^{2} (t, c) = \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)} - - - (5)

其中，A代表特征词t在c类别文档中所占的权重，B代表特征词t在非c类别文档中所占的权重，C代表非t特征词在c类别文档中所占的权重，D代表所有非t特征词在非c类文档中所占的权重，N代表整个文档集含有的文档数目。

步骤ST303：***管理员纠正错误分类或添加新的大类

采用任何分类模型都无法做到完全正确，经过步骤ST302分类后的结果可能存在一些错误，***管理员可选择性的查看卡方计算结果，对于分类错误的操作进行调整。如果发现卡方计算归类错误的小类并不属于任何一个已有的大类，则也可以直接增加新的大类，把计算错误的小类标识为属于新增的大类。

步骤ST304：文档类别信息写入类库

把新的小类的文档类别信息写入各个相应的信息类别库，以在信息类别库建立新的小类的分类模型信息，文档类别信息包括：类别选取的特征词、类中心向量以及类半径，分类模型的建立方式可查看步骤ST202的第(2)小步。同时把步骤ST303新增大类的小类的文档类别信息写入候选舆情信息类别库，以在候选舆情信息类别库建立新的分类模型信息。这样当下一批信息文档到来时同一事件的文档就可以基于这些新的小类类别信息进行正确识别处理。

图4是图1所示的网络舆情识别方法中，步骤ST4行为识别的流程图。进一步，为使本发明获得更好的发明效果，步骤ST2行为识别主要包括如下步骤：

步骤ST401：构建舆情行为特征库

舆情信息行为特征库用来保存网络舆情行为识别过程中使用的行为参数规则的数据库。行为识别是结合舆情信息行为特征库通过判断网络信息是否符合舆情信息的行为特征来实现的。

舆情行为特征库构建步骤具体如下：

步骤ST4011：收集网络中典型舆情事件的文档

首先收集网络上已发生的典型舆情事件，并用文档的形式保存下来以进行后续的分析。

步骤ST4012：构建社会网络

考虑到网络中舆情信息传播的特点和途径，对步骤ST4011收集到的舆情事件文档建立一个两层的网络，用两层图模型来表示。网络的建立步骤如下：

1)下层网络的建立。网络中的节点表示主题贴，每个主题贴节点都有一个一个质量属性M，该值是用网民对该主题帖的回复数和点击数的比计算而来的。若两个主题帖之间存在相互引用或链接，那么就在这两个主题帖间建立一条边。

2)上层网络的建立。网络中的节点表示论坛。若两个论坛中存在相互引用或链接的主题帖，则在两个论坛节点间连一条线。

3)层次关系的建立。将每个论坛节点和该论坛下的主题贴节点连一条边。

步骤ST4013：提取能刻画舆情信息行为特征的社会网络属性并对其进行量化计算

对于建立的社会网络，通过分析发现网络中的以下参数可以很好的对舆情信息的行为特征进行刻画，：

(1)网络节点数目，下层网络中的节点代表了与事件相关的新闻报道和论坛主题帖，其数目的变化反映了与事件相关的新闻报道和论坛主题帖数目的变化。

(2)网络直径，网络中每两个点之间都有一条或多条最短路径，把网络中最长最短路径的长度叫做网络的直径。上层网络中网络直径的变化，反映了事件的传播距离和传播范围的变化。

(3)网络节点质量，下层网络中的节点质量网民对主题帖的回复数和点击数的比，它的变化反映了网民对于事件的关注程度的变化。

(4)网络密度，密度是社会网络分析中最常用的一种测度，是图论中另外一个得到广泛运用的概念。对于一个具有n个节点的图来说，节点之间的连线越多，该图的密度就越大。具体地说，密度指的是一个图中各个点之间联络的紧密程度。下层网络的网络密度的变化，反映了有关事件的报道或主题帖在不同网民间被引用次数的变化。

然后根据上述构建网络的步骤，选取一类网络信息中的所有信息文档，根据文档时间标签的不同分别建立社会网络，这样一类别的网络信息便对应一系列的网络参数时间序列，接下来基于参数时间系列对网络属性进行量化。

网络节点数目M₁的计算公式：

M_{1} = \frac{1}{n} Σ_{t = 1}^{n} \frac{{NodNum}_{t + 1}}{{NodNum}_{t}} - - - (6)

网络直径M₂的计算公式：

M_{2} = \frac{1}{n} Σ_{t = 1}^{n} \frac{{NetDiam}_{t + 1}}{{NetDiam}_{t}} - - - (7)

网络节点质量M₃的计算公式：

M_{3} = \frac{1}{n} Σ_{t = 1}^{n} \frac{{NodMass}_{t + 1}}{{NodMass}_{t}} - - - (8)

网络密度M₄的计算公式：

M_{4} = \frac{1}{n} Σ_{t = 1}^{n} \frac{{NetDens}_{t + 1}}{{NetDens}_{t}} - - - (9)

其中NodNum_t为t时刻下层网络中节点数目，NetDiam_t为t时刻上层网络的网络直径，NetMass_t为t时刻下层网络中所有节点的质量之和，NetDens_t为t时刻下层网络的网络密度。

步骤ST4014：实验获取行为参数阈值并写入舆情信息行为特征库

以上四个参数在短时间内的急剧变化准确地反映了舆情信息的行为特征。但是对于这些参数，不能孤立地把其中一个参数的变化作为判断某个事件是否成为舆情信息的依据，因为一些非舆情信息事件在其产生的过程中也可能出现某个参数的变化与舆情信息行为特征相似的情况。所以，只有将上述参数结合起来，综合地考虑才能够准确的描述舆情信息的行为特征。通过对大量舆情信息实验的分析发现，以上四个参数在刻画舆情信息的行为特征时所占的比重是不同的，它们之间的比重大致是0.4∶0.1∶0.2∶0.3。为此，本发明提出下面的舆情指数计算公式作为从数量上判别舆情信息的依据：

M＝0.4*M₁+0.1*M₂+0.2*M₃+0.3M₄ (10)

其中舆情指数M表示网络信息的行为特征与典型舆情信息行为的相似程度，网络信息的M值越大，说明它的产生、传播过程与舆情信息的行为特征越相似，它就越可能成为舆情信息。

同时实验也发现，众多舆情信息的M值一般都存在于区间[θ，ω]之中，因此把舆情阈值设置为区间下限θ，当某网络信息的M值超过θ即舆情阈值时，该网络信息被识别为舆情信息。最后把M，M₁，M₂，M₃，M₄的计算方法及M的阈值作为规则存入舆情信息行为特征库中作为判断网络信息是否符合舆情信息的行为特征的依据。

步骤ST402：抽取属于同一个事件小类的文档，建立该类事件的社会网络。

当候选舆情信息类别库中某个事件相关文档达到一定规模则从类别库中抽取出属于该小类事件的文档组成该事件的文档集，然后基于文档集建立该类事件的社会网络。建立方法同步骤ST4012。

步骤ST403：社会网络参数分析

结合舆情信息行为特征库里面的规则分析该事件社会网络中的网络节点数、网络直径、网络节点质量、网络密度参数。首先采用行为特征库保存的各网络属性参数计算方法对各参数进行计算，然后把参数计算结果代入公式(10)中计算出当前时刻M的值。如果M的值超过θ即舆情阈值时则认为该小类事件的社会网络参数行为符合舆情行为特征，该小类事件将有可能引发舆情，对该小类事件进行舆情标注；否则小类事件还没能构成舆情，暂不处理。

步骤ST404：识别为舆情信息并写入舆情信息类别库

把标注为舆情的小类事件的相关文档类别信息写入舆情信息类别库，以在信息类别库建立新的小类的分类模型信息，文档类别信息包括：类别选取的特征词、类中心向量以及类半径，分类模型的建立方式可查看步骤ST301的第(4)小步。

在本发明中，***把舆情信息的识别分为内容识别和行为识别两部分，首先通过步骤ST202可以直接识别出与已知舆情小类的相关文档类别信息加入舆情信息类别库，接下来通过步骤ST302也可以识别出属于已知舆情大类的事件小类的相关文档类别信息加入舆情信息类别库，前两种方式主要是从内容方面识别舆情；本发明最后还可以通过步骤ST403依靠社会网络知识采用行为识别的方式从候选舆情信息类别库中识别出未知的舆情事件文档类别信息来加入舆情信息类别库。通过上述的三种方式本发明所涉及的舆情信息类别库能够不断的学习完善最终做到准确高效的舆情识别。

本发明的效果在于：不但可以有效地发现网络中的已知舆情信息，还结合行为识别通过社会网络分析的方式对可能引起舆情的未知事件进行识别和处理，可以在未知舆情事件萌发阶段就对其进行有效的识别，弥补了以往舆情识别方法采用热点话题发现技术识别网络舆情所带来的时间滞后的不足。

具体实例

为进一步理解本发明的网络舆情识别方法，下面举一具体实例，包括如下步骤：

(一)：通过爬虫从新浪，网易，搜狐三大主流网站的论坛抓取网页，网页发布时间从09年5月1号开始，到09年8月15号截止，然后对抓取的网页进行网页解析预处理，提取出标题和正文保存在信息文档中，再把信息文档保存到爬虫数据库。

(二)：对信息文档基于各个信息类别库已有小类别进行分类。

首先对爬虫数据库中的信息文档进行向量化，向量化方法为：

1)对文章标题和文章内容进行分词，

2)统计每个词出现的次数，其中参与统计可包括名词、动词、形容词等，

3)然后结合搜狗词库计算每个词的权重，其中TitlePara值设置为2，TextPara值设置为1，衰减因子σ设置为经验值0.7。

4)接下来对权重计算结果排序，取前15个为文档的特征词。然后把每个特征词作为特征向量的一维，如果文档中含有该特征词，则该维值为特征词权重，否则取0。由此得到每篇文档的特征向量。

接下来基于各个信息类别库的分类模型对所有文档进行分类，因为***一开始时三个信息类别库均为空，第一批文档无法基于信息类别库中的小类类别分类，则对第一批文档进行聚类，聚类方法为：

1)加载所有文档的特征词及特征词对应权重；

2)采用向量距离公式计算所有文档相互之间的距离，并求出距离的平均值；

3)对距离的值进行排序并记录对应的文档ID，对于那些距离在平均值以内的相似文档进行合并，循环进行这样的合并操作，直到不能合并为止。这样便得到若干个类。聚类结果包括浙江杭州市飙车案、湖北巴东县***案，河南灵宝市王帅案，四川成都公交车燃烧，绿坝软件事件，股票行情等小类。

4)查看聚类的结果，当某个小类的文档个数超过阈值50，则建立该类的分类模型，分类模型的建立方法为：统计该类中所有特征词权重的平均值，取权值最大的200个特征词作为该类的类别选取特征词，这200个特征词的权重组成的向量作为类中心向量，然后计算该类中每个文档与类中心向量的距离，取最小距离作为该类的类半径，将类别选取特征词、类中心向量和类半径作为分类模型信息保存到信息类别库。

最后***管理员对聚类结果中的所有小类标注其所属大类，结果如下：

刑事案件	公权力形象	突发事件	经济安全
				浙江杭州市飙车案、湖北巴东县***案	河南灵宝市王帅案、绿坝软件事件	四川成都公交车燃烧	股票行情

同时因为***管理员自身对刑事案件、公权力形象和突发事件三个大类比较感兴趣，而对经济安全不感兴趣，因此把刑事案件、公权力形象和突发事件三个大类标注为舆情，把经济安全大类标注为非舆情，并把刑事案件大类、公权力形象和突发事件三个大类及各自相应小类的相关文档类别信息写入舆情信息类别库，把经济安全大类和股票行情小类的相应文档类别信息写入非舆情信息类别库，其余的则写入候选舆情信息类别库，作为各个信息类别库的初始数据以建立分类模型。

(三)：爬虫采集下来第二批文档流，文档向量化，然后依次基于舆情信息类别库，非舆情信息类别库，候选舆情信息类别库中已有的小类类别对文档流进行分类。

1)分类成功，属于同一事件的文档分到已有的小类类别中，比如新采集的四川成都公交车燃烧事件的相关文档就分到突发事件大类下的四川成都公交车燃烧事件这个小类类别下，同时把新的文档类别信息写入舆情信息类别库，以便扩充和完善信息类别库中关于***的文档信息。其它的小类事件处理方式类似。

2)分类不成功，

(1)对剩余文档进行聚类，聚成若干小类，包含有湖北石首市骚乱事件，河南郑州副局长“替谁说话”事件，新疆事件，台风莫拉克，成都女大学生村官被殴致死事件等小类。

(2)计算特征词的卡方值

首先采用卡方公式计算所有小类中的特征词与所有已有的大类类别的相关度，然后基于文档特征词的卡方计算结果采用投票的方式来决定每篇文档所属大类，同样基于某个未标识的小类所里面有文档投票结果再次采用投票的方式来决定该未标识的小类所属大类。

其中新疆事件聚类结果共有64篇文档，每篇文档取15个特征词，首先采用特征词投票的方式计算一篇文档所属大类，比如某文档中有12个特征词计算结果属于突发事件大类，3个特征词计算结果属于食品安全大类，则该篇文档属于突发事件大类。依次计算所有64篇文档，结果有52篇文档计算结果属于突发事件大类，12篇文档计算结果属于刑事案件大类，则最终得出新疆事件小类属于突发事件大类。

采用同样方式依次计算得出湖北石首市骚乱事件，台风莫拉克，成都女大学生村官被殴致死事件属于突发事件大类，河南郑州副局长“替谁说话”事件属于公权力形象大类。

3)***管理员查看卡方计算结果，把归类不当的小类重新归类，或者标识新增的大类。其中成都女大学生村官被殴致死事件的计算结果显示属于突发事件大类，这是文本采集不足造成的，所以管理员把它调整到刑事案件大类下；同时管理员认为应该添加***件大类并标识其为舆情类别，把湖北石首市骚乱事件和新疆事件调整到***件大类下，这样处理比较合理；而台风莫拉克因为涉及到突发的自然灾害的描述，计算结果属于突发事件大类，这也不是很妥当，管理员新增自然灾害大类，并把台风莫拉克调整到自然灾害大类下写入候选舆情信息类别库进行监控。

各个信息类别库中文档类别信息如下：

(4)：行为识别舆情信息

***经过实时的监控发现，台风莫拉克的相关文档数量达到了50篇阈值以上，接下来从候选舆情信息类别库库中抽取出台风莫拉克的相关文档，建立该类事件的社会网络。通过对该社会网络的网络节点数、网络直径、网络节点质量、网络密度参数进行计算。把参数计算结果代入公式(10)中计算出当前时刻M的值。如图6所示，发现M的值超过6即舆情阈值，则台风莫拉克小类事件有可能已经形成了网络舆情，把台风莫拉克小类标注为舆情并把相关文档类别信息移入舆情信息类别库，接下来就可以采用前面的内容识别步骤快速准确的对其进行监控。

通过上述步骤，我们得到了当前监测阶段的舆情识别结果，下面将给出识别出来的舆情信息，这个阶段的非舆情信息和候选舆情信息我们在这里就不逐一显示了。

舆情信息类别库中文档类别信息如下：

刑事案件	公权力形象	突发事件	***件
					杭州飙车案、***案，成都女大学生村官被殴致死事件	灵宝市王帅案、绿坝软件事件，河南郑州副局长“替谁说话”事件	四川成都公交车燃烧	湖北石首市骚乱事件，新疆事件，	自然灾害大类下的台风莫拉克事件小类

(5)：对爬虫下一批信息文档进行舆情信息识别

采用上述的步骤处理爬虫采集下来的第三批文档流，通过不断循环的方式，随着越来越多的事件文档加入到舆情信息类别库，信息类别库中舆情信息类别得到不断的丰富，同时信息类别库中新特征词的不断加入和已有的特征词施加的衰减因子，也保证了舆情信息类别库中的分类模型信息能够得到不断的更新。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化时显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种网络舆情识别方法，包括以下步骤：

(3)、分类失败的信息文档聚类，判断聚类结果所属类别，将其写入相应的信息类别库；

(4)、对候选舆情信息类别库的信息文档进行行为识别，基于同一类别相关文档之间的关系建立社会网络并对其进行社会网络分析，关系行为符合舆情行为特征的识别为舆情，把新的舆情类别信息写入舆情信息类别库；

步骤(2)所述的文档向量化，其步骤为：

首先对文章标题和文章内容进行分词，统计每个词在文档中出现的次数，其中参与统计包括名词、动词、形容词，然后计算词语权重并对计算结果排序，取前S个作为文档的特征词，接着把每个特征词作为特征向量的一维，如果文档中含有该特征词，则该维值为特征词权重，否则取0，由此得到每篇文档的特征向量；

步骤(4)中，所述的行为识别是通过社会网络分析的方式实现的，做法是定期对候选舆情类别库中的信息文档进行检测，当某个事件小类的相关信息文档数量达到一定规模，抽取这个事件的信息文档集合建立社会网络并分析社会网络参数，网络行为符合舆情行为特征的则识别为舆情，识别结果写入舆情信息类别库以完善其分类模型。

2.根据权利要求1所述的一种网络舆情识别方法，其特征在于，步骤(1)的具体实现方法为：

通过网络爬虫从互联网中采集网页；通过信息提取单元对网页进行解析预处理，获取到的标题、正文等信息组装成网页信息文档并保存到网页数据库。

3.根据权利要求1所述的一种网络舆情识别方法，其特征在于，所述的词语权重计算方法为：

结合搜狗词库计算每个词的权重，文章标题中的特征词权重计算公式：

\frac{TitlePara * FileF}{(float) (1 + Math . \log (1 + SogouF)) * F_MAX} * σ

文章正文中的特征词权重计算公式：

\frac{TextPara * FileF}{(float) (1 + Math . \log (1 + SogouF)) * F_MAX} * σ

其中TitlePara和TextPara为人为设置参数，TitlePara值一般为TextPara值的两倍，FileF为该特征词在文档中出现的次数，SogouF为该特征词在搜狗词库里面记录的词频，F_MAX为文档中出现次数最多的特征词的出现次数，σ为衰减因子；

搜狗词库里面没有记录的个别特征词的权重计算公式：

\frac{Pre_T}{Max_T} * Value_Max

其中Pre_T为该特征词在文档中出现的次数，Value_Max文档中权重最大的特征词的权重，Max_T为文档中权重最大的特征词的出现次数；

4.根据权利要求1所述的一种网络舆情识别方法，其特征在于，步骤(2)所述的信息文档分类做法是：首先构建舆情信息类别库、非舆情信息类别库和候选舆情信息类别库，然后基于各个信息类别库的分类模型对所有的信息文档分类，分类结果写入相应信息类别库以更新其分类模型。

5.根据权利要求1所述的一种网络舆情识别方法，其特征在于，步骤(3)，分类失败的剩余文档按事件进行聚类；聚类结果通过卡方计算的方式判断其所属类别。

6.根据权利要求1所述的一种网络舆情识别方法，其特征在于，所述的构建社会网络是以图的形式来表述网络上信息文档之间的关系结构，所述的图可以是有向图或者无向图。