CN103150432A

CN103150432A - 一种网络舆情分析方法

Info

Publication number: CN103150432A
Application number: CN2013100721373A
Authority: CN
Inventors: 高云棋; 田丹; 郭成林; 刘红玉; 刘丹; 彭春林
Original assignee: NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2013-03-07
Filing date: 2013-03-07
Publication date: 2013-06-12
Anticipated expiration: 2033-03-07
Also published as: CN103150432B

Abstract

本发明公开了一种网络舆情分析方法，具体通过使用AC自动机和正则表达式匹配出正文中的关键词和关键句式，并根据匹配的结果将文章表示为若干主题，通过为每种主题设定权值并计算页面的权值和，从而快速、准确的分析并判断页面是否属于舆情。本发明的方法以主题匹配代替简单舆情分析中的词语匹配，同时免去了聚类、分类等复杂步骤，能够在保证一定准确度的情况下能综合各种指标，对各种页面进行高速舆情分析，达到最快的分析速度。

Description

一种网络舆情分析方法

技术领域

本发明属于网络信息处理技术领域，具体涉及一种网络舆情分析方法。

背景技术

随着互联网技术的不断发展，网络已经成为人们相互交流的重要的平台之一。由于互联网的自由和开放性，任何人均可以在论坛、博客、微博等新兴媒体上发布言论，同时也带来了互联网舆情和不良信息传播等一系列问题，一旦某条信息没有及时被监测到，就很容易引发谣言散播，甚至引发***件，从而为社会带来不稳定因素。因而，有必要提出一种快速、有效的方法，对海量规模的网页进行有针对性的舆情判定。

CN101408883公开了一种网络舆情观点收集方法，该方案主要包括以下步骤：(1)、从爬虫数据库中的信息文档中提取出热点词，根据热点词，提取热点词相关的信息文档，构成该热点词相关的热点事件文档集；(2)、在热点事件文档集中，提取信息文档中的关键句，构成关键句集，在提取关键句过程中，在该关键句句末添加网民的身份标记，以标记该关键句的所属用户；(3)、对关键句集中的关键句进行聚类，对聚类结果按每类句子数对其排序，取句子数最高的前M类，形成M类观点主题句集；(4)、建立不同类别的情感词库，情感词库中的每一个词语对应一个权值，对M类观点主题句集分别标注其对应的情感词库，然后依据情感词库，分别对M类观点主题句集中的关键句的情感词进行情感标记，然后根据情感标记计算出每个关键句的情感倾向值，再依据关键句的网民的身份标记，计算出每个网民在该观点主题下的情感倾向值，从而得到某一热点事件的网络舆情观点。

此该方案虽然能够解决舆情判定的问题，但是仍存在以下问题：1、由于使用聚类和情感分析方法需要分词和词性标注，耗时较长，同时聚类本身也是较为耗时的过程；2、非新闻页面的标点使用不正规，经常出现以空格代替标点、错用标点等情况，难以准确提取主题句，而微博因为文字长度较短，更无法以主题句为基本单位进行分析；3、无法根据用户需求进一步筛选特定舆情信息，如按地区进行筛选、按内容进行筛选等。

发明内容

本发明的目的是为了解决上述方案中舆情分析耗时较长且准确度不足这一技术问题，提出了一种网络舆情分析方法。

本发明的技术方案为：一种网络舆情分析方法，具体包括如下步骤：

S1：参数初始化：

待匹配的关键词表，包含若干个用于描述舆情信息的关键词，以及该关键词对应的主题编号；待匹配的关键句式表，包含若干个描述舆情信息的句式的正则表达式，以及该关键句式的所述主题编号；主题编号到主题性质与主题权值的映射表；

S2：从待匹配的关键词表中读入每个要匹配的关键词，并将每个词语加入到AC自动机的词语树前缀中，完成词语树构建；

S3：从待匹配的关键句式表中读入每种句式对应的正则表达式；

S4：读入待分析页面，提取待分析页面的正文部分；

S5：遍历正文，匹配正文中出现的关键词并计算出每一个关键词出现的次数，同时根据待匹配的关键词表查询出每个关键词对应的主题编号；

S6：将正文部分中的内容根据标点或者空格划分为若干句，删去其中字数小于θs的句子，对于剩余的句子，进行关键句式匹配，其中，θ_s为预先设置的最小句子长度阈值；

S7：根据步骤S5和S6匹配结果，确定正文部分的主题组合；

S8：根据映射表，以及步骤S7得到的正文部分的主题组合，按如下公式计算正文的舆情指数：

R=A₁S_S+A₂S_N-A₃S_P-A₄S_I-A₅S_F；

其中，S_S为正文中出现的敏感类问题的权值和，S_N为负面情感主题的权值和，S_P为正面情感主题的权值和，S_I为非舆情类主题的权值和，S_F为描述国外情形主题的权值和，A₁、A₂、A₃、A₄、A₅为预先设置的经验参数；

S9：根据步骤S7和S8结果，若R≥Tr且正文中不包含用户设定的过滤关键字，同时正文描述内容涉及地区与用户设定的关注地区一致，则认定该正文为用户关心的舆情信息，其中，Tr为预先设置的认定某一页面为舆情的最小门限值。

上述步骤S4提取待分析页面的正文部分的具体过程如下：

S401：利用正则表达式匹配方法，根据页面的原始URL地址，以及页面HTML代码中包含的关键代码，判断出页面的所述类型；

S402：如果页面属于某一新闻网站或者博客，则提取所有页面段落，并将页面的标题以单独段落计入正文；如果页面属于某一论坛，对于每个讨论帖，将发帖人的主帖部分和该讨论帖内发帖人字数大于θ_f的回帖合并作为正文，并将其他字数大于2θ_f的跟帖作为单独的正文进行分析，其中，θ_f为预先设置的一个论坛回帖可以被分析所需的最小字数；如果页面属于某一微博客，将每条字数大于的θ_m发言看作正文并进行单独分析，其中，θ_m为预先设置的微博跟帖可以被分析所需的最小字数。

上述步骤S6进行关键句式匹配的具体过程如下：

S601：读出待匹配的关键句式表中的一个正则表达式，用该正则表达式匹配该句子；

S602：若S601所述正则表达式匹配成功，则认定该句子为正则表达式对应的关键句式，记录该句式对应的主题编号，并将该句式出现次数增加1；若S601所述正则匹配不成功，则继续执行步骤S601，直到所有正则表达式匹配完毕。

上述步骤S7中确定正文部分的主题组合具体为：对于长文本，某一主题内包含的主题词或者关键句要在文中出现的次数不小于θ_z1次，则认为正文部分涉及该主题；对于短文本，某一主题内包含的主题词或者关键句在文中出现的次数不小于θ_z2，则认为正文部分涉及该主题，其中，θ_z1、θ_z2为预先设置的阈值。

进一步的，上述长文本具体为新闻、博客和论坛正文；所述的短文本具体为论坛回帖或者微博。

本发明的有益效果为：本发明的方法通过使用AC自动机和正则表达式匹配出正文中的关键词和关键句式，并根据匹配的结果将文章表示为若干主题，通过为每种主题设定权值并计算页面的权值和，从而快速、准确的分析并判断页面是否属于舆情。本发明的方法以主题匹配代替简单舆情分析中的词语匹配，同时免去了聚类、分类等复杂步骤，能够在保证一定准确度的情况下能综合各种指标，对各种页面进行高速舆情分析，达到最快的分析速度。

附图说明

图1为本发明网络舆情分析方法实施过程流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的说明。

本发明网络舆情分析方法实施过程流程示意图如图1所示，具体包括如下步骤：

S1：初始化参数：

待匹配的关键词表Tw如表1所示，该关键词表使用LDA对20000个训练文本进行自动分析后得到，总共200个主题，其中每个主题包含30个关键词，以及该关键词的所述主题编号，一个关键词可以同时属于多个主题；待匹配的关键句式表Ts如表2所示，其中包含若干关键句式的正则表达式描述，以及该关键句式对应的主题编号；主题编号到主题性质与主题权值的映射表Tm如表3所示，其中，主题性质取：S-敏感话题，N-负面描写，P-正面描写，F-国外内容，I-与舆情无关。

这里的主题为一组相关词语或者句式的组合，出自论文“Probabilistic Topic Models，Signal Processing Magazine，第27卷，55-65，David M.Blei等”标题中topic一词的翻译，具体描述一类事物或者事物的某一种特征，如颜色、形状等，在本实施例中也可以用来表示情感、地区等特征。

本实施过程中用到的其它参数初始化如下：一个论坛回帖或者微博跟帖可以被分析所需的最小字数θ_f=30和θ_m=10；最小句子长度θ_s=6个中文汉字长度；认定一篇新闻或者博客或者论坛的主贴部分涉及某一主题所需要出现的最小主题词个数或者次数θ_z1=4，认定一个论文跟帖或者微博发言涉及某一主题所需出现的最小主题词个数或者次数θ_z2=1；A₁-A₅为计算舆情指数R时所需要的经验参数，取值分别为1.8、8、10、5、8；Tr=200为认定一篇文章为舆情的最小门限值；用户关注所有地区，且没有设定任何屏蔽关键字。

LDA出自论文“Latent Dirichlet Allocation，Journal of Machine Learning Research，第三卷，993-1022页，David M.Blei等”，用于分析大量文本中出现的主题，并提取每个主题包含的词语。

表1

词语	主题编号	词语	主题编号	词语	主题编号
						…	…	…	…	…	…
情况	9	政府	83	拆迁	96
						问题	9	影响	83	房屋	96
落实	9	事件	83	补偿	96
						保障	9	利益	83	拆除	96
监督	9	关注	83	房屋	96
						…	…	…	…	…	…
老人	129	学校	156	***	192
						母亲	129	学生	156	抢劫	192
父亲	129	教师	156	案件	192
						父母	129	班主任	156	抓获	192
家人	129	高校	156	嫌疑人	192
						…	…	…	…	…	…

表2

关键句式对应的未编译的正则表达式	主题编号
		连.都.得不到	42
(弃\|置).*不顾	42
		还.*清白	42
致.的.***	61
		…	…

[0040] 表3

主题编号	主题性质	主题权值
			…	…	…
9	N	10
			83	N	15
96	S	100
			129	I	0
156	S	10
			192	S	80
…	…	…

S2：从S1所述的Tw中读入每个要匹配的关键词，并将每个词语加入到AC自动机的词语树中，完成词语树构建过程。

这里的AC自动机为Aho-Corasick多模匹配算法的另一种说法，由Alfred V.Aho和Margaret J.Corasick最先提出，用于实现高速匹配一段文字出是否出现多个关键词中的一个或者若干个；词语树前缀一种AC自动机使用的数据结构，用于表示待匹配的关键词。

S3：从S2所述的Ts中读入每种句式对应的正则表达式，这里将正则表达式编译并读入内存以加快正则表达式的匹配速度；

S4：读入待分析页面，提取页面的正文部分，本实施例中所使用页面来自腾讯网某一新闻。

这里正文的提取方法可以按步骤S401-S402进行：

S401：使用正则表达式匹配方法，根据页面的原始URL地址http://news.qq.com/a/20100220/000882.htm，以及页面HTML代码中包含的关键代码<a href="http://news.qq.com">新闻中心</a>，判断出页面的所述类型为新闻；

S402：如果页面属于某一新闻网站或者博客，则提取所有页面段落，并将其标题以单独段落计入正文，根据S401匹配结果，得到页面对应正文。

如果页面属于某一论坛，对于每个讨论帖，将发帖人的主帖部分和该讨论帖内发帖人字数大于30字的回帖合并作为正文，并将其它字数大于60字的跟帖作为单独的正文进行分析，根据S401匹配结果，此条步骤被跳过。

如果页面属于某一微博客，将每条字数大于的10字发言视作正文进行单独分析，根据S401匹配结果，此条步骤被跳过。

S5：遍历正文，使用S2所述关键词匹配单元匹配正文中出现的关键词并计算出每一个关键词出现的次数，同时根据表Tw查询出每个关键词所述的主题编号。

S6：将正文部分中根据标点或者空格划分为若干句，删去其中字数小于6的句子，对于剩余的每一句话，可以按以下步骤进行关键句式匹配：

S601：从内存中读出Ts的一个编译后的正则表达式，用该正则表达式匹配该句子；

S602：若S601所述正则表达式匹配成功，则认定该句子为正则表达式对应的关键句式，记录该句式对应的主题编号，并将该句式出现次数增加1；若S601所述正则匹配不成功，则继续步骤S601，直到所有正则表达式匹配完毕。

S7：根据S5和S6匹配结果，确定正文部分的主题组合，具体方法为，对于新闻或者微博，某一主题内包含的主题词或者关键句要在文中出现4次，而对于论坛回帖和微博要出现1次，即认为正文涉及该主题。本例中正文的主题组合为9、83、96、129、156。

S8：根据映射表Tm，以及S7所述的正文部分的主题组合，按如下公式计算正文的舆情指数：

R=1.8S_S+8S_N-10S_S-5S_I-8S_F

其中，S_S为文章中出现的敏感类问题的权值和，S_N为负面情感主题的权值和，S_P为正面情感主题的权值和，S_I为非舆情类主题的权值和，S_F为描述国外情形主题的权值和；

带入S7的结果并参考映射表，由于本例中正文的情感倾向为严重负向，且不涉及无关话题也没有描述国外情形的词语，最终计算结果为R=1.8*(100+10)+8*(10+15)=398；

S9：根据S7和S8结果，因为R=398>200，且描述地区与用户关注地区一致，同时该主题没有用户设定的屏蔽关键字，因而认定此页面为用户所关注的舆情信息。

本发明的方法具有如下几个优点：

1、使用的AC自动机和正则表达式匹配均为高速方法，可以有效降低时间开销；

2、通过根据正文部分中的关键词和关键句将正文表示为若干主题的组合，除了可以判断页面内容外，还可以同时判断出页面的情感倾向、地区相关等信息，进一步简化整个分析的过程；

3、每一个主题都是一组有实际意义的词语或者句式集合，因而可以根据正文的主题表示帮助用户根据内容或者地区偏好过滤用户不关心的舆情。

根据实际测试，在20000个关键词和1000条关键句式的规模下，分析一篇200句篇幅的页面只需要不到0.1秒时间。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种网络舆情分析方法，具体包括如下步骤：

S1：参数初始化：

S4：读入待分析页面，提取待分析页面的正文部分；

S7：根据步骤S5和S6匹配结果，确定正文部分的主题组合；

R=A₁S_S+A₂S_N-A₃S_P-A₄S_I-A₅S_F；

其中，S_S为文章中出现的敏感类问题的权值和，S_N为负面情感主题的权值和，S_P为正面情感主题的权值和，S_I为非舆情类主题的权值和，S_F为描述国外情形主题的权值和，A₁、A₂、A₃、A₄、A₅为预先设置的经验参数；

S9：根据步骤S7和S8结果，若R≥Tr且文章中不包含用户设定的过滤关键字，同时文章描述内容涉及地区与用户设定的关注地区一致，则认定该正文为用户关心的舆情信息，其中，Tr为预先设置的认定一篇文章为舆情的最小门限值。

2.根据权利要求1所述的网络舆情分析方法，其特征在于，所述步骤S4提取待分析页面的正文部分的具体过程如下：

S402：如果页面属于某一新闻网站或者博客，则提取所有文章段落，并将文章的标题以单独段落计入正文；如果页面属于某一论坛，对于每个讨论帖，将发帖人的主帖部分和该讨论帖内发帖人字数大于θ_f的回帖合并作为正文，并将其他字数大于2θ_f的跟帖作为单独的正文进行分析，其中，θ_f为预先设置的一个论坛回帖可以被分析所需的最小字数；如果页面属于某一微博客，将每条字数大于的θ_m发言看作正文并进行单独分析，其中，θ_m为预先设置的微博跟帖可以被分析所需的最小字数。

3.根据权利要求1所述的网络舆情分析方法，其特征在于，所述步骤S6进行关键句式匹配的具体过程如下：

4.根据权利要求1所述的网络舆情分析方法，其特征在于，所述步骤S7中确定正文部分的主题组合具体为：对于长文本，某一主题内包含的主题词或者关键句要在文中出现的次数不小于θ_z1次，则认为正文部分涉及该主题；对于短文本，某一主题内包含的主题词或者关键句在文中出现的次数不小于θ_z2，则认为正文部分涉及该主题，其中，θ_z1、θ_z2为预先设置的阈值。

5.根据权利要求1所述的网络舆情分析方法，其特征在于，所述的长文本具体为新闻、博客和论坛正文；所述的短文本具体为论坛回帖或者微博。