CN109101597B

CN109101597B - 一种电力新闻数据采集***

Info

Publication number: CN109101597B
Application number: CN201810856017.5A
Authority: CN
Inventors: 黄颖; 孟肖虎; 齐丰
Original assignee: China Telecom Media Co Ltd
Current assignee: China Telecom Media Co Ltd
Priority date: 2018-07-31
Filing date: 2018-07-31
Publication date: 2019-08-06
Anticipated expiration: 2038-07-31
Also published as: CN109101597A

Abstract

本发明涉及一种电力新闻数据采集***，包括信息采集单元、信息处理单元、舆情分析单元和舆情展示单元，其中信息采集单元包括：定向抓取子单元，搜索引擎子单元，来源及采集频率子单元；信息处理单元包括：垃圾信息过滤子单元，智能去重子单元，HTML内容提取子单元，和快照保存子单元。舆情分析单元包括：文章权重计算子单元，传播轨迹分析子单元，自动分类与情感分析子单元，相似文章算法子单元和媒体覆盖子单元，舆情展示单元，包括WEB客户界面子单元，舆情预警子单元，舆情分析报告子单元。本发明实现在电力行业内的海量信息获取、主题思想内容自动提取、重大新闻话题自动聚类、排序和检索结果自动聚类等功能。

Description

一种电力新闻数据采集***

技术领域

本发明创造涉及信息监控领域，具体涉及电力行业的新闻数据采集***。

背景技术

电力是一个国家巩固、稳定的基本，随着社会的发展，电力行业在不断的改革和调整，发电、输配电方式越来越多样化，也在一定程度上增加了电力行业风险，因此，对电力行业进行实时监控，有利于预防电力负面舆论的产生和加剧，对于稳定电力行业发展有着极其重要的意义。

随着科技的进步、互联网的发展，社会舆论的网络已成为可以表达民众观点、立场和情感的重要载体，网络舆论中反应了当今社会中人们较为关注的问题，随着网络的普及，参与者的增加，致使产生网络舆情的速率急速增长，网络舆情对社会带来的影响也迅速增大，研究发现，随着电力行业网站影响力的不断扩大，电力网络已经逐步发展起来，电力网络舆情的分析研究有利于实时了解电力行业的舆论走向，从而及时进行应对和改进，对于营造一个安稳的电力网络环境有着积极的作用。

发明内容

本发明涉及一种电力新闻数据采集***，包括信息采集单元、信息处理单元、舆情分析单元和舆情展示单元，其中：

为了实现上述目的，本发明是通过以下技术方案实现的：一种电力新闻数据采集***，包括信息采集单元、信息处理单元、舆情分析单元和舆情展示单元，其中：

信息采集单元：用于监测站点及关键词，进一步包括：

定向抓取子单元：可对人工定义的15万重点站点中的新闻、论坛、博客实现全面的抓取，同时对主流新闻网站分页、评论内容的采集以及对论坛点击数、回帖数的抓取；

搜索引擎子单元：自动跟踪多个搜索引擎的搜索结果，对***抓取进行补充，确保信息全面无遗漏；

来源及采集频率子单元：自定义需要重点监测的信息，设定采集的栏目、URL、更新时间、扫描间隔，以便及时发现目标信息源的最新变化，并以最快的速度将个性化关注内容采集到本地；

信息处理单元：用于对接收的信息进行处理，进一步包括：

垃圾信息过滤子单元：基于机器学习的垃圾过滤机制可以自动过滤广告、水贴等无效垃圾信息；

智能去重子单元：根据文档内容的匹配程度确定是否重复、去重的级别；

HTML内容提取子单元：自动提取任意复杂网页中的标题、内容、作者、发布时间等信息，自动跟踪文章分页；对于论坛信息自动分析主贴、回帖以及作者等信息；

快照保存子单元：对于每个经过抓取和处理的网页，***都存有一个纯文本的备份，方便用户快速浏览，也方便用户查看被删除的文章或帖子；

舆情分析单元：进一步包括：

文章权重计算子单元：综合网站重要程度、文章出现位置、主题相关度、危机程度、点击回复次数、传播数量以及用户自定义规则等复杂参数计算的文章权重，加上基于自然语言处理技术的训练***，能准确分析出重要舆情信息；

传播轨迹分析子单元：***可以对于一段时间内的舆情信息走势进行分析展示，同时可以以不同的载体如论坛、新闻等分类呈现；

自动分类与情感分析子单元：将自然语言处理技术(NLP)应用于舆情监测领域，对信息精准分类并自动做情感分析；

相似文章算法子单元：基于自然语言处理技术，***根据文章内容相似程度计算相似文章，方便获取同一内容文章的所有传播网站；

媒体覆盖子单元：***可以对于监测信息的媒体类型情况进行展示，同时对于信息的主要传播媒体自动识别，进行整合分析，以图表呈现；

舆情展示单元，进一步包括：

WEB客户界面子单元：基于云计算模式，用户可以使用WEB浏览器随时登陆***，在客户界面对舆情状况进行全面的了解；客户界面包含了如舆情走势、舆情详细信息、最新微博信息、载体覆盖情况等主要内容，并以列表以及图表展示等可视化方式呈现，导航栏方便用户查看各种分类；栏目定制功能，用户可以在首页自行删、减、增添所需要的功能模块；

舆情预警子单元：预警级别显示，显示当日舆情级别，方便用户整体把握，同时呈现预警信息走势和预警信息列表，建立多个舆情指标，对于突发舆情自动发出预警信号，在最短时间内通过短信或邮件方式通知用户，辅助进行舆情干预和引导；

舆情分析报告子单元：根据舆情分析引擎处理后的结果库生成报告，客户可通过浏览器浏览，并且可以导出生成为Word、PDF等格式的本地文档，方便客户对不同时段的重点和热点以及对事件舆情数据的把握。

进一步的，根据文章自身的权重，与客户关系，以及其他权重因子最终生成权重值，最终的权重值＝a*文章自身的权重+b*与客户关系的权重+c*其他权重因子，其中，a、b、c分别为影响因子各自的权重系数。

进一步的，通过以上方式计算出文章权重级别后，再进行权重级别的定义，首先将信息文章分为5个级别选项，从级别1到级别5，其中级别5的文章信息权重为最高，级别1：文章权重小于1的；级别2：文章权重在1-2.8之间的(包含1)；级别3：文章权重在2.8-4.8之间的(包含2.8)；级别4：文章权重在4.8-6之间的(包含4.8)；级别5：重点关注的和文章权重在6以上的(含6)。

进一步的，所述的自动分类与情感分析子单元进一步包括：自动分类，使用语料训练统计量与代码词表模型混合算法，计算过TF-IDF后，再对指定类别Class中出现的所有单词W计算其权重Weight，具体分为以下步骤：

步骤一：导入训练文档步骤：

Step11，从训练集中读取文档；

Step12，提取已读取文档的内容及其类别；

Step13，对所有需要分类的文章进行分词(不要进行词性标注)，分词后的文件名以.seg为扩展名，保存到指定的文件夹中；

步骤二：统计词频步骤：

Step21，对训练文档进行分词与词性标注处理，词性标注的后的文件名以.pos为扩展名，保存到指定的文件夹中；

Step22，类别特征抽取

Step221统计要处理的文件(指定训练目录下所有的.pos文件)

Step222统计这些文件的词频(TF，词出现的总次数)、逆向文档频率(IDF，出现该词的文档数目)；

Step23对指定类别Class中出现的所有单词W计算其权重Weight；

步骤三：计算词权重步骤：

Step31，计算训练文档总数N；

Step32，计算指定类别Class中出现单词W的文档数目A；

Step33，计算除指定类别Class外，其他所有类别中出现单词W的文档数目B；

Step34，计算指定类别Class中没有出现单词W的文档数目C；

Step35，计算除指定类别Class外，其他所有类别中没有出现单词W的文档数目D；

采用如下公式计算单词W在类别Class中的权重

Wweight＝N×(A×D-B×C)²/((A+B)×(C+D)×(A+C)×(B+D))；

Step36对每类别的词按权重从大到小排序；

Step37提取权重最大的前M个词(一般为500或2000)为类别的特征词，

步骤四：优化类别特征步骤：

Step41设定特征数目num，类别名称name，任意选择一词；

Step42，人工介入训练结果集，机器生成的训练结果集与语料确定类的强度有关，当语料不能非常好的确定分类或者认为机器训练结果可以进行优化的时候，也可以人工干预结果集，调整对应词权重；

步骤五：分类流程步骤

Step51取各类别特征向量，作为各类别的中心，各分量的值为各特征词在类别中的权重；

Step52对需要分类的每一篇文章(分词后)，按照各类别特征向量的分量顺序进行词频统计，得到文档与特征向量对应的文档向量，分量的值为特征词的词频；

Step53计算所有文档与各中心的距离，并按距离大小将距离最小的向量分配到该类中，此处的距离以欧几里德距离计算，即两向量的夹角余弦；

Step54将分类后的文档存储到指定位置；

准确率、召回率的计算

查准率(精度)是衡量某一检索***从文献集合中检出相关文献成功度的一项指标，即检出的相关文献与全部相关文献的百分比，普遍表示为：查全率＝(检索出的相关信息量/***中的相关信息总量)x100％；

召回率(查全率)是检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索***的查全率。

进一步的，所述的自动分类与情感分析子单元进一步包括：情感分析，基于行业情感词库初步判断文章正负面；依据情感判定算法，抽取语料库进行信息对比测试，并逐渐磨合算法中参数的浮动范围以及找出其负面关键词，统计客户、行业关键词库；情感词库分通用、行业、个性化，首先按照通用、行业对文章属性进行判断，其次按照自身个性化情感词库判断其文章属性；其中，训练中的关键词分成通用关键词、行业关键词、客户特定关键词三类，属性分为正、负、中性；负面关键词由“关键词”和“权重”两部分组成；权重分1/2/3三个级别：1级：轻微负面倾向；

2级：一般负面；3级：绝对负面；

全局负面s11＝关键词1*权重1+关键词2*权重2

自定义负面s12＝关键词1出现次数*权重1+关键词2出现次数*权重2，同样，全局正面s21,自定义正面s22，全局系数：p1(常量，暂时为0.67)，自定义系数：p2(常量，暂时为1)，最后，负面指数为s＝s21*p1+s22*p2-(s11*p1+s12*p2)，如果s>＝5文章为正面；s<＝-5文章为负面。

进一步的，所述的自动分类与情感分析子单元进一步包括：相似文章算法：基于自然语言处理技术，***根据文章内容相似程度计算相似文章，方便获取同一内容文章的所有传播网站；

(1)判断相似度的业务流程

首先从新闻集合中，抽取文档特征，使用HAC聚类算法，计算得到候选话题集合，再从历史话题库中使用SinglePass聚类算法，计算其最大相似度阈值是否小于预定阈值，如果是的话生成新话题，再使用DCF-FPGGrowth标签生成算法，进行展示；如果最大相似度阈值大于KNN文本分类算法，则统计与候选话题相关文档并入历史话题所占有的比例，若比例大于预定阈值，则并入历史话题，否则生成新话题；

(2)相似度计算公式

首先，先把文章进行分词，把每个词转换成hash值(64位)，把所有词的hash值，按位相加，计算出整篇文章的simhash值：

接着，把每个词的hash值，按位相加；位值为1，则加1；位值为0，则减1，计算后，对应64位，每位都有个合计数值；合计数值大于0的位，设置为1；小于等于0的位，设置为0；这样文章的64位hash值，就计算出来了；

最后，用文章的simhash值，计算相似性：按位比较2篇文章的simhash值，计算不相同的位的数量，如果两篇文章的海明距离<＝3，则认为2篇文章相似。

进一步的，所述的自动分类与情感分析子单元进一步包括：传播分析处理：

(1)传播及溯源：对重复或者相似文章进行传播及溯源；对专题事件进行专项追踪导控；对重大突发事件快速识别定向追踪；

(a)文章相似性判定

***在抓取到互联网舆情信息以后通过文章分类体系，依据文字始发与转载、自然语文处理、分类聚类、相似度判断、自动机器学习等方式,根据文章内容相似程度计算相似文章，方便获取同一内容文章的所有传播网站***通过对文章相似性判断，判定相关文章的始发与转载情况，并标记呈现最终用户界面，方便用户识别信息来源进而追踪其传播情况；

(b)相似文章聚类

***根据文档内容间的相关程度进行分组归并，按照***中品牌、信息单元等划分的类别进行分类、聚类；

(2)趋势及敏感洞察：

趋势洞察分为热点事件发展趋势洞察与网络扩散洞察，它能够预测事件发展趋势与可能的网络扩散趋势，并且能够挖掘此热点事件的有影响力的博客，论坛ID,以及事件传播的规律，为舆情处置提供可复现的处置规律，为同类事件的处置提供标准化方法；

采用图挖掘算法与相似的生物统计模型SIS模型(flu)来估算事件的传播规模从而对一些可能成为重大，有影响力的事件在未形成的时间作出准确的预测，并在第一时间内作出预警；

(3)热点发现

热点趋势分析：***会根据新闻文章数及文章在各大网站和社区的传播链进行自动跟踪统计，提供不同时间段(1天、3天、7天、10天)的热点新闻，并且每条热点新闻还可以查看新闻相关传播链，了解在某一时间段该热点新闻在某些站点的传播数量，这些代表了网络媒体和网友对热点事件关注度。

进一步的，智能去重子单元根据不同的需要科分为：URL去重、标题去重、正文去重三个级别。

进一步的，实时搜索功能，用户可以自定义搜索条件查看***内抓取的最新监测信息；支持关键词组分类、媒体类型分类、信息属性分类查看。

本发明有益效果：

电力新闻数据采集***根据电力行业特点，在广域网内定向采集电力行业相关舆情信息，如图1所示，监测范围囊括：各类网页、BBS、RSS、BLOG以及微博，通过先进技术手段实现在电力行业内的语言概念空间过渡处理、海量信息获取、主题思想内容自动提取、重大新闻话题自动聚类、排序、跟踪、分析和检索结果自动聚类等功能。

附图说明

图1是***总体结构；

图2是电力新闻数据采集***功能介绍；

图3是文章权重维度图；

图4是导入训练文档流程图；

图5是统计词频流程图；

图6是计算词权重步骤；

图7是优化类别特征图；

图8是分类流程图；

图9是判断相似度的业务流程。

具体实施方式

下面将结合本发明实施例和附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围

如图2所示，电力新闻数据采集***共分四大功能。分别为：信息采集功能、信息处理功能、舆情分析功能、舆情展示功能。

一.信息采集

信息采集用户可自定义重点监测站点及监测关键词，核心社区、网媒、博客、微博，保障10分钟发现监测信息。另外，自有***爬虫、搜索引擎结果补充，信息抓取实时、准确。***包括定向抓取源：电力新闻数据采集***对于人工定义的15万重点站点中的新闻、论坛、博客等实现全面的抓取，同时支持对主流新闻网站分页、评论内容的采集以及对论坛点击数、回帖数的抓取。

搜索引擎结果：智能爬虫***还可以自动跟踪多个搜索引擎的搜索结果，对于***抓取进行补充，确保信息全面无遗漏。自定义URL。

来源及采集频率：除***常规监测范围外，还可以自定义需要重点监测的信息，用户可以设定采集的栏目、URL、更新时间、扫描间隔等，以便及时发现目标信息源的最新变化，并以最快的速度将个性化关注内容采集到本地。

二.信息处理

垃圾信息过滤：基于机器学习的垃圾过滤机制可以自动过滤广告、水贴等无效垃圾信息。

智能去重：采用“文章相似性技术”，根据文档内容的匹配程度确定是否重复、去重的级别；根据不同的需要特点分为：URL去重、标题去重、正文去重三个级别。

HTML内容提取：采用自主知识产权的HTML网页文本萃取技术自动提取任意复杂网页中的标题、内容、作者、发布时间等信息，自动跟踪文章分页；对于论坛信息自动分析主贴、回帖以及作者等信息。

快照保存：对于每个经过抓取和处理的网页，***都存有一个纯文本的备份，方便用户快速浏览，也方便用户查看被删除的文章或帖子。

三.舆情分析

1.文章权重计算及应用

综合网站重要程度、文章出现位置、主题相关度、危机程度、点击回复次数、传播数量以及用户自定义规则等复杂参数计算的文章权重，加上基于自然语言处理技术的训练***，能准确分析出重要舆情信息；

a、文章权重计算

文章的权重是描述每一篇文章对客户的重要程度，主要通过下面三方面来计算，得出文章的最终权重值：

(1)文章自身的权重规则

表1文章的权重规则

(2)与客户关系的权重规则

分类	最低	默认	最高	备注	算法
						标题出现	0		1.5	主关键词标题出现	主关键词在标题出现则加1.5(如果主关键词有用空格分开的词，则出现一个词就表示在标题出现)
词频	O		2		主关键词次数+(根号(辅助关键词)-1)，如果次数次数为1，＝0(如果主关键词有用空格分开的词，则出现一个词就表示在标题出现)
						转载	0	1	2		0：无转载0.2：＜5 0.5：＜10 1：＜20 1.5：＜50 2：＜100 2.5：＞100
自定义权重词	0.5	1	1.5		(所有加权重词的权重之和+减权重词的之和)/权重词的个数
						负面	0		+1		如果属性为负面，就增加1
行业	0		+1		文章行业和客户行业一样则加1，否则不加

表2与客户关系的权重规则

(3)其他权重影响因子

如图3所示，其他权重影响因子，如文章出现位置、主题相关度、危机程度、点击回复次数、传播数量等，将各类权重影响因子进行归类和赋值，使之程度量化，并进行统一的数学归一化处理。

最终生成权重值，最终的权重值＝a*文章自身的权重+b*与客户关系的权重+c*其他权重因子

其中，a、b、c分别为影响因子各自的权重系数

b.文章权重级别及应用

通过以上方式计算出文章权重级别后，再进行权重级别的定义。

首先将信息文章分为5个级别选项，从级别1到级别5，其中级别5的文章信息权重为最高。默认为级别1.(具体说明如下详释)：级别1：文章权重小于1的；级别2：文章权重在1-2.8之间的(包含1)；级别3：文章权重在2.8-4.8之间的(包含2.8)；级别4：文章权重在4.8-6之间的(包含4.8)；级别5：重点关注的和文章权重在6以上的(含6)。

文章权重的判断，是***进行下一步工作的的重要前提，是***自动完成多项功能的重要参数。文章权重体系主要应用于自动生成报告、自动甄别敏感、负面信息从而实现预警、专题功能、自动生成热点等.

(二)自动分类与情感分析

1、自动分类

***分析新发表文章、贴子的话题是否与已有主题相同。是根据文档内容间的相关程度进行分组归并。按照***中品牌、信息单元等划分的类别进行分类、聚类，或者相关文档的查找。通过对同一个阶段搜索到的大量信息进行聚类，***可以很方便地发现当前关于什么类别的文章数量更多，哪些信息之间的关系更紧密，这样***可以很直观地了解到当前重要文章的焦点，以及各个舆论点之间的联系紧密程度，此功能具体应用于文章的分类与信息的筛选与信息分类上。

具体来说，使用分类算法进行文本分类训练：

■先使用已分类文档，采用分类算法来训练，得到分类器模型

■使用模型，对未分类文档进行分类

■对分类结果进行校正，并将校正结果反馈给模型，进一步训练和优化模型

■反复校正和训练，使得分类效果逐步优化

●分类算法关键技术

将模型体系和语料建立完毕后，就可以使用***的语料训练功能。本***使用改进型的语料训练统计量与代码词表模型混合算法来提取分类模糊集。

传统中TD-IDF的判定思路为：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF*IDF，TF词频(Term Frequency)，IDF反文档频率(Inverse DocumentFrequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。

但是，单纯使用TF-IDF训练的话，TFIDF算法是建立在这样一个假设之上的：对区别文档最有意义的词语应该是那些在文档中出现频率高，而在整个文档集合的其他文档中出现频率少的词语，所以如果特征空间坐标系取TF词频作为测度，就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力，TFIDF法认为一个单词出现的文本频数越小，它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念，以TF和IDF的乘积作为特征空间坐标系的取值测度，并用它完成对权值TF的调整，调整权值的目的在于突出重要单词，抑制次要单词。但是在本质上IDF是一种试图抑制噪音的加权，并且单纯地认为文本频数小的单词就越重要，文本频数大的单词就越无用，显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能，所以TFIDF法的精度并不是很高。

语料训练统计量与代码词表模型混合算法

我们使用的语料训练统计量与代码词表模型混合算法就是弥补这一问题，计算过TF-IDF后，再对指定类别Class中出现的所有单词W计算其权重Weight。如图4所示，具体分为以下步骤：

步骤一：导入训练文档步骤：

Step11，从训练集中读取文档；

Step12，提取已读取文档的内容及其类别；

步骤二：统计词频步骤，如图5所示：

Step22，类别特征抽取

Step221，统计要处理的文件(指定训练目录下所有的.pos文件)

Step222，统计这些文件的词频(TF，词出现的总次数)、逆向文档频率(IDF，出现该词的文档数目)。

Step23，对指定类别Class中出现的所有单词W计算其权重Weight。

步骤三：计算词权重步骤，如图6所示：

Step31，计算训练文档总数N；

Step32，计算指定类别Class中出现单词W的文档数目A；

Step34，计算指定类别Class中没有出现单词W的文档数目C；

采用如下公式计算单词W在类别Class中的权重

Wweight＝N×(A×D-B×C)²/((A+B)×(C+D)×(A+C)×(B+D))；

Step36对每类别的词按权重从大到小排序；

Step37提取权重最大的前M个词(一般为500或2000)为类别的特征词。

步骤四：优化类别特征步骤，如图7所示：

Step41设定特征数目num，类别名称name，任意选择一词；

Step42，人工介入训练结果集，机器生成的训练结果集与语料确定类的强度有关，当语料不能非常好的确定分类或者认为机器训练结果可以进行优化的时候，也可以人工干预结果集，调整对应词权重。例如：如果“地对空导弹”对“导弹武器类”确定更有裨益，就可以调整其权重为更高的数值。

步骤五：分类流程步骤，如图8所示：

Step51，取各类别特征向量，作为各类别的中心，各分量的值为各特征词在类别中的权重；

Step52，对需要分类的每一篇文章(分词后)，按照各类别特征向量的分量顺序进行词频统计，得到文档与特征向量对应的文档向量，分量的值为特征词的词频；

Step53，计算所有文档与各中心的距离，并按距离大小将距离最小的向量分配到该类中。此处的距离以欧几里德距离计算，即两向量的夹角余弦；

Step54，将分类后的文档存储到指定位置。

准确率、召回率的计算

查准率(精度)是衡量某一检索***从文献集合中检出相关文献成功度的一项指标，即检出的相关文献与全部相关文献的百分比。普遍表示为：查全率＝(检索出的相关信息量/***中的相关信息总量)x100％。

召回率(查全率)是检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索***的查全率；

本***使用1100语料，其中900语料进行训练，200语料进行测试。

所有语料都经过人工重新审核分类，确保正确的基础上进行自动分类测试。

因为以宽松结果集测试，并且全部是相关语料，所以召回率为100％。

准确率与人工分类比对：测试数200，准确数163，故准确率为87.5％，因为目前训练语料较少，所以后续还有很大改进空间。

2、情感分析

基于行业情感词库初步判断文章正负面；

信息的情感训练分析***原理为依据情感判定算法，抽取语料库进行信息对比测试，并逐渐磨合算法中参数的浮动范围以及找出其负面关键词，统计客户、行业关键词库。从而达到情感训练的目的，完成信息正负面的判定。情感词库分通用、行业、个性化，首先按照通用、行业对文章属性进行判断，其次按照自身个性化情感词库判断其文章属性。

其中，训练中的关键词分成通用关键词、行业关键词、客户特定关键词三类，属性分为正、负、中性。

负面关键词由“关键词”和“权重”两部分组成。

权重分1/2/3三个级别：

1级：轻微负面倾向。

2级：一般负面。

3级：绝对负面。

全局负面s11＝关键词1*权重1+关键词2*权重2

自定义负面s12＝关键词1出现次数*权重1+关键词2出现次数*权重2

同样，全局正面s21,自定义正面s22

全局系数：p1(常量，暂时为0.67)

自定义系数：p2(常量，暂时为1)

最后，负面指数为s＝s21*p1+s22*p2-(s11*p1+s12*p2)

如果s>＝5文章为正面；s<＝-5文章为负面。

利用自然语义分析算法(NLP)，结合基于业务需求的知识图谱(如维度+情感)分析体系，实现精准的各维度正负面分析；

基于行业知识图谱，设计与行业紧密相关的分析维度体系；通过建立各维度的描述语库及对应的情感词库(包括通用情感和维度情感词库两种)；开发针对性的基于规则匹配的自然语义分析算法，对需要更精细分析的数据进行分析，实现对传统舆情分析方式的创新性突破，达到更精确发现舆情信息各维度的分析结果及对应正负面情感。

基于可视化的数据管理后台***，对分析体系规则库和分析结果的人工标注及优化，加大情感分析精准度；

建立可人工标注的可视化数据管理后台***，通过对原始数据的人工标注、对算法分析结果的人工判断优化等多种方式，实现不断优化、补充规则库，并能对各行业的舆情信息进行针对性的算法和规则库维护，达到进一步加大情感分析精准度和行业针对性的目的。

利用神经网络算法，结合前3者给出的分析数据不断训练机器学习模型，在大量精准数据训练下，确保数据分析越来越智能。

3.相似文章

(1)判断相似度的业务流程

首先从新闻集合中，抽取文档特征，使用HAC聚类算法，计算得到候选话题集合，再从历史话题库中使用SinglePass聚类算法，计算其最大相似度阈值是否小于预定阈值，如果是的话生成新话题，再使用DCF-FPGGrowth标签生成算法，进行展示；如果最大相似度阈值大于KNN文本分类算法，则统计与候选话题相关文档并入历史话题所占有的比例，若比例大于预定阈值，则并入历史话题，否则生成新话题。

(2)相似度计算公式

接着，把每个词的hash值，按位相加。位值为1，则加1；位值为0，则减1，计算后，对应64位，每位都有个合计数值；合计数值大于0的位，设置为1；小于等于0的位，设置为0；这样文章的64位hash值，就计算出来了；

最后，用文章的simhash值，计算相似性：按位比较2篇文章的simhash值，计算不相同的位的数量，如果<＝3，则认为2篇文章相似；(说明：simhash是一种能计算文档相似度的hash算法。通过simhash能将一篇文章映射成64bit，再比较两篇文章的64bit的海明距离，就能知道文章的相似程序。若两篇文章的海明距离<＝3，可认为这两篇文章很相近，可认为它们是重复的文章。)

4.传播分析

(1)传播及溯源：对重复或者相似文章进行传播及溯源,图形化方式展现，分析维度可以具体到天；对专题事件进行专项追踪导控；对重大突发事件快速识别定向追踪及时掌握网络舆论其核心算法为对文章相似度分析算法及聚类分析算法；

●文章相似性判定

***在抓取到互联网舆情信息以后通过文章分类体系，依据文字始发与转载、自然语文处理、分类聚类、相似度判断、自动机器学习等方式,根据文章内容相似程度计算相似文章，方便获取同一内容文章的所有传播网站***通过对文章相似性判断，判定相关文章的始发与转载情况，并标记呈现最终用户界面，方便用户识别信息来源进而追踪其传播情况。

●相似文章聚类

(2)趋势及敏感洞察

趋势洞察分为热点事件发展趋势洞察与网络扩散洞察，它能够预测事件发展趋势与可能的网络扩散趋势。并且能够挖掘此热点事件的有影响力的博客，论坛ID,以及事件传播的规律，为舆情处置提供可复现的处置规律，为同类事件的处置提供标准化方法。

其核心算法为图挖掘算法与相似的生物统计模型SIS模型(flu)来估算事件的传播规模从而对一些可能成为重大，有影响力的事件在未形成的时间作出准确的预测，并在第一时间内作出预警。

对于特别敏感的词汇与方向，我们可以通过***进行定制敏感词与事件，然后进行实时的敏感监控。例如：针对敏感词“XXX”我们将在整个互联网上进行该词的敏感洞察，将每天发生的关于XXX的事件进行独立采集分析与预警，做到立即洞察非法或者不利于稳定的信息。

(3)热点发现

利用采集工具可以获取到来自论坛、博客、新闻最原始的信息，红麦舆情***可以在这浩瀚无边的信息海洋中自动发现热点问题，特别是在热点刚刚形成时能及时捕捉。

热点趋势分析：***会根据新闻文章数及文章在各大网站和社区的传播链进行自动跟踪统计，提供不同时间段(1天、3天、7天、10天)的热点新闻，并且每条热点新闻还可以查看新闻相关传播链，了解在某一时间段该热点新闻在某些站点的传播数量，这些代表了网络媒体和网友对热点事件关注度。以最近网络倍受关注的“XXXX”为例，红麦舆情***把此条信息设置成个性化追踪后，在7月5日—8月15日时间段内，***挖掘出1000多条同类新闻，以标题、刊登时间、摘要、来源(地址和网站名)的形式展现出来，并按时间顺序进行排列。同时，***还提供7月5日—8月17日的新闻媒体、博客论坛的关注趋势图，以图表的形式表现大众关注度。同时图表下方也会有相关新闻显示描述。

5.媒体覆盖分析

***可以对于监测信息的媒体类型情况进行展示，同时对于信息的主要传播媒体自动识别，进行整合分析，以图表呈现。

(四)舆情展示

WEB客户界面：基于云计算模式，用户可以使用WEB浏览器随时登陆***，在客户界面对舆情状况进行全面的了解。客户界面包含了如舆情走势、舆情详细信息、最新微博信息、载体覆盖情况等主要内容，并以列表以及图表展示等可视化方式呈现，方便客户查看。导航栏清晰明了，方便用户查看各种分类；栏目定制功能，用户可以在首页自行删、减、增添所需要的功能模块。实时搜索功能，用户可以自定义搜索条件查看***内抓取的最新监测信息；支持关键词组分类、媒体类型分类、信息属性分类查看。

舆情预警：预警级别显示，显示当日舆情级别，方便用户整体把握，同时呈现预警信息走势和预警信息列表。建立多个舆情指标，对于突发舆情自动发出预警信号，在最短时间内通过短信或邮件方式通知用户，辅助进行舆情干预和引导。

舆情分析报告：根据舆情分析引擎处理后的结果库生成报告，客户可通过浏览器浏览，并且可以导出生成为Word、PDF等格式的本地文档。方便客户对不同时段的重点和热点以及对事件舆情数据的把握。

六、优点和积极效果

信息抓取全面及时

以布局于全国多个IDC机房的分布式爬虫服务器集群，实现对人工定义的15万重点站点中的新闻、论坛、博客、问答等信息快速全面的抓取，另外能够抓取400余种主流平面媒体的电子版。***能够自动识别支持多编码(如GBK、UTF-8、BIG等)和多语言，并能抓取境外网站信息、封闭***等信息。信息抓取准确

信息抽取技术自动从杂乱无章的HTML网页中提取文章标题、内容、作者、来源等信息，准确率98％以上。过滤技术自动过滤90％以上的垃圾贴、广告等无效信息。

提供预警支持

对于突发事件，***可以实现快速报警功能，自动发出预警信号，在最短时间内通过短信或邮件方式通知用户。

提供专业的分析报告

根据客户需要，***可以生成各种格式的报告，方便用户查看。同时由专业的舆情分析师提供包括日报、周报、月报等各种报告格式，并可以针对重点突发事件做专题报告，帮助客户对于舆情状况深度掌控。

最后说明的是，以上优选实施例仅用于说明本实用新型的技术方案，而非限制尽管通过上述优选实施例已经对本实用新型进行了详细的描述，但本领域技术人员应当理解可以在形式上和细节上对其做出各种改变，而不偏离本实用新型的保护范围。

Claims

1.一种电力新闻数据采集***，其特征在于：所述的电力新闻数据采集***包括信息采集单元、信息处理单元、舆情分析单元和舆情展示单元，其中：

信息采集单元：用于监测站点及关键词，进一步包括：

信息处理单元：用于对接收的信息进行处理，进一步包括：

垃圾信息过滤子单元：基于机器学习的垃圾过滤机制可以自动过滤广告、水帖无效垃圾信息；

HTML内容提取子单元：自动提取任意复杂网页中的标题、内容、作者、发布时间信息，自动跟踪文章分页；对于论坛信息自动分析主帖、回帖以及作者信息；

舆情分析单元：进一步包括：

文章权重计算子单元：综合网站重要程度、文章出现位置、主题相关度、危机程度、点击回复次数、传播数量以及用户自定义规则复杂参数计算的文章权重，加上基于自然语言处理技术的训练***，能准确分析出重要舆情信息；根据文章自身的权重，与客户关系，以及其他权重因子最终生成权重值，最终的权重值＝a*文章自身的权重+b*与客户关系的权重+c*其他权重因子，其中，a、b、c分别为影响因子各自的权重系数；通过以上方式计算出文章权重级别后，再进行权重级别的定义，首先将信息文章分为5个级别选项，从级别1到级别5，其中级别5的文章信息权重为最高，级别1：文章权重小于1的；级别2：文章权重在1-2.8之间的，包含1；级别3：文章权重在2.8-4.8之间的，包含2.8；级别4：文章权重在4.8-6之间的，包含4.8；级别5：重点关注的和文章权重在6以上的，包含6；

传播轨迹分析子单元：***可以对于一段时间内的舆情信息走势进行分析展示，同时可以以不同的载体论坛、新闻分类呈现；

自动分类与情感分析子单元：将自然语言处理技术NLP应用于舆情监测领域，对信息精准分类并自动做情感分析；包括：自动分类，使用语料训练统计量与代码词表模型混合算法，计算过TF-IDF后，再对指定类别Class中出现的所有单词W计算其权重Weight，具体分为以下步骤：

步骤一：导入训练文档步骤：

Step11，从训练集中读取文档；

Step12，提取已读取文档的内容及其类别；

Step13，对所有需要分类的文章进行分词,不要进行词性标注，分词后的文件名以.seg为扩展名，保存到指定的文件夹中；

步骤二：统计词频步骤：

Step22，类别特征抽取;

Step221统计要处理的文件,指定训练目录下所有的.pos文件;

Step222统计这些文件的词频TF，具体为词出现的总次数、逆向文档频率IDF，具体未出现该词的文档数目；

Step23对指定类别Class中出现的所有单词W计算其权重Weight；

步骤三：计算词权重步骤：

Step31，计算训练文档总数N；

Step32，计算指定类别Class中出现单词W的文档数目A；

Step34，计算指定类别Class中没有出现单词W的文档数目C；

采用如下公式计算单词W在类别Class中的权重

Wweight＝N×(A×D-B×C)²/((A+B)×(C+D)×(A+C)×(B+D))；

Step36对每类别的词按权重从大到小排序；

Step37提取权重最大的前M个词为类别的特征词,为500或2000；

步骤四：优化类别特征步骤：

Step41设定特征数目num，类别名称name，任意选择一词；

步骤五：分类流程步骤

Step52对需要分类的每一篇文章，按照各类别特征向量的分量顺序进行词频统计，得到文档与特征向量对应的文档向量，分量的值为特征词的词频；

Step54将分类后的文档存储到指定位置；

准确率、召回率的计算:

查准率是衡量某一检索***从文献集合中检出相关文献成功度的一项指标，即检出的相关文献与全部相关文献的百分比，普遍表示为：查全率＝(检索出的相关信息量/***中的相关信息总量)x100％；

召回率是检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索***的查全率;

相似文章算法子单元：基于自然语言处理技术，***根据文章内容相似程度计算相似文章，方便获取同一内容文章的所有传播网站:

(1)判断相似度的业务流程

首先从新闻集合中，抽取文档特征，使用HAC聚类算法，计算得到候选话题集合，再从历史话题库中使用SinglePass聚类算法，计算其最大相似度阈值是否小于预定阈值，如果是的话生成新话题，再使用DCF-FPGrowth标签生成算法，进行展示；如果最大相似度阈值大于KNN文本分类算法，则统计与候选话题相关文档并入历史话题所占有的比例，若比例大于预定阈值，则并入历史话题，否则生成新话题；

(2)相似度计算公式

首先，先把文章进行分词，把每个词转换成hash值,具体为64位，把所有词的hash值，按位相加，计算出整篇文章的simhash值：

最后，用文章的simhash值，计算相似性：按位比较2篇文章的simhash值，计算不相同的位的数量，如果两篇文章的海明距离<＝3，则认为2篇文章相似;

舆情展示单元，进一步包括：

WEB客户界面子单元：基于云计算模式，用户可以使用WEB浏览器随时登陆***，在客户界面对舆情状况进行全面的了解；客户界面包含了舆情走势、舆情详细信息、最新微博信息、载体覆盖情况主要内容，并以列表以及图表展示可视化方式呈现，导航栏方便用户查看各种分类；栏目定制功能，用户可以在首页自行删、减、增添所需要的功能模块；

舆情分析报告子单元：根据舆情分析引擎处理后的结果库生成报告，客户可通过浏览器浏览，并且可以导出生成为Word、PDF格式的本地文档，方便客户对不同时段的重点和热点以及对事件舆情数据的把握。

2.如权利要求1所述的电力新闻数据采集***，其特征在于：所述的自动分类与情感分析子单元进一步包括：情感分析，基于行业情感词库初步判断文章正负面；依据情感判定算法，抽取语料库进行信息对比测试，并逐渐磨合算法中参数的浮动范围以及找出其负面关键词，统计客户、行业关键词库；情感词库分通用、行业、个性化，首先按照通用、行业对文章属性进行判断，其次按照自身个性化情感词库判断其文章属性；其中，训练中的关键词分成通用关键词、行业关键词、客户特定关键词三类，属性分为正、负、中性；负面关键词由“关键词”和“权重”两部分组成；权重分1/2/3三个级别：1级：轻微负面倾向； 2级：一般负面；3级：绝对负面；

全局负面s11＝关键词1*权重1+关键词2*权重2

自定义负面s12＝关键词1出现次数*权重1+关键词2出现次数*权重2，同样，全局正面s21,自定义正面s22，全局系数：p1是常量，暂时为0.67，自定义系数：p2是常量，暂时为1，最后，负面指数为s＝s21*p1+s22*p2-(s11*p1+s12*p2)，如果s>＝5文章为正面；s<＝-5文章为负面。

3.如权利要求1所述的电力新闻数据采集***，其特征在于：所述的自动分类与情感分析子单元进一步包括：传播分析处理：

(a)文章相似性判定：

***在抓取到互联网舆情信息以后通过文章分类体系，依据文字始发与转载、自然语言处理、分类聚类、相似度判断、自动机器学习方式,根据文章内容相似程度计算相似文章，方便获取同一内容文章的所有传播网站***通过对文章相似性判断，判定相关文章的始发与转载情况，并标记呈现最终用户界面，方便用户识别信息来源进而追踪其传播情况；

(b)相似文章聚类：

***根据文档内容间的相关程度进行分组归并，按照***中品牌、信息单元划分的类别进行分类、聚类；

(2)趋势及敏感洞察：

采用图挖掘算法与相似的生物统计模型SIS模型来估算事件的传播规模从而对一些可能成为重大，有影响力的事件在未形成的时间作出准确的预测，并在第一时间内作出预警；

(3)热点发现：

热点趋势分析：***会根据新闻文章数及文章在各大网站和社区的传播链进行自动跟踪统计，提供不同时间段,分别为1天、3天、7天、10天的热点新闻，并且每条热点新闻还可以查看新闻相关传播链，了解在某一时间段该热点新闻在某些站点的传播数量，这些代表了网络媒体和网友对热点事件关注度。

4.如权利要求1所述的一种电力新闻数据采集***，其特征在于：智能去重子单元根据不同的需要可分为：URL去重、标题去重、正文去重三个级别。

5.如权利要求1所述的一种电力新闻数据采集***，其特征在于：web客户界面子单元进一步包括：实时搜索功能，用户可以自定义搜索条件查看***内抓取的最新监测信息；支持关键词组分类、媒体类型分类、信息属性分类查看。