CN107329970A

CN107329970A - 一种针对手机管控***舆情大数据进行分析处理的方法

Info

Publication number: CN107329970A
Application number: CN201710368687.8A
Authority: CN
Inventors: 甘刚
Original assignee: Chengdu Union Cloud Security Technology Co Ltd
Current assignee: Chengdu Union Cloud Security Technology Co Ltd
Priority date: 2017-05-23
Filing date: 2017-05-23
Publication date: 2017-11-07

Abstract

本发明公开了一种针对手机管控***舆情大数据进行分析处理的方法，包括以下步骤：步骤一、数据采集：使用虚拟网络连接技术，获取手机管控端的网络数据；步骤二、去噪、消重：使用大数据挖掘算法对提取得到的网络数据进行去燥、消重，挖掘不同信息模型下的数据；步骤三、网页数据提取：使用爬虫技术抓取HTML的网页数据；步骤四、数据统计分析：对统计分析模块的各个功能进行格式化界面的展示。本发明主要是通过对手机管控端的信息自动获取、提取、分类、聚类、分析，建立网络舆情监控分析***，及时应对网络舆情，由被动防堵化为主动梳理、引导，且提供了一种图形可视化界面的大数据分析展示，解决了目前不能针对某个事件进行识别和情感倾向性预测的技术问题。

Description

一种针对手机管控***舆情大数据进行分析处理的方法

技术领域

本发明属于大数据技术领域，尤其涉及一种舆情大数据的分析处理方法。

背景技术

随着互联网的蓬勃发展与手机通讯方式的大量普及。网络媒体具有巨大的引导舆论力，随着上网时间的增长，人们对网络的及时性产生了很大的影响。在不断发生的上网数据面前。如果不能及掌握一些信息的流向，肯能会造成一些重大的后果。如果在这些信息发生的同时，可以管理这方面信息的流向并对信息进行分型处理。

发展至今，舆情研究不仅形成了完善的理论体系，而且国内外对于舆情的定义和重要性的认可程度也趋于一致，国内外研究舆情方面的技术也趋于成熟，但是缺乏一定的针对性，相对整体的舆情分析比较宽泛。因此在针对手机端的信息上，分析人们平时产生的数据上网流量，大部分来自于网页的浏览以及上网购物等这些涉及完全的访问，如果能够掌握这些信息的流向，可以挖掘出用户的一些行为习惯进而并发出更深层次的信息。

早在国外的研究中，主要是基于文本挖掘的技术。其中有Allan等人提出了基于web数据挖掘的算法，但是随着技术的不断更新现在采用的更多的是基于机器学习的web数据挖掘模式。

在当前的数据挖掘技术中，采用的大多数是基于词典或者是简单的文本分类技术。试图通过选择一个词典来对比文档内容的相关性。根据文本分类过程，此方法主要是通过对文本进行分类来完成将后续产生的文档分配到已存的若干分类中。在具体实施工程中分为两步进行：首先是通过机器学习建立一个话题模型，然后对网络舆情的后续报道文档进行跟踪，将读取的新文档按照相似度计算算法计算，计算后的结果与之前设定的用于判断两者是否属于同一类的阈值进行比较，如果超过这一值，则将其归于相关类别，从而从分散的舆情报道文档中找出目标话题相关的文档。

在现有技术的基础上存在以下几个问题：首先是在对舆情信息的采集上，不能够对信息进行广范围地采取，收集URL列表后不能自动生成一个列表集合，对这些URL的收集遍历上存在不足之处，不能较为全面的分析这些URL。

在针对舆情信息的处理技术上，会收集到很多不同结构的原始网页技术，通常包含一些被重复采集和提取目标无关的网页和内容，舆情信息预处理的主要任务就是对采集到的web页面进行去噪等重复操作，形成格式化数据存储到数据库中。在现在技术上很难对这部分结构进行很好的分类。

发明内容

本发明的目的在于：提供一种针对手机管控***舆情大数据进行分析处理的方法，主要是通过对手机管控端的信息自动获取、提取、分类、聚类、分析，建立网络舆情监控分析***可以归纳为以下几个模块，即数据提取模块、数据整理模块、数据分析模块等，及时应对网络舆情，由被动防堵化为主动梳理、引导，解决了目前不能针对某个事件(如热门话题)进行识别和情感倾向性预测的技术问题，且还提供了一种图形可视化界面供展示分析结果。

本发明采用的技术方案如下：

一种针对手机管控***舆情大数据进行分析处理的方法，包括以下步骤：

步骤一、通过使用虚拟网络连接技术，得到手机管控端用户访问网络的URL链接；

步骤二、对URL链接进行去噪、消重，得到无重复的URL链接；

步骤三、对手机管控端无重复的URL链接使用爬虫技术，得到HTML的网页文本数据；

步骤四：对HTML的网页文本数据采用网络意见领袖识别方法，来计算出意见领袖的综合指数参数SNA，得到网络中最热门的话题，并预测该类话题；

步骤五：创建语言模型，通过该语言模型来判断HTML的网页文本数据中语句、字词与文章之间的关系，并对该类话题的文章进行分类处理；

步骤六：采用大数据挖掘技术来分析网络舆情的态势走向，并采用图形可视化界面进行结果分析。

进一步的，步骤二中，去噪、消重的关键在于：利用Google搜索引擎提供的限定时间搜索功能进行基于时间格式的URL链接去噪、消重，以及将预采集的URL链接与已采集的URL链接进行比较，去除重复的URL链接。

进一步的，步骤三中，爬虫从若干(至少一个)初始网页的URL链接开始，获得初始网页上的URL链接，在抓取网页的过程中，不断从当前页面上抽取新的URL链接放入队列，直到满足***的停止条件。工作流程：根据一定的网页分析算法过滤与主题无关的URL链接，保留有用的URL链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL链接，并重复上述过程，直到达到***的某一条件时停止。

进一步的，步骤四中，网络意见领袖识别方法着重对网民即自我网、传播局部网的各个参数不同的加权值SNA参数，综合计算得出意见领袖的综合指标参数SNA，各个综合指标参数SNA包括点度、密度、传播局域网级数和传播局部中心势，传播局部中心势又分别以网民数量、密度、点中心势、直径作为网络舆情态势分析的描述指标。

进一步的，计算综合指标参数SNA包括计算整个网络话题的参与人数、按时间段统计回帖数、点击数，对帖子数、点击数进行多角度统计，并基于SNA参数进行状态分布的描述。

进一步的，网络舆情态势分布分别以网民数量、密度、点中心势、直径等作为态势分析的描述指标；设第i个传播局域网的第j个特征为aij，则用x个向量的集合{(a11,a21,a31,...),(a12,a22,a32,...),....,(a1x,a2x,a3x,...)}来表示态势分布。

进一步的，语言模型为潜在语义模型LSA。

进一步的，步骤六，还包括反映网络舆情总体态势的舆情指数Ipo，初步设定为m个传播局域网的平均密度ρ，节点总数与整个网络的节点总数之比n以及m的函数，即：Ipo＝f(ρ,n,m)。

进一步的，将Ipo＝f(ρ,n,m)的函数值分为3-5个登记，以表示舆情态势与管理预期的符合程度。

进一步的，大数据挖掘技术是采用机器学习算法从大量HTML的网页文本数据中搜索隐藏信息的过程。

进一步的，采用机器学习算法挖掘潜在网页文本中隐藏信息的步骤包括：

6.1：使用K-means聚类算法把网页文本内容进行事件的初步分类；

6.2：根据每一类事件中挖掘近期热点话题，并通过挖掘出的某个热点话题来分析其形成过程；

6.3：通过热点话题的形成过程来用可视化界面进行最后展示。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明主要是通过对手机管控端的信息自动获取、提取、分类、聚类、分析，建立网络舆情监控分析***，及时应对网络舆情，由被动防堵化为主动梳理、引导，且提供了一种图形可视化界面的大数据分析展示，解决了目前不能针对某个事件(如热门话题)进行识别和情感倾向性预测的技术问题。针对某个事件进行识别并进行分类，采用对HTML网页的文本进行大数据挖掘分析处理，得到网络舆情态势分布分析。采用采用舆情大数据挖掘分析处理是通过数据库知识发现中的一个步骤。数据挖掘过程主要是指从大量的数据中通过算法搜索隐藏于其中信息的过程。在此过程中的算法主要是包括遗传算法、关联分析法、决策树、人工神经网络，由于数据是半结构化或非结构化的网页，且网页信息不断的持续动态更新增长，从网页上获取的信息十分复杂，因此文本中的信息收集过程中需要这些方法才能够得到有效的舆情信息，达到舆情效果。对于网络舆情态势分布，一方面是根据HTML中的文本数据进行各类统计(如，整个网络话题的参与人数，如按时间段统计回帖数、点击数等，以反映网民群体对话题的关注度，包括话题的热度)；按网站、地域、网民职业、网民年龄等对帖子数、点击数等进行多角度统计，以反映个地域、社会各层面人群对网络话题的关注度等，通过采用上述方案，也解决了现有技术不能够对信息进行广范围地采取，不能较为全面的分析这些URL的技术问题。

附图说明

图1.为一种针对手机***大数据分析处理的方法流程图；

图2.网络意见领袖形成方式；

图3.网络意见领袖的***识别方法；

图4.硬件***拓扑结构。

具体实施方式

本说明书中公开的所有特征，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1～图4对本发明作详细说明。

步骤一、通过使用虚拟网络连接技术，得到手机管控端的网络数据即用户访问网络的URL链接。

虚拟网络连接技术是使用OpenVPN来建立一个虚拟专用通道，是提供给企业之间或者个人与公司之间安全数据传输的隧道，OpenVPN是Linux下开源VPN的先锋，提供了良好的性能和友好的GUI。OpenVPN是一个基于OpenSSL库的应用层VPN实现。和传统VPN相比，它的优点是简单易用。通过上述虚拟网络技术获取到的网络信息包括用户的访问网络的URL链接，即访问网站的网址，用户手机端使用OpenVPN后变可以连接到一个虚拟专用网络，服务端就能手机到手机端所有的访问网络数据(即用户手机访问网络URL网站地址)。

步骤二、对手机管控端的网络数据即用户访问网络的URL链接进行去噪消重，得到无重复的URL链接。

对重复的网页内容进行舍弃处理，不但可以提高网络爬虫的工作效率，满足用户的实际性需求，还可以节省存储空间，大大简化后续的数据分析处理工作。因此去噪、消重问题是必须解决的技术难题。目前的解决方案有以下几种：a.基于时间格式的网页链接消重技术，根据Google搜索引擎的特点，其采用的索引多为“年-月-日”这种时间格式。b.由于谷歌提供限定时间搜索功能因此可以将搜索周期设定于第一次爬虫程序采集后至当前日期，可消去第一次爬虫程序采集的重复内容。c.基于比对URL的网络连接消重技术，由于每个帖子都是采用相同的URL，因此可以将预采集的网页URL与数据库中已采集的URL进行比较，如果URL相同则不予采集。

步骤三、对手机管控端无重复的URL链接使用爬虫技术，得到HTML的网页文本数据。

针对舆情信息的采集，采用爬虫技术，一是将需要抓取的URL链接或者起始URL链接从数据库取出，放到待抓取队列里。第二部分是不停从抓取URL队列中取出需要抓取的URL链接，进行数据抓取，接着进行URL链接解析，还需要解析下载来的网页文件，并且把其中所包含的连接再次放到待抓取URL队列中。爬虫从若干(至少一个)初始网页的URL链接开始，获得初始网页上的URL链接，在抓取网页的过程中，不断从当前页面上抽取新的URL链接放入队列，直到满足***的停止条件。工作流程：根据一定的网页分析算法过滤与主题无关的URL链接，保留有用的URL链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL链接，并重复上述过程，直到达到***的某一条件时停止。

网络爬虫(也被称为网页蜘蛛)是收集HTML网页数据的关键步骤，就是指从HTML网页抓取数据，然后从里面取出对自己有用的信息，有用的信息在这里主要指网络上网页的文本内容。爬虫程序一般使用正则表达式来体现。网络爬虫可持续不断地爬取网页。但是由于网络的动态性，以及越来越多的信息往往分散在许多web服务器和主机，并且使用很多不同格式。如果我们要解决这一问题，在此处我们可以采用聚焦网络爬虫来解决，即为当我们在特定网页中输入特定关键字时，它会达到设定的限制。即使用爬虫来进行地毯式搜索。在实现方面，采用Python语言并结合Query Table抓取。HTML网页文本数据包括整个网页中所有的文字信息，包括网页的标题、正文。

网络中的数据层出不穷，如何挖掘我们想要的数据是相当重要的，而大数据挖掘算法是根据数据创建数据挖掘模型的一组试探和计算。为了创建模型，算法首先分析我们提供的数据，即第一步骤中获取到的手机管控端的网络数据，并查找特定类型的模式和趋势。

步骤四：通过采用网络意见领袖识别方法，来计算出意见领袖综合指数参数SNA(即计算SNA参数)，每个参数包括点度、密度、传播局域网级数和传播局部中心势。可以得到网络中最热门的话题，并预测该类话题；

步骤五：创建语言模型潜在语义模型LSA，通过该模型来判断语句、字词与文章之间的关系，从而对该类话题的文章进行分类处理。

步骤六：通过对所有文章进行分类处理后，进一步采用大数据挖掘技术来分析网络舆情的态势走向，如在事件发生的时间段中事件热度的走向，并采用图形可视化界面进行结果分析；-------即通过采用网络意见领袖识别方法、计算SNA参数、创建语言模型，并结合话题跟踪与检索技术发现热点话题，对HTML的网页文本数据进行舆情大数据挖掘分析处理，得到网络舆情态势分布的分析结果，并采用图形可视化界面进行分析结果的展示。

此处舆情大数据挖掘分析处理的方法中包含意见领袖识别方法、计算SNA参数、使用潜在语义模型创建语言模型，并结合话题跟踪与检索技术发现热点话题。

大数据挖掘技术是采用机器学习算法从大量HTML的网页文本数据中搜索隐藏信息的过程。

采用舆情大数据挖掘分析处理是通过数据库知识发现中的一个步骤。舆情大数据挖掘分析处理主要是指从大量的HTML的网页文本数据中通过算法搜索隐藏于其中信息的过程。在此过程中的算法主要是包括遗传算法、关联分析法、决策树算法、人工神经网络算法，下面有简单的对这些挖掘技术做个介绍。但是文本挖掘的主要是舆情方面的内容，主要采用关联分析法。由于数据是半结构化或非结构化的网页，且网页信息不断的持续动态更新增长，从网页上获取的信息十分复杂，因此文本中的信息收集过程中需要这些方法才能够得到有效的舆情信息，达到舆情效果。

使用潜在语义网络(LSA)方法，来完成建成语言模型，方便为下一步主题跟踪与检测做准备。网络意见领袖识别方法对***有着重要的意义，特别是对活跃于各种微博、微信、新闻客户端等新兴自媒体平台和门户网站、论坛贴吧等传统网络空间的网络意见领袖的识别有着此方法能更好体现网络中重大信息的产生过程，主要形成过程如下图2所示，简单来说即普通网民因外部事件产生心理同源，从而促进群体形成，进而产生意见领袖和群体分化。

通过各项调查分析、实际研究，初步确定了“两类网”的“五个参数”。即着重对网民即自我网、传播局部网的各个参数(点度、密度、传播局域网级数和传播局部中心势等)不同的加权值，综合计算得出意见领袖的综合指标参数，以该指数作为领袖的评估指标。如图3网络意见领袖的***识别方法。

每个网络中心点度排名靠前、传播级数大及点度中心势大的节点就是可能的意见领袖。点度中的点出度反映了意见领袖的活跃度，点入度反映了意见领袖的被认同度或影响的广度；传播级数反映了意见领袖影响的深度；点度中心势反映了群体之间的联系紧密程度。

计算综合指标参数SNA包括计算整个网络话题的参与人数、按时间段统计回帖数、点击数，对帖子数、点击数等进行多角度统计，并基于SNA参数进行状态分布的描述。

创建语义模型，此处是使用潜在语义模型(LSA)，LSA使用大量文本构成矩阵，每行表示一个词，一列表示一个文档，矩阵元素可以是词频或TF-IDF，然后使奇异值分解SVD进行矩阵降维，得到原矩阵的近似，此时两个词的相似性可通过其向量cos值。LSA使用词-文档矩阵来描述一个词语是否在一篇文档中。词-文档矩阵式一个稀疏矩阵，其行代表词语，其列代表文档。一般情况下，词-文档矩阵的元素是该词在文档中的出现次数。词-文档矩阵和传统的语义模型相比并没有实质上的区别，只是因为传统的语义模型并不是使用“矩阵”这种数学语言来进行描述。

对于网络舆情态势分布，一方面是根据HTML中的文本数据进行各类统计(如，整个网络话题的参与人数，如按时间段统计回帖数、点击数等，以反映网民群体对话题的关注度，包括话题的热度)；按网站、地域、网民职业、网民年龄等对帖子数、点击数等进行多角度统计，以反映个地域、社会各层面人群对网络话题的关注度等。另一方面，基于SNA参数进行状态分布的描述。

将舆情态势分布分别以传播局域网的规模(网民数量)、密度、点中心势、直径等作为态势分析的描述指标，设第i个传播局域网的第j个特征为aij，则可用x个向量的集合{(a11,a21,a31,...),(a12,a22,a32,...),....,(a1x,a2x,a3x,...)}来表示态势分布。这些指标中，网民数量是态势分布的首要指标；而密度越大、直径越小的网络是可能爆发群体性时间的发源地，是网络舆情监控的重要区域；点度中心势则反映了群体之间的联系紧密程度，说明该传播局部网可能是一个有实际关联的团体，应给予关注。

进一步设计出反映网络舆情总体态势的舆情指数(Index of Public Opinion,Ipo)；初步设想为m个传播局域网的平均密度ρ，节点总数与整个网络的节点总数之比n以及m的函数，即：Ipo＝f(ρ,n,m)。将这一函数值分为3-5个登记，以表示舆情态势与管理预期的符合程度。

在舆情信息的挖掘和分析中，要能够识别发现热点话题，并对评论较多的是主题进行跟踪，这就是话题的检测与跟踪(Topic Detection and Tracking,TDT)问题。tdt的研究能够帮助舆情分析***互联网海量信息中发现新话题并收集己有话题的后续报道。TDT需要对报道进行采集、检测与跟踪，这涉及到报道类别的判别，应用TDT技术对网络舆情信息中的话题进行检测与跟踪旨在针对舆情信息的文本结构特征来改进相关算法，主要涉及到在线话题检测、新事件检测、话题跟踪等研究子任务。

意见领袖与态势分布的展示可以在上述结果基础上进行图形化和数值化展示，比如在数字地图上的意见领袖关键图、舆情态势分布图、数据表格、各种特征参数分类的柱状图、饼图等。

(1)各类统计数据的网络舆情分布：通过各种数据表格、网站访问时间、地理位置分布图、以网民个属性区分的柱状图、饼图等表示出总的言论数据及层次分布；其中分布图可以表现在数字地图上或者表现在SNA网络图上，直观地显示网络舆论的总体态势分布情况。

(2)在数字地图上展示M个传播局域网在成体网络中的分布情况，同时附以数字表格说明每个传播局域网的基本特征参数(包括该网络的密度、直径、节点总数、中心势等)表示这m个传播局部网的特征，并用颜色标出舆情指数等级。

(3)在数字地图上展示所关注局部网的关系图，对该关系图中的网民总数、网民属性参数分类统计数据等予及数据表格说明。

(4)相关SNA参数的动态查分显示。将特定网民的SNA参数值得变化以数据和图标显示。这些参数包括点度中心度、密度、点度中心势、传播局部网级数、几部中心势、局部网密度，按周期提取网络舆情数据，并计算一个周期个参数值及上一周期的差值，该差值可能为正或负，在以时间横轴，各项参数为纵轴的坐标系中显示各项SNA参数的动态变化，从而描述出网络舆情的态势及其变化。

所述方法中，通过采集用户访问网络时的数据进行分析统计，可以得到用户一定的行为。可以通过提取用户在访问网络时发出的关键词，统计发出最多的关键词进而发现热点话题，进行有效的舆论控制。

通过完成以上步骤后，能够得到一个具体的可视化分析界面，主要是统计分析用户对某些网络的访问情况，如评论数、发言时间、密集程度等参数，识别出给定时间段内的热门话题。可以根据用户访问信息出处权威度、评论数、发言时间密集程度等参数，识别出给定时间段内的热门话题。

具体实现为：对于以上提出的对网页文本数据进行分析处理后得到一个可视化界面，主要实现过程是首先通过数据的提取，再进行统计分析。首先分析用户的需求，根据用户指定的一个范围(一定指定地域内的网站或指定的一些网站)的信息源进行有关数据的采集和筛选，并以人-机结合的方式对用户指定的关注信息进行观测和跟踪。这是最重要的，本发明主要考虑基本的统计分析。

利用关键字布控和语义分析，识别敏感话题。倾向性分析，对于每个话题，对每个发信人发表的文章的观点、倾向性进行分析与统计。有效地预测是否有发布不良信息的趋势。主题跟踪，分析新发表文章、贴子的话题是否与已有主题相同。

具体实现为：创建语义模型，此处是使用潜在语义模型(LSA)，LSA使用大量文本构成矩阵，每行表示一个词，一列表示一个文档，矩阵元素可以是词频或TF-IDF，然后使奇异值分解SVD进行矩阵降维，得到原矩阵的近似，此时两个词的相似性可通过其向量cos值。LSA使用词-文档矩阵来描述一个词语是否在一篇文档中。词-文档矩阵式一个稀疏矩阵，其行代表词语，其列代表文档。一般情况下，词-文档矩阵的元素是该词在文档中的出现次数。词-文档矩阵和传统的语义模型相比并没有实质上的区别，只是因为传统的语义模型并不是使用“矩阵”这种数学语言来进行描述。

在舆情信息的挖掘和分析中，要能够识别发现热点话题,并对评论较多的是主题进行跟踪，这就是话题的检测与跟踪(Topic Detection and Tracking,TDT)问题。tdt的研究能够帮助舆情分析***互联网海量信息中发现新话题并收集己有话题的后续报道。TDT需要对报道进行采集、检测与跟踪，这涉及到报道类别的判别，应用TDT技术对网络舆情信息中的话题进行检测与跟踪旨在针对舆情信息的文本结构特征来改进相关算法，主要涉及到在线话题检测、新事件检测、话题跟踪等研究子任务。

本发明采用大数据挖掘算法是通过数据库知识发现中的一个步骤。数据挖掘过程主要是指从大量的数据中通过算法搜索隐藏于其中信息的过程。在此过程中的算法主要是包括遗传算法、关联分析法、决策树、人工神经网络，由于数据是半结构化或非结构化的网页，且网页信息不断的持续动态更新增长，从网页上获取的信息十分复杂，因此文本中的信息收集过程中需要这些方法才能够得到有效的舆情信息，达到舆情效果。

网络舆情中SNA参数计算：

利用SNA的参数分析网络中的特征，并给这些特征赋予社会意义。

(1)节点的点入度的大小(领点的多寡)表现了该节点被“关注跟随”的狂热程度，反映了其直接影响力的大小。

(2)节点的点出度的大小反映了该节点的相邻节点互动的活跃成都。

(3)节点的点度大小反映了该节点与其邻居阶段互动关系的总和，计算公式为：nd(i)＝ind(i)+out(i)。

(4)线(Line)两个节点间有连线反映具有跟随、引用、转发关系。

(5)路线(walk)一条线路的存在反映了其上的节点间具有的跟随关系，它们是一个小的同类团里，可以通过这种线的存在进行聚类计算。

(6)直径反映一个图的“大小”，即话题影响的范围大小，也反映一个固定规模子图中节点联系的疏密程度。

(7)密度反映参加话题讨论的Agent分布的疏密程度。除了设计整体网络的密度之外，还要研究通过聚类分类得出的各个子类的局部密度。各个局部密度反映了整体“质量分布”的不均匀，这是描述网络舆情态势的一个重要参考指标。

基于对网络舆情的SNA参数的挖掘，对网络舆论的传播图进行计算：

(1)计算出图中每个节点的点度并由大到小得到节点序列1。

(2)在计算出各个节点的接近中心度由小到大得到的节点序列2.

(3)取两个序列的前M个节点得到2个长度为M的节点序列，按节点在2个序列中出现的平次排序得到长度为2M的序列，找出前M个重要节点：(M可以根据经验值确定或通过算法找到一个恰当的M，使得以这M个节点为中心的传播局部网刚好覆盖整个网络)。

(4)构建前一步得到的M个重要节点的自我网和传播局部网。

计算自我网和传播网的各个参数(密度、传播局部网技术和传播局部网中心势等)的值。

本发明为了解决此问题，设计了包含数据采集、数据处理、数据分析等功能模块。***的硬件拓扑结构如图4所示。其中，数据库、策略服务器是可选配置，可以单独配置，也可合并到数据采集机和数据处理机中；在监控对象比较单一的情况下，数据处理、数据库、策略服务器和管理服务器可以集成到一台计算机中。管理服务器是用户与***交互的接口，在管理服务器上安装USB KEY型终端，以确保管理服务器安全。

数据分析模块主要是用于对数据采集器获取的网页数据进行分析，通过相关的计算对多样化的互联网信息进行归一化处理，并进行存储。存储方式采取两种：一种是文件形式，二是数据库形式。对于前期大量的网络页面数据主要采用文件形式进行存放，对于分析后的相关结果进行数据库存储。数据分析即根据用户需求，按照预先设定的舆情大数据挖掘分析处理的方法，关键是结合人工操作方法对归一化数据进行分析，为用户提供与专题信息相关的分析结果。硬件***的拓扑结果如图4所示。

通过以上实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明是通过软件平台来展示该项方法技术。虽然通过实施例描述了本发明，本领域的技术人员知道，本发明有很多变形和变化而不能脱离本发明的精神，一样受本发明的权利要求保护。本发明未详细阐述的部分属于本领域公知技术，本领域技术人员根据已有的描述已能够在不付出创造性劳动的前提下进行实施，因此，不再赘述。

Claims

1.一种针对手机管控***舆情大数据进行分析处理的方法，其特征在于，包括以下步骤：

步骤二、对URL链接进行去噪、消重，得到无重复的URL链接；

2.如权利要求1所述的一种针对手机管控***舆情大数据进行分析处理的方法，其特征在于，步骤二中，去噪、消重的关键在于：利用Google搜索引擎提供的限定时间搜索功能进行基于时间格式的URL链接去噪、消重，以及将预采集的URL链接与已采集的URL链接进行比较，去除重复的URL链接。

3.如权利要求1所述的一种针对手机管控***舆情大数据进行分析处理的方法，其特征在于，步骤三中，爬虫从若干初始网页的URL链接开始，获得初始网页上的URL链接，在抓取网页的过程中，不断从当前页面上抽取新的URL链接放入队列，直到满足***的停止条件。

4.如权利要求1所述的一种针对手机管控***舆情大数据进行分析处理的方法，其特征在于，步骤四中，网络意见领袖识别方法着重对网民即自我网、传播局部网的各个参数不同的加权值SNA参数，综合计算得出意见领袖的综合指标参数SNA，各个综合指标参数SNA包括点度、密度、传播局域网级数和传播局部中心势，传播局部中心势又分别以网民数量、密度、点中心势、直径作为网络舆情态势分析的描述指标。

5.如权利要求4所述的一种针对手机管控***舆情大数据进行分析处理的方法，其特征在于，计算综合指标参数SNA包括计算整个网络话题的参与人数、按时间段统计回帖数、点击数，对帖子数、点击数进行多角度统计，并基于SNA参数进行状态分布的描述。

6.如权利要求1所述的一种针对手机管控***舆情大数据进行分析处理的方法，其特征在于，步骤五中，语言模型为潜在语义模型LSA。

7.如权利要求1所述的一种针对手机管控***舆情大数据进行分析处理的方法，其特征在于，步骤六中，还包括反映网络舆情总体态势的舆情指数Ipo，初步设定为m个传播局域网的平均密度ρ，节点总数与整个网络的节点总数之比n以及m的函数，即：Ipo＝f(ρ,n,m)。

8.如权利要求7所述的一种针对手机管控***舆情大数据进行分析处理的方法，其特征在于，将Ipo＝f(ρ,n,m)的函数值分为3-5个登记，以表示舆情态势与管理预期的符合程度。

9.如权利要求1所述的一种针对手机管控***舆情大数据进行分析处理的方法，其特征在于，大数据挖掘技术是采用机器学习算法从大量HTML的网页文本数据中搜索隐藏信息的过程。

10.如权利要求9所述的一种针对手机管控***舆情大数据进行分析处理的方法，其特征在于，采用机器学习算法挖掘潜在网页文本中隐藏信息的步骤包括：