CN107239563A

CN107239563A - 舆情信息动态监控方法

Info

Publication number: CN107239563A
Application number: CN201710441942.7A
Authority: CN
Inventors: 张鹏
Original assignee: BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2017-10-10

Abstract

本发明提供了一种舆情信息动态监控方法，该方法包括：根据用户提供的源网站和主题信息进行开源数据采集，并将获取的网页数据存储至本地；对采集过程获取的网页数据进行分析，对多样化的互联网信息进行归一化处理，并对于前期网络页面数据采用文件形式进行存放，对于分析后的结果进行数据库存储。本发明提出了一种舆情信息动态监控方法，完善了基于搜索引擎的数据采集过程，并采用高效的数据挖掘算法对舆情信息进行实时监控。

Description

舆情信息动态监控方法

技术领域

本发明涉及搜索引擎，特别涉及一种舆情信息动态监控方法。

背景技术

互联网已经成为人们获取信息的途径，用户通过互联网这个信息平台，能够表达自己对某些事件、现象以及政策的观点。另一方面，也涌入了反动、黄色以及网络犯罪方面的内容。现有技术对于互联网信息监控方面已经将网络搜索、数据挖掘、智能分析以及舆情监控等方面的技术进行了一定程度的提升，设计、实现了许多网络话题***。但整体解决方案与***化的科学解释、详细描述、准确预测以及实时控制还需要较大地改进。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种舆情信息动态监控方法，包括：

根据用户提供的源网站和主题信息进行开源数据采集，并将获取的网页数据存储至本地；

对采集过程获取的网页数据进行分析，对多样化的互联网信息进行归一化处理，并对于前期网络页面数据采用文件形式进行存放，对于分析后的结果进行数据库存储。

优选地，所述数据采集之前，该方法还包括：

由用户给出关键词的组合规则，一方面通过搜索引擎进行搜索，另一方面对网站版面通过爬取进程过滤采集数据；对于搜索引擎的搜索结果，对由关键词检索到的URL进行顺序采集；对于指定的关注网站，要求用户指定到版面的URL或者提供逐个添加该网站的各版面URL的界面；按版面优先级逐个将各版面列出的话题增量采集。

优选地，所述数据采集之后，该方法还包括：经过去重、去噪，抽取相关信息，建立全文索引。

优选地，每个站点W对应一个独立的爬取进程w，当站点W的数据量大时，启动多个爬取进程的进程w1、w2、...、wn来分工完成数据采集，站点爬取进程根据事务管理器分发的事务，获取指定事务的Web页面并进行页面核心内容抽取，对于抽取得到的URL按照指定流程进行跳转，对于抽取的核心文本内容存储在数据库。

优选地，事务管理器将每个站点根据数据量和访问限制划分为几个子事务，根据各个爬取进程部署机器的负载情况，动态地将子事务分发给各个爬取进程；按照指定的时间间隔来调度爬取进程开始采集事务，如果站点要求登录之后才允许采集数据，并且单个ID被多个爬取进程共用而导致该ID触发站点的访问限制，则账户管理器统一维护一个资源池，包括可用的ID信息，以及该ID当前已经被使用的次数以及时间戳；当某个爬取进程需要使用ID来访问页面时，首先向账户管理器申请一个ID，账户管理器检索资源池中尚未达到限制阈值的ID并返回给爬取进程使用，同时将该ID的访问次数递增并更新访问时间戳；

当站点对每个IP限制一定时间内的访问次数时，使用代理地址进行访问；代理地址映射单元首先分配代理地址；然后检测代理地址的网络QoS；当某个爬取进程申请使用代理地址时，代理地址映射单元检索资源池中尚未达到频率限制阈值且网络质量最好的代理地址返回给爬取进程，同时将该IP的使用计数加1并更新访问时间戳；定时扫描资源池中代理地址的连通情况，记录各个代理地址的超时时间，并将无效的代理地址清除出资源池。

本发明相比现有技术，具有以下优点：

本发明提出了一种舆情信息动态监控方法，完善了基于搜索引擎的数据采集过程，并采用高效的数据挖掘算法对舆情信息进行实时监控。

附图说明

图1是根据本发明实施例的舆情信息动态监控方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种舆情信息动态监控方法。图1是根据本发明实施例的舆情信息动态监控方法流程图。

本发明包含数据采集、舆情分析两个模块。数据采集包括根据用户提供的源网站和主题信息进行开源数据采集，并将获取的网页数据存储至本地。舆情分析包括对采集过程获取的网页数据进行分析，对多样化的互联网信息进行归一化处理，并对于前期网络页面数据采用文件形式进行存放，对于分析后的结果进行数据库存储。采用Web服务器为用户提供浏览器方式的界面，便于用户信息查询和操作。

***运行之前由用户给出关键词的组合规则，一方面通过搜索引擎进行搜索，另一方面对网站版面通过爬取进程过滤采集数据。对于搜索引擎的搜索结果，对由关键词检索到的URL进行顺序采集。对于指定的关注网站，要求用户指定到版面的URL或者提供逐个添加该网站的各版面URL的界面。按版面优先级逐个将各版面列出的话题增量采集。相关网页采集后，经过去重、去噪，抽取相关信息后，建立全文索引。

数据采集模块包括站点爬取进程、事务管理器、代理地址映射单元以及账户管理器，每个站点W对应一个独立的爬取进程w，当站点W的数据量大时，启动多个爬取进程的进程w1、w2、...、wn来分工完成数据采集。站点爬取进程根据事务管理器分发的事务，获取指定事务的Web页面并进行页面核心内容抽取，对于抽取得到的URL按照指定流程进行跳转，对于抽取的核心文本内容则存储在数据库。

事务管理器将每个站点根据数据量和访问限制划分为几个子事务，根据各个爬取进程部署机器的负载情况，动态地将子事务分发给各个爬取进程。并按照指定的时间间隔来调度爬取进程开始采集事务，如果站点要求登录之后才允许采集数据，并且单个ID被多个爬取进程共用而导致该ID触发站点的访问限制，则账户管理器统一维护一个资源池，包括可用的ID信息，以及该ID当前已经被使用的次数以及时间戳。当某个爬取进程需要使用ID来访问页面时，首先向账户管理器申请一个ID，账户管理器检索资源池中尚未达到限制阈值的ID并返回给爬取进程使用，同时将该ID的访问次数递增并更新访问时间戳。

当站点对每个IP限制一定时间内的访问次数时，使用代理地址进行访问。代理地址映射单元首先分配代理地址；然后检测代理地址的网络QoS。当某个爬取进程申请使用代理地址时，代理地址映射单元检索资源池中尚未达到频率限制阈值且网络质量最好的代理地址返回给爬取进程，同时将该IP的使用计数加1并更新访问时间戳。定时扫描资源池中代理地址的连通情况，记录各个代理地址的超时时间，并将无效的代理地址清除出资源池。

在采集模块运行期间，事务管理器常驻内存，当发现当前时间距离上次运行时间达到指定时间间隔时，事务管理器将预先划分好的事务逐个分发给各个站点爬取进程。分发策略如下：当有站点爬取进程执行完事务空闲时，事务管理器把事务分发给空闲的站点爬取进程；当所有站点爬取进程都正在执行事务时，则事务管理器阻塞，直到有站点爬取进程再次空闲。

爬取进程***根据应用场景采用不同的爬行策略。不同的站点的页面核心文本内容的抽取规则不同，将下载模块、文本处理模块和爬行策略模块封装成站点爬取事务作为分布式部署的基本单位，事务调度的基本单位设置为版面、版块和微博ID的集合。当需要增加站点时，对该站点所对应的站点爬取进程进行编程；当需要提升爬行速度时，增加站点爬取事务的部署进程数量，并将下载事务进一步细分。爬取进程在逻辑上分为以下四个独立的顺序类：执行爬取策略，网页下载，用于获取指定URL上的页面内容；内容处理，用于根据网页类型提取URL地址或核心话题文本内容；核心控制流程，事务是调度网页下载、网页内容处理、执行爬取策略这三个类的交互。从爬取策略类中获取需要下载的URL，然后将该URL传递给网页下载类进行内容的下载，接下来将下载结果传递给网页内容处理模块，从下载结果中提取URL或核心话题文本内容，最后将处理的结果和提取的URL反馈给爬取策略类。使用用户态的线程来类对象之间的协作。是用户在函数中主动中断函数执行，并保存当前断点状态，再进入另一段代码执行；当CPU再次返回上一个函数时，将从上一次的断点处开始恢复执行。先利用搜索引擎的站点搜索获取主题信息，之后针对主题采用元搜索，针对指定网站采用全站爬取以及关键词表达式过滤检索，两者结合起来构成数据源。对于网站的信息更新，如果同一个URL前后两次下载的字节数不一致或超时则更新。对每个网站设置优先级，每个网站建立一个线程搜索，当有新线程资源时，如果搜索层数标识一个网站搜索结束或线程数未达到总数，按照优先级和时间进行下一个网站的搜索，而始终保留两个元搜索的线程，一个线程用于发现有新增的网站或主题则展开搜索，一个用于周期性更新。

在抽取网络舆情基础数据基础上，本发明的舆情分析模块通过对用户言论数据的分析，得到用户对主题的操作，包括回复、转发和引用，以此为基础应用关系网络方法构建用户关系模型。基于上述用户关系模型提取与相关的关系网络参数，用这些参数描述网络舆情影响力用户特征，并设计出针对影响力用户识别与网络舆情趋势分布的舆情指数构成和展示方法。

所述关系网络通过关系矩阵A_n×n表现，其中矩阵中的元素a_ij取值为(i，j＝1...n)，取值0表示User_i对User_j没有连接关系，取值n表示User_j对User_i有次数为n的跟随连接关系。对A按某特征参数做投影变换，得到反映User间某些属性特征关系的矩阵B_n×n。B_n×n中，如果a_ij>0，则对应的b_ij取值为1，否则取值为0，i，j＝1...n。计算节点i的点入度ind_i，表现该节点被关注的程度即影响力，计算为：计算节点i的点出度out_i，反映节点与相邻节点互动的活跃度：计算节点的点度大小，反映该节点与其邻居节点互动关系的总和，即nd(i)＝ind_i+out_i。

对关系网络图进行相应的计算：计算出图中每个节点的点度并由大到小得到节点序列1。再计算出各个节点的接近中心度并由小到大得到节点序列2。取两个序列的前m个节点得到2个长度为m的节点序列，按节点在2个序列中出现的频次排序得到长度为2m的序列，找出前m个重要节点；其中m为预先确定或通过算法确定的阈值，使得以这m个节点为中心的传播局部网刚好覆盖整个网络。

构建前一步得到的m个重要节点的自我网和传播局部网。计算自我网和传播网的各个参数。对用户及其自我网、传播局部网的各个参数取不同的加权值，综合计算得出影响力用户的综合指标参数值。

为了提高舆情预测结果的精确度，将事件按类别进行划分，然后分别建立模型。在预测模型开始初始化时建立起需要关注的信息的可识别的向量；其次在搜索时判断某些特定的舆情是否出现，在基于已采集大量数据并已通过去重、去噪后，在经过***分析后进行预测通过分析得到所有的标记为热点的舆情的一个分类的情况，在基于数值分析的预测执行完毕后，对所分析出来的舆情再次进行分析。为防止数据过于频繁的聚类，本发明通过分析数据的集合来得到聚类的特征统计值。然后自下而上产生将数据集合分为不同的层次，然后根据这种向上增长的层次来构造出一条相应的曲线，获得的每一个聚类簇看做小类，然后针对各个小类的模型，通过最小二乘法来得到最小的类模型以及这个小类包括的全部规律曲线均方误差。将这个类型的事件的类模型库完整地建立起来。

综上所述，本发明提出了一种舆情信息动态监控方法，完善了基于搜索引擎的数据采集过程，并采用高效的数据挖掘算法对舆情信息进行实时监控。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算***来实现，它们可以集中在单个的计算***上，或者分布在多个计算***所组成的网络上，可选地，它们可以用计算***可执行的程序代码来实现，从而，可以将它们存储在存储***中由计算***来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种舆情信息动态监控方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述数据采集之前，该方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述数据采集之后，该方法还包括：经过去重、去噪，抽取相关信息，建立全文索引。

4.根据权利要求1所述的方法，其特征在于，每个站点W对应一个独立的爬取进程w，当站点W的数据量大时，启动多个爬取进程的进程w1、w2、...、wn来分工完成数据采集，站点爬取进程根据事务管理器分发的事务，获取指定事务的Web页面并进行页面核心内容抽取，对于抽取得到的URL按照指定流程进行跳转，对于抽取的核心文本内容存储在数据库。

5.根据权利要求4所述的方法，其特征在于，事务管理器将每个站点根据数据量和访问限制划分为几个子事务，根据各个爬取进程部署机器的负载情况，动态地将子事务分发给各个爬取进程；按照指定的时间间隔来调度爬取进程开始采集事务，如果站点要求登录之后才允许采集数据，并且单个ID被多个爬取进程共用而导致该ID触发站点的访问限制，则账户管理器统一维护一个资源池，包括可用的ID信息，以及该ID当前已经被使用的次数以及时间戳；当某个爬取进程需要使用ID来访问页面时，首先向账户管理器申请一个ID，账户管理器检索资源池中尚未达到限制阈值的ID并返回给爬取进程使用，同时将该ID的访问次数递增并更新访问时间戳；