CN104951539B

CN104951539B - 互联网数据中心有害信息监测***

Info

Publication number: CN104951539B
Application number: CN201510343226.6A
Authority: CN
Inventors: 彭光辉
Original assignee: Chengdu Aierpu Science & Technology Co Ltd
Current assignee: Chengdu Aierpu Science & Technology Co Ltd
Priority date: 2015-06-19
Filing date: 2015-06-19
Publication date: 2017-12-22
Anticipated expiration: 2035-06-19
Also published as: CN104951539A

Abstract

本发明公开了互联网数据中心有害信息监测***，包括爬虫***和有害信息监测***，有害信息监测***通过爬虫***获取互联网数据中心中的网页数据，并对其进行有害分析，爬虫***包括多个由爬虫结点和爬虫根节点组成的爬虫集群，爬虫结点均包括多线程网页采集模块、网页库、编码识别处理模块、网页内容自动提取模块、URL过滤器、URL去重模块和URL调度模块；有害信息监测***通过有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元实现更加精确的搜索。本发明提供了强大的数据收集功能，通过多个爬虫集群对动态网页和静态网页进行全面的实时监控，能够从海量数据中，采集到与敏感词有关的数据，做到主动发现有害网页。

Description

互联网数据中心有害信息监测***

技术领域

本发明涉及互联网数据中心有害信息监测***。

背景技术

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。

面对日益活跃的网络社区环境，每个网民都可能成为有害信息的发布者和散布者，网络有害传播途径越来越广包括博客、新闻、论坛、微博、以及其他途径。网络爬虫是各种搜索引擎能够实现的先驱技术，大数据时代的来临以及互联网技术的飞速发展，使得网络爬虫具有更重大的研究意义。应对网页数据量增幅大、网络文本更新周期短以及网页结构动态变化等一系列挑战，高效率且不间断工作的网络爬虫成为有害信息挖掘的研究热点。

发明内容

本发明的目的在于克服现有技术的不足，提供互联网数据中心有害信息监测***，本***提供了强大的数据收集功能，通过多个爬虫集群对动态网页和静态网页进行全面的实时监控；并从海量数据中，采集到与敏感词有关的数据，做到主动发现有害网页，通过有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元实现更加精确的搜索。

本发明的目的是通过以下技术方案来实现的：互联网数据中心有害信息监测***，它包括爬虫***和有害信息监测***，有害信息监测***通过爬虫***获取互联网数据中心中的网页数据，并对其进行有害分析。

所述爬虫***包括一个或多个爬虫集群，且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点，形成一个分布式的数据采集网络，其中，爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理，并与有害信息监测***进行相互通信，爬虫结点用于采集网络中的有害信息，所述每个爬虫结点均由以下多种模块组成：

1、多线程网页采集模块，包括多种网页采集通道及网页解析模块，针对不同类型的网页，通过与其相匹配的网页采集通道和网页解析模块对其进行采集。

2、网页库，存储多线程网页采集模块所采集的网页。

3、编码识别处理模块，自动识别网页的编码类型，并对其进行编码转换处理。

4、网页内容自动提取模块，包括动态网页内容提取模块和静态网页内容提取模块，根据敏感词库根据敏感词库抓取编码转换处理后存在有害信息网页的URL。

5、URL过滤器，过滤不需要下载的URL。

6、URL去重模块，用于判断过滤后的URL是否与URL存储器中所存储的URL一致，若一致则不再对该URL进行后续的处理。

7、URL调度模块，根据去重后的URL队列，控制多线程网页采集模块下载相应的网页。

8、网页去重模块，用于判断网页内容是否与已下载过的网页内容一致，若一致则不再对该网页进行后续的处理，并从网页库中将其删除。

所述网页去重模块包括指纹计算模块、指纹库和指纹去重模块，指纹计算模块根据网页指纹算法，将网页的内容经过计算生成指纹，指纹去重模块将该生成指纹与指纹库中的指纹进行对比，若存在相同或相近似的指纹，则判断该网页内容已下载过，指纹库用于存储指纹数据，且每个爬虫结点的指纹库进行同步更新。

9、间隔抓取模块，间隔抓取模块通过网页评分和网站权重自动生成间隔规则，并控制网页内容自动提取模块对网页进行相应的间隔抓取。

10、抓取规则设置模块，抓取规则设置模块根据所设置的抓取规则，控制网页内容自动提取模块对网页进行相应的抓取动作。

11、反爬虫抓取模块，当网页设置有反爬虫程序时，启动反爬虫抓取模块，对目标网页进行强制采集。

12、采集监控模块，采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理，并接收爬虫根节点的控制。

所述有害信息监测***包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元。

有害信息搜索单元包括本地搜索端口和网络搜索端口，本地搜索端口用于启动本地爬虫结点的搜索引擎，在本地执行该有害信息搜索任务。网络搜索端口用于启动多个爬虫结点的搜索引擎，通过多个爬虫结点同时执行该有害信息搜索任务，还通过该网络搜索端口将搜索结果返回到该本地爬虫结点。

有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合，通过多种筛选器及其组合完成精确搜索。

关键字处理单元用于生成关键字搜索指令，有害信息搜索单元根据该关键字搜索指令执行有害信息搜索任务。

模糊匹配单元用于根据输入的搜索字符串匹配相近似的近似词汇，使有害信息搜索单元对搜索字符串进行搜索的同时，还完成近似词汇的搜索，并返回近似词汇搜索结果。

自动分词单元用于将输入的搜索字符串进行自动提取关键字，使有害信息搜索单元根据该自动提取关键字完成精确搜索。

所述关键字搜索指令包括分类ID号、事件名称、关键字选项、排除关键字选项、权重、起始时间。所述排除关键字选项用于使包含排除关键字选项中任一关键字的网页不会被匹配认定为有害信息网页。

所述有害信息监测***还包括自动摘要生成单元，自动摘要生成单元根据输入的搜索字符串及其近似词汇对目标网页动态的生成网页摘要。

所述自动摘要生成单元还通过关键字处理单元对网页进行关键字分析，自动提取关键字段生成网页摘要。

所述有害信息监测***还包括结果统计分析单元，结果统计分析单元用于对返回的搜索结果进行分析统计，所述统计分析单元包括任务舆情图生成模块、报表生成模块、任务文章统计模块、任务趋势分析模块和任务概况分析模块。

所述任务舆情图生成模块根据搜索条件和搜索结果生成任务舆情图，包括有害信息数量统计、中标关键词数量统计和网页数量分类统计。

所述报表生成模块用于根据搜索结果信息生成报表。

所述任务趋势分析模块用于生成增量图。

所述任务概况分析模块用于生成任务列表、站点分布图和媒体分布图。

所述有害信息监测***还包括防火墙，爬虫***通过防火墙对互联网数据中心中的网页数据进行安全爬取。

本发明的有益效果是：本发明所提出的互联网数据中心有害信息监测***，能从海量数据中，采集到与敏感词有关的数据，做到主动发现有害；收录有害的分布站点、传播途径、回帖率、点击率、参与者等相关信息，辅助分析有害网页的热度、重要性、发展趋势，做到准确分析有害；设置可疑人员虚拟身份进行重点监控，根据采集到数据进行分析活动范围、散布内容、活动时间等；可设置言论定性数据分析；事件热度快速定位分析。

本发明还具有以下多个功能特点：

1）多线程采集：针对不同类型的网站定制不同的策略，采集支持多线程，实现快速信息采集；

2）分布式采集：通过多个爬虫集群、若干的爬虫结点进行大规模数据采集；

3）采集监控：对爬虫结点工作状态、采集任务、采集深度、日志、***运行报告等进行监控和管理；

4）网页内容自动提取：能采集多种动态和静态网页，例如HTM、HTML、SHTML、XML、PHP、ASP、JSP、JavaScript等网页；

5）编码自动识别转换：支持GBK、GB2312、BIG5、UTF-8、UTF-16、BIGENDIAN、ISO8859-1等多种编码自动识别，***自动进行编码转换为UTF；

6）增量更新：保证爬虫结点只采集上次更新后新生成或更改的网页，不用重新采集已下载的网页来保证信息更新的效率，用户也可以根据需要也可设定全部采集；

7）反爬虫抓取：针对部分设置反爬虫程序网站应设置相关策略，避免无法抓取页面；

8）爬虫间隔抓取：采用网页评分和网站权重等自动生成间隔规则，对网页进行相应的间隔抓取；

9）自定义抓取规则：用户也可以自己设置抓取规则。

附图说明

图1为本发明的爬虫***结构框图；

图2为本发明中爬虫结点的结构原理框图；

图3为本发明中有害信息监测***的结构原理框图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

互联网数据中心有害信息监测***，它包括爬虫***和有害信息监测***，有害信息监测***通过爬虫***获取互联网数据中心中的网页数据，并对其进行有害分析。

（一）爬虫***

如图1所示，所述爬虫***负责从互联网上进行原始数据的发现、爬取和数据规格化。根据互联网上应用的不同，包括一个或多个爬虫集群，且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点，形成一个分布式的数据采集网络，其中，爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理，并与有害信息监测***进行相互通信，爬虫结点用于采集网络中的有害信息。

如图2所示，本发明中，所述每个爬虫结点均由以下多种模块组成：

1、多线程网页采集模块，包括多种网页采集通道及网页解析模块，针对不同类型的网页，通过与其相匹配的网页采集通道和网页解析模块对其进行采集；所述网页解析模块包括DNS解析模块、HTTP解析模块、FTP解析模块、GOPHER解析模块等；

实现多线程采集功能：能够针对不同类型的网站定制不同的策略，采集支持多线程，实现快速信息采集；

2、网页库，存储多线程网页采集模块所采集的网页；

3、编码识别处理模块，自动识别网页的编码类型，并对其进行编码转换处理；支持GBK、GB2312、BIG5、UTF-8、UTF-16、BIGENDIAN、ISO8859-1等多种编码自动识别，***自动进行编码转换为UTF；

4、网页内容自动提取模块，包括动态网页内容提取模块和静态网页内容提取模块，根据敏感词库抓取编码转换处理后存在有害信息网页的URL；能采集多种动态和静态网页，例如HTM、HTML、SHTML、XML、PHP、ASP、JSP、JavaScript等网页；

5、URL过滤器，过滤不需要下载的URL；

6、URL去重模块，用于判断过滤后的URL是否与URL存储器中所存储的URL一致，若一致则不再对该URL进行后续的处理；实现增量更新功能，保证爬虫结点只采集上次更新后新生成或更改的网页，不用重新采集已下载的网页来保证信息更新的效率，用户也可以根据需要也可设定全部采集；

9、指纹计算模块、指纹库和指纹去重模块，指纹计算模块根据网页指纹算法，将网页的内容经过计算生成指纹，指纹去重模块将该生成指纹与指纹库中的指纹进行对比，若存在相同或相近似的指纹，则判断该网页内容已下载过，指纹库用于存储指纹数据，且每个爬虫结点的指纹库进行同步更新。

10、间隔抓取模块，间隔抓取模块通过网页评分和网站权重自动生成间隔规则，并控制网页内容自动提取模块对网页进行相应的间隔抓取。

11、抓取规则设置模块，抓取规则设置模块根据所设置的抓取规则，控制网页内容自动提取模块对网页进行相应的抓取动作。

12、反爬虫抓取模块，当网页设置有反爬虫程序时，启动反爬虫抓取模块，对目标网页进行强制采集。

13、采集监控模块，采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理，并接收爬虫根节点的控制。

所述爬虫结点还包括标签计数器和标签计数日志文件，标签计数器用于记录网页库中的下载数，并将该数据记录在标签计数日志文件中。

所述爬虫***还包括全文数据库、索引数据库和列序数据库，全文数据库、索引数据库和列序数据库均与爬虫结点和爬虫根节点连接。

（二）有害信息监测***

如图1所示，所述有害信息监测***包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元。

1、有害信息搜索单元，包括本地搜索端口和网络搜索端口，本地搜索端口用于启动本地爬虫结点的搜索引擎，在本地执行该有害信息搜索任务。网络搜索端口用于启动多个爬虫结点的搜索引擎，通过多个爬虫结点同时执行该有害信息搜索任务，还通过该网络搜索端口将搜索结果返回到该本地爬虫结点。

有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合，通过多种筛选器及其组合完成精确搜索，如提供搜索关键词的权重、多个元数据字段的权重组合搜索等。

关键字筛选器：支持关键词逻辑表达式组合，包括AND、OR、NOT等。

标签字段筛选器：支持通过多个标签字段组合的逻辑“与或非”限定搜索。

元数据字段筛选器：能够定义多个元数据字段，通过参数挑选搜索结果。

时间筛选器：支持按照日期、相关度以及其他字段组合的排序功能。

字段标签搜索是通过建立索引文本的标签字段，用户可以针对性的选择标签组合，从而返回相应的限定结果。

有害信息搜索单元根据突发有害网络热词进行全网搜索，快捷搜索突发事件的有害数量、分布站点、有害热度。

2、关键字处理单元，用于生成关键字搜索指令，有害信息搜索单元采用布尔逻辑表达式，并根据该关键字搜索指令执行有害信息搜索任务。

3、模糊匹配单元，用于根据输入的搜索字符串匹配相近似的近似词汇，使有害信息搜索单元对搜索字符串进行搜索的同时，还完成近似词汇的搜索，并返回近似词汇搜索结果。

用户可以输入一句话、一段文字甚至是一整篇文章，***会分析用户检索条件的内容概念，然后从概念的相关度上来找出用户关心的结果。如果用户不知道查询的内容如何拼写，可以通过模糊搜索，***除了返回相应的搜索结果外，还返回与输入字符串相近的其他词汇，从而让用户发现相关的其他结果。

4、自动分词单元，用于将输入的搜索字符串进行自动提取关键字，使有害信息搜索单元根据该自动提取关键字完成精确搜索。自动分词模块是中文信息处理与分析的基础。以词典和规则为基础，综合利用基于概率分析的语言模型方法，并可根据不同的应用进行适合特定要求的分词。

5、自动摘要生成单元，自动摘要生成单元根据输入的搜索字符串及其近似词汇对目标网页动态的生成网页摘要。网页会根据输入的不同的搜索字符串而动态的生成不同的网页摘要，用户可根据该网页摘要来判断是否需要打开该网页进行审察，并能通过动态的网页摘要来了解返回结果中各个网页之间的关系。

所述自动摘要生成单元还通过关键字处理单元对网页进行关键字分析，自动提取关键字段生成网页摘要。当用户查看网页的具体内容时，自动摘要生成单元也能够自动对文章内容生成网页摘要，此时不需要根据搜索字符串及其近似词汇对网页进行分析。

自动摘要生成单元能够综合考虑词频、词性、位置信息，实现准确的自动提取分析关键词，并根据其分析出的关键字自动生成网页摘要。

6、结果统计分析单元，结果统计分析单元用于对返回的搜索结果进行分析统计，所述统计分析单元包括任务舆情图生成模块、报表生成模块、任务文章统计模块、任务趋势分析模块和任务概况分析模块。

所述报表生成模块用于根据搜索结果信息生成报表，包括柱状图、折线图单棒图、双棒图、三棒图、多线图和X-Y图。

所述任务趋势分析模块用于生成增量图，包括每日增量图、每周增量图、每月增量图等。

所述任务概况分析模块用于生成图形化的任务列表、站点分布图和媒体分布图。

所述搜索结果包括有害的分布站点、传播途径、回帖率、点击率和参与者信息。

统计分析单元为用户提供了功能强大的查询功能，针对实时及历史数据进行分析、展现，针对历史数据应用进行数据挖掘，包括历史数据、巡检数据、网络数据、监控节点数据。可根据需要，灵活设置各种查询条件，提供多种统计分析报表，如单棒图、双棒图、三棒图、多线图、X-Y图（坐标点绘图）等形式，并可与调度服务相结合，生成多种输出格式的报表如word格式、PDF格式、Excel格式等，发送给指定用户，丰富决策分析功能，方便用户查询数据、分析趋势、制定调整方案。同时，***具有扩展性，为用户编辑图片。

本发明有害信息监测***还包括防火墙，爬虫***通过防火墙对互联网数据中心中的网页数据进行安全爬取。

Claims

1.互联网数据中心有害信息监测***，它包括爬虫***和有害信息监测***，有害信息监测***通过爬虫***获取互联网数据中心中的网页数据，并对其进行有害分析，其特征在于：所述爬虫***包括一个或多个爬虫集群，且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点，形成一个分布式的数据采集网络，其中，爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理，并与有害信息监测***进行相互通信，爬虫结点用于采集网络中的有害信息，爬虫结点均由以下多种模块组成：

多线程网页采集模块，包括多种网页采集通道及网页解析模块，针对不同类型的网页，通过与其相匹配的网页采集通道和网页解析模块对其进行采集；

网页库，存储多线程网页采集模块所采集的网页；

编码识别处理模块，自动识别网页的编码类型，并对其进行编码转换处理；

网页内容自动提取模块，包括动态网页内容提取模块和静态网页内容提取模块，根据敏感词库根据敏感词库抓取编码转换处理后存在有害信息网页的URL；

URL过滤器，过滤不需要下载的URL；

URL去重模块，用于判断过滤后的URL是否与URL存储器中所存储的URL一致，若一致则不再对该URL进行后续的处理；

URL调度模块，根据去重后的URL队列，控制多线程网页采集模块下载相应的网页；

所述有害信息监测***包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元；

有害信息搜索单元包括本地搜索端口和网络搜索端口，本地搜索端口用于启动本地爬虫结点的搜索引擎，在本地执行该有害信息搜索任务；网络搜索端口用于启动多个爬虫结点的搜索引擎，通过多个爬虫结点同时执行该有害信息搜索任务，还通过该网络搜索端口将搜索结果返回到该本地爬虫结点；

有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合，通过多种筛选器及其组合完成精确搜索；

关键字处理单元用于生成关键字搜索指令，有害信息搜索单元根据该关键字搜索指令执行有害信息搜索任务；

模糊匹配单元用于根据输入的搜索字符串匹配相近似的近似词汇，使有害信息搜索单元对搜索字符串进行搜索的同时，还完成近似词汇的搜索，并返回近似词汇搜索结果；

2.根据权利要求1所述的互联网数据中心有害信息监测***，其特征在于：所述爬虫结点还包括网页去重模块，用于判断网页内容是否与已下载过的网页内容一致，若一致则不再对该网页进行后续的处理，并从网页库中将其删除。

3.根据权利要求2所述的互联网数据中心有害信息监测***，其特征在于：所述网页去重模块包括指纹计算模块、指纹库和指纹去重模块，指纹计算模块根据网页指纹算法，将网页的内容经过计算生成指纹，指纹去重模块将该生成指纹与指纹库中的指纹进行对比，若存在相同或相近似的指纹，则判断该网页内容已下载过，指纹库用于存储指纹数据，且每个爬虫结点的指纹库进行同步更新。

4.根据权利要求1所述的互联网数据中心有害信息监测***，其特征在于：所述爬虫结点还包括间隔抓取模块，间隔抓取模块通过网页评分和网站权重自动生成间隔规则，并控制网页内容自动提取模块对网页进行相应的间隔抓取；

所述爬虫结点还包括抓取规则设置模块，抓取规则设置模块根据所设置的抓取规则，控制网页内容自动提取模块对网页进行相应的抓取动作；

所述爬虫结点还包括反爬虫抓取模块，当网页设置有反爬虫程序时，启动反爬虫抓取模块，对目标网页进行强制采集；

所述爬虫结点还包括采集监控模块，采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理，并接收爬虫根节点的控制。

5.根据权利要求1所述的互联网数据中心有害信息监测***，其特征在于：所述关键字搜索指令包括分类ID号、事件名称、关键字选项、排除关键字选项、权重、起始时间；所述排除关键字选项用于使包含排除关键字选项中任一关键字的网页不会被匹配认定为有害信息网页。

6.根据权利要求1所述的互联网数据中心有害信息监测***，其特征在于：所述有害信息监测***还包括自动摘要生成单元，自动摘要生成单元根据输入的搜索字符串及其近似词汇对目标网页动态的生成网页摘要；

7.根据权利要求1所述的互联网数据中心有害信息监测***，其特征在于：所述有害信息监测***还包括结果统计分析单元，结果统计分析单元用于对返回的搜索结果进行分析统计，所述统计分析单元包括任务舆情图生成模块、报表生成模块、任务文章统计模块、任务趋势分析模块和任务概况分析模块。

8.根据权利要求7所述的互联网数据中心有害信息监测***，其特征在于：所述任务舆情图生成模块根据搜索条件和搜索结果生成任务舆情图，包括有害信息数量统计、中标关键词数量统计和网页数量分类统计；

所述报表生成模块用于根据搜索结果信息生成报表；

所述任务趋势分析模块用于生成增量图；

9.根据权利要求1所述的互联网数据中心有害信息监测***，其特征在于：所述有害信息监测***还包括防火墙，爬虫***通过防火墙对互联网数据中心中的网页数据进行安全爬取。