CN104951539B - 互联网数据中心有害信息监测*** - Google Patents

互联网数据中心有害信息监测*** Download PDF

Info

Publication number
CN104951539B
CN104951539B CN201510343226.6A CN201510343226A CN104951539B CN 104951539 B CN104951539 B CN 104951539B CN 201510343226 A CN201510343226 A CN 201510343226A CN 104951539 B CN104951539 B CN 104951539B
Authority
CN
China
Prior art keywords
module
search
reptile
web
harmful information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510343226.6A
Other languages
English (en)
Other versions
CN104951539A (zh
Inventor
彭光辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aierpu Science & Technology Co Ltd
Original Assignee
Chengdu Aierpu Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aierpu Science & Technology Co Ltd filed Critical Chengdu Aierpu Science & Technology Co Ltd
Priority to CN201510343226.6A priority Critical patent/CN104951539B/zh
Publication of CN104951539A publication Critical patent/CN104951539A/zh
Application granted granted Critical
Publication of CN104951539B publication Critical patent/CN104951539B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了互联网数据中心有害信息监测***,包括爬虫***和有害信息监测***,有害信息监测***通过爬虫***获取互联网数据中心中的网页数据,并对其进行有害分析,爬虫***包括多个由爬虫结点和爬虫根节点组成的爬虫集群,爬虫结点均包括多线程网页采集模块、网页库、编码识别处理模块、网页内容自动提取模块、URL过滤器、URL去重模块和URL调度模块;有害信息监测***通过有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元实现更加精确的搜索。本发明提供了强大的数据收集功能,通过多个爬虫集群对动态网页和静态网页进行全面的实时监控,能够从海量数据中,采集到与敏感词有关的数据,做到主动发现有害网页。

Description

互联网数据中心有害信息监测***
技术领域
本发明涉及互联网数据中心有害信息监测***。
背景技术
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。
面对日益活跃的网络社区环境,每个网民都可能成为有害信息的发布者和散布者,网络有害传播途径越来越广包括博客、新闻、论坛、微博、以及其他途径。网络爬虫是各种搜索引擎能够实现的先驱技术,大数据时代的来临以及互联网技术的飞速发展,使得网络爬虫具有更重大的研究意义。应对网页数据量增幅大、网络文本更新周期短以及网页结构动态变化等一系列挑战,高效率且不间断工作的网络爬虫成为有害信息挖掘的研究热点。
发明内容
本发明的目的在于克服现有技术的不足,提供互联网数据中心有害信息监测***,本***提供了强大的数据收集功能,通过多个爬虫集群对动态网页和静态网页进行全面的实时监控;并从海量数据中,采集到与敏感词有关的数据,做到主动发现有害网页,通过有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元实现更加精确的搜索。
本发明的目的是通过以下技术方案来实现的:互联网数据中心有害信息监测***,它包括爬虫***和有害信息监测***,有害信息监测***通过爬虫***获取互联网数据中心中的网页数据,并对其进行有害分析。
所述爬虫***包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,并与有害信息监测***进行相互通信,爬虫结点用于采集网络中的有害信息,所述每个爬虫结点均由以下多种模块组成:
1、多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集。
2、网页库,存储多线程网页采集模块所采集的网页。
3、编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理。
4、网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库根据敏感词库抓取编码转换处理后存在有害信息网页的URL。
5、URL过滤器,过滤不需要下载的URL。
6、URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL一致,若一致则不再对该URL进行后续的处理。
7、URL调度模块,根据去重后的URL队列,控制多线程网页采集模块下载相应的网页。
8、网页去重模块,用于判断网页内容是否与已下载过的网页内容一致,若一致则不再对该网页进行后续的处理,并从网页库中将其删除。
所述网页去重模块包括指纹计算模块、指纹库和指纹去重模块,指纹计算模块根据网页指纹算法,将网页的内容经过计算生成指纹,指纹去重模块将该生成指纹与指纹库中的指纹进行对比,若存在相同或相近似的指纹,则判断该网页内容已下载过,指纹库用于存储指纹数据,且每个爬虫结点的指纹库进行同步更新。
9、间隔抓取模块,间隔抓取模块通过网页评分和网站权重自动生成间隔规则,并控制网页内容自动提取模块对网页进行相应的间隔抓取。
10、抓取规则设置模块,抓取规则设置模块根据所设置的抓取规则,控制网页内容自动提取模块对网页进行相应的抓取动作。
11、反爬虫抓取模块,当网页设置有反爬虫程序时,启动反爬虫抓取模块,对目标网页进行强制采集。
12、采集监控模块,采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理,并接收爬虫根节点的控制。
所述有害信息监测***包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元。
有害信息搜索单元包括本地搜索端口和网络搜索端口,本地搜索端口用于启动本地爬虫结点的搜索引擎,在本地执行该有害信息搜索任务。网络搜索端口用于启动多个爬虫结点的搜索引擎,通过多个爬虫结点同时执行该有害信息搜索任务,还通过该网络搜索端口将搜索结果返回到该本地爬虫结点。
有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合,通过多种筛选器及其组合完成精确搜索。
关键字处理单元用于生成关键字搜索指令,有害信息搜索单元根据该关键字搜索指令执行有害信息搜索任务。
模糊匹配单元用于根据输入的搜索字符串匹配相近似的近似词汇,使有害信息搜索单元对搜索字符串进行搜索的同时,还完成近似词汇的搜索,并返回近似词汇搜索结果。
自动分词单元用于将输入的搜索字符串进行自动提取关键字,使有害信息搜索单元根据该自动提取关键字完成精确搜索。
所述关键字搜索指令包括分类ID号、事件名称、关键字选项、排除关键字选项、权重、起始时间。所述排除关键字选项用于使包含排除关键字选项中任一关键字的网页不会被匹配认定为有害信息网页。
所述有害信息监测***还包括自动摘要生成单元,自动摘要生成单元根据输入的搜索字符串及其近似词汇对目标网页动态的生成网页摘要。
所述自动摘要生成单元还通过关键字处理单元对网页进行关键字分析,自动提取关键字段生成网页摘要。
所述有害信息监测***还包括结果统计分析单元,结果统计分析单元用于对返回的搜索结果进行分析统计,所述统计分析单元包括任务舆情图生成模块、报表生成模块、任务文章统计模块、任务趋势分析模块和任务概况分析模块。
所述任务舆情图生成模块根据搜索条件和搜索结果生成任务舆情图,包括有害信息数量统计、中标关键词数量统计和网页数量分类统计。
所述报表生成模块用于根据搜索结果信息生成报表。
所述任务趋势分析模块用于生成增量图。
所述任务概况分析模块用于生成任务列表、站点分布图和媒体分布图。
所述有害信息监测***还包括防火墙,爬虫***通过防火墙对互联网数据中心中的网页数据进行安全爬取。
本发明的有益效果是:本发明所提出的互联网数据中心有害信息监测***,能从海量数据中,采集到与敏感词有关的数据,做到主动发现有害;收录有害的分布站点、传播途径、回帖率、点击率、参与者等相关信息,辅助分析有害网页的热度、重要性、发展趋势,做到准确分析有害;设置可疑人员虚拟身份进行重点监控,根据采集到数据进行分析活动范围、散布内容、活动时间等;可设置言论定性数据分析;事件热度快速定位分析。
本发明还具有以下多个功能特点:
1)多线程采集:针对不同类型的网站定制不同的策略,采集支持多线程,实现快速信息采集;
2)分布式采集:通过多个爬虫集群、若干的爬虫结点进行大规模数据采集;
3)采集监控:对爬虫结点工作状态、采集任务、采集深度、日志、***运行报告等进行监控和管理;
4)网页内容自动提取:能采集多种动态和静态网页,例如HTM、HTML、SHTML、XML、PHP、ASP、JSP、JavaScript等网页;
5)编码自动识别转换:支持GBK、GB2312、BIG5、UTF-8、UTF-16、BIGENDIAN、ISO8859-1等多种编码自动识别,***自动进行编码转换为UTF;
6)增量更新:保证爬虫结点只采集上次更新后新生成或更改的网页,不用重新采集已下载的网页来保证信息更新的效率,用户也可以根据需要也可设定全部采集;
7)反爬虫抓取:针对部分设置反爬虫程序网站应设置相关策略,避免无法抓取页面;
8)爬虫间隔抓取:采用网页评分和网站权重等自动生成间隔规则,对网页进行相应的间隔抓取;
9)自定义抓取规则:用户也可以自己设置抓取规则。
附图说明
图1为本发明的爬虫***结构框图;
图2为本发明中爬虫结点的结构原理框图;
图3为本发明中有害信息监测***的结构原理框图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
互联网数据中心有害信息监测***,它包括爬虫***和有害信息监测***,有害信息监测***通过爬虫***获取互联网数据中心中的网页数据,并对其进行有害分析。
(一)爬虫***
如图1所示,所述爬虫***负责从互联网上进行原始数据的发现、爬取和数据规格化。根据互联网上应用的不同,包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,并与有害信息监测***进行相互通信,爬虫结点用于采集网络中的有害信息。
如图2所示,本发明中,所述每个爬虫结点均由以下多种模块组成:
1、多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集;所述网页解析模块包括DNS解析模块、HTTP解析模块、FTP解析模块、GOPHER解析模块等;
实现多线程采集功能:能够针对不同类型的网站定制不同的策略,采集支持多线程,实现快速信息采集;
2、网页库,存储多线程网页采集模块所采集的网页;
3、编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理;支持GBK、GB2312、BIG5、UTF-8、UTF-16、BIGENDIAN、ISO8859-1等多种编码自动识别,***自动进行编码转换为UTF;
4、网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库抓取编码转换处理后存在有害信息网页的URL;能采集多种动态和静态网页,例如HTM、HTML、SHTML、XML、PHP、ASP、JSP、JavaScript等网页;
5、URL过滤器,过滤不需要下载的URL;
6、URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL一致,若一致则不再对该URL进行后续的处理;实现增量更新功能,保证爬虫结点只采集上次更新后新生成或更改的网页,不用重新采集已下载的网页来保证信息更新的效率,用户也可以根据需要也可设定全部采集;
7、URL调度模块,根据去重后的URL队列,控制多线程网页采集模块下载相应的网页。
8、网页去重模块,用于判断网页内容是否与已下载过的网页内容一致,若一致则不再对该网页进行后续的处理,并从网页库中将其删除。
9、指纹计算模块、指纹库和指纹去重模块,指纹计算模块根据网页指纹算法,将网页的内容经过计算生成指纹,指纹去重模块将该生成指纹与指纹库中的指纹进行对比,若存在相同或相近似的指纹,则判断该网页内容已下载过,指纹库用于存储指纹数据,且每个爬虫结点的指纹库进行同步更新。
10、间隔抓取模块,间隔抓取模块通过网页评分和网站权重自动生成间隔规则,并控制网页内容自动提取模块对网页进行相应的间隔抓取。
11、抓取规则设置模块,抓取规则设置模块根据所设置的抓取规则,控制网页内容自动提取模块对网页进行相应的抓取动作。
12、反爬虫抓取模块,当网页设置有反爬虫程序时,启动反爬虫抓取模块,对目标网页进行强制采集。
13、采集监控模块,采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理,并接收爬虫根节点的控制。
所述爬虫结点还包括标签计数器和标签计数日志文件,标签计数器用于记录网页库中的下载数,并将该数据记录在标签计数日志文件中。
所述爬虫***还包括全文数据库、索引数据库和列序数据库,全文数据库、索引数据库和列序数据库均与爬虫结点和爬虫根节点连接。
(二)有害信息监测***
如图1所示,所述有害信息监测***包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元。
1、有害信息搜索单元,包括本地搜索端口和网络搜索端口,本地搜索端口用于启动本地爬虫结点的搜索引擎,在本地执行该有害信息搜索任务。网络搜索端口用于启动多个爬虫结点的搜索引擎,通过多个爬虫结点同时执行该有害信息搜索任务,还通过该网络搜索端口将搜索结果返回到该本地爬虫结点。
有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合,通过多种筛选器及其组合完成精确搜索,如提供搜索关键词的权重、多个元数据字段的权重组合搜索等。
关键字筛选器:支持关键词逻辑表达式组合,包括AND、OR、NOT等。
标签字段筛选器:支持通过多个标签字段组合的逻辑“与或非”限定搜索。
元数据字段筛选器:能够定义多个元数据字段,通过参数挑选搜索结果。
时间筛选器:支持按照日期、相关度以及其他字段组合的排序功能。
字段标签搜索是通过建立索引文本的标签字段,用户可以针对性的选择标签组合,从而返回相应的限定结果。
有害信息搜索单元根据突发有害网络热词进行全网搜索,快捷搜索突发事件的有害数量、分布站点、有害热度。
2、关键字处理单元,用于生成关键字搜索指令,有害信息搜索单元采用布尔逻辑表达式,并根据该关键字搜索指令执行有害信息搜索任务。
所述关键字搜索指令包括分类ID号、事件名称、关键字选项、排除关键字选项、权重、起始时间。所述排除关键字选项用于使包含排除关键字选项中任一关键字的网页不会被匹配认定为有害信息网页。
3、模糊匹配单元,用于根据输入的搜索字符串匹配相近似的近似词汇,使有害信息搜索单元对搜索字符串进行搜索的同时,还完成近似词汇的搜索,并返回近似词汇搜索结果。
用户可以输入一句话、一段文字甚至是一整篇文章,***会分析用户检索条件的内容概念,然后从概念的相关度上来找出用户关心的结果。如果用户不知道查询的内容如何拼写,可以通过模糊搜索,***除了返回相应的搜索结果外,还返回与输入字符串相近的其他词汇,从而让用户发现相关的其他结果。
4、自动分词单元,用于将输入的搜索字符串进行自动提取关键字,使有害信息搜索单元根据该自动提取关键字完成精确搜索。自动分词模块是中文信息处理与分析的基础。以词典和规则为基础,综合利用基于概率分析的语言模型方法,并可根据不同的应用进行适合特定要求的分词。
5、自动摘要生成单元,自动摘要生成单元根据输入的搜索字符串及其近似词汇对目标网页动态的生成网页摘要。网页会根据输入的不同的搜索字符串而动态的生成不同的网页摘要,用户可根据该网页摘要来判断是否需要打开该网页进行审察,并能通过动态的网页摘要来了解返回结果中各个网页之间的关系。
所述自动摘要生成单元还通过关键字处理单元对网页进行关键字分析,自动提取关键字段生成网页摘要。当用户查看网页的具体内容时,自动摘要生成单元也能够自动对文章内容生成网页摘要,此时不需要根据搜索字符串及其近似词汇对网页进行分析。
自动摘要生成单元能够综合考虑词频、词性、位置信息,实现准确的自动提取分析关键词,并根据其分析出的关键字自动生成网页摘要。
6、结果统计分析单元,结果统计分析单元用于对返回的搜索结果进行分析统计,所述统计分析单元包括任务舆情图生成模块、报表生成模块、任务文章统计模块、任务趋势分析模块和任务概况分析模块。
所述任务舆情图生成模块根据搜索条件和搜索结果生成任务舆情图,包括有害信息数量统计、中标关键词数量统计和网页数量分类统计。
所述报表生成模块用于根据搜索结果信息生成报表,包括柱状图、折线图单棒图、双棒图、三棒图、多线图和X-Y图。
所述任务趋势分析模块用于生成增量图,包括每日增量图、每周增量图、每月增量图等。
所述任务概况分析模块用于生成图形化的任务列表、站点分布图和媒体分布图。
所述搜索结果包括有害的分布站点、传播途径、回帖率、点击率和参与者信息。
统计分析单元为用户提供了功能强大的查询功能,针对实时及历史数据进行分析、展现,针对历史数据应用进行数据挖掘,包括历史数据、巡检数据、网络数据、监控节点数据。可根据需要,灵活设置各种查询条件,提供多种统计分析报表,如单棒图、双棒图、三棒图、多线图、X-Y图(坐标点绘图)等形式,并可与调度服务相结合,生成多种输出格式的报表如word格式、PDF格式、Excel格式等,发送给指定用户,丰富决策分析功能,方便用户查询数据、分析趋势、制定调整方案。同时,***具有扩展性,为用户编辑图片。
本发明有害信息监测***还包括防火墙,爬虫***通过防火墙对互联网数据中心中的网页数据进行安全爬取。

Claims (9)

1.互联网数据中心有害信息监测***,它包括爬虫***和有害信息监测***,有害信息监测***通过爬虫***获取互联网数据中心中的网页数据,并对其进行有害分析,其特征在于:所述爬虫***包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,并与有害信息监测***进行相互通信,爬虫结点用于采集网络中的有害信息,爬虫结点均由以下多种模块组成:
多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集;
网页库,存储多线程网页采集模块所采集的网页;
编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理;
网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库根据敏感词库抓取编码转换处理后存在有害信息网页的URL;
URL过滤器,过滤不需要下载的URL;
URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL一致,若一致则不再对该URL进行后续的处理;
URL调度模块,根据去重后的URL队列,控制多线程网页采集模块下载相应的网页;
所述有害信息监测***包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元;
有害信息搜索单元包括本地搜索端口和网络搜索端口,本地搜索端口用于启动本地爬虫结点的搜索引擎,在本地执行该有害信息搜索任务;网络搜索端口用于启动多个爬虫结点的搜索引擎,通过多个爬虫结点同时执行该有害信息搜索任务,还通过该网络搜索端口将搜索结果返回到该本地爬虫结点;
有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合,通过多种筛选器及其组合完成精确搜索;
关键字处理单元用于生成关键字搜索指令,有害信息搜索单元根据该关键字搜索指令执行有害信息搜索任务;
模糊匹配单元用于根据输入的搜索字符串匹配相近似的近似词汇,使有害信息搜索单元对搜索字符串进行搜索的同时,还完成近似词汇的搜索,并返回近似词汇搜索结果;
自动分词单元用于将输入的搜索字符串进行自动提取关键字,使有害信息搜索单元根据该自动提取关键字完成精确搜索。
2.根据权利要求1所述的互联网数据中心有害信息监测***,其特征在于:所述爬虫结点还包括网页去重模块,用于判断网页内容是否与已下载过的网页内容一致,若一致则不再对该网页进行后续的处理,并从网页库中将其删除。
3.根据权利要求2所述的互联网数据中心有害信息监测***,其特征在于:所述网页去重模块包括指纹计算模块、指纹库和指纹去重模块,指纹计算模块根据网页指纹算法,将网页的内容经过计算生成指纹,指纹去重模块将该生成指纹与指纹库中的指纹进行对比,若存在相同或相近似的指纹,则判断该网页内容已下载过,指纹库用于存储指纹数据,且每个爬虫结点的指纹库进行同步更新。
4.根据权利要求1所述的互联网数据中心有害信息监测***,其特征在于:所述爬虫结点还包括间隔抓取模块,间隔抓取模块通过网页评分和网站权重自动生成间隔规则,并控制网页内容自动提取模块对网页进行相应的间隔抓取;
所述爬虫结点还包括抓取规则设置模块,抓取规则设置模块根据所设置的抓取规则,控制网页内容自动提取模块对网页进行相应的抓取动作;
所述爬虫结点还包括反爬虫抓取模块,当网页设置有反爬虫程序时,启动反爬虫抓取模块,对目标网页进行强制采集;
所述爬虫结点还包括采集监控模块,采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理,并接收爬虫根节点的控制。
5.根据权利要求1所述的互联网数据中心有害信息监测***,其特征在于:所述关键字搜索指令包括分类ID号、事件名称、关键字选项、排除关键字选项、权重、起始时间;所述排除关键字选项用于使包含排除关键字选项中任一关键字的网页不会被匹配认定为有害信息网页。
6.根据权利要求1所述的互联网数据中心有害信息监测***,其特征在于:所述有害信息监测***还包括自动摘要生成单元,自动摘要生成单元根据输入的搜索字符串及其近似词汇对目标网页动态的生成网页摘要;
所述自动摘要生成单元还通过关键字处理单元对网页进行关键字分析,自动提取关键字段生成网页摘要。
7.根据权利要求1所述的互联网数据中心有害信息监测***,其特征在于:所述有害信息监测***还包括结果统计分析单元,结果统计分析单元用于对返回的搜索结果进行分析统计,所述统计分析单元包括任务舆情图生成模块、报表生成模块、任务文章统计模块、任务趋势分析模块和任务概况分析模块。
8.根据权利要求7所述的互联网数据中心有害信息监测***,其特征在于:所述任务舆情图生成模块根据搜索条件和搜索结果生成任务舆情图,包括有害信息数量统计、中标关键词数量统计和网页数量分类统计;
所述报表生成模块用于根据搜索结果信息生成报表;
所述任务趋势分析模块用于生成增量图;
所述任务概况分析模块用于生成任务列表、站点分布图和媒体分布图。
9.根据权利要求1所述的互联网数据中心有害信息监测***,其特征在于:所述有害信息监测***还包括防火墙,爬虫***通过防火墙对互联网数据中心中的网页数据进行安全爬取。
CN201510343226.6A 2015-06-19 2015-06-19 互联网数据中心有害信息监测*** Expired - Fee Related CN104951539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510343226.6A CN104951539B (zh) 2015-06-19 2015-06-19 互联网数据中心有害信息监测***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510343226.6A CN104951539B (zh) 2015-06-19 2015-06-19 互联网数据中心有害信息监测***

Publications (2)

Publication Number Publication Date
CN104951539A CN104951539A (zh) 2015-09-30
CN104951539B true CN104951539B (zh) 2017-12-22

Family

ID=54166197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510343226.6A Expired - Fee Related CN104951539B (zh) 2015-06-19 2015-06-19 互联网数据中心有害信息监测***

Country Status (1)

Country Link
CN (1) CN104951539B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447081A (zh) * 2015-11-04 2016-03-30 国云科技股份有限公司 面向云平台的一种政务舆情监控方法
CN105743901B (zh) * 2016-03-07 2019-04-09 携程计算机技术(上海)有限公司 服务器、反爬虫***和反爬虫验证方法
CN107291778B (zh) * 2016-04-11 2023-05-30 中兴通讯股份有限公司 数据的收集方法及装置
CN105974811A (zh) * 2016-07-05 2016-09-28 无锡市华东电力设备有限公司 智能家居控制方法及其***
CN106302797B (zh) * 2016-08-31 2019-08-13 北京锐安科技有限公司 一种cookie访问去重方法和装置
WO2018053337A1 (en) 2016-09-16 2018-03-22 Oracle International Corporation Dynamic policy injection and access visualization for threat detection
US10721239B2 (en) 2017-03-31 2020-07-21 Oracle International Corporation Mechanisms for anomaly detection and access management
CN109886764B (zh) * 2017-12-06 2021-01-26 航天信息股份有限公司 一种基于物料组合的商品去重方法和***
CN108304481A (zh) * 2017-12-29 2018-07-20 成都三零凯天通信实业有限公司 一种面向多通道互联网新媒体数据的视图像内容布控方法
CN110020256A (zh) * 2017-12-30 2019-07-16 惠州学院 基于用户id和片尾内容的识别有害视频的方法及***
CN108536788A (zh) * 2018-03-29 2018-09-14 合肥俊刚机械科技有限公司 一种基于分布式爬虫的数据获取方法及其***
CN108550380A (zh) * 2018-04-12 2018-09-18 北京深度智耀科技有限公司 一种基于公共网络的药品安全信息监测方法和装置
CN109145233A (zh) * 2018-08-27 2019-01-04 山东浪潮商用***有限公司 互联网信息采集***
CN109286613A (zh) * 2018-08-28 2019-01-29 刘琦 一种网络舆情监测导控***
CN109783619A (zh) * 2018-12-14 2019-05-21 广东创我科技发展有限公司 一种数据过滤挖掘方法
CN110399554A (zh) * 2019-07-12 2019-11-01 苏州浪潮智能科技有限公司 一种网站内容特定信息的检测方法、装置和存储***
CN110543595B (zh) * 2019-08-12 2023-07-04 南京莱斯信息技术股份有限公司 一种站内搜索***及方法
CN111191098B (zh) * 2019-12-25 2022-10-18 山石网科通信技术股份有限公司 数据过滤方法及装置
CN112131462A (zh) * 2020-09-10 2020-12-25 中数通信息有限公司 一种基于信息监测的关键词发现方法、***和电子设备
CN112148956A (zh) * 2020-09-30 2020-12-29 上海交通大学 一种基于机器学习的暗网威胁情报挖掘***和方法
CN112632355A (zh) * 2020-11-26 2021-04-09 武汉虹旭信息技术有限责任公司 有害信息的碎片内容处理方法及装置
CN114238962A (zh) * 2021-09-29 2022-03-25 睿贸恒诚(山东)科技发展有限责任公司 一种基于移动互联网的有害信息过滤***及其方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和***
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
CN102841898A (zh) * 2011-06-23 2012-12-26 张家港凯纳信息技术有限公司 网络信息监控分析***
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析***及方法
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN103902667A (zh) * 2014-03-14 2014-07-02 浪潮电子信息产业股份有限公司 一种基于元搜索的网络信息采集器简单实现方法
US8782037B1 (en) * 2010-06-20 2014-07-15 Remeztech Ltd. System and method for mark-up language document rank analysis

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和***
US8782037B1 (en) * 2010-06-20 2014-07-15 Remeztech Ltd. System and method for mark-up language document rank analysis
CN102841898A (zh) * 2011-06-23 2012-12-26 张家港凯纳信息技术有限公司 网络信息监控分析***
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析***及方法
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN103902667A (zh) * 2014-03-14 2014-07-02 浪潮电子信息产业股份有限公司 一种基于元搜索的网络信息采集器简单实现方法

Also Published As

Publication number Publication date
CN104951539A (zh) 2015-09-30

Similar Documents

Publication Publication Date Title
CN104951539B (zh) 互联网数据中心有害信息监测***
CN104899324B (zh) 一种基于idc有害信息监测***的样本训练***
CN107808000B (zh) 一种暗网数据采集与抽取***及方法
CN110597981B (zh) 一种采用多策略自动生成摘要的网络新闻概要***
CN104899323B (zh) 一种用于idc有害信息监测平台的爬虫***
CN106991160B (zh) 一种基于用户影响力以及内容的微博传播预测方法
CN106096056A (zh) 一种基于分布式的舆情数据实时采集方法和***
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
CN107092639A (zh) 一种搜索引擎***
CN103593336A (zh) 一种基于语义分析的知识推送***及方法
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及***
Nikhil et al. A survey on text mining and sentiment analysis for unstructured web data
CN115757689A (zh) 一种信息查询***、方法及设备
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN104965894A (zh) 一种用于idc有害信息监测平台的数据分析***
CN116226494B (zh) 一种用于信息搜索的爬虫***及方法
Pandya et al. Mated: metadata-assisted twitter event detection system
Sun et al. Associative retrieval in spatial big data based on spreading activation with semantic ontology
Xu et al. Research on Tibetan hot words, sensitive words tracking and public opinion classification
Dey et al. Automatic skimming of web pages on a single click efficiently
Prasad et al. Face-Based Alumni Tracking on Social Media Using Deep Learning
Singh et al. User specific context construction for personalized multimedia retrieval
Do et al. Some research issues of harmful and violent content filtering for social networks in the context of large-scale and streaming data with Apache Spark
Sharma et al. A review study of server log formats for efficient web mining
CN109299400A (zh) 一种观点抽取方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171222

Termination date: 20180619

CF01 Termination of patent right due to non-payment of annual fee