CN102724059A - 基于MapReduce的网站运行状态监控与异常检测 - Google Patents

基于MapReduce的网站运行状态监控与异常检测 Download PDF

Info

Publication number
CN102724059A
CN102724059A CN2012100950378A CN201210095037A CN102724059A CN 102724059 A CN102724059 A CN 102724059A CN 2012100950378 A CN2012100950378 A CN 2012100950378A CN 201210095037 A CN201210095037 A CN 201210095037A CN 102724059 A CN102724059 A CN 102724059A
Authority
CN
China
Prior art keywords
website
flow
access
peak
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100950378A
Other languages
English (en)
Other versions
CN102724059B (zh
Inventor
邹权
唐振坤
蒋文瑞
林琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANGSHU ZHITANG TOWN XINSHENG TECHNICAL CONSULTATION SERVICE CO LTD
Original Assignee
CHANGSHU ZHITANG TOWN XINSHENG TECHNICAL CONSULTATION SERVICE CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHANGSHU ZHITANG TOWN XINSHENG TECHNICAL CONSULTATION SERVICE CO LTD filed Critical CHANGSHU ZHITANG TOWN XINSHENG TECHNICAL CONSULTATION SERVICE CO LTD
Priority to CN201210095037.8A priority Critical patent/CN102724059B/zh
Publication of CN102724059A publication Critical patent/CN102724059A/zh
Application granted granted Critical
Publication of CN102724059B publication Critical patent/CN102724059B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明采用MapReduce并行编程模型,完成状态监控与异常检测,其从海量的日志文件中抓取最佳信息点,并采用有效的策略,高效、准确的捕捉出访问过程中的异常行为。本发明采取四种并行策略对网址日志进行分析处理,从而达到对网站运行状态的监控和异常访问检测。这四种策略分别是状态监控、特征异常检测、流量峰值检测、决策树学习访问规则。

Description

基于MapReduce的网站运行状态监控与异常检测
技术领域
基于MapReduce的网站运行状态监控与异常检测属于通过对网站日志的挖掘处理改善网站服务性能的技术领域。
背景技术
网站,因特网上一块固定的面向全世界发布消息的地方,由域名(也就是网站地址)和网站空间构成,通常包括主页和其他具有超链接文件的页面。它的出现为现代社会带来了不可替代的作用,如宣传自我形象、提供丰富便捷的信息,为商业扩展业务渠道等等.为了让网站能够长期稳定地运行在Internet上,让使用者在瞬息万变的信息社会中抓住更多的网络商机,网站的维护与改善成为至关重要的环节。
网站的维护大多基于网站的访问日志,日志记录了所有用户的访问行为,可以有效地找出用户和网站的交互规律,从而对提高网站的关注度以及改善网站服务(包括改善链接的有效性和利用缓存提高网站访问速度等)都有重要的作用。
传统的日志挖掘处理多采用机器学习(黎铭等, 2004)及可视化结合人工处理的方法。尤其是最近机器学习研究领域的最新方法已经被用于日志数据挖掘,如基于反馈的主动学习(Georges et al, 2010)。由于反馈信息较难获得,这种方法通常应用于搜索引擎的个性化推荐***。国内这方面也有较好的工作,如吉林大学的刘大有、杨博教授等利用机器学习方法识别到日志中的重复任务,进而节省运算时间(李嘉菲等, 2007);福州大学的陈国龙教授利用机器学习和优化方法在日志文件中检测入侵,然而这些传统的方法没有利用并行机制,注定无法应用于访问量巨大的门户网站。而且互联网信息瞬息万变,传统分析所带来的延时大大降低的网络信息的价值。在这样的情况下,提出一种实时高效、准确的分析策略,就显得尤为重要。
MapReduce是Google提出的一种并行编程模型,用于大规模数据集(可以大于1TB)的并行运算。MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性和分布性,对于这些分布的数据分别分配任务进行处理,以达到并行化的处理效果,即使待处理数据飞速增长,只需要动态的增加集群的节点数目即可,而且节点不需要是具特殊功能的高性能机器,只需要普通的商用机即可。如何利用这种成本低廉的并行处理机制来对网站高效地处理分析,进而达到实时地监控网站的运行状态,检测异常行为,是本发明所要解决的关键问题。
发明内容
传统的日志分析方法无法解决访问量巨大的门户网站,而且即使能处理大量的日志,处理时间的延缓性会大大降低日志分析的潜在价值。而且面对非结构化的日志文件,采取何种分析策略,分析日志的哪些方面,对于网站的建设改善亦有至关重要的影响。针对这些问题,本发明采用MapReduce并行编程模型,从海量的日志文件中抓取最佳信息点,并采用有效的策略,高效、准确的捕捉出访问过程中的异常行为。
本发明的特征在于,它完成状态监控与异常检测,并依次采用以下步骤:
1.状态监控
步骤(1.1):分析异常状态码,采用线性回归策略自动汇报异常情况
日志记录中的状态码能有效反应出网站的运行状态,常见的异常状态码有: 
3xx - 重定向 
客户端浏览器必须采取更多操作来实现请求。例如,浏览器可能不得不请求服务器上的不同的页面,或通过代理服务器重复该请求。常见:301(永久定向)、302(临时定向) 
4xx - 客户端错误 
发生错误,客户端似乎有问题。例如,客户端请求不存在的页面,客户端未提供有
效的身份验证信息。常见:404(未找到,不存在) 
5xx - 服务器错误 
通过日志抽出每日这三类异常状态码,观察网站的运行状态,常见作用如: 
找出死链接 
找出临时重定向(搜索引擎蜘蛛不喜欢临时重定向) 对于404,需要检查这个文件是否存在,如果文件存在而返回了404 则可能是因为服务器不稳定因素造成,可能是服务器本身问题也可能是被攻击。如果文件本身就不存在而蜘蛛还会去爬那个不存在的页面,则是因为还有其他页面有链接到那个不存在的页面
步骤(1.2):每秒访问次数和流量统计,并计算当日平均每秒访问次数和流量统,及排名前10的每秒访问次数和流量
访问流量的汇报用于告诉预报是否有采集程序在大量抓取网站数据,这种行为会严重影响网站的服务性能,通过报告每日排名前10的每秒访问次数和流量及平均指标,能直观的反应出是否有采集程序的出现
步骤(1.3):蜘蛛爬虫统计分析
蜘蛛的来访数量以及频率是网站健康程度与网站权重的指标之一 
统计搜索引擎蜘蛛的抓取频率主要作用在于: 
1.预测其关键词排名情况: 
如果以前蜘蛛每天要来成百上千次,那么这个时候你的网站是具备吸引力,往往关键词的表现也比较稳健,而当蜘蛛来访次数发生比较大减少时,说明你的网站发生了问题,可能是因为改版、或者遭受了惩罚等等原因,这个时候通过来访次数减少,你就应该有一种预感,关键词排名要发生变动了。 
2.发现搜索引擎访问了哪些没必要的东西、图片,然后可以用robots.txt 文件禁用,因为这样可以让蜘蛛更多的去访问有用的东西,从而让网站更多的被收录
步骤(1.4):页面分区板块访问排名
统计各个板块的页面访问量,是分析网站内容、排版是否有吸引力的最直接方式
说明:以上状态监控各步骤均采用MapReduce并行模型
2.特征异常检测
步骤(2.1):MapReduce模型并行统计出每日访问量过万的IP,保存做进一步的分析
步骤(2.2):对于符合步骤1的IP,检察其用户代理信息为空的几率,如果几率大于阈值T1,则进入下一步的分析
步骤(2.3):继续检察满足步骤1,2的IP,验证其请求资源类型的分布结构(HTML、XML、CSS、JS),如果请求HTML的几率大于阈值T2,进入下一步分析
步骤(2.4):对于满足步骤1,2,3的IP,采用MapReduce并行模型统计当前IP的访问频率,如果访问频率大于阈值T3,则当前IP被判定为异常采集程序
3.流量峰值检测
步骤(3.1):读取网站访问规则
正常网站的访问流量一般较为平稳,虽然也有峰值频发的情况,但都呈现出一定的规律性,如新闻网站的上午时间通常出现高峰,而周末的上午时间则流量小于工作日;足球直播网站的高峰通常出现在周末晚间;股票网站在工作日的9点至15点访问量较高。通过在进行日志分析设定此与类相关的经验规则,可有助于流量检测的精确性和可靠性。
本程序通过指定天、星期、时等信息来指定已经发现的访问规律,如下表格所示:
星期 起始时间 结束时间 注释
ALL ALL 07:00:00 09:00:00 #每天早上的用户访问高峰
ALL 6 21:00:00 23:00:00 #周六,该用户在周末两天有一档较为火热的节目,因此流量较高,平时有一些球赛直播
在与日志文件相关联的同名规则文件中,可指定上述规则信息。在上面表格的例1中,意即在每天早上的7:00至9:00时段,会出现一些访问流量高峰。当检测到这些高峰时,可默认为是正常流量访问。而例2则表示每周六均会出现较高的流量高峰,因此设定这些合理规则可在搜索异常流量峰值访问时,提高程序的可靠性。
步骤(3.2):获取流量整体偏差
通过观察,流量整体偏差直接可反映出访问流量的分布情况,访问情况均匀正常的流量表现为较低的偏差值,而异常频发的日志流量则表现为较高的偏差值,而整体偏差则反映着该网站的整体流量访问情况。
步骤(3.3):搜索异常峰值访问点
通过设定窗口w和偏差系数k初始值,程序将以固定的窗口单位来检测时间区间内的峰值访问。首先,程序会首先通过计算该时间区间的流量偏差S’,与整体访问流量偏差S进行比较,如果S’>k*S,则表明该窗口区间w内存在着异常峰值。然后通过连续向后不断检测该区间,直到找到最大的峰值点,判断该峰值点是否出现在先前定义的网站合理规则定义中,如果是则报告该峰值为正常,并提示匹配规则,否则报告异常流量峰值访问,以醒目红色状态提醒。
决策树学习访问规则
步骤(4.1):显示异常流量列表
在流量峰值检测阶段,网站每次的访问流量将会通过异常峰值搜索算法标记出,这些异常峰值不仅会触发异常警报,提醒管理员注意当前流量状态,也会进一步提供操作界面给管理员分析当前状态的真实情况。
步骤(4.2):手动纠正异常流量
如果在当前的异常峰值属于正常,意即当前的访问规则中没有此类规则,属于误报情况,则会通过管理员在操作界面中的交互操作,提供进一步的学习,以提高程序监控与检测的准确率。
步骤(4.3):决策树学习访问规则
决策树学习通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值。
在这里,我们首先针对网站日志访问记录提取各个特征属性如下:天、星期、时间、流量值、异常与否,同时应用能处理连续属性的C4.5决策树学习算法,在其基础上,还加入增量学习的特性,使得学习过程不仅能完成网站访问规则的提取,同时还能满足网站日志访问流式记录的特点,在不丢失原有学习规则的基础上,加入新的数据,进行进一步的学习。
步骤(4.4):更新网站访问规则
在完成决策树学习阶段后,***会将这些学习到的新规则动态地更新到流量异常检测阶段中,从而提高异常检测的准确率。
附图说明
图1. 网站日志格式说明
图2. MapReduce并行模型示意图
图3. 异常状态码分析示意图
图4. 蜘蛛爬虫来访统计情况示意图
图5. 页面分区板块访问统计示意图
图6. 特征异常检测流程图
图7. 流量峰值检测主界面图
图8. 流量峰值检测程序-选择数据文件目录图
图9. 流量峰值检测运行效果图。
具体实施方式
网站的维护大多基于网站的访问日志,日志记录了所有用户的访问行为,可以有效地找出用户和网站的交互规律,从而对提高网站的关注度以及改善网站服务(包括改善链接的有效性和利用缓存提高网站访问速度等)都有重要的作用
传统的日志分析方法没有利用并行机制,注定无法应用于访问量巨大的门户网站。而且互联网信息瞬息万变,传统分析所带来的延时大大降低的网络信息的价值。在这样的情况下,提出一种低廉、实时、高效、准确的分析策略,就显得尤为重要。
本发明采取四种并行策略对网址日志进行分析处理,从而达到对网站运行状态的监控和异常访问检测。这四种策略分别是状态监控、特征异常检测、流量峰值检测、决策树学习访问规则。
其中状态监控以MapReduce并行模型统计和分析日志的状态码、每秒访问次数、每秒访问流量、蜘蛛爬虫访问情况、页面分区版块访问情况等几个方面,从而高效地得出整个网站的运行状态,对于网站的良性运行具有很大的意义。
本发明点的应用示例图见图3、图4、图5
特征异常检测从访问IP、请求资源类型两大基本特征出发,采取MapReduce并行计算策略快速地在海量的日志文件中挖掘出异常访问点
流量峰值检测抓住网站访问流量这一基本特征,分析流量峰值与流量整体偏差。流量整体偏差直接可反映出访问流量的分布情况,访问情况均匀正常的流量表现为较低的偏差值,而异常频发的日志流量则表现为较高的偏差值。对于峰值的判断,通过设定窗口w和偏差系数k初始值,程序将以固定的窗口单位来检测时间区间内的峰值访问。首先,程序会首先通过计算该时间区间的流量偏差S’,与整体访问流量偏差S进行比较,如果S’>k*S,则表明该窗口区间w内存在着异常峰值。然后通过连续向后不断检测该区间,直到找到最大的峰值点,判断该峰值点是否出现在先前定义的网站合理规则定义中,如果是则报告该峰值为正常,并提示匹配规则,否则报告异常流量峰值访问,以醒目红色状态提醒。
本发明点的应用示例图见图9
决策树学习访问规则采用机器学习中的决策树分类思想,构建基于MapReduce的并行模型自动分类器,该分类器的构建是以正常流量特征与异常流量特征为输入,通过学习得到基于MapReduce的并行分类器。

Claims (1)

1.基于MapReduce的网站运行状态监控与异常检测,其特征在于,该发明依次含有以下步骤:
状态监控
分析异常状态码,采用线性回归策略自动汇报异常情况
日志记录中的状态码能有效反应出网站的运行状态,常见的异常状态码有: 
3xx - 重定向 
客户端浏览器必须采取更多操作来实现请求;
例如,浏览器可能不得不请求服务器上的不同的页面,或通过代理服务器重复该请求;
常见:301(永久定向)、302(临时定向) 
4xx - 客户端错误 
发生错误,客户端似乎有问题;
例如,客户端请求不存在的页面,客户端未提供有
效的身份验证信息;
常见:404(未找到,不存在) 
5xx - 服务器错误 
通过日志抽出每日这三类异常状态码,观察网站的运行状态,常见作用如: 
找出死链接 
找出临时重定向(搜索引擎蜘蛛不喜欢临时重定向) 对于404,需要检查这个文件是否存在,如果文件存在而返回了404 则可能是因为服务器不稳定因素造成,可能是服务器本身问题也可能是被攻击;
如果文件本身就不存在而蜘蛛还会去爬那个不存在的页面,则是因为还有其他页面有链接到那个不存在的页面
每秒访问次数和流量统计,并计算当日平均每秒访问次数和流量统,及排名前10的每秒访问次数和流量
访问流量的汇报用于告诉预报是否有采集程序在大量抓取网站数据,这种行为会严重影响网站的服务性能,通过报告每日排名前10的每秒访问次数和流量及平均指标,能直观的反应出是否有采集程序的出现
蜘蛛爬虫统计分析
蜘蛛的来访数量以及频率是网站健康程度与网站权重的指标之一 
统计搜索引擎蜘蛛的抓取频率主要作用在于: 
1.预测其关键词排名情况: 
如果以前蜘蛛每天要来成百上千次,那么这个时候你的网站是具备吸引力,往往关键词的表现也比较稳健,而当蜘蛛来访次数发生比较大减少时,说明你的网站发生了问题,可能是因为改版、或者遭受了惩罚等等原因,这个时候通过来访次数减少,你就应该有一种预感,关键词排名要发生变动了;
2.发现搜索引擎访问了哪些没必要的东西、图片,然后可以用robots.txt 文件禁用,因为这样可以让蜘蛛更多的去访问有用的东西,从而让网站更多的被收录
页面分区板块访问排名
统计各个板块的页面访问量,是分析网站内容、排版是否有吸引力的最直接方式
说明:以上状态监控各步骤均采用MapReduce并行模型
特征异常检测
MapReduce模型并行统计出每日访问量过万的IP,保存做进一步的分析
对于符合步骤1的IP,检察其用户代理信息为空的几率,如果几率大于阈值T1,则进入下一步的分析
继续检察满足步骤1,2的IP,验证其请求资源类型的分布结构(HTML、XML、CSS、JS),如果请求HTML的几率大于阈值T2,进入下一步分析
对于满足步骤1,2,3的IP,采用MapReduce并行模型统计当前IP的访问频率,如果访问频率大于阈值T3,则当前IP被判定为异常采集程序
流量峰值检测
正常网站的访问流量一般较为平稳,虽然也有峰值频发的情况,但都呈现出一定的规律性,如新闻网站的上午时间通常出现高峰,而周末的上午时间则流量小于工作日;足球直播网站的高峰通常出现在周末晚间;股票网站在工作日的9点至15点访问量较高;
通过在进行日志分析设定此与类相关的经验规则,可有助于流量检测的精确性和可靠性;
本程序通过指定天、星期、时等信息来指定已经发现的访问规律,如下表格所示:
星期 起始时间 结束时间 注释 ALL ALL 07:00:00 09:00:00 #每天早上的用户访问高峰 ALL 6 21:00:00 23:00:00 #周六,该用户在周末两天有一档较为火热的节目,因此流量较高,平时有一些球赛直播
在与日志文件相关联的同名规则文件中,可指定上述规则信息;
在上面表格的例1中,意即在每天早上的7:00至9:00时段,会出现一些访问流量高峰;
当检测到这些高峰时,可默认为是正常流量访问;
而例2则表示每周六均会出现较高的流量高峰,因此设定这些合理规则可在搜索异常流量峰值访问时,提高程序的可靠性;
步骤(3.2):获取流量整体偏差
通过观察,流量整体偏差直接可反映出访问流量的分布情况,访问情况均匀正常的流量表现为较低的偏差值,而异常频发的日志流量则表现为较高的偏差值,而整体偏差则反映着该网站的整体流量访问情况;
步骤(3.3):搜索异常峰值访问点
通过设定窗口w和偏差系数k初始值,程序将以固定的窗口单位来检测时间区间内的峰值访问;
首先,程序会首先通过计算该时间区间的流量偏差S’,与整体访问流量偏差S进行比较,如果S’>k*S,则表明该窗口区间w内存在着异常峰值;
然后通过连续向后不断检测该区间,直到找到最大的峰值点,判断该峰值点是否出现在先前定义的网站合理规则定义中,如果是则报告该峰值为正常,并提示匹配规则,否则报告异常流量峰值访问,以醒目红色状态提醒;
决策树学习访问规则
在流量峰值检测阶段,网站每次的访问流量将会通过异常峰值搜索算法标记出,这些异常峰值不仅会触发异常警报,提醒管理员注意当前流量状态,也会进一步提供操作界面给管理员分析当前状态的真实情况;
步骤(4.2):手动纠正异常流量
如果在当前的异常峰值属于正常,意即当前的访问规则中没有此类规则,属于误报情况,则会通过管理员在操作界面中的交互操作,提供进一步的学习,以提高程序监控与检测的准确率;
步骤(4.3):决策树学习访问规则
决策树学习通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类;
树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值;
在这里,我们首先针对网站日志访问记录提取各个特征属性如下:天、星期、时间、流量值、异常与否,同时应用能处理连续属性的C4.5决策树学习算法,在其基础上,还加入增量学习的特性,使得学习过程不仅能完成网站访问规则的提取,同时还能满足网站日志访问流式记录的特点,在不丢失原有学习规则的基础上,加入新的数据,进行进一步的学习;
步骤(4.4):更新网站访问规则
在完成决策树学习阶段后,***会将这些学习到的新规则动态地更新到流量异常检测阶段中,从而提高异常检测的准确率。
CN201210095037.8A 2012-03-31 2012-03-31 基于MapReduce的网站运行状态监控与异常检测 Expired - Fee Related CN102724059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210095037.8A CN102724059B (zh) 2012-03-31 2012-03-31 基于MapReduce的网站运行状态监控与异常检测

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210095037.8A CN102724059B (zh) 2012-03-31 2012-03-31 基于MapReduce的网站运行状态监控与异常检测

Publications (2)

Publication Number Publication Date
CN102724059A true CN102724059A (zh) 2012-10-10
CN102724059B CN102724059B (zh) 2015-03-11

Family

ID=46949728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210095037.8A Expired - Fee Related CN102724059B (zh) 2012-03-31 2012-03-31 基于MapReduce的网站运行状态监控与异常检测

Country Status (1)

Country Link
CN (1) CN102724059B (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019855A (zh) * 2012-11-21 2013-04-03 北京航空航天大学 MapReduce作业执行时间预测方法
CN103077107A (zh) * 2012-12-31 2013-05-01 Tcl集团股份有限公司 一种数据维护方法及***
CN103248625A (zh) * 2013-04-27 2013-08-14 北京京东尚科信息技术有限公司 一种网络爬虫运行异常监控方法和***
CN103605735A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站数据分析方法及装置
CN103605714A (zh) * 2013-11-14 2014-02-26 北京国双科技有限公司 网站异常数据的识别方法及装置
CN103812715A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种判断网站运行状态的方法
CN104077328A (zh) * 2013-03-29 2014-10-01 百度在线网络技术(北京)有限公司 MapReduce分布式***的作业诊断方法及设备
CN104239197A (zh) * 2014-10-10 2014-12-24 浪潮电子信息产业股份有限公司 一种基于大数据日志分析的管理用户异常行为发现方法
CN104657392A (zh) * 2013-11-25 2015-05-27 腾讯科技(深圳)有限公司 一种实现检索异常还原的方法及装置
CN105610616A (zh) * 2015-12-29 2016-05-25 赛尔网络有限公司 基于icp活跃度的接入网单个ip平均流量统计方法及***
CN105930255A (zh) * 2015-10-16 2016-09-07 ***股份有限公司 一种***健康度预测方法及装置
CN106611023A (zh) * 2015-10-27 2017-05-03 北京国双科技有限公司 网站访问异常的检测方法及装置
CN107196968A (zh) * 2017-07-12 2017-09-22 深圳市活力天汇科技股份有限公司 一种爬虫识别方法
CN107438079A (zh) * 2017-08-18 2017-12-05 杭州安恒信息技术有限公司 一种网站未知异常行为的检测方法
CN107454083A (zh) * 2017-08-08 2017-12-08 四川长虹电器股份有限公司 反爬虫的方法
CN107707427A (zh) * 2017-09-28 2018-02-16 南华大学 一种网站可用性监控***及方法
CN107707574A (zh) * 2017-11-23 2018-02-16 四川长虹电器股份有限公司 一种基于访问行为的反爬虫方法
CN107743135A (zh) * 2017-12-01 2018-02-27 江彩莲 流量监测方法
CN107809331A (zh) * 2017-10-25 2018-03-16 北京京东尚科信息技术有限公司 识别异常流量的方法和装置
CN107819727A (zh) * 2016-09-13 2018-03-20 腾讯科技(深圳)有限公司 一种基于ip地址安全信誉度的网络安全防护方法及***
CN108255868A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 检查网站中链接的方法和装置
CN108270727A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 异常数据分析方法和装置
CN108459936A (zh) * 2017-02-20 2018-08-28 北京畅游时空软件技术有限公司 一种基于内容模块化的精准统计方法及装置
CN109120592A (zh) * 2018-07-09 2019-01-01 四川大学 一种基于用户行为的Web异常检测***
CN109257196A (zh) * 2017-07-12 2019-01-22 阿里巴巴集团控股有限公司 一种异常处理方法及设备
CN109560977A (zh) * 2017-09-25 2019-04-02 北京国双科技有限公司 网站业务监控方法、装置、存储介质、处理器及电子设备
CN109586942A (zh) * 2017-09-29 2019-04-05 北京国双科技有限公司 网站性能评定方法及装置
CN110008100A (zh) * 2019-03-08 2019-07-12 阿里巴巴集团控股有限公司 用于网页访问量异常检测的方法及装置
CN110019987A (zh) * 2018-11-28 2019-07-16 阿里巴巴集团控股有限公司 一种基于决策树的日志匹配方法和装置
CN110852387A (zh) * 2019-11-13 2020-02-28 江苏能来能源互联网研究院有限公司 一种能源互联网超实时状态研判算法
CN110969358A (zh) * 2019-12-04 2020-04-07 国网浙江省电力有限公司 一种电力电子渠道运营的风险控制方法
CN111106959A (zh) * 2019-12-20 2020-05-05 贵州黔岸科技有限公司 用于运输管理***的异常监控报警***及方法
CN112019508A (zh) * 2020-07-28 2020-12-01 杭州安恒信息技术股份有限公司 基于Web日志分析检测DDos攻击的方法、***和电子装置
CN112039854A (zh) * 2020-08-13 2020-12-04 深圳市信锐网科技术有限公司 一种数据传输方法、装置和存储介质
CN112989157A (zh) * 2019-12-13 2021-06-18 网宿科技股份有限公司 一种检测爬虫请求的方法和装置
CN113810743A (zh) * 2021-08-26 2021-12-17 微梦创科网络科技(中国)有限公司 一种直播间流量监控方法和装置
CN114253811A (zh) * 2021-12-24 2022-03-29 深圳市盘古数据有限公司 一种数据中心***智能监控方法
CN114285612A (zh) * 2021-12-14 2022-04-05 北京天融信网络安全技术有限公司 一种异常数据检测的方法、***、装置、设备及介质
WO2023178892A1 (zh) * 2022-03-22 2023-09-28 通号智慧城市研究设计院有限公司 应用软件测试方法、电子设备和计算机可读存储介质
CN117687890A (zh) * 2024-02-02 2024-03-12 山东大学 基于操作日志的异常操作识别方法、***、介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080209030A1 (en) * 2007-02-28 2008-08-28 Microsoft Corporation Mining Web Logs to Debug Wide-Area Connectivity Problems
CN102169505A (zh) * 2011-05-16 2011-08-31 苏州两江科技有限公司 基于云计算的推荐***构建方法
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080209030A1 (en) * 2007-02-28 2008-08-28 Microsoft Corporation Mining Web Logs to Debug Wide-Area Connectivity Problems
CN102169505A (zh) * 2011-05-16 2011-08-31 苏州两江科技有限公司 基于云计算的推荐***构建方法
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋莹等: ""基于Hadoop的Web日志预处理的设计与实现"", 《电信工程技术与标准化》, 30 November 2011 (2011-11-30) *
白鹤等: ""分布式多主题网络爬虫***的研究与实现"", 《计算机工程》, vol. 35, no. 19, 30 October 2009 (2009-10-30) *

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103812715A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种判断网站运行状态的方法
CN103019855B (zh) * 2012-11-21 2015-06-03 北京航空航天大学 MapReduce作业执行时间预测方法
CN103019855A (zh) * 2012-11-21 2013-04-03 北京航空航天大学 MapReduce作业执行时间预测方法
CN103077107A (zh) * 2012-12-31 2013-05-01 Tcl集团股份有限公司 一种数据维护方法及***
CN103077107B (zh) * 2012-12-31 2016-12-28 Tcl集团股份有限公司 一种数据维护方法及***
CN104077328B (zh) * 2013-03-29 2019-05-24 百度在线网络技术(北京)有限公司 MapReduce分布式***的作业诊断方法及设备
CN104077328A (zh) * 2013-03-29 2014-10-01 百度在线网络技术(北京)有限公司 MapReduce分布式***的作业诊断方法及设备
CN103248625B (zh) * 2013-04-27 2016-09-14 北京京东尚科信息技术有限公司 一种网络爬虫运行异常监控方法和***
CN103248625A (zh) * 2013-04-27 2013-08-14 北京京东尚科信息技术有限公司 一种网络爬虫运行异常监控方法和***
CN103605714B (zh) * 2013-11-14 2017-10-03 北京国双科技有限公司 网站异常数据的识别方法及装置
CN103605714A (zh) * 2013-11-14 2014-02-26 北京国双科技有限公司 网站异常数据的识别方法及装置
CN103605735A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站数据分析方法及装置
CN104657392A (zh) * 2013-11-25 2015-05-27 腾讯科技(深圳)有限公司 一种实现检索异常还原的方法及装置
CN104239197A (zh) * 2014-10-10 2014-12-24 浪潮电子信息产业股份有限公司 一种基于大数据日志分析的管理用户异常行为发现方法
CN105930255A (zh) * 2015-10-16 2016-09-07 ***股份有限公司 一种***健康度预测方法及装置
CN105930255B (zh) * 2015-10-16 2019-01-29 ***股份有限公司 一种***健康度预测方法及装置
CN106611023A (zh) * 2015-10-27 2017-05-03 北京国双科技有限公司 网站访问异常的检测方法及装置
CN105610616A (zh) * 2015-12-29 2016-05-25 赛尔网络有限公司 基于icp活跃度的接入网单个ip平均流量统计方法及***
CN105610616B (zh) * 2015-12-29 2019-04-26 赛尔网络有限公司 基于icp活跃度的接入网单个ip平均流量统计方法及***
CN107819727A (zh) * 2016-09-13 2018-03-20 腾讯科技(深圳)有限公司 一种基于ip地址安全信誉度的网络安全防护方法及***
CN108255868A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 检查网站中链接的方法和装置
CN108270727A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 异常数据分析方法和装置
CN108459936B (zh) * 2017-02-20 2021-05-14 北京畅游时空软件技术有限公司 一种基于内容模块化的精准统计方法及装置
CN108459936A (zh) * 2017-02-20 2018-08-28 北京畅游时空软件技术有限公司 一种基于内容模块化的精准统计方法及装置
CN109257196A (zh) * 2017-07-12 2019-01-22 阿里巴巴集团控股有限公司 一种异常处理方法及设备
CN107196968A (zh) * 2017-07-12 2017-09-22 深圳市活力天汇科技股份有限公司 一种爬虫识别方法
CN107454083A (zh) * 2017-08-08 2017-12-08 四川长虹电器股份有限公司 反爬虫的方法
CN107438079B (zh) * 2017-08-18 2020-05-01 杭州安恒信息技术股份有限公司 一种网站未知异常行为的检测方法
CN107438079A (zh) * 2017-08-18 2017-12-05 杭州安恒信息技术有限公司 一种网站未知异常行为的检测方法
CN109560977A (zh) * 2017-09-25 2019-04-02 北京国双科技有限公司 网站业务监控方法、装置、存储介质、处理器及电子设备
CN107707427A (zh) * 2017-09-28 2018-02-16 南华大学 一种网站可用性监控***及方法
CN109586942A (zh) * 2017-09-29 2019-04-05 北京国双科技有限公司 网站性能评定方法及装置
CN107809331B (zh) * 2017-10-25 2020-11-24 北京京东尚科信息技术有限公司 识别异常流量的方法和装置
CN107809331A (zh) * 2017-10-25 2018-03-16 北京京东尚科信息技术有限公司 识别异常流量的方法和装置
CN107707574A (zh) * 2017-11-23 2018-02-16 四川长虹电器股份有限公司 一种基于访问行为的反爬虫方法
CN107743135A (zh) * 2017-12-01 2018-02-27 江彩莲 流量监测方法
CN109120592A (zh) * 2018-07-09 2019-01-01 四川大学 一种基于用户行为的Web异常检测***
CN110019987A (zh) * 2018-11-28 2019-07-16 阿里巴巴集团控股有限公司 一种基于决策树的日志匹配方法和装置
CN110019987B (zh) * 2018-11-28 2023-05-09 创新先进技术有限公司 一种基于决策树的日志匹配方法和装置
CN110008100A (zh) * 2019-03-08 2019-07-12 阿里巴巴集团控股有限公司 用于网页访问量异常检测的方法及装置
CN110008100B (zh) * 2019-03-08 2023-03-14 创新先进技术有限公司 用于网页访问量异常检测的方法及装置
CN110852387A (zh) * 2019-11-13 2020-02-28 江苏能来能源互联网研究院有限公司 一种能源互联网超实时状态研判算法
CN110852387B (zh) * 2019-11-13 2022-04-22 江苏能来能源互联网研究院有限公司 一种能源互联网超实时状态研判算法
CN110969358A (zh) * 2019-12-04 2020-04-07 国网浙江省电力有限公司 一种电力电子渠道运营的风险控制方法
CN112989157A (zh) * 2019-12-13 2021-06-18 网宿科技股份有限公司 一种检测爬虫请求的方法和装置
CN111106959A (zh) * 2019-12-20 2020-05-05 贵州黔岸科技有限公司 用于运输管理***的异常监控报警***及方法
CN111106959B (zh) * 2019-12-20 2022-10-14 贵州黔岸科技有限公司 用于运输管理***的异常监控报警***及方法
CN112019508A (zh) * 2020-07-28 2020-12-01 杭州安恒信息技术股份有限公司 基于Web日志分析检测DDos攻击的方法、***和电子装置
CN112039854A (zh) * 2020-08-13 2020-12-04 深圳市信锐网科技术有限公司 一种数据传输方法、装置和存储介质
CN113810743A (zh) * 2021-08-26 2021-12-17 微梦创科网络科技(中国)有限公司 一种直播间流量监控方法和装置
CN114285612A (zh) * 2021-12-14 2022-04-05 北京天融信网络安全技术有限公司 一种异常数据检测的方法、***、装置、设备及介质
CN114285612B (zh) * 2021-12-14 2023-09-26 北京天融信网络安全技术有限公司 一种异常数据检测的方法、***、装置、设备及介质
CN114253811A (zh) * 2021-12-24 2022-03-29 深圳市盘古数据有限公司 一种数据中心***智能监控方法
WO2023178892A1 (zh) * 2022-03-22 2023-09-28 通号智慧城市研究设计院有限公司 应用软件测试方法、电子设备和计算机可读存储介质
CN117687890A (zh) * 2024-02-02 2024-03-12 山东大学 基于操作日志的异常操作识别方法、***、介质及设备
CN117687890B (zh) * 2024-02-02 2024-05-03 山东大学 基于操作日志的异常操作识别方法、***、介质及设备

Also Published As

Publication number Publication date
CN102724059B (zh) 2015-03-11

Similar Documents

Publication Publication Date Title
CN102724059B (zh) 基于MapReduce的网站运行状态监控与异常检测
Bordin et al. Dspbench: A suite of benchmark applications for distributed data stream processing systems
CN103297435B (zh) 一种基于web日志的异常访问行为检测方法与***
WO2017107965A1 (zh) 一种web异常检测方法和装置
CN106778253A (zh) 基于大数据的威胁情景感知信息安全主动防御模型
CN104281607A (zh) 微博热点话题分析方法
CN105718587A (zh) 一种网络内容资源评估方法及评估***
CN106709012A (zh) 一种大数据分析方法及装置
CN106021583B (zh) 页面流量数据的统计方法及其***
CN104426713A (zh) 网络站点访问效果数据的监测方法和装置
CN104182506A (zh) 日志管理方法
CN103546326A (zh) 一种网站流量统计的方法
CN106407429A (zh) 文件追踪方法、装置及***
CN106021418A (zh) 新闻事件的聚类方法及装置
CN103559203A (zh) 网页排序方法、装置和***
CN107153702A (zh) 一种数据处理方法及装置
Sujatha Improved user navigation pattern prediction technique from web log data
CN106815277B (zh) 搜索引擎优化的评估方法及装置
Maske et al. A real time processing and streaming of wireless network data using storm
CN107357919A (zh) 行为日志查询***及方法
CN117194833A (zh) 一种网页跳转评价方法
CN104391958B (zh) 网页搜索关键词的相关性检测方法及装置
CN104376021A (zh) 文件推荐***及方法
CN113220530B (zh) 数据质量监控方法及平台
CN109033133A (zh) 基于特征项权重增长趋势的事件检测与跟踪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150311

Termination date: 20160331

CF01 Termination of patent right due to non-payment of annual fee