CN105930727B - 基于Web的爬虫识别方法 - Google Patents

基于Web的爬虫识别方法 Download PDF

Info

Publication number
CN105930727B
CN105930727B CN201610262526.6A CN201610262526A CN105930727B CN 105930727 B CN105930727 B CN 105930727B CN 201610262526 A CN201610262526 A CN 201610262526A CN 105930727 B CN105930727 B CN 105930727B
Authority
CN
China
Prior art keywords
access
reptile
request
time
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610262526.6A
Other languages
English (en)
Other versions
CN105930727A (zh
Inventor
李兴涛
王儒敬
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Z-Hope Technology Co Ltd
Wuxi Zhongke Funong Internet Of Things Technology Co Ltd
Jiangsu IoT Research and Development Center
Original Assignee
Anhui Z-Hope Technology Co Ltd
Wuxi Zhongke Funong Internet Of Things Technology Co Ltd
Jiangsu IoT Research and Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Z-Hope Technology Co Ltd, Wuxi Zhongke Funong Internet Of Things Technology Co Ltd, Jiangsu IoT Research and Development Center filed Critical Anhui Z-Hope Technology Co Ltd
Priority to CN201610262526.6A priority Critical patent/CN105930727B/zh
Publication of CN105930727A publication Critical patent/CN105930727A/zh
Application granted granted Critical
Publication of CN105930727B publication Critical patent/CN105930727B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种基于Web的爬虫识别算法,设置陷阱,并通过线上分析用户访问的行为特征判断是爬虫的概率;对于爬虫可能性大的访问者,要求验证码验证,减少误判;线下分析一天的数据通过大量数据正确的识别出隐藏性好的爬虫;对于识别出的爬虫加入到确定名单库中。本发明结合了线上的实时识别和线下的正确识别,在保证识别实时性的同时,提高了识别的准确性,降低了误判。

Description

基于Web的爬虫识别方法
技术领域
本发明涉及网络爬虫的识别方法,尤其是一种在线分析和离线分析相结合的爬虫识别方法。
背景技术
随着Web技术的发展和应用程序的多样化,用于发掘和收集数据信息任务的爬虫日益丰富,数量越来越庞大。爬虫加速了信息的流动和扩散,但同时也带来了多方面的负面影响:网络爬虫的大量访问请求会占用服务器资源,给服务器带来巨大负荷,导致服务器性能下降,影响用户的体验;恶意爬虫更会造成隐私数据泄漏、资源滥用、版权问题等;竞争关系的对手公司的大量抓取会造成公司的巨大损失降低公司的竞争力;很多网站会用到用户的访问信息做分析,分析用户的行为为用户做更好的推荐,爬虫产生的访问信息会对分析造成干扰。因此对检测出爬虫,并对其进行封禁的研究,对于企业发展、维护公司利益和提高竞争力有重大意义。
发明内容
本发明的目的是为克服当前爬虫检测实时性不高、召回率低和误判比较多的缺陷。现在的爬虫检测算法各有优缺点,由于爬虫的多样性,没有一种爬虫检测算法可以很好的检测所有爬虫,通常实时性、正确率之间有相对互斥的关系。本发明提出的基于Web的爬虫识别方法,结合了多种不同的策略,尤其是通过访问行为识别出爬虫,并提出线上线下分析结合的方法,提高了爬虫检测的实时性、提高了召回率和减少误封操作;可以有效的防止恶意爬虫爬取资源,减小服务器压力,并且为数据分析提供干净的数据;本发明采用的技术方案是:
一种基于Web的爬虫识别方法,包括一种在线识别方法;以及配合在线识别方法一起使用的一种离线识别方法;
在线识别方法通过:
S1)设置陷阱,根据访问者请求陷阱中的信息来初步判定为疑似爬虫;
S2)对于每一个访问者维护访问信息,通过对访问者的访问行为分析进一步判断是否为疑似爬虫;
S3)对于上述S1和S2识别出为疑似爬虫的行为,最后通过验证码验证的方法确定是否为爬虫。
进一步地,步骤(S2)中对于每一个访问者维护访问信息,具体包括:
从访问者的访问请求中提取关键字段,关键字段包括id、访问时间、引用字段、访问类型;
为每个id维护一个滑动窗口,用这个滑动窗口记录访问者最近访问的n次记录,n为窗口的大小;
每来到一个请求,首先分析该请求,提取关键字段;
如果没有该id对应的滑动窗口,创建该id的滑动窗口;
如果该id的滑动窗口满了,删除滑动窗口内最早的一次记录;
将新请求的信息存入滑动窗口内;
定期扫描所有的滑动窗口,对于最新一次请求距离当前时间超过设定时间阈值的滑动窗口直接删除。
更进一步地,步骤(S2)中,所述通过对访问者的访问行为分析进一步判断是否为疑似爬虫,具体包括:
提取访问行为中的特征向量,然后对各特征向量加权求和后得到一个评估得分,该评估得分超过设定阈值则判断访问者为疑似爬虫;
所述特征向量包括:
滑动窗口内的错误响应百分比作为一个特征向量;
通过滑动窗口提取访问类型,将head请求访问类型的占比作为一个特征向量;
通过滑动窗口提取出引用字段为空的占比,作为一个特征向量;
滑动窗口内,对请求的资源分类;统计请求每一种资源的访问次数占比;然后将各个资源的访问次数占比平方后相加,作为一个特征向量;
滑动窗口内请求资源的速率特征向量:生成一个请求资源的链表并且记录资源被请求的情况,将所有请求的相邻时间差大于设定阈值的次数统计出,并与请求的相邻时间差个数相除得到速率特征向量;
访问时间间隔特征向量,访问时间间隔特征向量的值越大则表示疑似爬虫的可能性越大。
所述访问时间间隔特征向量:访问时间间隔特征向量需要计算一个访问时间间隔得分score;
a)将滑动窗口中相邻访问之间的时间相减得到一个时间间隔序列;
b)对于时间间隔序列中时间间隔小于设定最小时长的,累加到后面的时间间隔,得到一个处理后时间间隔序列;
c)对score初始化一个得分score=0;遍历这个处理后时间间隔序列,每有一个数字在设定最小时长~设定最大时长之间,则score加一个数值,每有一个数字大于设定最大时长将score减去一个数值;
d)最后得出的score为访问时间间隔特征向量。
进一步地,
离线识别方法包括:离线识别的数据来源是网络日志,通过对网络日志分析;
L1)提取关键字段,包括:id、url、翻页情况;提取url用于分析用户请求资源的类型;
L2)对于提取的关键字段信息进行聚类:
通过对相同id的用户聚类产出每个id统计时段内的访问情况,包括:
统计时段内请求次数的统计,包括总次数和不同类型请求的次数,然后将head请求访问类型的占比作为一个特征向量;
翻页情况的统计,将统计时段内发生翻页超过设定次数的翻页情况次数占比作为一个特征向量;
统计时段内,请求的具体资源类型的次数统计;统计请求每一种资源的访问次数占比;然后将各个资源的访问次数占比平方后相加,作为一个特征向量;
L3)计算得分:
对于每一个id的聚类结果,对每个特征向量赋予各自对应的权值,做加权平均;根据加权平均结果,若超过设定分值阈值,判断为爬虫。
更进一步,离线识别方法中,对于统计时段内请求数量超过设定请求数最大阈值或翻页次数超过设定翻页次数最大阈值,则直接判定为爬虫。
具体地,
步骤(S1)中陷阱中的信息为隐藏在图片下或者与背景色一样用户看不到的链接,如果访问到了这些链接则初步判断访问者为爬虫。
本发明的优点在于:与现有技术相比,结合了在线方法和离线方法。在线方法快速实时的检测出大部分爬虫,提过了爬虫检测的实时性,添加验证码大大降低了爬虫的误判。离线方法通过大量数据分析提高了爬虫识别的召回率,同时可以将结果反馈到线上分析模块对线上分析模块进行调整。
附图说明
图1为本发明的算法总体流程图。
图2为本发明的线上分析流程图。
图3为本发明的线下分析流程图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
基于Web的爬虫识别方法,为了准确实时地识别爬虫的抓取行为,将该算法分为两部分,在线识别方法和离线识别方法,分别由线上分析模块和线下分析模块执行;
(一)在线识别方法识别可疑的抓取行为,包括(S1)设置陷阱、(S2)访问行为分析和(S3)验证码验证三部分;
S1)设置陷阱,根据访问者请求陷阱中的信息来初步判定为疑似爬虫;陷阱部分可以实时识别出部分抓取行为,通过在网页中设置一些用户看不见但是爬虫可能会爬取的链接,只要是访问到这些链接就判定是爬取的行为;比如隐藏在图片下或者与背景色一样用户看不到的链接,如果访问到了这些链接说明很有可能是爬虫。
S2)访问行为分析;
首先对于每一个访问者维护访问信息,从访问者的访问请求中提取关键字段,关键字段包括id、访问时间、引用字段(reference字段)、访问类型;并维护这些信息;id可以是用户账号或者IP地址,存在用户账号时用户账号作为id,用户没有注册账号时将用户的IP地址作为id;
线上请求的分析,虽然耗费的时间不长,但是当请求量非常大的时候还是会严重影响用户的体验的,所以对于到达线上分析的请求,不应该拦截请求等到解析完成再决定是封禁还是放行。服务器主进程到达请求的时候将请求信息交由线上分析模块之后应该继续该请求的正常访问,至于请求是不是爬虫请求可在后台进一步分析。因为对于抓取的请求必然是需要多次请求的,服务器允许它开始的几次请求获得数据,只要有效阻拦后面的更多次的请求就可以了。
由于累计的访问者数据量会非常大,因此为每个id维护一个滑动窗口,用这个滑动窗口记录访问者最近访问的n次记录,n为窗口的大小;
每来到一个请求,首先分析该请求,提取关键字段;
如果没有该id对应的滑动窗口,创建该id的滑动窗口;
如果该id的滑动窗口满了,删除滑动窗口内最早的一次记录;
将新请求的信息存入滑动窗口内;
此外,由于普通用户数量多,但是通常几次请求之后很长时间都不会有请求。对于这种情况就会产生很多滑动窗口,但是实际上对于这种很明显是用户的请求可以不用进一步考察直接放行。
所以需要定期扫描所有的滑动窗口,清除掉不需要的滑动窗口。对于那些最新一次请求距离当前时间比较长的滑动窗口可以直接删除;比如设定一个时间阈值,对于最新一次请求距离当前时间超过设定时间阈值的滑动窗口直接删除。
现有最简单的识别爬虫的方法是句法分析技术:句法分析技术中的robot协议访问检测,user-agent检测,利用这些将一些正规爬虫检测出来。根据robot协议在服务其中存在一个robots.txt文件,这个文件中写明了不让爬虫爬取的信息,正规爬虫是会访问这个robots.txt文件并且不会访问这个文件中表明的文件。但是考虑到robot协议不是一个强制性协议,一些恶意的爬虫根本不会访问robots.txt文件。所以这种策略并不可取。正规爬虫会在user-agent中表明自己的身份,但是同样该字段也是可以伪装的,恶意爬虫可以将自己伪装成正规爬虫。所以user-agent检测也并不可靠。通过上面分析,句法分析技术虽然简单但是并不能真实可靠地额识别出爬虫
因此本发明访问行为分析的具体算法采用了通信模式分析技术,提取访问行为中的特征向量,然后对各特征向量加权求和后得到一个评估得分,该评估得分超过设定阈值则判断访问者为疑似爬虫;
各特征向量如下所述:
滑动窗口内的错误响应百分比作为一个特征向量;当访问者的错误响应百分比过高,则可能为疑似爬虫;如果是非正常用户访问服务器,错误返回码的占比较高,比如爬虫可能在十次访问中就有两三次出错,而正常用户访问时在几十次访问才会出现一次错误;
通过滑动窗口提取访问类型,将head请求访问类型的占比作为一个特征向量;http协议中包括了几种访问类型,或称为请求类型,比如head、get、post等;部分爬虫通过head指令仅仅获取http回答的头,而不是整个回答;用户通过get命令获取整个html,因此访问类型有显著区别;如果head请求访问类型占比较高,则为爬虫的可能性较大;
通过滑动窗口提取出引用字段为空的占比,作为一个特征向量;一个会话的所有请求是否都有未分配的引用字段即reference字段(用户点击一个页面中的链接引导到另一个页面,那么这个原始页面是新页面的来源页面,reference字段存放来源页面的地址),如果未分配那么极有可能是爬虫;
滑动窗口内,对请求的资源分类;统计请求每一种资源的访问次数占比;然后将各个资源的访问次数占比平方后相加,作为一个特征向量;
比如对请求的资源分为8类,对于爬虫,只请求一种类型的资源及该类型资源的访问次数就很高;假如滑动窗口内存在20次访问次数,对8类资源的访问次数占比可能是0/20、1/20、18/20、0/20、1/20、0/20、0/20、0/20;将这些占比分数先各自平方后,再相加,得到的一个分数就大(此例为326/400);而对于普通用户,对8类资源的访问次数占比可能是2/20、3/20、3/20、2/20、2/20、3/20、2/20、3/20,将这些占比分数先各自平方后,再相加,得到的一个分数就小(此例为52/400);
滑动窗口内请求资源的速率特征向量:生成一个请求资源的链表并且记录资源被请求的情况,将所有请求的相邻时间差大于设定阈值的次数统计出,并与请求的相邻时间差个数相除得到速率特征向量;
如果前后两个请求相邻时间差大于某个阈值,那么认为极有可能是爬虫产生的(浏览器为了实时呈现网站,在初始请求后,跟着会发出很多嵌入式资源的请求;而爬虫并不需要所有这些资源,故不一定会请求嵌入式资源)这个可以主要用于检测除图片类爬虫之外的其他爬虫;滑动窗口内,如果有10次请求,那么相邻时间差有9个,这9个相邻时间差中假如有7个超过1秒,则将7/9作为速率特征向量;
访问时间间隔特征向量:访问时间间隔特征向量的值越大则表示疑似爬虫的可能性越大,访问时间间隔特征向量需要计算一个访问时间间隔得分score;爬虫为了快速爬取数据而不容易被发现,通常爬取频率不会太高(容易发现),也不会太低(抓取速率太低)。通过调查爬虫的平均爬取速率是每秒一到两次,而用户的最大查询速率是每分钟4次。
a)将滑动窗口中相邻访问之间的时间相减得到一个时间间隔序列;比如:
2,5,10,0.2,0.4,0.8
b)对于时间间隔序列中时间间隔小于设定最小时长(比如0.5秒)的,累加到后面的时间间隔,得到一个处理后时间间隔序列;比如:
2,5,10,0.2,0.4,0.8->2,5,10,1.4
c)对score初始化一个得分score=0;遍历这个处理后时间间隔序列,每有一个数字在设定最小时长~设定最大时长(比如15秒)之间,则score加一个数值,每有一个数字大于设定最大时长(15秒)将score减去一个数值;
d)最后得出的score为访问时间间隔特征向量;
最后对各特征向量加权求和后得到一个评估得分,该评估得分超过设定阈值则判断访问者为疑似爬虫。
上述(S1)和(S2)中识别出的疑似爬虫添加到疑似名单库中;
S3)验证码验证:验证码验证用于最后一步确定爬虫检测是否正确,验证码检测采用典型的CAPTCHA检测,服务器产生一个验证页面用来测试用户,要求用户输入产生的图片上面的字符组合。已经识别出来是疑似爬虫的要经过验证码验证,这样可以减少误判操作。验证码验证不通过则拒绝访问者继续访问服务器,并将访问者加入确定名单库,确定名单库中保存了确定为爬虫的黑名单;
(二)离线识别方法;
离线识别通过三个子模块来执行:map模块、reduce模块、分值计算模块;
离线识别的数据来源是网络日志,通过对网络日志分析,提取关键字段,然后聚类产出每个id统计时段内的访问情况,最后对每个id计算一个得分,根据得分判断是否为爬虫;一般采用一天作为一个统计时段;
如图3所示,离线识别方法包括:
L1)提取关键字段,包括:id、url、翻页情况;
map模块主要提取关键字段;对于id,登录用户采用用户账户作为id,非登录用户提取ip地址作为id;提取url用于reduce模块分析用户请求资源的类型;
L2)对于提取的关键字段信息进行聚类:由reduce模块进行;
通过对相同id的用户聚类产出每个id统计时段内的访问情况,包括:
统计时段内请求次数的统计,包括总次数和不同类型请求的次数,然后将head请求访问类型的占比作为一个特征向量;
翻页情况的统计,将统计时段内发生翻页超过设定次数(比如10次)的翻页情况次数占比作为一个特征向量;比如1000次访问中,200次访问时不翻页,100次访问时翻页小于等于10次,700次访问时翻页超过10次,则700/1000为一个特征向量;
统计时段内,请求的具体资源类型的次数统计;统计请求每一种资源的访问次数占比;然后将各个资源的访问次数占比平方后相加,作为一个特征向量;
L3)计算得分:由分值计算模块进行;
对于每一个id的聚类结果,对每个特征向量赋予各自对应的权值,做加权平均;根据加权平均结果,若超过设定分值阈值,判断为爬虫;加入确定名单库中;
对于关键字段信息中某些特征明显表示为爬虫的情况,则直接将得分设定为超过分值阈值;如统计时段内请求数量超过设定请求数最大阈值,翻页次数超过设定翻页次数最大阈值;具体的,如每天请求数量超过100万,翻页次数超过1万次等。

Claims (4)

1.一种基于Web的爬虫识别方法,其特征在于,至少包括一种在线识别方法;
在线识别方法通过:
S1)设置陷阱,根据访问者请求陷阱中的信息来初步判定为疑似爬虫;
S2)对于每一个访问者维护访问信息,通过对访问者的访问行为分析进一步判断是否为疑似爬虫;
S3)对于上述S1和S2识别出为疑似爬虫的行为,最后通过验证码验证的方法确定是否为爬虫;
步骤(S2)中对于每一个访问者维护访问信息,具体包括:
从访问者的访问请求中提取关键字段,关键字段包括id、访问时间、引用字段、访问类型;
为每个id维护一个滑动窗口,用这个滑动窗口记录访问者最近访问的n次记录,n为窗口的大小;
每来到一个请求,首先分析该请求,提取关键字段;
如果没有该id对应的滑动窗口,创建该id的滑动窗口;
如果该id的滑动窗口满了,删除滑动窗口内最早的一次记录;
将新请求的信息存入滑动窗口内;
定期扫描所有的滑动窗口,对于最新一次请求距离当前时间超过设定时间阈值的滑动窗口直接删除;
步骤(S2)中,所述通过对访问者的访问行为分析进一步判断是否为疑似爬虫,具体包括:
提取访问行为中的特征向量,然后对各特征向量加权求和后得到一个评估得分,该评估得分超过设定阈值则判断访问者为疑似爬虫;
所述特征向量包括:
滑动窗口内的错误响应百分比作为一个特征向量;
通过滑动窗口提取访问类型,将head请求访问类型的占比作为一个特征向量;
通过滑动窗口提取出引用字段为空的占比,作为一个特征向量;
滑动窗口内,对请求的资源分类;统计请求每一种资源的访问次数占比;然后将各个资源的访问次数占比平方后相加,作为一个特征向量;
滑动窗口内请求资源的速率特征向量:生成一个请求资源的链表并且记录资源被请求的情况,将所有请求的相邻时间差大于设定阈值的次数统计出,并与请求的相邻时间差个数相除得到速率特征向量;
访问时间间隔特征向量,访问时间间隔特征向量的值越大则表示疑似爬虫的可能性越大;
所述访问时间间隔特征向量:访问时间间隔特征向量需要计算一个访问时间间隔得分score;
a)将滑动窗口中相邻访问之间的时间相减得到一个时间间隔序列;
b)对于时间间隔序列中时间间隔小于设定最小时长的,累加到后面的时间间隔,得到一个处理后时间间隔序列;
c)对score初始化一个得分score=0;遍历这个处理后时间间隔序列,每有一个数字在设定最小时长~设定最大时长之间,则score加一个数值,每有一个数字大于设定最大时长将score减去一个数值;
d)最后得出的score为访问时间间隔特征向量。
2.如权利要求1所述的基于Web的爬虫识别方法,其特征在于:该爬虫识别方法还包括配合在线识别方法一起使用的一种离线识别方法;
离线识别方法包括:离线识别的数据来源是网络日志,通过对网络日志分析;
L1)提取关键字段,包括:id、url、翻页情况;提取url用于分析用户请求资源的类型;
L2)对于提取的关键字段信息进行聚类:
通过对相同id的用户聚类产出每个id统计时段内的访问情况,包括:
统计时段内请求次数的统计,包括总次数和不同类型请求的次数,然后将head请求访问类型的占比作为一个特征向量;
翻页情况的统计,将统计时段内发生翻页超过设定次数的翻页情况次数占比作为一个特征向量;
统计时段内,请求的具体资源类型的次数统计;统计请求每一种资源的访问次数占比;然后将各个资源的访问次数占比平方后相加,作为一个特征向量;
L3)计算得分:
对于每一个id的聚类结果,对每个特征向量赋予各自对应的权值,做加权平均;根据加权平均结果,若超过设定分值阈值,判断为爬虫。
3.如权利要求2所述的基于Web的爬虫识别方法,其特征在于:
离线识别方法中,对于统计时段内请求数量超过设定请求数最大阈值或翻页次数超过设定翻页次数最大阈值,则直接判定为爬虫。
4.如权利要求1所述的基于Web的爬虫识别方法,其特征在于:
步骤(S1)中陷阱中的信息为隐藏在图片下或者与背景色一样用户看不到的链接,如果访问到了这些链接则初步判断访问者为爬虫。
CN201610262526.6A 2016-04-25 2016-04-25 基于Web的爬虫识别方法 Expired - Fee Related CN105930727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610262526.6A CN105930727B (zh) 2016-04-25 2016-04-25 基于Web的爬虫识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610262526.6A CN105930727B (zh) 2016-04-25 2016-04-25 基于Web的爬虫识别方法

Publications (2)

Publication Number Publication Date
CN105930727A CN105930727A (zh) 2016-09-07
CN105930727B true CN105930727B (zh) 2018-11-09

Family

ID=56836971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610262526.6A Expired - Fee Related CN105930727B (zh) 2016-04-25 2016-04-25 基于Web的爬虫识别方法

Country Status (1)

Country Link
CN (1) CN105930727B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241665B (zh) * 2016-12-23 2022-03-25 北京国双科技有限公司 一种数据处理方法和客户端设备
CN107092660A (zh) * 2017-03-28 2017-08-25 成都优易数据有限公司 一种网站服务器爬虫识别方法和装置
CN109214181A (zh) * 2017-07-01 2019-01-15 武汉斗鱼网络科技有限公司 识别网络爬虫的方法、存储介质、电子设备及***
CN107196968B (zh) * 2017-07-12 2020-10-20 深圳市活力天汇科技股份有限公司 一种爬虫识别方法
CN107800684B (zh) * 2017-09-20 2018-09-18 贵州白山云科技有限公司 一种低频爬虫识别方法及装置
CN107679626A (zh) * 2017-10-10 2018-02-09 上海优刻得信息科技有限公司 机器学习方法、装置、***、存储介质及设备
CN107707574A (zh) * 2017-11-23 2018-02-16 四川长虹电器股份有限公司 一种基于访问行为的反爬虫方法
CN107943949B (zh) * 2017-11-24 2020-06-26 厦门集微科技有限公司 一种确定网络爬虫的方法及服务器
CN108133140A (zh) * 2017-12-08 2018-06-08 成都数聚城堡科技有限公司 一种动态防爬虫的方式
CN108322463A (zh) * 2018-01-31 2018-07-24 平安科技(深圳)有限公司 DDoS攻击检测方法、装置、计算机设备和存储介质
CN108737531A (zh) * 2018-05-11 2018-11-02 北京奇艺世纪科技有限公司 一种业务处理的方法和装置
CN108989294A (zh) * 2018-06-28 2018-12-11 杭州安恒信息技术股份有限公司 一种准确识别网站访问的恶意用户的方法及***
CN109241733A (zh) * 2018-08-07 2019-01-18 北京神州绿盟信息安全科技股份有限公司 基于Web访问日志的爬虫行为识别方法及装置
CN109067780B (zh) * 2018-09-17 2023-02-28 平安科技(深圳)有限公司 爬虫用户的检测方法、装置、计算机设备和存储介质
CN109670093A (zh) * 2018-09-26 2019-04-23 深圳壹账通智能科技有限公司 爬虫识别方法、装置、设备及可读存储介质
CN109189660A (zh) * 2018-09-30 2019-01-11 北京诸葛找房信息技术有限公司 一种基于用户鼠标交互行为的爬虫识别方法
CN110175278B (zh) * 2019-05-24 2022-02-25 新华三信息安全技术有限公司 网络爬虫的检测方法及装置
CN110519280B (zh) * 2019-08-30 2022-01-04 北京思维造物信息科技股份有限公司 一种爬虫识别方法、装置、计算机设备及存储介质
CN110765451B (zh) * 2019-09-26 2021-05-28 支付宝(杭州)信息技术有限公司 风险识别方法和装置、电子设备
CN111368163B (zh) * 2020-02-24 2024-03-26 网宿科技股份有限公司 一种爬虫数据的识别方法、***及设备
CN111914905B (zh) * 2020-07-09 2021-07-20 北京人人云图信息技术有限公司 一种基于半监督的反爬虫***及设计方法
CN112104600B (zh) * 2020-07-30 2022-11-04 山东鲁能软件技术有限公司 一种基于爬虫蜜罐陷阱的web反渗透方法,***,设备及计算机可读存储介质
CN111782917A (zh) * 2020-08-20 2020-10-16 支付宝(杭州)信息技术有限公司 用于对金融处罚数据进行可视化分析的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514171A (zh) * 2012-06-20 2014-01-15 同程网络科技股份有限公司 基于光学字符识别与垂直搜索的自定义爬虫方法
CN103856476A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
CN104601601A (zh) * 2015-02-25 2015-05-06 小米科技有限责任公司 网络爬虫的检测方法及装置
CN104902008A (zh) * 2015-04-26 2015-09-09 成都创行信息科技有限公司 一种针对爬虫的数据处理方法
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN105426415A (zh) * 2015-10-30 2016-03-23 Tcl集团股份有限公司 网站访问请求的管理方法、装置及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514171A (zh) * 2012-06-20 2014-01-15 同程网络科技股份有限公司 基于光学字符识别与垂直搜索的自定义爬虫方法
CN103856476A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
CN104601601A (zh) * 2015-02-25 2015-05-06 小米科技有限责任公司 网络爬虫的检测方法及装置
CN104902008A (zh) * 2015-04-26 2015-09-09 成都创行信息科技有限公司 一种针对爬虫的数据处理方法
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN105426415A (zh) * 2015-10-30 2016-03-23 Tcl集团股份有限公司 网站访问请求的管理方法、装置及***

Also Published As

Publication number Publication date
CN105930727A (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN105930727B (zh) 基于Web的爬虫识别方法
CN112417439B (zh) 账号检测方法、装置、服务器及存储介质
CN104050178B (zh) 一种互联网监测反作弊方法和装置
CN104113519B (zh) 网络攻击检测方法及其装置
CN107465651A (zh) 网络攻击检测方法及装置
CN104580230B (zh) 网站攻击验证方法及装置
CN101370008A (zh) Sql注入web攻击的实时入侵检测***
CN108156131A (zh) Webshell检测方法、电子设备和计算机存储介质
CN111865925A (zh) 基于网络流量的诈骗团伙识别方法、控制器和介质
CN107277036A (zh) 基于多站点数据的登录验证方法、验证设备及存储介质
CN110708339B (zh) 一种基于web日志的关联分析方法
CN108712426A (zh) 基于用户行为埋点的爬虫识别方法及***
CN108334758A (zh) 一种用户越权行为的检测方法、装置及设备
CN109274632A (zh) 一种网站的识别方法及装置
CN109257393A (zh) 基于机器学习的xss攻击防御方法及装置
CN114003903B (zh) 一种网络攻击追踪溯源方法及装置
CN104852916A (zh) 一种基于社会工程学的网页验证码识别方法及***
CN107592305A (zh) 一种基于elk和redis的防刷方法及***
CN114244564B (zh) 攻击防御方法、装置、设备及可读存储介质
CN102891861B (zh) 一种基于客户端的钓鱼网站检测方法及其装置
CN108023868A (zh) 恶意资源地址检测方法和装置
CN107800686A (zh) 一种钓鱼网站识别方法和装置
US20140330759A1 (en) System and method for developing a risk profile for an internet service
CN105989149A (zh) 一种用户设备指纹的提取和识别方法及***
CN112733045A (zh) 用户行为的分析方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181109

Termination date: 20190425

CF01 Termination of patent right due to non-payment of annual fee