CN113660277B - 一种基于复用埋点信息的反爬虫方法及处理终端 - Google Patents

一种基于复用埋点信息的反爬虫方法及处理终端 Download PDF

Info

Publication number
CN113660277B
CN113660277B CN202110951654.2A CN202110951654A CN113660277B CN 113660277 B CN113660277 B CN 113660277B CN 202110951654 A CN202110951654 A CN 202110951654A CN 113660277 B CN113660277 B CN 113660277B
Authority
CN
China
Prior art keywords
buried point
request
events
service
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110951654.2A
Other languages
English (en)
Other versions
CN113660277A (zh
Inventor
朱骢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tvcbook Technology Co ltd
Original Assignee
Guangzhou Tvcbook Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Tvcbook Technology Co ltd filed Critical Guangzhou Tvcbook Technology Co ltd
Priority to CN202110951654.2A priority Critical patent/CN113660277B/zh
Publication of CN113660277A publication Critical patent/CN113660277A/zh
Application granted granted Critical
Publication of CN113660277B publication Critical patent/CN113660277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/308Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information retaining data, e.g. retaining successful, unsuccessful communication attempts, internet access, or e-mail, internet telephony, intercept related information or call content

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种基于复用埋点信息的反爬虫方法及处理终端,所述方法包括:获取埋点数据,埋点数据包括埋点事件,埋点事件表征请求ip或业务端id所访问的资源类型,根据埋点数据得到单独埋点事件数量和累计埋点事件数量;将超过对应的预设阈值的单个埋点事件和超过第一预设阈值的累计埋点事件作为不合规埋点事件,得到不合规埋点事件集合,接收业务请求,业务请求包括访问资源类型,判断是否存有目标请求ip或业务端id的不合规埋点事件,若否,则对业务请求进行处理,若是,则根据不合规埋点事件中的一种或多种作为反爬决策依据对业务请求进行处理。本发明实现业务和反爬虫高度解耦,具有很好的灵活性,避免重复开发、资源浪费。

Description

一种基于复用埋点信息的反爬虫方法及处理终端
技术领域
本发明涉及反爬虫技术领域,具体涉及一种基于复用埋点信息的反爬虫方法及处理终端。
背景技术
现有的反爬虫技术往往在业务客户端或业务服务端向埋点服务器上报信息,业务端自身解决反爬虫需求,反爬虫与业务紧耦合,不同业务端(对应不同业务)之间并不互通,使得提供反爬虫决策的反爬虫数据依赖所在业务端自身的业务数据,而且各个业务端自行进行反爬虫也造成了重复开发、资源浪费。另外,现有的反爬虫技术往往不区分用户的具体访问行为,而采用同一套标准,从而导致误判而错误封禁相关用户IP。例如,用户在访问邀请码、代金券等访问行为与普通浏览网页信息的访问行为并不相同,若采用同一套反爬虫判断逻辑往往很难对干扰领取邀请码、代金券等这种行为进行反爬虫。现有的反爬虫技术还存在一个不足之处在于,往往针对IP段进行反爬虫,而容易造成误判误伤。例如,同一公司名下有多名员工,若某一员工的用户IP判断为反爬虫范围之内,则将同一IP段下的其他所有用户均封禁,而造成其他用户无法访问,造成误伤。因此,需要一种能够更精准分析用户访问行为,以能够低成本地提取用户全局访问行为,进而可以全面参考用户的访问行为特征来准确决策反爬虫方案,避免误伤,并且能够对某些特殊用户访问行为也能进行精准反爬虫。
发明内容
针对现有技术的不足,本发明的目的之一提供一种基于复用埋点信息的反爬虫方法,其能够解决精准反爬虫避免误伤的问题;
本发明的目的之二提供一种处理终端,其能够解决精准反爬虫避免误伤的问题;
实现本发明的目的之一的技术方案为:一种基于复用埋点信息的反爬虫方法,包括以下步骤:
步骤1:获取埋点数据,埋点数据包括请求ip或业务端id,还包括埋点事件,埋点事件表征请求ip或业务端id所访问的资源类型,
统计出每个请求ip或业务端id的单个埋点事件的访问次数,得到各个单个埋点事件各自对应的单独埋点事件数量,以及统计出同一个请求ip或业务端id的所有单个埋点事件数量之和,得到累计埋点事件的累计埋点事件数量;
步骤2:将各个单独埋点事件数量与对应单个埋点事件的预设阈值进行比较,以及将累计埋点事件数量与第一预设阈值进行比较,将超过对应的预设阈值的单个埋点事件作为不合规埋点事件,以及若累计埋点事件数量超过第一预设阈值,则将累计埋点事件也作为不合规埋点事件,从而得到不合规埋点事件集合,
步骤3:接收业务请求,业务请求包括目标请求ip或业务端id,还包括访问资源类型,
遍历不合规埋点事件集合,判断是否存有目标请求ip或业务端id的不合规埋点事件,若否,则对业务请求进行处理,若是,则根据目标请求ip或业务端id的不合规埋点事件中的一种或多种作为反爬决策依据,以决定是否对业务请求进行处理。
进一步地,所述步骤2中,在得到不合规埋点事件集合后,将不合规埋点事件集合写入数据库,得到不合规埋点事件数据库,
在步骤3中,接收业务请求后,首先访问不合规埋点事件数据库,在不合规埋点事件数据库中遍历不合规埋点事件集合。
进一步地,在预设周期内统计出每个请求ip或业务端id的单个埋点事件的访问次数、同一个请求ip或业务端id的所有单个埋点事件数量之和。
进一步地,第一预设阈值大于各个单个埋点事件对应的预设阈值。
进一步地,所述埋点事件包括访问网页上的图片、视频、搜索、文本、邀请码、代金券中的一种或多种。
进一步地,所述根据目标请求ip或业务端id的不合规埋点事件中的一种或多种作为反爬决策依据,以决定是否对业务请求进行处理,具体为:
禁止对满足条件一的业务请求进行处理,不符合条件一的业务请求进行处理:
条件一:业务请求中的访问资源类型对应不合规埋点事件的资源类型。
进一步地,所述根据目标请求ip或业务端id的不合规埋点事件中的一种或多种作为反爬决策依据,以决定是否对业务请求进行处理,具体为:
若业务请求中任一业务满足条件一,则对目标请求ip或业务端id的所有业务请求禁止处理:
条件一:业务请求中的访问资源类型对应不合规埋点事件的资源类型。
实现本发明的目的之二的技术方案为:一种处理终端,其包括:
存储器,用于存储程序指令;
处理器,用于运行所述程序指令,以执行所述基于复用埋点信息的反爬虫方法的步骤。
本发明的有益效果为:本发明并不需要将请求ip加入黑名单,也不需要依靠建立名单制实现反爬虫,而是业务端与通过统计形成的不合规埋点事件进行解绑,实现高度的解耦,具有很好的灵活性,不同于现有业务端依靠自身反爬虫这种反爬虫与自身业务高度耦合的方式,有效避免各个业务进行反爬虫而造成重复开发、资源浪费的缺陷,并且可以根据自身的业务需求,设置一个或多个阈值,从而使得业务端可以根据访问不合规埋点事件数据库得到的的不合规埋点事件,对不同的业务类型自行决策是否拦截,例如针对邀请码、代金券等业务,每一种业务类型可以自行决定是否拦截,业务和反爬虫有效解耦,灵活性极高。例如,以搜索业务为例,可以将用户下载频次作为拦截依据,既可以保证频繁搜索但一直未找到正确目标资料的正常用户可以持续性的正常搜索,又可以拦截不断更换关键词恶意下载内容的爬虫,而现有的反爬虫技术往往很难做到这一点,原因就在于业务和反爬虫进行了高度耦合。
附图说明
图1为较佳实施例的流程示意图;
图2为处理终端的示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
参考图1,一种基于复用埋点信息的反爬虫方法,包括以下步骤:
步骤1:获取埋点数据,埋点数据包括请求ip、埋点事件和业务端id,埋点事件表征请求ip所访问的资源类型,一个埋点事件对应访问一种资源类型,不同的埋点事件对应访问不同资源类型。例如,埋点事件包括访问网页上的图片、视频、搜索、文本、邀请码、代金券等,图片是其中一种资源,文本是另一种资源,这里的搜索也是作为一种资源,是指在网页的搜索框进行搜索操作,例如在搜索框输入关键词进行搜索,以下载视频、文件、图片等目标资源。因此访问上述任一种资源即对应为一个埋点事件,访问同一个资源的访问次数技术该埋点事件的数量。这里的请求ip是指公网ip,其内部包括多个业务端,每个业务端均可以通过请求ip访问资源。例如,一个公司内部有多台计算机,每台计算机作为一个业务端,每一个业务端均使用同一个请求ip,也即是均使用该公司的公网ip。
每一个请求ip或每一个业务端id对应自身的埋点数据,统计出每个请求ip或业务端id的各个埋点事件数量,以及统计出同一个请求ip或业务端id的所有埋点事件数量之和,所有埋点事件数量之和也即是累计埋点事件数量。也即统计请求ip在预设周期时间内各个埋点事件各自的单独埋点事件数量和所有埋点事件的累计埋点事件数量,单独埋点事件数量是指请求ip在预设周期时间访问同一种资源类型的访问次数,也即是同一个埋点事件的访问记录次数,累计埋点事件数量是指请求ip在预设周期时间内的所有单独埋点事件数量之和。
例如,请求ip在预设周期时间内(如24小时)的埋点事件包括访问图片(记为埋点事件1)、访问视频(埋点事件2)、访问文件(埋点事件3)、进行搜索(埋点事件4),其中,埋点事件1的数量为5,埋点事件2的数量为10,埋点事件3的数量为20,埋点事件4的数量为30。因此,埋点事件1的单独埋点事件数量为5,埋点事件2的单独埋点事件数量为10,埋点事件3的单独埋点事件数量为20,埋点事件4的单独埋点事件数量为30,累计埋点事件数量为65。
步骤2:将各个单独埋点事件数量与对应访问的资源类型事件数量的预设阈值进行比较,以及将累计埋点事件数量与第一预设阈值进行比较,将超过对应预设阈值的单个埋点事件作为不合规埋点事件并写入数据库,以及若累计埋点事件数量超过第一预设阈值,则将累计埋点事件也作为不合规埋点事件并同样写入数据库,从而得到不合规埋点事件数据库,不合规埋点事件数据库内存储有各个请求ip或业务端id的超过预设阈值的埋点事件,以及若该请求ip或业务端id的所有埋点事件的数量之和超过第一预设阈值,则将所有埋点事件也作为一项记录并存储到不合规埋点事件数据库。通常,第一预设阈值大于各个单个埋点事件对应的预设阈值。例如,某个请求ip埋点事件包括访问资源类型为图片的访问资源类型事件和访问资源类型为视频的访问资源类型事件,并分别对应为埋点事件A和埋点事件B。若埋点事件A的数量超过对应的预设阈值,也即访问图片的次数超过图片访问所设的阈值,则将埋点事件A作为不合规埋点事件并写入数据库。同样的,假设埋点事件B的数量未超过对应的预设阈值,也即访问视频的次数未超过视频访问所设的阈值,则埋点事件B不作为不合规埋点事件,也即不写入数据库。若埋点事件A与埋点事件B的埋点事件数量之和超过第一预设阈值,则将该请求ip的累计事件(即包括埋点事件A和和埋点事件B的访问总次数)也作为一项不合规埋点事件并存入不合规埋点事件数据库。
因此,最终不合规埋点事件数据库对该请求ip存储的不合规埋点事件包括埋点事件A以及埋点事件A和和埋点事件B的访问总次数。
其中,各个资源类型事件对应的预设阈值以及第一预设阈值均可根据经验来确定,可以按经验值赋予各个阈值的数值大小。例如,访问图片的埋点事件的预设阈值设为50,访问视频的埋点事件的预设阈值为100,访问各个资源的所有埋点事件的第一预设阈值设置为1000。
步骤3:接收业务请求,业务请求包括目标请求ip、业务端id和访问资源类型,查询不合规埋点事件数据库中是否存有目标请求ip或业务端id的不合规埋点事件,若否,则对业务请求进行处理,若是,则根据目标请求ip或业务端id的不合规埋点事件中的一种或多种作为反爬决策依据决定是否对业务请求进行处理。其中,对业务请求进行处理也即是允许目标请求ip或业务端id可以访问网页上的一种或多种资源,对业务请求不进行处理,也即是禁止目标请求ip或业务端id访问网页上的一种或多种资源。
例如,假设目标请求ip需要访问网页上的4种资源类型,对应4个埋点事件,分别记为埋点事件a、埋点事件b、埋点事件c、埋点事件d,这4个埋点事件均为单独的埋点事件。这4个埋点事件的访问总次数即为累计埋点事件数量,也即是访问各个埋点事件的所有访问总次数。埋点事件a在预设周期时间内访问请求了20次,埋点事件b在预设周期时间内访问请求了40次,埋点事件c在预设周期时间内访问请求了120次,埋点事件d在预设周期时间内访问请求了200次。埋点事件a对应的预设阈值为60,埋点事件b对应的预设阈值为70,埋点事件c对应的预设阈值为50,埋点事件d对应的预设阈值为300,则目标请求ip访问资源a资源b和资源d对应的埋点事件a、埋点事件b、埋点事件d的数量均未超过各自的预设阈值,只有目标请求ip访问资源c的埋点事件c的数量超过预设阈值,因此,该目标请求ip的埋点事件c为不合规埋点事件,不合规埋点事件数据库内存储有该条记录,即记录有该目标请求ip层界访问资源c的次数超过预设阈值。业务端可以根据此不合规埋点事件决定后续该请求ip所在的业务端能否继续访问资源c。
也即,当接收到该目标请求ip所在的业务端新的业务请求后,通过查询该目标请求ip有一个不合规埋点事件,可以据此禁止目标请求ip对资源c的访问,而允许该目标请求ip对资源a、资源b、资源d访问,当然也可以允许访问4个资源。
同样的,若目标请求ip访问的资源c的访问次数为30,则目标请求ip访问的所有埋点事件(a,b,c,d)的数量均未超过各自的预设阈值,同时,还统计各个埋点事件访问所有资源的总次数,也即统计所有资源类型事件(a,b,c,d)的数量总和。所有资源类型事件(a,b,c,d)的数量总和为20+40+30+200=290,假设第一预设阈值为500,则所有资源类型事件(a,b,c,d)的数量总和未超过第一预设阈值,则累计埋点事件数量非不合规埋点事件,即是合规埋点事件。假设第一预设阈值为220,则超过第一预设阈值,则累计埋点事件变为不合规埋点事件,同样在不合规埋点事件数据库中会存储有该记录,当接收到新的业务请求,此时业务端可以根据累计埋点事件决定是否禁止请求ip访问网页上的任何资源,业务端可以根据自身业务需求决定禁止访问或允许访问。
本实施例提供的基于复用埋点信息的反爬虫方法,并不需要将请求ip加入黑名单,也不需要依靠建立名单制实现反爬虫,而是业务端与通过统计形成的不合规埋点事件进行解绑,实现高度的解耦,具有很好的灵活性,不同于现有业务端依靠自身反爬虫这种反爬虫与自身业务高度耦合的方式,有效避免各个业务进行反爬虫而造成重复开发、资源浪费的缺陷,并且可以根据自身的业务需求,设置一个或多个阈值,从而使得业务端可以根据访问不合规埋点事件数据库得到的的不合规埋点事件,对不同的业务类型自行决策是否拦截,例如针对邀请码、代金券等业务,每一种业务类型可以自行决定是否拦截,业务和反爬虫有效解耦,灵活性极高。例如,以搜索业务为例,可以将用户下载频次作为拦截依据,既可以保证频繁搜索但一直未找到正确目标资料的正常用户可以持续性的正常搜索,又可以拦截不断更换关键词恶意下载内容的爬虫,而现有的反爬虫技术往往很难做到这一点,原因就在于业务和反爬虫进行了高度耦合。具体的,搜索频次和下载频次各自作为单独埋点事件,在步骤2中所对应的预设阈值分别为100和200,也即将搜索频次≥100的搜索作为不合规埋点事件,将下载频次≥200的下载作为不合规埋点事件。执行步骤3时,假设某一请求ip的用户下载频次所对应的预设阈值a设置为1000,该预设阈值a也即是用于反爬决策依据的其中一个判断标准,预设阈值a也即是单位时间的下载次数,例如一个小时下载1000次;同样的,搜索频次所对应的预设阈值b设置为300,也即是单位时间的搜索频次,例如一个小时搜索300次;下载频次与搜索频次的比值为1000/300。该请求ip此前的访问请求虽然因搜索频次和下载频次在步骤2中因超过对应的预设阈值而写入不合规埋点数据库,但在执行步骤3时,还需要依据反爬决策依据进行判断,从而将业务与反爬虫有效解耦。使得若用户在单位时间内(5分钟、10分钟或一个小时等等)的下载次数较多但搜索极少,这往往意味着该用户并不是真正查询所需要的资源,而是无目的地将搜索到的资源大量下载,也即在当前搜索结果界面不断下载资源,而不管当前搜索结果界面的资源是否为用户所需要的资源,则可以判断该累计埋点事件为不合规事件,需要进行拦截,即需要对该用户进行拦截;但一旦识别到频繁搜索但并未频繁下载或者频繁搜索且频繁下载,则可以视为该用户是因未搜索到真正的资源,则仍会判断为合规事件而不进行拦截,从而实现既可以保证用户持续性的正常搜索下载,又可以拦截不断更换关键词且大量下载的恶意下载内容的用户。也即,首先在步骤3接收到业务请求,判断业务请求中下载频次是否超过1000,若否,则对业务请求进行处理,这意味着不管搜索频次是否超过300,只要下载频次超过1000,均进行处理;然后,若请求ip的用户实际的下载频次与搜索频次的比值≤1000/300,则不拦截该请求ip,即使该请求ip所对应的单个下载频次(即是一个单个埋点事件)超过预设阈值a或者单个搜索频次(即使一个单个埋点事件)超过预设阈值b,也不拦截该请求ip;但若下载频次且搜索频次(即累计埋点事件)的比值>1000/300,则会拦截该请求ip。从而实现既可以保证频繁搜索但一直未找到正确目标资料的正常用户可以持续性的正常搜索,又可以拦截不断更换关键词恶意下载内容的爬虫。
而对于其他情况,则会进行拦截,包括搜索频次超过300次(超过普通人搜索极限),只有下载但无搜索行为的用户,这不符合正常用户的下载行为。
很多用户进行搜索,每一次的搜索结果可能很多,可能需要不断下载搜索结果并进行查询以查看是否为自己所需要的目标资源,直至搜索结果是用户真正所需,在这一过程中伴随的是大量搜索和大量下载,是同步进行的,这是正常用户行为不宜拦截。
当然,对于频繁搜索且频繁下载的也可能是爬虫,可以通过调整阈值大小,例如将阈值设置为非常大,才判断为爬虫,一般则不判断为爬虫而不进行拦截,原因在于非正常用户频繁搜索且频繁下载的数量是非常巨大的,远超一个正常用户的搜索频次和下载频次,从而可以通过预设阈值大小设置来区分出来。
参考图2,本实施例还提供一种处理终端,其包括:
存储器101,用于存储程序指令;
处理器102,用于运行所述程序指令,以执行所述基于复用埋点信息的反爬虫方法的步骤。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (7)

1.一种基于复用埋点信息的反爬虫方法,其特征在于,包括以下步骤:
步骤1:获取埋点数据,埋点数据包括请求ip或业务端id,还包括埋点事件,埋点事件表征请求ip或业务端id所访问的资源类型,
统计出每个请求ip或业务端id的单个埋点事件的访问次数,得到各个单个埋点事件各自对应的单独埋点事件数量,以及统计出同一个请求ip或业务端id的所有单个埋点事件数量之和,得到累计埋点事件的累计埋点事件数量;
步骤2:将各个单独埋点事件数量与对应单个埋点事件的预设阈值进行比较,以及将累计埋点事件数量与第一预设阈值进行比较,将超过对应的预设阈值的单个埋点事件作为不合规埋点事件,以及若累计埋点事件数量超过第一预设阈值,则将累计埋点事件也作为不合规埋点事件,从而得到不合规埋点事件集合,
步骤3:接收业务请求,业务请求包括目标请求ip或业务端id,还包括访问资源类型,
遍历不合规埋点事件集合,判断是否存有目标请求ip或业务端id的不合规埋点事件,若否,则对业务请求进行处理,若是,则根据目标请求ip或业务端id的不合规埋点事件中的一种或多种作为反爬决策依据,以决定是否对业务请求进行处理,
所述根据目标请求ip或业务端id的不合规埋点事件中的一种或多种作为反爬决策依据,以决定是否对业务请求进行处理,具体为:
禁止对满足条件一的业务请求进行处理,不符合条件一的业务请求进行处理:
条件一:业务请求中的访问资源类型对应不合规埋点事件的资源类型。
2.根据权利要求1所述的基于复用埋点信息的反爬虫方法,其特征在于,所述步骤2中,在得到不合规埋点事件集合后,将不合规埋点事件集合写入数据库,得到不合规埋点事件数据库,
在步骤3中,接收业务请求后,首先访问不合规埋点事件数据库,在不合规埋点事件数据库中遍历不合规埋点事件集合。
3.根据权利要求1所述的基于复用埋点信息的反爬虫方法,其特征在于,在预设周期内统计出每个请求ip或业务端id的单个埋点事件的访问次数、同一个请求ip或业务端id的所有单个埋点事件数量之和。
4.根据权利要求1所述的基于复用埋点信息的反爬虫方法,其特征在于,第一预设阈值大于各个单个埋点事件对应的预设阈值。
5.根据权利要求1所述的基于复用埋点信息的反爬虫方法,其特征在于,所述埋点事件包括访问网页上的图片、视频、搜索、文本、邀请码、代金券中的一种或多种。
6.根据权利要求1所述的基于复用埋点信息的反爬虫方法,其特征在于,所述根据目标请求ip或业务端id的不合规埋点事件中的一种或多种作为反爬决策依据,以决定是否对业务请求进行处理,还可以为:
若业务请求中任一业务满足条件一,则对目标请求ip或业务端id的所有业务请求禁止处理:
条件一:业务请求中的访问资源类型对应不合规埋点事件的资源类型。
7.一种处理终端,其特征在于,其包括:
存储器,用于存储程序指令;
处理器,用于运行所述程序指令,以执行如权利要求1-6任一项所述基于复用埋点信息的反爬虫方法的步骤。
CN202110951654.2A 2021-08-18 2021-08-18 一种基于复用埋点信息的反爬虫方法及处理终端 Active CN113660277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110951654.2A CN113660277B (zh) 2021-08-18 2021-08-18 一种基于复用埋点信息的反爬虫方法及处理终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110951654.2A CN113660277B (zh) 2021-08-18 2021-08-18 一种基于复用埋点信息的反爬虫方法及处理终端

Publications (2)

Publication Number Publication Date
CN113660277A CN113660277A (zh) 2021-11-16
CN113660277B true CN113660277B (zh) 2023-01-06

Family

ID=78481148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110951654.2A Active CN113660277B (zh) 2021-08-18 2021-08-18 一种基于复用埋点信息的反爬虫方法及处理终端

Country Status (1)

Country Link
CN (1) CN113660277B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017084508A1 (zh) * 2015-11-17 2017-05-26 阿里巴巴集团控股有限公司 自动埋点方法和装置
CN113014623A (zh) * 2021-02-05 2021-06-22 招联消费金融有限公司 埋点实时流数据处理方法、装置、计算机设备和存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043919B2 (en) * 2008-10-21 2015-05-26 Lookout, Inc. Crawling multiple markets and correlating
CN102833668B (zh) * 2012-08-20 2015-04-08 中国联合网络通信集团有限公司 数据流量提醒方法及装置
CN104917643B (zh) * 2014-03-11 2019-02-01 腾讯科技(深圳)有限公司 异常账号检测方法及装置
CN104869155B (zh) * 2015-04-27 2018-09-18 腾讯科技(深圳)有限公司 数据审计方法及装置
CN105808639B (zh) * 2016-02-24 2021-02-09 平安科技(深圳)有限公司 网络访问行为识别方法和装置
CN105912934B (zh) * 2016-04-20 2018-10-30 迅鳐成都科技有限公司 一种面向数据产权保护的反内爬访控方法
CN106021552A (zh) * 2016-05-30 2016-10-12 深圳市华傲数据技术有限公司 基于人群行为模拟的互联网爬虫并发数据采集方法及***
CN106060048A (zh) * 2016-05-31 2016-10-26 杭州华三通信技术有限公司 一种网络资源访问方法和装置
CN110334307A (zh) * 2019-07-11 2019-10-15 税友软件集团股份有限公司 一种业务事件推送方法、装置及设备
CN110958228A (zh) * 2019-11-19 2020-04-03 用友网络科技股份有限公司 爬虫访问拦截方法及设备、服务器和计算机可读存储介质
CN111556109B (zh) * 2020-04-17 2021-05-18 北京达佳互联信息技术有限公司 请求处理方法、装置、电子设备和存储介质
CN111625700B (zh) * 2020-05-25 2023-04-07 北京世纪家天下科技发展有限公司 防抓取的方法、装置、设备及计算机存储介质
CN111930719B (zh) * 2020-08-13 2023-09-19 中国工商银行股份有限公司 一种数据库访问方法、装置及***
CN112291263A (zh) * 2020-11-17 2021-01-29 珠海大横琴科技发展有限公司 一种数据阻断的方法和装置
CN113179266A (zh) * 2021-04-26 2021-07-27 口碑(上海)信息技术有限公司 业务请求处理方法及装置、电子设备、存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017084508A1 (zh) * 2015-11-17 2017-05-26 阿里巴巴集团控股有限公司 自动埋点方法和装置
CN113014623A (zh) * 2021-02-05 2021-06-22 招联消费金融有限公司 埋点实时流数据处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113660277A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
US9934368B2 (en) User-generated content permissions status analysis system and method
US9881179B2 (en) User-generated content permissions status analysis system and method
KR101422859B1 (ko) 문서의 오디언스-적정 버전을 제공하는 방법, 문서 서버, 및 컴퓨터 판독 가능 매체
US7716340B2 (en) Restricting access to a shared resource
US8095547B2 (en) Method and apparatus for detecting spam user created content
US7860971B2 (en) Anti-spam tool for browser
CN103166917A (zh) 网络设备身份识别方法及***
CN102077201A (zh) 用于网页的动态及实时归类的***及方法
CN109450969B (zh) 从第三方数据源服务器中获取数据的方法、装置和服务器
US20160203337A1 (en) Identifying private information from data streams
US20190238320A1 (en) Citation and attribution management methods and systems
CN111368227B (zh) 一种url处理方法以及装置
CN113221535B (zh) 情报处理方法、装置、计算机设备和存储介质
US9665732B2 (en) Secure Download from internet marketplace
CN112131507A (zh) 网站内容处理方法、装置、服务器和计算机可读存储介质
CN106254528A (zh) 一种资源下载方法和缓存设备
US11062019B2 (en) System and method for webpages scripts validation
US7971054B1 (en) Method of and system for real-time form and content classification of data streams for filtering applications
CN110929129B (zh) 一种信息检测方法、设备及机器可读存储介质
US7970760B2 (en) System and method for automatic detection of needy queries
CN111625700B (zh) 防抓取的方法、装置、设备及计算机存储介质
US9361198B1 (en) Detecting compromised resources
CN113660277B (zh) 一种基于复用埋点信息的反爬虫方法及处理终端
US20140280038A1 (en) Delivering a filtered search result
KR20180007792A (ko) 클라우드 서비스 기반의 데이터 제공 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant