CN106874165B - 网页检测方法和装置 - Google Patents

网页检测方法和装置 Download PDF

Info

Publication number
CN106874165B
CN106874165B CN201510922690.0A CN201510922690A CN106874165B CN 106874165 B CN106874165 B CN 106874165B CN 201510922690 A CN201510922690 A CN 201510922690A CN 106874165 B CN106874165 B CN 106874165B
Authority
CN
China
Prior art keywords
webpage
access
target
uniform resource
accessed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510922690.0A
Other languages
English (en)
Other versions
CN106874165A (zh
Inventor
李新国
吴茜
张鹏霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510922690.0A priority Critical patent/CN106874165B/zh
Publication of CN106874165A publication Critical patent/CN106874165A/zh
Application granted granted Critical
Publication of CN106874165B publication Critical patent/CN106874165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网页检测方法和装置。其中,该方法包括:从目标网站中检测出在预设时间段内更新的目标网页;对目标网页的访问数据进行解析,得到目标网页的访问参数,访问参数用于反映目标网页被访问的情况;判断访问参数是否满足预设条件;以及在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页。本申请解决了现有技术中无法对网页更新的效果进行评价的技术问题。

Description

网页检测方法和装置
技术领域
本申请涉及互联网领域,具体而言,涉及一种网页检测方法和装置。
背景技术
在互联网领域,随着时间的推移,网站上会不断地发布或添加新的网页,这些都可以称为网页的更新。发明人发现,虽然都是网页的更新,但有些网页的更新能够起到很好的效果,有些网页的更新却无法对网站做出任何贡献,因此,如何对网页的更新的进行评价,从而确定网页更新的质量是目前亟待解决的问题。现有技术中还无法对网页更新的效果进行评价,进而无法确定网页的更新对网站带来哪些好处。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种网页检测方法和装置,以至少解决现有技术中无法对网页更新的效果进行评价的技术问题。
根据本申请实施例的一个方面,提供了一种网页检测方法,包括:从目标网站中检测出在预设时间段内更新的目标网页;对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;判断所述访问参数是否满足预设条件;以及在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页。
进一步地,所述访问参数包括以下至少之一:访问次数、访问用户数量、访问时长,其中,判断所述访问参数是否满足预设条件包括以下至少之一:判断所述访问次数是否超过第一预设阈值;判断所述访问用户数量是否超过第二预设阈值;判断所述访问时长是否超过第三预设阈值。
进一步地,从目标网站中检测出在预设时间段内更新的目标网页包括:对所述目标网站在所述预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。
进一步地,逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:对所述被访问网页的统一资源定位符进行哈希编码,得到所述被访问网页的统一资源定位符的哈希值;在预先设置的布隆过滤器中查询是否存在所述被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;在查询出不存在所述被访问网页的统一资源定位符的哈希值时,确定该统一资源定位符的哈希值对应的网页为所述目标网页。
进一步地,在查询出不存在所述被访问网页的统一资源定位符的哈希值之后,所述方法还包括:将所述被访问网页的统一资源定位符的哈希值存储到所述布隆过滤器中。
根据本申请实施例的另一方面,还提供了一种网页检测装置,包括:检测单元,用于从目标网站中检测出在预设时间段内更新的目标网页;解析单元,用于对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;判断单元,用于判断所述访问参数是否满足预设条件;以及确定单元,用于在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页。
进一步地,所述访问参数以下至少之一:访问次数、访问用户数量、访问时长,其中,所述判断单元包括以下至少之一:第一判断模块,用于判断所述访问次数是否超过第一预设阈值;第二判断模块,用于判断所述访问用户数量是否超过第二预设阈值;第三判断模块,用于判断所述访问时长是否超过第三预设阈值。
进一步地,所述检测单元包括:解析模块,用于对所述目标网站在所述预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;匹配模块,用于逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。
进一步地,所述匹配模块包括:编码子模块,用于对所述被访问网页的统一资源定位符进行哈希编码,得到所述被访问网页的统一资源定位符的哈希值;查询子模块,用于在预先设置的布隆过滤器中查询是否存在所述被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;确定子模块,用于在查询出不存在所述被访问网页的统一资源定位符的哈希值时,确定该统一资源定位符的哈希值对应的网页为所述目标网页。
进一步地,所述装置还包括:存储单元,用于在查询出不存在所述被访问网页的统一资源定位符的哈希值之后,将所述被访问网页的统一资源定位符的哈希值存储到所述布隆过滤器中。
根据本申请实施例,通过从目标网站中检测出在预设时间段内更新的目标网页,对目标网页的访问数据进行解析,得到目标网页的访问参数,该访问参数用于反映目标网页被访问的情况,再判断访问参数是否满足预设条件,在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页,利用访问参数来评价更新的网页是否为有效更新的网页,解决了现有技术中无法对网页更新的效果进行评价的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网页检测方法的流程图;
图2是根据本申请实施例的网页检测装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种网页检测方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的网页检测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,从目标网站中检测出在预设时间段内更新的目标网页。
预设时间段可以是指目标网页更新的当天,例如,2015年12月1日在目标网站上更新了网页,在当天结束之后,可以检测出这一天更新的这些网页。
步骤S104,对目标网页的访问数据进行解析,得到目标网页的访问参数,访问参数用于反映目标网页被访问的情况。
目标网页的访问数据可以是指目标网页在上述预设时间段内的访问数据,这些访问数据可以从目标网站的服务器记录的访问日志中获取,也可以通过设置在目标网站上的监测代码监测得到。根据目标网页的访问数据得到目标网页的访问参数,该访问参数可以反映目标网页被访问的访问用户数量、访问次数、访问时长等访问情况,以便于通过该访问参数来判断目标网页是否为有效更新。
步骤S106,判断访问参数是否满足预设条件。
步骤S108,在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页。
在得到目标网页的访问参数之后,可以判断该访问参数是否满足预设条件,其中,当访问参数为访问次数(即访问量)时,预设条件可以是“是否超过预先设置的访问次数阈值”;当访问参数为访问用户数量(即访问人数)时,预设条件可以是“是否超过预先设置的访问人数阈值”;当访问参数为访问时长时,预设条件可以是“是否超过预先设置的时间阈值”。
本实施例中,在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页,反之,则认为目标网页不是有效更新的网页。
需要说明的是,目标网页可以是一个也可以是多个,当目标网页为一个网页时,得到的访问参数用于反映该目标网页的被访问情况;当目标网页为多个网页时,则对多个网页中每个网页的访问数据进行解析,得到每个网页对应的访问参数,然后依次判断每个网页是否为有效更新的网页。
根据本申请实施例,通过从目标网站中检测出在预设时间段内更新的目标网页,对目标网页的访问数据进行解析,得到目标网页的访问参数,该访问参数用于反映目标网页被访问的情况,再判断访问参数是否满足预设条件,在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页,利用访问参数来评价更新的网页是否为有效更新的网页,解决了现有技术中无法对网页更新的效果进行评价的技术问题。
优选地,访问参数以下至少之一:访问次数、访问用户数量、访问时长,其中,判断访问参数是否满足预设条件包括以下至少之一:判断访问次数是否超过第一预设阈值;判断访问用户数量是否超过第二预设阈值;判断访问时长是否超过第三预设阈值。
本实施例中,预设条件可以设置一个条件或者多个条件,当设置成一个条件时,例如,预设条件为访问次数超过第一预设阈值,如果超过第一预设阈值,则确定目标网页为有效更新的网页;预设条件为访问用户数量超过第二预设阈值时,如果超过第二预设阈值,则确定目标网页为有效更新的网页;预设条件为访问时长超过第三预设阈值时,如果超过第三预设阈值,则确定目标网页为有效更新的网页。当设置成多个条件时,例如,预设条件为访问次数超过第一预设阈值并且访问时长超过第三预设阈值,则访问参数包括访问次数和访问时长,如果判断出访问次数超过第一预设阈值并且访问时长超过第三预设阈值,则目标网页为有效更新的网页。其他的组合情况也属于本申请的保护范围,这里就不一一列举。
根据本申请实施例,通过统计目标网页的访问次数和/或访问用户数量和/或访问时长来判断目标网页是否为有效更新的网页,以便于从用户访问的角度来评价目标网页,体现出目标网页价值。
优选地,从目标网站中检测出在预设时间段内更新的目标网页包括:对目标网站在预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;逐条将被访问网页的统一资源定位符与在预设时间段之前记录的目标网站上的网页的统一资源定位符进行匹配,在被访问网页的统一资源定位符未匹配到在预设时间段之前记录的目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为目标网页。
本实施例中,可以是通过解析访问日志中之前未被访问过的网页作为目标网页。具体地,当需要检测预设时间段内的目标网页时,则从目标网站在该预设时间段内的访问日志中解析出,所有被访问网页的统一资源定位符(URL),将该URL与预设时间段之间记录的目标网站上的网页的URL进行匹配,以确定在该预设时间段内哪些网页是初次被访问的,也即是在预设时间段之前未被记录的网页,作为目标网页。
进一步地,逐条将被访问网页的统一资源定位符与在预设时间段之前记录的目标网站上的网页的统一资源定位符进行匹配,在被访问网页的统一资源定位符未匹配到在预设时间段之前记录的目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为目标网页包括:对被访问网页的统一资源定位符进行哈希编码,得到被访问网页的统一资源定位符的哈希值;在预先设置的布隆过滤器中查询是否存在被访问网页的统一资源定位符的哈希值,其中,布隆过滤器中存储有目标网站上在预设时间段之前发布的网页的统一资源定位符的哈希值;在查询出不存在被访问网页的统一资源定位符的哈希值时,确定该统一资源定位符的哈希值对应的网页为目标网页。
具体地,在进行URL匹配时,可以利用预先设置的布隆过滤器,该布隆过滤器在构建完成之后,按照预设规则计算出预设时间段之前目标网站上的所发布的所有网页的URL的哈希值,并存储在布隆过滤器中,这样,在检测目标网页过程中,按照相同的规则计算在预设时间段内被访问网页的URL的哈希值,然后在布隆过滤器中查询该哈希值,当查询出相同的哈希值时,表明在预设时间段之前该哈希值对应的网页已经发布;反之,如果未查询到,则表明在预设时间段之前,该网页未发布,即该网页是在预设时间段内更新的目标网页。
本实施例中,通过计算预设时间段内被访问网页的URL的哈希值,利用该在布隆过滤器中查询哈希值,相对于直接采用URL进行匹配查询的方式,能够降低匹配查询的复杂度,提高查询效率。
进一步地,在进行目标网页的检测之前,需要先构建布隆过滤器,具体如下:
首先估算目标网站规模,即目标网站的网页的URL的总量n,然后设置布隆过滤器中能够容纳的元素数x,该n值可以是根据x的值来确定,例如将x乘以10作为估算的布隆过滤器中容纳的元素数n,根据实际情况录入误差容忍度p,例如0.001%。
然后计算需要的内存大小m bits:
Figure BDA0000876972880000061
由m,n得到哈希函数的个数:
Figure BDA0000876972880000071
最后根据以上参数(m,p,k)初始化布隆过滤器,并提取***中已经被访问的URL,在对URL进行哈希编码后,将编码得到的哈希值存入布隆过滤器中。
优选地,在查询出不存在被访问网页的统一资源定位符的哈希值之后,方法还包括:将被访问网页的统一资源定位符的哈希值存储到布隆过滤器中。
本实施例中,在确定出目标网页之后,可以将目标网页的URL的哈希值存储到布隆过滤器中,以保证在检测后续的更新的网页时剔除掉该预设时间段内的更新的网页。
下面对本申请实施例的一种优选实施方式进行描述,具体包括:
步骤1:在目标网站部署监测代码Tracker。该监测代码Tracker可以是一段JS脚本,嵌入在目标网站的源代码中,可以将用户在网站的访问日志发送到指定的服务器;
步骤2:根据目标网站的访问情况配置有效更新的判断标准即预设条件,例如,对于一个访问量较小的网站可以配置成当新页面的访问人数>5且总访问时长>10分钟时认为该页面是有效更新;
步骤3:逐条解析服务器收集到的访问日志;
步骤4:提取出当天的访问日志中的URL,即用户在当天访问的网页的URL;
步骤5:对步骤4得到的URL进行哈希编码,得到对应的哈希值,然后通过在预先设置的布隆过滤器中查询该哈希值来确定该URL是否存在,若存在表示该URL在当天以前已经被访问过,则该网页不是新发布的网页,若该URL在当天之前没有被访问过,则认为该URL为新发布网页;
步骤6:解析汇总完当天的所有访问日志;
步骤7:对于步骤5中得到的新发布网页,按照URL统计其总体被访问情况,如访问人数、访问人次、总的访问时长等;
步骤8:对于步骤7中的结果,判断各个URL对应的统计结果是否满足步骤2的条件,若满足则认为该网页是一个有效更新,否则认为该网页不是一个有效更新;
步骤9:记录步骤8中的有效更新的URL和对应的日期;
步骤10:将步骤5中判断得到的新网页的URL的哈希值写入布隆过滤器中。
本申请实施例中,通过根据网站的访问情况,自定义有效更新的判断条件,更符合实际应用需求;并且通过自定义有效更新判断条件,可以有效减少孤岛页面(发布很久的页面但是从来没有被访问过)引起的误差(孤岛页面即使某天突然被访问,其访问指标一般也无法满足有效更新的统计条件);另外,通过使用布隆过滤器,大大加快对历史URL判断的速度。
本申请实施例还提供了一种网页检测装置,该装置可以用于执行本申请实施例的网页检测方法,如图2所示,该装置包括:检测单元10、解析单元20、判断单元30和确定单元40。
检测单元10用于从目标网站中检测出在预设时间段内更新的目标网页。
预设时间段可以是指目标网页更新的当天,例如,2015年12月1日在目标网站上更新了网页,在当天结束之后,可以检测出这一天更新的这些网页。
解析单元20用于对目标网页的访问数据进行解析,得到目标网页的访问参数,访问参数用于反映目标网页被访问的情况。
目标网页的访问数据可以是指目标网页在上述预设时间段内的访问数据,这些访问数据可以从目标网站的服务器记录的访问日志中获取,也可以通过设置在目标网站上的监测代码监测得到。根据目标网页的访问数据得到目标网页的访问参数,该访问参数可以反映目标网页被访问的访问用户数量、访问次数、访问时长等访问情况,以便于通过该访问参数来判断目标网页是否为有效更新。
判断单元30用于判断访问参数是否满足预设条件。
确定单元40用于在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页。
在得到目标网页的访问参数之后,可以判断该访问参数是否满足预设条件,其中,当访问参数为访问次数(即访问量)时,预设条件可以是“是否超过预先设置的访问次数阈值”;当访问参数为访问用户数量(即访问人数)时,预设条件可以是“是否超过预先设置的访问人数阈值”;当访问参数为访问时长时,预设条件可以是“是否超过预先设置的时间阈值”。
本实施例中,在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页,反之,则认为目标网页不是有效更新的网页。
需要说明的是,目标网页可以是一个也可以是多个,当目标网页为一个网页时,得到的访问参数用于反映该目标网页的被访问情况;当目标网页为多个网页时,则对多个网页中每个网页的访问数据进行解析,得到每个网页对应的访问参数,然后依次判断每个网页是否为有效更新的网页。
根据本申请实施例,通过从目标网站中检测出在预设时间段内更新的目标网页,对目标网页的访问数据进行解析,得到目标网页的访问参数,该访问参数用于反映目标网页被访问的情况,再判断访问参数是否满足预设条件,在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页,利用访问参数来评价更新的网页是否为有效更新的网页,解决了现有技术中无法对网页更新的效果进行评价的技术问题。
优选地,访问参数以下至少之一:访问次数、访问用户数量、访问时长,其中,判断单元包括以下至少之一:第一判断模块,用于判断访问次数是否超过第一预设阈值;第二判断模块,用于判断访问用户数量是否超过第二预设阈值;第三判断模块,用于判断访问时长是否超过第三预设阈值。
本实施例中,预设条件可以设置一个条件或者多个条件,当设置成一个条件时,例如,预设条件为访问次数超过第一预设阈值,如果超过第一预设阈值,则确定目标网页为有效更新的网页;预设条件为访问用户数量超过第二预设阈值时,如果超过第二预设阈值,则确定目标网页为有效更新的网页;预设条件为访问时长超过第三预设阈值时,如果超过第三预设阈值,则确定目标网页为有效更新的网页。当设置成多个条件时,例如,预设条件为访问次数超过第一预设阈值并且访问时长超过第三预设阈值,则访问参数包括访问次数和访问时长,如果判断出访问次数超过第一预设阈值并且访问时长超过第三预设阈值,则目标网页为有效更新的网页。其他的组合情况也属于本申请的保护范围,这里就不一一列举。
根据本申请实施例,通过统计目标网页的访问次数和/或访问用户数量和/或访问时长来判断目标网页是否为有效更新的网页,以便于从用户访问的角度来评价目标网页,体现出目标网页价值。
优选地,检测单元包括:解析模块,用于对目标网站在预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;匹配模块,用于逐条将被访问网页的统一资源定位符与在预设时间段之前记录的目标网站上的网页的统一资源定位符进行匹配,在被访问网页的统一资源定位符未匹配到在预设时间段之前记录的目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为目标网页。
本实施例中,可以是通过解析访问日志中之前未被访问过的网页作为目标网页。具体地,当需要检测预设时间段内的目标网页时,则从目标网站在该预设时间段内的访问日志中解析出,所有被访问网页的统一资源定位符(URL),将该URL与预设时间段之间记录的目标网站上的网页的URL进行匹配,以确定在该预设时间段内哪些网页是初次被访问的,也即是在预设时间段之前未被记录的网页,作为目标网页。
进一步地,匹配模块包括:编码子模块,用于对被访问网页的统一资源定位符进行哈希编码,得到被访问网页的统一资源定位符的哈希值;查询子模块,用于在预先设置的布隆过滤器中查询是否存在被访问网页的统一资源定位符的哈希值,其中,布隆过滤器中存储有目标网站上在预设时间段之前发布的网页的统一资源定位符的哈希值;确定子模块,用于在查询出不存在被访问网页的统一资源定位符的哈希值时,确定该统一资源定位符的哈希值对应的网页为目标网页。
具体地,在进行URL匹配时,可以利用预先设置的布隆过滤器,该布隆过滤器在构建完成之后,按照预设规则计算出预设时间段之前目标网站上的所发布的所有网页的URL的哈希值,并存储在布隆过滤器中,这样,在检测目标网页过程中,按照相同的规则计算在预设时间段内被访问网页的URL的哈希值,然后在布隆过滤器中查询该哈希值,当查询出相同的哈希值时,表明在预设时间段之前该哈希值对应的网页已经发布;反之,如果未查询到,则表明在预设时间段之前,该网页未发布,即该网页是在预设时间段内更新的目标网页。
本实施例中,通过计算预设时间段内被访问网页的URL的哈希值,利用该在布隆过滤器中查询哈希值,相对于直接采用URL进行匹配查询的方式,能够降低匹配查询的复杂度,提高查询效率。
优选地,装置还包括:存储单元,用于在查询出不存在被访问网页的统一资源定位符的哈希值之后,将被访问网页的统一资源定位符的哈希值存储到布隆过滤器中。
本实施例中,在确定出目标网页之后,可以将目标网页的URL的哈希值存储到布隆过滤器中,以保证在检测后续的更新的网页时剔除掉该预设时间段内的更新的网页。
所述网页检测装置包括处理器和存储器,上述检测单元10、解析单元20、判断单元30和确定单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。上述预设条件、第一预设阈值、第二预设阈值、第三预设阈值等都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来确定网页是否为有效更新的网页。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从目标网站中检测出在预设时间段内更新的目标网页;对目标网页的访问数据进行解析,得到目标网页的访问参数,访问参数用于反映目标网页被访问的情况;判断访问参数是否满足预设条件;以及在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种网页检测方法,其特征在于,包括:
从目标网站中检测出在预设时间段内更新的目标网页;
对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;
判断所述访问参数是否满足预设条件;以及
在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页;
其中,从目标网站中检测出在预设时间段内更新的目标网页包括:
对所述目标网站在所述预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;
逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。
2.根据权利要求1所述的方法,其特征在于,所述访问参数包括以下至少之一:访问次数、访问用户数量、访问时长,其中,判断所述访问参数是否满足预设条件包括以下至少之一:
判断所述访问次数是否超过第一预设阈值;
判断所述访问用户数量是否超过第二预设阈值;
判断所述访问时长是否超过第三预设阈值。
3.根据权利要求1所述的方法,其特征在于,逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页包括:
对所述被访问网页的统一资源定位符进行哈希编码,得到所述被访问网页的统一资源定位符的哈希值;
在预先设置的布隆过滤器中查询是否存在所述被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;
在查询出不存在所述被访问网页的统一资源定位符的哈希值时,确定该统一资源定位符的哈希值对应的网页为所述目标网页。
4.根据权利要求3所述的方法,其特征在于,在查询出不存在所述被访问网页的统一资源定位符的哈希值之后,所述方法还包括:
将所述被访问网页的统一资源定位符的哈希值存储到所述布隆过滤器中。
5.一种网页检测装置,其特征在于,包括:
检测单元,用于从目标网站中检测出在预设时间段内更新的目标网页;
解析单元,用于对所述目标网页的访问数据进行解析,得到所述目标网页的访问参数,所述访问参数用于反映所述目标网页被访问的情况;
判断单元,用于判断所述访问参数是否满足预设条件;以及
确定单元,用于在判断出所述访问参数满足所述预设条件时,确定所述目标网页为有效更新的网页;
其中,所述检测单元包括:
解析模块,用于对所述目标网站在所述预设时间段内的访问日志进行解析,得到被访问网页的统一资源定位符;
匹配模块,用于逐条将所述被访问网页的统一资源定位符与在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符进行匹配,在所述被访问网页的统一资源定位符未匹配到在所述预设时间段之前记录的所述目标网站上的网页的统一资源定位符时,将该未匹配到的被访问网页作为所述目标网页。
6.根据权利要求5所述的装置,其特征在于,所述访问参数以下至少之一:访问次数、访问用户数量、访问时长,其中,所述判断单元包括以下至少之一:
第一判断模块,用于判断所述访问次数是否超过第一预设阈值;
第二判断模块,用于判断所述访问用户数量是否超过第二预设阈值;
第三判断模块,用于判断所述访问时长是否超过第三预设阈值。
7.根据权利要求5所述的装置,其特征在于,所述匹配模块包括:
编码子模块,用于对所述被访问网页的统一资源定位符进行哈希编码,得到所述被访问网页的统一资源定位符的哈希值;
查询子模块,用于在预先设置的布隆过滤器中查询是否存在所述被访问网页的统一资源定位符的哈希值,其中,所述布隆过滤器中存储有所述目标网站上在所述预设时间段之前发布的网页的统一资源定位符的哈希值;
确定子模块,用于在查询出不存在所述被访问网页的统一资源定位符的哈希值时,确定该统一资源定位符的哈希值对应的网页为所述目标网页。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
存储单元,用于在查询出不存在所述被访问网页的统一资源定位符的哈希值之后,将所述被访问网页的统一资源定位符的哈希值存储到所述布隆过滤器中。
CN201510922690.0A 2015-12-14 2015-12-14 网页检测方法和装置 Active CN106874165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510922690.0A CN106874165B (zh) 2015-12-14 2015-12-14 网页检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510922690.0A CN106874165B (zh) 2015-12-14 2015-12-14 网页检测方法和装置

Publications (2)

Publication Number Publication Date
CN106874165A CN106874165A (zh) 2017-06-20
CN106874165B true CN106874165B (zh) 2020-08-11

Family

ID=59178253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510922690.0A Active CN106874165B (zh) 2015-12-14 2015-12-14 网页检测方法和装置

Country Status (1)

Country Link
CN (1) CN106874165B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854030B2 (en) 2021-06-29 2023-12-26 The Nielsen Company (Us), Llc Methods and apparatus to estimate cardinality across multiple datasets represented using bloom filter arrays

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109302383B (zh) * 2018-08-31 2022-04-29 平安科技(深圳)有限公司 一种url监控方法及装置
CN110969472B (zh) * 2018-09-30 2023-07-04 北京国双科技有限公司 访问行为的处理方法和装置
CN111010458B (zh) * 2019-12-04 2022-07-01 北京奇虎科技有限公司 域名规则的生成方法、设备及计算机可读存储介质
US11676160B2 (en) 2020-02-11 2023-06-13 The Nielsen Company (Us), Llc Methods and apparatus to estimate cardinality of users represented in arbitrarily distributed bloom filters
US11741068B2 (en) 2020-06-30 2023-08-29 The Nielsen Company (Us), Llc Methods and apparatus to estimate cardinality of users represented across multiple bloom filter arrays
US11755545B2 (en) 2020-07-31 2023-09-12 The Nielsen Company (Us), Llc Methods and apparatus to estimate audience measurement metrics based on users represented in bloom filter arrays
CN115865707B (zh) * 2022-12-06 2024-05-24 德州易泰数据湖信息技术有限公司 一种互联网数据管理***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132991A (ja) * 2000-10-26 2002-05-10 Kyocera Mita Corp ネットワーク対応型画像形成装置
CN103049456A (zh) * 2011-10-14 2013-04-17 腾讯科技(深圳)有限公司 一种筛选网页的方法及装置
CN104133852A (zh) * 2014-07-04 2014-11-05 小米科技有限责任公司 网页访问方法、装置、服务器及终端
CN104572996A (zh) * 2015-01-06 2015-04-29 百度在线网络技术(北京)有限公司 视频网页的处理方法和装置
CN104794193A (zh) * 2015-04-17 2015-07-22 南京大学 一种有效链接获取的网页增量抓取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559203A (zh) * 2013-10-08 2014-02-05 北京奇虎科技有限公司 网页排序方法、装置和***
CN104182548B (zh) * 2014-09-10 2017-09-26 北京国双科技有限公司 网页更新处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132991A (ja) * 2000-10-26 2002-05-10 Kyocera Mita Corp ネットワーク対応型画像形成装置
CN103049456A (zh) * 2011-10-14 2013-04-17 腾讯科技(深圳)有限公司 一种筛选网页的方法及装置
CN104133852A (zh) * 2014-07-04 2014-11-05 小米科技有限责任公司 网页访问方法、装置、服务器及终端
CN104572996A (zh) * 2015-01-06 2015-04-29 百度在线网络技术(北京)有限公司 视频网页的处理方法和装置
CN104794193A (zh) * 2015-04-17 2015-07-22 南京大学 一种有效链接获取的网页增量抓取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854030B2 (en) 2021-06-29 2023-12-26 The Nielsen Company (Us), Llc Methods and apparatus to estimate cardinality across multiple datasets represented using bloom filter arrays

Also Published As

Publication number Publication date
CN106874165A (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN106874165B (zh) 网页检测方法和装置
CN107797894B (zh) App用户行为分析方法和装置
CN107800591B (zh) 一种统一日志数据的分析方法
CN106936778B (zh) 网站流量异常的检测方法和装置
WO2017113677A1 (zh) 处理用户行为数据的方法和***
CN107153656B (zh) 一种信息搜索方法和装置
CN106776609B (zh) 网站转载数量的统计方法及装置
EP3345154A1 (en) Method, apparatus and system for detecting fraudulent software promotion
CN106933916B (zh) Json字符串的处理方法及装置
CN111030992A (zh) 检测方法、服务器及计算机可读存储介质
CN104079559A (zh) 一种网址安全性检测方法、装置及服务器
CN106933905B (zh) 网页访问数据的监测方法和装置
CN106933903B (zh) 应用于分布式存储的存储方法及装置
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质
US20160307223A1 (en) Method for determining a user profile in relation to certain web content
CN106708880B (zh) 话题关联词的获取方法和装置
CN106897297B (zh) 网站栏目间访问路径的确定方法及装置
CN106919609B (zh) 产品信息推送方法和装置
CN108243037B (zh) 网站流量异常确定方法及装置
CN106874299A (zh) 网页检测方法和装置
CN107357795B (zh) 网站间关联度的监测方法和装置
CN106611010B (zh) 网页加载速度的确定方法和装置
CN106874302B (zh) 设置率确定方法和装置
CN106708878B (zh) 终端识别方法及装置
CN108629610B (zh) 推广信息曝光量的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant