CN103581263A - Url点击事件的识别方法、装置和服务器 - Google Patents

Url点击事件的识别方法、装置和服务器 Download PDF

Info

Publication number
CN103581263A
CN103581263A CN201210277209.3A CN201210277209A CN103581263A CN 103581263 A CN103581263 A CN 103581263A CN 201210277209 A CN201210277209 A CN 201210277209A CN 103581263 A CN103581263 A CN 103581263A
Authority
CN
China
Prior art keywords
request message
http request
rule
attribute information
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210277209.3A
Other languages
English (en)
Other versions
CN103581263B (zh
Inventor
杨建平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210277209.3A priority Critical patent/CN103581263B/zh
Publication of CN103581263A publication Critical patent/CN103581263A/zh
Application granted granted Critical
Publication of CN103581263B publication Critical patent/CN103581263B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种URL点击事件的识别方法、装置和服务器,该方法包括:接收第一HTTP请求报文,提取第一HTTP请求报文的报文头中的属性信息;在属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第一总评分;在属性信息满足预先配置的报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第二总评分;在第一总评分和第二总评分之和大于或等于点击事件评分阈值时,识别出第一HTTP请求报文为URL点击事件。

Description

URL点击事件的识别方法、装置和服务器
技术领域
本发明涉及通信技术,尤其涉及一种统一资源定位符(Uniform/UniversalResource Locator;简称:URL)点击事件的识别方法、装置和服务器。
背景技术
当前基于超文本传送协议(Hypertext Transport Protocol;简称:HTTP)的应用越来越广泛,且考虑到web安全问题,需要了解用户的访问情况,即了解用户的URL点击事件,以根据用户的URL点击事件对用户的行为进行分析。其中,该URL点击事件是指一个人通过点击浏览器所展示的网页中的链接,进而访问与该链接对应的URL所定位的资源的事件。
但是,由于现有技术网页设计越来越复杂,例如:网页互相嵌套、页面的重定向(如访问***搜索结果都会重定向一次)、广告推送服务、应用软件消息和升级服务器等,因此,直接通过HTTP GET报文个数并不能准确反映用户的URL点击事件,从而也就无法准确地对用户的行为进行分析。
发明内容
本发明提供一种URL点击事件的识别方法、装置和服务器,用于解决现有技术中URL点击事件识别不准确的问题。
本发明的第一个方面是提供一种URL点击事件的识别方法,包括:
接收第一HTTP请求报文,提取所述第一HTTP请求报文的报文头中的属性信息;
在所述属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第一总评分;
在所述属性信息满足预先配置的报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第二总评分;
在所述第一总评分和第二总评分之和大于或等于点击事件评分阈值时,识别出发生URL点击事件。
在第一方面的第一种可能的实现方式中,所述在所述属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第一总评分,包括:
判断所述属性信息是否满足所述流规则组中的第一流规则;所述第一流规则为所述属性信息中的五元组信息与当前存储的五元组信息相同,所述当前存储的五元组信息是指承载第二HTTP请求报文的数据流的五元组信息,所述第二HTTP请求报文为所述第一HTTP请求报文的上一次请求报文;
若判断出所述属性信息满足所述第一流规则,则根据所述第一流规则对应的第一权值,对所述第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第一评分;
判断所述属性信息是否满足所述流规则组中的第二流规则,所述第二流规则为所述第一HTTP请求报文的访问时间与所述第二HTTP请求报文的访问时间之差大于HTTP请求报文访问间隔阈值;
若判断出所述属性信息满足所述第二流规则,则根据所述第二流规则对应的第二权值,对所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第二评分。
在第一方面的第一种可能实现方式,还提供了第一方面的第二种可能的实现方式,所述判断所述属性信息是否满足所述流规则组中的第一流规则之后,所述方法还包括:
若判断出所述属性信息不满足所述流规则组中的第一流规则,则判断所述属性信息是否满足所述流规则组中的第三流规则,所述第三流规则为承载所述第一HTTP请求报文的数据流的访问时间和承载所述第二HTTP请求报文的数据流的访问时间之差小于等于流访问的间隔阈值;
若判断所述属性信息满足所述第三流规则,则根据所述第三流规则对应的第三权值,对所述第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第三评分。
在第一方面、第一方面的第一种或者第一方面的第二种可能实现方式中,还提供了第一方面的第三种可能实现方式,所述报文规则组包括如下的一种规则或者几种规则的组合:所述属性信息中的URL包含在预先配置的URL点击黑名单中;所述属性信息中的URL的扩展名包含在预先配置的扩展名黑名单中;属于浏览器访问;以及存在关联网站且第一HTTP请求报文所在流的关联时间和所述关联网站所在流的关联时间之差大于关联阈值。
在第一方面的第三种可能实现方式中,还提供了第一方面的第四种可能实现方式,所述识别出发生URL点击事件之后,所述方法还包括:
记录所述第一HTTP请求报文的访问时间;
记录所述第一HTTP请求报文所承载的数据流的访问时间;
在所述第一HTTP请求报文承载的数据流与所述第二HTTP请求报文承载的第二数据流不相同时,根据所述第一HTTP请求报文承载的数据流的五元组信息,更新所述当前存储的五元组信息。
在第一方面的第四种可能实现方式中,还提供了第一方面的第五种可能实现方式,所述获取所述第一HTTP请求报文对应的第二总评分之后,所述方法还包括:
接收所述第一HTTP请求报文对应的第一HTTP响应报文;
在所述第一HTTP响应报文的属性信息满足所述报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对所述第一HTTP响应报文进行评分处理,获取所述第一HTTP响应报文对应的第三总评分;
则所述在所述第一总评分和第二总评分之和大于或等于点击事件评分阈值时,识别出所述第一HTTP请求报文为URL点击事件,包括:
在所述第一总评分、第二总评分和第三总评分之和大于或等于所述点击事件评分阈值时,识别出发生URL点击事件。
本发明的第二方面是提供一种URL点击事件的识别装置,包括:
接收模块,用于接收第一HTTP请求报文,提取所述第一HTTP请求报文的报文头中的属性信息;
第一评分处理模块,用于在所述接收模块提取到的所述属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对所述接收模块接收到的所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第一总评分;
第二评分处理模块,用于在所述接收模块提取到的所述属性信息满足预先配置的报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对所述接收模块接收到的所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第二总评分;
识别模块,用于在所述第一评分处理模块获取的所述第一总评分和所述第二评分处理模块获取的所述第二总评分之和大于或等于点击事件评分阈值时,识别出发生URL点击事件。
在第二方面的第一种可能的实现方式中,所述第一评分处理模块包括:
判断单元,用于判断所述属性信息是否满足所述流规则组中的第一流规则;所述第一流规则为所述属性信息中的五元组信息与当前存储的五元组信息相同,所述当前存储的五元组信息是指承载第二HTTP请求报文的数据流的五元组信息,所述第二HTTP请求报文为所述第一HTTP请求报文的上一次请求报文;
评分处理单元,用于若所述判断单元判断出所述属性信息满足所述第一流规则,则根据所述第一流规则对应的第一权值,对所述第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第一评分;
所述判断单元还用于判断所述属性信息是否满足所述流规则组中的第二流规则,所述第二流规则为所述第一HTTP请求报文的访问时间与所述第二HTTP请求报文的访问时间之差大于HTTP请求报文访问间隔阈值;
所述评分处理单元还用于若所述判断单元判断出所述属性信息满足所述第二流规则,则根据所述第二流规则对应的权值,对所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第二评分。
在第二方面的第一种可能的实现方式中,还提供了第二方面的第二种可能的实现方式,所述判断单元还用于若判断出所述属性信息不满足所述流规则组中的第一流规则,则判断所述属性信息是否满足所述流规则组中的第三流规则,所述第三流规则为承载所述第一HTTP请求报文的数据流的访问时间和承载所述第二HTTP请求报文的数据流的访问时间之差小于等于流访问的间隔阈值;
所述评分处理单元还用于若所述判断单元判断所述属性信息满足所述第三流规则,则根据所述第三流规则对应的第三权值,对所述第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第三评分。
在第二方面、第二方面的第一种或者第二方面的第二种可能的实现方式中,还提供了第二方面的第三种可能的实现方式,还包括:
记录模块,用于记录所述第一HTTP请求报文的访问时间;记录所述第一HTTP请求报文所承载的数据流的访问时间;
更新模块,用于在所述第一HTTP请求报文承载的数据流与所述第二HTTP请求报文承载的第二数据流不相同时,根据所述第一HTTP请求报文承载的数据流的五元组信息,更新所述当前存储的五元组信息。
在第二方面的第三种可能的实现方式中,还提供了第二方面的第四种可能的实现方式,所述接收模块还用于接收所述第一HTTP请求报文对应的第一HTTP响应报文;
则所述装置还包括:
第三评分处理模块,用于在所述第一HTTP响应报文的属性信息满足所述报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对所述第一HTTP响应报文进行评分处理,获取所述第一HTTP响应报文对应的第三总评分;
则所述识别模块具体用于在所述第一总评分、第二总评分和第三总评分之和大于或等于所述点击事件评分阈值时,识别出发生URL点击事件。
本发明的第三方面是提供一种服务器,包括:存储器,用于存储指令;
处理器,与所述存储器耦合,所述处理器被配置为执行存储在所述存储器中的指令,且所述处理器被配置为用于执行如上述所述的URL点击事件的识别方法。
本发明的技术效果是:提取接收到的第一HTTP请求报文的报文头中的属性信息、在该属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第一总评分;在该属性信息满足预先配置的报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第二总评分,最后,在该第一总评分和第二总评分之和大于或等于点击事件评分阈值时,识别出发生了URL点击事件,即该第一HTTP请求报文为URL点击事件所触发,由于根据预先配置的流规则组和报文规则组对该第一HTTP请求报文进行评分以判断是否发生URL点击事件,相较于现有技术中通过HTTP GET报文个数来识别是否为URL点击事件,其识别更为准确,因此,更能有效地提高了对用户的行为进行分析的准确度。
附图说明
图1为本发明URL点击事件的识别方法的一个实施例的流程图;
图2为本发明URL点击事件的识别方法的另一个实施例的流程图;
图3为本发明URL点击事件的识别方法的又一个实施例的流程图;
图4为本发明URL点击事件的识别方法的另一个实施例的流程图;
图5为本发明URL点击事件的识别装置的一个实施例的结构示意图;
图6为本发明URL点击事件的识别装置的另一个实施例的结构示意图。
具体实施方式
图1为本发明URL点击事件的识别方法的一个实施例的流程图,如图1所示,本发明的执行主体为URL点击事件的识别装置,则该方法包括:
步骤101、接收第一HTTP请求报文,提取该第一HTTP请求报文的报文头中的属性信息。
在本实施例中,该属性信息可以包括:五元组(源IP地址,源端口,目的IP地址,目的端口和传输层协议号)、请求报文访问时间、URL、URL的扩展名,用户代理(user agent)和引用(reference)等信息。其中,该请求报文访问时间是指HTTP请求报文的到达时间。另外,举例来说,URL的扩展名为“.shtml”。
步骤102、在该属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第一总评分。
在本实施例中,流规则组对应权值组,其中,权值组中包含该流规则组中每个流规则分别对应的权值。
另外,在本实施例中,举例来说,该流规则组中可以包括如下一种或者几种规则:第一流规则、第二流规则和第三流规则。其中,该第一流规则为属性信息中的五元组信息与当前存储的五元组信息相同;该第二流规则为第一HTTP请求报文的访问时间与第二HTTP请求报文的访问时间之差大于HTTP请求报文访问间隔阈值;该第三流规则为承载所述第一HTTP请求报文的数据流的访问时间和承载所述第二HTTP请求报文的数据流的访问时间之差小于等于流访问的间隔阈值。
其中,当前存储的五元组信息是指承载第二HTTP请求报文的数据流的五元组信息,该第二HTTP请求报文为该第一HTTP请求报文的上一次请求报文。
还需要说明的是,当第一HTTP请求报文的五元组信息与当前存储的五元组信息相同时,说明该第一HTTP请求报文承载的数据流与第二HTTP请求报文承载的数据流相同;当第一HTTP请求报文的五元组信息与当前存储的五元组信息不相同时,说明该第一HTTP请求报文承载的数据流与第二HTTP请求报文承载的数据流不相同。
步骤103、在判断该属性信息满足预先配置的报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对该第一HTTP请求报文进行评分处理,获取该第二HTTP请求报文对应的第二总评分。
在本实施例中,为了提高用户URL点击事件识别的准确性,可以预先提取一些样本文件,根据该些样本文件,以及预先配置的规则来训练每个规则为URL点击事件的权值,其中,该规则可以为流规则组中的规则或者报文组中的规则;样本文件中包括确定为URL点击事件所触发的HTTP请求报文。
步骤104、在该第一总评分和第二总评分之和大于或等于点击事件评分阈值时,识别出发生了URL点击事件,即该第一HTTP请求报文为URL点击事件所触发。
在本实施例中,提取接收到的第一HTTP请求报文的报文头中的属性信息、在该属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第一总评分;在该属性信息满足预先配置的报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第二总评分,最后,在该第一总评分和第二总评分之和大于或等于点击事件评分阈值时,识别出发生了URL点击事件,由于根据预先配置的流规则组和报文规则组对该第一HTTP请求报文进行评分以判断是否为URL点击事件,相较于现有技术中通过HTTP GET报文个数来识别是否为URL点击事件,其识别更为准确,因此,更能有效地提高了对用户的行为进行分析的准确度。
图2为本发明URL点击事件的识别方法的另一个实施例的流程图,在上述图1所示实施例的基础上,步骤102的一种具体实现方式为:
步骤102a、判断该属性信息是否满足该流规则组中的第一流规则,该第一流规则为该属性信息中的五元组信息与当前存储的五元组信息相同。
其中,当前存储的五元组信息是指承载第二HTTP请求报文的数据流的五元组信息,该第二HTTP请求报文为该第一HTTP请求报文的上一次请求报文。
步骤102b、若判断出该属性信息满足该第一流规则,则根据该第一流规则对应的第一权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第一评分。
步骤102c、判断该属性信息是否满足该流规则组中的第二流规则,该第二流规则为该第一HTTP请求报文的访问时间与第二HTTP请求报文的访问时间之差大于HTTP请求报文访问间隔阈值。
步骤102d、若判断出该属性信息满足该第二流规则,则根据该第二流规则对应的第二权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第二评分。
在本实施例中,第一总评分相当于第一评分和第二评分之和。
图3为本发明URL点击事件的识别方法的又一个实施例的流程图,在上述图1所示实施的基础上,步骤102的另一种实现方式为:
步骤102a、判断该属性信息是否满足该流规则组中的第一流规则,该第一流规则为该属性信息中的五元组信息与当前存储的第一数据流的五元组信息相同。
步骤102e、若判断出该属性信息不满足该第一流规则,则判断该属性信息是否满足该流规则组中的第三流规则,该第三流规则为承载该第一HTTP请求报文的数据流的访问时间和承载该第二HTTP请求报文的数据流的访问时间之差小于等于流访问的间隔阈值。
步骤102f、若判断该属性信息满足该第三流规则,则根据该第三流规则对应的第三权值,对该第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第三评分。
在本实施例中,该第一总评分等于第三评分。
进一步的,在本发明的还一个实施例中,在上述图1至图3任一所示实施例的基础上,报文规则组包括如下的一种规则或者几种规则的组合:该属性信息中的URL包含在预先配置的URL点击黑名单中;该属性信息中的URL的扩展名包含在预先配置的扩展名黑名单中;属于浏览器访问;以及存在关联网站且第一HTTP请求报文所在流的关联时间和该关联网站所在流的关联时间之差大于关联阈值;
该报文规则所对应的权值可以为如下一个:URL黑名单权值;URL扩展名黑名单权值;浏览器权值;以及HTTP请求报文和关联网站所在的流的间隔判决权值。
在本实施例中,可以根据属性信息中的user agent来判断是否属于浏览器访问,根据属性信息中的reference来判断是否存在关联网站。
更进一步的,在本发明的再一个实施例中,在上述任一所示实施例的基础上,该方法还可以进一步包括:
记录该第一HTTP请求报文的访问时间;
记录该第一HTTP请求报文所承载的数据流的访问时间;
在承载该第一HTTP请求报文的数据流与承载该第二HTTP请求报文的第二数据流不相同时,根据该第一HTTP请求报文承载的数据流的五元组信息,更新当前存储的五元组信息。
图4为本发明URL点击事件的识别方法的另一个实施例的流程图,在本实施例中,以报文规则组包括如下的几种规则的组合:该属性信息中的URL包含在预先配置的URL点击黑名单中;该属性信息中的URL的扩展名包含在预先配置的扩展名黑名单中;属于浏览器访问;以及存在关联网站且第一HTTP请求报文所在流的关联时间和该关联网站所在流的关联时间之差大于关联阈值为例,详细介绍本实施例的技术方案,如图4所示,该方法包括:
步骤201、接收第一HTTP请求报文,提取该第一HTTP请求报文的报文头中的属性信息。
步骤202、判断该属性信息是否满足流规则组中的第一流规则;若满足,则执行步骤203;若不满足,则执行步骤218。
其中,该第一流规则为该属性信息中的五元组信息与当前存储的五元组信息相同。
步骤203、根据该第一流规则对应的第一权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第一评分。
步骤204、判断该第一HTTP请求报文是否满足该流规则组中的第二流规则;若满足,则执行步骤205;若不满足,则执行步骤206。
其中,该第二流规则为该第一HTTP请求报文的访问时间与第二HTTP请求报文的访问时间之差大于HTTP请求报文访问间隔阈值。
步骤205、根据该第二流规则对应的第二权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第二评分。
步骤206、判断所述属性信息中的URL是否包含在预先配置的URL点击黑名单中;若包含,则执行步骤207;若不包含,则执行步骤208。
步骤207、根据URL黑名单权值,对该第一HTTP请求报文进行评分处理,获取第四评分。
步骤208、判断属性信息中的URL扩展名是否包含在预先配置的扩展名黑名单中;若包含,则执行步骤209;若不包含,则执行步骤210。
步骤209、根据URL扩展名黑名单权值,对该第一HTTP请求报文进行评分处理,获取第五评分。
步骤210、根据该属性信息中的user agent,判断是否属于浏览器访问;若属于,则执行步骤211;若不属于,则执行步骤212。
步骤211、根据浏览器权值,对该第一HTTP请求报文进行评分处理,获取第六评分。
步骤212、根据属性信息中的reference,判断是否存在关联网站;若存在,则执行步骤213;若不存在,则执行步骤215。
步骤213、判断第一HTTP请求报文所在流的关联时间和所述关联网站所在流的关联时间之差是否大于关联阈值;若大于,则执行步骤214;若小于或等于,则执行步骤215。
步骤214、根据HTTP请求报文和关联网站所在的流的间隔判决权值,对该第一HTTP请求报文进行评分处理,获取第七评分。
步骤215、判断该第一总评分和第二总评分之和是否大于或等于点击事件评分阈值,若大于或等于,则执行步骤216;若小于,则执行步骤217。
在本实施例中,当第一HTTP请求报文满足流规则组中的第一流规则,且满足该流规则组中的第二流规则时,该第一总评分等于第一评分和第二评分之和。当第一HTTP请求报文不满足流规则组中的第一流规则,且第一HTTP请求报文满足该流规则组中的第三流规则时,该第一总评分等于第三评分。当第一HTTP请求报文满足流规则组中的第一流规则,且不满足该流规则组中的第二流规则时,该第一总评分等于第一评分。
第二总评分可以为如下一种评分或者几种评分之和:第四评分、第五评分、第六评分和第七评分。
步骤216、识别出发生了URL点击事件。
步骤217、记录该第一HTTP请求报文的访问时间以及记录该第一HTTP请求报文所承载的数据流的访问时间。结束。
需要说明的是,在承载该第一HTTP请求报文的数据流与承载该第二HTTP请求报文的数据流不相同时,根据承载该第一HTTP请求报文的数据流的五元组信息,更新该当前存储的五元组信息。
步骤218、判断该属性信息是否满足该流规则组中的第三流规则,若满足,则执行步骤219;若不满足,则执行步骤206。
其中,该第三流规则为承载该第一HTTP请求报文的数据流的访问时间和承载该第二HTTP请求报文的数据流的访问时间之差小于等于流访问的间隔阈值。
步骤219、根据该第三流规则对应的第三权值,对该第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第三评分,并执行步骤206。
另外,优选地,为了进一步确定是否发生了URL点击事件,还可以根据接收到的该HTTP请求报文对应的响应报文来进一步判断该HTTP请求报文是否为URL点击事件。具体的,在本发明URL点击事件的识别方法的又一个实施例中,在上述图4所示实施例的基础上,该方法还可以进一步包括:
接收该第一HTTP请求报文对应的第一HTTP响应报文。
在判断该第一HTTP响应报文的属性信息满足该报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对该第一HTTP响应报文进行评分处理,获取该第一HTTP响应报文对应的第三总评分;
则步骤215可以具体为:
判断该第一总评分、第二总评分和第三总评分之和是否大于或等于点击事件评分阈值,若大于或等于,则执行步骤216;若小于,则执行步骤217。
需要说明的是,对该响应报文的进行评分的处理方式与上述对第一HTTP请求报文的属性信息在根据所满足的报文规则对应的权值进行评分处理的方式相类似(例如步骤206至步骤214),此处不再赘述。
图5为本发明URL点击事件的识别装置的一个实施例的结构示意图,如图5所示,本实施例的装置包括:接收模块11、第一评分处理模块12、第二评分处理模块13和识别模块14;其中,接收模块11用于接收第一HTTP请求报文,提取该第一HTTP请求报文的报文头中的属性信息;第一评分处理模块12用于在该接收模块11提取到的该属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对该接收模块11接收到的该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第一总评分;第二评分处理模块13用于在判断该接收模块11提取到的该属性信息满足预先配置的报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对该接收模块11接收到的该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第二总评分;识别模块14用于在该第一评分处理模块12获取的该第一总评分和该第二评分处理模块13获取的该第二总评分之和大于或等于点击事件评分阈值时,识别出该第一HTTP请求报文为URL点击事件。
本实施例的URL点击事件的识别装置可以执行图1所示方法实施例的技术方案,其实现原理相类似,此处不再赘述。
在本实施例中,提取接收到的第一HTTP请求报文的报文头中的属性信息、在该属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第一总评分;在该属性信息满足预先配置的报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第二总评分,最后,在该第一总评分和第二总评分之和大于或等于点击事件评分阈值时,识别出该第一HTTP请求报文为URL点击事件,由于根据预先配置的流规则组和报文规则组对该第一HTTP请求报文进行评分以判断是否为URL点击事件,相较于现有技术中通过HTTP GET报文个数来识别是否为URL点击事件,其识别更为准确,因此,更能有效地提高了对用户的行为进行分析的准确度。
图6为本发明URL点击事件的识别装置的另一个实施例的结构示意图,在上述图5所示实施例的基础上,如图6所示,第一评分处理模块12包括:判断单元121和评分处理单元122,其中,判断单元121用于判断该属性信息是否满足该流规则组中的第一流规则;该第一流规则为该属性信息中的五元组信息与当前存储的五元组信息相同,该当前存储的五元组信息是指承载第二HTTP请求报文的数据流的五元组信息,该第二HTTP请求报文为该第一HTTP请求报文的上一次请求报文;评分处理单元122用于若该判断单元121判断出该属性信息满足该流规则中的第一流规则,则根据该第一流规则对应的第一权值,对该第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第一评分;判断单元121还用于判断该属性信息是否满足该流规则组中的第二流规则,该第二流规则为该第一HTTP请求报文的访问时间与该第二HTTP请求报文的访问时间之差大于HTTP请求报文访问间隔阈值;评分处理单元122还用于若该判断单元121判断出该属性信息满足满足该第二流规则,则根据该第二流规则对应的权值,对该第一HTTP请求报文进行评分处理,获取该第一HTTP请求报文对应的第二评分。
进一步的,判断单元121还用于若判断出该属性信息不满足该流规则组中的第一流规则,则判断该属性信息是否满足该流规则组中的第三流规则,该第三流规则为承载该第一HTTP请求报文的数据流的访问时间和承载该第二HTTP请求报文的数据流的访问时间之差小于等于流访问的间隔阈值;该评分处理单元122还用于若该判断单元121判断该属性信息满足该流规则组中的第二流规则,则根据该第三流规则对应的第三权值,对该第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第三评分。
更进一步的,该装置还可以包括:记录模块15和更新模块16,其中,记录模块15用于记录该第一HTTP请求报文的访问时间;记录该第一HTTP请求报文所承载的数据流的访问时间;更新模块16用于在承载该第一HTTP请求报文的数据流与承载该第二HTTP请求报文的第二数据流不相同时,根据该第一HTTP请求报文承载的数据流的五元组信息,更新该当前存储的五元组信息。
更进一步的,该接收模块11还用于接收该第一HTTP请求报文对应的第一HTTP响应报文;
则该装置还包括:第三评分处理模块,用于在该第一HTTP响应报文的属性信息满足该报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对该第一HTTP响应报文进行评分处理,获取该第一HTTP响应报文对应的第三总评分;
则该识别模块14具体用于在该第一总评分、第二总评分和第三总评分之和大于或等于该点击事件评分阈值时,识别出该第一HTTP请求报文为URL点击事件。
本发明还提供了一种服务器,包括:存储器,用于存储指令;处理器,与该存储器耦合,该处理器被配置为执行存储在该存储器中的指令,且该处理器被配置为用于执行如图1至图4所示方法实施例的技术方案,其实现原理相类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.一种URL点击事件的识别方法,其特征在于,包括:
接收第一HTTP请求报文,提取所述第一HTTP请求报文的报文头中的属性信息;
在所述属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第一总评分;
在所述属性信息满足预先配置的报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第二总评分;
在所述第一总评分和第二总评分之和大于或等于点击事件评分阈值时,识别出发生URL点击事件。
2.根据权利要求1所述的URL点击事件的识别方法,其特征在于,所述在所述属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第一总评分,包括:
判断所述属性信息是否满足所述流规则组中的第一流规则;所述第一流规则为所述属性信息中的五元组信息与当前存储的五元组信息相同,所述当前存储的五元组信息是指承载第二HTTP请求报文的数据流的五元组信息,所述第二HTTP请求报文为所述第一HTTP请求报文的上一次请求报文;
若判断出所述属性信息满足所述第一流规则,则根据所述第一流规则对应的第一权值,对所述第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第一评分;
判断所述属性信息是否满足所述流规则组中的第二流规则,所述第二流规则为所述第一HTTP请求报文的访问时间与所述第二HTTP请求报文的访问时间之差大于HTTP请求报文访问间隔阈值;
若判断出所述属性信息满足所述第二流规则,则根据所述第二流规则对应的第二权值,对所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第二评分。
3.根据权利要求2所述的URL点击事件的识别方法,其特征在于,所述判断所述属性信息是否满足所述流规则组中的第一流规则之后,所述方法还包括:
若判断出所述属性信息不满足所述流规则组中的第一流规则,则判断所述属性信息是否满足所述流规则组中的第三流规则,所述第三流规则为承载所述第一HTTP请求报文的数据流的访问时间和承载所述第二HTTP请求报文的数据流的访问时间之差小于等于流访问的间隔阈值;
若判断所述属性信息满足所述第三流规则,则根据所述第三流规则对应的第三权值,对所述第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第三评分。
4.根据权利要求1至3任一所述的URL点击事件的识别方法,其特征在于,所报文规则组包括如下的一种规则或者几种规则的组合:所述属性信息中的URL包含在预先配置的URL点击黑名单中;所述属性信息中的URL的扩展名包含在预先配置的扩展名黑名单中;属于浏览器访问;以及存在关联网站且第一HTTP请求报文所在流的关联时间和所述关联网站所在流的关联时间之差大于关联阈值。
5.根据权利要求4所述的URL点击事件的识别方法,其特征在于,所述识别出发生URL点击事件之后,所述方法还包括:
记录所述第一HTTP请求报文的访问时间;
记录所述第一HTTP请求报文所承载的数据流的访问时间;
在承载所述第一HTTP请求报文的数据流与承载所述第二HTTP请求报文的数据流不相同时,根据承载所述第一HTTP请求报文的数据流的五元组信息,更新所述当前存储的五元组信息。
6.根据权利要求4所述的URL点击事件的识别方法,其特征在于,所述获取所述第一HTTP请求报文对应的第二总评分之后,所述方法还包括:
接收所述第一HTTP请求报文对应的第一HTTP响应报文;
在所述第一HTTP响应报文的属性信息满足所述报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对所述第一HTTP响应报文进行评分处理,获取所述第一HTTP响应报文对应的第三总评分;
则所述在所述第一总评分和第二总评分之和大于或等于点击事件评分阈值时,识别出发生URL点击事件,包括:
在所述第一总评分、第二总评分和第三总评分之和大于或等于所述点击事件评分阈值时,识别出发生URL点击事件。
7.一种URL点击事件的识别装置,其特征在于,包括:
接收模块,用于接收第一HTTP请求报文,提取所述第一HTTP请求报文的报文头中的属性信息;
第一评分处理模块,用于在所述接收模块提取到的所述属性信息满足预先配置的流规则组中的流规则时,根据所满足的流规则对应的权值,对所述接收模块接收到的所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第一总评分;
第二评分处理模块,用于在所述接收模块提取到的所述属性信息满足预先配置的报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对所述接收模块接收到的所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第二总评分;
识别模块,用于在所述第一评分处理模块获取的所述第一总评分和所述第二评分处理模块获取的所述第二总评分之和大于或等于点击事件评分阈值时,识别出发生URL点击事件。
8.根据权利要求7所述的URL点击事件的识别装置,其特征在于,所述第一评分处理模块包括:
判断单元,用于判断所述属性信息是否满足所述流规则组中的第一流规则;所述第一流规则为所述属性信息中的五元组信息与当前存储的五元组信息相同,所述当前存储的五元组信息是指承载第二HTTP请求报文的数据流的五元组信息,所述第二HTTP请求报文为所述第一HTTP请求报文的上一次请求报文;
评分处理单元,用于若所述判断单元判断出所述属性信息满足所述第一流规则,则根据所述第一流规则对应的第一权值,对所述第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第一评分;
所述判断单元还用于判断所述属性信息是否满足所述流规则组中的第二流规则,所述第二流规则为所述第一HTTP请求报文的访问时间与所述第二HTTP请求报文的访问时间之差大于HTTP请求报文访问间隔阈值;
所述评分处理单元还用于若所述判断单元判断出所述属性信息满足所述第二流规则,则根据所述第二流规则对应的权值,对所述第一HTTP请求报文进行评分处理,获取所述第一HTTP请求报文对应的第二评分。
9.根据权利要求8所述的URL点击事件的识别装置,其特征在于,所述判断单元还用于若判断出所述属性信息不满足所述流规则组中的第一流规则,则判断所述属性信息是否满足所述流规则组中的第三流规则,所述第三流规则为承载所述第一HTTP请求报文的数据流的访问时间和承载所述第二HTTP请求报文的数据流的访问时间之差小于等于流访问的间隔阈值;
所述评分处理单元还用于若所述判断单元判断所述属性信息满足所述第三流规则,则根据所述第三流规则对应的第三权值,对所述第一HTTP请求报文进行评分处理,获取第一HTTP请求报文对应的第三评分。
10.根据权利要求7至9任一所述的URL点击事件的识别装置,其特征在于,还包括:
记录模块,用于记录所述第一HTTP请求报文的访问时间;记录所述第一HTTP请求报文所承载的数据流的访问时间;
更新模块,用于在承载所述第一HTTP请求报文的数据流与承载所述第二HTTP请求报文的第二数据流不相同时,根据所述第一HTTP请求报文承载的数据流的五元组信息,更新所述当前存储的五元组信息。
11.根据权利要求10所述的URL点击事件的识别装置,其特征在于,所述接收模块还用于接收所述第一HTTP请求报文对应的第一HTTP响应报文;
则所述装置还包括:
第三评分处理模块,用于在所述第一HTTP响应报文的属性信息满足所述报文规则组中的报文规则时,根据所满足的报文规则对应的权值,对所述第一HTTP响应报文进行评分处理,获取所述第一HTTP响应报文对应的第三总评分;
则所述识别模块具体用于在所述第一总评分、第二总评分和第三总评分之和大于或等于所述点击事件评分阈值时,识别出发生URL点击事件。
12.一种服务器,其特征在于,包括:存储器,用于存储指令;
处理器,与所述存储器耦合,所述处理器被配置为执行存储在所述存储器中的指令,且所述处理器被配置为用于执行如权利要求1至6任一所述的URL点击事件的识别方法。
CN201210277209.3A 2012-08-06 2012-08-06 Url点击事件的识别方法、装置和服务器 Expired - Fee Related CN103581263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210277209.3A CN103581263B (zh) 2012-08-06 2012-08-06 Url点击事件的识别方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210277209.3A CN103581263B (zh) 2012-08-06 2012-08-06 Url点击事件的识别方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN103581263A true CN103581263A (zh) 2014-02-12
CN103581263B CN103581263B (zh) 2016-12-21

Family

ID=50052179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210277209.3A Expired - Fee Related CN103581263B (zh) 2012-08-06 2012-08-06 Url点击事件的识别方法、装置和服务器

Country Status (1)

Country Link
CN (1) CN103581263B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107592551A (zh) * 2016-07-08 2018-01-16 Sk科技有限公司 用于云流服务的方法和设备
CN109510800A (zh) * 2017-09-14 2019-03-22 北京金山云网络技术有限公司 一种网络请求处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1949259A (zh) * 2006-01-28 2007-04-18 商助科技(北京)有限公司 通过在网页中嵌入代码来采集网页的点击信息的方法
CN101266619A (zh) * 2008-05-12 2008-09-17 腾讯科技(深圳)有限公司 一种用户信息挖掘方法和一种用户信息挖掘***
US20110231256A1 (en) * 2009-07-25 2011-09-22 Kindsight, Inc. Automated building of a model for behavioral targeting
CN102254004A (zh) * 2011-07-14 2011-11-23 北京邮电大学 一种网络日志挖掘中的Web建模方法及***
US20120010920A1 (en) * 2009-03-05 2012-01-12 Alibaba Group Holding Limited Method, Apparatus and System for Visualizing User's Web Page Browsing Behavior

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1949259A (zh) * 2006-01-28 2007-04-18 商助科技(北京)有限公司 通过在网页中嵌入代码来采集网页的点击信息的方法
CN101266619A (zh) * 2008-05-12 2008-09-17 腾讯科技(深圳)有限公司 一种用户信息挖掘方法和一种用户信息挖掘***
US20120010920A1 (en) * 2009-03-05 2012-01-12 Alibaba Group Holding Limited Method, Apparatus and System for Visualizing User's Web Page Browsing Behavior
US20110231256A1 (en) * 2009-07-25 2011-09-22 Kindsight, Inc. Automated building of a model for behavioral targeting
CN102254004A (zh) * 2011-07-14 2011-11-23 北京邮电大学 一种网络日志挖掘中的Web建模方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107592551A (zh) * 2016-07-08 2018-01-16 Sk科技有限公司 用于云流服务的方法和设备
CN107592551B (zh) * 2016-07-08 2020-07-31 Sk 普兰尼特有限公司 用于云流服务的方法和设备
CN109510800A (zh) * 2017-09-14 2019-03-22 北京金山云网络技术有限公司 一种网络请求处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103581263B (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
CN106940705B (zh) 一种用于构建用户画像的方法与设备
KR100723867B1 (ko) 피싱웹페이지 차단 장치 및 방법
JP5957048B2 (ja) 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム
US8413044B2 (en) Method and system of retrieving Ajax web page content
WO2019165868A1 (zh) 一种确定营销方案的方法、装置及电子设备
WO2017167104A1 (zh) 一种问题预测方法及预测***
CN103546446B (zh) 一种钓鱼网站的检测方法、装置和终端
JP2015511347A5 (zh)
CN102693271A (zh) 一种网络信息推荐方法及***
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN102752288A (zh) 网络访问行为识别方法和装置
WO2017071179A1 (zh) 基于流量分析识别用户行为对象的方法和装置
CN108900554B (zh) Http协议资产检测方法、***、设备及计算机介质
US8639559B2 (en) Brand analysis using interactions with search result items
KR100792700B1 (ko) 신경망을 가지는 협업 필터링 시스템을 이용하여 클릭패턴에 기초한 웹 광고 추천 방법 및 그 시스템
CN104023046B (zh) 移动终端识别方法和装置
US20230131759A1 (en) Processing messages for value extraction
CN110533456A (zh) 一种优惠券信息推送方法、***及服务器
CN104252447A (zh) 文件行为分析方法及装置
US9336316B2 (en) Image URL-based junk detection
CN116015842A (zh) 一种基于用户访问行为的网络攻击检测方法
US20100073374A1 (en) Calculating a webpage importance from a web browsing graph
KR101144371B1 (ko) 웹페이지에 대한 방문기록을 도식화하는 방법 및 시스템 그리고 상기 방문기록을 이용한 추가정보 제공 방법 및 시스템
WO2016155199A1 (zh) 应用功能数据的处理方法、装置及非易失性计算机存储介质
CN103581263A (zh) Url点击事件的识别方法、装置和服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161221