CN103118007B - 一种用户访问行为的获取方法和*** - Google Patents

一种用户访问行为的获取方法和*** Download PDF

Info

Publication number
CN103118007B
CN103118007B CN201310003709.2A CN201310003709A CN103118007B CN 103118007 B CN103118007 B CN 103118007B CN 201310003709 A CN201310003709 A CN 201310003709A CN 103118007 B CN103118007 B CN 103118007B
Authority
CN
China
Prior art keywords
url
url information
address
time
access data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310003709.2A
Other languages
English (en)
Other versions
CN103118007A (zh
Inventor
田海燕
练书成
丁毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Raisecom Technology Co Ltd
Original Assignee
Raisecom Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Raisecom Technology Co Ltd filed Critical Raisecom Technology Co Ltd
Priority to CN201310003709.2A priority Critical patent/CN103118007B/zh
Publication of CN103118007A publication Critical patent/CN103118007A/zh
Application granted granted Critical
Publication of CN103118007B publication Critical patent/CN103118007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种用户访问行为的获取方法和***。所述方法,包括:获取网页访问数据;根据预先设置的策略,对网络访问数据的http头部中的字段进行过滤;对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为。

Description

一种用户访问行为的获取方法和***
技术领域
本发明涉及数据处理领域,尤其涉及一种用户访问行为的获取方法和***。
背景技术
目前信息技术的飞速发展和企业信息化程度的不断提高,用户的使用也越来越丰富了。很多用户通过网络资源来学习、休闲、娱乐等。有些商家为了获得经济效益,开始在各个网站做大量的广告图片,还有些广告推广等。同时伴随着国家倡导的三网融合等,各个业务的融合已经进入了企业的运营。为了确保一个稳定、安全、高效的网络运营环境,管理员或者企业老板不得不常常面临以下问题——如何监控用户的上网行为?如何跟踪网络应用资源的使用情况?
为了解决上述问题,记录用户的上网行为是必然的。尤其是记录企业员工浏览页面的行为。因为通过分析用户浏览的页面内容我们可以了解员工感兴趣的方面,或者是否做了一些非法言论和访问一些非法网站等。这些信息也可以为公安局破案等提供重要的依据。
现有的技术中记录用户上网行为的方案只是简单的将每条链接的URL提取出来,发送出去。由于现代网络技术的发展,我们尝试点击一个页面,那么这个页面就会尝试着链接与其相关联的广告,图片等。那么最后我们看到的日志就会是有许多多余的日志审计出来。这些多余的日志长时间的积累,就会把我们所需要的真正的日志给冲到后面,管理员看起来很迷惑,怎么也找不到自己需要的日志。同时这些大量的多余日志的出现也会占用大量的存储空间,最后的现象是我们浪费了许多存储空间,保存了许多没用的日志。管理员看起来也会很头疼,不知道那个是真正的所需要的日志信息。
发明内容
本发明提供的,要解决的技术问题是如何过滤掉用户访问的网页中链接与其相关联的广告或图片的网络链接。
为解决上述技术问题,本发明提供了如下技术方案:
一种网络访问行为的获取方法,包括:
获取网页访问数据;
根据预先设置的策略,对网络访问数据的http头部中的字段进行过滤;
对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为。
优选的,所述方法还具有如下特点:所述预先设置的策略包括选择http实体为被压缩的实体或者含有title特征的未被压缩的实体,其中被选择的实体的http头部中的字段符合如下条件:
Content-Type字段是text/html的类型;
Content-Length字段小于或等于1024字节;
transfer-encoding首部的类型是chunked,并且该回应包的实体长度大于零并且该回应包的实体是以“.0d0a0d0a”结尾的;
URL的长度小于130字节;
URL文件后缀不是.js、.png、.css、.dif、.klz、.ico、.xml、.xsl、.ani或.dll。
优选的,所述方法还具有如下特点:
所述方法还包括:
记录同一个IP地址对应的URL信息,将记录的URL信息作为用户的网络访问行为;
所述对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为,包括:
将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配;
如果该IP地址对应的URL信息有匹配对象,输出所述网络访问数据中的URL信息;否则,先将网络访问数据中的URL信息增加到该IP地址对应的URL信息中,再输出所述网络访问数据中的URL信息。
优选的,所述方法还具有如下特点:所述将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配,包括:
采用网络访问数据中URL信息与该IP地址对应的URL信息中的最后N个字节的内容进行比较,其中N的取值范围为20~1000。
优选的,所述方法还具有如下特点:
所述记录同一个IP地址对应的URL信息,还包括:
记录所述记录同一个IP地址对应的URL以及该URL被访问的时间;
所述将网络访问数据中URL信息增加到该IP地址对应的URL信息中还包括:
当该IP地址对应的URL信息的个数达到预先设置的个数阈值后,根据该IP地址中每个URL被访问的时间,删除被访问时间最早的URL的信息。
优选的,所述方法还具有如下特点:
所述对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为还包括:
如果该IP地址对应的URL信息有匹配对象,则获取该URL被访问的时间;根据该URL被访问的时间,发起对该IP地址中该URL的访问时间进行更新的操作。
优选的,所述方法还具有如下特点:
所述发起对该IP地址中该URL的访问时间进行更新的操作还包括:
如果该URL的被访问时间与该匹配对象被访问的时间的差值大于或等于预先设置的时间阈值,则将匹配对象被访问的时间更新为所述网络链接的发起时间。
优选的,所述方法还具有如下特点:所述方法还包括:
如果某一URL被访问后,该URL链接到一个或多个URL,则在输出网络访问数据中的URL信息之前,查找网络访问数据中的URL信息中是否有预先定义的关键字,将不包括该关键字的URL作为最终的网络访问数据中的URL信息进行输出操作,其中所述关键字为该URL所链接到的其他URL的关键字。
一种网络访问行为的获取***,其特征在于,包括:
获取装置,用于获取网页访问数据;
过滤装置,与所述获取装置相连,用于根据预先设置的策略,对网络访问数据的http头部中的字段进行过滤;
处理装置,与所述过滤装置相连,用于对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为。
优选的,所述***还具有如下特点:所述预先设置的策略包括选择http实体为被压缩的实体或者含有title特征的未被压缩的实体,其中被选择的实体的http头部中的字段符合如下条件:
Content-Type字段是text/html的类型;
Content-Length字段小于或等于1024字节;
transfer-encoding首部的类型是chunked,并且该回应包的实体长度大于零并且该回应包的实体是以“.0d0a0d0a”结尾的;
URL的长度小于130字节;
URL文件后缀不是.js、.png、.css、.dif、.klz、.ico、.xml、.xsl、.ani或.dll。
优选的,所述***还具有如下特点:
所述***还包括:
第一记录装置,用于记录同一个IP地址对应的URL信息,将记录的URL信息作为用户的网络访问行为;
所述处理装置包括:
匹配模块,与所述记录装置相连,用于将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配;
处理模块,与所述匹配模块相连,用于如果该IP地址对应的URL信息没有匹配对象,将网络访问数据中的URL信息增加到该IP地址对应的URL信息中;
输出模块,与所述匹配模块相连,用于如果该IP地址对应的URL信息有匹配对象,输出所述网络访问数据中的URL信息;以及,与所述处理模块相连,用于在处理模块将网络访问数据中的URL信息增加到该IP地址对应的URL信息中后,再输出所述网络访问数据中的URL信息。
优选的,所述***还具有如下特点:所述匹配模块采用网络访问数据中URL信息与该IP地址对应的URL信息中的最后N个字节的内容进行比较,其中N的取值范围为20~1000。
优选的,所述***还具有如下特点:
所述第一记录装置记录所述记录同一个IP地址对应的URL以及该URL被访问的时间;
所述处理模块还包括:
删除单元,用于在网络访问数据中的URL信息增加到该IP地址对应的URL信息中时,当该IP地址对应的URL信息的个数达到预先设置的个数阈值后,根据该IP地址中每个URL被访问的时间,删除被访问时间最早的URL的信息。
优选的,所述***还具有如下特点:所述处理模块还包括:
更新单元,与所述删除单元相连,用于如果该IP地址对应的URL信息有匹配对象,则获取该URL被访问的时间;根据该URL被访问的时间,发起对该IP地址中该URL的访问时间进行更新的操作。
优选的,所述***还具有如下特点:所述更新单元用于:
如果该URL的被访问时间与该匹配对象被访问的时间的差值大于或等于预先设置的时间阈值,则将匹配对象被访问的时间更新为所述网络链接的发起时间。
优选的,所述***还具有如下特点:所述处理装置还包括:
过滤模块,与所述输出模块相连,用于如果某一URL被访问后,该URL链接到一个或多个URL,则在输出网络访问数据中的URL信息之前,查找网络访问数据中的URL信息中是否有预先定义的关键字,将不包括该关键字的URL作为最终的网络访问数据中的URL信息进行输出操作,其中所述关键字为该URL所链接到的其他URL的关键字。
与现有技术相比,本发明提供的方法实施例通过对网络访问数据的http头部中的字段进行过滤,过滤掉与网络管理无关的一部分网络访问数据,再根据剩余的网络访问数据得到真正需要的网络访问行为。
附图说明
图1为本发明提供的网络访问行为的获取方法实施例的流程示意图;
图2为本发明提供的网络访问行为的获取方法应用实例的流程示意图;
图3为本发明应用实施例中步骤209的流程示意图;
图4为本发明提供的网络访问行为的获取***实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步的详细描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1为本发明提供的网络访问行为的获取方法实施例的流程示意图。图1所示方法实施例,包括:
步骤101、获取网页访问数据;
步骤102、根据预先设置的策略,对网络访问数据的http头部中的字段进行过滤;
步骤103、对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为。
与现有技术相比,本发明提供的方法实施例通过对网络访问数据的http头部中的字段进行过滤,过滤掉与网络管理无关的一部分网络访问数据,再根据剩余的网络访问数据得到真正需要的网络访问行为。
下面对本发明提供的方法实施例作进一步说明:
所述预先设置的策略包括选择http实体为被压缩的实体或者含有title特征的未被压缩的实体,其中被选择的实体的http头部中的字段符合如下条件:
Content-Type字段是text/html的类型;
Content-Length字段小于或等于1024字节;
transfer-encoding首部的类型是chunked,并且该回应包的实体长度大于零并且该回应包的实体是以“.0d0a0d0a”结尾的;
URL的长度小于130字节;
URL文件后缀不是.js、.png、.css、.dif、.klz、.ico、.xml、.xsl、.ani或.dll。
需要说明的是,之所以选择URL的长度小于130字节是因为经过检测,得出不需要的日志的URL的字节数过长,多数都是200多字节左右,因此控制URL的长度为130;而,对于URL文件后缀进行限定,是因为用户在打开所需网址时,因为该所需网址会链接一些宣传页或广告页,而这些宣传页或广告页的文件带有上述后缀,而网页本身是没有后缀。因此通过对后缀的过滤,可以有效的过滤到网页链接的一些其他文件,比如,用户打开www.163.com时就附带一些带有.xsl、.css、.xml等后缀的URL产生,通过后缀的过滤,可以得出用户实际访问的是URL为www.163.com。
由此可以看出,通过上述过滤条件,可以有效的筛选出记录有网络访问行为的数据,去除无关的日志信息,达到精简日志存储空间的目的,另外,由于网络访问数据经过过滤后,数量明显减少,降低了获取网络访问行为的处理数量。
在实际应用中,由于用户通常会频繁访问一个网站,如果每次都将该访问行为进行记录,势必会产生很多重复的信息,因此所述方法还包括:
记录同一个IP地址对应的URL信息,将记录的URL信息作为用户的网络访问行为;
所述对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为,包括:
将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配;
如果该IP地址对应的URL信息有匹配对象,输出所述网络访问数据中的URL信息;否则,先将网络访问数据中的URL信息增加到该IP地址对应的URL信息中,再输出所述网络访问数据中的URL信息。
具体来说,在获取到用户的访问行为时,通过将网络访问数据中字段的内容与已记录的内容进行比较,进而确定是否需要写入,防止重复信息的写入,精简网络访问行为的数据容量。
由于referer和URL比较长,有的甚至长达2000多字节,所以在两者比较时,处理压力较大,因此只保留了网络访问数据中的URL信息和已记录的URL的最后N个字节的内容进行比较。其中N个取值一方面要保证能够实现信息的匹配,另一方面,且字节的长度不应过长,控制在20~1000字节范围内。本发明中,采用最后20个字节来处理。
考虑到网关服务器需要多个用户的网络访问行为,因此,在对同一个IP地址下记录的referer字段的个数进行维护时,可以通过执行如下方案,包括:
所述记录同一个IP地址对应的URL信息,还包括:
记录所述记录同一个IP地址对应的URL以及该URL被访问的时间;
所述将网络访问数据中的URL信息增加到该IP地址对应的URL信息中,还包括:
当该IP地址对应的URL信息的个数达到预先设置的个数阈值后,根据该IP地址中每个URL被访问的时间,删除被访问时间最早的URL的信息。
其中,该个数阈值是服务器能够对一个IP地址下URL进行匹配时的处理上限值,通过删除该IP地址下被访问时间最早的URL,实时保证该IP地址下记录的URL是用户最新的访问行为,方便网络维护。
对于一些用户频繁访问的网页,由于是访问时间最早的原因,会从该IP地址对应的URL中删除,但很快由于用户的再次访问,又被以一个较新的访问时间增加进来,造成了同一个URL频繁删除或增加的问题,因此为了避免上述问题的出现,所述对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为还包括:如果该IP地址对应的URL信息有匹配对象,则获取该URL被访问的时间;根据该URL被访问的时间,发起对该IP地址中该URL的访问时间进行更新的操作。
当然,为了有效控制对同一个URL的访问时间的更新次数,所述发起对该IP地址中该URL的访问时间进行更新的操作还包括:
如果该URL的被访问时间与该匹配对象被访问的时间的差值大于或等于预先设置的时间阈值,则将匹配对象被访问的时间更新为所述网络链接的发起时间。
在实际应用中,点击一个网址时,除了这个点击的真正的URL日志外,会伴随着产生一些多余的URL日志,因此在进行上面的处理是过滤不完全的,最后添加了一项,如果有些特殊关键字的URL又不是我们所需要的。例如,点击一下www.taobao.com时除了产生http:\\www.taobao.com日志外同时会产生一些多余的URL如acookie.taobao.com、www.taobao.com/go/act/sale等,因此,为了使得记录的IP地址对应的URL更加准确,所述方法还包括:
如果某一URL被访问后,该URL链接到的一个或多个URL,则在输出网络访问数据中的URL信息之前,查找网络访问数据中的URL信息中是否有预先定义的关键字,将不包括该关键字的URL作为最终的网络访问数据中的URL信息进行输出操作,其中所述关键字为该URL所链接到的其他URL的关键字。
下面对本发明提供的方法实施例作进一步说明:
图2为本发明提供的网络访问行为的获取方法应用实例的流程示意图。图2所示方法应用实例,包括步骤201~步骤209,其中:
步骤201:从用户发起的tcp报文中准确的识别出http报文。
步骤202:判断http的首部Content-Type是否为text/html的类型,如果是,则执行步骤203;否则,流程结束。
步骤203:判断http首部Content-Encoding是否为gzip/deflate类型如果是,则执行步骤205处理;否则,执行步骤204处理。
步骤204:判断http的实体中查找title字符串,如果没有,流程结束;如果有该字符串进入步骤205~s108,其中s205~s208之间没有明显的前后顺序。
步骤205:判断http的首部Content-Length的内容长度是否在0-1024之间。
步骤206:判断http回应包的transfer-encoding是否符合如下特征,包括:首部的类型是chunked,并且该回应包的实体长度大于零并且该回应包的实体是以“.0d0a0d0a”结尾的;
步骤207:URL的长度是否小于130;
步骤208:检查一下URL的后缀是除了.js、.png、.css、.dif、.klz、ico、.xml、.xsl、.ani或.dll的后缀;
在步骤205~s108的执行结果均为肯定的情况下,执行步骤209。
步骤209:通过http首部的referer来过滤掉多余的URL日志,具体的处理包括步骤A01~步骤A06:
图3为本发明应用实施例中步骤209的流程示意图。其中包括步骤A01~步骤A06,其中:
步骤A01:检查http首部referer是否为空,如果referer为空进入步骤A02处理,如果不为空进入步骤A03处理。
步骤A02:以ip为关键字建立一个hash表,该hash表包括一个链表来储存referer中URL的后20个字节(为了节省内存)的具体内容和该referer中的URL被访问的时间。例如,该链表处理最多能够保存5个referer中的URL以及每个URL被访问的时间,由于referer和URL比较长,有的甚至长达2000多字节,所以只保留了referer和URL的后20个字节来处理,当然,也可以根据自己的需要进行扩展,如链表中可以保存的referer的个数,或者referer和URL的比较长度可以加长或缩短。如果链表中存有该ip为关键字的hash结点,那么将请求的URL***该ip结点的referer数组中,如果referer存储的条数等于5条时,那么将最先***的URL删除后将新到来的URL***ip结点。如果链表中不存在该ip为关键字的hash结点,那么建立一个ip结点,将URL***该ip结点,同时将该ip结点***链表。
步骤A03:本链接中的referer首部内容与hash表中的referer数组内容进行比较,如果完全匹配检查匹配到referer的时间戳与链表中存储该referer的时间戳的差是否小于10秒,如果小于10秒返回,不进行发送日志处理;如果不小于10秒记录访问时间后进入步骤A02进行处理。
当然,请求的URL***该ip结点的referer数组之前,还可以进行关键字过滤,具体说明如下:
步骤A04:点击一个网址时,除了这个点击的真正的URL日志外,会伴随着产生一些多余的URL日志,只进行上面的处理是过滤不完全的,最后添加了一项,如果有些特殊关键字的URL又不是我们所需要的,就对这些关键字进行匹配,如果匹配成功,那么返回,不进行发送日志处理;如果匹配不成功进入步骤A05处理,其中这此处使用的关键字是通过抓包分析得到的,将所要过滤的关键字添加到一个数组中,用过滤后剩下的URL匹配这些关键字,如果有匹配上,那么这个URL就不发送日志,否则发送日志。
步骤A05:经过前面多条件处理还保留的URL,将该URL发送到数据库储存。
步骤A06:返回该函数不做任何处理。
本发明提供的方法应用例,通过分析http协议的首部:Content-Type、Content-Encoding、Content-Length、transfer-encoding和URL的长度、URL文件后缀过滤、URL特征过滤、referer和ip地址结合的方法,过滤掉大量的多余URL日志,以充分利用内存的存储空间和给用户显示用户真正需要的URL日志。
图4为本发明提供的网络访问行为的获取***实施例的结构示意图。图4所示***实施例包括:
获取装置401,用于获取网页访问数据;
过滤装置402,与所述获取装置401相连,用于根据预先设置的策略,对网络访问数据的http头部中的字段进行过滤;
处理装置403,与所述过滤装置402相连,用于对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为。
其中,所述预先设置的策略包括选择http实体为被压缩的实体或者含有title特征的未被压缩的实体,其中被选择的实体的http头部中的字段符合如下条件:
Content-Type字段是text/html的类型;
Content-Length字段小于或等于1024字节;
transfer-encoding首部的类型是chunked,并且该回应包的实体长度大于零并且该回应包的实体是以“.0d0a0d0a”结尾的;
URL的长度小于130字节;
URL文件后缀不是.js、.png、.css、.dif、.klz、.ico、.xml、.xsl、.ani或.dll。
所述***还包括:
第一记录装置,用于记录同一个IP地址对应的URL信息,将记录的URL信息作为用户的网络访问行为;
所述处理装置包括:
匹配模块,与所述记录装置相连,用于将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配;
处理模块,与所述匹配模块相连,用于如果该IP地址对应的URL信息没有匹配对象,将网络访问数据中的URL信息增加到该IP地址对应的URL信息中;
输出模块,与所述匹配模块相连,用于如果该IP地址对应的URL信息有匹配对象,输出所述网络访问数据中的URL信息;以及,与所述处理模块相连,用于在处理模块将网络访问数据中的URL信息增加到该IP地址对应的URL信息中后,再输出所述网络访问数据中的URL信息。
可选的,所述匹配模块采用网络访问数据中URL信息与该IP地址对应的URL信息中的最后N个字节的内容进行比较,其中N的取值范围为20~1000。
可选的,所述第一记录装置记录所述记录同一个IP地址对应的URL以及该URL被访问的时间;
可选的,所述处理模块还包括:
删除单元,用于在网络访问数据中的URL信息增加到该IP地址对应的URL信息中时,当该IP地址对应的URL信息的个数达到预先设置的个数阈值后,根据该IP地址中每个URL被访问的时间,删除被访问时间最早的URL的信息。
可选的,所述处理模块还包括:
更新单元,与所述删除单元相连,用于如果该IP地址对应的URL信息有匹配对象,则获取该URL被访问的时间;根据该URL被访问的时间,发起对该IP地址中该URL的访问时间进行更新的操作。
其中,所述更新单元用于:
如果该URL的被访问时间与该匹配对象被访问的时间的差值大于或等于预先设置的时间阈值,则将匹配对象被访问的时间更新为所述网络链接的发起时间。
可选的,所述处理装置还包括:
过滤模块,与所述输出模块相连,用于如果某一URL被访问后,该URL链接到一个或多个URL,则在输出网络访问数据中的URL信息之前,查找网络访问数据中的URL信息中是否有预先定义的关键字,将不包括该关键字的URL作为最终的网络访问数据中的URL信息进行输出操作,其中所述关键字为该URL所链接到的其他URL的关键字。
与现有技术相比,本发明提供的***实施例通过对网络访问数据的http头部中的字段进行过滤,过滤掉与网络管理无关的一部分网络访问数据,再根据剩余的网络访问数据得到真正需要的网络访问行为。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。

Claims (14)

1.一种网络访问行为的获取方法,其特征在于,包括:
获取网页访问数据;
根据预先设置的策略,对网络访问数据的http头部中的字段进行过滤;
对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为;
所述预先设置的策略包括选择http实体为被压缩的实体或者含有title特征的未被压缩的实体,其中被选择的实体的http头部中的字段符合如下条件:
Content-Type字段是text/html的类型;
Content-Length字段小于或等于1024字节;
transfer-encoding首部的类型是chunked,并且回应包的实体长度大于零并且该回应包的实体是以“.0d0a0d0a”结尾的;
URL的长度小于130字节;
URL文件后缀不是.js、.png、.css、.dif、.klz、.ico、.xml、.xsl、.ani或.dll。
2.根据权利要求1所述的方法,其特征在于:
所述方法还包括:
记录同一个IP地址对应的URL信息,将记录的URL信息作为用户的网络访问行为;
所述对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为,包括:
将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配;
如果该IP地址对应的URL信息有匹配对象,输出所述网络访问数据中的URL信息;否则,先将网络访问数据中的URL信息增加到该IP地址对应的URL信息中,再输出所述网络访问数据中的URL信息。
3.根据权利要求2所述的方法,其特征在于,所述将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配,包括:
采用网络访问数据中URL信息与该IP地址对应的URL信息中的最后N个字节的内容进行比较,其中N的取值范围为20~1000。
4.根据权利要求2所述的方法,其特征在于:
所述记录同一个IP地址对应的URL信息,还包括:
记录所述记录同一个IP地址对应的URL以及该URL被访问的时间;
所述将网络访问数据中URL信息增加到该IP地址对应的URL信息中还包括:
当该IP地址对应的URL信息的个数达到预先设置的个数阈值后,根据该IP地址中每个URL被访问的时间,删除被访问时间最早的URL的信息。
5.根据权利要求4所述的方法,其特征在于,所述对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为还包括:
如果该IP地址对应的URL信息有匹配对象,则获取该URL被访问的时间;根据该URL被访问的时间,发起对该IP地址中该URL的访问时间进行更新的操作。
6.根据权利要求5所述的方法,其特征在于,所述发起对该IP地址中该URL的访问时间进行更新的操作还包括:
如果该URL的被访问时间与该匹配对象被访问的时间的差值大于或等于预先设置的时间阈值,则将匹配对象被访问的时间更新为所述网络链接的发起时间。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
如果某一URL被访问后,该URL链接到一个或多个URL,则在输出网络访问数据中的URL信息之前,查找网络访问数据中的URL信息中是否有预先定义的关键字,将不包括该关键字的URL作为最终的网络访问数据中的URL信息进行输出操作,其中所述关键字为该URL所链接到的其他URL的关键字。
8.一种网络访问行为的获取***,其特征在于,包括:
获取装置,用于获取网页访问数据;
过滤装置,与所述获取装置相连,用于根据预先设置的策略,对网络访问数据的http头部中的字段进行过滤;
处理装置,与所述过滤装置相连,用于对过滤后的报文中的URL信息进行处理,得到用户的网络访问行为;
所述预先设置的策略包括选择http实体为被压缩的实体或者含有title特征的未被压缩的实体,其中被选择的实体的http头部中的字段符合如下条件:
Content-Type字段是text/html的类型;
Content-Length字段小于或等于1024字节;
transfer-encoding首部的类型是chunked,并且回应包的实体长度大于零并且该回应包的实体是以“.0d0a0d0a”结尾的;
URL的长度小于130字节;
URL文件后缀不是.js、.png、.css、.dif、.klz、.ico、.xml、.xsl、.ani或.dll。
9.根据权利要求8所述的***,其特征在于:
所述***还包括:
第一记录装置,用于记录同一个IP地址对应的URL信息,将记录的URL信息作为用户的网络访问行为;
所述处理装置包括:
匹配模块,与所述记录装置相连,用于将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配;
处理模块,与所述匹配模块相连,用于如果该IP地址对应的URL信息没有匹配对象,将网络访问数据中的URL信息增加到该IP地址对应的URL信息中;
输出模块,与所述匹配模块相连,用于如果该IP地址对应的URL信息有匹配对象,输出所述网络访问数据中的URL信息;以及,与所述处理模块相连,用于在处理模块将网络访问数据中的URL信息增加到该IP地址对应的URL信息中后,再输出所述网络访问数据中的URL信息。
10.根据权利要求9所述的***,其特征在于,所述匹配模块采用网络访问数据中URL信息与该IP地址对应的URL信息中的最后N个字节的内容进行比较,其中N的取值范围为20~1000。
11.根据权利要求9所述的***,其特征在于:
所述第一记录装置记录所述记录同一个IP地址对应的URL以及该URL被访问的时间;
所述处理模块还包括:
删除单元,用于在网络访问数据中的URL信息增加到该IP地址对应的URL信息中时,当该IP地址对应的URL信息的个数达到预先设置的个数阈值后,根据该IP地址中每个URL被访问的时间,删除被访问时间最早的URL的信息。
12.根据权利要求11所述的***,其特征在于,所述处理模块还包括:
更新单元,与所述删除单元相连,用于如果该IP地址对应的URL信息有匹配对象,则获取该URL被访问的时间;根据该URL被访问的时间,发起对该IP地址中该URL的访问时间进行更新的操作。
13.根据权利要求12所述的***,其特征在于,所述更新单元用于:
如果该URL的被访问时间与该匹配对象被访问的时间的差值大于或等于预先设置的时间阈值,则将匹配对象被访问的时间更新为所述网络链接的发起时间。
14.根据权利要求9所述的***,其特征在于,所述处理装置还包括:
过滤模块,与所述输出模块相连,用于如果某一URL被访问后,该URL链接到一个或多个URL,则在输出网络访问数据中的URL信息之前,查找网络访问数据中的URL信息中是否有预先定义的关键字,将不包括该关键字的URL作为最终的网络访问数据中的URL信息进行输出操作,其中所述关键字为该URL所链接到的其他URL的关键字。
CN201310003709.2A 2013-01-06 2013-01-06 一种用户访问行为的获取方法和*** Active CN103118007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310003709.2A CN103118007B (zh) 2013-01-06 2013-01-06 一种用户访问行为的获取方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310003709.2A CN103118007B (zh) 2013-01-06 2013-01-06 一种用户访问行为的获取方法和***

Publications (2)

Publication Number Publication Date
CN103118007A CN103118007A (zh) 2013-05-22
CN103118007B true CN103118007B (zh) 2016-02-03

Family

ID=48416281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310003709.2A Active CN103118007B (zh) 2013-01-06 2013-01-06 一种用户访问行为的获取方法和***

Country Status (1)

Country Link
CN (1) CN103118007B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239353B (zh) * 2013-06-20 2019-12-31 上海博达数据通信有限公司 一种web分类控制和日志审计的方法
CN103530160A (zh) * 2013-10-21 2014-01-22 迈普通信技术股份有限公司 一种页面加载的方法和装置
CN103593484A (zh) * 2013-12-03 2014-02-19 南京安讯科技有限责任公司 一种手机上网垃圾日志的过滤方法
CN104021143A (zh) * 2014-05-14 2014-09-03 北京网康科技有限公司 一种记录网页访问行为的方法及装置
CN104270358B (zh) * 2014-09-25 2018-10-26 同济大学 可信网络交易***客户端监控器及其实现方法
CN105677657A (zh) * 2014-11-19 2016-06-15 杭州华三通信技术有限公司 一种统一资源定位符访问行为的记录方法和装置
CN105991369B (zh) * 2015-03-23 2020-03-06 杭州迪普科技股份有限公司 报文信息提取方法及装置
CN105049446A (zh) * 2015-08-20 2015-11-11 中国联合网络通信集团有限公司 一种url过滤方法及***
CN105827522A (zh) * 2015-11-10 2016-08-03 广东亿迅科技有限公司 处理日志文件的网关设备
CN106411944B (zh) * 2016-11-25 2019-09-20 锐捷网络股份有限公司 一种网络访问的管理方法及装置
CN108121749A (zh) * 2016-11-30 2018-06-05 北京国双科技有限公司 网站用户行为分析方法及装置
CN106357482B (zh) * 2016-11-30 2019-10-29 四川秘无痕科技有限责任公司 一种基于网络协议实施监控网页访问的方法
CN107480190A (zh) * 2017-07-11 2017-12-15 国家计算机网络与信息安全管理中心 一种非人为访问日志的过滤方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1121792A1 (en) * 1998-10-15 2001-08-08 Computer Associates Think, Inc. Method and system for the prevention of undesirable activities of executable objects
CN102004770A (zh) * 2010-11-16 2011-04-06 杭州迪普科技有限公司 一种网页审计方法及装置
CN102098229A (zh) * 2011-03-04 2011-06-15 北京星网锐捷网络技术有限公司 统一资源定位符优化审计的方法、装置和网络侧设备
CN102158499A (zh) * 2011-06-02 2011-08-17 国家计算机病毒应急处理中心 基于http流量分析的挂马网站检测方法
CN102254004A (zh) * 2011-07-14 2011-11-23 北京邮电大学 一种网络日志挖掘中的Web建模方法及***
CN102857572A (zh) * 2012-09-14 2013-01-02 北京星网锐捷网络技术有限公司 一种http访问请求处理方法、装置及网关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1121792A1 (en) * 1998-10-15 2001-08-08 Computer Associates Think, Inc. Method and system for the prevention of undesirable activities of executable objects
CN102004770A (zh) * 2010-11-16 2011-04-06 杭州迪普科技有限公司 一种网页审计方法及装置
CN102098229A (zh) * 2011-03-04 2011-06-15 北京星网锐捷网络技术有限公司 统一资源定位符优化审计的方法、装置和网络侧设备
CN102158499A (zh) * 2011-06-02 2011-08-17 国家计算机病毒应急处理中心 基于http流量分析的挂马网站检测方法
CN102254004A (zh) * 2011-07-14 2011-11-23 北京邮电大学 一种网络日志挖掘中的Web建模方法及***
CN102857572A (zh) * 2012-09-14 2013-01-02 北京星网锐捷网络技术有限公司 一种http访问请求处理方法、装置及网关设备

Also Published As

Publication number Publication date
CN103118007A (zh) 2013-05-22

Similar Documents

Publication Publication Date Title
CN103118007B (zh) 一种用户访问行为的获取方法和***
CN105608134B (zh) 一种基于多线程的网络爬虫***及其网页爬取方法
US9218482B2 (en) Method and device for detecting phishing web page
US10652265B2 (en) Method and apparatus for network forensics compression and storage
CA2865187C (en) Method and system relating to salient content extraction for electronic content
CN104714965B (zh) 静态资源去重方法、静态资源管理方法及装置
CN106874778B (zh) 基于Android***的智能终端文件获取以及数据恢复***及方法
US8365241B1 (en) Method and apparatus for archiving web content based on a policy
CN102356390A (zh) 诸如用于Web服务器的灵活的日志记录
CN102098229B (zh) 统一资源定位符优化审计的方法、装置和网络侧设备
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN103577482B (zh) 一种网页收藏方法、装置及浏览器
CN109688097A (zh) 网站防护方法、网站防护装置、网站防护设备及存储介质
CN102946320B (zh) 一种分布式用户行为日志预测网络监管方法及***
WO2014180130A1 (en) Method and system for recommending contents
CN103530429B (zh) 一种网页正文抽取的方法
CN104239353B (zh) 一种web分类控制和日志审计的方法
CN105843852A (zh) 日志存储管理方法及***
CN108900554B (zh) Http协议资产检测方法、***、设备及计算机介质
CN105302801A (zh) 一种资源缓存方法及装置
WO2017000592A1 (zh) 数据处理方法、装置及***
CN102130791A (zh) 一种在网关上检测代理的方法、装置及网关服务器
CN103152387B (zh) 一种获取http用户行为轨迹的装置与方法
CN101887463B (zh) 一种基于虚拟域的http还原展示方法
CN105554181A (zh) 一种dns日志压缩方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant