CN103118007B

CN103118007B - 一种用户访问行为的获取方法和***

Info

Publication number: CN103118007B
Application number: CN201310003709.2A
Authority: CN
Inventors: 田海燕; 练书成; 丁毅
Original assignee: Raisecom Technology Co Ltd
Current assignee: Raisecom Technology Co Ltd
Priority date: 2013-01-06
Filing date: 2013-01-06
Publication date: 2016-02-03
Anticipated expiration: 2033-01-06
Also published as: CN103118007A

Abstract

本发明提供一种用户访问行为的获取方法和***。所述方法，包括：获取网页访问数据；根据预先设置的策略，对网络访问数据的http头部中的字段进行过滤；对过滤后的报文中的URL信息进行处理，得到用户的网络访问行为。

Description

一种用户访问行为的获取方法和***

技术领域

本发明涉及数据处理领域，尤其涉及一种用户访问行为的获取方法和***。

背景技术

目前信息技术的飞速发展和企业信息化程度的不断提高，用户的使用也越来越丰富了。很多用户通过网络资源来学习、休闲、娱乐等。有些商家为了获得经济效益，开始在各个网站做大量的广告图片，还有些广告推广等。同时伴随着国家倡导的三网融合等，各个业务的融合已经进入了企业的运营。为了确保一个稳定、安全、高效的网络运营环境，管理员或者企业老板不得不常常面临以下问题——如何监控用户的上网行为？如何跟踪网络应用资源的使用情况？

为了解决上述问题，记录用户的上网行为是必然的。尤其是记录企业员工浏览页面的行为。因为通过分析用户浏览的页面内容我们可以了解员工感兴趣的方面，或者是否做了一些非法言论和访问一些非法网站等。这些信息也可以为公安局破案等提供重要的依据。

现有的技术中记录用户上网行为的方案只是简单的将每条链接的URL提取出来，发送出去。由于现代网络技术的发展，我们尝试点击一个页面，那么这个页面就会尝试着链接与其相关联的广告，图片等。那么最后我们看到的日志就会是有许多多余的日志审计出来。这些多余的日志长时间的积累，就会把我们所需要的真正的日志给冲到后面，管理员看起来很迷惑，怎么也找不到自己需要的日志。同时这些大量的多余日志的出现也会占用大量的存储空间，最后的现象是我们浪费了许多存储空间，保存了许多没用的日志。管理员看起来也会很头疼，不知道那个是真正的所需要的日志信息。

发明内容

本发明提供的，要解决的技术问题是如何过滤掉用户访问的网页中链接与其相关联的广告或图片的网络链接。

为解决上述技术问题，本发明提供了如下技术方案：

一种网络访问行为的获取方法，包括：

获取网页访问数据；

根据预先设置的策略，对网络访问数据的http头部中的字段进行过滤；

对过滤后的报文中的URL信息进行处理，得到用户的网络访问行为。

优选的，所述方法还具有如下特点：所述预先设置的策略包括选择http实体为被压缩的实体或者含有title特征的未被压缩的实体，其中被选择的实体的http头部中的字段符合如下条件：

Content-Type字段是text/html的类型；

Content-Length字段小于或等于1024字节；

transfer-encoding首部的类型是chunked，并且该回应包的实体长度大于零并且该回应包的实体是以“.0d0a0d0a”结尾的；

URL的长度小于130字节；

URL文件后缀不是.js、.png、.css、.dif、.klz、.ico、.xml、.xsl、.ani或.dll。

优选的，所述方法还具有如下特点：

所述方法还包括：

记录同一个IP地址对应的URL信息，将记录的URL信息作为用户的网络访问行为；

所述对过滤后的报文中的URL信息进行处理，得到用户的网络访问行为，包括：

将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配；

如果该IP地址对应的URL信息有匹配对象，输出所述网络访问数据中的URL信息；否则，先将网络访问数据中的URL信息增加到该IP地址对应的URL信息中，再输出所述网络访问数据中的URL信息。

优选的，所述方法还具有如下特点：所述将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配，包括：

采用网络访问数据中URL信息与该IP地址对应的URL信息中的最后N个字节的内容进行比较，其中N的取值范围为20～1000。

优选的，所述方法还具有如下特点：

所述记录同一个IP地址对应的URL信息，还包括：

记录所述记录同一个IP地址对应的URL以及该URL被访问的时间；

所述将网络访问数据中URL信息增加到该IP地址对应的URL信息中还包括：

当该IP地址对应的URL信息的个数达到预先设置的个数阈值后，根据该IP地址中每个URL被访问的时间，删除被访问时间最早的URL的信息。

优选的，所述方法还具有如下特点：

所述对过滤后的报文中的URL信息进行处理，得到用户的网络访问行为还包括：

如果该IP地址对应的URL信息有匹配对象，则获取该URL被访问的时间；根据该URL被访问的时间，发起对该IP地址中该URL的访问时间进行更新的操作。

优选的，所述方法还具有如下特点：

所述发起对该IP地址中该URL的访问时间进行更新的操作还包括：

如果该URL的被访问时间与该匹配对象被访问的时间的差值大于或等于预先设置的时间阈值，则将匹配对象被访问的时间更新为所述网络链接的发起时间。

优选的，所述方法还具有如下特点：所述方法还包括：

如果某一URL被访问后，该URL链接到一个或多个URL，则在输出网络访问数据中的URL信息之前，查找网络访问数据中的URL信息中是否有预先定义的关键字，将不包括该关键字的URL作为最终的网络访问数据中的URL信息进行输出操作，其中所述关键字为该URL所链接到的其他URL的关键字。

一种网络访问行为的获取***，其特征在于，包括：

获取装置，用于获取网页访问数据；

过滤装置，与所述获取装置相连，用于根据预先设置的策略，对网络访问数据的http头部中的字段进行过滤；

处理装置，与所述过滤装置相连，用于对过滤后的报文中的URL信息进行处理，得到用户的网络访问行为。

优选的，所述***还具有如下特点：所述预先设置的策略包括选择http实体为被压缩的实体或者含有title特征的未被压缩的实体，其中被选择的实体的http头部中的字段符合如下条件：

Content-Type字段是text/html的类型；

Content-Length字段小于或等于1024字节；

URL的长度小于130字节；

优选的，所述***还具有如下特点：

所述***还包括：

第一记录装置，用于记录同一个IP地址对应的URL信息，将记录的URL信息作为用户的网络访问行为；

所述处理装置包括：

匹配模块，与所述记录装置相连，用于将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配；

处理模块，与所述匹配模块相连，用于如果该IP地址对应的URL信息没有匹配对象，将网络访问数据中的URL信息增加到该IP地址对应的URL信息中；

输出模块，与所述匹配模块相连，用于如果该IP地址对应的URL信息有匹配对象，输出所述网络访问数据中的URL信息；以及，与所述处理模块相连，用于在处理模块将网络访问数据中的URL信息增加到该IP地址对应的URL信息中后，再输出所述网络访问数据中的URL信息。

优选的，所述***还具有如下特点：所述匹配模块采用网络访问数据中URL信息与该IP地址对应的URL信息中的最后N个字节的内容进行比较，其中N的取值范围为20～1000。

优选的，所述***还具有如下特点：

所述第一记录装置记录所述记录同一个IP地址对应的URL以及该URL被访问的时间；

所述处理模块还包括：

删除单元，用于在网络访问数据中的URL信息增加到该IP地址对应的URL信息中时，当该IP地址对应的URL信息的个数达到预先设置的个数阈值后，根据该IP地址中每个URL被访问的时间，删除被访问时间最早的URL的信息。

优选的，所述***还具有如下特点：所述处理模块还包括：

更新单元，与所述删除单元相连，用于如果该IP地址对应的URL信息有匹配对象，则获取该URL被访问的时间；根据该URL被访问的时间，发起对该IP地址中该URL的访问时间进行更新的操作。

优选的，所述***还具有如下特点：所述更新单元用于：

优选的，所述***还具有如下特点：所述处理装置还包括：

过滤模块，与所述输出模块相连，用于如果某一URL被访问后，该URL链接到一个或多个URL，则在输出网络访问数据中的URL信息之前，查找网络访问数据中的URL信息中是否有预先定义的关键字，将不包括该关键字的URL作为最终的网络访问数据中的URL信息进行输出操作，其中所述关键字为该URL所链接到的其他URL的关键字。

与现有技术相比，本发明提供的方法实施例通过对网络访问数据的http头部中的字段进行过滤，过滤掉与网络管理无关的一部分网络访问数据，再根据剩余的网络访问数据得到真正需要的网络访问行为。

附图说明

图1为本发明提供的网络访问行为的获取方法实施例的流程示意图；

图2为本发明提供的网络访问行为的获取方法应用实例的流程示意图；

图3为本发明应用实施例中步骤209的流程示意图；

图4为本发明提供的网络访问行为的获取***实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步的详细描述。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1为本发明提供的网络访问行为的获取方法实施例的流程示意图。图1所示方法实施例，包括：

步骤101、获取网页访问数据；

步骤102、根据预先设置的策略，对网络访问数据的http头部中的字段进行过滤；

步骤103、对过滤后的报文中的URL信息进行处理，得到用户的网络访问行为。

下面对本发明提供的方法实施例作进一步说明：

所述预先设置的策略包括选择http实体为被压缩的实体或者含有title特征的未被压缩的实体，其中被选择的实体的http头部中的字段符合如下条件：

Content-Type字段是text/html的类型；

Content-Length字段小于或等于1024字节；

URL的长度小于130字节；

需要说明的是，之所以选择URL的长度小于130字节是因为经过检测，得出不需要的日志的URL的字节数过长，多数都是200多字节左右，因此控制URL的长度为130；而，对于URL文件后缀进行限定，是因为用户在打开所需网址时，因为该所需网址会链接一些宣传页或广告页，而这些宣传页或广告页的文件带有上述后缀，而网页本身是没有后缀。因此通过对后缀的过滤，可以有效的过滤到网页链接的一些其他文件，比如，用户打开www.163.com时就附带一些带有.xsl、.css、.xml等后缀的URL产生，通过后缀的过滤，可以得出用户实际访问的是URL为www.163.com。

由此可以看出，通过上述过滤条件，可以有效的筛选出记录有网络访问行为的数据，去除无关的日志信息，达到精简日志存储空间的目的，另外，由于网络访问数据经过过滤后，数量明显减少，降低了获取网络访问行为的处理数量。

在实际应用中，由于用户通常会频繁访问一个网站，如果每次都将该访问行为进行记录，势必会产生很多重复的信息，因此所述方法还包括：

具体来说，在获取到用户的访问行为时，通过将网络访问数据中字段的内容与已记录的内容进行比较，进而确定是否需要写入，防止重复信息的写入，精简网络访问行为的数据容量。

由于referer和URL比较长，有的甚至长达2000多字节，所以在两者比较时，处理压力较大，因此只保留了网络访问数据中的URL信息和已记录的URL的最后N个字节的内容进行比较。其中N个取值一方面要保证能够实现信息的匹配，另一方面，且字节的长度不应过长，控制在20～1000字节范围内。本发明中，采用最后20个字节来处理。

考虑到网关服务器需要多个用户的网络访问行为，因此，在对同一个IP地址下记录的referer字段的个数进行维护时，可以通过执行如下方案，包括：

所述记录同一个IP地址对应的URL信息，还包括：

所述将网络访问数据中的URL信息增加到该IP地址对应的URL信息中，还包括：

其中，该个数阈值是服务器能够对一个IP地址下URL进行匹配时的处理上限值，通过删除该IP地址下被访问时间最早的URL，实时保证该IP地址下记录的URL是用户最新的访问行为，方便网络维护。

对于一些用户频繁访问的网页，由于是访问时间最早的原因，会从该IP地址对应的URL中删除，但很快由于用户的再次访问，又被以一个较新的访问时间增加进来，造成了同一个URL频繁删除或增加的问题，因此为了避免上述问题的出现，所述对过滤后的报文中的URL信息进行处理，得到用户的网络访问行为还包括：如果该IP地址对应的URL信息有匹配对象，则获取该URL被访问的时间；根据该URL被访问的时间，发起对该IP地址中该URL的访问时间进行更新的操作。

当然，为了有效控制对同一个URL的访问时间的更新次数，所述发起对该IP地址中该URL的访问时间进行更新的操作还包括：

在实际应用中，点击一个网址时，除了这个点击的真正的URL日志外，会伴随着产生一些多余的URL日志，因此在进行上面的处理是过滤不完全的，最后添加了一项，如果有些特殊关键字的URL又不是我们所需要的。例如，点击一下www.taobao.com时除了产生http:\\www.taobao.com日志外同时会产生一些多余的URL如acookie.taobao.com、www.taobao.com/go/act/sale等，因此，为了使得记录的IP地址对应的URL更加准确，所述方法还包括：

如果某一URL被访问后，该URL链接到的一个或多个URL，则在输出网络访问数据中的URL信息之前，查找网络访问数据中的URL信息中是否有预先定义的关键字，将不包括该关键字的URL作为最终的网络访问数据中的URL信息进行输出操作，其中所述关键字为该URL所链接到的其他URL的关键字。

下面对本发明提供的方法实施例作进一步说明：

图2为本发明提供的网络访问行为的获取方法应用实例的流程示意图。图2所示方法应用实例，包括步骤201～步骤209，其中：

步骤201：从用户发起的tcp报文中准确的识别出http报文。

步骤202：判断http的首部Content-Type是否为text/html的类型，如果是，则执行步骤203；否则，流程结束。

步骤203：判断http首部Content-Encoding是否为gzip/deflate类型如果是，则执行步骤205处理；否则，执行步骤204处理。

步骤204：判断http的实体中查找title字符串，如果没有，流程结束；如果有该字符串进入步骤205～s108，其中s205～s208之间没有明显的前后顺序。

步骤205：判断http的首部Content-Length的内容长度是否在0-1024之间。

步骤206：判断http回应包的transfer-encoding是否符合如下特征，包括：首部的类型是chunked，并且该回应包的实体长度大于零并且该回应包的实体是以“.0d0a0d0a”结尾的；

步骤207：URL的长度是否小于130；

步骤208：检查一下URL的后缀是除了.js、.png、.css、.dif、.klz、ico、.xml、.xsl、.ani或.dll的后缀；

在步骤205～s108的执行结果均为肯定的情况下，执行步骤209。

步骤209：通过http首部的referer来过滤掉多余的URL日志，具体的处理包括步骤A01～步骤A06：

图3为本发明应用实施例中步骤209的流程示意图。其中包括步骤A01～步骤A06，其中：

步骤A01：检查http首部referer是否为空，如果referer为空进入步骤A02处理，如果不为空进入步骤A03处理。

步骤A02：以ip为关键字建立一个hash表，该hash表包括一个链表来储存referer中URL的后20个字节(为了节省内存)的具体内容和该referer中的URL被访问的时间。例如，该链表处理最多能够保存5个referer中的URL以及每个URL被访问的时间，由于referer和URL比较长，有的甚至长达2000多字节，所以只保留了referer和URL的后20个字节来处理，当然，也可以根据自己的需要进行扩展，如链表中可以保存的referer的个数，或者referer和URL的比较长度可以加长或缩短。如果链表中存有该ip为关键字的hash结点，那么将请求的URL***该ip结点的referer数组中，如果referer存储的条数等于5条时，那么将最先***的URL删除后将新到来的URL***ip结点。如果链表中不存在该ip为关键字的hash结点，那么建立一个ip结点，将URL***该ip结点，同时将该ip结点***链表。

步骤A03：本链接中的referer首部内容与hash表中的referer数组内容进行比较，如果完全匹配检查匹配到referer的时间戳与链表中存储该referer的时间戳的差是否小于10秒，如果小于10秒返回，不进行发送日志处理；如果不小于10秒记录访问时间后进入步骤A02进行处理。

当然，请求的URL***该ip结点的referer数组之前，还可以进行关键字过滤，具体说明如下：

步骤A04：点击一个网址时，除了这个点击的真正的URL日志外，会伴随着产生一些多余的URL日志，只进行上面的处理是过滤不完全的，最后添加了一项，如果有些特殊关键字的URL又不是我们所需要的，就对这些关键字进行匹配，如果匹配成功，那么返回，不进行发送日志处理；如果匹配不成功进入步骤A05处理，其中这此处使用的关键字是通过抓包分析得到的，将所要过滤的关键字添加到一个数组中，用过滤后剩下的URL匹配这些关键字，如果有匹配上，那么这个URL就不发送日志，否则发送日志。

步骤A05：经过前面多条件处理还保留的URL，将该URL发送到数据库储存。

步骤A06：返回该函数不做任何处理。

本发明提供的方法应用例，通过分析http协议的首部：Content-Type、Content-Encoding、Content-Length、transfer-encoding和URL的长度、URL文件后缀过滤、URL特征过滤、referer和ip地址结合的方法，过滤掉大量的多余URL日志，以充分利用内存的存储空间和给用户显示用户真正需要的URL日志。

图4为本发明提供的网络访问行为的获取***实施例的结构示意图。图4所示***实施例包括：

获取装置401，用于获取网页访问数据；

过滤装置402，与所述获取装置401相连，用于根据预先设置的策略，对网络访问数据的http头部中的字段进行过滤；

处理装置403，与所述过滤装置402相连，用于对过滤后的报文中的URL信息进行处理，得到用户的网络访问行为。

其中，所述预先设置的策略包括选择http实体为被压缩的实体或者含有title特征的未被压缩的实体，其中被选择的实体的http头部中的字段符合如下条件：

Content-Type字段是text/html的类型；

Content-Length字段小于或等于1024字节；

URL的长度小于130字节；

所述***还包括：

所述处理装置包括：

可选的，所述匹配模块采用网络访问数据中URL信息与该IP地址对应的URL信息中的最后N个字节的内容进行比较，其中N的取值范围为20～1000。

可选的，所述第一记录装置记录所述记录同一个IP地址对应的URL以及该URL被访问的时间；

可选的，所述处理模块还包括：

其中，所述更新单元用于：

可选的，所述处理装置还包括：

与现有技术相比，本发明提供的***实施例通过对网络访问数据的http头部中的字段进行过滤，过滤掉与网络管理无关的一部分网络访问数据，再根据剩余的网络访问数据得到真正需要的网络访问行为。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求所述的保护范围为准。

Claims

1.一种网络访问行为的获取方法，其特征在于，包括：

获取网页访问数据；

对过滤后的报文中的URL信息进行处理，得到用户的网络访问行为；

Content-Type字段是text/html的类型；

Content-Length字段小于或等于1024字节；

transfer-encoding首部的类型是chunked，并且回应包的实体长度大于零并且该回应包的实体是以“.0d0a0d0a”结尾的；

URL的长度小于130字节；

2.根据权利要求1所述的方法，其特征在于：

所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述将过滤得到的某一IP地址的网络访问数据中URL信息与本地记录的该IP地址对应的URL信息进行匹配，包括：

4.根据权利要求2所述的方法，其特征在于：

所述记录同一个IP地址对应的URL信息，还包括：

5.根据权利要求4所述的方法，其特征在于，所述对过滤后的报文中的URL信息进行处理，得到用户的网络访问行为还包括：

6.根据权利要求5所述的方法，其特征在于，所述发起对该IP地址中该URL的访问时间进行更新的操作还包括：

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

8.一种网络访问行为的获取***，其特征在于，包括：

获取装置，用于获取网页访问数据；

处理装置，与所述过滤装置相连，用于对过滤后的报文中的URL信息进行处理，得到用户的网络访问行为；

Content-Type字段是text/html的类型；

Content-Length字段小于或等于1024字节；

URL的长度小于130字节；

9.根据权利要求8所述的***，其特征在于：

所述***还包括：

所述处理装置包括：

10.根据权利要求9所述的***，其特征在于，所述匹配模块采用网络访问数据中URL信息与该IP地址对应的URL信息中的最后N个字节的内容进行比较，其中N的取值范围为20～1000。

11.根据权利要求9所述的***，其特征在于：

所述处理模块还包括：

12.根据权利要求11所述的***，其特征在于，所述处理模块还包括：

13.根据权利要求12所述的***，其特征在于，所述更新单元用于：

14.根据权利要求9所述的***，其特征在于，所述处理装置还包括：