CN203039704U - 一种网站日志保存*** - Google Patents
一种网站日志保存*** Download PDFInfo
- Publication number
- CN203039704U CN203039704U CN 201220389766 CN201220389766U CN203039704U CN 203039704 U CN203039704 U CN 203039704U CN 201220389766 CN201220389766 CN 201220389766 CN 201220389766 U CN201220389766 U CN 201220389766U CN 203039704 U CN203039704 U CN 203039704U
- Authority
- CN
- China
- Prior art keywords
- web
- log file
- daily record
- web log
- necessary information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
Abstract
本实用新型提供一种基于旁路镜像的网站日志保存***,从而解决现有技术中存在的问题。本实用新型采用旁路镜像的方式获取访问数据,对访问网站的数据进行“旁路镜像”,获得用户访问网站的原始数据包信息,经由行为分析模块对访问进行行为分类后可以记录成多种格式的网站日志。本实用新型的技术方案不会对web服务器造成任何负担,且日志格式与web服务器的选择完全无关。传统组网模型就是在网络交换机上接入相关的WEB服务器,由WEB服务器实体来完成相关的网站日志保存等功能。
Description
技术领域
本实用新型涉及通信技术领域,尤其涉及一种网站日志保存***。
背景技术
网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的文件。通过网站日志可以了解谁在什么时间使用什么工具访问了网站的哪些内容,它是网站分析和网站数据仓储的最基础来源。因为能够完整无误的保存网站日志成为了保证web服务器正常运行的一个必要基础。
在现有技术中,网站日志由WEB服务器自身记录,当访问产生时WEB服务器按照预先设置的日志格式以文本的形式把该次访问的某些信息记录在本地或者某台网络服务器上。
但是,不同的WEB服务器一般仅支持自己特定的日志格式,如apache支持的NCSA日志格式和IIS支持的W3C日志格式,大多数的日志分析工具都提供对NCSA和W3C至少一种格式的支持。另有一些WEB服务器如nginx有自己默认的日志格式,一般需要手工配置成NCSA格式以方便使用日志分析软件。总体上现有技术存在以下问题:
1.访问日志由web服务器负责记录,web服务器不仅需要响应访客的请求还需要记录访问日志,增加了web服务器的负担。获得每一次访问的信息都是由web服务器在处理请求时同步进行,影响web服务器的性能。
2.日志的格式与使用的web服务器有关,这极大限制了的网站日志分析工具的选择范围。传统的网站日志格式受使用的web服务器制约,选定了某种服务器也就选定了某种日志格式,或者说为了可以使用某种日志格式不得不选用某种服务器。
3.日志配置过程繁琐复杂,某些web服务器甚至仅能透过配置文件才能完成日志配置,这需要有较高的计算机知识才能顺利完成。另外web服务器一般不提供对已生成的日志的筛选功能,无法对已生成的日志进行筛选处理。
4.日志记录不具备智能性,现有的网站日志只是单纯的记录web报文所携带的固有信息,不具备任何的行为分析能力,不管是攻击还是正常访问对于现有网站日志而言没有什么区别,一般都需要专业技术人员进行分析来推测访问的行为,假如网站遭到攻击,在大量的访问日志中寻找攻击线索犹如大海捞针。
实用新型内容
针对传统网站日志模式的上述缺点,本实用新型的目的在于提供一种基于旁路镜像的网站日志保存***及方法和装置,从而解决现有技术中存在的前述问题。本实用新型采用旁路镜像的方式获取访问数据,对访问网站的数据进行“旁路镜像”,获得用户访问网站的原始数据包信息,经由行为分析模块对访问进行行为分类后可以记录成多种格式的网站日志。本实用新型的技术方案不会对web服务器造成任何负担,且日志格式与web服务器的选择完全无关。传统组网模型就是在网络交换机上接入相关的WEB服务器,由WEB服务器实体来完成相关的网站日志保存等功能;而本实用新型的技术组网方案是在交换机上旁路部署了一个设备实体,由该设备实体来完成保存网站日志和查询网站日志的功能,WEB服务器实体仅需要完成网站的信息应答功能。
本实用新型公开的技术方案具体如下:
一种网站日志保存***,包括防火墙、网络交换机和web服务器,所述网络交换机为具备镜像端口的网络交换机,所述镜像端口上连接有日志保存服务器;所述镜像端口用于通过流量镜像方式获取连接有所述日志保存服务器的通讯端口的通讯数据。
优选的,所述日志保存服务器包括流量采集模块、http协议分析模块、Request报文分析模块、Response报文分析模块、行为分析模块、日志条件检查模块和网站日志保存模块;所述流量采集模块、所述http协议分析模块、所述Request报文分析模块、所述Response报文分析模块、所述行为分析模块、所述日志条件检查模块和所述网站日志保存模块顺序连接。
优选的,所述网站日志保存***还包括网站日志筛选模块,所述网站日志筛选模块用于根据请求端指定的条件对网站日志进行筛选并将筛选结果反馈给所述请求端。
一种应用网站日志保存***进行日志保存的方法,包括以下步骤:
S1,通过所述镜像端口获取所述web服务器收到和发出的全部数据包;
S2,分析所述数据包,从所述数据包中获取http协议数据包;
S3,分析所述http协议数据包中的Request报文数据,得到Request报文必要信息;
S4,分析所述http协议数据包中的Response报文数据,得到Response报文必要信息;
S5,分析所述Request报文必要信息和/或Response报文必要信息,得到访问行为类型信息;
S6,用所述Request报文必要信息和/或Response报文必要信息和/或访问行为类型与预设条件对比,如果符合所述预设条件则缓存所述Request报文,并等待获取与该Request报文对应的Response报文,当获取到与所述Request报文对应的Response报文后,则将相互对应的Request报文和Response报文组成完整的访问过程,并将所述完整的访问过程按照预设格式保存到数据库和/或日志文件中形成网站日志。
优选的,还包括以下步骤:
S7、根据请求端设置的筛选条件从所述数据库和/或日志文件中筛选出符合条件的日志记录,并将该符合条件的日志记录保存为新文件再反馈给请求端。
优选的,所述预设条件、所述预设格式、所述筛选条件均通过web页面设置。
优选的,所述Request报文必要信息包括访问者的IP地址、访问的具体域名、访问的具体URL、Refrence信息、UserAgent和携带的Cookies;所述Response报文必要信息包括应答状态码、携带的内容类型和报文长度。
优选的,
S1具体为,通过所述镜像端口获取,得到所有发送到所述web服务器以及从所述web服务器发出的报文,并将所述报文分离成上行和下行流量;和/或
S2具体为,通过对所述上行和下行流量中TCP载荷的内容分析区分,获取得到http协议报文;和/或
S3具体为,对所述http协议报文中的Request报文进行解码处理,分离出Request必要信息,并将所述Request必要信息缓冲;和/或
S4具体为,对所述http协议报文中的Response报文进行解码处理,分离出Response必要信息,并将所述Response必要信息缓冲;和/或
S5具体为,根据所述Request报文和所述Response报文所携带的信息对访问者的访问行为进行分析,确定所述访问行为的行为类型;和/或
S6具体为,用所述Request必要信息和/或所述Response必要信息和/或所述访问行为类型与预设日志条件比对,如果符合所述预设日志条件,则把包含有所述Request必要信息的Request报文缓存,并等待与该Request报文相对应的Response报文,当获取到与该Request报文对应的Response报文后,则将相互对应的Request报文中的Request必要信息和Response报文中的Response必要信息合并组成一个完整的访问过程,再根据预设的日志格式和日志条目组合成最终的一条网站日志并写入数据库和/或日志文件中并建立该条网站日志的查询索引。
一种应用网站日志保存***进行日志保存的装置,包括:
流量采集模块,用于通过所述镜像端口获取所述web服务器收到和发出的全部数据包;
http协议分析模块,用于分析所述数据包,从所述数据包中获取http协议数据包;
Request报文分析模块,用于分析所述http协议数据包中的Request报文数据,得到Request报文必要信息;
Response报文分析模块,用于分析所述http协议数据包中的Response报文数据,得到Response报文必要信息;
行为分析模块,用于分析所述Request报文必要信息和/或Response报文必要信息,得到访问行为类型信息;
日志条件检查模块,用于用所述Request报文必要信息和/或Response报文必要信息和/或访问行为类型与预设条件对比,如果符合所述预设条件则送入下一处理步骤;
网站日志保存模块,用于将完整的访问过程按照预设格式保存到数据库和/或日志文件中形成网站日志。
优选的,所述装置还包括网站日志筛选模块,所述网站日志筛选模块用于根据指定条件对网站日志进行筛选。
本实用新型的有益效果是:
1.在记录并保存网站日志的同时,对网站没有任何的影响,无需修改网站任何的配置,无需改写网站的网页,可以做到即插即用;
2.本方案由置于旁路设备上的流量采集模块完成数据采集,不会损伤web的性能,使web服务器可以节省出资源提高并发请求量和计算速度。
3.本方案由行为分析模块对访问行为进行了智能分类,攻击、爬虫、正常访问等一目了然。
4.本方案的日志记录格式与使用什么web服务器没有任何关系,使用apache服务器也可以得到W3C格式的日志。
5.本实用新型的日志筛选模块可以直接向用户输出符合用户需求的日志内容。
附图说明
图1是本实用新型公开的网站日志保存***结构示意图;
图2是本实用新型公开的应用网站日志保存***进行日志保存的方法的步骤流程图;
图3是本实用新型公开的应用网站日志保存***进行日志保存的装置的示意框图。
具体实施方式
为了使本实用新型所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图,对本实用新型进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本实用新型,并不用于限定本实用新型。
如图1所示,本实用新型公开了一种网站日志保存***,包括防火墙、网络交换机和web服务器,所述网络交换机为具备镜像端口的网络交换机,所述镜像端口上连接有日志保存服务器;所述镜像端口用于通过流量镜像方式获取连接有所述日志保存服务器的通讯端口的通讯数据。所述日志保存服务器包括流量采集模块、http协议分析模块、Request报文分析模块、Response报文分析模块、行为分析模块、日志条件检查模块和网站日志保存模块;所述流量采集模块、所述http协议分析模块、所述Request报文分析模块、所述Response报文分析模块、所述行为分析模块、所述日志条件检查模块和所述网站日志保存模块顺序连接。所述网站日志保存***还包括网站日志筛选模块,所述网站日志筛选模块用于根据请求端指定的条件对网站日志进行筛选并将筛选结果反馈给所述请求端。
如图2所示,本实用新型公开了一种应用网站日志保存***进行日志保存的方法,包括以下步骤:
S1,通过所述镜像端口获取所述web服务器收到和发出的全部数据包;具体为,通过所述镜像端口获取,得到所有发送到所述web服务器以及从所述web服务器发出的报文,并将所述报文分离成上行和下行流量;
S2,分析所述数据包,从所述数据包中获取http协议数据包;具体为,通过对所述上行和下行流量中TCP载荷的内容分析精确区分属于http协议的报文,获取得到http协议报文;因为http协议是由Request报文发起的,因此http协议分析***首先分离出Request报文,然后再找到针对这个Request报文的应答,分别将Request报文和Response报文传递到Request分析***和Response分析***,并形成Request报文和Response报文的对应关系。
S3,分析所述http协议数据包中的Request报文数据,得到Request报文必要信息;具体为,对所述http协议报文中的Request报文进行解码处理,分离出Request必要信息,并将所述Request必要信息缓冲;所述Request报文必要信息包括访问者的IP地址、访问的具体域名、访问的具体URL、Refrence信息、UserAgent和携带的Cookies等信息;
S4,分析所述http协议数据包中的Response报文数据,得到Response报文必要信息;具体为,对所述http协议报文中的Response报文进行解码处理,分离出Response必要信息,并将所述Response必要信息缓冲;所述Response报文必要信息包括应答状态码、携带的内容类型和报文长度等信息。
S5,分析所述Request报文必要信息和/或Response报文必要信息,得到访问行为类型信息;具体为,根据所述Request报文和所述Response报文所携带的信息对访问者的访问行为进行分析,确定所述访问行为的行为类型;所述访问行为类型包括:正常访问、爬虫和攻击等多种行为类型。
S6,用所述Request报文必要信息和/或Response报文必要信息和/或访问行为类型与预设条件对比,如果符合所述预设条件则缓存所述Request报文,并等待获取与该Request报文对应的Response报文,当获取到与所述Request报文对应的Response报文后,则将相互对应的Request报文和Response报文组成完整的访问过程,并将所述完整的访问过程按照预设格式保存到数据库和/或文件中形成网站日志;具体为,用所述Request必要信息和/或所述Response必要信息和/或所述访问行为类型与预设日志条件比对,如果符合所述预设日志条件,则把包含有所述Request必要信息的Request报文缓存,并等待与该Request报文相对应的Response报文,当获取到与该Request报文对应的Response报文后,则将相互对应的Request报文中的Request必要信息和Response报文中的Response必要信息合并组成一个完整的访问过程,再根据预设的日志格式和日志条目组合成最终的一条网站日志并写入数据库和/或日志文件中并建立该条网站日志的查询索引。
为了让获取保存的网站日志具有更大的可用性,在通过上述步骤保存网站日志后,还可以通过以下步骤对日志进行筛选。
S7、根据请求端设置的筛选条件从所述数据库和/或文件中筛选出符合条件的日志记录,并将该符合条件的日志记录保存为新文件再反馈给请求端。
所述日志格式:一条日志中需要记录的条目、条目的出现顺序及其格式。目前常见的网站日志格式主要有NCSA日志格式和W3C日志格式,分别被apache和IIS采用,这两种格式下又有更细的分类不做介绍。
另外由于本方案中使用了一台专用的日志保存服务器做为日志保存设备,所以通过该服务器上的web管理页面就可以对所述预设条件、所述预设格式、所述筛选条件等进行设置。所述预设格式可以是NCSA common,NCSA combined,W3C模版,Apache自定义和W3C自定义格式等,所述筛选条件可以是响应状态(如200,304)、请求方法(如Get)、源IP、目的IP、排除IP、URL规则、内容类型(如图片)和行为分类(如正常访问、爬虫、攻击等)等;这些条件也可以组合使用。通过方便的设置筛选条件,进而可以快速获取所需要的日志内容,从而不必像大海捞针一样的查找日志,提高了工作效率。
如图3所示,本实用新型公开了一种应用网站日志保存***进行日志保存的装置,包括:
流量采集模块,用于通过所述镜像端口获取所述web服务器收到和发出的全部数据包;
http协议分析模块,用于分析所述数据包,从所述数据包中获取http协议数据包;
Request报文分析模块,用于分析所述http协议数据包中的Request报文数据,得到Request报文必要信息;
Response报文分析模块,用于分析所述http协议数据包中的Response报文数据,得到Response报文必要信息;
行为分析模块,用于分析所述Request报文必要信息和/或Response报文必要信息,得到访问行为类型信息;
日志条件检查模块,用于用所述Request报文必要信息和/或Response报文必要信息和/或访问行为类型与预设条件对比,如果符合所述预设条件则送入下一处理步骤;
网站日志保存模块,用于将完整的访问过程按照预设格式保存到数据库和/或日志文件中形成网站日志。
还包括网站日志筛选模块,所述网站日志筛选模块用于根据指定条件对网站日志进行筛选。
通过采用本实用新型公开的上述技术方案,得到了如下有益的效果:
1.在记录并保存网站日志的同时,对网站没有任何的影响,无需修改网站任何的配置,无需改写网站的网页,可以做到即插即用;
2.本方案由置于旁路设备上的流量采集模块完成数据采集,不会损伤web的性能,使web服务器可以节省出资源提高并发请求量和计算速度。
3.本方案由行为分析模块对访问行为进行了智能分类,攻击、爬虫、正常访问等一目了然。
4.本方案的日志记录格式与使用什么web服务器没有任何关系,使用apache服务器也可以得到W3C格式的日志。
本实用新型的日志筛选模块可以直接向用户输出符合用户需求的日志内容。
以上所述仅是本实用新型的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本实用新型原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本实用新型的保护范围。
Claims (1)
1.一种网站日志保存***,包括防火墙、网络交换机和web服务器,其特征在于,所述网络交换机为具备镜像端口的网络交换机,所述镜像端口上连接有日志保存服务器;所述镜像端口用于通过流量镜像方式获取连接有所述日志保存服务器的通讯端口的通讯数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201220389766 CN203039704U (zh) | 2012-08-07 | 2012-08-07 | 一种网站日志保存*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201220389766 CN203039704U (zh) | 2012-08-07 | 2012-08-07 | 一种网站日志保存*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN203039704U true CN203039704U (zh) | 2013-07-03 |
Family
ID=48691789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201220389766 Expired - Fee Related CN203039704U (zh) | 2012-08-07 | 2012-08-07 | 一种网站日志保存*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN203039704U (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103944995A (zh) * | 2014-04-28 | 2014-07-23 | 东华大学 | 一种识别宽带网络中独立用户账户的方法 |
CN109600254A (zh) * | 2018-11-29 | 2019-04-09 | 恒生电子股份有限公司 | 全链路日志的生成方法及相关*** |
-
2012
- 2012-08-07 CN CN 201220389766 patent/CN203039704U/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103944995A (zh) * | 2014-04-28 | 2014-07-23 | 东华大学 | 一种识别宽带网络中独立用户账户的方法 |
CN103944995B (zh) * | 2014-04-28 | 2017-06-06 | 东华大学 | 一种识别宽带网络中独立用户账户的方法 |
CN109600254A (zh) * | 2018-11-29 | 2019-04-09 | 恒生电子股份有限公司 | 全链路日志的生成方法及相关*** |
CN109600254B (zh) * | 2018-11-29 | 2022-04-26 | 恒生电子股份有限公司 | 全链路日志的生成方法及相关*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102857369B (zh) | 一种网站日志保存***及方法和装置 | |
JP6488508B2 (ja) | ウェブページのアクセス方法、装置、デバイス及びプログラム | |
CN101079768B (zh) | 一种统计网页链接点击数据的方法 | |
US9923793B1 (en) | Client-side measurement of user experience quality | |
CN104933056B (zh) | 统一资源定位符去重方法及装置 | |
CN109684575A (zh) | 网页数据的处理方法及装置、存储介质、计算机设备 | |
CN102932207B (zh) | 监测网站访问信息的方法及服务器 | |
CN102932206B (zh) | 监测网站访问信息的方法和*** | |
WO2018053620A1 (en) | Digital communications platform for webpage overlay | |
CN102663054B (zh) | 一种确定网站权重的方法及装置 | |
CN104125209A (zh) | 恶意网址提示方法和路由器 | |
CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
WO2014180130A1 (en) | Method and system for recommending contents | |
CN106021583B (zh) | 页面流量数据的统计方法及其*** | |
CN105379195B (zh) | 信息共享方法和设备 | |
CN103455478A (zh) | 加速网页访问的方法和装置 | |
US20120016857A1 (en) | System and method for providing search engine optimization analysis | |
CN112486708B (zh) | 页面操作数据的处理方法和处理*** | |
CN103617266A (zh) | 个性化扩展搜索方法及装置、*** | |
CN106897336A (zh) | 网页文件发送方法、网页渲染方法及装置、网页渲染*** | |
Langhnoja et al. | Pre-processing: procedure on web log file for web usage mining | |
CN110808868B (zh) | 测试数据获取方法、装置、计算机设备及存储介质 | |
CN110020273B (zh) | 用于生成热力图的方法、装置以及*** | |
CN102761450A (zh) | 一种网站分析***及方法和装置 | |
CN101188521B (zh) | 一种挖掘用户行为数据的方法和网站服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130703 Termination date: 20140807 |
|
EXPY | Termination of patent right or utility model |