CN110708339B - 一种基于web日志的关联分析方法 - Google Patents

一种基于web日志的关联分析方法 Download PDF

Info

Publication number
CN110708339B
CN110708339B CN201911076385.9A CN201911076385A CN110708339B CN 110708339 B CN110708339 B CN 110708339B CN 201911076385 A CN201911076385 A CN 201911076385A CN 110708339 B CN110708339 B CN 110708339B
Authority
CN
China
Prior art keywords
interface
access
logs
group
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911076385.9A
Other languages
English (en)
Other versions
CN110708339A (zh
Inventor
代波
李成东
常清雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201911076385.9A priority Critical patent/CN110708339B/zh
Publication of CN110708339A publication Critical patent/CN110708339A/zh
Application granted granted Critical
Publication of CN110708339B publication Critical patent/CN110708339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于WEB日志的关联分析方法,包括:日志数据的标准化处理、获取日志中的事件行为链、统计接口调用承接关系概率得到群体的访问特征属性;计算用户的事件行为链与群体的相似度匹配,得到总的异常行为分值。本发明通过关键的日志关联分析,用户实际接口访问行为链与群体的行为链的相似度匹配,能针对性的精确识别异常行为并及时通知到***管理员;所分析的数据为是web访问日志,存在较大的并发量和交叉关系,摒弃直接的时间线顺序关系,而使用日志数据中的字段标识来确立分类,并且使用了个体与群体的对比来区分异常关系,适用性更广。

Description

一种基于WEB日志的关联分析方法
技术领域
本发明涉及日志安全分析技术领域,具体的说,是一种基于WEB日志的关联分析方法。
背景技术
随着Web技术的发展,web2.0的诞生,WEB应用部署维护方便的优势逐渐体现,基于Web环境的互联网应用越来越广泛,企业的各种信息化应用都架设在Web平台上,Web业务的迅速发展也引起黑客们的强烈关注,Web安全威胁也随之而来,黑客利用Web服务程序的***漏洞和SQL注入漏洞等方式,获取Web服务器的控制权限,轻则篡改网页的内容,重则窃取重要的内部数据,更为严重的是,在网页中植入一些恶意代码,使得网站的其它访问者都受到侵害。Web访问日志记录了Web服务器接收处理请求及运行时错误等各种原始信息。通过对WEB日志进行的安全分析,不仅可以帮助我们定位攻击者,还可以帮助我们还原攻击路径,找到网站存在的安全漏洞并进行修复。在现有的日志分析***中,通过提取Web访问日志信息,可以清楚的得知用户在什么IP、什么时间、用什么操作***、什么浏览器的情况下访问了你网站的哪个页面,是否访问成功等其他信息。它的缺陷在于,只是独立的分析了单条日志中是否含有异常访问问题或者攻击行为,而没有分析日志之间的关联关系,无法识别多个请求联合来对***进行攻击的情况。
发明内容
本发明的目的在于提供一种基于WEB日志的关联分析方法,用于解决现有技术中独立分析单条日志是否异常,而没有分析日志之间的关联关系无法识别多个请求联合对***进行攻击的问题。
本发明通过下述技术方案解决上述问题:
一种基于WEB日志的关联分析方法,包括:
步骤S100:日志数据的标准化处理
浏览器与服务器之间的每一个会话都有一个session,sessionid就是唯一的位置标志,用以识别会话和用户主体。使用WEB服务器+过滤脚本采集日志数据,可以拦截接口访问时传输的所有字段,包括需要采集的固有数据字段:访问的url、访问时间、请求体和返回体,并把这些内容同意转换成json格式数据。按照访问流程,以一个会话为一个基本单位,即按sessionid分组,把单个会话中的日志数据分为一组;
步骤S200:获取日志中的事件行为链
事件行为链,即当前用户在一个会话中的所有接口访问顺序列表。需要分析的日志已经按照会话分组,在每组日志中,提取每条日志的访问接口路径urlPath、访问接口的方法method和访问时间timestamp,并按照访问时间timestamp排序,作为完整的事件行为链;
步骤S300:统计接口调用承接关系概率
分析经过分组和排序的日志数据,统计得出每个接口访问后的下一个访问接口概率最大接口,取前N个。具体方法:
获取每个接口访问的下一个调用接口,如果是新出现的,则加入列表,并把出现次数置为1,如果是重复出现,则把出现次数加1。
取得次数较多的前N个,此操作可得出群体的访问特征属性,存储格式为:
{
CurrentInterface:“当前接口信息”
nextInterfaceList:[nextInterface1,nextInterface2,…nextInterfaceN]
}
得到群体的访问特征属性;
步骤S400:事件行为链的相似度匹配
计算用户单个会话的事件行为链数据,依次提取每个接口和它的下一个接口,存储到承接关系对象relationInstance中,其基本格式为:
{
CurrentInterface:“当前接口信息”,
NextInterface:“下一个接口信息”
};
把每个relationInstance依次与群体的访问特征属性匹配:
如果NextInterface在nextInterfaceList中,即返回威胁得分为0,
如果NextInterface不在nextInterfaceList中,威胁得分为1;
累加匹配得出的所有威胁得分,得到总的异常行为分值。
本发明通过web访问日志之间的关联分析,可更精确的判断用户在一次会话访问行为中,是否包含对web应用***有威胁的行为,可以更好的保护数据资产。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明通过关键的日志关联分析,用户实际接口访问行为链与群体的行为链的相似度匹配,能针对性的精确识别异常行为并及时通知到***管理员。
(2)本发明所分析的数据为是web访问日志,存在较大的并发量和交叉关系,摒弃直接的时间线顺序关系,而使用日志数据中的字段标识来确立分类,并且使用了个体与群体的对比来区分异常关系,适用性更广。
附图说明
图1为本发明的流程图;
图2为本发明中日志收集的***框架图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种基于WEB日志的关联分析方法,包括以下步骤:
1)日志数据收集
如图2所示,使用nginx+lua采集统一格式的日志数据。也可以直接使用OpenResty,OpenResty是一个基于Nginx与Lua的高性能Web平台,在这里需要采集的数据包含以下字段:
会话标识id:sessionId,
访问接口路径:urlPath,
访问接口的方法:method
用户ip:clientIp
访问时间:timestamp
2)日志数据预处理
把上述采集的日志信息,转化为标准的json格式,其中时间格式统一为yyyy-MM-dd HH:mm:ss
如:
Figure BDA0002262588310000041
Figure BDA0002262588310000051
以sessionId为分组条件,将日志分为不同的组,即,每一组的数据是以session为关联的同一个web访问会话中的数据。
2)获取日志中的事件行为链
把日志数据以时间排序,得出事件行为链。
Figure BDA0002262588310000052
Figure BDA0002262588310000061
3)统计接口调用承接关系概率
统计用户访问接口的关联关系,每个接口访问的下一个接口次数top3。3.1)记录次数
用户A访问接口顺序为:login,userInfo,updateUser,articleList
用户B访问接口顺序为:login,userInfo,updateUser
用户C访问接口顺序为:login,articleList
用户D访问接口顺序为:login,friendList
……
记录login接口的下个接口次数,格式为:
Figure BDA0002262588310000062
3.2)取得top 3的接口数据
Figure BDA0002262588310000063
Figure BDA0002262588310000071
4)行为链的相似度匹配
4.1)获取用户A用户单个会话的事件行为链数据,依次提取每个接口和它的下个接口。基本格式为:
Figure BDA0002262588310000072
Figure BDA0002262588310000081
4.2)匹配该用户此接口访问的顺序是否异常
遍历InterFaceList,取到第一个login接口的数据
Figure BDA0002262588310000082
在commonInterfaceList中查找到login接口的top3数据为
List:[userInfo,articleList,friendList]
用户A的下个访问接口userInfo在此List中,记录威胁得分为:0
如果用户E的login接口访问数据为:
Figure BDA0002262588310000083
则匹配后,记录威胁得分为:1
4.3)同理得出用户在整个会话过程中的威胁得分,并累加起来。
4.4)接口行为异常的才会有威胁得分,把这部分用户数据,写入到威胁数据表中,以便后续查看。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (1)

1.一种基于WEB日志的关联分析方法,其特征在于,包括:
步骤S100:日志数据的标准化处理
使用WEB服务器+过滤脚本采集日志数据,所述日志数据包括:访问接口的路径urlPath、访问时间timestamp、请求体和返回体,并将日志数据统一转换成json格式数据;按照访问流程,将日志数据按sessionid分组,sessionid为会话的标识id;
步骤S200:获取日志中的事件行为链
在每组日志中,提取每条日志的访问接口的路径urlPath、访问接口的方法method和访问时间timestamp,并按照访问时间timestamp排序,作为事件行为链;
步骤S300:统计接口调用承接关系概率
分析经过分组和排序的日志数据,统计得出当前接口访问后的下一个接口访问次数较多的N个接口,存储格式为:
{
CurrentInterface:“当前接口信息”
nextInterfaceList:[nextInterface1,nextInterface2,…nextInterfaceN]
}
得到群体的访问特征属性;
步骤S400:事件行为链的相似度匹配
计算用户单个会话的事件行为链数据,依次提取每个接口和它的下一个接口,存储到承接关系对象relationInstance中,其基本格式为:
{
CurrentInterface:“当前接口信息”,
NextInterface:“下一个接口信息”
};
把每个relationInstance依次与群体的访问特征属性匹配:
如果NextInterface在nextInterfaceList中,即返回威胁得分为0,
如果NextInterface不在nextInterfaceList中,威胁得分为1;
将所有威胁得分累加,得到总的异常行为分值。
CN201911076385.9A 2019-11-06 2019-11-06 一种基于web日志的关联分析方法 Active CN110708339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911076385.9A CN110708339B (zh) 2019-11-06 2019-11-06 一种基于web日志的关联分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911076385.9A CN110708339B (zh) 2019-11-06 2019-11-06 一种基于web日志的关联分析方法

Publications (2)

Publication Number Publication Date
CN110708339A CN110708339A (zh) 2020-01-17
CN110708339B true CN110708339B (zh) 2021-06-22

Family

ID=69205376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911076385.9A Active CN110708339B (zh) 2019-11-06 2019-11-06 一种基于web日志的关联分析方法

Country Status (1)

Country Link
CN (1) CN110708339B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552536A (zh) * 2020-04-29 2020-08-18 广东天亿马信息产业股份有限公司 一种用于电子政务自助终端的管理***及其管理方法
CN111708681B (zh) * 2020-06-15 2021-05-07 北京优特捷信息技术有限公司 一种日志处理方法、装置、设备及存储介质
CN111752727B (zh) * 2020-06-30 2023-06-20 上海观安信息技术股份有限公司 一种基于日志分析的数据库三层关联的识别方法
CN113342744B (zh) * 2021-06-02 2022-02-15 北京优特捷信息技术有限公司 调用链的并行构建方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103297435B (zh) * 2013-06-06 2016-12-28 中国科学院信息工程研究所 一种基于web日志的异常访问行为检测方法与***
CN104217030B (zh) * 2014-09-28 2018-12-11 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
US20170046510A1 (en) * 2015-08-14 2017-02-16 Qualcomm Incorporated Methods and Systems of Building Classifier Models in Computing Devices
CN105553740B (zh) * 2015-12-25 2018-07-31 北京奇虎科技有限公司 数据接口监控方法和装置
CN106209781B (zh) * 2016-06-27 2019-09-06 航天云网科技发展有限责任公司 一种基于统计学的异常接口访问识别方法
CN108665297B (zh) * 2017-03-31 2021-01-26 北京京东尚科信息技术有限公司 异常访问行为的检测方法、装置、电子设备和存储介质
CN107438079B (zh) * 2017-08-18 2020-05-01 杭州安恒信息技术股份有限公司 一种网站未知异常行为的检测方法
CN109428857B (zh) * 2017-08-23 2021-01-05 腾讯科技(深圳)有限公司 一种恶意探测行为的检测方法和装置
CN110224870B (zh) * 2019-06-19 2023-03-24 腾讯云计算(北京)有限责任公司 接口监控方法、装置、计算设备及存储介质

Also Published As

Publication number Publication date
CN110708339A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110708339B (zh) 一种基于web日志的关联分析方法
CN103297435B (zh) 一种基于web日志的异常访问行为检测方法与***
CN105930727B (zh) 基于Web的爬虫识别方法
CN109816397B (zh) 一种欺诈判别方法、装置及存储介质
WO2022117063A1 (zh) 孤立森林的训练方法,网络爬虫的识别方法及装置
US7860870B2 (en) Detection of abnormal user click activity in a search results page
US8244752B2 (en) Classifying search query traffic
US8126874B2 (en) Systems and methods for generating statistics from search engine query logs
CN108156131B (zh) Webshell检测方法、电子设备和计算机存储介质
CN101971591B (zh) 分析网址的***及方法
CN108154029A (zh) 入侵检测方法、电子设备和计算机存储介质
US10505986B1 (en) Sensor based rules for responding to malicious activity
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN107547490B (zh) 一种扫描器识别方法、装置及***
US7630987B1 (en) System and method for detecting phishers by analyzing website referrals
CN114915479B (zh) 一种基于Web日志的Web攻击阶段分析方法及***
CN114244564B (zh) 攻击防御方法、装置、设备及可读存储介质
CN113949577A (zh) 一种应用于云服务的数据攻击分析方法及服务器
CN108337269A (zh) 一种WebShell检测方法
CN107592305A (zh) 一种基于elk和redis的防刷方法及***
CN110572402B (zh) 基于网络访问行为分析的互联网托管网站检测方法、***和可读存储介质
CN116319065A (zh) 一种应用于商业运维的威胁态势分析方法和***
CN117539739A (zh) 基于双特征的用户连续行为异常监测方法
Lagopoulos et al. Web robot detection in academic publishing
Luz et al. Data preprocessing and feature extraction for phishing URL detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant