CN107404497A - 一种在海量日志中检测WebShell的方法 - Google Patents
一种在海量日志中检测WebShell的方法 Download PDFInfo
- Publication number
- CN107404497A CN107404497A CN201710791814.5A CN201710791814A CN107404497A CN 107404497 A CN107404497 A CN 107404497A CN 201710791814 A CN201710791814 A CN 201710791814A CN 107404497 A CN107404497 A CN 107404497A
- Authority
- CN
- China
- Prior art keywords
- day
- record
- webshell
- history
- request log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1433—Vulnerability analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明提供了一种在海量日志中检测WebShell的方法,包括以下步骤:提取相邻两天访问成功的动态页面请求日志,记第一天的动态页面请求日志的记录为log1,第二天动态页面请求日志的记录为log2;对获得的请求日志的记录抹除参数,并将抹除参数后的记录存入对应集合path1与paht2中;计算新增页面集合path,path=path2–path1–history;重放集合path中每一条记录p,检查记录p是否为WebShell;令原第二天为新的第一天,新的第二天为原第二天的后一天,重复执行步骤1‑4,筛选出WebShell。本发明通过使用基于网站历史请求的方法,筛选出新增动态文件,然后再通过复现请求确定是否是WebShell,以此降低人工分析的成本。
Description
技术领域
本发明涉及WebShell检测领域,特别是一种在海量日志中检测WebShell的方法。
背景技术
WebShell,顾名思义,“web”的含义是显然需要服务器开放web服务,“shell”的含义是取得对服务器某种程度上操作权限。黑客在入侵了一个网站后,通常会将这些asp或php后门文件与网站服务器WEB目录下正常的网页文件混在一起,然后就可以使用浏览器来访问这些asp或者php后门,得到一个命令执行环境,以达到控制网站服务器的目的(可以上传下载文件,查看数据库,执行任意程序命令等)。由于WebShell其大多是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境,也可以将其称做为一种网页后门。
现有技术对WebShell的检查,是通过收集网络上公开的WebShell并分析其请求特征,利用其建立WebShell特征库,然后在网站的访问日志中匹配这些特征,如果匹配上,则人工再次确认是否为真实存在的WebShell。其存在以下不足:1)基于特征匹配容易出现大量误报;2)WebShell特征随时变换,特征库不能完全包含所有的特征,容易出现遗漏;3)有扫描时会产生大量的无效告警,增加人工分析工作量。
动态页面:一种可以动态生成网页文件的技术。
URL:统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
发明内容
本发明所要解决的技术问题是提供一种在海量日志中检测WebShell的方法,用于从海量攻击日志中分析出真实的WebShell,通过使用基于网站历史请求的方法,筛选出新增动态文件,然后再通过复现请求确定是否是WebShell,以此降低人工分析的成本。
为解决上述技术问题,本发明采用的技术方案是:
一种在海量日志中检测WebShell的方法,包括以下步骤:
步骤1:提取相邻两天访问成功的动态页面请求日志;即读取请求日志,逐行处理,过滤出请求日志的URL中包含.asp、.aspx、.jsp、.php的动态页面的请求日志,记第一天的动态页面请求日志的记录为log1,第二天动态页面请求日志的记录为log2;
步骤2:对步骤1中请求日志的记录抹除参数,只保留路径;即去除记录中问号“?”及问号之后内容,降低干扰,并将抹除参数后的记录存入对应集合path1与paht2中,path1为第一天的动态文件路径,path2为第二天的动态文件路径;
步骤3:计算新增页面集合path;即从第二天请求日志的记录的path2中排除第一天请求日志的记录的path1,再排除历史正常记录history,得到第二天相较第一天新增的页面集合path,表达式为path=path2–path1–history;其中,history为历史结果中非WebShell的记录合集;第一次执行时,历史正常记录history为空集;
步骤4:重放集合path中每一条记录p,检查记录p是否为WebShell,如果记录p是WebShell,记录此WebShell,如果记录p不是WebShell,将记录p加入历史正常记录history集合中,即history=history∪{p};
步骤5:令原第二天为新的第一天,新的第二天为原第二天的后一天,即day1=day2,day2=day2+1,重复执行步骤1-4,筛选出WebShell。
进一步的,步骤5中涉及到重复执行步骤1-4,设定重复执行的次数为7次。
与现有技术相比,本发明的有益效果是:基于WebShell特征库的日志匹配方法会出现大量的告警信息,人工确认工作量十分巨大,使用本发明的基于历史动态页面记录的筛选方法,可以大幅减少人工工作量,迭代7天后,既可降低98%以上工作量。
附图说明
图1是本发明一种在海量日志中检测WebShell的方法流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明
本发明主要用于海量日志,通过计算基于历史日志的差集,筛选出新增动态页面,再通过重放来检查是否是WebShell。如图1所示,具体说明如下:
步骤1:提取相邻两天访问成功的动态页面请求日志,即读取请求日志,逐行处理,过滤出请求日志的URL中包含.asp、.aspx、.jsp、.php等动态页面的请求日志。
例如:
提取出第一天符合条件的请求日志的集合为log1;
http://blog.knownsec.com/index.php?s=12
http://blog.knownsec.com/index.php?s=1024
http://php.weather.sina.com.cn/iframe/index/w_cl.php
http://aj.hzgaj.gov.cn/about.jsp
http://www.cdairport.com/xwgg1_show1.jsp?aid=457
提取出第二天符合条件的请求日志的集合为log2;
http://blog.knownsec.com/index.php?s=12
http://php.weather.sina.com.cn/iframe/index/w_cl.php
http://aj.hzgaj.gov.cn/about.jsp
http://daoyou-chaxun.cnta.gov.cn/single_info/selectlogin_1.asp
http://www.ga.dl.gov.cn/intro/introduction.asp?type=2
步骤2对步骤1中请求日志的记录抹除参数,只保留路径;即去除记录中问号“?”及问号之后内容,降低干扰,并将抹除参数后的记录存入对应集合path1与paht2中,path1为第一天的动态文件路径,path2为第二天的动态文件路径。
例如:
log1->path1
http://blog.knownsec.com/index.php
http://php.weather.sina.com.cn/iframe/index/w_cl.php
http://aj.hzgaj.gov.cn/about.jsp
http://www.cdairport.com/xwgg1_show1.jsp
log2->path2
http://blog.knownsec.com/index.php
http://php.weather.sina.com.cn/iframe/index/w_cl.php
http://aj.hzgaj.gov.cn/about.jsp
http://daoyou-chaxun.cnta.gov.cn/single_info/selectlogin_1.asp
http://www.ga.dl.gov.cn/intro/introduction.asp
步骤3:计算新增页面集合path;即从第二天请求日志的记录的path2中排除第一天请求日志的记录的path1,再排除历史正常记录history,得到第二天相较第一天新增的页面集合path,表达式为path=path2–path1–history;其中,history为历史结果中非WebShell的记录合集;第一次执行时,历史正常记录history为空集。
例如:
http://daoyou-chaxun.cnta.gov.cn/single_info/selectlogin_1.asp
http://www.ga.dl.gov.cn/intro/introduction.asp
步骤4:重放集合path中每一条记录p,检查记录p是否为WebShell,如果记录p是WebShell,记录此WebShell,如果记录p不是WebShell,将记录p加入历史正常记录history集合中,即history=history∪{p}。
步骤5:令day1=day2,day2=day2+1,重复执行步骤1-4。
Claims (2)
1.一种在海量日志中检测WebShell的方法,其特征在于,包括以下步骤:
步骤1:提取相邻两天访问成功的动态页面请求日志;即读取请求日志,逐行处理,过滤出请求日志的URL中包含.asp、.aspx、.jsp、.php的动态页面的请求日志,记第一天的动态页面请求日志的记录为log1,第二天动态页面请求日志的记录为log2;
步骤2:对步骤1中请求日志的记录抹除参数,只保留路径;即去除记录中问号“?”及问号之后内容,降低干扰,并将抹除参数后的记录存入对应集合path1与paht2中,path1为第一天的动态文件路径,path2为第二天的动态文件路径;
步骤3:计算新增页面集合path;即从第二天请求日志的记录的path2中排除第一天请求日志的记录的path1,再排除历史正常记录history,得到第二天相较第一天新增的页面集合path,表达式为path=path2–path1–history;其中,history为历史结果中非WebShell的记录合集;第一次执行时,历史正常记录history为空集;
步骤4:重放集合path中每一条记录p,检查记录p是否为WebShell,如果记录p是WebShell,记录此WebShell,如果记录p不是WebShell,将记录p加入历史正常记录history集合中,即history=history∪{p};
步骤5:令原第二天为新的第一天,新的第二天为原第二天的后一天,即day1=day2,day2=day2+1,重复执行步骤1-4,筛选出WebShell。
2.如权利要求1所述的一种在海量日志中检测WebShell的方法,其特征在于,步骤5中涉及到重复执行步骤1-4,设定重复执行的次数为7次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710791814.5A CN107404497A (zh) | 2017-09-05 | 2017-09-05 | 一种在海量日志中检测WebShell的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710791814.5A CN107404497A (zh) | 2017-09-05 | 2017-09-05 | 一种在海量日志中检测WebShell的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107404497A true CN107404497A (zh) | 2017-11-28 |
Family
ID=60396756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710791814.5A Pending CN107404497A (zh) | 2017-09-05 | 2017-09-05 | 一种在海量日志中检测WebShell的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107404497A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107888616A (zh) * | 2017-12-06 | 2018-04-06 | 北京知道创宇信息技术有限公司 | 基于URI的分类模型的构建方法和Webshell攻击网站的检测方法 |
CN113779571A (zh) * | 2020-06-10 | 2021-12-10 | 中国电信股份有限公司 | WebShell检测装置、WebShell检测方法及计算机可读存储介质 |
TWI766455B (zh) * | 2020-11-27 | 2022-06-01 | 中華電信股份有限公司 | 檢查網站的存取權限的電子裝置和方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103532754A (zh) * | 2013-10-12 | 2014-01-22 | 北京首信科技股份有限公司 | 一种通过高速内存、分布式处理海量日志的***及方法 |
CN104468477A (zh) * | 2013-09-16 | 2015-03-25 | 杭州迪普科技有限公司 | 一种WebShell的检测方法及*** |
CN104765883A (zh) * | 2015-04-30 | 2015-07-08 | 中电运行(北京)信息技术有限公司 | 一种用于Webshell的检测方法 |
CN105812196A (zh) * | 2014-12-30 | 2016-07-27 | ***通信集团公司 | 一种WebShell检测方法及电子设备 |
CN105933268A (zh) * | 2015-11-27 | 2016-09-07 | ***股份有限公司 | 一种基于全量访问日志分析的网站后门检测方法及装置 |
US20170230388A1 (en) * | 2016-02-10 | 2017-08-10 | Cisco Technology, Inc. | Identifying malicious executables by analyzing proxy logs |
-
2017
- 2017-09-05 CN CN201710791814.5A patent/CN107404497A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104468477A (zh) * | 2013-09-16 | 2015-03-25 | 杭州迪普科技有限公司 | 一种WebShell的检测方法及*** |
CN103532754A (zh) * | 2013-10-12 | 2014-01-22 | 北京首信科技股份有限公司 | 一种通过高速内存、分布式处理海量日志的***及方法 |
CN105812196A (zh) * | 2014-12-30 | 2016-07-27 | ***通信集团公司 | 一种WebShell检测方法及电子设备 |
CN104765883A (zh) * | 2015-04-30 | 2015-07-08 | 中电运行(北京)信息技术有限公司 | 一种用于Webshell的检测方法 |
CN105933268A (zh) * | 2015-11-27 | 2016-09-07 | ***股份有限公司 | 一种基于全量访问日志分析的网站后门检测方法及装置 |
US20170230388A1 (en) * | 2016-02-10 | 2017-08-10 | Cisco Technology, Inc. | Identifying malicious executables by analyzing proxy logs |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107888616A (zh) * | 2017-12-06 | 2018-04-06 | 北京知道创宇信息技术有限公司 | 基于URI的分类模型的构建方法和Webshell攻击网站的检测方法 |
CN107888616B (zh) * | 2017-12-06 | 2020-06-05 | 北京知道创宇信息技术股份有限公司 | 基于URI的分类模型的构建方法和Webshell攻击网站的检测方法 |
CN113779571A (zh) * | 2020-06-10 | 2021-12-10 | 中国电信股份有限公司 | WebShell检测装置、WebShell检测方法及计算机可读存储介质 |
CN113779571B (zh) * | 2020-06-10 | 2024-04-26 | 天翼云科技有限公司 | WebShell检测装置、WebShell检测方法及计算机可读存储介质 |
TWI766455B (zh) * | 2020-11-27 | 2022-06-01 | 中華電信股份有限公司 | 檢查網站的存取權限的電子裝置和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
CN105933268B (zh) | 一种基于全量访问日志分析的网站后门检测方法及装置 | |
Cui et al. | Malicious URL detection with feature extraction based on machine learning | |
CN105760379B (zh) | 一种基于域内页面关联关系检测webshell页面的方法及装置 | |
CN106095979B (zh) | Url合并处理方法和装置 | |
CN103678692B (zh) | 一种下载文件的安全扫描方法及装置 | |
CN103530365B (zh) | 获取资源的下载链接的方法及*** | |
CN107437026B (zh) | 一种基于广告网络拓扑的恶意网页广告检测方法 | |
CN103077250B (zh) | 一种网页内容抓取方法及装置 | |
CN102082792A (zh) | 钓鱼网页检测方法及设备 | |
CN112989348B (zh) | 攻击检测方法、模型训练方法、装置、服务器及存储介质 | |
CN103067387B (zh) | 一种反钓鱼监测***和方法 | |
CN107404497A (zh) | 一种在海量日志中检测WebShell的方法 | |
CN106779278A (zh) | 资产信息的评价***及其信息的处理方法和装置 | |
CN103279476B (zh) | 一种web应用***敏感文字的检测方法及*** | |
WO2017063274A1 (zh) | 一种恶意跳转及恶意嵌套类不良网站的自动判定方法 | |
CN107590236B (zh) | 一种面向建筑施工企业的大数据采集方法和*** | |
CN105704260A (zh) | 一种互联网流量来源去向的分析方法 | |
CN112532624B (zh) | 一种黑链检测方法、装置、电子设备及可读存储介质 | |
CN102567521B (zh) | 网页数据抓取过滤方法 | |
Roy et al. | A large-scale analysis of phishing websites hosted on free web hosting domains | |
CN107566371B (zh) | 一种面向海量日志的WebShell挖掘方法 | |
CN104636340A (zh) | 网页url过滤方法、装置及*** | |
CN117254983A (zh) | 涉诈网址检测方法、装置、设备及存储介质 | |
CN109583210A (zh) | 一种水平权限漏洞的识别方法、装置及其设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171128 |