CN107729386A - 一种基于聚合度分析的暗链检测技术 - Google Patents
一种基于聚合度分析的暗链检测技术 Download PDFInfo
- Publication number
- CN107729386A CN107729386A CN201710846340.XA CN201710846340A CN107729386A CN 107729386 A CN107729386 A CN 107729386A CN 201710846340 A CN201710846340 A CN 201710846340A CN 107729386 A CN107729386 A CN 107729386A
- Authority
- CN
- China
- Prior art keywords
- chain
- polymerization
- link
- dark chain
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及网络安全领域,旨在提供一种基于聚合度分析的暗链检测技术。该种基于聚合度分析的暗链检测方法,通过下述步骤实现检测网页中植入的暗链:向待检测的Web网站服务器发送HTTP请求,抓取待检测页面的响应HTML源代码;对获得的响应HTML源代码建立链接坐标平面图;计算聚合度,获取疑似暗链的外链集;敏感关键字匹配。本发明采用基于代码聚合度的技术手段,识别网页中植入的暗链,并通过采用关键字校验技术,在识别准确度方面有了明显的提升。
Description
技术领域
本发明是关于网络安全领域,特别涉及一种基于聚合度分析的暗链检测技术。
背景技术
暗链是一种特殊的网页超链接,通过比较隐蔽的技术手法植入于网站代码中,通常无法直接通过浏览器查看到,主要用途为利用搜索引擎以及网站相互引用来获得较高的搜索排名以及较大的网站访问流量。
由于该技术主要用于推广一些非法或不健康的内容,嵌入网页的技术手段也通常为非受权的入侵式植入为主,因此通常暗链也是网站被黑的一种显性标志。
目前,对于暗链的检测技术主要依赖于特征库黑名单检测技术、浏览器渲染链接元素样式属性判断等技术,但是这些技术都需要依赖于特征进行计算,容易产生误报。
发明内容
本发明的主要目的在于克服现有技术中的不足,提供一种能准确识别网页已经被植入的暗链的方法。为解决上述技术问题,本发明的解决方案是:
提供一种基于聚合度分析的暗链检测方法,用于检测网页中植入的暗链,所述基于聚合度分析的暗链检测方法具体包括下述步骤:
步骤一:向待检测的Web网站服务器发送HTTP请求,抓取待检测页面的响应HTML源代码;
步骤二:对获得的响应HTML源代码建立链接坐标平面图(链接坐标系是指:以(0,0)为坐标原点,水平线方向为X轴,垂直方向为Y轴);
外部链接(即一个网页中所有的链接,且链向的目的链接不是本网站的链接;以http://www.dbappsecurity.com.cn页面的源代码为例,凡是不指向www.dbappsecurity.com.cn的链接相对于网站http://www.dbappsecurity.com.cn都是外链)在链接坐标系中的坐标取值方式如下:
1)外部链接在链接坐标系中的Y值:该外部链接在响应HTML源代码中的行数;
2)外部链接在链接坐标系中的X值,每一行分别计算获得:首先将本行源代码中的每一个链接(<a href=*>*</a>)作为一个整体,然后以空格分隔每一个链接,将这一行源代码分割成一个数组,作为整体的链接不参与分割,各链接在分割产生的数组中的顺序即为该链接的X坐标值(比如源代码“test<br><a href=x>k</a>fff”,分割之后链接“<ahref=x>k</a>”所在数组的顺序为2,所以该链接的X取值为2);
通过上述定位,获得所有外部链接在链接坐标系中的坐标值,然后将各外部链接在链接坐标系中绘制出来,获得链接坐标平面图;
步骤三:计算聚合度,获取疑似暗链的外链集:
在链接坐标平面图中,计算所有外部链接的X值,是否存在连续N个点的X值相近;相近是指这N个点的连线近似于水平直线,即连线与Y轴的夹角值在88°到90°之间,则认为这连续的N个点对应的外部链接聚合符合条件;所述N是指大于0的自然数(N为经验值,取值为3~10);
同理,在链接坐标平面图中,计算外部链接的Y值是否满足聚合条件:是否存在连续N个点的Y值相近;相近是指这N个点的连线近似于垂直直线,即连线与X轴的夹角值在88°到90°之间,则认为这连续的N个点对应的外部链接聚合符合条件;所述N是指大于0的自然数(N为经验值,取值为3~10);
只要外部链接的X值或者Y值满足聚合条件,则认为这一批外部链接符合聚合,判定为疑似暗链的外链集;
步骤四:敏感关键字匹配:
使用暗链敏感关键字集合(暗链敏感关键字集合是历史整理的暗链敏感关键字,主要指涉及色情、***、广告之类的关键词,这一类关键字在暗链中利用最多),对疑似暗链的外链集中的锚文本进行匹配(暗链敏感关键字对锚文本的匹配算法是,逐一使用各链接的锚文本,在关键字集合中查找,如果命中则判定为匹配),如果匹配次数超过二次,则判定该外链集是暗链;
所述锚文本是指一个链接中的文本内容(如源代码链接“<a href=xx>qqq</a>”中,“qqq”则是锚文本)。
本发明的工作原理:采用基于网页代码聚合度分析技术,对待检测的网页进行提取,检测网页中的块结构中的外部超级链接,通过超级链接的聚合度分析快速定位可能存在暗链的块,然后针对定位的块进行关键字校验,从而实现大批量网站暗链检测。
与现有技术相比,本发明的有益效果是:
本发明主要从黑客入侵篡改植入暗链的主观目的性上出发,从数学脚本考虑其植入链接的结构特性,来进行检测,能够极大的提高检测结果的准确性。
本发明采用基于代码聚合度的技术手段,识别网页中植入的暗链,并通过采用关键字校验技术,在识别准确度方面有了明显的提升。
在大批量检测对象的情况下,本发明可以非常快速地展开大范围的暗链检测工作,实现了高性能检测,在检测性能方面有着明显的优势。
附图说明
图1为本发明的检测流程图。
图2为实施例中的链接坐标平面图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
暗链,同时满足以下两个条件为暗链:
1)大量外部链接聚合成水平、垂直的直线;
2)聚合成直线的外链描文本,包含诸如“赌场”、“百家乐”等敏感关键字。
下面的实施例可以使本专业的专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
如图1所示的一种基于聚合度分析的暗链检测技术,能检测出网页中植入的暗链,具体检测步骤如下:
步骤一:向待检测的Web网站服务器发送HTTP请求,抓取待检测页面的响应HTML源代码。
本实施例中待检测页面的响应HTML源代码如下(左边一列为在响应HTML源代码中的行数):
766</table><div id="tesi">
767<a href="http://cjdszx.com">太阳城娱乐城</a>
768<a href="http://xapabx.com">赌场</a>
769<a href="http://maxecu.com">威尼斯人</a>
770<a href="http://byzhongye.com">澳门金沙</a>
771<a href="http://mir32008.com">赌博</a>
772<a href="http://bjdhhkyj.com">***</a>
773<a href="http://designxun.com">新葡京</a>
774<a href="http://bjyhjjm.com">澳门赌场</a>
775<a href="http://jhgangbanwang.com">轮盘</a>
776<a href="http://lzhousui.com">***网</a>
777<a href="http://jaybwx.com">***</a>
778<a href="http://www.lyjgqz.com">全讯网</a>
779<a href="http://qingdaogoldenplaza.com">线上百家乐</a>
780<a href="http://sxlfzs.com">百家乐论坛</a>
781<a href="http://www.taomeileshop.com">百家乐软件</a>
782<a href="http://qzlcjx.com">www.hg0088.com</a>
783<a href="http://mastsy.com">皇冠hg0088</a>
784<a href="http://www.zzhyqzj.com">hg0088.com开户</a>
785<a href="http://www.hndzgs.com">***评级</a></p></div></table>
步骤二:对获得的响应HTML源代码建立链接坐标平面图,链接坐标系是指:以(0,0)为坐标原点,水平线方向为X轴,垂直方向为Y轴。
外部链接是指:一个网页中所有的链接,链向的目的链接不是本网站的链接。以http://www.dbappsecurity.com.cn页面的源代码为例,凡是不指向www.dbappsecurity.com.cn的链接相对于网站http://www.dbappsecurity.com.cn都是外链。
外部链接在链接坐标系中的坐标取值方式如下:
1)外部链接在链接坐标系中的Y值:该外部链接在响应HTML源代码中的行数;
2)外部链接在链接坐标系中的X值,每一行分别计算获得:首先将本行源代码中的每一个链接(<a href=*>*</a>)作为一个整体,然后以空格为分隔符,将这一行分割成一个数组,作为整体的链接不参与分割,各链接在分割产生的数组中的顺序即为该链接的X坐标值。如源代码:“test<br><a href=x>k</a>fff”分割之后链接“<a href=x>k</a>”所在数组的顺序为2,所以该链接的X取值为2。
通过上述定位,获得所有外部链接在链接坐标系中的坐标值,然后将各外部链接在链接坐标系中绘制出来,获得链接坐标平面图。
步骤三:计算聚合度,获取疑似暗链的外链集:
在链接坐标平面图中,计算所有外部链接的X值,是否存在连续N个点的X值相近;相近是指这N个点的连线近似于水平直线,即连线与Y轴的夹角值在88°到90°之间,则认为这连续的N个点对应的外部链接聚合符合条件。所述N是指大于0的自然数,N为经验值,取值为3~10。
同理可以计算外部链接的Y坐标值是否满足聚合条件。只要有一个坐标轴的取值符合聚合,则认为这一批外链符合聚合,判定为疑似暗链的外链集。
步骤四:敏感关键字匹配:
使用的“暗链敏感关键字”对疑似暗链的外链集中的锚文本进行匹配,如果匹配次数大于二次,则判定该外链集是暗链。
暗链敏感关键字,主要指涉及色情、***、广告之关键词,这一类关键字在暗链中利用最多。
锚文本是指一个链接中的文本内容,如源代码链接“<a href=xx>qqq</a>”中,“qqq”则是锚文本。
暗链敏感关键字对锚文本的匹配算法是,逐一使用各链接的锚文本,在关键字集合中查找,如果命中则判定为匹配。
最后,需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (1)
1.一种基于聚合度分析的暗链检测方法,用于检测网页中植入的暗链,其特征在于,所述基于聚合度分析的暗链检测方法具体包括下述步骤:
步骤一:向待检测的Web网站服务器发送HTTP请求,抓取待检测页面的响应HTML源代码;
步骤二:对获得的响应HTML源代码建立链接坐标平面图;
外部链接在链接坐标系中的坐标取值方式如下:
1)外部链接在链接坐标系中的Y值:该外部链接在响应HTML源代码中的行数;
2)外部链接在链接坐标系中的X值,每一行分别计算获得:首先将本行源代码中的每一个链接作为一个整体,然后以空格分隔每一个链接,将这一行源代码分割成一个数组,作为整体的链接不参与分割,各链接在分割产生的数组中的顺序即为该链接的X坐标值;
通过上述定位,获得所有外部链接在链接坐标系中的坐标值,然后将各外部链接在链接坐标系中绘制出来,获得链接坐标平面图;
步骤三:计算聚合度,获取疑似暗链的外链集:
在链接坐标平面图中,计算所有外部链接的X值,是否存在连续N个点的X值相近;相近是指这N个点的连线近似于水平直线,即连线与Y轴的夹角值在88°到90°之间,则认为这连续的N个点对应的外部链接聚合符合条件;所述N是指大于0的自然数;
同理,在链接坐标平面图中,计算外部链接的Y值是否满足聚合条件:是否存在连续N个点的Y值相近;相近是指这N个点的连线近似于垂直直线,即连线与X轴的夹角值在88°到90°之间,则认为这连续的N个点对应的外部链接聚合符合条件;所述N是指大于0的自然数;
只要外部链接的X值或者Y值满足聚合条件,则认为这一批外部链接符合聚合,判定为疑似暗链的外链集;
步骤四:敏感关键字匹配:
使用暗链敏感关键字集合,对疑似暗链的外链集中的锚文本进行匹配,如果匹配次数超过二次,则判定该外链集是暗链;
所述锚文本是指一个链接中的文本内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710846340.XA CN107729386B (zh) | 2017-09-19 | 2017-09-19 | 一种基于聚合度分析的暗链检测技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710846340.XA CN107729386B (zh) | 2017-09-19 | 2017-09-19 | 一种基于聚合度分析的暗链检测技术 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107729386A true CN107729386A (zh) | 2018-02-23 |
CN107729386B CN107729386B (zh) | 2019-09-13 |
Family
ID=61207612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710846340.XA Active CN107729386B (zh) | 2017-09-19 | 2017-09-19 | 一种基于聚合度分析的暗链检测技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107729386B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522494A (zh) * | 2018-11-08 | 2019-03-26 | 杭州安恒信息技术股份有限公司 | 一种暗链检测方法、装置、设备及计算机可读存储介质 |
CN111143722A (zh) * | 2019-12-23 | 2020-05-12 | 杭州安恒信息技术股份有限公司 | 一种网页暗链检测方法、装置、设备及介质 |
CN111680252A (zh) * | 2020-06-05 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 外链识别方法、装置、设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102170446A (zh) * | 2011-04-29 | 2011-08-31 | 南京邮电大学 | 一种基于空间布局与视觉特征的钓鱼网页检测方法 |
CN104503962A (zh) * | 2014-06-18 | 2015-04-08 | 北京邮电大学 | 一种网页暗链检测方法 |
CN104767757A (zh) * | 2015-04-17 | 2015-07-08 | 国家电网公司 | 基于web业务的多维度安全监测方法和*** |
-
2017
- 2017-09-19 CN CN201710846340.XA patent/CN107729386B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102170446A (zh) * | 2011-04-29 | 2011-08-31 | 南京邮电大学 | 一种基于空间布局与视觉特征的钓鱼网页检测方法 |
CN104503962A (zh) * | 2014-06-18 | 2015-04-08 | 北京邮电大学 | 一种网页暗链检测方法 |
CN104767757A (zh) * | 2015-04-17 | 2015-07-08 | 国家电网公司 | 基于web业务的多维度安全监测方法和*** |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522494A (zh) * | 2018-11-08 | 2019-03-26 | 杭州安恒信息技术股份有限公司 | 一种暗链检测方法、装置、设备及计算机可读存储介质 |
CN109522494B (zh) * | 2018-11-08 | 2020-09-15 | 杭州安恒信息技术股份有限公司 | 一种暗链检测方法、装置、设备及计算机可读存储介质 |
CN111143722A (zh) * | 2019-12-23 | 2020-05-12 | 杭州安恒信息技术股份有限公司 | 一种网页暗链检测方法、装置、设备及介质 |
CN111680252A (zh) * | 2020-06-05 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 外链识别方法、装置、设备及计算机可读存储介质 |
CN111680252B (zh) * | 2020-06-05 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 外链识别方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107729386B (zh) | 2019-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104077396B (zh) | 一种钓鱼网站检测方法及装置 | |
CN103544436B (zh) | 一种钓鱼网站鉴别***和方法 | |
KR101060639B1 (ko) | 자바스크립트 난독화 강도 분석을 통한 악성 의심 웹사이트 탐지 시스템 및 그 탐지방법 | |
CN107204960B (zh) | 网页识别方法及装置、服务器 | |
CN106685936B (zh) | 网页篡改的检测方法及装置 | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
CN102663000B (zh) | 恶意网址数据库的建立方法、恶意网址的识别方法和装置 | |
CN107729386B (zh) | 一种基于聚合度分析的暗链检测技术 | |
CN102222187B (zh) | 基于域名构造特征的挂马网页检测方法 | |
CN107659570A (zh) | 基于机器学习与动静态分析的Webshell检测方法及*** | |
CN105718577B (zh) | 一种针对新增域名自动检测网络钓鱼的方法与*** | |
US20080270376A1 (en) | Web spam page classification using query-dependent data | |
CN105447388B (zh) | 一种基于权重的安卓恶意代码检测***及方法 | |
CN103902597A (zh) | 确定目标关键词所对应的搜索相关性类别的方法和设备 | |
CN107798080B (zh) | 一种面向钓鱼url检测的相似样本集构造方法 | |
CN104834640A (zh) | 网页的识别方法及装置 | |
CN102591965A (zh) | 一种黑链检测的方法及装置 | |
CN110781876B (zh) | 一种基于视觉特征的仿冒域名轻量级检测方法及*** | |
CN106022132A (zh) | 一种基于动态内容分析的网页木马实时检测方法 | |
CN109922065A (zh) | 恶意网站快速识别方法 | |
CN104133870A (zh) | 一种网页相似度计算方法及装置 | |
CN106383862A (zh) | 一种违规短信检测方法及*** | |
WO2018047027A1 (en) | A method for exploring traffic passive traces and grouping similar urls | |
Lindemann et al. | Coarse-grained classification of web sites by their structural properties | |
CN103177084A (zh) | 一种考虑数据可信度的数据挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 310051 No. 188 Lianhui Street, Xixing Street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Hangzhou Annan information technology Limited by Share Ltd Address before: Zhejiang Zhongcai Building No. 68 Binjiang District road Hangzhou City, Zhejiang Province, the 310051 and 15 layer Applicant before: Dbappsecurity Co.,ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |