CN112511525B - 一种网站恶意第三方内容检测方法及*** - Google Patents

一种网站恶意第三方内容检测方法及*** Download PDF

Info

Publication number
CN112511525B
CN112511525B CN202011332352.9A CN202011332352A CN112511525B CN 112511525 B CN112511525 B CN 112511525B CN 202011332352 A CN202011332352 A CN 202011332352A CN 112511525 B CN112511525 B CN 112511525B
Authority
CN
China
Prior art keywords
sequence
malicious
content
module
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011332352.9A
Other languages
English (en)
Other versions
CN112511525A (zh
Inventor
潘晓光
马泽宇
焦璐璐
韩锋
李娟�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Sanyouhe Smart Information Technology Co Ltd
Original Assignee
Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Sanyouhe Smart Information Technology Co Ltd filed Critical Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority to CN202011332352.9A priority Critical patent/CN112511525B/zh
Publication of CN112511525A publication Critical patent/CN112511525A/zh
Application granted granted Critical
Publication of CN112511525B publication Critical patent/CN112511525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明属于网站内容检测技术领域,特别涉及一种网站恶意第三方内容检测方法及***,包括下列步骤:网页资源首先经过内容安全策略CSP的检查,若资源无法通过内容安全策略CSP则直接被判定为恶意内容;内容安全策略CSP未检测出的内容进入包含序列构建模块,进行包含序列构建;特征提取;针对包含序列构建中构建出的序列提取相应的特征,用作训练分类;通过包含序列分类器对包含序列进行分类。本发明通过对DOM树细粒度解析出的页面资源包含序列进行第三方恶意内容检测,相对于基于传统安全策略的方法,本发明更加易于部署,同时使得第三方无法寻找安全漏洞绕过本发明,进一步增加了网页的安全性。本发明用于对网站恶意第三方内容的检测。

Description

一种网站恶意第三方内容检测方法及***
技术领域
本发明属于网站内容检测技术领域,特别涉及一种网站恶意第三方内容检测方法及***。
背景技术
受同源策略的影响,来自不同源的代码和数据之间强制进行了隔离,目前用于保护网站不受恶意第三方影响的安全机制包括内容安全策略(CSP)、跨源资源共享(CORS)和基于POST消息的跨域通信,但是由于这些策略很难在实践中安全应用,并且无法解决在动态网络上的信任问题,同时第三方还可以利用它们的能力绕过这些安全机制。
现有技术存在的问题或缺陷:现有的安全策略难于在实践中部署应用,无法解决动态网络上的信任问题,第三方还可以利用它们的能力绕过这些安全机制。
发明内容
针对上述现有的安全策略无法解决动态网络上的信任问题的技术问题,本发明提供了一种易于部署、安全性强、效率高的网站恶意第三方内容检测方法及***。
为了解决上述技术问题,本发明采用的技术方案为:
一种网站恶意第三方内容检测方法,包括下列步骤:
S1、网页资源首先经过内容安全策略CSP的检查,若资源无法通过内容安全策略CSP则直接被判定为恶意内容;
S2、内容安全策略CSP未检测出的内容进入序列构建模块,进行序列构建;
S3、特征提取;针对序列构建中构建出的序列提取相应的特征,用作训练分类;
S4、通过序列分类器对序列进行分类。
所述S1中的内容安全策略CSP通过使用META标签将http-equiv设置为Content-Security-Policy,若资源无法通过内容安全策略CSP则直接被判定为恶意内容。
所述S2中构建序列的方法为:通过HTML解释器、JavaScript引擎实现DOM树的构建和页面渲染,同时加入浏览器拓展引擎来构建出页面资源的包含关系,形成一个序列。
所述S4中的序列分类器包括恶意模型、合法模型,所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,所述合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型,使用机器学习算法对序列进行分类。
一种网站恶意第三方内容检测***,包括内容安全策略CSP模块、序列构建模块、特征提取模块、序列分类器模块,所述内容安全策略CSP模块依次与序列构建模块、特征提取模块、序列分类器模块连接,所述内容安全策略CSP模块用于对网页资源进行判定;所述序列构建模块通过HTML解释器、JavaScript引擎、浏览器拓展引擎构建页面资源序列;所述特征提取模块针对序列构建模块中构建出的序列提取相应的特征,用作训练分类;所述序列分类器模块使用机器学习对序列进行分类。
所述序列分类器模块包括恶意模型、合法模型,所述特征提取模块与恶意模型、合法模型并列连接,所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,所述合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型。
本发明与现有技术相比,具有的有益效果是:
本发明通过对DOM树细粒度解析出的页面资源序列进行第三方恶意内容检测,相对于基于传统安全策略的方法,本发明更加易于部署,同时使得第三方无法寻找安全漏洞绕过本发明,进一步增加了网页的安全性。
附图说明
图1为本发明的主要步骤框图;
图2为本发明的序列构建图;
图3为本发明的序列分类器模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种网站恶意第三方内容检测方法,如图1所示,包括下列步骤:
步骤1、网页资源首先经过内容安全策略CSP的检查,若资源无法通过内容安全策略CSP则直接被判定为恶意内容;
步骤2、内容安全策略CSP未检测出的内容进入序列构建模块,进行序列构建;
步骤3、特征提取;针对序列构建中构建出的序列提取相应的特征,用作训练分类;
步骤4、通过序列分类器对序列进行分类。
进一步,步骤1中的内容安全策略CSP通过使用META标签将http-equiv设置为Content-Security-Policy,若资源无法通过内容安全策略CSP则直接被判定为恶意内容。
进一步,步骤2中构建序列的方法为:通过HTML解释器、JavaScript引擎实现DOM树的构建和页面渲染,同时加入浏览器拓展引擎来构建出页面资源的包含关系,形成一个序列。
进一步,步骤4中的序列分类器包括恶意模型、合法模型,恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型,使用机器学习算法对序列进行分类。
一种网站恶意第三方内容检测***,包括内容安全策略CSP模块、序列构建模块、特征提取模块、序列分类器模块,内容安全策略CSP模块依次与序列构建模块、特征提取模块、序列分类器模块连接,内容安全策略CSP模块用于对网页资源进行判定;序列构建模块通过HTML解释器、JavaScript引擎、浏览器拓展引擎构建页面资源序列;特征提取模块针对序列构建模块中构建出的序列提取相应的特征,用作训练分类;序列分类器模块使用机器学习对序列进行分类。
进一步,序列分类器模块包括恶意模型、合法模型,特征提取模块与恶意模型、合法模型并列连接,恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型。
如图1所示,在页面渲染之前,浏览器会向远程服务器请求HTML文档,浏览器在接收到HTML文档后首先通过HTML解释器将文档解析为DOM树,然后使用CSS解释器对DOM树计算响应的样式信息和页面布局,如果在过程中遇到JS脚本则调用JavaScript引擎执行JS脚本,最后在浏览器上绘制出整个页面。
本发明在浏览器得到页面资源后,首先使用内容安全策略CSP对资源进行检测,通过调用Helmet模块中ContentSecuriPolicy(options)方法,设定CSP指令规则,如果CSP认为资源来自恶意第三方,则直接检出,然后剩余资源进入序列分类环节,本发明在DOM树的构建过程中,通过增强Chromium内核Blink,跟踪内容脚本的注入和执行,构建出DOM树无法记录的页面包含关系,构建出的序列如图2所示。
序列进入特征提取模块提取特征,例如DNS特征包括顶级域、主机类型、等级、Alexa排名等,字符串特征包括非字符所占比例、唯一字符所占比例、域名中每个字符的频率、域名长度、域名的熵等,资源所在序列中所担任的角色特征例如广告网络、CDN、URL缩短服务等。
序列分类器使用隐马尔可夫模型,如图3所示,使用Baum-Welch算法估计参数,使用前向后向算法对给定序列的好坏进行检测。
本发明中的模块、单元或流程的划分仅仅是一种逻辑功能的划分,在实际实现时可以有其他的划分方式,例如多个模块和/或单元可以结合或集成于另一个***中,作为分离部件说明的模块、单元在形式上可以是分开的,也可以是不分开的,因此可以根据实际需要选择其中的部分或全部的单元来实现实施例的方案。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (3)

1.一种网站恶意第三方内容检测方法,其特征在于:包括下列步骤:
S1、网页资源首先经过内容安全策略CSP的检查,若资源无法通过内容安全策略CSP则直接被判定为恶意内容;
S2、内容安全策略CSP未检测出的内容进入序列构建模块,进行序列构建;
S3、特征提取;针对序列构建中构建出的序列提取相应的特征,用作训练分类;
S4、通过序列分类器对序列进行分类,所述序列分类器包括恶意模型、合法模型,所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,所述合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型,使用机器学习算法对序列进行分类;
执行所述方法的网站恶意第三方内容检测***,包括内容安全策略CSP模块、序列构建模块、特征提取模块、序列分类器模块,所述内容安全策略CSP模块依次与序列构建模块、特征提取模块、序列分类器模块连接,所述内容安全策略CSP模块用于对网页资源进行判定;所述序列构建模块通过HTML解释器、JavaScript引擎、浏览器拓展引擎构建页面资源序列;所述特征提取模块针对序列构建模块中构建出的序列提取相应的特征,用作训练分类;所述序列分类器模块使用机器学习对序列进行分类;所述序列分类器模块包括恶意模型、合法模型,所述特征提取模块与恶意模型、合法模型并列连接,所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,所述合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型。
2.根据权利要求1所述的一种网站恶意第三方内容检测方法,其特征在于:所述S1中的内容安全策略CSP通过使用META标签将http-equiv设置为Content-Security-Policy,若资源无法通过内容安全策略CSP则直接被判定为恶意内容。
3.根据权利要求1所述的一种网站恶意第三方内容检测方法,其特征在于:所述S2中构建序列的方法为:通过HTML解释器、JavaScript引擎实现DOM树的构建和页面渲染,同时加入浏览器拓展引擎来构建出页面资源的包含关系,形成一个序列。
CN202011332352.9A 2020-11-24 2020-11-24 一种网站恶意第三方内容检测方法及*** Active CN112511525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011332352.9A CN112511525B (zh) 2020-11-24 2020-11-24 一种网站恶意第三方内容检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011332352.9A CN112511525B (zh) 2020-11-24 2020-11-24 一种网站恶意第三方内容检测方法及***

Publications (2)

Publication Number Publication Date
CN112511525A CN112511525A (zh) 2021-03-16
CN112511525B true CN112511525B (zh) 2022-07-22

Family

ID=74958316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011332352.9A Active CN112511525B (zh) 2020-11-24 2020-11-24 一种网站恶意第三方内容检测方法及***

Country Status (1)

Country Link
CN (1) CN112511525B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9521162B1 (en) * 2014-11-21 2016-12-13 Narus, Inc. Application-level DDoS detection using service profiling
CN107679403A (zh) * 2017-10-11 2018-02-09 北京理工大学 一种基于序列比对算法的勒索软件变种检测方法
CN110022311A (zh) * 2019-03-18 2019-07-16 北京工业大学 一种基于攻击图的云外包服务数据泄露安全测试用例自动化生成方法
US10397255B1 (en) * 2015-09-23 2019-08-27 StackRox, Inc. System and method for providing security in a distributed computation system utilizing containers
CN111259440A (zh) * 2020-01-14 2020-06-09 中国人民解放军国防科技大学 一种针对云外包数据的隐私保护决策树分类方法
CN111368297A (zh) * 2020-02-02 2020-07-03 西安电子科技大学 隐私保护移动恶意软件检测方法、***、存储介质及应用

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104468546B (zh) * 2014-11-27 2018-01-09 微梦创科网络科技(中国)有限公司 一种网络信息处理方法及防火墙装置、***
US10432662B2 (en) * 2015-04-30 2019-10-01 Oath, Inc. Method and system for blocking malicious third party site tagging
US11503070B2 (en) * 2016-11-02 2022-11-15 Microsoft Technology Licensing, Llc Techniques for classifying a web page based upon functions used to render the web page
CN107948168A (zh) * 2017-11-29 2018-04-20 四川无声信息技术有限公司 网页检测方法及装置
CN108509794A (zh) * 2018-03-09 2018-09-07 中山大学 一种基于分类学习算法的恶意网页防御检测方法
CN109218296B (zh) * 2018-08-29 2021-03-23 天津大学 基于改进csp策略的xss防御***和方法
US10972507B2 (en) * 2018-09-16 2021-04-06 Microsoft Technology Licensing, Llc Content policy based notification of application users about malicious browser plugins
US10521583B1 (en) * 2018-10-25 2019-12-31 BitSight Technologies, Inc. Systems and methods for remote detection of software through browser webinjects
US10599834B1 (en) * 2019-05-10 2020-03-24 Clean.io, Inc. Detecting malicious code existing in internet advertisements
CN110336812A (zh) * 2019-07-03 2019-10-15 深圳市珍爱捷云信息技术有限公司 资源拦截处理方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9521162B1 (en) * 2014-11-21 2016-12-13 Narus, Inc. Application-level DDoS detection using service profiling
US10397255B1 (en) * 2015-09-23 2019-08-27 StackRox, Inc. System and method for providing security in a distributed computation system utilizing containers
CN107679403A (zh) * 2017-10-11 2018-02-09 北京理工大学 一种基于序列比对算法的勒索软件变种检测方法
CN110022311A (zh) * 2019-03-18 2019-07-16 北京工业大学 一种基于攻击图的云外包服务数据泄露安全测试用例自动化生成方法
CN111259440A (zh) * 2020-01-14 2020-06-09 中国人民解放军国防科技大学 一种针对云外包数据的隐私保护决策树分类方法
CN111368297A (zh) * 2020-02-02 2020-07-03 西安电子科技大学 隐私保护移动恶意软件检测方法、***、存储介质及应用

Also Published As

Publication number Publication date
CN112511525A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
US10033757B2 (en) Identifying malicious identifiers
CN103888490B (zh) 一种全自动的web客户端人机识别的方法
Blum et al. Lexical feature based phishing URL detection using online learning
CN104766014B (zh) 用于检测恶意网址的方法和***
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN101964025B (zh) Xss检测方法和设备
Khan et al. Detecting malicious URLs using binary classification through ada boost algorithm.
CN104954372B (zh) 一种钓鱼网站的取证与验证方法及***
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN113315742B (zh) 攻击行为检测方法、装置及攻击检测设备
CN104504335B (zh) 基于页面特征和url特征的钓鱼app检测方法及***
CN109756467B (zh) 一种钓鱼网站的识别方法及装置
CN107463844B (zh) Web木马检测方法及***
KR20080052097A (ko) 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
Geng et al. RRPhish: Anti-phishing via mining brand resources request
CN114422211A (zh) 基于图注意力网络的http恶意流量检测方法及装置
CN114422271B (zh) 数据处理方法、装置、设备及可读存储介质
CN114244564A (zh) 攻击防御方法、装置、设备及可读存储介质
Tanaka et al. Phishing site detection using similarity of website structure
CN117614644A (zh) 恶意网址识别方法、电子设备及存储介质
CN105653941A (zh) 一种启发式检测钓鱼网站的方法及***
CN112511525B (zh) 一种网站恶意第三方内容检测方法及***
CN114169432B (zh) 一种基于深度学习的跨站脚本攻击识别方法
Dudykevych et al. Detecting third-party user trackers with cookie files
CN114124448B (zh) 一种基于机器学习的跨站脚本攻击识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant