CN112511525B

CN112511525B - 一种网站恶意第三方内容检测方法及***

Info

Publication number: CN112511525B
Application number: CN202011332352.9A
Authority: CN
Inventors: 潘晓光; 马泽宇; 焦璐璐; 韩锋; 李娟�
Original assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Current assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2022-07-22
Anticipated expiration: 2040-11-24
Also published as: CN112511525A

Abstract

本发明属于网站内容检测技术领域，特别涉及一种网站恶意第三方内容检测方法及***，包括下列步骤：网页资源首先经过内容安全策略CSP的检查，若资源无法通过内容安全策略CSP则直接被判定为恶意内容；内容安全策略CSP未检测出的内容进入包含序列构建模块，进行包含序列构建；特征提取；针对包含序列构建中构建出的序列提取相应的特征，用作训练分类；通过包含序列分类器对包含序列进行分类。本发明通过对DOM树细粒度解析出的页面资源包含序列进行第三方恶意内容检测，相对于基于传统安全策略的方法，本发明更加易于部署，同时使得第三方无法寻找安全漏洞绕过本发明，进一步增加了网页的安全性。本发明用于对网站恶意第三方内容的检测。

Description

一种网站恶意第三方内容检测方法及***

技术领域

本发明属于网站内容检测技术领域，特别涉及一种网站恶意第三方内容检测方法及***。

背景技术

受同源策略的影响，来自不同源的代码和数据之间强制进行了隔离，目前用于保护网站不受恶意第三方影响的安全机制包括内容安全策略(CSP)、跨源资源共享(CORS)和基于POST消息的跨域通信，但是由于这些策略很难在实践中安全应用，并且无法解决在动态网络上的信任问题，同时第三方还可以利用它们的能力绕过这些安全机制。

现有技术存在的问题或缺陷：现有的安全策略难于在实践中部署应用，无法解决动态网络上的信任问题，第三方还可以利用它们的能力绕过这些安全机制。

发明内容

针对上述现有的安全策略无法解决动态网络上的信任问题的技术问题，本发明提供了一种易于部署、安全性强、效率高的网站恶意第三方内容检测方法及***。

为了解决上述技术问题，本发明采用的技术方案为：

一种网站恶意第三方内容检测方法，包括下列步骤：

S1、网页资源首先经过内容安全策略CSP的检查，若资源无法通过内容安全策略CSP则直接被判定为恶意内容；

S2、内容安全策略CSP未检测出的内容进入序列构建模块，进行序列构建；

S3、特征提取；针对序列构建中构建出的序列提取相应的特征，用作训练分类；

S4、通过序列分类器对序列进行分类。

所述S1中的内容安全策略CSP通过使用META标签将http-equiv设置为Content-Security-Policy，若资源无法通过内容安全策略CSP则直接被判定为恶意内容。

所述S2中构建序列的方法为：通过HTML解释器、JavaScript引擎实现DOM树的构建和页面渲染，同时加入浏览器拓展引擎来构建出页面资源的包含关系，形成一个序列。

所述S4中的序列分类器包括恶意模型、合法模型，所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表，训练出恶意模型，所述合法模型通过离线收集大量合法数据得到合法样本列表，训练出合法模型，使用机器学习算法对序列进行分类。

一种网站恶意第三方内容检测***，包括内容安全策略CSP模块、序列构建模块、特征提取模块、序列分类器模块，所述内容安全策略CSP模块依次与序列构建模块、特征提取模块、序列分类器模块连接，所述内容安全策略CSP模块用于对网页资源进行判定；所述序列构建模块通过HTML解释器、JavaScript引擎、浏览器拓展引擎构建页面资源序列；所述特征提取模块针对序列构建模块中构建出的序列提取相应的特征，用作训练分类；所述序列分类器模块使用机器学习对序列进行分类。

所述序列分类器模块包括恶意模型、合法模型，所述特征提取模块与恶意模型、合法模型并列连接，所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表，训练出恶意模型，所述合法模型通过离线收集大量合法数据得到合法样本列表，训练出合法模型。

本发明与现有技术相比，具有的有益效果是：

本发明通过对DOM树细粒度解析出的页面资源序列进行第三方恶意内容检测，相对于基于传统安全策略的方法，本发明更加易于部署，同时使得第三方无法寻找安全漏洞绕过本发明，进一步增加了网页的安全性。

附图说明

图1为本发明的主要步骤框图；

图2为本发明的序列构建图；

图3为本发明的序列分类器模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种网站恶意第三方内容检测方法，如图1所示，包括下列步骤：

步骤1、网页资源首先经过内容安全策略CSP的检查，若资源无法通过内容安全策略CSP则直接被判定为恶意内容；

步骤2、内容安全策略CSP未检测出的内容进入序列构建模块，进行序列构建；

步骤3、特征提取；针对序列构建中构建出的序列提取相应的特征，用作训练分类；

步骤4、通过序列分类器对序列进行分类。

进一步，步骤1中的内容安全策略CSP通过使用META标签将http-equiv设置为Content-Security-Policy，若资源无法通过内容安全策略CSP则直接被判定为恶意内容。

进一步，步骤2中构建序列的方法为：通过HTML解释器、JavaScript引擎实现DOM树的构建和页面渲染，同时加入浏览器拓展引擎来构建出页面资源的包含关系，形成一个序列。

进一步，步骤4中的序列分类器包括恶意模型、合法模型，恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表，训练出恶意模型，合法模型通过离线收集大量合法数据得到合法样本列表，训练出合法模型，使用机器学习算法对序列进行分类。

一种网站恶意第三方内容检测***，包括内容安全策略CSP模块、序列构建模块、特征提取模块、序列分类器模块，内容安全策略CSP模块依次与序列构建模块、特征提取模块、序列分类器模块连接，内容安全策略CSP模块用于对网页资源进行判定；序列构建模块通过HTML解释器、JavaScript引擎、浏览器拓展引擎构建页面资源序列；特征提取模块针对序列构建模块中构建出的序列提取相应的特征，用作训练分类；序列分类器模块使用机器学习对序列进行分类。

进一步，序列分类器模块包括恶意模型、合法模型，特征提取模块与恶意模型、合法模型并列连接，恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表，训练出恶意模型，合法模型通过离线收集大量合法数据得到合法样本列表，训练出合法模型。

如图1所示，在页面渲染之前，浏览器会向远程服务器请求HTML文档，浏览器在接收到HTML文档后首先通过HTML解释器将文档解析为DOM树，然后使用CSS解释器对DOM树计算响应的样式信息和页面布局，如果在过程中遇到JS脚本则调用JavaScript引擎执行JS脚本，最后在浏览器上绘制出整个页面。

本发明在浏览器得到页面资源后，首先使用内容安全策略CSP对资源进行检测，通过调用Helmet模块中ContentSecuriPolicy(options)方法，设定CSP指令规则，如果CSP认为资源来自恶意第三方，则直接检出，然后剩余资源进入序列分类环节，本发明在DOM树的构建过程中，通过增强Chromium内核Blink，跟踪内容脚本的注入和执行，构建出DOM树无法记录的页面包含关系，构建出的序列如图2所示。

序列进入特征提取模块提取特征，例如DNS特征包括顶级域、主机类型、等级、Alexa排名等，字符串特征包括非字符所占比例、唯一字符所占比例、域名中每个字符的频率、域名长度、域名的熵等，资源所在序列中所担任的角色特征例如广告网络、CDN、URL缩短服务等。

序列分类器使用隐马尔可夫模型，如图3所示，使用Baum-Welch算法估计参数，使用前向后向算法对给定序列的好坏进行检测。

本发明中的模块、单元或流程的划分仅仅是一种逻辑功能的划分，在实际实现时可以有其他的划分方式，例如多个模块和/或单元可以结合或集成于另一个***中，作为分离部件说明的模块、单元在形式上可以是分开的，也可以是不分开的，因此可以根据实际需要选择其中的部分或全部的单元来实现实施例的方案。

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.一种网站恶意第三方内容检测方法，其特征在于：包括下列步骤：

S4、通过序列分类器对序列进行分类，所述序列分类器包括恶意模型、合法模型，所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表，训练出恶意模型，所述合法模型通过离线收集大量合法数据得到合法样本列表，训练出合法模型，使用机器学习算法对序列进行分类；

执行所述方法的网站恶意第三方内容检测***，包括内容安全策略CSP模块、序列构建模块、特征提取模块、序列分类器模块，所述内容安全策略CSP模块依次与序列构建模块、特征提取模块、序列分类器模块连接，所述内容安全策略CSP模块用于对网页资源进行判定；所述序列构建模块通过HTML解释器、JavaScript引擎、浏览器拓展引擎构建页面资源序列；所述特征提取模块针对序列构建模块中构建出的序列提取相应的特征，用作训练分类；所述序列分类器模块使用机器学习对序列进行分类；所述序列分类器模块包括恶意模型、合法模型，所述特征提取模块与恶意模型、合法模型并列连接，所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表，训练出恶意模型，所述合法模型通过离线收集大量合法数据得到合法样本列表，训练出合法模型。

2.根据权利要求1所述的一种网站恶意第三方内容检测方法，其特征在于：所述S1中的内容安全策略CSP通过使用META标签将http-equiv设置为Content-Security-Policy，若资源无法通过内容安全策略CSP则直接被判定为恶意内容。

3.根据权利要求1所述的一种网站恶意第三方内容检测方法，其特征在于：所述S2中构建序列的方法为：通过HTML解释器、JavaScript引擎实现DOM树的构建和页面渲染，同时加入浏览器拓展引擎来构建出页面资源的包含关系，形成一个序列。