CN110138794A

CN110138794A - 一种仿冒网站识别方法、装置、设备及可读存储介质

Info

Publication number: CN110138794A
Application number: CN201910429235.5A
Authority: CN
Inventors: 周忠锦; 范渊; 王辉; 王世晋; 陆嘉杰
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: DBAPPSecurity Co Ltd; Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-16

Abstract

本申请公开了一种仿冒网站识别方法，包括：获取目标网站的页面源码信息；从页面源码信息中提取初始特征信息，初始特征信息至少包括：信息熵、外链信息、页面标题信息、页面meta信息和N‑Gram特征；对初始特征信息进行预处理，获得目标特征信息；利用预设的识别模型识别目标特征信息，得到目标网站的识别结果；识别模型采用随机森林算法训练获得。本申请从网站的页面源码信息中提取到了更多的特征信息，并且采用随机森林算法训练获得的识别模型识别这些特征信息，随机森林算法可以产生高准确度的分类器，从而可提高识别结果的效率和准确性。本申请公开的一种仿冒网站识别装置、设备及可读存储介质，也同样具有上述技术效果。

Description

一种仿冒网站识别方法、装置、设备及可读存储介质

技术领域

本申请涉及网络安全技术领域，特别涉及一种仿冒网站识别方法、装置、设备及可读存储介质。

背景技术

当前网络环境较为复杂，各种不健康信息仿冒正常网站而留存在互联网中，因此及时发现并排查仿冒网站成为网络安全防护的重中之重。

现有的识别仿冒网站的方式包括：人工识别和程序自动化识别。待识别的网站较多，人工识别需要耗费大量的人力，并且人工识别过程难免会出现疏漏，因此无法确保识别结果的准确性。程序自动化识别虽然能够提高识别效率，但由于程序对网站特征的匹配精确度无法保障，导致识别结果的误报率高。

因此，如何提高仿冒网站的识别效率和准确率，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种仿冒网站识别方法、装置、设备及可读存储介质，以提高仿冒网站的识别效率和准确率。其具体方案如下：

第一方面，本申请提供了一种仿冒网站识别方法，包括：

获取目标网站的页面源码信息；

从页面源码信息中提取初始特征信息，初始特征信息至少包括：信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征；

对初始特征信息进行预处理，获得目标特征信息；

利用预设的识别模型识别目标特征信息，得到目标网站的识别结果；识别模型采用随机森林算法训练获得。

优选地，获取目标网站的页面源码信息之前，还包括：

通过目标网站的URL访问目标网站。

优选地，从页面源码信息中提取初始特征信息之前，还包括：

剔除页面源码信息中的静态资源信息。

优选地，对初始特征信息进行预处理，包括：

对初始特征信息进行归一化处理。

优选地，对初始特征信息进行预处理，包括：

采用奇异值分解算法对初始特征信息进行降维处理。

优选地，对初始特征信息进行预处理，包括：

对初始特征信息进行归一化处理，并采用奇异值分解算法对归一化处理后的初始特征信息进行降维处理。

优选地，识别模型的训练过程包括：

获取正常网站的页面源码信息并标记，获取仿冒网站的页面源码信息并标记；

将标记后的正常网站的页面源码信息和仿冒网站的页面源码信息组成训练集合；

剔除训练集合中的静态资源信息，得到目标集合；

从目标集合中提取第一训练特征信息，并对第一训练特征信息进行预处理，获得第二训练特征信息；

采用随机森林算法处理第二训练特征信息，直至得到识别模型。

第二方面，本申请提供了一种仿冒网站识别装置，包括：

获取模块，用于获取目标网站的页面源码信息；

提取模块，用于从页面源码信息中提取初始特征信息，初始特征信息至少包括：信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征；

预处理模块，用于对初始特征信息进行预处理，获得目标特征信息；

识别模块，用于利用预设的识别模型识别目标特征信息，得到目标网站的识别结果；识别模型采用随机森林算法训练获得。

第三方面，本申请提供了一种仿冒网站识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的仿冒网站识别方法。

第四方面，本申请提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的仿冒网站识别方法。

本申请提供了一种仿冒网站识别方法，包括：获取目标网站的页面源码信息；从页面源码信息中提取初始特征信息，初始特征信息至少包括：信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征；对初始特征信息进行预处理，获得目标特征信息；利用预设的识别模型识别目标特征信息，得到目标网站的识别结果；识别模型采用随机森林算法训练获得。

可见，该方法从网站的页面源码信息中提取到包含信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征的初始特征信息后，首先对初始特征信息进行预处理，获得目标特征信息；进而通过采用随机森林算法训练获得的识别模型识别目标特征信息，从而得到目标网站的识别结果。其中，本申请从网站的页面源码信息中提取到了更多的特征信息，能够提高识别结果的准确性；并且采用随机森林算法训练获得识别模型，随机森林算法可以产生高准确度的分类器，从而可进一步提高识别结果的准确性。因此本申请可提高仿冒网站的识别效率和准确率。

相应地，本申请提供的一种仿冒网站识别装置、设备及可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的第一种仿冒网站识别方法流程图；

图2为本申请公开的第二种仿冒网站识别方法流程图；

图3为本申请公开的第三种仿冒网站识别方法流程图；

图4为本申请公开的一种仿冒网站识别装置示意图；

图5为本申请公开的一种仿冒网站识别设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，现有的识别仿冒网站的方式包括：人工识别和程序自动化识别。待识别的网站较多，人工识别需要耗费大量的人力，并且人工识别过程难免会出现疏漏，因此无法确保识别结果的准确性。程序自动化识别虽然能够提高识别效率，但由于程序对网站特征的匹配精确度无法保障，导致识别结果的误报率高。为此，本申请提供了一种仿冒网站识别方案，能够提高仿冒网站的识别效率和准确率。

参见图1所示，本申请实施例公开了第一种仿冒网站识别方法，包括：

S101、获取目标网站的页面源码信息；

S102、从页面源码信息中提取初始特征信息，初始特征信息至少包括：信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征；

具体的，目标网站即为待检测的网站。

需要说明的是，信息熵是一个数学上的抽象概念，它是指某个特定信息的出现概率(也就是离散随机事件的出现概率)。一个***越是有序，信息熵就越低；反之，一个***越是混乱，信息熵就越高。因此信息熵可以是***有序化程度的一个度量。而从页面源码信息中提取到的信息熵可以度量当前页面中的内容的有序化程度。外链信息即为外链中包含的链接；页面标题信息即为页面标题中的信息；页面meta信息即为页面meta中的信息；N-Gram特征为文本的向量特征空间。

S103、对初始特征信息进行预处理，获得目标特征信息；

具体的，对初始特征信息的预处理操作可以为：归一化操作和/或降维操作。也即：可以对初始特征信息仅进行归一化操作，从而使目标特征信息为统一的、标准的归一化数据；也可以对初始特征信息仅进行降维操作，从而使目标特征信息为数据量较少的降维数据；当然，还可以先对初始特征信息进行归一化操作，而后对归一化操作后的初始特征信息进行降维操作，从而使目标特征信息为数据量较少的统一的、标准的归一化数据。

具体的，降维操作可以采用奇异值分解算法(singular value decomposition，简称SVD)进行处理。

S104、利用预设的识别模型识别目标特征信息，得到目标网站的识别结果；识别模型采用随机森林算法训练获得。

在本实施例中，识别模型的训练过程包括：获取正常网站的页面源码信息并标记，获取仿冒网站的页面源码信息并标记；将标记后的正常网站的页面源码信息和仿冒网站的页面源码信息组成训练集合；剔除训练集合中的静态资源信息，得到目标集合；从目标集合中提取第一训练特征信息，并对第一训练特征信息进行预处理，获得第二训练特征信息；采用随机森林算法处理第二训练特征信息，直至得到识别模型。

需要说明的是，尽管本实施例从页面源码信息中提取到了较多的特征信息，但由于随机森林算法适用于处理大量数据，因此数据量增大并不会影响处理效率。并且，随机森林算法可以产生高准确度的分类器，即使存在部分数据遗失，也可以维持准确度，同时还可以平衡待处理数据的分类误差，训练学习过程能够快速完成。

可见，本申请实施例从网站的页面源码信息中提取到包含信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征的初始特征信息后，首先对初始特征信息进行预处理，获得目标特征信息；进而通过采用随机森林算法训练获得的识别模型识别目标特征信息，从而得到目标网站的识别结果。其中，本申请从网站的页面源码信息中提取到了更多的特征信息，能够提高识别结果的准确性；并且采用随机森林算法训练获得识别模型，随机森林算法可以产生高准确度的分类器，从而可进一步提高识别结果的准确性。因此本申请可提高仿冒网站的识别效率和准确率。

参见图2所示，本申请实施例公开了第二种仿冒网站识别方法，包括：

S201、通过目标网站的URL访问目标网站；

S202、获取目标网站的页面源码信息；

S203、剔除页面源码信息中的静态资源信息；

S204、从页面源码信息中提取初始特征信息，初始特征信息至少包括：信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征；

S205、对初始特征信息进行预处理，获得目标特征信息；

S206、利用预设的识别模型识别目标特征信息，得到目标网站的识别结果；识别模型采用随机森林算法训练获得。

在本实施例中，在获取目标网站的URL(统一资源定位符，Uniform ResourceLocator)后，通过该URL访问目标网站，从而可获取目标网站的页面源码信息。为了去掉不必要的冗余信息，可剔除页面源码信息中的静态资源信息，静态资源信息一般包括：大量无实际意义的符号、数值等。从剔除静态资源信息后的页面源码信息中提取初始特征信息，可提高提取效率。

在本实施例中，对初始特征信息进行预处理时，可采用下述方式进行归一化：假设X为预处理前的初始特征信息，Y为预处理后的初始特征信息，那么归一化操作可用公式Y＝(X-u)/o表示；其中，u表示预处理前的初始特征信息的均值，o为预处理前的初始特征信息的标准差。

需要说明的是，本实施例中的其他实现步骤与上述实施例相同或类似，故本实施例在此不再赘述。

由上可见，本实施例通过目标网站的URL访问目标网站；并获取目标网站的页面源码信息；进而剔除页面源码信息中的静态资源信息；然后从网站的页面源码信息中提取到包含信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征的初始特征信息后，首先对初始特征信息进行预处理，获得目标特征信息；进而通过采用随机森林算法训练获得的识别模型识别目标特征信息，从而得到目标网站的识别结果。其中，本申请从网站的页面源码信息中提取到了更多的特征信息，能够提高识别结果的准确性；并且采用随机森林算法训练获得识别模型，随机森林算法可以产生高准确度的分类器，从而可进一步提高识别结果的准确性。因此本申请可提高仿冒网站的识别效率和准确率。

参见图3所示，本申请实施例公开了第三种仿冒网站识别方法，包括：

S301、从监测平台中获取大量受监测网站的URL。

S302、访问URL，并根据页面内容判断网站是否为仿冒网站，并做标记。

即：获得由正常网站的页面源码信息和仿冒网站的页面源码信息组成训练集合。

S303、剔除页面中静态资源信息中的大量毫无意义的符号、中文和数值。

S304、提取页面源码信息中的特征，提取的特征包括但不限于：信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征，这些特征均以向量形式记录。

S305、特征归一化、降维处理。

所使用的处理方式包括但不限于以下几种：

a.归一化处理：x＝(x-u)/o，其中，x为输入数据，u为所有特征的均值，o为所有特征的标准差；

b.降维处理：采用奇异值分解算法实现二维数据特征降维。

S306、执行随机森林模型训练过程，获得识别模型。

下文提及的“样本”即为上述提取到的特征：

(1)有放回的随机选择N个样本，作为决策树根节点。

(2)若每个样本有M个属性，则在决策树的每个节点需要***时，随机从这M个属性中选取出m个属性，满足条件m<<M；然后从这m个属性中采用信息增益来选择1个属性作为该节点的***属性。

(3)重复步骤(2)，直至不能再***，从而可获得大量决策树，即构成随机森林。决策树形成过程中没有进行剪枝。

(4)训练结束后，输出识别模型。

S307、获取待检测的网站的URL并访问，提取其页面源码信息中的特征，并输入训练好的识别模型，从而可获得当前网站的识别结果。

需要说明的是，本实施例中的实现步骤与上述实施例相同或类似的部分请参见上述介绍，本实施例在此不再赘述。

由上可见，本实施例提供了一种基于随机森林方法的仿冒网站识别方法，利用大量的训练数据，采用随机森林算法训练获得了良好的识别模型，利用该识别模型识别网站的页面源码信息中的特征，从而极大提高了仿冒网站的识别精确度。

下面对本申请实施例提供的一种仿冒网站识别装置进行介绍，下文描述的一种仿冒网站识别装置与上文描述的一种仿冒网站识别方法可以相互参照。

参见图4所示，本申请实施例公开了一种仿冒网站识别装置，包括：

获取模块401，用于获取目标网站的页面源码信息；

提取模块402，用于从页面源码信息中提取初始特征信息，初始特征信息至少包括：信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征；

预处理模块403，用于对初始特征信息进行预处理，获得目标特征信息；

识别模块404，用于利用预设的识别模型识别目标特征信息，得到目标网站的识别结果；识别模型采用随机森林算法训练获得。

在一种具体实施方式中，仿冒网站识别装置还包括：访问模块，用于通过目标网站的URL访问目标网站。

在一种具体实施方式中，仿冒网站识别装置还包括：剔除模块，用于剔除页面源码信息中的静态资源信息。

在一种具体实施方式中，预处理模块具体用于：对初始特征信息进行归一化处理，获得目标特征信息。

在一种具体实施方式中，预处理模块具体用于：对初始特征信息进行预处理，包括：采用奇异值分解算法对初始特征信息进行降维处理，获得目标特征信息。

在一种具体实施方式中，预处理模块具体用于：对初始特征信息进行归一化处理，并采用奇异值分解算法对归一化处理后的初始特征信息进行降维处理。

在一种具体实施方式中，仿冒网站识别装置还包括：训练模块，用于训练识别模型，训练模块具体包括：

获取单元，用于获取正常网站的页面源码信息并标记，获取仿冒网站的页面源码信息并标记；

组成单元，用于将标记后的正常网站的页面源码信息和仿冒网站的页面源码信息组成训练集合；

剔除单元，用于剔除训练集合中的静态资源信息，得到目标集合；

预处理单元，用于从目标集合中提取第一训练特征信息，并对第一训练特征信息进行预处理，获得第二训练特征信息；

训练单元，用于采用随机森林算法处理第二训练特征信息，直至得到识别模型。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种仿冒网站识别装置，包括：获取模块、提取模块、预处理模块以及识别模块。首先由获取模块获取目标网站的页面源码信息；然后提取模块从页面源码信息中提取初始特征信息，初始特征信息至少包括：信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征；进而预处理模块对初始特征信息进行预处理，获得目标特征信息；组合识别模块利用预设的识别模型识别目标特征信息，得到目标网站的识别结果；识别模型采用随机森林算法训练获得。如此各个模块之间分工合作，各司其职，从而提高了仿冒网站的识别效率和准确率。

下面对本申请实施例提供的一种仿冒网站识别设备进行介绍，下文描述的一种仿冒网站识别设备与上文描述的一种仿冒网站识别方法及装置可以相互参照。

参见图5所示，本申请实施例公开了一种仿冒网站识别设备，包括：

存储器501，用于保存计算机程序；

处理器502，用于执行所述计算机程序，以实现以下步骤：

获取目标网站的页面源码信息；从页面源码信息中提取初始特征信息，初始特征信息至少包括：信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征；对初始特征信息进行预处理，获得目标特征信息；利用预设的识别模型识别目标特征信息，得到目标网站的识别结果；识别模型采用随机森林算法训练获得。

在本实施例中，所述处理器执行所述存储器中保存的计算机子程序时，可以具体实现以下步骤：通过目标网站的URL访问目标网站。

在本实施例中，所述处理器执行所述存储器中保存的计算机子程序时，可以具体实现以下步骤：剔除页面源码信息中的静态资源信息。

在本实施例中，所述处理器执行所述存储器中保存的计算机子程序时，可以具体实现以下步骤：对初始特征信息进行归一化处理，获得目标特征信息。

在本实施例中，所述处理器执行所述存储器中保存的计算机子程序时，可以具体实现以下步骤：采用奇异值分解算法对初始特征信息进行降维处理，获得目标特征信息。

在本实施例中，所述处理器执行所述存储器中保存的计算机子程序时，可以具体实现以下步骤：获取正常网站的页面源码信息并标记，获取仿冒网站的页面源码信息并标记；将标记后的正常网站的页面源码信息和仿冒网站的页面源码信息组成训练集合；剔除训练集合中的静态资源信息，得到目标集合；从目标集合中提取第一训练特征信息，并对第一训练特征信息进行预处理，获得第二训练特征信息；采用随机森林算法处理第二训练特征信息，直至得到识别模型。

下面对本申请实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上文描述的一种仿冒网站识别方法、装置及设备可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的仿冒网站识别方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种仿冒网站识别方法，其特征在于，包括：

获取目标网站的页面源码信息；

从所述页面源码信息中提取初始特征信息，所述初始特征信息至少包括：信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征；

对所述初始特征信息进行预处理，获得目标特征信息；

利用预设的识别模型识别所述目标特征信息，得到所述目标网站的识别结果；所述识别模型采用随机森林算法训练获得。

2.根据权利要求1所述的仿冒网站识别方法，其特征在于，所述获取目标网站的页面源码信息之前，还包括：

通过所述目标网站的URL访问所述目标网站。

3.根据权利要求2所述的仿冒网站识别方法，其特征在于，所述从所述页面源码信息中提取初始特征信息之前，还包括：

剔除所述页面源码信息中的静态资源信息。

4.根据权利要求3所述的仿冒网站识别方法，其特征在于，所述对所述初始特征信息进行预处理，包括：

对所述初始特征信息进行归一化处理。

5.根据权利要求3所述的仿冒网站识别方法，其特征在于，所述对所述初始特征信息进行预处理，包括：

采用奇异值分解算法对所述初始特征信息进行降维处理。

6.根据权利要求5所述的仿冒网站识别方法，其特征在于，所述对所述初始特征信息进行预处理，包括：

对所述初始特征信息进行归一化处理，并采用所述奇异值分解算法对归一化处理后的所述初始特征信息进行降维处理。

7.根据权利要求1-6任意一项所述的仿冒网站识别方法，其特征在于，所述识别模型的训练过程包括：

将标记后的所述正常网站的页面源码信息和所述仿冒网站的页面源码信息组成训练集合；

剔除所述训练集合中的静态资源信息，得到目标集合；

从所述目标集合中提取第一训练特征信息，并对所述第一训练特征信息进行预处理，获得第二训练特征信息；

采用所述随机森林算法处理所述第二训练特征信息，直至得到所述识别模型。

8.一种仿冒网站识别装置，其特征在于，包括：

获取模块，用于获取目标网站的页面源码信息；

提取模块，用于从所述页面源码信息中提取初始特征信息，所述初始特征信息至少包括：信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征；

预处理模块，用于对所述初始特征信息进行预处理，获得目标特征信息；

识别模块，用于利用预设的识别模型识别所述目标特征信息，得到所述目标网站的识别结果；所述识别模型采用随机森林算法训练获得。

9.一种仿冒网站识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的仿冒网站识别方法。

10.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的仿冒网站识别方法。