CN110138794A - 一种仿冒网站识别方法、装置、设备及可读存储介质 - Google Patents

一种仿冒网站识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110138794A
CN110138794A CN201910429235.5A CN201910429235A CN110138794A CN 110138794 A CN110138794 A CN 110138794A CN 201910429235 A CN201910429235 A CN 201910429235A CN 110138794 A CN110138794 A CN 110138794A
Authority
CN
China
Prior art keywords
information
page
website
initial characteristics
characteristics information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910429235.5A
Other languages
English (en)
Inventor
周忠锦
范渊
王辉
王世晋
陆嘉杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN201910429235.5A priority Critical patent/CN110138794A/zh
Publication of CN110138794A publication Critical patent/CN110138794A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Storage Device Security (AREA)

Abstract

本申请公开了一种仿冒网站识别方法,包括:获取目标网站的页面源码信息;从页面源码信息中提取初始特征信息,初始特征信息至少包括:信息熵、外链信息、页面标题信息、页面meta信息和N‑Gram特征;对初始特征信息进行预处理,获得目标特征信息;利用预设的识别模型识别目标特征信息,得到目标网站的识别结果;识别模型采用随机森林算法训练获得。本申请从网站的页面源码信息中提取到了更多的特征信息,并且采用随机森林算法训练获得的识别模型识别这些特征信息,随机森林算法可以产生高准确度的分类器,从而可提高识别结果的效率和准确性。本申请公开的一种仿冒网站识别装置、设备及可读存储介质,也同样具有上述技术效果。

Description

一种仿冒网站识别方法、装置、设备及可读存储介质
技术领域
本申请涉及网络安全技术领域,特别涉及一种仿冒网站识别方法、装置、设备及可读存储介质。
背景技术
当前网络环境较为复杂,各种不健康信息仿冒正常网站而留存在互联网中,因此及时发现并排查仿冒网站成为网络安全防护的重中之重。
现有的识别仿冒网站的方式包括:人工识别和程序自动化识别。待识别的网站较多,人工识别需要耗费大量的人力,并且人工识别过程难免会出现疏漏,因此无法确保识别结果的准确性。程序自动化识别虽然能够提高识别效率,但由于程序对网站特征的匹配精确度无法保障,导致识别结果的误报率高。
因此,如何提高仿冒网站的识别效率和准确率,是本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种仿冒网站识别方法、装置、设备及可读存储介质,以提高仿冒网站的识别效率和准确率。其具体方案如下:
第一方面,本申请提供了一种仿冒网站识别方法,包括:
获取目标网站的页面源码信息;
从页面源码信息中提取初始特征信息,初始特征信息至少包括:信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征;
对初始特征信息进行预处理,获得目标特征信息;
利用预设的识别模型识别目标特征信息,得到目标网站的识别结果;识别模型采用随机森林算法训练获得。
优选地,获取目标网站的页面源码信息之前,还包括:
通过目标网站的URL访问目标网站。
优选地,从页面源码信息中提取初始特征信息之前,还包括:
剔除页面源码信息中的静态资源信息。
优选地,对初始特征信息进行预处理,包括:
对初始特征信息进行归一化处理。
优选地,对初始特征信息进行预处理,包括:
采用奇异值分解算法对初始特征信息进行降维处理。
优选地,对初始特征信息进行预处理,包括:
对初始特征信息进行归一化处理,并采用奇异值分解算法对归一化处理后的初始特征信息进行降维处理。
优选地,识别模型的训练过程包括:
获取正常网站的页面源码信息并标记,获取仿冒网站的页面源码信息并标记;
将标记后的正常网站的页面源码信息和仿冒网站的页面源码信息组成训练集合;
剔除训练集合中的静态资源信息,得到目标集合;
从目标集合中提取第一训练特征信息,并对第一训练特征信息进行预处理,获得第二训练特征信息;
采用随机森林算法处理第二训练特征信息,直至得到识别模型。
第二方面,本申请提供了一种仿冒网站识别装置,包括:
获取模块,用于获取目标网站的页面源码信息;
提取模块,用于从页面源码信息中提取初始特征信息,初始特征信息至少包括:信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征;
预处理模块,用于对初始特征信息进行预处理,获得目标特征信息;
识别模块,用于利用预设的识别模型识别目标特征信息,得到目标网站的识别结果;识别模型采用随机森林算法训练获得。
第三方面,本申请提供了一种仿冒网站识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的仿冒网站识别方法。
第四方面,本申请提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的仿冒网站识别方法。
本申请提供了一种仿冒网站识别方法,包括:获取目标网站的页面源码信息;从页面源码信息中提取初始特征信息,初始特征信息至少包括:信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征;对初始特征信息进行预处理,获得目标特征信息;利用预设的识别模型识别目标特征信息,得到目标网站的识别结果;识别模型采用随机森林算法训练获得。
可见,该方法从网站的页面源码信息中提取到包含信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征的初始特征信息后,首先对初始特征信息进行预处理,获得目标特征信息;进而通过采用随机森林算法训练获得的识别模型识别目标特征信息,从而得到目标网站的识别结果。其中,本申请从网站的页面源码信息中提取到了更多的特征信息,能够提高识别结果的准确性;并且采用随机森林算法训练获得识别模型,随机森林算法可以产生高准确度的分类器,从而可进一步提高识别结果的准确性。因此本申请可提高仿冒网站的识别效率和准确率。
相应地,本申请提供的一种仿冒网站识别装置、设备及可读存储介质,也同样具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的第一种仿冒网站识别方法流程图;
图2为本申请公开的第二种仿冒网站识别方法流程图;
图3为本申请公开的第三种仿冒网站识别方法流程图;
图4为本申请公开的一种仿冒网站识别装置示意图;
图5为本申请公开的一种仿冒网站识别设备示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,现有的识别仿冒网站的方式包括:人工识别和程序自动化识别。待识别的网站较多,人工识别需要耗费大量的人力,并且人工识别过程难免会出现疏漏,因此无法确保识别结果的准确性。程序自动化识别虽然能够提高识别效率,但由于程序对网站特征的匹配精确度无法保障,导致识别结果的误报率高。为此,本申请提供了一种仿冒网站识别方案,能够提高仿冒网站的识别效率和准确率。
参见图1所示,本申请实施例公开了第一种仿冒网站识别方法,包括:
S101、获取目标网站的页面源码信息;
S102、从页面源码信息中提取初始特征信息,初始特征信息至少包括:信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征;
具体的,目标网站即为待检测的网站。
需要说明的是,信息熵是一个数学上的抽象概念,它是指某个特定信息的出现概率(也就是离散随机事件的出现概率)。一个***越是有序,信息熵就越低;反之,一个***越是混乱,信息熵就越高。因此信息熵可以是***有序化程度的一个度量。而从页面源码信息中提取到的信息熵可以度量当前页面中的内容的有序化程度。外链信息即为外链中包含的链接;页面标题信息即为页面标题中的信息;页面meta信息即为页面meta中的信息;N-Gram特征为文本的向量特征空间。
S103、对初始特征信息进行预处理,获得目标特征信息;
具体的,对初始特征信息的预处理操作可以为:归一化操作和/或降维操作。也即:可以对初始特征信息仅进行归一化操作,从而使目标特征信息为统一的、标准的归一化数据;也可以对初始特征信息仅进行降维操作,从而使目标特征信息为数据量较少的降维数据;当然,还可以先对初始特征信息进行归一化操作,而后对归一化操作后的初始特征信息进行降维操作,从而使目标特征信息为数据量较少的统一的、标准的归一化数据。
具体的,降维操作可以采用奇异值分解算法(singular value decomposition,简称SVD)进行处理。
S104、利用预设的识别模型识别目标特征信息,得到目标网站的识别结果;识别模型采用随机森林算法训练获得。
在本实施例中,识别模型的训练过程包括:获取正常网站的页面源码信息并标记,获取仿冒网站的页面源码信息并标记;将标记后的正常网站的页面源码信息和仿冒网站的页面源码信息组成训练集合;剔除训练集合中的静态资源信息,得到目标集合;从目标集合中提取第一训练特征信息,并对第一训练特征信息进行预处理,获得第二训练特征信息;采用随机森林算法处理第二训练特征信息,直至得到识别模型。
需要说明的是,尽管本实施例从页面源码信息中提取到了较多的特征信息,但由于随机森林算法适用于处理大量数据,因此数据量增大并不会影响处理效率。并且,随机森林算法可以产生高准确度的分类器,即使存在部分数据遗失,也可以维持准确度,同时还可以平衡待处理数据的分类误差,训练学习过程能够快速完成。
可见,本申请实施例从网站的页面源码信息中提取到包含信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征的初始特征信息后,首先对初始特征信息进行预处理,获得目标特征信息;进而通过采用随机森林算法训练获得的识别模型识别目标特征信息,从而得到目标网站的识别结果。其中,本申请从网站的页面源码信息中提取到了更多的特征信息,能够提高识别结果的准确性;并且采用随机森林算法训练获得识别模型,随机森林算法可以产生高准确度的分类器,从而可进一步提高识别结果的准确性。因此本申请可提高仿冒网站的识别效率和准确率。
参见图2所示,本申请实施例公开了第二种仿冒网站识别方法,包括:
S201、通过目标网站的URL访问目标网站;
S202、获取目标网站的页面源码信息;
S203、剔除页面源码信息中的静态资源信息;
S204、从页面源码信息中提取初始特征信息,初始特征信息至少包括:信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征;
S205、对初始特征信息进行预处理,获得目标特征信息;
S206、利用预设的识别模型识别目标特征信息,得到目标网站的识别结果;识别模型采用随机森林算法训练获得。
在本实施例中,在获取目标网站的URL(统一资源定位符,Uniform ResourceLocator)后,通过该URL访问目标网站,从而可获取目标网站的页面源码信息。为了去掉不必要的冗余信息,可剔除页面源码信息中的静态资源信息,静态资源信息一般包括:大量无实际意义的符号、数值等。从剔除静态资源信息后的页面源码信息中提取初始特征信息,可提高提取效率。
在本实施例中,对初始特征信息进行预处理时,可采用下述方式进行归一化:假设X为预处理前的初始特征信息,Y为预处理后的初始特征信息,那么归一化操作可用公式Y=(X-u)/o表示;其中,u表示预处理前的初始特征信息的均值,o为预处理前的初始特征信息的标准差。
需要说明的是,本实施例中的其他实现步骤与上述实施例相同或类似,故本实施例在此不再赘述。
由上可见,本实施例通过目标网站的URL访问目标网站;并获取目标网站的页面源码信息;进而剔除页面源码信息中的静态资源信息;然后从网站的页面源码信息中提取到包含信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征的初始特征信息后,首先对初始特征信息进行预处理,获得目标特征信息;进而通过采用随机森林算法训练获得的识别模型识别目标特征信息,从而得到目标网站的识别结果。其中,本申请从网站的页面源码信息中提取到了更多的特征信息,能够提高识别结果的准确性;并且采用随机森林算法训练获得识别模型,随机森林算法可以产生高准确度的分类器,从而可进一步提高识别结果的准确性。因此本申请可提高仿冒网站的识别效率和准确率。
参见图3所示,本申请实施例公开了第三种仿冒网站识别方法,包括:
S301、从监测平台中获取大量受监测网站的URL。
S302、访问URL,并根据页面内容判断网站是否为仿冒网站,并做标记。
即:获得由正常网站的页面源码信息和仿冒网站的页面源码信息组成训练集合。
S303、剔除页面中静态资源信息中的大量毫无意义的符号、中文和数值。
S304、提取页面源码信息中的特征,提取的特征包括但不限于:信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征,这些特征均以向量形式记录。
S305、特征归一化、降维处理。
所使用的处理方式包括但不限于以下几种:
a.归一化处理:x=(x-u)/o,其中,x为输入数据,u为所有特征的均值,o为所有特征的标准差;
b.降维处理:采用奇异值分解算法实现二维数据特征降维。
S306、执行随机森林模型训练过程,获得识别模型。
下文提及的“样本”即为上述提取到的特征:
(1)有放回的随机选择N个样本,作为决策树根节点。
(2)若每个样本有M个属性,则在决策树的每个节点需要***时,随机从这M个属性中选取出m个属性,满足条件m<<M;然后从这m个属性中采用信息增益来选择1个属性作为该节点的***属性。
(3)重复步骤(2),直至不能再***,从而可获得大量决策树,即构成随机森林。决策树形成过程中没有进行剪枝。
(4)训练结束后,输出识别模型。
S307、获取待检测的网站的URL并访问,提取其页面源码信息中的特征,并输入训练好的识别模型,从而可获得当前网站的识别结果。
需要说明的是,本实施例中的实现步骤与上述实施例相同或类似的部分请参见上述介绍,本实施例在此不再赘述。
由上可见,本实施例提供了一种基于随机森林方法的仿冒网站识别方法,利用大量的训练数据,采用随机森林算法训练获得了良好的识别模型,利用该识别模型识别网站的页面源码信息中的特征,从而极大提高了仿冒网站的识别精确度。
下面对本申请实施例提供的一种仿冒网站识别装置进行介绍,下文描述的一种仿冒网站识别装置与上文描述的一种仿冒网站识别方法可以相互参照。
参见图4所示,本申请实施例公开了一种仿冒网站识别装置,包括:
获取模块401,用于获取目标网站的页面源码信息;
提取模块402,用于从页面源码信息中提取初始特征信息,初始特征信息至少包括:信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征;
预处理模块403,用于对初始特征信息进行预处理,获得目标特征信息;
识别模块404,用于利用预设的识别模型识别目标特征信息,得到目标网站的识别结果;识别模型采用随机森林算法训练获得。
在一种具体实施方式中,仿冒网站识别装置还包括:访问模块,用于通过目标网站的URL访问目标网站。
在一种具体实施方式中,仿冒网站识别装置还包括:剔除模块,用于剔除页面源码信息中的静态资源信息。
在一种具体实施方式中,预处理模块具体用于:对初始特征信息进行归一化处理,获得目标特征信息。
在一种具体实施方式中,预处理模块具体用于:对初始特征信息进行预处理,包括:采用奇异值分解算法对初始特征信息进行降维处理,获得目标特征信息。
在一种具体实施方式中,预处理模块具体用于:对初始特征信息进行归一化处理,并采用奇异值分解算法对归一化处理后的初始特征信息进行降维处理。
在一种具体实施方式中,仿冒网站识别装置还包括:训练模块,用于训练识别模型,训练模块具体包括:
获取单元,用于获取正常网站的页面源码信息并标记,获取仿冒网站的页面源码信息并标记;
组成单元,用于将标记后的正常网站的页面源码信息和仿冒网站的页面源码信息组成训练集合;
剔除单元,用于剔除训练集合中的静态资源信息,得到目标集合;
预处理单元,用于从目标集合中提取第一训练特征信息,并对第一训练特征信息进行预处理,获得第二训练特征信息;
训练单元,用于采用随机森林算法处理第二训练特征信息,直至得到识别模型。
其中,关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本实施例提供了一种仿冒网站识别装置,包括:获取模块、提取模块、预处理模块以及识别模块。首先由获取模块获取目标网站的页面源码信息;然后提取模块从页面源码信息中提取初始特征信息,初始特征信息至少包括:信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征;进而预处理模块对初始特征信息进行预处理,获得目标特征信息;组合识别模块利用预设的识别模型识别目标特征信息,得到目标网站的识别结果;识别模型采用随机森林算法训练获得。如此各个模块之间分工合作,各司其职,从而提高了仿冒网站的识别效率和准确率。
下面对本申请实施例提供的一种仿冒网站识别设备进行介绍,下文描述的一种仿冒网站识别设备与上文描述的一种仿冒网站识别方法及装置可以相互参照。
参见图5所示,本申请实施例公开了一种仿冒网站识别设备,包括:
存储器501,用于保存计算机程序;
处理器502,用于执行所述计算机程序,以实现以下步骤:
获取目标网站的页面源码信息;从页面源码信息中提取初始特征信息,初始特征信息至少包括:信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征;对初始特征信息进行预处理,获得目标特征信息;利用预设的识别模型识别目标特征信息,得到目标网站的识别结果;识别模型采用随机森林算法训练获得。
在本实施例中,所述处理器执行所述存储器中保存的计算机子程序时,可以具体实现以下步骤:通过目标网站的URL访问目标网站。
在本实施例中,所述处理器执行所述存储器中保存的计算机子程序时,可以具体实现以下步骤:剔除页面源码信息中的静态资源信息。
在本实施例中,所述处理器执行所述存储器中保存的计算机子程序时,可以具体实现以下步骤:对初始特征信息进行归一化处理,获得目标特征信息。
在本实施例中,所述处理器执行所述存储器中保存的计算机子程序时,可以具体实现以下步骤:采用奇异值分解算法对初始特征信息进行降维处理,获得目标特征信息。
在本实施例中,所述处理器执行所述存储器中保存的计算机子程序时,可以具体实现以下步骤:获取正常网站的页面源码信息并标记,获取仿冒网站的页面源码信息并标记;将标记后的正常网站的页面源码信息和仿冒网站的页面源码信息组成训练集合;剔除训练集合中的静态资源信息,得到目标集合;从目标集合中提取第一训练特征信息,并对第一训练特征信息进行预处理,获得第二训练特征信息;采用随机森林算法处理第二训练特征信息,直至得到识别模型。
下面对本申请实施例提供的一种可读存储介质进行介绍,下文描述的一种可读存储介质与上文描述的一种仿冒网站识别方法、装置及设备可以相互参照。
一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的仿冒网站识别方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种仿冒网站识别方法,其特征在于,包括:
获取目标网站的页面源码信息;
从所述页面源码信息中提取初始特征信息,所述初始特征信息至少包括:信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征;
对所述初始特征信息进行预处理,获得目标特征信息;
利用预设的识别模型识别所述目标特征信息,得到所述目标网站的识别结果;所述识别模型采用随机森林算法训练获得。
2.根据权利要求1所述的仿冒网站识别方法,其特征在于,所述获取目标网站的页面源码信息之前,还包括:
通过所述目标网站的URL访问所述目标网站。
3.根据权利要求2所述的仿冒网站识别方法,其特征在于,所述从所述页面源码信息中提取初始特征信息之前,还包括:
剔除所述页面源码信息中的静态资源信息。
4.根据权利要求3所述的仿冒网站识别方法,其特征在于,所述对所述初始特征信息进行预处理,包括:
对所述初始特征信息进行归一化处理。
5.根据权利要求3所述的仿冒网站识别方法,其特征在于,所述对所述初始特征信息进行预处理,包括:
采用奇异值分解算法对所述初始特征信息进行降维处理。
6.根据权利要求5所述的仿冒网站识别方法,其特征在于,所述对所述初始特征信息进行预处理,包括:
对所述初始特征信息进行归一化处理,并采用所述奇异值分解算法对归一化处理后的所述初始特征信息进行降维处理。
7.根据权利要求1-6任意一项所述的仿冒网站识别方法,其特征在于,所述识别模型的训练过程包括:
获取正常网站的页面源码信息并标记,获取仿冒网站的页面源码信息并标记;
将标记后的所述正常网站的页面源码信息和所述仿冒网站的页面源码信息组成训练集合;
剔除所述训练集合中的静态资源信息,得到目标集合;
从所述目标集合中提取第一训练特征信息,并对所述第一训练特征信息进行预处理,获得第二训练特征信息;
采用所述随机森林算法处理所述第二训练特征信息,直至得到所述识别模型。
8.一种仿冒网站识别装置,其特征在于,包括:
获取模块,用于获取目标网站的页面源码信息;
提取模块,用于从所述页面源码信息中提取初始特征信息,所述初始特征信息至少包括:信息熵、外链信息、页面标题信息、页面meta信息和N-Gram特征;
预处理模块,用于对所述初始特征信息进行预处理,获得目标特征信息;
识别模块,用于利用预设的识别模型识别所述目标特征信息,得到所述目标网站的识别结果;所述识别模型采用随机森林算法训练获得。
9.一种仿冒网站识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的仿冒网站识别方法。
10.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的仿冒网站识别方法。
CN201910429235.5A 2019-05-22 2019-05-22 一种仿冒网站识别方法、装置、设备及可读存储介质 Pending CN110138794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910429235.5A CN110138794A (zh) 2019-05-22 2019-05-22 一种仿冒网站识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910429235.5A CN110138794A (zh) 2019-05-22 2019-05-22 一种仿冒网站识别方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN110138794A true CN110138794A (zh) 2019-08-16

Family

ID=67572468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910429235.5A Pending CN110138794A (zh) 2019-05-22 2019-05-22 一种仿冒网站识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110138794A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125584A (zh) * 2019-12-23 2020-05-08 杭州安恒信息技术股份有限公司 一种基于舆情分析的消费返利平台识别方法
CN111382780A (zh) * 2020-02-13 2020-07-07 中国科学院信息工程研究所 一种基于http不同版本的加密网站细粒度分类方法和装置
CN112347402A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 非法网站/app自动识别方法、***和电子装置
CN112347328A (zh) * 2020-10-27 2021-02-09 杭州安恒信息技术股份有限公司 一种网络平台识别方法、装置、设备及可读存储介质
CN113407802A (zh) * 2021-06-10 2021-09-17 杭州安恒信息技术股份有限公司 蜘蛛池网站的识别方法、装置、电子装置和存储介质
CN113965385A (zh) * 2021-10-25 2022-01-21 恒安嘉新(北京)科技股份公司 一种异常网站的监控处理方法、装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN105183894A (zh) * 2015-09-29 2015-12-23 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置
CN107566391A (zh) * 2017-09-20 2018-01-09 上海斗象信息科技有限公司 域识别加主题识别构建机器学习模型检测网页暗链的方法
CN107577944A (zh) * 2017-09-08 2018-01-12 杭州安恒信息技术有限公司 基于代码语法分析器的网站恶意代码检测方法及装置
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN107957872A (zh) * 2017-10-11 2018-04-24 中国互联网络信息中心 一种完整网站源码获取方法及非法网站检测方法、***
CN108664791A (zh) * 2017-03-29 2018-10-16 腾讯科技(深圳)有限公司 一种超文本预处理器代码中的网页后门检测方法及装置
CN109241383A (zh) * 2018-07-20 2019-01-18 北京开普云信息科技有限公司 一种基于深度学习的网页类型智能识别方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN105183894A (zh) * 2015-09-29 2015-12-23 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置
CN108664791A (zh) * 2017-03-29 2018-10-16 腾讯科技(深圳)有限公司 一种超文本预处理器代码中的网页后门检测方法及装置
CN107577944A (zh) * 2017-09-08 2018-01-12 杭州安恒信息技术有限公司 基于代码语法分析器的网站恶意代码检测方法及装置
CN107566391A (zh) * 2017-09-20 2018-01-09 上海斗象信息科技有限公司 域识别加主题识别构建机器学习模型检测网页暗链的方法
CN107957872A (zh) * 2017-10-11 2018-04-24 中国互联网络信息中心 一种完整网站源码获取方法及非法网站检测方法、***
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN109241383A (zh) * 2018-07-20 2019-01-18 北京开普云信息科技有限公司 一种基于深度学习的网页类型智能识别方法及***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125584A (zh) * 2019-12-23 2020-05-08 杭州安恒信息技术股份有限公司 一种基于舆情分析的消费返利平台识别方法
CN111125584B (zh) * 2019-12-23 2023-06-06 杭州安恒信息技术股份有限公司 一种基于舆情分析的消费返利平台识别方法
CN111382780A (zh) * 2020-02-13 2020-07-07 中国科学院信息工程研究所 一种基于http不同版本的加密网站细粒度分类方法和装置
CN111382780B (zh) * 2020-02-13 2023-11-03 中国科学院信息工程研究所 一种基于http不同版本的加密网站细粒度分类方法和装置
CN112347402A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 非法网站/app自动识别方法、***和电子装置
CN112347328A (zh) * 2020-10-27 2021-02-09 杭州安恒信息技术股份有限公司 一种网络平台识别方法、装置、设备及可读存储介质
CN113407802A (zh) * 2021-06-10 2021-09-17 杭州安恒信息技术股份有限公司 蜘蛛池网站的识别方法、装置、电子装置和存储介质
CN113965385A (zh) * 2021-10-25 2022-01-21 恒安嘉新(北京)科技股份公司 一种异常网站的监控处理方法、装置、设备和介质
CN113965385B (zh) * 2021-10-25 2024-06-11 恒安嘉新(北京)科技股份公司 一种异常网站的监控处理方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN110138794A (zh) 一种仿冒网站识别方法、装置、设备及可读存储介质
CN107204960B (zh) 网页识别方法及装置、服务器
CN106709345A (zh) 基于深度学习方法推断恶意代码规则的方法、***及设备
CN109582833B (zh) 异常文本检测方法及装置
CN113051500B (zh) 一种融合多源数据的钓鱼网站识别方法及***
CN109635564A (zh) 一种检测暴力破解行为的方法、装置、介质及设备
CN103617213B (zh) 识别新闻网页属性特征的方法和***
CN104158828B (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及***
CN111866004B (zh) 安全评估方法、装置、计算机***和介质
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN113313479A (zh) 基于人工智能的支付业务大数据处理方法及***
CN107688742A (zh) 大规模快速移动应用app检测和分析方法
CN107577944A (zh) 基于代码语法分析器的网站恶意代码检测方法及装置
CN109600382A (zh) webshell检测方法及装置、HMM模型训练方法及装置
CN117195220A (zh) 基于Tree-LSTM和BiLSTM的智能合约漏洞检测方法及***
CN110532773B (zh) 恶意访问行为识别方法、数据处理方法、装置和设备
CN111259207A (zh) 短信的识别方法、装置及设备
CN108985052A (zh) 一种恶意程序识别方法、装置和存储介质
CN111125704B (zh) 一种网页挂马识别方法及***
CN114676231A (zh) 一种目标信息检测方法、设备和介质
CN109359274B (zh) 一种对批量生成的字符串进行识别的方法、装置及设备
CN108875374B (zh) 基于文档节点类型的恶意pdf检测方法及装置
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
CN116719683A (zh) 异常检测方法、异常检测装置、电子设备及存储介质
CN115774784A (zh) 一种文本对象的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190816

RJ01 Rejection of invention patent application after publication