CN115757991A

CN115757991A - 一种网页识别方法、装置、电子设备和存储介质

Info

Publication number: CN115757991A
Application number: CN202111025311.XA
Authority: CN
Inventors: 黄晨晖; 林初仁; 李晶
Original assignee: Guangzhou Tencent Technology Co Ltd
Current assignee: Guangzhou Tencent Technology Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2023-03-07

Abstract

本申请涉及计算机技术领域，尤其涉及一种网页识别方法、装置、电子设备和存储介质，用以提高网页的识别准确率。其中，方法包括：获取待检测网页的目标URL，以及对应的目标HTML文件；基于目标URL以及目标HTML文件，将待检测网页与指定类别样本库进行特征匹配；若匹配失败，则提取目标URL的URL特征以及目标HTML文件的HTML特征，并将URL特征以及HTML特征进行特征融合，获得待检测网页对应的网页融合特征；基于网页融合特征，对待检测网页进行分类预测，获得待检测网页的分类识别结果。由于本申请结合待检测网页的URL特征和HTML特征，兼顾足够丰富的信息量及较低的复杂度，有效提升了网页识别的准确率。

Description

一种网页识别方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种网页识别方法、装置、电子设备和存储介质。

背景技术

随着互联网行业不断发展，网络已经成为了人们生活中不可缺少的一部分。但与此同时，恶意网页数量在逐年快速增长。如何快速有效的识别恶意网页，已经成为有待解决的网络空间安全问题之一。

相关技术中，仅使用统一资源定位符(Uniform Resource Locator，URL)特征的方案信息量有限。仅使用网页静态特征的方案，没有有效的挖掘网页静态特征中的其他信息，容易造成误判。仅使用网页动态特征的恶意网页识别方案，需要模拟浏览器的渲染行为，不适合在后台大规模应用。

综上，相关技术中的方案存在特征信息量不足或复杂度过高的问题，网页识别准确率不高。

发明内容

本申请实施例提供一种网页识别方法、装置、电子设备和存储介质，用以提高网页的识别准确率。

本申请实施例提供的一种网页识别方法，包括：

获取待检测网页的目标URL，以及对应的目标超文本标记语言(HyperText MarkupLanguage，HTML)文件；

基于所述目标URL以及所述目标HTML文件，将所述待检测网页与指定类别样本库进行特征匹配；

若匹配失败，则提取所述目标URL的URL特征以及所述目标HTML文件的HTML特征，并将所述URL特征以及所述HTML特征进行特征融合，获得所述待检测网页对应的网页融合特征；

基于所述网页融合特征，对所述待检测网页进行分类预测，获得所述待检测网页的分类识别结果。

本申请实施例提供的一种网页识别装置，包括：

获取单元，用于获取待检测网页的目标URL，以及对应的目标HTML文件；

匹配单元，用于基于所述目标URL以及所述目标HTML文件，将所述待检测网页与指定类别样本库进行特征匹配；

特征融合单元，用于若匹配失败，则提取所述目标URL的URL特征以及所述目标HTML文件的HTML特征，并将所述URL特征以及所述HTML特征进行特征融合，获得所述待检测网页对应的网页融合特征；

识别单元，用于基于所述网页融合特征，对所述待检测网页进行分类预测，获得所述待检测网页的分类识别结果。

可选的，所述指定类别样本库包括URL样本库与HTML样本库；所述匹配单元具体用于：

将所述目标URL的前缀信息与所述URL样本库中的各个候选URL的前缀信息进行比对；

若所述URL样本库中不存在与所述目标URL具有相同前缀信息的候选URL，则将所述待检测网页的目标HTML文件与所述HTML样本库中的各个候选HTML文件进行相似度比对，获取所述各个候选HTML文件对应的文件相似度。

可选的，所述匹配单元还用于：

若所述URL样本库中存在与所述目标URL具有相同前缀信息的候选URL，则确定匹配成功；或者，若所述HTML样本库存在与所述目标HTML文件的文件相似度高于相似度阈值的候选HTML文件，则确定匹配成功；

若所述HTML样本库不存在与所述目标HTML文件的文件相似度高于相似度阈值的候选HTML文件，则确定匹配失败。

可选的，所述匹配单元具体用于：

分别获取所述目标HTML文件对应的标签与所述各个候选HTML文件对应的标签之间的标签相似度，所述目标HTML文件对应的文本与所述各个候选HTML文件对应的文本之间的文本相似度，以及所述目标HTML文件对应的层叠样式属性与所述各个候选HTML文件对应的风格相似度；

分别将所述各个候选HTML文件对应的标签相似度、文本相似度、以及风格相似度，与相应的相似度权重进行加权求和，确定所述各个候选HTML文件对应的文件相似度。

可选的，所述特征融合单元具有用于：

提取所述目标URL的第一关键信息特征，域名特征以及第一统计学分布特征，并将所述第一关键信息特征，域名特征以及第一统计学分布特征组合作为所述URL特征；以及

提取所述目标HTML文件的第二关键信息特征，字符特征，网页结构特征，以及第二统计学分布特征，并将所述第二关键信息特征，字符特征，网页结构特征，以及第二统计学分布特征组合作为所述HTML特征。

可选的，所述第一统计学分布特征至少包括信息熵；所述特征融合单元具体用于通过下列方式确定所述目标URL的信息熵：

基于所述目标URL中各字符的出现次数，确定所述目标URL对应的URL字符频率；

基于所述URL字符频率确定所述目标URL的信息熵。

可选的，所述第一统计学分布特征至少包括相对熵；所述特征融合单元具体用于通过下列方式确定所述目标URL的相对熵：

基于所述目标URL中各字符的出现次数，确定所述目标URL对应的URL字符频率；以及，基于所述目标URL中标准英文字符的出现次数，确定所述目标URL对应的标准英文字符频率；

基于所述URL字符频率以及所述标准英文字符频率，确定所述目标URL的相对熵。

可选的，所述第一统计学分布特征至少包括空间分布特征值，其中指定类别的URL与非指定类别的URL的空间分布不同，相应的空间分布特征值也不同；

所述特征融合单元具体用于通过下列方式确定所述目标URL的空间分布特征值：

基于所述目标URL中标准英文字符的出现次数，确定所述目标URL对应的标准英文字符频率；

以所述标准英文字符频率为基准，确定所述目标URL的空间分布特征值。

可选的，所述第一统计学分布特征至少包括识别概率；所述特征融合单元具体用于通过下列方式确定所述目标URL的识别概率：

按照指定符号将所述目标URL进行初步分割，获得至少两个目标URL文本；

基于样本词表对所述至少两个目标URL文本进行二次分割，获得预处理后的URL文本，所述样本词表包括多个指定词，每个指定词包括至少一个字符；

基于已训练的深度学习模型，对所述预处理后的URL文本进行分类预测，获得所述识别概率。

可选的，所述特征融合单元具体用于：在基于样本词表对所述至少两个目标URL文本进行二次分割，获得预处理后的URL文本时，对于每个目标URL文本，都执行下列操作：

将所述目标URL文本作为待分割文本；

确定所述待分割文本中，以指定位置的字符为首的最长指定词；

基于所述最长指定词将所述待分割文本分割为：包括所述最长指定词的第一子文本，包括除所述最长指定词外的剩余字符的第二子文本；

将所述第二子文本作为所述待分割文本，并返回确定所述待分割文本中，以指定位置的字符为首的最长指定词的步骤，直至所述目标URL文本全部被分割，获得所述目标URL文本对应的预处理后的URL文本。

可选的，所述第二统计学分布特征至少包括JS脚本熵；其中指定类别的HTML文件的JS脚本包含目标动作，指定类别的HTML文件与非指定类别的HTML文件的JS脚本熵不同。

可选的，所述第二统计学分布特征至少包括HTML标签特征；所述特征融合单元具体用于通过下列方式确定所述目标HTML文件的HTML标签特征：

对所述目标HTML文件的DOM树进行深度优先遍历，以提取标签向量；

基于已训练的决策树模型对所述标签向量进行标签分类预测，将获得的预测概率作为所述目标HTML文件的HTML标签特征。

可选的，所述第二统计学分布特征至少包括网页文本特征；所述特征融合单元具体用于通过下列方式确定所述目标HTML文件的网页文本特征：

对所述目标HTML文件的DOM树进行深度优先遍历，将通过遍历查询到的所述目标HTML文件中的文本作为目标对象；

基于已训练的文本分类模型对所述目标对象进行文本分类，将获得的分类概率作为所述网页文本特征。

可选的，所述识别单元具体用于：

将所述网页融合特征输入已训练的网页识别模型，基于所述已训练的网页识别模型对所述待检测网页进行分类预测，获得所述分类识别结果；

其中，所述网页识别模型是基于训练样本数据集，采用极端梯度提升方式训练得到的，所述训练样本数据集包括非指定类别的正样本，以及所述指定类别的负样本，所述负样本对应的权重高于所述正样本对应的权重。

可选的，所述装置还包括：

确定单元，用于若匹配成功，则将匹配得到的指定类别样本的类别标签，作为所述待检测网页的分类识别结果。

本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种网页识别方法的步骤。

本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任意一种网页识别方法的步骤。

本申请实施例提供一种计算机可读存储介质，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行上述任意一种网页识别方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种网页识别方法、装置、电子设备和存储介质。由于本申请实施例提出了将URL特征和HTML特征相结合的方式，首先基于待检测网页的URL和HTML，与指定类型样本库进行特征匹配，判断是否存在与待检测网页相匹配的指定类别的URL或是HTML文件，在不匹配的情况下，将提取URL特征和HTML特征进行特征融合，基于得到的网页融合特征来进行分类识别，确定最终的分类识别结果。本申请兼顾足够丰富的信息量及较低的复杂度，有效提升了网页识别的准确率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中的应用场景的一个可选的示意图；

图2为本申请实施例中的一种企业邮箱产品侧的应用示意图；

图3为本申请实施例中的一种网页识别方法的流程示意图；

图4为本申请实施例中的一种特征匹配方法的流程示意图；

图5为本申请实施例中的一种整体框架的示意图；

图6为本申请实施例中的一种特征提取方法的流程示意图；

图7为本申请实施例中的一种二次分割方法的流程示意图的示意图；

图8为本申请实施例中的一种线上查询过程的示意图；

图9为本申请实施例中的一种恶意网页识别方法的具体流程示意图；

图10为本申请实施例中的一种网页识别装置的组成结构示意图；

图11为应用本申请实施例中的一种电子设备的硬件组成结构示意图；

图12为应用本申请实施例中的另一种电子设备的硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

1、科尔莫戈罗夫-斯米尔诺夫试验(Kolmogorov-Smirnov test，KS-test)：是一个有用的非参数假设检验，主要是用来检验一组样本是否来自于某个统计学分布，或者比较两组样本的分布是否相同。在本申请实施例中，主要用于检验网页URL是否符合某种分布。

URL：是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。在本申请实施例中，URL特征至少包括：关键信息特征，域名特征，URL统计学分布特征。

HTML：准通用标记语言下的一个应用。“超文本”就是指页面内可以包含图片、链接，甚至音乐、程序等非文字元素。超文本标记语言的结构包括“头”部分(英语：Head)、和“主体”部分(英语：Body)，其中“头”部提供关于网页的信息，“主体”部分提供网页的具体内容。在本申请实施例中，HTML特征至少包括：关键信息特征，字符特征，网页结构特征，HTML统计学分布特征。

信息熵：在信息论中，熵(entropy)是接收的每条消息中包含的信息的平均量。信息熵是一个数学上颇为抽象的概念，可以理解成某种特定信息的出现概率(离散随机事件的出现概率)一个***越是有序，信息熵就越低；反之，一个***越是混乱，信息熵就越高。信息熵也可以说是***有序化程度的一个度量。在本申请中，信息熵属于URL统计学分布特征中的一类特征，一般恶意的URL在字符上一般更具随机性，所以拥有较高的信息熵。

KL散度(Kullback-Leibler divergence，KLD)：在概率论或信息论中又称相对熵，是描述两个几率(概率)分布P和Q差别的非对称性的度量。KL散度是用来度量使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数。典型情况下，P表示数据的真实分布，Q表示数据的理论分布、估计的模型分布、或P的近似分布。在本申请中，KL散度也属于URL统计学分布特征中的一类特征。

文档对象模型(Document Object Model，DOM)：是一种处理可扩展标志语言的标准编程接口。在网页上，组织页面(或文档)的对象被组织在一个树形结构中，用来表示文档中对象的标准模型就称为DOM。DOM将HTML文档(也称HTML文件)表达为树结构。

本申请实施例涉及人工智能(Artificial Intelligence，AI)和机器学习技术，基于人工智能中的计算机视觉技术和机器学习(Machine Learning，ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间找相互特性而言，机器学习更加注重算法的设计，让计算机能够自动地从数据中“学习”规律，并利用规律对未知数据进行预测。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例中的网页识别模型就是采用机器学习或深度学习技术训练得到的。基于本申请实施例中的网页识别模型的训练方法，可以对恶意网页进行识别。

在本申请实施例中提出的训练网页识别模型的方法可分为两部分，包括训练部分和应用部分；其中，训练部分就涉及到机器学习这一技术领域，在训练部分中，通过机器学习这一技术训练网页识别模型。具体的，使用本申请实施例中给出的训练样本数据集中的训练样本来训练网页识别模型，训练样本通过网页识别模型后，获取网页识别模型的输出结果，结合输出结果，不断调整模型参数，输出训练完毕的网页识别模型；应用部分用于使用在训练部分训练得到的网页识别模型来对恶意网页进行识别。

下面对本申请实施例的设计思想进行简要介绍：

相关技术中，恶意网页的识别方案主要基于URL特征、网页静态特征和网页动态特征进行研究。仅使用URL特征的方案复杂度较低，不涉及用户隐私问题，但URL特征的信息量有限，URL特征的本质是基于恶意网页的URL和正常URL在字符分布的统计规律上的不同。随着与黑色产业的对抗日益增强，目前可以注意到恶意URL特征愈发逼近正常的URL，甚至人眼很难进行区分。使用网页静态特征的方案，其使用的特征大多是业界较为普及的“关键词”统计特征，这类方案没有有效的挖掘网页静态特征中的其他信息，容易造成误判。使用网页动态特征的恶意网页识别方案拥有最丰富的信息量，但这类方案代价较高，需要模拟浏览器的渲染行为，不适合在后台大规模应用。

综上，相关技术中的方案存在特征信息量不足或复杂度过高的问题。

有鉴于此，本申请实施例提出了一种网页识别方法、装置、电子设备和存储介质。本申请中的网页识别方法是一种将URL特征和HTML特征相结合的方式，首先基于待检测网页的URL和HTML，与指定类型样本库进行特征匹配，判断是否存在与待检测网页相匹配的指定类别的URL或是HTML文件，在不匹配的情况下，将提取URL特征和HTML特征进行特征融合，基于得到的网页融合特征来进行分类识别，确定最终的分类识别结果。本申请兼顾足够丰富的信息量及较低的复杂度，有效提升了网页识别的准确率。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示，其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器120。本申请实施例中的每个终端设备110上可以安装有网页识别相关的客户端，该客户端可用于进行恶意网页的识别。本申请实施例涉及的网页识别相关的客户端可以是软件，也可以是网页、小程序等客户端，服务器则是与软件或是网页、小程序等相对应的应用服务器，不限制客户端的具体类型。

需要说明的是，本申请实施例中的网页识别方法可以由服务器或终端设备单独执行，也可以由服务器和终端设备共同执行。例如，由终端设备获取待检测网页的URL，以及对应的目标HTML文件；基于目标URL以及目标HTML文件，将待检测网页与指定类别样本库进行特征匹配；若匹配失败，则通知服务器提取目标URL的URL特征以及目标HTML文件的HTML特征，并将URL特征以及HTML特征进行特征融合，获得待检测网页对应的网页融合特征；服务器基于网页融合特征，对待检测网页进行分类预测，获得待检测网页的分类识别结果，并将最终的分类识别结果通知终端设备。

需要说明的是，上述所列举的一种终端设备与服务器的交互方式只是举例说明，实际上，由服务器和终端设备共同执行的交互方式有很多种，在此不做具体限定。

例如，本申请实施例中提出的基于URL和HTML的网页识别方法，在用于识别恶意网页时，可以应用于企业邮箱类产品。具体地：通过对用户收信中的URL进行恶意识别，提升企业邮箱垃圾邮件拦截能力，降低用户点击恶意链接的风险。

如图2所示，其为本申请实施例中的一种企业邮箱产品侧的应用示意图，通过对新入信的邮件抽取内容中的URL，并由URL检查服务进行恶意识别，根据识别结果对邮件进行标识。在相关技术中，大部分邮箱反垃圾产品不会对邮件中的URL进行识别分类，而大量的恶意邮件中往往通过传播带恶意的URL进行攻击，而基于本申请实施例中的方法，可以有效弥补企业邮箱反垃圾产品在这一方面的不足，进一步提升企业邮箱反垃圾能力。

在一种可选的实施方式中，终端设备110与服务器120之间可以通过通信网络进行通信。

在一种可选的实施方式中，通信网络是有线网络或无线网络。

在本申请实施例中，终端设备110为用户使用的计算机设备，该计算机设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、车载终端等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备110通过无线网络与服务器120连接，服务器120是一台服务器或若干台服务器组成的服务器集群或云计算中心，或者是一个虚拟化平台。

需要说明的是，图1所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本申请实施例中不做具体限定。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的视频检测方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

参阅图3所示，为本申请实施例提供的一种网页识别方法的实施流程图，这里是以服务器为执行主体为例进行举例说明的，该方法的具体实施流程如下：

S31：服务器获取待检测网页的目标URL，以及对应的目标HTML文件；

S32：服务器基于目标URL以及目标HTML文件，将待检测网页与指定类别样本库进行特征匹配；

其中，指定类别主要是指一种指定的网页类别，比如恶意网页，正常网页；还可进一步将恶意网页划分为：钓鱼攻击类恶意网页，推广垃圾广告类恶意网页，引导下载恶意软件类恶意网页等，此时，指定类别则可以是钓鱼攻击类恶意网页，推广垃圾广告类恶意网页，引导下载恶意软件类恶意网页中的任意一种或多种，在此不做具体限定。

在本申请实施例中，指定类别样本库则是指包含指定类别网页相关信息的样本库，主要将样本库分为URL样本库和HTML样本库。其中，URL样本库即包括指定类别网页相关的URL信息的样本库，该样本库中的URL可称作候选URL，每个候选URL还设置有对应的类别标签，比如：URL1(http://qq.com)-钓鱼攻击类恶意网页；URL2(http://qxq.com)-钓鱼攻击类恶意网页；URL3(http://qxxq.com)-引导下载恶意软件类恶意网页；URL4(http://xq.com)-推广垃圾广告类恶意网页；URL5(http://qx.com)-引导下载恶意软件类恶意网页等。

同样地，HTML样本库即包括指定类别网页相关的HTML文件的样本库，该样本库中的HTML文件可称作候选HTML文件，每个候选HTML文件还设置有对应的类别标签，比如：HTML文件1-引导下载恶意软件类恶意网页；HTML文件2-钓鱼攻击类恶意网页；HTML文件3-推广垃圾广告类恶意网页；HTML文件4-引导下载恶意软件类恶意网页；HTML文件5-钓鱼攻击类恶意网页等。

在本申请实施例中，步骤S32具体是指：将目标URL与URL样本库进行匹配，在一定条件下，进一步将目标HTML文件与HTML样本库进行匹配，在下文中会进行详细说明。

可选的，若匹配成功，服务器则将匹配得到的指定类别样本的类别标签，作为待检测网页的分类识别结果。即，将查询到的候选URL或候选HTML文件的类别标签，作为该待检测网页的分类识别结果，比如确定与目标URL匹配的候选URL3的类别标签为引导下载恶意软件类恶意网页，即可确定待检测网页的分类识别结果为：引导下载恶意软件类恶意网页。

若匹配失败，则执行步骤S33和步骤S34：

S33：若匹配失败，服务器则提取目标URL的URL特征以及目标HTML文件的HTML特征，并将URL特征以及HTML特征进行特征融合，获得待检测网页对应的网页融合特征；

S34：服务器基于网页融合特征，对待检测网页进行分类预测，获得待检测网页的分类识别结果。

由于本申请实施例提出了将URL特征和HTML特征相结合的方式，首先基于待检测网页的URL和HTML，与指定类型样本库进行特征匹配，判断是否存在与待检测网页相匹配的指定类别的URL或是HTML文件，在不匹配的情况下，将提取URL特征和HTML特征进行特征融合，基于得到的网页融合特征来进行分类识别，确定最终的分类识别结果。本申请兼顾足够丰富的信息量及较低的复杂度，有效提升了网页识别的准确率。

一种可选的实施方式为，可以按照如图4所示的流程图实施S32，其为本申请实施例中的一种特征匹配方法的流程示意图，具体包括以下步骤：

S401：服务器将目标URL的前缀信息与URL样本库中的各个候选URL的前缀信息进行比对；

在相关技术中，URL匹配是指完全匹配，即将目标URL与候选URL的全部内容进行匹配，而在本申请实施例中，考虑到大量的URL前缀是相同的，只是每个用户收到的URL后缀的参数不同，如http://qq.com/？xx1h和http://qq.com/？xx2，因而提出了部分匹配方式，即将待检测网页的目标URL与URL样本库中的候选URL的前缀信息进行匹配。

基于上述实施方式，可在URL样本库中仅保存候选URL的前缀信息，例如候选URL1的前缀信息为http://qq.com。这样就可以通过部分匹配的方式对这类URL进行拦截。即将待检测网页的URL与URL样本库进行匹配时，仅进行前缀信息部分的匹配，若待检测网页的目标URL与URL样本库匹配，则命中，即URL样本库中存在与目标URL具有相同前缀信息的候选URL；反之，则未命中，即URL样本库中不存在与目标URL具有相同前缀信息的候选URL。

在命中的情况下，则确定匹配成功；在未命中的情况下，进一步进行HTML匹配，具体过程参见步骤S402。

S402：若URL样本库中不存在与目标URL具有相同前缀信息的候选URL，服务器则将待检测网页的目标HTML文件与HTML样本库中的各个候选HTML文件进行相似度比对，获取各个候选HTML文件对应的文件相似度。

具体地，通过将各个候选HTML文件对应的文件相似度与预设的相似度阈值进行比较，可以进一步确定HTML比对结果：

若HTML样本库存在与目标HTML文件的文件相似度高于相似度阈值的候选HTML文件，则确定匹配成功，即命中；若HTML样本库不存在与目标HTML文件的文件相似度高于相似度阈值的候选HTML文件，则确定匹配失败，即未命中。

在本申请实施例中，若匹配成功，则将匹配得到的指定类别样本的类别标签，作为待检测网页的分类识别结果。在HTML样本库存在多个与目标HTML文件的文件相似度高于相似度阈值的候选HTML文件时，则将文件相似度最高的候选HTML文件的类别标签，作为该待检测网页的分类识别结果。

比如：候选HTML文件3、候选HTML文件4与目标HTML文件的文件相似度都高于相似度阈值，但是候选HTML文件3对应的文件相似度更高，则将与目标HTML文件匹配的候选HTML文件3的类别标签：推广垃圾广告类恶意网页，作为待检测网页的分类识别结果。

在本申请实施例中，计算HTML文件之间的文件相似度时，主要由(1)标签相似度，(2)文本相似度，(3)风格相似度组成，具体过程为：

分别获取目标HTML文件对应的标签与各个候选HTML文件对应的标签之间的标签相似度，目标HTML文件对应的文本与各个候选HTML文件对应的文本之间的文本相似度，以及目标HTML文件对应的层叠样式属性与各个候选HTML文件对应的风格相似度；进而，在确定上述三部分之后，将各类相似度与相应的相似度权要进行加权求和，获得最终的文件相似度。即，分别将各个候选HTML文件对应的标签相似度、文本相似度、以及风格相似度，与相应的相似度权重(其中不同类相似度各自对应有预先设置好的相似度权重)进行加权求和，确定各个候选HTML文件对应的文件相似度。比如，针对标签相似度，文本相似度，风格相似度，分别取相似度权重：0.3，0.4，0.3。

其中，标签相似度具体是指HTML按照深度优先遍历后提取的标签(tags)之间的相似度；文本相似度具体是指HTML按照深度优先遍历后提取的文本直接的相似度；风格相似度具体指HTML按照深度优先遍历后提取的(层叠样式表(Cascading Style Sheets，CSS)参数之间的相似度。

可选的，上述三个相似度的计算算法可以difflib提供的MakeSequenceMatcher来实现，其中，MakeSequenceMatcher是可以用来比较任何类型片段的类，只要比较的片段是可hash的，都可以用来比较，使用非常灵活，可用于比较文本的距离。当然，采用其他计算文本距离的方式同样适用于本申请实施例，在此不做具体限定。

例如，在计算目标HTML文件与候选HTML文件1的文件相似度时，首先需要分别计算目标HTML文件与候选HTML文件1的标签相似度，文本相似度和风格相似度，假设为s1，s2和s3，则目标HTML文件与候选HTML文件1的文件相似度s＝0.3×s1+0.4×s2+0.3×s3。

在上述实施例中，使用HTML文件相似匹配，可以有效对抗恶意HTML频繁的调整以及更具有适应性。

下面主要是以钓鱼攻击类网页作为恶意网页为例，进行网页识别的过程，在邮箱反垃圾场景下，主要用于筛选出邮箱接收到的钓鱼邮件并进行拦截。

本申请的整体框架如图5所示，分为离线模型训练和线上查询两个部分。。其中，离线模型训练包括样本库建立，URL、HTML特征提取和模型训练三部分。

下面分别对离线模型训练的过程进行详细说明。

一、样本库建立。

依托企业邮箱丰富的历史数据，从历史用户举报为钓鱼邮件的黑样本(也称负样本)中初步提取出恶意URL、HTML，前期通过人工审核的方式对恶意URL、HTML进行标记；从好友关系的收发邮件中提取正常URL、HTML。

需要说明的是，图5中提取URL、HTML具体是指从邮件中解析URL以及爬取对应的HTML文件。

进而，基于从正常邮件中提取的URL、HTML可构建正样本，基于用户举报钓鱼的邮件中提取的URL、HTML可构建负正本，基于上述正负样本构建样本库，具体是指上文所列举的带标签URL样本库，带标签HTML样本库。

二、URL、HTML特征提取。

该过程主要是指对正负样本分别进行URL特征以及HTML特征的提取，具体包括：对URL样本库中的候选URL进行URL特征提取，对HTML样本库中的候选HTML文件进行HTML特征提取，进而进行离线模型训练，获得已训练的网页识别模型。

需要说明的是，在本申请实施例中，URL特征至少包括：第一关键信息特征，域名特征以及第一统计学分布特征；HTML特征至少包括：第二关键信息特征，字符特征，网页结构特征，以及第二统计学分布特征。

上述“第一”和“第二”是为了对URL特征和HTML特征进行区分，因而将URL对应的关键信息特征称作：第一关键信息特征，将HTML对应的关键信息特征称作：第二关键信息特征。同理，第一统计学分布特征，第二统计学分布特征也是类似的道理。

在线上查询过程中，也可基于已训练的网页识别模型，对待检测网页进行特征提取和分类。在一种可选的实施方式中，可以按照如图6所示的流程图实施S33，为本申请实施例中的一种特征提取方法的流程示意图，包括以下步骤：

S601：服务器分别提取目标URL的第一关键信息特征，域名特征以及第一统计学分布特征；

S602：服务器将第一关键信息特征，域名特征以及第一统计学分布特征组合作为URL特征；

S603：服务器分别提取目标HTML文件的第二关键信息特征，字符特征，网页结构特征，以及第二统计学分布特征；

S604：服务器将第二关键信息特征，字符特征，网页结构特征，以及第二统计学分布特征组合作为HTML特征；

S605：服务器将URL特征以及HTML特征进行特征融合，获得待检测网页对应的网页融合特征。

本申请实施例中的关键信息具体是指关键词，相应地，关键信息特征也可称作关键词特征。

下面首先对URL特征的详细信息以及特征提取的过程进行详细介绍：

在URL特征中，关键词特征可表示是否包含@，account，login，secure，websrc，-，sigin等关键词；域名特征可表示是否为超文本传输安全协议(Hyper Text TransferProtocol over Secure Socket Layer，https)，域名长度特征等；URL统计学分布特征可表示特殊字符比率，专用字符比率，数字字母切换频率，是否满足数量等式等。

其中，特殊字符为除数字、英文字母、专用字符以及不安全字符之外的字符，特殊字符比率即URL中的特殊字符占URL总字符的比率；专用字符包括但不限于‘；’、‘/’、‘？’、‘:’、‘@’、‘＝’、‘&’等，专用字符比率即URL中的专用字符占URL总字符的比率；数字字母切换频率则是指从左向右阅读URL时，数字字符的下一个字符是字母字符的次数，如字符串‘a1b23c’的数字字母切换频率是2。在典型的恶意URL生成中，经常使用随机字符串，所以数字字母切换频率会相对高。

在判断URL是否满足数量等式时，假设某一URL字符串中‘？’，‘＝’，‘&’的数量分别为x，y，z。当三个条件(1)若x＝＝0则y＝＝0&&z＝＝0；(2)若x>0则0<＝z<＝y-1；(3)若x>0则URL有参数都满足时，则称满足数量等式。

特别的，本申请还引入了如下几种用于分类识别的URL统计学分布特征，具体包括：

(1)URL文本的信息熵，(2)KL散度，(3)KS-test值，(4)URL的深度学习模型识别概率。

上述所列举的四种URL统计学分布特征都属于数学上的概率分布值，是对URL特征的补充。黑色产业批量生产的URL时一般与正常的URL在上述的四个特征上有所不同，如恶意的URL在字符上一般更具随机性，所以拥有较高的熵。

下面分别对上述四种统计学分布特征进行详细说明：

在一种可选的实施方式中，第一统计学分布特征至少包括信息熵；可通过下列方式确定目标URL的信息熵：

首先，基于目标URL中各字符的出现次数，确定目标URL对应的URL字符频率；进而，基于URL字符频率确定目标URL的信息熵。

在本申请实施例中，黑色产业批量生产的URL时一般与正常的URL在信息熵这一特征上有所不同，如恶意的URL在字符上一般更具随机性，所以拥有较高的信息熵，因而，本申请基于URL字符频率；基于URL字符频率确定目标URL的信息熵。

可选的，第一统计学分布特征至少包括相对熵(也称KL散度)；通过下列方式确定目标URL的相对熵：

首先基于目标URL中各字符的出现次数，确定目标URL对应的URL字符频率；以及，基于目标URL中标准英文字符的出现次数，确定目标URL对应的标准英文字符频率；进而，基于URL字符频率以及标准英文字符频率，确定目标URL的相对熵。

以目标URL为https://qq.com为例，字母c，h，m，o，p，q，s，t出现的次数分别是1，1，1，1，1，2，1，2，于是对应的字符频率分别为1/10，1/10，1/10，1/10，1/10，2/10，1/10，2/10。

在本申请实施例中，URL字符频率用于表征URL中各个字符的出现次数；而标准英文字符频率则用于表征目标URL中标准英文字符的出现概率。对于KL散度，首先计算URL字符频率，然后结合标准英文字符频率计算出相对熵，即得到KL散度。

一种标准英文字符频率分布为：字母a-z(大写均转为小写)的出现概率分别是：8.167/100，1.492/100，2.782/100，4.253/100，12.702/100，2.228/100，2.015/100，6.094/100，6.966/100，0.153/100，0.772/100，4.025/100，2.406/100，6.749/100，7.507/100，1.929/100，0.095/100，5.987/100，6.327/100，9.056/100，2.758/100，0.978/100，2.360/100，0.150/100，1.974/100，0.074/100。

在本申请实施例中，KL散度和信息熵均是基于URL字符频率计算得到，一般恶意的URL在字符上一般更具随机性，所以与正常的URL相比，所确定的信息熵和KL散度也有明显区别，基于该特征进行网页识别有利于提高分类准确性。

可选的，第一统计学分布特征至少包括空间分布特征值，其中指定类别的URL与非指定类别的URL的空间分布不同，相应的空间分布特征值也不同；具体通过下列方式确定目标URL的空间分布特征值：

首先，基于目标URL中标准英文字符的出现次数，确定目标URL对应的标准英文字符频率；进而，以标准英文字符频率为基准，确定目标URL的空间分布特征值。

在本申请实施例中，空间分布特征值可表征为KS-test值，KS-test值是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。本申请中，可使用标准英文的字符频率分布作为基准进行计算，具体的计算程序使用R-4.0.5/src/library/stats/src/ks.c库代码，在此不做具体限定。

在上述实施方式中，通过假定恶意URL和正常URL在空间上有不同的分布，从而恶意URL的KS-test值与正常URL有所不同，因而基于该特征进行网页识别可有效提高分类准确性。

可选的，第一统计学分布特征至少包括识别概率；通过下列方式确定目标URL的识别概率：

该识别概率主要是基于已训练的深度学习模型识别得到的，在基于深度学习模型进行URL识别，获取识别概率之前，还需要对URL进行预处理，即深度学习模型处理的对象是预处理后的URL文本，本申请使用的URL预处理分为两个步骤，即基础分词和wordpiece分词。前者根据URL的特殊符号将URL初步分段；后者基于词表使用滑动窗口的方式对分段后的URL进一步的切割。

具体过程为：基础分词过程，按照指定符号将目标URL进行初步分割，获得至少两个目标URL文本；wordpiece分词过程，基于样本词表对至少两个目标URL文本进行二次分割，获得预处理后的URL文本，其中，样本词表包括多个指定词，每个指定词包括至少一个字符；在对URL进行预处理后，即可基于已训练的深度学习模型，对预处理后的URL文本进行分类预测，获得目标URL的识别概率。

下面以目标URL“https://www.qq.com/”为例，对URL预处理过程进行详细介绍：

Step1：根据’/’或”://”等子字符串(即指定符号)对URL进行分段；

如将https://www.qq.com/切分为四个目标URL文本，分别为：https，www，qq，com。

Step2：使用wordpiece算法进一步分词；其中，wordpiece算法规则是：

(1)首先以最长字符串在样本词表中查询；

(2)若查询成功则返回分词结果，否则继续；

(3)从字符串尾部回溯一个字符，在样本词表中查询是否存在此字符串；

(4)若查询成功，则分割出此字符串，将分割出的字符串后一位字符作为新的字符串头部，返回(1)；否则返回(3)。

在一种可选的实施方式中，基于样本词表对至少两个目标URL文本进行二次分割，获得预处理后的URL文本时，对于每个目标URL文本，都执行下列操作，具体参见图7，其为本申请实施例中的一种二次分割方法的流程示意图，包括以下步骤：

步骤S701：服务器将目标URL文本作为待分割文本；

步骤S702：服务器确定待分割文本中，以指定位置的字符为首的最长指定词；

其中，指定位置可以是指待分割文本从左向右数的第一位，即首位，当然也可以是其他位置，在此不做具体限定。

步骤S703：服务器基于最长指定词将待分割文本分割为：包括最长指定词的第一子文本，包括除最长指定词外的剩余字符的第二子文本；

步骤S704：服务器将第二子文本作为待分割文本，并返回确定待分割文本中，以指定位置的字符为首的最长指定词的步骤，直至目标URL文本全部被分割，获得目标URL文本对应的预处理后的URL文本。

假设样本词表包括7个指定词，该样本词表为：[aa，aaa，bb，cc，1，2，3]，待分割的目标URL文本是aaa1cc2bb，使用wordpiece分词的过程是：

以首字符’a’为起点，找到在样本词表中的最长指定词是’aaa’，那么目标URL文本“aaa1cc2bb”被分词为：第一子文本’aaa’和第二子文本’1cc2bb’；然后再对’1cc2bb’进行分词，同样的，可以拆分为’1’和’cc2bb’；以此类推，直到该文本全被拆分完，得到’aaa’+’1’+’cc’+’2’+’bb’，即预处理后的URL文本。

上述实施方式不同于直接使用字符级别的分词方法，本申请使用的预处理方法得到的结果含有语义信息，而非单独的字符，因而可提取出更多的信息量。

进一步，可采用Fasttext训练出用于恶意URL识别的深度学习模型，基于该模型对预处理后的URL文本进行特征提取，计算目标URL为恶意URL的概率，即本文中的识别概率，表征目标URL为恶意网页对应的URL的概率。

在本申请实施例中，将URL的深度学习模型识别概率作为一个强特征融合进来，可用于提升网页识别的整体效果。

基于上述实施方式，本申请实施例中的URL特征，具体可细分为如下27个URL特征维度：

域名是否为IP地址；是否含有‘@’；min(URL长度/23，1)；URL域名长度是否不超过7个字符；是否包含‘account’；是否包含‘login’；是否包含‘secure’；是否包含‘websrc’；是否包含‘ebayisapi’；是否包含‘sigin’；是否包含‘banking’；是否包含‘confirm’；是否包含‘-’；是否不是https；敏感词数量；数字比率；专用字符(./:)比率；特殊字符(除数字英文专用字符外的)数量/比率；保留字符数量(同专用字符)；不安全字符数量；.exe和.php的数量；数字转字母次数；字母转数字次数；Fasttext识别概率；信息熵；KL散度；KS-test。

其中，不安全字符包括但不限于：‘<’、‘>’、‘“’、‘#’、‘％’、‘{’、‘}’、‘|’、‘\’、‘^’、‘～’、‘[’、‘]’、‘`’。

如字符串‘abc123@＝<>*$’的长度为12，其中包含字母、数字、专用字符、不安全字符和特殊字符的数量分别为3，3，2，2，2。则其比率分别为3/12，3/12，2/12，2/12，2/12。

其中，通过将上述27个URL特征维度的特征进行组合(可采用拼接，加权求和等方式进行组合)，即可得到最终的URL特征。

下面对HTML特征的详细信息以及特征提取的过程进行详细介绍：

在HTML特征中，关键词特征可表示HTML结构中iframe标签、div标签、from标签中type＝password、hidden属性等出现的次数，JS代码中Document.write函数出现次数等；字符特征，如JS代码中空字符的比率，JS代码占HTML的比率等；网页结构特征，如width＝0或height＝0的出现次数，标签的总数量等。

其中，height和width属性设置图像的尺寸。如果设置了这些属性，就可以在页面加载时为图像预留空间。如果没有这些属性，浏览器就无法了解图像的尺寸，也就无法为图像保留合适的空间，因此当图像加载时，页面的布局就会发生变化。

特别的，本申请引入了如下几种用以提高分类精度的HTML统计学分布特征，具体包括：

(1)JS代码的熵(也称JS脚本熵)，(2)HTML标签特征，(3)网页文本特征。

下面分别对上述三种统计学分布特征进行详细说明：

在一种可选的实施方式中，第二统计学分布特征至少包括JS脚本熵；其中指定类别的HTML文件的JS脚本包含目标动作，指定类别的HTML文件与非指定类别的HTML文件的JS脚本熵不同。

在本申请实施例中，考虑到恶意网页往往在JS脚本中藏入恶意动作(比如恶意跳转等)，因而假定这些恶意JS脚本具有不同的熵特征。

可选的，第二统计学分布特征至少包括HTML标签特征；通过下列方式确定目标HTML文件的HTML标签特征：

首先对目标HTML文件的DOM树进行深度优先遍历，以提取标签向量；基于已训练的决策树模型对标签向量进行标签分类预测，将获得的模型对标签向量的预测概率，作为目标HTML文件的HTML标签特征。

其中，HTML主要表现形式是HTML标签，HTML元素其实和HTML标签通常描述的是一个意思，但是严格来讲HTML元素包含了HTML的开始标签和结束标签，而HTML文件就是由HTML元素组成的树状结构，HTML元素也就是HTML节点(每个HTML元素都是一个HTML节点)。HTML元素和DOM节点对象是一一对应的关系。通过深度优先遍历的方式，对目标HTML文件的DOM树进行遍历以提取标签向量后，即可基于决策树模型进行预测，获得HTML标签特征。本申请中，单独使用HTML标签向量进行分类的精度在训练集为85％左右。

可选的，第二统计学分布特征至少包括网页文本特征；通过下列方式确定目标HTML文件的网页文本特征：

对目标HTML文件的DOM树进行深度优先遍历，将通过遍历查询到的目标HTML文件中的文本作为目标对象；基于已训练的文本分类模型对目标对象进行文本分类，将获得的分类概率作为网页文本特征。

在上述实施方式中，本申请采用提取HTML文本并进行打分的方式提取HTML的文本特征，兼顾到了恶意网页中最直接的文本特征。具体地，本申请采用符合人对网页的阅读习惯的深度优先搜索方式，对HTML的DOM树进行遍历，收集网页中的文本作为目标对象，也称打分对象，并使用轻量的大规模文本分类模型(TextCNN)和快速文本分类模型(Fasttext)进行HTML文本的文本分类模型训练，需要说明的是，本申请通过对Fasttext和TextCNN同时进行尝试，确定效果差不多，所以最终只取了TextCNN模型的识别结果，作为最终的网页文本特征。

其中，文本分类模型的输入是遍历HTML后提取到的文本(事实上会对文本进行预处理如分词、去停用词等标准流程)；文本分类模型的输出是判断文本属于恶意文本的概率，即文本分类模型获得的分类概率。在本申请中，单独使用HTML文本的分类准确率约97％。

相似的，在本申请实施例中，具体可细分为如下20个HTML特征维度：

iframe标签出现次数；script标签出现次数(即JS脚本数量)；div标签数量；embed标签数量；link标签中属性href出现次数；a标签中download属性出现次数；from标签中type＝"password"数量；hidden属性出现次数；全文匹配window.location\window.open出现次数(JS中的)；全文匹配width＝0和height＝0出现次数；HTML长度；标签数量；是否出现meta标签(number of meta tag)；Login，register出现的次数；使用TextCNN对网页中的文本进行恶意预测的概率；JS中Document.write()函数出现次数；JS代码占是否有iframe(本质是JS生成的HTML代码有iframe标签)；script的JS脚本中空字符占比；JS脚本占HTML的比例；JS脚本的熵。

其中，通过将上述20个HTML特征维度的特征进行组合，即可得到最终的HTML特征。

需要说明的是，本申请实施例中，HTML标签特征和网页文本特征的提取还可用不同的策略。例如针对常见的网页，可以采用深度优先的方式进行标签或文本采集，但是对于如购物类型的网页，针对其页面排版可以尝试使用不同的算法策略进行文本采集。如盗版某宝的钓鱼网站，和正常的某宝相似度是很高的，区别可能在于用户登录以及涉及付款的地方。因此，可以对购物类的网站着重提取涉及用户隐私和交易的部分，可以忽略大量的商品信息，在此不做具体限定。

在分别提取上述特征之后，将URL特征和HTML特征会合并为一个特征向量，即网页融合特征，基于该特征向量即可进行模型训练以及线上的查询。

三、模型训练。

将预处理后的样本按比例8：2随机分为训练样本数据集和测试样本数据集，使用极端梯度提升(eXtreme Gradient Boosting，XGBOOST)进行网页识别模型的训练。另外，考虑到训练样本中恶意网页样本数量比例较低，针对这类样本不均衡的问题，本申请加强了恶意网页样本的权重，即负样本对应的权重高于正样本对应的权重。本申请中非指定类别的正样本即正常网页样本，指定类别负样本即恶意网页样本。

下面对线上查询的过程进行详细说明。

线上查询分为两个步骤，如图8所示。首先在样本库中匹配待查询的URL和HTML，若有结果则直接返回查询结果匹配的标签；若无查询结果则基于网页识别模型进行分类预测。其中带标签URL样本库查询采用部分匹配方式，即待检测网页的目标URL的前缀信息与样本库中候选URL的前缀信息匹配，则命中。带标签HTML样本库的匹配采用相似匹配，存在相似度较高的候选HTML文件，则认为命中，具体实施方式可参见上述实施例，重复之处不再赘述。

需要说明的是，本申请测试集分类精度在98.5％以上，部署在企业邮箱的反垃圾后台***中，单日识别到几十万恶意URL。本申请提出的基于URL和网页HTML的恶意识别方法，为兼顾足够丰富的信息量及较低的复杂度，本申请使用URL和网页HTML代码进行恶意识别，并尝试引入了若干新特征来提高识别的准确率。方案中的特征融合了URL的关键词、经验公式、统计学分布以及HTML的关键词、网页结构特征、统计学分布、文本特征等，有效提升了识别的准确率和实际场景的应用效果。

参阅图9所示，其为本申请实施例中的一种恶意网页识别方法的具体流程示意图。该方法的具体实施流程如下：

步骤S901：服务器获取待检测网页的目标URL文本，以及对应的目标HTML文件；

步骤S902：服务器将目标URL文本的前缀信息与URL样本库中的各个候选URL文本的前缀信息进行比对；

步骤S903：服务器判断URL样本库中是否存在与目标URL文本具有相同前缀信息的候选URL文本，如果是，则执行步骤S909，否则，执行步骤S904；

步骤S904：服务器将待检测网页的目标HTML文件与HTML样本库中的各个候选HTML文件进行相似度比对，获取各个候选HTML文件对应的文件相似度；

步骤S905：服务器判断HTML样本库是否存在与目标HTML文件的文件相似度高于相似度阈值的候选HTML文件，如果是，则执行步骤S910，否则，执行步骤S906；

步骤S906：服务器分别提取目标URL文本的URL特征以及目标HTML文件的HTML特征；

步骤S907：服务器将URL特征以及HTML特征进行特征融合，获得待检测网页对应的网页融合特征；

步骤S908：服务器基于网页融合特征，对待检测网页进行分类预测，获得待检测网页的分类识别结果；

步骤S909：服务器将URL样本库中与目标URL匹配的候选URL的类别标签，作为待检测网页的分类识别结果；

步骤S910：服务器将HTML样本库中与目标HTML文件匹配的候选HTML文件的类别标签，作为待检测网页的分类识别结果。

基于相同的发明构思，本申请实施例还提供一种网页识别装置。如图10所示，其为网页识别装置1000的结构示意图，可以包括：

获取单元1001，用于获取待检测网页的目标URL，以及对应的目标HTML文件；

匹配单元1002，用于基于目标URL以及目标HTML文件，将待检测网页与指定类别样本库进行特征匹配；

特征融合单元1003，用于若匹配失败，则提取目标URL的URL特征以及目标HTML文件的HTML特征，并将URL特征以及HTML特征进行特征融合，获得待检测网页对应的网页融合特征；

识别单元1004，用于基于网页融合特征，对待检测网页进行分类预测，获得待检测网页的分类识别结果。

可选的，指定类别样本库包括URL样本库与HTML样本库；匹配单元1002具体用于：

将目标URL的前缀信息与URL样本库中的各个候选URL的前缀信息进行比对；

若URL样本库中不存在与目标URL具有相同前缀信息的候选URL，则将待检测网页的目标HTML文件与HTML样本库中的各个候选HTML文件进行相似度比对，获取各个候选HTML文件对应的文件相似度。

可选的，匹配单元1002还用于：

若URL样本库中存在与目标URL具有相同前缀信息的候选URL，则确定匹配成功；或者，若HTML样本库存在与目标HTML文件的文件相似度高于相似度阈值的候选HTML文件，则确定匹配成功；

若HTML样本库不存在与目标HTML文件的文件相似度高于相似度阈值的候选HTML文件，则确定匹配失败。

可选的，匹配单元1002具体用于：

分别获取目标HTML文件对应的标签与各个候选HTML文件对应的标签之间的标签相似度，目标HTML文件对应的文本与各个候选HTML文件对应的文本之间的文本相似度，以及目标HTML文件对应的层叠样式属性与各个候选HTML文件对应的风格相似度；

分别将各个候选HTML文件对应的标签相似度、文本相似度、以及风格相似度，与相应的相似度权重进行加权求和，确定各个候选HTML文件对应的文件相似度。

可选的，特征融合单元1003具有用于：

提取目标URL的第一关键信息特征，域名特征以及第一统计学分布特征，并将第一关键信息特征，域名特征以及第一统计学分布特征组合作为URL特征；以及

提取目标HTML文件的第二关键信息特征，字符特征，网页结构特征，以及第二统计学分布特征，并将第二关键信息特征，字符特征，网页结构特征，以及第二统计学分布特征组合作为HTML特征。

可选的，第一统计学分布特征至少包括信息熵；特征融合单元1003具体用于通过下列方式确定目标URL的信息熵：

基于目标URL中各字符的出现次数，确定目标URL对应的URL字符频率；

基于URL字符频率确定目标URL的信息熵。

可选的，第一统计学分布特征至少包括相对熵；特征融合单元1003具体用于通过下列方式确定目标URL的相对熵：

基于目标URL中各字符的出现次数，确定目标URL对应的URL字符频率；以及，基于目标URL中标准英文字符的出现次数，确定目标URL对应的标准英文字符频率；

基于URL字符频率以及标准英文字符频率，确定目标URL的相对熵。

可选的，第一统计学分布特征至少包括空间分布特征值，其中指定类别的URL与非指定类别的URL的空间分布不同，相应的空间分布特征值也不同；

特征融合单元1003具体用于通过下列方式确定目标URL的空间分布特征值：

基于目标URL中标准英文字符的出现次数，确定目标URL对应的标准英文字符频率；

以标准英文字符频率为基准，确定目标URL的空间分布特征值。

可选的，第一统计学分布特征至少包括识别概率；特征融合单元1003具体用于通过下列方式确定目标URL的识别概率：

按照指定符号将目标URL进行初步分割，获得至少两个目标URL文本；

基于样本词表对至少两个目标URL文本进行二次分割，获得预处理后的URL文本，样本词表包括多个指定词，每个指定词包括至少一个字符；

基于已训练的深度学习模型，对预处理后的URL文本进行分类预测，获得识别概率。

可选的，特征融合单元1003具体用于：在基于样本词表对至少两个目标URL文本进行二次分割，获得预处理后的URL文本时，对于每个目标URL文本，都执行下列操作：

将目标URL文本作为待分割文本；

确定待分割文本中，以指定位置的字符为首的最长指定词；

基于最长指定词将待分割文本分割为：包括最长指定词的第一子文本，包括除最长指定词外的剩余字符的第二子文本；

将第二子文本作为待分割文本，并返回确定待分割文本中，以指定位置的字符为首的最长指定词的步骤，直至目标URL文本全部被分割，获得目标URL文本对应的预处理后的URL文本。

可选的，第二统计学分布特征至少包括JS脚本熵；其中指定类别的HTML文件的JS脚本包含目标动作，指定类别的HTML文件与非指定类别的HTML文件的JS脚本熵不同。

可选的，第二统计学分布特征至少包括HTML标签特征；特征融合单元1003具体用于通过下列方式确定目标HTML文件的HTML标签特征：

对目标HTML文件的DOM树进行深度优先遍历，以提取标签向量；

基于已训练的决策树模型对标签向量进行标签分类预测，将获得的预测概率作为目标HTML文件的HTML标签特征。

可选的，第二统计学分布特征至少包括网页文本特征；特征融合单元1003具体用于通过下列方式确定目标HTML文件的网页文本特征：

对目标HTML文件的DOM树进行深度优先遍历，将通过遍历查询到的目标HTML文件中的文本作为目标对象；

基于已训练的文本分类模型对目标对象进行文本分类，将获得的分类概率作为网页文本特征。

可选的，识别单元1004具体用于：

将网页融合特征输入已训练的网页识别模型，基于已训练的网页识别模型对待检测网页进行分类预测，获得分类识别结果；

其中，网页识别模型是基于训练样本数据集，采用极端梯度提升方式训练得到的，训练样本数据集包括非指定类别的正样本，以及指定类别的负样本，负样本对应的权重高于正样本对应的权重。

可选的，装置还包括：

确定单元1005，用于若匹配成功，则将匹配得到的指定类别样本的类别标签，作为待检测网页的分类识别结果。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实施方式的网页识别方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的用于网页识别装置。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为***、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

在一些可能的实施方式中，根据本申请的网页识别装置可以至少包括处理器和存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书中描述的根据本申请各种示例性实施方式的网页识别方法中的步骤。例如，所述处理器可以执行如图3中所示的步骤。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。在一种实施例中，该电子设备可以是服务器，如图1所示的服务器120。在该实施例中，电子设备的结构可以如图11所示，包括存储器1101，通讯模块1103以及一个或多个处理器1102。

存储器1101，用于存储处理器1102执行的计算机程序。存储器1101可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1101可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1101也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器1101是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1101可以是上述存储器的组合。

处理器1102，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器1102，用于调用存储器1101中存储的计算机程序时实现上述网页识别方法。

通讯模块1103用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1101、通讯模块1103和处理器1102之间的具体连接介质。本申请实施例在图11中以存储器1101和处理器1102之间通过总线1104连接，总线1104在图11中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1104可以分为地址总线、数据总线、控制总线等。为便于描述，图11中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1101中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的网页识别方法。处理器1102用于执行上述的网页识别方法，如图3所示。

在另一种实施例中，电子设备也可以是其他电子设备，如图1所示的终端设备110。在该实施例中，电子设备的结构可以如图12所示，包括：通信组件1210、存储器1220、显示单元1230、摄像头1240、传感器1250、音频电路1260、蓝牙模块1270、处理器1280等部件。

通信组件1210用于与服务器进行通信。在一些实施例中，可以包括电路无线保真(Wireless Fidelity，WiFi)模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi模块可以帮助用户收发信息。

存储器1220可用于存储软件程序及数据。处理器1280通过运行存储在存储器1220的软件程序或数据，从而执行终端设备110的各种功能以及数据处理。存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1220存储有使得终端设备110能运行的操作***。本申请中存储器1220可以存储操作***及各种应用程序，还可以存储执行本申请实施例网页识别方法的代码。

显示单元1230还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface，GUI)。具体地，显示单元1230可以包括设置在终端设备110正面的显示屏1232。其中，显示屏1232可以采用液晶显示器、发光二极管等形式来配置。显示单元1230可以用于显示本申请实施例中的应用操作界面等。

显示单元1230还可用于接收输入的数字或字符信息，产生与终端设备110的用户设置以及功能控制有关的信号输入，具体地，显示单元1230可以包括设置在终端设备110正面的触摸屏1231，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触摸屏1231可以覆盖在显示屏1232之上，也可以将触摸屏1231与显示屏1232集成而实现终端设备110的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1230可以显示应用程序以及对应的操作步骤。

摄像头1240可用于捕获静态图像，用户可以将摄像头1240拍摄的图像通过应用发布评论。摄像头1240可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1280转换成数字图像信号。

终端设备还可以包括至少一种传感器1250，比如加速度传感器1251、距离传感器1252、指纹传感器1253、温度传感器1254。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1260、扬声器1261、传声器1262可提供用户与终端设备110之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号，传输到扬声器1261，由扬声器1261转换为声音信号输出。终端设备110还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1262将收集的声音信号转换为电信号，由音频电路1260接收后转换为音频数据，再将音频数据输出至通信组件1210以发送给比如另一终端设备110，或者将音频数据输出至存储器1220以便进一步处理。

蓝牙模块1270用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1270与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。

处理器1280是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1220内的软件程序，以及调用存储在存储器1220内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1280可包括一个或多个处理单元；处理器1280还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1280中。本申请中处理器1280可以运行操作***、应用程序、用户界面显示及触控响应，以及本申请实施例的网页识别方法。另外，处理器1280与显示单元1230耦接。

在一些可能的实施方式中，本申请提供的网页识别方法的各个方面还可以实现为一种计算机程序产品或计算机程序的形式，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的网页识别方法中的步骤，例如，计算机设备可以执行如图3中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本申请件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种网页识别方法，其特征在于，该方法包括：

获取待检测网页的目标统一资源定位符URL，以及对应的目标超文本标记语言HTML文件；

2.如权利要求1所述的方法，其特征在于，所述指定类别样本库包括URL样本库与HTML样本库；所述基于所述目标URL以及所述目标HTML文件，将所述待检测网页与指定类别样本库进行特征匹配，包括：

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

4.如权利要求2所述的方法，其特征在于，所述将所述待检测网页的目标HTML文件与所述HTML样本库中的各个候选HTML文件进行相似度比对，获取所述各个候选HTML文件对应的相似度，包括：

5.如权利要求1所述的方法，其特征在于，所述提取所述目标URL的URL特征以及所述目标HTML文件的HTML特征，包括：

6.如权利要求5所述的方法，其特征在于，所述第一统计学分布特征至少包括信息熵；通过下列方式确定所述目标URL的信息熵：

基于所述URL字符频率确定所述目标URL的信息熵。

7.如权利要求5所述的方法，其特征在于，所述第一统计学分布特征至少包括相对熵；通过下列方式确定所述目标URL的相对熵：

8.如权利要求5所述的方法，其特征在于，所述第一统计学分布特征至少包括空间分布特征值，其中指定类别的URL与非指定类别的URL的空间分布不同，相应的空间分布特征值也不同；

通过下列方式确定所述目标URL的空间分布特征值：

9.如权利要求5所述的方法，其特征在于，所述第一统计学分布特征至少包括识别概率；通过下列方式确定所述目标URL的识别概率：

10.如权利要求9所述的方法，其特征在于，基于样本词表对所述至少两个目标URL文本进行二次分割，获得预处理后的URL文本时，对于每个目标URL文本，都执行下列操作：

将所述目标URL文本作为待分割文本；

11.如权利要求5所述的方法，其特征在于，所述第二统计学分布特征至少包括JS脚本熵；其中指定类别的HTML文件的JS脚本包含目标动作，指定类别的HTML文件与非指定类别的HTML文件的JS脚本熵不同。

12.如权利要求5所述的方法，其特征在于，所述第二统计学分布特征至少包括HTML标签特征；通过下列方式确定所述目标HTML文件的HTML标签特征：

对所述目标HTML文件的文档对象模型DOM树进行深度优先遍历，以提取标签向量；

13.如权利要求5所述的方法，其特征在于，所述第二统计学分布特征至少包括网页文本特征；通过下列方式确定所述目标HTML文件的网页文本特征：

14.如权利要求1所述的方法，其特征在于，所述基于所述网页融合特征，对所述待检测网页进行分类预测，获得所述待检测网页的分类识别结果，包括：

15.如权利要求1～14任一项所述的方法，其特征在于，所述方法还包括：

若匹配成功，则将匹配得到的指定类别样本的类别标签，作为所述待检测网页的分类识别结果。

16.一种网页识别装置，其特征在于，包括：

17.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～15中任一所述方法的步骤。

18.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述存储介质在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1～15中任一所述方法的步骤。

19.一种计算机程序产品，其特征在于，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1～15所述方法的步骤。