CN114021064A

CN114021064A - 网站分类方法、装置、设备及存储介质

Info

Publication number: CN114021064A
Application number: CN202210007626.XA
Authority: CN
Inventors: 童兆丰; 樊兴华; 薛锋
Original assignee: Beijing ThreatBook Technology Co Ltd
Current assignee: Beijing ThreatBook Technology Co Ltd
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-02-08

Abstract

本申请提供一种网站分类方法、装置、设备及存储介质，其中，一种网站分类方法包括：获取目标网站的图片和文本内容；基于图像分类模型识别所述图片的类型；基于文本分类模型识别所述文本内容的分类标签；基于所述图片的类型和所述文本内容的分类标签，确定所述目标网站的类型。本申请至少能够提高网站分类的准确性。

Description

网站分类方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种网站分类方法、装置、设备及存储介质。

背景技术

随着近年来互联网产业的整体发展，人类已经进入万物互联的时代，网络和大部分人的工作和生活已密不可分。但网络在给人们提供便利的同时，色情页面、赌博网站、违法内容、各式广告等网站也无时无刻充斥在我们的网络环境中。这些网站所耗费的网络资源导致了正常的网页加载速度变慢，而且色情赌博等有害信息也给用户造成了不良影响，尤其对青少年用户。

基于上述背景，需要对网站进行有效的识别和分类标注，进而通过DNS（域名解析***）类型的产品对不同类型的网站进行管控，如拦截或告警，为用户提供干净安全的网络环境，屏蔽无效站点骚扰，提高网页加载速度，节约带宽成本，提高用户工作效率。

然而，现有技术的技术方案为：首先人工定义分类类型的关键词库，需要人工通过搜集具体分类的一些网站，统计出该类型网站包含的典型词库作为该分类的关键词库；然后获取网站的网页源代码，抽取出文本内容；最后查看网页文本内容中是否包含分类关键词库中的关键词，对符合分类关键词命中规则的即认为该网站属于该分类。

由于较多的违法网站是通过iFrame渲染页面或者使用了大量的图片，无法获取到网页源代码，所以只依赖于网页源代码并分析其文本内容的方式不能有效识别这类网站，即只依赖于网页源代码并分析其文本内容的方式具有识别准确性低的缺点。

发明内容

本申请实施例的目的在于提供一种网站分类方法、装置、设备及存储介质，用以至少提高网站分类的准确性。

为此，本申请第一方面公开一种网站分类方法，所述方法包括：

获取目标网站的图片和文本内容；

基于图像分类模型识别所述图片的类型；

基于文本分类模型识别所述文本内容的分类标签；

基于所述图片的类型和所述文本内容的分类标签，确定所述目标网站的类型。

在本申请第一方面中，作为一种可选的实施方式，所述文本分类模型为Fasttext模型。

在本申请第一方面中，作为一种可选的实施方式，所述基于文本分类模型识别所述文本内容的分类标签，包括：

提取所述文本内容中的单个词组，并将所述单个词组转换为词向量；

计算所述词向量的向量值，所述向量值表征两个词向量之间的向量关系；

累加所述文本内容对应的至少两个词向量的向量值，并得到所述文本内容的文档向量；

基于所述文本内容的文档向量确定所述文本内容的分类标签。

在本申请第一方面中，作为一种可选的实施方式，所述获取目标网站的图片和文本内容，包括：

获取所述目标网站的网站源代码；

基于所述目标网站的网站源代码提取所述文本内容；

对所述目标网站的网页进行截图并得到网页截图；

将所述网页截图作为所述目标网站的图片。

在本申请第一方面中，作为一种可选的实施方式，在所述获取所述目标网站的网站源代码之后，所述基于所述目标网站的网站源代码提取所述文本内容之前，所述方法还包括：

判断所述目标网站的网站源代码是否可提取所述文本内容，或判断所述目标网站的网站源代码是否可提取；

当所述目标网站的网站源代码无法提取所述文本内容，或所述目标网站的网站源代码无法提取时，对所述网页截图进行文字识别，并得到所述文本内容。

在本申请第一方面中，作为一种可选的实施方式，在所述获取目标网站的图片和文本内容之前，所述方法还包括：

获取针对所述文本分类模型的第一训练样本；

基于所述第一训练样本训练所述文本分类模型，并基于所述文本分类模型的训练结果调整所述文本分类模型的参数，直至所述文本分类模型的输出准确率满足第一预设值；

获取针对所述图像分类模型的第二训练样本；

基于所述第二训练样本训练所述图像分类模型，并基于所述图像分类模型的训练结果调整所述图像分类模型的参数，直至所述图像分类模型的输出准确率满足第二预设值。

获取针对所述文本分类模型的第一测试集；

基于所述第一测试集测试所述文本分类模型，并得到所述文本分类模型的测试结果；

获取针对所述图像分类模型的第二测试集；

基于所述第二测试集测试所述图像分类模型，并得到所述图像分类模型的测试结果；

基于所述文本分类模型的测试结果和所述图像分类模型的测试结果，确定所述分类测试结果；

当所述分类测试结果与预设分类结果不一致性时，获取针对所述分类测试结果的正负样本，并将所述正负样本的加入到所述第一训练样本中，或加入到所述第二训练样本中。

本申请第二方面公开一种网站分类装置，所述装置包括：

获取模块，用于获取目标网站的图片和文本内容；

第一识别模块，用于基于图像分类模型识别所述图片的类型；

第二识别模块，用于基于文本分类模型识别所述文本内容的分类标签；

确定模块，用于基于所述图片的类型和所述文本内容的分类标签，确定所述目标网站的类型。

本申请第三方面公开一种网站分类设备，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如本申请第一方面的网站分类方法。

本申请第四方面公开一种存储介质，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本申请第一方面的网站分类方法。

与现有技术相比，本申请具有如下有益技术效果：

本申请实施例的存储介质通过获取目标文档的图片和文本内容，一方面能够基于图像分类模型对图片进行分类而得到图片分类结果，另一方面能够基于文档分类模型得到分类标签，这样一来就能够将图片识别结果与文本内容的分类标签一起用于对目标网站的分类，从而能够克服仅依赖文本内容对网站进行分类存在的网站分类准确性低的缺点，因此，与现有技术相比，本申请实施例具有网站分类准确性更高的优点。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例公开的一种网站分类方法的流程示意图；

图2是本申请实施例公开的一种网站分类装置的结构示意图；

图3是本申请实施例公开的一种网站分类设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

实施例一

请参阅图1，图1是本申请实施例公开的一种网站分类方法的流程示意图。如图1所示，本申请实施例的网站分类方法包括以下步骤：

101、获取目标网站的图片和文本内容；

102、基于图像分类模型识别图片的类型；

103、基于文本分类模型识别文本内容的分类标签；

104、基于图片的类型和文本内容的分类标签，确定目标网站的类型。

本申请实施例通过获取目标文档的图片和文本内容，一方面能够基于图像分类模型对图片进行分类而得到图片分类结果，另一方面能够基于文档分类模型得到分类标签，这样一来就能够将图片识别结果与文本内容的分类标签一起用于对目标网站的分类，从而能够克服仅依赖文本内容对网站进行分类存在的网站分类准确性低的缺点，因此，与现有技术相比，本申请具有网站分类准确性更高的优点。

示例性，例如，如果获取到目标网站的图片A和文本内容B，其中，基于图像分类模型对图片A进行识别，得到目标网站的分类结果为“目标网站为S1类型”，而基于文本分类模型对文本内容进行识别，得到分类标签为“目标网站为S2类”，此时，相比仅依赖文本内容对目标网站分类而言，基于图片和文本内容得到目标网站的两个分类结果，能够从更多的维度确定网站的分类，从而避免忽略图片对目标网站的分类影响，从而提高目标网站最终的分类准确性。

在本申请实施例中，获取目标网站的图片和文本内容的一种具体方式是：基于目标网站的URL获取目标网站的图片和文本内容。

在本申请实施例中，图像分类模型的初始模型可以是VGG网络、GoogLeNet网络中的一种，也可以其中类型的模型，如Residual Network，对此本申请实施例不作限定。

在本申请实施例中，作为一种可选的实施方式，文本分类模型为Fasttext模型。

在本可选的实施方式中，Fasttext模型是facebook开源的一个词向量与文本分类工具，Fasttext模型和其他深度神经网络模型相比，Fasttext模型利用词内的n-gram信息(subword n-gram information)，和层次化Softmax回归(Hierarchical Softmax)的训练trick，从而具有训练快、训练高的优点。

在本申请实施例中，作为一种可选的实施方式，步骤103：基于文本分类模型识别文本内容的分类标签，包括以下子步骤：

提取文本内容中的单个词组，并将单个词组转换为词向量；

计算词向量的向量值，向量值表征两个词向量之间的向量关系；

累加文本内容对应的至少两个词向量的向量值，并得到文本内容的文档向量；

基于文本内容的文档向量确定文本内容的分类标签。

在本可选的实施方式通过提取文本内容中的单个词组和将单个词组转换为词向量，能够计算词向量的向量值，向量值表征两个词向量之间的向量关系，进而能够累加文本内容对应的至少两个词向量的向量值并得到文本内容的文档向量，最终能够基于文本内容的文档向量确定文本内容的分类标签，在这一过程中，通过将文本内容中的单个词组转换为词向量的形式，能够利用词向量计算单词之间的相关性，进而能够在向量空间中定位到单词的位置，进而基于单词周边已知词的空间向量推测其含义，进而能够完善单词的含义，从而基于完善的单词含义得到更加准确的文本分类标签，从而上解决一词多义、多词一义问题。与此同时，本可选的实施方式是就文档内容的文档向量确定最终的文本分类结果，这与现有技术基于单个词语进行文本分类这一方式相比，本可选的方式能够考虑每个单词对最终分类结果的影响，最终进步提高文本分类结果。

在本申请第一方面中，作为一种可选的实施方式，步骤101：获取目标网站的图片和文本内容，包括以下子步骤：

获取目标网站的网站源代码；

基于目标网站的网站源代码提取文本内容；

对目标网站的网页进行截图并得到网页截图；

将网页截图作为目标网站的图片。

本可选的实施方式通过获取目标网站的网站源代码，进而能够基于目标网站的网站源代码提取文本内容。另一方面，本可选的实施方式通过对目标网站的网页进行截图并得到网页截图，进而能够将网页截图作为目标网站的图片。

在本申请实施例中，作为一种可选的实施方式，在步骤：获取目标网站的网站源代码之后，步骤：基于目标网站的网站源代码提取文本内容之前，本申请实施例的方法还包括以下步骤：

由于在一些场景中，目标网站的网站源代码无法获取文本内容或者目标网站的网站源代码的根本无法获取，例如，文本内容以图片的形式出现在目标网站中时，基于目标网站的网站源代码无法就获取图片的文本内容，针对这一场景，本申请能够对目标网站的网页进行截图并得到网页截图，进而通过对网页截图进行文字识别，可得到文本内容。

进一步地，在一些场景中，基于目标网站的网站源代码获取的文本内容较少，此时，通过对网页截图进行文字识别可并得到额外的文本内容，从而扩充文本内容。

在本申请实施例中，作为一种可选的实施方式，在步骤101：获取目标网站的图片和文本内容之前，本申请实施例的方法还包括以下步骤：

获取针对文本分类模型的第一训练样本；

基于第一训练样本训练文本分类模型，并基于文本分类模型的训练结果调整文本分类模型的参数，直至文本分类模型的输出准确率满足第一预设值；

获取针对图像分类模型的第二训练样本；

基于第二训练样本训练图像分类模型，并基于图像分类模型的训练结果调整图像分类模型的参数，直至图像分类模型的输出准确率满足第二预设值。

在本可选的实施方式中，第一训练样本可以是人工标注的网站分类训练数据，第二训练样本也可以是人工标注的网站分类训练数据。

在本可选的实施方式中，第一预设值可以是95%，也可以96%。另一方面，第二预设阈值可以是85%，也可以是95%。

在本可选的实施方式中，图像分类模型的参数可以是卷积网络的权重、损失函数的参数等。

本可选的实施方式通过文本分类模型训练方法和图像识别模块训练方法替代了分类关键词命中法，进而减少了人工积累分类关键词库和适配规则的工作。另一方面，本可选的实施方式通过调整文本分类模型的参数和调整图像分类模型的参数，能够使得文本分类模型和图像分类模型的输出效果最优。

获取针对文本分类模型的第一测试集；

基于第一测试集测试文本分类模型，并得到文本分类模型的测试结果；

获取针对图像分类模型的第二测试集；

基于第二测试集测试图像分类模型，并得到图像分类模型的测试结果；

基于文本分类模型的测试结果和图像分类模型的测试结果，确定分类测试结果；

当分类测试结果与预设分类结果不一致性时，获取针对分类测试结果的正负样本，并将正负样本的加入到第一训练样本中，或加入到第二训练样本中。

本可选的实施方式通过获取针对分类测试结果的正负样本，并将正负样本的加入到第一训练样本中，或加入到第二训练样本中，进而能够扩充训练数据的数量和丰富训练数据样例。

实施例二

请参阅图2，图2是本申请实施例公开的一种网站分类装置的结构示意图。如图2所示，本申请实施例的装置包括以下功能模块：

获取模块201，用于获取目标网站的图片和文本内容；

第一识别模块202，用于基于图像分类模型识别图片的类型；

第二识别模块203，用于基于文本分类模型识别文本内容的分类标签；

确定模块204，用于基于图片的类型和文本内容的分类标签，确定目标网站的类型。

本申请实施例的装置通过获取目标文档的图片和文本内容，一方面能够基于图像分类模型对图片进行分类而得到图片分类结果，另一方面能够基于文档分类模型得到分类标签，这样一来就能够将图片识别结果与文本内容的分类标签一起用于对目标网站的分类，从而能够克服仅依赖文本内容对网站进行分类存在的网站分类准确性低的缺点，因此，与现有技术相比，本申请实施例具有网站分类准确性更高的优点。

需要说明的是，关于本申请实施例的详细说明，请参阅本申请实施例一的详细说明，本申请实施例对此不作赘述。

实施例三

请参阅图3，图3是本申请实施例公开的一种网站分类设备的结构示意图。如图3所示，本申请实施例的设备包括：

存储有可执行程序代码的存储器301；

与存储器301耦合的处理器302；

处理器302调用存储器301中存储的可执行程序代码，执行如本申请实施例一的网站分类方法。

本申请实施例的设备通过获取目标文档的图片和文本内容，一方面能够基于图像分类模型对图片进行分类而得到图片分类结果，另一方面能够基于文档分类模型得到分类标签，这样一来就能够将图片识别结果与文本内容的分类标签一起用于对目标网站的分类，从而能够克服仅依赖文本内容对网站进行分类存在的网站分类准确性低的缺点，因此，与现有技术相比，本申请实施例具有网站分类准确性更高的优点。

实施例四

本申请实施例公开一种存储介质，存储介质存储有计算机指令，计算机指令被调用时，用于执行本申请实施例一的网站分类方法。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种网站分类方法，其特征在于，所述方法包括：

获取目标网站的图片和文本内容；

基于图像分类模型识别所述图片的类型；

基于文本分类模型识别所述文本内容的分类标签；

2.如权利要求1所述的方法，其特征在于，所述文本分类模型为Fasttext模型。

3.如权利要求2所述的方法，其特征在于，所述基于文本分类模型识别所述文本内容的分类标签，包括：

4.如权利要求1所述的方法，其特征在于，所述获取目标网站的图片和文本内容，包括：

获取所述目标网站的网站源代码；

基于所述目标网站的网站源代码提取所述文本内容；

对所述目标网站的网页进行截图并得到网页截图；

将所述网页截图作为所述目标网站的图片。

5.如权利要求4所述的方法，其特征在于，在所述获取所述目标网站的网站源代码之后，所述基于所述目标网站的网站源代码提取所述文本内容之前，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，在所述获取目标网站的图片和文本内容之前，所述方法还包括：

获取针对所述文本分类模型的第一训练样本；

获取针对所述图像分类模型的第二训练样本；

7.如权利要求6所述的方法，其特征在于，在所述获取目标网站的图片和文本内容之前，所述方法还包括：

获取针对所述文本分类模型的第一测试集；

获取针对所述图像分类模型的第二测试集；

基于所述文本分类模型的测试结果和所述图像分类模型的测试结果，确定分类测试结果；

8.一种网站分类装置，其特征在于，所述装置包括：

获取模块，用于获取目标网站的图片和文本内容；

9.一种网站分类设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的网站分类方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的网站分类方法。