CN115982505A

CN115982505A - 基于vlm的网站检测方法和装置

Info

Publication number: CN115982505A
Application number: CN202310251601.9A
Authority: CN
Inventors: 吴一超; 蔡可妍; 张乐平; 顾明娟
Original assignee: Beijing Deepctrl Co ltd
Current assignee: Beijing Deepctrl Co ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-04-18

Abstract

本发明提供了基于VLM的网站检测方法和装置，包括：获取网站信息，网站信息包括网站首页的图片和源代码的目标文字信息；将源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量；将网站首页的图片通过训练后的NFNet‑F6模型，构成n个张量；将第一张量和n个张量进行转换和拼接处理，得到拼接后的向量；将拼接后的向量通过文本编码器和MLP模型，得到分类概率数组；在网页分类中，以训练后的文本transformer模型及训练后的NFNet‑F6模型为基础，结合网页文字信息和图片的特征，训练出可以对网页截图进行多分类的模型，从而达到可以精准分类网站的目的。

Description

基于VLM的网站检测方法和装置

技术领域

本发明涉及计算机技术领域，尤其是涉及基于VLM的网站检测方法和装置。

背景技术

随着互联网的普及，web建站的门槛越来越低，充斥着各种无ICP备案的网站、侵权影音网站和小说网站等。这些网站对社会发展容易造成恶劣影响。

当各类终端设备在访问这些网站的时候，需要对网站内容进行合规性检测。目前通过机器学习的方法来做网页内容分类的办法主要有以下几种：1）基于网页文本：通过深度学习cnn等算法来解释文字之间的相似度；通过逻辑回归和贝叶斯等机器学习的方法来对文本分类；通过网页结构属性特征作为输入，比如html标签、css和各类属性等，通过svm神经网络来做预测；2）基于网站日志数据来做分类；上述方法都需要大量的先验知识及人工标注来训练模型，从而导致分类的准确率低。

发明内容

有鉴于此，本发明的目的在于提供基于VLM的网站检测方法和装置，在网页分类中，以训练后的文本transformer模型及训练后的NFNet-F6模型为基础，结合网页文字信息和图片的特征，训练出可以对网页截图进行多分类的模型，从而达到可以精准分类网站的目的。

第一方面，本发明实施例提供了基于VLM的网站检测方法，所述方法包括：

获取网站信息，所述网站信息包括网站首页的图片和源代码的目标文字信息；

将所述源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量；

将所述网站首页的图片通过训练后的NFNet-F6模型，构成n个张量；

将所述第一张量和所述n个张量进行转换和拼接处理，得到拼接后的向量；

将所述拼接后的向量通过文本编码器和MLP模型，得到分类概率数组。

进一步的，所述源代码的目标文字信息包括所述源代码的网站描述信息或所述源代码的正文文本；将所述源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量，包括：

将所述源代码的网站描述信息或所述源代码的正文文本输入到所述训练后的文本transformer模型中，输出得到第一向量；

根据所述第一向量构成多个文本形成的所述第一张量。

进一步的，将所述网站首页的图片通过训练后的NFNet-F6模型，构成n个张量，包括：

将所述网站首页的图片输入到所述训练后的NFNet-F6模型中，输出得到最后第二层对应的第二张量；

根据所述第二张量构成多个图片对应的所述n个张量。

进一步的，将所述第一张量和所述n个张量进行转换和拼接处理，得到拼接后的向量，包括：

将所述第一张量进行转换，得到第二向量；

将所述n个张量进行转换，得到第三向量；

将所述第二向量和所述第三向量进行拼接，得到所述拼接后的向量。

进一步的，将所述拼接后的向量通过文本编码器和MLP模型，得到分类概率数组，包括：

将所述拼接后的向量通过所述文本编码器，得到编码后的向量；

将所述编码后的向量通过所述MLP模型，得到所述分类概率数组。

进一步的，所述方法还包括：

获取待预测网站的网站描述信息、网页文本和网页图片；

将所述网站描述信息和所述网页文本输入到文本编码器中，输出得到第四向量；

将所述网页图片输入到所述NFNet-F6模型中进行编码，得到第五张量；

将所述第四向量和所述第五张量进行拼接，得到拼接后的待预测向量；

将所述拼接后的待预测向量输入到训练后的MLP模型中，输出得到分类结果。

进一步的，所述方法还包括：

通过反向传播更新所述训练后的文本transformer模型的参数和所述训练后的NFNet-F6模型的参数。

第二方面，本发明实施例提供了基于VLM的网站检测装置，所述装置包括：

网站信息获取模块，用于获取网站信息，所述网站信息包括网站首页的图片和源代码的目标文字信息；

第一构成模块，用于将所述源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量；

第二构成模块，用于将所述网站首页的图片通过训练后的NFNet-F6模型，构成n个张量；

处理模块，用于将所述第一张量和所述n个张量进行转换和拼接处理，得到拼接后的向量；

分类概率数组获取模块，用于将所述拼接后的向量通过文本编码器和MLP模型，得到分类概率数组。

第三方面，本发明实施例提供了电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的方法。

第四方面，本发明实施例提供了具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行如上所述的方法。

本发明实施例提供了基于VLM的网站检测方法和装置，包括：获取网站信息，网站信息包括网站首页的图片和源代码的目标文字信息；将源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量；将网站首页的图片通过训练后的NFNet-F6模型，构成n个张量；将第一张量和n个张量进行转换和拼接处理，得到拼接后的向量；将拼接后的向量通过文本编码器和MLP模型，得到分类概率数组；在网页分类中，以训练后的文本transformer模型及训练后的NFNet-F6模型为基础，结合网页文字信息和图片的特征，训练出可以对网页截图进行多分类的模型，从而达到可以精准分类网站的目的。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的基于VLM的网站检测方法流程图；

图2为本发明实施例一提供的训练模型过程示意图；

图3为本发明实施例二提供的基于VLM的网站检测装置示意图。

图标：

1-网站信息获取模块；2-第一构成模块；3-第二构成模块；4-处理模块；5-分类概率数组获取模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本实施例进行理解，下面对本发明实施例进行详细介绍。

实施例一：

图1为本发明实施例一提供的基于VLM的网站检测方法流程图。

参照图1，该方法包括以下步骤：

步骤S101，获取网站信息，网站信息包括网站首页的图片和源代码的目标文字信息；

这里，使用浏览器渲染技术爬取1000万个中文网站的首页的快照图片及对应的源代码的目标文字信息；其中，源代码的目标文字信息包括源代码的网站描述信息或源代码的正文文本。

网站首页的源代码的网站描述信息指的是标签里content属性；如果没有源代码的网站描述信息，就取出源代码的正文文本，此正文文本和网站首页的图片组成一个组，并作为训练的输入。例如，网站首页中Meta content的文本，是对网站的一个简要描述，其他文本则是对网站的关联性描述：content=“AA是国内知名的视频弹幕网站，这里有及时的动漫新番，大家可以在这里找到许多欢乐。”

步骤S102，将源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量；

步骤S103，将网站首页的图片通过训练后的NFNet-F6模型，构成n个张量；

步骤S104，将第一张量和n个张量进行转换和拼接处理，得到拼接后的向量；

步骤S105，将拼接后的向量通过文本编码器和MLP模型，得到分类概率数组。

具体地，模型包括三部分，首先是训练后的文本transformer模型，其次是训练后的NFNet-F16模型，再次是要训练的目标视觉语言transformer模型。在网页分类中，以训练后的文本transformer模型及训练后的NFNet-F6模型为基础，结合网页文字信息和图片的特征，训练出可以对网页截图进行多分类的模型，从而达到可以精准分类网站的目的。

进一步的，源代码的目标文字信息包括源代码的网站描述信息或源代码的正文文本；步骤S102包括以下步骤：

步骤S201，将源代码的网站描述信息或源代码的正文文本输入到训练后的文本transformer模型中，输出得到第一向量；

步骤S202，根据第一向量构成多个文本形成的第一张量。

具体地，参照图2，将源代码的目标文字信息通过训练后的文本transformer模型，输出得到第一向量T[0，5，0，4，0，7...0]，然后根据第一向量T形成多个文本形成的形状为[n，1]的第一张量T。

进一步的，步骤S103包括以下步骤：

步骤S301，将网站首页的图片输入到训练后的NFNet-F6模型中，输出得到最后第二层对应的第二张量；

步骤S302，根据第二张量构成多个图片对应的n个张量。

具体地，将网站首页的图片输入到训练后的NFNet-F6模型中，取模型最后第二层输出形状为的张量，一批次图形成n个形状为的张量I[n, c, x,y]。

进一步的，步骤S104包括以下步骤：

步骤S401，将第一张量进行转换，得到第二向量；

步骤S402，将n个张量进行转换，得到第三向量；

步骤S403，将第二向量和第三向量进行拼接，得到拼接后的向量。

具体地，将第一张量T转换成第二向量，将n个张量I转换成第三向量，然后拼接在一起，得到拼接后的向量。

进一步的，步骤S105包括以下步骤：

步骤S501，将拼接后的向量通过文本编码器，得到编码后的向量；

步骤S502，将编码后的向量通过MLP模型，得到分类概率数组。

具体地，将拼接后的向量输入到一个处理图片文本序列的文本编码器（Encoder）中，得到编码后的向量；将编码后的向量通过MLP模型，输出分类概率数组。通过反向传播更新文本transformer和NFNet-F6的参数，训练的学习率为0.00002，批处理量为500。其中，MLP（多层感知机）是深度神经网络（DNN）的基础算法。

进一步的，该方法还包括以下步骤：

步骤S601，获取待预测网站的网站描述信息、网页文本和网页图片；

步骤S602，将网站描述信息和网页文本输入到文本编码器中，输出得到第四向量；

步骤S603，将网页图片输入到NFNet-F6模型中进行编码，得到第五张量；

步骤S604，将第四向量和第五张量进行拼接，得到拼接后的待预测向量；

步骤S605，将拼接后的待预测向量输入到训练后的MLP模型中，输出得到分类结果。

具体地，将网站描述信息和网页文本输入到文本编码器（text Encoder）中，输出得到第四向量TN；将网页图片输入到NFNet-F6模型中进行编码，得到第五张量IN；将TN和IN拼接在一起后，输入到训练后的MLP模型中，输出得到分类结果。

进一步的，该方法还包括以下步骤：

步骤S701，通过反向传播更新训练后的文本transformer模型的参数和训练后的NFNet-F6模型的参数。

在网页分类中，以训练后的文本transformer模型及训练后的NFNet-F6模型为基础，结合网页文字信息和图片的特征，通过天然的网页文字和截图的非标注数据，训练出可以对网页截图进行多分类的模型，从而达到可以精准分类网站的目的。

本发明实施例提供了基于VLM的网站检测方法，包括：获取网站信息，网站信息包括网站首页的图片和源代码的目标文字信息；将源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量；将网站首页的图片通过训练后的NFNet-F6模型，构成n个张量；将第一张量和n个张量进行转换和拼接处理，得到拼接后的向量；将拼接后的向量通过文本编码器和MLP模型，得到分类概率数组；在网页分类中，以训练后的文本transformer模型及训练后的NFNet-F6模型为基础，结合网页文字信息和图片的特征，训练出可以对网页截图进行多分类的模型，从而达到可以精准分类网站的目的。

实施例二：

图3为本发明实施例二提供的基于VLM的网站检测装置示意图。

参照图3，该装置包括：

网站信息获取模块1，用于获取网站信息，网站信息包括网站首页的图片和源代码的目标文字信息；

第一构成模块2，用于将源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量；

第二构成模块3，用于将网站首页的图片通过训练后的NFNet-F6模型，构成n个张量；

处理模块4，用于将第一张量和n个张量进行转换和拼接处理，得到拼接后的向量；

分类概率数组获取模块5，用于将拼接后的向量通过文本编码器和MLP模型，得到分类概率数组。

进一步的，源代码的目标文字信息包括源代码的网站描述信息或源代码的正文文本；第一构成模块2具体用于：

将源代码的网站描述信息或源代码的正文文本输入到训练后的文本transformer模型中，输出得到第一向量；

根据第一向量构成多个文本形成的第一张量。

进一步的，第二构成模块3具体用于：

将网站首页的图片输入到训练后的NFNet-F6模型中，输出得到最后第二层对应的第二张量；

根据第二张量构成多个图片对应的n个张量。

进一步的，处理模块4具体用于：

将第一张量进行转换，得到第二向量；

将n个张量进行转换，得到第三向量；

将第二向量和第三向量进行拼接，得到拼接后的向量。

进一步的，分类概率数组获取模块5具体用于：

将拼接后的向量通过文本编码器，得到编码后的向量；

将编码后的向量通过MLP模型，得到分类概率数组。

本发明实施例提供了基于VLM的网站检测装置，包括：获取网站信息，网站信息包括网站首页的图片和源代码的目标文字信息；将源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量；将网站首页的图片通过训练后的NFNet-F6模型，构成n个张量；将第一张量和n个张量进行转换和拼接处理，得到拼接后的向量；将拼接后的向量通过文本编码器和MLP模型，得到分类概率数组；在网页分类中，以训练后的文本transformer模型及训练后的NFNet-F6模型为基础，结合网页文字信息和图片的特征，训练出可以对网页截图进行多分类的模型，从而达到可以精准分类网站的目的。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的基于VLM的网站检测方法的步骤。

本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，计算机可读介质上存储有计算机程序，计算机程序被处理器运行时执行上述实施例的基于VLM的网站检测方法的步骤。

本发明实施例所提供的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于VLM的网站检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于VLM的网站检测方法，其特征在于，所述源代码的目标文字信息包括所述源代码的网站描述信息或所述源代码的正文文本；将所述源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量，包括：

根据所述第一向量构成多个文本形成的所述第一张量。

3.根据权利要求1所述的基于VLM的网站检测方法，其特征在于，将所述网站首页的图片通过训练后的NFNet-F6模型，构成n个张量，包括：

根据所述第二张量构成多个图片对应的所述n个张量。

4.根据权利要求1所述的基于VLM的网站检测方法，其特征在于，将所述第一张量和所述n个张量进行转换和拼接处理，得到拼接后的向量，包括：

将所述第一张量进行转换，得到第二向量；

将所述n个张量进行转换，得到第三向量；

5.根据权利要求1所述的基于VLM的网站检测方法，其特征在于，将所述拼接后的向量通过文本编码器和MLP模型，得到分类概率数组，包括：

6.根据权利要求1所述的基于VLM的网站检测方法，其特征在于，所述方法还包括：

获取待预测网站的网站描述信息、网页文本和网页图片；

7.根据权利要求1所述的基于VLM的网站检测方法，其特征在于，所述方法还包括：

8.一种基于VLM的网站检测装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1至7任一项所述的方法。