CN113222022A - 一种网页分类识别方法及装置 - Google Patents
一种网页分类识别方法及装置 Download PDFInfo
- Publication number
- CN113222022A CN113222022A CN202110522326.0A CN202110522326A CN113222022A CN 113222022 A CN113222022 A CN 113222022A CN 202110522326 A CN202110522326 A CN 202110522326A CN 113222022 A CN113222022 A CN 113222022A
- Authority
- CN
- China
- Prior art keywords
- text
- feature vector
- image
- target page
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 266
- 238000004364 calculation method Methods 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims description 60
- 238000005516 engineering process Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 4
- 238000009877 rendering Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 15
- 238000012549 training Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 7
- 238000013136 deep learning model Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012954 risk control Methods 0.000 description 3
- 238000011946 reduction process Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本说明书一个或多个实施例提供一种网页分类识别方法、装置、电子设备及机器可读存储介质,所述方法包括:基于从目标页面中提取出的图像特征,生成对应的图像特征向量;获取与从所述目标页面中提取出的文本对应的文本特征向量;将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算,得到与所述目标页面对应的分类结果。
Description
技术领域
本说明书一个或多个实施例涉及人工智能技术领域,尤其涉及一种网页分类识别方法、装置、电子设备及机器可读存储介质。
背景技术
随着线上和线下的行业联系日益密切,越来越多的线下商家可以接入到线上互联网平台,来售卖商品或者提供服务,从而增加客户数量。在商家请求接入互联网平台时,为了避免涉及到非法行业以及敏感行业的商家给互联网平台带来风险,互联网平台可以对请求接入的商家进行风险控制。
在实际应用中,互联网平台可以识别请求接入的商家所处的行业,并基于商家行业识别的结果进行风险控制。例如,服务器可以先通过爬虫程序,从商家面向用户提供的商家网页中读取文本数据,再将爬虫程序读取到的文本数据输入利用文本多标签分类学习训练出的分类模型,从而识别出与商家网页对应的行业分类。
发明内容
本申请提供一种网页分类识别方法,所述方法包括:
基于从目标页面中提取出的图像特征,生成对应的图像特征向量;
获取与从所述目标页面中提取出的文本对应的文本特征向量;
将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算,得到与所述目标页面对应的分类结果。
可选的,所述基于从目标页面中提取出的图像特征,生成对应的图像特征向量,包括:
基于ResNet模型,从所述目标页面中提取图像特征,并基于所述图像特征生成对应的图像特征向量。
可选的,所述基于ResNet模型,从所述目标页面中提取图像特征之前,还包括:
基于Headless Browser技术,生成与所述目标网页对应的渲染图像;
所述基于ResNet模型,从所述目标页面中提取图像特征,包括:
基于ResNet模型,从所述渲染图像中提取图像特征。
可选的,所述基于ResNet模型,从所述目标页面中提取图像特征之前,还包括:
通过爬虫程序,采集所述目标页面中加载的图像;
所述基于ResNet模型,从所述目标页面中提取图像特征,包括:
基于ResNet模型,从所述爬虫程序采集到的所述目标页面中加载的图像中提取图像特征。
可选的,所述图像特征向量与所述文本特征向量的特征维度相同;
所述将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算之前,还包括:
对生成的所述图像特征向量进行降维处理,以获得与所述文本特征向量的特征维度相同的图像特征向量。
可选的,所述获取与从所述目标页面中提取出的文本对应的文本特征向量,包括:
将从所述目标页面中提取出的文本输入预训练的Bert模型,由所述Bert模型的嵌入层进行嵌入处理,并获取所述Bert模型的嵌入层输出的与所述文本中的文本字符对应的文本特征向量。
可选的,所述将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算,包括:
将所述图像特征向量和所述文本特征向量进行拼接,以生成多模态向量;
将所述多模态向量作为所述输入数据,输入预训练的Bert模型进行分类计算。
可选的,所述将所述多模态向量作为所述输入数据,输入预训练的Bert模型进行分类计算,包括:
将所述多模态向量作为所述输入数据,输入预训练的Bert模型,由所述Bert模型的编码层进行编码处理;
将所述Bert模型的编码层输出的针对所述多模态向量的编码处理结果,继续输入所述Bert模型的分类层进行分类计算。
本申请还提供一种网页分类识别装置,所述装置包括:
图像处理单元,用于基于从目标页面中提取出的图像特征,生成对应的图像特征向量;
文本处理单元,用于获取与从所述目标页面中提取出的文本对应的文本特征向量;
分类单元,用于将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算,得到与所述目标页面对应的分类结果。
可选的,所述图像处理单元,具体用于:
基于ResNet模型,从所述目标页面中提取图像特征,并基于所述图像特征生成对应的图像特征向量。
可选的,所述图像处理单元,还用于:
基于Headless Browser技术,生成与所述目标网页对应的渲染图像;
所述图像处理单元,具体用于:
基于ResNet模型,从所述渲染图像中提取图像特征。
可选的,所述图像处理单元,还用于:
通过爬虫程序,采集所述目标页面中加载的图像;
所述图像处理单元,具体用于:
基于ResNet模型,从所述爬虫程序采集到的所述目标页面中加载的图像中提取图像特征。
可选的,所述图像特征向量与所述文本特征向量的特征维度相同;
所述图像处理单元,还用于:
对生成的所述图像特征向量进行降维处理,以获得与所述文本特征向量的特征维度相同的图像特征向量。
可选的,所述文本处理单元,具体用于:
将从所述目标页面中提取出的文本输入预训练的Bert模型,由所述Bert模型的嵌入层进行嵌入处理,并获得所述Bert模型的嵌入层输出的与所述文本中的文本字符对应的文本特征向量。
可选的,所述分类单元,具体用于:
将所述图像特征向量和所述文本特征向量进行拼接,以生成多模态向量;
将所述多模态向量作为所述输入数据,输入预训练的Bert模型进行分类计算。
可选的,所述分类单元,具体用于:
将所述多模态向量作为所述输入数据,输入预训练的Bert模型,由所述Bert模型的编码层进行编码处理;
将所述Bert模型的编码层输出的针对所述多模态向量的编码处理结果,继续输入所述Bert模型的分类层进行分类计算。
本申请还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述方法。
本申请还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现上述方法。
通过以上实施例,由于可以将与从目标页面中提取出的图像特征对应的图像特征向量,以及与从所述目标页面中提取出的文本对应的文本特征向量均作为输入数据,输入预训练的Bert模型进行分类计算,因此,对于Bert模型而言,可以将输入数据由单一的文本特征向量,扩展为包含图像特征向量和文本特征向量的多模态的输入数据,从而可以将所述目标页面中的文本特征和图像特征结合起来进行分类计算,实现提升所述Bert模型进行分类计算的准确率。
附图说明
图1是一示例性的实施例示出的一种Bert模型的示意图;
图2是一示例性的实施例示出的一种网页分类识别方法的流程图;
图3是一示例性的实施例示出的一种网页分类识别方法的示意图;
图4是一示例性的实施例示出的一种网页分类识别装置所在电子设备的结构示意图;
图5是一示例性的实施例示出的一种网页分类识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
以商家行业识别为例,线下商家在接入互联网平台时,通常需要面向用户提供商家网页。而互联网平台可以通过识别与所述商家网页对应的行业分类,来进行商家行业识别,并基于商家行业识别的结果,来进一步对接入平台的商家进行风险控制。
例如,在实现时,服务端可以获取需要进行商家行业识别的商家页面的URL地址,再通过爬虫程序,从所述URL地址对应的商家网页中提取文本数据,进一步地,可以将提取到的文本数据输入预训练完成的分类模型,以得到所述分类模型输出的与所述商家网页对应的行业分类结果。
需要说明的是,在以上示出的应用场景中,关于服务端获取需要进行商家行业识别的商家页面的具体实现方式,本说明书不做限制;例如,可以为用户提供商家行业识别界面,以使用户可以通过所述商家行业识别界面输入需要进行商家行业识别的商家页面的URL地址,进而可以获取与用户输入的URL地址对应的商家网页;又例如,服务端在监测到商家发起针对平台的接入请求时,可以获取所述商家的商家网页,并自动地对获取到的商家网页进行商家行业识别。
其中,在实际应用中,对商家页面进行商家行业识别时,所述分类模型通常可以采用Bert(Bidirectional Encoder Representation from Transformers,基于变换器的双向编码器表示技术)模型。Bert模型是一种可以基于词向量进行文本分类的深度学习模型。
为了使本技术领域的人员更好地理解本说明书实施例中的技术方案,下面先对本说明书实施例涉及的Bert模型的相关技术,进行简要说明。
请参考图1,图1是一示例性的实施例示出的一种Bert模型的示意图。所述Bert模型,通常可以包括嵌入层、编码层和分类层。
需要说明的是,所述嵌入层、编码层以及分类层可以包括非真实存在的物理模块,也即,可以包括基于实际的计算功能为所述Bert模型划分的虚拟层。关于所述Bert模型中的各层的命名,本说明书中也不做特别的限定;例如,所述嵌入层也可以被称作embedding层,所述编码层也可以被称作transformer encoder层。
在实际应用中,可以将文本输入所述Bert模型,由所述Bert模型的嵌入层进行嵌入处理,并可以获取到所述Bert模型的嵌入层输出的与所述文本中的每个文本字符对应的文本特征向量(也可以称为词向量)。
具体地,所述Bert模型的嵌入层可以对输入的文本进行单词化拆分,拆分出多个文本字符(token);并一方面在拆分得到的所有文本字符之前添加CLS标志位,作为代表所述文本的整体语义的标识,另一方面分别在拆分得到的所有文本字符之后添加SEP标志位,作为不同句子(segment)的分隔标识;进一步地,可以针对从所述文本中拆分得到的每个文本字符分别进行词嵌入(token embedding)、句子嵌入(segment embedding)和位置嵌入(position embedding),得到与所述每个文本字符对应的文本特征向量。
例如,针对从文本中拆分得到的任一文本字符,一方面可以对该文本字符进行token embedding,得到与该文本字符对应的第一文本特征子向量,另一方面可以根据该文本字符所属的句子进行segment embedding,得到与该文本字符对应的第二文本特征子向量,再一方面可以根据该文本字符在句子中的位置进行position embedding,得到与该文本字符对应的第三文本特征子向量;后续,可以将所述第一文本特征子向量、第二文本特征子向量和第三文本特征子向量相加,并将相加得到的向量确定为与该文本字符对应的文本特征向量。
需要说明的是,在进行segment embedding时,可以用A、B、C等、或者0、1、2等,来标识不同的句子。另外,需要说明的是,对于所述Bert模型输出的与所述文本中的每个文本字符对应的文本特征向量而言,各文本特征向量的特征维度通常都是相同的。
进一步地,在实际应用中,可以将所述文本特征向量输入所述Bert模型,由所述Bert模型的编码层进行编码处理,并可以得到所述Bert模型的编码层输出的针对所述文本特征向量的编码处理结果。
具体地,可以将所述Bert模型的嵌入层输出的所述文本特征向量,继续输入所述Bert模型的编码层进行编码处理,并可以获取到所述Bert模型的编码层输出的针对所述文本特征向量的编码处理结果(也可以称为与所述文本字符对应的语义向量)。关于进行编码处理的具体过程,请参见相关技术,在此不再赘述。
进一步地,在实际应用中,可以将所述文本特征向量或所述语义向量输入所述Bert模型,由所述Bert模型的分类层进行分类计算,并可以得到所述Bert模型的分类层输出的分类结果。
具体地,可以将所述文本特征向量或所述编码处理结果输入所述Bert模型进行分类计算,也即,可以将所述文本特征向量或所述编码处理结果作为所述分类函数的自变量进行分类计算;并可以得到所述Bert模型的分类层输出的对应的分类结果,也即,可以计算出与所述分类函数的所述自变量对应的因变量。
其中,在训练所述分类函数的过程中,所述分类结果可以包括每种分类结果以及每种分类结果的概率值;在利用所述分类函数进行预测的过程中,所述分类结果可以包括概率值最大的分类结果。需要说明的是,本领域技术人员可以根据需求,为所述Bert模型的分类层选择不同的分类函数,本说明书中不做限定。
例如,所述分类函数为softmax函数,可以表示为f(x)=Wx+b;其中,x可以为所述Bert模型的编码层输出的编码处理结果;W可以是一个D*C的矩阵,D为所述编码处理结果的特征维度数量,C为分类结果的总数量;b可以为一个C维向量;f(x)可以为所述Bert模型的分类层输出的分类结果。
由此可见,在以上示出的实施例中,可以将从商家网页中提取出的文本作为输入数据,输入预训练的Bert模型进行分类计算,从而得到与所述商家网页对应的分类结果。然而,所述Bert模型的输入数据通常只有文本数据,导致得到的商家行业识别的分类结果并不准确。
有鉴于此,本说明书旨在提出一种对Bert模型的输入数据进行扩展,将与目标页面对应的图像特征向量和文本特征向量一起作为输入数据,输入Bert模型进行分类计算,来针对目标网页实现分类识别的技术方案。
在实现时,服务端可以基于从目标页面中提取出的图像特征,生成对应的图像特征向量;还可以获取与从所述目标页面中提取出的文本对应的文本特征向量;进一步地,可以将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算,得到与所述目标页面对应的分类结果。
由此可见,在本说明书中的技术方案中,由于可以将与从目标页面中提取出的图像特征对应的图像特征向量,以及与从所述目标页面中提取出的文本对应的文本特征向量均作为输入数据,输入预训练的Bert模型进行分类计算;因此,对于所述Bert模型而言,可以将输入数据由单一的文本特征向量,扩展为包含图像特征向量和文本特征向量的多模态的输入数据,从而可以将所述目标页面中的文本特征和图像特征结合起来进行分类计算,实现提升Bert模型进行分类计算的准确率。
下面通过具体实施例,并结合具体的应用场景对本申请进行描述。
请参见图2,图2是一示例性的实施例示出的一种网页分类识别方法的流程图,上述方法执行以下步骤:
步骤202:基于从目标页面中提取出的图像特征,生成对应的图像特征向量;
步骤204:获取与从所述目标页面中提取出的文本对应的文本特征向量;
步骤206:将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算,得到与所述目标页面对应的分类结果。
在本说明书中,所述目标页面可以包括待分类识别的页面。
例如,目标页面具体可以包括待进行商家行业识别的商家页面。
需要说明的是,关于所述目标页面的具体类型,本说明书不做限定;在实际应用中,除了针对商家页面进行商家行业识别,所述网页识别方法也可以应用于其他需要对网页进行分类识别的场景中,所述目标页面也可以包括待分类识别的其他页面。
在本说明书中,为了提升所述Bert模型进行分类计算的准确率,可以将所述Bert模型进行分类计算的依据,从单一的文本特征,扩展为与所述目标页面对应的图像特征和文本特征;也即,可以将所述Bert模型进行分类计算的输入数据,从单一的文本特征向量,扩展为文本特征向量和图像特征向量。
在实现时,可以分别从目标页面中提取图像特征,生成对应的图像特征向量,并可以从所述目标页面中提取文本特征,生成对应的文本特征向量,再将生成的图像特征向量和文本特征向量作为输入数据,一起输入所述Bert模型进行分类计算,就可以得到与所述目标页面对应的分类结果。
下面分为生成图像特征向量、获取文本特征向量、Bert模型进行分类计算这三个部分,来对所述网页分类识别方法进行描述。
其中,需要说明的是,关于生成图像特征向量以及获取文本特征向量的先后顺序,在本说明书中不进行特别限定;也即,所述步骤202和步骤204的执行顺序可以进行互换。
(1)生成图像特征向量
由于所述Bert模型通常无法对直接输入的图像进行分类计算,因此,在将从所述目标页面中提取出的图像特征输入所述Bert模型进行分类计算之前,可以基于从所述目标页面中提取出的图像特征,生成对应的图像特征向量。
在本说明书中,在基于从所述目标页面中提取出的图像特征,生成对应的图像特征向量时,具体可以通过预训练的图像特征提取模型,从所述目标页面中提取图像特征,并生成与提取出的图像特征对应的图像特征向量。
需要说明的是,关于从所述目标页面中提取图像特征,生成对应的图像特征向量时,所采用的图像特征提取模型的具体类型,在本说明书中不进行特别限定;在实际应用中,本领域技术人员可以根据需求,选择不同类型的图像特征提取模型。
在实际应用中,随着深度学***衡,从而克服深度学习模型的深度较大而导致的模型训练困难的问题。
在示出的一种实施方式中,所述图像特征提取模型可以是ResNet模型;在实现时,可以基于ResNet模型从所述目标页面中提取图像特征,并基于所述图像特征生成对应的图像特征向量。
例如,可以基于预训练的ResNet模型,从待进行商家行业识别的商家页面中提取图像特征,并生成与提取出的图像特征对应的图像特征向量。
需要说明的是,在以上示出的实施方式中,由于所述图像特征提取模型通常是深度较大的深度学习模型,因此,采用ResNet模型从所述目标页面中提取图像特征,并基于所述图像特征生成对应的图像特征向量,可以克服图像特征提取模型的深度较大而导致的模型训练困难的问题。
在本说明书中,在从所述目标页面中提取图像特征时,具体可以获取与所述目标页面对应的图像信息,并从获取到的图像信息中提取与所述目标页面对应的图像特征;也可以先对获取到的与所述目标页面对应的图像信息进行预处理,再从预处理后的图像中提取与所述目标页面对应的图像特征。
关于获取与所述目标页面对应的图像信息的具体实现方式,在本说明书中不进行特别限定;在实际应用中,本领域技术人员可以根据需求,选择不同的实现方式来获取与所述目标页面对应的图像信息。
在示出的一种实施方式中,与所述目标页面对应的图像信息可以包括所述目标页面中加载的图像;在从所述目标页面中提取图像特征时,具体可以先通过爬虫程序,采集所述目标页面中加载的图像,再基于ResNet模型,从所述爬虫程序采集到的所述目标页面中加载的图像中提取图像特征。
例如,可以先通过爬虫程序,采集所述商家页面中加载的若干图像,再基于预训练的ResNet模型,从采集到的所述若干图像中提取图像特征。
需要说明的是,在以上示出的实施方式中,由于无法将通过爬虫程序采集到的图像直接输入Bert模型进行分类计算,因此,可以先基于ResNet模型从采集到的图像中提取图像特征,并生成对应的图像特征向量,后续就可以将生成的与目标页面中记载的图像对应的图像特征向量输入Bert模型进行分类计算。
在示出的另一种实施方式中,与所述目标页面对应的图像信息可以包括所述目标页面的渲染图像;在从所述目标页面中提取图像特征时,具体可以先基于HeadlessBrowser技术,生成与所述目标网页对应的渲染图像,再基于ResNet模型,从所述渲染图像中提取图像特征。
其中,所述渲染图像可以理解为,与所述目标页面在浏览器中打开时展示给用户的样式一致的图像。
在实际应用中,基于Headless Browser技术,可以自动地对所述目标网页进行渲染,并通过获取屏幕截图、打印页面DOM等方式,生成与所述目标网页对应的渲染图像;其中,所述Headless Browser(无头浏览器),是指可以在命令行运行的浏览器,并且本领域技术人员可以通过编写代码,来控制所述无头浏览器自动执行各种任务。
例如,可以先基于Headless Browser技术对商家页面进行渲染,生成与所述商家页面对应的渲染图像,再基于预训练的ResNet模型,从生成的渲染图像中提取图像特征。
需要说明的是,在以上示出的实施方式中,一方面,由于无法将生成的渲染图像直接输入Bert模型进行分类计算,因此,可以先基于ResNet模型从生成的渲染图像中提取图像特征,并生成对应的图像特征向量,后续就可以将生成的与目标页面的渲染图像对应的图像特征向量输入Bert模型进行分类计算;另一方面,对于移动H5站点、小程序、动态网页等较多地采用AJAX(Asynchronous JavaScript And XML)技术的目标页面,通过爬虫程序无法采集到目标页面的框架信息,而目标网页的渲染图像既可以包含所述目标网页的框架信息,也可以包含所述目标网页中加载的图像信息,因此,通过从所述目标页面的渲染图像中提取图像特征,可以帮助Bert模型学习到与所述目标网页的框架信息对应的布局特征,进而在将与所述图像特征对应的图像特征向量输入Bert模型时,所述Bert模型可以将与目标页面中加载的图像对应的图像特征、以及与目标页面的框架信息对应的图像特征结合起来进行分类计算,从而进一步地提升Bert模型进行分类计算的准确率。
关于对图像信息进行预处理的具体方式,在本说明书中不进行特别限定;例如,本领域技术人员可以根据需求,针对通过爬虫程序采集到的目标页面中加载的图像,或者生成的与目标页面对应的渲染图像,执行大小变换、位置变换、截取等图像清洗操作。
在本说明书中,在将生成的图像特征向量和文本特征向量作为输入数据,一起输入所述Bert模型进行分类计算之前,还可以对所述生成的图像特征向量进行降维处理,来降低所述生成的图像特征向量的特征维度。
关于在对所述图像特征向量进行降维处理时,采用的降维处理的具体方式,在本说明书中不进行特别限定,关于所述降维处理的具体实现过程,请参见相关技术,在此不再赘述。
在实际应用中,本领域技术人员可以根据需求,选择不同的实现方式来对所述图像特征向量进行降维处理。例如,可以通过pooling操作或线性变换等方式,对所述图像特征向量进行降维处理。
在示出的一种实施方式中,可以将所述生成的图像特征向量的特征维度降至与所述生成的文本特征向量的特征维度相同;在实现时,可以对所述生成的图像特征向量进行降维处理,以获得与所述文本特征向量的特征维度相同的图像特征向量。
例如,在将生成的图像特征向量输入Bert模型进行分类计算之前,可以通过pooling操作对所述图像特征向量进行降维处理,以获得与生成的文本特征向量的特征维度相同的图像特征向量。
又例如,在将生成的图像特征向量输入Bert模型进行分类计算之前,可以先通过pooling操作对所述图像特征向量进行降维处理,以获得对应的若干2048维的图像向量特征;再进一步地通过线性变换,将所述2048维的图像向量特征转换为与生成的文本特征向量的特征维度相同的图像特征向量。
需要说明的是,在以上示出的实施方式中,对于所述Bert模型而言,可以针对特征维度相同的图像特征向量和文本特征向量,进行类似的编码处理,有利于提高所述Bert模型针对所述目标页面进行网页分类识别的效率。
(2)获取文本特征向量
由于可以从所述目标页面中提取图像特征,生成对应的图像特征向量,因此,在将从所述目标页面中提取出的文本特征输入所述Bert模型进行分类计算之前,可以获取与从所述目标页面中提取出的文本对应的文本特征向量,后续就可以将生成的图像特征向量和获取到的文本特征向量作为输入数据,一起输入所述Bert模型进行分类计算。
在本说明书中,在获取与从所述目标页面中提取出的文本对应的文本特征向量时,具体可以通过预训练的文本特征提取模型,从所述目标页面中提取文本特征,并生成与提取出的文本特征对应的文本特征向量。
需要说明的是,关于从所述目标页面中提取文本特征,生成对应的文本特征向量时,所采用的文本特征提取模型的具体类型,在本说明书中不进行特别限定;在实际应用中,本领域技术人员可以根据需求,选择不同类型的NLP(自然语言处理)模型并进行预训练,来针对所述目标页面中的文本进行特征提取,并生成与提取的文本特征对应的文本特征向量。
在示出的一种实施方式中,所述NLP模型可以是Bert模型;在实现时,可以将从所述目标页面中提取出的文本输入所述Bert模型,由所述Bert模型的嵌入层进行嵌入处理,并可以获取所述Bert模型的嵌入层输出的与所述文本中的文本字符对应的文本特征向量。
例如,可以将从商家页面中提取出的文本输入Bert模型,由所述Bert模型的嵌入层进行嵌入处理,具体地,所述Bert模型可以对所述文本进行单词化的拆分,并对从所述文本中拆分出的每个文本字符(token)分别进行词嵌入(token embedding)、句子嵌入(segment embedding)和位置嵌入(position embedding)的处理,可以获取到所述Bert模型的嵌入层输出的与所述文本对应的文本特征向量。
需要说明的是,在以上示出的实施方式中,通过将从所述目标页面中提取出的文本输入所述Bert模型进行嵌入处理,无需引入其他NLP模型,就可以得到与所述文本中的文本字符对应的文本特征向量。
在本说明书中,在从所述目标页面中提取文本特征时,具体可以获取与所述目标页面对应的文本信息,并从获取到的文本信息中提取与所述目标页面对应的文本特征;也可以先对获取到的与所述目标页面对应的文本信息进行预处理,再从预处理后的文本中提取与所述目标页面对应的文本特征。
关于获取与所述目标页面对应的文本信息的具体实现方式,在本说明书中不进行特别限定;在实际应用中,本领域技术人员可以根据需求,选择不同的实现方式来获取与所述目标页面对应的文本信息。
例如,在从所述目标页面中提取文本特征时,可以先通过爬虫程序采集待进行分类识别的商家页面中加载的文本,再从采集到的文本中提取与所述商家页面对应的文本特征。
关于对所述文本信息进行预处理的具体方式,在本说明书中不进行特别限定;例如,本领域技术人员可以根据需求,除去采集到的文本中的HTML标签信息,以获得与所述目标页面的页面内容相关的文本;又例如,可以过滤掉所述文本中的标点符号、停用词等与所述文本的语义相关度不高的信息。
需要说明的是,在将文本特征向量和图像特征向量作为输入数据,一起输入所述Bert模型进行分类计算之前,为了对所述输入数据中的文本特征向量和图像特征向量加以区分,在进行句子嵌入(segment embedding)处理时,可以用不同的标识来区分文本特征向量与图像特征向量。
例如,在一种实现方式中,在进行句子嵌入处理时,可以用A标识文本特征向量,用B标识图像特征向量。
(3)Bert模型进行分类计算
在本说明书中,在分别从所述目标页面中提取图像特征,生成对应的图像特征向量,以及从所述目标页面中提取文本特征,生成对应的文本特征向量之后,可以将生成的所述图像特征向量和所述文本特征向量作为输入数据,一起输入所述Bert模型进行分类计算,得到与所述目标页面对应的分类结果。
在实际应用中,在训练所述Bert模型时,可以预先设置与待进行分类识别的目标页面对应的若干分类结果;在利用所述Bert模型对目标页面的分类结果进行预测的过程中,可以将基于从所述目标页面中提取出的图像特征而生成的图像特征向量、以及基于从所述目标页面中提取出的文本特征而生成的文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算,并将计算出的概率值最大的分类结果,确定为与所述目标网页对应的分类结果。
例如,用户预设的商家行业分类共有N种,分别为分类1、分类2、……、分类N;在针对商家网页进行商家行业识别时,可以将生成的与从商家页面中提取出的图像特征对应的图像特征向量、和获取到的与从所述商家页面中提取出的文本特征对应的文本特征向量,作为输入数据,一起输入所述Bert模型进行分类计算,可以得到与所述商家页面对应的商家行业分类结果为分类1。
需要说明的是,关于所述Bert模型输出的分类结果的具体类型以及分类结果的总数量,本领域技术人员可以根据需求,灵活地进行配置,本说明书不做限制;例如,在一种实现方式中,所述Bert模型可能输出的与商家页面对应的行业分类结果共有6种,分别为服装、食品、数码、生鲜、医药、其他。
在实际应用中,获取到的所述文本特征向量可能是矩阵的形式,生成的所述图像特征向量也有可能是矩阵的形式;在将所述文本特征向量和所述图像特征向量输入所述Bert模型进行分类计算之前,可以先对所述图像特征向量和所述文本特征向量进行拼接,得到包含有所述图像特征向量和文本特征向量的矩阵,也即,生成与所述图像特征向量和所述文本特征向量对应的多模态向量。
在示出的一种实施方式中,可以将所述图像特征向量和所述文本特征向量以多模态向量的形式输入所述Bert模型进行分类计算;在实现时,可以先将生成的所述图像特征向量和获取到的所述文本特征向量进行拼接,以生成多模态向量,再将拼接得到的所述多模态向量作为输入数据,输入所述Bert模型进行分类计算。
例如,基于从商家页面中提取出的图像特征,生成对应的图像特征向量为矩阵1,以及获取与从所述商家面中提取出的文本对应的文本特征向量为矩阵2,可以将矩阵1和矩阵2进行拼接得到矩阵3,也即,生成的与所述图像特征向量和所述文本特征向量对应的多模态向量为矩阵3;进一步地,可以将生成的多模态向量作为输入数据,输入所述Bert模型进行分类计算。
在实际应用中,在将所述多模态向量作为输入数据,输入所述Bert模型进行分类计算时,所述Bert模型可以先对所述多模态向量进行编码处理,再进行分类计算;在实现时,具体可以先将所述多模态向量作为输入数据,输入所述Bert模型,由所述Bert模型的编码层进行编码处理,再将所述Bert模型的编码层输出的针对所述多模态向量的编码处理结果,继续输入所述Bert模型,由所述Bert模型的分类层进行分类计算,得到所述Bert模型的分类层输出的与所述目标页面对应的分类结果。
例如,生成的多模态向量为矩阵3,可以先将矩阵3作为输入数据,输入所述Bert模型的编码层进行编码处理,得到所述Bert模型的编码层输出的针对矩阵3的编码处理结果为矩阵3’;再将拼接得到的矩阵3’继续输入所述Bert模型的分类层进行分类计算,得到所述Bert模型的分类层输出的与商家页面对应的分类结果为分类1。
在实际应用中,对所述Bert模型进行训练时,可以对所述Bert模型的分类函数进行有监督的训练;在实现时,具体可以先获取预设数量的训练样本,其中,所述训练样本可以包括样本页面以及与所述样本页面对应的实际分类结果;再基于所述训练样本,按照预设的优化目标对所述Bert模型的分类函数进行有监督的训练。
其中,所述优化目标可以包括:针对所述训练样本中的任一训练样本,与样本页面的匹配度最高的分类结果与所述样本页面对应的实际分类结果匹配。为了实现按照预设的优化目标对上述Bert模型的分类函数进行有监督的训练,可以在基于上述训练样本对上述Bert模型的分类函数进行有监督的训练时,通过判断与上述分类函数对应的交叉熵损失函数是否收敛,确定上述分类函数是否达到该优化目标,即确定上述分类函数是否训练完成。
例如,如果所述交叉熵损失函数收敛,则可以确定上述Bert模型的分类函数训练完成;如果所述交叉熵损失函数不收敛,则可以确定上述Bert模型的分类函数未训练完成,从而可以继续对上述分类函数进行有监督的训练。
通过以上技术方案可知,由于可以将与从目标页面中提取出的图像特征对应的图像特征向量,以及与从所述目标页面中提取出的文本对应的文本特征向量均作为输入数据,输入预训练的Bert模型进行分类计算,因此,对于所述Bert模型而言,可以将输入数据由单一的文本特征向量,扩展为包含图像特征向量和文本特征向量的多模态的输入数据,从而可以将所述目标页面中的文本特征和图像特征结合起来进行分类计算,实现提升Bert模型进行分类计算的准确率。
为了使本技术领域的人员更好地理解本说明书实施例中的技术方案,以下实施例以采用ResNet模型从目标页面中提取图像特征向量、采用Bert模型从目标页面中提取文本特征向量、以及采用Bert模型对输入数据进行分类计算为例,对所述网页分类识别方法进行示例性的说明。
请参见图3,图3是一示例性的实施例示出的一种网页分类识别方法的示意图。
如图3所示,在对目标页面进行网页分类识别时,可以先从所述目标页面中提取文本和图像。
例如,可以通过爬虫程序采集待分类识别的商家页面中加载的图像,或者,可以基于Headless Browser技术对所述商家页面进行渲染,生成与所述商家页面对应的渲染图像;以及,可以通过爬虫程序采集所述商家页面中加载的文本。
进一步地,可以将从所述目标页面中提取出的文本输入所述Bert模型,由所述Bert模型的嵌入层进行嵌入处理,并得到所述Bert模型的嵌入层输出的与所述文本中的文本字符对应的文本特征向量;以及,可以基于ResNet模型从所述目标页面的图像中提取图像特征,并基于所述图像特征生成对应的图像特征向量。
例如,可以将从商家页面中提取出的文本输入Bert模型,由所述Bert模型的嵌入层进行嵌入处理,得到所述Bert模型的嵌入层输出的与所述文本对应的文本特征向量和以及,可以将从商家页面中提取出的图像输入ResNet模型,从所述商家页面中提取图像特征,并生成与提取出的图像特征对应的图像特征向量。其中,如果将爬虫程序采集到的图像输入ResNet模型,可以得到所述ResNet模型输出的与所述商家页面中加载的图像对应的图像特征向量和如果将所述商家页面的渲染图像输入ResNet模型,可以得到所述ResNet模型输出的与所述商家页面中加载的图像对应的图像特征向量和和与所述商家页面的框架信息对应的图像特征向量进一步地,生成所述文本特征向量和所述图像特征向量之后,可以将生成的所述图像特征向量和获取到的所述文本特征向量进行拼接,以生成多模态向量。
进一步地,可以先将拼接得到的所述多模态向量作为输入数据,输入所述Bert模型,由所述Bert模型的编码层进行编码处理,并得到所述Bert模型的编码层输出的针对所述多模态向量的编码处理结果;再将所述编码处理结果继续输入所述Bert模型的分类层进行分类计算,得到所述Bert模型的分类层输出的与所述目标页面对应的分类结果。
例如,可以将拼接得到的多模态向量作为输入数据,输入所述Bert模型,由所述Bert模型的编码层进行编码处理,得到所述Bert模型的编码层输出的针对多模态向量的编码处理结果为进一步地,可以将编码处理结果继续输入所述Bert模型的分类层进行分类计算,得到所述Bert模型的分类层输出的分类结果,也即,得到与所述商家页面对应的行业分类。
与上述网页分类识别方法的实施例对应的,本说明书还提供了一种网页分类识别装置的实施例。
请参见图4,图4是一示例性的实施例示出的一种网页分类识别装置所在电子设备的硬件结构图。在硬件层面,该设备包括处理器402、内部总线404、网络接口406、内存408以及非易失性存储器410,当然还可能包括其他业务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器402从非易失性存储器410中读取对应的计算机程序到内存408中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参见图5,图5是一示例性的实施例示出的一种网页分类识别装置的框图。该网页分类识别装置可以应用于如图4所示的电子设备中,以实现本说明书的技术方案。其中,所述网页分类识别装置可以包括:
图像处理单元501,用于基于从目标页面中提取出的图像特征,生成对应的图像特征向量;
文本处理单元502,用于获取与从所述目标页面中提取出的文本对应的文本特征向量;
分类单元503,用于将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算,得到与所述目标页面对应的分类结果。
在本实施例中,所述图像处理单元501,具体用于:
基于ResNet模型,从所述目标页面中提取图像特征,并基于所述图像特征生成对应的图像特征向量。
在本实施例中,所述图像处理单元501,还用于:
基于Headless Browser技术,生成与所述目标网页对应的渲染图像;
所述图像处理单元501,具体用于:
基于ResNet模型,从所述渲染图像中提取图像特征。
在本实施例中,所述图像处理单元501,还用于:
通过爬虫程序,采集所述目标页面中加载的图像;
所述图像处理单元501,具体用于:
基于ResNet模型,从所述爬虫程序采集到的所述目标页面中加载的图像中提取图像特征。
在本实施例中,所述图像特征向量与所述文本特征向量的特征维度相同;
所述图像处理单元501,还用于:
对生成的所述图像特征向量进行降维处理,以获得与所述文本特征向量的特征维度相同的图像特征向量。
在本实施例中,所述文本处理单元502,具体用于:
将从所述目标页面中提取出的文本输入预训练的Bert模型,由所述Bert模型的嵌入层进行嵌入处理,并获取所述Bert模型的嵌入层输出的与所述文本中的文本字符对应的文本特征向量。
在本实施例中,所述分类单元503,具体用于:
将所述图像特征向量和所述文本特征向量进行拼接,以生成多模态向量;
将所述多模态向量作为所述输入数据,输入预训练的Bert模型进行分类计算。
在本实施例中,所述分类单元503,具体用于:
将所述多模态向量作为所述输入数据,输入预训练的Bert模型,由所述Bert模型的编码层进行编码处理;
将所述Bert模型的编码层输出的针对所述多模态向量的编码处理结果,继续输入所述Bert模型的分类层进行分类计算。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例只是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (11)
1.一种网页分类识别方法,其特征在于,所述方法包括:
基于从目标页面中提取出的图像特征,生成对应的图像特征向量;
获取与从所述目标页面中提取出的文本对应的文本特征向量;
将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算,得到与所述目标页面对应的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述基于从目标页面中提取出的图像特征,生成对应的图像特征向量,包括:
基于ResNet模型,从所述目标页面中提取图像特征,并基于所述图像特征生成对应的图像特征向量。
3.根据权利要求2所述的方法,其特征在于,所述基于ResNet模型,从所述目标页面中提取图像特征之前,还包括:
基于Headless Browser技术,生成与所述目标网页对应的渲染图像;
所述基于ResNet模型,从所述目标页面中提取图像特征,包括:
基于ResNet模型,从所述渲染图像中提取图像特征。
4.根据权利要求2所述的方法,其特征在于,所述基于ResNet模型,从所述目标页面中提取图像特征之前,还包括:
通过爬虫程序,采集所述目标页面中加载的图像;
所述基于ResNet模型,从所述目标页面中提取图像特征,包括:
基于ResNet模型,从所述爬虫程序采集到的所述目标页面中加载的图像中提取图像特征。
5.根据权利要求1所述的方法,其特征在于,所述图像特征向量与所述文本特征向量的特征维度相同;
所述将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算之前,还包括:
对生成的所述图像特征向量进行降维处理,以获得与所述文本特征向量的特征维度相同的图像特征向量。
6.根据权利要求1所述的方法,其特征在于,所述获取与从所述目标页面中提取出的文本对应的文本特征向量,包括:
将从所述目标页面中提取出的文本输入预训练的Bert模型,由所述Bert模型的嵌入层进行嵌入处理,并获取所述Bert模型的嵌入层输出的与所述文本中的文本字符对应的文本特征向量。
7.根据权利要求1所述的方法,其特征在于,所述将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算,包括:
将所述图像特征向量和所述文本特征向量进行拼接,以生成多模态向量;
将所述多模态向量作为所述输入数据,输入预训练的Bert模型进行分类计算。
8.根据权利要求7所述的方法,其特征在于,所述将所述多模态向量作为所述输入数据,输入预训练的Bert模型进行分类计算,包括:
将所述多模态向量作为所述输入数据,输入预训练的Bert模型,由所述Bert模型的编码层进行编码处理;
将所述Bert模型的编码层输出的针对所述多模态向量的编码处理结果,继续输入所述Bert模型的分类层进行分类计算。
9.一种网页分类识别装置,其特征在于,所述装置包括:
图像处理单元,用于基于从目标页面中提取出的图像特征,生成对应的图像特征向量;
文本处理单元,用于获取与从所述目标页面中提取出的文本对应的文本特征向量;
分类单元,用于将所述图像特征向量和所述文本特征向量作为输入数据,输入预训练的Bert模型进行分类计算,得到与所述目标页面对应的分类结果。
10.一种电子设备,其特征在于,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行权利要求1至8任一项所述的方法。
11.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522326.0A CN113222022A (zh) | 2021-05-13 | 2021-05-13 | 一种网页分类识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522326.0A CN113222022A (zh) | 2021-05-13 | 2021-05-13 | 一种网页分类识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113222022A true CN113222022A (zh) | 2021-08-06 |
Family
ID=77095321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110522326.0A Pending CN113222022A (zh) | 2021-05-13 | 2021-05-13 | 一种网页分类识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113222022A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429106A (zh) * | 2021-12-29 | 2022-05-03 | 北京百度网讯科技有限公司 | 页面信息处理方法、装置、电子设备和存储介质 |
CN114662033A (zh) * | 2022-04-06 | 2022-06-24 | 昆明信息港传媒有限责任公司 | 一种基于文本和图像的多模态有害链接识别 |
CN115221523A (zh) * | 2022-09-20 | 2022-10-21 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816005A (zh) * | 2019-01-18 | 2019-05-28 | 北京智游网安科技有限公司 | 基于cnn的应用程序行业分类方法、存储介质及终端 |
CN110781925A (zh) * | 2019-09-29 | 2020-02-11 | 支付宝(杭州)信息技术有限公司 | 软件页面的分类方法、装置、电子设备及存储介质 |
CN111401416A (zh) * | 2020-03-05 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 异常网站的识别方法、装置和异常对抗行为的识别方法 |
CN111488953A (zh) * | 2020-06-28 | 2020-08-04 | 浙江网新恒天软件有限公司 | 基于html源码特征对网页主题进行快速分类的方法 |
CN111563551A (zh) * | 2020-04-30 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种多模态信息融合方法、装置及电子设备 |
CN111581510A (zh) * | 2020-05-07 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 分享内容处理方法、装置、计算机设备和存储介质 |
CN111652622A (zh) * | 2020-05-26 | 2020-09-11 | 支付宝(杭州)信息技术有限公司 | 一种风险网址的识别方法、装置及电子设备 |
CN112214707A (zh) * | 2020-09-30 | 2021-01-12 | 支付宝(杭州)信息技术有限公司 | 网页内容表征方法、分类方法、装置及设备 |
CN112633380A (zh) * | 2020-12-24 | 2021-04-09 | 北京百度网讯科技有限公司 | 兴趣点特征提取方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-13 CN CN202110522326.0A patent/CN113222022A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816005A (zh) * | 2019-01-18 | 2019-05-28 | 北京智游网安科技有限公司 | 基于cnn的应用程序行业分类方法、存储介质及终端 |
CN110781925A (zh) * | 2019-09-29 | 2020-02-11 | 支付宝(杭州)信息技术有限公司 | 软件页面的分类方法、装置、电子设备及存储介质 |
CN111401416A (zh) * | 2020-03-05 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 异常网站的识别方法、装置和异常对抗行为的识别方法 |
CN111563551A (zh) * | 2020-04-30 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种多模态信息融合方法、装置及电子设备 |
CN111581510A (zh) * | 2020-05-07 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 分享内容处理方法、装置、计算机设备和存储介质 |
CN111652622A (zh) * | 2020-05-26 | 2020-09-11 | 支付宝(杭州)信息技术有限公司 | 一种风险网址的识别方法、装置及电子设备 |
CN111488953A (zh) * | 2020-06-28 | 2020-08-04 | 浙江网新恒天软件有限公司 | 基于html源码特征对网页主题进行快速分类的方法 |
CN112214707A (zh) * | 2020-09-30 | 2021-01-12 | 支付宝(杭州)信息技术有限公司 | 网页内容表征方法、分类方法、装置及设备 |
CN112633380A (zh) * | 2020-12-24 | 2021-04-09 | 北京百度网讯科技有限公司 | 兴趣点特征提取方法、装置、电子设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
AMIT GUPTA 等: "Ensemble approach for web page classification", 《MULTIMEDIA TOOLS AND APPLICATIONS》 * |
DI QI 等: "IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA", 《ARXIV:2001.07966V2 [CS.CV]》 * |
JIANFEI YU 等: "Adapting BERT for Target-Oriented Multimodal Sentiment Classification", 《PROCEEDINGS OF THE TWENTY-EIGHTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-19)》 * |
STUART MILLER 等: "Multi-Modal Classification Using Images and Text", 《SMU DATA SCIENCE REVIEW》 * |
XINYUWANG 等: "Building a Bridge: A Method for Image-Text Sarcasm Detection Without Pretraining on Image-Text Data", 《PROCEEDINGS OF THE FIRST INTERNATIONAL WORKSHOP ON NATURAL LANGUAGE PROCESSING BEYOND TEXT》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429106A (zh) * | 2021-12-29 | 2022-05-03 | 北京百度网讯科技有限公司 | 页面信息处理方法、装置、电子设备和存储介质 |
CN114429106B (zh) * | 2021-12-29 | 2023-04-07 | 北京百度网讯科技有限公司 | 页面信息处理方法、装置、电子设备和存储介质 |
CN114662033A (zh) * | 2022-04-06 | 2022-06-24 | 昆明信息港传媒有限责任公司 | 一种基于文本和图像的多模态有害链接识别 |
CN114662033B (zh) * | 2022-04-06 | 2024-05-03 | 昆明信息港传媒有限责任公司 | 一种基于文本和图像的多模态有害链接识别 |
CN115221523A (zh) * | 2022-09-20 | 2022-10-21 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
CN115221523B (zh) * | 2022-09-20 | 2022-12-27 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ay Karakuş et al. | Evaluating deep learning models for sentiment classification | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
Prusa et al. | Designing a better data representation for deep neural networks and text classification | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
EP3926531A1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
CN113901320A (zh) | 场景服务推荐方法、装置、设备及存储介质 | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN112560504B (zh) | 抽取表单文档中信息的方法、电子设备和计算机可读介质 | |
CN112395412A (zh) | 文本分类的方法、装置以及计算机可读介质 | |
CN114398881A (zh) | 基于图神经网络的交易信息识别方法、***及介质 | |
Shekar et al. | Optical character recognition and neural machine translation using deep learning techniques | |
CN113255328A (zh) | 语言模型的训练方法及应用方法 | |
CN109359198A (zh) | 一种文本分类方法及装置 | |
CN111612284B (zh) | 数据的处理方法、装置及设备 | |
CN115374259A (zh) | 一种问答数据挖掘方法、装置及电子设备 | |
CN117011737A (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及*** | |
CN113821629A (zh) | 一种文本分类方法、评论情感分析方法及装置 | |
CN110879832A (zh) | 目标文本检测方法、模型训练方法、装置及设备 | |
CN112256841B (zh) | 文本匹配和对抗文本识别方法、装置及设备 | |
CN114969253A (zh) | 市场主体与政策的匹配方法、装置、计算设备及介质 | |
Kumar et al. | Domain adaptation based technique for image emotion recognition using image captions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210806 |