CN114998613B - 一种基于深度互学习的多标记零样本学习方法 - Google Patents
一种基于深度互学习的多标记零样本学习方法 Download PDFInfo
- Publication number
- CN114998613B CN114998613B CN202210721119.2A CN202210721119A CN114998613B CN 114998613 B CN114998613 B CN 114998613B CN 202210721119 A CN202210721119 A CN 202210721119A CN 114998613 B CN114998613 B CN 114998613B
- Authority
- CN
- China
- Prior art keywords
- label
- image
- semantic
- representing
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000000007 visual effect Effects 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 238000009826 distribution Methods 0.000 claims abstract description 5
- 238000013461 design Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 44
- 238000012360 testing method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000005314 correlation function Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims description 2
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 238000007670 refining Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度互学习的多标记零样本学习方法,涉及机器学习领域的多标记学习技术。本发明利用深度互学习技术,首先设计两个子网络,分别对CNNs提取的特征学习出两种表示,即基于区域的视觉特征和基于语义的视觉特征,在图像区域特征与区域特征相关联的基础上,融合了图像特征与标签语义的关系;并在整个训练过程中使两个子网络进行深度互学习,相互协作、相互促进,使得结果分布尽可能保持一致;同时在深度互学习过程中能够不断增强区域特征与区域特征、区域特征与标签语义之间的关联,从而提升多标记零样本问题下分类的准确性。
Description
技术领域
本发明属于涉及机器学习领域的多标记学习技术,针对深度多标记学习中的零样本学习问题,本发明设计两个子网络并进行深度互学习,同时增强视觉特征与视觉特征、视觉特征和标签语义之间的相关性,从而提升多标记零样本分类的准确性。
背景技术
传统监督学习主要是单标记学习,即一张图像对应唯一的一个标签。而现实生活中目标样本往往比较复杂,传统的单标记标注方法无法满足对复杂样本进行标注的需求,因为在现实世界当中,一个样本通常同时属于多个类别,也即所谓的多标记分类问题。
然而,传统的多标记学习中,大多数的方法是通过有标签的训练集进行学习,侧重于对已经在训练过程中出现过标签类别的样本进行分类,需要大量的已标记数据去训练模型。在现实场景中,许多任务需要对以前从未见过的实例类别进行分类,尽管大量科研相关人员已经标注了很多标准数据集,而在现实世界中已经标注的数据仍然只占少数,且有诸多场景如疾病图像数据难以大量获取,这样就使得原有训练方法不再适用。零样本学习便应运而生,它旨在通过将已知类的语义知识转移到未知类中来解决对未知类的预测问题。传统零样本问题的训练实例所涉及的类与测试集中要预测的类是不相交的、完全不同的,根据训练集中的已知类别数据,通过相关先验知识(属性、词向量、文本描述等),实现对未知类别的识别和预测。零样本学习不仅可以对难以标注的样例进行识别分类,相关解决方法也模拟了人类对于从未见过的对象的认知过程,零样本学习方法的研究,也会在一定程度上促进认知科学的研究。
但当下对零样本学习的研究几乎都分布在单标记分类领域,而对多标记零样本学习的研究比较少。在多标记零样本学习中,需要训练出的模型能够预测每个输入实例中的多个在训练过程中未见过的类标签。同样地,在传统零样本学习设置中,训练数据中的类标签集合和测试数据中的类标签集合没有交集,两两互斥;在广义零样本学习设置中,测试数据集中同时包含已知标签和未知标签。在零样本学习中进行多标记分类的挑战主要在于:一是在模型训练过程中没有未知标签所对应的样本参与训练,导致训练出的模型缺乏识别未知标签的能力;二是一幅图像中包含多个类别,不同类别之间内容和关系的复杂性,导致图像中存在的已知和未知标签更加难以预测。
发明内容
1.要解决的问题
针对现有零样本学习过程中存在的上述问题,本发明利用一种深度互学习的技术,通过设计两个子网络,产生两种特征表示,使两个子网络在模型训练过程中相互学习、相互促进,同时能够进一步增强视觉特征与视觉特征、视觉特征与语义特征之间的关联,从而解决多标记零样本学习的问题。
2.技术方案
为了解决上述问题,本发明所采用的技术方案如下:
本发明的一种基于深度互学习的多标记零样本学习方法,包括以下步骤:
S1、获取图像视觉特征,加载预训练的深度卷积神经网络提取图像特征;获取标签语义,加载预训练的GloVe模型提取标签语义信息;
S2、设计一个语义微调模块,用于对利用GloVe模型提取出的标签语义信息进行细化或微调,使得提取到的标签语义信息更准确;
S3、设计融合图像区域与图像区域之间相关性的子网络1:利用多头自注意力机制,将图像中每个区域都与其它各区域相关联,得到基于区域的视觉特征表示;
S4、再将S3中得到的基于区域的视觉特征映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率;
S5、设计融合标签语义与图像特征之间相关性的子网络2:将标签语义信息与视觉特征相关联,得到基于语义的视觉特征表示;
S6、再将S5中得到的基于语义的视觉特征同样映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率;
S7、利用深度互学习技术,提出一种互学习损失,使得在训练过程中,两个子网络在训练自身分类性能的同时能够互相学习对方的训练经验,达到互相增强的效果;
S8、在测试时,给定一个测试样本,输入到S1-S7训练得到的模型中,得到两个子网络的预测值,再将两个预测值加权求和进行融合,即可得到测试样本最终的预测值。
相比于现有技术,本发明的有益效果为:
(1)本发明的一种基于深度互学习的多标记零样本学习方法,是针对目前多标记零样本学习存在的问题,利用深度互学习技术,提出两个子网络相互学习的方案,使得在整个训练过程中,两个子网络在训练自身的分类性能的同时也能够学习对方的训练经验;在两个子网络进行深度互学习的过程中能够不断增强区域特征与区域特征、区域特征与标签语义之间的关联,从而显著提升了在多标记零样本问题设置下图像分类的准确度。
附图说明
图1为本发明中多标记零样本学习两个子网络互学习模型框架图。
具体实施方式
为进一步了解本发明的内容,下面结合具体实施例对本发明进一步进行描述。
实施例1
如图1所示,本实施例的一种基于深度互学习的多标记零样本学习方法,主要包含模型构建、训练与标记预测三个阶段,具体的方法步骤如下:
一、模型构建、训练:
S1、读取图像文件,获取图像视觉特征,加载预训练的深度卷积神经网络来提取图像特征;与此同时,获取标签语义,通过加载预训练的GloVe模型来提取标签语义信息。具体操作为:
xi∈χ表示深度卷积神经网络提取得到的图像特征,即h,w表示特征图的高和宽,d表示通道数。
yi∈{0,1}S表示图像i的相关标签,训练集中图像对应的标签都属于已知类别集合。CS表示已知类别集合,S表示已知类别的个数。本发明中图像特征的获取利用深度卷积神经网络VGG19,提取最后一个卷积层输出的图像特征用做模型的输入。
表示S个已知类别的语义向量,da=300,用来表示S个已知类的语义信息以及对它们之间的关系进行编码。/>表示U个未知类别的语义向量,同样地,da=300,CU表示未知类别集合,U表示未知类别的个数。本发明中利用GloVe模型获取标签语义向量,GloVe是一种词向量学习方法,它对标签进行词向量化表示,使得向量之间尽可能多的蕴含语义和语法信息。
S2、设计一个语义微调模块,它对利用GloVe模型提取的标签语义信息进行细化或微调,使得提取到的标签语义信息更准确。具体为:
本发明设计的语义微调模块Gv,由一个可学习的3层感知机和激活函数(ReLU函数)组成,其中我们将感知机中的隐藏维度设置为1024,最终的输出维度设置为300:
Vs=Gv(AS) (1)
式(1)中是从GloVe模型里提取出的语义向量;/>是经过Gv模块微调的语义向量。
S3、设计融合图像区域与图像区域之间相关性的子网络1:利用多头自注意力机制,将图像中每个区域都与其他区域相关联,得到基于区域的视觉特征表示。具体为:
本发明使用多头自注意机制将图像中的各个区域特征相关联。首先将提取的图像特征当作hw个区域特征,每个区域特征由d维组成,即/>其中表示图像i的第r个区域。将图像特征xi投影到一个低维空间(d′=d/N),使用N个投影头创建查询向量(query)、键向量(key)、值向量(value),查询向量用来寻找与所有区域特征的键向量的相关性,值向量则保持每个区域特征当前形式的状态。每个图像区域特征都有自己的查询向量-键向量-值向量。将图像特征分别经过投影得到:
式(2)-(4)中n表示多头注意机制的投影头,n∈{1,2,...,N};/>表示可学习的投影权重。
然后将每个查询向量(query)寻找与来自hw个区域特征的所有键向量(keys)的相关性,可得到每个区域特征与其他各区域特征的相关权重:
式(5)中σ表示softmax函数,用来做归一化处理,使得rn值处在[0,1]之间;/>表示对/>做转置操作。
利用式(5)得到的权重值对值向量(value)进行加权:
式(6)中例如α1表示第一个头的输出,其中包含hw个加权区域特征,每个区域特征由d′维组成;即在计算多头注意力并加权的过程中,将特征的d维通道数划分成N个d′维,这些由式(6)计算出的每个头的低维自注意特征沿着通道维合并,最终得到基于区域的特征表示Fi:
Fi=[α1;α2;...αN]Wf (7)
式(7)中表示可学习的权重参数。
与原始图像特征xi一致,基于区域的特征也可当作hw个加权区域特征,每个加权区域特征由d维组成,即/>其中/>表示图像i中第r个区域的加权特征。
S4、再将S3中得到的基于区域的视觉特征映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率。具体为:
图像i中标签c的置信度分数可以计算为:
式(8)中为S3中得到的图像i中第r个区域的加权特征;c表示第c个标签;/>为标签c的分类器参数,/>表示对θc进行转置操作;图像中每个区域加权特征与标签c的分类器参数相乘,其中取最大值即为/>
这里我们将每个标签分类器的参数表示为该标签语义向量的相关函数:
θc=VcWv (9)
式(9)中表示经Gv模块微调得到的标签c的语义向量;/>是可学习的权重参数。
为了使每个图像中存在标签的分数大于不存在标签的分数,我们引入一种排名损失(rank loss)函数:
式(10)中yi表示图像i对应的标签集合;表示标签c出现在图像i中的置信度分数;/>表示标签c′出现在图像i中的置信度分数。
S5、设计融合标签语义与图像特征之间相关性的子网络2:将标签语义信息与视觉特征相关联,得到基于语义的视觉特征表示。具体为:
式(11)中表示经Gv模块微调得到的标签c的语义向量;是可学习的权重参数;/>表示图像i的第r个区域特征,/>表示对/>做转置操作;/>表示标签c在图像第r个区域的权重。
式(12)中表示经归一化得到的第c个标签语义在图像第r个区域特征上的权值;S表示已知类别个数。
式(13)中表示图像特征经标签c重新加权后的特征。则Fg={F1,F2,...,FS}表示经所有标签语义信息重新加权后的图像特征,即基于语义的视觉特征表示。
S6、再将S5中得到的基于语义的视觉特征同样映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率。具体为:
图像i中标签c的置信度分数可以计算为:
式(14)中为S5中得到的基于语义标签c加权的特征;c表示第c个标签;/>为标签c的分类器参数,/>表示对θc进行转置操作。
这里我们将每个标签分类器的参数表示为该标签语义向量的相关函数:
θc=VcWv (15)
式(15)中表示经Gv模块微调得到的标签c的语义向量;是可学习的权重参数。
为了使每个图像中存在标签的分数大于不存在标签的分数,我们引入一种排名损失(rank loss)函数:
式(16)中yi表示图像i对应的标签集合;表示标签c出现在图像i中的置信度分数;/>表示标签c′出现在图像i中的置信度分数。
S7、利用深度互学习技术,提出一种互学习损失,使得在训练过程中,两个子网络在训练自身分类性能的同时能够互相学习对方的训练经验,达到互相增强的效果。具体为:
本发明利用子网络2得到的预测概率为子网络1提供训练经验;同样地,利用子网络1得到的预测概率/>为子网络2提供训练经验。这样一来,两个子网络就可以互相学习对方的经验,从而做到互相增强共同进步。
为了度量由两个子网络得到的预测概率的匹配程度,使其尽可能保持一致,我们引入一个互学习损失函数进行约束。本发明利用Jensen-Shannon散度(JS散度)作为该互学习损失,如下:
式(17)中M表示训练集中的样本个数;DKL表示Kullback-Leibler散度(KL散度);其中,Kullback-Leibler散度可表示为:它用来计算两个概率分布之间的差别,如果P1(xi)=P2(xi),即两个概率分布完全相同,这时KL散度为0。但KL散度的弊端在于其不对称,即DKL(P1(xi)||P2(xi))≠DKL(P2(xi)||P1(xi))。因此本发明中采用的是Jensen-Shannon散度,是Kullback-Leibler散度的变体,具有对称性。
二、标签预测
S8、在测试时,给定一个测试样本,输入到S1-S7训练得到的模型中,得到两个子网络的预测值,再将两个预测概率值加权求和进行融合,即可得到输入样本最后的预测值。具体为:
模型训练结束后,我们首先通过子网络1得到测试样本xi的基于区域的特征表示,通过子网络2得到测试样本xi的基于语义的特征表示,分别映射到语义空间中,得到每个标签出现在图像中的置信度分数即和/>最后,我们使用一个组合权重系数(w1,w2)融合它们的预测值,以得到测试样本xi中出现标签的最终预测值,公式如下:
式(18)中w1和w2表示两个子网络预测值的权重,经实验对比可得到使结果最优的[w1,w2]组合;topk表示按照预测值大小排序,取前k个值的操作。
本发明提供一种基于深度互学习的多标记零样本解决方法,利用深度互学习技术,设计两个子网络,在图像区域特征与区域特征关联的基础上,融合了图像特征与标签语义信息的关系,分别得到基于区域的视觉特征表示和基于语义的视觉特征表示,并且在整个训练过程中使两个子网络互相学习,保证结果分布的一致性,同时在深度互学习过程中不断增强区域特征与区域特征、区域特征和标签语义之间的相关性,从而提升多标记零样本问题下分类的准确性。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (10)
1.一种基于深度互学习的多标记零样本学习方法,其特征在于:包括以下步骤:
S1、获取图像视觉特征,即加载预训练的深度卷积神经网络提取图像特征;获取标签语义,即加载预训练的GloVe模型提取标签语义信息;
S2、设计一个语义微调模块,用于对利用GloVe模型提取出的标签语义信息进行细化或微调,使得提取到的标签语义信息更准确;
S3、设计融合图像区域与图像区域之间相关性的子网络1:利用多头自注意力机制,将图像中每个区域都与其它各区域相关联,得到基于区域的视觉特征表示;
S4、再将S3中得到的基于区域的视觉特征映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率;
S5、设计融合标签语义与图像特征之间相关性的子网络2:将标签语义信息与视觉特征相关联,得到基于语义的视觉特征表示;
S6、再将S5中得到的基于语义的视觉特征同样映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率;
S7、利用深度互学习技术,设计互学习损失,使得在训练过程中,两个子网络在训练自身分类性能的同时能够互相学习对方的训练经验,达到互相增强的效果;
S8、在测试时,给定一个测试样本,输入到S1-S7训练得到的模型中,得到两个子网络的预测值,再将两个预测值加权求和进行融合,即可得到测试样本最终的预测值。
2.根据权利要求1所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S1中,深度卷积神经网络提取图像特征记为xi∈χ,即其中,/>表示实数域,h,w分别表示特征图的高和宽,d表示通道数;
图像i的对应标签记为yi∈{0,1}S,训练集中图像对应的标签都属于已知类别集合,CS表示已知类别集合,S表示已知类别的个数;
表示利用GloVe模型提取出的S个已知类别的语义向量,其中,da=300,用来表示S个已知类别的信息以及对它们之间的关系进行编码;
表示利用GloVe模型提取出的U个未知类别的语义向量,同样,da=300,CU表示未知类别集合,U表示未知类别的个数;CS+U表示同时包含已知类别和未知类别的集合。
3.根据权利要求2所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S2中,语义微调模块Gv的设计方法为:利用一个可学习的3层感知机和ReLU激活函数构成语义微调模块Gv,其中将感知机的隐藏维度设为1024,输出维度设为300;
Vs=Gv(AS) (1)
公式(1)中是利用GloVe模型获取的类别语义向量;/>是经过Gv模块微调的类别语义向量。
4.根据权利要求3所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S3中,子网络1的设计方法为:
步骤一、首先将提取的图像特征当作hw个区域特征,每个区域特征由d维组成,即/>其中/>表示图像i的第r个区域;将图像特征xi投影到低维空间d′中,其中d′=d/N;使用N个投影头创建查询向量、键向量、值向量,查询向量用来寻找与所有区域特征的键向量的相关性,值向量则保持每个区域特征当前形式的状态;每个区域特征都有自己的查询向量-键向量-值向量,将图像特征xi分别经过投影变换得到:
公式(2)-(4)中,n表示多头注意机制的投影头,n∈{1,2,...,N};/>表示可学习的投影权重;
步骤二、将每个查询向量寻找与来自hw个区域特征的所有键向量的相关性,可得到每个区域特征与其他各区域特征的相关性权重rn如下:
公式(5)中σ表示softmax激活函数,用来做归一化处理,使得权重值处在[0,1]之间;/>表示对/>做转置操作;
步骤三、利用公式(5)得到的权重值对值向量进行加权:
公式(6)中将公式(6)计算出的每个头的低维自注意特征沿着通道维度进行合并,最终得到基于区域的特征表示Fi:
Fi=[α1;α2;...αN]Wf (7)
公式(7)中表示可学习的权重参数;
与原始图像特征xi一致,基于区域的特征作为hw个加权区域特征,每个加权区域特征由d维组成,即/>其中/>表示图像i中第r个区域的加权特征。
5.根据权利要求4所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S4中,图像i中标签c的置信度分数可以计算为:
公式(8)中为步骤S3中得到的图像i中第r个区域的加权特征;c表示第c个标签;/>为标签c的分类器参数,/>表示对θc做转置操作;图像中每个区域加权特征与标签c的分类器参数相乘,其中取最大值即为/>
这里我们将每个标签分类器的参数表示为与该标签语义向量相关的函数:
θc=VcWv (9)
公式(9)中表示经Gv模块微调得到的标签c的语义向量;/>是可学习的权重参数。
6.根据权利要求5所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:为了使每个图像中存在标签的分数大于不存在标签的分数,引入排名损失函数Lrank1:
公式(10)中yi表示图像i对应的标签集合;表示标签c出现在图像i中的置信度分数;表示标签c′出现在图像i中的置信度分数。
7.根据权利要求1-6中任一项所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S5中,设计将标签语义信息与图像特征相融合的子网络2:
公式(11)中表示经Gv模块微调得到的标签c的语义向量;/>是可学习的权重参数;/>表示图像i的第r个区域特征,/>表示对/>做转置操作;/>表示标签c在图像第r个区域的权重;
公式(12)中表示经归一化得到的第c个标签语义在图像第r个区域特征上的权值;S表示已知类别个数;
公式(13)中表示图像特征经标签c重新加权后的特征,则Fg={F1,F2,...,FS}表示经所有标签语义信息加权后的图像特征,即基于语义的视觉特征表示。
8.根据权利要求7所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S6中,将步骤S5中得到的基于语义的视觉特征Fg同样映射到语义空间中,计算图像i中标签c置信度分数的方法为:
公式(14)中为S5中得到的基于标签语义c加权的特征;c表示第c个标签;为标签c的分类器参数,/>表示对θc做转置操作;
这里将每个标签分类器的参数表示为该标签语义向量的相关函数:
θc=VcWv (15)
公式(15)中表示经Gv模块微调得到的标签c的语义向量;/>是可学习的权重参数;
为了使每个图像中存在标签的分数大于不存在标签的分数,引入排名损失函数Lrank2:
公式(16)中yi表示图像i对应的标签集合;表示标签c出现在图像i中的置信度分数;表示标签c′出现在图像i中的置信度分数。
9.根据权利要求8所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S7中,引进深度互学习技术使两个子网络在训练过程中能够互相学习对方的训练经验,采用Jensen-Shannon散度计算子网络1和子网络2的互学习损失Lmutual,如下:
公式(17)中M表示训练集中的样本个数;表示Kullback-Leibler散度;/>
10.根据权利要求9所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S8中,模型训练结束后,首先通过子网络1得到测试样本xi的基于区域的特征表示,通过子网络2得到测试样本xi的基于语义的特征表示,分别映射到语义空间中,得到每个标签出现在图像中的置信度分数即和/>然后使用一个组合权重系数(w1,w2)融合所得预测值,以得到测试样本xi中出现标签的最终预测值,公式如下:
公式(18)中w1和w2表示两个概率分布的权重,经实验对比得到[w1,w2]组合;topk表示按照预测值大小排序,取前k个值的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210721119.2A CN114998613B (zh) | 2022-06-24 | 2022-06-24 | 一种基于深度互学习的多标记零样本学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210721119.2A CN114998613B (zh) | 2022-06-24 | 2022-06-24 | 一种基于深度互学习的多标记零样本学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114998613A CN114998613A (zh) | 2022-09-02 |
CN114998613B true CN114998613B (zh) | 2024-04-26 |
Family
ID=83037229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210721119.2A Active CN114998613B (zh) | 2022-06-24 | 2022-06-24 | 一种基于深度互学习的多标记零样本学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998613B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797884B (zh) * | 2023-02-09 | 2023-04-21 | 松立控股集团股份有限公司 | 一种基于类人视觉注意力加权的车辆重识别方法 |
CN116109877B (zh) * | 2023-04-07 | 2023-06-20 | 中国科学技术大学 | 组合式零样本图像分类方法、***、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516718A (zh) * | 2019-08-12 | 2019-11-29 | 西北工业大学 | 基于深度嵌入空间的零样本学习方法 |
CN112364894A (zh) * | 2020-10-23 | 2021-02-12 | 天津大学 | 一种基于元学习的对抗网络的零样本图像分类方法 |
WO2021121127A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 样本类别识别方法、装置、计算机设备及存储介质 |
CN113240113A (zh) * | 2021-06-04 | 2021-08-10 | 北京富通东方科技有限公司 | 一种增强网络预测鲁棒性的方法 |
-
2022
- 2022-06-24 CN CN202210721119.2A patent/CN114998613B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516718A (zh) * | 2019-08-12 | 2019-11-29 | 西北工业大学 | 基于深度嵌入空间的零样本学习方法 |
WO2021121127A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 样本类别识别方法、装置、计算机设备及存储介质 |
CN112364894A (zh) * | 2020-10-23 | 2021-02-12 | 天津大学 | 一种基于元学习的对抗网络的零样本图像分类方法 |
CN113240113A (zh) * | 2021-06-04 | 2021-08-10 | 北京富通东方科技有限公司 | 一种增强网络预测鲁棒性的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114998613A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | A unified metric learning-based framework for co-saliency detection | |
CN114998613B (zh) | 一种基于深度互学习的多标记零样本学习方法 | |
Kafle et al. | Visual question answering: Datasets, algorithms, and future challenges | |
Schwartz et al. | Recognizing material properties from images | |
CN110163236B (zh) | 模型的训练方法和装置、存储介质、电子装置 | |
CN105808752B (zh) | 一种基于cca和2pknn的自动图像标注方法 | |
Dehghan et al. | Who do i look like? determining parent-offspring resemblance via gated autoencoders | |
CN111046275B (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
CN111738355B (zh) | 注意力融合互信息的图像分类方法、装置及存储介质 | |
CN112380435A (zh) | 基于异构图神经网络的文献推荐方法及推荐*** | |
CN110826639B (zh) | 一种利用全量数据训练零样本图像分类方法 | |
CN112308115B (zh) | 一种多标签图像深度学习分类方法及设备 | |
JPWO2018203555A1 (ja) | 信号検索装置、方法、及びプログラム | |
CN113269239B (zh) | 一种基于多通道卷积神经网络的关系网络节点分类方法 | |
CN114118165A (zh) | 基于脑电的多模态情绪数据预测方法、装置及相关介质 | |
Mottaghi et al. | Human-machine CRFs for identifying bottlenecks in scene understanding | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
Yu et al. | Fine-grained comparisons with attributes | |
CN104809468A (zh) | 一种基于不定核的多视图分类方法 | |
Yazici et al. | Color naming for multi-color fashion items | |
CN113762041A (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
CN114764865A (zh) | 数据分类模型训练方法、数据分类方法和装置 | |
Ou et al. | Improving person re-identification by multi-task learning | |
CN116681128A (zh) | 一种带噪多标签数据的神经网络模型训练方法和装置 | |
Jasim et al. | Characteristics of data mining by classification educational dataset to improve student’s evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |