CN112308115B - 一种多标签图像深度学习分类方法及设备 - Google Patents
一种多标签图像深度学习分类方法及设备 Download PDFInfo
- Publication number
- CN112308115B CN112308115B CN202011022191.3A CN202011022191A CN112308115B CN 112308115 B CN112308115 B CN 112308115B CN 202011022191 A CN202011022191 A CN 202011022191A CN 112308115 B CN112308115 B CN 112308115B
- Authority
- CN
- China
- Prior art keywords
- label
- tag
- group
- mapping
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 63
- 238000010586 diagram Methods 0.000 claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000010606 normalization Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 3
- 238000005295 random walk Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及机器学习领域的多标签学习技术,涉及一种多标签图像深度学习分类方法及设备,包含以下步骤:获得标签关系图;根据标签关系图获得所有类别标签的映射和所有标签组的映射;构建深度卷积神经网络并进行图像通用特征提取;选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度;对选取特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分;得到最终的标签相关语义特征与最终的标签组的相关语义特征;标签预测。本申请实现有效利用标签关系,学习更加丰富的图像通用特征和标签关系特征,更好的进行多标签分类任务。
Description
技术领域
本发明涉及机器学习领域的多标签学习技术,涉及针对深度多标签学习中的图嵌入学习及分类技术,特别涉及一种多标签图像深度学习分类方法及设备。
背景技术
在大数据时代,多标签图像越来越复杂,多标签图像的复杂不仅仅体现在图像中标签个数的增多,也体现在不同的标签在多标签图像中的分布也越来越复杂。为了解决多标签图像的分类问题除了可以利用图像自身的特征如轮廓,形状,颜色等进行标签分类,也可以结合多标签学习中的标签之间存在的相互关系对标签关系进行建模。
目前的多标签图像深度学习主要采用卷积神经网络对图像中的通用特征进行提取学习,这些通用特征包括了图像中物体的轮廓,颜色,形状等。同时针对多标签图像中标签与标签之间的低阶或高阶关系进行建模学习到标签关系特征,最终将这两部分特征进行融合得到最终最具有判别力的特征,利用最终结合的特征就可以建立分类器得到多个标签在图像中的概率分布。
其中提取图像通用特征的卷积神经网络部分采用的一般都是AlexNet,VGG,ResNet,其中ResNet因为其强大的特征提取能力在目前的多标签深度学习框架中占据主流地位,在ResNet的众多版本中权衡了性能和计算资源,计算速度等因素主要采用101层的ResNet-101。目前主流的方法采用的一般是ResNet-101最终某一层的特征,没有高效地利用不同特征层获取更加丰富的语义信息。本方法虽然采用ResNet-101作为图像通用特征提取器,但在实际应用时本方法可以与任意主流卷积神经网络结合具有很好的可拓展性。
对于多标签图像中的标签关系学习标签关系特征的提取目前主流的方法是采用递归神经网络或者是图神经网络进行标签关系的建模和学习,递归神经网络可以很好地处理序列化的数据,利用递归神经网络可以学习到特定序列中标签之间的相互关系来帮助进行多标签分类。图神经网络对标签关系建模是目前新兴的标签关系提取方法,图神经网络例如图卷积神经网络可以用来处理非欧几里得数据的特征提取问题。利用图神经网络来进行标签关系提取一般分为三步:第一步,建立标签关系图,一般采用标签在多标签图像中的共现关系作为关系图的建立依据,每一种类别的标签都是一个节点,节点之间连接的边即代表标签之间的共现关系。第二步,得到标签节点本身的表示,标签节点自身也要对自己的语义信息进行表达,一般采用词嵌入的模型将标签自身的语义信息转化为向量。第三步,将标签共现关系图和含有标签语义的词嵌入输入进图神经网络学习到包含共现关系和语义信息的特征。虽然这些方法都利用到了标签之间存在的相似性但是没有考虑到更加高阶的标签相似性。同时也没有对标签按照自身属性进行分组对标签关系进行进一步的约束。
综上所述多标签图像深度学习分类由深度学习方法中的卷积神经网络作为特征提取器,利用不同的卷积神经网络模型和同一卷积神经网络的不同层的特征都会影响最终的分类结果,目前对于同一卷积神经网络模型的不同层的特征的整合缺乏有效的方法。对标签关系特征的提取虽然方法不同但是都没有充分考虑到多阶的标签相似性。因此如何更加高效的利用卷积神经网络进行通用特征提取和如何针对标签节点多阶相似性关系进行建模学习对提升多标签图像深度学习模型的性能来说尤为关键。
发明内容
本发明提供一种多标签图像深度学习分类方法及设备,实现有效利用标签关系,学习更加丰富的图像通用特征和标签关系特征,更好的进行多标签分类任务。
为实现上述技术目的,本申请采取的技术方案为,一种多标签图像深度学习分类方法,包含以下步骤:
获取训练数据的图像文件和标签,获得标签关系图;
根据标签关系图获得所有类别标签的映射和所有标签组的映射;
构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取;
选取的卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度;
对选取的特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分;
根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征;
将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况;
标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值。
作为本申请改进的技术方案,获取训练数据的图像文件和标签,获得标签关系图,包括:
获取训练数据的图像文件和训练数据中的标签,得到标签集合V={y1,……yi…,yq},
其中,yi表示第i个类别标签,
yq表示第q个类别标签,q表示总的类别标签个数;i为1到q之间的正整数;
得到训练样本的标签矩阵Y∈{0,1}n×q,
其中,n为正整数,表示样本个数;
其中Yab表示矩阵Y∈{0,1}n×q中的第a行b列的元素;Yab=1表示第a个样本含有第b个类别标签,否则Yab=0,a为1到n之间的正整数,b为1到q之间的正整数。
对标签的共现关系建立图G=(V,E),
其中,B表示为类别标签集合,即B={y1,……yi…,yq};
E表示边集,即E={e1,e2,…,em},em表示两两标签节点之间连接的边,m表示边的条数;
将图G中所有标签节点的邻接关系建立成一个邻接矩阵A∈{0,1}q×q,根据边集E得到矩阵A中的所有元素Aij,Aij的取值域为{0,1};
Aij=1表示第i个类别标签yi和第j个类别标签yj在边集E中存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中有共现关系;
Aij=0表示第i个类别标签yi和第j个类别标签yj在边集E中不存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中没有共现关系。
作为本申请改进的技术方案,根据标签关系图获得所有类别标签的映射和所有标签组的映射,包括:
其中,vi表示在边集E中的任意的一条边上的标签yi;
vj表示标签yi的所在边上的另一个标签yj;
其中,i,j∈{1,2,…,q};
其中,α为上下文嵌入的权衡参数取值域为{0.1,1,5,10};
标签集合V={y1,……yi…,yq};
vi∈V表示类别标签集合中第i个标签节点;
△ij为衡量标签节点vi生成的上下文节点集vj∈Ci质量的函数,Ci为依据标签节点vi生成的上下文节点集,vi生成的上下文节点表达的是标签节点viξ跳之内的邻居节点,ξ的取值域为{5,10};
其中,β为权衡参数取值域为{0.1,1,5,10};
πik表示第i个标签之间和标签组k之间的从属关系,取值范围为[0,1];
针对每一个标签节点vi进行采样,采样路径长度设置为l,l的取值域为{2,5,10};每个节点经过随机行走采样经过的次数为γ,γ的取值域为{5,10};
根据一阶相似性约束,二阶相似性约束和高阶相似性约束得到最终损失函数:
每个标签有K个标签从属关系值,若πik的取值为标签i在这K个标签从属关系值中的最大值则认为标签i属于标签组k,对于每一个标签都在∏中查找其最大的标签从属关系值就可以得到每个标签所属于的标签组,i为1到q之间的正整数,k为1到K之间的正整数,表示实数域,所有标签组的映射/>所有标签组的协方差矩阵Ξ,/>
作为本申请改进的技术方案,构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取,包括:
输入多标签图像样本t,并将t进行裁剪得到长宽为224通道数为3的图像,输入ResNet-101卷积神经网络,ResNet-101是由4个阶层组成,这4个阶层所生成的特征图将作为备选;
W为选取的特征图的宽度,取值域为{7,14,28,56};
H为选取的特征图的长度,取值域为{7,14,28,56};
D为选取的特征图的通道数,取值域为{256,512,1024,2048};
s为当前所提取的阶层编号,s的取值域为{1,2,3,4}。
作为本申请改进的技术方案,选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度,包括:
提取ResNet-101中选取的阶层的特征图Fs,通过映射矩阵对Fs进行映射,表示实数域,D为选取的特征图Fs的通道数;de为将选取的特征图Fs映射到标签和标签组映射的维度,de与标签、标签组的映射表示/>的维度/>中的de一致。
作为本申请改进的技术方案,对选取的的特征图中所有像素点位置计算标签和标签组在当前位置的相合性评分与归一化评分,包括:
通过w,h确定选取的特征图Fs中像素点的位置,w表示在选取的特征图中的水平方向位置,取值域为{0,1,…,W};h表示在选取的特征图中的垂直方向位置,取值域{0,1,…,H}:
其中,C表示相合性评分计算函数;
其中,x表示选取的特征图Fs中的任意像素点位置水平坐标,取值域为{0,1,…,W};
y表示选取的特征图Fs中的任意像素点位置垂直坐标,取值域为{0,1,…,H}。
作为本申请改进的技术方案,根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征,包括:
在选取的特征图Fs上计算得到的整合的第i个标签特征第i个标签整合的特征维度为/>并进一步得到在选取的特征图Fs上所有标签节点的整合标签特征/>在选取的多层特征图上计算标签i的整合标签特征/>取均值计算得到标签i的最终相关语义特征/>和所有标签节点的最终相关语义特征/>
在选取的特征图Fs上计算得到的整合的第k组标签特征第k组标签整合的特征维度为/>并进一步得到在选取的特征图Fs上所有标签组的整合标签组特征/>在选取的多层特征图上计算标签组k的整合标签特征/>取均值计算得到标签组k的最终相关语义特征/>和所有标签组的最终相关语义特征/>
其中,s为选取的参与计算的阶层个数,取值域为{1,2,3,4}。
作为本申请改进的技术方案,将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况,包括:
将F'i输入一个全连接层,全连接层的输入为F'i,输出一个实数Q,将Q输入进sigmoid激活函数得到一个概率该概率/>是标签i在样本t中出现的概率,该标签i在样本t中出现的概率/>在(0,1)之间;
作为本申请改进的技术方案,标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值,包括:
根据标签与标签组对应关系∏配对将最终第i个标签的相关语义特征与其对应的第i个标签所属于的第k标签组的最终相关语义特征/>拼接得到最终第i个标签分类特征F'i,并将其输入全连接层经过sigmoid激活函数并进行阈值判断运算,得到最终样本t中第i个标签的分类结果;
本发明的目的之二在于提供执行发明目的之一一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现前述多标签图像深度学习方法。
有益效果
传统多标签深度学习算法通常采用除全连接层外最终一层卷积神经网络提取到的特征作为图像通用特征,没有考虑在卷积神经网络中不同层存在着含有不同语义特征的特征图。这些特征图同样可以用来进行分类,此外相比较之前方法本方法可以建立多阶的标签相似关系特征。本方法最终建立了一个统一模型对标签关系特征和图像通用特征进行学习,使两种特征相互促进,最终得到更加具有判别力的整合特征,从而有效的指导多标签图像分类任务,且本方法可以与主流卷积神经网络结合具有很好的可拓展性。
附图说明
图1一种多标签图像深度学习分类方法示意图。
具体实施方式
为使本发明实施例的目的和技术方案更加清楚,下面将结合本发明实施例的附图对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种多标签图像深度学习分类方法,包括如下步骤:
S1、获取训练数据,并根据训练数据类别获得标签关系图。具体是获取训练数据的图像文件和标签,获得标签关系图。
S2、根据标签关系图获得所有类别标签的映射和所有标签组的映射。
S3、构建深度卷积神经网络进行图像通用特征提取。制定从卷积神经网络中抽取指定特征图的策略。
S4、选取的卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度。
S5、对选取的特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分。
S6、根据图像中每个位置的标签和标签组归一化评分得到选取的特征图上整合的标签,标签组特征,通过在多层选取的层的特征图上计算整合的标签特征与标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征。
S7、将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况;
S8、标签预测,给定测试样本t,将测试样本t带入S1-S7得到样本t中所有标签的预测值。
具体的,一种多标签图像深度学习分类方法,
建立数据集中标类别之间的关系:
假定数据集含有q个类别标签,获取训练数据的图像文件和训练数据中的标签,得到标签集合V={y1,……yi…,yq}和训练样本的标签矩阵Y∈{0,1}n×q,yi表示第i个类别标签,yq表示第q个类别标签,n表示样本个数,q表示总的标签个数;
其中Yab表示矩阵Y∈{0,1}n×q中的第a行b列的元素;Yab=1表示第a个样本含有第b个类别标签,否则Yab=0,a为1到n之间的正整数,b为1到q之间的正整数。
对标签的共现关系建立图G=(V,E),V表示类别标签集合,即V={y1,……yi…,yq},yi表示第i个类别标签,yq表示第q个类别标签,q表示总的类别标签个数;i为1到q之间的正整数。E表示边集,即E={e1,e2,…,em},em表示两两标签节点之间连接的边,一共有m条边。将图G中所有标签节点的邻接关系建立成一个邻接矩阵A∈{0,1}q×q,根据边集E得到矩阵A中的所有元素Aij,Aij的取值域为{0,1},Aij=1表示标签节点i,j在边集E中存在相互连接的边同时也表示标签节点i,j在多标签数据集中有共现关系,Aij=0表示第i个类别标签yi和第j个类别标签yj在边集E中不存在相互连接的边同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中没有共现关系。
模型构建与训练:
(1-1)通过建立数据集中标类别之间的关系建立一张标签类别关系图,并且优化目标函数得到标签组和标签的低维映射。
其中,vi表示在边集E中的任意的一条边上的标签yi;
vj表示标签yi的所在边上的另一个标签yj;
其中,i,j∈{1,2,…,q}。
公式二表示的是两个标签节点映射表示和/>以共同邻居为媒介计算的二阶相似性约束,α为上下文嵌入的权衡参数取值域为{0.1,1,5,10},vi∈V表示类别标签集合中第i个标签节点,△ij为衡量标签节点vi生成的上下文节点集vj∈Ci质量的函数。Ci为依据标签节点vi生成的上下文节点集,此处vi的上下文节点表达的是标签节点viξ跳之内的邻居节点,ξ的取值域为{5,10}。
对于两个标签节点映射表示和/>高阶相似性如公式三定义,β为权衡参数取值域为{0.1,1,5,10},/>为高斯分布,/>为第k个标签组的标签组映射k∈{1,…K},πik表示第i个标签之间和标签组k之间的从属关系取值范围为[0,1],/>为第k个组的协方差矩阵。K为标签组个数取值域为{5,7,9},/>表示实数域。通过优化三种相似性约束公式可以得到q个类别标签的映射/>和K个标签组的映射表示/> 与/>的维度均为/>de的取值域为{128,256,512},/>表示实数域。
在图G中针对每一个标签节点vi进行采样,采样路径长度设置为l,l的取值域为{2,5,10},γ为每个节点经过随机行走采样经过的次数,γ的取值域为{5,10}。通过Deepwalk初始化标签节点映射和上下文映射/>通过公式四至公式六更新πik,∑k。γik表示的是第i个标签和标签组k之间的路径。Nk表示采样路径中所有标签节点和标签组k之间路径的总和。
根据一阶相似性约束,二阶相似性约束和高阶相似性约束得到最终损失函数公式七
通过最小化损失函数公式七求解出所有类别标签的映射上下文映射标签组分配/>∏内任意第i行k列元素为πik,πik的取值决定了第i个标签和第k个标签组之间的从属关系。每个标签有K个标签从属关系值,若πik的取值为标签i在这K个标签从属关系值中的最大值则认为标签i属于标签组k,对于每一个标签都在∏中查找其最大的标签从属关系值就可以得到每个标签所属于的标签组,i为1到q之间的正整数,k为1到K之间的正整数,/>表示实数域,所有标签组的映射/>所有标签组的协方差矩阵Ξ,
(1-2)输入多标签图像样本t并将t进行裁剪得到长宽为224通道数为3的图像,输入ResNet-101卷积神经网络,ResNet-101是由4个阶层组成,这4个阶层所生成的特征图将作为备选。输入样本t在每个阶层输出的特征图为 表示实数域,其中W为特征图的宽度,H为特征图的长度,D为特征图的通道数,s为当前所提取的阶层编号,s的取值域为{1,2,3,4},W,H的取值域为{7,14,28,56},D的取值域为{256,512,1024,2048}。
(1-4)通过w,h确定选取的的特征图中像素点的位置由公式八与公式九计算任意第i个标签在当前选取的的特征图Fs上像素点中的相合性评分和任意第k个标签组在当前选取的的特征图Fs上像素点中的相合性评分/>w表示在选取出的特征图中的水平位置,取值域为{0,1,…,W},h表示在选取出的特征图中的垂直位置,取值域{0,1,…,H};
通过公式九与公式十一得到当前像素点中第i个标签在选取的特征图Fs上的归一化评分第k标签组在选取的特征图Fs上的归一化评分/>x表示选取的特征图Fs中的任意像素点位置水平坐标,取值域为{0,1,…,W};y表示选取的特征图Fs中的任意像素点位置垂直坐标,取值域为{0,1,…,H}。
对选取的的每个特征图Fs通过公式八到公式十二计算每个Fs上的整合标签特征与整合标签组特征/>通过公式十四和公式十五在多层选取特征图上计算整合标签/>和标签组特征/>在所有选取层上取均值计算得到标签和标签组的最终相关语义特征/>s为选取的参与计算的阶层个数,取值域为{1,2,3,4}。
(1-6)将最终第i个标签的相关语义特征和通过∏得到的第i个标签所属于的第k标签组的最终相关语义特征/>找出进行配对。/>维度均为/> 表示实数域。通过拼接二者得到用于标签i分类的特征F'i,F'i的维度为/> 表示实数域。将F'i输入一个全连接层,全连接层的输入为F'i,输出一个实数Q,将Q输入进sigmoid激活函数得到一个值在(0,1)之间的标签i在样本t中出现的概率/>通过设置一个阈值/>判断标签i是否存在于样本t中,/>则认为标签i在样本t中有出现,/>则认为标签i在样本t中没有出现。/>的取值域为{0.5}。
标签预测:
(2-1)给定测试样本t,t是含有多标签信息的图像数据。
(2-2)通过(1-1)获取所有q个标签的映射和所有K组标签组映射。
(2-4)通过(1-6)根据标签与标签组对应关系∏配对将最终第i个标签的相关语义特征与其对应的第i个标签所属于的第k标签组的最终相关语义特征/>拼接得到最终第i个标签分类特征F'i,并将其输入全连接层经过sigmoid激活函数并进行阈值判断运算,得到最终样本t中第i个标签的分类结果,对q个类别标签分别带入对第i个标签分类结果的计算方法计算q次可以得到样本t中的类别标签向量/>
上述方法有效解决学习多层特征中丰富的语义信息,建立标签相似性利用学习标签相似性。
本申请的另一目的还提供一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现前文所述的一种多标签图像深度学习分类方法。
综上,本申请对多标签图像数据中标签关系建模获得多阶相似性关系,并且利用卷积神经网络中多层特征;技术效果是:得到每张多标签图像中的标签分布,提升了分类性能,提高了模型分类的效率,可以用于多标签图像学习。
本申请将多标签图像通用特征学习和标签关系建模提取特征结合;技术效果是:使图像通用特征和标签关系特征结合,共同促进,最终得到有利于提高多标签图像分类性能的统一的端到端可拓展模型。
以上仅为本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。
Claims (10)
1.一种多标签图像深度学习分类方法,其特征在于,包含以下步骤:
获取训练数据的图像文件和标签,获得标签关系图;
根据标签关系图获得标签节点;根据标签节点获得一阶相似性约束、二阶相似性约束以及高阶相似性约束;优化一阶相似性约束、二阶相似性约束以及高阶相似性约束得到所有类别标签的映射和所有标签组的映射;
构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取;
选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度;
对选取特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分;
根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征;
将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数函数计算,阈值判断计算得到该标签在测试样本t中的出现情况;
标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值。
2.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,获取训练数据的图像文件和标签,获得标签关系图,包括:
获取训练数据的图像文件和训练数据中的标签,得到标签集合V={y1,……yi…,yq},
其中,yi表示第i个类别标签,yj表示第j个类别标签,
yq表示第q个类别标签,q表示总的类别标签个数;i为1到q之间的正整数;
得到训练样本的标签矩阵Y∈{0,1}n×q,
其中,n为正整数,表示样本个数;
其中,Yab表示矩阵Y∈{0,1}n×q中的第a行b列的元素;Yab=1表示第a个样本含有第b个类别标签,否则Yab=0,a为1到n之间的正整数,b为1到q之间的正整数;
对标签的共现关系建立图G=(V,E);
其中,V表示为类别标签集合,即V={y1,……yi…,yq};
E表示边集,即E={e1,e2,…,em},em表示两两标签节点之间连接的边,m表示边的条数;
将图G中所有标签节点的邻接关系建立成一个邻接矩阵A∈{0,1}q×q,根据边集E得到矩阵A中的所有元素Aij,Aij的取值域为{0,1};
Aij=1表示第i个类别标签yi和第j个类别标签yj在边集E中存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中有共现关系;
Aij=0表示第i个类别标签yi和第j个类别标签yj在边集E中不存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中没有共现关系。
3.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,根据标签关系图获得标签节点;根据标签节点获得一阶相似性约束、二阶相似性约束以及高阶相似性约束;优化一阶相似性约束、二阶相似性约束以及高阶相似性约束得到所有类别标签的映射和所有标签组的映射,包括:
其中,vi表示在边集E中的任意的一条边上的标签yi;
vj表示标签yi的所在边上的另一个标签yj;
其中,i,j∈{1,2,…,q};
其中,α为上下文嵌入的权衡参数取值域为{0.1,1,5,10};
标签集合V={y1,……yi…,yq};
vi∈V表示类别标签集合V中第i个标签节点;
△ij为衡量标签节点vi生成的上下文节点集vj∈Ci质量的函数,Ci为依据标签节点vi生成的上下文节点集,vi生成的上下文节点表达的是标签节点vi ξ之内的邻居节点,ξ的取值域为{5,10};
其中,β为权衡参数取值域为{0.1,1,5,10};
πik表示第i个标签之间和标签组k之间的从属关系,取值范围为[0,1];
针对每一个标签节点vi进行采样,采样路径长度设置为l,l的取值域为{2,5,10};每个节点经过随机行走采样经过的次数为γ,γ的取值域为{5,10};
根据一阶相似性约束,二阶相似性约束和高阶相似性约束得到最终损失函数:
4.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取,包括:
输入多标签图像样本t,并将t进行裁剪得到长宽为224通道数为3的图像,输入ResNet-101卷积神经网络,ResNet-101是由4个阶层组成,这4个阶层所生成的特征图将作为备选;
W为特征图的宽度,取值域为{7,14,28,56};
H为特征图的长度,取值域为{7,14,28,56};
D为特征图的通道数,取值域为{256,512,1024,2048};
s为当前所选取的阶层编号,s的取值域为{1,2,3,4}。
6.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,对选取的特征图中所有像素点位置计算标签和标签组在当前位置的相合性评分与归一化评分,包括:
引入映射矩阵通过w,h确定选取的特征图Fs中像素点的位置,/>表示实数域,D为特征图Fs的通道数;de为将选取的特征图Fs映射到标签和标签组映射的维度,w表示在选取出的特征图中的水平位置,取值域为{0,1,…,W};h表示在选取出的特征图中的垂直位置,取值域{0,1,…,H}:
其中,C表示相合性评分计算函数;
其中,x表示选取的特征图Fs中的任意像素点位置水平坐标,取值域为{0,1,…,W};
y表示选取的特征图Fs中的任意像素点位置垂直坐标,取值域为{0,1,…,H}。
7.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征,包括:
在选取的特征图Fs上计算得到的整合的第i个标签特征第i个标签整合的特征/>维度为/>并进一步得到在选取的特征图Fs上所有标签节点的整合标签特征/>在选取的多层特征图上计算标签i的整合标签特征/>取均值计算得到标签i的最终相关语义特征/>和所有标签节点的最终相关语义特征/>
在选取的特征图Fs上计算得到的整合的第k组标签特征第k组标签整合的特征/>维度为/>并进一步得到在选取的特征图Fs上所有标签组的整合标签组特征/>在选取的多层特征图上计算标签组k的整合标签特征/>取均值计算得到标签组k的最终相关语义特征/>和所有标签组的最终相关语义特征/>
其中,s为选取的参与计算的阶层个数,取值域为{1,2,3,4}。
8.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况,包括:
将F'i输入一个全连接层,全连接层的输入为F'i,输出一个实数Q,将Q输入进sigmoid激活函数得到一个概率该概率/>是标签i在样本t中出现的概率,该标签i在样本t中出现的概率/>在(0,1)之间;
9.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,
标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值,包括:
根据标签与标签组对应关系∏配对将最终第i个标签的相关语义特征与其对应的第i个标签所属于的第k标签组的最终相关语义特征/>拼接得到最终第i个标签分类特征F'i,并将其输入全连接层经过sigmoid激活函数并进行阈值判断运算,得到最终样本t中第i个标签的分类结果;
10.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的一种多标签图像深度学习分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011022191.3A CN112308115B (zh) | 2020-09-25 | 2020-09-25 | 一种多标签图像深度学习分类方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011022191.3A CN112308115B (zh) | 2020-09-25 | 2020-09-25 | 一种多标签图像深度学习分类方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112308115A CN112308115A (zh) | 2021-02-02 |
CN112308115B true CN112308115B (zh) | 2023-05-26 |
Family
ID=74488610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011022191.3A Active CN112308115B (zh) | 2020-09-25 | 2020-09-25 | 一种多标签图像深度学习分类方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308115B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076976B (zh) * | 2021-03-17 | 2023-08-18 | 中山大学 | 一种基于局部特征关系探究的小样本图像分类方法 |
CN113064995A (zh) * | 2021-03-31 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于图深度学习的文本多标签分类方法和*** |
CN113449775B (zh) * | 2021-06-04 | 2023-02-24 | 广州大学 | 一种基于类激活映射机制的多标签图像分类方法和*** |
WO2023032345A1 (ja) * | 2021-09-02 | 2023-03-09 | 富士フイルム株式会社 | 情報処理装置、方法およびプログラム |
CN114299342B (zh) * | 2021-12-30 | 2024-04-26 | 安徽工业大学 | 一种基于深度学习的多标记图片分类中未知标记分类方法 |
CN114648635B (zh) * | 2022-03-15 | 2024-07-09 | 安徽工业大学 | 一种融合标签间强相关性的多标签图像分类方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874655A (zh) * | 2017-01-16 | 2017-06-20 | 西北工业大学 | 基于多标记学习和贝叶斯网络的中医症型分类预测方法 |
CN107577983A (zh) * | 2017-07-11 | 2018-01-12 | 中山大学 | 一种循环发现关注区域识别多标签图像的方法 |
CN107977677A (zh) * | 2017-11-27 | 2018-05-01 | 深圳市唯特视科技有限公司 | 一种应用于大规模城区重建中的多标签像素分类方法 |
CN108804718A (zh) * | 2018-06-11 | 2018-11-13 | 线粒体(北京)科技有限公司 | 数据推送方法、装置、电子设备及计算机可读存储介质 |
CN109447110A (zh) * | 2018-09-17 | 2019-03-08 | 华中科技大学 | 综合邻居标签相关性特征和样本特征的多标签分类的方法 |
CN109740686A (zh) * | 2019-01-09 | 2019-05-10 | 中南大学 | 一种基于区域池化和特征融合的深度学习图像多标记分类方法 |
CN109993197A (zh) * | 2018-12-07 | 2019-07-09 | 天津大学 | 一种基于深度端对端示例差异化的零样本多标签分类方法 |
CN110084296A (zh) * | 2019-04-22 | 2019-08-02 | 中山大学 | 一种基于特定语义的图表示学习框架及其多标签分类方法 |
CN110222709A (zh) * | 2019-04-29 | 2019-09-10 | 上海暖哇科技有限公司 | 一种多标签智能打标方法及*** |
CN110516704A (zh) * | 2019-07-19 | 2019-11-29 | 中国科学院地理科学与资源研究所 | 一种基于关联规则的mlknn多标签分类方法 |
CN111079840A (zh) * | 2019-12-17 | 2020-04-28 | 太原科技大学 | 基于卷积神经网络和概念格的图像语义完备标注方法 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN111581981A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 基于评价对象强化和带约束标签嵌入的方面类别检测***及方法 |
CN111667158A (zh) * | 2020-05-26 | 2020-09-15 | 南开大学 | 一种基于多图神经网络联合学习的工作技能预测方法 |
-
2020
- 2020-09-25 CN CN202011022191.3A patent/CN112308115B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874655A (zh) * | 2017-01-16 | 2017-06-20 | 西北工业大学 | 基于多标记学习和贝叶斯网络的中医症型分类预测方法 |
CN107577983A (zh) * | 2017-07-11 | 2018-01-12 | 中山大学 | 一种循环发现关注区域识别多标签图像的方法 |
CN107977677A (zh) * | 2017-11-27 | 2018-05-01 | 深圳市唯特视科技有限公司 | 一种应用于大规模城区重建中的多标签像素分类方法 |
CN108804718A (zh) * | 2018-06-11 | 2018-11-13 | 线粒体(北京)科技有限公司 | 数据推送方法、装置、电子设备及计算机可读存储介质 |
CN109447110A (zh) * | 2018-09-17 | 2019-03-08 | 华中科技大学 | 综合邻居标签相关性特征和样本特征的多标签分类的方法 |
CN109993197A (zh) * | 2018-12-07 | 2019-07-09 | 天津大学 | 一种基于深度端对端示例差异化的零样本多标签分类方法 |
CN109740686A (zh) * | 2019-01-09 | 2019-05-10 | 中南大学 | 一种基于区域池化和特征融合的深度学习图像多标记分类方法 |
CN110084296A (zh) * | 2019-04-22 | 2019-08-02 | 中山大学 | 一种基于特定语义的图表示学习框架及其多标签分类方法 |
CN110222709A (zh) * | 2019-04-29 | 2019-09-10 | 上海暖哇科技有限公司 | 一种多标签智能打标方法及*** |
CN110516704A (zh) * | 2019-07-19 | 2019-11-29 | 中国科学院地理科学与资源研究所 | 一种基于关联规则的mlknn多标签分类方法 |
CN111079840A (zh) * | 2019-12-17 | 2020-04-28 | 太原科技大学 | 基于卷积神经网络和概念格的图像语义完备标注方法 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN111581981A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 基于评价对象强化和带约束标签嵌入的方面类别检测***及方法 |
CN111667158A (zh) * | 2020-05-26 | 2020-09-15 | 南开大学 | 一种基于多图神经网络联合学习的工作技能预测方法 |
Non-Patent Citations (7)
Title |
---|
Deep Learning for Multilabel Remote Sensing Image Annotation With Dual-Level Semantic Concepts;Panpan Zhu等;《IEEE Transactions on Geoscience and Remote Sensing》;20200110;4047-4060 * |
Deep Semantic Adversarial Hashing Based on Autoencoder for Large-Scale Cross-Modal Retrieval;Mingyong Li等;《2020 IEEE International Conference on Multimedia & Expo Workshops (ICMEW)》;20200609;1-6 * |
Exact inference in multi-label CRFs with higher order cliques;Srikumar Ramalingam等;《2008 IEEE Conference on Computer Vision and Pattern Recognition》;20080805;1-8 * |
基于卷积神经网络的多标签场景分类;陈智;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215;第2016年卷(第2期);I138-1318 * |
基于多层次图注意力卷积神经网络的节点分类模型研究;周恒晟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115;第2020年卷(第1期);I140-336 * |
基于深度学习的短文本分类算法研究及应用;金佳佳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200815;第2020年卷(第8期);I138-870 * |
基于迁移学习与深度卷积特征的图像标注方法研究;宋光慧;《中国博士学位论文全文数据库 信息科技辑》;20170815;第2017年卷(第8期);I138-83 * |
Also Published As
Publication number | Publication date |
---|---|
CN112308115A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308115B (zh) | 一种多标签图像深度学习分类方法及设备 | |
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
CN111488734B (zh) | 基于全局交互和句法依赖的情感特征表示学习***及方法 | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN107562812A (zh) | 一种基于特定模态语义空间建模的跨模态相似性学习方法 | |
CN111753189A (zh) | 一种少样本跨模态哈希检索共同表征学习方法 | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
CN105844292A (zh) | 一种基于条件随机场和二次字典学习的图像场景标注方法 | |
CN111476315A (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN111159485A (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
Rad et al. | Image annotation using multi-view non-negative matrix factorization with different number of basis vectors | |
CN112364747B (zh) | 一种有限样本下的目标检测方法 | |
CN114741519A (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
CN114528479B (zh) | 一种基于多尺度异构图嵌入算法的事件检测方法 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及*** | |
CN115457332A (zh) | 基于图卷积神经网络和类激活映射的图像多标签分类方法 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN114417063A (zh) | 一种基于多视图的图神经网络的重要节点识别方法 | |
CN114299342B (zh) | 一种基于深度学习的多标记图片分类中未知标记分类方法 | |
CN116244277A (zh) | 一种nlp识别与知识库构建方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |