CN112308115B - 一种多标签图像深度学习分类方法及设备 - Google Patents

一种多标签图像深度学习分类方法及设备 Download PDF

Info

Publication number
CN112308115B
CN112308115B CN202011022191.3A CN202011022191A CN112308115B CN 112308115 B CN112308115 B CN 112308115B CN 202011022191 A CN202011022191 A CN 202011022191A CN 112308115 B CN112308115 B CN 112308115B
Authority
CN
China
Prior art keywords
label
tag
group
mapping
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011022191.3A
Other languages
English (en)
Other versions
CN112308115A (zh
Inventor
张辉宜
张进
黄�俊
屈喜文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Technology AHUT
Original Assignee
Anhui University of Technology AHUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Technology AHUT filed Critical Anhui University of Technology AHUT
Priority to CN202011022191.3A priority Critical patent/CN112308115B/zh
Publication of CN112308115A publication Critical patent/CN112308115A/zh
Application granted granted Critical
Publication of CN112308115B publication Critical patent/CN112308115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及机器学习领域的多标签学习技术,涉及一种多标签图像深度学习分类方法及设备,包含以下步骤:获得标签关系图;根据标签关系图获得所有类别标签的映射和所有标签组的映射;构建深度卷积神经网络并进行图像通用特征提取;选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度;对选取特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分;得到最终的标签相关语义特征与最终的标签组的相关语义特征;标签预测。本申请实现有效利用标签关系,学习更加丰富的图像通用特征和标签关系特征,更好的进行多标签分类任务。

Description

一种多标签图像深度学习分类方法及设备
技术领域
本发明涉及机器学习领域的多标签学习技术,涉及针对深度多标签学习中的图嵌入学习及分类技术,特别涉及一种多标签图像深度学习分类方法及设备。
背景技术
在大数据时代,多标签图像越来越复杂,多标签图像的复杂不仅仅体现在图像中标签个数的增多,也体现在不同的标签在多标签图像中的分布也越来越复杂。为了解决多标签图像的分类问题除了可以利用图像自身的特征如轮廓,形状,颜色等进行标签分类,也可以结合多标签学习中的标签之间存在的相互关系对标签关系进行建模。
目前的多标签图像深度学习主要采用卷积神经网络对图像中的通用特征进行提取学习,这些通用特征包括了图像中物体的轮廓,颜色,形状等。同时针对多标签图像中标签与标签之间的低阶或高阶关系进行建模学习到标签关系特征,最终将这两部分特征进行融合得到最终最具有判别力的特征,利用最终结合的特征就可以建立分类器得到多个标签在图像中的概率分布。
其中提取图像通用特征的卷积神经网络部分采用的一般都是AlexNet,VGG,ResNet,其中ResNet因为其强大的特征提取能力在目前的多标签深度学习框架中占据主流地位,在ResNet的众多版本中权衡了性能和计算资源,计算速度等因素主要采用101层的ResNet-101。目前主流的方法采用的一般是ResNet-101最终某一层的特征,没有高效地利用不同特征层获取更加丰富的语义信息。本方法虽然采用ResNet-101作为图像通用特征提取器,但在实际应用时本方法可以与任意主流卷积神经网络结合具有很好的可拓展性。
对于多标签图像中的标签关系学习标签关系特征的提取目前主流的方法是采用递归神经网络或者是图神经网络进行标签关系的建模和学习,递归神经网络可以很好地处理序列化的数据,利用递归神经网络可以学习到特定序列中标签之间的相互关系来帮助进行多标签分类。图神经网络对标签关系建模是目前新兴的标签关系提取方法,图神经网络例如图卷积神经网络可以用来处理非欧几里得数据的特征提取问题。利用图神经网络来进行标签关系提取一般分为三步:第一步,建立标签关系图,一般采用标签在多标签图像中的共现关系作为关系图的建立依据,每一种类别的标签都是一个节点,节点之间连接的边即代表标签之间的共现关系。第二步,得到标签节点本身的表示,标签节点自身也要对自己的语义信息进行表达,一般采用词嵌入的模型将标签自身的语义信息转化为向量。第三步,将标签共现关系图和含有标签语义的词嵌入输入进图神经网络学习到包含共现关系和语义信息的特征。虽然这些方法都利用到了标签之间存在的相似性但是没有考虑到更加高阶的标签相似性。同时也没有对标签按照自身属性进行分组对标签关系进行进一步的约束。
综上所述多标签图像深度学习分类由深度学习方法中的卷积神经网络作为特征提取器,利用不同的卷积神经网络模型和同一卷积神经网络的不同层的特征都会影响最终的分类结果,目前对于同一卷积神经网络模型的不同层的特征的整合缺乏有效的方法。对标签关系特征的提取虽然方法不同但是都没有充分考虑到多阶的标签相似性。因此如何更加高效的利用卷积神经网络进行通用特征提取和如何针对标签节点多阶相似性关系进行建模学习对提升多标签图像深度学习模型的性能来说尤为关键。
发明内容
本发明提供一种多标签图像深度学习分类方法及设备,实现有效利用标签关系,学习更加丰富的图像通用特征和标签关系特征,更好的进行多标签分类任务。
为实现上述技术目的,本申请采取的技术方案为,一种多标签图像深度学习分类方法,包含以下步骤:
获取训练数据的图像文件和标签,获得标签关系图;
根据标签关系图获得所有类别标签的映射和所有标签组的映射;
构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取;
选取的卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度;
对选取的特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分;
根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征;
将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况;
标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值。
作为本申请改进的技术方案,获取训练数据的图像文件和标签,获得标签关系图,包括:
获取训练数据的图像文件和训练数据中的标签,得到标签集合V={y1,……yi…,yq},
其中,yi表示第i个类别标签,
yq表示第q个类别标签,q表示总的类别标签个数;i为1到q之间的正整数;
得到训练样本的标签矩阵Y∈{0,1}n×q,
其中,n为正整数,表示样本个数;
其中Yab表示矩阵Y∈{0,1}n×q中的第a行b列的元素;Yab=1表示第a个样本含有第b个类别标签,否则Yab=0,a为1到n之间的正整数,b为1到q之间的正整数。
对标签的共现关系建立图G=(V,E),
其中,B表示为类别标签集合,即B={y1,……yi…,yq};
E表示边集,即E={e1,e2,…,em},em表示两两标签节点之间连接的边,m表示边的条数;
将图G中所有标签节点的邻接关系建立成一个邻接矩阵A∈{0,1}q×q,根据边集E得到矩阵A中的所有元素Aij,Aij的取值域为{0,1};
Aij=1表示第i个类别标签yi和第j个类别标签yj在边集E中存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中有共现关系;
Aij=0表示第i个类别标签yi和第j个类别标签yj在边集E中不存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中没有共现关系。
作为本申请改进的技术方案,根据标签关系图获得所有类别标签的映射和所有标签组的映射,包括:
O1表示的是两个标签节点映射表示
Figure GDA0004177758450000041
和/>
Figure GDA0004177758450000042
之间的一阶相似性约束:
Figure GDA0004177758450000043
其中,vi表示在边集E中的任意的一条边上的标签yi
vj表示标签yi的所在边上的另一个标签yj
Figure GDA0004177758450000044
为vi对应标签节点映射表示;
Figure GDA0004177758450000045
为vj对应标签节点映射表示;
其中,i,j∈{1,2,…,q};
O2表示的是两个标签节点映射表示
Figure GDA0004177758450000046
和/>
Figure GDA0004177758450000047
以共同邻居为媒介计算的二阶相似性约束:
Figure GDA0004177758450000048
其中,α为上下文嵌入的权衡参数取值域为{0.1,1,5,10};
标签集合V={y1,……yi…,yq};
vi∈V表示类别标签集合中第i个标签节点;
ij为衡量标签节点vi生成的上下文节点集vj∈Ci质量的函数,Ci为依据标签节点vi生成的上下文节点集,vi生成的上下文节点表达的是标签节点viξ跳之内的邻居节点,ξ的取值域为{5,10};
O3表示的是两个标签节点映射表示
Figure GDA0004177758450000051
和/>
Figure GDA0004177758450000052
之间的高阶相似性约束,
Figure GDA0004177758450000053
其中,β为权衡参数取值域为{0.1,1,5,10};
Figure GDA0004177758450000054
为高斯分布;
Figure GDA0004177758450000055
为第k个标签组的标签组映射k∈{1,…K},K为标签组个数取值域为{5,7,9};
πik表示第i个标签之间和标签组k之间的从属关系,取值范围为[0,1];
Figure GDA0004177758450000056
为第k个组的协方差矩阵,/>
Figure GDA0004177758450000057
表示实数域,de的取值域为{128,256,512};
通过优化一阶相似性约束、二阶相似性约束以及高阶相似性约束得到q个类别标签的映射
Figure GDA0004177758450000058
和K个标签组的映射表示/>
Figure GDA0004177758450000059
其中,
Figure GDA00041777584500000510
的维度为/>
Figure GDA00041777584500000511
Figure GDA00041777584500000512
的维度为/>
Figure GDA00041777584500000513
/>
Figure GDA00041777584500000514
表示实数域。
针对每一个标签节点vi进行采样,采样路径长度设置为l,l的取值域为{2,5,10};每个节点经过随机行走采样经过的次数为γ,γ的取值域为{5,10};
通过Deepwalk初始化标签节点映射
Figure GDA00041777584500000515
和上下文映射/>
Figure GDA00041777584500000516
根据
Figure GDA00041777584500000517
更新πik,其中,Nk表示采样路径中所有标签节点和标签组k之间路径的总和;
根据
Figure GDA00041777584500000518
与/>
Figure GDA00041777584500000519
更新/>
Figure GDA00041777584500000520
Σk,其中,γik表示的是第i个标签和标签组k之间的路径;
根据一阶相似性约束,二阶相似性约束和高阶相似性约束得到最终损失函数:
Figure GDA0004177758450000061
通过最小化损失函数求解出所有类别标签的映射
Figure GDA0004177758450000062
上下文映射/>
Figure GDA0004177758450000063
标签组分配/>
Figure GDA0004177758450000064
∏内任意第i行k列元素为πik,πik的取值决定了第i个标签和第k个标签组之间的从属关系;
每个标签有K个标签从属关系值,若πik的取值为标签i在这K个标签从属关系值中的最大值则认为标签i属于标签组k,对于每一个标签都在∏中查找其最大的标签从属关系值就可以得到每个标签所属于的标签组,i为1到q之间的正整数,k为1到K之间的正整数,
Figure GDA0004177758450000065
表示实数域,所有标签组的映射/>
Figure GDA0004177758450000066
所有标签组的协方差矩阵Ξ,/>
Figure GDA0004177758450000067
Figure GDA0004177758450000068
作为本申请改进的技术方案,构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取,包括:
输入多标签图像样本t,并将t进行裁剪得到长宽为224通道数为3的图像,输入ResNet-101卷积神经网络,ResNet-101是由4个阶层组成,这4个阶层所生成的特征图将作为备选;
输入样本t在每个阶层输出的特征图为
Figure GDA0004177758450000069
其中,
Figure GDA00041777584500000610
表示实数域;
W为选取的特征图的宽度,取值域为{7,14,28,56};
H为选取的特征图的长度,取值域为{7,14,28,56};
D为选取的特征图的通道数,取值域为{256,512,1024,2048};
s为当前所提取的阶层编号,s的取值域为{1,2,3,4}。
作为本申请改进的技术方案,选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度,包括:
提取ResNet-101中选取的阶层的特征图Fs,通过映射矩阵
Figure GDA0004177758450000071
对Fs进行映射,
Figure GDA0004177758450000072
表示实数域,D为选取的特征图Fs的通道数;de为将选取的特征图Fs映射到标签和标签组映射的维度,de与标签、标签组的映射表示/>
Figure GDA0004177758450000073
的维度/>
Figure GDA0004177758450000074
中的de一致。
作为本申请改进的技术方案,对选取的的特征图中所有像素点位置计算标签和标签组在当前位置的相合性评分与归一化评分,包括:
通过w,h确定选取的特征图Fs中像素点的位置,w表示在选取的特征图中的水平方向位置,取值域为{0,1,…,W};h表示在选取的特征图中的垂直方向位置,取值域{0,1,…,H}:
任意第i个标签在当前选取的特征图Fs上像素点中的相合性评分
Figure GDA0004177758450000075
Figure GDA0004177758450000076
任意k个标签组在当前选取的特征图Fs上像素点中的相合性评分
Figure GDA0004177758450000077
Figure GDA0004177758450000078
其中,C表示相合性评分计算函数;
fs,(w,h)表示选取的特征图Fs在坐标位置w,h上的特征向量,维度为
Figure GDA0004177758450000079
Figure GDA00041777584500000710
表示实数域;
Figure GDA00041777584500000711
表示第i个标签映射,i的取值域为{1,2,…,q};
Figure GDA00041777584500000712
表示第k个标签组映射,k的取值域为{1,2,…,K};
当前像素点中第i个标签在特征图Fs上的归一化评分
Figure GDA00041777584500000713
Figure GDA00041777584500000714
当前像素点中第k个标签组在特征图Fs上的归一化评分
Figure GDA0004177758450000081
Figure GDA0004177758450000082
其中,x表示选取的特征图Fs中的任意像素点位置水平坐标,取值域为{0,1,…,W};
y表示选取的特征图Fs中的任意像素点位置垂直坐标,取值域为{0,1,…,H}。
作为本申请改进的技术方案,根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征,包括:
在选取的特征图Fs上计算得到的整合的第i个标签特征
Figure GDA0004177758450000083
第i个标签整合的特征
Figure GDA0004177758450000084
维度为/>
Figure GDA0004177758450000085
并进一步得到在选取的特征图Fs上所有标签节点的整合标签特征/>
Figure GDA0004177758450000086
在选取的多层特征图上计算标签i的整合标签特征/>
Figure GDA0004177758450000087
取均值计算得到标签i的最终相关语义特征/>
Figure GDA0004177758450000088
和所有标签节点的最终相关语义特征/>
Figure GDA0004177758450000089
其中,
Figure GDA00041777584500000810
Figure GDA00041777584500000811
表示实数域;/>
Figure GDA00041777584500000812
/>
在选取的特征图Fs上计算得到的整合的第k组标签特征
Figure GDA00041777584500000813
第k组标签整合的特征
Figure GDA00041777584500000814
维度为/>
Figure GDA00041777584500000815
并进一步得到在选取的特征图Fs上所有标签组的整合标签组特征/>
Figure GDA00041777584500000816
在选取的多层特征图上计算标签组k的整合标签特征/>
Figure GDA00041777584500000817
取均值计算得到标签组k的最终相关语义特征/>
Figure GDA00041777584500000818
和所有标签组的最终相关语义特征/>
Figure GDA00041777584500000819
其中,
Figure GDA00041777584500000820
Figure GDA00041777584500000821
表示实数域;/>
Figure GDA00041777584500000822
其中,s为选取的参与计算的阶层个数,取值域为{1,2,3,4}。
作为本申请改进的技术方案,将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况,包括:
根据标签与标签组对应关系∏,配对最终第i个标签的相关语义特征
Figure GDA0004177758450000091
和第i个标签所属于的第k标签组的最终相关语义特征/>
Figure GDA0004177758450000092
Figure GDA0004177758450000093
维度均为/>
Figure GDA0004177758450000094
Figure GDA0004177758450000095
表示实数域;
通过拼接
Figure GDA0004177758450000096
与/>
Figure GDA0004177758450000097
得到用于标签i分类的特征F'i,F'i的维度为/>
Figure GDA0004177758450000098
Figure GDA0004177758450000099
表示实数域;
将F'i输入一个全连接层,全连接层的输入为F'i,输出一个实数Q,将Q输入进sigmoid激活函数得到一个概率
Figure GDA00041777584500000910
该概率/>
Figure GDA00041777584500000911
是标签i在样本t中出现的概率,该标签i在样本t中出现的概率/>
Figure GDA00041777584500000912
在(0,1)之间;
通过设置一个阈值
Figure GDA00041777584500000921
判断标签i是否存在于样本t中,/>
Figure GDA00041777584500000913
则认为标签i在样本t中有出现,/>
Figure GDA00041777584500000914
则认为标签i在样本t中没有出现,/>
Figure GDA00041777584500000922
的取值域为{0.5}。
作为本申请改进的技术方案,标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值,包括:
计算选取的特征图Fs上所有标签节点的整合标签特征
Figure GDA00041777584500000915
与所有标签组的整合标签组特征/>
Figure GDA00041777584500000916
得到标签节点i的最终标签语义特征
Figure GDA00041777584500000917
和标签节点i所属的标签组k标签组k的最终标签组语义特征/>
Figure GDA00041777584500000918
根据标签与标签组对应关系∏配对将最终第i个标签的相关语义特征
Figure GDA00041777584500000919
与其对应的第i个标签所属于的第k标签组的最终相关语义特征/>
Figure GDA00041777584500000920
拼接得到最终第i个标签分类特征F'i,并将其输入全连接层经过sigmoid激活函数并进行阈值判断运算,得到最终样本t中第i个标签的分类结果;
对q个类别标签分别带入对第i个标签分类结果的计算方法计算q次可以得到样本t中的类别标签向量
Figure GDA00041777584500000923
本发明的目的之二在于提供执行发明目的之一一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现前述多标签图像深度学习方法。
有益效果
传统多标签深度学习算法通常采用除全连接层外最终一层卷积神经网络提取到的特征作为图像通用特征,没有考虑在卷积神经网络中不同层存在着含有不同语义特征的特征图。这些特征图同样可以用来进行分类,此外相比较之前方法本方法可以建立多阶的标签相似关系特征。本方法最终建立了一个统一模型对标签关系特征和图像通用特征进行学习,使两种特征相互促进,最终得到更加具有判别力的整合特征,从而有效的指导多标签图像分类任务,且本方法可以与主流卷积神经网络结合具有很好的可拓展性。
附图说明
图1一种多标签图像深度学习分类方法示意图。
具体实施方式
为使本发明实施例的目的和技术方案更加清楚,下面将结合本发明实施例的附图对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种多标签图像深度学习分类方法,包括如下步骤:
S1、获取训练数据,并根据训练数据类别获得标签关系图。具体是获取训练数据的图像文件和标签,获得标签关系图。
S2、根据标签关系图获得所有类别标签的映射和所有标签组的映射。
S3、构建深度卷积神经网络进行图像通用特征提取。制定从卷积神经网络中抽取指定特征图的策略。
S4、选取的卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度。
S5、对选取的特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分。
S6、根据图像中每个位置的标签和标签组归一化评分得到选取的特征图上整合的标签,标签组特征,通过在多层选取的层的特征图上计算整合的标签特征与标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征。
S7、将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况;
S8、标签预测,给定测试样本t,将测试样本t带入S1-S7得到样本t中所有标签的预测值。
具体的,一种多标签图像深度学习分类方法,
建立数据集中标类别之间的关系:
假定数据集含有q个类别标签,获取训练数据的图像文件和训练数据中的标签,得到标签集合V={y1,……yi…,yq}和训练样本的标签矩阵Y∈{0,1}n×q,yi表示第i个类别标签,yq表示第q个类别标签,n表示样本个数,q表示总的标签个数;
其中Yab表示矩阵Y∈{0,1}n×q中的第a行b列的元素;Yab=1表示第a个样本含有第b个类别标签,否则Yab=0,a为1到n之间的正整数,b为1到q之间的正整数。
对标签的共现关系建立图G=(V,E),V表示类别标签集合,即V={y1,……yi…,yq},yi表示第i个类别标签,yq表示第q个类别标签,q表示总的类别标签个数;i为1到q之间的正整数。E表示边集,即E={e1,e2,…,em},em表示两两标签节点之间连接的边,一共有m条边。将图G中所有标签节点的邻接关系建立成一个邻接矩阵A∈{0,1}q×q,根据边集E得到矩阵A中的所有元素Aij,Aij的取值域为{0,1},Aij=1表示标签节点i,j在边集E中存在相互连接的边同时也表示标签节点i,j在多标签数据集中有共现关系,Aij=0表示第i个类别标签yi和第j个类别标签yj在边集E中不存在相互连接的边同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中没有共现关系。
模型构建与训练:
(1-1)通过建立数据集中标类别之间的关系建立一张标签类别关系图,并且优化目标函数得到标签组和标签的低维映射。
公式一表示的是两个标签节点映射表示
Figure GDA0004177758450000111
和/>
Figure GDA0004177758450000112
之间的一阶相似性约束:
Figure GDA0004177758450000113
其中,vi表示在边集E中的任意的一条边上的标签yi
vj表示标签yi的所在边上的另一个标签yj
Figure GDA0004177758450000114
为vi对应标签节点映射表示;
Figure GDA0004177758450000115
为vj对应标签节点映射表示;
其中,i,j∈{1,2,…,q}。
公式二表示的是两个标签节点映射表示
Figure GDA0004177758450000121
和/>
Figure GDA0004177758450000122
以共同邻居为媒介计算的二阶相似性约束,α为上下文嵌入的权衡参数取值域为{0.1,1,5,10},vi∈V表示类别标签集合中第i个标签节点,△ij为衡量标签节点vi生成的上下文节点集vj∈Ci质量的函数。Ci为依据标签节点vi生成的上下文节点集,此处vi的上下文节点表达的是标签节点viξ跳之内的邻居节点,ξ的取值域为{5,10}。
Figure GDA0004177758450000123
对于两个标签节点映射表示
Figure GDA0004177758450000124
和/>
Figure GDA0004177758450000125
高阶相似性如公式三定义,β为权衡参数取值域为{0.1,1,5,10},/>
Figure GDA0004177758450000126
为高斯分布,/>
Figure GDA0004177758450000127
为第k个标签组的标签组映射k∈{1,…K},πik表示第i个标签之间和标签组k之间的从属关系取值范围为[0,1],/>
Figure GDA0004177758450000128
为第k个组的协方差矩阵。K为标签组个数取值域为{5,7,9},/>
Figure GDA0004177758450000129
表示实数域。通过优化三种相似性约束公式可以得到q个类别标签的映射/>
Figure GDA00041777584500001210
和K个标签组的映射表示/>
Figure GDA00041777584500001211
Figure GDA00041777584500001212
与/>
Figure GDA00041777584500001213
的维度均为/>
Figure GDA00041777584500001214
de的取值域为{128,256,512},/>
Figure GDA00041777584500001215
表示实数域。
Figure GDA00041777584500001216
在图G中针对每一个标签节点vi进行采样,采样路径长度设置为l,l的取值域为{2,5,10},γ为每个节点经过随机行走采样经过的次数,γ的取值域为{5,10}。通过Deepwalk初始化标签节点映射
Figure GDA00041777584500001217
和上下文映射/>
Figure GDA00041777584500001218
通过公式四至公式六更新πik
Figure GDA00041777584500001219
k。γik表示的是第i个标签和标签组k之间的路径。Nk表示采样路径中所有标签节点和标签组k之间路径的总和。
Figure GDA00041777584500001220
Figure GDA00041777584500001221
Figure GDA00041777584500001222
根据一阶相似性约束,二阶相似性约束和高阶相似性约束得到最终损失函数公式七
Figure GDA0004177758450000131
通过最小化损失函数公式七求解出所有类别标签的映射
Figure GDA0004177758450000132
上下文映射
Figure GDA0004177758450000133
标签组分配/>
Figure GDA0004177758450000134
∏内任意第i行k列元素为πik,πik的取值决定了第i个标签和第k个标签组之间的从属关系。每个标签有K个标签从属关系值,若πik的取值为标签i在这K个标签从属关系值中的最大值则认为标签i属于标签组k,对于每一个标签都在∏中查找其最大的标签从属关系值就可以得到每个标签所属于的标签组,i为1到q之间的正整数,k为1到K之间的正整数,/>
Figure GDA0004177758450000135
表示实数域,所有标签组的映射/>
Figure GDA0004177758450000136
所有标签组的协方差矩阵Ξ,
Figure GDA0004177758450000137
(1-2)输入多标签图像样本t并将t进行裁剪得到长宽为224通道数为3的图像,输入ResNet-101卷积神经网络,ResNet-101是由4个阶层组成,这4个阶层所生成的特征图将作为备选。输入样本t在每个阶层输出的特征图为
Figure GDA0004177758450000138
Figure GDA0004177758450000139
表示实数域,其中W为特征图的宽度,H为特征图的长度,D为特征图的通道数,s为当前所提取的阶层编号,s的取值域为{1,2,3,4},W,H的取值域为{7,14,28,56},D的取值域为{256,512,1024,2048}。
(1-3)提取ResNet-101中选取的阶层的特征图Fs,通过映射矩阵
Figure GDA00041777584500001310
对Fs进行映射,/>
Figure GDA00041777584500001311
表示实数域,将选取的的特征图Fs映射到标签和标签组映射的维度de
(1-4)通过w,h确定选取的的特征图中像素点的位置由公式八与公式九计算任意第i个标签在当前选取的的特征图Fs上像素点中的相合性评分
Figure GDA00041777584500001312
和任意第k个标签组在当前选取的的特征图Fs上像素点中的相合性评分/>
Figure GDA00041777584500001313
w表示在选取出的特征图中的水平位置,取值域为{0,1,…,W},h表示在选取出的特征图中的垂直位置,取值域{0,1,…,H};
C表示相合性评分计算函数,fs,(w,h)表示选取的特征图Fs在坐标位置w,h上的特征向量维度为
Figure GDA0004177758450000141
Figure GDA0004177758450000142
表示实数域。/>
Figure GDA0004177758450000143
表示第i个标签映射,i的取值域为{1,2,…,q};/>
Figure GDA0004177758450000144
表示第k个标签组映射,k的取值域为{1,2,…,K}。
通过公式九与公式十一得到当前像素点中第i个标签在选取的特征图Fs上的归一化评分
Figure GDA0004177758450000145
第k标签组在选取的特征图Fs上的归一化评分/>
Figure GDA0004177758450000146
x表示选取的特征图Fs中的任意像素点位置水平坐标,取值域为{0,1,…,W};y表示选取的特征图Fs中的任意像素点位置垂直坐标,取值域为{0,1,…,H}。
Figure GDA0004177758450000147
Figure GDA0004177758450000148
Figure GDA0004177758450000149
Figure GDA00041777584500001410
(1-5)通过公式十二得到在选取的的特征图Fs上计算得到的整合的第i个标签特征
Figure GDA00041777584500001411
维度为/>
Figure GDA00041777584500001412
Figure GDA00041777584500001413
表示实数域。这样可以得到在选取的特征图Fs上所有标签节点的整合标签特征/>
Figure GDA00041777584500001414
Figure GDA00041777584500001415
通过公式十二得到在选取的的特征图Fs上计算得到的整合的第k组标签特征
Figure GDA00041777584500001416
维度为/>
Figure GDA00041777584500001417
Figure GDA00041777584500001418
表示实数域这样可以得到在选取的的特征图Fs上所有标签组的整合标签组特征/>
Figure GDA00041777584500001419
Figure GDA00041777584500001420
Figure GDA00041777584500001421
Figure GDA0004177758450000151
对选取的的每个特征图Fs通过公式八到公式十二计算每个Fs上的整合标签特征
Figure GDA0004177758450000152
与整合标签组特征/>
Figure GDA0004177758450000153
通过公式十四和公式十五在多层选取特征图上计算整合标签/>
Figure GDA0004177758450000154
和标签组特征/>
Figure GDA0004177758450000155
在所有选取层上取均值计算得到标签和标签组的最终相关语义特征/>
Figure GDA0004177758450000156
s为选取的参与计算的阶层个数,取值域为{1,2,3,4}。
(1-6)将最终第i个标签的相关语义特征
Figure GDA0004177758450000157
和通过∏得到的第i个标签所属于的第k标签组的最终相关语义特征/>
Figure GDA0004177758450000158
找出进行配对。/>
Figure GDA0004177758450000159
维度均为/>
Figure GDA00041777584500001510
Figure GDA00041777584500001511
表示实数域。通过拼接二者得到用于标签i分类的特征F'i,F'i的维度为/>
Figure GDA00041777584500001512
Figure GDA00041777584500001513
表示实数域。将F'i输入一个全连接层,全连接层的输入为F'i,输出一个实数Q,将Q输入进sigmoid激活函数得到一个值在(0,1)之间的标签i在样本t中出现的概率/>
Figure GDA00041777584500001514
通过设置一个阈值/>
Figure GDA00041777584500001520
判断标签i是否存在于样本t中,/>
Figure GDA00041777584500001515
则认为标签i在样本t中有出现,/>
Figure GDA00041777584500001516
则认为标签i在样本t中没有出现。/>
Figure GDA00041777584500001521
的取值域为{0.5}。
标签预测:
(2-1)给定测试样本t,t是含有多标签信息的图像数据。
(2-2)通过(1-1)获取所有q个标签的映射和所有K组标签组映射。
(2-3)对于数据集中所有的q个标签经过q次(1-4)和(1-5)的计算得到标签i和标签组k的最终相关语义特征
Figure GDA00041777584500001517
(2-4)通过(1-6)根据标签与标签组对应关系∏配对将最终第i个标签的相关语义特征
Figure GDA00041777584500001518
与其对应的第i个标签所属于的第k标签组的最终相关语义特征/>
Figure GDA00041777584500001519
拼接得到最终第i个标签分类特征F'i,并将其输入全连接层经过sigmoid激活函数并进行阈值判断运算,得到最终样本t中第i个标签的分类结果,对q个类别标签分别带入对第i个标签分类结果的计算方法计算q次可以得到样本t中的类别标签向量/>
Figure GDA0004177758450000161
上述方法有效解决学习多层特征中丰富的语义信息,建立标签相似性利用学习标签相似性。
本申请的另一目的还提供一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现前文所述的一种多标签图像深度学习分类方法。
综上,本申请对多标签图像数据中标签关系建模获得多阶相似性关系,并且利用卷积神经网络中多层特征;技术效果是:得到每张多标签图像中的标签分布,提升了分类性能,提高了模型分类的效率,可以用于多标签图像学习。
本申请将多标签图像通用特征学习和标签关系建模提取特征结合;技术效果是:使图像通用特征和标签关系特征结合,共同促进,最终得到有利于提高多标签图像分类性能的统一的端到端可拓展模型。
以上仅为本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。

Claims (10)

1.一种多标签图像深度学习分类方法,其特征在于,包含以下步骤:
获取训练数据的图像文件和标签,获得标签关系图;
根据标签关系图获得标签节点;根据标签节点获得一阶相似性约束、二阶相似性约束以及高阶相似性约束;优化一阶相似性约束、二阶相似性约束以及高阶相似性约束得到所有类别标签的映射和所有标签组的映射;
构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取;
选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度;
对选取特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分;
根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征;
将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数函数计算,阈值判断计算得到该标签在测试样本t中的出现情况;
标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值。
2.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,获取训练数据的图像文件和标签,获得标签关系图,包括:
获取训练数据的图像文件和训练数据中的标签,得到标签集合V={y1,……yi…,yq},
其中,yi表示第i个类别标签,yj表示第j个类别标签,
yq表示第q个类别标签,q表示总的类别标签个数;i为1到q之间的正整数;
得到训练样本的标签矩阵Y∈{0,1}n×q,
其中,n为正整数,表示样本个数;
其中,Yab表示矩阵Y∈{0,1}n×q中的第a行b列的元素;Yab=1表示第a个样本含有第b个类别标签,否则Yab=0,a为1到n之间的正整数,b为1到q之间的正整数;
对标签的共现关系建立图G=(V,E);
其中,V表示为类别标签集合,即V={y1,……yi…,yq};
E表示边集,即E={e1,e2,…,em},em表示两两标签节点之间连接的边,m表示边的条数;
将图G中所有标签节点的邻接关系建立成一个邻接矩阵A∈{0,1}q×q,根据边集E得到矩阵A中的所有元素Aij,Aij的取值域为{0,1};
Aij=1表示第i个类别标签yi和第j个类别标签yj在边集E中存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中有共现关系;
Aij=0表示第i个类别标签yi和第j个类别标签yj在边集E中不存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中没有共现关系。
3.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,根据标签关系图获得标签节点;根据标签节点获得一阶相似性约束、二阶相似性约束以及高阶相似性约束;优化一阶相似性约束、二阶相似性约束以及高阶相似性约束得到所有类别标签的映射和所有标签组的映射,包括:
O1表示的是两个标签节点映射表示
Figure QLYQS_1
和/>
Figure QLYQS_2
之间的一阶相似性约束:
Figure QLYQS_3
其中,vi表示在边集E中的任意的一条边上的标签yi
vj表示标签yi的所在边上的另一个标签yj
Figure QLYQS_4
为vi对应标签节点映射表示;
Figure QLYQS_5
为vj对应标签节点映射表示;
其中,i,j∈{1,2,…,q};
O2表示的是两个标签节点映射表示
Figure QLYQS_6
和/>
Figure QLYQS_7
以共同邻居为媒介计算的二阶相似性约束:
Figure QLYQS_8
其中,α为上下文嵌入的权衡参数取值域为{0.1,1,5,10};
标签集合V={y1,……yi…,yq};
vi∈V表示类别标签集合V中第i个标签节点;
ij为衡量标签节点vi生成的上下文节点集vj∈Ci质量的函数,Ci为依据标签节点vi生成的上下文节点集,vi生成的上下文节点表达的是标签节点vi ξ之内的邻居节点,ξ的取值域为{5,10};
O3表示的是两个标签节点映射表示
Figure QLYQS_9
和/>
Figure QLYQS_10
之间的高阶相似性约束,
Figure QLYQS_11
其中,β为权衡参数取值域为{0.1,1,5,10};
Figure QLYQS_12
为高斯分布;
Figure QLYQS_13
为第k个标签组的标签组映射k∈{1,…K},K为标签组个数取值域为{5,7,9};
πik表示第i个标签之间和标签组k之间的从属关系,取值范围为[0,1];
Figure QLYQS_14
为第k个组的协方差矩阵,/>
Figure QLYQS_15
表示实数域,de的取值域为{128,256,512};
通过优化一阶相似性约束、二阶相似性约束以及高阶相似性约束得到q个类别标签的映射
Figure QLYQS_16
和K个标签组的映射表示/>
Figure QLYQS_17
其中,
Figure QLYQS_18
的维度为/>
Figure QLYQS_19
Figure QLYQS_20
的维度为/>
Figure QLYQS_21
Figure QLYQS_22
表示实数域;
针对每一个标签节点vi进行采样,采样路径长度设置为l,l的取值域为{2,5,10};每个节点经过随机行走采样经过的次数为γ,γ的取值域为{5,10};
通过Deepwalk初始化标签节点映射
Figure QLYQS_23
和上下文映射/>
Figure QLYQS_24
根据
Figure QLYQS_25
更新πik,其中,Nk表示采样路径中所有标签节点和标签组k之间路径的总和;
根据
Figure QLYQS_26
与/>
Figure QLYQS_27
更新/>
Figure QLYQS_28
Σk,其中,γik表示的是第i个标签和标签组k之间的路径;
根据一阶相似性约束,二阶相似性约束和高阶相似性约束得到最终损失函数:
Figure QLYQS_29
通过最小化损失函数求解出所有类别标签的映射
Figure QLYQS_30
上下文映射/>
Figure QLYQS_31
标签组分配/>
Figure QLYQS_32
∏内任意第i行k列元素为πik,πik的取值决定了第i个标签和第k个标签组之间的从属关系;
每个标签有K个标签从属关系值,若πik的取值为标签i在这K个标签从属关系值中的最大值则认为标签i属于标签组k,对于每一个标签都在∏中查找其最大的标签从属关系值就可以得到每个标签所属于的标签组,i为1到q之间的正整数,k为1到K之间的正整数,
Figure QLYQS_33
表示实数域,所有标签组的映射/>
Figure QLYQS_34
所有标签组的协方差矩阵Ξ,/>
Figure QLYQS_35
4.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取,包括:
输入多标签图像样本t,并将t进行裁剪得到长宽为224通道数为3的图像,输入ResNet-101卷积神经网络,ResNet-101是由4个阶层组成,这4个阶层所生成的特征图将作为备选;
输入样本t在每个阶层输出的特征图为
Figure QLYQS_36
其中,
Figure QLYQS_37
表示实数域;
W为特征图的宽度,取值域为{7,14,28,56};
H为特征图的长度,取值域为{7,14,28,56};
D为特征图的通道数,取值域为{256,512,1024,2048};
s为当前所选取的阶层编号,s的取值域为{1,2,3,4}。
5.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度,包括:
提取ResNet-101中选取的阶层的特征图Fs,通过映射矩阵
Figure QLYQS_38
对Fs进行映射,/>
Figure QLYQS_39
表示实数域,D为特征图Fs的通道数;de为将选取的特征图Fs映射到标签和标签组映射的维度,de与标签、标签组的映射表示/>
Figure QLYQS_40
Figure QLYQS_41
的维度/>
Figure QLYQS_42
中的de一致。
6.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,对选取的特征图中所有像素点位置计算标签和标签组在当前位置的相合性评分与归一化评分,包括:
引入映射矩阵
Figure QLYQS_43
通过w,h确定选取的特征图Fs中像素点的位置,/>
Figure QLYQS_44
表示实数域,D为特征图Fs的通道数;de为将选取的特征图Fs映射到标签和标签组映射的维度,w表示在选取出的特征图中的水平位置,取值域为{0,1,…,W};h表示在选取出的特征图中的垂直位置,取值域{0,1,…,H}:
任意第i个标签在当前选取的特征图Fs上像素点中的相合性评分
Figure QLYQS_45
Figure QLYQS_46
任意k个标签组在当前选取的特征图Fs上像素点中的相合性评分
Figure QLYQS_47
Figure QLYQS_48
其中,C表示相合性评分计算函数;
fs,(w,h)表示选取的特征图Fs在坐标位置w,h上的特征向量,维度为
Figure QLYQS_49
Figure QLYQS_50
表示实数域;
Figure QLYQS_51
表示第i个标签映射,i的取值域为{1,2,…,q};
Figure QLYQS_52
表示第k个标签组映射,k的取值域为{1,2,…,K};
当前像素点中第i个标签在选取的特征图Fs上的归一化评分
Figure QLYQS_53
Figure QLYQS_54
当前像素点中第k个标签组在选取的特征图Fs上的归一化评分
Figure QLYQS_55
Figure QLYQS_56
其中,x表示选取的特征图Fs中的任意像素点位置水平坐标,取值域为{0,1,…,W};
y表示选取的特征图Fs中的任意像素点位置垂直坐标,取值域为{0,1,…,H}。
7.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征,包括:
在选取的特征图Fs上计算得到的整合的第i个标签特征
Figure QLYQS_57
第i个标签整合的特征/>
Figure QLYQS_58
维度为/>
Figure QLYQS_59
并进一步得到在选取的特征图Fs上所有标签节点的整合标签特征/>
Figure QLYQS_60
在选取的多层特征图上计算标签i的整合标签特征/>
Figure QLYQS_61
取均值计算得到标签i的最终相关语义特征/>
Figure QLYQS_62
和所有标签节点的最终相关语义特征/>
Figure QLYQS_63
其中,
Figure QLYQS_64
Figure QLYQS_65
表示实数域;/>
Figure QLYQS_66
引入映射矩阵/>
Figure QLYQS_67
D为特征图Fs的通道数;de为将选取的特征图Fs映射到标签和标签组映射的维度
在选取的特征图Fs上计算得到的整合的第k组标签特征
Figure QLYQS_68
第k组标签整合的特征/>
Figure QLYQS_69
维度为/>
Figure QLYQS_70
并进一步得到在选取的特征图Fs上所有标签组的整合标签组特征/>
Figure QLYQS_71
在选取的多层特征图上计算标签组k的整合标签特征/>
Figure QLYQS_72
取均值计算得到标签组k的最终相关语义特征/>
Figure QLYQS_73
和所有标签组的最终相关语义特征/>
Figure QLYQS_74
其中,
Figure QLYQS_75
Figure QLYQS_76
表示实数域;/>
Figure QLYQS_77
其中,s为选取的参与计算的阶层个数,取值域为{1,2,3,4}。
8.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况,包括:
根据标签与标签组对应关系∏配对最终第i个标签的相关语义特征
Figure QLYQS_78
和第i个标签所属于的第k标签组的最终相关语义特征/>
Figure QLYQS_79
Figure QLYQS_80
维度均为/>
Figure QLYQS_81
Figure QLYQS_82
表示实数域;
通过拼接
Figure QLYQS_83
与/>
Figure QLYQS_84
得到用于标签i分类的特征F'i,F'i的维度为/>
Figure QLYQS_85
Figure QLYQS_86
表示实数域;
将F'i输入一个全连接层,全连接层的输入为F'i,输出一个实数Q,将Q输入进sigmoid激活函数得到一个概率
Figure QLYQS_87
该概率/>
Figure QLYQS_88
是标签i在样本t中出现的概率,该标签i在样本t中出现的概率/>
Figure QLYQS_89
在(0,1)之间;
通过设置一个阈值z判断标签i是否存在于样本t中,
Figure QLYQS_90
则认为标签i在样本t中有出现,/>
Figure QLYQS_91
则认为标签i在样本t中没有出现,z的取值域为{0.5}。
9.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,
标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值,包括:
计算选取的特征图Fs上所有标签节点的整合标签特征
Figure QLYQS_92
与所有标签组的整合标签组特征/>
Figure QLYQS_93
得到标签节点i的最终标签语义特征
Figure QLYQS_94
和标签节点i所属的标签组k标签组k的最终标签组语义特征/>
Figure QLYQS_95
根据标签与标签组对应关系∏配对将最终第i个标签的相关语义特征
Figure QLYQS_96
与其对应的第i个标签所属于的第k标签组的最终相关语义特征/>
Figure QLYQS_97
拼接得到最终第i个标签分类特征F'i,并将其输入全连接层经过sigmoid激活函数并进行阈值判断运算,得到最终样本t中第i个标签的分类结果;
对q个类别标签分别带入对第i个标签分类结果的计算方法计算q次可以得到样本t中的类别标签向量
Figure QLYQS_98
10.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的一种多标签图像深度学习分类方法。
CN202011022191.3A 2020-09-25 2020-09-25 一种多标签图像深度学习分类方法及设备 Active CN112308115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011022191.3A CN112308115B (zh) 2020-09-25 2020-09-25 一种多标签图像深度学习分类方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011022191.3A CN112308115B (zh) 2020-09-25 2020-09-25 一种多标签图像深度学习分类方法及设备

Publications (2)

Publication Number Publication Date
CN112308115A CN112308115A (zh) 2021-02-02
CN112308115B true CN112308115B (zh) 2023-05-26

Family

ID=74488610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011022191.3A Active CN112308115B (zh) 2020-09-25 2020-09-25 一种多标签图像深度学习分类方法及设备

Country Status (1)

Country Link
CN (1) CN112308115B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076976B (zh) * 2021-03-17 2023-08-18 中山大学 一种基于局部特征关系探究的小样本图像分类方法
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和***
CN113449775B (zh) * 2021-06-04 2023-02-24 广州大学 一种基于类激活映射机制的多标签图像分类方法和***
WO2023032345A1 (ja) * 2021-09-02 2023-03-09 富士フイルム株式会社 情報処理装置、方法およびプログラム
CN114299342B (zh) * 2021-12-30 2024-04-26 安徽工业大学 一种基于深度学习的多标记图片分类中未知标记分类方法
CN114648635B (zh) * 2022-03-15 2024-07-09 安徽工业大学 一种融合标签间强相关性的多标签图像分类方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874655A (zh) * 2017-01-16 2017-06-20 西北工业大学 基于多标记学习和贝叶斯网络的中医症型分类预测方法
CN107577983A (zh) * 2017-07-11 2018-01-12 中山大学 一种循环发现关注区域识别多标签图像的方法
CN107977677A (zh) * 2017-11-27 2018-05-01 深圳市唯特视科技有限公司 一种应用于大规模城区重建中的多标签像素分类方法
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
CN109740686A (zh) * 2019-01-09 2019-05-10 中南大学 一种基于区域池化和特征融合的深度学习图像多标记分类方法
CN109993197A (zh) * 2018-12-07 2019-07-09 天津大学 一种基于深度端对端示例差异化的零样本多标签分类方法
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
CN110222709A (zh) * 2019-04-29 2019-09-10 上海暖哇科技有限公司 一种多标签智能打标方法及***
CN110516704A (zh) * 2019-07-19 2019-11-29 中国科学院地理科学与资源研究所 一种基于关联规则的mlknn多标签分类方法
CN111079840A (zh) * 2019-12-17 2020-04-28 太原科技大学 基于卷积神经网络和概念格的图像语义完备标注方法
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法
CN111581981A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于评价对象强化和带约束标签嵌入的方面类别检测***及方法
CN111667158A (zh) * 2020-05-26 2020-09-15 南开大学 一种基于多图神经网络联合学习的工作技能预测方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874655A (zh) * 2017-01-16 2017-06-20 西北工业大学 基于多标记学习和贝叶斯网络的中医症型分类预测方法
CN107577983A (zh) * 2017-07-11 2018-01-12 中山大学 一种循环发现关注区域识别多标签图像的方法
CN107977677A (zh) * 2017-11-27 2018-05-01 深圳市唯特视科技有限公司 一种应用于大规模城区重建中的多标签像素分类方法
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
CN109993197A (zh) * 2018-12-07 2019-07-09 天津大学 一种基于深度端对端示例差异化的零样本多标签分类方法
CN109740686A (zh) * 2019-01-09 2019-05-10 中南大学 一种基于区域池化和特征融合的深度学习图像多标记分类方法
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
CN110222709A (zh) * 2019-04-29 2019-09-10 上海暖哇科技有限公司 一种多标签智能打标方法及***
CN110516704A (zh) * 2019-07-19 2019-11-29 中国科学院地理科学与资源研究所 一种基于关联规则的mlknn多标签分类方法
CN111079840A (zh) * 2019-12-17 2020-04-28 太原科技大学 基于卷积神经网络和概念格的图像语义完备标注方法
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法
CN111581981A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于评价对象强化和带约束标签嵌入的方面类别检测***及方法
CN111667158A (zh) * 2020-05-26 2020-09-15 南开大学 一种基于多图神经网络联合学习的工作技能预测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Deep Learning for Multilabel Remote Sensing Image Annotation With Dual-Level Semantic Concepts;Panpan Zhu等;《IEEE Transactions on Geoscience and Remote Sensing》;20200110;4047-4060 *
Deep Semantic Adversarial Hashing Based on Autoencoder for Large-Scale Cross-Modal Retrieval;Mingyong Li等;《2020 IEEE International Conference on Multimedia & Expo Workshops (ICMEW)》;20200609;1-6 *
Exact inference in multi-label CRFs with higher order cliques;Srikumar Ramalingam等;《2008 IEEE Conference on Computer Vision and Pattern Recognition》;20080805;1-8 *
基于卷积神经网络的多标签场景分类;陈智;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215;第2016年卷(第2期);I138-1318 *
基于多层次图注意力卷积神经网络的节点分类模型研究;周恒晟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115;第2020年卷(第1期);I140-336 *
基于深度学习的短文本分类算法研究及应用;金佳佳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200815;第2020年卷(第8期);I138-870 *
基于迁移学习与深度卷积特征的图像标注方法研究;宋光慧;《中国博士学位论文全文数据库 信息科技辑》;20170815;第2017年卷(第8期);I138-83 *

Also Published As

Publication number Publication date
CN112308115A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习***及方法
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN107562812A (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN105844292A (zh) 一种基于条件随机场和二次字典学习的图像场景标注方法
CN111476315A (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
Rad et al. Image annotation using multi-view non-negative matrix factorization with different number of basis vectors
CN112364747B (zh) 一种有限样本下的目标检测方法
CN114741519A (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN114528479B (zh) 一种基于多尺度异构图嵌入算法的事件检测方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及***
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN114417063A (zh) 一种基于多视图的图神经网络的重要节点识别方法
CN114299342B (zh) 一种基于深度学习的多标记图片分类中未知标记分类方法
CN116244277A (zh) 一种nlp识别与知识库构建方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant