CN112308115B

CN112308115B - 一种多标签图像深度学习分类方法及设备

Info

Publication number: CN112308115B
Application number: CN202011022191.3A
Authority: CN
Inventors: 张辉宜; 张进; 黄�俊; 屈喜文
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2023-05-26
Anticipated expiration: 2040-09-25
Also published as: CN112308115A

Abstract

本发明涉及机器学习领域的多标签学习技术，涉及一种多标签图像深度学习分类方法及设备，包含以下步骤：获得标签关系图；根据标签关系图获得所有类别标签的映射和所有标签组的映射；构建深度卷积神经网络并进行图像通用特征提取；选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度；对选取特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分；得到最终的标签相关语义特征与最终的标签组的相关语义特征；标签预测。本申请实现有效利用标签关系，学习更加丰富的图像通用特征和标签关系特征，更好的进行多标签分类任务。

Description

一种多标签图像深度学习分类方法及设备

技术领域

本发明涉及机器学习领域的多标签学习技术，涉及针对深度多标签学习中的图嵌入学习及分类技术，特别涉及一种多标签图像深度学习分类方法及设备。

背景技术

在大数据时代，多标签图像越来越复杂，多标签图像的复杂不仅仅体现在图像中标签个数的增多，也体现在不同的标签在多标签图像中的分布也越来越复杂。为了解决多标签图像的分类问题除了可以利用图像自身的特征如轮廓，形状，颜色等进行标签分类，也可以结合多标签学习中的标签之间存在的相互关系对标签关系进行建模。

目前的多标签图像深度学习主要采用卷积神经网络对图像中的通用特征进行提取学习，这些通用特征包括了图像中物体的轮廓，颜色，形状等。同时针对多标签图像中标签与标签之间的低阶或高阶关系进行建模学习到标签关系特征，最终将这两部分特征进行融合得到最终最具有判别力的特征，利用最终结合的特征就可以建立分类器得到多个标签在图像中的概率分布。

其中提取图像通用特征的卷积神经网络部分采用的一般都是AlexNet，VGG，ResNet，其中ResNet因为其强大的特征提取能力在目前的多标签深度学习框架中占据主流地位，在ResNet的众多版本中权衡了性能和计算资源，计算速度等因素主要采用101层的ResNet-101。目前主流的方法采用的一般是ResNet-101最终某一层的特征，没有高效地利用不同特征层获取更加丰富的语义信息。本方法虽然采用ResNet-101作为图像通用特征提取器，但在实际应用时本方法可以与任意主流卷积神经网络结合具有很好的可拓展性。

对于多标签图像中的标签关系学习标签关系特征的提取目前主流的方法是采用递归神经网络或者是图神经网络进行标签关系的建模和学习，递归神经网络可以很好地处理序列化的数据，利用递归神经网络可以学习到特定序列中标签之间的相互关系来帮助进行多标签分类。图神经网络对标签关系建模是目前新兴的标签关系提取方法，图神经网络例如图卷积神经网络可以用来处理非欧几里得数据的特征提取问题。利用图神经网络来进行标签关系提取一般分为三步：第一步，建立标签关系图，一般采用标签在多标签图像中的共现关系作为关系图的建立依据，每一种类别的标签都是一个节点，节点之间连接的边即代表标签之间的共现关系。第二步，得到标签节点本身的表示，标签节点自身也要对自己的语义信息进行表达，一般采用词嵌入的模型将标签自身的语义信息转化为向量。第三步，将标签共现关系图和含有标签语义的词嵌入输入进图神经网络学习到包含共现关系和语义信息的特征。虽然这些方法都利用到了标签之间存在的相似性但是没有考虑到更加高阶的标签相似性。同时也没有对标签按照自身属性进行分组对标签关系进行进一步的约束。

综上所述多标签图像深度学习分类由深度学习方法中的卷积神经网络作为特征提取器，利用不同的卷积神经网络模型和同一卷积神经网络的不同层的特征都会影响最终的分类结果，目前对于同一卷积神经网络模型的不同层的特征的整合缺乏有效的方法。对标签关系特征的提取虽然方法不同但是都没有充分考虑到多阶的标签相似性。因此如何更加高效的利用卷积神经网络进行通用特征提取和如何针对标签节点多阶相似性关系进行建模学习对提升多标签图像深度学习模型的性能来说尤为关键。

发明内容

本发明提供一种多标签图像深度学习分类方法及设备，实现有效利用标签关系，学习更加丰富的图像通用特征和标签关系特征，更好的进行多标签分类任务。

为实现上述技术目的，本申请采取的技术方案为，一种多标签图像深度学习分类方法，包含以下步骤：

获取训练数据的图像文件和标签，获得标签关系图；

根据标签关系图获得所有类别标签的映射和所有标签组的映射；

构建深度卷积神经网络，制定从卷积神经网络中抽取指定特征图的策略，并进行图像通用特征提取；

选取的卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度；

对选取的特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分；

根据选取的特征图中每个位置的标签和标签组归一化评分，获得选取的特征图上整合的标签与标签组特征，通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征；

将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算，阈值判断计算得到该标签在样本t中的出现情况；

标签预测，给定测试样本t，将测试样本t带入前述步骤得到样本t中所有标签的预测值。

作为本申请改进的技术方案，获取训练数据的图像文件和标签，获得标签关系图，包括：

获取训练数据的图像文件和训练数据中的标签，得到标签集合V＝{y₁,……y_i…,y_q}，

其中，y_i表示第i个类别标签，

y_q表示第q个类别标签,q表示总的类别标签个数；i为1到q之间的正整数；

得到训练样本的标签矩阵Y∈{0,1}^n×q,

其中，n为正整数，表示样本个数；

其中Y_ab表示矩阵Y∈{0,1}^n×q中的第a行b列的元素；Y_ab＝1表示第a个样本含有第b个类别标签，否则Y_ab＝0,a为1到n之间的正整数,b为1到q之间的正整数。

对标签的共现关系建立图G＝(V，E),

其中，B表示为类别标签集合，即B＝{y₁,……y_i…,y_q}；

E表示边集，即E＝{e₁,e₂,…,e_m}，e_m表示两两标签节点之间连接的边，m表示边的条数；

将图G中所有标签节点的邻接关系建立成一个邻接矩阵A∈{0,1}^q×q,根据边集E得到矩阵A中的所有元素A_ij，A_ij的取值域为{0,1}；

A_ij＝1表示第i个类别标签y_i和第j个类别标签y_j在边集E中存在相互连接的边，同时也表示第i个类别标签y_i和第j个类别标签y_j在多标签数据集中有共现关系；

A_ij＝0表示第i个类别标签y_i和第j个类别标签y_j在边集E中不存在相互连接的边，同时也表示第i个类别标签y_i和第j个类别标签y_j在多标签数据集中没有共现关系。

作为本申请改进的技术方案，根据标签关系图获得所有类别标签的映射和所有标签组的映射，包括：

O₁表示的是两个标签节点映射表示

和/>

之间的一阶相似性约束：

其中，v_i表示在边集E中的任意的一条边上的标签y_i；

v_j表示标签y_i的所在边上的另一个标签y_j；

为v_i对应标签节点映射表示；

为v_j对应标签节点映射表示；

其中，i,j∈{1,2,…,q}；

O₂表示的是两个标签节点映射表示

和/>

以共同邻居为媒介计算的二阶相似性约束：

其中，α为上下文嵌入的权衡参数取值域为{0.1,1,5,10}；

标签集合V＝{y₁,……y_i…,y_q}；

v_i∈V表示类别标签集合中第i个标签节点；

△_ij为衡量标签节点v_i生成的上下文节点集v_j∈C_i质量的函数，C_i为依据标签节点v_i生成的上下文节点集，v_i生成的上下文节点表达的是标签节点v_iξ跳之内的邻居节点，ξ的取值域为{5,10}；

O₃表示的是两个标签节点映射表示

和/>

之间的高阶相似性约束，

其中，β为权衡参数取值域为{0.1,1,5,10}；

为高斯分布；

为第k个标签组的标签组映射k∈{1,…K}，K为标签组个数取值域为{5,7,9}；

π_ik表示第i个标签之间和标签组k之间的从属关系，取值范围为[0,1]；

为第k个组的协方差矩阵，/>

表示实数域，d_e的取值域为{128,256,512}；

通过优化一阶相似性约束、二阶相似性约束以及高阶相似性约束得到q个类别标签的映射

和K个标签组的映射表示/>

其中，

的维度为/>

的维度为/>

/>

表示实数域。

针对每一个标签节点v_i进行采样，采样路径长度设置为l，l的取值域为{2,5,10}；每个节点经过随机行走采样经过的次数为γ，γ的取值域为{5,10}；

通过Deepwalk初始化标签节点映射

和上下文映射/>

根据

更新π_ik，其中，N_k表示采样路径中所有标签节点和标签组k之间路径的总和；

根据

与/>

更新/>

Σ_k，其中，γ_ik表示的是第i个标签和标签组k之间的路径；

根据一阶相似性约束，二阶相似性约束和高阶相似性约束得到最终损失函数：

通过最小化损失函数求解出所有类别标签的映射

上下文映射/>

标签组分配/>

∏内任意第i行k列元素为π_ik，π_ik的取值决定了第i个标签和第k个标签组之间的从属关系；

每个标签有K个标签从属关系值，若π_ik的取值为标签i在这K个标签从属关系值中的最大值则认为标签i属于标签组k，对于每一个标签都在∏中查找其最大的标签从属关系值就可以得到每个标签所属于的标签组，i为1到q之间的正整数,k为1到K之间的正整数，

表示实数域，所有标签组的映射/>

所有标签组的协方差矩阵Ξ,/>

作为本申请改进的技术方案，构建深度卷积神经网络，制定从卷积神经网络中抽取指定特征图的策略，并进行图像通用特征提取，包括：

输入多标签图像样本t，并将t进行裁剪得到长宽为224通道数为3的图像，输入ResNet-101卷积神经网络，ResNet-101是由4个阶层组成，这4个阶层所生成的特征图将作为备选；

输入样本t在每个阶层输出的特征图为

其中,

表示实数域；

W为选取的特征图的宽度，取值域为{7,14,28,56}；

H为选取的特征图的长度，取值域为{7,14,28,56}；

D为选取的特征图的通道数，取值域为{256,512,1024,2048}；

s为当前所提取的阶层编号，s的取值域为{1,2,3,4}。

作为本申请改进的技术方案，选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度，包括：

提取ResNet-101中选取的阶层的特征图F_s，通过映射矩阵

对F_s进行映射，

表示实数域，D为选取的特征图F_s的通道数；d_e为将选取的特征图F_s映射到标签和标签组映射的维度，d_e与标签、标签组的映射表示/>

的维度/>

中的d_e一致。

作为本申请改进的技术方案，对选取的的特征图中所有像素点位置计算标签和标签组在当前位置的相合性评分与归一化评分，包括：

通过w,h确定选取的特征图F_s中像素点的位置，w表示在选取的特征图中的水平方向位置，取值域为{0,1,…,W}；h表示在选取的特征图中的垂直方向位置，取值域{0,1,…,H}:

任意第i个标签在当前选取的特征图F_s上像素点中的相合性评分

任意k个标签组在当前选取的特征图F_s上像素点中的相合性评分

其中，C表示相合性评分计算函数；

f_s,(w,h)表示选取的特征图F_s在坐标位置w,h上的特征向量，维度为

表示实数域；

表示第i个标签映射，i的取值域为{1,2,…,q}；

表示第k个标签组映射，k的取值域为{1,2,…,K}；

当前像素点中第i个标签在特征图F_s上的归一化评分

当前像素点中第k个标签组在特征图F_s上的归一化评分

其中，x表示选取的特征图F_s中的任意像素点位置水平坐标,取值域为{0,1,…,W}；

y表示选取的特征图F_s中的任意像素点位置垂直坐标，取值域为{0,1,…,H}。

作为本申请改进的技术方案，根据选取的特征图中每个位置的标签和标签组归一化评分，获得选取的特征图上整合的标签与标签组特征，通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征，包括：

在选取的特征图F_s上计算得到的整合的第i个标签特征

第i个标签整合的特征

维度为/>

并进一步得到在选取的特征图F_s上所有标签节点的整合标签特征/>

在选取的多层特征图上计算标签i的整合标签特征/>

取均值计算得到标签i的最终相关语义特征/>

和所有标签节点的最终相关语义特征/>

其中，

表示实数域；/>

/>

在选取的特征图F_s上计算得到的整合的第k组标签特征

第k组标签整合的特征

维度为/>

并进一步得到在选取的特征图F_s上所有标签组的整合标签组特征/>

在选取的多层特征图上计算标签组k的整合标签特征/>

取均值计算得到标签组k的最终相关语义特征/>

和所有标签组的最终相关语义特征/>

其中，

表示实数域；/>

其中，s为选取的参与计算的阶层个数，取值域为{1,2,3,4}。

作为本申请改进的技术方案，将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算，阈值判断计算得到该标签在样本t中的出现情况，包括：

根据标签与标签组对应关系∏，配对最终第i个标签的相关语义特征

和第i个标签所属于的第k标签组的最终相关语义特征/>

维度均为/>

表示实数域；

通过拼接

与/>

得到用于标签i分类的特征F'_i，F'_i的维度为/>

表示实数域；

将F'_i输入一个全连接层，全连接层的输入为F'_i，输出一个实数Q，将Q输入进sigmoid激活函数得到一个概率

该概率/>

是标签i在样本t中出现的概率，该标签i在样本t中出现的概率/>

在(0,1)之间；

通过设置一个阈值

判断标签i是否存在于样本t中，/>

则认为标签i在样本t中有出现，/>

则认为标签i在样本t中没有出现，/>

的取值域为{0.5}。

作为本申请改进的技术方案，标签预测，给定测试样本t，将测试样本t带入前述步骤得到样本t中所有标签的预测值，包括：

计算选取的特征图F_s上所有标签节点的整合标签特征

与所有标签组的整合标签组特征/>

得到标签节点i的最终标签语义特征

和标签节点i所属的标签组k标签组k的最终标签组语义特征/>

根据标签与标签组对应关系∏配对将最终第i个标签的相关语义特征

与其对应的第i个标签所属于的第k标签组的最终相关语义特征/>

拼接得到最终第i个标签分类特征F'_i，并将其输入全连接层经过sigmoid激活函数并进行阈值判断运算，得到最终样本t中第i个标签的分类结果；

对q个类别标签分别带入对第i个标签分类结果的计算方法计算q次可以得到样本t中的类别标签向量

本发明的目的之二在于提供执行发明目的之一一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现前述多标签图像深度学习方法。

有益效果

传统多标签深度学习算法通常采用除全连接层外最终一层卷积神经网络提取到的特征作为图像通用特征，没有考虑在卷积神经网络中不同层存在着含有不同语义特征的特征图。这些特征图同样可以用来进行分类，此外相比较之前方法本方法可以建立多阶的标签相似关系特征。本方法最终建立了一个统一模型对标签关系特征和图像通用特征进行学习，使两种特征相互促进，最终得到更加具有判别力的整合特征，从而有效的指导多标签图像分类任务，且本方法可以与主流卷积神经网络结合具有很好的可拓展性。

附图说明

图1一种多标签图像深度学习分类方法示意图。

具体实施方式

为使本发明实施例的目的和技术方案更加清楚，下面将结合本发明实施例的附图对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种多标签图像深度学习分类方法，包括如下步骤：

S1、获取训练数据，并根据训练数据类别获得标签关系图。具体是获取训练数据的图像文件和标签，获得标签关系图。

S2、根据标签关系图获得所有类别标签的映射和所有标签组的映射。

S3、构建深度卷积神经网络进行图像通用特征提取。制定从卷积神经网络中抽取指定特征图的策略。

S4、选取的卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度。

S5、对选取的特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分。

S6、根据图像中每个位置的标签和标签组归一化评分得到选取的特征图上整合的标签，标签组特征，通过在多层选取的层的特征图上计算整合的标签特征与标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征。

S7、将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算，阈值判断计算得到该标签在样本t中的出现情况；

S8、标签预测，给定测试样本t，将测试样本t带入S1-S7得到样本t中所有标签的预测值。

具体的，一种多标签图像深度学习分类方法，

建立数据集中标类别之间的关系：

假定数据集含有q个类别标签，获取训练数据的图像文件和训练数据中的标签，得到标签集合V＝{y₁,……y_i…,y_q}和训练样本的标签矩阵Y∈{0,1}^n×q,y_i表示第i个类别标签，y_q表示第q个类别标签，n表示样本个数，q表示总的标签个数；

对标签的共现关系建立图G＝(V，E)，V表示类别标签集合，即V＝{y₁,……y_i…,y_q}，y_i表示第i个类别标签，y_q表示第q个类别标签，q表示总的类别标签个数；i为1到q之间的正整数。E表示边集，即E＝{e₁,e₂,…,e_m}，e_m表示两两标签节点之间连接的边，一共有m条边。将图G中所有标签节点的邻接关系建立成一个邻接矩阵A∈{0,1}^q×q,根据边集E得到矩阵A中的所有元素A_ij，A_ij的取值域为{0,1}，A_ij＝1表示标签节点i,j在边集E中存在相互连接的边同时也表示标签节点i,j在多标签数据集中有共现关系，A_ij＝0表示第i个类别标签y_i和第j个类别标签y_j在边集E中不存在相互连接的边同时也表示第i个类别标签y_i和第j个类别标签y_j在多标签数据集中没有共现关系。

模型构建与训练：

(1-1)通过建立数据集中标类别之间的关系建立一张标签类别关系图，并且优化目标函数得到标签组和标签的低维映射。

公式一表示的是两个标签节点映射表示

和/>

之间的一阶相似性约束：

其中，v_i表示在边集E中的任意的一条边上的标签y_i；

v_j表示标签y_i的所在边上的另一个标签y_j；

为v_i对应标签节点映射表示；

为v_j对应标签节点映射表示；

其中，i,j∈{1,2,…,q}。

公式二表示的是两个标签节点映射表示

和/>

以共同邻居为媒介计算的二阶相似性约束，α为上下文嵌入的权衡参数取值域为{0.1,1,5,10}，v_i∈V表示类别标签集合中第i个标签节点，△_ij为衡量标签节点v_i生成的上下文节点集v_j∈C_i质量的函数。C_i为依据标签节点v_i生成的上下文节点集，此处v_i的上下文节点表达的是标签节点v_iξ跳之内的邻居节点，ξ的取值域为{5,10}。

对于两个标签节点映射表示

和/>

高阶相似性如公式三定义，β为权衡参数取值域为{0.1,1,5,10}，/>

为高斯分布，/>

为第k个标签组的标签组映射k∈{1,…K}，π_ik表示第i个标签之间和标签组k之间的从属关系取值范围为[0,1]，/>

为第k个组的协方差矩阵。K为标签组个数取值域为{5,7,9}，/>

表示实数域。通过优化三种相似性约束公式可以得到q个类别标签的映射/>

和K个标签组的映射表示/>

与/>

的维度均为/>

d_e的取值域为{128,256,512}，/>

表示实数域。

在图G中针对每一个标签节点v_i进行采样，采样路径长度设置为l，l的取值域为{2,5,10}，γ为每个节点经过随机行走采样经过的次数，γ的取值域为{5,10}。通过Deepwalk初始化标签节点映射

和上下文映射/>

通过公式四至公式六更新π_ik，

∑_k。γ_ik表示的是第i个标签和标签组k之间的路径。N_k表示采样路径中所有标签节点和标签组k之间路径的总和。

根据一阶相似性约束，二阶相似性约束和高阶相似性约束得到最终损失函数公式七

通过最小化损失函数公式七求解出所有类别标签的映射

上下文映射

标签组分配/>

∏内任意第i行k列元素为π_ik，π_ik的取值决定了第i个标签和第k个标签组之间的从属关系。每个标签有K个标签从属关系值，若π_ik的取值为标签i在这K个标签从属关系值中的最大值则认为标签i属于标签组k，对于每一个标签都在∏中查找其最大的标签从属关系值就可以得到每个标签所属于的标签组，i为1到q之间的正整数,k为1到K之间的正整数，/>

表示实数域，所有标签组的映射/>

所有标签组的协方差矩阵Ξ,

(1-2)输入多标签图像样本t并将t进行裁剪得到长宽为224通道数为3的图像，输入ResNet-101卷积神经网络，ResNet-101是由4个阶层组成，这4个阶层所生成的特征图将作为备选。输入样本t在每个阶层输出的特征图为

表示实数域，其中W为特征图的宽度，H为特征图的长度，D为特征图的通道数，s为当前所提取的阶层编号，s的取值域为{1,2,3,4},W,H的取值域为{7,14,28,56},D的取值域为{256,512,1024,2048}。

(1-3)提取ResNet-101中选取的阶层的特征图F_s,通过映射矩阵

对F_s进行映射，/>

表示实数域，将选取的的特征图F_s映射到标签和标签组映射的维度d_e。

(1-4)通过w,h确定选取的的特征图中像素点的位置由公式八与公式九计算任意第i个标签在当前选取的的特征图F_s上像素点中的相合性评分

和任意第k个标签组在当前选取的的特征图F_s上像素点中的相合性评分/>

w表示在选取出的特征图中的水平位置，取值域为{0,1,…,W}，h表示在选取出的特征图中的垂直位置，取值域{0,1,…,H}；

C表示相合性评分计算函数，f_s,(w,h)表示选取的特征图F_s在坐标位置w,h上的特征向量维度为

表示实数域。/>

表示第i个标签映射，i的取值域为{1,2,…,q}；/>

表示第k个标签组映射，k的取值域为{1,2,…,K}。

通过公式九与公式十一得到当前像素点中第i个标签在选取的特征图F_s上的归一化评分

第k标签组在选取的特征图F_s上的归一化评分/>

x表示选取的特征图F_s中的任意像素点位置水平坐标,取值域为{0,1,…,W}；y表示选取的特征图F_s中的任意像素点位置垂直坐标，取值域为{0,1,…,H}。

(1-5)通过公式十二得到在选取的的特征图F_s上计算得到的整合的第i个标签特征

维度为/>

表示实数域。这样可以得到在选取的特征图F_s上所有标签节点的整合标签特征/>

通过公式十二得到在选取的的特征图F_s上计算得到的整合的第k组标签特征

维度为/>

表示实数域这样可以得到在选取的的特征图F_s上所有标签组的整合标签组特征/>

对选取的的每个特征图F_s通过公式八到公式十二计算每个F_s上的整合标签特征

与整合标签组特征/>

通过公式十四和公式十五在多层选取特征图上计算整合标签/>

和标签组特征/>

在所有选取层上取均值计算得到标签和标签组的最终相关语义特征/>

s为选取的参与计算的阶层个数，取值域为{1,2,3,4}。

(1-6)将最终第i个标签的相关语义特征

和通过∏得到的第i个标签所属于的第k标签组的最终相关语义特征/>

找出进行配对。/>

维度均为/>

表示实数域。通过拼接二者得到用于标签i分类的特征F'_i，F'_i的维度为/>

表示实数域。将F'_i输入一个全连接层,全连接层的输入为F'_i，输出一个实数Q，将Q输入进sigmoid激活函数得到一个值在(0,1)之间的标签i在样本t中出现的概率/>

通过设置一个阈值/>

判断标签i是否存在于样本t中，/>

则认为标签i在样本t中有出现，/>

则认为标签i在样本t中没有出现。/>

的取值域为{0.5}。

标签预测：

(2-1)给定测试样本t，t是含有多标签信息的图像数据。

(2-2)通过(1-1)获取所有q个标签的映射和所有K组标签组映射。

(2-3)对于数据集中所有的q个标签经过q次(1-4)和(1-5)的计算得到标签i和标签组k的最终相关语义特征

(2-4)通过(1-6)根据标签与标签组对应关系∏配对将最终第i个标签的相关语义特征

拼接得到最终第i个标签分类特征F'_i，并将其输入全连接层经过sigmoid激活函数并进行阈值判断运算，得到最终样本t中第i个标签的分类结果，对q个类别标签分别带入对第i个标签分类结果的计算方法计算q次可以得到样本t中的类别标签向量/>

上述方法有效解决学习多层特征中丰富的语义信息，建立标签相似性利用学习标签相似性。

本申请的另一目的还提供一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现前文所述的一种多标签图像深度学习分类方法。

综上，本申请对多标签图像数据中标签关系建模获得多阶相似性关系，并且利用卷积神经网络中多层特征；技术效果是：得到每张多标签图像中的标签分布，提升了分类性能，提高了模型分类的效率，可以用于多标签图像学习。

本申请将多标签图像通用特征学习和标签关系建模提取特征结合；技术效果是：使图像通用特征和标签关系特征结合，共同促进，最终得到有利于提高多标签图像分类性能的统一的端到端可拓展模型。

以上仅为本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些均属于本发明的保护范围。

Claims

1.一种多标签图像深度学习分类方法，其特征在于，包含以下步骤：

获取训练数据的图像文件和标签，获得标签关系图；

根据标签关系图获得标签节点；根据标签节点获得一阶相似性约束、二阶相似性约束以及高阶相似性约束；优化一阶相似性约束、二阶相似性约束以及高阶相似性约束得到所有类别标签的映射和所有标签组的映射；

选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度；

对选取特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分；

将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数函数计算，阈值判断计算得到该标签在测试样本t中的出现情况；

2.根据权利要求书1所述的一种多标签图像深度学习分类方法，其特征在于，获取训练数据的图像文件和标签，获得标签关系图，包括：

其中，y_i表示第i个类别标签，y_j表示第j个类别标签，

得到训练样本的标签矩阵Y∈{0,1}^n×q,

其中，n为正整数，表示样本个数；

其中，Y_ab表示矩阵Y∈{0,1}^n×q中的第a行b列的元素；Y_ab＝1表示第a个样本含有第b个类别标签，否则Y_ab＝0,a为1到n之间的正整数,b为1到q之间的正整数；

对标签的共现关系建立图G＝(V，E)；

其中，V表示为类别标签集合，即V＝{y₁,……y_i…,y_q}；

3.根据权利要求书1所述的一种多标签图像深度学习分类方法，其特征在于，根据标签关系图获得标签节点；根据标签节点获得一阶相似性约束、二阶相似性约束以及高阶相似性约束；优化一阶相似性约束、二阶相似性约束以及高阶相似性约束得到所有类别标签的映射和所有标签组的映射，包括：

O₁表示的是两个标签节点映射表示

和/>

之间的一阶相似性约束：

其中，v_i表示在边集E中的任意的一条边上的标签y_i；

v_j表示标签y_i的所在边上的另一个标签y_j；

为v_i对应标签节点映射表示；

为v_j对应标签节点映射表示；

其中，i,j∈{1,2,…,q}；

O₂表示的是两个标签节点映射表示

和/>

以共同邻居为媒介计算的二阶相似性约束：

其中，α为上下文嵌入的权衡参数取值域为{0.1,1,5,10}；

标签集合V＝{y₁,……y_i…,y_q}；

v_i∈V表示类别标签集合V中第i个标签节点；

△_ij为衡量标签节点v_i生成的上下文节点集v_j∈C_i质量的函数，C_i为依据标签节点v_i生成的上下文节点集，v_i生成的上下文节点表达的是标签节点v_iξ之内的邻居节点，ξ的取值域为{5,10}；

O₃表示的是两个标签节点映射表示

和/>

之间的高阶相似性约束，

其中，β为权衡参数取值域为{0.1,1,5,10}；

为高斯分布；

为第k个组的协方差矩阵，/>

表示实数域，d_e的取值域为{128,256,512}；

和K个标签组的映射表示/>

其中，

的维度为/>

的维度为/>

表示实数域；

通过Deepwalk初始化标签节点映射

和上下文映射/>

根据

根据

与/>

更新/>

Σ_k，其中，γ_ik表示的是第i个标签和标签组k之间的路径；

通过最小化损失函数求解出所有类别标签的映射

上下文映射/>

标签组分配/>

表示实数域，所有标签组的映射/>

所有标签组的协方差矩阵Ξ,/>

4.根据权利要求书1所述的一种多标签图像深度学习分类方法，其特征在于，构建深度卷积神经网络，制定从卷积神经网络中抽取指定特征图的策略，并进行图像通用特征提取，包括：

输入样本t在每个阶层输出的特征图为

其中,

表示实数域；

W为特征图的宽度，取值域为{7,14,28,56}；

H为特征图的长度，取值域为{7,14,28,56}；

D为特征图的通道数，取值域为{256,512,1024,2048}；

s为当前所选取的阶层编号，s的取值域为{1,2,3,4}。

5.根据权利要求书1所述的一种多标签图像深度学习分类方法，其特征在于，选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度，包括：

提取ResNet-101中选取的阶层的特征图F_s，通过映射矩阵

对F_s进行映射，/>

表示实数域，D为特征图F_s的通道数；d_e为将选取的特征图F_s映射到标签和标签组映射的维度，d_e与标签、标签组的映射表示/>

的维度/>

中的d_e一致。

6.根据权利要求书1所述的一种多标签图像深度学习分类方法，其特征在于，对选取的特征图中所有像素点位置计算标签和标签组在当前位置的相合性评分与归一化评分，包括：

引入映射矩阵

通过w,h确定选取的特征图F_s中像素点的位置，/>

表示实数域，D为特征图F_s的通道数；d_e为将选取的特征图F_s映射到标签和标签组映射的维度，w表示在选取出的特征图中的水平位置，取值域为{0,1,…,W}；h表示在选取出的特征图中的垂直位置，取值域{0,1,…,H}:

其中，C表示相合性评分计算函数；

表示实数域；

表示第i个标签映射，i的取值域为{1,2,…,q}；

表示第k个标签组映射，k的取值域为{1,2,…,K}；

当前像素点中第i个标签在选取的特征图F_s上的归一化评分

当前像素点中第k个标签组在选取的特征图F_s上的归一化评分

7.根据权利要求书1所述的一种多标签图像深度学习分类方法，其特征在于，根据选取的特征图中每个位置的标签和标签组归一化评分，获得选取的特征图上整合的标签与标签组特征，通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征，包括：

在选取的特征图F_s上计算得到的整合的第i个标签特征

第i个标签整合的特征/>

维度为/>

在选取的多层特征图上计算标签i的整合标签特征/>

取均值计算得到标签i的最终相关语义特征/>

和所有标签节点的最终相关语义特征/>

其中，

表示实数域；/>

引入映射矩阵/>

D为特征图F_s的通道数；d_e为将选取的特征图F_s映射到标签和标签组映射的维度

在选取的特征图F_s上计算得到的整合的第k组标签特征

第k组标签整合的特征/>

维度为/>

在选取的多层特征图上计算标签组k的整合标签特征/>

取均值计算得到标签组k的最终相关语义特征/>

和所有标签组的最终相关语义特征/>

其中，

表示实数域；/>

其中，s为选取的参与计算的阶层个数，取值域为{1,2,3,4}。

8.根据权利要求书1所述的一种多标签图像深度学习分类方法，其特征在于,将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算，阈值判断计算得到该标签在样本t中的出现情况，包括：

根据标签与标签组对应关系∏配对最终第i个标签的相关语义特征

和第i个标签所属于的第k标签组的最终相关语义特征/>

维度均为/>

表示实数域；

通过拼接

与/>

得到用于标签i分类的特征F'_i，F'_i的维度为/>

表示实数域；

该概率/>

在(0,1)之间；

通过设置一个阈值z判断标签i是否存在于样本t中，

则认为标签i在样本t中有出现，/>

则认为标签i在样本t中没有出现，z的取值域为{0.5}。

9.根据权利要求书1所述的一种多标签图像深度学习分类方法，其特征在于,

标签预测，给定测试样本t，将测试样本t带入前述步骤得到样本t中所有标签的预测值，包括：

计算选取的特征图F_s上所有标签节点的整合标签特征

与所有标签组的整合标签组特征/>

得到标签节点i的最终标签语义特征

和标签节点i所属的标签组k标签组k的最终标签组语义特征/>

10.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的一种多标签图像深度学习分类方法。