CN108875827A

CN108875827A - 一种细粒度图像分类的方法及***

Info

Publication number: CN108875827A
Application number: CN201810621469.5A
Authority: CN
Inventors: 林倞; 陈添水; 惠晓璐; 王青
Original assignee: Guangzhou Deep Domain Mdt Infotech Ltd
Current assignee: Guangzhou Wisdom Technology Guangzhou Co ltd
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2018-11-23
Anticipated expiration: 2038-06-15
Also published as: CN108875827B

Abstract

本发明公开了一种细粒度图像分类的方法及***，所述方法包括如下步骤：步骤S1，对输入图片进行特征提取，获得特征图。步骤S2，统计数据集中类别标签和属性的关联性来构建知识图谱；步骤S3，利用GGNN网络对所构建的知识图谱进行特征表达，迭代地更新知识图谱得到知识图谱的特征表示；步骤S4，将步骤S1提取到的特征图与步骤S3通过GGNN网络得到的高级知识进行融合，通过高级知识和特征图结合来引导网络分类，本发明通过知识引导和嵌入来进行细粒度分类，使网络关注到图片中更具有判别性的区域，学习到更强的分类特征，从而提高网络分类准确率。

Description

一种细粒度图像分类的方法及***

技术领域

本发明涉及CNN图像分类、计算机视觉等技术领域，特别是涉及一种基于知识嵌入的特征学习网络来处理细粒度图像分类的细粒度图像分类的方法及***。

背景技术

图像分类这一任务在日常生活中经常发生。其是根据图像的语义信息将不同类别图像区分开来，是计算机视觉中重要的基本问题，也是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。

深度学习模型中的卷积神经网络近年来在图像领域取得了非常好的成绩。因为其将图像像素信息直接作为输入，极大程度上保留了输入图像的所有信息，通过卷积的操作来提取特征和进行高层抽象，输出的直接是图像识别的结果。这种基于“输入－输出”的直接端到端的学习方法便于网络进行训练，也提高了分类准确率。

图像分类技术包括通用图像分类和细粒度图像分类等。通用图像分类效果主要是能够识别图像中的主要物体。而细粒度图像分类是子类别图像分类。相对于通用图像分类针对粗粒度的分类，细粒度分类是更加细致的子类划分，难度更大，差异更微小，提取特征要求更细致。

常规的细粒度分类方法仅仅通过卷积神经网络来提取特征，忽略了一些知识的引导，这种方式或者依赖于局部模型，或者需要引入视觉注意力网络来提取细微的差别用于区别不同种类。然而，上述常规的方法存在如下缺点：局部依赖模型需要大量的注释，这种需求使其受限于大型数据集；引入视觉注意力网络如果缺少监督信息则只能粗略的定位需要被区分的位置。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种细粒度图像分类的方法及***，通过知识引导和嵌入来进行细粒度分类，使网络关注到图片中更具有判别性的区域，学习到更强的分类特征，从而提高网络分类准确率。

为达上述及其它目的，本发明提出一种细粒度图像分类的方法，包括如下步骤：

步骤S1，对输入图片进行特征提取，获得特征图。

步骤S2，，统计数据集中类别标签和属性的关联性来构建知识图谱；

步骤S3，利用GGNN网络对所构建的知识图谱进行特征表达，迭代地更新知识图谱得到知识图谱的特征表示；

步骤S4，将步骤S1提取到的特征图与步骤S3通过GGNN网络得到的高级知识进行融合，通过高级知识和特征图结合来引导网络分类。

优选地，于步骤S1中，利用深度卷积神经网络对输入的图片进行特征提取，并将提取的特征再输入到双线性模型中得到特征图谱。

优选地，于步骤S2中，将数据集中同类物体中对应属性的特征值相加，并进行归一化，得到一个C×A维度的矩阵S，根据矩阵S构建邻接矩阵，进而利用所述邻接矩阵构建所述知识图谱。

优选地，所述GGNN网络结构通过迭代更新节点特征来学习任意图结构数据的特征，然后构成一个知识图谱，包括类别标签和属性的节点，以及节点间的相关性。

优选地，步骤S3进一步包括：

步骤S300，对给定图像进行分类；

步骤S301，定义GGNN网络结构，并用分类结果初始化类别节点特征和初始化属性节点特征，再将其输入GGNN网络，并迭代地更新每个节点的信息。

优选地，于步骤S301中，输入的是一个图其中V是表示节点的集合，A是表示节点之间关系的邻接矩阵，对于每个节点v∈V,在迭代次数t都有一个隐藏信息当t＝0时，其中x_v为初始的特征向量，迭代过程如下：

其中，W^Z,W^r,W，U^z，U^r，U,b指可学习的参数，r_v ^t为中间计算结果，A_v表示节点v和其相邻节点关系的A的子矩阵，σ和tanh分别为激活函数logistic sigmoid和双曲正切函数，⊙表示向量点乘，

整个过程一共迭代T次，最终得到隐藏信息的集合

优选地，步骤S4进一步包括

步骤S400，将步骤S3利用GGNN网络结构知识表达学习到的特征与步骤S1利用深度卷积神经网络提取的特征进行结合；

步骤S401，定义分类器及分类过程的损失函数；

步骤S402，输入图片训练样本，安装前向算法，后向算法和定义的损失函数进行分类网络的参数学习。

优选地，于步骤S4中，引入了一引导机制将卷积神经网络提取到的特征图与GGNN得到的高级知识进行融合。

优选地，于步骤S4中，引入所述引导机制来助高级知识嵌入特征图的过程如下：

其中表示在(i,j)点的特征向量，f_g表示知识图谱特征，是一个引导机制，来引导出特征图中哪些位置更重要，g是一个将和f_g相结合的网络，并输出一个c维度的实际值向量，然后得到的f可以一个全连接网络的输入来计算该输入图片的分类值。

为达到上述目的，本发明还提供一种细粒度图像分类***，包括：

特征提取单元，用于对输入图片进行特征提取，获得特征图；

知识图谱构建单元，用于统计数据集中类别标签和属性的关联性来构建知识图谱；

知识表达学习单元，用于利用GGNN网络对所构建的知识图谱进行特征表达，迭代地更新知识图谱得到知识图谱的特征表示；

知识嵌入分类单元，将所述特征提取单元提取到的特征图与所述知识表达学习单元通过GGNN网络得到的高级知识进行融合，通过高级知识和特征图结合来引导网络分类。

与现有技术相比，本发明一种细粒度图像的分类方法及***通过引入了高级知识引导特征学习，并加入了一个引导机制将知识进行嵌入来进行细粒度分类，使网络关注到图片中更具有判别性的区域，学习到更强的分类特征，从而提高网络分类准确率。

附图说明

图1为本发明一种细粒度图像分类的方法的步骤流程图；

图2为本发明具体实施例在Caltech-UCSD鸟类数据集上建立的关于类别－属性关联的知识图谱的一个例子；

图3为本发明一种细粒度图像分类***的***架构图；

图4为本发明具体实施例中细粒度图像分类***的分类过程示意图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种细粒度图像分类的方法的步骤流程图。如图1所示，本发明一种细粒度图像分类的方法，包括如下步骤：

步骤S1，对输入图片进行特征提取，获得特征图。

具体地，利用深度卷积神经网络(在本发明具体实施例中采用VGG16-Net)对输入的图片进行特征提取，得到14*14*512维度的特征图谱。较佳地，由于紧凑双线性模型在细粒度分类上有很好的分类效果，因此将该特征图再输入至一紧凑双线性模型得到14*14*8192维度的特征图谱。

步骤S2，统计数据集中类别标签和属性的关联性来构建大型知识图谱。在本发明具体实施例中，所述数据集采用Caltech-UCSD数据集，其为公开的细粒度图像分类的数据集，本发明中采用图像标注的类别标签和属性来构建知识图谱。图2为本发明具体实施例在Caltech-UCSD鸟类数据集上建立的关于类别－属性关联的知识图谱的一个例子，例如类别belly(腹部)，属性red(红色)。

具体地说，对于细粒度分类任务，同一类别中仅有的几个个体拥有特殊的属性是很常见的，就像有的个体有一种属性，而同一物种的另一个体没有这种属性一样。这样看来，类别－属性之间的关系具有不确定性。因此，于步骤S2中，将数据集中同类物体中对应属性的特征值相加，并进行归一化，得到一个C×A维度的矩阵S，其中C表示类别节点，A表示属性节点。由于类别与类别之间没有关联，属性和属性之间也没有关联，所以构成一个邻接矩阵为：

进而，构建好一个知识图谱其中V为表示节点的集合，A为表示节点之间关系的邻接矩阵。

步骤S3，利用门图网络(Gated Graph Neural Network,GGNN)对所构建的知识图谱进行特征表达，迭代地更新知识图谱得到知识图谱的特征表示。在本发明中，该门图网络GGNN的结构是一种递归神经网络，其通过迭代更新节点特征来学习任意图结构数据的特征，然后构成一个知识图谱，包括类别标签和属性的节点，以及节点间的相关性。

在本发明具体实施例中，步骤S3进一步包括：

步骤S300，对给定图像进行分类，在本发明中，利用一个基本的紧致双线性插值池化模型(Compact bilinear pooling)对给定图像进行分类；

具体地，在传播过程中，输入的是一个图其中V是表示节点的集合，A是表示节点之间关系的邻接矩阵。对于每个节点v∈V,在迭代次数t都有一个隐藏信息当t＝0时，其中x_v为初始的特征向量。

整个迭代过程如下：

其中，W^Z,W^r,W，U^z，U^r，U,b指可学习的参数，r_v ^t为中间计算结果，A_v是表示节点v和其相邻节点关系的A的子矩阵，σ和tanh分别是激活函数logistic sigmoid和双曲正切函数，⊙表示向量点乘，整个过程一共迭代T次，最终得到隐藏信息的集合整个迭代过程可以简化为等式

步骤S4，将步骤S1提取到的特征图与步骤S3通过GGNN得到的高级知识进行融合，通过高级知识和特征图结合来引导网络分类。

具体地，步骤S4进一步包括：

步骤S400，将利用GGNN网络结构知识表达学习到的特征与步骤S1利用深度卷积神经网络提取的特征进行结合；

步骤S401，定义分类器及分类过程的损失函数；

在本发明具体实施例中，引入了一个引导机制来帮助高级知识嵌入特征图。将卷积神经网络提取到的特征图与GGNN得到的高级知识进行融合，让高级知识和特征图结合来引导网络分类。过程如下：

其中表示在位置(i,j)点的特征向量，f_g表示知识图谱特征，是一个引导机制，来引导出特征图中哪些位置更重要，g是一个将和f_g相结合的网络，并输出一个c维度的实际值向量，然后得到的f可以一个全连接网络的输入来计算该输入图片的分类值。

图3为本发明一种细粒度图像分类***的***架构图，图4为本发明具体实施例中该细粒度图像分类***的分类过程示意图。如图3及图4所示，本发明一种细粒度图像分类的***，包括：

特征提取单元301，用于对输入图片进行特征提取，获得特征图。

具体地，特征提取单元301利用深度卷积神经网络(在本发明具体实施例中采用VGG16-Net)对输入的图片进行特征提取，得到14*14*512维度的特征图谱。较佳地，由于紧凑双线性模型在细粒度分类上有很好的分类效果，因此将该特征图再输入至一紧凑双线性模型得到14*14*8192维度的特征图谱。

知识图谱构建单元302，用于统计数据集中类别标签和属性的关联性来构建大型知识图谱。

具体地，对于细粒度分类任务，同一类别中仅有的几个个体拥有特殊的属性是很常见的，就像有的个体有一种属性，而同一物种的另一个体没有这种属性一样。这样看来，类别－属性之间的关系具有不确定性。因此，知识图谱构建单元302将数据集中同类物体中对应属性的特征值相加，并进行归一化，得到一个C×A维度的矩阵S，其中C表示类别节点，A表示属性节点。由于类别与类别之间没有关联，属性和属性之间也没有关联，所以构成一个邻接矩阵为：

知识表达学习单元303，用于利用门图网络(Gated Graph Neural Network,GGNN)对所构建的知识图谱进行特征表达，迭代地更新知识图谱得到知识图谱的特征表示。在本发明中，所采用的门图网络GGNN的结构是一种递归神经网络，其通过迭代更新节点特征来学习任意图结构数据的特征，然后构成一个知识图谱，包括类别标签和属性的节点，以及节点间的相关性。

在本发明具体实施例中，知识表达学习单元303进一步包括：

分类单元，用于对给定图像进行分类，在本发明中，分类单元利用一个基本的紧致双线性插值池化模型(Compact bilinear pooling)对给定图像进行分类；

迭代更新单元，用于定义GGNN网络结构，并用分类结果初始化类别节点特征和初始化属性节点特征，再将其输入GGNN网络，并迭代地更新每个节点的信息。

整个迭代过程如下：

其中，A_v是表示节点v和其相邻节点关系的A的子矩阵，σ和tanh分别是激活函数logistic sigmoid和双曲正切函数，⊙表示向量点乘，整个过程一共迭代T次，最终得到隐藏信息的集合整个迭代过程可以简化为等式

知识嵌入分类单元304，用于将特征提取单元301提取到的特征图与知识表达学习单元303通过GGNN得到的高级知识进行融合，通过高级知识和特征图结合来引导网络分类。

具体地，知识嵌入分类单元304进一步包括：

特征结合单元，用于将利用GGNN网络结构知识表达学习到的特征与利用深度卷积神经网络提取的特征进行结合；

分类定义单元，用于定义分类器及分类过程的损失函数；

训练学习单元，用于输入图片训练样本，安装前向算法，后向算法和定义的损失函数进行分类网络的参数学习。

在本发明具体实施例中，知识嵌入分类单元304引入了一个引导机制来帮助高级知识嵌入特征图，将卷积神经网络提取到的特征图与GGNN得到的高级知识进行融合，让高级知识和特征图结合来引导网络分类。过程如下：

其中表示在(i,j)点的特征向量，是一个引导机制，来引导出特征图中哪些位置更重要，g是一个将和f_g相结合的网络，并输出一个c维度的实际值向量，然后得到的f可以一个全连接网络的输入来计算该输入图片的分类值。

综上所述，本发明一种细粒度图像的分类方法及***通过引入了高级知识引导特征学习，并加入了一个引导机制将知识进行嵌入来进行细粒度分类，使网络关注到图片中更具有判别性的区域，学习到更强的分类特征，从而提高网络分类准确率。

与现有技术相比，本发明具有如下优点：

1，嵌入的高级知识增强了特征表示，从而有利于区分从属类别之间的细微差异。

2，通过知识引导的方法，使网络关注到图片中更具有判别性的区域，学习到更强的分类特征，从而提高网络分类准确率。

3，在广泛使用的Caltech-UCSD鸟类数据集上进行的实验表明，本发明这种基于知识嵌入的特征学习框架优于现有的最先进的方法。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种细粒度图像分类的方法，包括如下步骤：

步骤S1，对输入图片进行特征提取，获得特征图。

步骤S2，统计数据集中类别标签和属性的关联性来构建知识图谱；

2.如权利要求1所述的一种细粒度图像分类的方法，其特征在于：于步骤S1中，利用深度卷积神经网络对输入的图片进行特征提取，并将提取的特征再输入到双线性模型中得到特征图谱。

3.如权利要求1所述的一种细粒度图像分类的方法，其特征在于：于步骤S2中，将数据集中同类物体中对应属性的特征值相加，并进行归一化，得到一个C×A维度的矩阵S，根据矩阵S构建邻接矩阵，进而利用所述邻接矩阵构建所述知识图谱。

4.如权利要求1所述的一种细粒度图像分类的方法，其特征在于：所述GGNN网络结构通过迭代更新节点特征来学习任意图结构数据的特征，然后构成一个知识图谱，包括类别标签和属性的节点，以及节点间的相关性。

5.如权利要求4所述的一种细粒度图像分类的方法，其特征在于，步骤S3进一步包括：

步骤S300，对给定图像进行分类；

6.如权利要求5所述的一种细粒度图像分类的方法，其特征在于，于步骤S301中，输入的是一个图S＝{V，A}，其中V表示节点的集合，A表示节点之间关系的邻接矩阵，对于每个节点v∈V,在迭代次数t都有一个隐藏信息当t＝0时，其中x_v为初始的特征向量，迭代过程如下：

其中，W^Z,W^r,W，U^z，U^r，U,b指可学习的参数，r_v ^t为中间计算结果，A_v表示节点v和其相邻节点关系的A的子矩阵，σ和tanh分别为激活函数logistic sigmoid和双曲正切函数，表示向量点乘，

整个过程一共迭代T次，最终得到隐藏信息的集合

7.如权利要求5所述的一种细粒度图像分类的方法，其特征在于，步骤S4进一步包括

步骤S401，定义分类器及分类过程的损失函数；

8.如权利要求7所述的一种细粒度图像分类的方法，其特征在于：于步骤S4中，引入了一引导机制将卷积神经网络提取到的特征图与GGNN得到的高级知识进行融合。

9.如权利要求8所述的一种细粒度图像分类的方法，其特征在于：于步骤S4中，引入所述引导机制来助高级知识嵌入特征图的过程如下：

其中表示在(i,j)点的特征向量，f^g表示知识图谱特征，为一个引导机制，来引导出特征图中哪些位置更重要，g是一个将和f^g相结合的网络，并输出一个c维度的实际值向量，然后得到的f可以一个全连接网络的输入来计算该输入图片的分类值。

10.一种细粒度图像分类***，包括：