CN111931859B

CN111931859B - 一种多标签图像识别方法和装置

Info

Publication number: CN111931859B
Application number: CN202010883534.9A
Authority: CN
Inventors: 乔宇; 彭小江; 叶锦
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2023-10-24
Anticipated expiration: 2040-08-28
Also published as: CN111931859A

Abstract

本发明公开了一种多标签图像识别方法和装置。该装置包括：语义注意力模块，其用于将骨干网络输出的特征图分离为多个类别的特征；动态图卷积网络模块，其用于使用动态图卷积网络对所述多个类别特征之间的关系进行建模，该动态图卷积网络包括静态图和动态图，其中静态图用于获取图像的全局相关性，动态图用于获取图像的局部相关性。利用本发明能够提升图像识别的精确度，且具有较强的独立性和鲁棒性，可以应用于多种场景的图像识别。

Description

一种多标签图像识别方法和装置

技术领域

本发明涉及计算机视觉技术领域，更具体地，涉及一种多标签图像识别方法和装置。

背景技术

近年来，图神经网络(Graph Neural Networks，GNN)被广泛用于计算机视觉或者NLP(自然语言处理)。图神经网络通过对所有的节点(node)特征进行两两之间关系的建模来获得不同节点之间的相关性，提高节点特征的表达能力，进而提高目标任务的精度。图神经网络最基本的单元由一个关系建模层和一个状态更新层组成，通常图神经网络由n(n>＝1)个基本单元组成。对于关系建模层，一般做法是使用一个图(graph)来对节点之间进行关系的建模。而根据状态更新层的不同，图神经网络的命名也有所不同。例如，如果状态更新层由卷积层组成，一般称为图卷积网络(Graph Convolutional Networks，GCN)；如果状态更新层是由循环神经网络(Recurrent Neural Networks，RNN)或其他的方式组成，则称为图神经网络。在多标签分类任务中，图神经网络的思想最早应用于多标签分类，并取得了很好的效果。之后，采用了图神经网络对图像的特征进行建模，并在公开数据集上取得了优异的效果。

在ICCV 2019会议上发表的论文“Learning semantic-specific graphrepresentation for multi-label image recognition”，设计了一种首先将图像特征分离为可进行关系建模的很多个节点，然后通过图神经网络对这些节点进行关系建模来提高特征的表达能力。最终在公开的数据集上提高了多标签分类的识别准确率。该论文的具体步骤包括：(1)使用CNN的骨干网络(backbone，例如ResNet101)进行图像特征的提取，提取的特征为最后一层卷积层的特征图(feature map)；(2)对特征图进行分离，假如目标的类别数为c，那么将特征图分为c个n维的特征。具体分离的方式需要用到标签的文本信息，将每一个标签的文本特征进行编码(embedding)之后，与特征图进行交互来获得相应类别的特征；(3)获得了每一个类别的特征之后，使用图神经网络对其进行建模。对关系建模层，该方法使用统计训练数据中，将每两个类别共同出现的频率作为图的权重(weight)，因此对每一张输入的图像，它的类别之间的关系都是固定的。对状态更新层，该方法使用GRU(Gated Recurrent Unit)进行状态的更新；(4)使用一个分类器(具体为全联接层)对经过图神经网络后的特征进行分类。

经分析，现有技术主要存在以下缺陷：

1)、通常每一张输入图像的内容都是不同的，所包含的类别具有较大的差异，而现有的方法所构造的图都是静态的，即每一张输入图像都共享一个关系图。这样的方式对共同出现频率较低的类别会有抑制作用，因此很难通过这种静态图的方式进一步提高多标签分类的识别准确率。

2)、现有的静态图构造方式必须提前对数据集进行概率统计，从而使得模型更复杂并且鲁棒性变差。

3)、现有的多标签分类方法对图像的特征图分离方法过于复杂，导致模型的内存和速度都会受到比较大的影响。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种多标签图像识别方法和装置，其可以连接任意类型的骨干网络，实现更精确的图像分类结果。

根据本发明的第一方面，提供一种多标签图像识别装置。该装置包括：

语义注意力模块：用于将骨干网络输出的特征图分离为多个类别特征；

动态图卷积网络模块：用于使用动态图卷积网络对所述多个类别特征之间的关系进行建模，该动态图卷积网络包括静态图和动态图，所述静态图用于获取图像的全局相关性，所述动态图用于获取图像的局部相关性。

根据本发明的第二方面，提供一种多标签图像识别方法。该方法包括以下步骤：

将骨干网络输出的特征图分离为多个类别的特征；

使用动态图卷积神经网络对所述多个类别特征之间的关系进行建模，该动态图神经网络包括静态图和动态图，所述静态图用于获取图像的全局相关性，所述动态图用于获取图像的局部相关性。

与现有技术相比，本发明的优点在于，可以连接任意的骨干网络，独立性强，并且提升了最终的分类结果的精确度；在精度提高的同时，计算速度和显存占用没有变差；此外，构建图的方式是动态的，且无需任何先验统计，鲁棒性好。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是现有技术的静态图示意；

图2是根据本发明一个实施例的动态图示意；

图3是根据本发明一个实施例的多标签图像识别的过程示意图；

图4是根据本发明一个实施例的语义注意力模块和动态图卷积模块的结构示意图；

图5是根据本发明一个实施例的动态图卷积网络的过程示意图；

图6是根据本发明一个实施例的动态图卷积网络的结构示意图；

图7是根据本发明一个实施例的应用场景示意图；

图8是根据本发明另一实施例的应用场景示意图；

图9是根据本发明一个实施例的终端设备的应用示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

现有技术在使用图神经网络对图像的特征进行关系建模的时，都必须提前计算好关系矩阵(即两两类别之间的关系矩阵，如果有c个类别，则矩阵大小是c*c，关系矩阵代表两两类别之间相关性的大小)，且计算关系矩阵的方式都是通过统计训练集中类别共同出现的频率来实现的。在计算好关系矩阵之后，训练以及测试过程中该矩阵都是固定不变的。由于这种提前计算并固定的方式，导致每一张输入图像的关系矩阵都相同。如图1所示，预先所构建的卡车(truck)、轿车(car)、马桶(toilet)和人物(person)之间的关系矩阵固定不变。这种方式会导致很严重的问题，例如，假设在数据集中，“轿车”和“卡车”出现的频率很高，“轿车”和“马桶”出现的频率很低。将基于该数据集构建的固定关系矩阵用于后续的图像识别时存在以下问题：1)如果一张图中不存在“卡车”，但却存在“轿车”，则可能识别不到“轿车”；2)在只有“轿车”的场景中误识别“卡车”类别；3)在“轿车”和“马桶”共同出现的图片中仅能识别到“轿车”，而漏掉了“马桶”。

针对现有技术存在的上述问题，本发明提出了一种动态图的思想。如图2所示，该实施例提出了一种简单有效的基于注意力的动态图卷积网络(ADD-GCN)来处理每一张输入图像共享一个关系矩阵的问题，即对于不同的输入图像，关系矩阵不同。

具体地，参见图3所示，在该实施例提供的多标签图像识别装置中，ADD-GCN包括一个语义注意力模块(Semantic Attention Module，SAM)和动态图卷积网络(Dynamic-GraphConvolutional Network，D-GCN)。SAM用于将主干网络(backbone)输出的特征图进行分离(或称为特征分离模块)，例如分离为c个类别的特征(c为类别个数)。D-GCN通过一个静态图(static graph)来获取图像的全局相关性，并通过一个动态图(dynamic graph)来获取图像的个体/局部相关性来增强特征的表达能力。在本文的描述中，D-GCN也称为静-动态图卷积模块，其通过自我构造动态图的方式来计算节点之间的关系，大幅提高了分类的精度。

在图3中，示意了连接骨干网络的两个分支结构，其中，一个分支结构对骨干网络输出的特征图进行全局池化，并将池化结果传递至分类器，获得第一分类结果；另一分支结构包含本发明设计的语义注意力模块和动态图卷积网络，并经由分类器获得第二分类结果，将第一分类结果和第二分类结果的平均作为最终的分类结果，可进一步提升分类精度。

以下将具体介绍本发明特有的语义注意力模块和动态图卷积网络，并分析在公开数据集上的验证结果。

一、关于语义注意力模块

结合图3和图4所示，语义注意力模块用于对骨干网络输出的特征图(featuremap)进行特征分离。例如，对于类别1(表示为f_cls1)，分离为V₁₁、V₁₂、…V_1c等c个特征向量，c为类别数。

在图4中，语义注意力模块采用注意力机制进行特征分离，通过获得每个类别的热力图以及各热力图关注区域对应的权重确定分离出的特征向量。

此外，需说明的是，语义注意力模块使用改造后的CAM(Class ActivationMapping，基于类的激活映射)技术进行特征分离，无须加入文本embedding(嵌入)特征的辅助。具体地，传统的CAM是先对特征图进行全局池化后再使用一个全连接层(FC)进行分类，而在本发明实施例中，是直接对特征图上的每一个点进行分类，具体而言是使用一个1x1的卷积来对特征图上的每一个点进行分类，从而得到一个分类的特征图，然后再对这个已经分类的特征图进行top k(例如1<＝k<＝5)的最大池化，并对最大池化处理后保留下的k个结果进行平均，进而得到分类结果。

二、关于动态图卷积网络

结合图4和图5所示，动态图卷积网络(或称静-动态图卷积模块)包括一个静态图网络和一个动态图网络，其中静态图网络和动态图网络的参数都是网络自动学习获得。静态图对每一张输入图像的关系矩阵都是一样的，用来计算特征之间的全局关系；动态图对每一张输入图像的关系矩阵都不同，用来计算特征之间的个体/局部关系。

具体地，参见图6所示，动态图卷积网络的操作过程包括：

静态图利用固定的关系矩阵将语义注意力模块输出的类别特征向量V₁₁、V₁₂、…V_1c转换为特征向量V₂₁、V₂₂、…V_2c；

获取静态图输出的全局平均池化(GAP，global average pooling)值V_g；

将V₂₁、V₂₂、…V_2c和V_g融合后，经卷积处理，获得动态关系矩阵；

将特征向量V₂₁、V₂₂、…V_2c和动态关系矩阵融合后，转换为特征向量V₃₁、V₃₂、…V_3c，即动态图卷积网络的输出。

在本发明中，动态图卷积网络即包含静态关系的计算，也包含动态关系的计算，适用于不同图像的精确识别，并且通过引入动态图不需要先验知识。相对于现有使用统计数据集方式构造静态图作为图神经网络的关系建模层中的关系矩阵，本发明提高了图像识别精确度且适用范围更广。

本发明可用于多种类型的电子设备，实现对输入图像的分类识别。电子设备包括但不限于：智能手机、平板电子设备、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。

为进一步验证本发明的效果，将本发明与现有技术进行了对比实验，参见表1和表2，其中最后一行是本发明的实验结果，其他现有技术不再一一介绍。可以看出，本发明能够在VOC 2007和MS-COCO 2014数据集上大幅提高识别精度，而计算速度和显存占用方面基本与现有技术持平，甚至更优。

表1在MS-COCO 2014数据集上的实验结果

表2:在VOC 2007数据集上的实验结果

本发明能够应用于多种场景，例如，参见图7所示，可用于服装图像的识别，以检测现有的归类方式是否正确、或对服装的属性进行分类或根据识别结果自动推荐用户需要的服装类别等。如图8所示，利用本发明可直接将上传的图像进行多标签图像分类或针对云服务器存储的博主发表的图像、用户手机端上传的图像或社交app收集的图像进行多标签图像识别，以识别图像是否包含违规内容或自动整理用户图像或自动推荐用户喜爱的图像内容。此外，本发明还可应用于手机、iPAD等多种类型的终端，如图9所示。

概括而言，本发明可应用于以下方面；

1)、智能图像审核

对海量的图像数据进行审核筛选。例如图像鉴黄、对用户上传的图像数据进行智能审核、对购物平台用户的评论数据中的图像进行审核等。

2)智能辅助标注

由于语义注意力模块中可以获得每个类别的热力图，因此本发明可以在只有图像级别的监督信息中定位出目标类别的相关区域。通过这种方式，可以帮助需要精细标定的一些工作。例如需要标注检测框或者是分割区域，通过本发明首先粗略的定位出每个类别的区域之后，可以节省很多后期的标注工作量。

3)、智能服饰商品分类

人工对服装商品进行归类的方式耗时耗力，本发明可以对服饰的不同属性进行分类，可以根据分类的结果对这些服装商品归类到相应的属性下。例如一件裙子包含了如下属性：短领、长袖、短裙、红色等属性。本发明能够比较准确的识别出这件裙子的这些相关属性，并按照分类结果归类到相应的属性类别下。这样可以节省很大的人力成本。

综上所述，本发明提供的多标签图像识别方法具有以下优点：

1)独立性强。语义注意力模块和D-GCN两个模块可以接在任意的骨干网络(backbone)后，其中骨干网络可以被任意替换，无须对其进行更多的修改。在采用能力更强的骨干网络(例如SENet、EfficientNet等)情况下，能进一步提升最终分类结果的精确度。

2)在精度提高的同时，本发明在计算速度和显存占用等方面都没有下降，而相较与各方面都占优。

3)鲁棒性好。现有的图结构方法，都必须提前对训练数据集进行概率统计。如果数据集是fewshot(小样本)，或者训练集和测试集分布偏移较大，这种统计的方式会产生很大的偏移误差。而本发明构建图的方式是动态的且无需任何先验统计的，相对于现有技术，本发明具有明显优势。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种多标签图像识别装置，包括：

动态图卷积网络模块：用于使用动态图卷积网络对所述多个类别特征之间的关系进行建模，该动态图卷积网络包括静态图和动态图，所述静态图用于获取图像的全局相关性，所述动态图用于获取图像的局部相关性；

其中，所述语义注意力模块用于执行：

从骨干网络输出的特征图中提取每个类别的热力图；

获取各热力图关注区域对应的权重；

将所述每个类别的热力图和对应的权重相乘作为分离的所述多个类别特征。

2.根据权利要求1所述的多标签图像识别装置，其中，所述语义注意力模块使用1x1的卷积直接对输入特征图上的每一个点进行分类，获得分类的特征图，进而对已分类的特征图进行top k的最大池化，并对最大池化处理后保留下的k个结果进行平均，作为分类结果，其中k是设定数目。

3.根据权利要求1所述的多标签图像识别装置，其中，使用动态图卷积网络对所述多个类别特征之间的关系进行建模包括：

基于静态图固定的关系矩阵计算语义注意力模块输出的类别特征向量之间的全局关系，获得第一类别特征向量；

对于第一类别特征向量获取对应的全局平均池化值V_g；

将第一类别特征向量和V_g融合操作后，经卷积处理，获得动态关系矩阵；

基于第一类别特征向量和所述动态关系矩阵，获得第二类别特征向量，作为所述动态图卷积网络模块的输出。

4.根据权利要求1所述的多标签图像识别装置，还包括第一分类器、第二分类器和池化层，其中所述池化层对骨干网络输出的特征图进行全局池化，并将池化结果传递至第一分类器，获得第一分类结果，所述第二分类器连接所述动态图卷积网络模块，用于获得第二分类结果，第一分类结果和第二分类结果的平均作为最终的分类结果。

5.一种多标签图像识别方法，包括以下步骤：

将骨干网络输出的特征图分离为多个类别的特征；

使用动态图卷积神经网络对所述多个类别特征之间的关系进行建模，该动态图神经网络包括静态图和动态图，所述静态图用于获取图像的全局相关性，所述动态图用于获取图像的局部相关性；

其中，所述将骨干网络输出的特征图分离为多个类别的特征包括：

从骨干网络输出的特征图中提取每个类别的热力图；

获取各热力图关注区域对应的权重；

6.权利要求5所述的多标签图像识别方法，其中，将骨干网络输出的特征图分离为多个类别特征包括：

从骨干网络输出的特征图中提取每个类别的热力图；

获取各热力图关注区域对应的权重；

7.权利要求5所述的多标签图像识别方法，其中，使用动态图卷积网络对所述多个类别特征之间的关系进行建模包括：

基于静态图固定的关系矩阵计算所述多个类别特征向量之间的全局关系，获得第一类别特征向量；

对于第一类别特征向量获取对应的全局平均池化值V_g；

利用第一类别特征向量和该动态关系矩阵，获得第二类别特征向量。

8.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求5至7任一项所述的方法的步骤。

9.一种电子设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求5至7中任一项所述的方法的步骤。