CN111476315A - 一种基于统计相关性与图卷积技术的图像多标签识别方法 - Google Patents

一种基于统计相关性与图卷积技术的图像多标签识别方法 Download PDF

Info

Publication number
CN111476315A
CN111476315A CN202010342622.8A CN202010342622A CN111476315A CN 111476315 A CN111476315 A CN 111476315A CN 202010342622 A CN202010342622 A CN 202010342622A CN 111476315 A CN111476315 A CN 111476315A
Authority
CN
China
Prior art keywords
image
label
network
graph convolution
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010342622.8A
Other languages
English (en)
Other versions
CN111476315B (zh
Inventor
王儒敬
滕越
谢成军
张洁
李�瑞
陈天娇
陈红波
胡海瀛
刘海云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN202010342622.8A priority Critical patent/CN111476315B/zh
Publication of CN111476315A publication Critical patent/CN111476315A/zh
Application granted granted Critical
Publication of CN111476315B publication Critical patent/CN111476315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于统计相关性与图卷积技术的图像多标签识别方法,与现有技术相比解决了未充分考虑多标签图像中对象之间关系的缺陷。本发明包括以下步骤:多标签图像的收集和预处理;计算标签之间的相关性;构建图像多标签识别网络;对图像多标签识别网络进行训练;待检测多标签图像的获取;图像多标签识别结果的获得。本发明利用图像标签数据学习邻接矩阵,通过图卷积网络更新图像中对象特征表示,结合全局特征残差提升图像多标签分类性能。

Description

一种基于统计相关性与图卷积技术的图像多标签识别方法
技术领域
本发明涉及图像分析技术领域,具体来说是一种基于统计相关性与图卷积技术的图像多标签识别方法。
背景技术
近年来,卷积神经网络在计算机视觉领域取得了突飞猛进的发展,尤其是图像分类技术。由于卷积核局部感受野的限制,卷积神经网络更擅长于单一对象的识别,忽略了对象与对象之间的关系。在一张图像中,基本上会有多个相关的对象同时出现,比如:老师和学生、鼠标和键盘、山羊和草原等。也有一些关系几乎不会出现在同一张图像内,比如:狗和飞机、牦牛和大海、雪花和泳衣等。由此可见,图像中蕴含着大量的依赖关系,而目前卷积神经网络仍不能从训练数据中建模对象和对象之间的依赖关系,以提高分类准确率。
图卷积网络被广泛用于解决卷积神经网络的固有局限性,其主要部分为一个邻接矩阵、节点的特征表示矩阵和一个可学习的权重矩阵。其中,大量研究集中在邻接矩阵上。部分研究通过语义网络、上下文信息以及知识图谱等方法构建邻接矩阵,但是节点之间的消息传递仅局限在节点的一阶邻居节点上。此外,通过外部信息获取的图网络可能和所学习的图像数据集不能很好地契合,从而导致知识图误导训练的情况。
特别是在多标签图像中,一张图像存在多个识别(标签)目标,而通常这些识别目标之间存在一定的关联性,例如:当我们在一张图像的部分区域中发现有键盘、鼠标等对象,我们大概率认为这张图像中存在电脑对象,相应的也可以推测出图像中很大可能存在显示器对象。换而言之,对于图片中的键盘鼠标的识别,增加了图片中存在电脑主机、显示器的概率,同时也可以减少图片中存在飞机、大象等对象的概率。可见,对于图像中多个对象之间依赖关系的建模和推理是至关重要的。
因此,如何针对卷积神经网络忽略对象间关系的现状,从图像数据中建模对象间的依赖关系已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中未充分考虑多标签图像中对象之间关系的缺陷,提供一种基于统计相关性与图卷积技术的图像多标签识别方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于统计相关性与图卷积技术的图像多标签识别方法,包括以下步骤:
多标签图像的收集和预处理:收集多标签图像,并将标签处理为N*C的矩阵,N为样本数量、C为标签种类或类别数量;
计算标签之间的相关性:利用互信息计算标签之间的相互依赖关系,构建依赖关系全连接图并对其归一化,得到邻接矩阵;
构建图像多标签识别网络:基于图卷积网络构建图像多标签识别网络;
对图像多标签识别网络进行训练:对图像多标签识别网络中的图卷积网络和全连接层进行训练;
待检测多标签图像的获取:获取待检测的多标签图像;
图像多标签识别结果的获得:将待检测的多标签图像输入训练后的图像多标签识别网络,得到最终多标签分类结果。
所述多标签图像的收集和预处理包括以下步骤:
构建一个N*C的全零矩阵D,其中,N为训练集中图像张数,C为训练集中类别总数,C按照任一规则排列;
将图像标注数据转化到标签数据矩阵D中,一张图像及其标准信息对应标签数据矩阵D中的一行数据;对于所有标注数据中的图像,若图像存在某标签,则在标签数据矩阵D中找到相应的行和列,并赋值为“1”,代表存在该标签。
所述计算标签之间的相关性包括以下步骤:
对于标签数据矩阵D中的每一列,计算该列和其他列的互信息,计算公式如下:
I(X;Y)=H(X)-H(X|Y)
Figure BDA0002469042170000031
H(X)=-∑X=xP(x)*logP(x),
其中,X和Y为随机变量,代表标签的类别,x和y为随机变量X和Y的取值,X,Y∈{0,1},P(x)为随机变量X=x的概率,P(x|y)为条件概率,H(X)为信息熵,H(X|Y为条件信息熵;
将标签数据的每一列看成随机变量X或Y,将每一行的数值作为x或y,计算节点之间互信息,构建一个C行C列矩阵A存放互信息值,Aij表示第i列和第j列的互信息值;
计算对矩阵A归一化作为图卷积网络的邻接矩阵
Figure BDA0002469042170000032
Figure BDA0002469042170000033
其中:Aij为第i个类和第j个类的互信息值,exp为指数函数,softmax为归一函数,
Figure BDA0002469042170000034
为归一化后的邻接矩阵。
所述构建图像多标签识别网络包括以下步骤:
设定利用Fast R-CNN作为基线模块,得到每张图片的特征XI和边界框;
设定利用ROI得到每个边界框的初始特征表示
Figure BDA0002469042170000035
设定利用互信息方法得到全连接邻接矩阵,并对其归一化处理,其表达式如下:
I(X;Y)=H(X)-H(X|Y),
Figure BDA0002469042170000036
图卷积网络的设定:将每个边界框的初始特征表示
Figure BDA0002469042170000037
合并构成X(0),结合全连接邻接矩阵
Figure BDA0002469042170000038
作为图卷积网络的输入,经过L层图卷积后得到特征表示
Figure BDA0002469042170000039
其表达式如下:
Figure BDA0002469042170000041
其中:
Figure BDA0002469042170000042
为邻接矩阵,X为多个节点的特征向量组成的矩阵,W为可学习的参数,σ(·)为激活函数;
全连接层的设定:将图像整体特征和图卷积网络卷积后的边界框特征串联,连接两层全连接神经网络,经过softmax激活后得到最终分类结果。
所述对图卷积网络进行训练包括以下步骤:
利用Fast R-CNN和ROI得到图像的全局特征表示和图像中对象的边界框及其特征表示;
以对象的的特征表示作为图卷积网络的输入,更新相应节点表示,
Figure BDA0002469042170000043
其中,X(l+1)为第l+1层图卷积特征,σ为非线性激活函数,
Figure BDA0002469042170000044
为第二步中得到的归一化全局邻接矩阵,X(l)为第l层特征表示,W为学习参数;
将图像的全局特征表示与图卷积网络更新的对象表示串联,连接两个FC层,最后经softmax函数归一化后得到最终的多标签识别结果。
所述对全连接层进行训练包括以下步骤:
将训练图像输入网络,得到训练结果;
根据梯度下降算法修正全连接网络层连接权重;
根据梯度下降算法修正图卷积网络参数W。
所述图像多标签识别结果的获得包括以下步骤:
利用Fast R-CNN作为基线模块,得到待检测的多标签图像的特征XI和边界框;
利用ROI得到待检测的多标签图像中每个边界框的初始特征表示
Figure BDA0002469042170000045
将每张待检测图像的所有
Figure BDA0002469042170000046
合并成图卷积网络X(0)的维度,作为图卷积网络的输入;
将图卷积网络的输出串联图像整体初始特征XI,连接到全连接网络;
将两层训练好的全连接网络的输出经softmax函数后得到最终多标签分类结果。
有益效果
本发明的一种基于统计相关性与图卷积技术的图像多标签识别方法,与现有技术相比利用图像标签数据学习邻接矩阵,通过图卷积网络更新图像中对象特征表示,结合全局特征残差提升图像多标签分类性能。
本发明能够很好地结合卷积神经网络的图像特征提取能力和标签相互依赖关系,从而提高多标签分类的精度。
附图说明
图1为本发明的方法顺序图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种基于统计相关性与图卷积技术的图像多标签识别方法,包括以下步骤:
第一步,多标签图像的收集和预处理:收集多标签图像,并将标签处理为N*C的矩阵,N为样本数量、C为标签种类或类别数量。其具体步骤如下:
(1)构建一个N*C的全零矩阵D,其中,N为训练集中图像张数,C为训练集中类别总数,C按照任一规则排列。
(2)将图像标注数据转化到标签数据矩阵D中,一张图像及其标准信息对应标签数据矩阵D中的一行数据;对于所有标注数据中的图像,若图像存在某标签,则在标签数据矩阵D中找到相应的行和列,并赋值为“1”,代表存在该标签。
第二步,计算标签之间的相关性:利用互信息计算标签之间的相互依赖关系,构建依赖关系全连接图并对其归一化,得到邻接矩阵。对标签之间的统计相关性进行建模,可以提升多标签分类的性能。邻接矩阵可以指导图卷积网络中对象间特征的消息传递,从而增强相关联对象的特征表示并减小非统计相关对象之间的消息传递。目前大多数构建邻接矩阵的方法往往通过外部知识构建(如:语义网络、知识图谱等),但是外部知识不能很好地契合训练数据集,从而导致邻接矩阵误导消息传递,所以我们从训练数据集的标签数据出发,建模标签之间的统计相关性。传统的统计相关性建模往往需要对标签数据进行独立性检测,这是一项费时费力的工作。信息熵可以描述随机变量所含信息不确定性的大小,互信息可以描述一随机变量信息不确定性随另一随机变量的加入而减小的程度。此外,互信息的计算复杂度要远小于卡方检测,所以我们使用互信息来计算图像标签之间的相关性,并将其归一化后,作为邻接矩阵指导图像多标签识别对象之间的消息传递。
其具体步骤如下:
(1)对于标签数据矩阵D中的每一列,计算该列和其他列的互信息,计算公式如下:
I(X;Y)=H(X)-H(X|Y(
Figure BDA0002469042170000061
H(X)=-∑X=xP(x)*logP(x),
其中,X和Y为随机变量,代表标签的类别,x和y为随机变量X和Y的取值,X,Y∈{0,1},P(x)为随机变量X=x的概率,P(x|y)为条件概率,H(X)为信息熵,H(X|Y为条件信息熵;信息熵描述信息所含不确定性的多少,在此创新性的使用互信息代替条件独立性测试,定量的描述图片类别标签之间的相关性。
将标签数据的每一列看成随机变量X或Y,将每一行的数值作为x或y,计算节点之间互信息,构建一个C行C列矩阵A存放互信息值,Aij表示第i列和第j列的互信息值。
(2)计算对矩阵A归一化作为图卷积网络的邻接矩阵
Figure BDA0002469042170000071
Figure BDA0002469042170000072
其中:Aij为第i个类和第j个类的互信息值,exp为指数函数,softmax为归一函数,
Figure BDA0002469042170000073
为归一化后的邻接矩阵。
第三步,构建图像多标签识别网络:基于图卷积网络构建图像多标签识别网络。
图卷积网络可以有效的将卷积网络等连接主义框架和符号主义推理框架相融合,根据邻接矩阵的指导,在图像对象之间进行消息传递和推理,从而提高多标签分类的性能。以往图卷积网络的应用多是利用外部知识作为邻接矩阵,利用语义向作为节点特征向量。但是外部知识和外部节点向量表示不能很好地契合训练数据集,我们则使用Fast R-CNN和ROI(region of interest)提取每个对象的特征表示作为节点的特征向量。同时,将整个图像的特征表示和经过图卷积消息传得后的节点(对象)特征表示串联,交给一个两层的全连接网络得到最终分类结果。这样做的好处主要有两点:1、图卷积网络的消息传递和特征增强能力针对于训练数据,不会受到外部知识的误导;2、图像整体特征和图卷积网络节点特征的串联,可以让分类接受域在局部对象区域的同时,不会丢失图像的整体信息,从而达到稳定的分类效果。
构建图像多标签识别网络包括以下步骤:
(1)设定利用Fast R-CNN作为基线模块,得到每张图片的特征XI和边界框;
(2)设定利用ROI(region of interest)得到每个边界框的初始特征表示
Figure BDA0002469042170000074
(3)设定利用互信息方法得到全连接邻接矩阵,并对其归一化处理,其表达式如下:
I(X;Y)=H(X)-H(X|Y),
Figure BDA0002469042170000075
(4)图卷积网络的设定:将每个边界框的初始特征表示
Figure BDA0002469042170000081
合并构成X(0),结合全连接邻接矩阵
Figure BDA0002469042170000082
作为图卷积网络的输入,经过L层图卷积后得到特征表示
Figure BDA0002469042170000083
其表达式如下:
Figure BDA0002469042170000084
其中:
Figure BDA0002469042170000085
为邻接矩阵,X为多个节点的特征向量组成的矩阵,W为可学习的参数,σ(·)为激活函数。
(5)全连接层的设定:将图像整体特征和图卷积网络卷积后的边界框特征串联,连接两层全连接神经网络,经过softmax激活后得到最终分类结果。
第四步,对图像多标签识别网络进行训练:对图像多标签识别网络中的图卷积网络和全连接层进行训练。
其中,对图卷积网络进行训练包括以下步骤:
(1)利用Fast R-CNN和ROI得到图像的全局特征表示和图像中对象的边界框及其特征表示;
(2)以对象的的特征表示作为图卷积网络的输入,更新相应节点表示,
Figure BDA0002469042170000086
其中,X(l+1)为第l+1层图卷积特征,σ为非线性激活函数,
Figure BDA0002469042170000087
为第二步中得到的归一化全局邻接矩阵,X(l)为第l层特征表示,W为学习参数;
(3)将图像的全局特征表示与图卷积网络更新的对象表示串联,连接两个FC层,最后经softmax函数归一化后得到最终的多标签识别结果。
对全连接层进行训练则利用传统方法,其包括以下步骤:
(1)将训练图像输入网络,得到训练结果;
(2)根据梯度下降算法修正全连接网络层连接权重;
(3)根据梯度下降算法修正图卷积网络参数W。
第五步,待检测多标签图像的获取:获取待检测的多标签图像。
第六步,图像多标签识别结果的获得:将待检测的多标签图像输入训练后的图像多标签识别网络,得到最终多标签分类结果。其具体步骤如下:
(1)利用Fast R-CNN作为基线模块,得到待检测的多标签图像的特征XI和边界框;
(2)利用ROI得到待检测的多标签图像中每个边界框的初始特征表示
Figure BDA0002469042170000091
(3)将每张待检测图像的所有
Figure BDA0002469042170000092
合并成图卷积网络X(0)的维度,作为图卷积网络的输入;
(4)将图卷积网络的输出串联图像整体初始特征XI,连接到全连接网络;
(5)将两层训练好的全连接网络的输出经softmax函数后得到最终多标签分类结果。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (7)

1.一种基于统计相关性与图卷积技术的图像多标签识别方法,其特征在于,包括以下步骤:
11)多标签图像的收集和预处理:收集多标签图像,并将标签处理为N*C的矩阵,N为样本数量、C为标签种类或类别数量;
12)计算标签之间的相关性:利用互信息计算标签之间的相互依赖关系,构建依赖关系全连接图并对其归一化,得到邻接矩阵;
13)构建图像多标签识别网络:基于图卷积网络构建图像多标签识别网络;
14)对图像多标签识别网络进行训练:对图像多标签识别网络中的图卷积网络和全连接层进行训练;
15)待检测多标签图像的获取:获取待检测的多标签图像;
16)图像多标签识别结果的获得:将待检测的多标签图像输入训练后的图像多标签识别网络,得到最终多标签分类结果。
2.根据权利要求1所述的一种基于统计相关性与图卷积技术的图像多标签识别方法,其特征在于,所述多标签图像的收集和预处理包括以下步骤:
21)构建一个N*C的全零矩阵D,其中,N为训练集中图像张数,C为训练集中类别总数,C按照任一规则排列;
22)将图像标注数据转化到标签数据矩阵D中,一张图像及其标准信息对应标签数据矩阵D中的一行数据;对于所有标注数据中的图像,若图像存在某标签,则在标签数据矩阵D中找到相应的行和列,并赋值为“1”,代表存在该标签。
3.根据权利要求1所述的一种基于统计相关性与图卷积技术的图像多标签识别方法,其特征在于,所述计算标签之间的相关性包括以下步骤:
31)对于标签数据矩阵D中的每一列,计算该列和其他列的互信息,计算公式如下:
I(X;Y)=H(X)-H(X|Y)
Figure FDA0002469042160000011
H(X)=-∑X=xP(x)*logP(x),
其中,X和Y为随机变量,代表标签的类别,x和y为随机变量X和Y的取值,X,Y∈{0,1},P(x)为随机变量X=x的概率,P(x|y)为条件概率,H(X)为信息熵,H(X|Y)为条件信息熵;
将标签数据的每一列看成随机变量X或Y,将每一行的数值作为x或y,计算节点之间互信息,构建一个C行C列矩阵A存放互信息值,Aij表示第i列和第j列的互信息值;
32)计算对矩阵A归一化作为图卷积网络的邻接矩阵
Figure FDA0002469042160000021
Figure FDA0002469042160000022
其中:Aij为第i个类和第j个类的互信息值,exp为指数函数,softmax为归一函数,
Figure FDA0002469042160000023
为归一化后的邻接矩阵。
4.根据权利要求1所述的一种基于统计相关性与图卷积技术的图像多标签识别方法,其特征在于,所述构建图像多标签识别网络包括以下步骤:
41)设定利用Fast R-CNN作为基线模块,得到每张图片的特征XI和边界框;
42)设定利用ROI得到每个边界框的初始特征表示
Figure FDA0002469042160000024
43)设定利用互信息方法得到全连接邻接矩阵,并对其归一化处理,其表达式如下:
I(X;Y)=H(X)-H(X|Y),
Figure FDA0002469042160000025
44)图卷积网络的设定:将每个边界框的初始特征表示
Figure FDA0002469042160000026
合并构成X(0),结合全连接邻接矩阵
Figure FDA0002469042160000027
作为图卷积网络的输入,经过L层图卷积后得到特征表示
Figure FDA0002469042160000028
其表达式如下:
Figure FDA0002469042160000029
其中:
Figure FDA0002469042160000031
为邻接矩阵,X为多个节点的特征向量组成的矩阵,W为可学习的参数,σ(·)为激活函数;
45)全连接层的设定:将图像整体特征和图卷积网络卷积后的边界框特征串联,连接两层全连接神经网络,经过softmax激活后得到最终分类结果。
5.根据权利要求1所述的一种基于统计相关性与图卷积技术的图像多标签识别方法,其特征在于,所述对图卷积网络进行训练包括以下步骤:
51)利用Fast R-CNN和ROI得到图像的全局特征表示和图像中对象的边界框及其特征表示;
52)以对象的的特征表示作为图卷积网络的输入,更新相应节点表示,
Figure FDA0002469042160000032
其中,X(l+1)为第l+1层图卷积特征,σ为非线性激活函数,
Figure FDA0002469042160000033
为第二步中得到的归一化全局邻接矩阵,X(l)为第1层特征表示,W为学习参数;
53)将图像的全局特征表示与图卷积网络更新的对象表示串联,连接两个FC层,最后经softmax函数归一化后得到最终的多标签识别结果。
6.根据权利要求1所述的一种基于统计相关性与图卷积技术的图像多标签识别方法,其特征在于,所述对全连接层进行训练包括以下步骤:
61)将训练图像输入网络,得到训练结果;
62)根据梯度下降算法修正全连接网络层连接权重;
63)根据梯度下降算法修正图卷积网络参数W。
7.根据权利要求1所述的一种基于统计相关性与图卷积技术的图像多标签识别方法,其特征在于,所述图像多标签识别结果的获得包括以下步骤:
71)利用Fast R-CNN作为基线模块,得到待检测的多标签图像的特征XI和边界框;
72)利用ROI得到待检测的多标签图像中每个边界框的初始特征表示
Figure FDA0002469042160000034
73)将每张待检测图像的所有
Figure FDA0002469042160000035
合并成图卷积网络X(0)的维度,作为图卷积网络的输入;
74)将图卷积网络的输出串联图像整体初始特征XI,连接到全连接网络;
75)将两层训练好的全连接网络的输出经softmax函数后得到最终多标签分类结果。
CN202010342622.8A 2020-04-27 2020-04-27 一种基于统计相关性与图卷积技术的图像多标签识别方法 Active CN111476315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010342622.8A CN111476315B (zh) 2020-04-27 2020-04-27 一种基于统计相关性与图卷积技术的图像多标签识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010342622.8A CN111476315B (zh) 2020-04-27 2020-04-27 一种基于统计相关性与图卷积技术的图像多标签识别方法

Publications (2)

Publication Number Publication Date
CN111476315A true CN111476315A (zh) 2020-07-31
CN111476315B CN111476315B (zh) 2023-05-05

Family

ID=71763058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010342622.8A Active CN111476315B (zh) 2020-04-27 2020-04-27 一种基于统计相关性与图卷积技术的图像多标签识别方法

Country Status (1)

Country Link
CN (1) CN111476315B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183299A (zh) * 2020-09-23 2021-01-05 成都佳华物链云科技有限公司 行人属性预测方法、装置、电子设备及存储介质
CN112487207A (zh) * 2020-12-09 2021-03-12 Oppo广东移动通信有限公司 图像的多标签分类方法、装置、计算机设备及存储介质
CN112862089A (zh) * 2021-01-20 2021-05-28 清华大学深圳国际研究生院 一种具有可解释性的医学图像深度学习方法
CN112906720A (zh) * 2021-03-19 2021-06-04 河北工业大学 基于图注意力网络的多标签图像识别方法
CN113204659A (zh) * 2021-03-26 2021-08-03 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113988147A (zh) * 2021-12-08 2022-01-28 南京信息工程大学 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN114550310A (zh) * 2022-04-22 2022-05-27 杭州魔点科技有限公司 一种识别多标签行为的方法和装置
CN114648635A (zh) * 2022-03-15 2022-06-21 安徽工业大学 一种融合标签间强相关性的多标签图像分类方法
CN115031794A (zh) * 2022-04-29 2022-09-09 天津大学 一种多特征图卷积的新型气固两相流流量测量方法
CN117475240A (zh) * 2023-12-26 2024-01-30 创思(广州)电子科技有限公司 基于图像识别的蔬菜核对方法及***
CN115031794B (zh) * 2022-04-29 2024-07-26 天津大学 一种多特征图卷积的新型气固两相流流量测量方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816009A (zh) * 2019-01-18 2019-05-28 南京旷云科技有限公司 基于图卷积的多标签图像分类方法、装置及设备
CN110705425A (zh) * 2019-09-25 2020-01-17 广州西思数字科技有限公司 一种基于图卷积网络的舌象多标签分类学习方法
WO2020048119A1 (en) * 2018-09-04 2020-03-12 Boe Technology Group Co., Ltd. Method and apparatus for training a convolutional neural network to detect defects

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020048119A1 (en) * 2018-09-04 2020-03-12 Boe Technology Group Co., Ltd. Method and apparatus for training a convolutional neural network to detect defects
CN109816009A (zh) * 2019-01-18 2019-05-28 南京旷云科技有限公司 基于图卷积的多标签图像分类方法、装置及设备
CN110705425A (zh) * 2019-09-25 2020-01-17 广州西思数字科技有限公司 一种基于图卷积网络的舌象多标签分类学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李辉等: "基于图卷积网络的多标签食品原材料识别", 《南京信息工程大学学报(自然科学版)》 *
蒋俊钊等: "基于标签相关性的卷积神经网络多标签分类算法", 《工业控制计算机》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183299B (zh) * 2020-09-23 2024-02-09 成都佳华物链云科技有限公司 行人属性预测方法、装置、电子设备及存储介质
CN112183299A (zh) * 2020-09-23 2021-01-05 成都佳华物链云科技有限公司 行人属性预测方法、装置、电子设备及存储介质
CN112487207A (zh) * 2020-12-09 2021-03-12 Oppo广东移动通信有限公司 图像的多标签分类方法、装置、计算机设备及存储介质
CN112862089B (zh) * 2021-01-20 2023-05-23 清华大学深圳国际研究生院 一种具有可解释性的医学图像深度学习方法
CN112862089A (zh) * 2021-01-20 2021-05-28 清华大学深圳国际研究生院 一种具有可解释性的医学图像深度学习方法
CN112906720A (zh) * 2021-03-19 2021-06-04 河北工业大学 基于图注意力网络的多标签图像识别方法
CN112906720B (zh) * 2021-03-19 2022-03-22 河北工业大学 基于图注意力网络的多标签图像识别方法
CN113204659B (zh) * 2021-03-26 2024-01-19 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113204659A (zh) * 2021-03-26 2021-08-03 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113988147B (zh) * 2021-12-08 2022-04-26 南京信息工程大学 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN113988147A (zh) * 2021-12-08 2022-01-28 南京信息工程大学 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN114648635A (zh) * 2022-03-15 2022-06-21 安徽工业大学 一种融合标签间强相关性的多标签图像分类方法
CN114648635B (zh) * 2022-03-15 2024-07-09 安徽工业大学 一种融合标签间强相关性的多标签图像分类方法
CN114550310A (zh) * 2022-04-22 2022-05-27 杭州魔点科技有限公司 一种识别多标签行为的方法和装置
CN115031794A (zh) * 2022-04-29 2022-09-09 天津大学 一种多特征图卷积的新型气固两相流流量测量方法
CN115031794B (zh) * 2022-04-29 2024-07-26 天津大学 一种多特征图卷积的新型气固两相流流量测量方法
CN117475240A (zh) * 2023-12-26 2024-01-30 创思(广州)电子科技有限公司 基于图像识别的蔬菜核对方法及***

Also Published As

Publication number Publication date
CN111476315B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN111476315B (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN114067160B (zh) 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
CN108875827B (zh) 一种细粒度图像分类的方法及***
US11003949B2 (en) Neural network-based action detection
CN112906720B (zh) 基于图注意力网络的多标签图像识别方法
Torralba et al. Contextual models for object detection using boosted random fields
CN110909820A (zh) 基于自监督学习的图像分类方法及***
CN112116599B (zh) 基于弱监督学习的痰涂片结核杆菌语义分割方法及***
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN113657425A (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN110705490B (zh) 视觉情感识别方法
CN111612051A (zh) 一种基于图卷积神经网络的弱监督目标检测方法
Cholakkal et al. Backtracking spatial pyramid pooling-based image classifier for weakly supervised top–down salient object detection
Hossain et al. Recognition and solution for handwritten equation using convolutional neural network
CN115131613B (zh) 一种基于多向知识迁移的小样本图像分类方法
CN113673482B (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及***
Lai et al. Improving classification with semi-supervised and fine-grained learning
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
Juyal et al. Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset
CN108960005B (zh) 一种智能视觉物联网中对象视觉标签的建立及显示方法、***
CN113553326A (zh) 电子表格数据处理方法、装置、计算机设备和存储介质
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
Liu et al. Self-supervised image co-saliency detection
CN114299342B (zh) 一种基于深度学习的多标记图片分类中未知标记分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant