CN117611838A - 一种基于自适应超图卷积网络的多标签图像分类方法 - Google Patents

一种基于自适应超图卷积网络的多标签图像分类方法 Download PDF

Info

Publication number
CN117611838A
CN117611838A CN202311646149.2A CN202311646149A CN117611838A CN 117611838 A CN117611838 A CN 117611838A CN 202311646149 A CN202311646149 A CN 202311646149A CN 117611838 A CN117611838 A CN 117611838A
Authority
CN
China
Prior art keywords
hypergraph
adaptive
self
layer
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311646149.2A
Other languages
English (en)
Inventor
邵俊明
吴蔚
杨勤丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202311646149.2A priority Critical patent/CN117611838A/zh
Publication of CN117611838A publication Critical patent/CN117611838A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自适应超图卷积网络的多标签图像分类方法,通过对图像原始数据进行预处理,使用ResNet‑101进行特征提取。随后对图像特征使用K‑近邻方法构建超图,用超图建模图像数据之间的复杂高阶关系。接着将图像特征送入自适应超图卷积神经网络,在三层超图卷积层中,(第一层与第二层之间、第二层与第三层之间)共设置两个自适应更新模块,对超图结构进行更新。由于图像特征在经过卷积后,图像数据之间的复杂联系被进一步的探索,对超图的拓扑进行更新可以提升后续特征的质量,从而提升了模型性能。最后使用全连接层来完成对图像多标签的分类任务。

Description

一种基于自适应超图卷积网络的多标签图像分类方法
技术领域
本发明属于多标签图像分类技术领域,更为具体地讲,涉及一种基于自适应超图卷积网络的多标签图像分类方法。
背景技术
多标签图像分类是计算机视觉和多媒体领域中一项富有挑战的任务。旨在为输入图像预测出一组对应的标签。多标签图像分类可以广泛应用在场景识别、图像自动标注和医学诊断等多个领域。不同于单标签图像分类,多标签图像分类在于构建输入图像的样本空间和标签的语义空间的一对多关系。多标签图像意为一张图像可以属于多个类别。
使用纯人工对日益增长的大规模图像进行分类,不仅分类效率低,由于部分图像的分类需要专业知识,人工分类的准确性也令人存疑。传统的机器学习提供了多标签分类的一种可能性,但其算法往往需要耗费大量的计算资源。随着深度学习的发展,越来越多基于深度学习的多标签分类方法开始出现,无论是循环神经网络(Recurrent neuralnetworks,RNN)还是长短期记忆模型(Longshort-term memory)都凭借建模标签相关性的优势,取得了一定的效果。但只能对顺序标签关系进行建模。最近的一些研究中引入了图神经网络来建模标签相关性,但这些方法只能捕获图像对象之间成对的关系,无法捕获高阶语义关系。而现实世界中的图像是具有高阶相关性的。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于自适应超图卷积网络的多标签图像分类方法,以实现对图像进行多标签的分类。
为实现上述发明目的,本发明基于自适应超图卷积网络的多标签图像分类方法,其特征在于,包括以下步骤:
(1)对图像原始数据进行预处理,统一图像大小后,利用在ImageNet上预训练过的ResNet提取图像初始特征;
(2)对图像初始特征,基于距离,使用K-近邻方法构造初始超图,得到关联矩阵,从而建模图像的复杂高阶关系;
(3)构建自适应超图卷积神经网络,共设置三层超图卷积层,在一二层之间和二三层之间共设置两个自适应更新模块,该模块利用前一层超图卷积层输出的高阶特征,计算节点与超边之间的相似度,并利用相似度度量归一化后,得到新的关联矩阵,将这个关联矩阵得到的超图拉普拉斯矩阵与原超图拉普拉斯矩阵进行加权求和,得到自适应更新后的超图拉普拉斯矩阵,实现超图拓扑自适应更新;
(4)将经过自适应超图卷积神经网络得到的高阶特征输入全连接层,以完成多标签分类的预测。
本发明的目的是这样实现的。
本发明基于自适应超图卷积网络的多标签图像分类方法,通过对图像原始数据进行预处理,使用ResNet-101进行特征提取。随后对图像特征使用K-近邻方法构建超图,用超图建模图像数据之间的复杂高阶关系。接着将图像特征送入自适应超图卷积神经网络,在三层超图卷积层中,(第一层与第二层之间、第二层与第三层之间)共设置两个自适应更新模块,对超图结构进行更新。由于图像特征在经过卷积后,图像数据之间的复杂联系被进一步的探索,对超图的拓扑进行更新可以提升后续特征的质量,从而提升了模型性能。最后使用全连接层来完成对图像多标签的分类任务。
附图说明
图1是本发明基于自适应超图卷积网络的多标签图像分类方法流程图;
图2是本发明中自适应超图卷积神经网络的示意图,包括超图卷积层和自适应更新模块两个部分。
图3是本发明中自适应更新模块,通过计算节点特征和超边特征/>的相似度来更新拉普拉斯矩阵,使得超图拓扑结构随着网络的深入能够逐步更新优化。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于自适应超图卷积网络的多标签图像分类方法流程图。
在本实施例中,如图1所示,本发明基于自适应超图卷积网络的多标签图像分类方法包括一项步骤:
S1:图像预处理及特征提取
对图像原始数据进行预处理,首先将输入图像都调整为640*640,随后在{640,576,512,448,384,320}中随机选择数字作为高度和宽度,对图像进行随机裁剪。裁剪后再将裁剪得到的部分调整为224*224,再利用在ImageNet上预训练过的ResNet-101提取图像初始特征X(0)
S2:构建超图
构建超图。对于超图G而言,一条超边可以连接多个节点。设G=(V,E,W)为一个超图,V记为顶点集,E记为超边集,W是超边的权重,是一个对角矩阵。记超图G的关联矩阵为H,关联矩阵可以记录顶点于超边的关系,H被定为成:
对于节点v∈V,其度被定义为d(v)=∑e∈Ew(e)h(v,e),对于边e∈E,它的度被定义为δ(e)=∑v∈Vh(v,e)。而De和Dv分别表示边度和节点度的对角矩阵。
基于超图结构,使用图像初始特征,并计算各图像之间的欧氏距离,取k=3,以K-近邻策略进行关联矩阵的计算,将图像与其相近的三张图像构造出一条超边。用上述方式构造出超图的关联矩阵H。
S3:自适应超图卷积神经网络
如图2所示,自适应超图卷积神经网络分为两个部分,首先是三个超图卷积层,然后是超图卷积层中间的两个自适应更新模块。
(1)通过超图卷积层对输入的数据进行高阶特征的深度挖掘。不同于图卷积神经网络使用邻接矩阵进行图卷积,超图使用关联矩阵来进行超图上卷积过程的定义。超图的拉普拉斯矩阵L:
这里U是拉普拉斯矩阵的特征向量矩阵,∧是特征值矩阵。而输入经过图的傅里叶变换过程如下所示:
则图在谱域上的卷积如下所示(g代表的是卷积核):
g*x=U((UTg)⊙(UTx))
经过切比雪夫(ChebNet)近似逼近后:
其中是∧特征值矩阵,g(λ)=diag[g(λ1),...,g(λn)],θ是学习参数。接着进一步简化公式,令K=1,(λmax)=2,式子转变为:
g*x≈θ0x-θ1Nx
其中 式子就进一步变成了(σ为非线性激活函数,选用ReLU函数):
这样就可以建立一个超图卷积层f(X,W,θ),其中X(l)是l层的输出。
(2)如图3所示,自适应更新模块通过利用第一个超图卷积层的输出X(1)∈Rn×d,n为受试者个数。通过聚合超边上的节点特征得到超边的特征 m=1,2,...,|E|,此处We∈Rd×h为学习参数。对节点特征也使用一个学习参数Wv∈Rd×h,得到节点特征/>i=1,2,…,|V|。随后计算节点i与超边m的余弦相似性,σ为激活函数
随后再对节点与所有超边的相似度进行归一化处理:
这样就得到了新的关联矩阵随后就可以得到新的拉普拉斯矩阵/>
首先原关联矩阵H有新关联矩阵有/> 将二者进行加权求和,/>此处a为超参数,为了逐步提高拓扑更新的强度,设置a=1-0.7(cos(π(l-1)/10)+1)/2,(l为超图卷积层层数,2≤l≤3)。从而得到新的拉普拉斯矩阵/>进行下一层的超图卷积,最后输出卷积后的高阶特征X(3)
S4:实现多标签分类
将经过自适应超图卷积神经网络得到的高阶特征输入全连接层,经过sigmoid激活函数以完成多标签分类的预测。
整个学习过程首先将数据划分为训练集和测试集,训练集输入模型训练时,对模型每层权重进行初始化,随后输入数据,前向计算得到模型输出,再根据损失函数和真实标签计算损失,其中损失函数如下:
其中前面是多分类的交叉熵损失函数,n为图像样本数,T为标签数,后面是自适应更新的正则项,保证训练更稳定。
计算梯度并反向传播来更新模型每层的权重。通过梯度下降多次迭代使模型拟合达到最优。本工作使用adam优化器,最终获得训练完成的模型。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种基于自适应超图卷积网络的多标签图像分类方法,其特征在于,包括以下步骤:
(1)对图像原始数据进行预处理,统一图像大小后,利用在ImageNet上预训练过的ResNet提取图像初始特征;
(2)对图像初始特征,基于距离,使用K-近邻方法构造初始超图,得到关联矩阵,从而建模图像的复杂高阶关系;
(3)构建自适应超图卷积神经网络,共设置三层超图卷积层,在一二层之间和二三层之间共设置两个自适应更新模块,该模块利用前一层超图卷积层输出的高阶特征,计算节点与超边之间的相似度,并利用相似度度量归一化后,得到新的关联矩阵,将这个关联矩阵得到的超图拉普拉斯矩阵与原超图拉普拉斯矩阵进行加权求和,得到自适应更新后的超图拉普拉斯矩阵,实现超图拓扑自适应更新;
(4)将经过自适应超图卷积神经网络得到的高阶特征输入全连接层,以完成多标签分类的预测。
2.根据权利要求1所述的基于自适应超图卷积网络的多标签图像分类方法,其特征在于,在自适应超图卷积神经网络实施过程中,自适应超图卷积神经网络分为两个部分,首先是三个超图卷积层,然后是超图卷积层中间的两个自适应更新模块;
(1)通过超图卷积层对输入的数据进行高阶特征的深度挖掘;不同于图卷积神经网络使用邻接矩阵进行图卷积,超图使用关联矩阵来进行超图上卷积过程的定义;超图的拉普拉斯矩阵L:
L=I-N=U∧UT
这里U是拉普拉斯矩阵的特征向量矩阵,∧是特征值矩阵;而输入经过图的傅里叶变换过程如下所示:
则图在谱域上的卷积如下所示(g代表的是卷积核):
g*x=U((UTg)⊙(UTx))
经过切比雪夫(ChebNet)近似逼近后:
其中是∧特征值矩阵,g(λ)=diag[g(λ1),...,g(λn)],θ是学习参数;接着进一步简化公式,令K=1,(λmax)=2,式子转变为:
g*x≈θ0x-θ1Nx
其中式子就进一步变成了(σ为非线性激活函数,选用ReLU函数):
g*x≈θNx
这样就可以建立一个超图卷积层f(X,W,θ),其中X(l)是l层的输出;
(2)自适应更新模块通过利用第一个超图卷积层的输出X(1)∈Rn×d,n为受试者个数;通过聚合超边上的节点特征得到超边的特征 此处We∈Rd ×h为学习参数;对节点特征也使用一个学习参数Wv∈Rd×h,得到节点特征随后计算节点i与超边m的余弦相似性,σ为激活函数
随后再对节点与所有超边的相似度进行归一化处理:
这样就得到了新的关联矩阵随后就可以得到新的拉普拉斯矩阵/>
首先原关联矩阵H有新关联矩阵有/> 将二者进行加权求和,/>此处a为超参数,为了逐步提高拓扑更新的强度,设置a=1-0.7(cos(π(l-1)/10)+1)/2,(l为超图卷积层层数,2≤l≤3);从而得到新的拉普拉斯矩阵/>进行下一层的超图卷积,最后输出卷积后的高阶特征X(3)
3.根据权利要求2所述的基于自适应超图卷积网络的多标签图像分类方法,其特征在于,将经过自适应超图卷积神经网络得到的高阶特征输入全连接层,经过sigmoid激活函数以完成多标签分类的预测;
整个学习过程首先将数据划分为训练集和测试集,训练集输入模型训练时,对模型每层权重进行初始化,随后输入数据,前向计算得到模型输出,再根据损失函数和真实标签计算损失,其中损失函数如下:
其中前面是多分类的交叉熵损失函数,n为图像样本数,T为标签数,后面是自适应更新的正则项,保证训练更稳定;
计算梯度并反向传播来更新模型每层的权重;通过梯度下降多次迭代使模型拟合达到最优;本工作使用adam优化器,最终获得训练完成的模型。
CN202311646149.2A 2023-12-04 2023-12-04 一种基于自适应超图卷积网络的多标签图像分类方法 Pending CN117611838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311646149.2A CN117611838A (zh) 2023-12-04 2023-12-04 一种基于自适应超图卷积网络的多标签图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311646149.2A CN117611838A (zh) 2023-12-04 2023-12-04 一种基于自适应超图卷积网络的多标签图像分类方法

Publications (1)

Publication Number Publication Date
CN117611838A true CN117611838A (zh) 2024-02-27

Family

ID=89953237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311646149.2A Pending CN117611838A (zh) 2023-12-04 2023-12-04 一种基于自适应超图卷积网络的多标签图像分类方法

Country Status (1)

Country Link
CN (1) CN117611838A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118096536A (zh) * 2024-04-29 2024-05-28 中国科学院长春光学精密机械与物理研究所 基于超图神经网络的遥感高光谱图像超分辨率重构方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118096536A (zh) * 2024-04-29 2024-05-28 中国科学院长春光学精密机械与物理研究所 基于超图神经网络的遥感高光谱图像超分辨率重构方法

Similar Documents

Publication Publication Date Title
CN105740894B (zh) 一种高光谱遥感图像的语义标注方法
CN109993236B (zh) 基于one-shot Siamese卷积神经网络的少样本满文匹配方法
CN110348399B (zh) 基于原型学习机制和多维残差网络的高光谱智能分类方法
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
CN111783841A (zh) 基于迁移学习和模型融合的垃圾分类方法、***及介质
CN111259917B (zh) 一种基于局部近邻成分分析的图像特征提取方法
Yang et al. Local label descriptor for example based semantic image labeling
CN113987236B (zh) 基于图卷积网络的视觉检索模型的无监督训练方法和装置
CN117611838A (zh) 一种基于自适应超图卷积网络的多标签图像分类方法
CN112364747B (zh) 一种有限样本下的目标检测方法
CN117315381B (zh) 一种基于二阶有偏随机游走的高光谱图像分类方法
CN117237733A (zh) 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法
CN116152554A (zh) 基于知识引导的小样本图像识别***
CN113780245A (zh) 一种多场景下的物品检索方法及***
Xu et al. Graphical modeling for multi-source domain adaptation
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN117853596A (zh) 无人机遥感测绘方法及***
Everett et al. Protocaps: A fast and non-iterative capsule network routing method
Yao A compressed deep convolutional neural networks for face recognition
CN115329821A (zh) 一种基于配对编码网络和对比学习的舰船噪声识别方法
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN115410000A (zh) 对象分类方法以及装置
Yang et al. iCausalOSR: invertible Causal Disentanglement for Open-set Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination