CN114842343A - 一种基于ViT的航空图像识别方法 - Google Patents

一种基于ViT的航空图像识别方法 Download PDF

Info

Publication number
CN114842343A
CN114842343A CN202210541111.8A CN202210541111A CN114842343A CN 114842343 A CN114842343 A CN 114842343A CN 202210541111 A CN202210541111 A CN 202210541111A CN 114842343 A CN114842343 A CN 114842343A
Authority
CN
China
Prior art keywords
image
model
aerial image
vit
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210541111.8A
Other languages
English (en)
Inventor
熊盛武
赵怡晨
陈亚雄
路雄博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202210541111.8A priority Critical patent/CN114842343A/zh
Publication of CN114842343A publication Critical patent/CN114842343A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于ViT的航空图像识别方法,包括步骤:S1、采集航空图像数据集,构造训练集,验证集和测试集;S2、扩充训练集的数据量;S3、构建基于ViT的航空图像识别模型;S4、将扩充后的训练集输入到识别模型中,对图像相对应的标签进行区分性标签平滑,同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练,通过反向传播算法更新识别模型,遴选最优的航空图像识别模型;S5、通过测试集测试模型的识别性能。本发明通过将图像对应的标签进行区分性标签平滑处理,同时采用交叉熵损失函数和区分性对比损失函数监督模型的训练过程,得到具有更强特征学习能力的基于ViT的航空图像识别模型,具有识别率高,可拓展性强等优点。

Description

一种基于ViT的航空图像识别方法
技术领域
本发明涉及机器学习算法与图像处理技术领域,具体地指一种基于ViT的航空图像识别方法。
背景技术
航空图像识别指给定一张航空图像,识别其所属类别。随着航空技术的日益成熟,航空图像分辨率日益提高,航空图像在人们日常的生活中发挥着越来越重要的作用。自然灾害探测、城市规划、资源勘探及专题地图制作等任务都离不开航空图像识别,因此对航空图像进行准确识别具有重要的价值。
虽然航空图像数据量多,但是可用于做模型训练的数据集数量少,质量不高,而有标注的数据集更是稀少,且噪音样本,困难样本的问题普遍存在。另外,航空图像多为俯视成像,具有成像范围广、尺度变化大和场景内目标稀疏变化等特点。因此,与自然图像相比,航空图像识别具有数据量小和背景复杂的困难。
目前,针对以上问题,大部分解决方案都是围绕建立有针对性的轻量级深度学习算法,没有拓展到更多样化的航空图像,存在局限性。另外,这些方法大多采用学习标签信息的交叉熵损失对模型进行监督,没有考虑到航空图像本身的内部信息。
发明内容
针对背景技术中存在的不足之处,本发明提出一种基于ViT的航空图像识别方法,利用ViT(Vision Transformer)在捕获长距离依赖和动态自适应建模能力上的优势,以ViT作为图像的特征编码器去捕捉显著地语义特征,且在ViT的基础上进行改进,使其能充分利用有限的航空图像数据进行训练,避免过度拟合图像中的噪点。
为实现上述目的,本发明所设计的一种基于ViT的航空图像识别方法,其特殊之处在于,所述方法包括如下步骤:
S1)采集航空图像数据集,得到所需原始航空图像xi及其对应的类别标签yi,按比例数量划分训练集、验证集和测试集,分别用于后续对模型进行训练、验证和评估,其中训练集记为
Figure BDA0003648391670000021
B为训练集的图像数目;
S2)将所述训练集图像进行在线数据增强,使得训练集中每张图像都生成M张不同的增强图像,训练集被扩充后的图像数量为B*M,记为
Figure BDA0003648391670000022
S3)构建基于ViT的航空图像识别模型;
S4)将所述训练集
Figure BDA0003648391670000023
的图像,输入所述基于ViT的航空图像识别模型,对图像相对应的标签进行区分性标签平滑,同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练,通过反向传播算法更新识别模型,并利用步骤S1)中的验证集遴选最优的航空图像识别模型;
S5)使用步骤S1)的测试集测试所述航空图像识别模型的识别性能,得到最终的模型识别正确率,当模型识别正确率达到设定阈值时,将待识别图像输入航空图像识别模型进行识别;否则返回步骤S3)直至模型识别正确率达到设定阈值。
优选地,步骤S2)将输入的图像随机裁剪为224*224像素后进行随机地水平翻转,然后使用图像增强策略对图像进行增强,最终得到扩容后的训练集,记为
Figure BDA0003648391670000024
优选地,步骤S2)中图像增强策略包括以下操作中的一种或多种组合:对图像进行归一化操作、按照顺序进行随机颜色失真和高斯模糊、自动增强、随机增强、每次随机选择一个图像增强操作,然后随机确定它的增强幅度,并对图像进行增强、随机从图像中擦除一个矩形区域而不改变图像的原始标签。
优选地,步骤S3)中所述基于ViT的航空图像识别模型由编码器F(·),分类头G(·)和仅用于训练阶段的投影头P(·)构成:
编码器F(·)由在数据集上预训练好的ViT构成,用于对图像全局特征进行学习和编码,将训练图像
Figure BDA0003648391670000031
输入特征编码器F(·)中,采用编码器的第一个token作为
Figure BDA0003648391670000032
的全局特征表示hi
分类头G(·)由MLP层构成,其结构为全连接层FC—激活函数Tanh—全连接层FC,MLP层输出神经元个数为当前数据集中航空图像的总类别数目;
投影头P(·)仅用在模型的训练阶段,其作用是将编码后的全局特征表示hi映射到应用对比损失的潜在空间中,其结构为全连接层FC—激活函数ReLU—全连接层FC。
优选地,步骤S4)中对图像相对应的标签进行区分性标签平滑,指根据模型输出的离散概率值和当前的训练阶段,对图像进行区分性的标签平滑,然后将平滑后的标签用以计算交叉熵损失函数值,表达式如下:
Figure BDA0003648391670000033
式中,LCE是交叉熵损失函数值,K是航空图像数据集中的总类别数目;
Figure BDA0003648391670000034
是第i个样本初始标签概率分布,即对于正确的标签类别
Figure BDA0003648391670000035
为1,其他情况则为0;
Figure BDA0003648391670000036
是由模型输出的离散概率分布,指模型对第i个样本在第k个类的预测概率,γ.(s)是平滑变量。
优选地,所述平滑变量γ.(s)由两个平滑变量γhard(s)和γsimple(s)构成,分别用以控制在不同训练阶段中,困难样本和简单样本各自的平滑权重,其表达式如下:
Figure BDA0003648391670000037
γsimple(s)=(γhard(s)+γbias)*0.5(1+s/I)
其中,s∈{1…I}是当前训练的迭代次数,I为总迭代次数;γmax是困难样本对应的平滑权重最大值,γmin是最小值;γbias是困难样本和简单样本平滑权重的偏差值;
Figure BDA0003648391670000038
指平滑插值函数,其表达式如下:
Figure BDA0003648391670000041
其中,Comb:是排列组合数,表示从N+n个元素中取出n个元素的取出方式总数,N用于控制平滑的速率。
优选地,在第i个样本
Figure BDA0003648391670000042
属于困难或简单样本的划分中,根据模型输出的K个类的概率
Figure BDA0003648391670000043
当其中最大值大于0.8,次大值小于0.2时,认为其属于简单样本,否则,将其划分为困难样本;由此分别选择相对应的平滑变量,计算交叉熵损失函数值。
优选地,步骤S4)中同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练时,依下式计算总损失值L:
L=LCE+β*LDCL
式中,LCE为交叉熵损失函数,LDCL为区分性对比损失函数,β为权重系数,用于调节区分性对比损失函数的重要性。
所述区分性对比损失函数的表达式如下:
Figure BDA0003648391670000044
Figure BDA0003648391670000045
式中,B*M是训练集样本总数量,
Figure BDA0003648391670000046
是一个指示函数,当且仅当输入条件成立时为1,与样本
Figure BDA0003648391670000047
属于同类的样本中,Si表示由同一图像增强的样本集合,Ci表示其他情况,
Figure BDA0003648391670000048
表示与样本
Figure BDA0003648391670000049
同类但由不同图像增强得到的样本
Figure BDA00036483916700000410
的点积占比,
Figure BDA00036483916700000411
表示与样本
Figure BDA00036483916700000412
同类且由相同图像增强得到的样本
Figure BDA00036483916700000413
的点积占比,τ>0是温度参数,ε是相似度阈值,1≥ε>0。
本发明还提出一种基于ViT的航空图像识别计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现上述方法中的步骤。
本发明另外提出一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述一种基于ViT的航空图像识别方法。
本发明的有益效果在于:
1、识别率高:本发明针对航空图像识别中可训练数据量小,易导致深度学***滑以促进模型既能学习到足够好的特征信息,同时不至于过分拟合噪声数据的分布。
2、可拓展性强:本发明的基于ViT的航空图像识别方法,其原理通用性较高,根据实际需要,选择合适的训练数据,可以应用到不同类型的航空图像识别任务。
3、数据结构合理:本发明设计区分性标签平滑项和区分性有监督对比损失,学习更紧凑和合理的数据结构;由此,训练具有更强显著性特征捕获能力的基于ViT的航空图像识别模型,使得航空图像的识别更准确。
附图说明
图1为本发明一种基于ViT的航空图像识别方法整体流程图;
图2为本发明实施例中随机增强模块演示图;
图3为本发明实施例中用于航空图像事件识别的模型示意图。
具体实施方式
为了具体说明使本发明的目的、技术方案、优点和可实现性,下面结合附图和实施例对本发明做进一步的说明。应当理解,此处所描述的具体实例仅仅用于对本发明进行解释,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间不构成冲突就可以相互结合。
本实施例以航空图像中的事件识别为场景,对本发明提供的一种基于ViT的航空图像识别方法作详细说明。
如图1所示,本发明提出的一种基于ViT的航空图像识别方法应用于航空图像中的事件识别任务,该方法详细步骤如下:
步骤S1:采集航空图像中事件识别数据集,得到航空图像xi及其对应的事件标签yi,本实施例选择ERA航空图像中事件识别数据集,该数据集包含25个事件类别的2864个样本图像,直接使用其已经划分好的训练集和测试集,且将原始训练集中按照9:1的比例随机划分训练集和验证集,将训练集记为
Figure BDA0003648391670000061
B为训练集的图像数目。
步骤S2:构建数据随机增强模块以扩充训练集的数据量,将步骤S1中的训练集图像输入随机增强模块进行在线数据增强。在随机增强模块中,首先将输入的图像随机裁剪为224*224像素后进行随机地水平翻转,然后选择当前视觉任务的中六种常用的图像增强策略,包括(1)BaseAugment(只对图像进行归一化操作);(2)SimAugment(按照顺序进行随机颜色失真和高斯模糊,并可能在序列最后进行额外的稀疏图像扭曲操作);(3)AutoAugment(自动增强);(4)RandAugment(随机增强);(5)TrivialAugment(每次随机选择一个图像增强操作,然后随机确定它的增强幅度,并对图像进行增强);(6)RandomErasing(随机从图像中擦除一个矩形区域而不改变图像的原始标签)。即给定训练集中的一张图像,在上述六种策略中随机选择的M(6≥M≥0)种对图像进行增强,最终得到扩容后的训练集,记为
Figure BDA0003648391670000062
本实施例中M取4,如图2所示。
步骤S3:构建基于ViT的航空图像识别模型,模型结构如图3所示。模型由编码器F(·),分类头G(·)和仅用于训练阶段的投影头P(·)构成的:
编码器F(·)由在ImageNet数据集上预训练好的ViT构成,用于对图像全局特征进行学习和编码。具体的,编码器F(·)包括线性层和transformer编码器两部分:线性层用于将图像嵌入表示;transformer编码器由多头自注意力层和多层感知机块构成,用于学习图像的全局特征。在每个块前应用LayerNorm归一化,在每个块后应用残差连接。将训练图像
Figure BDA0003648391670000071
输入特征编码器F(·)中,采用最后一层transformer编码器的第一个token作为
Figure BDA0003648391670000072
的全局特征表示hi。随后将hi输入到分类器和投影器中以计算总损失值。
分类头G(·)由MLP层构成,其结构为“全连接层FC—激活函数Tanh—全连接层FC”,MLP层输出神经元个数为当前数据集中航空图像的总类别数目,在本实施例中为25。
投影头P(·)仅用在模型的训练阶段,其作用是将编码后的表征hi映射到应用对比损失的潜在空间中,其结构为“全连接层FC—激活函数ReLU—全连接层FC”,MLP层输出神经元个数为128。
步骤S4:将步骤S2中的训练集
Figure BDA0003648391670000073
的图像,输入步骤S3构建的识别模型,接着对图像相对应的标签进行区分性标签平滑,同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练,通过反向传播算法更新识别模型,选取在步骤S1的验证集上识别正确率最优的模型最为最终训练好的识别模型。
其中,对图像相对应的标签进行区分性标签平滑,指根据模型输出的离散概率值和当前的训练阶段,对图像进行区分性的标签平滑,然后将平滑后的标签用以计算交叉熵损失函数值,其表达式如下:
Figure BDA0003648391670000074
式中,K是航空图像数据集中的总类别数目;
Figure BDA0003648391670000075
是第i个样本初始标签概率分布,即对于正确的标签类别
Figure BDA0003648391670000076
为1,其他情况则为0;
Figure BDA0003648391670000077
是由模型输出的离散概率分布,指模型对第i个样本在第k个类的预测概率。
与自然图像数据集相比,获取带注释的航空图像通常需要花费更大的代价,故航空图像数据集的规模普遍较小,这极易导致模型在训练数据上的过拟合。而传统的标签平滑虽然能在一定程度上缓解模型过拟合,但在数据集规模较小时会有模型欠拟合的风险。因此,通过提出平滑变量γ.(s)来控制平滑权重,根据模型训练阶段的变化赋予不同的平滑权重值。具体的,γ.(s)由两个平滑变量γhard(s)和γsimple(s)构成,分别用以控制在不同训练阶段中,困难样本和简单样本各自的平滑权重,其表达式如下:
Figure BDA0003648391670000081
γsimple(s)=(γhard(s)+γbias)*0.5(1+s/I)
其中,s∈{1…I}是当前训练的迭代次数,I为总迭代次数;γmax是困难样本对应的平滑权重最大值,类似地,γmin是最小值;γbias是困难样本和简单样本平滑权重的偏差值;
Figure BDA0003648391670000086
指平滑插值函数。其表达式如下:
Figure BDA0003648391670000082
其中,Comb:表示排列组合数,例如
Figure BDA0003648391670000087
是指不考虑取出顺序,从N+n个元素中取出n个元素的取出方式总数。N用于控制平滑的速率,本实施例中取1。
在第i个样本
Figure BDA0003648391670000084
属于困难或简单样本的划分中,根据模型输出的K个类的概率
Figure BDA0003648391670000085
当其中最大值大于0.8,次大值小于0.2时,认为其属于简单样本,否则,将其划分为困难样本。由此分别选择相对应的平滑函数计算以交叉熵损失函数值。
其中,所述同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练,依下式计算总损失值L:
L=LCE+β*LDCL
式中,LCE为权利要求5所述交叉熵损失函数,LDCL为区分性对比损失函数,β为权重系数,用于调节区分性对比损失函数的重要性。
其中,区分性对比损失函数,其表达式如下:
Figure BDA0003648391670000091
Figure BDA0003648391670000092
Figure BDA0003648391670000093
由于航空图像相比于自然图像具有更大的类内变化和类间相似性,即使是同类样本也存在一定差异,在随机增强后这种差异会进一步增强,因此,通过对同类图像是否由相同图像增强所得进一步区分,提出上述的区分性对比损失函数。具体的,B*M是训练集样本总数量,
Figure BDA0003648391670000094
是一个指示函数,当且仅当输入条件成立时为1。与样本
Figure BDA0003648391670000095
属于同类的样本中,Si表示由同一图像增强的样本集合,Ci表示其他情况。
Figure BDA0003648391670000096
表示与样本
Figure BDA0003648391670000097
同类但由不同图像增强得到的样本
Figure BDA0003648391670000098
的点积占比,
Figure BDA0003648391670000099
表示与样本
Figure BDA00036483916700000910
同类且由相同图像增强得到的样本
Figure BDA00036483916700000911
的点积占比。τ>0是温度参数,ε(1≥ε>0)是相似度阈值。
步骤S5:将步骤S1的测试集图像输入训练好的识别模型中,根据模型的输出的预测类别与真实类别作比较,即得到最终的识别正确率。当模型识别正确率达到设定阈值时,将待识别图像输入航空图像识别模型进行识别;否则返回步骤S3)直至模型识别正确率达到设定阈值。
基于上述方法,本发明还提出一种基于ViT的航空图像识别计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现上述一种基于ViT的航空图像识别方法中的步骤。
本发明另外提出一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述一种基于ViT的航空图像识别方法。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。
应当理解的是,对本领域普通技术人员来说,可以根据本发明的原理和上述说明加以改进或变换,或将本发明所提供的方法应用到类似的航空图像识别任务,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于ViT的航空图像识别方法,其特征在于:所述方法包括如下步骤:
S1)采集航空图像数据集,得到所需原始航空图像xi及其对应的类别标签yi,按比例数量划分训练集、验证集和测试集,分别用于后续对模型进行训练、验证和评估,其中训练集记为
Figure FDA0003648391660000011
B为训练集的图像数目;
S2)将所述训练集图像进行在线数据增强,使得训练集中每张图像都生成M张不同的增强图像,训练集被扩充后的图像数量为B*M,记为
Figure FDA0003648391660000012
S3)构建基于ViT的航空图像识别模型;
S4)将所述训练集
Figure FDA0003648391660000013
的图像,输入所述基于ViT的航空图像识别模型,对图像相对应的标签进行区分性标签平滑,同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练,通过反向传播算法更新识别模型,并利用步骤S1)中的验证集遴选最优的航空图像识别模型;
S5)使用步骤S1)的测试集测试所述航空图像识别模型的识别性能,得到最终的模型识别正确率,当模型识别正确率达到设定阈值时,将待识别图像输入航空图像识别模型进行识别;否则返回步骤S3)直至模型识别正确率达到设定阈值。
2.根据权利要求1所述的一种基于ViT的航空图像识别方法,其特征在于:步骤S2)将输入的图像随机裁剪为224*224像素后进行随机地水平翻转,然后使用图像增强策略对图像进行增强,最终得到扩容后的训练集,记为
Figure FDA0003648391660000014
3.根据权利要求2所述的一种基于ViT的航空图像识别方法,其特征在于:步骤S2)中图像增强策略包括以下操作中的一种或多种组合:对图像进行归一化操作、按照顺序进行随机颜色失真和高斯模糊、自动增强、随机增强、每次随机选择一个图像增强操作,然后随机确定它的增强幅度,并对图像进行增强、随机从图像中擦除一个矩形区域而不改变图像的原始标签。
4.根据权利要求1所述的一种基于ViT的航空图像识别方法,其特征在于:步骤S3)中所述基于ViT的航空图像识别模型由编码器F(·),分类头G(·)和仅用于训练阶段的投影头P(·)构成:
编码器F(·)由在数据集上预训练好的ViT构成,用于对图像全局特征进行学习和编码,将训练图像
Figure FDA0003648391660000021
输入特征编码器F(·)中,采用编码器的第一个token作为
Figure FDA0003648391660000022
的全局特征表示hi
分类头G(·)由MLP层构成,其结构为全连接层FC—激活函数Tanh—全连接层FC,MLP层输出神经元个数为当前数据集中航空图像的总类别数目;
投影头P(·)仅用在模型的训练阶段,其作用是将编码后的全局特征表示hi映射到应用对比损失的潜在空间中,其结构为全连接层FC—激活函数ReLU—全连接层FC。
5.根据权利要求1所述的一种基于ViT的航空图像识别方法,其特征在于:步骤S4)中对图像相对应的标签进行区分性标签平滑,指根据模型输出的离散概率值和当前的训练阶段,对图像进行区分性的标签平滑,然后将平滑后的标签用以计算交叉熵损失函数值,表达式为:
Figure FDA0003648391660000023
式中,LCE是交叉熵损失函数值,K是航空图像数据集中的总类别数目;
Figure FDA0003648391660000024
是第i个样本初始标签概率分布,即对于正确的标签类别
Figure FDA0003648391660000027
为1,其他情况则为0;
Figure FDA0003648391660000025
是由模型输出的离散概率分布,指模型对第i个样本在第k个类的预测概率,γ·(s)是平滑变量。
6.根据权利要求5所述的一种基于ViT的航空图像识别方法,其特征在于:所述平滑变量γ·(s)由两个平滑变量γhard(s)和γsimple(s)构成,分别用以控制在不同训练阶段中,困难样本和简单样本各自的平滑权重,其表达式如下:
Figure FDA0003648391660000026
γsimple(s)=(γhard(s)+γbias)*0.5(1+s/I)
其中,s∈{1...I}是当前训练的迭代次数,I为总迭代次数;γmax是困难样本对应的平滑权重最大值,γmin是最小值;γbias是困难样本和简单样本平滑权重的偏差值;
Figure FDA0003648391660000031
指平滑插值函数,其表达式如下:
Figure FDA0003648391660000032
其中,Comb:是排列组合数,表示从N+n个元素中取出n个元素的取出方式总数,N用于控制平滑的速率。
7.根据权利要求6所述的一种基于ViT的航空图像识别方法,其特征在于:在第i个样本
Figure FDA0003648391660000033
属于困难或简单样本的划分中,根据模型输出的K个类的概率
Figure FDA0003648391660000034
当其中最大值大于0.8,次大值小于0.2时,认为其属于简单样本,否则,将其划分为困难样本;由此分别选择相对应的平滑变量,计算交叉熵损失函数值。
8.根据权利要求6所述的一种基于ViT的航空图像识别方法,其特征在于:步骤S4)中同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练时,依下式计算总损失值L:
L=LCE+β*LDCL
式中,LCE为交叉熵损失函数,LDCL为区分性对比损失函数,β为权重系数,用于调节区分性对比损失函数的重要性。
所述区分性对比损失函数的表达式如下:
Figure FDA0003648391660000035
Figure FDA0003648391660000036
式中,B*M是训练集样本总数量,
Figure FDA0003648391660000037
是一个指示函数,当且仅当输入条件成立时为1,与样本
Figure FDA0003648391660000038
属于同类的样本中,Si表示由同一图像增强的样本集合,Ci表示其他情况,
Figure FDA0003648391660000039
表示与样本
Figure FDA00036483916600000310
同类但由不同图像增强得到的样本
Figure FDA0003648391660000041
的点积占比,
Figure FDA0003648391660000042
表示与样本
Figure FDA0003648391660000043
同类且由相同图像增强得到的样本
Figure FDA0003648391660000044
的点积占比,τ>0是温度参数,ε是相似度阈值,1≥ε>0。
9.一种基于ViT的航空图像识别计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现权利要求1至8中任一项所述方法中的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。
CN202210541111.8A 2022-05-17 2022-05-17 一种基于ViT的航空图像识别方法 Pending CN114842343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210541111.8A CN114842343A (zh) 2022-05-17 2022-05-17 一种基于ViT的航空图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210541111.8A CN114842343A (zh) 2022-05-17 2022-05-17 一种基于ViT的航空图像识别方法

Publications (1)

Publication Number Publication Date
CN114842343A true CN114842343A (zh) 2022-08-02

Family

ID=82569586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210541111.8A Pending CN114842343A (zh) 2022-05-17 2022-05-17 一种基于ViT的航空图像识别方法

Country Status (1)

Country Link
CN (1) CN114842343A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115396242A (zh) * 2022-10-31 2022-11-25 江西神舟信息安全评估中心有限公司 一种数据识别的方法及网络安全漏洞的检测方法
CN115394381A (zh) * 2022-08-24 2022-11-25 哈尔滨理工大学 一种基于机器学习和两步法数据扩充的高熵合金硬度预测方法及装置
CN116758360A (zh) * 2023-08-21 2023-09-15 江西省国土空间调查规划研究院 土地空间用途管理方法及其***
CN117173122A (zh) * 2023-09-01 2023-12-05 中国农业科学院农业信息研究所 一种基于轻量级ViT的图像叶密度测定方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115394381A (zh) * 2022-08-24 2022-11-25 哈尔滨理工大学 一种基于机器学习和两步法数据扩充的高熵合金硬度预测方法及装置
CN115394381B (zh) * 2022-08-24 2023-08-22 哈尔滨理工大学 一种基于机器学习和两步法数据扩充的高熵合金硬度预测方法及装置
CN115396242A (zh) * 2022-10-31 2022-11-25 江西神舟信息安全评估中心有限公司 一种数据识别的方法及网络安全漏洞的检测方法
CN116758360A (zh) * 2023-08-21 2023-09-15 江西省国土空间调查规划研究院 土地空间用途管理方法及其***
CN116758360B (zh) * 2023-08-21 2023-10-20 江西省国土空间调查规划研究院 土地空间用途管理方法及其***
CN117173122A (zh) * 2023-09-01 2023-12-05 中国农业科学院农业信息研究所 一种基于轻量级ViT的图像叶密度测定方法及装置
CN117173122B (zh) * 2023-09-01 2024-02-13 中国农业科学院农业信息研究所 一种基于轻量级ViT的图像叶密度测定方法及装置

Similar Documents

Publication Publication Date Title
US20200285896A1 (en) Method for person re-identification based on deep model with multi-loss fusion training strategy
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN109583501B (zh) 图片分类、分类识别模型的生成方法、装置、设备及介质
CN108647583B (zh) 一种基于多目标学习的人脸识别算法训练方法
CN114842343A (zh) 一种基于ViT的航空图像识别方法
WO2020114378A1 (zh) 视频水印的识别方法、装置、设备及存储介质
EP3690741A2 (en) Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same
JP2020123330A (ja) ニューラルネットワーク学習に利用されるオートラベリングされたイメージのうちでラベル検収のためのサンプルイメージを取得する方法、及びそれを利用したサンプルイメージ取得装置
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN111582397A (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
JP7139749B2 (ja) 画像認識学習装置、画像認識装置、方法、及びプログラム
CN113592007B (zh) 一种基于知识蒸馏的不良图片识别***、方法、计算机及存储介质
CN112560710B (zh) 一种用于构建指静脉识别***的方法及指静脉识别***
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN111539456B (zh) 一种目标识别方法及设备
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN114419379A (zh) 一种基于对抗性扰动的深度学***性提升***及方法
CN114332075A (zh) 基于轻量化深度学习模型的结构缺陷快速识别与分类方法
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
JPWO2019215904A1 (ja) 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN114119382A (zh) 一种基于注意力生成对抗网络的图像去雨滴方法
CN112507912A (zh) 一种识别违规图片的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination