CN114842343A

CN114842343A - 一种基于ViT的航空图像识别方法

Info

Publication number: CN114842343A
Application number: CN202210541111.8A
Authority: CN
Inventors: 熊盛武; 赵怡晨; 陈亚雄; 路雄博
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-02

Abstract

本发明公开了一种基于ViT的航空图像识别方法，包括步骤：S1、采集航空图像数据集，构造训练集，验证集和测试集；S2、扩充训练集的数据量；S3、构建基于ViT的航空图像识别模型；S4、将扩充后的训练集输入到识别模型中，对图像相对应的标签进行区分性标签平滑，同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练，通过反向传播算法更新识别模型，遴选最优的航空图像识别模型；S5、通过测试集测试模型的识别性能。本发明通过将图像对应的标签进行区分性标签平滑处理，同时采用交叉熵损失函数和区分性对比损失函数监督模型的训练过程，得到具有更强特征学习能力的基于ViT的航空图像识别模型，具有识别率高，可拓展性强等优点。

Description

一种基于ViT的航空图像识别方法

技术领域

本发明涉及机器学习算法与图像处理技术领域，具体地指一种基于ViT的航空图像识别方法。

背景技术

航空图像识别指给定一张航空图像，识别其所属类别。随着航空技术的日益成熟，航空图像分辨率日益提高，航空图像在人们日常的生活中发挥着越来越重要的作用。自然灾害探测、城市规划、资源勘探及专题地图制作等任务都离不开航空图像识别，因此对航空图像进行准确识别具有重要的价值。

虽然航空图像数据量多，但是可用于做模型训练的数据集数量少，质量不高，而有标注的数据集更是稀少，且噪音样本，困难样本的问题普遍存在。另外，航空图像多为俯视成像，具有成像范围广、尺度变化大和场景内目标稀疏变化等特点。因此，与自然图像相比，航空图像识别具有数据量小和背景复杂的困难。

目前，针对以上问题，大部分解决方案都是围绕建立有针对性的轻量级深度学习算法，没有拓展到更多样化的航空图像，存在局限性。另外，这些方法大多采用学习标签信息的交叉熵损失对模型进行监督，没有考虑到航空图像本身的内部信息。

发明内容

针对背景技术中存在的不足之处，本发明提出一种基于ViT的航空图像识别方法，利用ViT(Vision Transformer)在捕获长距离依赖和动态自适应建模能力上的优势，以ViT作为图像的特征编码器去捕捉显著地语义特征，且在ViT的基础上进行改进，使其能充分利用有限的航空图像数据进行训练，避免过度拟合图像中的噪点。

为实现上述目的，本发明所设计的一种基于ViT的航空图像识别方法，其特殊之处在于，所述方法包括如下步骤：

S1)采集航空图像数据集，得到所需原始航空图像x_i及其对应的类别标签y_i，按比例数量划分训练集、验证集和测试集，分别用于后续对模型进行训练、验证和评估，其中训练集记为

B为训练集的图像数目；

S2)将所述训练集图像进行在线数据增强，使得训练集中每张图像都生成M张不同的增强图像，训练集被扩充后的图像数量为B*M，记为

S3)构建基于ViT的航空图像识别模型；

S4)将所述训练集

的图像，输入所述基于ViT的航空图像识别模型，对图像相对应的标签进行区分性标签平滑，同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练，通过反向传播算法更新识别模型，并利用步骤S1)中的验证集遴选最优的航空图像识别模型；

S5)使用步骤S1)的测试集测试所述航空图像识别模型的识别性能，得到最终的模型识别正确率，当模型识别正确率达到设定阈值时，将待识别图像输入航空图像识别模型进行识别；否则返回步骤S3)直至模型识别正确率达到设定阈值。

优选地，步骤S2)将输入的图像随机裁剪为224*224像素后进行随机地水平翻转，然后使用图像增强策略对图像进行增强，最终得到扩容后的训练集，记为

优选地，步骤S2)中图像增强策略包括以下操作中的一种或多种组合：对图像进行归一化操作、按照顺序进行随机颜色失真和高斯模糊、自动增强、随机增强、每次随机选择一个图像增强操作，然后随机确定它的增强幅度，并对图像进行增强、随机从图像中擦除一个矩形区域而不改变图像的原始标签。

优选地，步骤S3)中所述基于ViT的航空图像识别模型由编码器F(·)，分类头G(·)和仅用于训练阶段的投影头P(·)构成：

编码器F(·)由在数据集上预训练好的ViT构成，用于对图像全局特征进行学习和编码，将训练图像

输入特征编码器F(·)中，采用编码器的第一个token作为

的全局特征表示h_i；

分类头G(·)由MLP层构成，其结构为全连接层FC—激活函数Tanh—全连接层FC，MLP层输出神经元个数为当前数据集中航空图像的总类别数目；

投影头P(·)仅用在模型的训练阶段，其作用是将编码后的全局特征表示h_i映射到应用对比损失的潜在空间中，其结构为全连接层FC—激活函数ReLU—全连接层FC。

优选地，步骤S4)中对图像相对应的标签进行区分性标签平滑，指根据模型输出的离散概率值和当前的训练阶段，对图像进行区分性的标签平滑，然后将平滑后的标签用以计算交叉熵损失函数值，表达式如下：

式中，L_CE是交叉熵损失函数值，K是航空图像数据集中的总类别数目；

是第i个样本初始标签概率分布，即对于正确的标签类别

为1，其他情况则为0；

是由模型输出的离散概率分布，指模型对第i个样本在第k个类的预测概率，γ.(s)是平滑变量。

优选地，所述平滑变量γ.(s)由两个平滑变量γ_hard(s)和γ_simple(s)构成，分别用以控制在不同训练阶段中，困难样本和简单样本各自的平滑权重，其表达式如下：

γ_simple(s)＝(γ_hard(s)+γ_bias)*0.5^(1+s/I)

其中，s∈{1…I}是当前训练的迭代次数，I为总迭代次数；γ_max是困难样本对应的平滑权重最大值，γ_min是最小值；γ_bias是困难样本和简单样本平滑权重的偏差值；

指平滑插值函数，其表达式如下：

其中，Comb：是排列组合数，表示从N+n个元素中取出n个元素的取出方式总数，N用于控制平滑的速率。

优选地，在第i个样本

属于困难或简单样本的划分中，根据模型输出的K个类的概率

当其中最大值大于0.8，次大值小于0.2时，认为其属于简单样本，否则，将其划分为困难样本；由此分别选择相对应的平滑变量，计算交叉熵损失函数值。

优选地，步骤S4)中同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练时，依下式计算总损失值L：

L＝L_CE+β*L_DCL

式中，L_CE为交叉熵损失函数，L_DCL为区分性对比损失函数，β为权重系数，用于调节区分性对比损失函数的重要性。

所述区分性对比损失函数的表达式如下：

式中，B*M是训练集样本总数量，

是一个指示函数，当且仅当输入条件成立时为1，与样本

属于同类的样本中，S_i表示由同一图像增强的样本集合，C_i表示其他情况，

表示与样本

同类但由不同图像增强得到的样本

的点积占比，

表示与样本

同类且由相同图像增强得到的样本

的点积占比，τ>0是温度参数，ε是相似度阈值，1≥ε>0。

本发明还提出一种基于ViT的航空图像识别计算机设备，其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令，其中所述处理器执行所述程序指令以实现上述方法中的步骤。

本发明另外提出一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述一种基于ViT的航空图像识别方法。

本发明的有益效果在于：

1、识别率高：本发明针对航空图像识别中可训练数据量小，易导致深度学***滑以促进模型既能学习到足够好的特征信息，同时不至于过分拟合噪声数据的分布。

2、可拓展性强：本发明的基于ViT的航空图像识别方法，其原理通用性较高，根据实际需要，选择合适的训练数据，可以应用到不同类型的航空图像识别任务。

3、数据结构合理：本发明设计区分性标签平滑项和区分性有监督对比损失，学习更紧凑和合理的数据结构；由此，训练具有更强显著性特征捕获能力的基于ViT的航空图像识别模型，使得航空图像的识别更准确。

附图说明

图1为本发明一种基于ViT的航空图像识别方法整体流程图；

图2为本发明实施例中随机增强模块演示图；

图3为本发明实施例中用于航空图像事件识别的模型示意图。

具体实施方式

为了具体说明使本发明的目的、技术方案、优点和可实现性，下面结合附图和实施例对本发明做进一步的说明。应当理解，此处所描述的具体实例仅仅用于对本发明进行解释，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间不构成冲突就可以相互结合。

本实施例以航空图像中的事件识别为场景，对本发明提供的一种基于ViT的航空图像识别方法作详细说明。

如图1所示，本发明提出的一种基于ViT的航空图像识别方法应用于航空图像中的事件识别任务，该方法详细步骤如下：

步骤S1：采集航空图像中事件识别数据集，得到航空图像x_i及其对应的事件标签y_i，本实施例选择ERA航空图像中事件识别数据集，该数据集包含25个事件类别的2864个样本图像，直接使用其已经划分好的训练集和测试集，且将原始训练集中按照9:1的比例随机划分训练集和验证集，将训练集记为

B为训练集的图像数目。

步骤S2：构建数据随机增强模块以扩充训练集的数据量，将步骤S1中的训练集图像输入随机增强模块进行在线数据增强。在随机增强模块中，首先将输入的图像随机裁剪为224*224像素后进行随机地水平翻转，然后选择当前视觉任务的中六种常用的图像增强策略，包括(1)BaseAugment(只对图像进行归一化操作)；(2)SimAugment(按照顺序进行随机颜色失真和高斯模糊，并可能在序列最后进行额外的稀疏图像扭曲操作)；(3)AutoAugment(自动增强)；(4)RandAugment(随机增强)；(5)TrivialAugment(每次随机选择一个图像增强操作，然后随机确定它的增强幅度，并对图像进行增强)；(6)RandomErasing(随机从图像中擦除一个矩形区域而不改变图像的原始标签)。即给定训练集中的一张图像，在上述六种策略中随机选择的M(6≥M≥0)种对图像进行增强，最终得到扩容后的训练集，记为

本实施例中M取4，如图2所示。

步骤S3：构建基于ViT的航空图像识别模型，模型结构如图3所示。模型由编码器F(·)，分类头G(·)和仅用于训练阶段的投影头P(·)构成的：

编码器F(·)由在ImageNet数据集上预训练好的ViT构成，用于对图像全局特征进行学习和编码。具体的，编码器F(·)包括线性层和transformer编码器两部分：线性层用于将图像嵌入表示；transformer编码器由多头自注意力层和多层感知机块构成，用于学习图像的全局特征。在每个块前应用LayerNorm归一化，在每个块后应用残差连接。将训练图像

输入特征编码器F(·)中，采用最后一层transformer编码器的第一个token作为

的全局特征表示h_i。随后将h_i输入到分类器和投影器中以计算总损失值。

分类头G(·)由MLP层构成，其结构为“全连接层FC—激活函数Tanh—全连接层FC”，MLP层输出神经元个数为当前数据集中航空图像的总类别数目，在本实施例中为25。

投影头P(·)仅用在模型的训练阶段，其作用是将编码后的表征h_i映射到应用对比损失的潜在空间中，其结构为“全连接层FC—激活函数ReLU—全连接层FC”，MLP层输出神经元个数为128。

步骤S4：将步骤S2中的训练集

的图像，输入步骤S3构建的识别模型，接着对图像相对应的标签进行区分性标签平滑，同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练，通过反向传播算法更新识别模型，选取在步骤S1的验证集上识别正确率最优的模型最为最终训练好的识别模型。

其中，对图像相对应的标签进行区分性标签平滑，指根据模型输出的离散概率值和当前的训练阶段，对图像进行区分性的标签平滑，然后将平滑后的标签用以计算交叉熵损失函数值，其表达式如下：

式中，K是航空图像数据集中的总类别数目；

是第i个样本初始标签概率分布，即对于正确的标签类别

为1，其他情况则为0；

是由模型输出的离散概率分布，指模型对第i个样本在第k个类的预测概率。

与自然图像数据集相比，获取带注释的航空图像通常需要花费更大的代价，故航空图像数据集的规模普遍较小，这极易导致模型在训练数据上的过拟合。而传统的标签平滑虽然能在一定程度上缓解模型过拟合，但在数据集规模较小时会有模型欠拟合的风险。因此，通过提出平滑变量γ.(s)来控制平滑权重，根据模型训练阶段的变化赋予不同的平滑权重值。具体的，γ.(s)由两个平滑变量γ_hard(s)和γ_simple(s)构成，分别用以控制在不同训练阶段中，困难样本和简单样本各自的平滑权重，其表达式如下：

γ_simple(s)＝(γ_hard(s)+γ_bias)*0.5^(1+s/I)

其中，s∈{1…I}是当前训练的迭代次数，I为总迭代次数；γ_max是困难样本对应的平滑权重最大值，类似地，γ_min是最小值；γ_bias是困难样本和简单样本平滑权重的偏差值；

指平滑插值函数。其表达式如下：

其中，Comb：表示排列组合数，例如

是指不考虑取出顺序，从N+n个元素中取出n个元素的取出方式总数。N用于控制平滑的速率，本实施例中取1。

在第i个样本

属于困难或简单样本的划分中，根据模型输出的K个类的概率

当其中最大值大于0.8，次大值小于0.2时，认为其属于简单样本，否则，将其划分为困难样本。由此分别选择相对应的平滑函数计算以交叉熵损失函数值。

其中，所述同时采用交叉熵损失函数和区分性对比损失函数对模型进行训练，依下式计算总损失值L：

L＝L_CE+β*L_DCL

式中，L_CE为权利要求5所述交叉熵损失函数，L_DCL为区分性对比损失函数，β为权重系数，用于调节区分性对比损失函数的重要性。

其中，区分性对比损失函数，其表达式如下：

由于航空图像相比于自然图像具有更大的类内变化和类间相似性，即使是同类样本也存在一定差异，在随机增强后这种差异会进一步增强，因此，通过对同类图像是否由相同图像增强所得进一步区分，提出上述的区分性对比损失函数。具体的，B*M是训练集样本总数量，

是一个指示函数，当且仅当输入条件成立时为1。与样本

属于同类的样本中，S_i表示由同一图像增强的样本集合，C_i表示其他情况。

表示与样本

同类但由不同图像增强得到的样本

的点积占比，

表示与样本

同类且由相同图像增强得到的样本

的点积占比。τ>0是温度参数，ε(1≥ε>0)是相似度阈值。

步骤S5：将步骤S1的测试集图像输入训练好的识别模型中，根据模型的输出的预测类别与真实类别作比较，即得到最终的识别正确率。当模型识别正确率达到设定阈值时，将待识别图像输入航空图像识别模型进行识别；否则返回步骤S3)直至模型识别正确率达到设定阈值。

基于上述方法，本发明还提出一种基于ViT的航空图像识别计算机设备，其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令，其中所述处理器执行所述程序指令以实现上述一种基于ViT的航空图像识别方法中的步骤。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

应当理解的是，对本领域普通技术人员来说，可以根据本发明的原理和上述说明加以改进或变换，或将本发明所提供的方法应用到类似的航空图像识别任务，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于ViT的航空图像识别方法，其特征在于：所述方法包括如下步骤：

B为训练集的图像数目；

S3)构建基于ViT的航空图像识别模型；

S4)将所述训练集

2.根据权利要求1所述的一种基于ViT的航空图像识别方法，其特征在于：步骤S2)将输入的图像随机裁剪为224*224像素后进行随机地水平翻转，然后使用图像增强策略对图像进行增强，最终得到扩容后的训练集，记为

3.根据权利要求2所述的一种基于ViT的航空图像识别方法，其特征在于：步骤S2)中图像增强策略包括以下操作中的一种或多种组合：对图像进行归一化操作、按照顺序进行随机颜色失真和高斯模糊、自动增强、随机增强、每次随机选择一个图像增强操作，然后随机确定它的增强幅度，并对图像进行增强、随机从图像中擦除一个矩形区域而不改变图像的原始标签。

4.根据权利要求1所述的一种基于ViT的航空图像识别方法，其特征在于：步骤S3)中所述基于ViT的航空图像识别模型由编码器F(·)，分类头G(·)和仅用于训练阶段的投影头P(·)构成：