WO2020244261A1

WO2020244261A1 - 高分辨率遥感图像的场景识别***及模型生成方法

Info

Publication number: WO2020244261A1
Application number: PCT/CN2020/077889
Authority: WO
Inventors: 王永成; 张欣; 张n; 徐东don
Original assignee: 中国科学院长春光学精密机械与物理研究所
Priority date: 2019-06-05
Filing date: 2020-03-05
Publication date: 2020-12-10
Also published as: WO2020244261A8; CN110188725A

Abstract

一种高分辨率遥感图像的场景识别***及用于识别高分辨率遥感图像场景的模型生成方法。其中，***包括用于对遥感图像场景识别的IMFNet网络模型，IMFNet网络模型包括卷积层组件、池化层组件、Inception组件及全连接层组件；卷积层组件中的每个卷积层与池化层组件的池化层相互交替排列，用于提取输入遥感图像的浅层信息；Inception组件包括多个Inception模块，各Inception模块与池化层组件的池化层相连，用于提取遥感图像的高层信息；全连接层组件的各全连接层级联，以将各全连接层输出特征通过级联后输入至输出层组件。本申请实现了网络模型的自行学习，保证了特征信息的完整性，有效地提高了IMFNet网络模型识别目标的准确率。

Description

高分辨率遥感图像的场景识别***及模型生成方法

本申请要求于2019年6月5日提交至中国专利局、申请号为201910486629.4、发明名称为“高分辨率遥感图像的场景识别***及模型生成方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及遥感图像分类技术领域，特别是涉及一种高分辨率遥感图像的场景识别***及用于识别高分辨率遥感图像场景的模型生成方法。

背景技术

随着获取遥感图像数据能力的不断提高以及遥感数据成像方式的多样化发展，遥感图像数据呈现海量化和多元化的发展趋势，对遥感图像数据进行智能化、自动化的分析是大数据时代发展下的要求，在遥感图像数据分析过程中对遥感图像场景的识别和分类是一个不可避免的环节。

从抽象级别的方式上来讲，遥感图像场景分类经历了从像素到对象，再到语义场景的发展。20世纪70年代早期，卫星图像的空间分辨率较低，像素大小通常比感兴趣的目标更大，因此大多数的遥感图像分析的方式都是基于像素或者亚像素进行分析。随着遥感技术的发展，空间分辨率不断提高，单纯基于像素级别的场景分类遇到了瓶颈。因此，研究人员对遥感图像的“对象”层次进行描述与分析。虽然“对象”级比像素级分类方法性能要好，但是并未涉及到语义信息，因此研究人员开始对场景的语义层面进行理解分析。

在不同尺度以及方向上描述一个给定类别的遥感图像可能出现很大的变异性，随着遥感图像分类的细化，高类内变异性、低类间距离的问题越来越严重，如何实现基于语义类别的场景分类，是一个亟待解决的问题。

在对遥感图像进行分类时，相关技术通常采用共享的高分辨率可见光遥感图像数据集训练卷积神经网络来对遥感图像场景进行分类，但是由于目前共享的高分辨率遥感图像数据集中图像的数量较少，因此分类精度较低。

发明内容

本公开实施例提供了一种高分辨率遥感图像的场景识别***及用于识别高分辨率遥感图像场景的模型生成方法，有效地提高了高分辨遥感场景图像识别的准确率。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例一方面提供了一种高分辨率遥感图像的场景识别***，包括：

包括用于对遥感图像场景识别的IMFNet网络模型，所述IMFNet网络模型包括卷积层组件、池化层组件、Inception组件及全连接层组件；

所述卷积层组件中的每个卷积层与所述池化层组件的池化层相互交替排列，用于提取输入遥感图像的浅层信息；

所述Inception组件包括多个Inception模块，各Inception模块与所述池化层组件的池化层相连，用于提取所述遥感图像的高层信息；

所述全连接层组件的各全连接层级联，以将各全连接层输出特征通过级联后输入至输出层组件。

可选的，所述IMFNet网络模型包括4个卷积层、6个池化层、2个Inception模块及3个全连接层；且所述遥感图像的尺寸为256×256×3。

可选的，所述Inception组件包括第一Inception模块和第二Inception模块；

所述第一Inception模块包括第一分支、第二分支、第三分支和第四分支；所述第一分支包括卷积核尺寸为1*1的卷积层，所述第二分支为由卷积核尺寸为1*1、卷积核尺寸为5*5的两层卷积层构成，所述第三分支为由卷积核尺寸为1*1、卷积核尺寸为3*3的两层卷积层构成；所述第四分支为由步长为2的池化层和卷积核尺寸为1*1的卷积层构成；

所述第二Inception模块包括一分支、二分支、三分支和四分支；所述一分支包括卷积核尺寸为1*1的卷积层，所述二分支包括卷积核尺寸为1*1的卷积层的第一子分支、卷积核尺寸为1*5和5*1的两个平行卷积层构成的第二子分支，所述三分支为由卷积核尺寸为1*1的卷积层、卷积核尺寸为5*1的卷积层以及卷积核尺寸为1*3和3*1的两个平行卷积层构成；所述四分支为由步长为2的池化层和卷积核尺寸为1*1的卷积层构成。

可选的，所述IMFNet网络模型还包括数据集扩增模块，所述数据集扩增模块用于对包含多张共享的高分辨遥感图像的训练样本集进行样本图像扩增操作，所述数据集扩增模块包括：

标注框标注子模块，用于在样本图像上生成预设个数的标注框；

图像截取子模块，用于随机裁剪所述样本图像上各标注框中的图像部分，以生成多个包含图像内容不完全相同的子图像；

图像调整子模块，用于采用尺寸调整算法将各子图像的图像尺寸调整为所述IMFNet网络模型输入图像的尺寸。

可选的，所述图像调整单元还包括翻转单元和归一化单元；

所述翻转单元用于按照预设角度对每幅子图像进行翻转。

所述归一化单元用于将每幅子图像的亮度均值调整为0、方差调整为1。

可选的，所述全连接层组件的各全连接层均包括模型优化模块，所述模型优化模块用于采用Dropout算法随机删除所述IMFNet网络模型中的多个隐藏单元。

可选的，所述IMFNet网络模型的输出层组件包括Softmax分类器和损失函数模块；

所述损失函数模块用于利用参数范数正则化方法为交叉熵损失函数增加参数范数惩罚项IMFNet网络模型。

可选的，所述IMFNet网络模型的输出层组件还包括参数更新频率控制模块，所述参数更新频率控制模块用于利用预先构建的滑动平均模型通过不断更新衰减率来控制所述IMFNet网络模型变量更新的幅度。

可选的，所述IMFNet网络模型的输出层组件还包括参数优化模块，所述参数优化模块用于采用Adam算法优化所述IMFNet网络模型的参数权重。

本发明实施例另一方面提供了一种用于识别高分辨率遥感图像场景的模型生成方法，包括：

在预先搭建训练环境中构建用于对遥感图像场景识别的IMFNet网络模型的框架结构；所述IMFNet网络模型的卷积层与池化层相互交替排列，用于提取输入遥感图像的浅层信息，各Inception模块与池化层相连，用于提取所述遥感图像的高层信息，且各全连接层级联，以将各全连接层输出特征通过级联后输入至输出层组件；

利用训练样本集的高分辨率遥感图像训练所述IMFNet网络模型直至满足预设结束条件，得到训练好的IMFNet网络模型。

本申请提供的技术方案的优点在于，IMFNet网络模型包括用于提取高层信息特征的Inception组件，该组件无需人为地决定滤波器以及池化的选择，可实现IMFNet网络模型的自行学习，由于Inception组件为不同感受野的组合，既能够学习到微观特征又能学习到宏观特性，在不增加网络层数的情况下不仅实现了网络的自行学习，而且提高了IMFNet网络模型识别目标的准确率；此外，通过将全连接层的特征进行级联作为输出层的输入，从而使得不同层的特征所包含的语义信息可以相互补充，保证了特征信息的完整性，可进一步提高IMFNet网络模型识别目标的准确率。

此外，本发明实施例还针对高分辨率遥感图像的场景识别***提供了相应的用于识别高分辨率遥感图像的场景的模型生成方法，进一步使得所述***更具有可行性，所述模型生成方法具有相应的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚的说明本发明实施例或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开根据一示例性实施例示出的高分辨率遥感图像的场景识别***的结构框图；

图2为本公开根据另一示例性实施例示出的高分辨率遥感图像的场景识别***的结构图；

图3为本公开根据另一示例性实施例示出的模型优化过程示意图；

图4为本公开提供的对国际通用的SIRI-WHU数据集和UC Merced数据集进行训练测试所得到的测试准确率变化曲线；

图5为本公开提供的一种用于识别高分辨率遥感图像场景的模型生成方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种高分辨率遥感图像的场景识别***在一种实施例方式下的结构框图，该***可包括用于对遥感图像场景识别的IMFNet网络模型1，IMFNet网络模型1可包括输入层组件11、卷积层组件12、池化层组件13、Inception组件14、全连接层组件15以及输出层组件16。

本申请中，卷积层组件12中的每个卷积层与池化层组件13的池化层相互交替排列，用于提取输入遥感图像的浅层信息。也就是说，对于卷积层组件12中的每个卷积层均与池化层组件13中的池化层相连，利用池化层可对相应卷积层输出特征进行降维操作。

在本发明实施中，Inception组件14可包括多个Inception模块，各Inception模块与池化层组件13的池化层相连，由于Inception模块为不同感受野的组合，既能够学习到微观特征又能学习到宏观特性，还无需人为地决定滤波器以及池化的选择，实现了网络的自行学习，因此可采用Inception模块提取输入图像的高层信息。

可以理解的是，全连接层组件15的各全连接层级联，以将各全连接层输出特征通过级联后输入至输出层组件。也就是说，全连接层组件15采用多层特征融合方法，该方法可将包含高层语义信息的全连接层进行特征级联，再通过输出层进行特征分类，从而使得不同层的特征所包含的语义信息可以相互补充，从而提高分类的准确率。

在该实施例中，IMFNet网络模型的输入层组件11和输出层组件16的结构功能可参阅相关技术中卷积神经网络模型的输入层和输出层的相关描述，此处，便不再赘述。可选的，IMFNet网络模型的输入层组件11还可包括训练样本集主动读取模块，训练样本集主动读取模块用于采用队列或多线程方式从训练样本集中读取样本数据。

在本发明实施例提供的技术方案中，IMFNet网络模型包括用于提取高层信息特征的Inception组件，该组件无需人为地决定滤波器以及池化的选择，可实现IMFNet网络模型的自行学习，由于Inception组件为不同感受野的组合，既能够学习到微观特征又能学习到宏观特性，在不增加网络层数的情况下不仅实现了网络的自行学习，而且提高了IMFNet网络模型识别目标的准确率；此外，通过将全连接层的特征进行级联作为输出层的输入，从而使得不同层的特征所包含的语义信息可以相互补充，保证了特征信息的完整性，可进一步提高IMFNet网络模型识别目标的准确率。

目前，基于卷积神经网络的高分辨率遥感图像的场景识别的方法以迁移学习为主，即将基于大规模数据(如ImageNet)训练的预训练模型通过直接应用或微调的方式应用在遥感图像领域。但是为了深度学习的方法在遥感场景分类中的进一步发展，使用共享的高分辨率遥感图像数据集构建新的卷积神经网络模型具有一定的必要性。尽管遥感图像的数据量日益增长，但是目前具有标签信息的国际共享遥感图像数据集的数据量依然很少，而训练一个新的卷积神经网络模型通常需要大量的数据，由于高分辨率遥感图像中的物体随机分布在图像中，本申请提供在有限样本基础上可进行多视角多尺度拉伸的策略，从而实现了训练样本数据集的扩增，解决了目前共享的高分辨率遥感图像数据集中数据量的限制。IMFNet网络模型可包括数据集扩增模块，数据集扩增模块用于对包含多张共享的高分辨遥感图像的训练样本集进行样本图像扩增操作，数据集扩增模块包括：

标注框标注子模块，用于在样本图像上生成预设个数的标注框。举例来说，例如可采用两个不同大小的标注框在图像上进行标注，从而实现提取不同视角不同尺寸的图像信息。

图像截取子模块，用于随机裁剪样本图像上各标注框中的图像部分，以生成多个包含图像内容不完全相同的子图像。举例来说，对于每个标注框中的图像，可随机裁剪任意部分的图像，例如裁剪40％的信息内容。

图像调整子模块，用于采用尺寸调整算法将各子图像的图像尺寸调整为IMFNet网络模型输入图像的尺寸。尺寸调整算法例如可为插值算法，如双线性插值法、最近邻插值法、双三次插值法、面积插值法等。举例来说，输入图像的尺寸可为256*256*3，可利用不同的插值算法或同时使用多种插值算法将各子图像的尺寸拉伸为256*256*3。

在另外一种实施方式中，图像调整子模块例如还可包括翻转单元和归一化单元。

其中，翻转单元可用于按照预设角度对每幅子图像进行翻转。图像翻转不会影响模型识别的结果，但是，不同角度描述同一张图像，尽可能多的保留图像的细节信息，有利于提升模型训练精度。故可以以50％概率左右翻转得到的各个子图像，使得训练样本集中的样本图像更具有多样性。为了便于后续图像数据处理，还可通过归一化单元用于对每幅子图像的亮度进行归一化处理。例如可对图像进行标准化操作，将每幅子图像的亮度均值变为0，方差变为1，如公式(1)及公式(2)所示：

式中，X为图像矩阵，μ为图像均值，σ为标准方差，N为X图像的像素数目。

需要说明的是，本申请提供的多视角多尺度拉伸训练样本集与裁剪图像的四角及中心并进行旋转从而扩增数据集的方法不同，本申请随机裁剪标注框的不同部位，并且随机采用了尺寸调整算法，如插值方法将裁剪的图像拉伸为网络的输入大小，然后进行左右翻转。不仅能够扩大数据集的数量，采用插值算法对裁剪得到各子图像进行拉伸，插值的过程相当于加入噪声，提高了模型的鲁棒性，从而提高构建的卷积神经网络模型的泛化能力。

由上可知，本发明实施例依次对训练样本集中的每个样本图像进行标注框标注、随机裁剪、随机拉伸、随机翻转、图像归一化操作，一方面扩增了数据集，使网络能够学习到不同视角的遥感图像；另一方面在拉伸操作中通过引入噪声，从而提高模型的鲁棒性。

为了便于本领域技术人员更加清楚明白本申请提供的技术方案，本申请还提供了一种示意性的IMFNet网络模型1结构，请参阅图2，可包括：

IMFNet网络模型1可包括1个输入层，4个卷积层、6最大池化层、2个Inception模块、3个全连接层以及1个输出层。网络模型的输入层的输入可为256×256×3的图片，IMFNet网络模型1的前几层可采用传统的卷积层及最大池化层相互交替的方法提取浅层特征。其中，前三个卷积层均采用了5×5的卷积核进行较大特征的提取，第四个卷积层采用了3×3的卷积核对较为精细的特征进行提取。第一个Inception模块为Inception V1模型中的模块，该模块由四个分支组成；第二个Inception模块为Inception V3模型模块的改进版，该模块第三个分支比Inception V1模块多一个卷积层，能够提取更加精细的特征。其中，过滤器Concat表示将通过卷积操作得到的特征图按深度连接起来。本申请还对全连接层及输出层采用了多层特征融合方法，可通过将三个全连接层的特征进行级联作为输出层的输入，从而使得不同层的特征所包含的语义信息可以相互补充，在一定程度上保证了信息的完整性，能够提高分类的准确率。IMFNet网络模型1的输出层可采用Softmax分类器进行分类，输出的大小取决于待分类遥感场景的类别数。

具体的，在图2所示的IMFNet网络模型1中，Inception组件14可包括第一Inception模块和第二Inception模块；

第一Inception模块包括第一分支、第二分支、第三分支和第四分支；第一分支包括卷积核尺寸为1*1的卷积层，第二分支为由卷积核尺寸为1*1、卷积核尺寸为5*5的两层卷积层构成，第三分支为由卷积核尺寸为1*1、卷积核尺寸为3*3的两层卷积层构成；第四分支为由步长为2的池化层和卷积核尺寸为1*1的卷积层构成；

第二Inception模块包括一分支、二分支、三分支和四分支；一分支包括卷积核尺寸为1*1的卷积层，二分支包括卷积核尺寸为1*1的卷积层的第一子分支、卷积核尺寸为1*5和5*1的两个平行卷积层构成的第二子分支，三分支为由卷积核尺寸为1*1的卷积层、卷积核尺寸为5*1的卷积层以及卷积核尺寸为1*3和3*1的两个平行卷积层构成；四分支为由步长为2的池化层和卷积核尺寸为1*1的卷积层构成。

可以理解的是，IMFNet网络模型1的训练过程中，在数据量太少、模型参数过多的情况下，容易产生过拟合问题。基于此，请参阅图3所示，对IMFNet网络模型1可采用Dropout策略、参数范数惩罚正则化的方法来防止过拟合，并采用滑动平均模型使得模型更加健壮。

其中，全连接层组件15的各全连接层均包括模型优化模块，如图2所示，模型优化模块用于采用Dropout算法随机删除IMFNet网络模型1中的多个隐藏单元。Dropout算法可在每次丢掉一部分的隐藏层的神经元，相当于每次在不同的网络上进行训练，进而有效地减少了神经元之间的相互依赖性。在全连接部分加入了Dropout策略，可有效地减弱网络神经元的互适应性及过拟合问题，从而提高了模型的泛化能力。

可选的，IMFNet网络模型1的输出层组件16还可包括参数更新频率控制模块，参数更新频率控制模块可用于利用预先构建的滑动平均模型通过不断更新衰减率来控制IMFNet网络模型变量更新的幅度。滑动平均模型通过不断更新衰减率来控制变量更新的幅度，从而使得训练初期模型更新较快，在训练后期模型也就是接近最优值时更新较慢，有利于提高IMFNet网络模型1的健壮性。滑动平均模型的衰减率和参数更新可如公式(3)和公式(4)：

shadow_var＝decay×shadow_var+(1-decay)×var。(4)

式中，init_decay为设置的初始衰减率，num_update为更新次数，var为待更新变量，shadow_var为变量更新后的数值，也可称为影子变量。

需要说明的是，滑动平均模型可在模型训练过程以及模型验证评估过程均有应用。在模型训练阶段，可为每个可训练的权重维护影子变量，并随着迭代的进行更新；在模型验证评估阶段，可使用影子变量替代真实变量值，进行分类预测。

在其他一些实施方式中，IMFNet网络模型1的输出层组件16还可包括Softmax分类器和损失函数模块。损失函数模块可用于利用参数范数正则化方法为损失函数增加参数范数惩罚项，可采用任何一种损失函数，例如交叉熵损失函数，本申请对此不做任何限定。参数范数正则化通过向目标函数中加入参数范数惩罚项来限制权重的大小，使得模型不能任意拟合训练数据中的随机噪声，进一步地优化模型，提高IMFNet网络模型的目标识别准确率。具体来说，参数范数正则化为在损失函数中J(W,b)加入刻画模型复杂程度的指标R(W)，通过优化J(W,b)+λR(W)进而限制权重W的大小，从而使得模型不能任意拟合训练数据中的随机噪声。采用不同的参数度量R(W)会产生不同的正则化效果，常用的参数度量正则化的方法包括L1范数正则化和L2范数正则化。本发明采用了L2范数正则化，如公式下式所示。

此外，IMFNet网络模型1的输出层组件16还可包括参数优化模块，参数优化模块用于采用Adam算法优化IMFNet网络模型1的参数权重。基于mini-batch的Adam优化算法(adaptive moment estimatio，适应性矩估计)进行梯度下降操作，可采用反向传播算法实现迭代过程，例如可设置迭代次数为100000次，有利于进一步提升IMFNet网络模型1的目标识别准确率。

可选的，可将已有的高分辨遥感样本图像按照4：1分为训练样本和测试样本，从而生成训练样本集和测试样本集。可利用训练样本集的二进制文件来对IMFNet网络模型进行训练，并使用测试样本集对训练好的IMFNet网络模型进行测试，在测试过程中可采用测试集在训练好的模型上每隔10s加载一次测试结果，从而完成高分辨率遥感图像的场景识别分类任务。

在一种实施方式中，可在两个国际通用的高分辨率遥感图像数据集，如UC Merced数据集以及SIRI-WHU数据集上进行模型训练及验证评价，UC Merced数据集中每幅图像的像素为256×256，空间分辨率为30cm，共21类图像，每类图像100幅。SIRI-WHU数据集中每幅图像的像素为200×200，空间分辨率为2m，共12类图像，每类图像200幅。最后采用准确率、精确度、召回率及F1值评价指标对IMFNet网络模型的识别结果进行评价。对于一组个数为M，正例样本为P个，负例样本为N个的样本分类识别问题，可以将样例根据真实类别与学习器预测类别的组合划分为真正例(TP)、假正例(FP)、真负例(TN)、假负例(FN)四种情形，如表1所示。

表1 分类问题的四种情形

其中，真正例为判断为正例的正例，假负例为判断为负例的正例，则正例P的个数为：

P＝TP+FN；

同理，真负例为判断为负例的负例，假正例为判断为正例的负例，则负例N的个数为：

N＝TN+FP；

准确率为判断正确的例子的比例，计算公式为：

accuracy＝TP/(P+N)；

精确度为所有判断为正例的例子中，真正为正例所占的比例，计算公式为：。

precision＝TP/(TP+FP)；

召回率为所有正例中，被判断为正例的比例，计算公式为：

recall＝TP/(TP+FN)；

F1值为精确率与召回率的综合评价指标，计算公式为：

F1＝2×precison×recall/(precision+recall)。

从图4中可以看出，UC Merced数据集的分类准确率已经达到92.14％，SIRI-WHU数据集的分类准确率也已经达到90.43％，从而可证明了本申请提供的技术方案具有一定的可行性，而且还有较高的准确度。

本发明实施例还针对高分辨率遥感图像的场景识别***提供了相应的识别场景模型生成方法，进一步使得***更具有可行性。下面对本发明实施例提供的用于识别高分辨率遥感图像场景的模型生成方法进行介绍，下文描述的用于识别高分辨率遥感图像场景的模型生成方法与上文描述的高分辨率遥感图像的场景识别***可相互对应参照。

请参见图5，图5为本发明实施例提供的一种用于识别高分辨率遥感图像场景的模型生成方法的流程示意图，本发明实施例可包括以下内容：

S501：在预先搭建训练环境中构建用于对遥感图像场景识别的IMFNet网络模型的框架结构。

IMFNet网络模型的卷积层与池化层相互交替排列，用于提取输入遥感图像的浅层信息，各Inception模块与池化层相连，用于提取遥感图像的高层信息，且各全连接层级联，以将各全连接层输出特征通过级联后输入至输出层组件。

S502：利用训练样本集的高分辨率遥感图像训练IMFNet网络模型直至满足预设结束条件，得到训练好的IMFNet网络模型。

可以理解的是，在训练IMFNet网络模型之前，需要预先搭建软硬件环境。一种实施方式中，本实施例中的硬件平台可为基于Intel E5 2665双核处理器，4路GTX1080Ti GPU，32G内存。软件平台可为基于Ubantu16.04版本，采用CUDA 8.0.61、CUDNN v6以及TensorFlow1.4.0环境。其中，TensorFlow为开放源代码软件库，用于进行高性能数值计算，可将复杂的数据结构传输至人工智能神经网中进行分析和处理。凭借其灵活的架构，可轻松地将计算工作部署到多种平台(如CPU、GPU、TPU)和设备(桌面设备、服务器等)，被广泛用于语音识别或图像识别等机器深度学习领域。

还需要说明的是，训练样本集或测试样本集中的图像格式要与所搭建的软件环境中使用的计算软件保持一致。例如采用TensorFlow软件时，需要将训练样本集或测试样本集中的图像格式转化为TFRecord格式，然后可通过队列以及多线程方式对该二进制文件进行读取。可选的，可将训练样本集中的单个训练样本图像分批作为IMFNet网络模型的输入，批的大小可设为64。

本发明实施例所述用于识别高分辨率遥感图像场景的模型生成方法的各步骤的具体实现过程可参阅上述***实施例中的各功能模块的相关描述，此处不再赘述。

由上可知，本发明实施例实现了网络模型的自行学习，保证了特征信息的完整性，有效地提高了IMFNet网络模型识别目标的准确率。

本发明实施例还提供了一种用于识别高分辨率遥感图像场景的模型生成设备，具体可包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序以实现如上任意一实施例所述用于识别高分辨率遥感图像场景的模型生成方法的步骤。

本发明实施例所述用于识别高分辨率遥感图像场景的模型生成设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，存储有用于识别高分辨率遥感图像场景的模型生成程序，所述用于识别高分辨率遥感图像场景的模型生成程序被处理器执行时如上任意一实施例所述用于识别高分辨率遥感图像场景的模型生成方法的步骤。

本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种高分辨率遥感图像的场景识别***及用于识别高分辨率遥感图像场景的模型生成方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

一种高分辨率遥感图像的场景识别***，其特征在于，包括用于对遥感图像场景识别的IMFNet网络模型，所述IMFNet网络模型包括卷积层组件、池化层组件、Inception组件及全连接层组件；

所述卷积层组件中的每个卷积层与所述池化层组件的池化层相互交替排列，用于提取输入遥感图像的浅层信息；

所述Inception组件包括多个Inception模块，各Inception模块与所述池化层组件的池化层相连，用于提取所述遥感图像的高层信息；

所述全连接层组件的各全连接层级联，以将各全连接层输出特征通过级联后输入至输出层组件。
根据权利要求1所述的高分辨率遥感图像的场景识别***，其特征在于，所述IMFNet网络模型包括4个卷积层、6个池化层、2个Inception模块及3个全连接层；且所述遥感图像的尺寸为256×256×3。
根据权利要求2所述的高分辨率遥感图像的场景识别***，其特征在于，所述Inception组件包括第一Inception模块和第二Inception模块；

所述第一Inception模块包括第一分支、第二分支、第三分支和第四分支；所述第一分支包括卷积核尺寸为1*1的卷积层，所述第二分支为由卷积核尺寸为1*1、卷积核尺寸为5*5的两层卷积层构成，所述第三分支为由卷积核尺寸为1*1、卷积核尺寸为3*3的两层卷积层构成；所述第四分支为由步长为2的池化层和卷积核尺寸为1*1的卷积层构成；

所述第二Inception模块包括一分支、二分支、三分支和四分支；所述一分支包括卷积核尺寸为1*1的卷积层，所述二分支包括卷积核尺寸为1*1的卷积层的第一子分支、卷积核尺寸为1*5和5*1的两个平行卷积层构成的第二子分支，所述三分支为由卷积核尺寸为1*1的卷积层、卷积核尺寸为5*1的卷积层以及卷积核尺寸为1*3和3*1的两个平行卷积层构成；所述四分支为由步长为2的池化层和卷积核尺寸为1*1的卷积层构成。
根据权利要求1至3任意一项所述的高分辨率遥感图像的场景识别***，其特征在于，所述IMFNet网络模型还包括数据集扩增模块，所述数据集扩增模块用于对包含多张共享的高分辨遥感图像的训练样本集进行样本图像扩增操作，所述数据集扩增模块包括：

标注框标注子模块，用于在样本图像上生成预设个数的标注框；

图像截取子模块，用于随机裁剪所述样本图像上各标注框中的图像部分，以生成多个包含图像内容不完全相同的子图像；

图像调整子模块，用于采用尺寸调整算法将各子图像的图像尺寸调整为所述IMFNet网络模型输入图像的尺寸。
根据权利要求4所述的高分辨率遥感图像的场景识别***，其特征在于，所述图像调整单元还包括翻转单元和归一化单元；

所述翻转单元用于按照预设角度对每幅子图像进行翻转；

所述归一化单元用于将每幅子图像的亮度均值调整为0、方差调整为1。
根据权利要求4所述的高分辨率遥感图像的场景识别***，其特征在于，所述全连接层组件的各全连接层均包括模型优化模块，所述模型优化模块用于采用Dropout算法随机删除所述IMFNet网络模型中的多个隐藏单元。
根据权利要求6所述的高分辨率遥感图像的场景识别***，其特征在于，所述IMFNet网络模型的输出层组件包括Softmax分类器和损失函数模块；

所述损失函数模块用于利用参数范数正则化方法为交叉熵损失函数增加参数范数惩罚项IMFNet网络模型。
根据权利要求7所述的高分辨率遥感图像的场景识别***，其特征在于，所述IMFNet网络模型的输出层组件还包括参数更新频率控制模块，所述参数更新频率控制模块用于利用预先构建的滑动平均模型通过不断更新衰减率来控制所述IMFNet网络模型变量更新的幅度。
根据权利要求8所述的高分辨率遥感图像的场景识别***，其特征在于，所述IMFNet网络模型的输出层组件还包括参数优化模块，所述参数优化模块用于采用Adam算法优化所述IMFNet网络模型的参数权重。
一种用于识别高分辨率遥感图像场景的模型生成方法，其特征在于，包括：

在预先搭建训练环境中构建用于对遥感图像场景识别的IMFNet网络模型的框架结构；所述IMFNet网络模型的卷积层与池化层相互交替排列，用于提取输入遥感图像的浅层信息，各Inception模块与池化层相连，用于提取所述遥感图像的高层信息，且各全连接层级联，以将各全连接层输出特征通过级联后输入至输出层组件；

利用训练样本集的高分辨率遥感图像训练所述IMFNet网络模型直至满足预设结束条件，得到训练好的IMFNet网络模型。