CN115471765A

CN115471765A - 一种航拍图像的语义分割方法、装置、设备及存储介质

Info

Publication number: CN115471765A
Application number: CN202211359202.6A
Authority: CN
Inventors: 李新宇; 程昱; 方毅; 文龙
Original assignee: Guangzhou University Town Guangong Science And Technology Achievement Transformation Center; Guangdong University of Technology
Current assignee: Guangzhou University Town Guangong Science And Technology Achievement Transformation Center; Guangdong University of Technology
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2022-12-13
Anticipated expiration: 2042-11-02
Also published as: CN115471765B

Abstract

本申请公开了一种航拍图像的语义分割方法、装置、设备及存储介质，方法包括：基于无人机航拍图像获取预置航拍图像序列；通过预设语义分割模型中的预置编码器对预置航拍图像序列进行编码操作，得到航拍编码序列；预设语义分割模型包括浅层跳跃连接和深层空洞残差连接，预置编码器包括2D位置注意力机制和多头自注意力机制；采用预设语义分割模型中的预置解码器对航拍编码序列进行解码操作，得到语义分割结果。本申请能够解决现有技术存在精确度较差，且复杂度提升的问题，导致航拍图像的语义分割效率较差的技术问题。

Description

一种航拍图像的语义分割方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种航拍图像的语义分割方法、装置、设备及存储介质。

背景技术

目前大多数基于Transformer的航拍图像分割方法都是直接采用视觉Transformer中的1D位置编码方法，来为Transformer提供其缺失的输入tokens（图像块）的位置信息。而这些1D位置编码方法最初都是针对自然语言处理任务中的1D词序列输入所设计的，因此用其来记录输入tokens在2D图片中的位置显然是不合适的。

现有技术中的相对位置编码方法的提出虽然能够缓解上述问题，但是仍然存在多对一映射带来的精确度下降，引入参数造成的复杂度上升的问题，导致语义分割模型在处理高分辨率航拍图像时效率较差。

发明内容

本申请提供了一种航拍图像的语义分割方法、装置、设备及存储介质，用于解决现有技术存在精确度较差，且复杂度提升的问题，导致航拍图像的语义分割效率较差的技术问题。

有鉴于此，本申请第一方面提供了一种航拍图像的语义分割方法，包括：

基于无人机航拍图像获取预置航拍图像序列；

通过预设语义分割模型中的预置编码器对所述预置航拍图像序列进行编码操作，得到航拍编码序列；

所述预设语义分割模型包括浅层跳跃连接和深层空洞残差连接，所述预置编码器包括2D位置注意力机制和多头自注意力机制；

采用所述预设语义分割模型中的预置解码器对所述航拍编码序列进行解码操作，得到语义分割结果。

优选地，所述基于无人机航拍图像获取预置航拍图像序列，包括：

通过无人机获取无人机航拍图像；

将所述无人机航拍图像进行N等份均匀切分操作，得到多个图像块，所述N取正整数；

将所述图像块基于像素逐行展开后排成一维序列，得到预置航拍图像序列。

优选地，所述通过预设语义分割模型中的预置编码器对所述预置航拍图像序列进行编码操作，得到航拍编码序列，之前还包括：

基于多头自注意力机制和2D位置注意力机制，根据预设特征融合网络构建Transformer网络层；

通过串行多个Transformer网络层生成预置编码器；

采用预设连接结构连接所述预置编码器和预置解码器，得到预设语义分割模型，所述预设连接结构包括浅层跳跃连接和深层空洞残差连接。

优选地，所述采用预设连接结构连接所述预置编码器和预置解码器，得到预设语义分割模型，之后还包括：

采用预设微调训练图像集对所述预设语义分割模型进行微调训练，实现模型参数优化。

本申请第二方面提供了一种航拍图像的语义分割装置，包括：

获取模块，用于基于无人机航拍图像获取预置航拍图像序列；

编码模块，用于通过预设语义分割模型中的预置编码器对所述预置航拍图像序列进行编码操作，得到航拍编码序列；

解码模块，用于采用所述预设语义分割模型中的预置解码器对所述航拍编码序列进行解码操作，得到语义分割结果。

优选地，所述获取模块，具体用于：

通过无人机获取无人机航拍图像；

优选地，还包括：

构建模块，用于基于多头自注意力机制和2D位置注意力机制，根据预设特征融合网络构建Transformer网络层；

生成模块，用于通过串行多个Transformer网络层生成预置编码器；

连接模块，用于采用预设连接结构连接所述预置编码器和预置解码器，得到预设语义分割模型，所述预设连接结构包括浅层跳跃连接和深层空洞残差连接。

优选地，还包括：

微调模块，用于采用预设微调训练图像集对所述预设语义分割模型进行微调训练，实现模型参数优化。

本申请第三方面提供了一种航拍图像的语义分割设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的航拍图像的语义分割方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的航拍图像的语义分割方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种航拍图像的语义分割方法，包括：基于无人机航拍图像获取预置航拍图像序列；通过预设语义分割模型中的预置编码器对预置航拍图像序列进行编码操作，得到航拍编码序列；预设语义分割模型包括浅层跳跃连接和深层空洞残差连接，预置编码器包括2D位置注意力机制和多头自注意力机制；采用预设语义分割模型中的预置解码器对航拍编码序列进行解码操作，得到语义分割结果。

本申请提供的航拍图像的语义分割方法，采用融合了2D位置注意力机制和多头自注意力机制的编码器记录图像的相对位置信息，提高模型捕获空间信息的能力，而在深层网络中引入空洞残差连接可以提高深层特征图的有效感受野；模型整体并未引入过多参数，可以避免加深算法复杂度；而且模型中的网络层根据图像特性进行针对性的改进可以提高分割结果的精确度。因此，本申请能够解决现有技术存在精确度较差，且复杂度提升的问题，导致航拍图像的语义分割效率较差的技术问题。

附图说明

图1为本申请实施例提供的一种航拍图像的语义分割方法的流程示意图；

图2为本申请实施例提供的一种航拍图像的语义分割装置的结构示意图；

图3为本申请实施例提供的预置航拍图像序列转换过程示意图；

图4为本申请实施例提供的预设语义分割模型框架示意图；

图5为本申请实施例提供的预置编码器中的注意力机制网络结构示意图；

图6为本申请实施例提供的深层空洞残差连接的网络结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

术语解释：

Transformer：是一种完全基于自注意力机制的深度学习模型。更准确地讲，Transformer由且仅由multi-head self-attenion和Feed Forward Neural Network组成。其最初是在自然语言处理领域被提出的，用来处理1维的词序列。后因其强大的捕获全局语义交互的能力被引入到计算机视觉领域处理2D图片输入。

Tokens：对于自然语义处理（NLP）任务，Transformer的输入是1维的词序列，故一个单词向量为一个token；而对于计算机视觉（CV）任务，输入图片需要被切分成相等大小的图像块，并被逐行展开然后排列成1个1维的图像块序列，再送进Transformer进行训练。故一个图像块就是一个token。

感受野：被定义为卷积神经网络特征所能看到输入图像的区域，换句话说特征输出受感受野区域内的像素点的影响。

语义分割：为图片中的每个像素分配其所属类别标签，每个类的标签用不同颜色区分。

为了便于理解，请参阅图1，本申请提供的一种航拍图像的语义分割方法的实施例，包括：

步骤101、基于无人机航拍图像获取预置航拍图像序列。

进一步地，步骤101，包括：

通过无人机获取无人机航拍图像；

将无人机航拍图像进行N等份均匀切分操作，得到多个图像块，N取正整数；

将图像块基于像素逐行展开后排成一维序列，得到预置航拍图像序列。

无人机航拍图像场景多样，且环境复杂，所以在获取到无人机航拍图像后可以对其进行各种预处理操作，从不同方面提升图像的质量，便于后续的图像处理。

可以理解的是，N等份切分得到的图像块属于二维数据，而Transformer网络构成的模型输入是1维序列，所以需要将图像块进行序列化转换，即将图像块基于像素逐行展开，然后排成1维序列，具体请参阅图3；也可以是逐列展开，再排成1维序列，都可以得到预置航拍图像序列。

步骤102、通过预设语义分割模型中的预置编码器对预置航拍图像序列进行编码操作，得到航拍编码序列。

预设语义分割模型包括浅层跳跃连接和深层空洞残差连接，预置编码器包括2D位置注意力机制和多头自注意力机制。

预设语义分割模型主要由预置编码器、预置解码器、浅层跳跃连接和深层空洞残差连接构成，其中预置编码器中融合2D位置注意力机制和多头自注意力机制，可以捕获全局语义信息和图像块之间的2D相对位置信息，提升图像特征的空间表达能力。而且，本实施例中采用的2D位置注意力机制可以手动调节有效范围以适应不同阶段的特征图特点；所以针对各阶段特征图的特点还可以调节位置信息的关注范围，更加灵活可靠，能够提升图像处理的精确度。其中预置解码器则是与预置编码器匹配，采用逐级上采样的机制进行解码，实现图像语义分割。其中深层空洞残差连接可以扩大深层特征图的有效感受野，更好的捕获全局信息。

进一步地，步骤102，之前还包括：

通过串行多个Transformer网络层生成预置编码器；

采用预设连接结构连接预置编码器和预置解码器，得到预设语义分割模型，预设连接结构包括浅层跳跃连接和深层空洞残差连接。

进一步地，采用预设连接结构连接预置编码器和预置解码器，得到预设语义分割模型，之后还包括：

采用预设微调训练图像集对预设语义分割模型进行微调训练，实现模型参数优化。

请参阅图4，预置编码器由Transformer模块构成，且本实施例中的每个Transformer块包括2个连续的Transformer网络层和一个重叠的融合模块，每个Transformer网络层中又嵌入了多头自注意力机制和2D位置注意力机制，具体请参阅图5，两种注意力机制得到的结果可以采用加权求和的方式整合，这个可以通过融合模块实现，并进行下采样操作降低块序列的长度。

预置编码器和预置解码器之间的连接除了原有的浅层跳跃连接，还包括深层空洞残差连接；前者可以获取更加丰富的浅层细节特征，后者可以扩大深层特征感受野，二者共同提升网络对图像特征的表达能力。

具体的，请参阅图5，其中N表示序列长度，C表示通道数，R表示缩减倍数，

是一个可训练的权重。通过对tokens序列线性投影得到query(q)、key(k)和value(v)；为了降低计算消耗和模型的参数量，使用卷积对k和v做序列缩减操作；然后由如下公式计算得到语义注意力：

其中SA为语义注意力，即多头自注意力参数矩阵，是一个mask矩阵，且矩阵所有元素取值0-1，

为归一化函数，

、

、

分别为多头自注意力线性投影得到的结果query(q)、key(k)和value(v)，是同一个图像序列投影得到的3个维度相同的向量，

为一个缩放因子。

此外，在2D位置注意力机制的网络层中，获取图像序列tokens在2D空间的坐标矩阵，然后基于如下公式计算点

和点

坐标之间的欧式距离：

其中，

为

坐标，

为

坐标。由于一个tokens序列，其周围的tokens序列重要于远处的序列，所以可以通过高斯函数映射相对距离之间的对应关系：

其中，

为距离序列缩放结果，R表示序列缩减因子，针对本实施例中的4个Transformer模块可以分别由浅入深的设置8、4、2、1的因子值，

、

分别是图像序列在序列长度压缩前后的2D位置坐标矩阵，前者尺寸为N×2，后者尺寸为

，

为高斯函数的输入，

为高斯函数的标准差，本实施例中的高斯函数均值为0。

接着可以在sfotmax网络层计算出2D位置注意力权重，并基于权重计算注意力加权和：

其中，

是位置注意力，

为注意力加权和。

由于浅层跳跃连接结构是编码解码网络中常见的结构，是直接将编码器对应阶段的特征图直接传递到解码器对应阶段，用来提供因连续下采样操作损失的细节信息，在此不作赘述。针对空洞残差连接结构，请参阅图6，其中，BN表示Batch normalization，ReLU为激活函数，rate为空洞卷积的膨胀率。通过两层连续的空洞卷积层扩大感受野，使用残差连接保留原本的特征图，这就是深层空洞残差连接结构的作用原理，可以理解的是，特征图从图6底部输入，顶部输出。

设微调训练图像集也是航拍图像，该数据集一般较小，仅用作微调已经构建好且经过预训练的模型，本实施例中的预设语义分割模型除了2D位置注意力机制、空洞残差连接和解码器未经过预训练，其他的Transformer原有保留结构，例如多头自注意力机制和浅层跳跃连接结构等均经过预训练；对预设语义分割模型进行微调是为了优化模型中的个别参数，提升模型的性能，例如精确度和可靠性。

步骤103、采用预设语义分割模型中的预置解码器对航拍编码序列进行解码操作，得到语义分割结果。

本申请实施例提供的航拍图像的语义分割方法，采用融合了2D位置注意力机制和多头自注意力机制的编码器记录图像的相对位置信息，提高模型捕获空间信息的能力，而在深层网络中引入空洞残差连接可以提高深层特征图的有效感受野；模型整体并未引入过多参数，可以避免加深算法复杂度；而且模型中的网络层根据图像特性进行针对性的改进可以提高分割结果的精确度。因此，本申请实施例能够解决现有技术存在精确度较差，且复杂度提升的问题，导致航拍图像的语义分割效率较差的技术问题。

为了便于理解，请参阅图2，本申请提供了一种航拍图像的语义分割装置的实施例，包括：

获取模块201，用于基于无人机航拍图像获取预置航拍图像序列；

编码模块202，用于通过预设语义分割模型中的预置编码器对预置航拍图像序列进行编码操作，得到航拍编码序列；

预设语义分割模型包括浅层跳跃连接和深层空洞残差连接，预置编码器包括2D位置注意力机制和多头自注意力机制；

解码模块203，用于采用预设语义分割模型中的预置解码器对航拍编码序列进行解码操作，得到语义分割结果。

进一步地，获取模块201，具体用于：

通过无人机获取无人机航拍图像；

进一步地，还包括：

构建模块204，用于基于多头自注意力机制和2D位置注意力机制，根据预设特征融合网络构建Transformer网络层；

生成模块205，用于通过串行多个Transformer网络层生成预置编码器；

连接模块206，用于采用预设连接结构连接预置编码器和预置解码器，得到预设语义分割模型，预设连接结构包括浅层跳跃连接和深层空洞残差连接。

进一步地，还包括：

微调模块207，用于采用预设微调训练图像集对预设语义分割模型进行微调训练，实现模型参数优化。

本申请还提供了一种航拍图像的语义分割设备，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行上述方法实施例中的航拍图像的语义分割方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行上述方法实施例中的航拍图像的语义分割方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（英文全称：Read-OnlyMemory，英文缩写：ROM）、随机存取存储器（英文全称：Random Access Memory，英文缩写：RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种航拍图像的语义分割方法，其特征在于，包括：

基于无人机航拍图像获取预置航拍图像序列；

2.根据权利要求1所述的航拍图像的语义分割方法，其特征在于，所述基于无人机航拍图像获取预置航拍图像序列，包括：

通过无人机获取无人机航拍图像；

3.根据权利要求1所述的航拍图像的语义分割方法，其特征在于，所述通过预设语义分割模型中的预置编码器对所述预置航拍图像序列进行编码操作，得到航拍编码序列，之前还包括：

通过串行多个Transformer网络层生成预置编码器；

4.根据权利要求3所述的航拍图像的语义分割方法，其特征在于，所述采用预设连接结构连接所述预置编码器和预置解码器，得到预设语义分割模型，之后还包括：

5.一种航拍图像的语义分割装置，其特征在于，包括：

6.根据权利要求5所述的航拍图像的语义分割装置，其特征在于，所述获取模块，具体用于：

通过无人机获取无人机航拍图像；

7.根据权利要求5所述的航拍图像的语义分割装置，其特征在于，还包括：

8.根据权利要求7所述的航拍图像的语义分割装置，其特征在于，还包括：

9.一种航拍图像的语义分割设备，其特征在于，所述设备包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的航拍图像的语义分割方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的航拍图像的语义分割方法。