CN115471765A - 一种航拍图像的语义分割方法、装置、设备及存储介质 - Google Patents

一种航拍图像的语义分割方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115471765A
CN115471765A CN202211359202.6A CN202211359202A CN115471765A CN 115471765 A CN115471765 A CN 115471765A CN 202211359202 A CN202211359202 A CN 202211359202A CN 115471765 A CN115471765 A CN 115471765A
Authority
CN
China
Prior art keywords
preset
semantic segmentation
aerial
image
aerial image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211359202.6A
Other languages
English (en)
Other versions
CN115471765B (zh
Inventor
李新宇
程昱
方毅
文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University Town Guangong Science And Technology Achievement Transformation Center
Guangdong University of Technology
Original Assignee
Guangzhou University Town Guangong Science And Technology Achievement Transformation Center
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University Town Guangong Science And Technology Achievement Transformation Center, Guangdong University of Technology filed Critical Guangzhou University Town Guangong Science And Technology Achievement Transformation Center
Priority to CN202211359202.6A priority Critical patent/CN115471765B/zh
Publication of CN115471765A publication Critical patent/CN115471765A/zh
Application granted granted Critical
Publication of CN115471765B publication Critical patent/CN115471765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30181Earth observation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种航拍图像的语义分割方法、装置、设备及存储介质,方法包括:基于无人机航拍图像获取预置航拍图像序列;通过预设语义分割模型中的预置编码器对预置航拍图像序列进行编码操作,得到航拍编码序列;预设语义分割模型包括浅层跳跃连接和深层空洞残差连接,预置编码器包括2D位置注意力机制和多头自注意力机制;采用预设语义分割模型中的预置解码器对航拍编码序列进行解码操作,得到语义分割结果。本申请能够解决现有技术存在精确度较差,且复杂度提升的问题,导致航拍图像的语义分割效率较差的技术问题。

Description

一种航拍图像的语义分割方法、装置、设备及存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种航拍图像的语义分割方法、装置、设备及存储介质。
背景技术
目前大多数基于Transformer的航拍图像分割方法都是直接采用视觉Transformer中的1D位置编码方法,来为Transformer提供其缺失的输入tokens(图像块)的位置信息。而这些1D位置编码方法最初都是针对自然语言处理任务中的1D词序列输入所设计的,因此用其来记录输入tokens在2D图片中的位置显然是不合适的。
现有技术中的相对位置编码方法的提出虽然能够缓解上述问题,但是仍然存在多对一映射带来的精确度下降,引入参数造成的复杂度上升的问题,导致语义分割模型在处理高分辨率航拍图像时效率较差。
发明内容
本申请提供了一种航拍图像的语义分割方法、装置、设备及存储介质,用于解决现有技术存在精确度较差,且复杂度提升的问题,导致航拍图像的语义分割效率较差的技术问题。
有鉴于此,本申请第一方面提供了一种航拍图像的语义分割方法,包括:
基于无人机航拍图像获取预置航拍图像序列;
通过预设语义分割模型中的预置编码器对所述预置航拍图像序列进行编码操作,得到航拍编码序列;
所述预设语义分割模型包括浅层跳跃连接和深层空洞残差连接,所述预置编码器包括2D位置注意力机制和多头自注意力机制;
采用所述预设语义分割模型中的预置解码器对所述航拍编码序列进行解码操作,得到语义分割结果。
优选地,所述基于无人机航拍图像获取预置航拍图像序列,包括:
通过无人机获取无人机航拍图像;
将所述无人机航拍图像进行N等份均匀切分操作,得到多个图像块,所述N取正整数;
将所述图像块基于像素逐行展开后排成一维序列,得到预置航拍图像序列。
优选地,所述通过预设语义分割模型中的预置编码器对所述预置航拍图像序列进行编码操作,得到航拍编码序列,之前还包括:
基于多头自注意力机制和2D位置注意力机制,根据预设特征融合网络构建Transformer网络层;
通过串行多个Transformer网络层生成预置编码器;
采用预设连接结构连接所述预置编码器和预置解码器,得到预设语义分割模型,所述预设连接结构包括浅层跳跃连接和深层空洞残差连接。
优选地,所述采用预设连接结构连接所述预置编码器和预置解码器,得到预设语义分割模型,之后还包括:
采用预设微调训练图像集对所述预设语义分割模型进行微调训练,实现模型参数优化。
本申请第二方面提供了一种航拍图像的语义分割装置,包括:
获取模块,用于基于无人机航拍图像获取预置航拍图像序列;
编码模块,用于通过预设语义分割模型中的预置编码器对所述预置航拍图像序列进行编码操作,得到航拍编码序列;
所述预设语义分割模型包括浅层跳跃连接和深层空洞残差连接,所述预置编码器包括2D位置注意力机制和多头自注意力机制;
解码模块,用于采用所述预设语义分割模型中的预置解码器对所述航拍编码序列进行解码操作,得到语义分割结果。
优选地,所述获取模块,具体用于:
通过无人机获取无人机航拍图像;
将所述无人机航拍图像进行N等份均匀切分操作,得到多个图像块,所述N取正整数;
将所述图像块基于像素逐行展开后排成一维序列,得到预置航拍图像序列。
优选地,还包括:
构建模块,用于基于多头自注意力机制和2D位置注意力机制,根据预设特征融合网络构建Transformer网络层;
生成模块,用于通过串行多个Transformer网络层生成预置编码器;
连接模块,用于采用预设连接结构连接所述预置编码器和预置解码器,得到预设语义分割模型,所述预设连接结构包括浅层跳跃连接和深层空洞残差连接。
优选地,还包括:
微调模块,用于采用预设微调训练图像集对所述预设语义分割模型进行微调训练,实现模型参数优化。
本申请第三方面提供了一种航拍图像的语义分割设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的航拍图像的语义分割方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的航拍图像的语义分割方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种航拍图像的语义分割方法,包括:基于无人机航拍图像获取预置航拍图像序列;通过预设语义分割模型中的预置编码器对预置航拍图像序列进行编码操作,得到航拍编码序列;预设语义分割模型包括浅层跳跃连接和深层空洞残差连接,预置编码器包括2D位置注意力机制和多头自注意力机制;采用预设语义分割模型中的预置解码器对航拍编码序列进行解码操作,得到语义分割结果。
本申请提供的航拍图像的语义分割方法,采用融合了2D位置注意力机制和多头自注意力机制的编码器记录图像的相对位置信息,提高模型捕获空间信息的能力,而在深层网络中引入空洞残差连接可以提高深层特征图的有效感受野;模型整体并未引入过多参数,可以避免加深算法复杂度;而且模型中的网络层根据图像特性进行针对性的改进可以提高分割结果的精确度。因此,本申请能够解决现有技术存在精确度较差,且复杂度提升的问题,导致航拍图像的语义分割效率较差的技术问题。
附图说明
图1为本申请实施例提供的一种航拍图像的语义分割方法的流程示意图;
图2为本申请实施例提供的一种航拍图像的语义分割装置的结构示意图;
图3为本申请实施例提供的预置航拍图像序列转换过程示意图;
图4为本申请实施例提供的预设语义分割模型框架示意图;
图5为本申请实施例提供的预置编码器中的注意力机制网络结构示意图;
图6为本申请实施例提供的深层空洞残差连接的网络结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
术语解释:
Transformer:是一种完全基于自注意力机制的深度学习模型。更准确地讲,Transformer由且仅由multi-head self-attenion和Feed Forward Neural Network组成。其最初是在自然语言处理领域被提出的,用来处理1维的词序列。后因其强大的捕获全局语义交互的能力被引入到计算机视觉领域处理2D图片输入。
Tokens:对于自然语义处理(NLP)任务,Transformer的输入是1维的词序列,故一个单词向量为一个token;而对于计算机视觉(CV)任务,输入图片需要被切分成相等大小的图像块,并被逐行展开然后排列成1个1维的图像块序列,再送进Transformer进行训练。故一个图像块就是一个token。
感受野:被定义为卷积神经网络特征所能看到输入图像的区域,换句话说特征输出受感受野区域内的像素点的影响。
语义分割:为图片中的每个像素分配其所属类别标签,每个类的标签用不同颜色区分。
为了便于理解,请参阅图1,本申请提供的一种航拍图像的语义分割方法的实施例,包括:
步骤101、基于无人机航拍图像获取预置航拍图像序列。
进一步地,步骤101,包括:
通过无人机获取无人机航拍图像;
将无人机航拍图像进行N等份均匀切分操作,得到多个图像块,N取正整数;
将图像块基于像素逐行展开后排成一维序列,得到预置航拍图像序列。
无人机航拍图像场景多样,且环境复杂,所以在获取到无人机航拍图像后可以对其进行各种预处理操作,从不同方面提升图像的质量,便于后续的图像处理。
可以理解的是,N等份切分得到的图像块属于二维数据,而Transformer网络构成的模型输入是1维序列,所以需要将图像块进行序列化转换,即将图像块基于像素逐行展开,然后排成1维序列,具体请参阅图3;也可以是逐列展开,再排成1维序列,都可以得到预置航拍图像序列。
步骤102、通过预设语义分割模型中的预置编码器对预置航拍图像序列进行编码操作,得到航拍编码序列。
预设语义分割模型包括浅层跳跃连接和深层空洞残差连接,预置编码器包括2D位置注意力机制和多头自注意力机制。
预设语义分割模型主要由预置编码器、预置解码器、浅层跳跃连接和深层空洞残差连接构成,其中预置编码器中融合2D位置注意力机制和多头自注意力机制,可以捕获全局语义信息和图像块之间的2D相对位置信息,提升图像特征的空间表达能力。而且,本实施例中采用的2D位置注意力机制可以手动调节有效范围以适应不同阶段的特征图特点;所以针对各阶段特征图的特点还可以调节位置信息的关注范围,更加灵活可靠,能够提升图像处理的精确度。其中预置解码器则是与预置编码器匹配,采用逐级上采样的机制进行解码,实现图像语义分割。其中深层空洞残差连接可以扩大深层特征图的有效感受野,更好的捕获全局信息。
进一步地,步骤102,之前还包括:
基于多头自注意力机制和2D位置注意力机制,根据预设特征融合网络构建Transformer网络层;
通过串行多个Transformer网络层生成预置编码器;
采用预设连接结构连接预置编码器和预置解码器,得到预设语义分割模型,预设连接结构包括浅层跳跃连接和深层空洞残差连接。
进一步地,采用预设连接结构连接预置编码器和预置解码器,得到预设语义分割模型,之后还包括:
采用预设微调训练图像集对预设语义分割模型进行微调训练,实现模型参数优化。
请参阅图4,预置编码器由Transformer模块构成,且本实施例中的每个Transformer块包括2个连续的Transformer网络层和一个重叠的融合模块,每个Transformer网络层中又嵌入了多头自注意力机制和2D位置注意力机制,具体请参阅图5,两种注意力机制得到的结果可以采用加权求和的方式整合,这个可以通过融合模块实现,并进行下采样操作降低块序列的长度。
预置编码器和预置解码器之间的连接除了原有的浅层跳跃连接,还包括深层空洞残差连接;前者可以获取更加丰富的浅层细节特征,后者可以扩大深层特征感受野,二者共同提升网络对图像特征的表达能力。
具体的,请参阅图5,其中N表示序列长度,C表示通道数,R表示缩减倍数,
Figure 327210DEST_PATH_IMAGE001
是一个可训练的权重。通过对tokens序列线性投影得到query(q)、key(k)和value(v);为了降低计算消耗和模型的参数量,使用卷积对k和v做序列缩减操作;然后由如下公式计算得到语义注意力:
Figure 810144DEST_PATH_IMAGE002
其中SA为语义注意力,即多头自注意力参数矩阵,是一个mask矩阵,且矩阵所有元素取值0-1,
Figure 95763DEST_PATH_IMAGE003
为归一化函数,
Figure 271530DEST_PATH_IMAGE004
Figure 196760DEST_PATH_IMAGE005
Figure 231188DEST_PATH_IMAGE006
分别为多头自注意力线性投影得到的结果query(q)、key(k)和value(v),是同一个图像序列投影得到的3个维度相同的向量,
Figure 355002DEST_PATH_IMAGE007
为一个缩放因子。
此外,在2D位置注意力机制的网络层中,获取图像序列tokens在2D空间的坐标矩阵,然后基于如下公式计算点
Figure 452402DEST_PATH_IMAGE008
和点
Figure 864929DEST_PATH_IMAGE009
坐标之间的欧式距离:
Figure 955244DEST_PATH_IMAGE010
其中,
Figure 949876DEST_PATH_IMAGE011
Figure 139549DEST_PATH_IMAGE008
坐标,
Figure 101689DEST_PATH_IMAGE012
Figure 480849DEST_PATH_IMAGE009
坐标。由于一个tokens序列,其周围的tokens序列重要于远处的序列,所以可以通过高斯函数映射相对距离之间的对应关系:
Figure 782517DEST_PATH_IMAGE013
Figure 205408DEST_PATH_IMAGE014
其中,
Figure 402647DEST_PATH_IMAGE015
为距离序列缩放结果,R表示序列缩减因子,针对本实施例中的4个Transformer模块可以分别由浅入深的设置8、4、2、1的因子值,
Figure 772448DEST_PATH_IMAGE016
Figure 725361DEST_PATH_IMAGE017
分别是图像序列在序列长度压缩前后的2D位置坐标矩阵,前者尺寸为N×2,后者尺寸为
Figure 335465DEST_PATH_IMAGE018
Figure 6618DEST_PATH_IMAGE019
为高斯函数的输入,
Figure 180110DEST_PATH_IMAGE020
为高斯函数的标准差,本实施例中的高斯函数均值为0。
接着可以在sfotmax网络层计算出2D位置注意力权重,并基于权重计算注意力加权和:
Figure 3841DEST_PATH_IMAGE021
Figure 34114DEST_PATH_IMAGE022
其中,
Figure 130246DEST_PATH_IMAGE023
是位置注意力,
Figure 654899DEST_PATH_IMAGE024
为注意力加权和。
由于浅层跳跃连接结构是编码解码网络中常见的结构,是直接将编码器对应阶段的特征图直接传递到解码器对应阶段,用来提供因连续下采样操作损失的细节信息,在此不作赘述。针对空洞残差连接结构,请参阅图6,其中,BN表示Batch normalization,ReLU为激活函数,rate为空洞卷积的膨胀率。通过两层连续的空洞卷积层扩大感受野,使用残差连接保留原本的特征图,这就是深层空洞残差连接结构的作用原理,可以理解的是,特征图从图6底部输入,顶部输出。
设微调训练图像集也是航拍图像,该数据集一般较小,仅用作微调已经构建好且经过预训练的模型,本实施例中的预设语义分割模型除了2D位置注意力机制、空洞残差连接和解码器未经过预训练,其他的Transformer原有保留结构,例如多头自注意力机制和浅层跳跃连接结构等均经过预训练;对预设语义分割模型进行微调是为了优化模型中的个别参数,提升模型的性能,例如精确度和可靠性。
步骤103、采用预设语义分割模型中的预置解码器对航拍编码序列进行解码操作,得到语义分割结果。
本申请实施例提供的航拍图像的语义分割方法,采用融合了2D位置注意力机制和多头自注意力机制的编码器记录图像的相对位置信息,提高模型捕获空间信息的能力,而在深层网络中引入空洞残差连接可以提高深层特征图的有效感受野;模型整体并未引入过多参数,可以避免加深算法复杂度;而且模型中的网络层根据图像特性进行针对性的改进可以提高分割结果的精确度。因此,本申请实施例能够解决现有技术存在精确度较差,且复杂度提升的问题,导致航拍图像的语义分割效率较差的技术问题。
为了便于理解,请参阅图2,本申请提供了一种航拍图像的语义分割装置的实施例,包括:
获取模块201,用于基于无人机航拍图像获取预置航拍图像序列;
编码模块202,用于通过预设语义分割模型中的预置编码器对预置航拍图像序列进行编码操作,得到航拍编码序列;
预设语义分割模型包括浅层跳跃连接和深层空洞残差连接,预置编码器包括2D位置注意力机制和多头自注意力机制;
解码模块203,用于采用预设语义分割模型中的预置解码器对航拍编码序列进行解码操作,得到语义分割结果。
进一步地,获取模块201,具体用于:
通过无人机获取无人机航拍图像;
将无人机航拍图像进行N等份均匀切分操作,得到多个图像块,N取正整数;
将图像块基于像素逐行展开后排成一维序列,得到预置航拍图像序列。
进一步地,还包括:
构建模块204,用于基于多头自注意力机制和2D位置注意力机制,根据预设特征融合网络构建Transformer网络层;
生成模块205,用于通过串行多个Transformer网络层生成预置编码器;
连接模块206,用于采用预设连接结构连接预置编码器和预置解码器,得到预设语义分割模型,预设连接结构包括浅层跳跃连接和深层空洞残差连接。
进一步地,还包括:
微调模块207,用于采用预设微调训练图像集对预设语义分割模型进行微调训练,实现模型参数优化。
本申请还提供了一种航拍图像的语义分割设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行上述方法实施例中的航拍图像的语义分割方法。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行上述方法实施例中的航拍图像的语义分割方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种航拍图像的语义分割方法,其特征在于,包括:
基于无人机航拍图像获取预置航拍图像序列;
通过预设语义分割模型中的预置编码器对所述预置航拍图像序列进行编码操作,得到航拍编码序列;
所述预设语义分割模型包括浅层跳跃连接和深层空洞残差连接,所述预置编码器包括2D位置注意力机制和多头自注意力机制;
采用所述预设语义分割模型中的预置解码器对所述航拍编码序列进行解码操作,得到语义分割结果。
2.根据权利要求1所述的航拍图像的语义分割方法,其特征在于,所述基于无人机航拍图像获取预置航拍图像序列,包括:
通过无人机获取无人机航拍图像;
将所述无人机航拍图像进行N等份均匀切分操作,得到多个图像块,所述N取正整数;
将所述图像块基于像素逐行展开后排成一维序列,得到预置航拍图像序列。
3.根据权利要求1所述的航拍图像的语义分割方法,其特征在于,所述通过预设语义分割模型中的预置编码器对所述预置航拍图像序列进行编码操作,得到航拍编码序列,之前还包括:
基于多头自注意力机制和2D位置注意力机制,根据预设特征融合网络构建Transformer网络层;
通过串行多个Transformer网络层生成预置编码器;
采用预设连接结构连接所述预置编码器和预置解码器,得到预设语义分割模型,所述预设连接结构包括浅层跳跃连接和深层空洞残差连接。
4.根据权利要求3所述的航拍图像的语义分割方法,其特征在于,所述采用预设连接结构连接所述预置编码器和预置解码器,得到预设语义分割模型,之后还包括:
采用预设微调训练图像集对所述预设语义分割模型进行微调训练,实现模型参数优化。
5.一种航拍图像的语义分割装置,其特征在于,包括:
获取模块,用于基于无人机航拍图像获取预置航拍图像序列;
编码模块,用于通过预设语义分割模型中的预置编码器对所述预置航拍图像序列进行编码操作,得到航拍编码序列;
所述预设语义分割模型包括浅层跳跃连接和深层空洞残差连接,所述预置编码器包括2D位置注意力机制和多头自注意力机制;
解码模块,用于采用所述预设语义分割模型中的预置解码器对所述航拍编码序列进行解码操作,得到语义分割结果。
6.根据权利要求5所述的航拍图像的语义分割装置,其特征在于,所述获取模块,具体用于:
通过无人机获取无人机航拍图像;
将所述无人机航拍图像进行N等份均匀切分操作,得到多个图像块,所述N取正整数;
将所述图像块基于像素逐行展开后排成一维序列,得到预置航拍图像序列。
7.根据权利要求5所述的航拍图像的语义分割装置,其特征在于,还包括:
构建模块,用于基于多头自注意力机制和2D位置注意力机制,根据预设特征融合网络构建Transformer网络层;
生成模块,用于通过串行多个Transformer网络层生成预置编码器;
连接模块,用于采用预设连接结构连接所述预置编码器和预置解码器,得到预设语义分割模型,所述预设连接结构包括浅层跳跃连接和深层空洞残差连接。
8.根据权利要求7所述的航拍图像的语义分割装置,其特征在于,还包括:
微调模块,用于采用预设微调训练图像集对所述预设语义分割模型进行微调训练,实现模型参数优化。
9.一种航拍图像的语义分割设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的航拍图像的语义分割方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的航拍图像的语义分割方法。
CN202211359202.6A 2022-11-02 2022-11-02 一种航拍图像的语义分割方法、装置、设备及存储介质 Active CN115471765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211359202.6A CN115471765B (zh) 2022-11-02 2022-11-02 一种航拍图像的语义分割方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211359202.6A CN115471765B (zh) 2022-11-02 2022-11-02 一种航拍图像的语义分割方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115471765A true CN115471765A (zh) 2022-12-13
CN115471765B CN115471765B (zh) 2023-04-07

Family

ID=84337564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211359202.6A Active CN115471765B (zh) 2022-11-02 2022-11-02 一种航拍图像的语义分割方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115471765B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259898A (zh) * 2020-01-08 2020-06-09 西安电子科技大学 基于无人机航拍图像的农作物分割方法
US20210090280A1 (en) * 2019-09-23 2021-03-25 Toyota Research Institute, Inc. Systems and methods for depth estimation using semantic features
US20210312139A1 (en) * 2020-12-25 2021-10-07 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
WO2021251886A1 (en) * 2020-06-09 2021-12-16 Telefonaktiebolaget Lm Ericsson (Publ) Providing semantic information with encoded image data
WO2022105125A1 (zh) * 2020-11-17 2022-05-27 平安科技(深圳)有限公司 图像分割方法、装置、计算机设备及存储介质
CN114648535A (zh) * 2022-03-21 2022-06-21 北京工商大学 一种基于动态transformer的食品图像分割方法及***
CN114821058A (zh) * 2022-04-28 2022-07-29 济南博观智能科技有限公司 一种图像语义分割方法、装置、电子设备及存储介质
US20220277572A1 (en) * 2020-06-30 2022-09-01 Tencent Technology (Shenzhen) Company Limited Artificial intelligence-based image processing method, apparatus, device, and storage medium
CN114998361A (zh) * 2022-06-07 2022-09-02 山西云时代智慧城市技术发展有限公司 一种基于Transformers-MulMLA的农业土地覆盖时空语义分割方法
CN115115835A (zh) * 2022-06-16 2022-09-27 腾讯科技(深圳)有限公司 图像的语义分割方法、装置、设备、存储介质及程序产品

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210090280A1 (en) * 2019-09-23 2021-03-25 Toyota Research Institute, Inc. Systems and methods for depth estimation using semantic features
CN111259898A (zh) * 2020-01-08 2020-06-09 西安电子科技大学 基于无人机航拍图像的农作物分割方法
WO2021251886A1 (en) * 2020-06-09 2021-12-16 Telefonaktiebolaget Lm Ericsson (Publ) Providing semantic information with encoded image data
US20220277572A1 (en) * 2020-06-30 2022-09-01 Tencent Technology (Shenzhen) Company Limited Artificial intelligence-based image processing method, apparatus, device, and storage medium
WO2022105125A1 (zh) * 2020-11-17 2022-05-27 平安科技(深圳)有限公司 图像分割方法、装置、计算机设备及存储介质
US20210312139A1 (en) * 2020-12-25 2021-10-07 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
CN114648535A (zh) * 2022-03-21 2022-06-21 北京工商大学 一种基于动态transformer的食品图像分割方法及***
CN114821058A (zh) * 2022-04-28 2022-07-29 济南博观智能科技有限公司 一种图像语义分割方法、装置、电子设备及存储介质
CN114998361A (zh) * 2022-06-07 2022-09-02 山西云时代智慧城市技术发展有限公司 一种基于Transformers-MulMLA的农业土地覆盖时空语义分割方法
CN115115835A (zh) * 2022-06-16 2022-09-27 腾讯科技(深圳)有限公司 图像的语义分割方法、装置、设备、存储介质及程序产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LUCAS BEYER,ETC: "An Image is Worth 16×16Words:Transformers for Image Recognition at Scale", 《HTTPS://ARXIV.ORG/PDF/2010.11929.PDF》 *
YAO SHEN,ETC: "AAFormer: A Multi-Modal Transformer Network for Aerial Agricultural Images", 《IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW)》 *

Also Published As

Publication number Publication date
CN115471765B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
KR20220050758A (ko) 다차원 어텐션 메커니즘에 기반한 다방향 장면 텍스트 인식 방법 및 시스템
CN112543347B (zh) 基于机器视觉编解码的视频超分辨率方法、装置、***和介质
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN113221879A (zh) 文本识别及模型训练方法、装置、设备及存储介质
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN115880762B (zh) 面向人机混合视觉的可伸缩人脸图像编码方法、***
WO2023005740A1 (zh) 图像编码、解码、重建、分析方法、***及电子设备
CN116721207A (zh) 基于Transformer模型的三维重建方法、装置、设备及存储介质
CN115131675A (zh) 一种基于参考影像纹理迁移的遥感影像压缩方法及***
WO2023068953A1 (en) Attention-based method for deep point cloud compression
Akbari et al. Learned multi-resolution variable-rate image compression with octave-based residual blocks
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
WO2023050720A1 (zh) 图像处理方法、图像处理装置、模型训练方法
CN115424318A (zh) 一种图像识别方法及设备
CN114972016A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN116600119B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
WO2023193629A1 (zh) 区域增强层的编解码方法和装置
US20230281881A1 (en) Video Frame Compression Method, Video Frame Decompression Method, and Apparatus
TWI826160B (zh) 圖像編解碼方法和裝置
CN115471765B (zh) 一种航拍图像的语义分割方法、装置、设备及存储介质
CN116630369A (zh) 基于时空记忆网络的无人机目标跟踪方法
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
CN116912488B (zh) 基于多目相机的三维全景分割方法及装置
US20240029406A1 (en) Image processing method, training method, and apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Cheng Yu

Inventor after: Li Xinyu

Inventor after: Fang Yi

Inventor after: Wen Long

Inventor before: Li Xinyu

Inventor before: Cheng Yu

Inventor before: Fang Yi

Inventor before: Wen Long

CB03 Change of inventor or designer information