CN116740121A - 一种基于专用神经网络和图像预处理的秸秆图像分割方法 - Google Patents

一种基于专用神经网络和图像预处理的秸秆图像分割方法 Download PDF

Info

Publication number
CN116740121A
CN116740121A CN202310707836.4A CN202310707836A CN116740121A CN 116740121 A CN116740121 A CN 116740121A CN 202310707836 A CN202310707836 A CN 202310707836A CN 116740121 A CN116740121 A CN 116740121A
Authority
CN
China
Prior art keywords
image
straw
token
network
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310707836.4A
Other languages
English (en)
Inventor
刘振泽
胡闻捷
臧一凡
陈金炎
董迪锴
王成喜
孙吉
胡海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202310707836.4A priority Critical patent/CN116740121A/zh
Publication of CN116740121A publication Critical patent/CN116740121A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30181Earth observation
    • G06T2207/30188Vegetation; Agriculture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于专用神经网络和图像预处理的秸秆图像分割方法,以提高秸秆图像分割的准确率和效率,并实现复杂度和准确率的平衡。旨在解决秸秆农学图像分割任务。该算法首先通过无人机采集彩色RGB图像,并使用随机截取技术将图像尺寸限制为512×384,制作Straw320数据集用于后续网络的训练与测试。接下来,提出了一种秸秆图像灰度化方法,旨在保持图像的区分度同时降低后续模型的复杂度。最后,引入了秸秆混合网络(SMN),用于处理预处理后的图像。该网络包括位置编码模块,以增强秸秆图像的相对信息,并采用平衡复杂度和准确率的混合特征提取模块。

Description

一种基于专用神经网络和图像预处理的秸秆图像分割方法
技术领域
本发明涉及图像处理领域,具体而言,涉及一种基于专用神经网络和图像预处理的秸秆图像分割方法。该方法可以用于农业领域中的秸秆处理和利用,提供准确的秸秆图像分割结果。
背景技术
秸秆在农业中具有重要的意义。首先,秸秆的保护性工作对土壤保护至关重要。秸秆覆盖可以减少水分蒸发,降低土壤侵蚀,防止土壤质量的下降。其次,秸秆作为有机物的一种,可以被还田,有效地增加土壤的有机质含量,改善土壤结构和肥力。因此,秸秆的处理和利用对农业生产和环境保护都具有重要意义。
秸秆图像的分割在秸秆的后续处理和利用中起着基础性的作用。通过对秸秆图像进行分割,可以准确地提取出秸秆的区域和形状信息,为后续的处理和利用提供参考依据。例如,对秸秆图像进行分割可以帮助决定如何进行秸秆的收集、压实、堆垛等操作,也有助于进行秸秆的质量评估和相关农业研究。
然而,秸秆图像的分割任务面临一些挑战。首先,秸秆图像通常具有复杂的纹理、颜色和形状变化,使得常规的图像分割算法在分割秸秆图像时准确率较低。其次,目前的分割神经网络往往没有针对秸秆图像进行专门设计,缺乏对秸秆特征的有效学***衡也是一个具有挑战性的问题。
因此,有必要提出一种基于专用神经网络和图像预处理的秸秆图像分割方法,以提高秸秆图像分割的准确率和效率,并实现复杂度和准确率的平衡。通过引入针对秸秆图像的特征学习和表达机制,该算法能够更好地处理秸秆图像的复杂性,为后续的秸秆处理和利用工作提供准确的参考结果。
发明内容
本发明提出了一种基于专用神经网络和图像预处理的秸秆图像分割方法,主要包含以下内容:
步骤1、通过无人机采集彩色RGB图像,制作Straw320数据集,并针对数据集进行归一化处理。
步骤2、设计了一种基于秸秆图像灰度化方法,旨在保持图像的区分度同时降低后续模型的复杂度。
秸秆通常呈现黄色,背景通常为黑色。为了提高秸秆与背景的区分度,并减少网络的复杂度。根据黄色在RGB空间中的对应值(255,255,0),可以得出以下的灰度化系数:0.5,0.5,0。这意味着将红色通道的像素值与绿色通道的像素值进行加权平均,而忽略蓝色通道的像素值。因此,可以使用以下的灰度化公式:
P=0.5×R+0.5×G+0×B
其中,P表示灰度化后的像素值,R、G和B分别表示原始彩色图像中的红色、绿色和蓝色通道的像素值。通过这种方式,本发明增强了黄色通道的信息,同时减少了网络处理的复杂度,使得后续的图像分割任务更加高效而准确。
步骤3、提出了秸秆混合网络(SMN),用于处理预处理后的图像。该网络包括位置编码模块,旨在增强秸秆图像的相对信息,并且采用平衡复杂度和准确率的混合特征提取模块。
SMN网络借鉴了经典的U-Net分割网络结构,并进行了一些关键的改进,以更好地适应秸秆图像的特点。整体结构如图2所示。首先,本发明引入了位置编码模块,提供秸秆图像中秸秆与背景的位置信息。通过引入位置信息,网络可以更好地理解秸秆的空间分布,提高分割的准确性。其次,本发明设计了平衡复杂度和准确率的混合特征提取模块。这个模块结合了U-Net的跳跃连接机制,在保持网络复杂度可控的同时,提取多尺度的特征信息。综合不同尺度的特征,并进行特征融合和选择,网络可以更好地区分秸秆和背景,提高分割结果的准确性。最后,SMN网络采用了降采样和上采样操作,在编码器和解码器之间进行信息传递和特征恢复。降采样操7作通过最大池化层减少特征尺寸和参数数量,加快训练速度。上采样操作使用双线性插值法恢复特征的空间分辨率,保留更多细节信息。
步骤3-1、相对位置编码模块。在图像处理领域中,像素之间存在着丰富的交互信息,点间信息的有效提取可以提高整体任务的准确率。
本发明提出了相对位置编码模块,用一种简易的方式将相对位置坐标与原始图像进行耦合。为了降低算法复杂性,本发明将原始图像划分为大小相同的小块(即patch),然后将相对位置信息与每个小块的像素值进行融合。假设输入图像的宽度为W,高度为H,并且划分为大小为patch_size×patch_size的小块。那么每个小块的横纵坐标范围可以表示为:
col_indices=[0,1,...,W/(patch_size-1)]
row_indices=[0,1,...,H/(patch_size-1)]
为了进行相对位置编码,本发明定义了col_co和row_co这两个编码值,它们分别表示列和行的相对位置。这些编码值是通过将col_indices和row_indices除以(W/patch_size)和(H/patch_size)得到的,公式如下:
col_co=col_indices/(W/patch_size)
row_co=row_indices/(H/patch_size)
然后,本发明将这些编码值加入到原始数据中,以融合相对位置信息。由于原始数据经过归一化处理,取值范围在(0,1)之间,直接加入col_co和row_co编码可能会掩盖原图像数据信息,导致数据不平衡,进而影响网络的收敛性。因此,本发明引入了一个柔性参数β来限制相对位置信息的影响,公式如下:
P′=P+β(col_co+row_co)
其中P∈RW×H×1,P′∈RW×H×1
步骤3-2、混合特征提取模块(Mixed-extract feature module)在秸秆分割任务中扮演关键角色,旨在实现准确度和复杂度之间的平衡。为了应对这一挑战,本发明根据Encoder-Decoder的设计原理提出了一种混合特征提取模块,它融合了卷积操作和自适应注意力机制,以实现更有效的图像特征提取。
该模块首先利用卷积操作对图像进行局部特征提取。卷积操作能够捕捉图像中相邻特征之间的空间关系,并保持特征维度不变。这样一来,本发明能够充分利用图像的局部信息,提取丰富的局部特征。
其次,混合特征提取模块引入了自适应注意力机制,用于提取图像全局特征之间的相关性。自适应注意力机制通过学***衡。
在模块的设计中,本发明简化了Encoder函数为Z=Encoder(Input),Decoder函数为Predict=Decoder(Z),也可以视为Z=Decoder(Predict)。由于Encoder和Decoder网络的相似性,本发明保持了混合特征提取模块中的一致设计原则。具体而言,在处理特征时,Encoder部分先进行卷积操作,然后应用自适应注意力机制;而Decoder部分先使用自适应注意力机制,然后进行卷积操作。其中,自适应注意力机制的计算过程如下:
首先,将输入特征表示为形状为(B,Hc,Wc)的张量,其中B为批大小,Hc和Wc分别为特征的高度和宽度。
为了降低注意力计算的内存消耗,本发明将输入特征分割为token×token的维度,将Hc和Wc分别除以token,得到形状为(B,(Hc/token)×(Wc/token),token×token)的特征表示。这样做可以将特征分割成较小的块,便于后续计算。
然而,直接对token×token的维度进行注意力计算可能导致内存溢出。为了解决这个问题,本发明引入了一个隐藏层hidden_size,通过增加hidden层来降低特征的维度。将token×token的维度降低为hidden_size,得到形状为(B,(Hc/token)×(Wc/token),hidden_size)的特征表示,这样可以减少计算量和内存消耗。接下来,本发明将降维后的特征进行注意力计算。首先,将特征线性映射至Q、K、V张量,分别代表查询、键和值。然后,通过softmax函数计算注意力层输出Y=sof tmax(Q,K)V,得到形状为(B,(Hc/token)×(Wc/token),hidden_size)的注意力层输出。
最后,本发明将注意力层输出Y恢复至原始维度,将形状为(B,(Hc/token)×(Wc/token),hidden_size)的张量转换为形状为(B,Hc,Wc)的特征表示。这样,本发明得到了经过自适应注意力机制处理后的特征表示,其中注意力机制通过增加hidden层来降低网络的计算量。
通过以上计算步骤,自适应注意力机制能够在使用较小的token的同时,减少注意力计算的内存消耗。这一机制在处理图像任务时具有重要的应用价值,能够在保持准确度的同时降低计算复杂度,为模型训练和推断带来便利和效率。
步骤3-3、降采样模块,降采样模块中使用最大二分池化。
步骤3-4、上采样模块中使用双线性插值。
步骤3-5、根据3-1至3-4设计的相对位置编码模块、混合特征提取模块、降采样模块和上采样模块搭建SMN神经网络。
步骤3-6、将步骤3-5设置的SMN网络使用预设的Straw320数据集进行训练与测试。其中使用交叉熵作为损失函数,使用Adam优化器,使用学习率余弦调度器。
本发明提出的基于专用神经网络和图像预处理的秸秆图像分割方法具有以下技术效果:
1.提高图像分割准确性:通过灰度化方法和位置编码模块,本发明增强了秸秆图像中的黄色通道信息,使得秸秆与背景更加区分明确。位置编码模块提供了秸秆图像中秸秆与背景的相对位置信息,有助于网络更好地理解秸秆的空间分布,从而提高图像分割的准确性。
2.平衡复杂度和准确率:本发明设计的混合特征提取模块结合了卷积操作和自适应注意力机制,实现了对秸秆图像局部特征和全局特征的有效提取。通过增加隐藏层和降低特征维度,注意力机制在保持较小的计算量和内存消耗的同时,提升了图像处理任务的性能。这种平衡复杂度和准确率的设计使得网络在保持高效的同时能够获得准确的分割结果。
3.改进的U-Net结构:本发明基于U-Net分割网络结构进行改进,增加了位置编码模块和混合特征提取模块,适应了秸秆图像的特点。通过跳跃连接机制和多尺度特征的融合与选择,网络能够更好地区分秸秆和背景,提高分割结果的准确性。
4.高效的图像处理:降采样和上采样操作在编码器和解码器之间进行信息传递和特征恢复,加快了训练速度并保留了更多细节信息。双线性插值的上采样方法能够恢复特征的空间分辨率,保持图像细节的完整性。
5.综合实验验证:本发明使用预设的Straw320数据集进行了训练和测试,采用交叉熵作为损失函数,并使用Adam优化器和学习率余弦调度器。通过实验验证,本发明的方法在秸秆图像分割任务中取得了良好的效果,验证了其准确性和可行性。
综上所述,本发明提出的秸秆图像分割方法通过图像预处理和专用神经网络的设计,能够有效地实现秸秆与背景的准确分割,提高图像处理的效率和准确性。
附图说明
图1为一种基于专用神经网络和图像预处理的秸秆图像分割方法的流程图。
图2为SMN结构流程图。
具体实施方式
下面结合附图对本发明的实施方式做出详细的说明,使得发明目的、技术方案、特征等更加易于理解,显然,所描述的实施例仅仅是本发明一部分实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例仅用于解释本发明,而不是对本发明的限定。
本发明涉及图像处理领域,具体而言,涉及一种基于专用神经网络和图像预处理的秸秆图像分割方法。该方法可以用于农业领域中的秸秆处理和利用,提供准确的秸秆图像分割结果。整体流程图如图1所示。具体实施方式可由以下步骤说明:
步骤1、通过无人机采集彩色RGB图像,并使用随机截取技术将图像尺寸限制为512×384,制作Straw320数据集用以后续网络训练与测试。
本发明图像使用大疆无人机MINI2在特定地点以固定高度进行图像采集。共采集到320张具有4K分辨率(1K×400)的图像。由于硬件限制,无法同时将完整的4K数据输入到显卡进行训练。因此,针对每张图像,本发明随机截取了384×512像素的区域,并根据该区域制作了相应的Mask标签。其中,标签中的“1”表示秸秆部分,“0”表示背景(土地)部分。
为了进行进一步的实验和评估,本发明将数据集按照6:2:2的比例随机划分为训练集、验证集和测试集。这样的划分有助于在训练过程中监测模型的性能,并对其在新数据上的泛化能力进行评估。
为了提高模型训练的效果和收敛速度,本发明对原始RGB数据进行了归一化处理,将像素值限制在(0,1)的范围内。这样的预处理步骤有助于消除数据中的尺度差异,使模型更容易学习到有意义的特征。
步骤2、设计了一种基于秸秆图像灰度化方法,旨在保持图像的区分度同时降低后续模型的复杂度。
在秸秆图像分割任务中,通常使用无人机摄像头、机器人摄像头采集的彩色图像作为输入。彩色图像由红色(R)、绿色(G)和蓝色(B)三个通道组成,每个通道的像素值表示该颜色在图像中的强度。然而,对于秸秆图像分割任务而言,本发明主要关注的是秸秆与背景之间的区分度,而不是颜色的细节信息。因此,将彩色图像转换为灰度图像可以减少后续网络的复杂度,同时保留足够的区分度。
秸秆通常呈现黄色,背景通常为黑色。为了提高秸秆与背景的区分度,并减少网络的复杂度。根据黄色在RGB空间中的对应值(255,255,0),可以得出以下的灰度化系数:0.5,0.5,0。这意味着将红色通道的像素值与绿色通道的像素值进行加权平均,而忽略蓝色通道的像素值。因此,本发明可以使用以下的灰度化公式:
P=0.5×R+0.5×G+0×B
在公式中,P表示灰度化后的像素值,R、G和B分别表示原始彩色图像中的红色、绿色和蓝色通道的像素值。通过这种方式,本发明增强了黄色通道的信息,同时减少了网络处理的复杂度,使得后续的图像分割任务更加高效而准确。
步骤3、提出了秸秆混合网络(SMN),用于处理预处理后的图像。该网络包括位置编码模块,旨在增强秸秆图像的相对信息,并且采用平衡复杂度和准确率的混合特征提取模块。
SMN网络借鉴了经典的U-Net分割网络结构,并进行了一些关键的改进,以更好地适应秸秆图像的特点。整体结构如图2所示,图中数字代表输入该模块的特征维度。首先,本发明引入了位置编码模块,提供秸秆图像中秸秆与背景的位置信息。通过引入位置信息,网络可以更好地理解秸秆的空间分布,提高分割的准确性。其次,本发明设计了平衡复杂度和准确率的混合特征提取模块。这个模块结合了U-Net的跳跃连接机制,在保持网络复11杂度可控的同时,提取多尺度的特征信息。通过综合不同尺度的特征,并进行特征融合和选择,网络可以更好地区分秸秆和背景,提高分割结果的准确性。最后,SMN网络采用了降采样和上采样操作,在编码器和解码器之间进行信息传递和特征恢复。降采样操作通过最大池化层减少特征尺寸和参数数量,加快训练速度。上采样操作使用双线性插值法恢复特征的空间分辨率,保留更多细节信息。
步骤3-1、相对位置编码模块。在图像处理领域中,像素之间存在着丰富的交互信息,点间信息的有效提取可以提高整体任务的准确率。然而,传统的卷积操作受限于卷积核的大小,无法充分提取距离过远的像素之间的相互关联特征,这也是导致目前分割效果不佳的原因之一。
本发明提出了相对位置编码模块,用一种简易的方式将相对位置坐标与原始图像进行耦合。为了降低算法复杂性,本发明将原始图像划分为大小相同的小块(即patch),然后将相对位置信息与每个小块的像素值进行融合。假设输入图像的宽度为W,高度为H,并且划分为大小为patch_size×patch_size的小块。那么每个小块的横纵坐标范围可以表示为:
col_indices=[0,1,...,W/(patch_size-1)]
row_indices=[0,1,...,H/(patch_size-1)]
为了进行相对位置编码,本发明定义了col_co和row_co这两个编码值,它们分别表示列和行的相对位置。这些编码值是通过将col_indices和row_indices除以(W/patch_size)和(H/patch_size)得到的,公式如下:
col_co=col_indices/(W/patch_size)
row_co=row_indices/(H/patch_size)
然后,本发明将这些编码值加入到原始数据中,以融合相对位置信息。由于原始数据经过归一化处理,取值范围在(0,1)之间,直接加入col_co和row_co编码可能会掩盖原图像数据信息,导致数据不平衡,进而影响网络的收敛性。因此,本发明引入了一个柔性参数β来限制相对位置信息的影响,公式如下:
P′=P+β(col_co+row_co)
其中P∈RW×H×1,P′∈RW×H×1
步骤3-2、混合特征提取模块(Mixed-extract feature module)在秸秆分割任务中扮演关键角色,旨在实现准确度和复杂度之间的平衡。为了应对这12一挑战,本发明根据Encoder-Decoder的设计原理提出了一种混合特征提取模块,它融合了卷积操作和自适应注意力机制,以实现更有效的图像特征提取。
该模块首先利用卷积操作对图像进行局部特征提取。卷积操作能够捕捉图像中相邻特征之间的空间关系,并保持特征维度不变。这样一来,本发明能够充分利用图像的局部信息,提取丰富的局部特征。
其次,混合特征提取模块引入了自适应注意力机制,用于提取图像全局特征之间的相关性。自适应注意力机制通过学***衡。
在模块的设计中,本发明简化了Encoder函数为Z=Encoder(Input),Decoder函数为Predict=Decoder(Z),也可以视为Z=Decoder(Predict)。由于Encoder和Decoder网络的相似性,本发明保持了混合特征提取模块中的一致设计原则。具体而言,在处理特征时,Encoder部分先进行卷积操作,然后应用自适应注意力机制;而Decoder部分先使用自适应注意力机制,然后进行卷积操作。
1、卷积层为带有空洞卷积核的卷积操作,空洞卷积(Dilated Convolution)是一种卷积操作,它在传统卷积的基础上引入了空洞因子,以增大感受野的范围。空洞卷积可以帮助网络在保持计算效率的同时增加感知区域,适用于处理具有大尺度空间结构的图像或特征。
空洞卷积的计算公式如下:
其中:
·y[i,j]是输出特征图的第i,j个位置的值。
·x[i+r·k,j+r·l]是输入特征图的第i+r·k,j+r·l个位置的值,其中r是空洞因子。
·w[k,l,m]是卷积核的第k,l,m个权重值,K,L,M是卷积核的尺寸。
空洞卷积的主要特点是通过引入空洞因子r来扩大感受野的范围。具体而言,当r=1时,空洞卷积退化为传统的卷积操作;当r>1时,输入特征图上的采样点之间会有间隔,从而使得感受野扩大。因此,通过调节空洞因子的大小,可以在增加感知范围的同时保持计算效率。
2、自适应注意力机制层(adaptive attention layer):ViT通常将输入图像分割为多组token,并使用自适应注意力机制计算这些token之间的相关性,以提取输入特征的有效信息。然而,如果将token的大小设置得过小,可能会导致注意力计算量过大,从而引发内存溢出等问题。为了解决这个问题,本发明提出了一种自适应注意力机制。该机制通过增加隐藏层(hiddenlayer)的数量,降低中间维度,从而在保持较小的token大小的同时,直接减少注意力计算的复杂度。
自适应注意力机制的计算过程如下:
首先,将输入特征表示为形状为(B,Hc,Wc)的张量,其中B为批大小,Hc和Wc分别为特征的高度和宽度。
为了降低注意力计算的内存消耗,本发明将输入特征分割为token×token的维度,将Hc和Wc分别除以token,得到形状为(B,(Hc/token)×(Wc/token),token×token)的特征表示。这样做可以将特征分割成较小的块,便于后续计算。
然而,直接对token×token的维度进行注意力计算可能导致内存溢出。为了解决这个问题,本发明引入了一个隐藏层hidden_size,通过增加hidden层来降低特征的维度。将token×token的维度降低为hidden_size,得到形状为(B,(Hc/token)×(Wc/token),hidden_size)的特征表示,这样可以减少计算量和内存消耗。
接下来,本发明将降维后的特征进行注意力计算。首先,将特征线性映射至Q、K、V张量,分别代表查询、键和值。然后,通过softmax函数计算注意力层输出Y=sof tmax(Q,K)V,得到形状为(B,(Hc/token)×(Wc/token),hidden_size)的注意力层输出。
最后,本发明将注意力层输出Y恢复至原始维度,将形状为(B,(Hc/token)×(Wc/token),hidden_size)的张量转换为形状为(B,Hc,Wc)的特征表示。这样,本发明得到了经过自适应注意力机制处理后的特征表示,其中注意力机制通过增加hidden层来降低网络的计算量。
通过以上计算步骤,自适应注意力机制能够在使用较小的token的同时,减少注意力计算的内存消耗。这一机制在处理图像任务时具有重要的应用价值,能够在保持准确度的同时降低计算复杂度,为模型训练和推断带来便利和效率。
步骤3-3、降采样模块,降采样模块中使用最大二分池化的数学公式如下:
将输入特征表示为Xd,输出特征表示为Yd,维度为Hd×Wd×C。
最大二分池化操作的数学公式如下:
Yd[i,j,c]=
max(Xd[2i,2j,c],Xd[2i,2j+1,c],Xd[2i+1,2j,c],Xd[2i+1,2j+1,c])
其中,i和j表示输出特征图Yd的位置索引,c表示通道索引。
这个公式描述了最大二分池化操作,对于每个输出特征图的位置(i,j),选择对应的四个输入特征图位置的最大值作为输出值。这样,输出特征图的空间维度将被减半(高度和宽度都除以2),通道数保持不变。
步骤3-4、上采样模块中使用双线性插值(Bilinear Interpolation)的数学公式如下:
输入特征图:Xu,维度为Hu×Wu×C,其中Hu是高度,Wu是宽度,C是通道数。
上采样操作的输出特征图:Yu,维度为2Hu×2Wu×C。
对于输出特征图中的每个位置(i,j),计算方式如下:
其中c表示通道索引,f(i,j,m,n)是双线性插值的插值函数。
双线性插值函数f(i,j,m,n)的计算方式如下:
这个公式描述了双线性插值操作,对于输出特征图的每个位置(i,j),通过对输入特征图进行加权平均来计算输出值。插值函数根据相对位置的距离进行加权,从而获得更平滑的上采样效果。
步骤3-5、根据3-1至3-4设计的相对位置编码模块、混合特征提取模块、降采样模块和上采样模块搭建SMN神经网络。SMN网络配置如下:
1、通过使用步骤3-1的相对位编码模块将输入P∈RW×H×1转化为P′∈RW×H×1
2、通过使用卷积模块,将输入P′升维度至P″∈RW×H×64
3、通过使用步骤3-2的混合特征提取模块,将输入P″提取特征至P(3)∈RW×H×64
4、通过使用步骤3-3的降采样模块,将输入P(3)降低维度至
5、通过使用步骤3-2的混合特征提取模块,将输入P(4)提取特征至
6、通过使用步骤3-3的降采样模块,将输入P(5)降低维度至
7、通过使用步骤3-2的混合特征提取模块,将输入P(6)提取特征至
8、通过使用步骤3-3的降采样模块,将输入P(7)降低维度至
9、通过使用步骤3-2的混合特征提取模块,将输入P(8)提取特征至
10、通过使用步骤3-3的降采样模块,将输入P(9)降低维度至
11、通过使用步骤3-2的混合特征提取模块,将输入P(10)提取特征至
12、通过使用步骤3-4的上采样模块,将输入P(11)升高维度至并且与P(9)进行跳跃连接。
13、通过使用步骤3-2的混合特征提取模块,将输入P(12)提取特征至
14、通过使用步骤3-4的上采样模块,将输入P(13)升高维度至并且与P(7)进行跳跃连接。
15、通过使用步骤3-2的混合特征提取模块,将输入P(14)提取特征至
16、通过使用步骤3-4的上采样模块,将输入P(15)升高维度至并且与P(5)进行跳跃连接。
17、通过使用步骤3-2的混合特征提取模块,将输入P(16)提取特征至
18、通过使用步骤3-4的上采样模块,将输入P(17)升高维度至P(18)∈RW×H×64,并且与P(3)进行跳跃连接。
19、通过使用步骤3-2的混合特征提取模块,将输入P(18)提取特征至P(19)∈RW×H×64
20、通过使用卷积模块,将输入P(19)提取特征至P(20)∈RW×H×2
步骤3-6、将步骤3-5设置的SMN网络使用预设的Straw320数据集进行训练与测试。其中使用交叉熵作为损失函数,使用Adam优化器,使用学习率余弦调度器。

Claims (6)

1.本发明提出了一种基于专用神经网络和图像预处理的秸秆图像分割方法,主要包含以下步骤:
步骤1,通过无人机采集彩色RGB图像,制作Straw320数据集,并针对数据集进行归一化处理;
步骤2,设计了一种基于秸秆图像灰度化方法,旨在保持图像的区分度同时降低后续模型的复杂度;
步骤3,提出了秸秆混合网络SMN,用于处理预处理后的图像,该网络包括位置编码模块,旨在增强秸秆图像的相对信息,并且采用平衡复杂度和准确率的混合特征提取模块。
2.根据权利要求1所述的一种基于专用神经网络和图像预处理的秸秆图像分割方法,其特征在于所述的步骤2中,设计了一种基于秸秆图像灰度化方法,旨在保持图像的区分度同时降低后续模型的复杂度;
秸秆通常呈现黄色,背景通常为黑色,为了提高秸秆与背景的区分度,并减少网络的复杂度,根据黄色在RGB空间中的对应值255,255,0,可得出以下的灰度化系数:0.5,0.5,0,这意味着将红色通道的像素值与绿色通道的像素值进行加权平均,而忽略蓝色通道的像素值,可使用以下的灰度化公式:
P=0.5×R+0.5×G+0×B
其中,P表示灰度化后的像素值,R、G和B分别表示原始彩色图像中的红色、绿色和蓝色通道的像素值,通过方式,增强了黄色通道的信息,同时减少了网络处理的复杂度,使得后续的图像分割任务更加高效而准确。
3.根据权利要求1所述的一种基于专用神经网络和图像预处理的秸秆图像分割方法,其特征在于,步骤3中,所述SMN网络借鉴了经典的U-Net分割网络结构,
首先,引入位置编码模块,提供秸秆图像中秸秆与背景的位置信息,通过引入位置信息,网络理解秸秆的空间分布,提高分割的准确性;
其次,通过平衡复杂度和准确率的混合特征提取模块,所述模块结合了U-Net的跳跃连接机制,在保持网络复杂度可控的同时,提取多尺度的特征信息,通过综合不同尺度的特征,并进行特征融合和选择,使网络准确地区分秸秆和背景,从而提高分割结果的准确性;
最后,所述SMN网络采用了降采样和上采样操作,在编码器和解码器之间进行信息传递和特征恢复,降采样操作通过最大池化层减少特征尺寸和参数数量,加快训练速度,上采样操作使用双线性插值法恢复特征的空间分辨率,保留更多细节信息。
4.根据权利要求3所述的一种基于专用神经网络和图像预处理的秸秆图像分割方法,其特征在于,
步骤3-1,相对位置编码模块,在图像处理领域中,像素之间存在着丰富的交互信息,点间信息的有效提取可以提高整体任务的准确率;
所述相对位置编码模块,用一种简易的方式将相对位置坐标与原始图像进行耦合,为了降低算法复杂性,将原始图像划分为大小相同的小块patch,然后将相对位置信息与每个小块的像素值进行融合,假设输入图像的宽度为W,高度为H,并且划分为大小为patch_size×patch_size的小块,那么每个小块的横纵坐标范围可以表示为:
col_indices=[0,1,...,W/(patch_size-1)]
row_indices[0,1,...,H/(patch_size-1)]
为了进行相对位置编码,定义了col_co和row_co这两个编码值,它们分别表示列和行的相对位置,这些编码值是通过将col_indices和row_indices除以(W/patch_size)和(H/patch_size)得到的,公式如下:
col_co=col_indices/(W/patch_size)
row_co=row_indices/(H/patch_size)
然后,将这些编码值加入到原始数据中,以融合相对位置信息,由于原始数据经过归一化处理,取值范围在0,1之间,直接加入col_co和row_co编码可能会掩盖原图像数据信息,导致数据不平衡,进而影响网络的收敛性,因此,引入了一个柔性参数β来限制相对位置信息的影响,公式如下:
P=P+β(col_co+row_co)
其中P∈RW×H×1,P′∈RW×H×1。
5.根据权利要求3或4所述的一种基于专用神经网络和图像预处理的秸秆图像分割方法,其特征在于,
步骤3-2,混合特征提取模块Mixed-extract feature module在秸秆分割任务中旨在实现准确度和复杂度之间的平衡,根据Encoder-Decoder的设计原理提出了一种混合特征提取模块,它融合了卷积操作和自适应注意力机制,以实现更有效的图像特征提取;
在模块的设计中,简化了Encoder函数为Z=Encoder(Input),Decoder函数为Predict=Decoder(Z),也可视为Z=Decoder(Predict),由于Encoder和Decoder网络的相似性,保持了混合特征提取模块中的一致设计原则,在处理特征时,Encoder部分先进行卷积操作,然后应用自适应注意力机制;而Decoder部分先使用自适应注意力机制,然后进行卷积操作。
6.根据权利要求5所述的一种基于专用神经网络和图像预处理的秸秆图像分割方法,其特征在于,
所述自适应注意力机制的计算过程如下:
首先,将输入特征表示为形状为(B,Hc,Wc)的张量,其中B为批大小,Hc和Wc分别为特征的高度和宽度;
为了降低注意力计算的内存消耗,本发明将输入特征分割为token×token的维度,将Hc和Wc分别除以token,得到形状为(B,(Hc/token)×(Wc/token),token×token)的特征表示,这样做可以将特征分割成较小的块,便于后续计算;
然而,直接对token×token的维度进行注意力计算可能导致内存溢出,引入了一个隐藏层hidden_size,通过增加hidden层来降低特征的维度,将token×token的维度降低为hidden_size,得到形状为(B,(Hc/token)×(Wc/token),hidden_size)的特征表示,以减少计算量和内存消耗;
接下来,将降维后的特征进行注意力计算,首先,将特征线性映射至Q、K、V张量,分别代表查询、键和值,然后,通过softmax函数计算注意力层输出Y=softmax(Q,K)V,得到形状为(B,(Hc/token)×(Wc/token),hidden_size)的注意力层输出;
最后,本发明将注意力层输出Y恢复至原始维度,将形状为(B,(Hc/token)×(Wc/token),hidden_size)的张量转换为形状为(B,Hc,Wc)的特征表示。这样,就得到了经过自适应注意力机制处理后的特征表示,其中注意力机制通过增加hidden层来降低网络的计算量;
通过以上计算步骤,自适应注意力机制能够在使用较小的token的同时,减少注意力计算的内存消耗。这一机制在处理图像任务时具有重要的应用价值,能够在保持准确度的同时降低计算复杂度,为模型训练和推断带来便利和效率。
CN202310707836.4A 2023-06-15 2023-06-15 一种基于专用神经网络和图像预处理的秸秆图像分割方法 Pending CN116740121A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310707836.4A CN116740121A (zh) 2023-06-15 2023-06-15 一种基于专用神经网络和图像预处理的秸秆图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310707836.4A CN116740121A (zh) 2023-06-15 2023-06-15 一种基于专用神经网络和图像预处理的秸秆图像分割方法

Publications (1)

Publication Number Publication Date
CN116740121A true CN116740121A (zh) 2023-09-12

Family

ID=87911023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310707836.4A Pending CN116740121A (zh) 2023-06-15 2023-06-15 一种基于专用神经网络和图像预处理的秸秆图像分割方法

Country Status (1)

Country Link
CN (1) CN116740121A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392157A (zh) * 2023-12-13 2024-01-12 长春理工大学 一种边缘感知的保护性耕作秸秆覆盖率检测方法
CN117557807A (zh) * 2024-01-11 2024-02-13 齐鲁工业大学(山东省科学院) 基于加权滤波增强的卷积神经网络图像预测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392157A (zh) * 2023-12-13 2024-01-12 长春理工大学 一种边缘感知的保护性耕作秸秆覆盖率检测方法
CN117392157B (zh) * 2023-12-13 2024-03-19 长春理工大学 一种边缘感知的保护性耕作秸秆覆盖率检测方法
CN117557807A (zh) * 2024-01-11 2024-02-13 齐鲁工业大学(山东省科学院) 基于加权滤波增强的卷积神经网络图像预测方法
CN117557807B (zh) * 2024-01-11 2024-04-02 齐鲁工业大学(山东省科学院) 基于加权滤波增强的卷积神经网络图像预测方法

Similar Documents

Publication Publication Date Title
CN112183258A (zh) 一种基于上下文信息和注意力机制的遥感图像道路分割方法
CN113888550B (zh) 一种结合超分辨率和注意力机制的遥感图像道路分割方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN110781776B (zh) 一种基于预测和残差细化网络的道路提取方法
CN113011499A (zh) 一种基于双注意力机制的高光谱遥感图像分类方法
CN116740121A (zh) 一种基于专用神经网络和图像预处理的秸秆图像分割方法
CN117078943B (zh) 融合多尺度特征和双注意力机制的遥感影像道路分割方法
CN112991354A (zh) 一种基于深度学习的高分辨率遥感影像语义分割方法
CN111695467A (zh) 基于超像素样本扩充的空谱全卷积高光谱图像分类方法
CN113178255A (zh) 一种基于gan的医学诊断模型对抗攻击方法
CN111291826B (zh) 基于相关性融合网络的多源遥感图像的逐像素分类方法
CN114187450A (zh) 一种基于深度学习的遥感图像语义分割方法
CN113888547A (zh) 基于gan网络的无监督域自适应遥感道路语义分割方法
CN116052016A (zh) 基于深度学习的遥感图像云和云影的精细分割检测方法
CN113362242B (zh) 基于多特征融合网络的图像修复方法
CN114841319A (zh) 一种基于多尺度自适应卷积核的多光谱图像变化检测方法
CN111339862B (zh) 一种基于通道注意力机制的遥感场景分类方法及装置
CN114943893B (zh) 一种土地覆盖分类的特征增强方法
CN114821069A (zh) 融合富尺度特征的双分支网络遥感图像建筑语义分割方法
CN111274905A (zh) 一种AlexNet和SVM相结合的卫星遥感影像土地利用变化检测方法
CN111178304A (zh) 基于全卷积神经网络的高分辨率遥感影像像素级解译方法
CN114445442B (zh) 基于非对称交叉融合的多光谱图像语义分割方法
CN114066871A (zh) 一种新冠肺炎病灶区域分割模型训练的方法
CN112560624A (zh) 基于模型深度集成的高分遥感影像语义分割方法
CN117252936A (zh) 一种适配多种训练策略的红外图像彩色化方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination