CN117635640A - 基于非相干区域监督和像素亲和融合的葡萄精确分割方法 - Google Patents

基于非相干区域监督和像素亲和融合的葡萄精确分割方法 Download PDF

Info

Publication number
CN117635640A
CN117635640A CN202311622826.7A CN202311622826A CN117635640A CN 117635640 A CN117635640 A CN 117635640A CN 202311622826 A CN202311622826 A CN 202311622826A CN 117635640 A CN117635640 A CN 117635640A
Authority
CN
China
Prior art keywords
grape
mask
region
incoherent region
incoherent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311622826.7A
Other languages
English (en)
Inventor
刘雪垠
雷志伟
王逸涵
曾湄
曾梦玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Machinery Research And Design Institute Group Co ltd
Original Assignee
Sichuan Machinery Research And Design Institute Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Machinery Research And Design Institute Group Co ltd filed Critical Sichuan Machinery Research And Design Institute Group Co ltd
Priority to CN202311622826.7A priority Critical patent/CN117635640A/zh
Publication of CN117635640A publication Critical patent/CN117635640A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30181Earth observation
    • G06T2207/30188Vegetation; Agriculture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于非相干区域监督和像素亲和融合的葡萄精确分割方法,包括:S1:采集葡萄图像数据,并对所述葡萄图像数据进行预处理,构建葡萄分割数据集;S2:构建葡萄精细化分割模型,并设置模型参数,输入训练集图片数据进行迭代训练;S3:获取训练好的模型,输入验证集图片数据,得到葡萄精细化分割结果。本发明构建的葡萄精细化分割模型,通过定义非相干区域,采用非相干性区域监督促使网络重点学习非相干区域,再通过融合模型学习到的掩码特征和非相干区域特征,利用建模特征间的关系提升模型的分割性能,实现了对葡萄的精细化分割。

Description

基于非相干区域监督和像素亲和融合的葡萄精确分割方法
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于非相干区域监督和像素亲和融合的葡萄精确分割方法。
背景技术
随着人口老龄化和劳动力短缺问题的进一步加剧,智能化和无人化的智慧葡萄果园是未来葡萄产业的发展趋势。为保证自动化葡萄采摘、病虫检测、产量预测等步骤的顺利执行,首先需采用视觉算法对果园场景下的葡萄进行精确定位和分割,但由于果园环境中的葡萄形状复杂不规则、生长密集、重叠和遮挡现象严重,当下主流的图像分割算法如Mask-RCNN、YOLOACT等难以准确的分割这些葡萄图像,尤其是对于重叠的葡萄串,会出现边缘误分割和漏分割的情况,分割效果不理想,分割的准确性和时效性都有待提高,影响后续自动化任务的进行。有一些精确分割算法利用transform网络对初始预测结果进行逐像素微整,虽然取得了较好的分割效果,但是消耗了大量的计算资源,不适合部署到农业机器人嵌入式设备上。
目前针对葡萄图像分割方法主要可分为两类:一类是传统图像分割算法,根据灰度、颜色、纹理和形状等特征把图像划分成若干互不交迭的区域。比如利用K-means聚类算法对葡萄图像的H分量图进行分割,获取贴叠葡萄串区域,再对葡萄贴叠轮廓进行分析,并通过chan-vese模型进行迭代识别,最终实现对完整目标葡萄串的分割;另一类则是基于深度学习的图像分割算法,通过卷积层不断抽象学习图像特征,进行图像特征提取,在此基础上对图像进行像素级别的分类和分割。例如以全卷积网络(Fully Conv Network,FCN)为主干网络,通过设计跳跃结构和多尺度融合充分利用葡萄局部轮廓信息,同时采用基于最短距离凹点搜寻算法获取重叠葡萄的边界线,进而寻找到双串重叠葡萄分割路径,实现重叠葡萄分割。
上述现有的算法均对重叠葡萄串实现了不错分割效果,但分割的准确性和实用性还有待提高。且对于果园环境下的多重叠葡萄分割还存在以下四个问题:
1、分割精度不高。现有方法无法准确分割出重叠葡萄实例的边缘区域,对于相邻葡萄重叠的边缘区域信息丢失严重,分割准确率较低,分割结果粗糙,且现有方法针对对象是单个或双重叠葡萄串,应用场景相对单一简单,对于实际场景下的多相邻葡萄串存在误分割和漏分割的问题,不利于农业场景中的实际应用。
2、对于重点重叠边界区域的关注度不足。重叠葡萄分割出错区域集中在葡萄的边界和相邻葡萄重叠边缘区域,这些地方分割精度的高低是准确分割出重叠葡萄的关键,现有方法仅关注葡萄整体轮廓,从整体轮廓出发进行特征学习,忽略了易错率较高的重叠区域,缺乏相应重点区域监督学习特征的手段。
3、预处理步骤过多,实用性不强。现有传统图像分割算法为了提取葡萄轮廓信息,事先需采用大量预处理步骤来提取轮廓。
4、模型参数量过大,难以部署到农业智能采摘机器人。现有的精细分割方法往往是靠牺牲计算资源换来的准确度,导致模型冗余,推理速度慢,不适合用于农业机器人的嵌入式设备上。
发明内容
为解决上述问题,本发明提供了一种基于非相干区域监督和像素亲和融合的葡萄精确分割方法,通过定义非相干区域,即分割粗糙和易出错区域,采用非相干性区域监督促使网络重点学习这些非相干区域,增强对易错率较高的重叠区域的特征提取能力,再通过融合模型学习到的掩码特征和非相干区域特征,利用建模特征间的关系进一步提升模型的分割性能,从而实现精细化的实例分割结果,解决了现有的葡萄分割算法分割准确率低、缺乏对重点区域的关注、模型冗余、对重叠葡萄串存在误分割和漏分割等问题。
本发明提供了一种基于非相干区域监督和像素亲和融合的葡萄精确分割方法,具体技术方案如下:
S1:采集葡萄图像数据,并对所述葡萄图像数据进行预处理,构建葡萄分割数据集;
S2:构建葡萄精细化分割模型,并设置模型参数,输入训练集图片数据进行迭代训练;
S3:获取训练好的模型,输入验证集图片数据,得到葡萄精细化分割结果。
进一步的,步骤S1中,对所述葡萄图像数据进行预处理,并构建葡萄分割数据集,具体如下:
对采集的葡萄图像数据进行裁剪统一尺寸大小;
对裁剪后的图像进行标注,并按照预设比例将标注后的图像划分为训练接和验证集。
进一步的,在对裁剪后的图像进行标注时,标注对象为葡萄及葡萄采摘根茎,标注规则为对属于前景葡萄架上的葡萄实例进行标注,不对远景葡萄进行标注。
基于标注规则,符合当下真实场景下的采摘规划。
进一步的,所述葡萄精细化分割模型,包括编码器模块、多任务掩码头,像素亲和性融合模块以及第一预测器和第二预测器;所述多任务掩码头包括目标检测分支、掩码特征分支和非相干区域特征分支;所述编码器模块与所述多任务掩码头之间设有ROI-Align层。
进一步的,所述第一预测器,用于对输入的融合后的葡萄掩码特征,进行3×3、步长为1的卷积操作和3×3、步长为2的反卷积操作;所述第二预测器,用于对输入融合后的葡萄局部非相干区域特征,进行3×3、步长为1的卷积操作和两次2×2,步长为2的转置卷积上采样操作。
进一步的,所述葡萄精细化分割模型对图像处理过程如下:
定义葡萄图像的局部非相干区域,所述葡萄图像的局部非相干区域为相邻葡萄实例重叠边缘区域;
通过近邻域像素对遍历采样,提取葡萄局部非相干区域标签;提取葡萄局部非相干区域特征,同时提取葡萄掩码特征;
将所述葡萄局部非相干区域特征和所述葡萄掩码特征进行特征融合,并筛选各任务所需特征进行压缩,作为残差结构添加到各原始特征中;
将融合后的掩码特征和葡萄局部非相干区域特征经预测器分别输出各自掩码,获取精细化葡萄实例分割结果。
进一步的,葡萄局部非相干区域的提取如下:
其中,提取的葡萄非相干区域粗掩码,Ml-1表示尺度上真实实例分割二值化掩码,U、D分别表示最邻近上采样和下采样,O表示在2×2领域中执行逻辑或运算的下采样操作。
进一步的,所述葡萄掩码特征的提取过程如下:
确定遍历采样集S,每个采样集合包含三组像素采样对,集合S表示如下:
S={[ix,y-5,ix,y+5],[ix-5,y-5,ix+5,y+5],[ix+,y-5,ix-5,y+5]}
其中,i(x,y){0≤x≤W,0≤y≤H}表示粗非相干区域像素点集合,W,H分别表示图像的宽和高;
对采样集合进行遍历后,保留实例掩码图上属于不同实例且都不属于背景的采样对:
其中,Msj表示保留的遍历后属于不同实例的采样对;
对最终保留的采样对进行阈值判断,如果保留的采样对集合即像素采样对在不同实例目标中均表征匹配,表明该采样对属于重叠葡萄掩码的边界区域;
将所有的采样对点集合表示,得到葡萄非相干区域像素集合P(x,y){0≤x≤W,0≤y≤H},获得非相干区域二值化掩码图,表示如下:
其中,表示最终提取的葡萄非相干区域像素点。
进一步的,所述葡萄掩码特征的提取中,还包括对ROI-Align层输出的特征图进行非相干区域加权监督,即对提取到的葡萄非相干区域粗掩码MI和葡萄非相干区域最终掩码MP进行监督。
进一步的,葡萄局部非相干区域特征和葡萄掩码特征的特征融合输出过程如下:
对所述葡萄局部非相干区域特征和所述葡萄掩码特征进行拼接;
之后由三个卷积块构成的非线性瓶颈映射单元,增强拼接特征的非线性描述;
对增强后的拼接特征,根据任务数量进行整流,并计算任务的特征权重;
基于所述特征权重和所述拼接特征,通过乘积组合获得任务特征的共享表示;
对所述共享表示进行通道缩减操作,并输入到通道注意力中进行细化后,将细化后的特征作为残差模块添加到输入特征中,获取融合后得葡萄掩码特征和融合后的葡萄局部非相干区域特征。
本发明的有益效果如下:
本发明以非相干区域监督作为葡萄掩码分割中易出错区域和分割粗糙区域的特征提取监督方法,在模型学习掩码特征的同时提取非相干区域信息,引导模型更关注这些重点区域,同时以像素亲和性替代传统特征共享的方式来建模任务间关系,更好的捕获掩码特征学习任务和非相干区域特征学习任务的相关性,使得提取到的掩码特征和非相干区域特征更充分的融合,进而通过融合后的特征指导更精准的葡萄掩码输出结果,解决主流分割算法对果园环境下葡萄的误分割的问题,提升模型最终的分割性能,实现葡萄实例的精确分割,同时减小算法模型参数量,并加快了模型推理时间。
附图说明
图1是本发明的方法整体流程示意图。
图2是本发明的葡萄精细化分割模型架构示意图。
图3是本发明的模型处理流程示意图。
图4是本发明的像素亲和性特征融合流程示意图。
图5是本发明的预测器结构示意图。
图6是本发明的实例分割仿真对比图。
具体实施方式
在下面的描述中对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例的描述中,需要说明的是,指示方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接连接,也可以通过中间媒介间接连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
本发明的实施例1公开了一种基于非相干区域监督和像素亲和融合的葡萄精确分割方法,如图1所示,具体流程如下:
S1:采集葡萄图像数据,并对所述葡萄图像数据进行预处理,构建葡萄分割数据集;
所述对所述葡萄图像数据进行预处理,包括对采集的葡萄图像数据进行裁剪统一尺寸大小,使得输入模型的图像数据大小一致;
具体的,可将葡萄图像尺寸大小统一裁剪为640*480;
采用可视化图像标注工具Labelme软件,对裁剪后的图像进行标注;
标注对象为葡萄及葡萄采摘根茎,标注规则为对属于前景葡萄架上的葡萄实例进行标注,不对远景葡萄进行标注。
最后按照6:4的比例,将标注后的图像划分为训练接和验证集。
S2:构建葡萄精细化分割模型,并设置模型参数,输入训练集图片数据进行迭代训练;
如图2所示,所述葡萄精细化分割模型,包括编码器模块、多任务掩码头,像素亲和性融合模块以及第一预测器和第二预测器;所述多任务掩码头包括目标检测分支、掩码特征分支和非相干区域特征分支;所述编码器模块与所述多任务掩码头之间设有ROI-Align层。
本实施例中,所述编码器模块采用了和Mask-RCNN类似的结构:即ResNet主干网络、特征金字塔(Feature Pyramid Networks,FPN)、区域候选网络(Region ProposalNetwork,RPN)和ROI-Align(Region of Interest Align)层。
本实施例中,以2048张图像的数据集,按照6:4划分训练集和验证集为例进行说明;
实验设备为Dell Precision 5820Tower,该设备的CPU为Intel i9-10900X,内存为64G,GPU为GeForce RTX 3090,显存为24G。实验***环境为Ubuntu20.04。实验的训练和调试环境分别为pytorch1.10.1,cuda11.3。本实施例的算法在开源框架detectron2-0.6上进行初始化训练和测试,训练过程中初始学习率设置为0.0001,实验迭代60轮,使用自适应学习的Adam优化器替代传统的SGD(Stochastic Gradient Descent)算法进行迭代计算。模型的训练误差设置为0.005,最大迭代次数为5000;
实验评价指标采用平均精确度(Average Precision,AP)来验证算法的分割性能,采用回归框平均精度APBox评估算法对于感兴趣目标的定位性能,采用来评价算法对于边缘和重叠区域的分割性能,/>表示阈值选为[0.5:0.95]时边缘区域实例分割的平均精度,其值越高表明性能越好。
将训练集的图像输入到葡萄精确分割模型中,待模型收敛得到训练后的模型。
如图3所示,基于上述所述的葡萄精细化分割模型,对图像处理过程如下:
定义葡萄图像的局部非相干区域,非相干区域集中于实例边缘和高频区域,基于对重叠葡萄图像分割错误区域的统计发现,易错区域高频出现在葡萄实例重叠的边缘区域,因此本实施例中,将相邻重叠葡萄的边界区域定义为葡萄非相干区域。
其中,非相干区域指的是在深度学习下采样过程中因为图像分辨率的降低而导致在后续上采样无法被正确恢复的区域。在深度学习中,为降低特征图维度和提取特征,通常会采用上采样和下采样操作,然而图像在下采样降低分辨率提取实例特征的过程中存在信息丢失,且丢失的信息无法通过后续的上采样操作重建,这是一个信息损失且不可逆的过程。因信息丢失而导致分割错误的区域即非相干区域,算法在训练学习特征的过程中无法充分学习到这部分区域信息,导致在非相干区域信息丢失的基础上执行分割操作不可避免地会出现掩码输出结果粗糙或者分割出错。
记实例标注二值化掩码为M,本实施例中,葡萄局部非相干区域的提取如下:
其中,提取的葡萄非相干区域粗掩码,Ml-1表示尺度上真实实例分割二值化掩码,U、D分别表示最邻近上采样和下采样,O表示在2×2领域中执行逻辑或运算的下采样操作。
根据提取到的粗略的非相干区域轮廓,遍历非相干区域内的点,对点附近领域进行像素对采样,依据像素对是否表征不同实例目标来保留重叠区域的非相干区域,即葡萄的最终非相干区域信息;
具体过程如下:
确定遍历采样集S,每个采样集合包含三组像素采样对,集合S表示如下:
S={[ix,y-5,ix,y+5],[ix-5,y-5,ix+5,y+5],[ix+,y-5,ix-5,y+5]}
其中,i(x,y){0≤x≤W,0≤y≤H}表示粗非相干区域像素点集合,W,H分别表示图像的宽和高;
对采样集合进行遍历后,保留实例掩码图上属于不同实例且都不属于背景的采样对:
其中,Msj表示保留的遍历后属于不同实例的采样对;
对最终保留的采样对进行阈值判断,如果保留的采样对集合即像素采样对在不同实例目标中均表征匹配,表明该采样对属于重叠葡萄掩码的边界区域;
将所有的采样对点集合表示,得到葡萄非相干区域像素集合P(x,y){0≤x≤W,0≤y≤H},获得非相干区域二值化掩码图,表示如下:
其中,表示最终提取的葡萄非相干区域像素点。
本实施例中,为了克服上下采样带来的空间信息丢失的问题,还包括对ROI-Align层输出的特征图进行非相干区域加权监督,即对提取到的葡萄非相干区域粗掩码MI和葡萄非相干区域最终掩码MP进行监督,引导模型学习葡萄非相干区域特征;
非相干区域分支的损失函数定义如下:
L=w1L1(M,MI)+w2L2(M,MP)
其中,L1和L2分别表示针对粗非相干区域和葡萄非相干区域的损失函数,w1和w2表示权重系数,用于加强葡萄非相干区域的特征提取监督;
本实施例中,针对非相干区域信息监督采用Dice-BCE联合损失函数,因为用二元交叉熵损失函数提取的边界模糊粗糙,不适合精细化的葡萄分割任务,而Dice损失函数用于衡量预测与真实值间的重合度,有利于提取精细的边界。
BCE损失函数和Dice损失函数公式如下:
LBCE(M,MI)=-(MI*ln(M)+(1-MI)′ln(1-M))
其中,i表示像素位置,H和W分别表示预测边界图的高度和宽度,t表示避免分母为0的平滑项系数,设为1;
进而得到对于非相干区域监督的损失函数:
L=w1LBCE(M,MI)+w2(LBCE(M,MP)+LDice(M,MP))最后,将所述葡萄局部非相干区域特征和所述葡萄掩码特征进行特征融合,并筛选各任务所需特征进行压缩,作为残差结构添加到各原始特征中;所述原始特征即葡萄局部非相干区域特征和葡萄掩码特征;
将融合后的掩码特征和葡萄局部非相干区域特征经预测器分别输出各自掩码,获取精细化葡萄实例分割结果。
多任务学习(Multi-Task Learning)的关键在于寻找任务间的关系,即在不同的联合任务学习中找到明确的共同模式。如果任务间的关系衡量得当,来自不同任务间的特征就能相互提供额外的有用信息,促进任务增益。一般的多任务学习融合采用了特征共享的方式,但这种方式占用过多计算资源,且融合的特征存在过多干扰和噪声,不利于部署到移动嵌入式设备上;本实施例中,为了更好地融合来自非相干区域分支和掩码分支的特征,在权衡算力与性能的基础上提出了像素亲和性融合来建模任务间关系,以更好的捕获任务间的相关性,从而提升特征学习性能。
像素亲和性指的是特征图上的同一像素对在不同任务间具有标签相关性。非相干区域本就属于实例掩码的一部分,非相干区域特征的像素标签与同一位置上的掩码区域特征像素标签一致,这使得掩码分支任务和非相干分支任务间存在像素亲和关系。本实施例中,通过建模任务间的像素亲和关系,来促进非相干区域特征和掩码特征更好的融合。
如图4所示,本实施例中,葡萄局部非相干区域特征和葡萄掩码特征的特征融合输出过程如下:
对所述葡萄局部非相干区域特征和所述葡萄掩码特征/>进行拼接;H、W、C分别表示输入图像的高、宽和通道数;
之后由三个卷积块构成的非线性瓶颈映射单元f(),增强拼接特征的非线性描述,表示如下:
X=f(Concat(XM,XI))
对增强后的拼接特征,根据任务数量进行整流,并采用Softmax函数计算任务的特征权重,表示如下:
Xweight=Softmax(Xreshape)
其中,表示任务的特征权重,反应了不同任务特征对当前任务预测的贡献,Xreshape表示增强后的拼接特征,N为任务数量,N=2。
基于所述特征权重和所述拼接特征,通过乘积的方式组合,获得任务特征的共享表示建立两个任务间的像素亲和关系:
Xshared=[XM,XI]′Xweight
对所述共享表示进行通道缩减操作,并输入到通道注意力中进行细化后,将细化后的特征作为残差模块添加到输入特征中,获取融合后得葡萄掩码特征和融合后的葡萄局部非相干区域特征,表示如下:
XM_out=SE(freduction(Xshared))+XM
XI_out=SE(freduction(Xshared))+XI
其中,freduction表示通道缩减操作,分别表示最后的葡萄掩码输出特征和葡萄局部的非相干区域输出特征。
结合图5所示,将融合后的葡萄掩码特征输入到所述第一预测器,进行3×3、步长为1的卷积操作和3×3、步长为2的反卷积操作,得到最终的掩码输出;将融合后的葡萄局部非相干区域特征输入到所述第二预测器,进行3×3、步长为1的卷积操作和两次2×2,步长为2的转置卷积上采样操作,得到非相干区域掩码输出。
S3:获取训练好的模型,输入验证集图片数据,得到葡萄精细化分割结果。
将上述划分后的测试集输入到训练好的模型中,获得葡萄的可视化精细化实例分割结果和评价指标结果。与现有的几种先进实例分割方法YOLACT++、SOLOv2、Mask R-CNN、BmaskR-CNN、Pointrend的对比实验结果如下:
表1:试验结果对比表
由表1可知,本实施例的算法平均精确度高于现有的其他五种算法,在反应定位精度的APBox上取得了和其他算法相当的检测效果。更重要的是,在反应边缘区域实例分割精度平均指标的上也远高于其他算法,为52.7%,证明了在复杂的葡萄边界和重叠区域本发明所提算法分割性能最好。
上述6种算法具体分割效果如图6所示。本实施例的方法小幅度降低了检测速度,但分割精度大幅度提高,取得了最好的分割效果,尤其针对葡萄的重叠边界区域,通过建立非相干分支学习葡萄的非相干区域特征,采用非相干区域监督引导网络重点学习葡萄分割出错区域和重叠边界区域的特征;同时改进损失函数,提取更为精细的边界特征;最后建立像素亲和性融合模块融合掩码分支和非相干分支,让任务间的特征得到充分融合,实现任务特征间的共享和互补,能够精确分割出重叠葡萄串。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (10)

1.一种基于非相干区域监督和像素亲和融合的葡萄精确分割方法,其特征在于,包括:
S1:采集葡萄图像数据,并对所述葡萄图像数据进行预处理,构建葡萄分割数据集;
S2:构建葡萄精细化分割模型,并设置模型参数,输入训练集图片数据进行迭代训练;
S3:获取训练好的模型,输入验证集图片数据,得到葡萄精细化分割结果。
2.根据权利要求1所述的葡萄精确分割方法,其特征在于,步骤S1中,对所述葡萄图像数据进行预处理,并构建葡萄分割数据集,具体如下:
对采集的葡萄图像数据进行裁剪统一尺寸大小;
对裁剪后的图像进行标注,并按照预设比例将标注后的图像划分为训练接和验证集。
3.根据权利要求2所述的葡萄精确分割方法,其特征在于,在对裁剪后的图像进行标注时,标注对象为葡萄及葡萄采摘根茎,标注规则为对属于前景葡萄架上的葡萄实例进行标注,不对远景葡萄进行标注。
4.根据权利要求1所述的葡萄精确分割方法,其特征在于,所述葡萄精细化分割模型,包括编码器模块、多任务掩码头,像素亲和性融合模块以及第一预测器和第二预测器;所述多任务掩码头包括目标检测分支、掩码特征分支和非相干区域特征分支,编码器模块与所述多任务掩码头之间设有ROI-Align层。
5.根据权利要求4所述的葡萄精确分割方法,其特征在于,所述第一预测器,用于对输入的融合后的葡萄掩码特征,进行3×3、步长为1的卷积操作和3×3、步长为2的反卷积操作;所述第二预测器,用于对输入融合后的葡萄局部非相干区域特征,进行3×3、步长为1的卷积操作和两次2×2,步长为2的转置卷积上采样操作。
6.根据权利要求4-5任一所述的葡萄精确分割方法,其特征在于,所述葡萄精细化分割模型对图像处理过程如下:
定义葡萄图像的局部非相干区域,所述葡萄图像的局部非相干区域为相邻葡萄实例重叠边缘区域;
通过近邻域像素对遍历采样,提取葡萄局部非相干区域标签;提取葡萄局部非相干区域特征,同时提取葡萄掩码特征;
将所述葡萄局部非相干区域特征和所述葡萄掩码特征进行特征融合,并进行压缩,将压缩后的特征作为残差结构添加到各原始特征中;
将融合后的掩码特征和葡萄局部非相干区域特征经预测器分别输出各自掩码,获取精细化葡萄实例分割结果。
7.根据权利要求6所述的葡萄精确分割方法,其特征在于,葡萄局部非相干区域的提取如下:
其中,提取的葡萄非相干区域粗掩码,Ml-1表示尺度上真实实例分割二值化掩码,U、D分别表示最邻近上采样和下采样,O表示在2×2领域中执行逻辑或运算的下采样操作。
8.根据权利要求7所述的葡萄精确分割方法,其特征在于,所述葡萄掩码特征的提取过程如下:
确定遍历采样集S,每个采样集合包含三组像素采样对,集合S表示如下:
S={[ix,y-5,ix,y+5],[ix-5,y-5,ix+5,y+5],[ix+,y-5,ix-5,y+5]}
其中,i(x,y){0≤x≤W,0≤y≤H}表示粗非相干区域像素点集合,W,H分别表示图像的宽和高;
对采样集合进行遍历后,保留实例掩码图上属于不同实例且都不属于背景的采样对:
其中,Msj表示保留的遍历后属于不同实例的采样对;
对最终保留的采样对进行阈值判断,如果保留的采样对集合即像素采样对在不同实例目标中均表征匹配,表明该采样对属于重叠葡萄掩码的边界区域;
将所有的采样对点集合表示,得到葡萄非相干区域像素集合P(x,y){0≤x≤W,0≤y≤H},获得非相干区域二值化掩码图,表示如下:
其中,表示最终提取的葡萄非相干区域像素点。
9.根据权利要求8所述的葡萄精确分割方法,其特征在于,所述葡萄掩码特征的提取中,还包括对ROI-Align层输出的特征图进行非相干区域加权监督,即对提取到的葡萄非相干区域粗掩码MI和葡萄非相干区域最终掩码MP进行监督。
10.根据权利要求6所述的葡萄精确分割方法,其特征在于,葡萄局部非相干区域特征和葡萄掩码特征的特征融合输出过程如下:
对所述葡萄局部非相干区域特征和所述葡萄掩码特征进行拼接;
之后由三个卷积块构成的非线性瓶颈映射单元,增强拼接特征的非线性描述;
对增强后的拼接特征,根据任务数量进行整流,并计算任务的特征权重;
基于所述特征权重和所述拼接特征,通过乘积组合获得任务特征的共享表示;
对所述共享表示进行通道缩减操作,并输入到通道注意力中进行细化后,将细化后的特征作为残差模块添加到输入特征中,获取融合后得葡萄掩码特征和融合后的葡萄局部非相干区域特征。
CN202311622826.7A 2023-11-30 2023-11-30 基于非相干区域监督和像素亲和融合的葡萄精确分割方法 Pending CN117635640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311622826.7A CN117635640A (zh) 2023-11-30 2023-11-30 基于非相干区域监督和像素亲和融合的葡萄精确分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311622826.7A CN117635640A (zh) 2023-11-30 2023-11-30 基于非相干区域监督和像素亲和融合的葡萄精确分割方法

Publications (1)

Publication Number Publication Date
CN117635640A true CN117635640A (zh) 2024-03-01

Family

ID=90017722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311622826.7A Pending CN117635640A (zh) 2023-11-30 2023-11-30 基于非相干区域监督和像素亲和融合的葡萄精确分割方法

Country Status (1)

Country Link
CN (1) CN117635640A (zh)

Similar Documents

Publication Publication Date Title
CN109118479B (zh) 基于胶囊网络的绝缘子缺陷识别定位装置及方法
CN110992381A (zh) 一种基于改进Vibe+算法的运动目标背景分割方法
CN111612817A (zh) 基于深浅特征自适应融合与上下文信息的目标跟踪方法
CN106557740B (zh) 一种遥感图像中油库目标的识别方法
CN115546768B (zh) 基于多尺度机制和注意力机制的路面标线识别方法及***
CN113569724B (zh) 基于注意力机制和扩张卷积的道路提取方法及***
CN110956207B (zh) 一种光学遥感影像全要素变化检测方法
CN113240623B (zh) 一种路面病害检测方法及装置
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
CN113283282B (zh) 一种基于时域语义特征的弱监督时序动作检测方法
CN112464983A (zh) 一种用于苹果树叶病害图像分类的小样本学习方法
CN113469950A (zh) 一种基于深度学习的复合绝缘子异常发热缺陷的诊断方法
CN114170511A (zh) 基于Cascade RCNN的路面裂缝病害识别方法
CN116721414A (zh) 一种医学图像细胞分割与跟踪方法
CN116883650A (zh) 一种基于注意力和局部拼接的图像级弱监督语义分割方法
CN115019163A (zh) 基于多源大数据的城市要素识别方法
CN115700737A (zh) 一种基于视频监控的溢油检测方法
CN115830302A (zh) 一种多尺度特征提取融合配电网设备定位识别方法
CN111967526A (zh) 基于边缘映射和深度学习的遥感图像变化检测方法及***
CN110889418A (zh) 一种气体轮廓识别方法
Al-Shammri et al. A combined method for object detection under rain conditions using deep learning
CN113673534B (zh) 一种基于Faster RCNN的RGB-D图像果实检测方法
CN117635640A (zh) 基于非相干区域监督和像素亲和融合的葡萄精确分割方法
CN111415350B (zh) 一种用于检测宫颈病变的***镜图像识别方法
CN114596433A (zh) 一种绝缘子识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination