CN115063591B - 一种基于边缘度量关系的rgb图像语义分割方法及装置 - Google Patents

一种基于边缘度量关系的rgb图像语义分割方法及装置 Download PDF

Info

Publication number
CN115063591B
CN115063591B CN202210883738.1A CN202210883738A CN115063591B CN 115063591 B CN115063591 B CN 115063591B CN 202210883738 A CN202210883738 A CN 202210883738A CN 115063591 B CN115063591 B CN 115063591B
Authority
CN
China
Prior art keywords
edge
point
semantic segmentation
network
measurement relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210883738.1A
Other languages
English (en)
Other versions
CN115063591A (zh
Inventor
张健
李月华
朱世强
陈烨恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210883738.1A priority Critical patent/CN115063591B/zh
Publication of CN115063591A publication Critical patent/CN115063591A/zh
Application granted granted Critical
Publication of CN115063591B publication Critical patent/CN115063591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于边缘度量关系的RGB图像语义分割方法及装置,该方法包括:构建语义分割网络的网络主体;从所述网络主体中提取可分离的中间层特征,构建边缘度量关系模块;组合所述网络主体与所述边缘度量关系模块,构建基于边缘度量关系的语义分割网络;对所述基于边缘度量关系的语义分割网络进行训练;输入待测RGB图像至训练后的语义分割网络,得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。

Description

一种基于边缘度量关系的RGB图像语义分割方法及装置
技术领域
本发明属于计算机图像处理技术领域,尤其涉及一种基于边缘度量关系的RGB图像语义分割方法及装置。
背景技术
语义分割是计算机视觉领域的常见任务,面向RGB图像的分割任务更是其中重要分支,被广泛运用于机器人作业、自动驾驶、安防监控等领域。现阶段,大部分的RGB语义分割算法模型是以深度学习框架为基础,如FCN、UNet、DeepLab、PSPNet等。
目前,诸如上述的RGB语义分割网络在KIITI、MSRC、Coco等公开数据集上取得了较好的表现,但相应了带来了样本尺寸大、网络模型参数量多、设备算力需求高等问题。实际工程任务中,受限于光线条件复杂、待分割目标种类多、场景层次性丰富等条件,目标边缘的语义分类往往表现不佳。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
为降低网络的推理开销,常用的方法包括模型压缩、参数量化、输入裁剪等方法。其中,模型压缩涉及大量的模型重构工作与复杂的多阶段训练要求;参数量化与输入裁剪则会带来精度的下降。针对目标边缘表现不佳的问题,使用传统的Canny算子提取目标的边缘信息作为额外的监督信息,但带来了额外的模型推理开销。
发明内容
针对现有技术的不足,本申请实施例的目的是提供一种基于边缘度量关系的RGB图像语义分割方法及装置。
根据本申请实施例的第一方面,提供一种基于边缘度量关系的RGB图像语义分割方法,包括:
构建语义分割网络的网络主体;
从所述网络主体中提取出可分离的中间层特征图,构建边缘度量关系模块;
组合所述网络主体与所述边缘度量关系模块,构建基于边缘度量关系的语义分割网络;
对所述基于边缘度量关系的语义分割网络进行训练;
输入待测RGB图像至训练后的语义分割网络, 得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。
进一步地,所述中间层特征为所述网络主体中解码器最后一层的输出特征。
进一步地,从所述网络主体中提取可分离的中间层特征,构建边缘度量关系模块,包括:
S21:选取所述中间层特征对应的特征图中的第一个点作为当前目标点;
S22:以所述当前目标点为中心,构建预定邻域扩张系数的邻域区间;
S23:判断所述当前目标点是否为边缘冲突点;
S24:若所述当前目标点为边缘冲突点,则计算所述当前目标点与所述邻域区间内其他点之间的相对距离,得到距离集合;若所述当前目标点不为边缘冲突点,则选取下一个点作为当前目标点,并返回步骤S22;
S25:在所述边缘冲突点和所述边缘冲突点的邻域区间内,获取与所述边缘冲突点距离最近的负样本和距离最远的正样本;
S26:根据所述距离最近的负样本和距离最远的正样本,为所述边缘冲突点构建度量关系;
S27:若所述边缘冲突点不是所述特征图中的最后一个点,则选取下一个点作为当前目标点,并返回步骤S22;若所述边缘冲突点是所述特征图中的最后一个点,则所述边缘度量关系模块构建完成。
进一步地,所述边缘冲突点为包含若干种语义类别的点。
进一步地,所述边缘关系度量模块的损失为所述特征图中所有边缘冲突点的度量关系的平均值。
进一步地,对所述基于边缘度量关系的语义分割网络进行训练,包括:
获取语义分割数据集;
将所述语义分割数据集划分为训练集和测试集,其中所述测试集用于对训练后的所述语义分割网络的有效性进行验证;
对所述训练集进行数据增强;
将增强后的训练集输入所述基于边缘度量关系的语义分割网络中,基于反向传播算法与随机梯度下降法更新网络参数,直至所述基于边缘度量关系的语义分割网络的损失不再下降或已达预设的迭代次数。
进一步地,所述基于边缘度量关系的语义分割网络的损失通过对所述网络主体的损失和所述边缘关系度量模块的损失进行加权求和得到。
根据本申请实施例的第二方面,提供一种基于边缘度量关系的RGB图像语义分割装置,包括:
第一构建模块,用于构建语义分割网络的网络主体;
第二构建模块,用于从所述网络主体中提取可分离的中间层特征,构建边缘度量关系模块;
第三构建模块,用于组合所述网络主体与所述边缘度量关系模块,构建基于边缘度量关系的语义分割网络;
训练模块,用于对所述基于边缘度量关系的语义分割网络进行训练;
推理模块,用于输入待测RGB图像至训练后的语义分割网络, 得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。
根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的基于边缘度量关系的RGB图像语义分割方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述的基于边缘度量关系的RGB图像语义分割方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请在现有的语义分割网络模型的基础上,创新性地提取网络中间层特征图以构建边缘度量关系,提升任务表现。在自动驾驶、机器人探测、地外考察等任务场景中,本申请算法能够广泛应用于其中的语义分割功能模块的优化。尤其是在算力、存储等受限的移动端平台,邻域度量关系模块不增加模型推理开销的特性,将更具有竞争力。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种基于边缘度量关系的RGB图像语义分割方法的流程图。
图2是根据一示例性实施例示出的步骤S12的示意图。
图3是根据一示例性实施例示出的步骤S13的示意图。
图4是根据一示例性实施例示出的一种基于边缘度量关系的RGB图像语义分割方 法的效果示意图,其中(a)为RGB图像示意图,(b)为语义真值示意图,(c)为
Figure 879193DEST_PATH_IMAGE001
推理结果 示意图,(d)为
Figure 872032DEST_PATH_IMAGE002
推理结果示意图。
图5是根据一示例性实施例示出的一种基于边缘度量关系的RGB图像语义分割装置的框图。
图6是根据一示例性实施例示出的电子设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据一示例性实施例示出的一种基于边缘度量关系的RGB图像语义分割方法的流程图,如图1所示,该方法应用于终端中,可以包括以下步骤:
步骤S11:构建语义分割网络的网络主体;
步骤S12:从所述网络主体中提取可分离的中间层特征,构建边缘度量关系模块;
步骤S13:组合所述网络主体与所述边缘度量关系模块,构建基于边缘度量关系的语义分割网络;
步骤S14:对所述基于边缘度量关系的语义分割网络进行训练;
步骤S15:输入待测RGB图像至训练后的语义分割网络, 得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。
由上述实施例可知,本申请在现有的语义分割网络模型的基础上,创新性地提取网络中间层特征图以构建边缘度量关系,提升任务表现。在自动驾驶、机器人探测、地外考察等任务场景中,本申请算法能够广泛应用于其中的语义分割功能模块的优化。尤其是在算力、存储等受限的移动端平台,邻域度量关系模块不增加模型推理开销的特性,将更具有竞争力。
具体地,完整的工程流程,可以细分为基础网络构建、边缘度量关系模块构建、网络训练与推理、对比实验以及性能验证等步骤。以公开的语义分割网络为基础,引入边缘度量关系实现对比实验,通过指标性能提升、以及可视化效果,直观反映本文申请方法的有效性。
在步骤S11的具体实施中,构建语义分割网络的网络主体;
具体地,语义分割网络的网络主体的构建,可以使用任意的、中间层特征图可分离的语义分割模型,如FCN、Deep-Lab、U-Net等。上述列举模型为业界常见的、公开的语义分割模型框架,其性能表现在相应任务上都已经得到验证,此处不作赘述。
本申请实施例基于开源的深度学习框架Pytorch,以及开源的 Deeplab-v3模型, 实现网络主体
Figure 386190DEST_PATH_IMAGE001
的部署。具体地,使用的Deeplab-v3中解码器部分采用Resnet-50(记 为
Figure 312557DEST_PATH_IMAGE003
),编码器(记为
Figure 658088DEST_PATH_IMAGE004
)部分采用多尺度空洞卷积(ASPP)模块。其中,Resnet结构中 包含了4组可分离的中间层特征,记为
Figure 11709DEST_PATH_IMAGE005
具体地,给定输入上述语义分割网络的RGB图片
Figure 357371DEST_PATH_IMAGE006
,以及对应的语义标签
Figure 87430DEST_PATH_IMAGE007
。其中,语义标签包括了n组不同的目标语义类别,表示为
Figure 287467DEST_PATH_IMAGE008
。则当 前的语义分割网络的输出结果为
Figure 562721DEST_PATH_IMAGE009
,相应的网络损失记为
Figure 51472DEST_PATH_IMAGE010
,公式如下:
Figure 319642DEST_PATH_IMAGE011
其中,
Figure 374186DEST_PATH_IMAGE012
表示归一化指数函数,
Figure 335188DEST_PATH_IMAGE013
表示交叉熵损失函数。
步骤S11中,选用了公开的语义分割模型作为基础网络,并在相应数据集上进行训练与测试,后续与本文所提的边缘度量关系模块共同组成了对比实验。同时,引入可分离的中间层特征,为邻域度量关系模块的构建提供了更多的、不同层级的输入特征。
在步骤S12的具体实施中,从所述网络主体中提取可分离的中间层特征,构建边缘度量关系模块;
具体地,如图2所示,此步骤可以包括以下子步骤:
步骤S21:选取所述中间层特征对应的特征图中的第一个点作为当前目标点;
具体地,本申请实施例中所述中间层特征为所述网络主体中解码器最后一层的输 出特征,对应的特征图
Figure 655442DEST_PATH_IMAGE014
,其所有空间位置点共对应
Figure 461724DEST_PATH_IMAGE015
组特征向量
Figure 839616DEST_PATH_IMAGE016
,特征图
Figure 705941DEST_PATH_IMAGE017
表示为:
Figure 731402DEST_PATH_IMAGE018
其中,
Figure 138112DEST_PATH_IMAGE019
表示为该特征图的高度、宽度以及通道数,其实际大小为原始RGB图 片与语义标签的1/4。
在本步骤中,选取第一个点
Figure 167248DEST_PATH_IMAGE020
作为当前目标点。此外,本步骤中还需要将边缘冲 突点的数量count初始化为0,以记录边缘冲突点的数量,作用于后续损失的归一化。
步骤S22:以所述当前目标点为中心,构建预定邻域扩张系数的邻域区间;
具体地,当前目标点
Figure 220786DEST_PATH_IMAGE021
对应的特征向量记为
Figure 702583DEST_PATH_IMAGE016
,对应语义标签记为
Figure 116247DEST_PATH_IMAGE022
。以当 前目标点为中心构建扩张系数为
Figure 203151DEST_PATH_IMAGE023
的邻域区间
Figure 224328DEST_PATH_IMAGE024
,具体表示为:
Figure 193421DEST_PATH_IMAGE025
其中,
Figure 879617DEST_PATH_IMAGE026
为自然数,分别表示为高度与宽度方向的邻域扩张系数。
本申请以邻域扩张区间的方式,取代传统的Canny算子以发掘边缘冲突点。可以通过调整中心扩张系数的方式,将少量的边缘有效目标样本进行扩充。
步骤S23:判断所述当前目标点是否为边缘冲突点;
具体地,所述边缘冲突点为包含若干种语义类别的点,其判别公式表示为:
Figure 148925DEST_PATH_IMAGE027
上述步骤S22~S23中,实现了对当前点
Figure 278686DEST_PATH_IMAGE021
是否为边缘冲突点的判断。以目标点邻 域内的类别分类情况为判别标准,实施流程便捷且贴合真实的数据分布情况。
步骤S24:若所述当前目标点为边缘冲突点,则计算所述当前目标点与所述邻域区间内其他点之间的相对距离,得到距离集合;若所述当前目标点不为边缘冲突点,则选取下一个点作为当前目标点,并返回步骤S22;
具体地,若
Figure 654DEST_PATH_IMAGE028
,即目标点
Figure 756121DEST_PATH_IMAGE021
为边缘冲突点,更新计数函数
Figure 552038DEST_PATH_IMAGE029
, 并进一步计算目标点
Figure 912088DEST_PATH_IMAGE021
与其邻域
Figure 855773DEST_PATH_IMAGE024
内所有其他点之间的相对距离,所有的距离集合记为
Figure 414931DEST_PATH_IMAGE030
,公式表示为:
Figure 127672DEST_PATH_IMAGE031
其中,选用了
Figure 51765DEST_PATH_IMAGE032
距离来衡量两个向量之间的距离,并使用向量的维度d来归一化。
Figure 233479DEST_PATH_IMAGE033
,选取下一个点作为当前目标点,并返回步骤S22;
步骤S21~S24中,引入了边缘冲突点的概念以及判断,使得边缘度量关系模块更加关注易错分的边缘像素点,并有效了降低了边缘度量关系模块的计算量。
步骤S25:在所述边缘冲突点和所述边缘冲突点的邻域区间内,获取与中心点距离最近的负样本和距离最远的正样本;
具体地,从边缘冲突点
Figure 330748DEST_PATH_IMAGE034
的邻域
Figure 960313DEST_PATH_IMAGE035
内,分别寻找与中心点距离最近的负样本(不 同语义类别)点
Figure 602778DEST_PATH_IMAGE036
、以及距离最远的正样本(相同语义类别)点
Figure 724317DEST_PATH_IMAGE037
,判别公式如下:
Figure 625277DEST_PATH_IMAGE038
边缘冲突点的邻域区间内存在大量与中心点相对应的正、负样本,而选取其中的最近距离负样本、最远距离负样本,具有更好的代表意义、并能够提升网络的更新速度。
步骤S26:根据所述距离最近的负样本和距离最远的正样本,为所述边缘冲突点构建度量关系;
具体地,以最近负样本点、最远正样本点,构建度量关系
Figure 47031DEST_PATH_IMAGE039
Figure 375244DEST_PATH_IMAGE039
由上述两点的距 离差值构成,并引入可调节的阈值参数
Figure 62709DEST_PATH_IMAGE040
进一步转变为相对距离关系,具体的计算方式表 达为:
Figure 767360DEST_PATH_IMAGE041
其中,
Figure 309200DEST_PATH_IMAGE040
表示为正样本点与负样本点之间的关系阈值,
Figure 561976DEST_PATH_IMAGE042
上述步骤中,以正负样本之间的相对距离构建度量关系,可以避免网络受单边距 离的影响而过于偏向某一类样本。同时,引入
Figure 189267DEST_PATH_IMAGE043
函数,对度量关系
Figure 432029DEST_PATH_IMAGE039
进行裁剪,也是基 于加速网络更新速度的考量。
步骤S27:若所述边缘冲突点不是所述特征图中的最后一个点,则选取下一个点作为当前目标点,并返回步骤S22;若所述边缘冲突点是所述特征图中的最后一个点,则所述边缘度量关系模块构建完成。
具体地,若
Figure 828375DEST_PATH_IMAGE044
,则所述边缘冲突点不是所述特征图中的最后一个点,选 取下一个点作为当前目标点,并返回步骤S22;若
Figure 701653DEST_PATH_IMAGE045
,则当前特征图
Figure 363710DEST_PATH_IMAGE046
的边缘度量 关系构建完成,即边缘度量关系模块
Figure 879005DEST_PATH_IMAGE047
构建完成。
边缘度量关系模块的损失为所述特征图中所有边缘冲突点的度量关系的平均值, 记为
Figure 661016DEST_PATH_IMAGE048
Figure 252666DEST_PATH_IMAGE049
在步骤S13的具体实施中,组合所述网络主体与所述边缘度量关系模块,构建基于边缘度量关系的语义分割网络;
具体地,组合语义分割网络主体与边缘度量关系模块,构建出完整的基于边缘度 量关系的语义分割网络
Figure 854548DEST_PATH_IMAGE050
。本申请中,后续还会以基于边缘度量关系的语义分割网络
Figure 439113DEST_PATH_IMAGE050
、以及网络主体
Figure 544473DEST_PATH_IMAGE051
构建对比实验,以验证边缘度量关系模块的有效性。
在步骤S14的具体实施中,对所述基于边缘度量关系的语义分割网络进行训练;
具体地,如图3所示,此步骤可以包括以下子步骤:
步骤S31:获取语义分割数据集;
在一实施例中,选用公开的NYU-depth v2语义分割数据集进行训练,其包含带标注的RGB-D图像1449张。该数据集为典型的室内场景,其中样本存在目标样本前后遮挡、目标边缘不清晰、环境光线不统一等挑战。
步骤S32:将所述语义分割数据集划分为训练集和测试集,其中所述测试集用于对训练后的所述语义分割网络的有效性进行验证;
在本实施例中,参照数据集官方定义,分别划分795、645张作为训练集与测试集,划分的数量为本领域内的常规设置,此处不作赘述。在测试集的验证过程中,所述测试集中的所有样本将分别输入所述网络主体和训练后的基于边缘度量关系的语义分割网络进行推理,以构建对比试验,验证训练后的基于边缘度量关系的语义分割网络相较于所述网络主体的更优性。
步骤S33:对所述训练集进行数据增强;
具体地,记输入网络
Figure 307023DEST_PATH_IMAGE050
的RGB训练数据集为
Figure 130623DEST_PATH_IMAGE052
,相应的语义标签图为
Figure 518879DEST_PATH_IMAGE053
。 训练过程中,在线使用随机翻转、剪裁、gamma值变换方法进行数据增强。上述数据增强方 法,能够确保在数据样本数目有限的条件下,模拟出更多的样本分布情况,提升模型在测试 集上的表现。
步骤S34:将增强后的训练集输入所述基于边缘度量关系的语义分割网络中,基于反向传播算法与随机梯度下降法更新网络参数,直至所述基于边缘度量关系的语义分割网络的损失不再下降或已达预设的迭代次数。
具体地,所述基于边缘度量关系的语义分割网络的损失通过对所述网络主体的损 失和所述边缘关系度量模块的损失进行加权求和得到,表示为
Figure 9903DEST_PATH_IMAGE054
Figure 674846DEST_PATH_IMAGE055
其中,
Figure 251321DEST_PATH_IMAGE056
分别表示为语义分割损失与度量关系损失的权重因子,
Figure 177689DEST_PATH_IMAGE057
表示上述一系列在线增强方法对应的接口函数。
训练过程中,语义分割网络的编码器部分所用的Resnet-50结构加载了ImageNet 的预训练参数。网络的更新则以
Figure 257640DEST_PATH_IMAGE058
为目标,并采用反向传播算法与随机梯度下降法更 新网络参数,直至损失
Figure 627573DEST_PATH_IMAGE054
不再下降或已达预设的迭代次数。在一实施例中,更新过程中的初 始学习率为0.01,并隔16次迭代,学习率乘以系数0.1。
在步骤S15的具体实施中,输入待测RGB图像至训练后的语义分割网络, 得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。
具体地,模型地推理过程中,边缘度量关系模块将不参与计算,其开销与基础的语 义分割网络保持一致。如图4中的(a)所示,输入待测试的RGB图像
Figure 222502DEST_PATH_IMAGE059
,模型将输出各语义类 别分类得分
Figure 155823DEST_PATH_IMAGE060
,并以最高得分对应的类别生成如图4中的(b)所示的语义分割图像
Figure 90281DEST_PATH_IMAGE061
,公式如下:
Figure 631115DEST_PATH_IMAGE062
其中,l表示待测试图片的序号;n=40表示NYU-depth v2数据集中的40类语义标注。
在本实施例中,如步骤S13的具体实施部分,分别围绕网络主体
Figure 916603DEST_PATH_IMAGE051
与基于边缘 度量关系的语义分割网络
Figure 981511DEST_PATH_IMAGE050
进行对比实验,验证边缘度量关系的有效性。待步骤S15中 所有的测试样本推理完毕,统计其输出结果并与真实标签进行对比,以平均交并比(m-IOU) 指标评估模型的性能。验证结果表明,边缘度量关系模块的引入给当前的语义分割任务带 来了显著的提升,
Figure 786787DEST_PATH_IMAGE063
,相较于只使用主体网络提升了3.52%。进一步地,对比图4中 的(c)所示主体网络
Figure 747790DEST_PATH_IMAGE051
的结果,以及图4中的(d)所示的引入边缘度量关系的
Figure 254994DEST_PATH_IMAGE050
网络 结果,后者在边缘上表现出了更好的性能。至此,完成了结果验证以及可视化分析。
与前述的基于边缘度量关系的RGB图像语义分割方法的实施例相对应,本申请还提供了基于边缘度量关系的RGB图像语义分割装置的实施例。
图5是根据一示例性实施例示出的一种基于边缘度量关系的RGB图像语义分割装置框图。参照图5,该装置可以包括:
第一构建模块21,用于构建语义分割网络的网络主体;
第二构建模块22,用于从所述网络主体中提取可分离的中间层特征,构建边缘度量关系模块;
第三构建模块23,用于组合所述网络主体与所述边缘度量关系模块,构建基于边缘度量关系的语义分割网络;
训练模块24,用于对所述基于边缘度量关系的语义分割网络进行训练;
推理模块25,用于输入待测RGB图像至训练后的语义分割网络, 得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于边缘度量关系的RGB图像语义分割方法。如图6所示,为本发明实施例提供的一种基于边缘度量关系的RGB图像语义分割方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的基于边缘度量关系的RGB图像语义分割方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(FlashCard)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。

Claims (9)

1.一种基于边缘度量关系的RGB图像语义分割方法,其特征在于,包括:
构建语义分割网络的网络主体;
从所述网络主体中提取出可分离的中间层特征图,构建边缘度量关系模块;
组合所述网络主体与所述边缘度量关系模块,构建基于边缘度量关系的语义分割网络;
对所述基于边缘度量关系的语义分割网络进行训练;
输入待测RGB图像至训练后的语义分割网络, 得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像;
其中,从所述网络主体中提取可分离的中间层特征,构建边缘度量关系模块,包括:
S21:选取所述中间层特征对应的特征图中的第一个点作为当前目标点;
S22:以所述当前目标点为中心,构建预定邻域扩张系数的邻域区间;
S23:判断所述当前目标点是否为边缘冲突点;
S24:若所述当前目标点为边缘冲突点,则计算所述当前目标点与所述邻域区间内其他点之间的相对距离,得到距离集合;若所述当前目标点不为边缘冲突点,则选取下一个点作为当前目标点,并返回步骤S22;
S25:在所述边缘冲突点和所述边缘冲突点的邻域区间内,获取与所述边缘冲突点距离最近的负样本和距离最远的正样本;
S26:根据所述距离最近的负样本和距离最远的正样本,为所述边缘冲突点构建度量关系;
S27:若所述边缘冲突点不是所述特征图中的最后一个点,则选取下一个点作为当前目标点,并返回步骤S22;若所述边缘冲突点是所述特征图中的最后一个点,则所述边缘度量关系模块构建完成。
2.根据权利要求1所述的方法,其特征在于,所述中间层特征为所述网络主体中解码器最后一层的输出特征。
3.根据权利要求1所述的方法,其特征在于,所述边缘冲突点为包含若干种语义类别的点。
4.根据权利要求1所述的方法,其特征在于,所述边缘度量关系模块的损失为所述特征图中所有边缘冲突点的度量关系的平均值。
5.根据权利要求1所述的方法,其特征在于,对所述基于边缘度量关系的语义分割网络进行训练,包括:
获取语义分割数据集;
将所述语义分割数据集划分为训练集和测试集,其中所述测试集用于对训练后的所述语义分割网络的有效性进行验证;
对所述训练集进行数据增强;
将增强后的训练集输入所述基于边缘度量关系的语义分割网络中,基于反向传播算法与随机梯度下降法更新网络参数,直至所述基于边缘度量关系的语义分割网络的损失不再下降或已达预设的迭代次数。
6.根据权利要求1所述的方法,其特征在于,所述基于边缘度量关系的语义分割网络的损失通过对所述网络主体的损失和所述边缘度量关系模块的损失进行加权求和得到。
7.一种基于边缘度量关系的RGB图像语义分割装置,其特征在于,包括:
第一构建模块,用于构建语义分割网络的网络主体;
第二构建模块,用于从所述网络主体中提取可分离的中间层特征,构建边缘度量关系模块;
第三构建模块,用于组合所述网络主体与所述边缘度量关系模块,构建基于边缘度量关系的语义分割网络;
训练模块,用于对所述基于边缘度量关系的语义分割网络进行训练;
推理模块,用于输入待测RGB图像至训练后的语义分割网络, 得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像;
其中,从所述网络主体中提取可分离的中间层特征,构建边缘度量关系模块,包括:
S21:选取所述中间层特征对应的特征图中的第一个点作为当前目标点;
S22:以所述当前目标点为中心,构建预定邻域扩张系数的邻域区间;
S23:判断所述当前目标点是否为边缘冲突点;
S24:若所述当前目标点为边缘冲突点,则计算所述当前目标点与所述邻域区间内其他点之间的相对距离,得到距离集合;若所述当前目标点不为边缘冲突点,则选取下一个点作为当前目标点,并返回步骤S22;
S25:在所述边缘冲突点和所述边缘冲突点的邻域区间内,获取与所述边缘冲突点距离最近的负样本和距离最远的正样本;
S26:根据所述距离最近的负样本和距离最远的正样本,为所述边缘冲突点构建度量关系;
S27:若所述边缘冲突点不是所述特征图中的最后一个点,则选取下一个点作为当前目标点,并返回步骤S22;若所述边缘冲突点是所述特征图中的最后一个点,则所述边缘度量关系模块构建完成。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6任一项所述的基于边缘度量关系的RGB图像语义分割方法。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-6中任一项所述的基于边缘度量关系的RGB图像语义分割方法的步骤。
CN202210883738.1A 2022-07-26 2022-07-26 一种基于边缘度量关系的rgb图像语义分割方法及装置 Active CN115063591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210883738.1A CN115063591B (zh) 2022-07-26 2022-07-26 一种基于边缘度量关系的rgb图像语义分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210883738.1A CN115063591B (zh) 2022-07-26 2022-07-26 一种基于边缘度量关系的rgb图像语义分割方法及装置

Publications (2)

Publication Number Publication Date
CN115063591A CN115063591A (zh) 2022-09-16
CN115063591B true CN115063591B (zh) 2022-11-29

Family

ID=83206751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210883738.1A Active CN115063591B (zh) 2022-07-26 2022-07-26 一种基于边缘度量关系的rgb图像语义分割方法及装置

Country Status (1)

Country Link
CN (1) CN115063591B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN111292330A (zh) * 2020-02-07 2020-06-16 北京工业大学 基于编解码器的图像语义分割方法及装置
CN111462126A (zh) * 2020-04-08 2020-07-28 武汉大学 一种基于边缘增强的语义图像分割方法及***
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
CN112907986A (zh) * 2021-01-12 2021-06-04 浙江大学 一种基于数字孪生场景和边缘云的动态时间窗路口调度方法
EP3965052A1 (en) * 2020-09-04 2022-03-09 Robert Bosch GmbH Device and method of training a generative neural network
CN114187311A (zh) * 2021-12-14 2022-03-15 京东鲲鹏(江苏)科技有限公司 一种图像语义分割方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047332A (zh) * 2019-04-18 2019-07-23 太原理工大学 一种基于飞行计划的冲突检测方法
US11010929B2 (en) * 2019-07-30 2021-05-18 Hewlett Packard Enterprise Development Lp Image compression with bounded deep neural network perception loss
CN114495578B (zh) * 2022-02-22 2022-12-02 上海交通大学 一种基于冲突点的多虚拟车队的无信号灯路口车辆调度方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
CN111292330A (zh) * 2020-02-07 2020-06-16 北京工业大学 基于编解码器的图像语义分割方法及装置
CN111462126A (zh) * 2020-04-08 2020-07-28 武汉大学 一种基于边缘增强的语义图像分割方法及***
EP3965052A1 (en) * 2020-09-04 2022-03-09 Robert Bosch GmbH Device and method of training a generative neural network
CN112907986A (zh) * 2021-01-12 2021-06-04 浙江大学 一种基于数字孪生场景和边缘云的动态时间窗路口调度方法
CN114187311A (zh) * 2021-12-14 2022-03-15 京东鲲鹏(江苏)科技有限公司 一种图像语义分割方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于加权损失函数的多尺度对抗网络图像语义分割算法;张宏钊等;《计算机应用与软件》;20200112(第01期);全文 *

Also Published As

Publication number Publication date
CN115063591A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN111860573B (zh) 模型训练方法、图像类别检测方法、装置和电子设备
US10769487B2 (en) Method and device for extracting information from pie chart
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN109960742B (zh) 局部信息的搜索方法及装置
CN105005772A (zh) 一种视频场景检测方法
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN113486981A (zh) 基于多尺度特征注意力融合网络的rgb图像分类方法
CN112529005B (zh) 基于语义特征一致性监督金字塔网络的目标检测方法
CN111414948B (zh) 目标对象检测方法和相关装置
CN114241505B (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
CN111739037A (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN112308148A (zh) 缺陷类别识别、孪生神经网络训练方法、装置及存储介质
CN112149689A (zh) 基于目标领域自监督学习的无监督领域适应方法和***
CN113569687B (zh) 基于双流网络的场景分类方法、***、设备及介质
CN113762303B (zh) 图像分类方法、装置、电子设备及存储介质
CN108428234B (zh) 基于图像分割结果评价的交互式分割性能优化方法
CN113537207B (zh) 视频处理方法、模型的训练方法、装置以及电子设备
CN102148919B (zh) 一种球类检测的方法及***
CN111242114B (zh) 文字识别方法及装置
CN115063591B (zh) 一种基于边缘度量关系的rgb图像语义分割方法及装置
CN116977859A (zh) 基于多尺度图像切割和实例困难度的弱监督目标检测方法
CN116541507A (zh) 一种基于动态语义图神经网络的视觉问答方法及***
CN115512428A (zh) 一种人脸活体判别方法、***、装置和存储介质
CN113780335B (zh) 一种小样本商品图像分类方法、装置、设备及存储介质
CN115620083A (zh) 模型训练方法、人脸图像质量评价方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant