CN111915636B - 一种废弃物目标定位和分割的方法和装置 - Google Patents
一种废弃物目标定位和分割的方法和装置 Download PDFInfo
- Publication number
- CN111915636B CN111915636B CN202010637308.2A CN202010637308A CN111915636B CN 111915636 B CN111915636 B CN 111915636B CN 202010637308 A CN202010637308 A CN 202010637308A CN 111915636 B CN111915636 B CN 111915636B
- Authority
- CN
- China
- Prior art keywords
- segmentation
- network
- image
- training
- segmentation network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000002699 waste material Substances 0.000 title claims abstract description 54
- 230000011218 segmentation Effects 0.000 claims abstract description 215
- 239000010813 municipal solid waste Substances 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 87
- 238000005381 potential energy Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 9
- 230000008685 targeting Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 21
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003915 air pollution Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002910 solid waste Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
发明人提出了一种多层级的垃圾废弃物目标定位与分割的技术方案,通过结合场景级别的粗略分割网络与目标级别的细致分割网络来当前解决垃圾废弃物定位与分割任务中面临的问题,具体包括步骤:获取符合预设标准的图像;先后以粗略分割网络和细致分割网络对所述图像进行处理,然后以CRF模型对分割结果做优化处理,得到语义分割结果。发明人同时还提出了相应的废弃物目标定位和分割的装置。本发明可通过结合全局场景与局部目标之间的关系,构建具有更强鲁棒性的多级网络,解决垃圾废弃物目标定位与分割任务中遇到的极端大小差异问题。
Description
技术领域
本发明涉及计算机软件领域,特别涉及一种废弃物目标定位和分割的方法和装置。
背景技术
随着全世界城市化进程的不断发展,垃圾废弃物管理已经成为各国政府部门关注的核心问题。根据世界银行的报告,到2025年,城市人口将达到43亿,随之每年将生成22亿吨的固体废料。垃圾分类的举措不仅可以更有效地实现变废为宝,还可以减少填埋和焚烧产生的空气污染,因此得到政府的大力提倡。然而由于实行垃圾分类要求苛刻,使得推广存在一定难度。
近年来,计算机视觉技术的快速发展使得研究者能够研发出具有鲁棒性的图像算法,使之辅助执行垃圾废弃物收集与分类任务。尤其是将语义分割算法应用在垃圾废弃物图像上,可以提升诸如:基于内容的图像检索、目标姿态估计、机械臂抓取等相关任务的效果,进而实现垃圾废弃物的自动化分类。
但由于垃圾废弃物目标在图像区域中的成像大小存在极端的不稳定,使得通用的语义分割模型在垃圾废弃物目标的分割任务中容易出现漏检或误检现象,无法满足实际应用场景中的需求。
发明内容
因此,发明人认为,有必要发明一种多层级的垃圾废弃物目标定位与分割方法。从仿生的角度出发,发明人发现,人类的视觉***可以轻易的识别出具有极端大小差异的各类垃圾废弃物目标。根据研究,人眼首先对整体场景进行感知,获得潜在的垃圾废弃物目标位置信息,随后进一步对潜在区域进行更为细致的检测与识别。因此,通过借鉴人类视觉***的工作原理,发明人发明了一种多层级的垃圾废弃物目标定位与分割方法,通过结合场景级别的粗略分割网络与目标级别的细致分割网络来当前解决垃圾废弃物定位与分割任务中面临的问题。
为此,发明人提出了一种废弃物目标定位和分割的方法,包括如下步骤:
获取符合预设标准的图像,所述预设标准包括:所述图像包含彩色图像;
以第一分割网络对所述图像进行处理,生成第一分割结果以及潜在的目标区域;
以第二分割网络对所述潜在的目标区域进行分割操作,生成第二分割结果;
以CRF模型对所述第一分割结果和第二分割结果做优化处理,得到语义分割结果;
其中,所述第一分割网络为一场景级别的粗略分割网络,所述第二分割网络为一目标级别的细致分割网络,且所述第一分割网络、第二分割网络、CRF模型均为经过预先训练所得,所述训练基于带有轮廓标注的垃圾废弃物训练数据集进行。
进一步地,所述的废弃物目标定位和分割的方法中,所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库,并从训练数据集中确定训练集和测试集,并且确定需使用的语义分割算法,所述语义分割算法包括FCN、DeepLabv3、PSPNet或CCNet。
进一步地,所述的废弃物目标定位和分割的方法中,所述语义分割算法为DeepLabv3,以预设数量以上的训练数据集图片对DeepLabv3模型进行模型微调,然后得到第一分割网络。
进一步地,所述的废弃物目标定位和分割的方法中,训练获得第二分割网络的步骤包括:
基于第一分割网络,对训练数据集进行模型预测,得到潜在目标的第一分割结果;
以连通区域分析算法生成并截取具体目标的图像区域,用于获取第二分割网络的训练集;
以预设数量以上的所述用于获取第二分割网络的训练集图片对DeepLabv3模型进行模型微调,然后得到第二分割网络。
进一步地,所述的废弃物目标定位和分割的方法中,步骤“获取符合预设标准的图像”具体包括:图像类型为RGBD或RGB;图像中包含彩色图像I的信息,为所述彩色图像I中坐标为(i,j)的像素点标记语义标签为Xij;
步骤“以第一分割网络对所述图像进行处理,生成第一分割结果以及潜在的目标区域”具体包括:
所述第一分割网络Fc的输出特征为其中/>表示整个图像区域的像素信息;
对于所有的(i,j)∈R0,将特征C0 i,j经过Softmax函数缩放后,得到当前像素点关于所属类别的概率值Pc i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0;
基于上述步骤获取的像素点的概率值信息,通过得到第一分割结果,采用连通区域分析算法生成潜在的目标区域。
进一步地,所述的废弃物目标定位和分割的方法中,步骤“基于上述步骤获取的像素点的概率值信息,通过得到第一分割结果,采用连通区域分析算法生成潜在的目标区域”还包括:
对生成得到的L个潜在的目标区域中的第l个目标区域标记与之紧密对应的边界框/>并将边界框/>向四周拓展20%-40%的大小,得到Rl,作为用于获取第二分割网络输入特征的参数。
进一步地,所述的废弃物目标定位和分割的方法中,所述步骤“以第二分割网络对所述潜在的目标区域进行分割操作,生成第二分割结果”具体包括:在图像I上截取Rl范围内的图像,作为用于第二分割网络Ff的新的输入特征,所述第二分割网络的输出特征为:其中/>表示第l个连通区域所对应的边界框内的像素信息,Cl为Hl*Wl*C大小的特征;
对于所有的(i,j)∈Rl,将特征Cl i,j经过Softmax函数缩放后,得到当前像素点关于所属类别的概率值Pl i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0;1≤l≤L;/>和/>表示将图像坐标映射至第l个目标区域的对应位置。
进一步地,所述的废弃物目标定位和分割的方法中,所述的CRF模型表达式为:
E(x,I,D)=Φc(x;I)+α·Φf(x;I)+Ψ(x;I,D),其中Φc(x;I)表示第一分割网络产生的单点势能,Φf(x;I)表示第二分割网络产生的单点势能,Ψ(x;I,D)表示综合图像的分类信息后产生的对点势能,所述分类信息包括颜色、深度或空间位置关系,α为权重参数。
发明人同时还提出了一种废弃物目标定位和分割的装置,包括图像输入单元、分割单元和训练单元;
所述图像输入单元用于获取符合预设标准的图像,所述预设标准包括:所述图像包含彩色图像;
所述分割单元用于以第一分割网络对所述图像进行处理,生成第一分割结果以及潜在的目标区域;
所述分割单元还用于以第二分割网络对所述潜在的目标区域进行分割操作,生成第二分割结果;
所述分割单元还用于以CRF模型对所述第一分割结果和第二分割结果做优化处理,得到语义分割结果;
其中,所述第一分割网络为一场景级别的粗略分割网络,所述第二分割网络为一目标级别的细致分割网络,且所述第一分割网络、第二分割网络、CRF模型均为经过训练单元的预先训练所得,所述训练基于带有轮廓标注的垃圾废弃物训练数据集进行。
进一步地,所述的废弃物目标定位和分割的装置中,所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库,并从训练数据集中确定训练集和测试集,并且确定需使用的语义分割算法,所述语义分割算法包括FCN、DeepLabv3、PSPNet或CCNet。
进一步地,所述的废弃物目标定位和分割的装置中,所述语义分割算法为DeepLabv3,所述训练单元以预设数量以上的训练数据集图片对DeepLabv3模型进行模型微调,然后得到第一分割网络。
进一步地,所述的废弃物目标定位和分割的装置中,所述训练单元训练以获得第二分割网络的方式具体为:
基于第一分割网络,对训练数据集进行模型预测,得到潜在目标的第一分割结果;
以连通区域分析算法生成并截取具体目标的图像区域,用于获取第二分割网络的训练集;
以预设数量以上的所述用于获取第二分割网络的训练集图片对DeepLabv3模型进行模型微调,然后得到第二分割网络。
进一步地,所述的废弃物目标定位和分割的装置中,所述图像获取单元“获取符合预设标准的图像”具体包括:图像类型为RGBD或RGB;图像中包含彩色图像I的信息,为所述彩色图像I中坐标为(i,j)的像素点标记语义标签为Xij;
分割单元“以第一分割网络对所述图像进行处理,生成第一分割结果以及潜在的目标区域”具体包括:
所述第一分割网络Fc的输出特征为
对于所有的(i,j)∈R0,将特征C0 i,j经过Softmax函数缩放后,得到当前像素点关于所属类别的概率值Pc i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0;
基于上述步骤获取的像素点的概率值信息,通过得到第一分割结果,采用连通区域分析算法生成潜在的目标区域。
进一步地,所述的废弃物目标定位和分割的装置中,分割单元“基于上述步骤获取的像素点的概率值信息,通过得到第一分割结果,采用连通区域分析算法生成潜在的目标区域”还包括:
对生成得到的L个潜在的目标区域中的第l个目标区域标记与之紧密对应的边界框/>并将边界框/>向四周拓展20%-40%的大小,得到Rl,作为用于获取第二分割网络输入特征的参数。
进一步地,所述的废弃物目标定位和分割的装置中,分割单元“以第二分割网络对所述潜在的目标区域进行分割操作,生成第二分割结果”具体包括:在图像I上截取Rl范围内的图像,作为用于第二分割网络Ff的新的输入特征,所述第二分割网络的输出特征为:其中/>表示第l个连通区域所对应的边界框内的像素信息,Cl为Hl*Wl*C大小的特征;
对于所有的(i,j)∈Rl,将特征Cl i,j经过Softmax函数缩放后,得到当前像素点关于所属类别的概率值Pl i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0;l∈[1,L];/>和/>表示将图像坐标映射至第l个目标区域的对应位置。
进一步地,所述的废弃物目标定位和分割的装置中,所述的CRF模型表达式为:
E(x,I,D)=Φc(x;I)+α·Φf(x;I)+Ψ(x;I,D),其中Φc(x;I)表示第一分割网络产生的单点势能,Φf(x;I)表示第二分割网络产生的单点势能,Ψ(x;I,D)表示综合图像的分类信息后产生的对点势能,所述分类信息包括颜色、深度或空间位置关系,α为权重参数。
本发明技术方案通过结合全局场景与局部目标之间的关系,构建具有更强鲁棒性的多级网络,解决垃圾废弃物目标定位与分割任务中遇到的极端大小差异问题。本发明技术方案特别提出了一种用于感知图像中潜在目标的场景级别的粗略分割网络和一种用于精确分析局部图像中目标信息的目标级别的细致分割网络,同时还提出了一种适用于垃圾废弃物定位的条件随机场(CRF)模型,以挖掘图像像素间的潜在的关联信息。另外,本发明还提出利用图像的深度信息来进一步提高模型的定位效果。
附图说明
图1为本发明一实施方式所述的废弃物目标定位和分割的方法的流程图;
图2为本发明一实施方式所述的废弃物目标定位和分割的装置的结构示意图。
附图标记说明:
1-图像输入单元
2-分割单元
3-训练单元
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,为本发明一实施方式所述的废弃物目标定位和分割的方法的流程图;所述方法包括如下步骤:
S0、对后续需要使用的第一分割网络、第二分割网络和CRF模型进行预先训练;
S1、获取符合预设标准的图像,所述预设标准包括:所述图像包含彩色图像;
S2、以第一分割网络对所述图像进行处理,生成第一分割结果以及潜在的目标区域;
S3、以第二分割网络对所述潜在的目标区域进行分割操作,生成第二分割结果;
S4、以CRF模型对所述第一分割结果和第二分割结果做优化处理,得到语义分割结果。
以下对各个步骤进行详述。
步骤S0中,所述训练基于带有轮廓标注的垃圾废弃物训练数据集进行,所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库,并从训练数据集中确定训练集和测试集,并且确定需使用的语义分割算法,本实施方式中所述语义分割算法为DeepLabv3,在其他实施方式中,采用的语义分割算法还可以包括FCN、PSPNet或CCNet。得到的所述第一分割网络为一场景级别的粗略分割网络,所述第二分割网络为一目标级别的细致分割网络。
训练获取第一分割网络的方式是以一定数量的训练数据集对DeepLabv3模型进行模型微调(fine-tuning),由于训练结果的好坏与训练数据集的图片数量相关,因此为获取一定质量的训练结果,应保证使用训练数据集的图片数量大于或等于一个相应的预设值。
然后,基于第一分割网络,对训练数据集进行模型预测,得到潜在目标的第一分割结果;以连通区域分析算法生成并截取具体目标的图像区域,用于获取第二分割网络的训练集;以预设数量以上的所述用于获取第二分割网络的训练集图片对DeepLabv3模型进行模型微调,然后得到第二分割网络。
步骤S1中,输入“符合预设标准的图像”,所述的预设标准主要是该图像必须包含彩色图像,此外还可以有深度图像D。其中的图像为RGBD类型图像或RGB图像,其中包含彩色图像I和可选的深度图像D。设图像I的宽为W、高为H,则图像中的所有像素坐标构成集合R0={(i,j)i∈{1....H},j∈{1....W}},令语义标签集合Δ={1,2,...,C},则图像I中任意位置(i,j)的像素点对应的语义标签为xij,且xij∈Δ。
步骤S2所述的第一分割网络,是一种场景级别的粗略分割网络,此处记为Fc,其主要功能是用于获取输入图像I中潜在目标的位置信息,该网络着重捕获正确目标,以及目标的粗略位置。该网络的输出特征为:其中/>表示整个图像区域的像素信息,C0为H*W*C大小的特征。
对于所有的(i,j)∈R0,将特征C0 i,j经过Softmax函数缩放后,得到当前像素点关于所属类别的概率值Pc i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0。得到当前像素点关于所属类别的概率值Pc i,j:
基于上述步骤获取的像素点的概率值信息,通过得到第一分割结果(为一粗略分割结果),采用连通区域分析算法ConnectedComponentanalysis生成若干潜在的目标区域。假设生成得到L个目标区域,且第l个目标区域/>对于每个目标区域,标记与之紧密对应的边界框/>并将边界框/>向四周拓展一定比例(20%-40%,本实施方式中采用30%)的大小,得到Rl。
然后,步骤S3中,在图像I上截取上述边界框Rl范围内的图像,作为新的输入特征。此处提出的第二分割网络为一种目标级别的细致分割网络,记为Ff,用于对特定目标区域进行细致分析,该网络着重提取目标的轮廓等信息。网络的输出特征为:其中/>表示第l个连通区域所对应的边界框内的像素信息,Cl为Hl*Wl*C大小的特征。
对于所有的(i,j)∈Rl,将特征Cl i,j经过Softmax函数,得到当前像素点关于所属类别的概率值Pl i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0;l∈[1,L];/>和/>表示将图像坐标映射至第l个目标区域的对应位置。
在步骤S4中,采用的是本发明提出的适用于垃圾废弃物定位的条件随机场(CRF)模型,该模型可表达为:
E(x,I,D)=Φc(x;I)+α·Φf(x;I)+Ψ(x;I,D),其中Φc(x;I)表示第一分割网络产生的单点势能,Φf(x;I)表示第二分割网络产生的单点势能,Ψ(x;I,D)表示综合图像的颜色、深度、或空间位置关系等信息后产生的对点势能,α为权重参数。
其中,对于Φc(x;I),可进一步表达为:
对于Φf(x;I),可进一步表达为:
并且
此外,对于Ψ(x;I,D),可进一步表达为:
并且有
其中δ(xij≠xuv)表示当且仅当xij≠xuv时值为1,否则为0;w(a)、w(s)、w(d)为对应项的核函数的权重;θα、θβ、θγ、θδ、θε为对应项的方差值;ψd(xij,xuv;D)为可选项,即,当输入图像中具有深度图像D时存在该项,ψd(xij,xuv;D)的引入能在一定程度上提高模型的表现效果。
在模型预测过程中,使用一个可完全分解的概率分布函数Q(x)来逼近原始的联合概率分布P(x),使之最小化K-L散度KL(Q||P):
本实施方式中,采用分块学习的方式进行模型学习,在训练第一分割网络Fc与第二分割网络Ff的过程中,采用标准交叉熵损失函数(CELoss)作为目标函数。在学习条件随机场(CRF)模型的过程中,采用网格搜索方法来优化模型参数。
发明人同时还提出了一种废弃物目标定位和分割的装置,包括图像输入单元1、分割单元2和训练单元3;
所述图像输入单元1用于获取符合预设标准的图像,所述预设标准包括:所述图像包含彩色图像;
所述分割单元2用于以第一分割网络对所述图像进行处理,生成第一分割结果以及潜在的目标区域;
所述分割单元2还用于以第二分割网络对所述潜在的目标区域进行分割操作,生成第二分割结果;
所述分割单元2还用于以CRF模型对所述第一分割结果和第二分割结果做优化处理,得到语义分割结果;
其中,所述第一分割网络为一场景级别的粗略分割网络,所述第二分割网络为一目标级别的细致分割网络,且所述第一分割网络、第二分割网络、CRF模型均为经过训练单元3的预先训练所得,所述训练基于带有轮廓标注的垃圾废弃物训练数据集进行。
训练单元3所进行的训练是基于带有轮廓标注的垃圾废弃物训练数据集进行,所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库,并从训练数据集中确定训练集和测试集,并且确定需使用的语义分割算法,本实施方式中所述语义分割算法为DeepLabv3,在其他实施方式中,采用的语义分割算法还可以包括FCN、PSPNet或CCNet。得到的所述第一分割网络为一场景级别的粗略分割网络,所述第二分割网络为一目标级别的细致分割网络。
训练单元3训练获取第一分割网络的方式是以一定数量的训练数据集对DeepLabv3模型进行模型微调(fine-tuning),由于训练结果的好坏与训练数据集的图片数量相关,因此为获取一定质量的训练结果,应保证使用训练数据集的图片数量大于或等于一个相应的预设值。
然后,分割单元2基于第一分割网络,对训练数据集进行模型预测,得到潜在目标的第一分割结果;以连通区域分析算法生成并截取具体目标的图像区域,用于获取第二分割网络的训练集;以预设数量以上的所述用于获取第二分割网络的训练集图片对DeepLabv3模型进行模型微调,然后得到第二分割网络。
图像输入单元1的功能为输入“符合预设标准的图像”,其中,所述的预设标准主要是该图像为RGBD类型图像或RGB图像,且必须包含彩色图像,此外还可以有深度图像D,当有深度图像D存在时将会为后续处理过程提供更丰富和有益于结果的信息。设图像I的宽为W、高为H,则图像中的所有像素坐标构成集合R0={(i,j)i∈{1....H},j∈{1....W}},语义标签集合Δ={1,2,...,C},则图像I中任意位置(i,j)的像素点对应的语义标签为xij,且xij∈Δ。
分割单元2采用的第一分割网络,是一种场景级别的粗略分割网络,此处记为Fc,其主要功能是用于获取输入图像I中潜在目标的位置信息,该网络着重捕获正确目标,以及目标的粗略位置。该网络的输出特征为:其中/>表示整个图像区域的像素信息,C0为H*W*C大小的特征。
对于所有的(i,j)∈R0,将特征C0 i,j经过Softmax函数缩放后,得到当前像素点关于所属类别的概率值Pc i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0。
基于上述得到的所有像素点的概率值信息,通过得到第一分割结果(为一粗略分割结果),采用连通区域分析算法ConnectedComponentanalysis生成若干潜在的目标区域。假设生成得到L个目标区域,且第l个目标区域/>对于每个目标区域,标记与之紧密对应的边界框/>并将边界框/>向四周拓展一定比例(20%-40%,本实施方式中采用30%)的大小,得到Rl。
然后,分割单元2将会在图像I上截取上述边界框Rl范围内的图像,作为新的输入特征。此处分割单元2使用的第二分割网络为一种目标级别的细致分割网络,记为Ff,用于对特定目标区域进行细致分析,该网络着重提取目标的轮廓等信息。网络的输出特征为:其中/>表示第l个连通区域所对应的边界框内的像素信息,Cl为Hl*Wl*C大小的特征。
对于所有的(i,j)∈Rl,将特征Cl i,j经过Softmax函数,得到当前像素点关于所属类别的概率值Pl i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0;1≤l≤L;/>和/>表示将图像坐标映射至第l个目标区域的对应位置。
然后,分割单元2采用的是本发明提出的适用于垃圾废弃物定位的条件随机场(CRF)模型,该模型可表达为:
E(x,I,D)=Φc(x;I)+α·Φf(x;I)+Ψ(x;I,D),其中Φc(x;I)表示第一分割网络产生的单点势能,Φf(x;I)表示第二分割网络产生的单点势能,Ψ(x;I,D)表示综合图像的颜色、深度、或空间位置关系等信息后产生的对点势能,α为权重参数。
其中,对于Φc(x;I),可进一步表达为:
对于Φf(x;I),可进一步表达为:
并且
此外,对于Ψ(x;I,D),可进一步表达为:
并且有
其中δ(xij≠xuv)表示当且仅当xij≠xuv时值为1,否则为0;w(a)、w(s)、w(d)为对应项的核函数的权重;θα、θβ、θγ、θδ、θε为对应项的方差值;ψd(xij,xuv;D)为可选项,即,当输入图像中具有深度图像D时存在该项,ψd(xij,xuv;D)的引入能在一定程度上提高模型的表现效果。
在模型预测过程中,使用一个可完全分解的概率分布函数Q(x)来逼近原始的联合概率分布P(x),使之最小化K-L散度KL(Q||P):
本实施方式中,采用分块学习的方式进行模型学习,在训练第一分割网络Fc与第二分割网络Ff的过程中,采用标准交叉熵损失函数(CELoss)作为目标函数。在学习条件随机场(CRF)模型的过程中,采用网格搜索方法来优化模型参数。
本发明技术方案通过结合全局场景与局部目标之间的关系,构建具有更强鲁棒性的多级网络,解决垃圾废弃物目标定位与分割任务中遇到的极端大小差异问题。本发明技术方案特别提出了一种用于感知图像中潜在目标的场景级别的粗略分割网络和一种用于精确分析局部图像中目标信息的目标级别的细致分割网络,同时还提出了一种适用于垃圾废弃物定位的条件随机场(CRF)模型,以挖掘图像像素间的潜在的关联信息。另外,本发明还提出利用图像的深度信息来进一步提高模型的定位效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (8)
1.一种废弃物目标定位和分割的方法,其特征在于,包括如下步骤:
获取符合预设标准的图像,所述预设标准包括:所述图像包含彩色图像;所述“获取符合预设标准的图像”具体包括:图像类型为RGBD或RGB;图像中包含彩色图像I的信息,为所述彩色图像I中坐标为(i,j)的像素点标记语义标签为Xij;
以第一分割网络对所述图像进行处理,生成第一分割结果以及潜在的目标区域;具体包括:
所述第一分割网络Fc的输出特征为其中/>表示整个图像区域的像素信息;
对于所有的(i,j)∈R0,将特征C0 i,j经过Softmax函数缩放后,得到当前像素点关于所属类别的概率值Pc i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0;
基于上述步骤获取的像素点的概率值信息,通过得到第一分割结果,采用连通区域分析算法生成潜在的目标区域;且对生成得到的L个潜在的目标区域中的第l个目标区域/>标记与之紧密对应的边界框/>并将边界框向四周拓展20%-40%的大小,得到Rl,作为用于获取第二分割网络输入特征的参数;
以第二分割网络对所述潜在的目标区域进行分割操作,生成第二分割结果;其中训练获得第二分割网络的步骤包括:基于第一分割网络,对训练数据集进行模型预测,得到潜在目标的第一分割结果;以连通区域分析算法生成并截取具体目标的图像区域,用于获取第二分割网络的训练集;以预设数量以上的所述用于获取第二分割网络的训练集图片对DeepLabv3模型进行模型微调,然后得到第二分割网络;所述步骤“以第二分割网络对所述潜在的目标区域进行分割操作,生成第二分割结果”具体包括:在图像I上截取Rl范围内的图像,作为用于第二分割网络Ff的新的输入特征,所述第二分割网络的输出特征为:其中/>表示第l个连通区域所对应的边界框内的像素信息,Cl为Hl*Wl*C大小的特征;
对于所有的(i,j)∈Rl,将特征经过Softmax函数缩放后,得到当前像素点关于所属类别的概率值Pl i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0;1≤l≤L;/>和/>表示将图像坐标映射至第l个目标区域的对应位置;
以CRF模型对所述第一分割结果和第二分割结果做优化处理,得到语义分割结果;
其中,所述第一分割网络为一场景级别的粗略分割网络,所述第二分割网络为一目标级别的细致分割网络,且所述第一分割网络、第二分割网络、CRF模型均为经过预先训练所得,所述训练基于带有轮廓标注的垃圾废弃物训练数据集进行。
2.如权利要求1所述的废弃物目标定位和分割的方法,其特征在于,所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库,并从训练数据集中确定训练集和测试集,并且确定需使用的语义分割算法,所述语义分割算法包括FCN、DeepLabv3、PSPNet或CCNet。
3.如权利要求2所述的废弃物目标定位和分割的方法,其特征在于,所述语义分割算法为DeepLabv3,以预设数量以上的训练数据集图片对DeepLabv3模型进行模型微调,然后得到第一分割网络。
4.如权利要求1所述的废弃物目标定位和分割的方法,其特征在于,所述的CRF模型表达式为:
E(x,I,D)=Φc(x;I)+α·Φf(x;I)+Ψ(x;I,D),其中Φc(x;I)表示第一分割网络产生的单点势能,Φf(x;I)表示第二分割网络产生的单点势能,Ψ(x;I,D)表示综合图像的分类信息后产生的对点势能,所述分类信息包括颜色、深度或空间位置关系,α为权重参数。
5.一种废弃物目标定位和分割的装置,其特征在于,包括图像输入单元、分割单元和训练单元;
所述图像输入单元用于获取符合预设标准的图像,所述预设标准包括:所述图像包含彩色图像;具体包括:图像类型为RGBD或RGB;图像中包含彩色图像I的信息,为所述彩色图像I中坐标为(i,j)的像素点标记语义标签为Xij;
所述分割单元用于以第一分割网络对所述图像进行处理,生成第一分割结果以及潜在的目标区域;具体包括:
所述第一分割网络Fc的输出特征为
对于所有的(i,j)∈R0,将特征经过Softmax函数缩放后,得到当前像素点关于所属类别的概率值Pc i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0;
基于上述步骤获取的像素点的概率值信息,通过得到第一分割结果,采用连通区域分析算法生成潜在的目标区域;且对生成得到的L个潜在的目标区域中的第l个目标区域/>标记与之紧密对应的边界框/>并将边界框向四周拓展20%-40%的大小,得到Rl,作为用于获取第二分割网络输入特征的参数;
所述分割单元还用于以第二分割网络对所述潜在的目标区域进行分割操作,生成第二分割结果;具体包括:在图像I上截取Rl范围内的图像,作为用于第二分割网络Ff的新的输入特征,所述第二分割网络的输出特征为:其中/>表示第l个连通区域所对应的边界框内的像素信息,Cl为Hl*Wl*C大小的特征;
对于所有的(i,j)∈Rl,将特征经过Softmax函数缩放后,得到当前像素点关于所属类别的概率值Pl i,j:
其中δ(xij=k')表示当且仅当xij=k'时值为1,否则为0;1≤l≤L;/>和/>表示将图像坐标映射至第l个目标区域的对应位置;
所述分割单元还用于以CRF模型对所述第一分割结果和第二分割结果做优化处理,得到语义分割结果;
其中,所述第一分割网络为一场景级别的粗略分割网络,所述第二分割网络为一目标级别的细致分割网络,且所述第一分割网络、第二分割网络、CRF模型均为经过训练单元的预先训练所得,所述训练基于带有轮廓标注的垃圾废弃物训练数据集进行;
所述训练单元训练以获得第二分割网络的方式具体为:基于第一分割网络,对训练数据集进行模型预测,得到潜在目标的第一分割结果;以连通区域分析算法生成并截取具体目标的图像区域,用于获取第二分割网络的训练集;以预设数量以上的所述用于获取第二分割网络的训练集图片对DeepLabv3模型进行模型微调,然后得到第二分割网络。
6.如权利要求5所述的废弃物目标定位和分割的装置,其特征在于,所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库,并从训练数据集中确定训练集和测试集,并且确定需使用的语义分割算法,所述语义分割算法包括FCN、DeepLabv3、PSPNet或CCNet。
7.如权利要求6所述的废弃物目标定位和分割的装置,其特征在于,所述语义分割算法为DeepLabv3,所述训练单元以预设数量以上的训练数据集图片对DeepLabv3模型进行模型微调,然后得到第一分割网络。
8.如权利要求5所述的废弃物目标定位和分割的装置,其特征在于,所述的CRF模型表达式为:
E(x,I,D)=Φc(x;I)+α·Φf(x;I)+Ψ(x;I,D),其中Φc(x;I)表示第一分割网络产生的单点势能,Φf(x;I)表示第二分割网络产生的单点势能,Ψ(x;I,D)表示综合图像的分类信息后产生的对点势能,所述分类信息包括颜色、深度或空间位置关系,α为权重参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010637308.2A CN111915636B (zh) | 2020-07-03 | 2020-07-03 | 一种废弃物目标定位和分割的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010637308.2A CN111915636B (zh) | 2020-07-03 | 2020-07-03 | 一种废弃物目标定位和分割的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111915636A CN111915636A (zh) | 2020-11-10 |
CN111915636B true CN111915636B (zh) | 2023-10-24 |
Family
ID=73227509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010637308.2A Active CN111915636B (zh) | 2020-07-03 | 2020-07-03 | 一种废弃物目标定位和分割的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111915636B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250874A (zh) * | 2016-08-16 | 2016-12-21 | 东方网力科技股份有限公司 | 一种服饰及随身物品的识别方法和装置 |
CN107025457A (zh) * | 2017-03-29 | 2017-08-08 | 腾讯科技(深圳)有限公司 | 一种图像处理方法和装置 |
CN107527351A (zh) * | 2017-08-31 | 2017-12-29 | 华南农业大学 | 一种融合fcn和阈值分割的哺乳母猪图像分割方法 |
CN108876796A (zh) * | 2018-06-08 | 2018-11-23 | 长安大学 | 一种基于全卷积神经网络和条件随机场的道路分割***及方法 |
CN109145713A (zh) * | 2018-07-02 | 2019-01-04 | 南京师范大学 | 一种结合目标检测的小目标语义分割方法 |
CN109255790A (zh) * | 2018-07-27 | 2019-01-22 | 北京工业大学 | 一种弱监督语义分割的自动图像标注方法 |
-
2020
- 2020-07-03 CN CN202010637308.2A patent/CN111915636B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250874A (zh) * | 2016-08-16 | 2016-12-21 | 东方网力科技股份有限公司 | 一种服饰及随身物品的识别方法和装置 |
CN107025457A (zh) * | 2017-03-29 | 2017-08-08 | 腾讯科技(深圳)有限公司 | 一种图像处理方法和装置 |
CN107527351A (zh) * | 2017-08-31 | 2017-12-29 | 华南农业大学 | 一种融合fcn和阈值分割的哺乳母猪图像分割方法 |
CN108876796A (zh) * | 2018-06-08 | 2018-11-23 | 长安大学 | 一种基于全卷积神经网络和条件随机场的道路分割***及方法 |
CN109145713A (zh) * | 2018-07-02 | 2019-01-04 | 南京师范大学 | 一种结合目标检测的小目标语义分割方法 |
CN109255790A (zh) * | 2018-07-27 | 2019-01-22 | 北京工业大学 | 一种弱监督语义分割的自动图像标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111915636A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107833213B (zh) | 一种基于伪真值自适应法的弱监督物体检测方法 | |
CN103824053B (zh) | 一种人脸图像的性别标注方法及人脸性别检测方法 | |
CN111461039B (zh) | 基于多尺度特征融合的地标识别方法 | |
CN107730553B (zh) | 一种基于伪真值搜寻法的弱监督物体检测方法 | |
Quang et al. | An efficient framework for pixel-wise building segmentation from aerial images | |
Dubey et al. | Interactive Biogeography Particle Swarm Optimization for Content Based Image Retrieval | |
Zhang | Half century for image segmentation | |
CN117152604A (zh) | 一种建筑物轮廓的提取方法、装置、电子设备和存储介质 | |
Bao et al. | Unpaved road detection based on spatial fuzzy clustering algorithm | |
US8611695B1 (en) | Large scale patch search | |
JP2012022419A (ja) | 学習データ作成装置、学習データ作成方法及びプログラム | |
Mondal et al. | Improved skin disease classification using generative adversarial network | |
Ju et al. | A novel fully convolutional network based on marker-controlled watershed segmentation algorithm for industrial soot robot target segmentation | |
CN114445691A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
Ansari et al. | A novel approach for scene text extraction from synthesized hazy natural images | |
Xue et al. | Automatic identification of butterfly species based on gray-level co-occurrence matrix features of image block | |
CN111915636B (zh) | 一种废弃物目标定位和分割的方法和装置 | |
CN113282781B (zh) | 图像检索方法及装置 | |
CN110851633B (zh) | 一种实现同时定位和哈希的细粒度图像检索方法 | |
Spoorthy et al. | Performance analysis of bird counting techniques using digital photograph | |
CN108694347B (zh) | 图像处理方法和装置 | |
CN116468960B (zh) | 一种视频图像分析检索方法及*** | |
Hukkeri et al. | Machine Learning in OCR Technology: Performance Analysis of Different OCR Methods for Slide-to-Text Conversion in Lecture Videos | |
Schott et al. | Analyzing and improving the quality and fitness for purpose of OpenStreetMap as labels in remote sensing applications | |
Pemula et al. | Generation of random fields for image segmentation using manifold learning technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |