CN111915636B

CN111915636B - 一种废弃物目标定位和分割的方法和装置

Info

Publication number: CN111915636B
Application number: CN202010637308.2A
Authority: CN
Inventors: 汪涛; 蔡远征; 温正垚
Original assignee: Minjiang University
Current assignee: Minjiang University
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2023-10-24
Anticipated expiration: 2040-07-03
Also published as: CN111915636A

Abstract

发明人提出了一种多层级的垃圾废弃物目标定位与分割的技术方案，通过结合场景级别的粗略分割网络与目标级别的细致分割网络来当前解决垃圾废弃物定位与分割任务中面临的问题，具体包括步骤：获取符合预设标准的图像；先后以粗略分割网络和细致分割网络对所述图像进行处理，然后以CRF模型对分割结果做优化处理，得到语义分割结果。发明人同时还提出了相应的废弃物目标定位和分割的装置。本发明可通过结合全局场景与局部目标之间的关系，构建具有更强鲁棒性的多级网络，解决垃圾废弃物目标定位与分割任务中遇到的极端大小差异问题。

Description

一种废弃物目标定位和分割的方法和装置

技术领域

本发明涉及计算机软件领域，特别涉及一种废弃物目标定位和分割的方法和装置。

背景技术

随着全世界城市化进程的不断发展，垃圾废弃物管理已经成为各国政府部门关注的核心问题。根据世界银行的报告，到2025年，城市人口将达到43亿，随之每年将生成22亿吨的固体废料。垃圾分类的举措不仅可以更有效地实现变废为宝，还可以减少填埋和焚烧产生的空气污染，因此得到政府的大力提倡。然而由于实行垃圾分类要求苛刻，使得推广存在一定难度。

近年来，计算机视觉技术的快速发展使得研究者能够研发出具有鲁棒性的图像算法，使之辅助执行垃圾废弃物收集与分类任务。尤其是将语义分割算法应用在垃圾废弃物图像上，可以提升诸如：基于内容的图像检索、目标姿态估计、机械臂抓取等相关任务的效果，进而实现垃圾废弃物的自动化分类。

但由于垃圾废弃物目标在图像区域中的成像大小存在极端的不稳定，使得通用的语义分割模型在垃圾废弃物目标的分割任务中容易出现漏检或误检现象，无法满足实际应用场景中的需求。

发明内容

因此，发明人认为，有必要发明一种多层级的垃圾废弃物目标定位与分割方法。从仿生的角度出发，发明人发现，人类的视觉***可以轻易的识别出具有极端大小差异的各类垃圾废弃物目标。根据研究，人眼首先对整体场景进行感知，获得潜在的垃圾废弃物目标位置信息，随后进一步对潜在区域进行更为细致的检测与识别。因此，通过借鉴人类视觉***的工作原理，发明人发明了一种多层级的垃圾废弃物目标定位与分割方法，通过结合场景级别的粗略分割网络与目标级别的细致分割网络来当前解决垃圾废弃物定位与分割任务中面临的问题。

为此，发明人提出了一种废弃物目标定位和分割的方法，包括如下步骤：

获取符合预设标准的图像，所述预设标准包括：所述图像包含彩色图像；

以第一分割网络对所述图像进行处理，生成第一分割结果以及潜在的目标区域；

以第二分割网络对所述潜在的目标区域进行分割操作，生成第二分割结果；

以CRF模型对所述第一分割结果和第二分割结果做优化处理，得到语义分割结果；

其中，所述第一分割网络为一场景级别的粗略分割网络，所述第二分割网络为一目标级别的细致分割网络，且所述第一分割网络、第二分割网络、CRF模型均为经过预先训练所得，所述训练基于带有轮廓标注的垃圾废弃物训练数据集进行。

进一步地，所述的废弃物目标定位和分割的方法中，所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库，并从训练数据集中确定训练集和测试集，并且确定需使用的语义分割算法，所述语义分割算法包括FCN、DeepLabv3、PSPNet或CCNet。

进一步地，所述的废弃物目标定位和分割的方法中，所述语义分割算法为DeepLabv3，以预设数量以上的训练数据集图片对DeepLabv3模型进行模型微调，然后得到第一分割网络。

进一步地，所述的废弃物目标定位和分割的方法中，训练获得第二分割网络的步骤包括：

基于第一分割网络，对训练数据集进行模型预测，得到潜在目标的第一分割结果；

以连通区域分析算法生成并截取具体目标的图像区域，用于获取第二分割网络的训练集；

以预设数量以上的所述用于获取第二分割网络的训练集图片对DeepLabv3模型进行模型微调，然后得到第二分割网络。

进一步地，所述的废弃物目标定位和分割的方法中，步骤“获取符合预设标准的图像”具体包括：图像类型为RGBD或RGB；图像中包含彩色图像I的信息，为所述彩色图像I中坐标为(i,j)的像素点标记语义标签为X_ij；

步骤“以第一分割网络对所述图像进行处理，生成第一分割结果以及潜在的目标区域”具体包括：

所述第一分割网络F_c的输出特征为其中/>表示整个图像区域的像素信息；

对于所有的(i,j)∈R₀，将特征C₀ ^i,j经过Softmax函数缩放后，得到当前像素点关于所属类别的概率值P_c ^i,j：

其中δ(x_ij＝k')表示当且仅当x_ij＝k'时值为1,否则为0；

基于上述步骤获取的像素点的概率值信息，通过得到第一分割结果，采用连通区域分析算法生成潜在的目标区域。

进一步地，所述的废弃物目标定位和分割的方法中，步骤“基于上述步骤获取的像素点的概率值信息，通过得到第一分割结果，采用连通区域分析算法生成潜在的目标区域”还包括：

对生成得到的L个潜在的目标区域中的第l个目标区域标记与之紧密对应的边界框/>并将边界框/>向四周拓展20％-40％的大小，得到R_l，作为用于获取第二分割网络输入特征的参数。

进一步地，所述的废弃物目标定位和分割的方法中，所述步骤“以第二分割网络对所述潜在的目标区域进行分割操作，生成第二分割结果”具体包括：在图像I上截取R_l范围内的图像，作为用于第二分割网络F_f的新的输入特征，所述第二分割网络的输出特征为：其中/>表示第l个连通区域所对应的边界框内的像素信息，C_l为H_l*W_l*C大小的特征；

对于所有的(i,j)∈R_l，将特征C_l ^i,j经过Softmax函数缩放后，得到当前像素点关于所属类别的概率值P_l ^i,j：

其中δ(x_ij＝k')表示当且仅当x_ij＝k'时值为1,否则为0；1≤l≤L；/>和/>表示将图像坐标映射至第l个目标区域的对应位置。

进一步地，所述的废弃物目标定位和分割的方法中，所述的CRF模型表达式为：

E(x,I,D)＝Φ_c(x；I)+α·Φf(x；I)+Ψ(x；I,D)，其中Φ_c(x；I)表示第一分割网络产生的单点势能，Φ_f(x；I)表示第二分割网络产生的单点势能，Ψ(x；I,D)表示综合图像的分类信息后产生的对点势能，所述分类信息包括颜色、深度或空间位置关系，α为权重参数。

发明人同时还提出了一种废弃物目标定位和分割的装置，包括图像输入单元、分割单元和训练单元；

所述图像输入单元用于获取符合预设标准的图像，所述预设标准包括：所述图像包含彩色图像；

所述分割单元用于以第一分割网络对所述图像进行处理，生成第一分割结果以及潜在的目标区域；

所述分割单元还用于以第二分割网络对所述潜在的目标区域进行分割操作，生成第二分割结果；

所述分割单元还用于以CRF模型对所述第一分割结果和第二分割结果做优化处理，得到语义分割结果；

其中，所述第一分割网络为一场景级别的粗略分割网络，所述第二分割网络为一目标级别的细致分割网络，且所述第一分割网络、第二分割网络、CRF模型均为经过训练单元的预先训练所得，所述训练基于带有轮廓标注的垃圾废弃物训练数据集进行。

进一步地，所述的废弃物目标定位和分割的装置中，所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库，并从训练数据集中确定训练集和测试集，并且确定需使用的语义分割算法，所述语义分割算法包括FCN、DeepLabv3、PSPNet或CCNet。

进一步地，所述的废弃物目标定位和分割的装置中，所述语义分割算法为DeepLabv3，所述训练单元以预设数量以上的训练数据集图片对DeepLabv3模型进行模型微调，然后得到第一分割网络。

进一步地，所述的废弃物目标定位和分割的装置中，所述训练单元训练以获得第二分割网络的方式具体为：

进一步地，所述的废弃物目标定位和分割的装置中，所述图像获取单元“获取符合预设标准的图像”具体包括：图像类型为RGBD或RGB；图像中包含彩色图像I的信息，为所述彩色图像I中坐标为(i,j)的像素点标记语义标签为X_ij；

分割单元“以第一分割网络对所述图像进行处理，生成第一分割结果以及潜在的目标区域”具体包括：

所述第一分割网络F_c的输出特征为

其中δ(x_ij＝k')表示当且仅当x_ij＝k'时值为1,否则为0；

进一步地，所述的废弃物目标定位和分割的装置中，分割单元“基于上述步骤获取的像素点的概率值信息，通过得到第一分割结果，采用连通区域分析算法生成潜在的目标区域”还包括：

进一步地，所述的废弃物目标定位和分割的装置中，分割单元“以第二分割网络对所述潜在的目标区域进行分割操作，生成第二分割结果”具体包括：在图像I上截取R_l范围内的图像，作为用于第二分割网络F_f的新的输入特征，所述第二分割网络的输出特征为：其中/>表示第l个连通区域所对应的边界框内的像素信息，C_l为H_l*W_l*C大小的特征；

其中δ(x_ij＝k')表示当且仅当x_ij＝k'时值为1,否则为0；l∈[1,L]；/>和/>表示将图像坐标映射至第l个目标区域的对应位置。

进一步地，所述的废弃物目标定位和分割的装置中，所述的CRF模型表达式为：

E(x,I,D)＝Φ_c(x；I)+α·Φ_f(x；I)+Ψ(x；I,D)，其中Φ_c(x；I)表示第一分割网络产生的单点势能，Φ_f(x；I)表示第二分割网络产生的单点势能，Ψ(x；I,D)表示综合图像的分类信息后产生的对点势能，所述分类信息包括颜色、深度或空间位置关系，α为权重参数。

本发明技术方案通过结合全局场景与局部目标之间的关系，构建具有更强鲁棒性的多级网络，解决垃圾废弃物目标定位与分割任务中遇到的极端大小差异问题。本发明技术方案特别提出了一种用于感知图像中潜在目标的场景级别的粗略分割网络和一种用于精确分析局部图像中目标信息的目标级别的细致分割网络，同时还提出了一种适用于垃圾废弃物定位的条件随机场(CRF)模型，以挖掘图像像素间的潜在的关联信息。另外，本发明还提出利用图像的深度信息来进一步提高模型的定位效果。

附图说明

图1为本发明一实施方式所述的废弃物目标定位和分割的方法的流程图；

图2为本发明一实施方式所述的废弃物目标定位和分割的装置的结构示意图。

附图标记说明：

1-图像输入单元

2-分割单元

3-训练单元

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，为本发明一实施方式所述的废弃物目标定位和分割的方法的流程图；所述方法包括如下步骤：

S0、对后续需要使用的第一分割网络、第二分割网络和CRF模型进行预先训练；

S1、获取符合预设标准的图像，所述预设标准包括：所述图像包含彩色图像；

S2、以第一分割网络对所述图像进行处理，生成第一分割结果以及潜在的目标区域；

S3、以第二分割网络对所述潜在的目标区域进行分割操作，生成第二分割结果；

S4、以CRF模型对所述第一分割结果和第二分割结果做优化处理，得到语义分割结果。

以下对各个步骤进行详述。

步骤S0中，所述训练基于带有轮廓标注的垃圾废弃物训练数据集进行，所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库，并从训练数据集中确定训练集和测试集，并且确定需使用的语义分割算法，本实施方式中所述语义分割算法为DeepLabv3，在其他实施方式中，采用的语义分割算法还可以包括FCN、PSPNet或CCNet。得到的所述第一分割网络为一场景级别的粗略分割网络，所述第二分割网络为一目标级别的细致分割网络。

训练获取第一分割网络的方式是以一定数量的训练数据集对DeepLabv3模型进行模型微调(fine-tuning)，由于训练结果的好坏与训练数据集的图片数量相关，因此为获取一定质量的训练结果，应保证使用训练数据集的图片数量大于或等于一个相应的预设值。

然后，基于第一分割网络，对训练数据集进行模型预测，得到潜在目标的第一分割结果；以连通区域分析算法生成并截取具体目标的图像区域，用于获取第二分割网络的训练集；以预设数量以上的所述用于获取第二分割网络的训练集图片对DeepLabv3模型进行模型微调，然后得到第二分割网络。

步骤S1中，输入“符合预设标准的图像”，所述的预设标准主要是该图像必须包含彩色图像，此外还可以有深度图像D。其中的图像为RGBD类型图像或RGB图像，其中包含彩色图像I和可选的深度图像D。设图像I的宽为W、高为H，则图像中的所有像素坐标构成集合R₀＝{(i,j)_{i∈{1....H},j∈{1....W}}}，令语义标签集合Δ＝{1,2,...,C}，则图像I中任意位置(i,j)的像素点对应的语义标签为x_ij，且x_ij∈Δ。

步骤S2所述的第一分割网络，是一种场景级别的粗略分割网络，此处记为F_c，其主要功能是用于获取输入图像I中潜在目标的位置信息，该网络着重捕获正确目标，以及目标的粗略位置。该网络的输出特征为：其中/>表示整个图像区域的像素信息，C₀为H*W*C大小的特征。

其中δ(x_ij＝k')表示当且仅当x_ij＝k'时值为1,否则为0。得到当前像素点关于所属类别的概率值P_c ^i,j：

基于上述步骤获取的像素点的概率值信息，通过得到第一分割结果(为一粗略分割结果)，采用连通区域分析算法ConnectedComponentanalysis生成若干潜在的目标区域。假设生成得到L个目标区域，且第l个目标区域/>对于每个目标区域，标记与之紧密对应的边界框/>并将边界框/>向四周拓展一定比例(20％-40％，本实施方式中采用30％)的大小，得到R_l。

然后，步骤S3中，在图像I上截取上述边界框R_l范围内的图像，作为新的输入特征。此处提出的第二分割网络为一种目标级别的细致分割网络，记为F_f，用于对特定目标区域进行细致分析，该网络着重提取目标的轮廓等信息。网络的输出特征为：其中/>表示第l个连通区域所对应的边界框内的像素信息，C_l为H_l*W_l*C大小的特征。

对于所有的(i,j)∈R_l，将特征C_l ^i,j经过Softmax函数，得到当前像素点关于所属类别的概率值P_l ^i,j：

在步骤S4中，采用的是本发明提出的适用于垃圾废弃物定位的条件随机场(CRF)模型，该模型可表达为：

E(x,I,D)＝Φ_c(x；I)+α·Φ_f(x；I)+Ψ(x；I,D)，其中Φ_c(x；I)表示第一分割网络产生的单点势能，Φ_f(x；I)表示第二分割网络产生的单点势能，Ψ(x；I,D)表示综合图像的颜色、深度、或空间位置关系等信息后产生的对点势能，α为权重参数。

其中，对于Φ_c(x；I)，可进一步表达为：

对于Φ_f(x；I)，可进一步表达为：

并且

此外，对于Ψ(x；I,D)，可进一步表达为：

并且有

其中δ(x_ij≠x_uv)表示当且仅当x_ij≠x_uv时值为1,否则为0；w^(a)、w^(s)、w^(d)为对应项的核函数的权重；θ_α、θ_β、θ_γ、θ_δ、θ_ε为对应项的方差值；ψ_d(x_ij,x_uv；D)为可选项，即，当输入图像中具有深度图像D时存在该项，ψ_d(x_ij,x_uv；D)的引入能在一定程度上提高模型的表现效果。

在模型预测过程中，使用一个可完全分解的概率分布函数Q(x)来逼近原始的联合概率分布P(x)，使之最小化K-L散度KL(Q||P)：

本实施方式中，采用分块学习的方式进行模型学习，在训练第一分割网络F_c与第二分割网络F_f的过程中，采用标准交叉熵损失函数(CELoss)作为目标函数。在学习条件随机场(CRF)模型的过程中，采用网格搜索方法来优化模型参数。

发明人同时还提出了一种废弃物目标定位和分割的装置，包括图像输入单元1、分割单元2和训练单元3；

所述图像输入单元1用于获取符合预设标准的图像，所述预设标准包括：所述图像包含彩色图像；

所述分割单元2用于以第一分割网络对所述图像进行处理，生成第一分割结果以及潜在的目标区域；

所述分割单元2还用于以第二分割网络对所述潜在的目标区域进行分割操作，生成第二分割结果；

所述分割单元2还用于以CRF模型对所述第一分割结果和第二分割结果做优化处理，得到语义分割结果；

其中，所述第一分割网络为一场景级别的粗略分割网络，所述第二分割网络为一目标级别的细致分割网络，且所述第一分割网络、第二分割网络、CRF模型均为经过训练单元3的预先训练所得，所述训练基于带有轮廓标注的垃圾废弃物训练数据集进行。

训练单元3所进行的训练是基于带有轮廓标注的垃圾废弃物训练数据集进行，所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库，并从训练数据集中确定训练集和测试集，并且确定需使用的语义分割算法，本实施方式中所述语义分割算法为DeepLabv3，在其他实施方式中，采用的语义分割算法还可以包括FCN、PSPNet或CCNet。得到的所述第一分割网络为一场景级别的粗略分割网络，所述第二分割网络为一目标级别的细致分割网络。

训练单元3训练获取第一分割网络的方式是以一定数量的训练数据集对DeepLabv3模型进行模型微调(fine-tuning)，由于训练结果的好坏与训练数据集的图片数量相关，因此为获取一定质量的训练结果，应保证使用训练数据集的图片数量大于或等于一个相应的预设值。

然后，分割单元2基于第一分割网络，对训练数据集进行模型预测，得到潜在目标的第一分割结果；以连通区域分析算法生成并截取具体目标的图像区域，用于获取第二分割网络的训练集；以预设数量以上的所述用于获取第二分割网络的训练集图片对DeepLabv3模型进行模型微调，然后得到第二分割网络。

图像输入单元1的功能为输入“符合预设标准的图像”，其中，所述的预设标准主要是该图像为RGBD类型图像或RGB图像，且必须包含彩色图像，此外还可以有深度图像D，当有深度图像D存在时将会为后续处理过程提供更丰富和有益于结果的信息。设图像I的宽为W、高为H，则图像中的所有像素坐标构成集合R₀＝{(i,j)_{i∈{1....H},j∈{1....W}}}，语义标签集合Δ＝{1,2,...,C}，则图像I中任意位置(i,j)的像素点对应的语义标签为x_ij，且x_ij∈Δ。

分割单元2采用的第一分割网络，是一种场景级别的粗略分割网络，此处记为F_c，其主要功能是用于获取输入图像I中潜在目标的位置信息，该网络着重捕获正确目标，以及目标的粗略位置。该网络的输出特征为：其中/>表示整个图像区域的像素信息，C₀为H*W*C大小的特征。

其中δ(x_ij＝k')表示当且仅当x_ij＝k'时值为1,否则为0。

基于上述得到的所有像素点的概率值信息，通过得到第一分割结果(为一粗略分割结果)，采用连通区域分析算法ConnectedComponentanalysis生成若干潜在的目标区域。假设生成得到L个目标区域，且第l个目标区域/>对于每个目标区域，标记与之紧密对应的边界框/>并将边界框/>向四周拓展一定比例(20％-40％，本实施方式中采用30％)的大小，得到R_l。

然后，分割单元2将会在图像I上截取上述边界框R_l范围内的图像，作为新的输入特征。此处分割单元2使用的第二分割网络为一种目标级别的细致分割网络，记为F_f，用于对特定目标区域进行细致分析，该网络着重提取目标的轮廓等信息。网络的输出特征为：其中/>表示第l个连通区域所对应的边界框内的像素信息，C_l为H_l*W_l*C大小的特征。

然后，分割单元2采用的是本发明提出的适用于垃圾废弃物定位的条件随机场(CRF)模型，该模型可表达为：

其中，对于Φ_c(x；I)，可进一步表达为：

对于Φ_f(x；I)，可进一步表达为：

并且

此外，对于Ψ(x；I,D)，可进一步表达为：

并且有

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

本领域内的技术人员应明白，上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

上述各实施例是参照根据实施例所述的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器，使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中，使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备上，使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种废弃物目标定位和分割的方法，其特征在于，包括如下步骤：

获取符合预设标准的图像，所述预设标准包括：所述图像包含彩色图像；所述“获取符合预设标准的图像”具体包括：图像类型为RGBD或RGB；图像中包含彩色图像I的信息，为所述彩色图像I中坐标为(i,j)的像素点标记语义标签为X_ij；

以第一分割网络对所述图像进行处理，生成第一分割结果以及潜在的目标区域；具体包括：

其中δ(x_ij＝k')表示当且仅当x_ij＝k'时值为1,否则为0；

基于上述步骤获取的像素点的概率值信息，通过得到第一分割结果，采用连通区域分析算法生成潜在的目标区域；且对生成得到的L个潜在的目标区域中的第l个目标区域/>标记与之紧密对应的边界框/>并将边界框向四周拓展20％-40％的大小，得到R_l，作为用于获取第二分割网络输入特征的参数；

以第二分割网络对所述潜在的目标区域进行分割操作，生成第二分割结果；其中训练获得第二分割网络的步骤包括：基于第一分割网络，对训练数据集进行模型预测，得到潜在目标的第一分割结果；以连通区域分析算法生成并截取具体目标的图像区域，用于获取第二分割网络的训练集；以预设数量以上的所述用于获取第二分割网络的训练集图片对DeepLabv3模型进行模型微调，然后得到第二分割网络；所述步骤“以第二分割网络对所述潜在的目标区域进行分割操作，生成第二分割结果”具体包括：在图像I上截取R_l范围内的图像，作为用于第二分割网络F_f的新的输入特征，所述第二分割网络的输出特征为：其中/>表示第l个连通区域所对应的边界框内的像素信息，C_l为H_l*W_l*C大小的特征；

对于所有的(i,j)∈R_l，将特征经过Softmax函数缩放后，得到当前像素点关于所属类别的概率值P_l ^i,j：

其中δ(x_ij＝k')表示当且仅当x_ij＝k'时值为1,否则为0；1≤l≤L；/>和/>表示将图像坐标映射至第l个目标区域的对应位置；

2.如权利要求1所述的废弃物目标定位和分割的方法，其特征在于，所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库，并从训练数据集中确定训练集和测试集，并且确定需使用的语义分割算法，所述语义分割算法包括FCN、DeepLabv3、PSPNet或CCNet。

3.如权利要求2所述的废弃物目标定位和分割的方法，其特征在于，所述语义分割算法为DeepLabv3，以预设数量以上的训练数据集图片对DeepLabv3模型进行模型微调，然后得到第一分割网络。

4.如权利要求1所述的废弃物目标定位和分割的方法，其特征在于，所述的CRF模型表达式为：

5.一种废弃物目标定位和分割的装置，其特征在于，包括图像输入单元、分割单元和训练单元；

所述图像输入单元用于获取符合预设标准的图像，所述预设标准包括：所述图像包含彩色图像；具体包括：图像类型为RGBD或RGB；图像中包含彩色图像I的信息，为所述彩色图像I中坐标为(i,j)的像素点标记语义标签为X_ij；

所述分割单元用于以第一分割网络对所述图像进行处理，生成第一分割结果以及潜在的目标区域；具体包括：

所述第一分割网络F_c的输出特征为

对于所有的(i,j)∈R₀，将特征经过Softmax函数缩放后，得到当前像素点关于所属类别的概率值P_c ^i,j：

其中δ(x_ij＝k')表示当且仅当x_ij＝k'时值为1,否则为0；

所述分割单元还用于以第二分割网络对所述潜在的目标区域进行分割操作，生成第二分割结果；具体包括：在图像I上截取R_l范围内的图像，作为用于第二分割网络F_f的新的输入特征，所述第二分割网络的输出特征为：其中/>表示第l个连通区域所对应的边界框内的像素信息，C_l为H_l*W_l*C大小的特征；

其中，所述第一分割网络为一场景级别的粗略分割网络，所述第二分割网络为一目标级别的细致分割网络，且所述第一分割网络、第二分割网络、CRF模型均为经过训练单元的预先训练所得，所述训练基于带有轮廓标注的垃圾废弃物训练数据集进行；

所述训练单元训练以获得第二分割网络的方式具体为：基于第一分割网络，对训练数据集进行模型预测，得到潜在目标的第一分割结果；以连通区域分析算法生成并截取具体目标的图像区域，用于获取第二分割网络的训练集；以预设数量以上的所述用于获取第二分割网络的训练集图片对DeepLabv3模型进行模型微调，然后得到第二分割网络。

6.如权利要求5所述的废弃物目标定位和分割的装置，其特征在于，所述带有轮廓标注的垃圾废弃物训练数据集来源为公开数据库或经人工标注边缘轮廓的非公开数据库，并从训练数据集中确定训练集和测试集，并且确定需使用的语义分割算法，所述语义分割算法包括FCN、DeepLabv3、PSPNet或CCNet。

7.如权利要求6所述的废弃物目标定位和分割的装置，其特征在于，所述语义分割算法为DeepLabv3，所述训练单元以预设数量以上的训练数据集图片对DeepLabv3模型进行模型微调，然后得到第一分割网络。

8.如权利要求5所述的废弃物目标定位和分割的装置，其特征在于，所述的CRF模型表达式为：