CN107657276B

CN107657276B - 一种基于寻找语义类簇的弱监督语义分割方法

Info

Publication number: CN107657276B
Application number: CN201710857774.XA
Authority: CN
Inventors: 韩铮; 于明军; 韩宝宇
Original assignee: Chifeng University
Current assignee: Chifeng University
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2023-07-07
Anticipated expiration: 2037-09-15
Also published as: CN107657276A

Abstract

本发明公开了一种基于寻找语义类簇的弱监督语义分割方法，利用大量图像级别标注的图像数据，解决图像分割成互不相交的语义的区域，并为每一个区域分配标签的问题。本发明包括：对每个签进行超像素聚类，确定各个类簇中心和成员；寻找与该标签对应的类簇及核心成员；计算核心成员属于此标签的置信度；对单幅图像中的超像素使用条件随机场进行标注。本发明可以将图像级别标签添加到图像内部，实现细粒度的图像语义理解。

Description

一种基于寻找语义类簇的弱监督语义分割方法

技术领域

本发明属于多媒体内容的自动分析与理解技术领域，具体涉及一种基于弱监督数据集的图像语义分割方法。

背景技术

图像语义分割是图像理解的基础工作之一，目的是将图像分割成互不相交的语义明显的区域，并为每一个区域分配标签。例如，一幅图像中有牛、草地和天空三个语义标签，语义分割的目的是将三个标签在图像中对应的语义区域找出来，也就是完成图像划分和分配标签的任务。该任务回答了图像中有什么，在哪里和边缘在哪三个问题，含有更丰富的信息。该工作在机器人自动导航、安防和环境的智能监控、知识获取和搜索的图片理解等方面有着广阔的应用前景。

图像语义分割通常做为分类或标注任务，为每一个像素或者是超像素分配一个标签。具有相同标签的像素或者超像素是相同语义区域，其边缘即语义边界。

按照训练时使用的数据不同，语义分割可分为强监督和弱监督两种类型。强监督方法中训练图像的每个像素都有唯一的标签。弱监督方法使用的训练图像数据仅有图像级别的标签，即一幅图像对应若干个标签，标签只描述了图像中有那几个语义区域，而没有指明语义标签对应的区域。强监督数据的获取通常使用人工进行标记，费时费力，其规模受到限制。弱监督语义分割使用图像级别的标记，可克服强监督数据获取困难的问题

超像素是空间邻近且外观相似度高的像素积聚成像素块，块内的像素有一致性，本质上是一种图像的过分割，超像素块的部分边缘与图像的语义区域的部分边缘相吻合。作为图像处理的基本单元，这样可以大大减少计算量，常在图像分析中常作为基本运算单元使用。

超像素聚类是一种将超像素划分成若干子集合的过程，子集合称为类簇，同一类簇中的超像素尽可能的相似，而不同类簇中的超像素尽可能相异。常使用特征向量代替超像素，定义特征向量之间的距离函数来确定超像素之间的相似程度。

条件随机场是语义分割中的常用框架，它既可以应用于强监督数据，也可以用于弱监督数据。其特点是可以对关系型数据进行建模，利用数据的相互关系和条件独立对分类结果进行正则化处理。

发明内容

(一)要解决的技术问题

本发明提出了一种基于弱监督数据集的图像语义分割方法，用于解决在仅有图像级别标签的弱监督数据集中，实现图像语义分割的问题，为图像中的每一个超像素块分配一个语义标签，从而实现图像中不同语义区域的识别和分割。

(二)技术方案

为达到上述目的，本发明的基本思路是每个语义标签应该属于某些特征相近的超像素，这些超像素能够聚成一类，找到属于该标签的高置信度的超像素，可以大该确定语义标签在图像中的位置，分割任务由标注条件随机场来完成。本发明的算法包括4部分：(1)对每个签进行超像素聚类，确定各个类簇中心和成员；(2)寻找与该标签对应的类簇及核心成员；(3)计算核心成员属于此标签的置信度；(4)对单幅图像中的超像素使用条件随机场进行标注。

本发明提出了一种基于寻找语义类簇的弱监督学习方法，对每个标签进行一次单独聚类，从标签的角度去寻找置信度高的超像素，其他超像素使用图像标签的随机置信度。最后，通过标注条件随机场完成语义分割任务。

本发明提出了一种基于寻找语义类簇的图像语义分割方法，包括如下步骤：S2.1、对每个标签进行超像素聚类，确定各个类簇中心和核心区域；S2.2、寻找与该标签对应的类簇；S2.3、计算标签对应类簇中核心区域中超像素属于该标签的置信度值；S2.4、对单幅图像中的超像素使用条件随机场进行标注。

在一种实施方式中，所述步骤S2.1针对数据集标签集合中的每个标签，分别进行聚类，聚类次数等于数据集标签数。

在一种实施方式中，所述步骤S2.1针对某标签进行聚类时，所使用的超像素为含有此标签的所有图像中的超像素。

在一种实施方式中，所述步骤S2.1针对某标签聚类时，通过对每个超像素的局部密度和最小归属距离的积进行排序，来确定聚类中心。

在一种实施方式中，所述步骤S2.2通过计算聚类图像标签的统计直方图与聚类后各类簇核心区域中超像素来源图像标签的统计直方图的余弦距离确定标签对应的类簇。

在一种实施方式中，所述步骤S2.3中当前标签所属类簇中核心区域的超像素属于该标签的置信度值使用高斯核映射得到。

在一种实施方式中，所述步骤S2.4条件随机场为二阶邻域关系场，其一元势的取值为步骤S2.3中得到的超像素取得标签的置信度值，不属于任何语义标签对应类簇核心区域的超像素取来源图像的随机置信度。

(三)有益效果

本发明不仅可以利用弱监督数据集对图像进行分割，还可以将分割的区域给定对应的标签，实现更进一步的图像理解。

附图说明

图1是本发明的一种基于寻找语义类簇的弱监督图像语义分割方法流程图。

具体实施方式

图1是本发明的一种基于寻找语义类簇的弱监督图像语义分割方法流程图。如图1所示，本发明包括如下四个步骤：

步骤S1超像素分割和特征提取。

该步骤对图像进行超像素分割，同时提取超像素的颜色、纹理、形状和位置四种特征，连接成1690维特征，使用主成分分析降维方法将其降到100维。超像素特征也可使用其他方法表达。

步骤S2基于寻找语义类簇的弱监督学习。包含四个子步骤：对每个标签进行超像素聚类，确定各个类簇中心和成员；寻找与该标签对应的类簇及核心成员；计算核心成员属于此标签的置信度；对单幅图像中的超像素使用条件随机场进行标注。步骤S2为本发明的主体部分，下面结合该步骤包含的四个子步骤进行详细说明：

为了方便说明，首先介绍一下本发明设计的数学符号和定义。弱监督图像集可以表示为：图像可表示成为超像素的集合，训练集为

数据集中共有图像M幅，I^j表示其中一幅图像，j是图像索引变量。/>

表示图像集中第j幅图像I^j中的第i个超像素块，其中第j幅图像I^j共有N_j个超像素块。L^j为图像I^j对应的标签集合，它是训练集标签集合的子集，即：/>

训练集中所有标签的总数为|L|＝C。每一个超像素/>

均对应一个未知的标签/>

弱监督语义分割的目的是利用图像和标签的约束关系

学习得到超像素和标签的对应关系/>

即恢复超像素/>

对应的隐藏标签/>

对每个超像素预测一个标签。

聚类时，使用图像集中的部分图像。设参与聚类的超像素的集合为

S是整个训练集的子集，即/>

将S重新表示为/>

且K＝|S|是参与聚类的超像素的总数。计算S中任意两个超像素d_k之间的欧式距离D_nm，其中m，n∈{1，2，3...K}。将所有的D_nm进行升序排列，选择0.01×K位置对应的距离值D_nm称为局部密度边界dc。与某个超像素的距离小于局部密度边界dc的超像素总数称为该超像素的局部密度ρ。某超像素与比自身局部密度ρ值高的其他超像素之间的最小距离称为最小归属距离σ。

S2.1、对每个标签进行超像素聚类，确定各个类簇中心及成员。

当一个标签属于某图像，认为该图像中所有超像素均有可能取得此标签，而一幅图像没有某标签，认为图像中所有的超像素均不可能取得这个标签。对一个标签进行聚类时，首先选择有可能取得这个标签的所有超像素进行聚类。

对于某个标签l∈L＝{1，2，3....C}，在数据集τ中，查找l∈L^j的所有对应图像I^j，将相应图像中所有超像素

进行聚类，计算每个超像素/>

的局部密度ρ_k和最小归属距离σ_k值。对每个超像素d_k计算h_k＝ρ_k×σ_k，对h_k进行降序排序，将最大的前H个距离对应的超像素作为聚类中心，H为参与聚类的超像素可能拥有的标签的总数。类簇中心找到后，剩余的每个超像素被归属到它的有更高密度的最近邻所属类簇。

S2.2、寻找与该标签对应的类簇及核心成员。

聚类后得到若干个类簇，其中有一个属于聚类的标签，通过计算聚类图像标签的统计特征和聚类后各类簇中超像素标签的统计特性的相关性确定来寻找属于当前标签的类簇。

统计参与聚类时使用的图像级标签的统计直方图H＝[b₁，b₂，.....b_C]，C＝|L|，b_k表示第k个标签的个数。计算每个类簇中超像素来源图像拥有标签的直方图H_r＝[a₁，a₂，....a_C]，C＝|L|，r为类簇索引号，a_k表示第k个标签的个数，多个超像素块来源于同一幅图像的，图像标签仅统计一次。计算H和H_r的余弦距离：

当R≤cos(10°)且H_C距离最小的类簇判断为标签对应的类簇。R＞cos(10°)时，未找到与聚类标签相一致的类簇。

当找到与某个标签对应的类簇后，确定类簇的一个核心区域。对于某个类簇，分配到该类簇但与其它类簇中超像素的距离小于局部密度边界dc的超像素的集合称为该类簇的一个边界区域。在边界区域中找到其局部密度ρ_k最高的点，称为核心区域边界密度ρ_b。类簇中局部密度值ρ_k比核心区域边界密度ρ_b大的超像素作为类簇的核心成员，记为

S2.3、计算核心成员属于此标签的置信度。

当2.2步骤中未找到与标签相一致的类簇时，则将所有参与聚类超像素使用图像标签的随机置信度，即：属于标记l的置信度为

其中超像素d_k来源于图像I^j。

当S2.2步骤中已经找到与标签相一致的类簇时，通过高斯核将距离值映射为0-1之间值，即：

d_core表示类簇中心，σ为核心区域超像素计算得到的标准差/>

其中/>

核心区域内超像素属于当前聚类标签的置信度为：/>

其他超像素的置信度值为来源图像的随机置信度：/>

其中超像素d_k来源于图像I^j。

S2.4、对单幅图像中的超像素使用条件随机场进行标注。

将步骤S2.3得到的超像素属于某个标签的置信度值作为条件随机场的数据项(一元势函数)，利用超像素之间的空间邻接关系和超像素之间的相似度建立图模型，超像素为定点，邻接关系为边，边连接的两个超像素距离为边的权重。二阶条件随机场能量公式表示为：

第一项中ψ_i(d_k，l_i，θ)＝-log(p(d_k|l))为数据项，其取值步骤S2.3中得到的d_k取得l_i的置信度的负对数，其中置信度值分为两种：一种是通过对标签的聚类找到了其对应的类簇时，对其核心区域给予了较高的置信度值；另一种是未通过聚类找到其相对应的类簇时，超像素所属标签的置信度值为来源图像的随机置信度。θ为步骤2中模型参数的集总表示。第一项中

是一个强约束项表达，约束/>

的标签只能在对应的图像级标签L^j中取得，否则能量为无穷大。第二项/>

为光滑项，对邻接超像素外观相接近但是分配了不同标签的情况进行惩罚。D(d_i，d_i′)为超像素在CIE-Lab空间上平均颜色的欧氏距离。条件随机场的标注问题就是求能量函数E的最小值，能量函数的一元势函数和成对势函数均为非负值，符合子模函数(submodular)的特性，可以使用图割算法的α扩张算法快速求解其近似最优解。

步骤S3输出语义分割结果。将每个像素的语义标签显示在图像中。

Claims

1.一种基于寻找语义类簇的弱监督图像语义分割方法，包括如下步骤：

S2.1对每个标签进行超像素聚类，确定各个类簇中心及成员；

S2.2寻找与该标签对应的类簇及核心成员；

S2.3计算核心成员属于此标签的置信度；

S2.4对单幅图像中的超像素使用条件随机场进行标注；

所述步骤S2.1针对数据集标签集合中的每个标签，分别进行聚类，聚类次数等于数据集标签数；

所述步骤S2.2通过计算聚类图像标签的统计直方图与聚类后各类簇超像素来源图像标签的统计直方图的余弦距离确定标签对应的类簇；统计参与聚类时使用的图像级标签的统计直方图H＝[b1，b2，.....bc]，C＝|L|，b_k表示第k个标签的个数；计算每个类簇中超像素来源图像拥有标签的直方图Hr＝[a1，a2，....ac]，C＝|L|，r为类簇索引号，a_k表示第k个标签的个数，多个超像素块来源于同一幅图像的，图像标签仅统计一次，计算H和Hr的余弦距离：

当R≤cos(10°)且Hc距离最小的类簇判断为标签对应的类簇；R＞cos(10°)时，未找到与聚类标签相一致的类簇。

2.根据权利要求1所述的一种基于寻找语义类簇的弱监督图像语义分割方法，其特征在于，所述步骤S2.1针对某标签进行聚类时，所使用的超像素为含有此标签的所有图像中的超像素。

3.根据权利要求1所述的一种基于寻找语义类簇的弱监督图像语义分割方法，其特征在于，所述步骤S2.1针对某标签聚类时，通过对每个超像素的局部密度和最小归属距离的积进行排序，来确定聚类中心。

4.根据权利要求1所述的一种基于寻找语义类簇的弱监督图像语义分割方法，其特征在于，所述步骤S2.3中当前标签所属类簇中核心区域的超像素属于该标签的置信度值使用高斯核映射得到。

5.根据权利要求1所述的一种基于寻找语义类簇的弱监督图像语义分割方法，其特征在于，所述步骤S2.4条件随机场为二阶邻域关系场，其一元势的取值为步骤S2.3中得到的超像素取得标签的置信度值，不属于任何语义标签对应类簇核心区域的超像素取来源图像的随机置信度。