CN107657276B - 一种基于寻找语义类簇的弱监督语义分割方法 - Google Patents
一种基于寻找语义类簇的弱监督语义分割方法 Download PDFInfo
- Publication number
- CN107657276B CN107657276B CN201710857774.XA CN201710857774A CN107657276B CN 107657276 B CN107657276 B CN 107657276B CN 201710857774 A CN201710857774 A CN 201710857774A CN 107657276 B CN107657276 B CN 107657276B
- Authority
- CN
- China
- Prior art keywords
- label
- image
- cluster
- semantic
- super
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于寻找语义类簇的弱监督语义分割方法,利用大量图像级别标注的图像数据,解决图像分割成互不相交的语义的区域,并为每一个区域分配标签的问题。本发明包括:对每个签进行超像素聚类,确定各个类簇中心和成员;寻找与该标签对应的类簇及核心成员;计算核心成员属于此标签的置信度;对单幅图像中的超像素使用条件随机场进行标注。本发明可以将图像级别标签添加到图像内部,实现细粒度的图像语义理解。
Description
技术领域
本发明属于多媒体内容的自动分析与理解技术领域,具体涉及一种基于弱监督数据集的图像语义分割方法。
背景技术
图像语义分割是图像理解的基础工作之一,目的是将图像分割成互不相交的语义明显的区域,并为每一个区域分配标签。例如,一幅图像中有牛、草地和天空三个语义标签,语义分割的目的是将三个标签在图像中对应的语义区域找出来,也就是完成图像划分和分配标签的任务。该任务回答了图像中有什么,在哪里和边缘在哪三个问题,含有更丰富的信息。该工作在机器人自动导航、安防和环境的智能监控、知识获取和搜索的图片理解等方面有着广阔的应用前景。
图像语义分割通常做为分类或标注任务,为每一个像素或者是超像素分配一个标签。具有相同标签的像素或者超像素是相同语义区域,其边缘即语义边界。
按照训练时使用的数据不同,语义分割可分为强监督和弱监督两种类型。强监督方法中训练图像的每个像素都有唯一的标签。弱监督方法使用的训练图像数据仅有图像级别的标签,即一幅图像对应若干个标签,标签只描述了图像中有那几个语义区域,而没有指明语义标签对应的区域。强监督数据的获取通常使用人工进行标记,费时费力,其规模受到限制。弱监督语义分割使用图像级别的标记,可克服强监督数据获取困难的问题
超像素是空间邻近且外观相似度高的像素积聚成像素块,块内的像素有一致性,本质上是一种图像的过分割,超像素块的部分边缘与图像的语义区域的部分边缘相吻合。作为图像处理的基本单元,这样可以大大减少计算量,常在图像分析中常作为基本运算单元使用。
超像素聚类是一种将超像素划分成若干子集合的过程,子集合称为类簇,同一类簇中的超像素尽可能的相似,而不同类簇中的超像素尽可能相异。常使用特征向量代替超像素,定义特征向量之间的距离函数来确定超像素之间的相似程度。
条件随机场是语义分割中的常用框架,它既可以应用于强监督数据,也可以用于弱监督数据。其特点是可以对关系型数据进行建模,利用数据的相互关系和条件独立对分类结果进行正则化处理。
发明内容
(一)要解决的技术问题
本发明提出了一种基于弱监督数据集的图像语义分割方法,用于解决在仅有图像级别标签的弱监督数据集中,实现图像语义分割的问题,为图像中的每一个超像素块分配一个语义标签,从而实现图像中不同语义区域的识别和分割。
(二)技术方案
为达到上述目的,本发明的基本思路是每个语义标签应该属于某些特征相近的超像素,这些超像素能够聚成一类,找到属于该标签的高置信度的超像素,可以大该确定语义标签在图像中的位置,分割任务由标注条件随机场来完成。本发明的算法包括4部分:(1)对每个签进行超像素聚类,确定各个类簇中心和成员;(2)寻找与该标签对应的类簇及核心成员;(3)计算核心成员属于此标签的置信度;(4)对单幅图像中的超像素使用条件随机场进行标注。
本发明提出了一种基于寻找语义类簇的弱监督学习方法,对每个标签进行一次单独聚类,从标签的角度去寻找置信度高的超像素,其他超像素使用图像标签的随机置信度。最后,通过标注条件随机场完成语义分割任务。
本发明提出了一种基于寻找语义类簇的图像语义分割方法,包括如下步骤:S2.1、对每个标签进行超像素聚类,确定各个类簇中心和核心区域;S2.2、寻找与该标签对应的类簇;S2.3、计算标签对应类簇中核心区域中超像素属于该标签的置信度值;S2.4、对单幅图像中的超像素使用条件随机场进行标注。
在一种实施方式中,所述步骤S2.1针对数据集标签集合中的每个标签,分别进行聚类,聚类次数等于数据集标签数。
在一种实施方式中,所述步骤S2.1针对某标签进行聚类时,所使用的超像素为含有此标签的所有图像中的超像素。
在一种实施方式中,所述步骤S2.1针对某标签聚类时,通过对每个超像素的局部密度和最小归属距离的积进行排序,来确定聚类中心。
在一种实施方式中,所述步骤S2.2通过计算聚类图像标签的统计直方图与聚类后各类簇核心区域中超像素来源图像标签的统计直方图的余弦距离确定标签对应的类簇。
在一种实施方式中,所述步骤S2.3中当前标签所属类簇中核心区域的超像素属于该标签的置信度值使用高斯核映射得到。
在一种实施方式中,所述步骤S2.4条件随机场为二阶邻域关系场,其一元势的取值为步骤S2.3中得到的超像素取得标签的置信度值,不属于任何语义标签对应类簇核心区域的超像素取来源图像的随机置信度。
(三)有益效果
本发明不仅可以利用弱监督数据集对图像进行分割,还可以将分割的区域给定对应的标签,实现更进一步的图像理解。
附图说明
图1是本发明的一种基于寻找语义类簇的弱监督图像语义分割方法流程图。
具体实施方式
图1是本发明的一种基于寻找语义类簇的弱监督图像语义分割方法流程图。如图1所示,本发明包括如下四个步骤:
步骤S1超像素分割和特征提取。
该步骤对图像进行超像素分割,同时提取超像素的颜色、纹理、形状和位置四种特征,连接成1690维特征,使用主成分分析降维方法将其降到100维。超像素特征也可使用其他方法表达。
步骤S2基于寻找语义类簇的弱监督学习。包含四个子步骤:对每个标签进行超像素聚类,确定各个类簇中心和成员;寻找与该标签对应的类簇及核心成员;计算核心成员属于此标签的置信度;对单幅图像中的超像素使用条件随机场进行标注。步骤S2为本发明的主体部分,下面结合该步骤包含的四个子步骤进行详细说明:
为了方便说明,首先介绍一下本发明设计的数学符号和定义。弱监督图像集可以表示为:图像可表示成为超像素的集合,训练集为数据集中共有图像M幅,Ij表示其中一幅图像,j是图像索引变量。/>表示图像集中第j幅图像Ij中的第i个超像素块,其中第j幅图像Ij共有Nj个超像素块。Lj为图像Ij对应的标签集合,它是训练集标签集合的子集,即:/>训练集中所有标签的总数为|L|=C。每一个超像素/>均对应一个未知的标签/>弱监督语义分割的目的是利用图像和标签的约束关系学习得到超像素和标签的对应关系/>即恢复超像素/>对应的隐藏标签/>对每个超像素预测一个标签。
聚类时,使用图像集中的部分图像。设参与聚类的超像素的集合为S是整个训练集的子集,即/>将S重新表示为/>且K=|S|是参与聚类的超像素的总数。计算S中任意两个超像素dk之间的欧式距离Dnm,其中m,n∈{1,2,3...K}。将所有的Dnm进行升序排列,选择0.01×K位置对应的距离值Dnm称为局部密度边界dc。与某个超像素的距离小于局部密度边界dc的超像素总数称为该超像素的局部密度ρ。某超像素与比自身局部密度ρ值高的其他超像素之间的最小距离称为最小归属距离σ。
S2.1、对每个标签进行超像素聚类,确定各个类簇中心及成员。
当一个标签属于某图像,认为该图像中所有超像素均有可能取得此标签,而一幅图像没有某标签,认为图像中所有的超像素均不可能取得这个标签。对一个标签进行聚类时,首先选择有可能取得这个标签的所有超像素进行聚类。
对于某个标签l∈L={1,2,3....C},在数据集τ中,查找l∈Lj的所有对应图像Ij,将相应图像中所有超像素进行聚类,计算每个超像素/>的局部密度ρk和最小归属距离σk值。对每个超像素dk计算hk=ρk×σk,对hk进行降序排序,将最大的前H个距离对应的超像素作为聚类中心,H为参与聚类的超像素可能拥有的标签的总数。类簇中心找到后,剩余的每个超像素被归属到它的有更高密度的最近邻所属类簇。
S2.2、寻找与该标签对应的类簇及核心成员。
聚类后得到若干个类簇,其中有一个属于聚类的标签,通过计算聚类图像标签的统计特征和聚类后各类簇中超像素标签的统计特性的相关性确定来寻找属于当前标签的类簇。
统计参与聚类时使用的图像级标签的统计直方图H=[b1,b2,.....bC],C=|L|,bk表示第k个标签的个数。计算每个类簇中超像素来源图像拥有标签的直方图Hr=[a1,a2,....aC],C=|L|,r为类簇索引号,ak表示第k个标签的个数,多个超像素块来源于同一幅图像的,图像标签仅统计一次。计算H和Hr的余弦距离:当R≤cos(10°)且HC距离最小的类簇判断为标签对应的类簇。R>cos(10°)时,未找到与聚类标签相一致的类簇。
当找到与某个标签对应的类簇后,确定类簇的一个核心区域。对于某个类簇,分配到该类簇但与其它类簇中超像素的距离小于局部密度边界dc的超像素的集合称为该类簇的一个边界区域。在边界区域中找到其局部密度ρk最高的点,称为核心区域边界密度ρb。类簇中局部密度值ρk比核心区域边界密度ρb大的超像素作为类簇的核心成员,记为
S2.3、计算核心成员属于此标签的置信度。
当S2.2步骤中已经找到与标签相一致的类簇时,通过高斯核将距离值映射为0-1之间值,即:dcore表示类簇中心,σ为核心区域超像素计算得到的标准差/>其中/>核心区域内超像素属于当前聚类标签的置信度为:/>其他超像素的置信度值为来源图像的随机置信度:/>其中超像素dk来源于图像Ij。
S2.4、对单幅图像中的超像素使用条件随机场进行标注。
将步骤S2.3得到的超像素属于某个标签的置信度值作为条件随机场的数据项(一元势函数),利用超像素之间的空间邻接关系和超像素之间的相似度建立图模型,超像素为定点,邻接关系为边,边连接的两个超像素距离为边的权重。二阶条件随机场能量公式表示为:
第一项中ψi(dk,li,θ)=-log(p(dk|l))为数据项,其取值步骤S2.3中得到的dk取得li的置信度的负对数,其中置信度值分为两种:一种是通过对标签的聚类找到了其对应的类簇时,对其核心区域给予了较高的置信度值;另一种是未通过聚类找到其相对应的类簇时,超像素所属标签的置信度值为来源图像的随机置信度。θ为步骤2中模型参数的集总表示。第一项中是一个强约束项表达,约束/>的标签只能在对应的图像级标签Lj中取得,否则能量为无穷大。第二项/>为光滑项,对邻接超像素外观相接近但是分配了不同标签的情况进行惩罚。D(di,di′)为超像素在CIE-Lab空间上平均颜色的欧氏距离。条件随机场的标注问题就是求能量函数E的最小值,能量函数的一元势函数和成对势函数均为非负值,符合子模函数(submodular)的特性,可以使用图割算法的α扩张算法快速求解其近似最优解。
步骤S3输出语义分割结果。将每个像素的语义标签显示在图像中。
Claims (5)
1.一种基于寻找语义类簇的弱监督图像语义分割方法,包括如下步骤:
S2.1对每个标签进行超像素聚类,确定各个类簇中心及成员;
S2.2寻找与该标签对应的类簇及核心成员;
S2.3计算核心成员属于此标签的置信度;
S2.4对单幅图像中的超像素使用条件随机场进行标注;
所述步骤S2.1针对数据集标签集合中的每个标签,分别进行聚类,聚类次数等于数据集标签数;
所述步骤S2.2通过计算聚类图像标签的统计直方图与聚类后各类簇超像素来源图像标签的统计直方图的余弦距离确定标签对应的类簇;统计参与聚类时使用的图像级标签的统计直方图H=[b1,b2,.....bc],C=|L|,bk表示第k个标签的个数;计算每个类簇中超像素来源图像拥有标签的直方图Hr=[a1,a2,....ac],C=|L|,r为类簇索引号,ak表示第k个标签的个数,多个超像素块来源于同一幅图像的,图像标签仅统计一次,计算H和Hr的余弦距离:
2.根据权利要求1所述的一种基于寻找语义类簇的弱监督图像语义分割方法,其特征在于,所述步骤S2.1针对某标签进行聚类时,所使用的超像素为含有此标签的所有图像中的超像素。
3.根据权利要求1所述的一种基于寻找语义类簇的弱监督图像语义分割方法,其特征在于,所述步骤S2.1针对某标签聚类时,通过对每个超像素的局部密度和最小归属距离的积进行排序,来确定聚类中心。
4.根据权利要求1所述的一种基于寻找语义类簇的弱监督图像语义分割方法,其特征在于,所述步骤S2.3中当前标签所属类簇中核心区域的超像素属于该标签的置信度值使用高斯核映射得到。
5.根据权利要求1所述的一种基于寻找语义类簇的弱监督图像语义分割方法,其特征在于,所述步骤S2.4条件随机场为二阶邻域关系场,其一元势的取值为步骤S2.3中得到的超像素取得标签的置信度值,不属于任何语义标签对应类簇核心区域的超像素取来源图像的随机置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710857774.XA CN107657276B (zh) | 2017-09-15 | 2017-09-15 | 一种基于寻找语义类簇的弱监督语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710857774.XA CN107657276B (zh) | 2017-09-15 | 2017-09-15 | 一种基于寻找语义类簇的弱监督语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107657276A CN107657276A (zh) | 2018-02-02 |
CN107657276B true CN107657276B (zh) | 2023-07-07 |
Family
ID=61130947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710857774.XA Active CN107657276B (zh) | 2017-09-15 | 2017-09-15 | 一种基于寻找语义类簇的弱监督语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107657276B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241816B (zh) * | 2018-07-02 | 2020-10-27 | 北京交通大学 | 一种基于标签优化的图像再识别***及损失函数确定方法 |
CN109447098B (zh) * | 2018-08-27 | 2022-03-18 | 西北大学 | 一种基于深度语义嵌入的图像聚类算法 |
CN110163239B (zh) * | 2019-01-25 | 2022-08-09 | 太原理工大学 | 一种基于超像素和条件随机场的弱监督图像语义分割方法 |
CN116881485B (zh) * | 2023-06-19 | 2024-07-12 | 北京百度网讯科技有限公司 | 生成图像检索索引的方法及装置、电子设备和介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8457400B2 (en) * | 2008-06-27 | 2013-06-04 | Microsoft Corporation | Patch-based texture histogram coding for fast image similarity search |
CN102254326A (zh) * | 2011-07-22 | 2011-11-23 | 西安电子科技大学 | 利用核传递进行图像分割的方法 |
JP5870014B2 (ja) * | 2012-12-06 | 2016-02-24 | 日本電信電話株式会社 | 画像辞書生成装置、画像辞書生成方法及びコンピュータプログラム |
CN103853792B (zh) * | 2012-12-07 | 2018-06-15 | 中兴通讯股份有限公司 | 一种图片语义自动标注方法与*** |
CN103336969B (zh) * | 2013-05-31 | 2016-08-24 | 中国科学院自动化研究所 | 一种基于弱监督学习的图像语义解析方法 |
CN105844292B (zh) * | 2016-03-18 | 2018-11-30 | 南京邮电大学 | 一种基于条件随机场和二次字典学习的图像场景标注方法 |
-
2017
- 2017-09-15 CN CN201710857774.XA patent/CN107657276B/zh active Active
Non-Patent Citations (2)
Title |
---|
Weakly Supervised Semantic Segmentation using Constrained Multi-Image Model and Saliency Prior;Yu, MJ等;spie;全文 * |
基于标注词语义与图像视觉的标签丰富算法;孙登第;葛美玲;丁转莲;罗斌;;小型微型计算机***(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107657276A (zh) | 2018-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103207879B (zh) | 图像索引的生成方法及设备 | |
Unnikrishnan et al. | Toward objective evaluation of image segmentation algorithms | |
CN107103326B (zh) | 基于超像素聚类的协同显著性检测方法 | |
CN108062574B (zh) | 一种基于特定类别空间约束的弱监督目标检测方法 | |
CN104599275B (zh) | 基于概率图模型的非参数化的rgb-d场景理解方法 | |
CN110163239B (zh) | 一种基于超像素和条件随机场的弱监督图像语义分割方法 | |
CN107657276B (zh) | 一种基于寻找语义类簇的弱监督语义分割方法 | |
Cheng et al. | Outdoor scene image segmentation based on background recognition and perceptual organization | |
Kim et al. | Color–texture segmentation using unsupervised graph cuts | |
CN105740915B (zh) | 一种融合感知信息的协同分割方法 | |
CN103886619B (zh) | 一种融合多尺度超像素的目标跟踪方法 | |
CN110866896A (zh) | 基于k-means与水平集超像素分割的图像显著性目标检测方法 | |
CN104281572B (zh) | 一种基于互信息的目标匹配方法及其*** | |
CN110378911B (zh) | 基于候选区域和邻域分类器的弱监督图像语义分割方法 | |
CN106874862B (zh) | 基于子模技术和半监督学习的人群计数方法 | |
CN109241816B (zh) | 一种基于标签优化的图像再识别***及损失函数确定方法 | |
CN110675421B (zh) | 基于少量标注框的深度图像协同分割方法 | |
Xu et al. | Weakly supervised deep semantic segmentation using CNN and ELM with semantic candidate regions | |
Zhang et al. | Saliency detection via local structure propagation | |
CN113723492A (zh) | 一种改进主动深度学习的高光谱图像半监督分类方法及装置 | |
Kalinin et al. | A graph based approach to hierarchical image over-segmentation | |
Li et al. | Arbitrary body segmentation in static images | |
CN104778683A (zh) | 一种基于泛函映射的多模态图像分割方法 | |
CN109427068A (zh) | 基于超像素自动标注的深度学习共分割方法 | |
Zhou et al. | Semantic image segmentation using low-level features and contextual cues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |