CN111931782B - 语义分割方法、***、介质及装置 - Google Patents

语义分割方法、***、介质及装置 Download PDF

Info

Publication number
CN111931782B
CN111931782B CN202010808133.7A CN202010808133A CN111931782B CN 111931782 B CN111931782 B CN 111931782B CN 202010808133 A CN202010808133 A CN 202010808133A CN 111931782 B CN111931782 B CN 111931782B
Authority
CN
China
Prior art keywords
semantic segmentation
semantic
edge
model
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010808133.7A
Other languages
English (en)
Other versions
CN111931782A (zh
Inventor
舒睿俊
陈铭弘
李嘉茂
张晓林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Microsystem and Information Technology of CAS
Original Assignee
Shanghai Institute of Microsystem and Information Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Microsystem and Information Technology of CAS filed Critical Shanghai Institute of Microsystem and Information Technology of CAS
Priority to CN202010808133.7A priority Critical patent/CN111931782B/zh
Publication of CN111931782A publication Critical patent/CN111931782A/zh
Application granted granted Critical
Publication of CN111931782B publication Critical patent/CN111931782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种语义分割方法、***、介质及装置,所述方法包括以下步骤:获取需要语义分割的图片,记录所述图片的尺寸为H×W×M,H表示图像高度,W表示图像宽度,M表示通道数;对所述图片进行边缘处理获得边缘连通图S;对所述图片基于预先训练好的语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi;根据所述边缘连通图S,生成像素为0的四邻域连通集合F,遍历F中的每个连通域k分别找出对应于每个连通域k平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k。本发明的一种语义分割方法、***、介质及装置,用于提高陌生场景下语义分割的精度及鲁棒性。

Description

语义分割方法、***、介质及装置
技术领域
本发明涉及图像分割技术领域,特别是涉及一种语义分割方法、***、介质及装置。
背景技术
在语义识别***中,目前应用最广泛的是与深度学习相结合的方法,其中有监督学习的方法应用最为广泛。在实际应用中,往往需要通过对某个带有语义标签的数据集进行有监督训练的方法,而目标却是学习出一个稳定的且各个方面表现都比较好的模型。由于训练好的模型表达能力有限,得到的模型会是一个有偏好的模型。
集成学习通过组合多个学习器(模型)以期望得到一个更好更全面的模型,核心思想在于,即使某一个学习器得到了错误的预测,其他的学习器也能将错误纠正回来,如图1a所示。每个个体学习器是用一个现有的学习算法从训练数据中产生的,例如C4.5决策树算法、BP神经网络算法等。将多个相同形式或不同形式的机器学习技术组合成一个预测模型的元算法后,可以起到减小方差、偏差或改进预测的效果。
以组合方式来说,可以将集成学***均可以显著降低错误。
以结合策略来说,可以将集成学***均法,主要针对数值型输出hi(x)∈R的回归类任务。平均法分为简单平均法和加权平均法。简单平均法公式如下:
加权平均法公式如下:
这里wi表示个体学习器hi的权重,通常要求wi≥0,
加权平均法的权重一般是从训练数据中学***均分未必一定优于朴素的简单平均法。一般而言,在个体学***均法,而在个体学***均法。
另一种结合策略为投票法,主要针对分类任务。对分类任务来说,学习器hi将从类别标记集合c1,c2,...,cN中预测出一个标记,最常见的结合策略是使用投票法。为便于讨论,我们将hi在样本X上的预测输出表示为一个N维向量,其中是hi在类别标记cj上的输出。投票法分为三种,绝对多数投票法、相对多数投票法,和加权投票法。绝对多数投票法公式如下:
相对多数投票法公式如下:
加权投票法公式如下:
现有的场景感知与理解算法中,使用边缘图作为辅助信息来提升结果的工作比较少,其中部分都如同ISPRS2018上D.Marmanis的Classification with an edge:Improvingsemantic image segmentation with boundary detection这篇文章,把经典边缘检测网络HED加入基于全卷积网络(FCN)的语义分割网络之前,由输入图片和DEM信号共同输入边缘检测网络,然后将边缘检测网络输出的边缘似然图和上述两个信号一起输入到语义分割网络中,最后以语义分割标签对整个网络进行有监督训练,如图1b所示。在训练阶段,HED网络和FCN网络需要分别针对各自任务训练好后再拼接在一起共同训练。
现有的边缘辅助语义分割方法中,仅仅只将边缘图和输入图片作简单concate(即将两张图片对齐堆叠起来)操作,训练过程中靠网络自主学习边缘似然图的方法融入边缘信息,在辅助手段上并不明确;D.Marmanis的方法是对应特定数据集的方法,并没有考虑到当网络放在现实场景时语义分割的效果。现实场景采集到的图片与训练时数据集里的图片是存在数据分布的差异的,往往同样都是自动驾驶场景的数据集,Cityscapes数据集上训练的语义分割网络并不能在ADE20k数据集上表现的很好,更不用说是在现实场景下的表现能力。
因此,希望能够解决如何得到没有偏好的模型,如何提高陌生场景下语义分割的精度及鲁棒性的问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种语义分割方法、***、介质及装置,用于解决现有技术中如何得到没有偏好的模型,如何提高陌生场景下语义分割的精度及鲁棒性的问题。
为实现上述目的及其他相关目的,本发明提供一种语义分割方法,包括以下步骤:获取需要语义分割的图片,记录所述图片的尺寸为H×W×M,H表示图像高度,W表示图像宽度,M表示通道数;对所述图片进行边缘处理获得边缘连通图S;对所述图片基于预先训练好的语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi;根据所述边缘连通图S,生成像素为0的四邻域连通集合F,遍历F中的每个连通域k分别找出对应于每个连通域k找出平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k。
于本发明的一实施例中,所述对所述图片进行边缘处理获得边缘连通图S包括:对所述图片通过边缘检测网络进行边缘检测,生成初始边缘检测图E,所述初始边缘检测图E的尺寸为H×W;对所述初始边缘检测图E进行细化处理,得到细化边缘图;对所述细化边缘图进行二值化处理,得到初始二值化边缘图T;对所述初始二值化边缘图T进行大连通块全连通处理,得到闭合边缘图S。
于本发明的一实施例中,所述对所述图片基于语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi包括:基于场景识别网络对所述图片进行场景分类,获取所述图片的场景类型;基于所述场景类型从语义分割模型库中调取符合场景属性的语义分割模型,所述语义分割模型有n个;遍历每个语义分割模型,记当前的语义分割模型为i,i∈[1,n],对所述图片进行语义分割,得到模型i的初始语义分割结果包括:语义分割概率图Pi,尺寸为H×W×Ci,其中Ci为语义分割模型能够输出的语义类别个数;语义分割标签图Gi,尺寸为H×W。
于本发明的一实施例中,所述遍历F中的每个连通域k找出平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k包括:连通域k内的像素位置集合上,统计语义模型i在像素位置集合的位置上的语义标签投票情况,选择投票最多的标签作为所述语义模型i在连通域k内像素位置上的语义标签结果;在连通域k内的像素位置集合上,计算每个语义分割模型i的平均信息熵li:/> 其中(h,w)∈k,Ci表示语义标签总数;找出平均信息熵li最小的语义分割模型imin;确定连通域k内所有像素的最终语义标签/>其中(h,w)∈k。
为实现上述目的,本发明还提供一种语义分割***,包括:获取模块、边缘处理模块、语义分割模块和标签模块;所述获取模块用于获取需要语义分割的图片,记录所述图片的尺寸为H×W×M,H表示图像高度,W表示图像宽度,M表示通道数;所述边缘处理模块用于对所述图片进行边缘处理获得边缘连通图S;所述语义分割模块用于对所述图片基于预先训练好的语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi;所述标签模块用于根据所述边缘连通图S,生成像素为0的四邻域连通集合F,遍历F中的每个连通域k分别找出对应于每个连通域k平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k。
于本发明的一实施例中,所述对所述图片进行边缘处理获得边缘连通图S包括:对所述图片通过边缘检测网络进行边缘检测,生成初始边缘检测图E,所述初始边缘检测图E的尺寸为H×W;对所述初始边缘检测图E进行细化处理,得到细化边缘图;对所述细化边缘图进行二值化处理,得到初始二值化边缘图T;对所述初始二值化边缘图T进行大连通块全连通处理,得到闭合边缘图S。
于本发明的一实施例中,所述对所述图片基于语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi包括:基于场景识别网络对所述图片进行场景分类,获取所述图片的场景类型;基于所述场景类型从语义分割模型库中调取符合场景属性的语义分割模型,所述语义分割模型有n个;遍历每个语义分割模型,记当前的语义分割模型为i,i∈[1,n],对所述图片进行语义分割,得到模型i的初始语义分割结果包括:语义分割概率图Pi,尺寸为H×W×Ci,其中Ci为语义分割模型能够输出的语义类别个数;语义分割标签图Gi,尺寸为H×W。
于本发明的一实施例中,所述遍历F中的每个连通域k找出平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k包括:连通域k内的像素位置集合上,统计语义模型i在像素位置集合的位置上的语义标签投票情况,选择投票最多的标签作为所述语义模型i在连通域k内像素位置上的语义标签结果;在连通域k内的像素位置集合上,计算每个语义分割模型i的平均信息熵li:/> 其中(h,w)∈k,Ci表示语义标签总数;找出平均信息熵li最小的语义分割模型imin;确定连通域k内所有像素的最终语义标签/>其中(h,w)∈k。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一上述语义分割方法。
为实现上述目的,本发明还提供一种语义分割装置,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述语义分割装置执行任一上述的语义分割方法。
如上所述,本发明的一种语义分割方法、***、介质及装置,具有以下有益效果:用于提高陌生场景下语义分割的精度及鲁棒性。
附图说明
图1a显示为本发明的语义分割方法于一实施例中的集成学习基本***的示意图;
图1b显示为本发明的语义分割方法于一实施例中的Classification with anedge网络的流程图;
图1c显示为本发明的语义分割方法于一实施例中的流程图;
图1d显示为本发明的语义分割方法于一实施例中的八邻域示意图;
图2显示为本发明的语义分割***于一实施例中的结构示意图;
图3显示为本发明的语义分割装置于一实施例中的结构示意图。
元件标号说明
21 获取模块
22 边缘处理模块
23 语义分割模块
24 标签模块
31 处理器
32 存储器
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,故图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的语义分割方法、***、介质及装置,用于提高陌生场景下语义分割的精度及鲁棒性。
如图1c所示,于一实施例中,本发明的语义分割方法,包括以下步骤:
步骤S11、获取需要语义分割的图片,记录所述图片的尺寸为H×W×M,H表示图像高度,W表示图像宽度,M表示通道数。
具体地,还包括完成***各个模块的加载和***参数的配置等。
具体地,从感知***获取需要语义分割的图片,图片尺寸记为H×W×3,其中H表示图像高度(单位:像素),W表示图像宽度(单位:像素),3表示红、绿和蓝3个通道。
步骤S12、对所述图片进行边缘处理获得边缘连通图S。
具体地,所述对所述图片进行边缘处理获得边缘连通图S包括:
对所述图片通过边缘检测网络进行边缘检测,生成初始边缘检测图E,所述初始边缘检测图E的尺寸为H×W。具体地,对输入图片使用现有的边缘检测网络执行边缘检测,生成初始边缘检测图E,E的尺寸为H×W(与输入图片的高度和宽度一致),E中每个像素位置保存一个边缘检测值,该值为实数,取值范围为0-255,数值越大表示该像素是物体边缘点的概率越大。
对所述初始边缘检测图E进行细化处理,得到细化边缘图。具体地,使用梯度变化表征边缘,由于梯度变化较大的区域通常比较宽,所以利用图像坐标系上的x轴和y轴方向的梯度确定一个法向arctan(y/x),然后在法向上判断当前像素的梯度值是否是一个峰值(或局部极大值),如果是就保留当前像素的边缘检测值(梯度值),如果不是极大值就抑制,把当前像素的边缘检测值设置为0,最终得到细化后的边缘线条,宽度为1~2个像素,则得到细化边缘图。
对所述细化边缘图进行二值化处理,得到初始二值化边缘图T。具体地,遍历细化边缘图中的所有像素点,如果像素点的边缘检测值大于0,则统一设置为一个固定值(比如255),该像素点称为有值像素点;否则,该像素点的边缘检测值保持0不变。遍历结束后,得到二值化边缘图T。
对所述初始二值化边缘图T进行大连通块全连通处理,得到闭合边缘图S。具体地,首先,检测T内有值像素点的连通域集合C。这里的连通是指图像处理领域里八邻域连通的概念,如图1d所示,假设像素点4有值,此时如果像素点4周围的八个点中某一个像素点有值,则称该点与像素点4连通,连通的像素点构成线条。
其次,遍历连通域集合C中的每个连通域,记当前连通域为t,对连通域t做如下处理:
a.根据八邻域连通方法,遍历连通域t中的每个像素点,判断其八邻域内有值像素点是否超过2个:如果是,则该像素点为线段内点;否则,该像素点是连通域中的端点。遍历结束生成该连通域内的端点集合St
b.遍历St中的每个端点,记当前端点为j,寻找端点j邻域半径r内的有值像素点,把和端点j属于同一个连通域的所有有值像素点组成连通域内像素点集合Ij;把和端点j不属于同一个连通域的所有有值像素点组成连通域外像素点集合Oj。如果集合Oj非空,则对Oj内的像素点按照和端点j的距离远近排序,取最近点和端点j连接,并更新二值化边缘图T。如果集合Ij非空,则取端点j邻域半径r内的所有像素组成一张图,并对该图作连通域检测,得到该图的连通域集合Lj,并对Ij内的像素点按照和端点j的距离远近排序,按照由远及近的顺序,依次判断Ij内的像素点和端点j是否属于Lj中的同一连通域,如果是,则连接这两个点,同时更新二值化边缘图T并跳出循环。
完成本步骤后,可以得到一个边缘闭合的边缘连通图S。闭合的概念,依然以图1d为例,其中若0,1,2,3,5,6,7,8有值,意味着每个点在八邻域内都有至少两个邻域点有值,所以经过以上像素点的线条是一个闭合的线条。同样,经过1,3,5,7的线条也是闭合的线条。首先有个先验,由于边缘检测网络更多关注于图像中的低层语义信息,而语义分割网络更多关注于图像中的高层语义信息。边缘检测用于将图片中的每个物体使用线条分隔开,而语义分割用于判断图片中每一个像素位置应该分类为什么物体。边缘检测在物体和另一物体边缘部分的细节表现更好,因此使用边缘检测出的结果作为物体和物体之间的分割线。这些分割线就将整张图片分成了若干个连通域。但是边缘检测网络对一张图片做边缘检测之后,生成的边缘图是一种概率值,意味着在这个像素位置上可能是边缘的概率值(可以理解为生成H*W的一张图,其中每个位置的取值范围是0-255,数值越大越有可能是边缘)。所以整张图大部分区域都是大于0的值的,只是值的大小不同。如果想要将物体和物体分隔开的话,最理想的情况就是边缘图是单像素宽度的线条。所以对边缘检测得到的边缘图做非极大值抑制(NMS)操作,得到细化后的边缘图。但是此时的边缘图中线条会出现断裂的情况,所以就提出了一种方法来让这些线条闭合,让每个物体或者物体中的每一块都能构成一个连通域。可以进一步提高分割的精度和鲁棒性。这是因为可以由边缘检测引导的特性提高***对于语义分割结果中物体边缘部分的分割精度有提升效果;语义融合则可以在边缘检测给出的k连通区域中挑出表现最好的语义分割模型i来给k区域打语义标签,从而对于不同的场景都会挑选出每个区域k中表现能力更好的语义分割模型i,从而增加了整个***的鲁棒性。
步骤S13、对所述图片基于预先训练好的语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi
具体地,预先训练好的语义分割模型i是指已经训练完成的,而语义分割模型i的个数为i∈[1,n]。
具体地,所述对所述图片基于语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi包括:
基于场景识别网络对所述图片进行场景分类,获取所述图片的场景类型。具体地,使用现有的场景识别网络,对所述图片进行场景分类,生成场景类型(例如室外、室内、野外等)。
基于所述场景类型从语义分割模型库中调取符合场景属性的语义分割模型,所述语义分割模型有n个。具体地,根据识别到的场景类型,从语义分割模型库中调取符合所述场景类型的语义分割模型,假设符合场景类型的语义分割模型有n个。
遍历每个语义分割模型,记当前的语义分割模型为i,i∈[1,n],对所述图片进行语义分割,得到模型i的初始语义分割结果包括:
语义分割概率图Pi,尺寸为H×W×Ci,其中Ci为语义分割模型能够输出的语义类别个数;表示Pi中的位置为(h,w,c)的值;/>表示输入图片的像素(h,w)位置属于语义类型c的概率值,c∈[1,C]。
语义分割标签图Gi,尺寸为H×W;表示Gi中的位置(h,w)的值,/>表示输入图片的像素(h,w)位置属于语义类型c的编号。每个语义分割模型i都做一遍语义分割工作,是为了对于每块区域k都挑选出一个表现最好的语义分割模型,用它的结果来当做融合后的标签。Gi和Pi都是后面计算信息熵和投票所需的。
步骤S14、根据所述边缘连通图S,生成像素为0的四邻域连通集合F,遍历F中的每个连通域k分别找出对应于每个连通域k平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k。比如P(h,w,c),c∈(1,cmax)。这总共cmax个值,代表这个像素点分别属于每个类别标签c的概率值。认为一个模型表达能力的好坏是对于目标判断的确定性大小(置信度)。举个例子,一个专家如果一个事情分析的模棱两可,则认为他不是个好专家,但是如果一个专家认定一个事情一定是某样的,则认为他是一个好专家。在这个概率P中也是如此,对于这c个概率值,计算信息熵,熵值低的代表该模型很确定这个点(h,w)是某一类,反之类推。
具体地,根据所述边缘连通图S,生成像素为0的四邻域连通集合F包括:此处四邻域连通概念与八邻域连通类似。如图1d所示,像素4的四邻域区域为像素1、3、5、7。当像素4有非零值,1、3、5、7位置上某处有非零值时,则称该位置与像素4构成四邻域连通。
具体地,所述遍历F中的每个连通域k找出平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k包括:遍历F中的每个连通域k,由于不同的语义分割网络i在连通域k内对应的类别ci可能会有不同,所以本发明通过计算不同语义概率图的置信度,并选择置信度最高的那个予以信任。
连通域k内的像素位置集合上,统计语义模型i在像素位置集合的位置上的语义标签投票情况,选择投票最多的标签作为所述语义模型i在连通域k内像素位置上的语义标签结果。在连通域k内的像素位置集合上,根据集成学习中投票法的概念,统计每个语义模型i在这些位置上的语义标签投票情况,选择投票最多的标签作为该语义模型在连通域k内像素位置上的语义标签结果。
在连通域k内的像素位置集合上,计算每个语义分割模型i的平均信息熵li 其中(h,w)∈k,Ci表示语义标签总数。连通域k是从图片的长、宽维度定义的概念。例如一张图片,其中一个连通域k分割出了图片中的一个篮球,那表征这个篮球的所有像素就是这个连通域内的所有元素。即(h,w)是属于k这个连通域内包含的像素集合。
找出平均信息熵li最小的语义分割模型记为imin
确定连通域k内所有像素的最终语义标签为其中(h,w)∈k。/>是指语义分割标签图Gi的i为imin时的Gi,/>表示/>中的位置(h,w)的值表示的像素(h,w)的语义分割标签。
具体地,遍历完F中的每个连通域,生成最终的语义分割标签图R。
如图2所示,于一实施例中,本发明的语义分割***,包括:获取模块21、边缘处理模块22、语义分割模块23和标签模块24。所述获取模块21用于获取需要语义分割的图片,记录所述图片的尺寸为H×W×M,H表示图像高度,W表示图像宽度,M表示通道数;所述边缘处理模块22用于对所述图片进行边缘处理获得边缘连通图S;所述语义分割模块23用于对所述图片基于预先训练好的语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi;所述标签模块24用于根据所述边缘连通图S,生成像素为0的四邻域连通集合F,遍历F中的每个连通域k分别找出对应于每个连通域k平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k。
于本发明的一实施例中,所述对所述图片进行边缘处理获得边缘连通图S包括:对所述图片通过边缘检测网络进行边缘检测,生成初始边缘检测图E,所述初始边缘检测图E的尺寸为H×W;对所述初始边缘检测图E进行细化处理,得到细化边缘图;对所述细化边缘图进行二值化处理,得到初始二值化边缘图T;对所述初始二值化边缘图T进行大连通块全连通处理,得到闭合边缘图S。
于本发明的一实施例中,所述对所述图片基于语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi包括:基于场景识别网络对所述图片进行场景分类,获取所述图片的场景类型;基于所述场景类型从语义分割模型库中调取符合场景属性的语义分割模型,所述语义分割模型有n个;遍历每个语义分割模型,记当前的语义分割模型为i,i∈[1,n],对所述图片进行语义分割,得到模型i的初始语义分割结果包括:语义分割概率图Pi,尺寸为H×W×Ci,其中Ci为语义分割模型能够输出的语义类别个数;语义分割标签图Gi,尺寸为H×W。
于本发明的一实施例中,所述遍历F中的每个连通域k找出平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k包括:连通域k内的像素位置集合上,统计语义模型i在像素位置集合的位置上的语义标签投票情况,选择投票最多的标签作为所述语义模型i在连通域k内像素位置上的语义标签结果;在连通域k内的像素位置集合上,计算每个语义分割模型i的平均信息熵li:/> 其中(h,w)∈k,Ci表示语义标签总数;找出平均信息熵li最小的语义分割模型imin;确定连通域k内所有像素的最终语义标签/>其中(h,w)∈k。
需要说明的是,获取模块21、边缘处理模块22、语义分割模块23和标签模块24的结构和原理与上述语义分割方法中的步骤一一对应,故在此不再赘述。
需要说明的是,应理解以上***的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Micro Processor Uint,简称MPU),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
于本发明一实施例中,本发明还包括一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一所述语义分割方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图3所示,于一实施例中,本发明的语义分割装置包括:处理器31和存储器32;所述存储器32用于存储计算机程序;所述处理器31与所述存储器32相连,用于执行所述存储器32存储的计算机程序,以使所述语义分割装置执行任一所述的语义分割方法。
具体地,所述存储器32包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
优选地,所述处理器31可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明语义分割方法、***、介质及装置,用于提高陌生场景下语义分割的精度及鲁棒性。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (4)

1.一种语义分割方法,其特征在于,包括以下步骤:
获取需要语义分割的图片,记录所述图片的尺寸为H×W×M,H表示图像高度,W表示图像宽度,M表示通道数;
对所述图片进行边缘处理获得边缘连通图S;
对所述图片基于预先训练好语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi
根据所述边缘连通图S,生成像素为0的四邻域连通集合F,遍历F中的每个连通域k分别找出对应于每个连通域k平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k;
所述对所述图片进行边缘处理获得边缘连通图S包括:
对所述图片通过边缘检测网络进行边缘检测,生成初始边缘检测图E,所述初始边缘检测图E的尺寸为H×W;
对所述初始边缘检测图E进行细化处理,得到细化边缘图;
对所述细化边缘图进行二值化处理,得到初始二值化边缘图T;
对所述初始二值化边缘图T进行大连通块全连通处理,得到闭合边缘图S;
所述对所述图片基于语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi包括:
基于场景识别网络对所述图片进行场景分类,获取所述图片的场景类型;
基于所述场景类型从语义分割模型库中调取符合场景属性的语义分割模型,所述语义分割模型有n个;
遍历每个语义分割模型,记当前的语义分割模型为i,i∈[1,n],对所述图片进行语义分割,得到模型i的初始语义分割结果包括:
语义分割概率图Pi,尺寸为H×W×Ci,其中Ci为语义分割模型i能够输出的语义类别个数;
语义分割标签图Gi,尺寸为H×W;
所述遍历F中的每个连通域k找出平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k包括:
连通域k内的像素位置集合上,统计语义模型i在像素位置集合的位置上的语义标签投票情况,选择投票最多的标签作为所述语义模型i在连通域k内像素位置上的语义标签结果;
在连通域k内的像素位置集合上,计算每个语义分割模型i的平均信息熵li
其中(h,w)∈k;
找出平均信息熵li最小的语义分割模型imin
确定连通域k内所有像素的最终语义标签其中(h,w)∈k。
2.一种语义分割***,其特征在于,包括:获取模块、边缘处理模块、语义分割模块和标签模块;
所述获取模块用于获取需要语义分割的图片,记录所述图片的尺寸为H×W×M,H表示图像高度,W表示图像宽度,M表示通道数;
所述边缘处理模块用于对所述图片进行边缘处理获得边缘连通图S;
所述语义分割模块用于对所述图片基于预先训练好的语义分割模型i进行语义分割;
生成语义标签图Gi和语义概率图Pi
所述标签模块用于根据所述边缘连通图S,生成像素为0的四邻域连通集合F,遍历F中的每个连通域k分别找出对应于每个连通域k平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k;
所述对所述图片进行边缘处理获得边缘连通图S包括:
对所述图片通过边缘检测网络进行边缘检测,生成初始边缘检测图E,所述初始边缘检测图E的尺寸为H×W;
对所述初始边缘检测图E进行细化处理,得到细化边缘图;
对所述细化边缘图进行二值化处理,得到初始二值化边缘图T;
对所述初始二值化边缘图T进行大连通块全连通处理,得到闭合边缘图S;
所述对所述图片基于语义分割模型i进行语义分割;生成语义标签图Gi和语义概率图Pi包括:
基于场景识别网络对所述图片进行场景分类,获取所述图片的场景类型;
基于所述场景类型从语义分割模型库中调取符合场景属性的语义分割模型,所述语义分割模型有n个;
遍历每个语义分割模型,记当前的语义分割模型为i,i∈[1,n],对所述图片进行语义分割,得到模型i的初始语义分割结果包括:
语义分割概率图Pi,尺寸为H×W×Ci,其中Ci为语义分割模型i能够输出的语义类别个数;
语义分割标签图Gi,尺寸为H×W;
所述遍历F中的每个连通域k找出平均信息熵最小的语义分割模型imin,确定连通域k内所有像素的最终语义标签其中(h,w)∈k包括:
连通域k内的像素位置集合上,统计语义模型i在像素位置集合的位置上的语义标签投票情况,选择投票最多的标签作为所述语义模型i在连通域k内像素位置上的语义标签结果;
在连通域k内的像素位置集合上,计算每个语义分割模型i的平均信息熵li
其中(h,w)∈k;
找出平均信息熵li最小的语义分割模型imin
确定连通域k内所有像素的最终语义标签其中(h,w)∈k。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行,以实现权利要求1所述语义分割方法。
4.一种语义分割装置,其特征在于,包括:处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述语义分割装置执行权利要求1所述的语义分割方法。
CN202010808133.7A 2020-08-12 2020-08-12 语义分割方法、***、介质及装置 Active CN111931782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010808133.7A CN111931782B (zh) 2020-08-12 2020-08-12 语义分割方法、***、介质及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010808133.7A CN111931782B (zh) 2020-08-12 2020-08-12 语义分割方法、***、介质及装置

Publications (2)

Publication Number Publication Date
CN111931782A CN111931782A (zh) 2020-11-13
CN111931782B true CN111931782B (zh) 2024-03-01

Family

ID=73310815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010808133.7A Active CN111931782B (zh) 2020-08-12 2020-08-12 语义分割方法、***、介质及装置

Country Status (1)

Country Link
CN (1) CN111931782B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633148B (zh) * 2020-12-22 2022-08-09 杭州景联文科技有限公司 一种签名指印真假检测方法及***
CN112700450A (zh) * 2021-01-15 2021-04-23 北京睿芯高通量科技有限公司 一种基于集成学习的图像分割方法及其***
CN114049569B (zh) * 2022-01-13 2022-03-18 自然资源部第三地理信息制图院 一种深度学习模型性能评价方法及***

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424159A (zh) * 2017-07-28 2017-12-01 西安电子科技大学 基于超像素边缘和全卷积网络的图像语义分割方法
CN109886238A (zh) * 2019-03-01 2019-06-14 湖北无垠智探科技发展有限公司 基于语义分割的无人机航拍图像变化检测算法
CN109919159A (zh) * 2019-01-22 2019-06-21 西安电子科技大学 一种针对边缘图像的语义分割优化方法及装置
CN110322445A (zh) * 2019-06-12 2019-10-11 浙江大学 一种基于最大化预测和标签间相关性损失函数的语义分割方法
CN110443818A (zh) * 2019-07-02 2019-11-12 中国科学院计算技术研究所 一种基于涂鸦的弱监督语义分割方法与***
CN110570427A (zh) * 2019-07-19 2019-12-13 武汉珈和科技有限公司 一种融合边缘检测的遥感影像语义分割方法及装置
CN111127499A (zh) * 2019-12-20 2020-05-08 北京工业大学 一种基于语义轮廓信息的安检图像刀具检测分割方法
CN111161314A (zh) * 2019-12-17 2020-05-15 中国科学院上海微***与信息技术研究所 目标对象的位置区域确定方法、装置、电子设备及存储介质
CN111192265A (zh) * 2019-12-25 2020-05-22 中国科学院上海微***与信息技术研究所 一种基于点云的语义实例确定方法、装置、电子设备及存储介质
US10672129B1 (en) * 2019-03-22 2020-06-02 Lunit Inc. Method for semantic segmentation and apparatus thereof
CN111242027A (zh) * 2020-01-13 2020-06-05 北京工业大学 一种融合语义信息的无监督学习场景特征快速提取方法
CN111340047A (zh) * 2020-02-28 2020-06-26 江苏实达迪美数据处理有限公司 基于多尺度特征与前背景对比的图像语义分割方法及***
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229479B (zh) * 2017-08-01 2019-12-31 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424159A (zh) * 2017-07-28 2017-12-01 西安电子科技大学 基于超像素边缘和全卷积网络的图像语义分割方法
CN109919159A (zh) * 2019-01-22 2019-06-21 西安电子科技大学 一种针对边缘图像的语义分割优化方法及装置
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
CN109886238A (zh) * 2019-03-01 2019-06-14 湖北无垠智探科技发展有限公司 基于语义分割的无人机航拍图像变化检测算法
US10672129B1 (en) * 2019-03-22 2020-06-02 Lunit Inc. Method for semantic segmentation and apparatus thereof
CN110322445A (zh) * 2019-06-12 2019-10-11 浙江大学 一种基于最大化预测和标签间相关性损失函数的语义分割方法
CN110443818A (zh) * 2019-07-02 2019-11-12 中国科学院计算技术研究所 一种基于涂鸦的弱监督语义分割方法与***
CN110570427A (zh) * 2019-07-19 2019-12-13 武汉珈和科技有限公司 一种融合边缘检测的遥感影像语义分割方法及装置
CN111161314A (zh) * 2019-12-17 2020-05-15 中国科学院上海微***与信息技术研究所 目标对象的位置区域确定方法、装置、电子设备及存储介质
CN111127499A (zh) * 2019-12-20 2020-05-08 北京工业大学 一种基于语义轮廓信息的安检图像刀具检测分割方法
CN111192265A (zh) * 2019-12-25 2020-05-22 中国科学院上海微***与信息技术研究所 一种基于点云的语义实例确定方法、装置、电子设备及存储介质
CN111242027A (zh) * 2020-01-13 2020-06-05 北京工业大学 一种融合语义信息的无监督学习场景特征快速提取方法
CN111340047A (zh) * 2020-02-28 2020-06-26 江苏实达迪美数据处理有限公司 基于多尺度特征与前背景对比的图像语义分割方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Classification with an edge:Improving semantic image segmentation with boundary detection;D.Marmanis等;arXiv;第31页 *
CSF: Close d-mask-guide d semantic fusion method for semantic perception of unknown scenes;Ruijun Shu等;Pattern Recognition Letters;第101-107页 *
HCFS3D: Hierarchical coupled feature selection network for 3D semantic and instance segmentation;Jingang Tan等;Image and Vision Computing;第1-12页 *
基于SDR的智能电网***PBCH加扰实现与优化;舒睿俊 等;电子设计工程;第26卷(第6期);第81-85页 *

Also Published As

Publication number Publication date
CN111931782A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111931782B (zh) 语义分割方法、***、介质及装置
CN108549891B (zh) 基于背景与目标先验的多尺度扩散显著目标检测方法
US11640518B2 (en) Method and apparatus for training a neural network using modality signals of different domains
US9519660B2 (en) Information processing apparatus, clustering method, and recording medium storing clustering program
EP3203417B1 (en) Method for detecting texts included in an image and apparatus using the same
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN111079780B (zh) 空间图卷积网络的训练方法、电子设备及存储介质
JP2020123330A (ja) ニューラルネットワーク学習に利用されるオートラベリングされたイメージのうちでラベル検収のためのサンプルイメージを取得する方法、及びそれを利用したサンプルイメージ取得装置
KR101963404B1 (ko) 2-단계 최적화 딥 러닝 방법, 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체 및 딥 러닝 시스템
US10438083B1 (en) Method and system for processing candidate strings generated by an optical character recognition process
JP6997369B2 (ja) プログラム、測距方法、及び測距装置
CN110874590A (zh) 基于适配器互学习模型的训练及可见光红外视觉跟踪方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN110610143A (zh) 多任务联合训练的人群计数网络方法、***、介质及终端
US20150356350A1 (en) unsupervised non-parametric multi-component image segmentation method
CN111738036A (zh) 图像处理方法、装置、设备及存储介质
JP2019164618A (ja) 信号処理装置、信号処理方法およびプログラム
CN111178363B (zh) 文字识别方法、装置、电子设备以及可读存储介质
CN112364916A (zh) 基于迁移学习的图像分类方法、相关设备及存储介质
CN115035347A (zh) 图片识别方法、装置及电子设备
CN117557784B (zh) 目标检测方法、装置、电子设备及存储介质
Fröhlich et al. As time goes by—anytime semantic segmentation with iterative context forests
CN116824330A (zh) 一种基于深度学习的小样本跨域目标检测方法
US20220366242A1 (en) Information processing apparatus, information processing method, and storage medium
CN115690434A (zh) 一种基于专家场去噪结果优选的噪声图像识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant