CN109657715A

CN109657715A - 一种语义分割方法、装置、设备及介质

Info

Publication number: CN109657715A
Application number: CN201811520565.7A
Authority: CN
Inventors: 黄国恒; 陈俊安; 黄斯彤; 胡可
Original assignee: Guangdong University of Technology
Current assignee: Guangdong Airport Group Logistics Co ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-04-19
Anticipated expiration: 2038-12-12
Also published as: CN109657715B

Abstract

本发明公开了一种语义分割方法、装置、设备及介质。该方法步骤包括：获取目标帧图像，并在目标帧图像中划分多个独立的目标区域；分别对每个目标区域执行基于相应语义分割模型的语义分割操作，生成对应的结果图像；其中，语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的。由于本方法是将完整的目标帧图像划分为多个独立的目标区域，各个目标区域的语义分割相互独立，进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组，而造成颜色标记在后续的图像理解过程中相互混淆的情况发生，以此保证了语义分割结果的可用性。此外，本发明还提供一种语义分割装置、设备及介质，有益效果同上所述。

Description

一种语义分割方法、装置、设备及介质

技术领域

本发明涉及计算机视觉视频检测领域，特别是涉及一种语义分割方法、装置、设备及介质。

背景技术

图像的语义分割可以说是图像理解的基础性技术，在自动驾驶***(具体为街景识别与理解)、无人机应用(着陆点判断)以及穿戴式设备等应用场景中有着举足轻重的作用。

众所周知的是，图像是由许多像素(Pixel)组成，而语义分割就是将各个像素按照图像中所表达语义含义的不同进行相应的分组(Grouping)，在传统的语义分割中，其主要操作内容是将颜色与物体名称进行相关联的命名，进而在对图像进行语义分割后，原图像中不同类型的物体在结果图像中均以相应的颜色覆盖，结果图像中同一颜色的区域即表征相同类型的像素分组。但是在实际使用中，图像中的内容往往较为丰富，进而可能导致基于该图像进行语义分割操作时，像素分组的数量较多的情况，又由于颜色的整体种类相对较少，并且同类颜色中不同色度的颜色之间辨识度较低，因此用有限种类的颜色标记表征较多种类语义含义的像素分组，极易造成不同颜色标记之间的相互混淆，进而在后续的图像理解过程中，可能会丢失部分能够作为重要判别依据的像素信息，因此难以确保语义分割结果的整体可用性。

由此可见，提供一种语义分割方法，以相对避免结果图像中不同颜色标记之间相互混淆的情况，进而保证语义分割结果的可用性，是本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种语义分割方法、装置、设备及介质，以相对避免结果图像中不同颜色标记之间相互混淆的情况，进而保证语义分割结果的可用性。

为解决上述技术问题，本发明提供一种语义分割方法，包括：

获取目标帧图像，并在目标帧图像中划分多个独立的目标区域；

分别对每个目标区域执行基于相应语义分割模型的语义分割操作，生成对应的结果图像；其中，语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的。

优选的，在目标帧图像中划分多个独立的目标区域包括：

选取目标帧图像中的关键点；

基于各关键点分别进行池化处理，以在目标帧图像中划分相应的多个独立的目标区域。

优选的，语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的具体为：

语义分割模型是利用IndRNN卷积神经网络按目标区域对应的语义划分标准训练生成的。

优选的，分别对每个目标区域执行基于相应语义分割模型的语义分割操作具体为：

分别对每个目标区域中像素点间的互信息执行基于相应语义分割模型的语义分割操作。

优选的，获取目标帧图像具体为获取视频中的目标帧图像。

此外，本发明还提供一种语义分割装置，包括：

获取划分模块，用于获取目标帧图像，并在目标帧图像中划分多个独立的目标区域；

语义分割模块，用于分别对每个目标区域执行基于相应语义分割模型的语义分割操作，生成对应的结果图像；其中，语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的。

此外，本发明还提供一种语义分割设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述的语义分割方法的步骤。

此外，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的语义分割方法的步骤。

本发明所提供的语义分割方法，在获取到目标帧图像后，在目标帧图像中划分多个独立的目标区域，进而分别对每个目标区域执行基于与该目标区域相应的语义分割模型的语义分割，进而生成各个目标区域对应的结果图像；其中，各个目标区域均具有相应的语义划分标准，进而每个目标区域对应的语义分割模型均是由卷积神经网络根据该目标区域对应的语义划分标准进行训练而产生的。由于本方法是将完整的目标帧图像划分为多个独立的目标区域，而目标区域所包含的内容相较于完整的目标帧图像而言相对较少，在此基础上分别对各目标区域以相应的语义分割标准进行语义分割，因此各个目标区域的语义分割相互独立，进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组，而造成颜色标记在后续的图像理解过程中相互混淆的情况发生，以此保证了语义分割结果的可用性。此外，本发明还提供一种语义分割装置、设备及介质，有益效果同上所述。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语义分割方法的流程图；

图2为本发明实施例提供的一种语义分割装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

本发明的核心是提供一种语义分割方法，以相对避免结果图像中不同颜色标记之间相互混淆的情况，进而保证语义分割结果的可用性。本发明的另一核心是提供一种语义分割装置、设备及介质。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

实施例一

图1为本发明实施例提供的一种语义分割方法的流程图。请参考图1，语义分割方法的具体步骤包括：

步骤S10：获取目标帧图像，并在目标帧图像中划分多个独立的目标区域。

需要说明的是，本步骤中的目标帧图像可以具体为视频中某一帧对应的内容图像，也可以是单帧图像，即一幅静止的画面。在获取到目标帧图像后，对目标帧图像进行独立目标区域的划分，目标区域之间相互独立指的是目标区域与目标区域之间无重合的部分，并且为了确保对于目标帧图像进行语义分割的全面程度，各个目标区域相组合应能够完整的还原目标帧图像。对于目标区域的划分可以是根据预先设置的区域尺寸对目标帧图像进行分割，通过上述划分方式得到的各个目标区域的尺寸相同，但内容相对随机；对于目标区域的划分也可以是以目标帧图像中包含的重点内容为中心，将与重点内容具有一定关联性的内容与重点内容划分至相同的目标区域中，通过这种划分方式，能够相对确保目标区域中内容具有较高的关联性，相对确保各个目标区域之间不存在具有关联性的内容。上述的两种对于目标帧图像的分割方式仅为众多划分方式中的列举的两种划分方式，用户可以根据语义分割的实际需求而定，在此不做具体限定。

步骤S11：分别对每个目标区域执行基于相应语义分割模型的语义分割操作，生成对应的结果图像。

其中，语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的。

需要说明的是，语义分割是指对图片中的每个像素都进行分类，本步骤的核心在于分别对每个目标区域执行基于相应语义分割模型的语义分割操作，因此各个目标区域之间的语义分割操作相互独立，并且各目标区域中的内容相比于完整的目标帧图像而言相对较少，因此在对各目标区域进行语义分割时，所需要的颜色标记的数量相对较少，能够最大程度的避免在生成的结果图像中，颜色标记之间出现混淆的情况。

另外，本步骤中的语义分割模型是利用卷积神经网络根据各目标区域对应的语义划分标准而训练生成的，语义分割标准是指在语义分割时对像素类型的划分方式以及颜色标记与像素类型之间的对应关系，并且对于各目标区域的语义分割标准可以互不相同，对于根据互不相同的语义划分标准对目标区域进行语义划分而生成的各个结果图像，应以相应的图像理解逻辑进行后续的图像理解。例如，基于不同语义分割标准生成的两个结果图像A与B，红色标记在结果图像A中表征的像素类型为植物，而在结果图像B中表征的则为行人，因此对于结果图像A与结果图像B的理解方式互不相同，进而在对于结果图像A与B后续的图像理解时，应根据其二者相应的语义划分标准分别进行。

本发明所提供的语义分割方法，在获取到目标帧图像后，在目标帧图像中划分多个独立的目标区域，进而分别对每个目标区域执行基于与该目标区域相应的语义分割模型的语义分割，进而生成各个目标区域对应的结果图像；其中，各个目标区域均具有相应的语义划分标准，进而每个目标区域对应的语义分割模型均是由卷积神经网络根据该目标区域对应的语义划分标准进行训练而产生的。由于本方法是将完整的目标帧图像划分为多个独立的目标区域，而目标区域所包含的内容相较于完整的目标帧图像而言相对较少，在此基础上分别对各目标区域以相应的语义分割标准进行语义分割，因此各个目标区域的语义分割相互独立，进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组，而造成颜色标记在后续的图像理解过程中相互混淆的情况发生，以此保证了语义分割结果的可用性。

实施例二

在上述实施例的基础上，本发明还提供以下一系列优选的实施方式。

作为一种优选的实施方式，在目标帧图像中划分多个独立的目标区域包括：

选取目标帧图像中的关键点；

需要说明的是，本实施方式是将在目标帧图像中选取关键点，进而以各个关键点为中心分别进行池化处理。本实施方式在目标帧图像中选取关键点，并且基于各个关键点分别进行池化处理的操作步骤可以通过卷积的方式，即通过卷积神经网络实现。

关键点是划分为目标区域所依照的参照点，关键点的本质为具有某一特征(features)的像素点，设置关键点的目的是根据关键点的特征分类与关键点具有相似特征的其它像素点，进而由分类得到的其它像素点逐步构成完成的目标区域。理论上讲，可以用所有提取得到的特征去训练分类器，例如softmax分类器，但这样做计算量相对较大，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，需要对不同位置的特征进行聚合统计，例如，可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有更低的维度(相比使用所有提取得到的特征)，同时还会改善结果。这种聚合操作即为池化处理(pooling)。本实施方式通过池化处理的方式根据关键点聚合相似的像素点进而划分得到目标区域，能够在确保目标区域中的内容具有相似性的同时，降低划分目标区域过程的运算开销。

另外，本实施方式中的关键点可以预先由卷积神经网络模型在目标帧图像中选取，也可以通过人为方式进行选定，在此不做具体限定。

此外，作为一种优选的实施方式，语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的具体为：

需要说明的是，循环神经网络(RNN)已经被广泛用于序列数据的处理。然而，由于常见的梯度消失和***问题以及很难学习长期模式，RNN通常难以训练。为了解决这些问题，研究人员提出了长短期记忆(LSTM)和门控循环单元(GRU)，但使用双曲正切和Sigmoid函数又会使梯度随图层衰减。因此，构建高效可训练的深度网络是具有挑战性的任务。另外，RNN图层中的所有神经元都纠缠在一起，它们的行为很难解释。为了进一步解决上述问题，当前提供有一种新型的RNN模式，即独立循环神经网络(IndRNN)，在IndRNN卷积神经网络中，其每层的神经元均相互独立，并且跨层连接，IndRNN各图层之间管理相对容易，能防止梯度***和梯度消失。因此，本实施方式预先利用IndRNN卷积神经网络按目标区域对应的语义划分标准训练生成语义分割模型，能够相对确保语义分割模型的可用性以及可靠性。

此外，在上述实施方式的基础上，作为一种优选的实施方式，分别对每个目标区域执行基于相应语义分割模型的语义分割操作具体为：

需要说明的是，本实施方式是在基于目标区域中所包含的各个像素点之间的互信息对该区域进行语义分割，即对像素点进行归类。互信息(Mutual Information)是信息论里一种信息度量，互信息是计算语言学模型分析的常用方法，它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉熵近似。使用互信息理论进行特征抽取是基于如下假设：在某个特定类别出现频率高，但在其他类别出现频率比较低的词条与该类的互信息较大。通常用互信息作为特征和类别之间的测度标准，如果某一特征属于该类的话，它们的互信息量最大。

本实施方式各个像素点之间的互信息指的是表征像素点之间关联性的信息，通过目标区域内各像素点的互信息能够明确的获悉该目标区域内各像素点分别与哪一类像素分组的近似程度较高。在具体实施时，应预先将像素分组对应的特征进行设定，以此作为评定像素点是否属于该像素分组的依据。由于本方法中，不需要对特征和像素分组类别之间关系的性质作任何假设，因此能够相对确保对目标区域进行语义分割的整体效率。

下面以公式的形式表示互信息：

用X表示目标区域内的像素点集合，用x∈X表示某一像素点，Z表示编码向量的集合，z∈Z表示像素点的某个编码向量，即像素点所具有的特征，p(z|x)表示x所产生的编码向量的分布，我们设它为高斯分布，或者简单理解它就是我们想要寻找的编码器。可以用互信息来表示X，Z的相关性，如下：

表示原始数据的分布，而p(z)是在p(z|x)给定之后整个Z的分布。

在上述一系列实施方式的基础上，作为一种优选的实施方式，获取目标帧图像具体为获取视频中的目标帧图像。

需要说明的是，由于考虑到语义分割作为图像理解的基础性技术，往往应用于自动驾驶***(具体为街景识别与理解)、无人机应用(着陆点判断)以及穿戴式设备等场景下，而上述场景往往为时刻动态的场景而并非固定的图像，因此本实施方式获取视频中的目标帧图像，并进行后续相应的处理，能够与当前语义分割在图像理解中的使用场景相契合，进一步提高当前图像理解结果的整体可用性。

实施例三

在上文中对于语义分割方法的实施例进行了详细的描述，本发明还提供一种与该方法对应的语义分割装置，由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图2为本发明实施例提供的一种语义分割装置的结构图。本发明实施例提供的语义分割装置，包括：

获取划分模块10，用于获取目标帧图像，并在目标帧图像中划分多个独立的目标区域。

语义分割模块11，用于分别对每个目标区域执行基于相应语义分割模型的语义分割操作，生成对应的结果图像。其中，语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的。

本发明所提供的语义分割装置，在获取到目标帧图像后，在目标帧图像中划分多个独立的目标区域，进而分别对每个目标区域执行基于与该目标区域相应的语义分割模型的语义分割，进而生成各个目标区域对应的结果图像；其中，各个目标区域均具有相应的语义划分标准，进而每个目标区域对应的语义分割模型均是由卷积神经网络根据该目标区域对应的语义划分标准进行训练而产生的。由于本装置是将完整的目标帧图像划分为多个独立的目标区域，而目标区域所包含的内容相较于完整的目标帧图像而言相对较少，在此基础上分别对各目标区域以相应的语义分割标准进行语义分割，因此各个目标区域的语义分割相互独立，进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组，而造成颜色标记在后续的图像理解过程中相互混淆的情况发生，以此保证了语义分割结果的可用性。

实施例四

本发明还提供一种语义分割设备，包括：

存储器，用于存储计算机程序；

本发明所提供的语义分割设备，在获取到目标帧图像后，在目标帧图像中划分多个独立的目标区域，进而分别对每个目标区域执行基于与该目标区域相应的语义分割模型的语义分割，进而生成各个目标区域对应的结果图像；其中，各个目标区域均具有相应的语义划分标准，进而每个目标区域对应的语义分割模型均是由卷积神经网络根据该目标区域对应的语义划分标准进行训练而产生的。由于本设备是将完整的目标帧图像划分为多个独立的目标区域，而目标区域所包含的内容相较于完整的目标帧图像而言相对较少，在此基础上分别对各目标区域以相应的语义分割标准进行语义分割，因此各个目标区域的语义分割相互独立，进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组，而造成颜色标记在后续的图像理解过程中相互混淆的情况发生，以此保证了语义分割结果的可用性。

本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的语义分割方法的步骤。

本发明所提供的计算机可读存储介质，在获取到目标帧图像后，在目标帧图像中划分多个独立的目标区域，进而分别对每个目标区域执行基于与该目标区域相应的语义分割模型的语义分割，进而生成各个目标区域对应的结果图像；其中，各个目标区域均具有相应的语义划分标准，进而每个目标区域对应的语义分割模型均是由卷积神经网络根据该目标区域对应的语义划分标准进行训练而产生的。由于本计算机可读存储介质是将完整的目标帧图像划分为多个独立的目标区域，而目标区域所包含的内容相较于完整的目标帧图像而言相对较少，在此基础上分别对各目标区域以相应的语义分割标准进行语义分割，因此各个目标区域的语义分割相互独立，进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组，而造成颜色标记在后续的图像理解过程中相互混淆的情况发生，以此保证了语义分割结果的可用性。

以上对本发明所提供的一种语义分割方法、装置、设备及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种语义分割方法，其特征在于，包括：

获取目标帧图像，并在所述目标帧图像中划分多个独立的目标区域；

分别对每个所述目标区域执行基于相应语义分割模型的语义分割操作，生成对应的结果图像；其中，所述语义分割模型是利用卷积神经网络按所述目标区域对应的语义划分标准训练生成的。

2.根据权利要求1所述的方法，其特征在于，所述在所述目标帧图像中划分多个独立的目标区域包括：

选取所述目标帧图像中的关键点；

基于各所述关键点分别进行池化处理，以在所述目标帧图像中划分相应的多个独立的所述目标区域。

3.根据权利要求1所述的方法，其特征在于，所述语义分割模型是利用卷积神经网络按所述目标区域对应的语义划分标准训练生成的具体为：

所述语义分割模型是利用IndRNN卷积神经网络按所述目标区域对应的语义划分标准训练生成的。

4.根据权利要求1所述的方法，其特征在于，所述分别对每个所述目标区域执行基于相应语义分割模型的语义分割操作具体为：

分别对每个所述目标区域中像素点间的互信息执行基于相应语义分割模型的所述语义分割操作。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述获取目标帧图像具体为获取视频中的所述目标帧图像。

6.一种语义分割装置，其特征在于，包括：

获取划分模块，用于获取目标帧图像，并在所述目标帧图像中划分多个独立的目标区域；

语义分割模块，用于分别对每个所述目标区域执行基于相应语义分割模型的语义分割操作，生成对应的结果图像；其中，所述语义分割模型是利用卷积神经网络按所述目标区域对应的语义划分标准训练生成的。

7.一种语义分割设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述的语义分割方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的语义分割方法的步骤。