CN109657715A - 一种语义分割方法、装置、设备及介质 - Google Patents
一种语义分割方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN109657715A CN109657715A CN201811520565.7A CN201811520565A CN109657715A CN 109657715 A CN109657715 A CN 109657715A CN 201811520565 A CN201811520565 A CN 201811520565A CN 109657715 A CN109657715 A CN 109657715A
- Authority
- CN
- China
- Prior art keywords
- semantic segmentation
- target area
- target
- frame image
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 235000007926 Craterellus fallax Nutrition 0.000 description 1
- 240000007175 Datura inoxia Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 231100000768 Toxicity label Toxicity 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种语义分割方法、装置、设备及介质。该方法步骤包括:获取目标帧图像,并在目标帧图像中划分多个独立的目标区域;分别对每个目标区域执行基于相应语义分割模型的语义分割操作,生成对应的结果图像;其中,语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的。由于本方法是将完整的目标帧图像划分为多个独立的目标区域,各个目标区域的语义分割相互独立,进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组,而造成颜色标记在后续的图像理解过程中相互混淆的情况发生,以此保证了语义分割结果的可用性。此外,本发明还提供一种语义分割装置、设备及介质,有益效果同上所述。
Description
技术领域
本发明涉及计算机视觉视频检测领域,特别是涉及一种语义分割方法、装置、设备及介质。
背景技术
图像的语义分割可以说是图像理解的基础性技术,在自动驾驶***(具体为街景识别与理解)、无人机应用(着陆点判断)以及穿戴式设备等应用场景中有着举足轻重的作用。
众所周知的是,图像是由许多像素(Pixel)组成,而语义分割就是将各个像素按照图像中所表达语义含义的不同进行相应的分组(Grouping),在传统的语义分割中,其主要操作内容是将颜色与物体名称进行相关联的命名,进而在对图像进行语义分割后,原图像中不同类型的物体在结果图像中均以相应的颜色覆盖,结果图像中同一颜色的区域即表征相同类型的像素分组。但是在实际使用中,图像中的内容往往较为丰富,进而可能导致基于该图像进行语义分割操作时,像素分组的数量较多的情况,又由于颜色的整体种类相对较少,并且同类颜色中不同色度的颜色之间辨识度较低,因此用有限种类的颜色标记表征较多种类语义含义的像素分组,极易造成不同颜色标记之间的相互混淆,进而在后续的图像理解过程中,可能会丢失部分能够作为重要判别依据的像素信息,因此难以确保语义分割结果的整体可用性。
由此可见,提供一种语义分割方法,以相对避免结果图像中不同颜色标记之间相互混淆的情况,进而保证语义分割结果的可用性,是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种语义分割方法、装置、设备及介质,以相对避免结果图像中不同颜色标记之间相互混淆的情况,进而保证语义分割结果的可用性。
为解决上述技术问题,本发明提供一种语义分割方法,包括:
获取目标帧图像,并在目标帧图像中划分多个独立的目标区域;
分别对每个目标区域执行基于相应语义分割模型的语义分割操作,生成对应的结果图像;其中,语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的。
优选的,在目标帧图像中划分多个独立的目标区域包括:
选取目标帧图像中的关键点;
基于各关键点分别进行池化处理,以在目标帧图像中划分相应的多个独立的目标区域。
优选的,语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的具体为:
语义分割模型是利用IndRNN卷积神经网络按目标区域对应的语义划分标准训练生成的。
优选的,分别对每个目标区域执行基于相应语义分割模型的语义分割操作具体为:
分别对每个目标区域中像素点间的互信息执行基于相应语义分割模型的语义分割操作。
优选的,获取目标帧图像具体为获取视频中的目标帧图像。
此外,本发明还提供一种语义分割装置,包括:
获取划分模块,用于获取目标帧图像,并在目标帧图像中划分多个独立的目标区域;
语义分割模块,用于分别对每个目标区域执行基于相应语义分割模型的语义分割操作,生成对应的结果图像;其中,语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的。
此外,本发明还提供一种语义分割设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的语义分割方法的步骤。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的语义分割方法的步骤。
本发明所提供的语义分割方法,在获取到目标帧图像后,在目标帧图像中划分多个独立的目标区域,进而分别对每个目标区域执行基于与该目标区域相应的语义分割模型的语义分割,进而生成各个目标区域对应的结果图像;其中,各个目标区域均具有相应的语义划分标准,进而每个目标区域对应的语义分割模型均是由卷积神经网络根据该目标区域对应的语义划分标准进行训练而产生的。由于本方法是将完整的目标帧图像划分为多个独立的目标区域,而目标区域所包含的内容相较于完整的目标帧图像而言相对较少,在此基础上分别对各目标区域以相应的语义分割标准进行语义分割,因此各个目标区域的语义分割相互独立,进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组,而造成颜色标记在后续的图像理解过程中相互混淆的情况发生,以此保证了语义分割结果的可用性。此外,本发明还提供一种语义分割装置、设备及介质,有益效果同上所述。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语义分割方法的流程图;
图2为本发明实施例提供的一种语义分割装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的核心是提供一种语义分割方法,以相对避免结果图像中不同颜色标记之间相互混淆的情况,进而保证语义分割结果的可用性。本发明的另一核心是提供一种语义分割装置、设备及介质。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
实施例一
图1为本发明实施例提供的一种语义分割方法的流程图。请参考图1,语义分割方法的具体步骤包括:
步骤S10:获取目标帧图像,并在目标帧图像中划分多个独立的目标区域。
需要说明的是,本步骤中的目标帧图像可以具体为视频中某一帧对应的内容图像,也可以是单帧图像,即一幅静止的画面。在获取到目标帧图像后,对目标帧图像进行独立目标区域的划分,目标区域之间相互独立指的是目标区域与目标区域之间无重合的部分,并且为了确保对于目标帧图像进行语义分割的全面程度,各个目标区域相组合应能够完整的还原目标帧图像。对于目标区域的划分可以是根据预先设置的区域尺寸对目标帧图像进行分割,通过上述划分方式得到的各个目标区域的尺寸相同,但内容相对随机;对于目标区域的划分也可以是以目标帧图像中包含的重点内容为中心,将与重点内容具有一定关联性的内容与重点内容划分至相同的目标区域中,通过这种划分方式,能够相对确保目标区域中内容具有较高的关联性,相对确保各个目标区域之间不存在具有关联性的内容。上述的两种对于目标帧图像的分割方式仅为众多划分方式中的列举的两种划分方式,用户可以根据语义分割的实际需求而定,在此不做具体限定。
步骤S11:分别对每个目标区域执行基于相应语义分割模型的语义分割操作,生成对应的结果图像。
其中,语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的。
需要说明的是,语义分割是指对图片中的每个像素都进行分类,本步骤的核心在于分别对每个目标区域执行基于相应语义分割模型的语义分割操作,因此各个目标区域之间的语义分割操作相互独立,并且各目标区域中的内容相比于完整的目标帧图像而言相对较少,因此在对各目标区域进行语义分割时,所需要的颜色标记的数量相对较少,能够最大程度的避免在生成的结果图像中,颜色标记之间出现混淆的情况。
另外,本步骤中的语义分割模型是利用卷积神经网络根据各目标区域对应的语义划分标准而训练生成的,语义分割标准是指在语义分割时对像素类型的划分方式以及颜色标记与像素类型之间的对应关系,并且对于各目标区域的语义分割标准可以互不相同,对于根据互不相同的语义划分标准对目标区域进行语义划分而生成的各个结果图像,应以相应的图像理解逻辑进行后续的图像理解。例如,基于不同语义分割标准生成的两个结果图像A与B,红色标记在结果图像A中表征的像素类型为植物,而在结果图像B中表征的则为行人,因此对于结果图像A与结果图像B的理解方式互不相同,进而在对于结果图像A与B后续的图像理解时,应根据其二者相应的语义划分标准分别进行。
本发明所提供的语义分割方法,在获取到目标帧图像后,在目标帧图像中划分多个独立的目标区域,进而分别对每个目标区域执行基于与该目标区域相应的语义分割模型的语义分割,进而生成各个目标区域对应的结果图像;其中,各个目标区域均具有相应的语义划分标准,进而每个目标区域对应的语义分割模型均是由卷积神经网络根据该目标区域对应的语义划分标准进行训练而产生的。由于本方法是将完整的目标帧图像划分为多个独立的目标区域,而目标区域所包含的内容相较于完整的目标帧图像而言相对较少,在此基础上分别对各目标区域以相应的语义分割标准进行语义分割,因此各个目标区域的语义分割相互独立,进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组,而造成颜色标记在后续的图像理解过程中相互混淆的情况发生,以此保证了语义分割结果的可用性。
实施例二
在上述实施例的基础上,本发明还提供以下一系列优选的实施方式。
作为一种优选的实施方式,在目标帧图像中划分多个独立的目标区域包括:
选取目标帧图像中的关键点;
基于各关键点分别进行池化处理,以在目标帧图像中划分相应的多个独立的目标区域。
需要说明的是,本实施方式是将在目标帧图像中选取关键点,进而以各个关键点为中心分别进行池化处理。本实施方式在目标帧图像中选取关键点,并且基于各个关键点分别进行池化处理的操作步骤可以通过卷积的方式,即通过卷积神经网络实现。
关键点是划分为目标区域所依照的参照点,关键点的本质为具有某一特征(features)的像素点,设置关键点的目的是根据关键点的特征分类与关键点具有相似特征的其它像素点,进而由分类得到的其它像素点逐步构成完成的目标区域。理论上讲,可以用所有提取得到的特征去训练分类器,例如softmax分类器,但这样做计算量相对较大,这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此,为了描述大的图像,需要对不同位置的特征进行聚合统计,例如,可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有更低的维度(相比使用所有提取得到的特征),同时还会改善结果。这种聚合操作即为池化处理(pooling)。本实施方式通过池化处理的方式根据关键点聚合相似的像素点进而划分得到目标区域,能够在确保目标区域中的内容具有相似性的同时,降低划分目标区域过程的运算开销。
另外,本实施方式中的关键点可以预先由卷积神经网络模型在目标帧图像中选取,也可以通过人为方式进行选定,在此不做具体限定。
此外,作为一种优选的实施方式,语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的具体为:
语义分割模型是利用IndRNN卷积神经网络按目标区域对应的语义划分标准训练生成的。
需要说明的是,循环神经网络(RNN)已经被广泛用于序列数据的处理。然而,由于常见的梯度消失和***问题以及很难学习长期模式,RNN通常难以训练。为了解决这些问题,研究人员提出了长短期记忆(LSTM)和门控循环单元(GRU),但使用双曲正切和Sigmoid函数又会使梯度随图层衰减。因此,构建高效可训练的深度网络是具有挑战性的任务。另外,RNN图层中的所有神经元都纠缠在一起,它们的行为很难解释。为了进一步解决上述问题,当前提供有一种新型的RNN模式,即独立循环神经网络(IndRNN),在IndRNN卷积神经网络中,其每层的神经元均相互独立,并且跨层连接,IndRNN各图层之间管理相对容易,能防止梯度***和梯度消失。因此,本实施方式预先利用IndRNN卷积神经网络按目标区域对应的语义划分标准训练生成语义分割模型,能够相对确保语义分割模型的可用性以及可靠性。
此外,在上述实施方式的基础上,作为一种优选的实施方式,分别对每个目标区域执行基于相应语义分割模型的语义分割操作具体为:
分别对每个目标区域中像素点间的互信息执行基于相应语义分割模型的语义分割操作。
需要说明的是,本实施方式是在基于目标区域中所包含的各个像素点之间的互信息对该区域进行语义分割,即对像素点进行归类。互信息(Mutual Information)是信息论里一种信息度量,互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉熵近似。使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息较大。通常用互信息作为特征和类别之间的测度标准,如果某一特征属于该类的话,它们的互信息量最大。
本实施方式各个像素点之间的互信息指的是表征像素点之间关联性的信息,通过目标区域内各像素点的互信息能够明确的获悉该目标区域内各像素点分别与哪一类像素分组的近似程度较高。在具体实施时,应预先将像素分组对应的特征进行设定,以此作为评定像素点是否属于该像素分组的依据。由于本方法中,不需要对特征和像素分组类别之间关系的性质作任何假设,因此能够相对确保对目标区域进行语义分割的整体效率。
下面以公式的形式表示互信息:
用X表示目标区域内的像素点集合,用x∈X表示某一像素点,Z表示编码向量的集合,z∈Z表示像素点的某个编码向量,即像素点所具有的特征,p(z|x)表示x所产生的编码向量的分布,我们设它为高斯分布,或者简单理解它就是我们想要寻找的编码器。可以用互信息来表示X,Z的相关性,如下:
表示原始数据的分布,而p(z)是在p(z|x)给定之后整个Z的分布。
在上述一系列实施方式的基础上,作为一种优选的实施方式,获取目标帧图像具体为获取视频中的目标帧图像。
需要说明的是,由于考虑到语义分割作为图像理解的基础性技术,往往应用于自动驾驶***(具体为街景识别与理解)、无人机应用(着陆点判断)以及穿戴式设备等场景下,而上述场景往往为时刻动态的场景而并非固定的图像,因此本实施方式获取视频中的目标帧图像,并进行后续相应的处理,能够与当前语义分割在图像理解中的使用场景相契合,进一步提高当前图像理解结果的整体可用性。
实施例三
在上文中对于语义分割方法的实施例进行了详细的描述,本发明还提供一种与该方法对应的语义分割装置,由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图2为本发明实施例提供的一种语义分割装置的结构图。本发明实施例提供的语义分割装置,包括:
获取划分模块10,用于获取目标帧图像,并在目标帧图像中划分多个独立的目标区域。
语义分割模块11,用于分别对每个目标区域执行基于相应语义分割模型的语义分割操作,生成对应的结果图像。其中,语义分割模型是利用卷积神经网络按目标区域对应的语义划分标准训练生成的。
本发明所提供的语义分割装置,在获取到目标帧图像后,在目标帧图像中划分多个独立的目标区域,进而分别对每个目标区域执行基于与该目标区域相应的语义分割模型的语义分割,进而生成各个目标区域对应的结果图像;其中,各个目标区域均具有相应的语义划分标准,进而每个目标区域对应的语义分割模型均是由卷积神经网络根据该目标区域对应的语义划分标准进行训练而产生的。由于本装置是将完整的目标帧图像划分为多个独立的目标区域,而目标区域所包含的内容相较于完整的目标帧图像而言相对较少,在此基础上分别对各目标区域以相应的语义分割标准进行语义分割,因此各个目标区域的语义分割相互独立,进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组,而造成颜色标记在后续的图像理解过程中相互混淆的情况发生,以此保证了语义分割结果的可用性。
实施例四
本发明还提供一种语义分割设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的语义分割方法的步骤。
本发明所提供的语义分割设备,在获取到目标帧图像后,在目标帧图像中划分多个独立的目标区域,进而分别对每个目标区域执行基于与该目标区域相应的语义分割模型的语义分割,进而生成各个目标区域对应的结果图像;其中,各个目标区域均具有相应的语义划分标准,进而每个目标区域对应的语义分割模型均是由卷积神经网络根据该目标区域对应的语义划分标准进行训练而产生的。由于本设备是将完整的目标帧图像划分为多个独立的目标区域,而目标区域所包含的内容相较于完整的目标帧图像而言相对较少,在此基础上分别对各目标区域以相应的语义分割标准进行语义分割,因此各个目标区域的语义分割相互独立,进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组,而造成颜色标记在后续的图像理解过程中相互混淆的情况发生,以此保证了语义分割结果的可用性。
本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的语义分割方法的步骤。
本发明所提供的计算机可读存储介质,在获取到目标帧图像后,在目标帧图像中划分多个独立的目标区域,进而分别对每个目标区域执行基于与该目标区域相应的语义分割模型的语义分割,进而生成各个目标区域对应的结果图像;其中,各个目标区域均具有相应的语义划分标准,进而每个目标区域对应的语义分割模型均是由卷积神经网络根据该目标区域对应的语义划分标准进行训练而产生的。由于本计算机可读存储介质是将完整的目标帧图像划分为多个独立的目标区域,而目标区域所包含的内容相较于完整的目标帧图像而言相对较少,在此基础上分别对各目标区域以相应的语义分割标准进行语义分割,因此各个目标区域的语义分割相互独立,进而相对避免了因用有限种类的颜色标记表征较多种类语义含义的像素分组,而造成颜色标记在后续的图像理解过程中相互混淆的情况发生,以此保证了语义分割结果的可用性。
以上对本发明所提供的一种语义分割方法、装置、设备及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (8)
1.一种语义分割方法,其特征在于,包括:
获取目标帧图像,并在所述目标帧图像中划分多个独立的目标区域;
分别对每个所述目标区域执行基于相应语义分割模型的语义分割操作,生成对应的结果图像;其中,所述语义分割模型是利用卷积神经网络按所述目标区域对应的语义划分标准训练生成的。
2.根据权利要求1所述的方法,其特征在于,所述在所述目标帧图像中划分多个独立的目标区域包括:
选取所述目标帧图像中的关键点;
基于各所述关键点分别进行池化处理,以在所述目标帧图像中划分相应的多个独立的所述目标区域。
3.根据权利要求1所述的方法,其特征在于,所述语义分割模型是利用卷积神经网络按所述目标区域对应的语义划分标准训练生成的具体为:
所述语义分割模型是利用IndRNN卷积神经网络按所述目标区域对应的语义划分标准训练生成的。
4.根据权利要求1所述的方法,其特征在于,所述分别对每个所述目标区域执行基于相应语义分割模型的语义分割操作具体为:
分别对每个所述目标区域中像素点间的互信息执行基于相应语义分割模型的所述语义分割操作。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述获取目标帧图像具体为获取视频中的所述目标帧图像。
6.一种语义分割装置,其特征在于,包括:
获取划分模块,用于获取目标帧图像,并在所述目标帧图像中划分多个独立的目标区域;
语义分割模块,用于分别对每个所述目标区域执行基于相应语义分割模型的语义分割操作,生成对应的结果图像;其中,所述语义分割模型是利用卷积神经网络按所述目标区域对应的语义划分标准训练生成的。
7.一种语义分割设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的语义分割方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的语义分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811520565.7A CN109657715B (zh) | 2018-12-12 | 2018-12-12 | 一种语义分割方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811520565.7A CN109657715B (zh) | 2018-12-12 | 2018-12-12 | 一种语义分割方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657715A true CN109657715A (zh) | 2019-04-19 |
CN109657715B CN109657715B (zh) | 2024-02-06 |
Family
ID=66114413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811520565.7A Active CN109657715B (zh) | 2018-12-12 | 2018-12-12 | 一种语义分割方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657715B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109949313A (zh) * | 2019-05-17 | 2019-06-28 | 中科院—南京宽带无线移动通信研发中心 | 一种图像实时语义分割方法 |
CN110472653A (zh) * | 2019-07-01 | 2019-11-19 | 浙江大学 | 一种基于最大化区域互信息的语义分割方法 |
CN110930419A (zh) * | 2020-02-13 | 2020-03-27 | 北京海天瑞声科技股份有限公司 | 图像分割方法、装置、电子设备及计算机存储介质 |
CN111784656A (zh) * | 2020-06-28 | 2020-10-16 | 京东数字科技控股有限公司 | 一种铁路接触网故障检测方法、装置、电子设备及存储介质 |
WO2021056139A1 (zh) * | 2019-09-23 | 2021-04-01 | 深圳市大疆创新科技有限公司 | 获取降落位置的方法、设备、无人机、***及存储介质 |
CN113112480A (zh) * | 2021-04-16 | 2021-07-13 | 北京文安智能技术股份有限公司 | 视频场景变换检测方法、存储介质和电子设备 |
CN115661701A (zh) * | 2022-10-09 | 2023-01-31 | 中国科学院半导体研究所 | 实时图像处理方法、装置、电子设备及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101877064A (zh) * | 2009-04-30 | 2010-11-03 | 索尼株式会社 | 图像分类方法及图像分类装置 |
CN103020172A (zh) * | 2012-11-28 | 2013-04-03 | 北京京东世纪贸易有限公司 | 一种利用视频信息搜索物品的方法和装置 |
CN103377376A (zh) * | 2012-04-13 | 2013-10-30 | 阿里巴巴集团控股有限公司 | 图像分类的方法和***、图像检索的方法和*** |
CN103678315A (zh) * | 2012-08-31 | 2014-03-26 | 富士通株式会社 | 图像处理装置、图像处理方法和电子设备 |
CN107180430A (zh) * | 2017-05-16 | 2017-09-19 | 华中科技大学 | 一种适用于语义分割的深度学习网络构建方法及*** |
CN107832335A (zh) * | 2017-10-10 | 2018-03-23 | 西安电子科技大学 | 一种基于上下文深度语义信息的图像检索方法 |
CN107977624A (zh) * | 2017-11-30 | 2018-05-01 | 国信优易数据有限公司 | 一种语义分割方法、装置以及*** |
CN108427951A (zh) * | 2018-02-08 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质和计算机设备 |
-
2018
- 2018-12-12 CN CN201811520565.7A patent/CN109657715B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101877064A (zh) * | 2009-04-30 | 2010-11-03 | 索尼株式会社 | 图像分类方法及图像分类装置 |
CN103377376A (zh) * | 2012-04-13 | 2013-10-30 | 阿里巴巴集团控股有限公司 | 图像分类的方法和***、图像检索的方法和*** |
CN103678315A (zh) * | 2012-08-31 | 2014-03-26 | 富士通株式会社 | 图像处理装置、图像处理方法和电子设备 |
CN103020172A (zh) * | 2012-11-28 | 2013-04-03 | 北京京东世纪贸易有限公司 | 一种利用视频信息搜索物品的方法和装置 |
CN107180430A (zh) * | 2017-05-16 | 2017-09-19 | 华中科技大学 | 一种适用于语义分割的深度学习网络构建方法及*** |
CN107832335A (zh) * | 2017-10-10 | 2018-03-23 | 西安电子科技大学 | 一种基于上下文深度语义信息的图像检索方法 |
CN107977624A (zh) * | 2017-11-30 | 2018-05-01 | 国信优易数据有限公司 | 一种语义分割方法、装置以及*** |
CN108427951A (zh) * | 2018-02-08 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质和计算机设备 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109949313A (zh) * | 2019-05-17 | 2019-06-28 | 中科院—南京宽带无线移动通信研发中心 | 一种图像实时语义分割方法 |
CN110472653A (zh) * | 2019-07-01 | 2019-11-19 | 浙江大学 | 一种基于最大化区域互信息的语义分割方法 |
CN110472653B (zh) * | 2019-07-01 | 2021-09-21 | 浙江大学 | 一种基于最大化区域互信息的语义分割方法 |
WO2021056139A1 (zh) * | 2019-09-23 | 2021-04-01 | 深圳市大疆创新科技有限公司 | 获取降落位置的方法、设备、无人机、***及存储介质 |
CN110930419A (zh) * | 2020-02-13 | 2020-03-27 | 北京海天瑞声科技股份有限公司 | 图像分割方法、装置、电子设备及计算机存储介质 |
CN111784656A (zh) * | 2020-06-28 | 2020-10-16 | 京东数字科技控股有限公司 | 一种铁路接触网故障检测方法、装置、电子设备及存储介质 |
CN113112480A (zh) * | 2021-04-16 | 2021-07-13 | 北京文安智能技术股份有限公司 | 视频场景变换检测方法、存储介质和电子设备 |
CN113112480B (zh) * | 2021-04-16 | 2024-03-29 | 北京文安智能技术股份有限公司 | 视频场景变换检测方法、存储介质和电子设备 |
CN115661701A (zh) * | 2022-10-09 | 2023-01-31 | 中国科学院半导体研究所 | 实时图像处理方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109657715B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657715A (zh) | 一种语义分割方法、装置、设备及介质 | |
Younis et al. | Real-time object detection using pre-trained deep learning models MobileNet-SSD | |
CN105809146B (zh) | 一种图像场景识别方法和装置 | |
CN108427920A (zh) | 一种基于深度学习的边海防目标检测方法 | |
CN111597870B (zh) | 一种基于注意力机制与多任务学习的人体属性识别方法 | |
CN109117879A (zh) | 图像分类方法、装置及*** | |
US20220076117A1 (en) | Methods for generating a deep neural net and for localising an object in an input image, deep neural net, computer program product, and computer-readable storage medium | |
CN107808129A (zh) | 一种基于单个卷积神经网络的面部多特征点定位方法 | |
CN103988232A (zh) | 使用运动流形来改进图像匹配 | |
CN112132145B (zh) | 一种基于模型扩展卷积神经网络的图像分类方法及*** | |
CN110175249A (zh) | 一种相似图片的检索方法及*** | |
CN107808126A (zh) | 车辆检索方法及装置 | |
CN104298974A (zh) | 一种基于深度视频序列的人体行为识别方法 | |
Tian et al. | Video object detection for tractability with deep learning method | |
CN109670517A (zh) | 目标检测方法、装置、电子设备和目标检测模型 | |
CN108198202A (zh) | 一种基于光流和神经网络的视频内容检测方法 | |
CN109522970A (zh) | 图像分类方法、装置及*** | |
CN110020669A (zh) | 一种车牌分类方法、***、终端设备及计算机程序 | |
CN109492610A (zh) | 一种行人重识别方法、装置及可读存储介质 | |
Lipson | Context and configuration based scene classification | |
Shanthakumari et al. | Image Detection and Recognition of different species of animals using Deep Learning | |
Usha et al. | Content based image retrieval using combined features of color and texture features with SVM classification | |
Yao et al. | Substation object detection based on enhance RCNN model | |
Özyurt et al. | A new method for classification of images using convolutional neural network based on Dwt-Svd perceptual hash function | |
Zhi-Feng et al. | Light-YOLOv3: fast method for detecting green mangoes in complex scenes using picking robots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231213 Address after: 510470 Guangzhou Baiyun International Airport Logistics Comprehensive Service Building (Airport), Heng 16th Road, North Work Area, Guangzhou Baiyun International Airport, Huadu District, Guangzhou City, Guangdong Province Applicant after: Guangdong Airport Group Logistics Co.,Ltd. Address before: No.729, Dongfeng East Road, Yuexiu District, Guangzhou City, Guangdong Province 510060 Applicant before: GUANGDONG University OF TECHNOLOGY |
|
GR01 | Patent grant | ||
GR01 | Patent grant |