CN113744280A - 图像处理方法、装置、设备及介质 - Google Patents
图像处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113744280A CN113744280A CN202110819544.0A CN202110819544A CN113744280A CN 113744280 A CN113744280 A CN 113744280A CN 202110819544 A CN202110819544 A CN 202110819544A CN 113744280 A CN113744280 A CN 113744280A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- image
- example segmentation
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 273
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims description 53
- 238000010586 diagram Methods 0.000 claims description 52
- 230000004927 fusion Effects 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 14
- 238000007499 fusion processing Methods 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 description 29
- 230000008569 process Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 7
- 239000013589 supplement Substances 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000003628 erosive effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种图像处理方法、装置、设备及介质,属于图像处理技术领域,旨在提高实例分割的准确度,所述方法包括:对待处理图像进行特征提取,得到所述待处理图像中目标区域的深层特征和浅层特征;基于所述深层特征和所述浅层特征,确定所述目标区域的透明度特征,以及,基于所述深层特征和所述浅层特征,确定所述待处理图像的第一初步实例分割结果;根据所述第一初步实例分割结果和所述透明度特征,对所述待处理图像进行实例分割,得到所述目标区域的实例分割结果。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种图像处理方法、装置、设备及介质。
背景技术
在利用深度神经网络模型进行实例分割任务中,需要深度神经网络模型可以精确分割出图像上不同类别的目标以及相同类别目标的不同个体。相关技术中,一般利用深度神经网络模型执行实例分割任务,具体地,深度神经网络模型用于框出物体在图像中的目标区域、并对图像中的物体进行分类,接着根据所框选出的目标区域进行实例分割,以将物体从图像中分割出来。
其中,对目标区域进行特征提取的过程为:把不同尺寸(分辨率)的目标区域中的特征进行插值处理,得到固定尺寸(即固定分辨率)的特征,如此导致目标区域中的物体的边缘信息丢失,导致后续进行实例分割时,边缘分割的性能受限,因而实例分割的准确率较低。
发明内容
鉴于上述问题,提出了本发明实施例的一种图像处理方法、装置、设备及介质,以便克服上述问题或者至少部分地解决上述问题。
为了解决上述问题,本发明的第一方面,公开了一种图像处理方法,所述方法包括:
对待处理图像进行特征提取,得到所述待处理图像中目标区域的深层特征和浅层特征;
基于所述深层特征和所述浅层特征,确定所述目标区域的透明度特征,以及,基于所述深层特征和所述浅层特征,确定所述待处理图像的第一初步实例分割结果;
根据所述第一初步实例分割结果和所述透明度特征,对所述待处理图像进行实例分割,得到所述目标区域的实例分割结果。
可选地,所述基于所述深层特征和所述浅层特征,确定所述目标区域的透明度特征,包括:
对所述深层特征进行处理,得到所述目标区域所对应的三值图;
将所述三值图与所述浅层特征进行拼接处理,得到第一拼接特征;
对所述第一拼接特征进行处理,得到所述透明度特征。
可选地,所述基于所述深层特征和所述浅层特征,确定所述待处理图像的第一初步实例分割结果,包括:
对所述深层特征进行处理,得到所述目标区域所对应的三值图;
将所述三值图与所述浅层特征进行拼接处理,得到第一拼接特征;
将所述深层特征与所述第一拼接特征进行融合处理,得到所述深层特征和所述第一拼接特征所对应的融合特征;
基于所述融合特征进行实例分割,得到所述第一初步实例分割结果。
可选地,所述对所述深层特征进行处理,得到所述目标区域所对应的三值图,包括:
基于所述深层特征进行实例分割,得到所述目标区域的第二初步实例分割结果;
对所述第二非初步实例分割结果进行形态学处理,得到处理后的第二初步实例分割结果;
对所述处理后的第二初步实例分割结果进行三值化处理,得到所述目标区域所对应的三值图。
可选地,所述将所述深层特征与所述第一拼接特征进行融合处理,得到所述深层特征和所述第一拼接特征所对应的融合特征,包括:
对所述深层特征进行卷积处理,得到处理后的深层特征;
对所述第一拼接特征进行卷积处理,得到处理后的第一拼接特征;
将所述处理后的深层特征中与所述处理后的第一拼接特征中,相同位置处所对应的特征值相加,得到所述融合特征。
可选地,所述根据所第一初步实例分割结果和所述透明度特征,对所述待处理图像进行实例分割,得到所述目标区域的实例分割结果,包括:
将所述第一初步实例分割结果与所述透明度特征进行拼接处理,得到第二拼接特征;
基于所述第二拼接特征进行实例分割,得到所述目标区域的实例分割结果。
可选地,所述待处理图像的实例分割是基于神经网络模型实现的;
相应的,通过如下步骤训练所述神经网络模型:
对样本图像进行特征提取,获得所述样本图像中样本区域的深层特征和浅层特征;
将所述样本区域的深层特征和浅层特征,输入神经网络模型,生成所述样本区域的实例分割结果;
根据所述样本区域中各个像素点对应的标签和所述样本区域的实例分割结果,确定所述神经网络模型的损失值,其中,一个像素点对应的标签表征该像素点属于前景还是背景;
根据所述损失值,对所述神经网络模型的参数进行更新,得到实例分割模块。
可选地,所述方法还包括:
对所述样本区域的深层特征进行处理,得到所述样本区域所对应的协方差;
根据所述样本区域中各个像素点对应的标签和所述样本区域的实例分割结果,确定所述神经网络模型的损失值,包括:
根据所述协方差、所述样本区域中各个像素点对应的标签和所述样本区域的实例分割结果,按照以下公式,确定所述神经网络模型的损失值;
其中,yu是所述样本区域中第u个像素点对应的标签,pu是所述样本区域的实例分割结果中第u个像素点的预测值,用于预测所述第u个像素点属于前景还是背景,N是所述样本区域中像素点的总数,σi表示所述协方差。
本申请实施例的第二方面,提供一种图像处理装置,所述装置包括:
特征提取模块,用于对待处理图像进行特征提取,得到所述待处理图像中目标区域的深层特征和浅层特征;
特征增强模块,用于基于所述深层特征和所述浅层特征,确定所述目标区域的透明度特征;
第一分割模块,用于基于所述深层特征和所述浅层特征,确定所述待处理图像的第一初步实例分割结果;
第二分割模块,用于根据所述第一初步实例分割结果和所述透明度特征,对所述待处理图像进行实例分割,得到所述目标区域的实例分割结果。
本发明实施例的第三方面,还公开了一种电子设备,包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如本发明实施例的第一方面实施例所述的图像处理方法。
本发明实施例的第四方面,还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明实施例的第一方面实施例所述的图像处理方法。
本发明实施例包括以下优点:
在本发明实施例中,可以对待处理图像进行特征提取,得到所述待处理图像中目标区域的深层特征和浅层特征;基于所述深层特征和所述浅层特征,确定所述目标区域的透明度特征,以及,基于所述深层特征和所述浅层特征,确定待处理图像的第一初步实例分割结果;根据所述第一初步实例分割结果和所述透明度特征,对所述待处理图像进行实例分割,得到所述目标区域的实例分割结果。
采用本实施例的技术方案,一方面,考虑到浅层特征包含丰富的边缘信息,因而基于目标区域的深层特征和浅层特征得到融合特征,可以利用浅层特征补充目标区域中的物体的边缘信息,接着对补充了边缘信息的目标区域进行初始的实例分割,得到第一初步实例分割结果;另一方面,基于深层特征和浅层特征得到目标区域的透明度特征,该透明度特征可以反映目标区域所框选的图像区域在Alpha通道的透明度,基于透明度特征和第一初步实例分割结果对待处理图像进行实例分割时,可以利用透明度特征对第一初步实例分割结果中边缘信息的分割结果进行进一步强化,从而尽可能保留目标区域中的物体的完整边缘信息,在保留目标区域中的物体的完整边缘信息的基础上进行实例分割,以提升边缘分割的性能,从而提高实例分割的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种图像处理方法的步骤流程图;
图2是本发明实施例中的实例分割模模块的训练步骤流程图;
图3是本发明实施中一种神经网络模型的结构示意图;
图4是本发明实施中的一种实例分割模块的结构示意图;
图5是本发明实施中的又一种实例分割模块的结构示意图;
图6是本发明实施中一种图像处理装置的结构框图;
图7是本发明实施中一种电子设备的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,利用固定尺寸(即固定分辨率)的特征进行实例分割,由于固定尺寸(即固定分辨率)的特征不包含目标区域中的物体的边缘信息,导致边缘分割的性能受限,因而实例分割的准确率较低。为解决该技术特征,本发明实施例提出了以下技术构思:一方面,利用浅层特征的边缘信息丰富的特点,将目标区域的深层特征和浅层特征融合,得到补充了边缘信息的融合特征;另一方面,利用目标区域的图像在Alpha通道的透明度特征,对融合特征所包含的边缘信息进行强化,从而尽可能保留目标区域中的物体的完整边缘信息,在保留目标区域中的物体的完整边缘信息的基础上进行实例分割,以提升边缘分割的性能,从而提高实例分割的准确率。
参照图1所示,示出了本申请实施例的一种图像处理方法的步骤流程图,如图1所示,该方法可以应用于终端设备或者服务器中。
其中,在终端设备中可以运行有神经网络模型(例如:深度神经网络模型),通过训练得到该神经网络模型,并基于该神经网络模型对图像中的物体进行实例分割。在一种具体实施方式中,可以基于神经完了模型中的示例分割模块对图像中的物体进行实例分割,如此,本申请实施例提到的实例分割模块可以嵌入到深度神经网络模型中的实例分割分支中,以为实例分割分支提供图像中的物体的掩码图,以从图像中分割出物体。
在又一实施例中,在终端设备中的神经网络模型可以包括多个模块,例如,至少可以包括定位模块、分类模块和实例分割模块,如此,其中,定位模块的输出端连接实例分割模块,分类模块的输出端连接实例分割模块,具体地,定位模块可以用于获得图像中的物体所在的目标区域,以及目标区域的深层特征和浅层特征。实例分割模块用于根据目标区域的深层特征和浅层特征生成物体的掩码图,实例分割模块用于根据物体的掩码图进行实例分割。
当然,在某些实施例中,上述定位模块、分类模块或者实例分割模块也可以为单独的神经网络模型,本发明实施例不对所采用的神经网络模型的具体结构进行限定。
如图1所示,本申请实施例的一种图像处理方法具体可以包括以下步骤:
步骤S101:对待处理图像进行特征提取,得到所述待处理图像中目标区域的深层特征和浅层特征。
所述目标区域为所述待处理图像中的物体所在的区域。
本实施例中,待处理图像中可以包括一个或多个物体,当待处理图像中存在多个物体时,多个物体的类别可以相同也可以不同,例如,多个物体可以是多个动物,包括猫、狗,猫又可以包括多种品类的猫。对待处理图像进行实例分割是指:将待处理图像中的多个物体从待处理图像中分割出来,并确定分割出来的每个物体所属的类别。
在具体实现时,可以对待处理图像中的物体进行定位,即得到物体所在的目标区域,该目标区域可以表征物体在待处理图像中的位置。接着,可以对目标区域所框选的图像区域进行特征提取,并将提取的特征插值到预设尺寸,以得到目标区域的深层特征,其中,深层特征包含目标区域中的物体的全局信息。其中,在对目标区域所在的图像进行特征提取时,可以对目标区域所在的图像进行多种尺度的处理,例如,进行多种尺度的下采样处理,并可以将每种下采样处理得到的特征图进行融合后,再对融合后的特征插值到预设尺寸,从而得到目标区域的深层特征。
其中,在得到目标物所在的目标区域时,可以获取目标区域所框选的图像区域的浅层特征,其中,浅层特征保留了目标区域中的物体的较为丰富的细节信息。在一种可能的实施方式中,可以获取目标区域所框选的图像区域对应的RGB图像,进而对RGB图像进行特征提取,得到目标区域的浅层特征。其中,RGB分别表示红、绿、蓝三个基本颜色通道。其中,RGB图像可以是指目标区域所框选的图像区域的颜色图,是用RGB颜色模式来显示的图像。
其中,在本申请实施例中,浅层特征又可以称为浅层特征图,深层特征又可以称为深层特征图,其中,浅层特征图和深层特征图的尺寸可以是相同的。
步骤S102:基于所述深层特征和所述浅层特征,确定所述目标区域的透明度特征,以及,基于所述深层特征和所述浅层特征,确定所述待处理图像的第一初步实例分割结果。
本实施例中,由于深层特征包含目标区域中的物体的全局信息,而浅层特征保留了浅层特征保留了目标区域中的物体的较为丰富的细节信息,由此,可以利用浅层特征补充深层特征所丢失的细节信息。具体地,可以利用浅层特征补充深层特征中的边缘信息,接着基于补充了边缘信息的深层特征进行初始的实例分割,得到第一初步实例分割结果。
本实施例中,还可以利用透明度特征对融合特征所包含的边缘信息进行强化,从而尽可能保留目标区域中的物体的完整边缘信息。透明度特征又可以称为Alpha特征图,可以反映目标区域的图像在Alpha通道的透明度。如果待处理图像自身携带有Alpha特征图,则可以直接从待处理图像自身的Alpha特征图中,获取到目标区域的透明度特征。如果待处理图像自身未Alpha特征图,则可以利用本申请实施例提出的透明度特征生成方法,生成透明度特征。具体地,基于目标区域的深层特征和浅层特征,得到目标区域的透明度特征。
步骤S103:根据所述第一初步实例分割结果和所述透明度特征,对所述待处理图像进行实例分割,得到所述目标区域的实例分割结果。
本实施例中,在得到第一初步实例分割结果后,可以利用透明度特征对该第一初步实例分割结果进行进一步强化,具体地,可以根据透明度特征和第一初步实例分割结果对待处理图像进行实例分割,得到实例分割结果,该实例分割结果可以理解为是待处理图像中目标区域包括的各像素点属于前景或背景的结果。
具体地,可以将透明度特征和第一初步实例分割结果进行融合,得到目标区域的掩码图。该掩码图的一个像素点的像素值可以表征该像素点具体属于前景、背景的概率。其中,前景一般代表物体、背景一般代表物体所处的环境。
由此,生成的掩码图可以明确区分出目标区域的前景和背景,从而可以准确地从目标区域中分割出物体。
采用本实施例的技术方案,一方面,考虑到浅层特征包含丰富的边缘信息,因而基于目标区域的深层特征和浅层特征对目标区域进行实例分割,得到待处理图像的第一初步实例分割结果,这样,可以利用浅层特征补充目标区域中的物体的边缘信息,以提高准确度较高的实例分割结果;另一方面,基于深层特征和浅层特征得到目标区域的透明度特征,该透明度特征可以反映目标区域所框选的图像区域在Alpha通道的透明度,基于透明度特征和第一初步实例分割结果对待处理图像进行实例分割时,可以利用透明度特征对第一初步实例分割结果中边缘信息的分割结果进行进一步强化,从而尽可能强化目标区域中的物体的完整边缘信息,在保留目标区域中的物体的完整边缘信息的基础上进行实例分割,以提升边缘分割的性能,从而提高实例分割的准确率。此外,本申请实施例中的第一初步实例分割结果是基于浅层特征和深层特征得到的,而透明度特征也是基于浅层特征和深层特征得到的,由此,第一初步实例分割结果和最终的实例分割结果均多次利用了浅层特征和深层特征,以达到对实例分割的梯度性强化,以进行准确地实例分割。
在本申请的一种实施例中,得到透明度特征的过程可以如下所述:对所述深层特征进行处理,得到所述目标区域所对应的三值图;之后,将所述三值图与所述浅层特征进行拼接处理(即concat操作),得到第一拼接特征;接着,对所述第一拼接特征进行处理,得到所述透明度特征。
本实施方式中,对深层特征处理可以是指对深层特征进行卷积处理,例如,可以使深层特征经过2个3x3卷积与1个1x1卷积后生成粗糙的掩码图(表征前景/背景);之后,对粗糙掩码图进行三值化处理,生成三值图。
其中,在三值图中各个像素点的像素值表征该像素点是前景、背景和未知区域,即采用三种像素值表征目标区域中的前景、背景和未知区域。
在一些实施方式中,在得到三值图时,可以基于所述深层特征进行实例分割,得到所述目标区域的第二初步实例分割结果;对所述第二初步实例分割结果进行形态学处理,得到处理后的第二初步实例分割结果;对所述处理后的第二初步实例分割结果进行三值化处理,得到所述目标区域所对应的三值图。
本实施方式中,基于深层特征进行实例分割可以是指对深层特征进行2次3x3卷积,得到目标区域的第二初步实例分割结果,该第二初步实例分割结果可以是指粗糙的掩码图,其中,对第二初步实例分割结果进行形态学处理,可以是指对第二初步实例分割结果进行膨胀和腐蚀操作(例如:膨胀核可以为(3,3),迭代次数可以为20),得到处理后的第二步实例分割结果(可以记为Unknowni)。接着,对处理后的第二初步实例分割结果进行三值化处理,得到目标区域所对应的三值图,(可以记为Tri,Tri=255*CMi+128*(Unknowni-CMi))。其中,三值化处理可以是指确定第二初步实例分割结果中各像素点属于前景、背景和未知区域。
其中,该第二初步实例分割结果可以理解为是基于深层特征进行实例分割的分割结果,在此情况下还未将浅层特征包含的细节信息补充上去。
在得到三值图之后,可以将三值图与浅层特征进行拼接,得到第一拼接特征。具体地,可以将三值图和浅层特征拼接后经过2个3*3卷积,以使得浅层特征包含的细节信息补充到三值化图中,之后,对该第一拼接特征进行卷积处理,从而得到透明度特征。具体地,该卷积处理可以是指1*1卷积。
采用此种实施方式时,由于通过对深层特征进行处理得到三值图,再将三值图与浅层特征进行拼接,从而使得浅层特征包含细节信息补充到三值图中,从而得到细节信息被强化的透明度特征,从而得到更加准确的透明度特征。如此,可以利用浅层特征对第二初步实例分割结果进行第一次强化。
在又一种实施例中,可以对所述深层特征进行处理,得到所述目标区域所对应的三值图;将所述三值图与所述浅层特征进行拼接处理(即concat操作),得到第一拼接特征;接着,将所述深层特征与所述第一拼接特征进行融合处理,得到所述深层特征和所述浅层特征所对应的融合特征,之后,基于所述融合特征进行实例分割,得到所述第一初步实例分割结果。
其中,得到三值图的过程可以参照上述实施例所述,得到第一拼接特征的过程也可以如上述实施例所述。本实施方式中,在得到第一拼接特征后,可以将深层特征与第一拼接特征进行融合,得到融合特征。由于得到融合特征的过程中深层特征用到了两次(得到第一拼接特征时用到了深层特征,融合处理时再次用到了拼接特征),所以深层特征包含全局信息被充分强化,从而得到包含了充分强化后的全局信息,且补充了边缘信息的融合特征。
在又一实施例中,在将所述深层特征与所述第一拼接特征进行融合处理,得到所述融合特征时,可以对深层特征进行卷积处理,得到处理后的深层特征;对第一拼接特征进行卷积处理,得到处理后的第一拼接特征;将所述处理后的深层特征中与所述处理后的第一拼接特征中,相同位置处所对应的特征值相加,得到所述融合特征。
本实施方式中,对深层特征进行卷积处理可以是指将深层特征经过2个3x3卷积,以对深层特征进行两种尺度的特征提取,从而得到处理后的深层特征,通过该方式可以强化深层特征包含的高层语义信息。
其中,第一拼接特征是指将三值图和浅层特征进行拼接后的特征,实际中,对该第一拼接特征进行卷积处理可以是指将第一拼接特征依次经过2个3*3卷积处理,从而得到处理后的第一拼接特征,此处的卷积处理可以将第一拼接特征的尺寸调整至与处理后的深层特征的尺寸相同。
接着,可以将处理后的深层特征与处理后的第一拼接特征中,相同位置处的特征相加,相同位置可以是指相同的空间位置,也就是说对处理后的深层特征和处理后的第一拼接特征进行特征相加处理,从而得到融合特征。通过此种方式,可以在浅层特征包含的边缘信息补充到深层特征中,形成第一拼接特征后,将第一拼接特征的信息与深层特征的高层语义信息相加,从而使得浅层特征包含的边缘信息补充到深层特征中,实现对边缘信息的强化。
本实施例中,在得到目标区域的实例分割结果时,可以是基于融合特征进行实例分割,得到目标区域所对应的第一初步实例分割结果。
本实施例中,基于融合特征进行实例分割可以是指对融合特征进行点卷积处理,从而得到目标区域所对应的第一初步实例分割结果,该第一初步实例分割结果可以称为初始掩码图。
其中,该第一初步实例分割结果可以是指对补充了边缘信息后的特征进行实例分割,可以理解为是补充边缘信息后得到的实例分割结果,由于在得到第一拼接特征时,是在第二初步实例分割结果的基础上进行的(得到第一拼接特征需要用到三值图,而得到三值图需要用到第二初步实例分割结果),在利用深层特征和第一拼接特征得到融合特征,进而得到第一初步实例分割结果时,便可以理解是利用第一拼接特征和深层特征,对第二初步实例分割结果进行强化,以实现实例分割的第二次强化。
本实施例中,无论是融合特征还是透明度特征均融合了浅层特征和深层特征的信息,从而使得深层特征包含的物体的全局信息和浅层特征包含的物体的边缘信息均被强化,由此,在基于融合特征对待处理图像进行实例分割,以及基于第一初步实例分割结果和透明度特征对目标区域进行实例分割时,可以利用充分被强化的物体的全局信息和边缘信息。
在又一种实施例中,可以在根据所述第一初步实例分割结果和所述透明度特征,对所述待处理图像进行实例分割时,将第一初步实例分割结果与透明度特征进行拼接处理(即concat操作),得到第二拼接特征;基于第二拼接特征进行实例分割,得到目标区域的实例分割结果。
接着,可以将第一初步实例分割结果与透明度特征进行拼接处理(例如,concat操作),得到第二拼接特征,采用此种实施方式时,可以通过透明度特征对第一初步实例分割结果进行进一步强化。
之后,可以对第二拼接特征进行点卷积,从而得到最终的掩码图,也就是得到目标区域的实例分割结果。
本实施例中,最终得到的实例分割结果是在第一初步实例分割结果的基础之上,利用了透明度特征,对第一初步实例分割结果进行进一步强化后得到最终的实例分割结果,可以视作是实例分割的第三次强化。如此,可以对目标区域进行多次实例分割强化,以不断提升实例分割的精细度,从而提高了实例分割的准确性。
在一些实施例中,本申请所述的对待处理图像进行的实例分割可以是由神经网络模块实现的。
具体地,该实例分割模块可以用于执行上述步骤S102至步骤S103的操作:基于所述深层特征和所述浅层特征,确定所述目标区域的透明度特征,以及,基于所述深层特征和所述浅层特征,确定所述待处理图像的第一初步实例分割结果;根据所述融合特征和所述透明度特征,对所述待处理图像进行实例分割,得到所述目标区域的实例分割结果。
当然,在又一实施例中,该实例分割模块可以用于执行上述步骤S101至步骤S103的操作。
相应地,参照图2所示,示出了对神经网络模型进行训练得到实例分割模块的步骤流程图,具体地,可以通过以下步骤训练得到:
步骤S201:对样本图像进行特征提取,获得所述样本图像中样本区域的深层特征和浅层特征。
本实施例中,对样本图像进行特征提取的过程可以参照上述步骤S101进行,在此不再赘述。其中样本图像可以是指已经进行实例分割的图像。
其中,样本区域可以是指样本图像中样本物体所在的图像区域。
步骤S202:将所述样本区域的深层特征和浅层特征,输入神经网络模型,生成所述样本区域的实例分割结果。
本实施例中,可以将样本区域的深层特征和浅层特征作为训练样本,输入神经网络模型,从而获得神经网络模型输出的样本区域的实例分割结果。
其中,神经网络模型生成样本区域的实例分割结果的过程可以参照上述实施例所描述的过程即可,在此不再赘述。
步骤S203:根据所述样本区域中各个像素点对应的标签和所述样本区域的实例分割结果,确定所述神经网络模型的损失值。
其中,一个像素点对应的标签表征该像素点属于前景还是背景。
本实施例中,各个像素点对应的标签可以表征该像素点是属于前景还是背景,例如标签是1,则表征该像素点属于前景,标签是0,则表示该像素点属于背景。
其中,可以根据样本区域中各个像素点对应的标签,和样本区域的实例分割结果中各个像素点的像素值,计算神经网络模型的损失值,该损失值可以反映神经网络模型进行实例分割的准确性。
步骤S204:根据所述损失值,对所述神经网络模型的参数进行更新,得到实例分割模块。
本实施例中,可以根据损失值,对神经网络模型的参数进行更新,在更新达到预设的次数,或者模型收敛时,便停止训练,而得到实例分割模块。
相应地,在一些实施例中,还可以对样本区域的深层特征进行处理,从而得到样本区域所对应的协方差。
其中,可以在训练神经网络模型的过程中,对样本区域的深层特征进行处理,从而得到样本区域所对应的协方差,也可以预先对样本区域的深层特征进行处理,得到协方差,在此不做限定。
本实施方式中,对样本区域的深层特征进行处理可以是:对样本区域的深层特征依次进行2次尺寸为3*3的卷积处理和1次尺寸为1*1的卷积处理后,再经过sigmoid函数进行归一化,生成一个方差预测结果,即协方差,协方差的值可以表征神经网络模型输出的实例分割结果的可靠性。
相应地,在确定神经网络模型的损失值时,可以根据所述协方差、所述样本区域中各个像素点对应的标签和所述样本区域的实例分割结果,按照以下公式,确定所述神经网络模型的损失值;
其中,yu是所述样本区域中第u个像素点对应的标签,pu是所述样本区域的实例分割结果中第u个像素点的预测值,用于预测所述第u个像素点属于前景还是背景,N是所述样本区域中像素点的总数,σi表示所述协方差。
其中,σi 2∈[0,1],yu的取值为0或1,1代表前景,0代表背景。
本实施例中,协方差越大表明神经网络模型输出的实例分割结果约不可靠,则对于损失函数的贡献就应该降低,反之,协方差越小表明神经网络模型输出的实例分割结果越可靠,则对于损失函数的贡献就应该提高。
采用本申请实施例的技术方案,可以在训练或更新神经网络模型的过程中,引导神经网络模型更加关注那些容易误判的特征(即,不确定一个特征是前景还是背景,可以理解为造成Loss震荡的特征点),达到边缘信息显著性增强的效果,采用上述公式s对样本目标区域的边缘信息进行不确定建模,可以引导神经网络模型更加关注那些容易误判的特征。
其中,本申请实施例所指的目标区域的边缘特征可以理解为是:目标区域中的物体的轮廓上的特征。目标物的轮廓上的特征越完善,则可以准确地进行前景和背景的划分,使得前景和背景的边界更明显。
下面,结合一个具体的示例,对本申请实施例的图像处理方法进行介绍。
参照图3所示,示出了本示例中的神经网络模型,具体包括ROI(Region ofinterest pooling,感兴趣区域池化)池化模块、实例分割模块。其中,可以通过ROI池化模块得到浅层特征和深层特征,该实例分割模块可以用于基于浅层特征和深层特征进行实例分割,具体地,该ROI池化模块可以独立于实例分割模块,也可以位于实例分割模块的输入端,在ROI池化模块独立于实例分割模块时,其可以位于定位模块中,或者连接在定位模块与实例分割模块之间。
如图3所示,ROI池化模块独立于实例分割模块,ROI池化模块的输入端与定位模块的输出端连接,定位模块包括FPN(feature pyramid networks,特征金字塔网络)模块和主干网络模块,ROI池化模块的输出端连接实例分割模块的输入端。
相应地,在一些实施例中,主干网络模块中的FPN模块可以用于对待处理图像进行多尺度的特征提取和融合,之后,FPN模块输出的特征输入ROI池化模块得到深层特征,并将待处理图像中提取的颜色特征输入ROI池化模块,经过ROI池化,得到颜色特征,即浅层特征,如此,可以通过ROI池化模块分别得到目标区域的浅层特征和目标区域的深层特征。
本实施例中,ROI池化模块又可以称为ROI Pooling层。其中,可以对待处理图像中物体所在的目标区域中的图像进行多种尺度的特征提取处理,例如进行多种尺度的下采样处理,以得到多尺度特征图,进而将得到的目标区域的多尺度特征图进行融合后输入ROI池化模块,该ROI池化模块可以用于对目标区域的融合后特征插值到预设尺寸,从而输出目标区域的深层特征。
其中,可以先从待处理图像中裁剪出目标区域框选的图像区域,接着将目标区域框选的图像区域输入ROI池化模块,其中,目标区域框选的一般保留有原始图像的颜色信息,因此输入到ROI池化模块的图像区域可以认为是RGB图像,接着,ROI池化模块可以对图像区域进行特征提取,从而得到RGB特征图,该RGB特征图又称为浅层特征。
示例地,如图3所示,FPN模块和主干网络模块可以用于对输入的待处理图像f0进行多种尺度的特征提取。其中,主干网络模块对输入的待处理图像进行处理的过程如图3所示,即不断对待处理图像进行多种尺度的卷积处理和下采样,其中,主干网络模块中的每一层与FPN模块的相应网络层进行连接,FPN模块的多个网络层依次对目标物所在的目标区域进行下采样,从而输出目标物所在的目标区域的多尺度特征图,如特征图f1、特征图f2、特征图f3、特征图f4,接着,可以将特征图f1、特征图f2、特征图f3、特征图f4进行融合后,将融合后的特征图输入到ROI池化模块,从而ROI池化模块输出目标区域的深层特征fi。同时,待处理图像f0中目标物所在的目标区域的图像也可以经压缩到预设尺寸后,可以提取到待处理图像的颜色特征,进而将颜色特征输入到ROI池化模块,从而输出目标区域的浅层特征ri。
采用本申请实施例的ROI池化模块可以同时对输入的图像区域进行处理,也可以对图像区域的多尺度特征图进行处理,从而提高了ROI池化模块的适用范围,避免单独设置模块对图像区域进行特征提取,从而降低了整个神经网络结构的复杂性。这样,实例分割模模块和ROI池化模块也实现了权重共享,因此,不会引入大量额外的计算量,从而提高实例分割效率。
参照图4所示,示出了本申请实施例的一种实例分割模块的结构示意图,结合图4所示,对本申请的实例分割模块如何根据深层特征和浅层特征,生成目标区域的掩码图,以及进行实例分割。
如图4所示,在本实施例中,实例分割模块至少包括:初始实例分割模块、Alpha特征图生成模块、掩码图生成模块:
其中,所述初始实例分割模块用于对所述目标区域的深层特征进行处理,确定所述待处理图像的第二初步实例分割结果;
所述Alpha特征图生成模块用于对所述目标区域的深层特征和所述目标区域的浅层特征进行处理,得到所述目标区域的透明度特征;
所述掩码图生成模块用于对所述第一初步实例分割结果和透明度特征进行处理,生成所述目标区域的掩码图,以完成对目标区域的实例分割,得到实例分割结果。
其中,初始实例分割模块可以包括特征融合单元、以及多个卷积单元,特征融合单元可以对目标区域的深层特征进行多次卷积处理,以及将浅层特征与多次卷积处理后的深层特征进行融合,从而得到融合特征,多个卷积单元可以基于融合特征得到待处理图像的第一初步实例分割结果。
其中,Alpha特征图生成模块可以用于对深层特征和浅层特征进行拼接,多个卷积单元用于对拼接后的特征图进行多次卷积,从而得到透明度特征,该透明度特征可以充分表征目标区域的图像在Alpha通道的透明度。
其中,多个卷积单元可以包括第五卷积单元、第六卷积单元、第二点卷积单元。具体地,如图4所示,所述掩码图生成模块还可以包括:拼接单元和和第三点卷积单元;
其中,第五卷积单元和第六卷积单元可以采用3×3的卷积核对融合特征进行卷积处理,第二点卷积单元可以采用1×1的卷积核对第六卷积单元所输出的特征图进行卷积处理,从而得到目标区域的第一初步实例分割结果,如此,可以将该目标区域的第一初步实例分割结果输入到拼接单元。
所述拼接单元用于将所述第一初步实例分割结果与所述透明度特征进行拼接处理,得到第二拼接特征。
所述第三点卷积单元用于对所述第二拼接特征进行点卷积处理,生成所述目标区域的掩码图,也即是目标区域的实例分割结果。其中,点卷积处理是指采用1×1的卷积核对第二拼接特征进行卷积处理。
参照图5所示,示出了本示例中实例分割模块的结构示意图,图5以细化的方式示出了实例分割模块中各个模块的内部细节结构,如图5虚线框所示,所述初始实例分割模块、Alpha特征图生成模块共享了部分单元,具体所共享的部分单元分别是:顺次连接的第一卷积单元和第二卷积单元、三值图生成单元、以及第一拼接单元。
在一实施例中,所述三值图生成单元连接在所述第二卷积单元之后,用于对所述第二卷积单元输出的特征图进行处理,生成所述目标区域的三值图,所述三值图中每个像素点的像素值表征:所述目标区域中的每个像素点属于前景、背景或未知。
其中,所述第一拼接单元用于对所述三值图和所述目标区域的浅层特征进行拼接,得到第一拼接特征。
如此,初始实例分割模块中的特征融合单元,可以用于将所述深层特征与所述第一拼接特征进行融合处理,得到所述融合特征。相应地,Alpha特征图生成模块还包括第三卷积单元和第四卷积单元,该第三卷积单元和第四卷积单元用于对所述第一拼接特征进行处理,得到所述透明度特征。
其中,第一卷积单元和第二卷积单元均可以为3×3的卷积核,三值图生成单元所生成的三值图可以理解为是:在三值图中各个像素点的像素值表征该像素点是前景、背景和未知区域,即采用三种像素值表征目标区域中的前景、背景和未知区域。
其中,三值图是一通道的,而浅层特征是三通道的,因此,第一拼接单元将三值图和浅层特征进行拼接可以是指:concat操作,即,将一通道的三值图与三通道的浅层特征在通道维度上进行拼接,得到了拼接结果。
其中,融合单元与第二卷积单元的输出端和第四卷积单元的输出端连接,其中,由于第一卷积单元和第二卷积单元用于依次对深层特征进行处理,从而得到了处理后的深层特征,而第三卷积单元和第四卷积单元用于依次对第一拼接特征进行处理,从而得到处理后的第一拼接特征,接着,将处理后的深层特征中与处理后的第一拼接特征中,对应同一位置的特征相加,相当于将插值到预设尺寸后边缘细节丢失的深层特征与补充边缘信息后的特征进行相加,得到融合特征。
如图5所示,在一实施例中,在第二卷积单元之后可以连接第一点卷积单元,第一点卷积单元可以与三值图生成单元的输入端连接,这样,深层特征通过第一卷积单元和第二卷积单元的处理后,再经过第一点卷积单元,可以得到目标区域的背景/前景,即粗糙掩码图,然后,再经三值图生成单元后,得到背景/前景/未知区域精度提示的三值图。其中,第一点卷积单元为1×1的卷积核。
本申请实施例的三值图生成单元是对粗糙掩码图进行膨胀和腐蚀操作后得到三值图,但是在其他实施例中,也可以通过其他方式得到三值图。
为方便理解本申请的上述技术方案,下面通过一个示例进行阐述:
首先,充分利用边缘信息丰富的浅层特征以及图像Alpha通道的透明度特性,设计可学习的自监督M2M模块和特征细化与融合模块,可学习的自监督M2M模块和特征细化与融合模块组成本申请所示的实例分割模块,其结构如图4或图5所示。进而,可以通过实例分割模块补充由于ROI Pooling机制导致丢失的边缘信息。
其中,由于实例分割模块是对神经网络模型(例如:CNN)进行训练得到的,该CNN的浅层具有丰富的边缘等高频信息,彩色图像会有RGBA四个通道,RGB分别表示红、绿、蓝三个基本颜色通道,A代表Alpha通道,描述的是图像的透明度,但是现实过程中,图像拍摄过程中,常会不会记录到Alpha信息,因此,需要实例分割模块预测图像的Alpha信息。
具体地,例如对于图片A,图像尺寸为S=(w,九,3),根据定位模块预测得到的第i个目标区域的坐标记为则第i个目标区域经过ROI Pooling,即本申请的ROI池化模块的处理后得到对应的RGB特征图为ri(浅层特征),形状为(3,28,28),第i个目标区域也经过ROI池化模块得到对应的深层特征为fi(深层特征),形状为(256,28,28)。
接着,深层特征fi经过2个3x3卷积与1个1x1卷积后生成粗糙掩码图(表征前景/背景)CMi,形状为(1,28,28);将粗糙掩码图CMi通过如下方式制作三值图Tri:首先对CMi进行经典的膨胀和腐蚀操作,膨胀核为(3,3),迭代次数为20,得到的结果记为Unknowni,则三值图Tri=255*CMi+128*(Unknownni-CMi),形状为(1,28,28)。
然后,将三值图Tri与RGB特征图rj进行拼接,得到第一拼接结果Cati=[Tri,Ri],形状为(4,28,28),经过2个3x3卷积和1个1x1的卷积后预测得到Alpha特征图(透明度特征),该Alpha特征图的形状为(1,28,28)。
通过上述步骤,补充了深层特征fi由于ROI Pooling机制导致丢失的边缘信息。
之后,将Alpha特征图之前一步的特征,即第一拼接结果Cati=[Tri,Ri],形状为(4,28,28),经过2个3x3卷积后得到的特征,与深层特征fi经过2个3x3卷积后得到的特征进行相加,以进行特征强化。
最后,将预测到的Alpha特征图与上一步特征强化后的特征图进行拼接,再经过一个1x1卷积得到掩码图Mi,因为Alpha特征图中的每个像素点代表的是每个像素点的透明度,本质上也就是每个像素属于前景的置信度,所以起到先验的作用。
采用本申请上述实施例的技术方案,可以通过实例分割模模块中的Alpha特征图生成模块自主学习待处理图像的Alpha信息,从而预测出待处理图像中目标区域的Alpha特征图。由于Alpha特征图实际是指每个像素点属于前景的置信度,可以起到先验的作用,由此,可以无需对图像拍摄过程中的Alpha信息进行记录,在未记录Alpha信息的情况下,仍可以实现通过待处理图像各像素点的颜色信息对深层特征所丢失的目标区域的边缘信息进行补充的技术目的。
以上实施例,通过图4和图5对本申请的实例分割模块如何根据浅层特征和深层特征,生成掩码图进行实例分割的过程进行了详述。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图6所示,示出了本发明实施例的一种图像处理装置的结构框图,如图6所示,所述装置具体可以包括以下模块:
特征提取模块601,用于对待处理图像进行特征提取,得到所述待处理图像中目标区域的深层特征和浅层特征;
特征增强模块602,用于基于所述深层特征和所述浅层特征,确定所述目标区域的透明度特征;
第一分割模块603,基于所述深层特征和所述浅层特征,确定所述待处理图像的第一初步实例分割结果;
第二分割模块604,用于根据所述第一初步实例分割结果和所述透明度特征,对所述待处理图像进行实例分割,得到所述目标区域的实例分割结果。
可选地,所述特征增强模块602,具体包括以下单元:
第一处理单元,用于对所述深层特征进行处理,得到所述目标区域所对应的三值图;
拼接单元,用于将所述三值图与所述浅层特征进行拼接处理,得到第一拼接特征;
第二处理单元,用于对所述第一拼接特征进行处理,得到所述透明度特征。
可选地,所述第一分割模块603,具体包括以下单元:
第一处理单元,用于对所述深层特征进行处理,得到所述目标区域所对应的三值图;
第一拼接单元,用于将所述三值图与所述浅层特征进行拼接处理,得到第一拼接特征;
融合单元,用于将所述深层特征与所述第一拼接特征进行融合处理,得到所述融合特征;
初始分割单元,用于基于所述融合特征进行实例分割,得到所述第一初步实例分割结果。
可选地,所述第一处理单元,具体包括:
第一分割子单元,用于基于所述深层特征进行实例分割,得到所述目标区域的第二初步实例分割结果;
形态学处理子单元,用于对所述第二初步实例分割结果进行形态学处理,得到处理后的第二初步实例分割结果;
三值化处理子单元,用于对所述处理后的第二初步实例分割结果进行三值化处理,得到所述目标区域所对应的三值图。
可选地,所述融合单元,包括:
第一处理子单元,用于对所述深层特征进行卷积处理,得到处理后的深层特征;
第一拼接子单元,用于对所述第一拼接特征进行卷积处理,得到处理后的第一拼接特征;
特征相加子单元,用于将所述处理后的深层特征中与所述处理后的第一拼接特征中,相同位置处所对应的特征值相加,得到所述融合特征。
可选地,所述第二分割模块604,包括:
第二拼接单元,用于将所述第一初步实例分割结果与所述透明度特征进行拼接处理,得到第二拼接特征;
分割单元,用于基于所述第二拼接特征进行实例分割,得到所述目标区域的实例分割结果。
可选地,所述待处理图像的实例分割是基于神经网络模型实现的;相应的,所述装置还包括以下模块:
样本特征提取模块,用于对样本图像进行特征提取,获得所述样本图像中样本区域的深层特征和浅层特征;
输入模块,用于将所述样本区域的深层特征和浅层特征,输入神经网络模型,生成所述样本区域的实例分割结果;
损失确定模块,用于根据所述样本区域中各个像素点对应的标签和所述样本区域的实例分割结果,确定所述神经网络模型的损失值,其中,一个像素点对应的标签表征该像素点属于前景还是背景;
更新模块,用于根据所述损失值,对所述神经网络模型的参数进行更新,得到实例分割模块。
可选地,所述装置还包括:
协方差处理模块,用于对所述样本区域的深层特征进行处理,得到所述样本区域所对应的协方差;
所述更新模块,具体用于根据所述协方差、所述样本区域中各个像素点对应的标签和所述样本区域的实例分割结果,按照以下公式,确定所述神经网络模型的损失值;
其中,yu是所述样本区域中第u个像素点对应的标签,pu是所述样本区域的实例分割结果中第u个像素点的预测值,用于预测所述第u个像素点属于前景还是背景,N是所述样本区域中像素点的总数,σi表示所述协方差。
需要说明的是,装置实施例与方法实施例相近,故描述的较为简单,相关之处参见方法实施例即可。
参照图7所示,示出了本申请实施例的一种电子设备700的结构框图,如图7所示,本发明实施例提供的一种电子设备,该电子设备700可以用于执行图像处理方法,可以包括存储器701、处理器702及存储在存储器上并可在处理器上运行的计算机程序,所述处理器702被配置为执行所述的图像处理方法。
如图7所示,在一实施例中,该电子设备700完整的可以包括输入装置703、输出装置704以及图像采集装置705,其中,在执行本申请实施例的图像处理方法时,图像采集装置705可以采集待处理图像,接着输入装置703可以获得图像采集装置705采集的待处理图像,该待处理图像可以由处理器702进行处理,以对待处理图像进行实例分割,输出装置704可以输出对待处理图像进行实例分割的分割结果。
当然,在一实施例中,存储器701可以包括易失性存储器和非易失性存储器,其中,易失性存储器可以理解为是随机存取记忆体,用来存储和保存数据的。非易失性存储器是指当电流关掉后,所存储的数据不会消失的电脑存储器,当然,本申请的图像处理方法的计算机程序可以存储在易失性存储器和非易失性存储器中,或者存在二者中的任意一个中。
本发明实施例还提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明实施例所述的图像处理方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种图像处理方法、装置、设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (11)
1.一种图像处理方法,其特征在于,所述方法包括:
对待处理图像进行特征提取,得到所述待处理图像中目标区域的深层特征和浅层特征;
基于所述深层特征和所述浅层特征,确定所述目标区域的透明度特征,以及,基于所述深层特征和所述浅层特征,确定所述待处理图像的第一初步实例分割结果;
根据所述第一初步实例分割结果和所述透明度特征,对所述待处理图像进行实例分割,得到所述目标区域的实例分割结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述深层特征和所述浅层特征,确定所述目标区域的透明度特征,包括:
对所述深层特征进行处理,得到所述目标区域所对应的三值图;
将所述三值图与所述浅层特征进行拼接处理,得到第一拼接特征;
对所述第一拼接特征进行处理,得到所述透明度特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述深层特征和所述浅层特征,确定所述待处理图像的第一初步实例分割结果,包括:
对所述深层特征进行处理,得到所述目标区域所对应的三值图;
将所述三值图与所述浅层特征进行拼接处理,得到第一拼接特征;
将所述深层特征与所述第一拼接特征进行融合处理,得到所述深层特征和所述第一拼接特征所对应的融合特征;
基于所述融合特征进行实例分割,得到所述第一初步实例分割结果。
4.根据权利要求2或3所述的方法,其特征在于,所述对所述深层特征进行处理,得到所述目标区域所对应的三值图,包括:
基于所述深层特征进行实例分割,得到所述目标区域的第二初步实例分割结果;
对所述第二初步实例分割结果进行形态学处理,得到处理后的第二初步实例分割结果;
对所述处理后的第二初步实例分割结果进行三值化处理,得到所述目标区域所对应的三值图。
5.根据权利要求3所述的方法,其特征在于,所述将所述深层特征与所述第一拼接特征进行融合处理,得到所述深层特征和所述第一拼接特征所对应的融合特征,包括:
对所述深层特征进行卷积处理,得到处理后的深层特征;
对所述第一拼接特征进行卷积处理,得到处理后的第一拼接特征;
将所述处理后的深层特征中与所述处理后的第一拼接特征中,相同位置处所对应的特征值相加,得到所述融合特征。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述第一初步实例分割结果和所述透明度特征,对所述待处理图像进行实例分割,得到所述目标区域的实例分割结果,包括:
将所述第一初步实例分割结果与所述透明度特征进行拼接处理,得到第二拼接特征;
基于所述第二拼接特征进行实例分割,得到所述目标区域的实例分割结果。
7.根据权利要求1-6任一所述的方法,其特征在于,所述待处理图像的实例分割是基于神经网络模型实现的;
相应的,通过如下步骤训练所述神经网络模型:
对样本图像进行特征提取,获得所述样本图像中样本区域的深层特征和浅层特征;
将所述样本区域的深层特征和浅层特征,输入神经网络模型,生成所述样本区域的实例分割结果;
根据所述样本区域中各个像素点对应的标签和所述样本区域的实例分割结果,确定所述神经网络模型的损失值,其中,一个像素点对应的标签表征该像素点属于前景还是背景;
根据所述损失值,对所述神经网络模型的参数进行更新,得到实例分割模块。
9.一种图像处理装置,其特征在于,所述装置包括:
特征提取模块,用于对待处理图像进行特征提取,得到所述待处理图像中目标区域的深层特征和浅层特征;
特征增强模块,用于基于所述深层特征和所述浅层特征,确定所述目标区域的透明度特征;
第一分割模块,用于基于所述深层特征和所述浅层特征,确定所述待处理图像的第一初步实例分割结果;
第二分割模块,用于根据所述第一初步实例分割结果和所述透明度特征,对所述待处理图像进行实例分割,得到所述目标区域的实例分割结果。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-8任一所述的图像处理方法。
11.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1-8任一所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110819544.0A CN113744280A (zh) | 2021-07-20 | 2021-07-20 | 图像处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110819544.0A CN113744280A (zh) | 2021-07-20 | 2021-07-20 | 图像处理方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113744280A true CN113744280A (zh) | 2021-12-03 |
Family
ID=78728826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110819544.0A Pending CN113744280A (zh) | 2021-07-20 | 2021-07-20 | 图像处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113744280A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114419322A (zh) * | 2022-03-30 | 2022-04-29 | 飞狐信息技术(天津)有限公司 | 一种图像实例分割方法、装置、电子设备及存储介质 |
WO2024007135A1 (zh) * | 2022-07-04 | 2024-01-11 | 北京小米移动软件有限公司 | 图像处理方法、装置、终端设备、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610509A (zh) * | 2019-09-18 | 2019-12-24 | 上海大学 | 可指定类别的优化抠图方法及*** |
CN111104962A (zh) * | 2019-11-05 | 2020-05-05 | 北京航空航天大学青岛研究院 | 图像的语义分割方法、装置、电子设备及可读存储介质 |
CN111178211A (zh) * | 2019-12-20 | 2020-05-19 | 北京迈格威科技有限公司 | 图像分割方法、装置、电子设备及可读存储介质 |
CN111223041A (zh) * | 2020-01-12 | 2020-06-02 | 大连理工大学 | 一种全自动自然图像抠图方法 |
WO2020182670A1 (en) * | 2019-03-08 | 2020-09-17 | Koninklijke Philips N.V. | Methods and systems for acquiring composite 3d ultrasound images |
WO2021031066A1 (zh) * | 2019-08-19 | 2021-02-25 | 中国科学院深圳先进技术研究院 | 一种软骨图像分割方法、装置、可读存储介质及终端设备 |
CN112446380A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 图像处理方法和装置 |
-
2021
- 2021-07-20 CN CN202110819544.0A patent/CN113744280A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020182670A1 (en) * | 2019-03-08 | 2020-09-17 | Koninklijke Philips N.V. | Methods and systems for acquiring composite 3d ultrasound images |
WO2021031066A1 (zh) * | 2019-08-19 | 2021-02-25 | 中国科学院深圳先进技术研究院 | 一种软骨图像分割方法、装置、可读存储介质及终端设备 |
CN112446380A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 图像处理方法和装置 |
CN110610509A (zh) * | 2019-09-18 | 2019-12-24 | 上海大学 | 可指定类别的优化抠图方法及*** |
CN111104962A (zh) * | 2019-11-05 | 2020-05-05 | 北京航空航天大学青岛研究院 | 图像的语义分割方法、装置、电子设备及可读存储介质 |
CN111178211A (zh) * | 2019-12-20 | 2020-05-19 | 北京迈格威科技有限公司 | 图像分割方法、装置、电子设备及可读存储介质 |
CN111223041A (zh) * | 2020-01-12 | 2020-06-02 | 大连理工大学 | 一种全自动自然图像抠图方法 |
Non-Patent Citations (3)
Title |
---|
TIAN WANXIN, ET AL: "Learning better features for face detection with feature fusion and segmentation supervision", ARXIV PREPRINT ARXIV:1811.08557, 25 April 2019 (2019-04-25), pages 1 - 10 * |
WANG RUI, ET AL: "OCT image quality evaluation based on deep and shallow features fusion network", 2020 IEEE 17TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING (ISBI), 22 May 2020 (2020-05-22), pages 1561 - 1564 * |
樊玮等: "卷积神经网络低层特征辅助的图像实例分割方法", 计算机科学, 17 November 2020 (2020-11-17), pages 186 - 191 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114419322A (zh) * | 2022-03-30 | 2022-04-29 | 飞狐信息技术(天津)有限公司 | 一种图像实例分割方法、装置、电子设备及存储介质 |
WO2024007135A1 (zh) * | 2022-07-04 | 2024-01-11 | 北京小米移动软件有限公司 | 图像处理方法、装置、终端设备、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113076871B (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN111696110B (zh) | 场景分割方法及*** | |
US20220156944A1 (en) | Apparatus and method with video processing | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN113095346A (zh) | 数据标注的方法以及数据标注的装置 | |
KR102140805B1 (ko) | 위성 영상의 물체 식별을 위한 뉴럴 네트워크 학습 방법 및 장치 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN113284155B (zh) | 视频目标分割方法、装置、存储介质及电子设备 | |
CN113744280A (zh) | 图像处理方法、装置、设备及介质 | |
CN112784750B (zh) | 基于像素和区域特征匹配的快速视频物体分割方法和装置 | |
CN112001403A (zh) | 一种图像轮廓检测方法及*** | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及*** | |
CN116433903A (zh) | 实例分割模型构建方法、***、电子设备及存储介质 | |
CN114677330A (zh) | 一种图像处理方法、电子设备及存储介质 | |
CN117197781B (zh) | 一种交通标志识别的方法、装置、存储介质及电子设备 | |
CN112132753B (zh) | 多尺度结构引导图像的红外图像超分辨率方法及*** | |
CN112365513A (zh) | 一种模型训练的方法及装置 | |
CN111008992B (zh) | 目标跟踪方法、装置和***及存储介质 | |
CN116861262A (zh) | 一种感知模型训练方法、装置及电子设备和存储介质 | |
CN116486153A (zh) | 图像分类方法、装置、设备及存储介质 | |
CN116844032A (zh) | 一种海洋环境下目标检测识别方法、装置、设备及介质 | |
EP4235492A1 (en) | A computer-implemented method, data processing apparatus and computer program for object detection | |
CN112926480B (zh) | 一种面向多尺度、多朝向的航拍物体检测方法及*** | |
CN117095244B (zh) | 一种红外目标识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |