CN111524150B - 图像处理的方法及装置 - Google Patents
图像处理的方法及装置 Download PDFInfo
- Publication number
- CN111524150B CN111524150B CN202010631309.6A CN202010631309A CN111524150B CN 111524150 B CN111524150 B CN 111524150B CN 202010631309 A CN202010631309 A CN 202010631309A CN 111524150 B CN111524150 B CN 111524150B
- Authority
- CN
- China
- Prior art keywords
- prediction
- feature
- result
- target
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本说明书实施例提供一种图像处理的方法,巧妙利用特征金字塔网络,根据高阶特征图和低阶特征图的不同特性,基于金字塔状排布的特征图,通过低阶特征图进行语义分割,通过高阶特征图进行实例分割,从而,在一个网络中实现全景分割,实现了一种轻量级的、计算速度较快的全景分割模式。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及利用计算机进行图像处理的方法与装置。
背景技术
目标识别是通过计算机从一幅或多幅图像,或者是视频中,识别出物体的技术。目标识别可以广泛应用于自动驾驶、商品自动补货、车辆损伤识别、人脸考勤、自助购物等等多种场景。全景目标识别通常是针对给定的图像,识别出图像上各种类型的目标(如人物、花草、白云、树木、宠物狗、车辆、工具等等)的识别技术。这种识别技术需要对图像上所有像素所属的目标类别、以及在相应类别(如车辆)的目标中属于哪一个目标(如图像中出现的车辆A还是车辆B)。全景分割通常是实例分割和语义分割的合并。通俗地讲,语义分割可以包括对像素到目标类别的分割,实例分割可以包括对相应类别下具体哪个目标的分割。
常规技术中,通常采用一种 “二阶段”的网络进行全景分割。这种技术中,第一阶段往往利用区域提案网络从图像中获取物***置,第二阶段可以在区域提案网络的基础上进一步输出目标类别、目标框和目标级别的分割结果。在此基础上,本说明书希望能够在尽可能保持精度的情况下,提供一种更简洁的全景分割方案,使得计算速度更快、计算消耗更小、预测更顺畅。
发明内容
本说明书一个或多个实施例描述了一种图像处理的方法及装置,用以解决背景技术提到的一个或多个问题。
根据第一方面,提供一种图像处理的方法,用于针对待处理图像识别出全景目标,所述方法包括:利用n层特征金字塔网络处理所述待处理图像,得到n个分辨率递减的特征图,其中,第m个特征图为对特征金字塔网络第m层卷积结果的金字塔池化结果,第1个特征图至第m-1个特征图中的第r个特征图由第r+1个特征图经过上采样的结果叠加到第r层卷积结果得到,第m+1个特征图至第n个特征图的分辨率基于第m个特征图递减,且其中的第p个特征图基于对第p-1个特征图的卷积操作结果确定,r、n、m、p都是正整数,且n≥p>m,m-1≥r≥1;利用所述n个特征图中的前s个特征图,对所述待处理图像进行语义分割处理,得到语义分割结果,s为小于n的正整数;利用所述n个特征图中的后t个特征图,对所述待处理图像进行目标框预测,得到目标预测结果,t为小于n的正整数;融合所述语义分割结果和所述目标预测结果,从而完成对所述待处理图像中的全景目标识别。
根据一个实施例,所述第p个特征图通过以下方式确定:针对第p-1个特征图进行卷积操作,得到第p卷积结果;对第p-1个特征图进行下采样,得到与所述第p卷积结果的分辨率一致的下采样结果;将所述下采样结果叠加到第p卷积结果,从而得到所述第p个特征图。
根据一个实施例,所述利用所述n个特征图中的前s个特征图,对所述待处理图像进行语义分割处理,得到语义分割结果包括:针对前s个特征图中的第2至s个特征图,分别进行卷积操作和上采样操作,以得到和第1个特征图分辨率一致的各个上采样结果;将各个上采样结果与所述第1个特征图相叠,得到叠层特征图;对所述叠层特征图进行卷积操作,使得经过卷积操作处理后,各个像素分别对应有以下属性:所属的目标类别,以及与所属目标中心的偏差。
根据一个实施例,所述利用所述n个特征图中的后t个特征图,对所述待处理图像进行目标框预测,得到目标预测结果包括:针对单个特征图,通过以下方式确定与其对应的单份目标框预测结果:通过第一卷积处理,确定各个特征点分别对应于相应预测框的各个中心度;通过第二卷积处理,进行边框回归。
根据一个进一步的实施例,所述预测框为矩形框,所述矩形框包括两组相对边界,单个特征点与相应预测框的一组相对边界对应有第一距离和第二距离,且第一距离小于第二距离,所述单个特征点与相应预测框的另一组相对边界对应有第三距离和第四距离,且第三距离小于第四距离,所述单个特征点的中心度与第一距离和第二距离的比值正相关,且与第三距离和第四距离的比值正相关。
根据另一个进一步的实施例,所述目标框预测结果包括多个预测框,所述融合所述语义分割结果和所述目标预测结果包括:按照所述语义分割结果确定各个预测框分别对应的各个目标类别;对各个目标类别下的预测框,分别按照特征点的中心度由大到小的顺序,执行分割操作。
根据一个实施例,所述分割操作进一步包括:按照相应特征点对应的各个像素的颜色值,将预测框内对应同一个目标类别的像素描绘在与待处理图像大小一致的画布上。
根据一个实施例,在当前预测框不是中心度最大的预测框的情况下,针对当前预测框,还执行以下筛选操作:比较当前预测框与已在画布上描绘的各个预测框的重叠度;在所述重叠度大于预定阈值的情况下,筛除当前预测框。
根据一个可选的实施例,所述重叠度通过交并比衡量。
根据一个实施例,所述语义分割结果包括与第一个特征图分辨率大小一致的语义分割图,所述多个预测框包括第一预测框,所述按照所述语义分割结果确定各个预测框对应的目标类别包括:将所述语义分割图进行下采样,得到与所述第一预测框对应的特征图分辨率一致的第一下采样结果;将所述第一下采样结果中,与所述第一预测框对应的特征点位置一致的采样点的目标类别,确定为与所述第一预测框对应的目标类别。
根据一个实施例,对单个特征图执行的卷积操作包括可变形卷积。
根据一个实施例,各个预测框包括第二预测框,针对所述第二预测框执行的分割操作还包括:基于目标预测结果,检测所述语义分割结果中,所述第二预测框之外距离其边框在预定范围内的第一像素的颜色值和/或目标类别,与所述第二预测框内距离其边框在预定范围内的第二像素的颜色值和/或目标类别是否一致;在第一像素的颜色值和/或目标类别与第二像素的颜色值和/或目标类别一致的情况下,调整相应预测框,使得所述第一像素位于所述第二预测框内。
根据一个实施例,所述目标预测结果包括,所述待处理图像上,各个像素分别对应的以下至少一种属性:目标类别、到目标边界的距离、中心度。
根据第二方面,提供一种图像处理的装置,用于针对待处理图像识别出全景目标,所述装置包括:
特征金字塔处理单元,配置为利用n层特征金字塔网络处理所述待处理图像,得到n个分辨率递减的特征图,其中,第m个特征图为对特征金字塔网络第m层卷积结果的金字塔池化结果,第1个特征图至第m-1个特征图中的第r个特征图由第r+1个特征图经过上采样的结果叠加到第r层卷积结果得到,第m+1个特征图至第n个特征图的分辨率基于第m个特征图递减,且其中的第p个特征图基于对第p-1个特征图的卷积操作结果确定,r、n、m、p都是正整数,且n≥p>m,m-1≥r≥1;
语义分割单元,配置为利用所述n个特征图中的前s个特征图,对所述待处理图像进行语义分割处理,得到语义分割结果,s为小于n的正整数;
目标预测单元,配置为利用所述n个特征图中的后t个特征图,对所述待处理图像进行目标框预测,得到目标预测结果,t为小于n的正整数;
融合单元,配置为融合所述语义分割结果和所述目标预测结果,从而完成对所述待处理图像中的全景目标识别。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,巧妙利用特征金字塔网络,根据高阶特征图和低阶特征图的不同特性,分别进行语义分割和实例分割,从而,可以利用一个网络实现全景分割,实现了一种轻量级的、计算速度较快的全景分割模式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书的一个实施场景示意图;
图2示出本说明书实施例的一个具体实施架构示意图;
图3示出根据一个实施例的图像处理的方法流程图;
图4示出在一个具体例子中的语义分割流程示意图;
图5示出在一个具体例子中的目标预测流程示意图;
图6示出在一个具体例子中的可变形卷积的原理示意图;
图7示出在一个具体例子中的实例分割示意图;
图8示出根据一个实施例的图像处理的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
首先,结合图1示出的一个具体实施场景进行说明。如图1所示,是一个识别一张水中图像中的物体的具体实施场景。在该实施场景中,可以通过计算平台对图像进行处理,从而识别出各种不同物体(目标)。例如图1中,通过虚线目标框框出具体物体的位置。在该图像中,有两只海豚和三条鱼。全景分割过程中,需要考虑各个像素所属的目标类别(例如属于海豚还是鱼),以及在相应类别下具体的目标(如具体属于哪条鱼)。对于同一个目标类型下的不同目标,在图1中,可以通过虚线框标识。一个虚线框标识出的具有相同目标类别的像素可以被识别为同一个目标,属于同一物体。在其他实施例中,全景识别出的目标还可以通过其他方式标识,在此不做限定。
常规技术中,通常使用全卷积网络做语义分割、使用Mask RCNN(Region ProposalNetwork,区域提案网络)或其它实例分割方法做实例分割,然后合并语义分割和实例分割的结果完成全景分割。其中,Mask RCNN往往先用区域提案网络获得初步的实例的位置,再用第二阶段的网络来计算精准的实例目标框和实例分割。这种方案可能出现的问题是:一方面,庞大的区域提案网络可能增加内存消耗和计算时间;另一方面,语义分割和实例分割的结果如果存在冲突,需要额外的后处理来统一它们的结果。
于是,本说明书提出一种技术构思,利用一个网络完成对图像的全景分割。这个网络可以通过特殊的卷积处理,得到可以分别满足语义分割和实例分割的需求的特征图。同时,避开区域提案网络,只利用卷积网络,使得流程更简洁,计算更快速,内存消耗更小。由于利用一个网络,还可以避免对多次结果的冲突进行后续处理。
图2示出了本说明书的技术构思的一个具体实现示意图。在该实现中,首先针对待处理图像进行特征提取,并经由多个卷积层的处理。可以理解,经过每个卷积层可以得到下一层的特征。在卷积处理过程中,可以按照特征点数(本文中用分辨率描述)递减的方式提取特征。可以理解,通过各个卷积层的卷积处理,不同尺寸的图像提取到的特征层大小也不一致,为了节约计算量并提取更高阶的语义信息,在第4个卷积层的卷积结果基础上通过金字塔池化模块做金字塔池化,使得各种尺寸的图像经过金字塔池化得到相同维度的特征图,如图2中的P5特征图。金字塔池化模块的作用是,不管输入数据大小,总能得到一个固定大小的特征层。在图2中,每经过一个卷积层处理,得到1个卷积结果,如图2最左侧一列所示的卷积结果。
可以理解,卷积结果的特征数递减,因此靠前的卷积结果更接近图像本身,可以提取更多的图像细节,例如精准的边界,等等,更高阶的卷积结果经过更复杂的处理,可以提取到更多的语义特征。为了更好地在低阶特征提取结果上融合更多的语义特征,特征金字塔网络进一步对各个卷积结果进行处理,以得到与卷积结果对应的各个特征图。
如图2所示,假设P5特征图是第4个卷积结果经过金字塔池化操作得到的第4个特征图,可以将P5特征图进行上采样,得到与第3个卷积结果分辨率一致的上采样结果,并将该上采样结果叠加到第3个卷积结果,得到P4特征图。以此类推,将P4特征图进行上采样,得到与第2个卷积结果分辨率一致的上采样结果,并将该上采样结果叠加到第2个卷积结果,得到P3特征图……直至得到P2特征图。
之后,为了尺度的多样性,可以在进行金字塔池化得到的特征图基础上,进一步通过卷积操作进行特征提取,得到更高阶的特征图。例如图2中,对P5特征图进一步做特征提取,得到P6特征图和P7特征图。本领域技术人员容易理解,P6和P7的特征图包含更高阶的特征,这种更高阶的语义特征包含更多的语义信息,以及较少的细节特征。实践中,特征金字塔中的特征图数量可以是任意合理的数量。
进一步地,考虑到较靠前的层具有较大的分辨率,并包含较多的细节,较靠后的层描述更高阶的特征,具有更大的感受野和更抽象的语义信息,设想在后续网络中通过较靠前的层来进行语义分割,更注重分割细节,通过较靠后的层来进行实例分割。然后,在再后续网络中将语义分割结果和示例分割结果融合。如此,可以将语义分割和实例分割利用一个网络来实现,不需要额外的分割网络(如区域提案网络等)进行额外的实例分割操作。从而,可以实现更简洁、更快速、内存消耗更小的全景分割(或称为全景目标识别)。
下面详细描述本说明书的技术构思。
图3示出了根据本说明书一个实施例的图像处理的流程示意图。该流程的执行主体可以是具有一定计算能力及能够创建可信环境的计算机、设备、服务器等,例如图1示出的计算平台。通过该流程,可以针对待处理图像识别出全景目标,即对待处理图像进行全景的目标识别(分割)。这里的目标可以包括多种待识别对象,例如树木、人物、动物、车辆、蓝天白云、草地、商品、交通信号灯等等。
如图3所示,该流程包括:步骤301,利用n层特征金字塔网络处理待处理图像,得到n个分辨率递减的特征图,其中,第m个特征图为对特征金字塔网络第m层卷积结果的金字塔池化结果,第1个特征图至第m-1个特征图中的第r个特征图由第r+1个特征图经过上采样的结果叠加到第r层卷积结果得到,第m+1个特征图至第n个特征图的分辨率基于第m个特征图递减,且其中的第p个特征图基于对第p-1个特征图的卷积操作结果确定,r、n、m、p都是正整数,且n≥p>m,m-1≥r≥1;步骤302,利用上述n个特征图中的前s个特征图,对待处理图像进行语义分割处理,得到语义分割结果,s为小于n的正整数;步骤304,利用上述n个特征图中的后t个特征图,对待处理图像进行目标框预测,得到目标预测结果,t为小于n的正整数;步骤305,融合语义分割结果和目标预测结果,从而完成对待处理图像中的全景目标识别。
首先,通过步骤301,利用n层特征金字塔网络处理待处理图像,得到n个分辨率递减的特征图。其中,各个特征图(feature map)可以理解为在原图像基础上缩小分辨率的图,也就是说,与原图像相比,单个通道上的像素数量(或特征数量)减少。例如,原图的分辨率为480×480(像素数),特征图的分辨率可以为112×112(特征数)等。n可以是大于1的自然数。
可以理解,利用卷积方式,可以将图像映射为分辨率较小的特征图。例如,分辨率为480×480的图像,经过4×4的卷积核处理,可以得到分辨率为120×120的特征图。特征金字塔网络(Feature Pyramid Networks,以下简称FPN)通过对卷积神经网络进行改进,可以提取各种尺度物体的特征。
参考图2所示,在利用特征金字塔网络处理待处理图像时,可以按照一定的缩减比例,对分辨率进行缩减,例如特征图P2缩减为原图像的50%,特征图P3缩减为特征图P2的50%……。在图2中,n=6,得到6个特征图,其中,第1个特征图为P2。从原图像中直接获取的特征矩阵,例如各个像素的颜色值(灰度值、RGB值等)构成的矩阵,可以作为原始特征图(例如记为P1),在本说明书的实施架构中不涉及,因此图2中未示出。
特征金字塔网络可以利用多尺度的金字塔层次结构在各个尺度上构建高级语义特征图。其可以具有横向连接结构。如图2所示,特征金字塔网络中,左侧为通过m层卷积神经网络对待处理图像进行m次卷积操作得到m个卷积结果的示意图,图2中,m=4。为了构造金字塔状的特征图,对m个卷积结果进一步处理,得到m个特征图,如图2中示出的特征图P2至P5,分别对应于第1个至第4个卷积层。
为了得到大小一致的特征图,便于后续处理,对于第m个卷积结果,可以通过金字塔池化处理。在本说明书的实施例中,各个特征图的分辨率可以随着对应的卷积层增加而逐渐减小。在可选的实施例中,单个特征图的分辨率为前一个特征图的1/2大小。
下面结合图2对特征金字塔网络提取的特征图进行描述。对于通过第1至m层卷积神经网络(如图2中最左侧的第4层卷积神经网络)对待处理图像进行的卷积处理,得到m个卷积结果。对第m个卷积结果进行金字塔池化处理,得到固定大小的第m个特征图(如图2中标出的P5),例如分辨率为固定大小56×56。对第m个特征图,通过上采样得到与第m-1层卷积结果大小一致的上采样结果,并将该上采样结果叠加到第m-1层卷积神经网络的卷积结果,得到第m-1层特征图。以此类推,直至对特征图P3进行上采样后叠加到第1层卷积神经网络的卷积结果,得到特征图P2(最底层特征图)。
其中,上采样通俗地讲就是将图像放大。具体地,可以通过双线性差值方式将特征图放大到一定大小。例如可以对卷积矩阵的行重新排列,中间用0填充,然后通过卷积矩阵与变换后的特征图进行乘法运算,可以得到放大的特征图。
作为具体示例,下面描述一个3×3的卷积矩阵,将一个2×2的特征图上采样为一个4×4的辅助特征图的过程。假设卷积矩阵为:
对其重新排列成16×4的卷积矩阵,例如为:
为了进行矩阵计算,将2×2的特征图拉伸为4×1的矩阵,将以上变换后的16×4的矩阵与该4×1的矩阵做乘法,得到16×1的向量。将该16×1的向量变换可以得到4×4的矩阵。如此,就把2×2的特征图扩展成了4×4的辅助特征图,即把特征图进行了扩大处理。
总之,第m个特征图作为基准,对于第1到m-1层卷积神经网络,假设任一层为第r层,相应的第r个特征图(图2中,第r个特征图,对应Pr+1),由第r+1个特征图由经过上采样的结果叠加到第r层卷积结果得到。如此,通过由上到下的顺序,可以逐层将高阶特征叠加到低阶卷积结果上,使得得到的低阶特征图不仅包含更多的细节,还包含丰富的高阶语义。
另一方面,为了在更大的感受野上获取对目标框的预测结果,可以进一步在对第m个特征图(如图2中的P5)的基础上进行n-m次迭代的卷积操作,以获取更大的目标尺度特征。如图2中,n-m=2,可以得到P6和P7两个特征图。换句话说,假设第m+1个特征图至第n个特征图中的任一个为第p个特征图,第p个特征图基于对第p-1个特征图的卷积操作结果确定。
在可选的实现方式中,与前m-1个特征图的处理方式类似地,在对第m个特征图进行卷积操作之后,还可以结合第m个特征图进行逐层的下采样,并将下采样结果叠加到相应卷积结果,得到相应阶的特征图,以使得高阶特征图携带有更多细节特征。其中,下采样和上采样具有相似的原理,例如4×4的矩阵经过下采样得到2×2的矩阵,主要区别在于对卷积矩阵的变换矩阵和上采样的变换矩阵为转置关系,在此不再赘述。
值得说明的是,该步骤301得到的n个特征图,从低阶到高阶分辨率递减,在图示中类似金字塔的形状。这些特征图在不同尺度和不同层次上提取待处理图像的特征。其中,低阶特征图通常与原图像更加接近,携带有更加接近原图的细节特征,例如目标边缘等,适合划分出不同的目标,即语义分割。而高阶特征图通常具有更大的感受野和更抽象的语义信息,因此,适合做实例分割。
因此,在步骤302和步骤303可以针对n个特征图,分别利用低阶特征图进行语义分割,利用高阶特征图进行实例分割。
一方面,在步骤302中,利用上述n个特征图中的前s个特征图,对待处理图像进行语义分割处理,得到语义分割结果。其中,s为小于n的正整数。也就是说,利用低阶特征图进行语义分割。
在一个可能的设计中,可以对这s个特征图(如图2中的P2至第P5)分别做语义分割,得到s个语义分割结果。每个语义分割结果给出各个像素所属的目标,例如,112×112像素的待处理图像中,第10行第20列的像素属于人物,等等。然后,可以综合考虑s个语义分割结果,例如,将各个语义分割结果合并,当同一个像素的分割结果不一致时,采用诸如投票决定之类的方式确定语义分割结果。其中,高阶特征图的一个特征点可以对应待处理图像中的多个像素,根据特征点对应的处理结果可以确定相应多个像素的语义分割结果。
根据另一个可能的设计,可以将第2个特征图到第s个特征图(如图2中的P3到P5)之后的各个特征图,分别通过卷积处理进一步提取特征后,上采样到第1个特征图(如图2中的P2)的大小,并与第1个特征图叠在一起形成叠层特征图进行语义提取处理。这样可以在多个深度上提取更丰富的语义信息,得到更准确的语义标注结果。在一个实施例中,语义分割结果可以包括,各个像素分别对应的2个属性:距离所属物体中心点的偏差,以及目标类别。可选地,距离所属物体中心点的偏差可以通过与所属物体中心点在以像素为单位的二维坐标系中的2个坐标值(如(2,3)表示偏离所属物体中心点的预测偏差为,向上2个像素,向右2个像素)表示,或者通过以像素为单位的径向坐标表示(如,5表示偏离所属物体中心点的预测偏差为,向外5个像素),等等。
参考图2所示,作为一个具体示例,假设利用图2中的前4层(s=4)特征图(P2至P5)对待处理图像进行语义分割。如图4所示,假设P2的维度为h×w×128,其中h×w为特征分辨率,128为通道数(实践中也可以是64、256等各种通道数)。通常,第1个特征图,即图2和图4中示出的P2,特征分辨率与待处理图像的原图的分辨率最接近。将P3、P4、P5的特征图分别通过卷积和上采样操作,处理成与P2的维度h×w×128一致的特征图,并与第2层叠在一起,形成h×w×512维的叠层特征图。接着,可以对h×w×512维的叠层特征图利用1×1卷积处理。其中,1×1卷积可以用于降低通道数,并实现特征之间的跨通道交互,以及信息整合。例如1×1卷积的卷积核为512×3的矩阵,则经过处理后,得到h×w×3维的处理结果。可以理解的是,这种处理方式相当于对于单个特征,对其包含的512维特征进行全连接处理,得到3维输出结果。该处理结果可以包括,单个特征在3个通道上分别对应3个值,这3个值中的2个值可以表示以像素为单位的二维坐标系中,相应特征点对应的像素距离其所属目标的中心点的坐标,另1个值表示目标类别(如3表示汽车等)。实践中,1×1卷积的卷积核也可以为其他维数的矩阵,例如512×2的矩阵,得到各个像素点分别对应的2个值为:距离所属预测目标中心点的径向距离,以及所属目标类别。
在其他实施例中,还可以采用其他卷积方式对前s层的特征图进行处理以得到针对待处理图像的语义分割结果,在此不再赘述。通过前s层进行语义分割,综合了多个层次的特征提取结果,可以提升语义分割效果。
另一方面,在步骤303中,利用上述n个特征图中的后t个特征图,对待处理图像进行目标框预测,得到t个预测结果。其中,t为小于n的正整数。可以理解,高阶特征图具有更大的感受野,适合用于实例分割。实例分割例如可以通过目标框的形式进行,即在图像上通过矩形框、圆形框、三角形框、五边形框、不规则边框等各种形状的目标框预测出各个目标。
本步骤303中,可以针对这t个特征图中的各个特征图,分别进行目标框预测,得到目标预测结果。可以理解的是,特征图相当于对待处理图像进行的预测框提取,特征图中的单个特征点可以对应着待处理图像中的一个提取到的预测框。特征图的分辨率越大,提取的预测框越小,特征图的分辨率越小,一个特征点对应的待处理图像中的像素越多,提取的预测框包含的像素也越多(预测框对应到待处理图像上的尺寸越大)。举例而言,假设一个特征图是待处理图像的1/4大小,那么特征图上的一个特征点对应4个像素,相应的预测框可以包含这4个像素。值得说明的是,一个预测框可以包括多个特征点对应的像素。
根据一个实施方式,对单个特征图进行目标框预测时,可以分为中心度(borderness)预测和边框回归两部分。顾名思义,中心度可以用于表示特征图上的一个具体特征点位于预测框(预测的目标框)中心的程度。一个预测框可以由指向其的各个特征点可以分别对该预测框进行边框回归。边框回归的目标是,使得预测框所包围的像素,在该预测框中的中心度更接近相应特征点在指向该预测框的各个特征点中的中心度。
在一个实施例中,假设预测框为矩形框,则在特征图上落在该预测框内的特征点通常也构成矩形区域。其中假设一个特征点距离该矩形边框对应的各个特征点形成的矩形区域的边缘距离,假设分别为第一距离(如左边框)、第三距离(如上边框)、第二距离(如右边框)、第四距离(如下边框)。可以理解,第一距离和第二距离是特征点到特征图上的矩形边框的一组相对边的距离,第三距离和第四距离是特征点到特征图上的矩形边框的另一组相对边的距离。由于越靠近区域中心,特征点到一组相对边中的两个距离越接近,因此,可以通过特征点到一组相对边中的两个距离的比值确定其中心度。如果比值为较小值与较大值的比,则中心度可以与该比值正相关。例如。上述特征点的中心度可以为:
其中,中心度C可以在0-1之间取值,当其值为1时,表示当前特征点为预测到的边框在当前特征图上对应区域的中心点。
在其他情况下,也可以通过其他方式确定特征点的中心度。例如上述的四个距离分别为当前特征点到上述矩形区域各个角的距离,相对边变成相对角顶点,则仍可以利用上面C的计算公式确定特征点的中心度。
在可选的实施例中,为了保证C的取值在0-1之间,以上各个距离可以采用归一化的距离,例如6×6的特征图中,每个特征点的间隔记为1/6。边框回归过程中,C可以作为对预测框的回归目标。例如,特征点A对应的中心度为0.1(靠近边缘),则其相应的预测框经过特征点A的回归应尽量使得特征点A对应的像素靠近预测框边缘。
在一些实施例中,对于预测框外部的特征点(不在任何一个预测框内),可以得到较小的中心度值,从而,还可以通过中心度对预测到的边框进行筛选。例如,相应特征点的中心度小于预定中心度阈值的边框,可以被筛除。可选地,特征点的中心度也可以称为相应预测框的置信度。
在图5中,以上述t个特征图中的单个特征图为例,描述一个具体例子中通过图卷积神经网络对单个特征图进行目标框预测的过程。为了描述更清楚,可以假设图5中的特征图为图2中的P4,目标框为矩形框。假设P4特征图对应的分辨率为h×w,代表着当前提取到的特征点数为h×w。假设其通道数为256,则每个特征点对应着256个特征。对这256个特征进行综合,可以得到各个特征点表示的边框参数。这里的边框参数可以为特征点到预测框的各个边的距离(共4个),以及特征点在边框中的中心度(1个)。如图5所示,这两种参数可以通过不同的卷积处理得到。将用于处理P4的卷积合并在一起,可以看作一个维度为(256×5)的1×1卷积。换句话说,通过256×5的矩阵作为卷积核处理该特征图P4。如此,可以得到通道数为5的卷积结果。针对某个特征点而言,相当于对其相应的256维特征进行全连接,得到5维输出结果,各个维度分别与5个通道对应。在5个通道上一一对应有5个值,其中4个值可以表示当前特征点对应的像素到相应边框的4个边的距离(如通过像素表示的距离,(1,2,3,4)表示到4个边的距离分别为1个像素、2个像素、3个像素、4个像素),另1个值表示该特征点的中心度(border ness)。图5中,边框回归(4)中的4表示4个通道,中心度(1)中的1表示1个通道。
在可能的设计中,针对t个特征图中的单个特征图,执行的卷积操作(如图5示出的卷积操作)可以是预定次数(如3次,可以根据经验值确定)的可变形卷积操作,以进一步增大感受野。可以理解,传统或常规卷积通常基于定义的滤波器(卷积核)大小,在输入图像或特征图的与滤波器大小一致的矩形网格上进行操作。例如网格(卷积核)的大小可以是3×3、5×5等。然而,想要检测和分类的目标可能会在图像中变形或被遮挡。在可变形卷积操作中,网格可以是可变形的,每个网格点都可以通过一个可学习的偏移量(如)移动。卷积作用于这些移动的网格点上,因此称为可变形卷积。
可变形卷积下,相应卷积结果可以为:
目标不一定完全保持统一形态,因此,通过可变形卷积,可以更好地识别目标边界。可选地,可以对特征图做多层的可变形卷积,以提取更多的目标边界信息。
根据每个特征图,都可以得到在待处理图像上的一份目标预测结果。例如,t个特征图分别对应t份目标预测结果。t份目标预测结果可以单独存在,也可以是合并在一起构成目标预测结果。可以理解,预测框的预测结果基于高阶特征图确定,而高阶特征图在细节上不够详细。为此,可以结合步骤302中利用低阶特征图进行的更偏重细节的语义分割结果,确定全景目标识别结果。
进一步地,通过步骤304,融合语义分割结果和目标预测结果,从而完成对待处理图像中的全景目标识别。根据目标预测结果,可以确定待处理图像中各个像素所属的具体目标,根据语义分割结果,可以确定待处理图像中各个像素所属的目标类别。将两者进行综合,可以得到各个像素的以下至少一种属性:目标类别、到目标边界的距离、中心度。
为了得到待处理图像的全景目标识别结果,可以将通过t个特征图得到的目标预测结果中的预测框进行融合。其中,融合方式可以包括但不限于:根据中心度过滤、合并,等等。实践中,由于不同的特征图对应的目标预测结果中的预测框可能重叠,因此,可以将全部的目标预测结果中的预测框一起进行融合。
在一个可选的实现方式中,可以将t份目标框的预测结果中的所有预测的目标框(简称预测框)对应到待处理图像中进行分割操作。可选地,可以按照中心度由大到小的顺序,逐个进行分割。例如,按照相应特征点对应的各个像素,将预测框内属于同一个目标的像素点描绘在与待处理图像大小一致的画布上。可选地,为了展示的醒目和易区分,可以对各个目标对应的像素采用不同的颜色(非待处理图像中相应目标的颜色)来描绘。另外,当两个预测框的重合度(例如通过交并比IOU描述)大于预定重合度阈值时,筛除中心度较小的预测框。可选地,可以针对当前预测框,比较当前预测框与已在画布上描绘的各个预测框的重叠度,在重叠度大于预定阈值的情况下,筛除当前预测框。
在一个可能的实现方式中,可以先按照语义分割结果确定各个预测框对应的目标类别,然后,对各个目标类别下的预测框,按照相应特征点的中心度由大到小的顺序,分别执行分割操作。
考虑到目标与目标之间可能在图像上有重叠,在另一个可选的实现方式中,还可以按照各个预测框对应的目标类别对各个预测框进行归类。并且,分别针对各个目标类别,对相应的预测框进行分割操作。这样,可以确保按照重叠度筛除预测框时,属于不同目标类别的目标有重叠时,不被筛除。在对各种目标类别的预测框分别进行融合后,再将不同目标类别的预测框融合在一起。在一个可选的实施例中,对于不同目标类别的预测框,当两者有重叠时,不删除任一个预测框,而是将重叠部分分配给较小的预测框。例如,一个人拿着一束花在胸前的图像,目标“人”的预测框可能包围目标“花”的预测框。由于目标“花”对应的预测框较小,可以将相应区域保留为花的目标识别结果,其他区域为目标“人”的目标识别区域。这样,可以保证具有图像交叠关系的目标的保留。
其中,语义分割结果包含着各个像素分别对应的目标类别,以及到所属物体中心的距离,因此,可以将语义分割结果看作多通道的语义分割图,单个像素点在各个通道对应的图上具有相应参数。按照语义分割结果确定各个预测框对应的目标类别时,在语义分割图对应的分辨率与特征图大小一致的情况下,可以按照相对应的位置上,语义分割图中描述的像素所属目标类别,确定包围特征图上相应特征点的预测框的类别。在语义分割图对应的分辨率与特征图大小不一致的情况下,假设语义分割图对应的分辨率较大,可以通过将语义分割图进行下采样,得到与特征图分辨率一致大小的下采样结果,并按相应位置确定预测框的目标类别。在下采样结果中,各个点不再对应像素,本说明书中可以称为采样点。
以t份目标预测结果中任一个目标预测结果中的任一个预测框为第一预测框为例,可以将语义分割图进行下采样,得到与第一预测框对应的特征图分辨率一致(如256×256)的第一下采样结果(如大小为256×256×3),然后将第一下采样结果中,与第一预测框对应的特征点位置一致的采样点的目标类别(如256×256×3的第一下采样结果在第3通道上对应的值),作为与第一预测框对应的目标类别。
图7给出一个具体例子的根据预测框进行目标分割过程的示意图。如图7所示,假设目标预测结果中的某个目标类别下得到框1、框2、框3、框4,共4个框,分别对应相应特征图上的特征点的中心度为0.6、0.7、0.8、0.9。图7,假设属于不同目标的像素通过不同形状的图案表示。在进行目标分割过程中,先从中心度(置信度)最大的预测框开始,同时考虑预测框和像素,依次分割各个目标。如图7中,首先根据框4和像素的颜色值,得到框4对应的目标(三角形)的一部分,即图案401。接着,根据相应特征点的中心度为0.8的框3,比较其与框4的重叠度,例如交并比,假设小于预定的重叠度阈值(如0.3),结合像素,得到图案402(框2之外的部分在该分割过程中被放弃)。进一步地,针对相应特征点的中心度为0.7的框2,结合像素颜色特征,得到图形403。对于特征点的中心度为0.6的框1,比较其与框2、框3、框4的重叠度(如交并比),假设大于预定的重叠度阈值(如0.5),则筛除该预测框。如此,可以得到左下角的目标预测结果。可选地,在图7融合各个预测框的过程中,可以构建与待处理图像大小一致的画布,将各个图案按照与待处理图像像素位置对应地映射到画布上。
在可能的实施例中,由于目标在待处理图像中的形状与预测框不同,还可以根据待处理图像中的像素的颜色值(如灰度值或RGB值)等对目标分割结果进行调整。例如,基于目标预测结果,检测语义分割结果中,第二预测框之外距离其边框在预定范围内(如3个像素内)的第一像素的颜色值和/或目标类别,与第二预测框内距离其边框在预定范围内如3个像素内)的第二像素的颜色值和/或目标类别是否一致。在一致的情况下,表示第一像素仍属于第二预测框包围的目标的一部分,可以调整相应预测框,使得第一像素位于该第二预测框内。另一方面,还可以检测第二预测框内的第二像素对应的目标类别是否与第二预测框对应的目标类别一致,在不一致的情况下,表示第二像素可能不属于第二预测框包围的目标的一部分,可以调整相应预测框,使得第二像素位于该第二预测框外。如此,可以得到更加精细的目标分割结果。
在图3示出的流程中,用到的参数可以通过机器学习确定。例如,选择多张图片分别作为各个训练样本,对于各个训练样本,对应有语义标注和实例标注的全景分割标注结果。其中的语义标注结果可以具体到各个像素所述的目标类别。将初始图片按照图3示出的流程进行全景分割,并将分割结果与上述标注结果进行比较,确定分割损失。向损失减小的方向调整所涉及的各个参数,例如包括但不限于各个卷积核、可变形卷积的偏移量、边框回归参数等等中的一项或多项。
根据一个可能的设计,上述的流程中,可以包括3个子任务,边框确定、边框回归、语义分割。对这些多任务损失函数的不同加权方案可能导致非常不同的训练结果。通过实验发现,损失平衡策略,即确保所有损失的规模大致在同一数量级,在实践中效果良好。因此,在确定损失时,可以分别确定这3个子任务的损失,并使得这3个子任务分别对应的损失在同一个量级。在此基础上,向损失减小的方向调整模型参数。
回顾以上过程,本说明书实施例提供的方法,巧妙利用特征金字塔网络,根据高阶特征图和低阶特征图的不同特性,分别进行语义分割和实例分割,从而,在一个网络中实现全景分割,实现了一种轻量级的、计算速度较快的全景分割模式。进一步地,在参数设计合理的情况下,语义分割和实例分割结果具有一致性,从而无需对两种结果做进一步的调整和统一,节约计算资源。
根据另一方面的实施例,还提供一种图像处理的装置。该装置可以设于具有一定计算能力的终端、服务器或计算设备,用于针对待处理图像识别出全景目标。如图8所示,图像处理的装置800可以包括:
特征金字塔处理单元81,配置为利用n层特征金字塔网络处理待处理图像,得到n个分辨率递减的特征图,其中,第m个特征图为对特征金字塔网络第m层卷积结果的金字塔池化结果,第1个特征图至第m-1个特征图中的第r个特征图由第r+1个特征图经过上采样的结果叠加到第r层卷积结果得到,第m+1个特征图至第n个特征图的分辨率基于第m个特征图递减,且其中的第p个特征图基于对第p-1个特征图的卷积操作结果确定,r、n、m、p都是正整数,且n≥p>m,m-1≥r≥1;
语义分割单元82,配置为利用n个特征图中的前s个特征图,对待处理图像进行语义分割处理,得到语义分割结果,s为小于n的正整数;
目标预测单元83,配置为利用n个特征图中的后t个特征图,对待处理图像进行目标框预测,得到目标预测结果,t为小于n的正整数;
融合单元84,配置为融合语义分割结果和目标预测结果,从而完成对待处理图像中的全景目标识别。
在一个实施方式中,特征金字塔处理单元81进一步配置为通过以下方式确定第p个特征图:
针对第p-1个特征图进行卷积操作,得到第p卷积结果;
对第p-1个特征图进行下采样,得到与第p卷积结果的分辨率一致的下采样结果;
将下采样结果叠加到第p卷积结果,从而得到第p个特征图。
在一个实施方式中,语义分割单元82进一步配置为:
针对前s个特征图中的第2至s个特征图,分别进行卷积操作和上采样操作,以得到和第1个特征图分辨率一致的各个上采样结果;
将各个上采样结果与第1个特征图相叠,得到叠层特征图;
对叠层特征图进行卷积操作,使得经过卷积操作处理后,各个像素分别对应有以下属性:所属的目标类别,以及与所属目标中心的偏差。
在一个实施方式中,目标预测单元83进一步配置为:
针对单个特征图,通过以下方式确定与其对应的单份目标框预测结果:
通过第一卷积处理,确定各个特征点分别对应于相应预测框的各个中心度;
通过第二卷积处理,进行边框回归。
根据一个进一步可选的实现方式,预测框为矩形框,矩形框包括两组相对边界,单个特征点与相应预测框的一组相对边界对应有第一距离和第二距离,且第一距离小于第二距离,单个特征点与相应预测框的另一组相对边界对应有第三距离和第四距离,且第三距离小于第四距离,单个特征点的中心度与第一距离和第二距离的比值正相关,且与第三距离和第四距离的比值正相关。
根据一个实施例,目标框预测结果包括多个预测框,融合单元84进一步配置为:
按照语义分割结果确定各个预测框分别对应的各个目标类别;
对各个目标类别下的预测框,分别按照特征点的中心度由大到小的顺序,执行分割操作。
根据一个进一步的实施例,在当前预测框不是中心度最大的预测框的情况下,针对当前预测框,融合单元84还配置为执行以下筛选操作:
比较当前预测框与已在画布上描绘的各个预测框的重叠度;
在重叠度大于预定阈值的情况下,筛除当前预测框。
根据另一个进一步的实施例,语义分割结果包括与第一个特征图分辨率大小一致的语义分割图,多个预测框包括第一预测框,融合单元84还配置为:
将语义分割图进行下采样,得到与第一预测框对应的特征图分辨率一致的第一下采样结果;
将第一下采样结果中,与第一预测框对应的特征点位置一致的采样点的目标类别,确定为与第一预测框对应的目标类别。
根据在一个进一步的实施例,各个预测框包括第二预测框,融合单元84还配置为针对第二预测框执行以下的分割操作:
基于目标预测结果,检测语义分割结果中,第二预测框之外距离其边框在预定范围内的第一像素的颜色值和/或目标类别,与第二预测框内距离其边框在预定范围内的第二像素的颜色值和/或目标类别是否一致;
在第一像素的颜色值和/或目标类别与第二像素的颜色值和/或目标类别一致的情况下,调整相应预测框,使得第一像素位于第二预测框内。
值得说明的是,图8所示的装置800是与图3示出的方法实施例相对应的装置实施例,图3示出的方法实施例中的相应描述同样适用于装置800,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。
Claims (24)
1.一种图像处理的方法,用于针对待处理图像识别出全景目标,所述方法包括:
利用n层特征金字塔网络处理所述待处理图像,得到n个分辨率递减的特征图,其中,第m个特征图为对特征金字塔网络第m层卷积结果的金字塔池化结果,第1个特征图至第m-1个特征图中的第r个特征图由第r+1个特征图经过上采样的结果叠加到第r层卷积结果得到,第m+1个特征图至第n个特征图的分辨率基于第m个特征图递减,且其中的第p个特征图基于对第p-1个特征图的卷积操作结果确定,r、n、m、p都是正整数,且n≥p>m,m-1≥r≥1;
利用所述n个特征图中的前s个特征图,对所述待处理图像进行语义分割处理,得到语义分割结果,s为小于n的正整数,所述语义分割结果指示出各个像素对应的目标类别;
利用所述n个特征图中的后t个特征图,对所述待处理图像基于特征点的中心度和边框回归进行目标框标注,得到目标预测结果,t为小于n,大于n-s的正整数,所述目标预测结果包括多个矩形的预测框,单个预测框对应一个或多个特征点,单个特征点按照相应特征图与所述待处理图像的缩小倍数,对应所述待处理图像上的多个像素点,中心度用于表示单个特征点在相应预测框对应的一个或多个特征点构成的矩形区域中位于中心的程度,并通过相应特征点到该矩形区域的一组相对边或者一组相对角顶点的两个距离的比值确定,边框回归的目标是,使得预测框所包围的像素,在该预测框中的中心度更接近相应特征点在指向该预测框的各个特征点中的中心度;
针对所述目标预测结果中的各个预测框,分别融合所述语义分割结果中相应的若干像素各自对应的目标类别,以得到各个预测框对应的识别目标,从而完成对所述待处理图像中的全景目标识别。
2.根据权利要求1所述的方法,其中,所述第p个特征图通过以下方式确定:
针对第p-1个特征图进行卷积操作,得到第p卷积结果;
对第p-1个特征图进行下采样,得到与所述第p卷积结果的分辨率一致的下采样结果;
将所述下采样结果叠加到第p卷积结果,从而得到所述第p个特征图。
3.根据权利要求1所述的方法,其中,所述利用所述n个特征图中的前s个特征图,对所述待处理图像进行语义分割处理,得到语义分割结果包括:
针对前s个特征图中的第2至s个特征图,分别进行卷积操作和上采样操作,以得到和第1个特征图分辨率一致的各个上采样结果;
将各个上采样结果与所述第1个特征图相叠,得到叠层特征图;
对所述叠层特征图进行卷积操作,使得经过卷积操作处理后,各个像素分别对应有以下属性:所属的目标类别,以及与所属目标中心的偏差。
4.根据权利要求1所述的方法,其中,所述利用所述n个特征图中的后t个特征图,对所述待处理图像基于特征点的中心度和边框回归进行目标框预测,得到目标预测结果包括:
针对单个特征图,通过以下方式确定与其对应的单份目标框预测结果:
通过第一卷积处理,确定各个特征点分别对应于相应预测框的各个中心度;
通过第二卷积处理,进行边框回归。
5.根据权利要求4所述的方法,其中,所述预测框为矩形框,所述矩形框包括两组相对边界,单个特征点与相应预测框的一组相对边界对应有第一距离和第二距离,且第一距离小于第二距离,所述单个特征点与相应预测框的另一组相对边界对应有第三距离和第四距离,且第三距离小于第四距离,所述单个特征点的中心度与第一距离和第二距离的比值正相关,且与第三距离和第四距离的比值正相关。
6.根据权利要求4所述的方法,其中,所述目标框预测结果包括多个预测框,所述融合所述语义分割结果和所述目标预测结果包括:
按照所述语义分割结果确定各个预测框分别对应的各个目标类别;
对各个目标类别下的预测框,分别按照特征点的中心度由大到小的顺序,执行分割操作。
7.根据权利要求6所述的方法,其中,所述分割操作进一步包括:
按照相应特征点对应的各个像素的颜色值,将预测框内对应同一个目标类别的像素描绘在与待处理图像大小一致的画布上。
8.根据权利要求6所述的方法,其中,在当前预测框不是中心度最大的预测框的情况下,针对当前预测框,还执行以下筛选操作:
比较当前预测框与已在画布上描绘的各个预测框的重叠度;
在所述重叠度大于预定阈值的情况下,筛除当前预测框。
9.根据权利要求8所述的方法,所述重叠度通过交并比衡量。
10.根据权利要求6所述的方法,其中,所述语义分割结果包括与第一个特征图分辨率大小一致的语义分割图,所述多个预测框包括第一预测框,所述按照所述语义分割结果确定各个预测框对应的目标类别包括:
将所述语义分割图进行下采样,得到与所述第一预测框对应的特征图分辨率一致的第一下采样结果;
将所述第一下采样结果中,与所述第一预测框对应的特征点位置一致的采样点的目标类别,确定为与所述第一预测框对应的目标类别。
11.根据权利要求4所述的方法,对单个特征图执行的卷积操作包括可变形卷积。
12.根据权利要求6所述的方法,其中,各个预测框包括第二预测框,针对所述第二预测框执行的分割操作还包括:
基于目标预测结果,检测所述语义分割结果中,所述第二预测框之外距离其边框在预定范围内的第一像素的颜色值和/或目标类别,与所述第二预测框内距离其边框在预定范围内的第二像素的颜色值和/或目标类别是否一致;
在第一像素的颜色值和/或目标类别与第二像素的颜色值和/或目标类别一致的情况下,调整相应预测框,使得所述第一像素位于所述第二预测框内。
13.根据权利要求1所述的方法,其中,所述目标预测结果包括,所述待处理图像上,各个像素分别对应的以下至少一种属性:目标类别、到目标边界的距离、中心度。
14.一种图像处理的装置,用于针对待处理图像识别出全景目标,所述装置包括:
特征金字塔处理单元,配置为利用n层特征金字塔网络处理所述待处理图像,得到n个分辨率递减的特征图,其中,第m个特征图为对特征金字塔网络第m层卷积结果的金字塔池化结果,第1个特征图至第m-1个特征图中的第r个特征图由第r+1个特征图经过上采样的结果叠加到第r层卷积结果得到,第m+1个特征图至第n个特征图的分辨率基于第m个特征图递减,且其中的第p个特征图基于对第p-1个特征图的卷积操作结果确定,r、n、m、p都是正整数,且n≥p>m,m-1≥r≥1;
语义分割单元,配置为利用所述n个特征图中的前s个特征图,对所述待处理图像进行语义分割处理,得到语义分割结果,s为小于n的正整数,所述语义分割结果指示出各个像素对应的目标类别;
目标预测单元,配置为利用所述n个特征图中的后t个特征图,对所述待处理图像基于特征点的中心度和边框回归进行目标框标注,得到目标预测结果,t为小于n,大于n-s的正整数,所述目标预测结果包括多个矩形的预测框,单个预测框对应一个或多个特征点,单个特征点按照相应特征图与所述待处理图像的缩小倍数,对应所述待处理图像上的多个像素点,中心度用于表示单个特征点在相应预测框对应的一个或多个特征点构成的矩形区域中位于中心的程度,并通过相应特征点到该矩形区域的一组相对边或者一组相对角顶点的两个距离的比值确定,边框回归的目标是,使得预测框所包围的像素,在该预测框中的中心度更接近相应特征点在指向该预测框的各个特征点中的中心度;
融合单元,配置为针对所述目标预测结果中的各个预测框,分别融合所述语义分割结果中相应的若干像素各自对应的目标类别,以得到各个预测框对应的识别目标,从而完成对所述待处理图像中的全景目标识别。
15.根据权利要求14所述的装置,其中,所述特征金字塔处理单元进一步配置为通过以下方式确定所述第p个特征图:
针对第p-1个特征图进行卷积操作,得到第p卷积结果;
对第p-1个特征图进行下采样,得到与所述第p卷积结果的分辨率一致的下采样结果;
将所述下采样结果叠加到第p卷积结果,从而得到所述第p个特征图。
16.根据权利要求14所述的装置,其中,所述语义分割单元进一步配置为:
针对前s个特征图中的第2至s个特征图,分别进行卷积操作和上采样操作,以得到和第1个特征图分辨率一致的各个上采样结果;
将各个上采样结果与所述第1个特征图相叠,得到叠层特征图;
对所述叠层特征图进行卷积操作,使得经过卷积操作处理后,各个像素分别对应有以下属性:所属的目标类别,以及与所属目标中心的偏差。
17.根据权利要求14所述的装置,其中,所述目标预测单元进一步配置为:
针对单个特征图,通过以下方式确定与其对应的单份目标框预测结果:
通过第一卷积处理,确定各个特征点分别对应于相应预测框的各个中心度;
通过第二卷积处理,进行边框回归。
18.根据权利要求17所述的装置,其中,所述预测框为矩形框,所述矩形框包括两组相对边界,单个特征点与相应预测框的一组相对边界对应有第一距离和第二距离,且第一距离小于第二距离,所述单个特征点与相应预测框的另一组相对边界对应有第三距离和第四距离,且第三距离小于第四距离,所述单个特征点的中心度与第一距离和第二距离的比值正相关,且与第三距离和第四距离的比值正相关。
19.根据权利要求17所述的装置,其中,所述目标框预测结果包括多个预测框,所述融合单元进一步配置为:
按照所述语义分割结果确定各个预测框分别对应的各个目标类别;
对各个目标类别下的预测框,分别按照特征点的中心度由大到小的顺序,执行分割操作。
20.根据权利要求19所述的装置,其中,在当前预测框不是中心度最大的预测框的情况下,针对当前预测框,所述融合单元还配置为执行以下筛选操作:
比较当前预测框与已在画布上描绘的各个预测框的重叠度;
在所述重叠度大于预定阈值的情况下,筛除当前预测框。
21.根据权利要求19所述的装置,其中,所述语义分割结果包括与第一个特征图分辨率大小一致的语义分割图,所述多个预测框包括第一预测框,所述融合单元还配置为:
将所述语义分割图进行下采样,得到与所述第一预测框对应的特征图分辨率一致的第一下采样结果;
将所述第一下采样结果中,与所述第一预测框对应的特征点位置一致的采样点的目标类别,确定为与所述第一预测框对应的目标类别。
22.根据权利要求19所述的装置,其中,各个预测框包括第二预测框,所述融合单元还配置为针对所述第二预测框执行以下的分割操作:
基于目标预测结果,检测所述语义分割结果中,所述第二预测框之外距离其边框在预定范围内的第一像素的颜色值和/或目标类别,与所述第二预测框内距离其边框在预定范围内的第二像素的颜色值和/或目标类别是否一致;
在第一像素的颜色值和/或目标类别与第二像素的颜色值和/或目标类别一致的情况下,调整相应预测框,使得所述第一像素位于所述第二预测框内。
23.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-13中任一项的所述的方法。
24.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010631309.6A CN111524150B (zh) | 2020-07-03 | 2020-07-03 | 图像处理的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010631309.6A CN111524150B (zh) | 2020-07-03 | 2020-07-03 | 图像处理的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111524150A CN111524150A (zh) | 2020-08-11 |
CN111524150B true CN111524150B (zh) | 2021-06-11 |
Family
ID=71911977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010631309.6A Active CN111524150B (zh) | 2020-07-03 | 2020-07-03 | 图像处理的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111524150B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633185B (zh) * | 2020-09-04 | 2023-04-18 | 支付宝(杭州)信息技术有限公司 | 图像处理的方法及装置 |
CN112102302B (zh) * | 2020-09-18 | 2022-04-22 | 深圳市商汤科技有限公司 | 图像识别方法及装置、电子设备和存储介质 |
CN112489064B (zh) * | 2020-12-14 | 2022-03-25 | 桂林电子科技大学 | 一种基于边缘放缩修正的全景分割方法 |
CN112966633B (zh) * | 2021-03-19 | 2021-10-01 | 中国测绘科学研究院 | 一种语义与结构信息双约束的倾斜影像特征点过滤方法 |
CN113052858B (zh) * | 2021-03-23 | 2023-02-14 | 电子科技大学 | 一种基于语义流的全景分割方法 |
CN112699856A (zh) * | 2021-03-24 | 2021-04-23 | 成都新希望金融信息有限公司 | 人脸装饰品识别方法、装置、电子设备及存储介质 |
CN113537004B (zh) * | 2021-07-01 | 2023-09-01 | 大连民族大学 | 图像的双金字塔多元特征提取网络、图像分割方法、***和介质 |
US12014520B2 (en) | 2021-08-26 | 2024-06-18 | Toyota Motor Engineering & Manufacturing North America, Inc. | Systems and methods for detecting objects within an image in a wide-view format |
CN114004839A (zh) * | 2021-10-22 | 2022-02-01 | 影石创新科技股份有限公司 | 全景图像的图像分割方法、装置、计算机设备和存储介质 |
CN115018492A (zh) * | 2022-07-18 | 2022-09-06 | 北京师范大学 | 一种基于人工智能的智慧校园自动结账方法及*** |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10796201B2 (en) * | 2018-09-07 | 2020-10-06 | Toyota Research Institute, Inc. | Fusing predictions for end-to-end panoptic segmentation |
CN111292335B (zh) * | 2018-12-10 | 2023-06-13 | 北京地平线机器人技术研发有限公司 | 一种前景掩模特征图的确定方法、装置及电子设备 |
CN111242954B (zh) * | 2020-01-20 | 2022-05-13 | 浙江大学 | 一种带有双向连接和遮挡处理的全景分割方法 |
-
2020
- 2020-07-03 CN CN202010631309.6A patent/CN111524150B/zh active Active
Non-Patent Citations (1)
Title |
---|
超像素、语义分割、实例分割、全景分割 傻傻分不清楚;计算机视觉life;《https://m.sohu.com/a/278182572_100007727》;20181127;第1-6页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111524150A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111524150B (zh) | 图像处理的方法及装置 | |
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
US10867190B1 (en) | Method and system for lane detection | |
JP2020071862A (ja) | コンピュータビジョンシステム及び方法 | |
CN112016614B (zh) | 光学图像目标检测模型的构建方法、目标检测方法及装置 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN110622177A (zh) | 实例分割 | |
CN109003297A (zh) | 一种单目深度估计方法、装置、终端和存储介质 | |
CN114648640B (zh) | 一种目标物单体化方法、装置、设备及存储介质 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及*** | |
CN115546650A (zh) | 基于yolo-v网络的检测遥感影像中舰船方法 | |
CN109977963B (zh) | 图像处理方法、设备、装置以及计算机可读介质 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN112508989B (zh) | 一种图像处理方法、装置、服务器以及介质 | |
CN112132164B (zh) | 目标检测方法、***、计算机装置及存储介质 | |
CN112802197A (zh) | 动态场景下基于全卷积神经网络的视觉slam方法及*** | |
CN111738040A (zh) | 一种减速带识别方法及*** | |
CN116863194A (zh) | 一种足溃疡图像分类方法、***、设备及介质 | |
CN112070037A (zh) | 基于遥感影像的道路提取方法、装置、介质及设备 | |
CN113592720B (zh) | 图像的缩放处理方法、装置、设备、存储介质 | |
CN115205535A (zh) | 图像处理方法、计算机可读介质及电子设备 | |
CN113177956B (zh) | 一种面向无人机遥感影像的语义分割方法 | |
CN114283148A (zh) | 一种道路元素提取方法、装置、存储介质及电子设备 | |
CN111292331B (zh) | 图像处理的方法与装置 | |
CN115761552B (zh) | 面向无人机机载平台的目标检测方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40035495 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |