CN112053439B - 图像中实例属性信息确定方法、装置、设备及存储介质 - Google Patents

图像中实例属性信息确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112053439B
CN112053439B CN202011042869.4A CN202011042869A CN112053439B CN 112053439 B CN112053439 B CN 112053439B CN 202011042869 A CN202011042869 A CN 202011042869A CN 112053439 B CN112053439 B CN 112053439B
Authority
CN
China
Prior art keywords
image
pixel
detected
determining
building
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011042869.4A
Other languages
English (en)
Other versions
CN112053439A (zh
Inventor
单鼎一
梅树起
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011042869.4A priority Critical patent/CN112053439B/zh
Publication of CN112053439A publication Critical patent/CN112053439A/zh
Application granted granted Critical
Publication of CN112053439B publication Critical patent/CN112053439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像中实例属性信息确定方法、装置、设备及存储介质,所述方法包括:获取待检测图像;对待检测图像进行下采样处理,得到共享特征;对共享特征进行位置偏移量预测处理,得到待检测图像中每个像素的位置偏移量;对共享特征进行高度预测处理,得到待检测图像中每个像素的高度信息;根据共享特征,确定待检测图像中每个像素的融合特征;根据待检测图像中每个像素的融合特征,确定每个实例类别对应的像素集;根据每个实例类别对应的像素集中像素的融合特征、位置偏移量以及高度信息,确定每个实例类别对应实例的属性信息。本申请实现了对图像中的实例进行精确地分割,并准确地预测每个实例的高度与位置偏移量。

Description

图像中实例属性信息确定方法、装置、设备及存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像中实例属性信息确定方法、装置、设备及存储介质。
背景技术
卫星图像建筑物检测往往是基于实例检测算法完成的,首先检测建筑实例顶部,后直接以顶部作为建筑基座,或者分别设计单建筑偏移与高度预测模型。由于卫星角度的不同,在实际场景中很多楼房顶部与底部存在严重的偏移,直接使用顶部作为底部是有严重缺陷的,可能导致建筑物压盖路网或者建筑物落水等,使用多个模型分别预测又费时费力,技术滞后。
现有技术中基于卫星图像的检测任务,业内做法多采用双阶段的目标检测算法mask-rcnn系列,第一阶段为目标实例顶部位置框的粗检测,输出一系列矩形目标框。第二阶段把第一阶段位置框处提取特征作为第二阶段的输入,其中回归分类网络负责对正样本进行类别分类和外接矩形框的精确回归,语义分割网络负责像素级别单实例前背景分割。如要考虑建筑高度与建筑偏移的预测,可在第二阶段设计高度与偏移的属性预测分支。
以经典目标检测算法mask-rcnn为例,并在第二阶段加入高度与偏移预测分支。mask-rcnn可以较好检测房屋顶部位置,但问题在于第二阶段的输入为第一阶段的楼顶目标框,对于高楼与倾斜严重建筑目标,第一阶段的框不能很好的包含目标的全要素(侧立面纹理),导致第二阶段预测的高度与偏移出现严重误差,可见,仅仅使用矩形内部元素进行第二阶段的高度偏移预测是严重缺少纹理信息的。此外如mask-rcnn这种基于候选框的检测算法对于大单体异形建筑的召回率不友好,对预设的候选框尺寸有极大的依赖。
因此,有必要提供一种图像中实例属性信息确定方法、装置、设备及存储介质,从而实现对图像中的实例进行精确地分割,并准确地预测实例的高度与位置偏移量,便于准确地绘制实例地图。
发明内容
本申请提供了一种图像中实例属性信息确定方法、装置、设备及存储介质,可以实现对图像中的实例进行精确地分割,并准确地预测实例的高度与位置偏移量,便于准确地绘制实例地图。
一方面,本申请提供了一种图像中实例属性信息确定方法,所述方法包括:
获取待检测图像,所述待检测图像中包括目标数量的实例;
对所述待检测图像进行下采样处理,得到共享特征;
对所述共享特征进行位置偏移量预测处理,得到所述待检测图像中每个像素的位置偏移量;
对所述共享特征进行高度预测处理,得到所述待检测图像中每个像素的高度信息;
根据所述共享特征,确定所述待检测图像中每个像素的融合特征;
根据所述待检测图像中每个像素的融合特征,确定每个实例类别对应的像素集;
根据每个实例类别对应的像素集中像素的融合特征、位置偏移量以及高度信息,确定每个实例类别对应实例的属性信息。
另一方面提供了一种图像中实例属性信息确定装置,所述装置包括:
待检测图像获取模块,用于获取待检测图像,所述待检测图像中包括目标数量的实例;
共享特征确定模块,用于对所述待检测图像进行下采样处理,得到共享特征;
位置偏移量确定模块,用于对所述共享特征进行位置偏移量预测处理,得到所述待检测图像中每个像素的位置偏移量;
高度信息确定模块,用于对所述共享特征进行高度预测处理,得到所述待检测图像中每个像素的高度信息;
融合特征确定模块,用于根据所述共享特征,确定所述待检测图像中每个像素的融合特征;
像素集确定模块,用于根据所述待检测图像中每个像素的融合特征,确定每个实例类别对应的像素集;
属性信息确定模块,用于根据每个实例类别对应的像素集中像素的融合特征、位置偏移量以及高度信息,确定每个实例类别对应实例的属性信息。
另一方面提供了一种图像中实例属性信息确定设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的图像中实例属性信息确定方法。
另一方面提供了一种计算机存储介质,所述计算机存储介质存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如上所述的图像中实例属性信息确定方法。
本申请提供的图像中实例属性信息确定方法、装置、设备及存储介质,具有如下技术效果:
本申请通过对包括目标数量实例的待检测图像进行下采样处理,得到共享特征,然后根据共享特征分别确定待检测图像中每个像素的位置偏移量、高度信息以及融合特征信息,最后确定出每个实例的属性信息;实现了对图像中的实例进行精确地分割,并准确地预测每个实例的高度与位置偏移量,便于准确地绘制实例地图。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种图像中实例属性信息确定***的示意图;
图2是本申请实施例提供的一种图像中实例属性信息确定方法的流程示意图;
图3是本申请实施例提供的一种根据所述共享特征,确定所述待检测图像中每个像素的融合特征的方法的流程示意图;
图4是本申请实施例提供的一种确定语义分支网络、实例分支网络、第一回归分支网络、第二回归分支网络的方法的流程示意图;
图5是本申请实施例提供的确定每个实例类别对应实例的属性信息的方法的流程示意图;
图6是本申请实施例提供的一种网络框架结构示意图;
图7是本申请实施例提供的建筑物楼顶的预测结果示意图;
图8是本申请实施例提供的建筑物楼底座的预测结果示意图;
图9是本申请实施例提供的一种图像中实例属性信息确定装置的结构示意图;
图10是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。
具体地,本申请实施例提供的方案涉及人工智能的机器学习领域。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。本申请通过机器学习模型对图像中的大量实例进行自动化分割,并准确得到图像中各实例的高度信息与位置偏移量。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请实施例提供的一种图像中实例属性信息确定***的示意图,如图1所示,该图像中实例属性信息确定***可以至少包括服务器01和客户端02。
具体的,本说明书实施例中,所述服务器01可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器01可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器01可以用于确定图像中实例的属性信息。
具体的,本说明书实施例中,所述客户端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备,也可以包括运行于实体设备中的软体,例如一些服务商提供给用户的网页页面,也可以为该些服务商提供给用户的应用。具体的,所述客户端02可以用于展示所述待检测图像中每个实例对应的图像。
以下介绍本申请的一种图像中实例属性信息确定方法,图2是本申请实施例提供的一种图像中实例属性信息确定方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S201:获取待检测图像,待检测图像中包括目标数量的实例。
在本说明书实施例中,待检测图像中可以包括数量众多的实例,目标数量可以大于2,图像中实例之间的结构相似、属性相同;同一图像中的实例属于同一类别,实例可以为待检测图像中稠密、细小的实物,例如实例可以为建筑物或车辆等,目标数量可以设置为大于预设数量。待检测图像中每个实例的结构相似,根据待检测图像绘制地图时,需要将待检测图像中的实例分割开,并获取每个实例的尺寸、位置等特征。当实例为具有一定高度的物体时,例如当实例为建筑物时,还需要获取每个实例的高度信息以及底座位置信息。
S203:对待检测图像进行下采样处理,得到共享特征。
在本说明书实施例中,对待检测图像进行下采样处理,得到共享特征可以包括:
S2031:提取待检测图像的边缘纹理特征集;
在本说明书实施例中,边缘纹理特征集可以包括多个边缘纹理特征,边缘纹理特征为深度学习网络的底层特征,即为前层网络的特征图,边缘纹理特征的可视化表示通常为点、线、面、角。可以通过底层卷积层提取所述待检测图像的边缘纹理特征集,即通过多次卷积、池化操作提取待检测图像的边缘纹理特征集。
S2033:根据待检测图像的边缘纹理特征集,确定边缘纹理结合特征;
在本说明书实施例中,深度学习是一个逐步抽象的过程,由底层边缘纹理特征组合抽象化为中层特征,即实例局部特征,再由实例局部信息抽象化为实例整体特征,即边缘纹理结合特征,进而进行实例类别学习。
在本说明书实施例中,通过中、高层卷积层对所述待检测图像的边缘纹理特征进行结合,得到边缘纹理结合特征;即可以通过多次卷积、池化操作,将边缘纹理特征进行融合,得到边缘纹理结合特征;例如在得到待检测图像中实例的点、线、面、角之后,通过中层卷积层确定待检测图像中实例的局部特征,再通过高层卷积层对实例的局部特征进一步卷积、池化,确定待检测图像中实例的整体特征,即边缘纹理结合特征,从而进行实例类别学习。
S2035:对边缘纹理结合特征进行归一化正态分布处理,得到归一化特征;
S2037:对归一化特征进行非线性映射处理,得到共享特征。
在本说明书实施例中,可以通过底层卷积层提取待检测图像的边缘纹理特征集;通过高层卷积层对待检测图像的边缘纹理特征进行结合,得到边缘纹理结合特征;通过归一化层对边缘纹理结合特征进行归一化正态分布处理,得到归一化特征;再通过激活层对归一化特征进行非线性映射处理,得到共享特征。
在本说明书实施例中,通过下采样处理,可以得到待检测图像的共享特征,共享特征可以用于进行语义分割、实例分析处理,还可以通过共享特征确定待检测图像中每个像素的位置偏移量以及高度信息。
在本说明书实施例中,下采样表示为深度学习的逐步深入的过程,底层,中层,高层信息就是分别通过多次卷积,池化等操作实现的。其中卷积和池化都有尺度变小的作用。如图6中04所示的下采样处理过程,从底层到中层再到高层卷积层的多次卷积、池化操作过程中,深度特征的尺度逐步变小,通道数逐步增多,例如图像从256(长)*256(宽)*3(通道数)变成了128(长)*128*(宽)*20(通道数),长宽均缩小了,通道数增加了。
在一个具体的实施例中,待检测图像可以为建筑物图像,其中实例为建筑物,该图像包括上千个建筑物实例,底层卷积层提取特征即图像的边缘纹理特征集为建筑物的边、点、线、角;中层卷积层提取特征为建筑物的局部特征,如一个建筑物的顶部特征、底座特征、高度特征等;高层卷积层提取特征即边缘纹理结合特征,为建筑物的整体特征。
S205:对共享特征进行位置偏移量预测处理,得到待检测图像中每个像素的位置偏移量。
具体的,在本说明书实施例中,待检测图像中的实例可以为具有一定高度的物体;该物体的底部轮廓与顶部轮廓相同;例如,该实例可以为底部轮廓与顶部轮廓相同的建筑物;在实际检测过程中,待检测图像中仅能显示实例的顶部轮廓,无法完整显示该实例的底部轮廓;此时,需要根据实例的顶部轮廓来确定其底部轮廓;而获取的待检测图像中实例的顶部轮廓与底部轮廓相比,通常具有一定的偏移,因此,如果需要获取待检测图像中实例的底部轮廓,不仅要获取每个实例的顶部轮廓尺寸、位置信息,还要获取其位置偏移量。本说明书实施例中得到待检测图像中每个像素的位置偏移量实质为得到待检测图像目标区域中每个像素的位置偏移量,目标区域为待检测图像中每个实例的顶部轮廓区域,通过每个实例的顶部轮廓位置偏移量,即可确定每个实例的底部(底座)位置。
在本说明书实施例中,对共享特征进行位置偏移量预测处理,得到待检测图像中每个像素的位置偏移量可以包括:
通过第一回归分支网络对共享特征进行位置偏移量预测处理,得到待检测图像中每个像素的位置偏移量。
具体的,在本说明书实施例中,每个像素的位置偏移量是指每个像素在x、y方向的偏移矢量,非前景或者无偏移矢量预测指导值为0。第一回归分支网络采用特征金字塔FPN进行特征融合,其使用L2最小平方损失作为回归任务的指导函数。
S207:对共享特征进行高度预测处理,得到待检测图像中每个像素的高度信息。
在本说明书实施例中,对共享特征进行高度预测处理,得到待检测图像中每个像素的高度信息包括:
通过第二回归分支网络对共享特征进行高度预测处理,得到待检测图像中每个像素的高度信息。
具体的,在本说明书实施例中,可以通过获取待检测图像中每个像素的高度信息,确定待检测图像中每个实例对应的高度信息。
具体的,在本说明书实施例中,当实例为建筑物时,在手机地图应用程序等平台,不仅仅需要背景数据的二维空间位置关系,经常也需要三维立体可视化图,因此,建筑物的空间高度也是一个必不可少的要素。第二回归分支网络采用特征金字塔FPN进行特征融合,该分支网络设计为回归学习网络,使用L1绝对值损失作为回归任务的指导函数。
S209:根据共享特征,确定待检测图像中每个像素的融合特征。
在本说明书实施例中,如图3所示,根据共享特征,确定待检测图像中每个像素的融合特征可以包括:
S2091:对所述共享特征进行语义分割处理,得到所述待检测图像中每个像素的语义特征;
具体的,在本说明书实施例中,语义特征可以包括待检测图像的背景特征和前景特征。
具体的,在本说明书实施例中,对所述共享特征进行语义分割处理,得到所述待检测图像中每个像素的语义特征可以包括:
采用连通域分区域聚类方法对共享特征进行语义分割处理,得到待检测图像中每个像素语义特征,所述语义特征为背景特征或前景特征。
在本说明书实施例中,采用连通域分区域聚类方法对共享特征进行语义分割处理,得到待检测图像中每个像素语义特征的步骤之后,方法还包括:
确定待检测图像的背景特征的第一掩码以及前景特征的第二掩码。
在本说明书实施例中,可以通过连通域分区域聚类方法确定待检测图像的背景特征和前景特征,并生成前景特征和背景特征对应的掩码,例如前景特征的掩码可以设置为1,背景特征的掩码可以设置为0,从而区分出前景与背景。
在本说明书实施例中,对所述共享特征进行语义分割处理,得到所述待检测图像中每个像素的语义特征包括:
通过语义分支网络对所述共享特征进行语义分割处理,得到所述待检测图像中每个像素的语义特征。
在本说明书实施例中,语义分支网络可以包括多个上采样模块,采用特征金字塔FPN(Feature Pyramid Networks)策略,可以通过多个上采样模块对所述共享特征进行反卷积层操作,每个上采样模块均进行反卷积操作,实现尺寸放大;提供更上层上采样融合必要的特征信息。每个上采样模块的输入不仅来自于前一个上采样模块的输出特征,还来自于下采样处理中对应的相同尺寸的共享特征层,为更好的融合特征信息,模块内部会将两种特征进行加和,并进行卷积操作实现信息融合,进行图像前景与背景的预测,得到语义特征。
在本说明书实施例中,二值图像的亮度值只有两个状态:黑(0)和白(255)。在实际应用中,很多图像的分析最终都转换为二值图像的分析,比如:图像的前景检测;二值图像分析最重要的方法就是连通区域标记,它是所有二值图像分析的基础,它通过对二值图像中白色像素(目标)的标记,让每个单独的连通区域形成一个被标识的块,进一步的我们就可以获取这些块的轮廓、外接矩形、质心、不变矩等几何参数。在图像中,最小的单位是像素,每个像素周围有8个邻接像素,常见的邻接关系有2种:4邻接与8邻接。4邻接一共4个点,即上下左右。8邻接的点一共有8个,包括了对角线位置的点,在视觉上看来,彼此连通的点形成了一个区域,而不连通的点形成了不同的区域。所有的彼此连通点构成的集合,称为一个连通区域。本申请的连通域分区域聚类方法可以将图像的前景与背景分割开;当实例为建筑物时,前景即为建筑物。
S2093:对共享特征进行实例分析处理,得到待检测图像中每个像素的实例特征。
具体的,在本说明书实施例中,实例特征可以包括所述待检测图像中每个像素的纹理特征。
在本说明书实施例中,所述纹理特征可以采用固定维数(例如8维)的特征向量来表征。
在本说明书实施例中,对共享特征进行实例分析处理,得到待检测图像中每个像素的实例特征可以包括:
通过实例分支网络对共享特征进行实例分析处理,得到实例特征。
具体的,在本说明书实施例中,实例特征还可以包括所述待检测图像中每个像素的纹理特征和空间位置特征。
在本说明书实施例中,可以通过多个上采样模块对所述共享特征进行反卷积层操作,每个上采样模块均进行反卷积操作,实现尺寸放大;提供更上层上采样融合必要的特征信息。每个上采样模块的输入不仅来自于前一个上采样模块的输出特征,还来自于下采样处理中对应的相同尺寸(面积)的共享特征层,为更好的融合特征信息,模块内部会将两种特征进行加和,并进行卷积操作实现信息融合,对图像中的像素特征进行学习,得到实例特征。实例分支网络的训练过程中使用聚类损失,计算实例损失环节每个像素都有对应的实例标签。所述实例特征包括所述待检测图像中每个像素的空间位置特征,像素的空间位置特征可以采用像素的二维空间坐标表征。空间位置特征可以体现像素之间的空间地域差异,从而提升了相邻像素的特征相似度,同时增大了相距较远的像素之间的空间差异性,可以避免将不同实例的像素进行聚类。
在本说明书实施例中,像素的纹理特征可以采用八维的特征向量表征;此时,实例特征采用十维的特征向量表征,后二维为像素对应的空间坐标;从而可以区别不同实例之间的纹理差别和空间地域差别。
在本说明书实施例中,通过语义分支网络对所述共享特征进行语义分割处理,得到所述待检测图像中每个像素的语义特征的步骤之前,如图4所示,方法还可以包括:
S401:构建第一网络的交叉熵损失函数;
S403:构建第二网络的类内聚合度损失函数与类间区别度损失函数;
S405:构建第三网络的平方误差损失函数;
S407:构建第四网络的绝对值损失函数;
S409:将交叉熵损失函数、类内聚合度损失函数、类间区别度损失函数、平方误差损失函数与绝对值损失函数之和确定为综合损失函数;
S4011:分别调整第一网络、第二网络、第三网络、第四网络的参数,得到当前第一网络、当前第二网络、当前第三网络与当前第四网络;
S4013:计算当前第一网络、当前第二网络、当前第三网络、当前第四网络对应的综合损失值;
S4015:当综合损失值小于预设阈值时,将当前第一网络确定为语义分支网络,将当前第二网络确定为实例分支网络,将当前第三网络确定为第一回归分支网络、将当前第四网络确定为第二回归分支网络。
在本说明书实施例中,方法还可以包括:
S4017:当综合损失值大于或等于预设阈值时,重复步骤:分别调整第一网络、第二网络、第三网络、第四网络的参数,得到当前第一网络、当前第二网络、当前第三网络与当前第四网络。
在本说明书实施例中,预设阈值可以根据实际情况进行设置。在语义分支网络的训练过程中,需要为训练图像中每个像素标注语义标签,所述语义标签包括前景标签和背景标签;在实例分支网络的训练过程中,需要为训练图像中每个像素标注特征标签,所述特征标签可以包括纹理特征和空间位置特征。
在本说明书实施例中,第一网络的交叉熵损失函数可以为:
Figure BDA0002707157360000121
其中,pi为预测概率,yi为类别标签(0,1),N为特征的数量。
第二网络的类内聚合度损失函数可以为:
Figure BDA0002707157360000131
其中,CC为训练图像中的实例数,δv为类内惩罚因子,μc为某个类内特征的平均值,xi为某个像素特征;
第二网络的类间区别度损失函数可以为:
Figure BDA0002707157360000132
其中,CC为训练图像中的实例数,δd为类间惩罚因子,μca,μcb为某个类内特征的平均值。
在本说明书实施例中,第三网络的平方误差损失函数可以为:
Figure BDA0002707157360000133
其中,
Figure BDA0002707157360000134
为第i个实例的位置偏移量预测值,yi为第i个实例的位置偏移量真实值,n为训练图像中的实例数。
在本说明书实施例中,第四网络的绝对值损失函数可以为:
Figure BDA0002707157360000135
其中,
Figure BDA0002707157360000136
为第i个实例的高度预测值,yi为第i个实例的高度真实值,n为训练图像中的实例数。
在本说明书实施例中,第一网络、第二网络、第三网络、第四网络均在同一深度学习网络中,本实施例的方法还可以包括:
构建深度学习网络的正则化损失函数。
具体的,在本说明书实施例中,将交叉熵损失函数、类内聚合度损失函数、类间区别度损失函数、平方误差损失函数与绝对值损失函数之和确定为综合损失函数可以包括:
将交叉熵损失函数、类内聚合度损失函数、类间区别度损失函数、平方误差损失函数、绝对值损失函数与正则化损失函数确定为综合损失函数。
在本说明书实施例中,正则化损失函数可以为L1正则化函数或L2正则化函数,在计算综合损失函数时,引入正则化损失函数,可以防止网络对应的模型过拟合,提高模型的泛化能力。
在本说明书实施例中,所述深度学习网络可以为U-Net网络,U-Net网络是一个经典的全卷积网络(即网络中没有全连接操作)。网络的输入是一张边缘经过镜像操作的图片;网络的左侧是由卷积和Max Pooling构成的一系列降采样操作,这一部分称为压缩路径(contracting path)。压缩路径由4个block组成,每个block使用了3个有效卷积和1个最大池化(Max Pooling)降采样,每次降采样之后特征图(Feature Map)的个数乘2;网络的右侧部分为扩展路径(expansive path)。同样由4个block组成,每个block开始之前通过反卷积将Feature Map的尺寸乘2,同时将其个数减半(最后一层略有不同),然后和左侧对称的压缩路径的Feature Map合并,由于左侧压缩路径和右侧扩展路径的Feature Map的尺寸不一样,U-Net是通过将压缩路径的Feature Map裁剪到和扩展路径相同尺寸的Feature Map进行归一化的。扩展路径的卷积操作依旧使用的是有效卷积操作。
S2095:将待检测图像中每个像素的语义特征与实例特征进行融合,确定待检测图像中每个像素的融合特征。
在本说明书实施例中,将所述语义特征与所述实例特征进行融合,确定所述待检测图像中每个像素的融合特征可以包括:
S20951:将所述待检测图像的背景特征的第一掩码与所述待检测图像中背景对应像素的纹理特征、空间位置特征进行融合,得到第一融合结果;
S20953:将所述待检测图像的前景特征的第二掩码与所述待检测图像中前景对应像素的纹理特征、空间位置特征进行融合,得到第二融合结果;
S20955:根据所述第一融合结果与所述第二融合结果,确定所述待检测图像中每个像素的融合特征。
在本说明书实施例中,采用连通域分区域聚类与空间位置特征融合策略,一方面可以保证不同区域内像素不会聚类为一个类别,另一方面加快了聚类的速度。
S2011:根据待检测图像中每个像素的融合特征,确定每个实例类别对应的像素集。
在本说明书实施例中,根据待检测图像中每个像素的融合特征,确定每个实例类别对应的像素集包括:
S20111:根据待检测图像中每个像素的融合特征,确定待检测图像中每个像素的实例类别;
S20113:通过密度聚类算法,确定每个实例类别对应的像素集。
在本说明书实施例中,基于密度的聚类方法是以数据集在空间分布上的稠密度为依据进行聚类,无需预先设定簇的数量,因此特别适合对于未知内容的数据集进行聚类。而代表性算法有:DBSCAN,OPTICS。以DBSCAN算法举例,DBSCAN目的是找到密度相连对象的最大集合。基于密度聚类的经典算法DBSCAN(Density-Based Spatial Clustering ofApplication with Noise,具有噪声的基于密度的空间聚类应用)是一种基于高密度连接区域的密度聚类算法。
DBSCAN的基本算法流程如下:从任意对象P开始根据阈值和参数通过广度优先搜索提取从P密度可达的所有对象,得到一个聚类。若P是核心对象,则可以一次标记相应对象为当前类,并以此为基础进行扩展。得到一个完整的聚类后,再选择一个新的对象重复上述过程。若P是边界对象,则将其标记为噪声并舍弃。
具体的,在本说明书实施例中,密度聚类后的实例通过适当的矢量化算法即可生成由少量点构成的实例多边形;实例对应的图像可以为多边形结构;在显示界面的触发操作可以为用户在显示界面的滑动、点击或拖动或其他操作,例如可以点击显示界面中的“图像预览”,构建并展示待检测图像中每个实例对应的图像,图像中的实例是相互分割开的。
在本说明书实施例中,通过密度聚类算法,确定每个实例类别对应的像素集的步骤之后,所述方法还可以包括:
向终端发送每个实例类别对应的像素集;以使终端响应于在显示界面的操作,构建并展示待检测图像中每个实例对应的图像。
具体的,在本说明书实施例中,图像中实例可以采用不同的颜色进行标识,便于用户区分图像中不同的实例;终端中可以包括地图应用程序,地图应用程序可以响应于在显示界面的操作,构建并展示待检测图像中每个实例对应的图像;从而直观地向用户展示待检测图像对应的地图信息。
S2013:根据每个实例类别对应的像素集中像素的融合特征、位置偏移量以及高度信息,确定每个实例类别对应实例的属性信息。
在本说明书实施例中,如图5所示,根据每个实例类别对应的像素集中像素的融合特征、位置偏移量以及高度信息,确定每个实例类别对应实例的属性信息包括:
S20131:根据每个实例类别对应的像素集中像素的融合特征,确定每个实例类别对应实例的融合特征。
S20133:根据每个实例类别对应的像素集中像素的位置偏移量,确定每个实例类别对应实例的位置偏移量。
在本说明书实施例中,实例的属性信息可以包括实例的融合特征、位置偏移量、高度信息等。
具体的,在本说明书实施例中,根据每个实例类别对应的像素集中像素的位置偏移量,确定每个实例类别对应实例的位置偏移量包括:
将每个实例类别对应的像素集中各个像素的位置偏移量按照从小到大进行排序;
将各个像素的位置偏移量中的中位数确定为每个实例类别对应实例的位置偏移量。
S20135:根据每个实例类别对应的像素集中像素的高度信息,确定每个实例类别对应实例的高度信息。
具体的,在本说明书实施例中,根据每个实例类别对应的像素集中像素的高度信息,确定每个实例类别对应实例的高度信息包括:
将每个实例类别对应的像素集中各个像素的高度信息按照从小到大进行排序;
将各个像素的高度信息中的中位数确定为每个实例类别对应实例的高度信息。
在本说明书实施例中,可以将每个实例对应像素集中位置偏移量中位数作为实例的位置偏移量,将每个实例对应像素集中高度中位数作为实例的高度,从而实现对实例的位置偏移量与高度信息的准确预测。
在本说明书实施例中,确定每个实例类别对应实例的属性信息的步骤之后,本实施例的方法还可以包括:
根据每个实例类别对应实例的属性信息,构建待检测图像中每个实例对应的图像。
在本说明书实施例中,确定每个实例类别对应实例的属性信息的步骤之后,本实施例的方法还可以包括:
向终端发送每个实例类别对应实例的属性信息;以使终端响应于在显示界面的操作,构建并展示待检测图像中每个实例对应的图像。
具体的,在本说明书实施例中,图像中实例可以采用不同的颜色进行标识,便于用户区分图像中不同的实例;终端中可以包括地图应用程序,地图应用程序可以响应于在显示界面的操作,构建并展示待检测图像中每个实例对应的图像;从而直观地向用户展示待检测图像对应的地图信息。
在一个具体的实施例中,本申请的方法对应的网络框架如图6所示,分为特征提取下采样、语义特征提取分支、实例特征提取分支、位置偏移量预测分支、高度预测分支与实例聚类(clustering)六个部分。
该网络框架对应模型即为实例分割图像确定模型;在应用过程中,将待检测图像直接输入所述实例分割图像确定模型,即可得到输出的实例分割图像。具体的,首先下采样处理网络04对待检测图像03进行处理,得到共享特征;然后将共享特征分别输入实例分支网络05、语义分支网络06、第一回归分支网络07、第二回归分支网络08中,得到实例特征图09、语义特征图10;再根据实例特征图09和语义特征图10得到实例中像素聚类图11,最后根据实例中像素聚类图11以及第一回归分支网络07输出的位置偏移量、第二回归分支网络08输出的高度信息,得到实例分割图像12。
在一个具体的实施例中,对建筑物楼顶的预测结果示意图如图7所示,图7中的矩形框13区域均为楼顶轮廓,对建筑物楼底座的预测结果示意图如图8所示,图8中的矩形框14均为楼底座轮廓;采用本申请的方法对全国top50城市的建筑物进行测试,常规楼房区域楼顶预测的准确率达到97%,常规楼房区域楼底座预测的准确率达到95%。相比于现有的人工标注方法,本实施例的方法得到地图数据的效率提升了10倍。
由以上本说明书实施例提供的技术方案可见,本说明书实施例通过对包括目标数量实例的待检测图像进行下采样处理,得到共享特征,然后根据共享特征分别确定待检测图像中每个像素的位置偏移量、高度信息以及融合特征信息,最后确定出每个实例的属性信息;实现了对图像中的实例进行精确地分割,并准确地预测每个实例的高度与位置偏移量,便于准确地绘制实例地图。
本申请实施例还提供了一种图像中实例属性信息确定装置,如图9所示,装置包括:
待检测图像获取模块910,用于获取待检测图像,所述待检测图像中包括目标数量的实例;
共享特征确定模块920,用于对所述待检测图像进行下采样处理,得到共享特征;
位置偏移量确定模块930,用于对所述共享特征进行位置偏移量预测处理,得到所述待检测图像中每个像素的位置偏移量;
高度信息确定模块940,用于对所述共享特征进行高度预测处理,得到所述待检测图像中每个像素的高度信息;
融合特征确定模块950,用于根据所述共享特征,确定所述待检测图像中每个像素的融合特征;
像素集确定模块960,用于根据所述待检测图像中每个像素的融合特征,确定每个实例类别对应的像素集;
属性信息确定模块970,用于根据每个实例类别对应的像素集中像素的融合特征、位置偏移量以及高度信息,确定每个实例类别对应实例的属性信息。
在一些实施例中,融合特征确定模块可以包括:
像素的语义特征确定单元,用于对共享特征进行语义分割处理,得到待检测图像中每个像素的语义特征;
像素的实例特征确定单元,用于对所述共享特征进行实例分析处理,得到所述待检测图像中每个像素的实例特征;
像素的融合特征确定单元,用于将所述待检测图像中每个像素的语义特征与实例特征进行融合,确定所述待检测图像中每个像素的融合特征。
在一些实施例中,装置还可以包括:
图像构建模块,用于根据所述每个实例类别对应实例的属性信息,构建所述待检测图像中每个实例对应的图像。
在一些实施例中,属性信息确定模块可以包括:
实例的融合特征确定单元,用于根据每个实例类别对应的像素集中像素的融合特征,确定每个实例类别对应实例的融合特征;
实例的位置偏移量确定单元,用于根据每个实例类别对应的像素集中像素的位置偏移量,确定每个实例类别对应实例的位置偏移量;
实例的高度信息确定单元,用于根据每个实例类别对应的像素集中像素的高度信息,确定每个实例类别对应实例的高度信息。
在一些实施例中,像素的语义特征确定单元可以包括:
语义特征确定子单元,用于通过语义分支网络对所述共享特征进行语义分割处理,得到所述待检测图像中每个像素的语义特征。
在一些实施例中,像素的实例特征确定单元可以包括:
像素的实例特征确定子单元,用于通过实例分支网络对所述共享特征进行实例分析处理,得到实例特征。
在一些实施例中,位置偏移量确定模块可以包括:
位置偏移量确定单元,用于通过第一回归分支网络对所述共享特征进行位置偏移量预测处理,得到所述待检测图像中每个像素的位置偏移量;
在一些实施例中,高度信息确定模块可以包括:
高度信息确定单元,用于通过第二回归分支网络对所述共享特征进行高度预测处理,得到所述待检测图像中每个像素的高度信息。
在一些实施例中,装置还可以包括:
第一函数构建模块,用于构建第一网络的交叉熵损失函数;
第二函数构建模块,用于构建第二网络的类内聚合度损失函数与类间区别度损失函数;
第三函数构建模块,用于构建第三网络的平方误差损失函数;
第四函数构建模块,用于构建第四网络的绝对值损失函数;
综合损失函数确定模块,用于将所述交叉熵损失函数、所述类内聚合度损失函数、所述类间区别度损失函数、所述平方误差损失函数与所述绝对值损失函数之和确定为综合损失函数;
参数调整模块,用于分别调整所述第一网络、所述第二网络、所述第三网络、所述第四网络的参数,得到当前第一网络、当前第二网络、当前第三网络与当前第四网络;
综合损失值计算模块,用于计算所述当前第一网络、所述当前第二网络、所述当前第三网络、所述当前第四网络对应的综合损失值;
网络确定模块,用于当所述综合损失值小于预设阈值时,将所述当前第一网络确定为所述语义分支网络,将所述当前第二网络确定为所述实例分支网络,将所述当前第三网络确定为所述第一回归分支网络、将所述当前第四网络确定为所述第二回归分支网络。
在一些实施例中,像素集确定模块可以包括:
实例类别确定模块,用于根据所述待检测图像中每个像素的融合特征,确定所述待检测图像中每个像素的实例类别;
像素集确定模块,用于通过密度聚类算法,确定每个实例类别对应的像素集。
装置实施例中的装置与方法实施例基于同样地发明构思。
本申请实施例提供了一种图像中实例属性信息确定设备,该设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的图像中实例属性信息确定方法。
本申请的实施例还提供了一种计算机存储介质,存储介质可设置于终端之中以保存用于实现方法实施例中一种图像中实例属性信息确定方法相关的至少一条指令或至少一段程序,该至少一条指令或至少一段程序由该处理器加载并执行以实现上述方法实施例提供的图像中实例属性信息确定方法。
可选地,在本说明书实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书实施例存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的图像中实例属性信息确定方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图10是本申请实施例提供的一种图像中实例属性信息确定方法的服务器的硬件结构框图。如图10所示,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(Central Processing Units,CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030,一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中,存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1020通信,在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1040,和/或,一个或一个以上操作***1021,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中,输入输出接口1040包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1040可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1000还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
由上述本申请提供的图像中实例属性信息确定方法、装置、服务器或存储介质的实施例可见,本申请通过对包括目标数量实例的待检测图像进行下采样处理,得到共享特征,然后根据共享特征分别确定待检测图像中每个像素的位置偏移量、高度信息以及融合特征信息,最后确定出每个实例的属性信息;实现了对图像中的实例进行精确地分割,并准确地预测每个实例的高度与位置偏移量,便于准确地绘制实例地图。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种图像中实例属性信息确定方法,其特征在于,所述方法包括:
获取待检测图像,所述待检测图像中包括目标数量的建筑实例;
对所述待检测图像进行下采样处理,得到共享特征;
对所述共享特征进行位置偏移量预测处理,得到所述待检测图像的目标区域中每个像素的位置偏移量;所述目标区域为所述待检测图像中每个建筑实例的顶部轮廓区域,所述目标区域中每个像素的位置偏移量用于确定所述每个建筑实例的底部轮廓;每个建筑实例的底部轮廓与顶部轮廓的形状相同;所述每个像素的位置偏移量表征每个像素对应的建筑实例的顶部轮廓相对于底部轮廓的偏移量;每个建筑实例的底部轮廓区域基于每个建筑实例对应的顶部轮廓区域以及位置偏移量确定;
对所述共享特征进行高度预测处理,得到所述待检测图像中每个像素的高度信息;
根据所述共享特征,确定所述待检测图像中每个像素的融合特征;
根据所述待检测图像中每个像素的融合特征,确定每个建筑实例类别对应的像素集;
根据每个建筑实例类别对应的像素集中像素的融合特征、位置偏移量以及高度信息,确定每个建筑实例类别对应建筑实例的属性信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述共享特征,确定所述待检测图像中每个像素的融合特征包括:
对所述共享特征进行语义分割处理,得到所述待检测图像中每个像素的语义特征;
对所述共享特征进行建筑实例分析处理,得到所述待检测图像中每个像素的建筑实例特征;
将所述待检测图像中每个像素的语义特征与建筑实例特征进行融合,确定所述待检测图像中每个像素的融合特征。
3.根据权利要求1所述的方法,其特征在于,所述确定每个建筑实例类别对应建筑实例的属性信息的步骤之后,所述方法还包括:
根据所述每个建筑实例类别对应建筑实例的属性信息,构建所述待检测图像中每个建筑实例对应的图像。
4.根据权利要求1所述的方法,其特征在于,所述根据每个建筑实例类别对应的像素集中像素的融合特征、位置偏移量以及高度信息,确定每个建筑实例类别对应建筑实例的属性信息包括:
根据每个建筑实例类别对应的像素集中像素的融合特征,确定每个建筑实例类别对应建筑实例的融合特征;
根据每个建筑实例类别对应的像素集中像素的位置偏移量,确定每个建筑实例类别对应建筑实例的位置偏移量;
根据每个建筑实例类别对应的像素集中像素的高度信息,确定每个建筑实例类别对应建筑实例的高度信息。
5.根据权利要求2所述的方法,其特征在于,所述对所述共享特征进行语义分割处理,得到所述待检测图像中每个像素的语义特征包括:
通过语义分支网络对所述共享特征进行语义分割处理,得到所述待检测图像中每个像素的语义特征;
所述对所述共享特征进行建筑实例分析处理,得到所述待检测图像中每个像素的建筑实例特征包括:
通过建筑实例分支网络对所述共享特征进行建筑实例分析处理,得到建筑实例特征;
所述对所述共享特征进行位置偏移量预测处理,得到所述待检测图像的目标区域中每个像素的位置偏移量包括:
通过第一回归分支网络对所述共享特征进行位置偏移量预测处理,得到所述待检测图像的目标区域中每个像素的位置偏移量;
所述对所述共享特征进行高度预测处理,得到所述待检测图像中每个像素的高度信息包括:
通过第二回归分支网络对所述共享特征进行高度预测处理,得到所述待检测图像中每个像素的高度信息。
6.根据权利要求5所述的方法,其特征在于,所述通过语义分支网络对所述共享特征进行语义分割处理,得到所述待检测图像中每个像素的语义特征的步骤之前,所述方法还包括:
构建第一网络的交叉熵损失函数;
构建第二网络的类内聚合度损失函数与类间区别度损失函数;
构建第三网络的平方误差损失函数;
构建第四网络的绝对值损失函数;
将所述交叉熵损失函数、所述类内聚合度损失函数、所述类间区别度损失函数、所述平方误差损失函数与所述绝对值损失函数之和确定为综合损失函数;
分别调整所述第一网络、所述第二网络、所述第三网络、所述第四网络的参数,得到当前第一网络、当前第二网络、当前第三网络与当前第四网络;
计算所述当前第一网络、所述当前第二网络、所述当前第三网络、所述当前第四网络对应的综合损失值;
当所述综合损失值小于预设阈值时,将所述当前第一网络确定为所述语义分支网络,将所述当前第二网络确定为所述建筑实例分支网络,将所述当前第三网络确定为所述第一回归分支网络、将所述当前第四网络确定为所述第二回归分支网络。
7.根据权利要求1所述的方法,其特征在于,所述根据所述待检测图像中每个像素的融合特征,确定每个建筑实例类别对应的像素集包括:
根据所述待检测图像中每个像素的融合特征,确定所述待检测图像中每个像素的建筑实例类别;
通过密度聚类算法,确定每个建筑实例类别对应的像素集。
8.一种图像中实例属性信息确定装置,其特征在于,所述装置包括:
待检测图像获取模块,用于获取待检测图像,所述待检测图像中包括目标数量的建筑实例;
共享特征确定模块,用于对所述待检测图像进行下采样处理,得到共享特征;
位置偏移量确定模块,用于对所述共享特征进行位置偏移量预测处理,得到所述待检测图像的目标区域中每个像素的位置偏移量;所述目标区域为所述待检测图像中每个建筑实例的顶部轮廓区域,所述目标区域中每个像素的位置偏移量用于确定所述每个建筑实例的底部轮廓;每个建筑实例的底部轮廓与顶部轮廓的形状相同;所述每个像素的位置偏移量表征每个像素对应的建筑实例的顶部轮廓相对于底部轮廓的偏移量;每个建筑实例的底部轮廓区域基于每个建筑实例对应的顶部轮廓区域以及位置偏移量确定;
高度信息确定模块,用于对所述共享特征进行高度预测处理,得到所述待检测图像中每个像素的高度信息;
融合特征确定模块,用于根据所述共享特征,确定所述待检测图像中每个像素的融合特征;
像素集确定模块,用于根据所述待检测图像中每个像素的融合特征,确定每个建筑实例类别对应的像素集;
属性信息确定模块,用于根据每个建筑实例类别对应的像素集中像素的融合特征、位置偏移量以及高度信息,确定每个建筑实例类别对应建筑实例的属性信息。
9.一种图像中实例属性信息确定设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7任一所述的图像中实例属性信息确定方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7任一所述的图像中实例属性信息确定方法。
CN202011042869.4A 2020-09-28 2020-09-28 图像中实例属性信息确定方法、装置、设备及存储介质 Active CN112053439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011042869.4A CN112053439B (zh) 2020-09-28 2020-09-28 图像中实例属性信息确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011042869.4A CN112053439B (zh) 2020-09-28 2020-09-28 图像中实例属性信息确定方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112053439A CN112053439A (zh) 2020-12-08
CN112053439B true CN112053439B (zh) 2022-11-25

Family

ID=73605132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011042869.4A Active CN112053439B (zh) 2020-09-28 2020-09-28 图像中实例属性信息确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112053439B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819008B (zh) * 2021-01-11 2022-10-28 腾讯科技(深圳)有限公司 实例检测网络的优化方法、装置、介质及电子设备
CN116310189B (zh) * 2023-05-22 2023-09-01 浙江大华技术股份有限公司 地图模型构建方法及终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871117A (zh) * 2016-09-23 2018-04-03 三星电子株式会社 用于检测对象的设备和方法
CN108229504A (zh) * 2018-01-29 2018-06-29 深圳市商汤科技有限公司 图像解析方法及装置
CN109559300A (zh) * 2018-11-19 2019-04-02 上海商汤智能科技有限公司 图像处理方法、电子设备及计算机可读存储介质
CN110084292A (zh) * 2019-04-18 2019-08-02 江南大学 基于DenseNet和多尺度特征融合的目标检测方法
CN110807385A (zh) * 2019-10-24 2020-02-18 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备及存储介质
CN111292340A (zh) * 2020-01-23 2020-06-16 北京市商汤科技开发有限公司 语义分割方法、装置、设备及计算机可读存储介质
CN111429463A (zh) * 2020-03-04 2020-07-17 北京三快在线科技有限公司 实例分割方法、装置、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871117A (zh) * 2016-09-23 2018-04-03 三星电子株式会社 用于检测对象的设备和方法
CN108229504A (zh) * 2018-01-29 2018-06-29 深圳市商汤科技有限公司 图像解析方法及装置
CN109559300A (zh) * 2018-11-19 2019-04-02 上海商汤智能科技有限公司 图像处理方法、电子设备及计算机可读存储介质
CN110084292A (zh) * 2019-04-18 2019-08-02 江南大学 基于DenseNet和多尺度特征融合的目标检测方法
CN110807385A (zh) * 2019-10-24 2020-02-18 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备及存储介质
CN111292340A (zh) * 2020-01-23 2020-06-16 北京市商汤科技开发有限公司 语义分割方法、装置、设备及计算机可读存储介质
CN111429463A (zh) * 2020-03-04 2020-07-17 北京三快在线科技有限公司 实例分割方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112053439A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
Jiang et al. Salient object detection: A discriminative regional feature integration approach
Li et al. Object-oriented classification of high-resolution remote sensing imagery based on an improved colour structure code and a support vector machine
CN105869173B (zh) 一种立体视觉显著性检测方法
CN112053358A (zh) 图像中像素的实例类别确定方法、装置、设备及存储介质
CN109711416B (zh) 目标识别方法、装置、计算机设备和存储介质
Mahmoudi et al. Object oriented image analysis based on multi-agent recognition system
Behrisch et al. Magnostics: Image-based search of interesting matrix views for guided network exploration
Babahajiani et al. Object recognition in 3D point cloud of urban street scene
Wang et al. Enhancing minimum spanning tree-based clustering by removing density-based outliers
CN112053439B (zh) 图像中实例属性信息确定方法、装置、设备及存储介质
CN115063566B (zh) 一种基于ar的文创产品展示方法及展示设备
CN108647703B (zh) 一种基于显著性的分类图像库的类型判断方法
CN112396701A (zh) 卫星图像的处理方法、装置、电子设备和计算机存储介质
Liao et al. Deep-learning-based object-level contour detection with CCG and CRF optimization
Wang et al. A region-line primitive association framework for object-based remote sensing image analysis
Wang et al. Salient object detection using biogeography-based optimization to combine features
Dornaika et al. A comparative study of image segmentation algorithms and descriptors for building detection
CN113569600A (zh) 物体重识别的方法、装置、电子设备及存储介质
Nasr-Isfahani et al. A new approach for touching cells segmentation
CN103489185B (zh) 最大粘聚性的超像素网格的快速图像目标检测与分割方法
Kalboussi et al. Object proposals for salient object segmentation in videos
CN114511862A (zh) 表格识别方法、装置及电子设备
Gao et al. SAMM: surroundedness and absorption Markov model based visual saliency detection in images
Lu Click-cut: a framework for interactive object selection
Pont-Tuset et al. Contour detection using binary partition trees

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant