CN113538467A - 图像分割方法和装置及图像分割模型的训练方法和装置 - Google Patents

图像分割方法和装置及图像分割模型的训练方法和装置 Download PDF

Info

Publication number
CN113538467A
CN113538467A CN202110927330.5A CN202110927330A CN113538467A CN 113538467 A CN113538467 A CN 113538467A CN 202110927330 A CN202110927330 A CN 202110927330A CN 113538467 A CN113538467 A CN 113538467A
Authority
CN
China
Prior art keywords
image
training
segmented
point
depth map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110927330.5A
Other languages
English (en)
Inventor
刘继文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110927330.5A priority Critical patent/CN113538467A/zh
Publication of CN113538467A publication Critical patent/CN113538467A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开关于一种图像分割方法和装置、图像分割模型的训练方法和装置、电子设备以及计算机可读存储介质。该图像分割方法包括:获取待分割图像和待分割图像中的指定点的坐标信息;获取待分割图像的第一深度图;将待分割图像、待分割图像中的指定点的坐标信息以及第一深度图输入到图像分割模型中,由图像分割模型确定指定点在待分割图像中的三维空间中所在的平面在待分割图像中所对应的区域。由此能够不受图像纹理和语义类别的限制,进行准确的图像分割。

Description

图像分割方法和装置及图像分割模型的训练方法和装置
技术领域
本公开涉及图像处理领域,尤其涉及一种图像分割方法和装置及图像分割模型的训练方法和装置。
背景技术
图像分割是指将图像分割出感兴趣的区域或对象的过程。根据在分割过程中是否需要用户的参与,可将图像分割分为交互式图像分割和无监督(自动)图像分割。交互式图像分割简单来说是指根据用户的需求来分割出用户所期望的区域或对象。对于根据用户在图像中指定的位置来分割出该位置在图像中的三维空间中所在的平面的区域的交互式图像分割,目前,传统方法是依赖颜色特征进行扩散或者聚类从而进行该区域的预测。其中,扩散的方法是从指定点开始比对当前点和周围点的颜色特征,根据颜色特征相似度进行扩散,最终得到指定点附近颜色特征相似的一块区域。聚类的方法是指先随机生成一些聚类中心,然后根据颜色特征不断迭代聚类中心的每个中心对应的区域,在收敛稳定后指定点所在的区域就是预测结果。然而,由于传统方法仅依赖颜色特征进行预测,所以只能应对指定点在图像中的三维空间中所在的平面的区域内部纹理简单一致且与其他区域纹理有明显区别的情况。并且,通过传统方法预测的区域不能保证在三维空间中是个平面,而仅仅是颜色特征相似的一个区域。
此外,随着深度学***面。另外,语义分割无法处理语义相同但不在同一平面上的情况。并且,实例分割一般只能用于前景物体,对于没有明显边界的背景(例如墙面)无法适用。
发明内容
本公开提供一种图像分割方法和装置、图像分割模型的训练方法和装置、电子设备、计算机可读存储介质以及计算机程序产品,以至少解决上述现有技术中存在的问题。
根据本公开实施例的第一方面,提供一种图像分割方法,其中,包括:获取待分割图像和所述待分割图像中的指定点的坐标信息;获取所述待分割图像的第一深度图;将所述待分割图像、所述待分割图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域。
可选地,获取所述待分割图像的第一深度图的步骤包括:将所述待分割图像输入到深度估计网络,由所述深度估计网络得到所述第一深度图。
可选地,所述深度估计网络是通过使用深度估计训练图像及所述深度估计训练图像的不含有噪声的深度图对卷积神经网络进行有监督的训练而得到的。
可选地,由所述图像分割模型确定所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域的步骤包括:基于所述坐标信息,得到包含所述坐标信息的坐标图像;将所述待分割图像、所述坐标图像以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域。
可选地,所述坐标图像是与所述坐标信息对应的点的像素值为1、其他点的像素值为0的尺寸与所述待分割图像相同的图像。
可选地,所述图像分割模型包括:语义特征编码器、结构特征编码器和解码器,其中,将所述待分割图像、所述待分割图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域的步骤包括:将所述待分割图像和所述待分割图像中的指定点的坐标信息输入到所述语义特征编码器,得到所述指定点的语义特征;将所述待分割图像中的指定点的坐标信息以及所述第一深度图输入到所述结构特征编码器,得到所述指定点的结构特征;将所述语义特征和所述结构特征输入到所述解码器,得到所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域。
可选地,在将所述待分割图像、所述待分割图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型之前,利用所述待分割图像对所述第一深度图进行导向滤波,并将滤波后的所述第一深度图与所述待分割图像、所述待分割图像中的指定点的坐标信息输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域。
根据本公开实施例的第二方面,提供一种图像分割模型的训练方法,其中,包括:获取训练图像、所述训练图像中的指定点的坐标信息以及所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域;获取所述训练图像的第一深度图;将所述训练图像、所述训练图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域;基于所述预测区域和所述真实区域之间的差异,调整所述图像分割模型的参数,对所述图像分割模型进行训练。
可选地,获取所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域的步骤包括:获取所述训练图像的不含噪声的第二深度图;基于所述第二深度图的深度信息,获取所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域。
可选地,基于所述第二深度图的深度信息,获取所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域的步骤包括:根据所述第二深度图的深度信息和所述指定点的坐标信息,获取所述指定点和与所述指定点相邻的两个点的深度值;基于所述指定点和与所述指定点相邻的两个点的坐标信息和深度值,得到所述指定点在所述训练图像中的三维空间中所在的平面的方程式;根据所述平面的方程式,确定所述第二深度图中位于所述平面上的点,并将该点所对应的所述训练图像中的点的集合作为所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域。
可选地,与所述指定点相邻的两个点包括与所述指定点在横向上相邻的一个点和与所述指定点在纵向上相邻的一个点。
可选地,由所述图像分割模型确定所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域的步骤包括:基于所述坐标信息,得到包含所述坐标信息的坐标图像;将所述训练图像、所述坐标图像以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域。
可选地,所述坐标图像是与所述坐标信息对应的点的像素值为1、其他点的像素值为0的尺寸与所述训练图像相同的图像。
可选地,获取所述训练图像的第一深度图的步骤包括:将所述训练图像输入到深度估计网络,由所述深度估计网络得到所述第一深度图。
可选地,所述深度估计网络是通过使用深度估计训练图像及所述深度估计训练图像的不含有噪声的深度图对卷积神经网络进行有监督的训练而得到的。
可选地,所述图像分割模型包括:语义特征编码器、结构特征编码器和解码器,其中,将所述训练图像、所述训练图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域的步骤包括:将所述训练图像和所述训练图像中的指定点的坐标信息输入到所述语义特征编码器,得到所述指定点的语义特征;将所述训练图像中的指定点的坐标信息以及所述第一深度图输入到所述结构特征编码器,得到所述指定点的结构特征;将所述语义特征和所述结构特征输入到所述解码器,得到所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域。
可选地,在将所述训练图像、所述训练图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型之前,利用所述训练图像对所述第一深度图进行导向滤波,并将滤波后的所述第一深度图与所述训练图像、所述训练图像中的指定点的坐标信息输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域。
根据本公开实施例的第三方面,提供一种图像分割装置,其中,包括:第一获取单元,被配置为:获取待分割图像和所述待分割图像中的指定点的坐标信息;第二获取单元,被配置为:获取所述待分割图像的第一深度图;分割单元,被配置为:将所述待分割图像、所述待分割图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域。
可选地,所述第二获取单元被配置为:将所述待分割图像输入到深度估计网络,由所述深度估计网络得到所述第一深度图。
可选地,所述深度估计网络是通过使用深度估计训练图像及所述深度估计训练图像的不含有噪声的深度图对卷积神经网络进行有监督的训练而得到的。
可选地,所述分割单元被配置为:基于所述坐标信息,得到包含所述坐标信息的坐标图像;将所述待分割图像、所述坐标图像以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域。
可选地,所述坐标图像是与所述坐标信息对应的点的像素值为1、其他点的像素值为0的尺寸与所述待分割图像相同的图像。
可选地,所述图像分割模型包括:语义特征编码器、结构特征编码器和解码器,其中,所述分割单元被配置为:将所述待分割图像和所述待分割图像中的指定点的坐标信息输入到所述语义特征编码器,得到所述指定点的语义特征;将所述待分割图像中的指定点的坐标信息以及所述第一深度图输入到所述结构特征编码器,得到所述指定点的结构特征;将所述语义特征和所述结构特征输入到所述解码器,得到所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域。
可选地,所述分割单元被配置为:在将所述待分割图像、所述待分割图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型之前,利用所述待分割图像对所述第二获取单元获取的所述第一深度图进行导向滤波,并将滤波后的所述第一深度图与所述待分割图像、所述待分割图像中的指定点的坐标信息输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域。
根据本公开实施例的第四方面,提供一种图像分割模型的训练装置,其中,包括:第一获取单元,被配置为:获取训练图像、所述训练图像中的指定点的坐标信息以及所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域;第二获取单元,被配置为:获取所述训练图像的第一深度图;预测单元,被配置为:将所述训练图像、所述训练图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域;训练单元,被配置为:基于所述预测区域和所述真实区域之间的差异,调整所述图像分割模型的参数,对所述图像分割模型进行训练。
可选地,所述第一获取单元被配置为:获取所述训练图像的不含噪声的第二深度图;基于所述第二深度图的深度信息,获取所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域。
可选地,所述第一获取单元还被配置为:根据所述第二深度图的深度信息和所述指定点的坐标信息,获取所述指定点和与所述指定点相邻的两个点的深度值;基于所述指定点和与所述指定点相邻的两个点的坐标信息和深度值,得到所述指定点在所述训练图像中的三维空间中所在的平面的方程式;根据所述平面的方程式,确定所述第二深度图中位于所述平面上的点,并将该点所对应的所述训练图像中的点的集合作为所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域。
可选地,与所述指定点相邻的两个点包括与所述指定点在横向上相邻的一个点和与所述指定点在纵向上相邻的一个点。
可选地,所述预测单元被配置为:基于所述坐标信息,得到包含所述坐标信息的坐标图像;将所述训练图像、所述坐标图像以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域。
可选地,所述坐标图像是与所述坐标信息对应的点的像素值为1、其他点的像素值为0的尺寸与所述训练图像相同的图像。
可选地,所述第二获取单元被配置为:将所述训练图像输入到深度估计网络,由所述深度估计网络得到所述第一深度图。
可选地,所述深度估计网络是通过使用深度估计训练图像及所述深度估计训练图像的不含有噪声的深度图对卷积神经网络进行有监督的训练而得到的。
可选地,所述图像分割模型包括:语义特征编码器、结构特征编码器和解码器,其中,所述预测单元被配置为:将所述训练图像和所述训练图像中的指定点的坐标信息输入到所述语义特征编码器,得到所述指定点的语义特征;将所述训练图像中的指定点的坐标信息以及所述第一深度图输入到所述结构特征编码器,得到所述指定点的结构特征;将所述语义特征和所述结构特征输入到所述解码器,得到所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域。
可选地,所述预测单元被配置为:在将所述训练图像、所述训练图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型之前,利用所述训练图像对所述第二获取单元获取的所述第一深度图进行导向滤波,并将滤波后的第一深度图与所述训练图像、所述训练图像中的指定点的坐标信息输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域。
根据本公开实施例的第五方面,提供一种电子设备,其中,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上所述的图像分割方法或图像分割模型的训练方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,其中,当所述计算机可读存储介质中的指令被电子设备的处理器执行时,使得电子设备执行如上所述的图像分割方法或图像分割模型的训练方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现如上所述的图像分割方法或图像分割模型的训练方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开的图像分割模型的训练方法和装置以及图像分割方法和装置,综合考虑图像的语义特征和空间结构特征,能够不受图像纹理和语义类别的限制,进行准确的图像分割。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出根据本公开的示例性实施例的图像分割模型的训练方法及图像分割方法的实施场景示意图;
图2是示出根据本公开的示例性实施例的图像分割模型的训练方法的流程图。
图3是示出指定点P的8邻域的示意图。
图4是示出根据本公开的示例性实施例的图像分割模型的结构的示意图。
图5是示出根据本公开的示例性实施例的图像分割方法的流程图。
图6是示出根据本公开的示例性实施例的图像分割方法的概略图。
图7是示出根据本公开的示例性实施例的图像分割效果图。
图8是示出根据本公开的示例性实施例的图像分割模型的训练装置的框图。
图9是示出根据本公开的示例性实施例的图像分割装置的框图。
图10是示出根据本公开的示例性实施例的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
目前,在虚拟现实应用中,存在在特定平面上实现特效或跟踪特定平面的需求。然而,通过现有的图像分割方法来分割出用户指定的点所在的三维空间中的平面所对应的区域存在以下难点:(1)指定点是用户任意指定的,不仅限于分割墙面、地面等常见的有限类别,因此需要有很强的通用性;(2)要求图像分割的结果为图像中的三维空间中的平面所对应的区域,该区域有时难以在语义或纹理特性上与图像中的其他区域区分开。
本公开提供了一种图像分割模型的训练方法和装置及图像分割方法和装置,使用基于训练图像、训练图像中的指定点的坐标信息、指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域以及训练图像的第一深度图进行训练而得到的图像分割模型进行图像分割,不仅基于语义特征还考虑了空间结构特征,因此能够根据用户指定的任意点分割出该点所在的平面所对应的区域,通用性强。
图1是示出根据本公开的示例性实施例的图像分割模型的训练方法及图像分割方法的实施场景示意图。如图1所示,该实施场景包括服务器100、用户终端110、用户终端120和用户终端130。其中,用户终端并不限于图中所示的数量和种类,包括并不限于智能手机、个人计算机、虚拟现实设备、平板电脑等电子设备,还可以包括其他任何需要进行图像分割处理的电子设备。服务器100可以是单个服务器,也可以是若干个服务器组成的服务器集群,还可以是云计算平台或虚拟化中心。
服务器100可以用于进行图像分割模型的训练,在进行训练之前,服务器100需要获取足够多的训练集,该训练集包括:训练图像、训练图像中的指定点的坐标信息以及指定点在训练图像中的三维空间中所在的平面在该训练图像中所对应的真实区域。该训练集中的各种数据信息的量可以为任意,以能够使图像分割模型的训练收敛为宜。此外,服务器100还需要获取训练图像的第一深度图,从而将训练图像中的空间结构特征引入到图像分割模型用于图像分割。然后,服务器100将获取到的训练图像、训练图像中的指定点的坐标信息以及第一深度图输入到图像分割模型中,通过图像分割模型来确定指定点在训练图像中的三维空间中所在的平面在该训练图像中所对应的预测区域(即,通过图像分割模型来预测指定点所在的三维空间中的平面所对应的区域)。最后,服务器100基于预测区域和真实区域之间的差异来调整图像分割模型的参数,从而对图像分割模型进行训练。如此,使用训练集对图像分割模型进行训练而得到的图像分割模型能够根据用户在图像中的指定点而准确地分割出该指定点所在的三维空间中的平面所对应的区域。
在需要对待分割图像进行分割时,用户可以利用用户终端110~130,在该待分割图像上设置一个指定点,然后用户终端110~130可以根据该待分割图像和该指定点的坐标信息以及获取到的该待分割图像的第一深度图,通过服务器100所训练的图像分割模型来确定该指定点在待分割图像中的三维空间中所在的平面在该待分割图像中所对应的区域。由于考虑了语义特征和空间结构特征,所以能够进行准确的图像分割。进而,能够在例如虚拟现实中,实现在特定平面上的特效、以及在跟踪任务中用于特定平面的跟踪。根据本公开的示例性实施例,用户终端可以将需要进行图像分割的图像和指定点的相关信息发送到服务器以进行在线处理并返回分割结果,也可以从服务器将图像分割模型下载到本地之后进行本地处理,本公开不对此进行限制。
接下来,参照图2~图9对根据本公开的示例性实施例的图像分割模型的训练方法和装置及图像分割方法和装置进行详细说明。
图2是示出根据本公开的示例性实施例的图像分割模型的训练方法的流程图。
如图2所示,在步骤S210,获取训练图像、训练图像中的指定点的坐标信息以及指定点在该训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域。这里,训练图像可以为任意能够用于图像分割模型训练的图像,例如,可以为三通道(RGB)图像等。可以通过图1中的用户终端110~130以各种方式获取该训练图像。训练图像中的指定点的坐标信息可以为用户通过图1中的用户终端110~130指定的点的坐标信息。该指定点的坐标信息可以包括该指定点在训练图像中的坐标值。该指定点可以为指定的像素点。
可以通过各种方法来获取用于图像分割模型训练的指定点在训练图像中的三维空间中所在的平面在该训练图像中所对应的真实区域。
根据本公开的示例性实施例,获取指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域的步骤可以包括获取训练图像的不含噪声的第二深度图的步骤。这里,深度图可以是通过深度传感器等设备采集的,包含深度信息的图,其中,每个像素值(即,深度值)代表深度传感器等设备到场景中各点的距离的图像。即,深度图中的每一个像素值表示场景中对应的点与深度传感器之间的距离。可以通过各种方法获取训练图像的不含噪声的第二深度图。例如,深度图的获取方法有:激光雷达深度成像法、计算机立体视觉成像、坐标测量机法、莫尔条纹法、结构光法等。作为一个示例,可以根据三维虚拟场景的深度数据来获取不含噪声的第二深度图,此时,相应的,训练图像为根据该三维虚拟场景得到的图像。此时获取的不含噪声的第二深度图为用于获取指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域的理想数据。通过获取不含噪声的第二深度图,能够更准确地对图像分割模型进行训练。通过获取训练图像的不含噪声的第二深度图,能够得到训练图像中所有点的三维坐标值(深度值和在训练图像中的坐标值构成三维直角坐标系中的坐标)。
然后,在获取了训练图像的不含噪声的第二深度图之后,可以执行基于该第二深度图的深度信息,获取指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域的步骤。这里,可以通过各种方法来基于第二深度图的深度信息获取该真实区域。
根据本公开的示例性实施例,基于该第二深度图的深度信息,获取指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域的步骤可以包括根据该第二深度图的深度信息和指定点的坐标信息,获取指定点和与指定点相邻的两个点的深度值的步骤。根据本公开的示例性实施例,与指定点相邻的两个点可以包括与指定点在横向上相邻的一个点和与指定点在纵向上相邻的一个点。由此,能够简单地确定与所述指定点在同一平面的两个相邻点。例如,在指定点为P(x,y)时,与指定点P(x,y)相邻的点可以为P2(x+1,y)和P3(x,y+1)。应理解,以上的相邻点的坐标仅是用于确定平面的方程式的一个示例,可以使用指定点P(x,y)的8邻域中的像素点的坐标来确定平面的方程式。图3示出了指定点P的8邻域中的像素点。指定点P周围的8个像素为指定点P的8邻域。
然后,在获取了指定点和与指定点相邻的两个点的深度值之后,可以执行基于指定点和与指定点相邻的两个点的坐标信息和深度值,得到指定点在训练图像中的三维空间中所在的平面的方程式的步骤。这里,将深度值作为三维直角坐标系中的竖坐标,并将在训练图像中的坐标值分别作为三维直角坐标系中的横坐标和纵坐标。由此,得到指定点及其相邻的两个点的三维坐标值。这样,已知三个点的三维坐标值来确定该三个点所在的平面的方程式。然后,在得到指定点所在的平面的方程式之后,可以执行根据该平面的方程式,确定第二深度图中位于该平面上的点,并将该点所对应的训练图像中的点的集合作为指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域。通过如上所述地确定指定点所在的平面的方程式,由于仅使用与指定点相邻的两个点,所以得到的指定点所在的平面更准确,进而得到的指定点所在的平面在训练图像中所对应的真实区域更准确。
如此获取了训练图像、训练图像中的指定点的坐标信息以及指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域。然后,如图2所示,在步骤S220,获取步骤S210中获取的训练图像的第一深度图。这里,第一深度图可以为含噪声的深度图,也可以为不含噪声的深度图。
根据本公开的示例性实施例,可以通过将该训练图像输入到训练好的深度估计网络来获取该训练图像的第一深度图。由此,能够简单地获取训练图像的深度图。该深度估计网络可以是通过使用深度估计训练图像及深度估计训练图像的不含有噪声的深度图对卷积神经网络进行有监督的训练而得到的。也可以是通过其他相关技术进行训练而得到的。通过使用不含有噪声的深度图来训练深度估计网络,从而使由深度估计网络获取的深度图的精度得到提高。
这里,如上所述,可以通过各种方法获取深度估计训练图像的不含有噪声的深度图。作为一个示例,可以根据三维虚拟场景的深度数据来获取该不含有噪声的深度图,此时,相应的,深度估计训练图像为根据该三维虚拟场景得到的图像。如此得到[(训练图像M,训练图像中的指定点的坐标信息Mp,训练图像的第一深度图D)->指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域m]这样的成对训练数据。
接下来,在步骤S230,将步骤S210和步骤S220中获取的训练图像、训练图像中的指定点的坐标信息以及第一深度图输入到图像分割模型中,由图像分割模型确定指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的预测区域。这里,图像分割模型可具有如图4所示的结构。
图4是示出根据本公开的示例性实施例的图像分割模型的结构的示意图。其中,虚线框表示图像分割模型400,虚线框的左侧为图像分割模型400的输入,虚线框的右侧为图像分割模型400的输出。
如图4所示,图像分割模型400可以包括:语义特征编码器410、结构特征编码器420和解码器430。这里,语义特征编码器410、结构特征编码器420和解码器430可以是各种语义特征编码器、结构特征编码器和解码器。其中,语义特征编码器410用于提取语义特征,结构特征编码器420用于提取结构特征,解码器430用于将两种特征综合。这里,语义特征例如可以表示纹理、颜色、形状类别等,结构特征例如可以表示三维结构特征等。
在此情况下,将步骤S210和步骤S220中获取的训练图像、训练图像中的指定点的坐标信息以及第一深度图输入到图像分割模型400中,由图像分割模型400确定指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的预测区域的步骤可以包括:将训练图像和训练图像中的指定点的坐标信息输入到语义特征编码器410,通过语义特征编码器410得到指定点的语义特征,然后,将训练图像中的指定点的坐标信息以及第一深度图输入到结构特征编码器420,通过结构特征编码器420得到指定点的结构特征;然后将语义特征和结构特征输入到解码器430,从而得到指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的预测区域。由此,能够有效利用训练图像中的语义信息和深度图中的结构信息来进行图像分割。
由于通过上述训练好的深度估计网络获取的第一深度图相对于深度传感器等硬件得到的深度图存在一些无法避免的错误,例如平面区域的深度会有起伏,边界区域的深度有过渡带等,因此,根据本公开的示例性实施例,在将训练图像、训练图像中的指定点的坐标信息以及第一深度图输入到图像分割模型之前,可以利用训练图像对第一深度图进行导向滤波。然后,将滤波后的第一深度图与训练图像、训练图像中的指定点的坐标信息输入到图像分割模型中,由该图像分割模型确定指定点在训练图像中的三维空间中所在的平面在该训练图像中所对应的预测区域。通过利用训练图像对第一深度图进行导向滤波,使得第一深度图的边界与训练图像更加贴合,同时滤除明显噪声。
根据本公开的示例性实施例,由图像分割模型确定指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的预测区域的步骤可以包括:基于指定点的坐标信息,得到包含所述指定点的坐标信息的坐标图像(即,将指定点的坐标信息转换为图像形式)。然后,将训练图像、坐标图像以及第一深度图输入到图像分割模型中,由图像分割模型确定指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的预测区域。由此,能够将坐标信息与训练图像和第一深度图同样地以图像的形式输入到卷积神经网络(即,图像分割模型),便于模型训练。
该坐标图像可以是任何包含指定点的坐标信息的图像。根据本公开的示例性实施例,坐标图像可以是与指定点的坐标信息对应的点的像素值为1、其他点的像素值为0的尺寸与训练图像相同的图像。由此,能够进一步便于模型训练。
在确定了指定点在训练图像中的三维空间中所在的平面在该训练图像中所对应的预测区域之后,执行步骤S240,基于该预测区域和真实区域之间的差异,调整图像分割模型400的参数,对图像分割模型400进行训练。具体说来,以使利用图像分割模型400得到的预测区域收敛于指定点在训练图像中的三维空间中所在的平面在该训练图像中所对应的真实区域的方式调整图像分割模型400的参数,并利用训练集中的成对训练数据进行训练。例如,使用损失函数来计算利用图像分割模型得到的预测区域与真实区域之间的差异,并基于该差异的大小来调整图像分割模型400的参数,以使该差异最小。
根据本公开示例性实施例的训练方法得到的图像分割模型400有效利用了训练图像的语义信息和深度图中的结构信息,从而能够根据用户在图像中的指定点而准确地分割出该指定点在图像中的三维空间中所在的平面所对应的区域。
图5是示出根据本公开的示例性实施例的图像分割方法的流程图。
如图5所示,在步骤S510,获取待分割图像和待分割图像中的指定点的坐标信息。这里,待分割图像可以为三通道(RGB)图像等显示有三维空间中的平面的图像。可以通过图1中的用户终端110~130以各种方式获取该待分割图像。待分割图像中的指定点的坐标信息可以为用户通过图1中的用户终端110~130指定的点的坐标信息。该指定点的坐标信息可以包括该指定点在待分割图像中的坐标值。该指定点可以为指定的像素点。
接下来,在步骤S520,获取步骤S510中获取的待分割图像的第一深度图。这里,第一深度图可以为含噪声的深度图,也可以为不含噪声的深度图。
根据本公开的示例性实施例,可以通过将该待分割图像输入到训练好的深度估计网络来获取该待分割图像的第一深度图。由此,能够简单地获取待分割图像的深度图。该深度估计网络可以是通过使用深度估计训练图像及深度估计训练图像的不含有噪声的深度图对卷积神经网络进行有监督的训练而得到的。也可以是通过其他相关技术进行训练而得到的。通过使用不含有噪声的深度图来训练深度估计网络,从而使由深度估计网络获取的深度图的精度得到提高。
这里,如上所述,可以通过各种方法获取深度估计训练图像的不含有噪声的深度图。作为一个示例,可以根据三维虚拟场景的深度数据来获取该不含有噪声的深度图,此时,相应的,深度估计训练图像为根据该三维虚拟场景得到的图像。
接下来,在步骤S530,将步骤S510和步骤S520中获取的待分割图像、待分割图像中的指定点的坐标信息以及第一深度图输入到图像分割模型中,由图像分割模型确定指定点在待分割图像中的三维空间中所在的平面在待分割图像中所对应的区域。
这里,图像分割模型400可具有如图4所示的结构。如上所述,图像分割模型400可以包括:语义特征编码器410、结构特征编码器420和解码器430。这里,语义特征编码器410、结构特征编码器420和解码器430可以是各种语义特征编码器、结构特征编码器和解码器。其中,语义特征编码器410用于提取语义特征,结构特征编码器420用于提取结构特征,解码器430用于将两种特征综合。这里,语义特征例如可以表示纹理、颜色、形状类别等,结构特征例如可以表示三维结构特征等。
在此情况下,将步骤S510和步骤S520中获取的待分割图像、待分割图像中的指定点的坐标信息以及第一深度图输入到图像分割模型400中,由图像分割模型400确定指定点在待分割图像中的三维空间中所在的平面在待分割图像中所对应的区域的步骤可以包括:将待分割图像和待分割图像中的指定点的坐标信息输入到语义特征编码器410,通过语义特征编码器410得到指定点的语义特征,然后,将待分割图像中的指定点的坐标信息以及第一深度图输入到结构特征编码器420,通过结构特征编码器420得到指定点的结构特征;然后将语义特征和结构特征输入到解码器430,从而得到指定点在待分割图像中的三维空间中所在的平面在待分割图像中所对应的区域。由此,能够有效利用待分割图像中的语义信息和深度图中的结构信息来进行图像分割。
由于通过上述训练好的深度估计网络获取的第一深度图相对于深度传感器等硬件得到的深度图存在一些无法避免的错误,例如平面区域的深度会有起伏,边界区域的深度有过渡带等,因此,根据本公开的示例性实施例,在将待分割图像、待分割图像中的指定点的坐标信息以及第一深度图输入到图像分割模型之前,可以利用该待分割图像对第一深度图进行导向滤波。然后,将滤波后的第一深度图与待分割图像、待分割图像中的指定点的坐标信息输入到图像分割模型中,由该图像分割模型确定指定点在待分割图像中的三维空间中所在的平面在该待分割图像中所对应的区域。通过利用待分割图像对第一深度图进行导向滤波,使得第一深度图的边界与待分割图像更加贴合,同时滤除明显噪声。
根据本公开的示例性实施例,由图像分割模型确定指定点在待分割图像中的三维空间中所在的平面在待分割图像中所对应的区域的步骤可以包括:基于指定点的坐标信息,得到包含所述指定点的坐标信息的坐标图像(即,将指定点的坐标信息转换为图像形式)。然后,将待分割图像、坐标图像以及第一深度图输入到图像分割模型中,由图像分割模型确定指定点在待分割图像中的三维空间中所在的平面在待分割图像中所对应的区域。由此,能够将坐标信息与待分割图像和第一深度图同样地以图像的形式输入到卷积神经网络(即,图像分割模型),便于模型训练。
该坐标图像可以是任何包含指定点的坐标信息的图像。根据本公开的示例性实施例,坐标图像可以是与指定点的坐标信息对应的点的像素值为1、其他点的像素值为0的尺寸与待分割图像的尺寸相同的图像。由此,能够进一步便于图像分割。
图6是示出根据本公开的示例性实施例的图像分割方法的概略图。如图6所示,将待分割图像输入到深度估计网络从而得到对应的第一深度图,然后对深度估计网络所输出的第一深度图进行导向滤波从而输出滤波后的第一深度图,并且将指定点坐标(x,y)转换为仅坐标(x,y)处的像素值为1、其他点处像素值为0的尺寸与待分割图像相同的图像(即,掩码图像)。将该待分割图像、滤波后的第一深度图和该掩码图像一并输入到图像分割模型中,由图像分割模型得到指定点在待分割图像中的三维空间中所在的平面所对应的区域。
图7是示出根据本公开的示例性实施例的图像分割效果图。如图7所示,左侧为待分割图像,待分割图像中的指定点为P(即,待分割图像中的椅子后面右侧的墙面)。从图中可以看出椅子后面左侧的墙面与右侧的墙面在语义和纹理特征以及颜色特征上基本相同,因此,通过现有技术的方法无法将椅子后面左侧的墙面和右侧的墙面区分开。与此相对,如图7中右侧图所示,本公开的图像分割方法准确地分割出了右侧的墙面。
根据本公开的图像分割方法,利用训练好的图像分割模型有效利用待分割图像的语义信息和对应的深度图中的结构信息,从而能够根据用户在图像中的指定点而准确地分割出该指定点在待分割图像中的三维空间中所在的平面在待分割图像中所对应的区域。进而,能够在例如虚拟现实中,实现在特定平面上的特效、以及在跟踪任务中用于特定平面的跟踪。
图8是示出根据本公开的示例性实施例的图像分割模型的训练装置的框图。
如图8所示,图像分割模型的训练装置800包括:第一获取单元810、第二获取单元820、预测单元830和训练单元840。
其中,第一获取单元810被配置为:获取训练图像、训练图像中的指定点的坐标信息以及指定点在该训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域。
根据本公开的示例性实施例,第一获取单元810可以被配置为:获取训练图像的不含噪声的第二深度图;基于该第二深度图的深度信息,获取指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域。
进一步地,根据本公开的示例性实施例,第一获取单元810还可以被配置为:根据该第二深度图的深度信息和指定点的坐标信息,获取指定点和与指定点相邻的两个点的深度值;基于指定点和与指定点相邻的两个点的坐标信息和深度值,得到指定点在训练图像中的三维空间中所在的平面的方程式;根据该平面的方程式,确定第二深度图中位于该平面上的点,并将该点所对应的训练图像中的点的集合作为指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的真实区域。
这里,根据本公开的示例性实施例,与指定点相邻的两个点可以包括与指定点在横向上相邻的一个点和与指定点在纵向上相邻的一个点。
此外,第二获取单元820被配置为:获取第一获取单元810所获取的训练图像的第一深度图。
根据本公开的示例性实施例,第二获取单元820可以被配置为:将该训练图像输入到训练好的深度估计网络,由深度估计网络来获取该训练图像的第一深度图。
根据本公开的示例性实施例,该深度估计网络可以是通过使用深度估计训练图像及深度估计训练图像的不含有噪声的深度图对卷积神经网络进行有监督的训练而得到的。
此外,预测单元830被配置为:将第一获取单元810和第二获取单元820所获取的训练图像、训练图像中的指定点的坐标信息以及第一深度图输入到图像分割模型400中,由图像分割模型400确定指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的预测区域。
根据本公开的示例性实施例,图像分割模型400可以包括:语义特征编码器410、结构特征编码器420和解码器430。在此情况下,预测单元830可以被配置为:将训练图像和训练图像中的指定点的坐标信息输入到语义特征编码器410,通过语义特征编码器410得到指定点的语义特征;将训练图像中的指定点的坐标信息以及第一深度图输入到结构特征编码器420,通过结构特征编码器420得到指定点的结构特征;将语义特征和结构特征输入到解码器430,从而得到指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的预测区域。
根据本公开的示例性实施例,预测单元830可以被配置为:在将训练图像、训练图像中的指定点的坐标信息以及第一深度图输入到图像分割模型之前,利用训练图像对第二获取单元820获取的第一深度图进行导向滤波。然后,将滤波后的第一深度图与训练图像、训练图像中的指定点的坐标信息输入到图像分割模型中,由该图像分割模型确定指定点在训练图像中的三维空间中所在的平面在该训练图像中所对应的预测区域。
此外,训练单元840被配置为:基于预测区域和真实区域之间的差异,调整图像分割模型400的参数,对图像分割模型400进行训练。
根据本公开的示例性实施例,预测单元830可以被配置为:基于指定点的坐标信息,得到包含所述指定点的坐标信息的坐标图像。然后将训练图像、坐标图像以及第一深度图输入到图像分割模型中,由图像分割模型确定指定点在训练图像中的三维空间中所在的平面在训练图像中所对应的预测区域。
根据本公开的示例性实施例,坐标图像可以是与所述坐标信息对应的点的像素值为1、其他点的像素值为0的尺寸与所述训练图像相同的图像。
如此通过图像分割模型的训练装置训练好的图像分割模型400有效利用了训练图像的语义信息和深度图中的结构信息,从而能够根据用户在图像中的指定点而准确地分割出该指定点在图像中的三维空间中所在的平面所对应的区域。
图9是示出根据本公开的示例性实施例的图像分割装置的框图。如图9所示,图像分割装置900包括:第一获取单元910、第二获取单元920和分割单元930。
第一获取单元910被配置为:获取待分割图像和待分割图像中的指定点的坐标信息。
第二获取单元920被配置为:获取第一获取单元910所获取的待分割图像的第一深度图。
根据本公开的示例性实施例,第二获取单元920可以被配置为:将该待分割图像输入到训练好的深度估计网络,由深度估计网络来获取该待分割图像的第一深度图。
根据本公开的示例性实施例,该深度估计网络可以是通过使用深度估计训练图像及深度估计训练图像的不含有噪声的深度图对卷积神经网络进行有监督的训练而得到的。
此外,分割单元930被配置为:将第一获取单元910和第二获取单元920所获取的待分割图像、待分割图像中的指定点的坐标信息以及第一深度图输入到图像分割模型400中,由图像分割模型400确定指定点在待分割图像中的三维空间中所在的平面在待分割图像中所对应的区域。
根据本公开的示例性实施例,图像分割模型400可以包括:语义特征编码器410、结构特征编码器420和解码器430。在此情况下,分割单元930可以被配置为:将待分割图像和待分割图像中的指定点的坐标信息输入到语义特征编码器410,通过语义特征编码器410得到指定点的语义特征;将待分割图像中的指定点的坐标信息以及第一深度图输入到结构特征编码器420,通过结构特征编码器420得到指定点的结构特征;将语义特征和结构特征输入到解码器430,从而得到指定点在待分割图像中的三维空间中所在的平面在待分割图像中所对应的区域。
根据本公开的示例性实施例,分割单元930可以被配置为:在将待分割图像、待分割图像中的指定点的坐标信息以及第一深度图输入到图像分割模型之前,利用该待分割图像对第二获取单元920获取的第一深度图进行导向滤波。然后,将滤波后的第一深度图与待分割图像、待分割图像中的指定点的坐标信息输入到图像分割模型中,由该图像分割模型确定指定点在待分割图像中的三维空间中所在的平面在该待分割图像中所对应的区域。
根据本公开的示例性实施例,分割单元930可以被配置为:基于指定点的坐标信息,得到包含指定点的坐标信息的坐标图像。然后将待分割图像、坐标图像以及第一深度图输入到图像分割模型中,由图像分割模型确定指定点在待分割图像中的三维空间中所在的平面在待分割图像中所对应的区域。
根据本公开的示例性实施例,坐标图像可以是与指定点的坐标信息对应的点的像素值为1、其他点的像素值为0的尺寸与待分割图像相同的图像。
根据本公开的图像分割装置,利用训练好的图像分割模型有效利用待分割图像的语义信息和对应的深度图中的结构信息,从而能够根据用户在图像中的指定点而准确地分割出该指定点在待分割图像中的三维空间中所在的平面在待分割图像中所对应的区域。进而,能够在例如虚拟现实中,实现在特定平面上的特效、以及在跟踪任务中用于特定平面的跟踪。
应该理解,根据本公开的示例性实施例的图像分割模型的训练装置和图像分割装置可执行参照上述图2和图5描述的方法,为了避免重复,在此不再赘述。
图10是示出根据本公开的示例性实施例的电子设备的框图。该电子设备1000包括至少一个存储器1010和至少一个处理器1020,所述至少一个存储器中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开的示例性实施例的图像分割模型的训练方法和图像分割方法。
作为示例,电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1000并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1000还可以是集成控制***或***管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备1000中,处理器1020可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制,处理器1020还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器1020可运行存储在存储器中的指令或代码,其中,存储器1010还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器1010可与处理器1020集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器1010可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储器1010和处理器1020可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器1020能够读取存储在存储器1010中的文件。
此外,电子设备1000还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。
根据本公开的示例性实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行本公开的示例性实施例的图像分割模型的训练方法和图像分割方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的示例性实施例,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现本公开的示例性实施例的图像分割模型的训练方法和图像分割方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种图像分割方法,其特征在于,包括:
获取待分割图像和所述待分割图像中的指定点的坐标信息;
获取所述待分割图像的第一深度图;
将所述待分割图像、所述待分割图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域。
2.根据权利要求1所述的图像分割方法,其特征在于,获取所述待分割图像的第一深度图的步骤包括:
将所述待分割图像输入到深度估计网络,由所述深度估计网络得到所述第一深度图。
3.一种图像分割模型的训练方法,其特征在于,包括:
获取训练图像、所述训练图像中的指定点的坐标信息以及所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域;
获取所述训练图像的第一深度图;
将所述训练图像、所述训练图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域;
基于所述预测区域和所述真实区域之间的差异,调整所述图像分割模型的参数,对所述图像分割模型进行训练。
4.根据权利要求3所述的训练方法,其特征在于,获取所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域的步骤包括:
获取所述训练图像的不含噪声的第二深度图;
基于所述第二深度图的深度信息,获取所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域。
5.根据权利要求4所述的训练方法,其特征在于,基于所述第二深度图的深度信息,获取所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域的步骤包括:
根据所述第二深度图的深度信息和所述指定点的坐标信息,获取所述指定点和与所述指定点相邻的两个点的深度值;
基于所述指定点和与所述指定点相邻的两个点的坐标信息和深度值,得到所述指定点在所述训练图像中的三维空间中所在的平面的方程式;
根据所述平面的方程式,确定所述第二深度图中位于所述平面上的点,并将该点所对应的所述训练图像中的点的集合作为所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域。
6.根据权利要求5所述的训练方法,其特征在于,与所述指定点相邻的两个点包括与所述指定点在横向上相邻的一个点和与所述指定点在纵向上相邻的一个点。
7.一种图像分割装置,其特征在于,包括:
第一获取单元,被配置为:获取待分割图像和所述待分割图像中的指定点的坐标信息;
第二获取单元,被配置为:获取所述待分割图像的第一深度图;
分割单元,被配置为:将所述待分割图像、所述待分割图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述待分割图像中的三维空间中所在的平面在所述待分割图像中所对应的区域。
8.一种图像分割模型的训练装置,其特征在于,包括:
第一获取单元,被配置为:获取训练图像、所述训练图像中的指定点的坐标信息以及所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的真实区域;
第二获取单元,被配置为:获取所述训练图像的第一深度图;
预测单元,被配置为:将所述训练图像、所述训练图像中的指定点的坐标信息以及所述第一深度图输入到图像分割模型中,由所述图像分割模型确定所述指定点在所述训练图像中的三维空间中所在的平面在所述训练图像中所对应的预测区域;
训练单元,被配置为:基于所述预测区域和所述真实区域之间的差异,调整所述图像分割模型的参数,对所述图像分割模型进行训练。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至2中任一项所述的图像分割方法或如权利要求3至6中任一项所述的图像分割模型的训练方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被电子设备的处理器执行时,使得所述电子设备执行如权利要求1至2中任一项所述的图像分割方法或如权利要求3至6中任一项所述的图像分割模型的训练方法。
CN202110927330.5A 2021-08-09 2021-08-09 图像分割方法和装置及图像分割模型的训练方法和装置 Pending CN113538467A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110927330.5A CN113538467A (zh) 2021-08-09 2021-08-09 图像分割方法和装置及图像分割模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110927330.5A CN113538467A (zh) 2021-08-09 2021-08-09 图像分割方法和装置及图像分割模型的训练方法和装置

Publications (1)

Publication Number Publication Date
CN113538467A true CN113538467A (zh) 2021-10-22

Family

ID=78091627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110927330.5A Pending CN113538467A (zh) 2021-08-09 2021-08-09 图像分割方法和装置及图像分割模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN113538467A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114066985A (zh) * 2022-01-11 2022-02-18 深圳金三立视频科技股份有限公司 一种输电线隐患距离的计算方法及终端

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101392357B1 (ko) * 2012-12-18 2014-05-12 조선대학교산학협력단 2차원 및 3차원 정보를 이용한 표지판 검출 시스템
GB201506015D0 (en) * 2015-04-09 2015-05-27 Nokia Technologies Oy An arrangement for image segmentation
US20150206312A1 (en) * 2014-01-17 2015-07-23 Htc Corporation Image segmentation device, image segmentation method, and depth map generating method
US20160171706A1 (en) * 2014-12-15 2016-06-16 Intel Corporation Image segmentation using color & depth information
CN106780516A (zh) * 2017-01-04 2017-05-31 努比亚技术有限公司 一种实现交互式图像分割的方法、装置及终端
CN108895981A (zh) * 2018-05-29 2018-11-27 南京怀萃智能科技有限公司 一种三维测量方法、装置、服务器和存储介质
CN109658418A (zh) * 2018-10-31 2019-04-19 百度在线网络技术(北京)有限公司 场景结构的学习方法、装置及电子设备
CN111539937A (zh) * 2020-04-24 2020-08-14 北京海益同展信息科技有限公司 一种物体指标的检测方法、家畜重量的检测方法及装置
CN112258528A (zh) * 2020-11-02 2021-01-22 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备
CN112634296A (zh) * 2020-10-12 2021-04-09 深圳大学 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN113205520A (zh) * 2021-04-22 2021-08-03 华中科技大学 一种对图像进行语义分割的方法及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101392357B1 (ko) * 2012-12-18 2014-05-12 조선대학교산학협력단 2차원 및 3차원 정보를 이용한 표지판 검출 시스템
US20150206312A1 (en) * 2014-01-17 2015-07-23 Htc Corporation Image segmentation device, image segmentation method, and depth map generating method
US20160171706A1 (en) * 2014-12-15 2016-06-16 Intel Corporation Image segmentation using color & depth information
GB201506015D0 (en) * 2015-04-09 2015-05-27 Nokia Technologies Oy An arrangement for image segmentation
CN106780516A (zh) * 2017-01-04 2017-05-31 努比亚技术有限公司 一种实现交互式图像分割的方法、装置及终端
CN108895981A (zh) * 2018-05-29 2018-11-27 南京怀萃智能科技有限公司 一种三维测量方法、装置、服务器和存储介质
CN109658418A (zh) * 2018-10-31 2019-04-19 百度在线网络技术(北京)有限公司 场景结构的学习方法、装置及电子设备
CN111539937A (zh) * 2020-04-24 2020-08-14 北京海益同展信息科技有限公司 一种物体指标的检测方法、家畜重量的检测方法及装置
CN112634296A (zh) * 2020-10-12 2021-04-09 深圳大学 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN112258528A (zh) * 2020-11-02 2021-01-22 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备
CN113205520A (zh) * 2021-04-22 2021-08-03 华中科技大学 一种对图像进行语义分割的方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114066985A (zh) * 2022-01-11 2022-02-18 深圳金三立视频科技股份有限公司 一种输电线隐患距离的计算方法及终端

Similar Documents

Publication Publication Date Title
US10373380B2 (en) 3-dimensional scene analysis for augmented reality operations
US11270497B2 (en) Object loading method and apparatus, storage medium, and electronic device
US9646410B2 (en) Mixed three dimensional scene reconstruction from plural surface models
US11151780B2 (en) Lighting estimation using an input image and depth map
EP3815043A1 (en) Systems and methods for depth estimation via affinity learned with convolutional spatial propagation networks
CN105912912A (zh) 一种终端用户身份登录方法和***
Garcia et al. Real‐time depth enhancement by fusion for RGB‐D cameras
WO2019244944A1 (ja) 三次元再構成方法および三次元再構成装置
CN115330940B (zh) 一种三维重建方法、装置、设备和介质
KR102362470B1 (ko) 족부 정보 처리 방법 및 장치
CN114140563A (zh) 虚拟对象的处理方法及装置
US8824778B2 (en) Systems and methods for depth map generation
CN114663598A (zh) 三维建模方法、装置和存储介质
CN113538467A (zh) 图像分割方法和装置及图像分割模型的训练方法和装置
CN117036571B (zh) 图像数据生成、视觉算法模型训练、评测方法及装置
US11281935B2 (en) 3D object detection from calibrated 2D images
CN117541546A (zh) 图像裁剪效果的确定方法和装置、存储介质及电子设备
CN113470124B (zh) 特效模型的训练方法及装置、特效生成方法及装置
CN114937072A (zh) 图像处理方法和装置、电子设备、计算机可读存储介质
CN115619924A (zh) 用于光估计的方法与装置
CN113223017A (zh) 目标分割模型的训练方法、目标分割方法及设备
Masson et al. Comparison of algorithms for 3d reconstruction
US20240153046A1 (en) Multi-view segmentation and perceptual inpainting with neural radiance fields
CN112907459B (zh) 图像处理方法及装置
EP4198893A1 (en) Interactive 3d annotation tool with slice interpolation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination