CN116137913A - 用于对象分割的方法、数据处理***、计算机程序产品和计算机可读介质 - Google Patents
用于对象分割的方法、数据处理***、计算机程序产品和计算机可读介质 Download PDFInfo
- Publication number
- CN116137913A CN116137913A CN202080104787.XA CN202080104787A CN116137913A CN 116137913 A CN116137913 A CN 116137913A CN 202080104787 A CN202080104787 A CN 202080104787A CN 116137913 A CN116137913 A CN 116137913A
- Authority
- CN
- China
- Prior art keywords
- contour
- segmented
- segmentation
- representation
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 230000011218 segmentation Effects 0.000 title claims abstract description 87
- 238000012545 processing Methods 0.000 title claims abstract description 20
- 238000004590 computer program Methods 0.000 title claims abstract description 9
- 238000010801 machine learning Methods 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims description 35
- 230000009466 transformation Effects 0.000 claims description 31
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000013519 translation Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000013459 approach Methods 0.000 description 15
- 239000013598 vector Substances 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001194460 Castrella Species 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004377 improving vision Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/168—Segmentation; Edge detection involving transform domain methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
Abstract
本发明是一种用于图像中的对象分割的方法,包括以下步骤:‑将该图像输入到经训练的机器学习***,以及‑重构对象的分割轮廓。该方法的特征在于包括以下步骤:‑‑通过经训练的机器学习***估计图像中的对象的分割轮廓的表示,其中该分割轮廓是闭合的二维参数曲线,其每个点由两个坐标分量定义,其中这两个坐标分量都被参数化,以及‑‑其中从分割轮廓的所估计表示中执行对该对象的分割轮廓的重构。本发明还涉及执行以上方法的数据处理***、计算机程序产品和计算机可读介质。
Description
技术领域
本发明涉及一种用于图像中的对象分割的方法。本发明还涉及实现该方法的数据处理***、计算机程序产品和计算机可读介质。
背景技术
在现代计算机视觉中,图像理解通常通过诸如对象检测和语义或实例级分割(或换言之,对象分割)的特定任务来实现。在对象检测中,图像中的对象或对象实例(即,对象类别内的对象的特定样本/种类)的位置,例如在汽车应用的情况下,个体汽车、行人、交通标志被预测为围绕该对象的框(矩形)(通常被称为边界框)的像素坐标。另一方面,语义或实例分割任务旨在对整个图像进行密集像素级标记,从而为每个像素指定对象类别和/或特定实例。具体而言,图像中的实例分割的任务是用像素所属的实例的标识标签、数字或代码来标记每个像素。结果,为每个对象提供掩码,从而标记图像中与对象相关联的那些像素。与常用的边界框(或边界矩形)表示相比,这种类型的表示对在场景中可见的对象的位置、范围和形状给出更精确的描述。
在US 10,067,509B1中公开了一种用于检测遮挡对象的像素级分割方法。该方法通过针对每个像素预测a)不同目标类别(例如,汽车、行人)的语义标记以及b)指示像素是否是轮廓点的二进制标记来执行像素级实例分割。各个实例掩码可以通过将类别的像素与预测轮廓分开来恢复。
在US 10,311,312B2中扩展了上述技术方案,其中针对分别处置静态和动态情形,对两个分开的分类器进行训练。如果在多个视频帧上跟踪特定车辆是成功的,则使用动态分类器,否则将静态分类器应用在个体帧上。与上述文献中一样,相同的像素级办法被用于分割。
文献US 2018/0108137 A1也公开了实例级语义分割***,其中通过预测每个对象周围的边界框来确定图像中的目标对象的大致位置。然后在第二步骤中,使用每个对象实例的上述边界框来预测像素级实例掩码。
像素级分割方法的主要缺点是它们的高计算需求和相关的时间消耗。在分割任务的某些方面中,识别速度是至关重要的,即在自动驾驶车的情况下。要求太多计算能力或简单地对于实时结果而言太慢的方法不适合此类应用。
加速计算的办法导致如下技术方案,其中创建较小的地图(实例地图),即具有较低分辨率,并且随后将地图缩放到图像的尺寸。
一个示例是K.He等人的“Mask R-CNN”(2017)的出版物,其公开了用于对象实例分割的两步办法。首先,应用对象建议步骤以粗略地定位图像中的一个或多个目标类别的所有实例。然后,在第二步骤中,将实例分割问题定义为像素标记任务,其中在固定大小(例如,14×14像素)网格上直接预测实例的分割掩码的二进制像素。这里,掩码中的二进制1表示相应对象的像素位置。然后,所预测的掩码被变换/重新缩放回到对象的正确位置和大小。该解决方案的缺点在于,即使对于这种小网格,也使用具有至少14×14=122的输出尺寸的非常复杂的神经网络。这种节点量和加权因子减慢了分割,此外所生成的小图必须被缩放和插值到全图像的尺寸,这进一步降低了该方法的速度和效率。
在US 2009/0340462 A1中公开了类似的方法,其中使用神经网络来标识图像中的显著对象的像素。首先,降低图像的分辨率,并且将神经网络应用于该经缩小的图像以标识属于图像中的主要对象的像素,基于此来标识在原始的全分辨率图像中的主要对象的像素。
上述技术方案的缺点是需要进一步的步骤来确定图像中对象的轮廓或像素,这需要进一步的计算能力和时间。
另一种用于分割的办法是通过多边形来近似对象的轮廓,并且优选地通过经训练的神经网络来预测多边形而不是对象的精确轮廓。与像素级分割技术相比,这种办法显著减少了计算时间和计算需求。
在L.Castrellón等人“Annotating Object Instances with a Polygo-RNN(使用多边形RNN注释对象实例)”(IEEE计算机视觉与模式识别会议(CVPR),2017,第5230-5238页)的出版物中,作者提出了通过勾勒实例外形的多边形表示实例分割掩码的解决方案。多边形的顶点用递归神经网络依次逐一重构。来自同一研究组的这种办法的扩展是“Polygo-RNN++”(2018)。该解决方案的缺点是递归神经网络具有复杂的结构,导致较慢的计算。
在N.Benbarka等人的“FourierNet:Compact mask representation forexecution using differentiable shape decoder(使用可微分形状解码器执行的紧凑掩码表示)”(arXiv:2002.02709[cs.CV],2020)的出版物中引入了另一种办法。与两阶段分割方法相比,该出版物公开了单阶段分割方法。这种办法通过一组点来表示对象的轮廓,这些点是从该轮廓的质心附近开始的假想光线与该轮廓的交点,这是该轮廓的单分量参数化。如果对于单条光线存在更多的交点,则选择离质心更远的交点。神经网络被用于预测代表该轮廓的点集的傅里叶系数(傅里叶描述符),通过该傅里叶逆变换来重构该轮廓。然而,在该方法中使用的步骤一方面限制了有待建模的形状的复杂性,并且另一方面减少了存在于被忽略的轮廓坐标中的信息。该方法的最大缺点是,具有凹形形状的对象的轮廓不可能被正确地预测和重构,只有对象的轮廓的包络可以被近似。然而,在某些应用中,需要精确的形状或轮廓重构。
鉴于已知的办法,需要一种方法,借助于该方法,可以对具有任何轮廓(包括凹形轮廓)的对象执行图像中的对象的分割。
发明描述
本发明的主要目的是提供用于图像中的对象分割的方法,其在最大可能的程度上没有现有技术办法的缺点。
本发明的目的是提供一种方法,借助于该方法,可以以比现有技术办法更高效的方式分割图像中的对象,以便能够实现具有任何形状或轮廓的对象的分割。因此,本发明的目的是提供一种能够对在图像中具有任何形状的对象的轮廓进行重构的可靠的分割方法。
本发明的又一目的是提供包括用于执行根据本发明的方法的各步骤的装置的数据处理***。
此外,本发明的目的是提供一种用于在一台或多台计算机上实现根据本发明的方法的步骤的非暂态计算机程序产品和一种包括指令的非暂态计算机可读介质,该指令用于在一台或多台计算机上执行该方法的步骤。
本发明的目的可通过如权利要求1所述的方法来达成。本发明的目的还可通过根据权利要求14的数据处理***、根据权利要求15的非暂态计算机程序产品和根据权利要求16的非暂态计算机可读介质来实现。本发明的优选实施例在从属权利要求中定义。
与现有技术办法相比,根据本发明的方法的主要优点来自这样一个事实,即它可以重构具有任何形状(包括复杂形状,甚至凹形)的对象的轮廓(分割轮廓)。这样,与现有技术中已知的任何方法相比,可以实现更精确的对象分割,因为可以通过更高的精度来确定对象的位置。
已经认识到,使用轮廓的两坐标参数化允许精确表示任何闭合的二维曲线,即图像中对象的复杂轮廓,而不存在歧义。分割方法经常被用于决策过程中,例如在汽车应用中,其中决策的速度至关重要。加快决策过程的明显选择是使用即使从几个特征点也可以轻松快速地识别的预先确定的简单形状。与该办法相反,根据本发明的方法被适配成识别任意的复杂形状。已经认识到,尽管任意复杂形状的确定可能增加该方法的计算需求,但它也增加了基于检测到的轮廓的决策过程的精度,这在各种安全关键应用(诸如与自动驾驶车辆或医学应用相关的应用)中是合需的。此外,根据本发明的分割轮廓的参数化提供了灵活性和控制,以平衡该方法的精度和计算效率。
还已经认识到,代替轮廓的简单的两坐标表示,将使用经变换(例如傅里叶变换)的表示,以降低由实现任何已知的机器学习算法或方法的机器学习***(例如包括神经网络,例如卷积神经网络(CNN),其提供轮廓表示的高效估计)用于估计轮廓表示的计算需求。通过使用具有固定长度的经变换表示,得到轮廓的紧凑表示,与涉及像素级实例描述的当前技术相比,可以降低经训练的机器学习***的复杂性,这导致更高的处理速度和更小的内存占用。还有利的是,可以容易地从紧凑表示重构轮廓。
另一个优点是,由于较小的计算需求,如果使用相同的计算能力,与现有技术解决方案相比,根据本发明的方法可以以更高的精度重构对象的轮廓。
根据本发明的方法能够分割图像中的多个对象,包括被遮挡或部分隐藏的对象。被遮挡或部分隐藏的对象是在图像中总体上不可见的对象,例如,因为它的至少一部分隐藏在另一个对象后面,在这种情况下,对象的可见部分可以被分割,并且取决于该方法的具体实施例,对象的被遮挡部分可以被忽略或者被指派给同一对象的可见部分。
根据本发明的方法的某些实施例能够通过估计对象的形状的典型外观(基本表示或参考轮廓)并且还通过估计几何变换的至少一个几何参数(诸如对象的缩放、旋转、镜像或平移或其组合)来重构对象的轮廓,其中一个或多个几何参数对应于图像中对象的大小、位置和取向。分割对象的基本形状和上述几何变换提供了可以以更高效的方式估计的对象轮廓的表示,其中基本形状或参考轮廓对于上述几何变换是不变的。某些机器学***移是不变的,这与对象轮廓的这种不相交表示很好地一致。通过应用这种不相交表示,可为位于图像不同部分处的同一对象估计相同的参考轮廓,而不管其大小、位置和方向如何。关于精确尺寸、位置和取向的信息可以用几个几何参数来编码。此外,在实际应用中,几何变换很好地近似于3D空间中的刚体变换,即投影到图像上的对象的移动。因此,在顺序地处理多个图像(例如,相机流的图像)的情况下,其中连贯图像彼此相似,图像中对象的整体形状几乎相同,但大小、位置或取向可能略有不同。确定形状和相应的几何参数的办法进一步降低了该方法的计算需求并且允许图像中的对象的更快分割。此种表示更易于被包括但不限于卷积神经网络的机器学习方法学习。
因此,根据本发明的方法可被用在任何基于视觉的场景理解***中,包括医学应用(医学图像处理)或改善自动驾驶车辆的视觉。
附图的简要说明
下面参考附图通过示例来描述本发明的优选实施例,其中:
图1和图2解说了根据本发明的方法的优选实施例的各步骤,
图3和图4解说了根据本发明的方法的另一优选实施例的各步骤,
图5是通过神经网络确定的分割轮廓的傅立叶描述符的值的示例,
图6解说了根据图4的方法在图像上的应用,
图7示出了由根据图2的方法以及根据图4的方法通过手动注释确定的经重构的分割轮廓的比较,
图8示出了傅立叶描述符的系数的示例性值,以及
图9解说了根据本发明的方法用于重构被遮挡对象的分割轮廓。
用于执行发明的模式
本发明涉及一种用于图像中的对象或对象实例的分割(所有一切称为对象分割)的方法。对象实例优选地被限定为因应用而异的一组感兴趣的类别,例如汽车应用中的汽车、行人等或医学应用中的各种器官。贯穿整个描述,“对象”一词可以指示来自同一类别的不同对象实例,或来自不同类别的对象。此外,术语“对象分割”被用于实例分割的任务,即用像素所属的相应对象实例的标识标签来标记图像的像素。在图像中仅存在一个对象的应用中,对象分割简化为语义分割,即用其类别标记每个像素。
在对象分割的情况下,通常的任务是预测与图像中的特定对象相对应的每个像素的标记(标识标签,例如数字、代码或标签),从而生成像素级的对象掩码。在根据本发明的方法中,待分割的对象由其在图像中的轮廓(分割轮廓)表示,基于该轮廓可以创建对象的掩码,即,通过在分割轮廓内包括像素而具有或不具有分割轮廓本身。
根据本发明,代替直接确定分割轮廓点的真实空间坐标,从分割轮廓的点生成表示,优选地是紧凑表示。分割轮廓的这种表示(通常称为轮廓的描述符或描述符)可以由机器学习***学习。机器学习***优选实现任何已知的机器学习算法或方法,例如,机器学习***包括神经网络,优选是卷积神经网络。经训练的机器学习***可以确定描述符,从该描述符可以优选地通过逆变换重构分割轮廓。与现有技术中已知的其他机器学习算法/方法相比,由于其在分割任务中的高效率而导致附图中示出的根据本发明的方法的实施例通过应用神经网络作为机器学习算法来实现。然而,例如用于滤波或特征提取的方法(例如,尺度不变特征变换(SIFT)、定向梯度直方图(HOG)、Haar滤波器或Gabor滤波器)、递归方法(例如单向量递归(SVR)或决策树)、集成方法(例如随机森林、增强)、特征选择(例如,最小荣誉和最大相关(MRMR)、降维(例如主成分分析(PCA))或其任何合适的组合。必须对机器学习算法/方法进行训练,以匹配图像和对象轮廓的表示(描述符),从中可重构分割轮廓。根据本发明的用于图像中的对象分割的方法包括以下步骤:
-将该图像输入到经训练的机器学习***,
--通过经训练的机器学习***估计图像中的对象的分割轮廓的表示,其中
该分割轮廓是闭合的二维参数曲线,其每个点由两个坐标分量定义,其中这两个坐标分量都被参数化,以及
--从分割轮廓的所估计表示重构该对象的分割轮廓。
根据本发明,对象的分割轮廓是闭合的二维参数曲线,其点(轮廓点)由两个坐标分量定义,其中这两个坐标分量都被参数化。使用离散数量的轮廓点可以限制方法的复杂性并降低计算需求。
优选地,分割轮廓的两个坐标分量被独立地参数化,例如通过类时间参数,优选地通过单个类时间参数。2D平面内的参数化坐标分量可以使用例如笛卡尔坐标、极坐标或复数(或任何替代)坐标表示在任何坐标系和参考系中表示。对二维曲线的两个坐标分量进行参数化的优点是可以表示具有任何形状(包括凹形)的曲线。在根据本发明的方法的优选实施例中,分割轮廓由笛卡尔坐标表示,甚至更优选地,分割轮廓通过用对曲线的轨迹r进行编码的类时间参数t(即r(t))=(x(t),y(t))参数化的笛卡尔坐标表示,其中x和y是定义分割轮廓的轮廓点的各自笛卡尔坐标的函数。在另一优选实施例中,分割轮廓的参数化经由其切线向量(即沿着轨迹的速度)来编码,该切线向量可以被提取成轮廓的位移向量。在另一优选实施例中,分割轮廓被参数化成将分割轮廓的点链接在一起的标准化线段序列。
代替直接估计分割轮廓的轮廓点,根据本发明的方法通过经训练的机器学习***估计轮廓的表示,优选地是经变换的紧凑表示。该方法的精度,即分割轮廓与对象的精确轮廓的接近度,可以通过将变换表示的尺寸来控制,例如也考虑可用的计算资源。经变换的表示还允许分割轮廓的不相交表示,该不相交表示包括对象的一般形状(例如参考轮廓)和施加在该形状上的几何变换。在本发明的优选实施例中,紧凑表示可以通过傅里叶变换生成,甚至更优选通过离散傅里叶变换生成。`
因此,在本发明的优选实施例中,优选地通过傅里叶变换,甚至更优选地通过离散傅里叶变换,将上述位移向量的序列从空间域变换到频域。结果,分割轮廓由傅里叶谐波的振幅表示。该特定表示在文献中通常被称为曲线的椭圆傅里叶描述符(EFD)(F.P.Kuhl和C.R.Giardina,“Elliptic Fourier features of aclosed contour(闭合轮廓的椭圆傅里叶特征)”,计算机图形和图像处理,1982)。离散傅里叶变换的优点在于,可以对曲线的任何双分量参数化进行离散傅里叶变换。为了获得分割轮廓的紧凑表示,描述符的系数数量被限制为固定值。当估计分割轮廓的表示(描述符)时,该值可以是机器学习算法的输入参数,并且它控制重构分割轮廓的准确度(精度)。通过用单个系数向量表示对象的分割轮廓,提供了固定长度的紧凑表示。该向量的长度与所使用的谐波的数量成比例,例如,在傅里叶变换的情况下,指示变换顺序的傅里叶谐波的数量。在下文中,该固定长度向量被称为傅里叶描述符。
对于单个频率,两个实值傅里叶系数分别计及给定谐波的振幅和相位。总共,需要四个实值系数来表示沿二维真实空间轮廓的双分量轨迹的单个频率分量。结果,在分割轮廓由椭圆傅里叶描述符表示的情况下,描述符的长度是4×O,其中O表示变换的谐波数量(在文献中也称为阶数)。这样,根据本发明的方法将对象分割的任务简化成包含分割轮廓的描述符的固定长度向量的递归。该任务可以从包含图像和分割轮廓(或对象掩码)对的现有训练数据集中学习,从现有训练数据集中可以导出上述向量表示。递归可以以任何形式实现,包括机器学习方法/算法,例如通过卷积神经网络。可以通过应用变换的逆来从描述符重构分割轮廓,即,在椭圆傅里叶描述符的情况下,可以使用离散傅里叶逆变换。
需要强调的是,诸如笛卡尔坐标、极坐标或复向量之类的系数的任何适当表示对于所提出的方法都是等效的。
图1和2解说了根据本发明的方法的优选实施例,其中经训练的学习***包括神经网络20。在步骤S100(图2)中,神经网络20被训练以估计图像10中的对象的分割轮廓40的表示,其中分割轮廓40的表示是傅立叶描述符30,优选的是椭圆傅立叶描述符,在步骤S110(图2)中可通过傅立叶逆变换从该描述符中重构分割轮廓40。傅里叶描述符30的示例如图5中所示。在该实施例中,神经网络20直接确定傅里叶描述符30,从该傅里叶描述符30可以直接重构分割轮廓40,即对于重构不需要对傅里叶描述符30进行修改。经重构的分割轮廓40与待分割对象的精确轮廓(边界)的偏差取决于傅里叶描述符30中使用的傅里叶系数的数量。通过增加傅里叶描述符30中傅里叶系数的数量,经重构的分割轮廓40将接近对象的精确轮廓(边界),然而,即使有限数量的傅立叶系数,例如对应于具有阶数8的傅里叶变换的32个傅里叶系数,导致经重构的分割轮廓40相当接近精确轮廓(参见图7及其描述)。
图3和图4解说了根据本发明的方法的又一优选实施例。在该实施例中,机器学***移、旋转、镜像或它们的任何适当组合。几何参数34可以表示图像10中对象的实际大小、位置和取向。利用这些属性,可以创建分离/不相交的表示,从而将这些几何因素与形状描述符(参考轮廓)分开。使用这种紧凑且分离的表示,递归问题变得更容易被机器学习***学习,因为参考轮廓和几何变换参数的表示是独立处理的。这种分离表示允许应用较不复杂的神经网络20,其具有更快的推理时间和更小的内存占用。此外,对更简单表示的学习通常较少受到神经网络20的过拟合,并且因此提高了习得模型的泛化属性。
在图3和图4中解说的实施例中,分割轮廓的表示包括傅里叶描述符,傅里叶描述符是参考轮廓的傅里叶变换。神经网络20的输出是待分割对象的参考轮廓的傅里叶描述符30’和几何变换的至少一个几何参数34。在步骤S130(图4)中,将参考轮廓的傅里叶描述符30’和几何参数34一起组合成经调整描述符36,其中经调整描述符36是分割轮廓40’的所估计表示。在步骤S110’(图4)中,通过应用傅里叶逆变换,优选地是离散傅里叶逆变换(IDFT),从经调整描述符36重构分割轮廓40’。图6中可以看到上述方法的实施例的各步骤的解说。
在根据本发明的方法的又一优选实施例中(未解说,附图标记指图3和图4中的附图标记),分割轮廓的所估计表示优选地包括属于对象的典型外观的参考轮廓的表示和几何变换的至少一个几何参数34。几何变换优选地是任何种类的几何变换,诸如缩放、平移、旋转、镜像或其任何合适的组合,其中几何参数34可以表示对象的实际大小、位置和取向。分割轮廓的表示优选地包括傅里叶描述符,优选是椭圆傅里叶描述符,傅里叶描述符是参考轮廓的傅里叶变换。为了重构分割轮廓40’,首先,优选地通过对参考轮廓的傅里叶描述符应用傅里叶逆变换,甚至更优选地应用离散傅里叶逆变换从参考轮廓的表示重构参考轮廓。然后,在第二步骤中,通过对经重构参考轮廓应用几何变换,将经重构参考轮廓转换成分割轮廓40’。
图5示出了根据图1和图2的方法的由机器学习***所包括的神经网络20估计的傅里叶描述符30的示例性值,在这种情况下是椭圆傅里叶描述符。在所解说的情况下,使用高达8阶的傅里叶变换来表示对象的分割轮廓40,因此由神经网络20估计8×4个傅里叶系数。通过对构成傅里叶描述符30的这些所估计系数应用傅里叶逆变换,可以重构对象的分割轮廓40。
图6中解说了根据图3和图4的方法的实现。包括神经网络20的机器学***和垂直位移,分别由Δx和Δy表示,以及缩放因子。傅里叶描述符30’和几何参数34被组合成经调整描述符36,从中可以通过傅里叶逆变换重构对象的分割轮廓40’。
图6还包括手动注释的轮廓,即图像10的地面真实轮廓12。从地面真实轮廓12和经重构的分割轮廓40’的定性比较中可以看出,后者给出了精确轮廓的良好近似,即对象的位置、大小和一般形状与地面真实轮廓的一致。
图7中解说了根据图2的方法和根据图4的方法、通过手动注释确定的经重构的分割轮廓的详细比较。图7的第一行由待分割的图像10a、10b、10c组成。图像10a、10b、10c是在不同视图中示出同一对象(车辆)的灰度或彩色图像,因此对象的大小和位置不同。图7的第二行示出了通过手动注释确定的对象的地面真实轮廓12a、12b、12c。
图7的第三行示出了根据图2所示方法的优选实施例的分别重构的图像10a、10b、10c的分割轮廓40a、40b、40c。每个经重构的分割轮廓40a、40b、40c的质心用叉号表示。经重构的分割轮廓40a、40b、40c与图像10a、10b、10c中看到的对象以及地面真实轮廓12a、12b、12c一致。根据图1和图2,经重构的分割轮廓40a、40b、40c由经训练的机器学习***的神经网络20从由经训练的计算机学习***确定的傅里叶描述符30重构。在该特定示例中,傅里叶描述符30具有与具有八次谐波的傅里叶变换(傅里叶变换的阶数为8)相对应的32个系数。
图7的第四行示出了根据图4的方法的优选实施例分别重构的图像10a、10b、10c的分割轮廓40’a、40’b、40’c。每个经重构的分割轮廓40a、40b、40c的质心用加号表示。
如图7中可以看到的,根据本发明的方法的不同实施例,例如根据图2的方法和根据图4的方法,产生了相似的经重构的分割轮廓40a、40b、40c和经重构的分割轮廓40’a、40’b、40’c。所有的经重构的分割轮廓40a、40b、40c和经重构的分割轮廓40’a、40’b、40’c与相应的地面真实轮廓12a、12b、12c相似。
图8表示根据图7的傅里叶描述符(傅里叶系数)的系数值的比较图。傅里叶系数根据分割轮廓的两个坐标表示进行分组,即在笛卡尔基础上分割轮廓的水平和垂直坐标分量。图8的图表比较了傅里叶系数的各个值,其中白色柱表示根据图7的地面真值轮廓12a、12b、12c的值(第二行),黑色柱表示根据图2的方法的傅里叶系数的值(图7的第三行),并且其中条纹柱表示根据图4的方法的傅里叶系数的值(图7的第四行)。从图8的图中可以看出,经重构的分割轮廓40a、40b、40c、40’a、40’b、40’c给出了地面真实轮廓12a、12b、12c的良好近似,因此根据本发明的方法的实施例可以用于图像中对象的快速可靠分割。
图9给出了使用根据本发明的方法重构图像10中具有阻挡/遮挡视图的对象(例如部分隐藏的对象)的分割轮廓的示例。在该示例中,图像10中的对象的一部分被人为覆盖,在其他情况下,对象可能被不同的对象(遮挡对象)覆盖。在根据本发明的方法的特定应用中,可以忽略对象的被遮挡部分,或者在其他应用中,将被遮挡部分指派给同一对象的可见部分。
在遮挡的情况下,最好在分割期间用相同的标识标签表示同一对象的各部分。根据根据本发明的方法的优选实施例,可为遮挡对象确定表示例如深度或层的排序参数。基于排序参数,例如具有带有相同或相似值的排序参数,可以标识属于同一被遮挡对象的分割轮廓,并且可以将相同的标识标签指派给属于同一对象的分割轮廓。
在又一优选实施例中,为了处理遮挡,由机器学习算法生成可见性分值,优选地用于每个分割轮廓的所估计表示。可见性分值优选地指示每个对象部分的可见性或不可见性,这是由遮挡将对象分割成多个部分而导致的。基于可见性分值,可以忽略或省略不可见的对象部分,例如可以从经分割图像中排除,或者可替换地,可以将不可见对象部分指派给同一对象(即通过指派相同的标识标签)的可见部分。优选地基于如上所述的排序参数来指派相同的标识标签。
根据图9中示出的实施例,经训练的机器学习***包括神经网络20,其中神经网络20被训练以检测预定数量的对象和/或构成预定数量的部分的单个对象。在根据图9的示例中,构成一对象的最大部分数量是3,或者替换地,分割三个个体对象。因此,根据该方法的该实施例的神经网络20估计三个傅里叶描述符30(三组傅里叶系数),优选椭圆傅里叶描述符,每个傅里叶描述符30的值以图表表示,类似于图5。神经网络20还确定指示每个对象或对象部分的可见性的可见性分值。如果对象或对象部分不可见(被遮挡),其可见性分值将是零。在该示例中,图像10中仅存在两个可见对象(即,同一对象的两个部分),因此只有这两个对象具有非零可见性分值。
在本示例中,可见对象部分的可见性分值是1,然而其他非零值可被用于指示可见对象或对象部分的其他参数或特征。在根据本发明的方法的某些实施例中,可见性分值可以包括排序参数的值,例如对应于距拍摄图像10的相机的距离。基于可见性分值和/或排序参数,可以确定分割轮廓的关系,优选地是空间关系,并且可以标识属于同一对象的分割轮廓。
在根据图9的示例中,图像10中的可见对象或对象部分的可见性分值是1,而图像10中的不可见对象和对象部分(隐藏或遮挡的对象或对象部分)的可见性分值是0。根据图9,经由离散傅里叶逆变换(IDFT),仅对可见对象或对象部分(即,具有指示可见性的可见性分值)(在这种情况下,仅对具有非零可见性分值的对象/对象部分)进行分割轮廓的重构。在同一经重构的分割轮廓图像中示出了每个对象/对象部分的经重构的分割轮廓40。
本发明还涉及一种数据处理***,其包括用于执行根据本发明的方法的各步骤的装置。数据处理***优选地在一个或多个计算机上实现,并且它被训练用于对象分割,例如用于提供对象的分割轮廓的表示的估计。数据处理***的输入是待分割的图像,该图像包括一个或多个对象或对象部分。对象的分割轮廓被表示为闭合的二维参数曲线,其每个点由两个坐标分量定义,其中这两个坐标分量都被参数化。结合图1和图2更详细地讨论了分割轮廓表示的特性特征。数据处理***优选地包括通过本领域已知的任何训练方法训练的机器学习***,优选地,该机器学习***在具有轮廓(地面真实轮廓)的手动注释的分割图像上以及在作为闭合的二维参数曲线的分割轮廓的表示上进行训练,其每个点由两个坐标分量定义,其中这两个坐标分量都被参数化。优选地,分割轮廓的表示是傅里叶描述符,甚至更优选地是椭圆傅里叶描述符。
优选地,数据处理***的机器学***移、旋转和/或镜像,并且标识标签优选地是每个对象的唯一标识符。
在优选实施例中,相同的标识标签被指派给同一对象的各部分。在又一优选实施例中,数据处理***的机器学习***被训练以分割图像中的多个对象和/或由于遮挡而分解成各部分的对象。优选的数据处理***包括机器学习***,该机器学习***被训练以确定每个对象或对象部分的与相应对象或对象部分的可见性相关的可见性分值。为了处理遮挡,可见性分值可以包括表示遮挡对象的相对位置的排序参数的值,基于该排序参数,可以将相同的标识标签指派给属于同一对象的对象部分。
数据处理***的机器学习***优选地包括为对象分割而训练的神经网络,更优选地是卷积神经网络。
此外,本发明涉及一种计算机程序产品,其包括当程序由计算机执行时使计算机执行根据本发明的方法的实施例的指令。
该计算机程序产品可由一台或多台计算机执行。
本发明还涉及一种计算机可读介质,其包括当由计算机执行时使计算机执行根据本发明的方法的实施例的指令。
计算机可读介质可以是单个介质,或者可以包括多个单独件。
本发明当然不限于以上详细描述的优选实施例,而是附加变体、修改和开发在权利要求书所确定的保护范围内是可能的。此外,可由任一任意从属权利要求组合限定的所有实施例属于本发明。
附图标记列表
10图像
10a,10b,10c图像
12地面真实轮廓
12a,12b,12c地面真实轮廓
20 神经网络
30,30’ 傅立叶描述符
34 几何参数
36 经调整描述符
40,40’ 分割轮廓
40a,40b,40c分割轮廓
40’a,40’b,40’c分割轮廓
S100,S100’ (傅立叶描述符估计)步骤
S110,S110’ (轮廓重构)步骤
S120 (几何参数估计)步骤
S130 (经调整描述符生成)步骤
Claims (16)
1.一种用于图像中的对象分割的方法,包括以下步骤:
-将所述图像输入到经训练的机器学习***,以及
-重构所述对象的分割轮廓,
其特征在于:
-通过所述经训练的机器学习***估计所述图像中的对象的分割轮廓的表示,其中所述分割轮廓是闭合的二维参数曲线,所述分割轮廓的每个点由两个坐标分量定义,其中这两个坐标分量都被参数化,以及
-其中从所述分割轮廓的所估计表示中执行对所述对象的所述分割轮廓的重构。
2.如权利要求1所述的方法,其特征在于,所述分割轮廓的所述两个坐标分量是独立参数化的。
3.如权利要求1或权利要求2所述的方法,其特征在于,所述分割轮廓的所述两个坐标分量是由单个类时间参数来参数化的。
4.如权利要求1到3中任一项所述的方法,其特征在于,所估计表示包括:
-由所述经训练的机器学习***估计的几何变换的至少一个参数,以及
-属于由所述经训练的机器学习***估计的所述对象的典型外观的参考轮廓的表示。
5.如权利要求4所述的方法,其特征在于,所述分割轮廓的重构是通过以下来执行的:
-通过将所述几何变换的所述至少一个参数与所述参考轮廓相组合来生成经调整的表示,并且从所述经调整的表示重构所述分割轮廓,或
-从所述参考轮廓的表示重构所述参考轮廓,并利用所述几何变换将经重构的参考轮廓变换成所述分割轮廓。
6.如权利要求4或权利要求5所述的方法,其特征在于,所述几何变换包括缩放、平移、旋转和/或镜像。
7.如前述权利要求中任一项所述的方法,其特征在于,所述分割轮廓的表示是通过傅里叶变换获得的,并且所估计表示包括由所述经训练的机器学习***估计的傅里叶描述符,并且所述分割轮廓的重构包括对所述傅里叶描述符应用傅里叶逆变换。
8.如权利要求7所述的方法,其特征在于,所述傅立叶描述符是椭圆傅立叶描述符。
9.如前述权利要求中任一项所述的方法,其特征在于,还包括通过所述经训练的机器学习***为每个分割轮廓生成标识标签。
10.如权利要求9所述的方法,其特征在于,为了处置遮挡,由所述经训练的机器学习***为每个分割轮廓的表示生成可见性分值,并且仅为具有指示所述对象的可见性的可见性分值的表示重构所述分割轮廓。
11.如权利要求10所述的方法,其特征在于,在遮挡的情况下,相同的标识标签被指派给属于同一对象的诸分割轮廓。
12.如前述权利要求中任一项所述的方法,其特征在于,所述经训练的机器学习***包括神经网络。
13.如权利要求12所述的方法,其特征在于,所述神经网络是卷积神经网络。
14.一种用于图像中的对象分割的数据处理***,包括用于估计所述图像中的对象的分割轮廓的表示的经训练的机器学习***,所述分割轮廓是闭合的二维参数曲线,其每个点由两个坐标分量定义,其中这两个坐标分量都被参数化,所述数据处理***被适配成:
-将待分割的所述图像输入到所述经训练的机器学习***,以及
-从所述分割轮廓的所估计表示中重构所述对象的分割轮廓。
15.一种包含指令的非瞬态计算机程序产品,当所述程序由计算机执行时,所述指令使所述计算机执行根据权利要求1到13中任一项所述的方法。
16.一种包括指令的非瞬态计算机可读介质,当由计算机执行时,所述指令使所述计算机执行根据权利要求1到13中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
HUP2000238 | 2020-07-17 | ||
HUP2000238 | 2020-07-17 | ||
PCT/HU2020/050059 WO2022013584A1 (en) | 2020-07-17 | 2020-12-16 | Method, data processing system, computer program product and computer readable medium for object segmentation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116137913A true CN116137913A (zh) | 2023-05-19 |
Family
ID=89666267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080104787.XA Pending CN116137913A (zh) | 2020-07-17 | 2020-12-16 | 用于对象分割的方法、数据处理***、计算机程序产品和计算机可读介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230298181A1 (zh) |
EP (1) | EP4182886A1 (zh) |
JP (1) | JP2023538490A (zh) |
KR (1) | KR20230039702A (zh) |
CN (1) | CN116137913A (zh) |
WO (1) | WO2022013584A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10424064B2 (en) | 2016-10-18 | 2019-09-24 | Adobe Inc. | Instance-level semantic segmentation system |
US10067509B1 (en) | 2017-03-10 | 2018-09-04 | TuSimple | System and method for occluding contour detection |
US10311312B2 (en) | 2017-08-31 | 2019-06-04 | TuSimple | System and method for vehicle occlusion detection |
US11244195B2 (en) | 2018-05-01 | 2022-02-08 | Adobe Inc. | Iteratively applying neural networks to automatically identify pixels of salient objects portrayed in digital images |
-
2020
- 2020-12-16 EP EP20845426.4A patent/EP4182886A1/en active Pending
- 2020-12-16 CN CN202080104787.XA patent/CN116137913A/zh active Pending
- 2020-12-16 KR KR1020237005219A patent/KR20230039702A/ko active Search and Examination
- 2020-12-16 US US18/016,495 patent/US20230298181A1/en active Pending
- 2020-12-16 WO PCT/HU2020/050059 patent/WO2022013584A1/en active Search and Examination
- 2020-12-16 JP JP2023502950A patent/JP2023538490A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2023538490A (ja) | 2023-09-08 |
KR20230039702A (ko) | 2023-03-21 |
US20230298181A1 (en) | 2023-09-21 |
EP4182886A1 (en) | 2023-05-24 |
WO2022013584A1 (en) | 2022-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oprea et al. | A review on deep learning techniques for video prediction | |
Santosh et al. | Tracking multiple moving objects using gaussian mixture model | |
CN110334762B (zh) | 一种基于四叉树结合orb和sift的特征匹配方法 | |
Romdhane et al. | An improved traffic signs recognition and tracking method for driver assistance system | |
EP0901667A2 (en) | Principal component analysis of image/control-point location coupling for the automatic location of control points | |
Gong et al. | Advanced image and video processing using MATLAB | |
JP2012226745A (ja) | 奥行き画像内の物体を検出する方法およびシステム | |
JP4567660B2 (ja) | 電子画像内で物体のセグメントを求める方法 | |
Varga et al. | Robust real-time pedestrian detection in surveillance videos | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
Kheirkhah et al. | A hybrid face detection approach in color images with complex background | |
Zhao et al. | Real-time moving pedestrian detection using contour features | |
Kim et al. | Robust facial landmark extraction scheme using multiple convolutional neural networks | |
Lin et al. | Temporally coherent 3D point cloud video segmentation in generic scenes | |
Harianto et al. | Data augmentation and faster rcnn improve vehicle detection and recognition | |
Gepperth et al. | Real-time detection and classification of cars in video sequences | |
Mondal et al. | Efficient silhouette-based contour tracking using local information | |
Fang et al. | Lane boundary detection algorithm based on vector fuzzy connectedness | |
Watanabe et al. | Distance to center of mass encoding for instance segmentation | |
Park et al. | Video retrieval of human interactions using model-based motion tracking and multi-layer finite state automata | |
Juang et al. | Moving object recognition by a shape-based neural fuzzy network | |
CN116137913A (zh) | 用于对象分割的方法、数据处理***、计算机程序产品和计算机可读介质 | |
Karbasi et al. | Real-time hand detection by depth images: A survey | |
Nguyen et al. | Inter-occlusion reasoning for human detection based on variational mean field | |
Manaa et al. | Autonomous approach for moving object detection and classification in road applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40088640 Country of ref document: HK |