CN104103062A

CN104103062A - 图像处理设备和图像处理方法

Info

Publication number: CN104103062A
Application number: CN201310119788.3A
Authority: CN
Inventors: 范伟; 刘伟; 何源; 孙俊; 皆川明洋; 堀田悦伸
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-04-08
Filing date: 2013-04-08
Publication date: 2014-10-15

Abstract

提供一种图像处理设备和图像处理方法。该图像处理设备包括：对象提取单元，用于从单目视频序列的帧中提取目标对象的图像，作为对象图像；配准单元，用于将观察对象图像针对参考对象图像进行配准，以获得配准参数，参考对象图像和观察对象图像是分别从参考帧以及参考帧之外的观察帧中提取的对象图像；特征提取单元，用于通过利用配准参数来提取能够反映观察对象图像与参考对象图像相比相对于成像平面的深度变化的特征；以及深度确定单元，用于基于所提取的特征确定深度变化。

Description

图像处理设备和图像处理方法

技术领域

本公开一般地涉及视频图像处理，尤其涉及一种能够根据单目视频序列确定目标对象相对于成像平面的深度变化的图像处理设备和图像处理方法。

背景技术

检测图像中的目标对象并且估计目标对象距离摄像机的距离被广泛地应用于各个领域，例如，视觉监控、障碍检测以及人机交互等。绝大多数传统的目标对象深度检测技术基于立体视觉原理来估计目标深度。在这种技术中，需要两个标定好的摄像机，通过分析来自该两个摄像机的图像对之间的对应关系来检测目标对象深度。

传统技术很少涉及单目视觉目标深度估计。在利用单目图像进行目标深度估计的一种方法中，公开了这样的方案：基于对运动目标对象的运动属性做出的一些假设，例如最大速度、最小速度变化、一致性和连续运动等，来检测运动目标；通过该检测，输出单目序列图像中每一运动目标对象在两个连续图像中的位置；然后，根据输出的位置，通过利用过约束（over-constrained）方法来估计运动目标的距离。

发明内容

在诸如上述方案的现有技术中，使用对象的运动特征来进行深度估计，算法相对复杂，且准确率不高。

本发明的目的在于提供一种图像处理设备和图像处理方法，通过在无需进行运动预测的情况下，考虑各个帧中的对象图像的、与目标对象深度变化相关联的变化特征来进行深度检测，从而代替对图像运动特征的分析。

根据本公开的一个方面，提供一种图像处理设备，包括：对象提取单元，用于从单目视频序列的帧中提取目标对象的图像，作为对象图像；配准单元，用于将观察对象图像针对参考对象图像进行配准，以获得配准参数，参考对象图像和观察对象图像是分别从参考帧以及参考帧之外的观察帧中提取的对象图像；特征提取单元，用于通过利用配准参数来提取能够反映观察对象图像与参考对象图像相比相对于成像平面的深度变化的特征；以及深度确定单元，用于基于所提取的特征确定深度变化。

在根据本公开的一个实施例中，特征提取单元可以将配准参数中反映对象图像尺寸变化的缩放参数提取为特征。

在根据本公开的另一个实施例中，如果用S表示观察帧针对参考帧的缩放参数，则：在S>1+ε_a时，深度确定单元确定目标对象相对于成像平面变浅；在S<1-ε_b时，深度确定单元确定目标对象相对于成像平面变深；以及否则，深度确定单元确定目标对象相对于成像平面的深度变化不确定。其中，ε_a和ε_b是作为确定的余量的小的正数。

在根据本公开的另一个实施例中，该图像处理设备还可以包括运动方向识别单元，用于识别目标对象相对于成像平面的运动方向。其中，当使图像处理设备对预定时段内的观察帧顺序执行深度确定时，运动方向识别单元可以依据由深度确定单元确定的结果序列对运动方向进行识别。

在根据本公开的另一个实施例中，当结果序列中存在连续的第一预定数目以上的“变深”时，运动方向识别单元可以识别出目标对象沿远离成像平面的方向运动；以及当结果序列中存在连续的第二预定数目以上的“变浅”时，运动方向识别单元可以识别出目标对象沿靠近成像平面的方向运动。

在根据本公开的另一个实施例中，当结果序列中存在连续的第三预定数目以上的“变深”，并且对应的缩放参数S的连乘积小于第一阈值时，运动方向识别单元可以识别出目标对象沿远离成像平面的方向运动；以及当结果序列中存在连续的第四预定数目以上的“变浅”，并且对应的缩放参数S的连乘积大于第二阈值时，运动方向识别单元可以识别出目标对象沿靠近成像平面的方向运动。

在根据本公开的另一个实施例中，特征提取单元可以包括：对齐单元，用于根据配准参数中的平移参数将观察对象图像与参考对象图像对齐；以及直方图生成单元，用于针对对齐的对象图像的边缘部分生成方向梯度直方图，作为能够反映深度变化的特征。

在根据本公开的另一个实施例中，对象提取单元可以包括检测单元。该检测单元用于使用多尺寸的滑动窗口检测对象图像，以确定对象图像所在区域。

在根据本公开的另一个实施例中，提取单元可以包括分割单元。该分割单元用于对对象图像所在区域执行分割处理，以提取出对象图像。

在根据本公开的另一个实施例中，检测单元可以使用经训练的目标对象检测器检测对象图像。

根据本公开的一个方面，提供一种图像处理方法，包括：从单目视频序列的帧中提取目标对象的图像，作为对象图像；将观察对象图像针对参考对象图像进行配准，以获得配准参数，参考对象图像和观察对象图像是分别从参考帧以及参考帧之外的观察帧中提取的对象图像；通过利用配准参数来提取能够反映观察对象图像与参考对象图像相比相对于成像平面的深度变化的特征；以及基于所提取的特征确定深度变化。

通过实施根据本发明的图像处理设备和图像处理方法，可以简化目标对象深度检测的算法、实时地对目标对象的相对深度变化进行检测，并且提高检测的准确率。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。在附图中不必依照比例绘制出单元的尺寸和相对位置。

图1是示出进行本发明所依据的原理的示意图。

图2是示出根据本公开实施例的用于进行深度检测的图像处理设备200的结构的框图。

图3是示例性示出检测到手的窗口以及对该窗口进行分割处理后的手的图像。

图4是示出根据本公开实施例的特征提取单元400的结构的框图。

图5是示出利用特征提取单元400对图像进行对齐并生成边缘特征直方图的示意图。

图6是示出根据本公开实施例的用于进行深度检测的图像处理设备600的结构的框图。

图7是示出根据本公开实施例的进行深度检测的图像处理方法的流程图。

图8是示出根据本公开实施例的进行深度检测的图像处理方法的流程图。

图9是示出实现本公开的计算机的示例性结构的框图。

具体实施方式

下面参照附图来说明本发明的实施例。应当注意，为了清楚的目的，附图和说明书中省略了与本发明无关的、本领域技术人员已知的部件和处理的表示和描述。

为了描述方便，下文中将以手作为目标对象的实例进行描述。在人机交互***中，可以通过将手相对于摄像机前推或后拉来进行事件的触发。而手的前推或后拉可以通过检测手相对于摄像头的成像平面的距离（深度）变化来确定。可以理解，根据本发明的方案可以应用于任何其它目标对象，例如车辆、人（全身或局部）、诸如指示棒的任何指示装置等；以及任何其它应用场景，例如视觉监控、障碍检测等。

图1是示意性示出进行本发明所依据的原理的示意图。给定单目相机拍摄的图像序列，假定要进行沿光轴方向的深度检测的对象是图像序列中出现的手。图1示出人在做“前推”动作时，相邻两帧（第t-1帧和第t帧）的深度变化和图像平面上的成像大小变化。在图1中，d表示手到照相机的距离；f表示照相机的焦距；h代表性地表示手的尺寸；s表示位于距离d处的尺寸为h的手在成像平面上所成的图像的尺寸；Δd表示手在两帧之间运动的距离，更准确地说是手在两帧之间在相对于成像平面的深度方向（光轴方向）上运动的距离；Δs是响应于手在深度方向上的变化，在图像平面上成像大小的变化。

经过图示几何比例关系可知：手的深度变化Δd和图像平面上的成像大小变化Δs的关系如式（1）所示：

\frac{Δs}{s} = \frac{Δd}{d - Δd} \approx \frac{Δd}{d} - - - (1)

其中，当在两个连续帧或者相隔较近的帧之间进行比较时，Δd<<d，因而“≈”是合理的。从式（1）可以看出，可以通过检测成像大小的变化率来估计手的深度的变化率。

此外，从对象深度改变导致对象图像大小发生的变化联想到：如果将对应于不同深度的对象图像按各部分的对应位置对齐，那么，当作为从观察帧提取的对象图像的观察对象图像与作为从参考帧提取的对象图像的参考对象图像相比，相对于成像平面变浅时，在对齐后的图像中，观察对象图像将完全覆盖住参考对象图像；而当观察对象图像与参考对象图像相比，相对于成像平面变深时，在对齐后的图像中，观察对象图像将小于参考对象图像，从而无法完全覆盖参考对象图像。可见：在这两种情况中，对齐后的对象图像的边缘部分将呈现出不同的特征。如果对这些特征进行提取，则可能得到具有显著不同的直方图。也就是说，可以依据在这两种情况下的对齐对象图像的边缘特征的直方图来确定观察对象图像相比于参考对象图像的深度变化。

考虑到以上各点做出本发明。

图2是示出根据本发明实施例的确定目标对象相对于成像平面的深度变化的图像处理设备200的结构框图。

如图2所示，图像处理设备200包括：对象提取单元201、配准单元202、特征提取单元203以及深度确定单元204。

对象提取单元201从单目视频序列的帧中提取目标对象的图像，作为后续处理的对象图像。可以在提取单元201中采用本领域公知的各种图像提取方法，只要能够将目标对象的图像从视频帧中识别并分离出以满足后续处理需要即可。

在一个实施例中，例如，提取单元201可以包括用于将对象图像从视频帧中检测出来的检测单元（未示出）。例如，在一个示例中，检测单元可以使用多尺寸的滑动窗口检测对象图像，以确定对象图像所在的区域。具体地，该检测单元可以使用特定大小的滑动窗口对视频帧进行扫描，并通过对滑动窗口中的图像内容进行特征提取并将提取的特征送入分类器来确定在该滑动窗口中是否存在对象图像。在用该滑动窗口完成整个帧的扫描后，对该滑动窗口的尺寸进行调整，然后重复进行上述扫描、提取以及确定的步骤，直到确定了对象图像所在区域。

检测单元使用的分类器可以采用任何惯用的特征来构造和训练。在一些实施例中，为了能够更加准确地检测到目标对象，可以采用经过训练的目标对象检测器来检测对象图像。通过使用标准学***面外的转动。

在一些实施例中，为了能够提高后续的深度变化检测处理的准确性，提取单元201还可以包括分割单元（未示出）。该分割单元用于对检测到的对象图像所在区域（例如检测到对象图像的窗口）执行分割处理，以将对象图像作为前景与该区域中的背景区域分离。分割处理可以使用本领域惯用的各种方式进行。例如，在以手作为目标对象的实施例中，可以构造肤色模型，以对检测到的包含手的窗口进行前景背景分离。图3中示例性示出了检测到手的滑动窗口，以及对该窗口区域进行分割处理后得到的作为对象图像的手的图像。对手部图像进行分割处理能够有效地减小被引入后续深度检测处理的噪声，从而，使得深度检测结果的准确性提高。

回到图2，如果在单目视频序列中取一帧作为参考帧，取参考帧之外的帧作为观察帧，并将在参考帧提取出的对象图像称作参考对象图像，将在观察帧中提取出的对象图像称作观察对象图像，则配准单元202将观察对象图像针对参考对象图像进行配准，从而获得相应的配准参数。配准参数一般包括：表示对象图像之间发生的平移的平移参数、表示对象图像在平面内的旋转的旋转参数，以及表示对象图像的尺寸变化的缩放参数。

配准单元202可以根据本领域已知的各种方法来进行配准处理。例如，可以参考J.Lee,S.S.Young,R.Gutierrez-Osuna在Technical Report,CSE Department,Texas A&M University,2011中发表的“An IterativeImage Registration Technique Using a Scale-Space Model”。在对手进行检测的实施例中，考虑到手图像的低分辨率，可以采用上述文献中提到的基于区域的图像配准方法直接将两个图像的像素密度作为整体进行匹配。这通过将尺寸空间模型嵌入非线性最小二乘架构中来实现。

在由配准单元202获得观察对象图像与参考对象图像的配准参数后，特征提取单元203通过利用来自所述配准单元202的配准参数，来提取能够反映观察对象图像与参考对象图像相比相对于成像平面的深度变化的特征。

在一个实施例中，特征提取单元203可以直接提取配准参数中反映对象图像尺寸变化的缩放参数S，作为反映观察对象图像与参考对象图像相比相对于成像平面的深度变化的特征。

在将缩放参数S作为反映深度变化的特征的情况下，深度确定单元204可以以这样的方式来确定观察对象图像与参考对象图像相比的深度变化：在S>1+ε_a时，确定目标对象相对于成像平面变浅；在S<1-ε_b时，确定目标对象相对于成像平面变深；以及，否则，确定目标对象相对于成像平面的深度变化不确定。其中，ε_a和ε_b是作为确定的余量的小的正数，可以取为相同或不同的值。ε_a和ε_b例如可以取为0.05或0.1，依具体设计需要而定。

举例说明：在取ε_a和ε_b为0.1的情况下，当缩放参数S=1.15时，深度确定单元204将深度变化确定为“变浅”（S>1+ε_a=1.1）；当缩放参数S=0.8时，深度确定单元204将深度变化确定为“变深”（在S<1-ε_b=0.9）；当缩放参数S=1.05时，深度确定单元204将深度变化确定为“不确定”（0.9<S<1.1）。

在另外的实施例中，代替将缩放参数S直接提取为确定深度变化的特征，特征提取单元203可以根据来自配准单元202的配准参数中的平移参数将待确定的对象图像对齐，然后对对齐后的图像的边缘部分进行分析，以提取相应特征。

图4是示出作为特征提取单元203的一个示例的特征提取单元400的结构的框图。特征提取单元400可以包括对齐单元401和直方图生成单元402。对齐单元401根据配准参数中的平移参数将观察对象图像与参考对象图像对齐。直方图生成单元402针对对齐的对象图像的边缘部分生成方向梯度直方图，以作为反映深度变化的特征。直方图生成单元402可以采用本领域公知的任何方法来提取对齐对象图像的边缘部分的特征，以生成相应的直方图。

参见图5。图5的左侧示例性示出了由对齐单元401根据平移参数将观察对象图像和参考对象图像对齐后所获得的图像。由于在本例中参考帧和观察帧是相邻帧（或者是间隔较近的帧），因而观察和参考对象图像各自的边缘在对齐的图像中不能单独地观察到。然而，利用直方图生成单元402针对对齐的图像的边缘部分进行特征提取，并生成相应的方向梯度直方图，可以清楚地分辨出观察和参考对象图像的大小关系。

例如，图5中的直方图（a）示意性示出观察对象图像相比于参考对象图像距成像平面更近（“变浅”）的直方图；图5中的直方图（b）示意性示出观察对象图像相比于参考对象图像距成像平面更远（“变深”）的直方图。从（a）和（b）的对比中可以看出，在观察对象图像与参考对象图像相比相对成像平面变浅或变深的不同情况下，所生成的特征直方图将具有明显区别。请注意：图5中所示直方图指示示意性的，依据提取边缘部分特征所采用的方法的不同，可以得出呈现出不同形式的直方图，只要这些直方图能够反映出不同的深浅变化即可。

深度确定单元204可以根据由直方图生成单元402提供的直方图来确定帧间对象图像的深度变化。

在人机交互等的应用场景中，只确定视频图像序列的两帧中的深度变化是不够的，而要对在特定时间段中，即特定序列的帧中的目标对象相对于成像平面的运动方向进行确定。然后，根据目标对象的运动方向来触发相应的操作。例如，以手作为目标对象的示例，可以当确定出手的运动方向是沿靠近摄像机成像平面的方向运动（即手“前推”）时，打开特定功能；而当确定出手的方向是沿远离摄像机成像平面的方向运动（即手“后拉”）时，关闭特定功能。为了实现这种交互功能，在一些实施例中，图像处理设备还包括用于识别目标对象相对于成像平面的运动方向的运动方向识别单元。

图6是示出根据本发明实施例的图像处理设备600的结构的框图。图像处理设备600包括：对象提取单元601、配准单元602、特征提取单元603、深度确定单元604以及运动方向识别单元605。因为对象提取单元601、配准单元602、特征提取单元603和深度确定单元604的结构和功能分别与结合图2中说明的对象提取单元201、配准单元202、特征提取单元203和深度确定单元204的结构和功能相同，因此这里省略其重复描述，而只对运动方向识别单元605进行说明。

运动方向识别单元605可以识别目标对象相对于成像平面的运动方向。例如，使图像处理设备600对预定时段内的观察帧顺序执行深度确定，从而得到每一个观察帧的深度确定结果。然后，运动方向识别单元605可以依据从深度确定单元604输入的观察帧的深度确定结果序列对运动方向进行识别。

需要说明的是：针对预定时段，可以在该时段内的视频帧中取一帧作为参考帧。例如，可以但不限于取该时段内的第一帧或最后一帧作为参考帧。然后，将该预定时段内的参考帧之外的帧作为观察帧。此外，也可以任意地在该时段之外取一帧作为参考帧，例如紧挨该时段前的一帧。然后，将该预定时段内的所有帧作为观察帧。这可以依据设计需要来决定。虽然也可以在预定时段所对应的视频序列的中间取一帧作为参考帧，但一般地，为了方便起见，通常取位于观察帧序列的一端的视频帧作为参考帧。下面举例说明运动方向识别单元605进行识别的实施例。

在一个实施例中，取预定时段内的最早一帧作为参考帧，其后的其它帧作为观察帧，并使得图像处理设备600顺序对各观察帧进行深度确定处理。由于上面已经进行了充分地描述，这里省略描述对观察帧进行的对象提取、配准、特征提取、深度确定等处理。深度确定单元604将获得的各观察帧的深度确定结果提供给运动方向识别单元605。运动方向识别单元605依据获得的针对各个观察帧的深度确定结果序列对运动个方向进行识别。

例如，当深度确定结果序列中连续出现n个以上的“变深”时，运动方向识别单元识别出目标对象沿远离成像平面的方向运动。例如，识别出手做后拉运动。而当深度确定结果序列中连续出现m个以上的“变浅”时，运动方向识别单元识别出目标对象沿靠近成像平面的方向运动。例如，识别出手做前推运动。其中，n和m是预先设定的正整数，可以取相同或不同的值。n和m的大小可以依据设计需要来决定。

在使用缩放参数S来进行深度确定的一些实施例中，还可以依据深度确定结果和缩放参数S二者来识别目标对象的运动方向。例如，当来自深度确定单元604的结果序列中连续出现K个以上的“变深”，并且这K个“变深”的观察对象图像所对应的缩放参数S_i（i=1,…,K）的连乘积小于预定阈值TH1时，运动方向识别单元605可以识别出目标对象沿远离成像平面的方向运动。此外，当来自深度确定单元604的结果序列中连续出现L个以上的“变浅”，并且这L个“变浅”的观察对象图像所对应的缩放参数S_j（j=1,…,L）的连乘积大于预定阈值TH2时，运动方向识别单元605可以识别出目标对象沿靠近成像平面的方向运动。其中，K和L是预先设定的正整数，可以取相同或不同的值。K和L以及TH1和TH2的大小可以依据设计需要来决定。

将特定确定结果连续出现的次数和对应于这些连续出现结果的缩放参数相结合来识别目标对象相对于成像平面的运动方向，提高了识别结果的准确性。此外，通过控制预定阈值TH1和TH2的大小，可以将运动对象相对于成像平面相对缓慢、不显著的运动排除掉。

下面结合图7和图8描述根据本公开实施例的图像处理设备所使用的图像处理方法。

图7是示出根据本公开实施例的基于单目视频序列检测目标深度的图像处理方法的流程图。

在步骤S701中，从单目视频序列的帧中提取目标对象的图像，作为对象图像。可以采用本领域公知的各种图像提取方法，只要能够将目标对象的图像从视频帧中识别并分离出以满足后续处理需要即可。

在一个实施例中，可以使用多尺寸的滑动窗口对对象图像进行检测，以确定对象图像所在的区域。具体地，可以使用特定大小的滑动窗口对视频帧进行扫描，并通过对滑动窗口中的图像内容进行特征提取并将提取的特征送入分类器来确定在该滑动窗口中是否存在对象图像。在用该滑动窗口完成整个帧的扫描后，对该滑动窗口的尺寸进行调整，然后重复进行上述扫描、提取以及确定的步骤，直到确定了对象图像所在区域。

使用的分类器可以采用任何惯用的特征来构造和训练。在一些实施例中，为了能够更加准确地检测到目标对象，可以采用经过训练的目标对象检测器来检测对象图像。通过使用标准学习机技术，诸如支持向量机，训练的目标对象检测器能够更加准确地检测到目标对象图像。

在一些实施例中，为了能够提高后续的深度变化检测处理的准确性，还可以对检测到的对象图像所在区域（例如检测到对象图像的窗口）执行分割处理，以将对象图像作为前景与该区域中的背景区域分离。分割处理可以使用本领域惯用的各种方式进行。例如，在以手作为目标对象的实施例中，可以构造肤色模型，以对检测到的包含手的窗口进行前景背景分离。对手部图像进行分割处理能够有效地减小被引入后续深度检测处理的噪声，从而，使得深度检测结果的准确性提高。

在视频帧序列中取一帧作为参考帧，并将参考帧以外的帧作为观察帧。将从参考帧和观察帧中提取的对象图像分别称作参考对象图像和观察对象图像。则在步骤S702中，将观察对象图像向参考对象图像进行配准，从而获得相应的配准参数。可以根据本领域已知的各种方法来进行配准处理。这里不再赘述。

在获得观察对象图像与参考对象图像的配准参数后，在步骤S703中，通过利用所获得的配准参数提取能够反映观察对象图像与参考对象图像相比相对于成像平面的深度变化的特征。

在一个实施例中，可以直接提取配准参数中反映对象图像尺寸变化的缩放参数S，作为反映观察对象图像与参考对象图像相比相对于成像平面的深度变化的特征。

在将缩放参数S作为反映深度变化的特征的情况下，可以以这样的方式来确定观察对象图像与参考对象图像相比的深度变化：在S>1+ε_a时，可以确定目标对象相对于成像平面变浅；在S<1-ε_b时，可以确定目标对象相对于成像平面变深；以及，否则，可以确定目标对象相对于成像平面的深度变化不确定。其中，ε_a和ε_b是作为确定的余量的小的正数，可以取为相同或不同的值。ε_a和ε_b例如可以取为0.05或0.1，依具体设计需要而定。

在另外的实施例中，代替将缩放参数S直接提取为确定深度变化的特征，可以根据配准参数中的平移参数将待确定的对象图像对齐，然后对对齐后的图像的边缘部分进行分析，以提取相应特征。

例如，可以根据配准参数中的平移参数将观察对象图像与参考对象图像对齐。然后，针对对齐的对象图像的边缘部分生成方向梯度直方图，以作为反映深度变化的特征。可以采用本领域公知的任何方法来提取对齐对象图像的边缘部分的特征，以生成相应的直方图。通常，通过针对对齐的图像的边缘部分进行特征提取，并生成相应的方向梯度直方图，可以清楚地分辨出观察和参考对象图像的大小关系。

在步骤S704中，可以根据在步骤S703中得到的直方图来确定帧间对象图像的深度变化。然后，处理结束。

根据图7所示实施例的深度检测方法，能够在保持低运算负载的同时实时进行视频中对象深度的检测。

在人机交互等的应用场景中，有时需要确定特定序列的帧中的目标对象相对于成像平面的运动方向，以根据目标对象的运动方向来触发相应的操作。例如，以手作为目标对象的示例，可以当确定出手的运动方向是沿靠近摄像机成像平面的方向运动（即手“前推”）时，打开特定功能；而当确定出手的方向是沿远离摄像机成像平面的方向运动（即手“后拉”）时，关闭特定功能。

图8是示出根据本公开实施例的识别目标对象相对于成像平面的运动方向的方法的流程图。由于图8中的步骤S801～S804的处理与结合图7说明的步骤S701～S704的处理相同，这里不再进行重复说明，只对步骤S805进行描述。

在步骤S805中，识别目标对象相对于成像平面的运动方向。例如，可以对预定时段内的观察帧顺序执行步骤S801～S804中的处理，从而得到每一个观察帧的深度确定结果。然后，在步骤S805中，可以依据获得的观察帧的深度确定结果序列对运动方向进行识别。

需要说明的是：针对预定时段，可以在该时段内的视频帧中取一帧作为参考帧。例如，可以但不限于取该时段内的第一帧或最后一帧作为参考帧。然后，将该预定时段内的参考帧之外的帧作为观察帧。此外，也可以任意地在该时段之外取一帧作为参考帧，例如紧挨该时段前的一帧。然后，将该预定时段内的所有帧作为观察帧。这可以依据设计需要来决定。虽然也可以在预定时段所对应的视频序列的中间取一帧作为参考帧，但一般地，为了方便起见，通常取位于观察帧序列的一端的视频帧作为参考帧。下面举例说明对运动方向进行识别的实施例。

例如，当深度确定结果序列中连续出现n个以上的“变深”时，可以识别出目标对象沿远离成像平面的方向运动。例如，识别出手做后拉运动。而当深度确定结果序列中连续出现m个以上的“变浅”时，可以识别出目标对象沿靠近成像平面的方向运动。例如，识别出手做前推运动。其中，n和m是预先设定的正整数，可以取相同或不同的值。n和m的大小可以依据设计需要来决定。

在使用缩放参数S来进行深度确定的一些实施例中，还可以依据深度确定结果和缩放参数S二者来识别目标对象的运动方向。例如，当步骤S804中获得的确定结果序列中连续出现K个以上的“变深”，并且这K个“变深”的观察对象图像所对应的缩放参数S_i（i=1,…,K）的连乘积小于预定阈值TH1时，可以识别出目标对象沿远离成像平面的方向运动。此外，深度确定结果序列中连续出现L个以上的“变浅”，并且这L个“变浅”的观察对象图像所对应的缩放参数S_j（j=1,…,L）的连乘积大于预定阈值TH2时，运动方向识别单元605可以识别出目标对象沿靠近成像平面的方向运动。其中，K和L是预先设定的正整数，可以取相同或不同的值。K和L以及TH1和TH2的大小可以依据设计需要来决定。

请注意：虽然在上面的实施例中取视频序列中的一帧作为参考帧，其它帧作为观察帧来与该参考帧进行配准，也可以采用这样的方式：即，将视频序列中的前一帧作为参考帧，后一帧作为观察帧，如此往复。依照设计需要来决定。

下文中，参考图9描述实现本发明的数据处理设备的计算机的示例性结构。图9是示出实现本发明的计算机的示例性结构的框图。

在图9中，中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM903中，也根据需要存储当CPU901执行各种处理时所需的数据。

CPU901、ROM902和RAM903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下述部件连接到输入/输出接口905：输入部分906，包括键盘、鼠标等；输出部分907，包括显示器，诸如阴极射线管(CRT)、液晶显示器(LCD)等，以及扬声器等；存储部分908，包括硬盘等；以及通信部分909，包括网络接口卡诸如LAN卡、调制解调器等。通信部分909经由网络诸如因特网执行通信处理。

根据需要，驱动器910也连接到输入/输出接口905。可拆卸介质911诸如磁盘、光盘、磁光盘、半导体存储器等根据需要被安装在驱动器910上，使得从中读出的计算机程序根据需要被安装到存储部分908中。

在通过软件实现上述步骤和处理的情况下，从网络诸如因特网或存储介质诸如可拆卸介质911安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图9所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)和半导体存储器。或者，存储介质可以是ROM902、存储部分908中包含的硬盘等，其中存有程序，并且与包含它们的方法一起被分发给用户。

在前面的说明书中参照特定实施例描述了本发明。然而本领域的普通技术人员理解，在不偏离如权利要求书限定的本发明的范围的前提下可以进行各种修改和改变。

本发明还可以以下面的实施方式实现：

1.一种图像处理设备，包括：

对象提取单元，用于从单目视频序列的帧中提取目标对象的图像，作为对象图像；

配准单元，用于将观察对象图像针对参考对象图像进行配准，以获得配准参数，参考对象图像和观察对象图像是分别从参考帧以及参考帧之外的观察帧中提取的对象图像；

特征提取单元，用于通过利用配准参数来提取能够反映观察对象图像与参考对象图像相比相对于成像平面的深度变化的特征；以及

深度确定单元，用于基于所提取的特征确定深度变化。

2.根据项1的图像处理设备，其中，特征提取单元将配准参数中反映对象图像尺寸变化的缩放参数提取为特征。

3.根据项2的图像处理设备，其中，用S表示观察帧针对参考帧的缩放参数，则深度确定单元：

在S>1+ε_a时，确定目标对象相对于成像平面变浅；

在S<1-ε_b时，确定目标对象相对于成像平面变深；以及

否则，确定目标对象相对于成像平面的深度变化不确定；

其中，ε_a和ε_b是作为确定的余量的小的正数。

4.根据项1至3中任一个的图像处理设备，还包括运动方向识别单元，用于识别目标对象相对于成像平面的运动方向；

其中，当使图像处理设备对预定时段内的观察帧顺序执行深度确定时，运动方向识别单元能够依据由深度确定单元确定的结果序列对运动方向进行识别。

5.根据项4的图像处理设备，其中，运动方向识别单元：

当结果序列中存在连续的第一预定数目以上的“变深”时，识别出目标对象沿远离成像平面的方向运动；以及

当结果序列中存在连续的第二预定数目以上的“变浅”时，识别出目标对象沿靠近成像平面的方向运动。

6.根据项4的图像处理设备，其中，运动方向识别单元：

当结果序列中存在连续的第三预定数目以上的“变深”，并且对应的缩放参数S的连乘积小于第一阈值时，识别出目标对象沿远离成像平面的方向运动；以及

当结果序列中存在连续的第四预定数目以上的“变浅”，并且对应的缩放参数S的连乘积大于第二阈值时，识别出目标对象沿靠近成像平面的方向运动。

7.根据项1的图像处理设备，其中，特征提取单元包括：

对齐单元，用于根据配准参数中的平移参数将观察对象图像与参考对象图像对齐；以及

直方图生成单元，用于针对对齐的对象图像的边缘部分生成方向梯度直方图，作为能够反映深度变化的特征。

8.根据项1至7中任一个的图像处理设备，其中，对象提取单元包括检测单元，检测单元用于使用多尺寸的滑动窗口检测对象图像，以确定对象图像所在区域。

9.根据项8的图像处理设备，其中，提取单元包括分割单元，分割单元用于对对象图像所在区域执行分割处理，以提取出对象图像。

10.根据项8或9的图像处理设备，其中，检测单元使用经训练的目标对象检测器检测对象图像。

11.一种图像处理方法，包括：

从单目视频序列的帧中提取目标对象的图像，作为对象图像；

将观察对象图像针对参考对象图像进行配准，以获得配准参数，参考对象图像和观察对象图像是分别从参考帧以及参考帧之外的观察帧中提取的对象图像；

通过利用配准参数来提取能够反映观察对象图像与参考对象图像相比相对于成像平面的深度变化的特征；以及

基于所提取的特征确定深度变化。

12.根据项11的图像处理方法，其中，将配准参数中反映对象图像尺寸变化的缩放参数提取为特征。

13.根据项12的图像处理方法，其中，用S表示观察帧针对参考帧的缩放参数，则：

在S>1+ε_a时，确定目标对象相对于成像平面变浅；

在S<1-ε_b时，确定目标对象相对于成像平面变深；以及

否则，确定目标对象相对于成像平面的深度变化不确定；

其中，ε_a和ε_b是作为确定的余量的小的正数。

14.根据项11至13中任一个的图像处理方法，还包括：根据针对预定时段内的观察帧顺序得出的深度确定结果的序列来识别目标对象相对于成像平面的运动方向。

15.根据项14的图像处理方法，其中，

16.根据项14的图像处理方法，其中，

17.根据项11的图像处理方法，其中，提取反映深度变化的特征包括：

根据配准参数中的平移参数将观察对象图像与参考对象图像对齐；以及

针对对齐的对象图像的边缘部分生成方向梯度直方图，作为能够反映深度变化的特征。

18.根据项11至17中任一个的图像处理方法，其中，提取对象图像包括：使用多尺寸的滑动窗口检测对象图像，以确定对象图像所在区域。

19.根据项18的图像处理方法，其中，提取对象图像包括：对对象图像所在区域执行分割处理，以提取出对象图像。

20.根据项18或19的图像处理方法，其中，提取对象图像包括：使用经训练的目标对象检测器检测对象图像。

Claims

1.一种图像处理设备，包括：

配准单元，用于将观察对象图像针对参考对象图像进行配准，以获得配准参数，所述参考对象图像和所述观察对象图像是分别从参考帧以及参考帧之外的观察帧中提取的对象图像；

特征提取单元，用于通过利用所述配准参数来提取能够反映观察对象图像与参考对象图像相比相对于成像平面的深度变化的特征；以及

深度确定单元，用于基于所提取的特征确定所述深度变化。

2.根据权利要求1所述的图像处理设备，其中，所述特征提取单元将所述配准参数中反映对象图像尺寸变化的缩放参数提取为所述特征。

3.根据权利要求2所述的图像处理设备，其中，用S表示观察帧针对参考帧的所述缩放参数，则所述深度确定单元：

在S>1+ε_a时，确定所述目标对象相对于成像平面变浅；

在S<1-ε_b时，确定所述目标对象相对于成像平面变深；以及

否则，确定所述目标对象相对于成像平面的深度变化不确定；

其中，ε_a和ε_b是作为所述确定的余量的小的正数。

4.根据权利要求1至3中任一个所述的图像处理设备，还包括运动方向识别单元，用于识别所述目标对象相对于所述成像平面的运动方向；

其中，当使所述图像处理设备对预定时段内的观察帧顺序执行深度确定时，所述运动方向识别单元能够依据由深度确定单元确定的结果序列对运动方向进行识别。

5.根据权利要求4所述的图像处理设备，其中，所述运动方向识别单元：

当所述结果序列中存在连续的第一预定数目以上的“变深”时，识别出所述目标对象沿远离成像平面的方向运动；以及

当所述结果序列中存在连续的第二预定数目以上的“变浅”时，识别出所述目标对象沿靠近成像平面的方向运动。

6.一种图像处理方法，包括：

将观察对象图像针对参考对象图像进行配准，以获得配准参数，所述参考对象图像和所述观察对象图像是分别从参考帧以及参考帧之外的观察帧中提取的对象图像；

通过利用所述配准参数来提取能够反映观察对象图像与参考对象图像相比相对于成像平面的深度变化的特征；以及

基于所提取的特征确定所述深度变化。

7.根据权利要求6所述的图像处理方法，其中，将所述配准参数中反映对象图像尺寸变化的缩放参数提取为所述特征。

8.根据权利要求7所述的图像处理方法，其中，用S表示观察帧针对参考帧的所述缩放参数，则：

在S>1+ε_a时，确定所述目标对象相对于成像平面变浅；

在S<1-ε_b时，确定所述目标对象相对于成像平面变深；以及

其中，ε_a和ε_b是作为所述确定的余量的小的正数。

9.根据权利要求6至8中任一个所述的图像处理方法，还包括：根据针对预定时段内的所述观察帧顺序得出的深度确定结果的序列来识别所述目标对象相对于所述成像平面的运动方向。

10.根据权利要求9所述的图像处理方法，其中，