CN108564014A

CN108564014A - 对象形状跟踪装置和方法以及图像处理***

Info

Publication number: CN108564014A
Application number: CN201810288618.0A
Authority: CN
Inventors: 陈存建; 黄耀海; 赵东悦; 金浩
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-04-17
Filing date: 2018-04-03
Publication date: 2018-09-21
Anticipated expiration: 2038-04-03
Also published as: CN108564014B

Abstract

本发明公开了一种对象形状跟踪装置和方法以及图像处理***。所述跟踪对象形状的装置包括：被配置为基于至少一个先前视频帧中的对象形状，确定当前视频帧中的对象形状的单元；被配置为基于所述至少一个先前视频帧中的所述对象形状的遮挡信息，确定所述确定的对象形状的遮挡信息的单元；被配置为基于所述确定的遮挡信息，更新所述确定的对象形状的单元；以及被配置为基于所述更新的对象形状，更新所述确定的遮挡信息的单元。根据本发明，在跟踪视频中的对象形状的过程中，在视频中的对象被其他对象遮挡的情况下，将提高对象形状的准确性及对象跟踪的准确性。

Description

对象形状跟踪装置和方法以及图像处理***

技术领域

本发明涉及图像处理，尤其涉及用于跟踪对象形状的装置和方法以及图像处理***。

背景技术

在跟踪视频中的对象(尤其是对象形状)的过程中，诸如跟踪视频中的人脸或人体关节，为了更准确地获得视频的一个视频帧(例如，当前视频帧)中的对象形状，通常使用从该视频帧的先前视频帧确定的对象形状来初始化该视频帧中的对象初始形状。然后，可基于初始化的对象初始形状来确定该视频帧中的对象最终形状。

“Facial Shape Tracking via Spatio-Temporal Cascade Shape Regression”(J.Yang.J.Deng,K.Zhang,and Q.Liu.,the IEEE International Conference onComputer Vision(ICCV)Workshops,2015,pp.41-49)中公开了一种示例性技术。该示例性技术主要公开了以下过程：针对视频的当前视频帧，首先，将从当前视频帧的先前视频帧确定的对象形状视为当前视频帧中的对象初始形状；然后，对所述对象初始形状执行形状回归方法(例如，级联形状回归(Cascaded Shape Regression，CSR)方法)，以确定当前视频帧中的对象最终形状。重复这些过程，直至到达视频末端。

换言之，在跟踪视频中的对象形状的过程中，从先前视频帧确定的对象形状将被传递到后续视频帧，以确定对应的对象初始形状。也就是说，从先前视频帧确定的对象形状的准确性将直接影响要确定的后续视频帧甚至整个视频的对象形状的准确性。然而，在根据上述技术确定一个视频帧中对应的对象形状的过程中，仅考虑了从该视频帧的先前视频帧确定的对象形状，而沒有考虑其他信息。因此，在视频中的对象被其他对象(诸如，口罩、太阳镜、围巾、麦克风、手或人)遮挡的情况下，在确定一个视频帧中对应的对象形状的过程中，不考虑该遮挡所产生的影响将导致获得的该视频帧中的对象最终形状不准确。换言之，在根据上述技术跟踪视频中的对象(尤其是对象形状)的过程中，在视频中的对象被其他对象遮挡的情况下，该遮挡将影响一个视频帧甚至整个视频的对象跟踪结果的准确性。

发明内容

因此，鉴于上面的背景技术中的记载，本公开旨在解决上述问题。

根据本发明的一个方面，提供一种用于跟踪视频中的对象形状的装置，所述装置包括：形状确定单元，被配置为基于输入视频的当前视频帧的至少一个先前视频帧中的对象形状，确定所述当前视频帧中的对象形状；信息确定单元，被配置为基于所述至少一个先前视频帧中的对象形状的遮挡信息，确定由所述形状确定单元确定的对象形状的遮挡信息；形状更新单元，被配置为基于所述信息确定单元确定的遮挡信息，更新由所述形状确定单元确定的对象形状；以及信息更新单元，被配置为基于所述形状更新单元更新的对象形状，更新由所述信息确定单元确定的遮挡信息。其中，针对输入视频的任何一个视频帧，该视频帧中的对象形状的遮挡信息将对象形状的特征点表示为遮挡特征点和非遮挡特征点。

利用本发明，在跟踪视频中的对象(尤其是对象形状)的过程中，在视频中的对象被其他对象(诸如，口罩、太阳镜、围巾、麦克风、手或人)遮挡的情况下，将提高对象形状的准确性及对象跟踪的准确性。

根据以下参照附图的描述，本发明的其他特性特征和优点将显而易见。

附图说明

包含在说明书中并构成本说明书的一部分的附图例示本发明的实施例，并与文字描述一起用于解释本发明的原理。

图1A至图1B示意性地示出视频中被其他对象遮挡的示例性对象。

图2是示意性地示出可实现根据本发明的实施例的技术的硬件配置的框图。

图3是例示根据本发明的实施例的对象形状跟踪装置的配置的框图。

图4示意性地示出根据本发明的实施例的对象形状跟踪的流程图。

图5A至图5B示意性地示出在对象区域中检测到的遮挡区域。

图6示意性地示出根据本发明的如图4所示的步骤S420的流程图。

图7A至图7D示意性地示出通过图6中所示的步骤S420，确定第t个视频帧中的对象形状的遮挡信息的示例。

图8例示根据本发明的示例性图像处理***的布置。

图9A至图9B示意性地示出在拥挤的入场场景中的示例性的两个人。

图10A至图10C示意性地示出在另一拥挤的入场场景中的示例性的两个人。

具体实施方式

下面将参照附图详细地描述本发明的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本发明及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外，本领域的技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情形中其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

如上所述，在根据现有技术跟踪视频中的对象(尤其是对象形状)的过程中，在视频中的对象被其他对象(诸如，口罩、太阳镜、围巾、麦克风、手或人)遮挡的情况下，在确定视频的一个视频帧中对应的对象形状时，未考虑该遮挡所产生的影响。例如，图1A示意性地示出被口罩遮挡的示例性人脸，即人脸形状被口罩遮挡。图1B示意性地示出在拥挤的入场场景(a crowded and walk-through scenario)中被其他人遮挡的人，即一个人的形状被其他人的形状遮挡，其中拥挤的入场场景例如是多人共同朝照相机的拍摄方向进入一个入口的场景。通常，在根据现有技术跟踪视频中的对象的过程中，由于视频中存在的遮挡将导致输出不准确的对象形状(即，存在的遮挡将影响对象形状的准确性)，且由于视频中存在的遮挡还将导致丢失正在跟踪的对象或切换正在跟踪的对象的跟踪身份编号(trackingidentification，ID)(即，存在的遮挡将影响对象跟踪的准确性)，因此在视频中存在对应遮挡的情况下，为了减小存在的遮挡所产生的影响，本领域的技术人员通常会考虑如何在对象跟踪过程中尽可能移除存在的遮挡。

然而，发明人发现，在跟踪视频中的对象形状的过程中，在确定对应视频帧中的对象形状时，视频中存在的遮挡信息也可以用作很好的参考。因此，在跟踪视频中的对象形状的过程中，在视频中的对象被其他对象遮挡的情况下，本发明不是考虑如何移除存在的遮挡，而是考虑如何使用存在的遮挡来辅助进行对象形状的跟踪。

因此，在跟踪视频中的对象形状的过程中，在确定视频的一个视频帧中对应的对象形状时，除了将从先前视频帧确定的对象形状传递到该视频帧以外，本发明还将从先前视频帧确定的遮挡信息传递到该视频帧。其中，所传递的对象形状用于确定该视频帧中的对象初始形状，而所传递的遮挡信息用于确定所确定的对象初始形状的遮挡信息。其中，针对视频的任何一个视频帧，该视频帧中的对象形状的遮挡信息将对象形状的特征点表示为遮挡特征点和非遮挡特征点。另外，对象形状的特征点也即对象形状的标志点，并且特征点例如为人脸特征点或人体关节特征点。

为了确定视频的一个视频帧中的对象最终形状，基于该视频帧中的对象初始形状的对应遮挡信息，可分别使用不同的方法更新对象初始形状的遮挡部分(即，遮挡的特征点)的位置及更新对象初始形状的非遮挡部分(即，非遮挡特征点)的位置。此外，在确定该视频帧中的对象最终形状之后，将基于该视频帧中的对象最终形状更新该视频帧中的对象初始形状的对应遮挡信息，使得传递到后续视频帧的遮挡信息更准确。因此，一方面，在确定非遮挡部分的最终位置的过程中防止存在的遮挡所产生的影响，将使得非遮挡部分的位置更准确。另一方面，使用更准确的非遮挡部分的位置来确定遮挡部分的最终位置，可最小化存在的遮挡对遮挡部分的位置的准确性所产生的影响。因此，根据本发明，在跟踪视频中的对象形状的过程中，在视频中的对象被其他对象遮挡的情况下，可提高一个视频帧甚至整个视频的对象形状的准确性及对象跟踪结果的准确性。

(硬件配置)

首先将参照图2描述可以实现下文中描述的技术的硬件配置。

硬件配置200例如包括中央处理单元(CPU)210、随机存取存储器(RAM)220、只读存储器(ROM)230、硬盘240、输入设备250、输出设备260、网络接口270和***总线280。此外，硬件配置200可通过诸如相机、个人数字助理(PDA)、移动电话、平板电脑、笔记本电脑、台式电脑或其他合适的电子设备来实现。

在第一实现方式中，根据本发明跟踪视频中的对象形状的过程由硬件或固件配置并且用作硬件配置200的模块或组件。例如，将在下文中参照图3详细描述的装置300用作硬件配置200的模块或组件。在第二实现方式中，根据本发明跟踪视频中的对象形状的过程由存储在ROM230或硬盘240中且由CPU 210执行的软件配置。例如，将在下文中参照图4详细描述的过程400用作存储在ROM 230或硬盘240中的程序。

CPU 210是任何合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 230或硬盘240(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM220用于临时存储从ROM 230或硬盘240加载的程序或数据，并且也被用作CPU 210在其中执行各种过程(诸如，实施将在下文中参照图4和图6详细描述的技术)以及其他可用功能的空间。硬盘240存储多种信息，诸如，操作***(OS)、各种应用、控制程序、由制造商预存储或预定义的数据以及由制造商预存储或预生成的模型和/或分类器。

在一种实现方式中，输入设备250用于允许用户与硬件配置200交互。在一个实例中，用户可以通过输入设备250输入图像/视频/数据。在另一实例中，用户可以通过输入设备250触发本发明的对应过程。此外，输入设备250可采用各种形式，诸如，按钮、键盘或触摸屏。在另一种实现方式中，输入设备250用于接收从诸如数码相机、摄像机和/或网络相机等专门电子设备输出的图像/视频。

在一种实现方式中，输出设备260用于向用户显示对象跟踪结果(诸如，跟踪对象的边界框、跟踪对象的形状、两个跟踪对象之间的遮挡关系等)。而且，输出设备260可采用各种形式，诸如，阴极射线管(CRT)或液晶显示器。在另一种实现方式中，输出设备260用于将对象跟踪结果输出到视频/图像分析和识别的后续过程，诸如，面部分析、人像检索、表情识别、面部识别、面部属性识别等。

网络接口270提供用于将硬件配置200连接到网络的接口。例如，硬件配置200可经由网络接口270与经由网络连接的其他电子设备进行数据通信。可选地，可以为硬件配置200提供无线接口，以进行无线数据通信。***总线280可以提供用于在CPU 210、RAM 220、ROM 230、硬盘240、输入设备250、输出设备260和网络接口270等之间相互传输数据的数据传输路径。虽然被称为总线，但是***总线280并不限于任何特定的数据传输技术。

上述硬件配置200仅仅是说明性的，并且决不意图限制本发明、其应用或用途。而且，为了简明起见，在图2中只示出一个硬件配置。但是，也可以根据需要使用多个硬件配置。

(对象形状跟踪装置和方法)

接下来，将参照图3至图7D描述根据本发明跟踪视频中的对象形状的过程。

图3是例示根据本发明的实施例的装置300的配置的框图。其中，图3中所示的一些或全部模块可由专用的硬件实现。如图3所示，装置300包括形状确定单元310、信息确定单元320、形状更新单元330和信息更新单元340。

首先，图2中所示的输入设备250接收从专门电子设备(例如，相机)输出或由用户输入的视频。接着，输入设备250经由***总线280将接收到的视频传输到装置300。

然后，如图3中所示，针对接收到的视频(即，输入视频)的当前视频帧(诸如，第t个视频帧)中的对象，形状确定单元310基于当前视频帧的至少一个先前视频帧中的对象形状，确定当前视频帧中的对象形状。其中，t是自然数并且2≤t＜T，T是输入视频的视频帧总数。换言之，形状确定单元310基于从先前视频帧传递的至少一个对象形状确定当前视频帧中的对象初始形状。其中，要跟踪的对象形状为例如人脸形状或人体关节形状。

信息确定单元320基于至少一个先前视频帧中的对象形状的遮挡信息，确定由形状确定单元310确定的对象形状的遮挡信息。换言之，信息确定单元320基于从先前视频帧传递的遮挡信息，确定当前视频帧中的对象初始形状的遮挡信息。

形状更新单元330基于信息确定单元320确定的遮挡信息，更新由形状确定单元310确定的对象形状。换言之，形状更新单元330通过基于对象初始形状的遮挡信息更新当前视频帧中的对象初始形状，来确定当前视频帧中的对象最终形状。

信息更新单元340基于形状更新单元330更新的对象形状，更新由信息确定单元320确定的遮挡信息。换言之，信息更新单元340基于当前视频帧中的对象最终形状，更新对象初始形状的遮挡信息。

也就是说，针对输入视频的第t个视频帧(其中，t≥2)，装置300将使用从第t个视频帧的先前视频帧确定的形状信息和遮挡信息，来确定第t个视频帧中的对应形状信息和对应遮挡信息。此外，为了触发对象形状跟踪过程及确定输入视频的第一个视频帧(即，第1个视频帧)中的对应形状信息和对应遮挡信息，装置300还包括检测单元350。

如图3中所示，针对输入视频的第1个视频帧，检测单元350检测第1个视频帧中对应的对象形状，并检测在第1个视频帧中所检测到的对象形状的对应遮挡信息。然后，以输入视频的第2个视频帧为例，形状确定单元310及信息确定单元320基于从第1个视频帧所检测到的形状信息和遮挡信息，执行对应的操作。

如上所述，针对一个输入视频，检测单元350将仅从该输入视频的第1个视频帧，检测对应的形状信息和对应的遮挡信息。此外，为了防止整个输入视频中因对象形状的位置偏移所产生的跟踪误差累积以及为了提高对象形状跟踪的准确性，首先可从整个输入视频获取数个视频帧序列。然后，针对每一个视频帧序列的第1个视频帧，检测单元350将执行对应的操作。针对每一个视频帧序列的第t个视频帧(其中，t≥2)，形状确定单元310、信息确定单元320、形状更新单元330和信息更新单元340将执行对应的操作。另外，在一个实例中，检测单元350将用于从整个输入视频获取对应的视频帧序列。在另一实例中，其他单元(例如，图3中未示出的序列获取单元)也可用于获取对应的视频帧序列。

图4中所示的流程图400是图3中所示的装置300的对应过程。

如图4中所示，针对一个输入视频，在检测步骤S410中，检测单元350检测输入视频的第1个视频帧中对应的对象形状，并检测在第1个视频帧中所检测到的对象形状的对应遮挡信息。如上所述，作为可选的解决方案，检测单元350从自输入视频获取的一个视频帧序列的第1个视频帧，检测对应的对象形状和对应的遮挡信息。在一种实现方式中，检测单元350通过以下过程检测第1个视频帧中的对应形状信息和对应遮挡信息。

一方面，检测单元350对第1个视频帧执行形状检测方法(例如，级联回归方法(cascaded regression method))，以检测第1个视频帧中对应的对象形状，因此可获得第1个视频帧中的对象形状的特征点的对应位置。例如，在要跟踪的对象是人脸的情况下，特征点为人脸特征点；而在要跟踪的对象是人体关节的情况下，特征点为人体关节特征点。

另一方面，检测单元350对第1个视频帧执行遮挡检测方法，以检测所检测到的对象形状的对应遮挡信息。在一个实例中，遮挡检测方法为基于模板的匹配方法。其中，用于匹配操作的模板例如包括口罩模板、围巾模板、太阳镜模板等。在另一实例中，遮挡检测方法为基于模型的对象检测及分类方法。其中，用于检测及分类操作的模型例如基于遮挡样本使用深度学习方法生成，并且所述模型例如用于检测视频帧中遮挡区域的位置及识别视频帧中遮挡的类别。

在一种实现方式中，检测单元350通过检测对象区域(例如，图5A中所示的矩形区域510)中的遮挡区域(例如，图5A中所示的口罩区域520)，来检测第1个视频帧中所检测到的对象形状的遮挡信息。其中，在一个实例中，可基于从先前视频帧获得的对象跟踪结果(例如，对象形状)来估算对象区域。在另一实例中，可通过使用现有的检测方法在对应视频帧中检测对象区域。进一步地，检测到的对象形状中位于遮挡区域内的特征点被视为遮挡特征点，而检测到的对象形状中位于遮挡区域外的特征点被视为非遮挡特征点。换言之，针对输入视频的任何一个视频帧，该视频帧中的对象形状的遮挡信息将对象形状的特征点表示为遮挡特征点和非遮挡特征点。也就是说，遮挡信息表示对象形状的每一个特征点的遮挡状态。

另外，一个视频帧中的对象形状的遮挡信息使用二进制表示法或概率表示法来表示。其中，二进制表示法意指将每一个遮挡特征点的遮挡状态表示为“1”，而将每一个非遮挡特征点的遮挡状态表示为“0”。概率表示法意指使用概率值来描述每一个特征点的遮挡状态。例如，在一个特征点的概率值大于或等于预定阈值(例如，TH1)的情况下，该特征点将被视为一个遮挡特征点。

此外，为了获得对象区域中更准确的遮挡区域，以便可获得更准确的遮挡信息，检测单元350对所检测到的遮挡区域(例如，图5A中所示的口罩区域520)执行图像分割方法，以获得更准确的遮挡区域(例如，图5B中所示的口罩区域530)。在一种实现方式中，以图5A中所示的口罩区域520为例，通过对口罩区域520内的每一个像素执行卷积神经网络(Convolution Neural Network，CNN)算法来实现图像分割方法。通过将图5A中所示的口罩区域520与图5B中所示的更新后的口罩区域530进行比较，可以看出，通过更新口罩区域520，鼻子区域周围的特征点的遮挡状态将从遮挡特征点更新为非遮挡特征点。

返回至图4，在步骤S420中，针对输入视频的第t个视频帧(其中，t≥2)，图3中所示的装置300确定第t个视频帧中对应的对象形状及对应的遮挡信息。在一种实现方式中，装置300参照图6确定对应信息。

然后，在装置300确定第t个视频帧中对应的对象形状及对应的遮挡信息之后，在步骤S430中，装置300判断t是否大于T。在t大于T(意指整个输入视频已被处理)的情况下，装置300的对应过程将停止。否则，在步骤S440中，装置300设置t＝t+1并且重复步骤S420的对应过程。

图6示意性地示出根据本发明的如图4所示的步骤S420的流程图。如图6中所示，在形状确定步骤S421中，图3中所示的形状确定单元310基于第t个视频帧的至少一个先前视频帧中的对象形状，确定第t个视频帧中的对象形状(即，对象初始形状)。

在一种实现方式中，形状确定单元310直接将在距第t个视频帧最近的一个先前视频帧中确定的对象形状视为第t个视频帧中的对象初始形状。在另一种实现方式中，形状确定单元310通过计算在第t个视频帧的多个先前视频帧中确定的对象形状的平均值或加权总和，来确定第t个视频帧中的对象初始形状。

返回至图6，在信息确定步骤S422中，信息确定单元320基于至少一个先前视频帧中的对象形状的遮挡信息，确定第t个视频帧中的对象初始形状的遮挡信息。

在一种实现方式中，信息确定单元320直接将在距第t个视频帧最近的一个先前视频帧中确定的对象形状的遮挡信息视为第t个视频帧中的对象初始形状的遮挡信息。

在另一种实现方式中，为了获得第t个视频帧中的对象初始形状的准确遮挡信息，信息确定单元320基于在第t个视频帧的多个先前视频帧中确定的对象形状的遮挡信息，使用基于统计的方法确定第t个视频帧中的对象初始形状的遮挡信息。

在一个实例中，信息确定单元320通过计算在第t个视频帧的多个先前视频帧中确定的对象形状的遮挡信息的平均值或加权总和，来确定第t个视频帧中的对象初始形状的遮挡信息。换言之，使用从第(t-n)个视频帧至第(t-1)个视频帧确定的对象形状的遮挡信息，来确定第t个视频帧中的对象初始形状的遮挡信息，其中n是自然数且2≤n＜T。

以计算加权总和为例，由于在距第t个视频帧较近的先前视频帧中确定的对象形状的遮挡信息能够更好地描述第t个视频帧中的对象初始形状的遮挡信息，因此，为了获得第t个视频帧中的对象初始形状的更准确的遮挡信息，将为距第t个视频帧较近的先前视频帧赋予较大的加权值，而为距第t个视频帧较远的先前视频帧赋予较小的加权值。例如，假设n＝6，则可为第(t-1)个视频帧至第(t-3)个视频帧赋予加权值0.8，可为第(t-4)个视频帧至第(t-6)个视频帧赋予加权值0.2。本领域技术人员应当理解，上述示例仅仅是说明性的，而不是限制性的。为每一个先前视频帧赋予对应的加权值之后，将计算对应的加权总和。在视频帧中的对象形状的遮挡信息使用二进制表示法表示的情况下，如上所述，将每一个遮挡特征点的遮挡状态表示为“1”，而将每一个非遮挡特征点的遮挡状态表示为“0”。因此，将第t个视频帧中加权总和大于或等于预定阈值(例如，TH2)的特征点的遮挡状态表示为“1”，而将第t个视频帧中加权总和小于预定阈值(例如，TH2)的特征点的遮挡状态表示为“0”。在视频帧中的对象形状的遮挡信息使用概率表示法表示的情况下，如上所述，将使用对应的概率值描述每一个特征点的遮挡状态。因此，将使用对应的加权总和来表示第t个视频帧中的特征点的对应概率值。

在另一实例中，在视频帧中的对象形状的遮挡信息使用概率表示法表示的情况下，为了获得第t个视频帧中的对象初始形状的更准确的遮挡信息，信息确定单元320通过对在第t个视频帧的多个先前视频帧中确定的对象形状的遮挡信息执行机器学习方法(例如，隐马尔科夫模型(Hidden Markov Model，HMM))，来确定第t个视频帧中的对象初始形状的遮挡信息。然后，将使用基于机器学习方法获得的对应值来表示第t个视频帧中的特征点的对应概率值。

在另一种实现方式中，为了减少计算量，信息确定单元320基于在第t个视频帧的多个先前视频帧中确定的对象形状的遮挡信息的稳定性，确定第t个视频帧中的对象初始形状的遮挡信息。更具体而言，在多个先前视频帧中的对象形状的遮挡信息稳定的情况下，信息确定单元320将任何一个先前视频帧中的对象形状的遮挡信息视为第t个视频帧中的对象初始形状的遮挡信息。换言之，在多个先前视频帧中的对象形状的遮挡信息稳定(意指输入视频中出现的遮挡为同步遮挡)的情况下，每一个先前视频帧中的对象形状的遮挡信息均相同。因此，代替执行上述基于统计的方法，可将任何一个先前视频帧中的对象形状的遮挡信息用作第t个视频帧中的对象初始形状的遮挡信息。

此外，一方面，可由信息确定单元320或专门单元(图3中未示出)实施判断操作，以判断多个先前视频帧中的对象形状的遮挡信息是否稳定。

另一方面，在一个实例中，基于经验设置确定多个先前视频帧中的对象形状的遮挡信息是否稳定。例如，在输入视频中要跟踪的对象被非移动对象(例如，口罩、太阳镜、围巾)遮挡的情况下，多个先前视频帧中的对象形状的遮挡信息将被视为稳定。

在另一实例中，为了减少计算量及获得第t个视频帧中的对象初始形状的更准确的遮挡信息，基于多个先前视频帧之间对象形状的每一个特征点的遮挡信息的变化频率，确定多个先前视频帧中的对象形状的遮挡信息是否稳定。其中，在一个特征点的遮挡信息的变化频率小于预定阈值(例如，TH3)的情况下，多个先前视频帧之间该特征点的遮挡信息将被视为稳定。此外，在多个先前视频之间所有特征点的遮挡信息稳定的情况下，多个先前视频帧中的对象形状的遮挡信息将被视为稳定。

更具体而言，针对多个先前视频帧之间对象形状的一个特征点，通过计算每两个相邻的先前视频帧之间该特征点的编辑距离的变化次数，获得该特征点的遮挡信息的变化频率。例如，针对从第(t-n)个视频帧至第(t-1)个视频帧的对象形状的一个特征点，首先将计算每两个相邻的先前视频帧之间该特征点的(n-1)个编辑距离。然后，将计算这(n-1)个编辑距离的变化次数，并且将通过例如以下公式计算该特征点的遮挡信息的变化频率：

返回至图6，确定第t个视频帧中的对象初始形状及第t个视频帧中的对象初始形状的遮挡信息之后，在形状更新步骤S423中，形状更新单元330基于第t个视频帧中的对象初始形状的遮挡信息，更新第t个视频帧中的对象初始形状。基于第t个视频帧中的对象初始形状的遮挡信息，可确定第t个视频帧中的对象初始形状的哪些特征点为遮挡特征点以及第t个视频帧中的对象初始形状的哪些特征点为非遮挡特征点。

因此，针对第t个视频帧中的对象初始形状的非遮挡特征点，形状更新单元330通过使用形状检测方法(诸如，CSR方法及基于深度学习的形状检测方法)更新非遮挡特征点的位置。也就是说，将使用形状检测方法来确定非遮挡特征点的最终位置。

鉴于非遮挡特征点与遮挡特征点之间的相对于对象区域的几何关系的稳定性，针对第t个视频帧中的对象初始形状的遮挡特征点，形状更新单元330基于非遮挡特征点的最终位置及非遮挡特征点与遮挡特征点之间的相对于对象区域的几何关系，更新遮挡特征点的位置。也就是说，将基于非遮挡特征点的最终位置及特定几何关系来确定遮挡特征点的最终位置。

例如，在要跟踪的对象是人脸的情况下，对应的几何关系可包括以下关系：

关系1：两个眼睛中央之间的距离约为脸部区域宽度的三分之一；和/或

关系2：嘴巴中央与左眼中央之间的距离、嘴巴中央与右眼中央之间的距离以及左眼中央与右眼中央之间的距离大致相同；和/或

关系3：鼻子中央与嘴巴中央之间的距离约为脸部区域高度的四分之一。

另外，以被口罩遮挡的嘴巴为例，也就是说，至少左眼区域和右眼区域周围的特征点为非遮挡特征点并且至少嘴巴区域周围的特征点为遮挡特征点，因此，确定左眼区域和右眼区域周围的特征点的最终位置之后，形状更新单元330可基于上述关系2及左眼区域和右眼区域周围的特征点的最终位置，确定嘴巴区域周围的特征点的最终位置。

返回至图6，确定非遮挡特征点的最终位置及遮挡特征点的最终位置之后，也就是说，确定第t个视频帧中的对象最终形状之后，为了将对象形状的更准确遮挡信息传递到后续视频帧，在信息更新步骤S424中，信息更新单元340基于第t个视频帧中的对象最终形状，更新第t个视频帧中的对象初始形状的遮挡信息。然后，更新后的遮挡信息将被视为第t个视频帧中的对象形状的对应遮挡信息。

在一种实现方式中，信息更新单元340通过基于预生成的遮挡分类器或其他遮挡判断方法判断第t个视频帧中的对象最终形状的每一个特征点的遮挡信息，来更新第t个视频帧中的对象初始形状的遮挡信息。在一种实现方式中，预生成的遮挡分类器是使用诸如支持向量机(Support Vector Machine，SVM)算法、Adaboost算法等学习方法，根据正样本和负样本生成的二进制分类器。其中，正样本是通过对遮挡特征点周围的对应图像进行采样生成的，而负样本是通过对非遮挡特征点周围的对应图像进行采样生成的。

图7A至图7D示意性地示出通过图6中所示的步骤S420，确定第t个视频帧中的对象形状的遮挡信息的示例。图7A示出从第0个视频帧至第(t-1)个视频帧的对象形状的对应遮挡信息。其中，水平方向表示视频帧的数量，垂直方向表示对象形状的特征点的数量，符号“O”表示对应的特征点为非遮挡特征点，符号“X”表示对应的特征点为遮挡特征点。执行图6中所示的步骤S422之后，第t个视频帧中的对象初始形状的对应遮挡信息如图7B中所示。图7C示出执行步骤S424之后第t个视频帧中的对象形状的对应遮挡信息。图7D示出从第0个视频帧至第t个视频帧的对象形状的对应遮挡信息。

如上所述，在本发明中，一方面，将使用从先前视频帧确定的遮挡信息来辅助确定当前视频帧中的对象最终形状。因此，在确定当前视频帧中的对象最终形状的过程中，可使用不同方法确定遮挡特征点的最终位置和非遮挡特征点的最终位置，从而可防止输入视频中存在的遮挡所产生的影响。另一方面，确定当前视频帧中的对象最终形状之后，当前视频帧中的对象最终形状将反过来用于辅助更新当前视频帧中的对象初始形状的对应遮挡信息，从而使得将要传递到后续视频帧的遮挡信息更准确。因此，根据本发明，在跟踪视频中的对象形状的过程中，在视频中的对象被其他对象遮挡的情况下，可提高一个视频帧甚至整个视频的对象形状的准确性及对象跟踪结果的准确性。

(图像处理***)

在拥挤的入场场景中(例如，在街道上、在购物中心、在超市等)，通常会出现一个人被另一个人遮挡(如图1B中所示)的情况，也就是说，通常会出现人物形状之间有对应遮挡的情况。因此，在跟踪视频中特定人的过程中，视频中其他人所产生的遮挡通常将影响人物跟踪的准确性。例如，视频中其他人所产生的遮挡通常将导致丢失正在跟踪的人，或导致切换正在跟踪的人的跟踪ID。其中，例如，切换正在跟踪的人的跟踪ID包括为正在跟踪的人赋予新的跟踪ID或交换正在跟踪的两个人的跟踪ID。

发明人发现，在跟踪视频中特定人的形状的过程中，在不考虑非移动对象(例如，口罩、太阳镜、围巾)对该特定人所产生的遮挡的情况下以及在该特定人未被任何其他人遮挡的情况下，在视频的所有视频帧之间该特定人的遮挡信息将保持不变。在该特定人在某一时段与另一个人交叉走过的情况下，对应视频帧之间被遮挡人的遮挡信息将发生变化，而对应视频帧之间未被遮挡人的遮挡信息仍将保持不变。因此，发明人认为，视频帧之间人物的遮挡信息可用于辅助跟踪人物的形状，因而可防止视频中其他人所产生的遮挡的影响并且可提高人物跟踪的准确性。

作为参照图3至图7D的上述过程的示例性应用，接下来，将参照图8描述示例性图像处理***。如图8中所示，图像处理***800包括装置300(即，第一图像处理装置)、第二图像处理装置810和第三图像处理装置820。在一种实现方式中，装置300、第二图像处理装置810和第三图像处理装置820经由***总线彼此连接。在另一种实现方式中，装置300、第二图像处理装置810和第三图像处理装置820经由网络彼此连接。另外，装置300、第二图像处理装置810和第三图像处理装置820可经由相同的电子设备(例如，电脑、PDA、移动电话、相机)实现。可选地，装置300、第二图像处理装置810和第三图像处理装置820还可经由不同的电子设备实现。

如图8中所示，首先，装置300和第二图像处理装置810接收从专门电子设备(例如，相机)输出或由用户输入的视频。

然后，针对输入视频中的任何两个人，装置300参照图3至图7D确定输入视频的每一个视频帧中每一个人的形状及输入视频的每一个视频帧中每一个人的形状的遮挡信息。

进一步地，针对输入视频中的任何两个人，第二图像处理装置810确定输入视频的每一个视频帧中每一个人的形状的跟踪信息。在一种实现方式中，第二图像处理装置810例如对输入视频的每一个视频帧执行通用跟踪方法，以确定对应的跟踪信息。每一个视频帧中一个人的形状的跟踪信息例如包括该人的跟踪ID、该人的形状的每一个特征点的轨迹等。

然后，针对输入视频的任何一个视频帧中的任何两个人，第三图像处理装置820基于该视频帧的至少一个先前视频帧中的每一个人的形状的遮挡信息及该视频帧的至少一个先前视频帧中的每一个人的形状的跟踪信息，确定该两个人之间的遮挡关系。其中，两个人之间的遮挡关系尤其是这两个人之间出现的遮挡的位置关系。例如，人物A与人物B之间的遮挡关系表示人物A被人物B遮挡，或者人物B被人物A遮挡，或者人物A和人物B彼此不遮挡。

为了减少计算量，在一种实现方式中，第三图像处理装置820基于输入视频的任何一个视频帧的先前视频帧之间每一个人的形状的非遮挡特征点的变化量及该视频帧中两个人之间的相对位置，确定该视频帧中这两个人之间的遮挡关系。

更具体而言，一方面，针对输入视频的特定视频帧中的两个人，基于在该特定视频帧之前的至少一个视频帧中由第二图像处理装置810确定的这两个人的跟踪信息，尤其是基于在该特定视频帧之前的至少一个视频帧中这两个人的形状的每一个特征点的对应轨迹，第三图像处理装置820确定该特定视频帧中这两个人之间的对应相对位置。在一个实例中，这两个人之间的相对位置被计算为这两个人之间的欧氏距离(Euclidean distance)。

另一方面，针对输入视频的特定视频帧中的两个人，基于在该特定视频帧之前的至少一个视频帧中由装置300确定的这两个人的遮挡信息，第三图像处理装置820首先确定每一个先前视频帧中每一个人的形状的非遮挡特征点的数量。然后，基于所确定的非遮挡特征点的数量，第三图像处理装置820确定先前视频帧之间每一个人的形状的非遮挡特征点的变化量。

接着，第三图像处理装置820基于所确定的这两个人之间的相对位置及所确定的每一个人的形状的非遮挡特征点的变化量，来确定该特定视频帧中这两个人之间的遮挡关系。

图9A和图9B示意性地示出在拥挤的入场场景中的两个人(例如，人物A和人物B)。其中，图9A示出在一个先前视频帧(诸如，第(t-m)个视频帧)中人物A与人物B之间的相对位置。图9B示出当前视频帧(诸如，第t个视频帧)中人物A与人物B之间的相对位置。针对人物A，可以看出，从第(t-m)个视频帧至第t个视频帧，人物A的形状的非遮挡特征点的数量保持不变。针对人物B，可以看出，在第t个视频帧周边的视频帧之间，人物B的形状的非遮挡特征点的数量在逐渐减少。因此，可以判断出，在第t个视频帧附近的时段处，人物B被人物A遮挡。换言之，在第t个视频帧附近的时段处，人物A与人物B之间的遮挡关系为人物B被人物A遮挡。

此外，如上所述，视频中由另一个人所产生的遮挡通常会导致切换正在跟踪的人的跟踪ID，从而导致在人物跟踪期间输出错误的跟踪结果。尤其是，在统计一个特定空间内的或统计通过一个特定空间的人的数量的人数统计的应用中，在跟踪视频中的人的过程中切换了一个人物的跟踪ID的情况下，将会输出错误的人数统计结果。因此，在跟踪视频中的人的过程中，在人物之间存在对应遮挡的情况下，为了减少在出现特定遮挡的位置前后切换跟踪ID，从而可提高人物跟踪的准确性，针对输入视频中的任何两个人，在确定了这两个人之间的遮挡关系之后，第三图像处理装置820将基于输入视频的每一个视频帧中这两个人之间的遮挡关系，进一步更新由第二图像处理装置810确定的这两个人的跟踪信息。例如，在第三图像处理装置820发现在出现特定遮挡的位置前后的两个跟踪ID实际上属于同一个人的情况下，第三图像处理装置820将校正错误跟踪ID。

在一种实现方式中，第三图像处理装置820通过以下操作判断在出现特定遮挡的位置前后的两个跟踪ID是否属于同一个人。以图10B中所示的人物D为例，其中，图10B示出其中人物D上出现遮挡的第t个视频帧，图10A示出第t个视频帧之前的第(t-1)个视频帧，图10C示出第t个视频帧之后的第(t+1)个视频帧。此外，从第(t-1)个视频帧至第(t+1)个视频帧，人物C与人物D之间的遮挡关系为人物D被人物C遮挡。

针对第(t-1)个视频帧中的人物D，第三图像处理装置820从第(t-1)个视频帧中人物D的形状的非遮挡特征点提取对应的外观特征向量，其中，基于第(t-1)个视频帧中人物C与人物D之间的遮挡关系，确定第(t-1)个视频帧中人物D的形状的非遮挡特征点。针对第(t+1)个视频帧中的人物D，第三图像处理装置820从第(t+1)个视频帧中人物D的形状的非遮挡特征点提取对应的外观特征向量，其中，基于第(t+1)个视频帧中人物C与人物D之间的遮挡关系，确定第(t+1)个视频帧中人物D的形状的非遮挡特征点。

然后，在这两个外观特征向量之间的相似性度量小于或等于预定阈值(例如，TH4)的情况下，第三图像处理装置820判断第(t-1)个视频帧中的人物D与第(t+1)个视频帧中的人物D实际上为同一个人。也就是说，第(t-1)个视频帧中人物D的跟踪ID与第(t+1)个视频帧中人物D的跟踪ID应相同。在这两个跟踪ID不相同的情况下，第三图像处理装置820将校正错误跟踪ID，因而可确保不管在第t个视频帧之前还是在第t个视频帧之后，被人物C遮挡的人物D仍可具有相同的跟踪ID。其中，两个外观特征向量之间的相似性度量通过例如计算这两个外观特征向量之间的距离获得。

如上所述，在本发明中，图8中所示的图像处理***800可确定输入视频的任何一个视频帧中的任何两个人之间的遮挡关系。因此，在输入视频中的人物之间存在特定遮挡的情况下，也就是说，在输入视频中的人物形状之间存在特定遮挡的情况下，图像处理***800可基于遮挡关系校正错误跟踪ID。因此，本发明可减少在出现特定遮挡位置前后切换跟踪ID，因而可以提高人物跟踪的准确性。

上述的所有的单元都是用于实现本公开中所述处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而，当存在执行特定过程的步骤的情况下，可以存在用于实现该同一过程的对应功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开中，只要它们所构成的技术方案是完整的、适用的即可。

可以以各种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则本方法的步骤的上述顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，而不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求限定。

Claims

1.一种用于跟踪视频中的对象形状的装置，所述装置包括：

形状确定单元，被配置为基于输入视频的当前视频帧的至少一个先前视频帧中的对象形状，确定所述当前视频帧中的对象形状；

信息确定单元，被配置为基于所述至少一个先前视频帧中的所述对象形状的遮挡信息，确定由所述形状确定单元确定的所述对象形状的遮挡信息；

形状更新单元，被配置为基于由所述信息确定单元确定的所述遮挡信息，更新由所述形状确定单元确定的所述对象形状；以及

信息更新单元，被配置为基于所述形状更新单元更新的所述对象形状，更新由所述信息确定单元确定的所述遮挡信息。

2.根据权利要求1所述的装置，其中，所述信息确定单元基于所述先前视频帧中的所述对象形状的所述遮挡信息，使用基于统计的方法确定由所述形状确定单元确定的所述对象形状的所述遮挡信息。

3.根据权利要求1所述的装置，其中，在所述先前视频帧中的所述对象形状的所述遮挡信息稳定的情况下，所述信息确定单元将任何一个所述先前视频帧中的所述对象形状的所述遮挡信息视为，由所述形状确定单元确定的所述对象形状的所述遮挡信息。

4.根据权利要求3所述的装置，其中，基于所述先前视频帧之间所述对象形状的每一个特征点的遮挡信息的变化频率，来确定所述先前视频帧中所述对象形状的所述遮挡信息是否稳定。

5.根据权利要求1所述的装置，其中，针对任何一个视频帧，该视频帧中所述对象形状的所述遮挡信息将所述对象形状的特征点表示为遮挡特征点和非遮挡特征点。

6.根据权利要求5所述的装置，其中，所述形状更新单元使用形状检测方法，更新由所述形状确定单元确定的所述对象形状的所述非遮挡特征点的位置。

7.根据权利要求6所述的装置，其中，所述形状更新单元基于所述形状更新单元更新的所述非遮挡特征点的位置及非遮挡特征点与遮挡特征点之间的相对于对象区域的几何关系，更新由所述形状确定单元确定的所述对象形状的所述遮挡特征点的位置。

8.根据权利要求1所述的装置，其中，所述信息更新单元通过基于预生成的遮挡分类器判断由所述形状更新单元更新的所述对象形状的每一个特征点的遮挡信息，来更新由所述信息确定单元确定的所述遮挡信息。

9.根据权利要求1所述的装置，所述装置还包括：

检测单元，被配置为，针对所述输入视频的第一个视频帧或针对从所述输入视频获取的一个视频帧序列中的第一个视频帧，检测所述第一个视频帧中的对象形状并检测所述第一个视频帧中所述检测到的对象形状的遮挡信息。

10.根据权利要求9所述的装置，其中，所述检测单元通过检测对象区域中的遮挡区域，检测所述第一个视频帧中所述检测到的对象形状的所述遮挡信息。

11.根据权利要求10所述的装置，其中，所述检测单元通过对所述检测到的遮挡区域使用图像分割方法来更新所述检测到的遮挡区域。

12.一种用于跟踪视频中的对象形状的方法，所述方法包括：

形状确定步骤，基于输入视频的当前视频帧的至少一个先前视频帧中的对象形状，确定所述当前视频帧中的对象形状；

信息确定步骤，基于所述至少一个先前视频帧中的所述对象形状的遮挡信息，确定由所述形状确定步骤确定的所述对象形状的遮挡信息；

形状更新步骤，基于所述信息确定步骤确定的所述遮挡信息，更新由所述形状确定步骤确定的所述对象形状；以及

信息更新步骤，基于所述形状更新步骤更新的所述对象形状，更新由所述信息确定步骤确定的所述遮挡信息。

13.根据权利要求12所述的方法，所述方法还包括：

检测步骤，针对所述输入视频的第一个视频帧或针对从所述输入视频获取的一个视频帧序列中的第一个视频帧，检测所述第一个视频帧中的对象形状并检测所述第一个视频帧中所述检测到的对象形状的遮挡信息。

14.一种图像处理***，所述***包括：

第一图像处理装置，被配置为，针对输入视频中的任何两个人，根据权利要求1至权利要求11中的任何一项权利要求，确定所述输入视频的每一个视频帧中的每一个人的形状及所述输入视频的每一个视频帧中的每一个人的所述形状的遮挡信息；

第二图像处理装置，被配置为，针对所述输入视频中的所述任何两个人，确定所述输入视频的每一个视频帧中的每一个人的所述形状的跟踪信息；以及

第三图像处理装置，被配置为，针对所述输入视频的任何一个视频帧中的所述任何两个人，基于该视频帧的至少一个先前视频帧中的每一个人的所述形状的所述遮挡信息及该视频帧的所述至少一个先前视频帧中的每一个人的所述形状的所述跟踪信息，确定这两个人之间的遮挡关系。

15.根据权利要求14所述的***，其中，所述第三图像处理装置基于所述输入视频的每一个视频帧中由所述第三图像处理装置确定的这两个人之间的所述遮挡关系，更新由所述第二图像处理装置确定的所述跟踪信息。

16.根据权利要求14所述的***，其中，针对所述输入视频的任何一个视频帧中的所述任何两个人，所述第三图像处理装置基于该视频帧的所述先前视频帧之间每一个人的所述形状的非遮挡特征点的变化量及该视频帧中这两个人之间的相对位置，确定这两个人之间的所述遮挡关系。