CN101986242B

CN101986242B - 在视频压缩编码过程中实现目标轨迹跟踪的方法

Info

Publication number: CN101986242B
Application number: CN 201010534682
Authority: CN
Inventors: 邢云冰; 陈益强; 胡明清; 黄启友
Original assignee: Institute of Computing Technology of CAS
Current assignee: G Cloud Technology Co Ltd
Priority date: 2010-11-03
Filing date: 2010-11-03
Publication date: 2012-06-13
Anticipated expiration: 2030-11-03
Also published as: CN101986242A

Abstract

本发明提供一种在视频压缩编码过程中实现目标轨迹跟踪的方法，被跟踪目标上安装有能够捕获实时三维运动数据的运动传感器；该方法包括：提取待压缩编码的视频序列的全局参数，计算被跟踪目标的实时三维运动数据；对所述视频序列中的非关键图像进行压缩编码，在压缩编码的同时根据所述全局参数、被跟踪目标的实时三维运动数据以及压缩编码参数计算出被跟踪目标在所述非关键图像中的大致位置与重点搜索区域，根据所述大致位置与重点搜索区域搜集所述非关键图像的宏块中与被跟踪目标的准确位置相关的块；由所述与被跟踪目标的准确位置相关的块计算出被跟踪目标在所述非关键图像中的准确位置。本发明实时性高、适用范围广；实现简单；可靠性强。

Description

在视频压缩编码过程中实现目标轨迹跟踪的方法

技术领域

本发明涉及人机交互领域，特别涉及一种在视频压缩编码过程中实现目标轨迹跟踪的方法。

背景技术

人机交互，作为沟通人与设备之间的桥梁，已广泛应用于视频会议、虚拟现实、医疗监控等多个领域。传统的人机交互设备包括键盘、鼠标、手写板、触摸板等，但是这些交互模式还停留在二维阶段，例如在进行视频会议时，只能在固定位置通过白板完成会议文字的交互，并且对白板的操作还处于比较原始的鼠标和键盘阶段。而随着传感器技术的发展(如微电子机械技术的日益成熟)以及传感器价格的下降，加速度计、陀螺仪等传感设备已经从传统的专用领域(如国防，航空，航天等领域)向其它领域渗透。传感器技术在人机交互领域同样得到了应用，这使得人机交互从传统的二维空间向三维空间发展。这种新的人机交互方式不仅为使用者解除空间和线缆的束缚，并且能够支持输入各种形状图案和文字数字信息，以增加会议双方的信息互动。

传感器技术应用在人机交互领域中所带来的变革之一是新型的空中轨迹输入方式。空中轨迹输入的关键是如何能够尽快准确检测出被跟踪目标(比如输入笔)的轨迹，目标轨迹跟踪是行为识别、文字识别的基础。目前传统的目标轨迹跟踪主要有2种方式：

(1)、首先利用专门的目标识别算法检测出图像中的特定目标，例如基于视觉的色度直方图方法，然后对视频序列中的所有图像分别操作以形成最终的跟踪轨迹。

(2)、除视频编码***外另加一套轨迹跟踪***，由该轨迹跟踪***专门检测和跟踪特定目标，例如基于传感器的惯性导航***。

在第一种方式中，仅仅利用摄像机所获取的视频序列中的图像信息实现目标轨迹跟踪，但该方式中所采用的基于视觉的轨迹跟踪算法的复杂度普遍较高，为了达到较高的识别率，通常采用全局搜索的方法在图像中匹配被跟踪目标，由于所要搜索的范围过大，因而实时性较差，对硬件性能的要求也较高。在第二种方式中，不需要利用摄像机所获取的视频序列中的图像信息，而是直接利用了轨迹跟踪***所提供的信息，该方式虽然可以直接实现目标轨迹跟踪，提高了实时性，但同时增加了***的硬件设备，加大了***的复杂度与成本。

发明内容

本发明的目的是克服现有的目标轨迹跟踪方法复杂度高、实时性差，或者***复杂度高、成本高的缺陷，从而提供一种在视频压缩编码过程中实现目标轨迹跟踪的方法，被跟踪目标上安装有能够捕获实时三维运动数据的运动传感器；该方法包括：

步骤1)、提取待压缩编码的视频序列的全局参数，计算被跟踪目标的实时三维运动数据；其中，所述全局参数为与所述视频序列整体有关的参数；所述三维运动数据为被跟踪目标在空间三个方向的转动角度以及被跟踪目标的大致运动位移；

步骤2)、对所述视频序列中的非关键图像进行压缩编码，在压缩编码的同时根据所述全局参数、被跟踪目标的实时三维运动数据以及压缩编码参数计算出被跟踪目标在所述非关键图像中的大致位置与重点搜索区域，根据所述大致位置与重点搜索区域搜集所述非关键图像的宏块中与被跟踪目标的准确位置相关的块；其中，所述非关键图像为需要参考前帧或后帧图像才能进行编解码的图像；

步骤3)、由所述与被跟踪目标的准确位置相关的块计算出被跟踪目标在所述非关键图像中的准确位置。

上述技术方案中，还包括计算被跟踪目标在所述视频序列的关键图像中的准确位置的步骤；以及

将被跟踪目标在所述视频序列中所有关键图像与非关键图像中的准确位置连接起来，形成被跟踪目标的运动轨迹的步骤；其中，

所述关键图像为能够利用本帧图像中的信息进行编解码的图像。

上述技术方案中，所述的全局参数包括摄像头到目标输入平面的距离d、摄像头俯仰角

摄像头捕获图像的水平分辨率w和垂直分辨率h、所述运动传感器的转动半径l、与搜索范围相关的感知数据误差ε、被跟踪目标在前一参考图像中的准确位置PL_prev；所述三维运动数据包括被跟踪目标沿输入平面两个坐标的转动角β_Y和β_P，以及被跟踪目标的大致运动位移S＝(S_x，S_y)；其中，

上述技术方案中，所述的步骤2)包括：

步骤2-1)、依次提取非关键图像中的宏块，对每一个宏块执行以下步骤；

步骤2-2)、对当前宏块进行压缩编码，在压缩编码过程中由当前宏块切分而成的各个块的编码参数中提取中间数据；所述中间数据包括：当前块在所在图像的水平位置i和垂直位置j、搜索范围r、当前块的搜索区域SW、当前块运动估计后的运动矢量MV；

步骤2-3)、根据所述的全局参数、实时三维运动数据以及所述中间数据计算出被跟踪目标在当前非关键图像的大致位置AL和重点搜索区域KA；

AL＝[x₁+s_x-ε，x₂+s_x+ε，y₁+s_y-ε，y₂+s_y+ε]；

KA＝[max(x₁，i-r)，min(x₂，i+M+r)，max(y₁，j-r)，min(y₂，j+N+r)]

其中，x₁、x₂、y₁、y₂为所述被跟踪目标在前一参考图像中的准确位置PL_prev的坐标，M和N分别为当前块的宽度和高度；

步骤2-4)、做运动搜索，查找当前块在运动估计时的最优匹配块，搜集与被跟踪目标的准确位置相关的块，所述的被搜集的块必须属于所述的大致位置AL并且该块的最优匹配块必须在所述的重点搜索区域KA中。

上述技术方案中，所述的步骤3)包括：

将同一幅非关键图像中相邻的与被跟踪目标的准确位置相关的块拼接起来，形成若干个块组，取面积最大的块组所形成的区域作为被跟踪目标在所述非关键图像中的准确位置。

本发明的优点在于：

(1)实时性高、适用范围广：本发明所述的方法在视频压缩编码的过程中同步实现目标轨迹跟踪，并且和具体的视频编码标准无关，例如H264，MPEG2，VC-1，AVS等标准均可利用本发明。

(2)实现简单：本发明所述的方法充分利用视频压缩编码中产生的运动搜索中间结果，所需的运动参数可以直接从陀螺仪上提取，从而节省硬件资源，实现简单。

(3)可靠性强：本发明所述的方法可以在编码图像的同时实现目标轨迹跟踪，辅助以陀螺运动数据，最大程度上搜索被跟踪目标的大致位置区域，不会出现遗漏和误判。

附图说明

图1为本发明的方法在一个实施例中实现对非关键图像中被跟踪目标的定位的流程图；

图2为根据集合C中的元素确定被跟踪目标在当前非关键图像中的准确位置的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。

为了方便理解，在对本发明的方法做详细说明前，首先给出本发明方法的一个可能的应用场景。在进行视频会议时，参与视频会议的各方希望能够进行文字交流。当与会者使用一个输入笔在空中书写相应文字的笔画时，如果该输入笔的书写轨迹能够被跟踪，那么与会者通过输入笔所书写的文字就能够被识别并传输给其他与会方，较现有技术中需要利用鼠标、键盘完成的会议文字交互方式更为方便。虽然在现有技术中也存在直接对输入笔的书写轨迹进行跟踪的相关方法，但正如背景技术中已经提到的，如果采用前述的第一种方式，该方式因为复杂度高、实时性差，因此不利于在视频会议这样实时性要求较高的场景中应用；如果采用前述的第二种方式，增加了硬件设备，对相关硬件设备的性能要求也会变高，这又会相应地提高了硬件成本。

由此，本发明提出了一种新的目标轨迹的跟踪方法，采用该方法时，只需要在诸如输入笔的被跟踪目标中放置一个如陀螺仪的运动传感器，就能够实现运动感知与视频压缩编码的融合，在视频压缩编码的同时实现了对目标轨迹的跟踪。在下面的实施例中对本发明方法的实现步骤做详细说明前，先对其中所涉及到的一些基本概念做统一的说明。

关键图像：指能够利用本帧图像中的信息进行编解码的图像，典型的关键图像如I帧。在一般的视频序列中，关键图像是少数，但会在一定的时钟周期内反复出现。

非关键图像：指需要参考前或后帧图像才能进行编解码的图像，典型的非关键图像如P帧、B帧，如果前帧或后帧参考图像没有被正确的编解码，该非关键图像是无法被正确编解码的。在一般的视频序列中，非关键图像占了绝大多数。

下面以前述应用场景中的输入笔为例，对本发明的方法如何在摄像头所生成的视频序列中实现对输入笔书写轨迹的跟踪进行说明。正如前文所提到的，该输入笔中需要放置一个诸如陀螺仪的运动传感器，这一运动传感器能够捕获所述输入笔在运动过程中的陀螺运动数据。

生成被跟踪目标的运动轨迹的基本步骤如下：

由摄像头可以生成一段时间的视频序列，首先从视频序列中提取各个图像，然后判断图像被编码的类型，若为关键图像，那么可以直接对被跟踪目标(如输入笔的笔头)在所述关键图像中的准确位置进行定位，若为非关键图像，则可以采用下文中所提到的方法对被跟踪目标在所述非关键图像中的准确位置进行定位，在为视频序列中的所有图像都完成被跟踪目标在图像中位置的查找后，就可以将被跟踪目标在视频序列中所有关键图像与非关键图像中的准确位置连接起来，形成被跟踪目标的运动轨迹。

在上述操作中可以看出，如何定位被跟踪目标在关键图像与非关键图像中的准确位置有着不同的操作，下面分别加以说明。

关于如何在关键图像中定位被跟踪目标

在关键图像中确定被跟踪目标的准确位置可以采用现有技术的相关方法实现，如色度直方图方法，所得到的准确位置可以用PL＝[x₁，x₂，y₁，y₂]表示，它实际上是一个矩形区域。由于在视频序列中，关键图像的数目所占的比例较小，因此，采用现有技术的相关方法实现对关键图像中被跟踪目标的定位所要花费的时间不会太长，对实时性的影响也有限。

关于如何在非关键图像中定位被跟踪目标

在非关键图像中定位被跟踪目标的操作相对复杂，下面结合图1分步骤予以描述。

步骤1)、提取全局参数以及陀螺仪所生成的陀螺运动数据。

所谓的全局参数是指与整个视频序列整体有关的参数，参数中的各个值不会随着时间发生改变。全局参数用集合GS表示，

其中，d为摄像头到目标输入平面的距离，

为摄像头俯仰角，w和h为摄像头捕获图像的水平和垂直分辨率，l为陀螺的转动半径，ε为和搜索范围相关的感知数据误差，调节ε可调节被跟踪目标检测的精度，ε的具体取值需要根据运动搜索算法以及搜索范围的大小而定，一般搜索范围越大，ε的取值越大，目标检测越精准。PL_prev表示被跟踪目标在前一参考图像中的准确位置。从对全局参数GS的各个组成元素的说明也可以看出，这些元素都具有全局性，不会随时间发生变化。

所谓的陀螺运动数据是由安装在输入笔上的陀螺仪所采集到的目标在空间3个方向的转动角度以及目标的大致运动位移。与全局参数不同，陀螺运动数据与时间密切相关，由于陀螺仪的数据采集频率远远高于摄像头的图像采集频率，因此视频序列中的一幅图像至少对应有一组陀螺运动数据。陀螺运动数据用集合MS表示，MS＝{β_Y，β_P，S}，其中，β_Y和β_P分别表示被跟踪目标沿输入平面两个坐标的转动角，S＝(S_x，S_y)为根据陀螺运动数据计算得到的目标大致运动位移，以像素为基本单位，显然：

本步骤中除了要提取上述的全局参数与陀螺运动数据外，还包括设定一个空集合C，该集合将在接下来的步骤中用于保存被跟踪目标在非关键图像中可能属于的块。

步骤2)、依次提取非关键图像中的宏块，对每一个宏块执行以下步骤21)-步骤23)。

步骤21)、对当前宏块进行压缩编码，并从压缩编码过程中由当前宏块切分而成的各个块的编码参数中提取中间数据，组成集合CS，CS＝{i，j，r，SW，MV}；其中，i和j分别表示当前块在所在图像的水平和垂直位置，r表示搜索范围，SW＝[i-r，i+M+r，j-r，j+N+r]表示当前块的搜索区域，M和N分别表示当前块的宽度和高度，MV＝(x，y)表示当前块运动估计后的运动矢量。

在本步骤中，根据现有的视频编解码标准，宏块一般有16×16个像素，在编码过程中，该16×16的宏块有可能进一步分为2个16×8的块，或者4个8×8的块，甚至16个4×4的块，这些由宏块切分而成的块就是前文所提到的块。块的具体大小根据不同的编码标准和编码算法而定。对宏块进行编码的方法可采用现有技术中的相关方法，因此不在此处重复。

步骤22)、根据陀螺实时计算的运动信息MS以及集合GS、CS中的数据计算出被跟踪目标在当前非关键图像的大致位置AL和重点搜索区域KA。

对AL的计算可参考下面公式(3)：

AL＝[x₁+s_x-ε，x₂+s_x+ε，y₁+s_y-ε，y₂+s_y+ε] (3)

对KA的计算可参考下面公式(4)：

KA＝[max(x₁，i-r)，min(x₂，i+M+r)，max(y₁，j-r)，min(y₂，j+N+r)] (4)

步骤23)、做运动搜索，查找当前块在运动估计时的最优匹配块，然后判断当前块是否属于AL并且当前块的最优匹配块是否在KA中，如果是，将当前块存放到步骤3)所生成的集合C中。

本步骤中的判断规则如下：

如果：

(i≥(x₁+s_x-ε))&&((i+M)≤(x₂+s_x+ε))&&(j≥(y₁+s_y-ε))&&((j+N)≤(y₂+s_y+ε))

那么当前块属于AL，否则当前块不属于AL。

如果：

((i+x)≥max(x₁，i-r))&&((i+x+M)≤min(x₂，i+M+r))&&((j+y)

≥max(y₁，j-r))&&((j+y+N)≤min(y₂，j+N+r))

那么当前块的最优匹配块在KA中，否则不在KA中。

本步骤中为当前块查找其最优匹配块时，可以采用现有技术中的相关判断准则，如绝对误差和(SAD)最小准则或差值平方和(SSD)最小准则。

绝对误差和(SAD)最小准则的计算公式如下：

SAD (x, y) = \min_{x, y} Σ_{u = 0}^{M} Σ_{v = 0}^{N} | f_{t} (u, v) - f_{t - 1} (u + x, v + y) | - - - (5)

差值平方和(SSD)最小准则的计算公式如下：

SDD (x, y) = \min_{x, y} Σ_{u = 0}^{M} Σ_{v = 0}^{N} {(f_{t}^{`} (u, v) - f_{t - 1} (u + x, v + y))}^{2} - - - (6)

上述公式(5)和公式(6)中，f_t(u，v)代表当前块的原始值，f_t-1(u+x，v+y)代表前一参考图像的亮度值，即当前块的预测值，f`_t(u，v)代表当前块的重构值。

步骤3)、根据集合C中的元素确定被跟踪目标在当前非关键图像中的准确位置PL。

由于在集合C中保存了被跟踪目标在非关键图像中可能属于的块，因此在本步骤中对这些块做进一步的处理，以确定被跟踪目标在图中的准确位置。这一确定被跟踪目标准确位置的方式是通过查找面积最大的相邻块来实现的。

参考图2，这一处理过程包括：首先，设置块组集合C`为空；然后读取集合C中的每个块信息，如果该块和集合C`中的某个块组相邻，则将该块加入这个块组中，否则，该块形成一个新的块组，并将新的块组放入集合C`中；最后，C`中面积最大的块组形成的矩形区域即为被跟踪目标在该图像中的准确位置PL。

在上述实施例中，将输入笔作为被跟踪目标，但在其他实施例中，显然也可以是其他物体。此外，安装在被跟踪目标中的传感器也不局限于陀螺仪，其他类型的传感器，如加速度计，同样适用于本发明。

本发明的优点在于：

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种在视频压缩编码过程中实现目标轨迹跟踪的方法，其特征在于，被跟踪目标上安装有能够捕获实时三维运动数据的运动传感器；该方法包括：

步骤1)、提取待压缩编码的视频序列的全局参数，计算被跟踪目标的实时三维运动数据；其中，所述全局参数为与所述视频序列整体有关的参数；所述三维运动数据为被跟踪目标在空间三个方向的转动角度以及被跟踪目标的大致运动位移S＝(S_x，S_y)；

步骤2)、依次提取非关键图像中的宏块，对每一个宏块执行以下步骤：

(21)对当前宏块进行压缩编码，在压缩编码过程中由当前宏块切分而成的各个块的编码参数中提取中间数据；所述中间数据包括：当前块在所在图像的水平位置i和垂直位置j、搜索范围r、当前块的搜索区域SW、当前块运动估计后的运动矢量MV；

(22)根据所述的全局参数、实时三维运动数据以及所述中间数据计算出被跟踪目标在当前非关键图像的大致位置AL和重点搜索区域KA；

AL＝[x₁+s_x-ε，x₂+s_x+ε，y₁+s_y-ε，y₂+s_y+ε]；

其中，x₁、x₂、y₁、y₂为所述被跟踪目标在前一参考图像中的准确位置PL_prev的坐标，M和N分别为当前块的宽度和高度，ε为与搜索范围相关的感知数据误差；

(23)做运动搜索，查找当前块在运动估计时的最优匹配块，搜集所述非关键图像的宏块中与被跟踪目标的准确位置相关的块，所述的被搜集的块必须属于所述的大致位置AL并且该块的最优匹配块必须在所述的重点搜索区域KA中；其中，所述非关键图像为需要参考前帧或后帧图像才能进行编解码的图像；

步骤3)、将同一幅非关键图像中相邻的与被跟踪目标的准确位置相关的块拼接起来，形成若干个块组，取面积最大的块组所形成的区域作为被跟踪目标在所述非关键图像中的准确位置；

步骤4)基于被跟踪目标在所述视频序列的关键图像中的准确位置和步骤3)得到的被跟踪目标在所述非关键图像中的准确位置，形成被跟踪目标的运动轨迹；其中，所述关键图像为能够利用本帧图像中的信息进行编解码的图像。

2.根据权利要求1所述的在视频压缩编码过程中实现目标轨迹跟踪的方法，其特征在于，所述的步骤4)包括：

计算被跟踪目标在所述视频序列的关键图像中的准确位置的步骤；以及

将被跟踪目标在所述视频序列中所有关键图像与非关键图像中的准确位置连接起来，形成被跟踪目标的运动轨迹的步骤。

3.根据权利要求1或2所述的在视频压缩编码过程中实现目标轨迹跟踪的方法，其特征在于，所述的全局参数包括摄像头到目标输入平面的距离d、摄像头俯仰角