CN102034267A

CN102034267A - 基于关注度的目标物三维重建方法

Info

Publication number: CN102034267A
Application number: CN 201010574274
Authority: CN
Inventors: 徐常胜; 肖宪
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2010-11-30
Filing date: 2010-11-30
Publication date: 2011-04-27

Abstract

本发明基于关注度的目标物的三维重建方法，包括步骤S1：将用于三维重建的视频分割为视频帧，并从静态、位置和动态分析视频帧中的视觉关注度分布，并获得其对应的静态、位置和动态显著度图；融合静态、位置和动态分析的显著度图以得到每个视频帧的基于视频的显著度图，显著度图所描述的显著区域为三维重建中的感兴趣区域；步骤S2：利用概要性全局特征来聚类所有的视频帧，并根据每个视频帧产生的显著度图选出一个候选的关键帧集合，最终通过几何约束和视觉约束分析，提取用于三维重建的视频关键帧；步骤S3：使用视频关键帧和其相对应的显著度图，仅对视频帧中的显著区域进行三维重建，以得到在感兴趣区域上的精确的三维模型并加快重建速度。

Description

基于关注度的目标物三维重建方法

技术领域

本发明属于计算机视觉，图像处理和多媒体分析技术领域，涉及基于关注度的目标物三维重建方法。

背景技术

随着数字图像的发展，高质量的视频变得更加丰富。由于基于视频的三维重建通过使用丰富的视频数据，可以提高集合精度和视觉质量，因此成为一个很流行的研究课题，在计算机视觉，图像处理和多媒体分析。

一般来说，基于视频/图像的三维重建***可以分为两类：基于非标定的***和基于自标定的***。基于非标定的***需要图像和摄像机参数来进行三维重建，例如基于块的多视立体方法(PMVS)，它通过增强局部光学一致性和全局视觉约束来恢复物体或者场景的三维结构。基于自标定的***首先通过摄像机自标定算法估计摄像机参数然后再恢复三维点云。但是，当前的方法只提供整体场景的三维重建，而我们往往只关注那些吸引我们注意力的区域。这样的方法浪费了太多的计算量在重建那些非感兴趣区域，而且三维模型不能突出那些感兴趣区域。

人们往往关注与那些视觉显著的区域，而视觉关注度分析可以获得视觉显著区域。视觉关注度分析已经被学习和广泛的应用于计算机视觉，人工智能和多媒体处理。大部分先前的工作集中于静态图像的分析，主要使用静态信息。当前，视频关注度分析吸引了更多的关注。主要方法有结合静态和位置显著度图来获得关键帧中的感兴趣区域。除了静态和位置关注度，动态关注度同样引起了人们的注意，并且广泛的应用于基于时空信息的关注区域检测。有很多方法可以用来获得运动向量，例如光流法。但是，在运动摄像机条件下的运动向量的估计仍然是一个挑战性的问题，而且仅仅从观看者的角度分析动态关注度是不够的。

发明内容

为了解决现有技术三维重建的精确度不能令人满意的问题，本发明的目的是提出了一个时空关注度区域检测的方法来增强基于视频的三维重建，为此提供一种基于关注度的目标物三维重建方法。

为达到上述目的，本发明提供的基于关注度的目标物三维重建方法的技术方案包括：通过分析视频帧中的感兴趣区域来提高三维重建的效果并加快三维重建的速度，包括步骤如下：

步骤S1：将用于三维重建的视频分割为视频帧，并从静态、位置和动态三个方面来分析视频帧中的视觉关注度分布，并获得其对应的静态、位置和动态显著度图；融合静态、位置和动态三方面分析的显著度图以得到每个视频帧的基于视频的显著度图，显著度图所描述的显著区域为三维重建中的感兴趣区域；

步骤S2：利用概要性全局特征来聚类所有的视频帧，并根据每个视频帧产生的显著度图选出一个候选的关键帧集合，最终通过几何约束和视觉约束分析，提取用于三维重建的视频关键帧；

步骤S3：使用视频关键帧和其相对应的显著度图，仅对视频帧中的显著区域进行三维重建，以得到在感兴趣区域上的精确的三维模型并加快重建速度。

其中，所述分析视频的视觉关注度包括：静态关注度分析、位置关注度分析、动态关注度分析和关注度融合；

对于每个视频帧，使用基于对比和基于信息论相结合的方法进行静态关注度分析，得到静态显著度图；

对于每个视频帧，从水平、垂直和放射三个方面描述摄像机的运动使用完整模板匹配进行位置关注度分析，得到位置显著度图；

对于相邻视频帧，从视频观众和视频拍摄者两个方面进行动态关注度分析，得到相邻两帧中前帧的动态显著度图；

对于得到的每个视频帧的静态显著度图、位置显著度图和动态显著度图，使用动态融合的方式进行关注度融合，根据静态显著度图和动态显著度图的均值之间的关系来计算融合时各自的权重，并最终得到每个视频帧的融合后的视觉显著度图。

其中，所述提取用于三维重建的视频关键帧的步骤包括如下：

步骤S21：先用概要性全局特征描述符聚类所有的帧到k个聚类类别；

步骤S22：对于每一个聚类类别，通过计算这个类别中所有显著度图的均值来获得这个类别的类显著度图；

步骤S23：计算每个聚类中帧的显著度图和类显著度图之间的距离，并从每个聚类类别中选出与类显著度图距离最小的10％的图像作为候选关键帧集合；

步骤S24：将来自候选关键帧集合中的任意k个帧构成一个帧组合，如果他们来自不同的类别，根据几何约束和视觉约束排序所有的帧组合并最终决定关键帧组合。

其中，所述仅对视频帧中的显著区域进行三维重建的步骤如下：

步骤S31：用由运动恢复结构的方法自动的恢复关键帧的摄像机参数；然后，在每个关键帧中用高斯差分和哈里斯检测子来检测角点；对每个关键帧的感兴趣区域由视觉显著度的值来描述；通过帧显著度图，删除检测出来的分布在感兴趣区域之外的特征；最后，分布在感兴趣区域内的特征被提供去恢复三维信息；

步骤S32：使用两幅图像之间的极限约束对分布在感兴趣区域内的图片特征进行特征匹配，从而在显著区域中形成稀疏的块分布，得到初始匹配块，

步骤S33：重复n次对初始匹配块向周围进行扩散膨胀，并且得到稠密的块分布；

步骤S34：根据视觉约束，对稠密的块分布重复n次消除匹配错误的块，实现关注度增强的三维重建。

本发明的有益效果：本发明通过对每个视频帧进行视觉关注度分析，在每个视频帧中得到了较为精确的感兴趣区域，并通过对视频帧的基于全局特征的聚类以及基于视觉约束和几何约束的视频关键帧提取，来得到有利于三维重建视频关键帧和视频帧中的感兴趣区域。对视频关键帧中的感兴趣区域中的特征进行三维重建，得到了精确的三维重建结果，并提高了三维重建的速度。

本发明在真实环境中的室内和室外的实验，证明了本发明的方法有更高的精确度和更高的计算效率。

附图说明

图1本发明基于视觉关注度的目标物三维重建框架图

图2是描述在室内环境下的视觉关注度分析结果。

图3是描述在室外环境下视觉关注度分析的结果。

图4是室内环境下视频关键帧提取结果。

图5是室外环境下视频关键帧提取结果。

图6是室内场景重建的例子。

图7是室外场景重建的例子。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

考虑到视觉关注度分析在感兴趣区域检测上的广泛应用，本发明提出了一个时空关注度区域检测的方法来增强基于视频的三维重建。本发明的方法适应基于视频的三维重建的特性：未知的摄像机运动和视频中某些物体的突然出现(例如飞鸟，行人，路过的车辆等)。通过与传统的三维重建方法比较，本发明的方法可以获得更准确的三维模型和较低的运算消耗。本发明中所使用计算机均在Windows XP操作***下，硬件设备条件为处理器：酷睿双核2.2G，内存2G。本发明的结构图在图1中显示基于视觉关注度的目标物三维重建框架图，包括三部分：1)基于视频的视觉关注度分析，2)视频关键帧提取，3)关注区域增强的视频三维重建，其中：

1基于视频的视觉关注度分析

基于视频的视觉关注度分析主要包括四部分：静态关注度分析、位置关注度分析、动态关注度分析和关注度融合。其中，静态关注度分析主要是针对视频帧中能够引起人们视觉关注的静态的物体的分析；位置关注度分析主要是针对视频帧中，由位置引起的视觉关注的分析，并且视觉关注的位置也随着摄像机的变化而转移；动态关注度分析主要是针对相邻视频帧中，运动的物体能够引起视觉关注的分析，通过对视频帧中每个像素点的运动强度分析，获得能够引起视觉关注的动态显著度图；分别从静态、位置和动态三个方面分析视觉关注之后，本发明融合三方面分析的结果，得到最终的视觉关注分析。

1.1静态关注度分析

静态物体可以吸引人们的关注，这就是所谓的静态关注度。基于反差的关注度分析引入中心环绕结构的概念来提供人类视觉***(HVS)以特征反差。基于信息论的方法依靠于这样的前提：视觉关注的完全依靠于最大化的信息采样。反差和信息采样是计算显著度的两个因素。本发明融合基于反差的方法和基于信息论的方法来计算静态显著度图，如公式(1)：

Map_static(x，y)＝Con(x，y)×ID(x，y) (1)

这里在点(x，y)处的静态显著度值为Map_static(x，y)，归一化之后的反差特征为Con(x，y)和信息特征为ID(x，y)。

1.2位置关注度分析

本发明从水平(H)、垂直(V)和放射(R)三个方面描述摄像机的运动使用整体模板匹配(Integral Template Matching)技术。应用水平(H)、垂直(V)和放射(R)3参数的模型，用一下三个公式计算摄像机在水平Map_H(i，j)、垂直Map_V(i，j)和放射Map_R(i，j)三个方向的运动强度，如公式(2-4)：

{Map}_{H} (i, j) = \max (0,1 - \frac{| j - width / 2 - k_{H} \times H |}{width / 2}) - - - (2)

{Map}_{V} (i, j) = \max (0,1 \frac{| i - height / 2 - k_{V} \times V |}{height / 2}) - - - (3)

{Map}_{R} (i, j) = \{\begin{matrix} 1 - r / r_{\max} & R &GreaterEqual; 0 \\ - k_{r} \times r / r_{\max} & R < 0 \end{matrix} - - - (4)

这里，i，j是像素点的位置，r表示像素点到帧中心的距离，r_max是r的最大值。k_H，k_V和k_r是常数；H表示摄像机的水平运动，V表示摄像机的垂直运动，R表示摄像机的放射运动，max表示取最大值，width表示当前视频帧的像素宽度，height表示当前视频帧的像素高度。

最终摄像机的位置显著度图Map_loc被表示如下(公式(5))：

Map_loc＝Map_H+Map_V+Map_R (5)

其中Map_H表示摄像机在水平方向的运动强度，Map_V表示摄像机在垂直方向的运动强度，Map_R表示摄像机的旋转运动强度。

1.3动态关注度分析

本发明的方法从视频观众和视频拍摄者两个方面分析动态关注度。从观众的角度，本发明分析了哪些区域更加吸引人们的注意。从摄影师的角度，本发明研究哪些区域是摄影师想要记录的。

在本发明的方法中，在运动摄像机下，同时引起摄影师和观众的关注的区域是动态关注区域。此外，动态关注区域的运动强度既不是最大也不是最小而且视觉显著度与运动强度成反比。

本发明用光流法来检测运动强度，并用UV表示运动强度。每个图像帧的运动强度的均值和标准差是重要的表示。动态显著度图Map_motion(x，y)表示为：

{Map}_{motion} (x, y) = \{\begin{matrix} 0 & UV (x, y) > Mean + δ \times SD \\ 0 & UV (x, y) < \max (Mean - δ \times SD, UB) \\ 1 - UV (x, y) & Others \end{matrix} - - - (6)

其中Mean和SD表示均值和标准差，δ是损失系数，UB是光流法对远处的非纹理复杂区域误检的上界。

1.4关注度融合

静态显著度图表示了能够吸引观众兴趣的静态物体。位置显著度图描述了人类视觉敏感度的分布。拥有高的视觉敏感度的视觉显著区域比低视觉敏感度的区域更容易获得关注。因此，通过用静态显著度图乘以位置显著度图，本发明获得了位置增强的静态显著度图。动态显著度图描述了在视频中，哪些运动更容易吸引人类视觉***。

本发明提出了一个动态融合算法而且静态，动态显著度的权重由静态和动态显著度图的均值之间的比值决定。最终的显著度图Map_fusion表示如下：

Map_fusion＝Map_motion×λ+Map_loc·×Map_static×(1-λ) (7)

λ＝Mean_motion/(Mean_motion+Mean_static) (8)

λ是动态关注度的权重，Map_motion是动态显著度图，Map_loc是位置显著度图，Map_static是静态显著度图，Mean_static和Mean_motion是静态和动态显著度图的均值。

2视频关键帧提取

为了选取视频帧来进行三维重建，本发明提出一个新的视频关键帧提取算法，分为三部分。本发明先用概要性全局特征(GIST)描述符聚类所有的帧到k个类别。然后，对于每一个类别，一个类显著度图是通过计算这个类别中所有显著度图的均值来获得的。通过计算帧的显著度图和类显著度图之间的距离，本发明选出一定比例的图像作为候选关键帧集合。这个比例是事先确定的。来自候选关键帧集合中的任意k个帧构成一个帧组合，如果他们来自不同的类别。本发明最终根据几何约束和视觉约束排序所有的帧组合并最终决定关键帧组合。

2.1概括性全局特征(GIST)聚类

聚类的目的是通过确定一些有代表性的视角来表示视频内容。如果有很多图像是从相似的视角拍摄的，那么他们中肯定存在相似的图像显示。而这些相似的图像可以用低维的全局特征来描述。本发明用K均值方法来聚类全局特征GIST。GIST特征已经被证明可以有效的聚类图像。

2.2关键帧候选集生成

本发明通过计算每个聚类类别中所有显著度图的均值来获得这个类别的类显著度图。计算帧显著度图与类显著度图的欧式距离，本发明排序每个类别中的帧。从每个聚类类别中，本发明选取了事先确定的比例的帧(从距离类显著度图最近的开始)来构成了关键帧的候选集，每个类别中至少选1帧。最终的关键帧来自于这个候选集。本发明计算采样率如下：

η＝1/(n/k) (9)

这里，η是采样率，n是视频中帧的总数，k是类别数。

对于每个类别，所选出的帧的个数计算如下：

这里，S_i是第i个类别选出的帧的数量，n_i是第i个类别中帧的总数。

2.3关键帧提取

为了选择三维重建所需要的关键帧组，本发明依靠几何和视觉约束来排序所有的关键帧组合。

几何约束是为了保证所选出的关键帧组中的视频帧在三维空间中包含重合的区域。本发明提取SIFT特征，并用随机抽样一致性(RANSAC)算法来估计一个图像间的基本矩阵。对于一个特定的帧组，每个帧与其他帧之间有一些匹配点。每个帧组中的匹配点的总和对于这个帧组来说，是一个新的表示特征，称为几何约束得分。本发明按照几何约束得分降序排列所有的帧组和。

同一个帧组中的不同帧是来自不同的视角的。视觉约束描述了从一个视角可以看到哪些真实世界的内容。在一个帧组中，本发明可以恢复每个帧的视觉顺序。对于一个给定的帧组，本发明定义视觉损失(VL)如下：

VL = Σ_{i = 2}^{k - 1} | (O_{i - 1} + O_{i + 1}) / 2 - O_{i} | - - - (11)

这里，k是聚类数，O_i表示第i帧的视角排名。VL是视觉约束得分。本发明根据视觉约束得分VL升序排列所有的帧组合。

对于每个帧组合，本发明计算几何约束得分和视觉约束得分的和，拥有最小的和的帧组是关键帧组。如果几个帧组合拥有同样的最小值，那么他们都可以被选为关键帧组合。

3关注度增强的三维重建

本发明提出了一种关注度增强的三维重建方法来提高重建结果。本发明的方法是一种基于非标定的方法。与先前的三维重建方法，本发明的增强三维重建方法，不仅仅突出了感兴趣区域，而且节省了计算量。

首先，本发明用由运动恢复结构(structure-from-motion)的方法自动的恢复关键帧的摄像机参数。然后，在每个关键帧中用高斯差分(DOG)和哈里斯(Harris)检测子来检测角点。对于每个关键帧，感兴趣区域是由高视觉显著度的区域组成的。通过帧显著度图，本发明删除了那些检测出来的分布在感兴趣区域之外的特征。最后，余下的特征被提供去恢复三维信息。经过简单的匹配，膨胀和过滤的过程：1)初始特征匹配：通过极线约束在不同帧之间，匹配余下的图片特征，从而在显著区域中，形成稀疏的块分布。给定初始的这些匹配，接下来的两个步骤，重复n次；2)块膨胀：对初始的匹配块向周围进行扩散，并且得到稠密的块分布；3)块过滤：根据视觉约束来消除匹配错误的块。

4实施效果

为了评估本发明，本发明设计了两组实验，分别是在室内和室外环境下。在两组实验中，本发明分别提供了视觉关注度分析，视频关键帧提取和三维重建的试验结果。

4.1视觉关注度分析试验

图2描述的是在室内环境下的视觉关注度分析结果。图2中(a)中的两帧图像是从不同角度抽取的关键帧的关注度分析结果。可以明显的看出来，无论是静态显著度图还是动态显著度图，都无法准确的描述出目标物的位置和轮廓，而融合之后的显著度图可以给出较好的描述。

图3描述的是在室外环境下视觉关注度分析的结果。图2中(a)中的两帧图像是从不同角度抽取的关键帧的关注度分析结果。可以明显的看出来，无论是静态显著度图还是动态显著度图，都无法准确的描述出目标物的位置和轮廓，特别是在动态显著度图的描述上，过多的非目标区域被描述成为关注区域，而融合之后的显著度图可以给出较好的描述。

由图2和图3可以证明，本发明的视频关注度分析的结果是有效的。

图2室内环境下的视觉关注度分析结果。图2中的(a)是原始图像，图2中的(b)是静态显著度图，图2中的(c)是位置显著度图，图2中的(d)是动态显著度图，图2中的(e)是融合之后的显著度图。

图3室外环境下的视觉关注度分析结果。图3中的(a)是原始图像，图3中的(b)是静态显著度图，图3中的(c)是位置显著度图，图3中的(d)是动态显著度图，图3中的(e)是融合之后的显著度图。

4.2关键帧提取实验

关键帧提取的结果显示在图4和图5中。其中，图4是室内环境下视频关键帧提取结果，图5是室外环境下视频关键帧提取结果。用黄色框描述的是视觉关注度计算结果较差的帧的显著度图。可以看出，在本发明选出的关键中，仅有少数的帧的显著度图结果较差，其他的都能够较好的描述关注区域。

图4室内环境下视频关键帧提取结果。图4中的(a)是用本发明中的方法提取的关键帧，图4中的(b)是图4中的(a)对应的显著度图。黄框描述的是视觉关注度计算结果较差的帧的显著度图。

图5室内环境下视频关键帧提取结果。图5中的(a)和(b)是用本发明中的方法提取的关键帧，图5中的(c)和(d)是图5中的(a)和(b)对应的视觉关注度图。图5中(c)的粗框描述的是视觉关注度计算结果较差的帧的关注度图。

4.3三维重建的评估

三维重建的评估主要包括两个方面，一个是时间方面的评估，一个是重建效果的评估。表1中描述的是重建的时间消耗，图6中是室内场景的重建的例子，图7是室外场景的重建的例子。

从表1中可以看出本发明中的方法在时间上具有很大的优势，可以在重建中节省大量的时间。从图6和图7中画黄框的位置可以看出，本发明提取的关键帧比随机采样的方法得到的关键帧能够更好的进行三维重建。同时，图6和图7中的(e)又可以反映本发明的方法能够得到与用全景图进行三维重建相似的结果。

表1.三维重建的时间消耗

时间消耗	原始的三维重建	本发明的方法
			室内场景	4.3小时	3.5小时
室外场景	8.7小时	3.5小时

图6室内场景重建的例子。图6中的(a)是原始图像，图6中的(b)是图6中的(a)的显著度图，图6中的(c)是用随机采样的方式选出的视频帧的重建结果，图6中的(d)是用本发明的方法选出的视频关键帧的重建结果，图6中的(e)是用本发明选出的关键帧和每个帧的显著度图重建的结果。

图7室外场景重建的例子。图7中的(a)是原始图像，图7中的(b)是图7中的(a)的显著度图，图7中的(c)是用随机采样的方式选出的视频帧的重建结果，图7中的(d)是用本发明的方法选出的视频关键帧的重建结果，图7中的(e)是用本发明选出的关键帧和每个帧的显著度图重建的结果。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的权利要求书的保护范围之内。

Claims

1.一种基于关注度的目标物三维重建方法，其特征在于，通过分析视频帧中的感兴趣区域来提高三维重建的效果并加快三维重建的速度，包括步骤如下：

2.根据权利要求1所述的基于关注度的目标物三维重建方法，其特征在于，所述分析视频的视觉关注度包括：静态关注度分析、位置关注度分析、动态关注度分析和关注度融合；

3.根据权利要求1所述的基于关注度的目标物三维重建方法，其特征在于，所述提取用于三维重建的视频关键帧的步骤包括如下：

4.根据权利要求1所述的基于关注度的目标物三维重建方法，其特征在于，所述仅对视频帧中的显著区域进行三维重建的步骤如下：

步骤S32：使用两幅图像之间的极限约束对分布在感兴趣区域内的图片特征进行特征匹配，从而在显著区域中形成稀疏的块分布，得到初始匹配块；