CN104021548A

CN104021548A - 一种获取场景4d信息的方法

Info

Publication number: CN104021548A
Application number: CN201410209953.9A
Authority: CN
Inventors: 周祚峰; 冷寒冰; 曹剑中; 薛彬; 朱少岚; 王浩; 闫阿奇; 张建; 杨洪涛
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2014-05-16
Filing date: 2014-05-16
Publication date: 2014-09-03

Abstract

本发明提出一种获取场景4D信息的方法，将双目立体视觉三维成像***和红外成像***相结合，通过图像配准和图像融合等方法，同时获取真实世界中某个位置的三维立体坐标信息和温度信息，实现对真实世界在计算机中的四维表示。主要包括：接收所拍摄场景的左视角、右视角可见光图像和红外图像，分别进行预处理；然后进行特征点提取，再进行特征点匹配，建立可见光图像和红外图像上的所有配准点；基于已知的两个可见光成像***间的距离和焦距信息，对两幅可见光图像计算出所拍摄场景的深度图，得出场景的三维坐标信息；根据确定的配准点，采用插值算法将温度信息与三维坐标信息叠加，完成多分辨率信息融合，最终获得所拍摄场景的4D信息。

Description

一种获取场景4D信息的方法

技术领域

本发明属于基于可见光和红外图像传感器的光电成像技术领域，具体涉及一种获取场景真实信息的方法。

背景技术

对于本身是三维立体的客观世界，传统的2D光电成像设备对场景进行成像时，只能得到三维世界的一个二维表示，损失掉了真实世界中的第三维信息，即距离维信息。在没有任何先验知识的情况下，人类是无法通过二维照片来估计物体的大小和距离。人类之所以能感知立体世界，是因为人类的双眼如同一套无与伦比的摄影***，不仅具有非常高的动态范围、灵活可变的光圈、可变焦镜头，还具有立刻将光信号变成大脑可识别信号的能力，并且具有全部调整均于不经意间完成的强大功能。对于三维立体景物的还原，其最大的特点就是双眼对同一个场景所看到的影像角度不同。尽管两个眼睛的视距只有区区6.5厘米左右，但这个微小的视差已经足以区分左右眼看到的物体之间的细微差别。一旦我们的大脑接受到左右眼分别看到的这两个高度相关的信号之后，就能再大脑里面自动将左右眼看到的影像融合成为一个物体，不只具有上下左右，更有前后信息的充分表现，形成独具深度的立体视觉。双目立体视觉成像***就是通过模仿人眼，将两个光电成像***综合到一起来获取真实场景的立体成像，并通过三维立体显示器进行显示。因此，双目立体视觉成像***可以称为3D成像***。

不论双目立体视觉3D成像***还是传统的2D成像***，一般都是在可见光波段对真实场景进行成像。而在可见光波段，无论是人眼还是各种可见光波段的成像***，都无法感知到真实世界的温度信息。实际上，任何一个高于绝对零度的物体在红外谱段都会发射射线，这些射线所包含的能量被红外图像传感器捕捉后，就可以实现对真实世界的红外成像。由于处于不同温度的物体所发出的红外射线的能量不同，由此而得到的红外图像中包含有物体的温度信息。

目前，基于可见光图像传感器的双目立体视觉成像技术和基于红外图像传感器的红外成像技术各自均比较成熟，但是将两者各自具有的优势结合起来形成4D影像的技术还尚未出现。

本发明在实现4D影像合成的过程中，需要考虑图像配准和图像融合等问题。

一、图像配准

双目立体视觉成像***主要是为了仿真人眼功能，针对于同一场景的从不同角度捕获的两幅图像，利用立体视觉原理，恢复其第三维信息的计算科学，其具体的算法包含相机标定、畸变校正、立体匹配、深度图的获取和三维重构等。其中立体匹配算法就是将两个成像***看到的不同角度的场景中一些特征点进行匹配，只有找到好得匹配点的情况下才可以比较精确的计算出深度图进而进行三维重构。

本发明中所采用的图像匹配方案与传统的双目立体视觉成像***中所采用的立体匹配方法存在以下几处不同：(1)处理图像的数量不同。传统的双目立体视觉成像***只考虑两幅可见光图像。而本发明中的图像匹配方法需要将两幅可见光图像和一幅红外图像综合考虑，找出存在于三幅图像之间的最佳匹配方案。(2)处理图像的分辨率不同。传统的双目立体视觉成像***一般采用相同分辨率的两个图像传感器分别对左右眼的场景进行成像。而本发明中由于存在红外成像***导致可见光图像和红外图像的分辨率会存在不一致的现象。由于制造工艺等的限制，一般的红外成像***的图像分辨率都要小于可见光成像***的图像分辨率。因此，在本发明的图像配准过程中就需要考虑三幅不同分辨率图像的匹配问题。

二、信息融合

红外传感器成的像的边缘在一定程度上都有模糊，空间分辨率较低只能显示出物体的轮廓，而可见光成像的边缘即物体的轮廓比较清楚，具有丰富的细节信息和色彩。这种对同一对象通过不同方式获取的数字图像数据之间，既具有互补性，又存在大量的冗余信息。如何从这些兼有互补性和冗余性的数字图像数据中有效地提取更有用、更精炼、质量更高的信息，为人为决策或人工智能决策***提供决策依据，已经成为一个迫切需要得到解决的问题，数字图像融合技术就应运而生。数字图像融合技术是将多个传感器在同一时间(或不同时间)获取的关于某个场景的多谱段图像或者图像序列信息加以综合，生成一个新的有关此场景的解释，而这个解释是从单一图像中无法得到的。数字图像融合技术将不同来源、具有不同特点的数字图像数据各自的优势综合起来，弥补了单一数字图像上信息的不足。这样不仅扩大了各种信息的应用范围，而且大大提高了图像分析的精度。现在，数字图像融合技术已经广泛的应用于医学图像处理、反恐安全检测、国土探测、环境监测和灾害预警等领域。

传统的数字图像融合方法只考虑将两个2D图像进行融合。在本发明中，由于双目立体视觉成像***可以实现对真实场景的三维建模，而红外成像***只是得到对真实场景的一个二维温度表示。因此，就需要考虑将一个3D的高分辨率场景的几何模型同一个2D的低分辨率红外图像进行融合来得到一个最终的高分辨率4D场景的表示。

发明内容

本发明中将基于可见光图像传感器的双目立体视觉成像***所获取的3D立体信息和基于红外图像传感器的红外成像***所获取的1D温度信息相融合，提出一种可以获取场景4D信息的方法。

本发明的解决方案如下：

一种获取场景4D信息的方法，包括以下步骤：

(1)设置左视角可见光成像***、右视角可见光成像***和红外成像***，相应地接收所拍摄场景的左视角可见光图像、右视角可见光图像和红外图像；

(2)对左视角可见光图像、右视角可见光图像和红外图像分别进行预处理；

(3)对两幅可见光图像以及红外图像进行特征点提取，然后进行特征点匹配，建立可见光图像和红外图像上的所有配准点，即完成多分辨率图像配准；

(4)首先基于已知的两个可见光成像***间的距离和焦距信息，对两幅可见光图像计算出所拍摄场景的深度图，得出场景的三维坐标信息；然后根据步骤(3)确定的配准点，采用插值算法将红外图像的温度信息与场景的三维坐标信息叠加，完成多分辨率信息融合，最终获得所拍摄场景的4D信息。

上述步骤(3)中可以采用SIFT特征点提取算法对两幅可见光图像以及红外图像分别进行特征点提取；采用基于图像分割的全局立体匹配算法对两幅可见光图像与红外图像进行特征点匹配。

上述步骤(4)中可以采用双线性插值算法将红外图像的温度信息与场景的三维坐标信息叠加。

上述步骤(2)中，对红外图像预处理主要包括非均匀性矫正和盲元检测与补偿，对可见光图像的预处理主要基于双边滤波算法以去除噪声。

本发明的方案中对图像配准、信息融合及4D显示做了进一步的考虑：

一、全局多分辨率图像配准技术

依据采用最优化理论方法的不同，传统的立体匹配算法可以分为：基于局部和全局约束的立体匹配算法。基于局部约束的立体匹配算法又可以分为：基于区域、特征和相位的立体匹配算法；基于全局约束的立体匹配算法可以分为：基于动态规划的立体匹配算法、模拟退火算法、图割法和置信度传播算法。

从优化理论角度来讲，局部约束立体匹配算法可以理解为，选取独立的特征，根据匹配策略使得被匹配点满足相似性准则或使不含平滑项的代价函数实现局部最优；而基于全局约束的立体匹配算法是基于马尔科夫随机场理论，以图像的结构化特征等高级语义为匹配基元，构建能量函数为代价函数，利用立体匹配所遵循的约束条件，解能量最小方程得到最优解，实现立体匹配的全局最优，其中如何构建合理的能量函数和如何解病态的能量最小问题是该算法的核心所在。局部约束算法，因为只能实现局部最优，对于图像中的倾斜平面，光照变化，缺乏复杂纹理以及像素遮挡等问题并不能提出很好的解决方法，不能得到很好的视差估计图，其优点是计算量小，实现较为容易；目前来讲，全局约束立体匹配算法，可以实现全局最优，可有效解决如上问题，尤其图割、分层等优化算法已经成为现在实现立体匹配的主要研究方向，缺点为计算量较大。

本发明中，由于存在三幅图像(两幅高分辨率可见光图像，一幅低分辨率红外图像)，局部约束算法的效果有限，很多情况下不能得到满意的匹配效果。理论上，任何一种有效的全局匹配方法都可以用到本发明中。因此，本发明使用基于图割的全局约束图像匹配算法对三幅图像进行匹配，以期得到满意的图像匹配效果。

二、基于多尺度几何分析的信息融合技术

在图像配准以后，由于真实场景中的某一点在所有的配准点上携带的信息不同，需要将不同的信息进行融合进而生成最后的4D信息。两幅可见光图像，由于已经配准，根据相机标定的结果，可以计算出当前待处理点的深度信息。针对该待处理点，在得到此点的深度信息后，再去红外图像中对应的配准点上找到此点对应的温度信息，完成信息融合功能。

三、最终融合效果显示

目前计算机最多能实现对真实物体在计算机中的三维显示。本发明中使用指示法来显示4D模型，如图4所示。图4中以一个玩具熊为例，使用本发明中的方法建立该玩具熊的4D模型，在计算机中只能看到它的三维几何显示，但当鼠标放到玩具熊上的某一点时，可用数值方法显示其温度维的信息，其中R代表红色分量，G代表绿色分量，B代表蓝色分量，T代表温度分量。

附图说明

图1为本发明的4D成像***总体流程。

图2为多分辨率图像配准点示例。

图3为信息融合示例。

图4为最终4D模型效果示例。

具体实施方式

本发明中的4D成像***的总体流程图如图1所示，每个步骤的具体实现过程如下：

1.红外图像预处理。随着红外焦平面阵列图像传感器制造技术的日益进步，红外成像技术不断发展，已经被广泛应用于军事、工业和商业等领域。由于制造技术、制造工艺和元材料的原因，红外焦平面阵列图像传感器各探测元之间通常存在响应的非均匀性。非均匀性的极端表现为：当入射辐射发生改变时，某些探测元的响应始终过高或过低，导致图像上出现影响视觉效果的亮点或暗点，即为盲元(也称为无效元)。盲元的存在降低了图像的质量，影响了非均匀校正、图像增强、目标检测与识别等后续处理。因此，利用先进的图像处理技术，对红外图像传感器成像形成的红外图像进行非均匀性矫正和盲元检测与补偿，可有有效的提高红外图像的质量，为后续的图像配准等操作奠定良好的基础[3]。

具体实现步骤为：

步骤1：采集20帧某个红外场景，计算每个探测元的时域噪声，确定(2n+1)×(2n+1)滑动窗口的自适应阈值。假设IRFPA的输出为X_f(i，f)，图像大小为M×N，探测元的时域噪声定义为

σ_F(i，f)。

σ_{F} (i, f) = {[Σ_{f = 1}^{F} {(X_{f} (i, f) - \overline{X} (1 . l))}^{2} / (F - 1)]}^{1 / 2}, \overline{X} (i, f) = Σ_{f = 1}^{F} X_{f} (i, f) / F

局部窗口的自适应阈值δ(i，f)为：为窗口内所有像元时域噪声的均值。

步骤2：分别对两帧不同场景的红外图像进行如下所述的盲元检测处理。以像元为中心定义大小为(2n+1)×(2n+1)的滑动窗口P，寻找窗口中的最大灰度值MAX和最小灰度值MIN，并求出窗口内所有像元响应值的和

考虑到窗口中可能存在多个盲元，并且其响应值不一定相等，利用上述定义的自适应阈值δ(i，f)，将P(i,j)中每一像元的灰度值分别与MAX和MIN及其附近δ(i，f)范围进行比较，如果相等，则在S中减去该像素值，并相应地将窗口中的像元数减1，最后得到剩余像元的响应值之和S'以及剩余像元数C。

S^{'} = \{\begin{matrix} S - P (i, j) & P (i, j) &GreaterEqual; MAX - δ (i, j), (or) P (i, j) \leq MIN + δ (i, j) \\ S & MIN + δ (i, j) \leq P (i, j) \leq MAX - δ (i, j) \end{matrix}

若剩余像元数C＝0，则求出滑动窗口中所有像元平均值为

Save＝S/(2n+1)²

若C≠0，则求出滑动窗口中剩余像元平均值为

Save＝S'/C

计算窗口中心像素P(i,j)与平均值Save差值的百分比，即

ΔP(i,j)＝|P(i,j)-Save|/Save

将ΔP(i,j)与设定的阈值T相比较，如果ΔP(i,j)大于等于T，则表示该像素为盲元，否则为正常像元，并设定相应的标志位。将两个盲元矩阵进行匹配，确定最终的盲元位置。

步骤3：对红外焦平面阵列输出的图像进行盲元补偿。补偿算法用(2n+1)×(2n+1)的滑动窗口内正常探测元的均值替换盲元的输出。

2.可见光图像预处理。数字可见光成像***在成像的过程中会受到噪声的影响使所获取的图像质量有所下降。在一些极端条件下，噪声的影响会非常明显，严重时可以掩盖目标而使图像无效。据研究发现，实际成像***中的噪声可以建模为由椒盐噪声、加性的高斯白噪声和乘性的色噪声组成的混合噪声。一般的图像去噪算法只考虑高斯白噪声的情况，这和实际中碰到的噪声相差很多。

图像去噪算法一般可分为空域滤波和变换域滤波两类。变换域滤波最近研究的比较多，如基于小波变换和Conourlet变换的图像去噪算法等，变换域滤波相比于空域滤波能获得更好的去噪效果，但付出的代价就是计算复杂度的增加，不能用于实时性处理要求较高的场合。因此，本项目重点研究能实时进行处理的空域滤波算法。早期的图像去噪算法一般是对图像进行空域滤波，常用的空域滤波器包括均值滤波器和空域维纳滤波器等线性空域滤波器，但线性空域滤波算法通常会造成图像中边缘信息的明显模糊。最近，Tomasi等提出了双边滤波和中值滤波等非线性空域滤波器，这些非线性滤波器可以比线性滤波器在去除噪声的同时更好的保留图像中的边缘信息，且算法比较简单，计算复杂度小。但是经典的双边滤波算法中控制滤波性能的两个参数在整个滤波过程中是不变的。而一般的可见光图像是由平滑区域、边缘区域和纹理区域组成，如果控制双边滤波的两个参数可以随着滤波区域的不同而发生变化，即自适应于图像局部的特征，则双边滤波应该可以获得更好的滤波效果。本项目中拟使用申请人已经取得发明专利(名称：一种快速去除图像中混合噪声的方法，专利号：ZL201010164555.1)来去除图像中存在的噪声。

3.多分辨率图像配准

在对可见光和红外图像进行预处理后，就需要对其进行图像配准在找出其中的相同区域。首先需要对可见光图像和红外图像进行特征点提取，然后进行特征点匹配。在特征点提取方面，主要的方法有C.Harris和M.J.Stephens受信号处理中自相关函数的启发提出的经典的Harris角点，以及Lowe根据人类视网膜成像规律而提出的基于尺度空间的具有尺度不变性的SIFT特征点提取方法。SIFT在各种复杂条件下具有优良的稳定性，本发明即基于SIFT的特征点提取算法来进行特征点提取，特征点提取完成后，则进行立体匹配。

全局立体匹配使用全局约束来解决遮挡和重复纹理造成的误匹配问题，其核心是正确定义场景模型。全局匹配问题通常被描述为能量最小化问题，首先要构造一个能量函数，其形式一般为E＝E_data+E_smooth。其中数据项E_data描述了匹配程度，平滑项E_smooth体现了定义场景的约束，然后可以有多种算法来求出其极值，如动态规划(DP)、置信扩展(BP)、图割(GC)、模拟退火(SA)、扫描线优化、协作算法(CA)以及基于可靠性的正交动态规划(ORDP)等优化算法。其中动态规划、置信扩展和图割是最常用的方法。

动态规划算法：

动态规划是解决多阶段决策问题的一种数学方法，它将整体的优化问题分解为多阶段决策进行，可以降低全局优化问题的复杂度。多阶段决策是指把一个问题分解成多个互相联系的阶段，在每个阶段都做出决策，从而使整个过程的某个性能指标达到最好的效果。

动态规划的基本思想是：将一个问题分成多个子问题，将每个子问题按一定顺序排列好，对于某个给定的状态，先求解子问题，子问题只求解一次，以后再遇到时直接引用答案。由此可以看出，动态规划方法只适用于当问题具有一定的内在顺序时的情况。对立体匹配而言，每条扫描线上的顺序性约束使我们可以将匹配的能量函数看作是从扫描线的起点到终点的最小代价路程问题。最优路径的代价是所有子路径代价之和，这些子路径所经过的点的匹配代价可以由区域相关度量算子来决定。

在匹配中，扫描线之间的对应关系可以通过两种方式构造：第一种是直接建立左扫描线和右扫描线之间的相似度，即扫描线一扫描线方式；第二种是建立左扫描线与右扫描线在不同视差下的相似度，即扫描线一视差方式。

由于动态规划得到的是每条核线的最佳匹配而没有考虑核线与核线之间的约束关系，人们加入了核线间约束来得到核线间能量函数的最小值。Ohta和Kanade通过最小化定义在二维区域上的代价函数将核线间约束融入到立体匹配的过程中。Belhumeur首先采用动态规划法计算出每条核线的视差值，然后再利用固定外部两条核线视差不变用动态规划得到中间核线的最优解来平滑核线间的视差。Cox等通过最小化视差在水平和垂直方向上的不连续点的数量来将二维约束加入到动态规划中。Birchfield和Tomasi以梯度变化大的地方作为视差不连续的边界，将可靠区域的视差扩展到不可靠区域中来加入垂直约束。Kim等利用视差控制点和双通道动态规划来得到最终视差图。

与其他优化方法相比，动态规划的优点在于它为那些缺乏纹理而容易产生误匹配的区域提供了全局约束，解决了这些区域由于不同视差下的局部能量值都很低而难以匹配的问题。对于遮挡问题，动态规划中一般都将遮挡部分的能量用一个固定的值来代替，然后利用一致性约束来检测遮挡。动态规划方法的缺点是错误匹配可能沿核线方向扩展而导致其他正确匹配的失败，因此利用动态规划方法得到的视差图上经常有条纹出现。

置信扩展算法：

置信扩展算法最早在1988年由Pearl提出，1999年以后它被广泛应用于计算机视觉的各个领域来解决具有环的图结构的优化问题并得到了不错的结果。该算法对于没有环的图结构可以收敛到最优解，但对于有环的图结构不能保证收敛到最优解。目前该算法的研究重点是如何提高算法的效率。

Sun等在2003年将置信扩展算法应用到立体匹配中并取得了很好的结果，2005年，Sun等又在算法中加入了可见性约束来检测遮挡现象。Felzenszwalb等提出了层次置信扩展算法，从多个方面提高了置信扩展算法的速度。Yang等利用层次置信扩展算法实现了遮挡了检测。T.appen和Freeman分别用图割和置信扩展对同样参数的Potts模型马尔可夫随机场进行优化，结论是置信扩展比图割的结果更平滑，速度也比图割快，但能量高于图割，两者的效果是相当的。

图割法算法：

图割算法和信念传播算法都是基于马尔科夫随机场，只是采用了不同的推理过程和采用不同形式的马尔科夫随机场。图割算法是在建立的有向或无向图中，给每一条边进行赋予权值，采用最小割或最大流(min‐cut/max‐flow)的表现形式，利用基于图的方法进行推理，所以首先要建立图框架，把能量函数计算的匹配代价赋给各个边，利用能量最小割的方法找到一条最佳视差割。信念传播算法是采用概率的表达形式，利用标准的马尔科夫网络，采用最大后验概率求取最小能量方程值。其能量方程可以采用求和、乘积等不同形式的表达式，通过迭代的方法把邻域的视差信息传递给相邻像素，利用能量函数最小化估计视差值。

综上所述，本发明中优选考虑应用Tao等人提出的基于图像分割的立体匹配方法完成对红外图像和两幅可见光图像的配准操作。Tao等人提出的基于图像分割的立体匹配方法见文献[1]，该框架的建立基于平滑表面假设，即在单一色彩区域中视差不会出现突变。通过该假设把传统的基于全局算法中对每个点分配最优视差的问题转化为对分割区域分配最优模板的问题。由于一幅图像中包含点数众多，而图中分割区域数和模板数相当有限，这样一来大大降低了算法计算量，分割约束的引入很好的改善了遮挡和不连续区域的匹配精度。

4.多分辨率信息融合

在匹配完成以后，已经建立了可见光图像和红外图像上的所有配准点。首先利用两幅可见光灰度图像，基于已知的两个成像***间的距离和焦距等信息[2]，就可以计算出所拍摄场景的深度图，通过三维重建等算法就可以得到场景的三维信息。但是如何将由红外图像传感器得到的温度信息叠加到三维场景上去就是本节要解决的问题。

在图像匹配工作完成以后，对已经匹配的点，在红外图像上直接找到对应的温度信息叠加上去即可。由于红外图像的分辨率一般要小于可见光图像，因此对可见光图像上的某点，其在红外图像上对应的点可能不在整数像素上，这时就需要进行插值来得到对应的温度信息。理论上可以完成此插值的方法很多，本发明中以双线性插值方法为例给出信息融合的一个实现，具体实施方法如下：

设高分辨率的可见光图像为V，对应的低分辨率红外图像为I，设在可见光图像中的一点V_m,n在红外图像中对应的点为I_m,n，但是由于红外图像的分辨率有限，在这一点上没有温度信息。此时就需要进行插值来得到I_m,n点上的温度信息，此时插值公式为：

首先在x轴方向上进行线性插值：

I′_m,n＝(n-j)×I_i+1,j+(j-n+1)×I_i+1,j+1

I″_m,n＝(n-j)×I_i,j+(j-n+1)×I_i,j+1

然后在y轴方向上进行线性插值：

I_m,n＝(m-i)×I′_m,n+(i-m+1)×I″_m,n 。

Claims

1.一种获取场景4D信息的方法，包括以下步骤：

2.根据权利要求1所述的获取场景4D信息的方法，其特征在于：步骤(3)中采用SIFT特征点提取算法对两幅可见光图像以及红外图像分别进行特征点提取；采用基于图像分割的全局立体匹配算法对两幅可见光图像与红外图像进行特征点匹配。

3.根据权利要求2所述的获取场景4D信息的方法，其特征在于：步骤(4)采用双线性插值算法将红外图像的温度信息与场景的三维坐标信息叠加。

4.根据权利要求3所述的获取场景4D信息的方法，其特征在于：步骤(2)中，对红外图像预处理主要包括非均匀性矫正和盲元检测与补偿，对可见光图像的预处理主要基于双边滤波算法以去除噪声。