CN103873859A

CN103873859A - 基于时空显著性检测的视频融合性能评价方法

Info

Publication number: CN103873859A
Application number: CN201410114553.XA
Authority: CN
Inventors: 张强; 华胜; 袁小青; 王龙
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2014-06-18
Anticipated expiration: 2034-03-26
Also published as: CN103873859B

Abstract

本发明公开了一种基于时空显著性检测的视频融合性能评价方法，主要解决现有技术不能有效对含噪声视频的融合性能进行评价的问题。其实现步骤为：分别输入已配准的两个参考视频和一个融合视频；对参考视频利用三维时空结构张量进行时空显著性检测，将视频划分为时空特征区域和噪声区域，然后针对时空特征区域和噪声区域分别设计不同的评价指标进行评价；最后通过取平均构建出整体性能评价指标，从而实现对含噪声视频整体融合性能的评价。本发明能够对含噪声视频的融合性能进行有效、准确和客观地评价，可用于监控融合视频图像质量或设定视频融合算法的最佳参数。

Description

基于时空显著性检测的视频融合性能评价方法

技术领域

本发明属于视频图像处理领域，更进一步涉及一种基于时空显著性检测的视频融合性能评价方法，该方法能够有效评价噪声环境下视频融合性能，可用于监控融合视频图像质量，也可嵌入到图像处理***中，优化算法和设定最佳参数。

背景技术

随着图像和视频融合技术的广泛应用，图像和视频融合性能的客观评价也吸引了越来越多的人的注意，已经有一些学者提出了视频融合性能评价的相关算法，例如，Petrovic等在基于空间梯度信息保留的融合性能评价指标的基础上，设计了一种基于空间-时间联合梯度信息保留的视频图像融合性能评价指标（V.Petrovic,T.Cootes,R.Pavlovic,“Dynamicimage fusion performance evaluation,”10th International Conference on InformationFusion,2007），张强等基于结构相似度和人眼视觉提出了一种全局视频融合质量指标（Zhang Q,Wang L,Li H,et al,“Video fusion performance evaluation based on structuralsimilarity and human visual perception”，Signal Processing,Vol.92,No.4,2012,PP.912-925）。但是这些算法主要是针对干净视频图像融合而设计的，在实际应用中，视频在获取或者传输过程中极易受到噪声干扰，而现有的视频融合性能评价指标把噪声误认为重要信息，在对进行了噪声抑制的视频融合算法进行评价时，会认为其丢失了重要信息，从而得到与主观评价结果不一致甚至相反的评价结果。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于时空显著性检测的视频融合性能评价方法，以提高对噪声环境下的视频融合性能评价的准确性。

实现本发明目的的技术思路是，分别对输入的参考视频和融合视频构建三维时空结构张量，对参考视频进行时空显著性检测，将视频划分为时空特征区域和噪声区域，然后针对时空特征区域像素和噪声区域像素分别定义不同的评价指标进行评价，最后定义全局评价指标对视频融合性能进行整体评价。其具体实现步骤如下：

(1)分别输入两幅参考视频a、b以及融合视频f，并分别构建第一参考视频a每个像素点处的三维时空结构张量矩阵S_a(x,y,t)、第二参考视频b每个像素点处的三维时空结构张量矩阵S_b(x,y,t)和融合视频f每个像素点处的三维时空结构张量矩阵S_f(x,y,t)；

(2)利用两幅参考视频的三维时空结构张量矩阵进行时空显著性检测，得到每幅参考视频的时空特征区域R₁和噪声区域R₂；

(3)对时空特征区域像素的融合性能进行评价：

3.1)分别计算第一参考视频a、第二参考视频b、融合视频f在每个像素点处的三维时空结构张量矩阵的最大特征值，得到第一参考视频a的结构张量最大特征值视频λ_a、第二参考视频b的结构张量最大特征值视频λ_b、融合视频f的结构张量最大特征值视频λ_f；

3.2)根据第一参考视频a的结构张量最大特征值视频λ_a和融合视频f的结构张量最大特征值视频λ_f，得到第一参考视频a和融合视频f对应时空特征区域像素的时空特征评价指标Q_af(x,y,t)：

Q_{af} (x, y, t) = \frac{{4 σ}_{af} (x, y, t) \overset{&OverBar;}{λ_{a} (x, y, t)} \overset{&OverBar;}{λ_{f} (x, y, t)}}{(σ_{a}^{2} (x, y, t) + σ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{λ_{a} (x, y, t)})}^{2} + {(\overset{&OverBar;}{λ_{f} (x, y, t)})}^{2}]},

其中，

和σ_a(x,y,t)分别表示第一参考视频a的结构张量最大特征值视频λ_a中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；

和σ_f(x,y,t)分别表示融合视频f的结构张量最大特征值视频λ_f中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；σ_af(x,y,t)表示第一参考视频a的结构张量最大特征值视频λ_a和融合视频f的结构张量最大特征值视频λ_f中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度协方差，(x,y)表示空间坐标，t表示时间坐标；

3.3)根据第二参考视频b的结构张量最大特征值视频λ_b和融合视频f的结构张量最大特征值视频λ_f，得到第二参考视频b和融合视频f对应时空特征区域像素的时空特征评价指标Q_bf(x,y,t)：

Q_{bf} (x, y, t) = \frac{{4 σ}_{bf} (x, y, t) \overset{&OverBar;}{λ_{b} (x, y, t)} \overset{&OverBar;}{λ_{f} (x, y, t)}}{(σ_{b}^{2} (x, y, t) + σ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{λ_{b} (x, y, t)})}^{2} + {(\overset{&OverBar;}{λ_{f} (x, y, t)})}^{2}]},

其中，和σ_b(x,y,t)分别表示第二参考视频b的结构张量最大特征值视频λ_b中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；

和σ_f(x,y,t)分别表示融合视频f的结构张量最大特征值视频λ_f中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；σ_bf(x,y,t)表示第二参考视频b的结构张量最大特征值视频λ_b和融合视频f的结构张量最大特征值视频λ_f中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度协方差；(x,y)表示空间坐标，t表示时间坐标；

3.4)将上述两个参考视频的时空特征评价指标Q_af(x,y,t)和Q_bf(x,y,t)进行加权平均，得到时空特征区域像素的时空特征融合性能评价指标Q_f(x,y,t)；

(4)对噪声区域像素的融合性能进行评价：

4.1)分别计算第一参考视频a、第二参考视频b、融合视频f在每个像素点处的三维时空结构张量矩阵的最小特征值，得到第一参考视频a的结构张量最小特征值视频η_a、第二参考视频b的结构张量最小特征值视频η_b、融合视频f的结构张量最小特征值视频η_f；

4.2)根据第一参考视频a的结构张量最小特征值视频η_a和融合视频f的结构张量最小特征值视频η_f，得到第一参考视频a和融合视频f对应噪声区域像素的噪声评价指标N_af(x,y,t)：

N_{af} (x, y, t) = \frac{{4 δ}_{af} (x, y, t) \overset{&OverBar;}{η_{a} (x, y, t)} \overset{&OverBar;}{η_{f} (x, y, t)}}{(δ_{a}^{2} (x, y, t) + δ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{η_{a} (x, y, t)})}^{2} + {(\overset{&OverBar;}{η_{f} (x, y, t)})}^{2}]},

其中，

和δ_a(x,y,t)分别表示第一参考视频a的结构张量最小特征值视频η_a中，以当前被评价的噪声区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；和δ_f(x,y,t)分别表示融合视频f的结构张量最小特征值视频η_f中，以当前被评价的噪声区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；δ_af(x,y,t)表示第一参考视频a的结构张量最小特征值视频η_a和融合视频f的结构张量最小特征值视频η_f中，以当前被评价的噪声区域像素为中心的3×3×3局部区域内的灰度协方差；(x,y)表示空间坐标，t表示时间坐标；

4.3)根据第二参考视频b的结构张量最小特征值视频η_b和融合视频f的结构张量最小特征值视频η_f，得到第二参考视频b和融合视频f对应噪声区域像素的噪声评价指标N_bf(x,y,t)：

N_{bf} (x, y, t) = \frac{{4 δ}_{bf} (x, y, t) \overset{&OverBar;}{η_{b} (x, y, t)} \overset{&OverBar;}{η_{f} (x, y, t)}}{(δ_{b}^{2} (x, y, t) + δ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{η_{b} (x, y, t)})}^{2} + {(\overset{&OverBar;}{η_{f} (x, y, t)})}^{2}]},

其中，

和δ_b(x,y,t)分别表示第二参考视频b的结构张量最小特征值视频η_b中，以当前被评价的噪声区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；

和δ_f(x,y,t)分别表示融合视频f的结构张量最小特征值视频η_f中，以当前被评价的噪声区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；δ_bf(x,y,t)表示第二参考视频b的结构张量最小特征值视频η_b和融合视频f的结构张量最小特征值视频η_f中，以当前被评价的噪声区域像素为中心的3×3×3局部区域内的灰度协方差；(x,y)表示空间坐标，t表示时间坐标；

4.4)将上述两个参考视频的噪声评价指标N_af(x,y,t)和N_bf(x,y,t)按如下方式结合，得到噪声区域像素的噪声抑制评价指标Q_n(x,y,t)：

Q_{n} (x, y, t) = 1 - \frac{N_{af} (x, y, t) + N_{bf} (x, y, t)}{2},

其中，(x,y)表示空间坐标，t表示时间坐标；

(5)将时空特征区域像素的时空特征融合性能评价指标Q_f(x,y,t)与噪声区域像素的噪声抑制评价指标Q_n(x,y,t)结合，得到视频融合的整体融合性能评价指标Q_stfn：

Q_{stfn} = \frac{1}{T} \cdot Σ_{t = 1}^{T} \frac{(Σ_{(x, y) &Element; R_{1}} Q_{f} (x, y, t) + Σ_{(x, y) &Element; R_{2}} Q_{n} (x, y, t))}{K (t)},

其中，(x,y)表示空间坐标，t表示时间坐标，K(t)表示第t帧图像中时空特征区域像素和噪声区域像素个数之和，T表示处理的视频图像帧数。

本发明由于特别地对噪声区域进行了评价，且在全局评价指标中加入了对噪声抑制程度的评价，从而能够对噪声环境下的视频融合性能进行准确评价。

附图说明

图1为本发明的流程图；

图2为本发明仿真使用的第一组视频图像；

图3为针对图2中融合结果的客观评价结果曲线图；

图4为本发明仿真使用的第二组视频图像。

具体实施办法

下面结合附图对本发明做进一步的描述。

参照附图1，本发明的实现步骤如下：

步骤1,输入两幅参考视频和融合视频，并构建其三维时空结构张量矩阵。

1.1)从图像库中获得已经经过空间和时间配准的第一参考视频a和第二参考视频b，利用融合方法将第一参考视频a和第二参考视频b融合得到融合视频f；这三幅视频的大小相同，均含有T帧图像，每帧图像的大小都为M×N，M和N可以取任意整数值；

1.2)构建第一参考视频a在像素点p(x,y,t)处的三维时空结构张量矩阵S_a(x,y,t)：

S_{a} (x, y, t) = [\begin{matrix} Σ_{r &Element; Ω} w (r) C_{ax}^{2} (p - r) & Σ_{r &Element; Ω} w (r) C_{ax} (p - r) C_{ay} p - r) & Σ_{r &Element; Ω} w (r) C_{ax} (p - r) C_{at} (p - r) \\ Σ_{r &Element; Ω} w (r) C_{ax} (p - r) C_{ay} (p - r) & Σ_{r &Element; Ω} w (r) C_{ay}^{2} (p - r) & Σ_{r &Element; Ω} w (r) C_{ay} (p - r) C_{at} (p - r) \\ Σ_{r &Element; Ω} w (r) C_{ax} (p - r) C_{at} (p - r) & Σ_{r &Element; Ω} w (r) C_{ay} (p - r) C_{at} (p - r) & Σ_{r &Element; Ω} w (r) C_{at}^{2} (p - r) \end{matrix}],

其中，p(x,y,t)是第一参考视频a中的一个像素点，Ω是以点p(x,y,t)为中心，大小为3×3×3的局部区域，r是该局部区域内的一个像素点，w(r)是一个大小为3×3×3的高斯模板，C_ax(p)，C_ay(p)和C_at(p)分别表示第一参考视频a在像素点p(x,y,t)处沿x,y,t轴的梯度；

1.3)构建第二参考视频b在像素点p(x,y,t)处的三维时空结构张量矩阵S_b(x,y,t)：

S_{b} (x, y, t) = [\begin{matrix} Σ_{r &Element; Ω} w (r) C_{bx}^{2} (p - r) & Σ_{r &Element; Ω} w (r) C_{bx} (p - r) C_{by} p - r) & Σ_{r &Element; Ω} w (r) C_{bx} (p - r) C_{bt} (p - r) \\ Σ_{r &Element; Ω} w (r) C_{bx} (p - r) C_{by} (p - r) & Σ_{r &Element; Ω} w (r) C_{by}^{2} (p - r) & Σ_{r &Element; Ω} w (r) C_{by} (p - r) C_{bt} (p - r) \\ Σ_{r &Element; Ω} w (r) C_{bx} (p - r) C_{bt} (p - r) & Σ_{r &Element; Ω} w (r) C_{by} (p - r) C_{bt} (p - r) & Σ_{r &Element; Ω} w (r) C_{bt}^{2} (p - r) \end{matrix}],

其中，p(x,y,t)是第二参考视频b中的一个像素点，Ω是以点p(x,y,t)为中心，大小为3×3×3的局部区域，r是该局部区域内的一个像素点，w(r)是一个大小为3×3×3的高斯模板，C_bx(p)，C_by(p)和C_bt(p)分别表示第二参考视频b在像素点p(x,y,t)处沿x,y,t轴的梯度；

1.4)构建融合视频f在像素点p(x,y,t)处的三维时空结构张量矩阵S_f(x,y,t)：

S_{f} (x, y, t) = [\begin{matrix} Σ_{r &Element; Ω} w (r) C_{fx}^{2} (p - r) & Σ_{r &Element; Ω} w (r) C_{fx} (p - r) C_{fy} p - r) & Σ_{r &Element; Ω} w (r) C_{fx} (p - r) C_{ft} (p - r) \\ Σ_{r &Element; Ω} w (r) C_{fx} (p - r) C_{fy} (p - r) & Σ_{r &Element; Ω} w (r) C_{fy}^{2} (p - r) & Σ_{r &Element; Ω} w (r) C_{fy} (p - r) C_{ft} (p - r) \\ Σ_{r &Element; Ω} w (r) C_{fx} (p - r) C_{ft} (p - r) & Σ_{r &Element; Ω} w (r) C_{fy} (p - r) C_{ft} (p - r) & Σ_{r &Element; Ω} w (r) C_{ft}^{2} (p - r) \end{matrix}],

其中，p(x,y,t)是融合视频f中的一个像素点，Ω是以点p(x,y,t)为中心，大小为3×3×3的局部区域，r是该局部区域内的一个像素点，w(r)是一个大小为3×3×3的高斯模板，C_fx(p)，C_fy(p)和C_ft(p)分别表示融合视频f在像素点p(x,y,t)处沿x,y,t轴的梯度。

步骤2,利用两幅参考视频的三维时空结构张量矩阵进行时空显著性检测，得到每幅参考视频的时空特征区域R₁和噪声区域R₂。

2.1)计算第一参考视频a每个像素点处三维时空结构张量矩阵S_a(x,y,t)的迹，得到第一参考视频a的结构张量迹视频T_a；计算第二参考视频b每个像素点处三维时空结构张量矩阵S_b(x,y,t)的迹，得到第二参考视频b的结构张量迹视频T_b；

2.2)定义结构张量迹视频的时空特征阈值和噪声阈值：

定义第一参考视频a的结构张量迹视频T_a每一帧图像的时空特征阈值μ_a1(t)和噪声阈值μ_a2(t)：

\begin{matrix} μ_{a 1} (t) = k_{1} \times \max_{x, y} (T_{a} (x, y, t)) \\ μ_{a 2} (t) = k_{2} \times \max_{x, y} (T_{a} (x, y, t)); \end{matrix}

定义第二参考视频b的结构张量迹视频T_b每一帧图像的时空特征阈值μ_b1(t)和噪声阈值μ_b2(t)：

\begin{matrix} μ_{b 1} (t) = k_{1} \times \max_{x, y} (T_{b} (x, y, t)) \\ μ_{b 2} (t) = k_{2} \times \max_{x, y} (T_{b} (x, y, t)), \end{matrix}

其中，k₁和k₂表示阈值占每一帧结构张量迹图像像素最大值的比例，本发明中取k₁＝0.01，k₂＝0.003，(x,y)表示空间坐标，t表示时间坐标；

2.3)将第一参考视频a的结构张量迹视频T_a的每一帧图像的像素值与时空特征阈值μ_a1(t)与噪声阈值μ_a2(t)比较，得到第一参考视频a的特征区域标记R_a(x,y,t)和噪声区域标记L_a(x,y,t):

2.4)将第二参考视频b的结构张量迹视频T_b的每一帧图像的像素值与时空特征阈值μ_b1(t)与噪声阈值μ_b2(t)比较，得到第二参考视频b的时空特征区域标记R_b(x,y,t)和噪声区域标记L_b(x,y,t)：

2.5)当第一参考视频a的每一帧时空特征区域标记R_a(x,y,t)和视频b中与之相同帧的时空特征区域标记R_b(x,y,t)的对应空间位置(x,y)处的值有一个为1时，则定义此空间位置(x,y)属于时空特征区域R₁，当输入视频a的每一帧噪声区域标记L_a(x,y,t)和视频b中与之相同帧的噪声区域标记L_b(x,y,t)的对应空间位置(x,y)处的值都为1时，则定义此空间位置(x,y)属于噪声区域R₂。

步骤3,对时空特征区域像素的融合性能进行评价。

Q_{af} (x, y, t) = \frac{{4 σ}_{af} (x, y, t) \overset{&OverBar;}{λ_{a} (x, y, t)} \overset{&OverBar;}{λ_{f} (x, y, t)}}{(σ_{a}^{2} (x, y, t) + σ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{λ_{a} (x, y, t)})}^{2} + {(\overset{&OverBar;}{λ_{f} (x, y, t)})}^{2}]},

其中，

和σ_f(x,y,t)分别表示融合视频0f的结构张量最大特征值视频λ_f中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；σ_af(x,y,t)表示第一参考视频a的结构张量最大特征值视频λ_a和融合视频f的结构张量最大特征值视频λ_f中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度协方差，(x,y)表示空间坐标，t表示时间坐标；

Q_{bf} (x, y, t) = \frac{{4 σ}_{bf} (x, y, t) \overset{&OverBar;}{λ_{b} (x, y, t)} \overset{&OverBar;}{λ_{f} (x, y, t)}}{(σ_{b}^{2} (x, y, t) + σ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{λ_{b} (x, y, t)})}^{2} + {(\overset{&OverBar;}{λ_{f} (x, y, t)})}^{2}]},

其中，

和σ_b(x,y,t)分别表示第二参考视频b的结构张量最大特征值视频λ_b中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；和σ_f(x,y,t)分别表示融合视频f的结构张量最大特征值视频λ_f中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；σ_bf(x,y,t)表示第二参考视频b的结构张量最大特征值视频λ_b和融合视频f的结构张量最大特征值视频λ_f中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度协方差；(x,y)表示空间坐标，t表示时间坐标；

3.4)将上述两个参考视频的时空特征评价指标Q_af(x,y,t)和Q_bf(x,y,t)进行加权平均，得到时空特征区域像素的时空特征融合性能评价指标Q_f(x,y,t)：

Q_f(x,y,t)＝ω(x,y,t)×Q_af(x,y,t)+[1-ω(x,y,t)]×Q_bf(x,y,t)，

其中，

表示Q_af(x,y,t)的权值系数；

表示第一参考视频a的结构张量迹视频T_a中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度平均值；

表示第二参考视频b的结构张量迹视频T_b中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度平均值；(x,y)表示空间坐标，t表示时间坐标。

步骤4,对噪声区域像素的融合性能进行评价。

N_{af} (x, y, t) = \frac{{4 δ}_{af} (x, y, t) \overset{&OverBar;}{η_{a} (x, y, t)} \overset{&OverBar;}{η_{f} (x, y, t)}}{(δ_{a}^{2} (x, y, t) + δ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{η_{a} (x, y, t)})}^{2} + {(\overset{&OverBar;}{η_{f} (x, y, t)})}^{2}]},

其中，

和δ_a(x,y,t)分别表示第一参考视频a的结构张量最小特征值视频η_a中，以当前被评价的噪声区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；

和δ_f(x,y,t)分别表示融合视频f的结构张量最小特征值视频η_f中，以当前被评价的噪声区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；δ_af(x,y,t)表示第一参考视频a的结构张量最小特征值视频η_a和融合视频f的结构张量最小特征值视频η_f中，以当前被评价的噪声区域像素为中心的3×3×3局部区域内的灰度协方差；(x,y)表示空间坐标，t表示时间坐标；

N_{bf} (x, y, t) = \frac{{4 δ}_{bf} (x, y, t) \overset{&OverBar;}{η_{b} (x, y, t)} \overset{&OverBar;}{η_{f} (x, y, t)}}{(δ_{b}^{2} (x, y, t) + δ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{η_{b} (x, y, t)})}^{2} + {(\overset{&OverBar;}{η_{f} (x, y, t)})}^{2}]},

其中，

Q_{n} (x, y, t) = 1 - \frac{N_{af} (x, y, t) + N_{bf} (x, y, t)}{2},

其中，(x,y)表示空间坐标，t表示时间坐标。

步骤5,将时空特征区域像素的时空特征融合性能评价指标Q_f(x,y,t)与噪声区域像素的噪声抑制评价指标Q_n(x,y,t)结合，得到视频融合的整体融合性能评价指标Q_stfn：

Q_{stfn} = \frac{1}{T} \cdot Σ_{t = 1}^{T} \frac{(Σ_{(x, y) &Element; R_{1}} Q_{f} (x, y, t) + Σ_{(x, y) &Element; R_{2}} Q_{n} (x, y, t))}{K (t)},

本发明的效果可通过以下仿真进一步说明：

1.仿真条件：所有仿真实验都是针对含噪声的红外与可见光视频融合进行的，且均在Windows7操作***下采用Matlab R2010a软件实现。

2.仿真内容：

仿真1：对申请号：CN201310241978.2，名称为基于高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法进行评价。

ST-HOSVD方法采用一种基于控制噪声区域比γ的阈值化方法进行噪声抑制，这里控制噪声区域比例γ的取值分别为正无穷，0.7，0.6，0.5，0.4，0.3，0.2和0.1。为了简单起见，将与之相对应的融合方法分别命名为ST-HOSVD1，ST-HOSVD2，ST-HOSVD3，ST-HOSVD4，ST-HOSVD5，ST-HOSVD6，ST-HOSVD7和ST-HOSVD8。

图2为一幅红外输入视频、一幅可见光输入视频和采用ST-HOSVD方法得到的融合视频，其中：

图2(a)为含人为噪声的红外输入视频中的某一帧图像，

图2(b)为含人为噪声的可见光输入视频中与图2(a)相同帧的图像，

图2(c)为采用ST-HOSVD1方法对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(d)为采用ST-HOSVD2方法对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(e)为采用ST-HOSVD3方法对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(f)为采用ST-HOSVD4方法对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(g)为采用ST-HOSVD5方法对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(h)为采用ST-HOSVD6方法对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(i)为采用ST-HOSVD7方法对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(j)为采用ST-HOSVD8方法对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像。

从图2可以看出，随着噪声区域比例γ取值变得越来越小，融合视频图像质量逐渐由差变好再逐渐变差，特别是图2（h），即噪声区域比例γ取0.3时的视觉效果最好，噪声小，楼房及地面结构清晰完整，运动目标清晰；

对图2所示采用不同噪声区域比例γ的融合方法ST-HOSVD得到的融合视频的融合性能，采用文献（V.Petrovic,T.Cootes,R.Pavlovic,“Dynamic image fusion performanceevaluation,”10th International Conference on Information Fusion,2007）中所提到的时空梯度指标DQ，文献（Zhang Q,Wang L,Li H,et al,“Video fusion performance evaluation basedon structural similarity and human visual perception”，Signal Processing,Vol.92,No.4,2012,PP.912-925）中提出的全局视频融合质量指标Q_ST以及本发明所提出的整体融合性能评价指标Q_stfn这三个指标进行客观评价，其评价结果如图3所示，其中：

图3(a)为时空梯度指标DQ的评价结果曲线图，

图3(b)为全局视频融合质量指标Q_ST的评价结果曲线图，

图3(c)为整体融合性能评价指标Q_stfn的评价结果曲线图。

从图3的评价结果曲线图可知，对于进行了噪声抑制的基于高阶奇异值分解的融合方法ST-HOSVD，当噪声区域比例γ的取值变得越来越小的时候，本发明所提出的整体融合性能评价指标Q_stfn的取值呈先升后降的变化趋势，特别是在噪声区域比例γ为0.3时取得的值最大，这与人眼主观评价结果一致；而时空梯度指标DQ和全局视频融合质量指标Q_ST由于都没有考虑噪声的影响，评价结果呈下降趋势。可见，本发明所提出的整体融合性能评价指标Q_stfn能够对含噪声的融合视频的融合性能进行有效评价。

仿真2：对文献(Q.Zhang,L.Wang,et al.,"A novel video fusion framework usingsurfacelet transform"，Optics Communications,Vol.285,No.13-14,2012,pp:3032-3041)中所提到的基于时空能量的融合方法ST-energy和基于时空运动的融合方法ST-motion以及基于高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法进行评价。

图4为一幅红外输入视频、一幅可见光输入视频和采用ST-energy、ST-motion以及ST-HOSVD方法得到的融合视频，其中：

图4(a)为含噪声的红外输入视频中的某一帧图像，

图4(b)为含噪声的可见光输入视频中与图3(a)相同帧的图像，

图4(c)为采用ST-energy方法得到的融合视频中与图3(a)相同帧的图像，

图4(d)为采用ST-motion方法得到的融合视频中与图3(a)相同帧的图像，

图4(e)为采用没有进行噪声抑制的ST-HOSVD方法得到的融合视频中与图3(a)相同帧的图像，

图4(f)为采用进行了噪声抑制的ST-HOSVD方法得到的融合视频中与图3(a)相同帧的图像，

从图4可以看出，采用进行了噪声抑制的ST-HOSVD方法得到的融合视频图像质量最好，时空显著特征被很好地从输入视频中提取出来且被很好地保留到融合视频中，噪声也被很好地抑制掉了，而通过其它融合方法得到的融合视频中噪声明显可见。

对图4中所示采用融合方法ST-energy、融合方法ST-motion以及融合方法ST-HOSVD得到的融合视频的融合性能，采用时空梯度指标DQ、全局视频融合质量指标Q_ST和本发明所提出的整体融合性能评价指标Q_stfn这三种评价指标进行客观评价，其评价结果如表1所示：

表1含真实噪声的红外与可见光视频图像融合评价结果

从表1数据可知，本发明所提出的整体融合性能评价指标Q_stfn得出的结果与人眼主观评价结果是一致的。而时空梯度指标DQ和全局视频融合质量指标Q_ST得出的结果与人眼主观评价结果是相悖的。可见，本发明所提出的整体融合性能评价指标Q_stfn能够对噪声环境下视频融合算法的融合性能进行准确评价。

Claims

1.一种基于时空显著性检测的视频融合性能评价方法，包括如下步骤：

(3)对时空特征区域像素的融合性能进行评价：

Q_{af} (x, y, t) = \frac{{4 σ}_{af} (x, y, t) \overset{&OverBar;}{λ_{a} (x, y, t)} \overset{&OverBar;}{λ_{f} (x, y, t)}}{(σ_{a}^{2} (x, y, t) + σ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{λ_{a} (x, y, t)})}^{2} + {(\overset{&OverBar;}{λ_{f} (x, y, t)})}^{2}]},

其中，

Q_{bf} (x, y, t) = \frac{{4 σ}_{bf} (x, y, t) \overset{&OverBar;}{λ_{b} (x, y, t)} \overset{&OverBar;}{λ_{f} (x, y, t)}}{(σ_{b}^{2} (x, y, t) + σ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{λ_{b} (x, y, t)})}^{2} + {(\overset{&OverBar;}{λ_{f} (x, y, t)})}^{2}]},

其中，和σ_b(x,y,t)分别表示第二参考视频b的结构张量最大特征值视频λ_b中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；和σ_f(x,y,t)分别表示融合视频f的结构张量最大特征值视频λ_f中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度平均值和标准差；σ_bf(x,y,t)表示第二参考视频b的结构张量最大特征值视频λ_b和融合视频f的结构张量最大特征值视频λ_f中，以当前被评价的时空特征区域像素为中心的3×3×3局部区域内的灰度协方差；(x,y)表示空间坐标，t表示时间坐标；

(4)对噪声区域像素的融合性能进行评价：

N_{af} (x, y, t) = \frac{{4 δ}_{af} (x, y, t) \overset{&OverBar;}{η_{a} (x, y, t)} \overset{&OverBar;}{η_{f} (x, y, t)}}{(δ_{a}^{2} (x, y, t) + δ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{η_{a} (x, y, t)})}^{2} + {(\overset{&OverBar;}{η_{f} (x, y, t)})}^{2}]},

其中，

N_{bf} (x, y, t) = \frac{{4 δ}_{bf} (x, y, t) \overset{&OverBar;}{η_{b} (x, y, t)} \overset{&OverBar;}{η_{f} (x, y, t)}}{(δ_{b}^{2} (x, y, t) + δ_{f}^{2} (x, y, t)) [{(\overset{&OverBar;}{η_{b} (x, y, t)})}^{2} + {(\overset{&OverBar;}{η_{f} (x, y, t)})}^{2}]},

其中，

Q_{n} (x, y, t) = 1 - \frac{N_{af} (x, y, t) + N_{bf} (x, y, t)}{2},

其中，(x,y)表示空间坐标，t表示时间坐标；

Q_{stfn} = \frac{1}{T} \cdot Σ_{t = 1}^{T} \frac{(Σ_{(x, y) &Element; R_{1}} Q_{f} (x, y, t) + Σ_{(x, y) &Element; R_{2}} Q_{n} (x, y, t))}{K (t)},

2.根据权利要求1所述的视频融合性能评价方法，其特征在于步骤(2)中所述的利用两幅参考视频的三维时空结构张量矩阵进行时空显著性检测，得到每幅参考视频的时空特征区域R₁和噪声区域R₂，具体步骤如下：

2.2)定义结构张量迹视频的时空特征阈值和噪声阈值：

\begin{matrix} μ_{a 1} (t) = k_{1} \times \max_{x, y} (T_{a} (x, y, t)) \\ μ_{a 2} (t) = k_{2} \times \max_{x, y} (T_{a} (x, y, t)); \end{matrix}

\begin{matrix} μ_{b 1} (t) = k_{1} \times \max_{x, y} (T_{b} (x, y, t)) \\ μ_{b 2} (t) = k_{2} \times \max_{x, y} (T_{b} (x, y, t)), \end{matrix}