CN105741252A

CN105741252A - 基于稀疏表示与字典学习的视频图像分级重建方法

Info

Publication number: CN105741252A
Application number: CN201510789969.6A
Authority: CN
Inventors: 王海; 王柯; 刘岩; 张皓迪; 李彬; 毛敏泉
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-11-17
Filing date: 2015-11-17
Publication date: 2016-07-06
Anticipated expiration: 2035-11-17
Also published as: CN105741252B

Abstract

本发明公开了一种基于稀疏表示和字典学习的视频图像分级重建方法，主要解决现有技术对视频图像重建时间长的问题。其实现步骤是：(1)获取样本集；(2)对样本集中的图像进行分层；(3)对样本集分层前后的图像进行训练，得到样本集分层前后的高、低分辨率字典；(4)将待重建图像划分为主区域、次区域和不感兴趣区域；(5)根据样本集分层后的高、低分辨率字典对主区域进行重建；(6)根据样本集分层前的高、低分辨率字典对次区域进行重建；(7)对不感兴趣区域进行重建；(8)将重建的主区域和次区域融合到重建的不感兴趣区域中，得到完整的重建图像。本发明缩减了图像的重建时间，可用于医学图像、自然图像以及遥感图像的处理。

Description

基于稀疏表示与字典学习的视频图像分级重建方法

技术领域

本发明属于视频和图像处理技术领域，涉及一种视频图像的超分辨率重建方法，可用于医学图像、自然图像以及遥感图像等一般要求高分辨率图像的场合。

背景技术

由于成像***内在固有属性的限制和大气干扰等诸多因素的影响，会导致得到的单幅图像或视频出现成像质量差、分辨率低等问题。如何基于已有的硬件条件及获取的视频图像，尽可能地恢复其本来面貌或提高其分辨率、清晰度等质量指标，一直是视频图像科学研究和工程应用中的热点问题。超分辨率重建是一种能有效改善和提高视频图像分辨率水平的技术，它对获取的单帧或多帧低分辨率图像利用图像的数学模型等先验知识进行重建，进而得到高分辨率图像。

目前超分辨率重建主要有三种方法：插值法、重建法和基于学习的方法。传统的插值法有最近邻插值法、双线性插值法和双三次插值法，插值法虽然算法简单、易于实现，但重建图像的边缘具有不连续、振铃效应或整体偏光滑等缺点。重建法致力于对低分辨率图像的捕获过程进行有效合理的建模，通过正则化方式形成对应高分辨率信息的先验知识来加以约束，将图像超分辨率重建问题转换为低分辨率图像对高分辨率图像的估计问题，即转换为具有限制准则代价方法的最优解问题。基于学习的超分辨率重建方法是近年来图像恢复技术领域的主流方法，其思想源于机器学习。Freeman等人提出一种基于样本的超分辨率重建方法，该方法先通过机器学习将高、低分辨率样本图像进行块划分，利用Markov网络对图像的空间关系进行建模，待重建的低分辨率图像的每个块在建立的模型中寻求Markov网格中最合适的位置，以此实现超分辨率重建。尽管该方法可以复原出更多的细节信息，但是其对全图像区域进行处理，通常需要较长的重建时间，且不适用于包含多运动目标的视频图像的重建。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于稀疏表示和字典学习的视频图像分级重建方法，对于包含多运动目标的视频图像的重建，能在保证视频图像主要内容重建质量的同时，缩减重建时间，为视频的实时重建奠定基础。

实现本发明的技术思路是：利用形态分量分析方法对样本集中的图像进行分层，利用KSVD算法对分层前后的图像分别进行训练，获得各训练字典，利用Snake算法将待重建图像划分为感兴趣区域和不感兴趣区域，根据运动目标大小将感兴趣区域进一步划分为主区域和次区域，采用双字典学习方法对主区域进行超分辨率重建，采用单字典学习方法对次区域进行超分辨率重建，采用插值法对不感兴趣区域进行插值重建，融合重建的主区域、次区域和不感兴趣区域，得到重建的原始图像。其具体步骤包括如下：

(1)从样本数据库中获取样本集I＝{I_h,I_l}，代表高分辨率样本集，代表低分辨率样本集，用样本集I中同一内容的高分辨率图像和低分辨率图像构成样本对图像

(2)利用形态分量分析方法对样本集I中的图像进行纹理分层和结构分层，得到高分辨率纹理层I_ht、高分辨率结构层I_hs和低分辨率纹理层I_lt、低分辨率结构层I_ls；

(3)利用KSVD算法对样本集I中的高分辨率样本图像I_h和低分辨率样本图像I_l进行训练，得到高分辨率字典D_h和低分辨率字典D_l；

(4)利用KSVD算法对样本集I中的各分层图像进行训练，得到纹理高分辨率字典D_ht、结构高分辨率字典D_hs和纹理低分辨率字典D_lt、结构低分辨率字典D_ls；

(5)将待重建的低分辨率视频单帧图像划分为感兴趣区域和不感兴趣区域；

(6)将待重建的低分辨率视频单帧图像的感兴趣区域划分为主区域和次区域；

(7)采用双字典学习方法对主区域进行超分辨率重建，采用单字典学习方法对次区域进行超分辨率重建，采用插值法对不感兴趣区域进行插值重建；

(8)将重建的主区域、次区域融合到重建的不感兴趣区域中，得到完整的重建图像。

本发明与现有的技术相比具有以下优点：

1.本发明对视频图像进行分级重建，对视频图像中不同区域采用不同精度等级的重建方法，对主区域进行基于双字典学习的重建，对次区域进行单字典学习的重建，对不感兴趣区域进行插值重建，可改善现有基于字典学习的超分辨率重建方法作用于全图像区域带来的重建时间较长的问题，为视频的实时重建奠定基础；

2.本发明提取视频图像的感兴趣区域时，利用Snake算法检测运动目标精确闭合轮廓，将包含精确闭合轮廓的最小矩形区域作为感兴趣区域，可使得到的感兴趣区域在包含运动目标的同时区域最小；

3.本发明将视频图像中的运动目标按照像素面积大小分为主目标和次目标，利用像素面积这一参数来表征目标的主次，既能直接有效地对目标进行主次分类，又能在整体上不增加计算复杂度，进一步缩减视频图像的重建时间；

4.本发明将待重建低分辨率视频单帧图像中包含主目标的最小矩形区域作为主区域，可使基于双字典学习的超分辨率重建算法对主区域进行重建时，作用域最小，缩减主区域的重建时间；

5.本发明在计算主区域每个分块的稀疏表示时，利用搜索算法搜索分块在前后各三帧图像中的最佳匹配块，将最佳匹配块稀疏表示的加权和作为分块的稀疏表示，这种利用视频前后帧时空相关性得到的稀疏表示，系数更准确，可进一步提高待重建单帧图像中主区域的重建效果；

综上，本发明能有效地对低分辨率视频图像进行分级重建，在保证主目标这一主要内容的重建质量的同时，缩减了视频图像的重建时间，为视频的实时重建奠定电路基础。

附图说明

图1是本发明的实现总流程图；

图2是本发明中计算主区域的纹理层稀疏表示和结构层稀疏表示子流程图。

具体实施方案

下面结合附图1对本发明的步骤作进一步的详细描述：

步骤1.获取样本集。

将PASCALVOC委员会提供的图片集作为样本数据库，该数据库包括人类、动物、交通工具和室内四大类共20个目录：其中，动物包括鸟、猫、牛、狗、马、羊；交通工具包括飞机、自行车、船、公共汽车、小轿车、摩托车、火车；室内包括瓶子、椅子、餐桌、盆栽植物、沙发、电视。

在每个目录下随机选择10幅图像，得到200幅样本图像。用得到的200幅样本图像构成高分辨率样本集将得到的200幅样本图像分别进行3倍下采样，得到200幅低分辨率图像，用这200幅低分辨率图像构成低分辨率样本集高分辨率样本集I_h和低分辨率样本集I_l共同构成样本集I＝{I_h,I_l}；同一内容的高分辨率图像和低分辨率图像构成样本对图像

步骤2.利用形态分量分析方法对样本集中的图像进行纹理分层和结构分层。

形态分量分析的核心是：将图像形态用最优稀疏进行表示。假设要处理的图像X包含Γ个不同的形态，即图像X包含Γ个互不相同的背景透明的分层，{X_λ,λ＝1,2,....,Γ}，X＝X₁+X₂+...+X_λ+...+X_Γ，MCA方法使用一组过完备的字典{T₁,T₂,...,T_λ,...,T_Γ}对图像X的Γ个分层进行描述，第λ层X_λ只能用字典T_λ的原子进行稀疏表示，用其他字典T_γ(γ≠λ)的原子无法表示，所以，可以通过构建一组过完备字典{T₁,T₂,...,T_λ,...,T_Γ}来实现对图像X的Γ层分层。

本实例将图像分解为两个不同的形态，即将图像分解为纹理层X_t和结构层X_s，因此，需要构建过完备字典{T_t,T_s}，T_t为描述图像纹理信息的字典，T_s为描述图像结构信息的字典。

用于构建纹理字典的工具有Gabor变换、DCT变换等，用于构建结构字典的工具有小波变换、曲线波变换、脊波变换、轮廓波变换等。字典的选择通常按照保真度测量函数或者其他类似方法来选取，但是这种按照理论函数来选择最优字典的方法太过复杂，所以，在很多图像处理工作中，通常根据使用者自身经验对图像进行分析，选择能够较好表示纹理或结构的常用变换，把图像的纹理部分和结构部分分离出来。本实例选择但不局限于用DCT变换构建图像的纹理字典，用轮廓波变换构建图像的结构字典。具体实现步骤如下：

2.1)构建纹理字典

对样本集I中的200个样本对图像I_i,i＝1,2,...,200分别作DCT变换，得到高分辨率样本集I_h的200个DCT变换矩阵和低分辨率样本集I_l的200个DCT变换矩阵，将DCT变换矩阵作为图像的字典，得到高分辨率样本集I_h的200个纹理字典和低分辨率样本集I_l的200个纹理字典

2.2)构建结构字典

对样本集I中的200个样本对图像I_i,i＝1,2,...,200分别作轮廓波变换，得到高分辨率样本集I_h的200个轮廓波变换矩阵和低分辨率样本集I_l的200个轮廓波变换矩阵，将轮廓波变换矩阵作为图像的字典，得到高分辨率样本集I_h的200个结构字典和低分辨率样本集I_l的200个结构字典

2.3)利用匹配追踪算法计算最优纹理稀疏系数和最优结构稀疏系数

为了得到高分辨率样本图像的纹理层和结构层需要计算高分辨率样本图像在高分辨率纹理字典和高分辨率结构字典下的最优稀疏表示，即解决如下最优化问题

\begin{matrix} {α_{{ht}_{i}}^{*}, α_{{hs}_{i}}^{*}} = \underset{{α_{{ht}_{i}}, α_{{hs}_{i}}}}{A r g} \min {| | α_{{ht}_{i}} | |_{1} + | | α_{{hs}_{i}} | |_{1}} & s . t | | I_{h_{i}} - T_{{ht}_{i}} \times α_{{ht}_{i}} - T_{{hs}_{i}} \times α_{{hs}_{i}} | |_{2} \leq ϵ, i = 1, 2, ..., 200 \end{matrix}

其中ε＝1.0×10^-6为稀疏度经验值，和分别为计算出的高分辨率纹理稀疏系数和高分辨率结构稀疏系数，和分别为求得的高分辨率最优纹理稀疏系数和高分辨率最优结构稀疏系数。

求解上述最优化问题的算法有匹配追踪算法、基追踪算法、正交匹配追踪算法等。其中，匹配追踪算法是一种贪婪算法，它是通过逐步近似来求得信号稀疏表示的，它原理简单，便于实现，是目前信号稀疏分解最常用的方法。因此，本实例采用但不局限于匹配追踪算法对图像进行稀疏分解，后续的基于字典学习的图像重建中也是使用匹配追踪算法来对图像进行稀疏分解的。

对低分辨率样本图像作同样的处理，得到低分辨率最优纹理稀疏系数

α_{{lt}_{i}}^{*}, i = 1, 2, ..., 200

和低分辨率最优结构稀疏系数

α_{{ls}_{i}}^{*}, i = 1, 2, ..., 200.

2.4)计算图像的纹理分层和结构分层：

2.4a)根据高分辨率纹理字典和高分辨率最优纹理稀疏系数

α_{{ht}_{i}}^{*}, i = 1, 2, ..., 200,

得到高分辨率纹理层

I_{{ht}_{i}} = T_{{ht}_{i}} \times α_{{ht}_{i}}^{*}, i = 1, 2, ..., 200,

并记

I_{h t} = {I_{{ht}_{i}}, i = 1, 2, ..., 200};

2.4b)根据高分辨率结构字典和高分辨率最优结构稀疏系数

α_{{hs}_{i}}^{*}, i = 1, 2, ..., 200,

得到高分辨率结构层

I_{{hs}_{i}} = T_{{hs}_{i}} \times α_{{hs}_{i}}^{*}, i = 1, 2, ..., 200,

并记

I_{h s} = {I_{{hs}_{i}}, i = 1, 2, ..., 200};

2.4c)根据低分辨率纹理字典和低分辨率最优纹理稀疏系数

α_{{lt}_{i}}^{*}, i = 1, 2, ..., 200,

得到低分辨率纹理层

I_{{lt}_{i}} = T_{{lt}_{i}} \times α_{{lt}_{i}}^{*}, i = 1, 2, ..., 200,

并记

I_{l t} = {I_{{lt}_{i}}, i = 1, 2, ..., 200};

2.4d)根据低分辨率结构字典和低分辨率最优结构稀疏系数

α_{{ls}_{i}}^{*}, i = 1, 2, ..., 200,

得到低分辨率结构层

I_{{ls}_{i}} = T_{{ls}_{i}} \times α_{{ls}_{i}}^{*}, i = 1, 2, ..., 200,

并记

I_{l s} = {I_{{ls}_{i}}, i = 1, 2, ..., 200} .

步骤3.利用KSVD算法对样本集中的图像进行训练。

基于字典学习的图像超分辨率重建，往往需要训练大量的样本图像以得到高分辨率字典和低分辨率字典，训练字典的效率受字典原子数目的影响很大，因此，选择一个能有效减少字典原子数目的方法十分重要。

字典学习的方法主要分为两大类：非监督字典学习和监督字典学习。非监督字典学习旨在学习一个具有良好表示能力的字典，监督字典学习由于考虑了字典的判别性，常用于计算机识别任务中。在基于字典学习的图像超分辨率重建中，需要得到图像的最优稀疏表示，而一个好的字典能使相应的稀疏表示具有更高的稀疏性，故本实例选择非监督字典学习的方法训练各层图像。

非监督字典学习的代表方法有MOD方法和KSVD方法，两种方法优化的目标函数相同，但在利用匹配追踪算法进行字典迭代时，MOD方法将字典用全局算法一次求出，KSVD方法则在MOD方法的基础上进行了顺序更新列的优化，每次迭代只更新字典的一列，即每次迭代只更新字典的一个原子。KSVD方法这种顺序更新列的优化能有效减少字典中的原子数目，并且训练后的原子仍然可以线性表示初始字典的所有信息，所以，本实例采用但不局限于KSVD算法训练样本图像。

本实例利用KSVD算法训练高分辨率样本图像和低分辨率样本图像的步骤一样，现以训练高分辨率样本图像I_h为例，具体实现步骤如下：

3.1)将高分辨率样本图像I_h进行重叠分块化

将高分辨率样本图像I_h中的每一幅图像按照阵列式扫描方式进行重叠分块化，分块大小为9×9像素块，水平和竖直方向各重叠一个像素，得到高分辨率样本块集其中，表示高分辨率样本图像I_h的一个样本块，m＝1,2,...,M，M表示高分辨率样本图像I_h的分块数目。

3.2)构建高分辨率字典D_h的初始值

取高分辨率样本块集Y_h中的前1024个样本块，对其作DCT变换，得到1024个9×9大小的DCT变换矩阵，将每个9×9大小的DCT变换矩阵张成列向量，得到1024个长度为81的列向量，将1024个列向量按列组合，得到一个81×1024大小的矩阵，将这一矩阵作为高分辨率字典D_h的初始值。

3.3)计算最优高分辨率字典

利用KSVD算法，通过如下最优化过程对高分辨率字典D_h进行更新，直到高分辨率样本块集Y_h在高分辨率字典D_h下的稀疏表示为最优稀疏表示

\begin{matrix} D_{h}^{*} = \underset{D_{h}}{A r g} \min {Σ_{m = 1}^{M} | | y_{h_{m}} - D_{h} \times α_{h_{m}} | |_{2}^{2}} & s . t & | | α_{h_{m}} | |_{0} \leq ϵ, m = 1, 2, ..., M \end{matrix}

其中，为样本块在高分辨率字典D_h下的稀疏表示，ε＝1.0×10^-6为稀疏度经验值，为求得的最优高分辨率字典。

考虑到低分辨率样本图像是由高分辨率样本图像按照3倍下采样得到的，所以在训练低分辨率样本图像I_l时，本实例将步骤3.1)中的分块大小定为3×3像素块，从而使步骤3.2)中得到的字典初始值大小为9×1024，其他操作同步骤3.1)□3.3)所述，得到最优低分辨率字典

步骤4.利用KSVD算法对样本集中的各分层图像进行训练。

按照步骤3.1)□3.3)对高分辨率纹理层I_ht和高分辨率结构层I_hs进行处理，得到纹理高分辨率字典和结构高分辨率字典

在训练低分辨率纹理层I_lt和低分辨率结构层I_ls时，本实例将步骤3.1)中的分块大小定为3×3像素块，从而使步骤3.2)中得到的字典初始值大小为9×1024，其他操作同步骤3.1)□3.3)所述，得到最优纹理低分辨率字典和最优结构低分辨率字典

步骤5.将待重建的低分辨率视频单帧图像划分为感兴趣区域和不感兴趣区域。

本实例对待重建的低分辨率视频单帧图像进行感兴趣区域和不感兴趣区域划分的问题，可看成机器视觉中前景图像和背景图像的划分问题。在机器视觉领域，分离视频图像前景和背景的方法主要有两大类，一类是对视频或图像序列进行背景建模，得到背景图像，前景图像由待检测视频图像减去背景获得，这类方法要求输入为多帧图像，常用的方法有混合高斯背景建模法、光流法，但这些算法提取到的背景中仍然含有模糊的运动目标，将它们用在本实例中会使感兴趣区域中的运动目标不够清晰。

另一类是利用视频图像中的运动信息直接提取运动目标，将运动目标区域作为前景图像，除前景图像以外的部分作为背景图像。这类方法通常提取视频图像码流中的运动矢量信息，结合形态学处理得到表征运动区域的二值化图像，但这种二值化图像对运动目标的描述通常具有较大的偏差，此时若用包含运动目标的最小矩形区域作为前景区域会不可避免地使运动目标有所缺失。

考虑到Snake算法能检测模糊图像中目标的较精确轮廓，本实例采用Snake算法提取待重建图像的感兴趣区域，旨在使感兴趣区域是包含较精确运动目标的最小矩形区域。具体实现步骤如下：

5.1)获取表征运动目标的二值化图像：

5.1a)从待重建低分辨率视频单帧图像的H.264码流中提取运动信息，得到当前帧的运动矢量场MV；

5.1b)用矢量长度表征像素灰度值，并将灰度值规范化到[0,255]范围，将当前帧的运动矢量场MV转化为表征当前帧运动区域的灰度图G；

5.1c)对表征当前帧运动区域的灰度图G进行形态学处理，得到运动目标的二值化图像BW。

5.2)利用Snake算法提取运动目标的较精确轮廓：

5.2a)提取运动目标二值化图像BW的闭合外轮廓，得到曲线v(s)＝[x(s),y(s)]，x(s),y(s)分别为轮廓曲线上的点的横坐标和纵坐标，参数s∈[0,1]，将该曲线作为Snake算法的初始轮廓值；

5.2b)利用Snake算法对曲线v(s)进行变形，使其逼近运动目标的较精确轮廓v(s)^*，可将该过程转化为求如下最优解

\begin{matrix} v {(s)}^{*} = \underset{v (s)}{A r g} \min {&Integral;}_{0}^{1} E_{s n a k e} (v (s)) d s \\ = \underset{v (s)}{A r g} \min {&Integral;}_{0}^{1} [E_{int} (v (s)) + E_{i m a g e} (v (s)) + E_{c o n} (v (s))] d s \end{matrix}

其中，表示内部能量，v_s、v_ss分别为v(s)的一阶和二阶导数，α(s)、β(s)分别为控制曲线v(s)张力和光滑性的权值参数，决定了曲线v(s)在某点的延伸和弯曲程度；E_image(v(s))表示图像作用力产生的能量，为了突出图像的显著特征，一般由图像灰度、梯度信息设计而成，引导曲线v(s)向边缘轮廓逼近；E_con表示外部限制力产生的能量，本实例将这部分能量设为0；v(s)^*为运动目标的较精确轮廓。

5.3)获取感兴趣区域和不感兴趣区域

将待重建的低分辨率视频单帧图像中包含运动目标较精确闭合轮廓v(s)^*的最小矩形区域提取出来，作为感兴趣区域P，将除感兴趣区域以外的部分作为不感兴趣区域B。

步骤6.将待重建的低分辨率视频单帧图像的感兴趣区域划分为主区域和次区域。

对于包含两个或两个以上的多个运动目标的场景，若不分主次地将所有的运动目标进行相同精度的超分辨率重建，会使视频图像的重建时间过长，占用过多的计算资源。同时，无论是计算机在进行数字图像处理时，还是主观观察者对视频图像进行观测时，往往更关心视频图像中主要目标的信息。所以，本实例对视频图像中的主要目标进行高精度的超分辨率重建，而对次要目标进行相对低精度的重建，这样能在保证视频图像主要内容的重建质量的同时，缩减重建时间，提高重建效率。

考虑到拍摄视频或图像时，聚焦对象往往占据更多的像素面积，本实例将待重建的低分辨率视频单帧图像中像素面积更大目标作为主目标，像素面积较小的目标作为次目标。具体实现步骤如下：

6.1)利用步骤5.2)得到的运动目标的较精确闭合轮廓v(s)^*，计算各目标的像素面积A＝{A₁，A₂，...，A_n，...，A_N}，其中A_n表示第n个目标的像素面积，n＝1,2,...,N，N表示视频图像中运动目标的个数；

6.2)利用K-means算法将目标像素面积A＝{A₁，A₂，...，A_n，...，A_N}按面积大小分为两类，面积大的一类记为主目标A_m，面积小的一类记为次目标A_sub；

6.3)将包含主目标A_m的最小矩形区域作为主区域P_m，除主区域以外的部分作为次区域P_sub；

6.4)记录最小矩形区域在待重建的低分辨率视频单帧图像中的位置Pos＝[row，col，del_row，del_col]，其中(row,col)为最小矩形区域左上角像素的行列坐标，del_row、del_col分别为最小矩形区域得到行数和列数。

步骤7.采用双字典学习的方法对主区域进行重建。

为了改善现有基于字典学习的图像超分辨率重建方法作用于全图像区域带来的重建时间较长的问题，本实例对视频图像进行分级重建，其中对视频图像中包含主目标的主区域进行基于双字典学习的超分辨率重建，具体实现步骤如下：

7.1)按照步骤2)将主区域P_m分为纹理层P_mt和结构层P_ms；

7.2)计算主区域的纹理层稀疏表示和结构层稀疏表示：

现有的图像超分辨率重建方法大多利用训练的字典直接对待重建图像进行处理，这些方法具有较好的重建效果。本实例的输入为视频信息，对待重建单帧图像进行重建时，为进一步提高图像的重建效果，并没有直接对待重建单帧图像进行处理，而是结合了视频帧之间的时间相关性和空间相关性，即选择与待重建视频单帧图像相邻的前后各三帧图像作为参考图像，通过对参考图像的重建间接对待重建图像进行重建。

参照图2，本步骤的实现如下：

7.2a)选择与主区域所在帧相邻的前后各三帧图像作为参考图像，得到参考图像集P_r＝{P_rj,j＝1,2,...,6}，P_rj表示一帧参考图像；

7.2b)按照步骤2)将参考图像集P_r分为纹理层P_rt＝{P_rtj,j＝1,2,...,6}和结构层P_rs＝{P_rsj,j＝1,2,...,6}，其中P_rtj为参考图像P_rj的纹理层，P_rsj为参考图像P_rj的结构层；

7.2c)将主区域的纹理层P_mt按照阵列式扫描方式进行重叠分块化，分块大小为3×3像素块，水平和竖直方向各重叠一个像素，得到主区域纹理层的分块集其中表示主区域的纹理层P_mt的一个分块，n＝1,2,...,N，N表示主区域的纹理层P_mt的分块数目；

7.2d)运用Matlab中的ParallelComputingToolbox工具箱，建立六个并行任务Pro_j,j＝1,2,...,6，每个任务Pro_j只处理针对参考图像纹理层P_rtj的操作；

7.2e)在任务Pro_j,j＝1,2,...,6下，对主区域纹理层P_mt的每一个分块利用三步搜索算法在参考图像纹理层P_rtj中搜索最佳匹配块块匹配准则采用MAD准则，即最小化平均绝对误差函数MAD(d_h,d_v)：

M A D (d_{h}, d_{v}) = \frac{1}{R C} Σ_{r = 1}^{R} Σ_{c = 1}^{C} | f (r, c) - f_{r j} (r + d_{h}, c + d_{v}) |

其中，R、C分别为分块的行数和列数，f(r,c)表示分块中坐标为(r,c)的像素亮度值，f_rj(r+d_h,c+d_v)表示参考图像纹理层P_rtj中坐标为(r+d_h,c+d_v)的像素亮度值，(d_h,d_v)为运动位移矢量，d_h为水平方向位移，d_v为竖直方向位移；

7.2f)根据纹理低分辨率字典计算匹配块的稀疏表示其中为的逆矩阵；

7.2g)计算参考图像纹理层P_rtj中最匹配块的权重系数计算公式如下

w_{j_{n}} = \frac{1}{\sqrt{(y_{t_{n}} - y_{{rtj}_{n}}^{*}) {(y_{t_{n}} - y_{{rtj}_{n}}^{*})}^{T}}};

7.2h)对匹配块的稀疏表示进行加权求和，得到主区域纹理层分块的纹理层稀疏表示记为主区域的纹理层稀疏表示；

7.2i)将主区域的结构层P_ms按照步骤7.2c)□7.2h)进行处理，得到主区域的结构层稀疏表示

7.3)根据主区域P_m的纹理层稀疏表示和纹理高分辨率字典得到主区域纹理层的重建图像

P_{m t}^{*} = D_{h t}^{*} \times β_{m t}^{*};

7.4)根据主区域的结构层稀疏表示和结构高分辨率字典得到主区域结构层的重建图像

P_{m s}^{*} = D_{h s}^{*} \times β_{m s}^{*};

7.5)将主区域纹理层的重建图像和主区域结构层的重建图像融合，得到完整的主区域的重建图像。

步骤8.采用单字典学习的方法对次区域进行重建。

为缩减视频图像的重建时间，同时保证视频图像主要内容的重建质量，本实例对视频图像进行分级重建，其中对视频图像中包含次目标的次区域进行基于单字典学习的超分辨率重建，具体实现步骤如下：

8.1)根据步骤3)得到的最优低分辨率字典计算次区域P_sub的稀疏表示

β_{s u b} = (D_{l}^{*}) \times P_{s u b},

其中为的逆矩阵；

8.2)根据次区域的稀疏表示β_sub和步骤3)得到的最优高分辨率字典得到次区域的重建图像

P_{s u b}^{*} = D_{h}^{*} \times β_{s u b} .

步骤9.采用插值法对不感兴趣区域进行重建。

目前超分辨率重建主要有三种方法：插值法，重建法和基于学习的方法。插值法算法简单、易于实现，重建图像的质量较其他两类方法偏差。本实例旨在对视频图像进行分级重建，将包含运动目标的感兴趣区域进行基于学习的重建，使运动目标具有较好的重建效果；对不感兴趣区域采用插值法进行重建，虽然这样会牺牲不感兴趣区域的重建质量，但能在保证运动目标这一主要内容的重建质量的同时，缩减视频图像的重建时间。

插值法主要有最近邻插值法、双线性插值法和双三次插值法。最近邻插值法对每一个待插值点的像素值，取在原始图像中相应点周围4个相邻点中欧氏距离最短的一个，这种方法简单易实现、计算量很小，但插值后的图像质量不高，常常出现方块效应和锯齿效应。

双线性插值法对每一个待插值点的像素值，根据其与相邻4个点的距离确定相应的权值，由相邻4个点的像素值的加权和确定待插值点的像素值，这种方法放大产生的图像比最近邻插值法产生的图像平滑，不会出现灰度值不连续的的情况，但由于双线性插值具有低通滤波器的性质，使高频分量受损，当放大倍数增大时，放大后的图像也会出现明显的块状现象，使图像轮廓一定程度上变得模糊。

双三次插值法利用待插值点周围16个点的灰度值作三次插值，不仅考虑到4个直接相邻点的灰度影响，而且考虑到各相邻点间灰度值变化率的影响，重建效果优于上述两种方法。本实例采用但不局限于双三次插值法对不感兴趣区域B进行重建，其插值公式如下：

f(i+u,j+v)＝A^*B^*C^*

A^*＝[S(1+u)S(u)S(1-u)S(2-u)]

B^{*} = [\begin{matrix} f (i - 1, j - 2) & f (i, j - 2) & f (i + 1, j - 2) & f (i + 2, j - 2) \\ f (i - 1, j - 1) & f (i, j - 1) & f (i + 1, j - 1) & f (i + 2, j - 1) \\ f (i - 1, j) & f (i, j) & f (i + 1, j) & f (i + 2, j) \\ f (i - 1, j + 1) & f (i, j + 1) & f (i + 1, j + 1) & f (i + 2, j + 1) \end{matrix}]

C^*＝[S(1+v)S(v)S(1-v)S(2-v)]^T

S (w) = \{\begin{matrix} 1 - 2 | w |^{2} + | w |^{3}, | w | < 1; \\ 4 - 8 | w | + 5 | w |^{2} - | w |^{3}, 1 \leq | w | < 2; \\ 0, | w | &GreaterEqual; 2 \end{matrix}

其中，i、j均为非负整数，分别表示待插值点在原始图像中的行坐标和列坐标；u、v均为(0,1)区间的浮点数，分别表示待插值点与最邻近像素点在水平和竖直方向的距离；f(i,j)表示原始图像在坐标(i,j)处的像素值；S(w)为双三次插值基函数，自变量w∈R，|w|表示对自变量w取绝对值。

步骤10.将步骤7)得到的重建主区域和步骤8)得到的重建次区域，按照步骤6.4)记录的空间位置Pos＝[row,col,del_row,del_col]，融合到步骤9)得到的重建不感兴趣区域中，得到完整的重建图像。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解了本发明的内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式上和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于稀疏表示和字典学习的视频图像分级重建方法，包括如下步骤：

I_{i} = {I_{h_{i}}, I_{l_{i}}};

2.根据权利要求1所述的基于稀疏表示和字典学习的视频图像分级重建方法，其特征在于：步骤(2)中利用形态分量分析方法对样本集I中的图像进行纹理分层和结构分层，按如下步骤进行：

(2a)对样本对图像I_i作DCT变换，用变换后的数据构成高分辨率纹理字典和低分辨率纹理字典

(2b)对样本对图像I_i作轮廓波变换，用变换后的数据构成高分辨率结构字典和低分辨率结构字典

(2c)利用匹配追踪算法计算高分辨率图像在高分辨率纹理字典和高分辨率结构字典下的最优稀疏表示，即将该计算过程转化为如下最优化过程

\begin{matrix} {α_{{ht}_{i}}^{*}, α_{{hs}_{i}}^{*}} = \underset{{α_{{ht}_{i}}, α_{{hs}_{i}}}}{A r g} m i n {| | α_{{ht}_{i}} | |_{1} + | | α_{{hs}_{i}} | |_{1}} & s . t | | I_{h_{i}} - T_{{ht}_{i}} \times α_{{ht}_{i}} - T_{{hs}_{i}} \times α_{{hs}_{i}} | |_{2} \leq ϵ \end{matrix},

其中ε为稀疏度经验值，和分别为利用匹配追踪算法计算出的高分辨率纹理稀疏系数和高分辨率结构稀疏系数，和分别为求得的高分辨率最优纹理稀疏系数和高分辨率最优结构稀疏系数；

(2d)按照步骤(2c)计算低分辨率图像在低分辨率纹理字典和低分辨率结构字典下的最优稀疏表示，得到低分辨率最优纹理稀疏系数和低分辨率最优结构稀疏系数

(2e)根据高分辨率纹理字典和高分辨率最优纹理稀疏系数得到高分辨率纹理层记为样本集I的高分辨率纹理层；根据高分辨率结构字典和高分辨率最优结构稀疏系数得到高分辨率结构层记为样本集I的高分辨率结构层；

(2f)根据低分辨率纹理字典和低分辨率最优纹理稀疏系数得到低分辨率纹理层记为样本集I的低分辨率纹理层；根据低分辨率结构字典和低分辨率最优结构稀疏系数得到低分辨率结构层记为样本集I的低分辨率结构层。

3.根据权利要求1所述的基于稀疏表示和字典学习的视频图像分级重建方法，其特征在于：步骤(3)中利用KSVD算法对样本集I中的图像进行训练，按如下步骤进行：

(3a)将样本集I中的高分辨率样本图像I_h进行重叠分块化，得到高分辨率样本块集表示高分辨率样本图像I_h的一个样本块，m＝1,2,...,M，M表示高分辨率样本图像I_h的分块数目；

(3b)在高分辨率样本块集Y_h中随机选取一个样本块，对其作DCT变换，用变换后的数据构成高分辨率字典D_h的初始值；

(3c)利用KSVD算法，通过如下最优化过程对高分辨率字典D_h进行更新，直到高分辨率样本块集Y_h在高分辨率字典D_h下的稀疏表示为最优稀疏表示：

\begin{matrix} D_{h}^{*} = \underset{D_{h}}{A r g} m i n {Σ_{m = 1}^{M} | | y_{h_{m}} - D_{h} \times α_{h_{m}} | |_{2}^{2}} & s . t | | α_{h_{m}} | |_{0} \leq ϵ, m = 1, 2, ..., M \end{matrix}

其中，为样本块在高分辨率字典D_h下的稀疏表示，ε为稀疏度经验值，为求得的最优高分辨率字典；

(3d)将样本集I的低分辨率样本图像I_l按照步骤(3a)□(3c)进行处理，得到最优低分辨率字典

4.根据权利要求1所述的基于稀疏表示和字典学习的视频图像分级重建方法，其特征在于：步骤(5)中将待重建的低分辨率视频单帧图像划分为感兴趣区域和不感兴趣区域，按如下步骤进行：

(5a)对待重建的低分辨率视频单帧图像进行运动目标检测，得到运动目标的二值化图像；

(5b)将运动目标二值化图像的闭合外轮廓作为Snake算法的初始轮廓值，通过Snake算法的逐次迭代过程，得到运动目标的精确闭合轮廓；

(5c)将待重建的低分辨率视频单帧图像中包含运动目标精确闭合轮廓的最小矩形区域作为感兴趣区域P，除感兴趣区域以外的部分作为不感兴趣区域B。

5.根据权利要求1所述的基于稀疏表示和字典学习的视频图像分级重建方法，其特征在于：步骤(6)中将待重建的低分辨率视频单帧图像的感兴趣区域划分为主区域和次区域，按如下步骤进行：

(6a)利用步骤(5b)得到的运动目标的精确闭合轮廓，计算各目标的像素面积；

(6b)按照像素面积大小将目标分为主目标和次目标；

(6c)将包含主目标的最小矩形区域作为主区域P_m，除主区域以外的部分作为次区域P_sub。

6.根据权利要求1所述的基于稀疏表示和字典学习的视频图像分级重建方法，其特征在于：步骤(7)中采用双字典学习的方法对主区域进行超分辨率重建，按如下步骤进行：

(7a)按照步骤(2)将主区域P_m分为纹理层P_mt和结构层P_ms；

(7b)选择主区域的参考图像，利用参考图像的纹理层稀疏表示和结构层稀疏表示，计算主区域的纹理层稀疏表示和结构层稀疏表示

(7c)根据主区域P_m的纹理层稀疏表示和纹理高分辨率字典得到主区域纹理层的重建图像根据主区域的结构层稀疏表示和结构高分辨率字典得到主区域结构层的重建图像

(7d)将主区域纹理层的重建图像和主区域结构层的重建图像融合，得到完整的主区域的重建图像。

7.根据权利要求1所述的基于稀疏表示和字典学习的视频图像分级重建方法，其特征在于：步骤(7b)中选择主区域的参考图像，利用参考图像的纹理层稀疏表示和结构层稀疏表示，计算主区域的纹理层稀疏表示和结构层稀疏表示按如下步骤进行：

(7b1)将主区域所在帧的前后各三帧作为参考图像，得到参考图像集P_r＝{P_rj}，P_rj表示一帧参考图像，j＝1,2,...,6；

(7b2)按照步骤(2)将参考图像集P_r分为纹理层P_rt＝{P_rtj}和结构层P_rs＝{P_rsj}，P_rtj为参考图像P_rj的纹理层，P_rsj为参考图像P_rj的结构层；

(7b3)将主区域的纹理层P_mt进行重叠分块化，得到主区域纹理层的分块集表示主区域的纹理层P_mt的一个分块，n＝1,2,...,N，N表示主区域的纹理层P_mt的分块数目；

(7b4)对主区域纹理层P_mt的每一个分块利用三步搜索算法在参考图像纹理层P_rtj中搜索最匹配块

(7b5)根据纹理低分辨率字典计算匹配块的稀疏表示其中为的逆矩阵；

(7b6)计算参考图像纹理层P_rtj中最匹配块的权重系数w_jn，计算公式如下

w_{j_{n}} = \frac{1}{\sqrt{(y_{{mt}_{n}} - y_{{rtj}_{n}}^{*}) {(y_{{mt}_{n}} - y_{{rtj}_{n}}^{*})}^{T}}};

(7b7)对匹配块的稀疏表示进行加权求和，得到主区域纹理层分块的纹理层稀疏表示记为主区域的纹理层稀疏表示；

(7b8)将主区域的结构层P_ms按照步骤(7b3)□(7b7)进行处理，得到主区域的结构层稀疏表示