CN104966276B

CN104966276B - 一种图像视频场景内容的保角映射稀疏表达方法

Info

Publication number: CN104966276B
Application number: CN201510337089.5A
Authority: CN
Inventors: 陈小武; 李健伟; 邹冬青; 赵沁平; 高博
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-06-17
Filing date: 2015-06-17
Publication date: 2017-10-20
Anticipated expiration: 2035-06-17
Also published as: CN104966276A

Abstract

本发明提供一种图像视频场景内容的保角映射稀疏表达方法，包括如下步骤：一、输入原始图像或视频并在特征空间中进行采样；二、计算每个样本的K近邻并建立局部完全邻接图，计算相邻样本之间的距离；三、根据保角映射规则，将其与稀疏表达方法相结合，学习具有保角性质的字典；四、利用此字典对原始图像或视频进行重构。本发明通过引入保角映射规则，最大限度地保持了相邻样本之间的角度信息，得到表达能力更强的字典。同时，保角映射促使相邻样本用相似的字典进行重构，使字典更加简洁紧凑。它在图像处理、计算机视觉和增强现实技术领域里具有广阔的应用前景。

Description

一种图像视频场景内容的保角映射稀疏表达方法

技术领域

本发明涉及图像处理、计算机视觉和增强现实技术领域，具体地说是一种图像视频场景内容的保角映射稀疏表达方法。

背景技术

近些年来，稀疏表达和字典学习技术作为一个研究热点已得到大量关注，并广泛应用于图像处理和计算机视觉领域，例如图像超分辨率、图像去噪、分类和颜色编辑等。稀疏表达技术是将信号用过完备字典中样本的线型组合来重构，并限制重构样本的个数以达到稀疏性质。

目前，很多科研工作者致力于稀疏表达方法的研究，而字典在稀疏表达技术中起到非常重要的作用。Michal Aharon等人在2006年提出了K-SVD字典学习方法并应用于图像处理。Honglak Lee等人在2006年提出了一种快速稀疏编码方法，加快了求解速度。Mairal等人在2009年提出了基于随机逼近的在线字典学习方法，该方法可以有效处理大数据集。这些方法的重点在于稀疏表达的求解方法及运行效率。这些方法专注于字典的重构能力，但需要依赖于大量的训练样本。并且，这些方法的字典个数需要手动设置，不能自动调整大小，使得到的字典冗余。另一些稀疏表达方法在字典的紧密度和表达性方面取得一定成果。例如，Qiu等人在2011年提出了基于最大互信息的动作属性字典学习方法；Siyahjani等人在2013年提出了上下文感知字典并用于图像对象的识别和定位。这些字典学习方法加入了类别间的差异性，但没有考虑数据空间中的局部关系以及上下文信息，导致字典的表达能力低下。而一些研究表明，保持数据内部之间的局部结构关系可以在数据重构时增强保真度，避免失真情况的发生。

稀疏表达技术越来越多地应用于图像处理和计算机视觉领域。例如，Elad等人将K-SVD方法用于图像去噪；Yang等人在2010年提出了用稀疏表达方法同时学习出高分辨率和低分辨率两个字典的方法，并用于图像超分辨率；Chen等人在2014年提出利用稀疏表达技术进行编辑传播的理论，可以处理超高分辨率的图像视频并极大降低了计算内存。另外，稀疏表达技术还可以应用于人脸识别、图像恢复、图像分类等方面。而上述应用的处理过程中，生成视觉保真度更高的结果仍然是稀疏表达技术研究的重点。

发明内容

为了克服上述现有技术的不足，本发明提出了一种图像视频场景内容的保角映射稀疏表达方法，该方法通过引入保角映射，最大限度地保持了相邻样本之间的局部角度信息，并得到表达能力更强的字典。同时，保角映射促使相邻样本用相似的字典进行重构，使字典更加简洁紧凑。最终，使图像编辑后的重构结果更好地保持原有局部结构，增强生成结果的视觉效果和真实感。

为完成发明目的，本发明采用的技术方案是：

本发明一种图像视频场景内容的保角映射稀疏表达方法，其具体步骤如下：

步骤一：输入原始图像或视频并在特征空间中进行采样；

步骤二：在特征空间中，计算每个样本的K近邻并建立局部完全邻接图，然后计算相邻样本之间的距离；

步骤三：根据保角映射规则，将其与稀疏表达方法相结合，学习具有保角性质的字典；

步骤四：针对具体应用，利用此字典对原始图像或视频进行重构，得到结果。

其中，在步骤二中所述的“局部完全邻接图”，是指对于某样本和它的K近邻所构成的集合中，任意两个样本之间都是相连的。

其中，在步骤三中所述的“保角映射规则”，是一种流形学习方法，具体描述为：给定特征空间M到另一特征空间N的映射g:M→N，(x_i,x_j,x_k)是特征空间M中相邻的样本点并构成三角形，(α_i,α_j,α_k)是这些样本点在特征空间N中的映射。根据保角映射规则需满足：

其中，N_i表示样本x_i的K近邻集合，s_i表示映射的尺度变换。

其中，在步骤三中所述的与稀疏表达方法相结合学习具有保角性质的字典，具体步骤为：将保角映射规则与稀疏表达算法结合，得到如下能量公式：

其中，x为输入样本特征，D为特征字典，α为重构系数，λ₁、λ₂为权重系数,通过迭代算法最小化此能量公式，最终求得具有保角性质的字典D。

其中，此方法可以应用于图像超分辨率、视频图像颜色编辑、图像去噪等视频图像编辑应用。

本发明与现有的技术相比，其有益的特点是：

1、在稀疏表达技术基础上，通过引入保角映射规则，最大限度地保持了相邻样本之间的局部角度信息，得到表达能力更强的字典；通过保角映射，促使相邻样本用相似的字典进行重构，使字典更加简洁紧凑。

2、受益于更加简洁以及表达能力更强的字典，本发明使图像编辑后的重构结果更好地保持原有局部结构，增强生成结果的视觉效果和真实感。

3、本发明提出的方法可以应用于很多领域且效果显著，包括：图像超分辨率、视频图像颜色编辑、图像去噪等。

附图说明

图1是本发明所述方法流程图；

图2是本发明的原理示意图；

图3是本发明的字典学习整体算法流程图；

图中符号说明如下：

D：在特定特征空间下学习的字典；

A：重构系数；

S：尺度变换系数；

x_i,x_j,x_k：输入的样本点，即图像视频的样本特征；

α_i,α_j,α_k：映射到另一空间的样本点，即稀疏的重构系数。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图，对本发明的方法作详细解释说明。应当理解，此处所描述的具体实例仅仅用以解释本发明，并不用于限定本发明。

本发明提出一种图像视频场景内容的保角映射稀疏表达方法，此方法通过引入保角映射规则，最大限度地保持了相邻样本之间的局部角度信息，得到更加简洁并且表达能力更强的字典；使用此方法生成的字典进行视频图像编辑，其重构结果能更好地保持原有局部结构，增强生成结果的视觉效果和真实感。同时，将该方法应用到三个典型应用，包括图像超分辨率、视频图像颜色编辑、图像去噪。

本发明一种图像视频场景内容的保角映射稀疏表达方法，流程如图1所示，具体实施方式如下：

步骤一：输入原始图像或视频并在特征空间中进行采样。

对输入的原始图像或视频进行采样，得到输入样本集X。根据不用的应用需求选取不同的特征空间。例如，针对图像超分辨率应用，将图像从RGB颜色空间转换到Ycbcr颜色空间，在patch级别上对图像的亮度通道Y进行采样。针对颜色编辑应用，在像素级别上对RGB颜色特征进行采样；针对图像去噪应用，在patch级别上对灰度特征或RGB颜色特征进行采样。

步骤二：在特征空间中，计算每个样本的K近邻并建立局部完全邻接图，然后计算相邻样本之间的距离。

首先用Kd-tree方法在特征空间中计算每个样本x_i的K近邻，计算时使用的是欧式距离，在样本x_i及其K个近邻样本组成的集合中，连接每两个样本构成局部完全邻接图；在特征空间中计算连接样本之间的欧式距离。

步骤三：根据保角映射规则，将其与稀疏表达方法相结合，学习具有保角性质的字典。

给定输入样本集X＝[x₁,x₂,…,x_N]，利用稀疏表达方法，可以求得过完备字典D，以及重构系数α：

为了改善稀疏表达方法的性能，本发明引入了输入数据的局部结构信息，在上述公式的基础上增加了保角项f(α)。

保角映射在流形学习领域已经被证明是可以提高流形学习效果的。具体方法为：给定特征空间M到另一特征空间N的映射g:M→N，(x_i,x_j,x_k)是特征空间M中相邻的样本点并构成三角形，(α_i,α_j,α_k)是这些样本点在特征空间N中的映射，如图2所示。根据保角映射规则需满足：

其中，N_i表示样本x_i的K近邻集合，s_i表示映射后的尺度变换。

然后，将保角映射规则与稀疏表达算法结合，得到如下能量公式：

其中，x为输入样本特征，D为特征字典，α为重构系数，λ₁、λ₂为权重系数。通过迭代算法最小化此能量公式，最终求得具有保角性质的字典D。

上述公式共有三个待求变量(D,α,S)，其中D为待求字典，α为稀疏重构系数，S为尺度变换。因此本发明将其分解为三个子问题：稀疏编码，字典更新，尺度更新。在每个子问题求解时，只优化一个变量而固定其它两个变量。此三个步骤不断循环迭代直到得到最优解。

首先，需要初始化变量D和S的值为随机矩阵。在稀疏编码阶段，固定D和S的值，通过如下公式求解系数α：

在这里，本发明使用迭代投影法求解此公式。

然后，在字典更新阶段，固定α和S的值来求解D，求解公式为：

这里要求字典中的每一项d_j为单位向量，即满足此公式为二次规划问题，可以逐项更新字典中的每一项。

最后，在尺度更新阶段，固定D和α来求解S，求解公式为：

注意到上述公式中的每个s_i都是独立的，因此可以通过最小二乘法分别求解。求解方法为：

通过此三个过程的不断迭代优化，最终求得最优解。算法流程图见图3。

步骤四：利用此字典对原始图像或视频进行重构，得到结果。

本发明给出三种不同的应用来验证此方法的性能，包括图像超分辨率、视频图像颜色编辑、图像去噪。

图像超分辨率应用是将低分辨率的图像重构为高分辨率的图像。首先建立一一对应的高分辨率图像和低分辨率图像库，利用上述字典学习方法同时从库中学习两个字典。当输入一个低分辨率的图像时，利用低分辨率字典进行重构求得系数，然后利用系数和高分辨率字典重构出对应的高分辨率图像。

视频图像颜色编辑应用是通过交互方式改变视频图像的颜色信息。输入视频图像后，首先学习出其颜色字典，当用户通过画笔在图像对象上标记颜色时，字典中对应的颜色会改变为用户标记的颜色，同时这种改变会传播到整个视频图像，得到最终颜色编辑结果。

图像去噪应用是过滤掉图像上的高斯噪声。输入一张带噪声的图像，首先采集8*8大小的图像块，并以此为数据学习出字典。然后利用匹配追踪方法重构图像，得到噪声过滤后的图像。

利用本发明求得的字典具有良好的表达能力和重构能力，同时字典也更加简洁。通过和传统方法的比较能证明这一点。例如传统字典学习方法K-SVD，求得的字典大小为256个，本发明可以将其减少为205个，并且表达能力更强。可以通过字典内部的相关系数来表示此字典的表达能力，系数越小表达能力越强。传统稀疏表达方法求得的字典的相关系数为0.8817，而本发明引入保角映射后，相关系数减小为0.8477，说明本发明学习得到的字典具有更强的学习能力。

以上所述仅为本发明的一些基本说明，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

Claims

1.一种图像视频场景内容的保角映射稀疏表达方法，其特征在于包括以下步骤：

(1)输入原始图像或视频并在特征空间中进行采样；

(2)在特征空间中，计算每个样本的K近邻并建立局部完全邻接图，然后计算相邻样本之间的距离；

(3)根据保角映射规则，将其与稀疏表达方法相结合，学习具有保角性质的字典；

(4)利用此字典对原始图像或视频进行重构，得到结果；

在步骤(3)中所述的保角映射规则，是一种流形学习方法，具体描述为：给定特征空间M到另一特征空间N的映射g:M→N，(x_i,x_j,x_k)是特征空间M中相邻的样本点并构成三角形，(α_i,α_j,α_k)是这些样本点在特征空间N中的映射；根据保角映射规则需满足：

<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> </mrow> </munder> <msup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>&alpha;</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>&alpha;</mi> <mi>k</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>,</mo> </mrow>

其中，N_i表示样本x_i的K近邻集合，s_i表示映射的尺度变换。

2.根据权利要求1所述的一种图像视频场景内容的保角映射稀疏表达方法，其特征在于：步骤(2)中所述的局部完全邻接图，是指对于某样本和它的K近邻所构成的集合中，任意两个样本之间都是相连的。

3.根据权利要求1所述的一种图像视频场景内容的保角映射稀疏表达方法，其特征在于：在步骤(3)中所述的与稀疏表达方法相结合学习具有保角性质的字典，具体步骤为：将保角映射规则与稀疏表达算法结合，得到如下能量公式：

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>D</mi> <mo>,</mo> <mi>&alpha;</mi> <mo>,</mo> <mi>S</mi> </mrow> </munder> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>D&alpha;</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>1</mn> </msub> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>2</mn> </msub> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> </mrow> </munder> <msup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>&alpha;</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>&alpha;</mi> <mi>k</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>,</mo> </mrow>

其中，x即(x_i,x_j,x_k)，为输入样本特征，D为特征字典，α即(α_i,α_j,α_k)，为重构系数，λ₁、λ₂为权重系数,通过迭代算法最小化此能量公式，最终求得具有保角性质的字典D，s_i:映射的尺度变换，S为所有s_i的集合。

4.根据权利要求1所述的一种图像视频场景内容的保角映射稀疏表达方法，其特征在于：所述方法应用于视频图像编辑应用，包括图像超分辨率、视频图像颜色编辑、图像去噪。

5.根据权利要求1所述的一种图像视频场景内容的保角映射稀疏表达方法，其特征在于：通过引入保角映射规则，最大限度地保持了相邻样本之间的局部角度信息，得到表达能力更强的字典；同时，保角映射促使相邻样本用相似的字典进行重构，使字典更加简洁紧凑。