CN104966276B - 一种图像视频场景内容的保角映射稀疏表达方法 - Google Patents
一种图像视频场景内容的保角映射稀疏表达方法 Download PDFInfo
- Publication number
- CN104966276B CN104966276B CN201510337089.5A CN201510337089A CN104966276B CN 104966276 B CN104966276 B CN 104966276B CN 201510337089 A CN201510337089 A CN 201510337089A CN 104966276 B CN104966276 B CN 104966276B
- Authority
- CN
- China
- Prior art keywords
- msub
- dictionary
- image
- mrow
- conformal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种图像视频场景内容的保角映射稀疏表达方法,包括如下步骤:一、输入原始图像或视频并在特征空间中进行采样;二、计算每个样本的K近邻并建立局部完全邻接图,计算相邻样本之间的距离;三、根据保角映射规则,将其与稀疏表达方法相结合,学习具有保角性质的字典;四、利用此字典对原始图像或视频进行重构。本发明通过引入保角映射规则,最大限度地保持了相邻样本之间的角度信息,得到表达能力更强的字典。同时,保角映射促使相邻样本用相似的字典进行重构,使字典更加简洁紧凑。它在图像处理、计算机视觉和增强现实技术领域里具有广阔的应用前景。
Description
技术领域
本发明涉及图像处理、计算机视觉和增强现实技术领域,具体地说是一种图像视频场景内容的保角映射稀疏表达方法。
背景技术
近些年来,稀疏表达和字典学习技术作为一个研究热点已得到大量关注,并广泛应用于图像处理和计算机视觉领域,例如图像超分辨率、图像去噪、分类和颜色编辑等。稀疏表达技术是将信号用过完备字典中样本的线型组合来重构,并限制重构样本的个数以达到稀疏性质。
目前,很多科研工作者致力于稀疏表达方法的研究,而字典在稀疏表达技术中起到非常重要的作用。Michal Aharon等人在2006年提出了K-SVD字典学习方法并应用于图像处理。Honglak Lee等人在2006年提出了一种快速稀疏编码方法,加快了求解速度。Mairal等人在2009年提出了基于随机逼近的在线字典学习方法,该方法可以有效处理大数据集。这些方法的重点在于稀疏表达的求解方法及运行效率。这些方法专注于字典的重构能力,但需要依赖于大量的训练样本。并且,这些方法的字典个数需要手动设置,不能自动调整大小,使得到的字典冗余。另一些稀疏表达方法在字典的紧密度和表达性方面取得一定成果。例如,Qiu等人在2011年提出了基于最大互信息的动作属性字典学习方法;Siyahjani等人在2013年提出了上下文感知字典并用于图像对象的识别和定位。这些字典学习方法加入了类别间的差异性,但没有考虑数据空间中的局部关系以及上下文信息,导致字典的表达能力低下。而一些研究表明,保持数据内部之间的局部结构关系可以在数据重构时增强保真度,避免失真情况的发生。
稀疏表达技术越来越多地应用于图像处理和计算机视觉领域。例如,Elad等人将K-SVD方法用于图像去噪;Yang等人在2010年提出了用稀疏表达方法同时学习出高分辨率和低分辨率两个字典的方法,并用于图像超分辨率;Chen等人在2014年提出利用稀疏表达技术进行编辑传播的理论,可以处理超高分辨率的图像视频并极大降低了计算内存。另外,稀疏表达技术还可以应用于人脸识别、图像恢复、图像分类等方面。而上述应用的处理过程中,生成视觉保真度更高的结果仍然是稀疏表达技术研究的重点。
发明内容
为了克服上述现有技术的不足,本发明提出了一种图像视频场景内容的保角映射稀疏表达方法,该方法通过引入保角映射,最大限度地保持了相邻样本之间的局部角度信息,并得到表达能力更强的字典。同时,保角映射促使相邻样本用相似的字典进行重构,使字典更加简洁紧凑。最终,使图像编辑后的重构结果更好地保持原有局部结构,增强生成结果的视觉效果和真实感。
为完成发明目的,本发明采用的技术方案是:
本发明一种图像视频场景内容的保角映射稀疏表达方法,其具体步骤如下:
步骤一:输入原始图像或视频并在特征空间中进行采样;
步骤二:在特征空间中,计算每个样本的K近邻并建立局部完全邻接图,然后计算相邻样本之间的距离;
步骤三:根据保角映射规则,将其与稀疏表达方法相结合,学习具有保角性质的字典;
步骤四:针对具体应用,利用此字典对原始图像或视频进行重构,得到结果。
其中,在步骤二中所述的“局部完全邻接图”,是指对于某样本和它的K近邻所构成的集合中,任意两个样本之间都是相连的。
其中,在步骤三中所述的“保角映射规则”,是一种流形学习方法,具体描述为:给定特征空间M到另一特征空间N的映射g:M→N,(xi,xj,xk)是特征空间M中相邻的样本点并构成三角形,(αi,αj,αk)是这些样本点在特征空间N中的映射。根据保角映射规则需满足:
其中,Ni表示样本xi的K近邻集合,si表示映射的尺度变换。
其中,在步骤三中所述的与稀疏表达方法相结合学习具有保角性质的字典,具体步骤为:将保角映射规则与稀疏表达算法结合,得到如下能量公式:
其中,x为输入样本特征,D为特征字典,α为重构系数,λ1、λ2为权重系数,通过迭代算法最小化此能量公式,最终求得具有保角性质的字典D。
其中,此方法可以应用于图像超分辨率、视频图像颜色编辑、图像去噪等视频图像编辑应用。
本发明与现有的技术相比,其有益的特点是:
1、在稀疏表达技术基础上,通过引入保角映射规则,最大限度地保持了相邻样本之间的局部角度信息,得到表达能力更强的字典;通过保角映射,促使相邻样本用相似的字典进行重构,使字典更加简洁紧凑。
2、受益于更加简洁以及表达能力更强的字典,本发明使图像编辑后的重构结果更好地保持原有局部结构,增强生成结果的视觉效果和真实感。
3、本发明提出的方法可以应用于很多领域且效果显著,包括:图像超分辨率、视频图像颜色编辑、图像去噪等。
附图说明
图1是本发明所述方法流程图;
图2是本发明的原理示意图;
图3是本发明的字典学习整体算法流程图;
图中符号说明如下:
D:在特定特征空间下学习的字典;
A:重构系数;
S:尺度变换系数;
xi,xj,xk:输入的样本点,即图像视频的样本特征;
αi,αj,αk:映射到另一空间的样本点,即稀疏的重构系数。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图,对本发明的方法作详细解释说明。应当理解,此处所描述的具体实例仅仅用以解释本发明,并不用于限定本发明。
本发明提出一种图像视频场景内容的保角映射稀疏表达方法,此方法通过引入保角映射规则,最大限度地保持了相邻样本之间的局部角度信息,得到更加简洁并且表达能力更强的字典;使用此方法生成的字典进行视频图像编辑,其重构结果能更好地保持原有局部结构,增强生成结果的视觉效果和真实感。同时,将该方法应用到三个典型应用,包括图像超分辨率、视频图像颜色编辑、图像去噪。
本发明一种图像视频场景内容的保角映射稀疏表达方法,流程如图1所示,具体实施方式如下:
步骤一:输入原始图像或视频并在特征空间中进行采样。
对输入的原始图像或视频进行采样,得到输入样本集X。根据不用的应用需求选取不同的特征空间。例如,针对图像超分辨率应用,将图像从RGB颜色空间转换到Ycbcr颜色空间,在patch级别上对图像的亮度通道Y进行采样。针对颜色编辑应用,在像素级别上对RGB颜色特征进行采样;针对图像去噪应用,在patch级别上对灰度特征或RGB颜色特征进行采样。
步骤二:在特征空间中,计算每个样本的K近邻并建立局部完全邻接图,然后计算相邻样本之间的距离。
首先用Kd-tree方法在特征空间中计算每个样本xi的K近邻,计算时使用的是欧式距离,在样本xi及其K个近邻样本组成的集合中,连接每两个样本构成局部完全邻接图;在特征空间中计算连接样本之间的欧式距离。
步骤三:根据保角映射规则,将其与稀疏表达方法相结合,学习具有保角性质的字典。
给定输入样本集X=[x1,x2,…,xN],利用稀疏表达方法,可以求得过完备字典D,以及重构系数α:
为了改善稀疏表达方法的性能,本发明引入了输入数据的局部结构信息,在上述公式的基础上增加了保角项f(α)。
保角映射在流形学习领域已经被证明是可以提高流形学习效果的。具体方法为:给定特征空间M到另一特征空间N的映射g:M→N,(xi,xj,xk)是特征空间M中相邻的样本点并构成三角形,(αi,αj,αk)是这些样本点在特征空间N中的映射,如图2所示。根据保角映射规则需满足:
其中,Ni表示样本xi的K近邻集合,si表示映射后的尺度变换。
然后,将保角映射规则与稀疏表达算法结合,得到如下能量公式:
其中,x为输入样本特征,D为特征字典,α为重构系数,λ1、λ2为权重系数。通过迭代算法最小化此能量公式,最终求得具有保角性质的字典D。
上述公式共有三个待求变量(D,α,S),其中D为待求字典,α为稀疏重构系数,S为尺度变换。因此本发明将其分解为三个子问题:稀疏编码,字典更新,尺度更新。在每个子问题求解时,只优化一个变量而固定其它两个变量。此三个步骤不断循环迭代直到得到最优解。
首先,需要初始化变量D和S的值为随机矩阵。在稀疏编码阶段,固定D和S的值,通过如下公式求解系数α:
在这里,本发明使用迭代投影法求解此公式。
然后,在字典更新阶段,固定α和S的值来求解D,求解公式为:
这里要求字典中的每一项dj为单位向量,即满足此公式为二次规划问题,可以逐项更新字典中的每一项。
最后,在尺度更新阶段,固定D和α来求解S,求解公式为:
注意到上述公式中的每个si都是独立的,因此可以通过最小二乘法分别求解。求解方法为:
通过此三个过程的不断迭代优化,最终求得最优解。算法流程图见图3。
步骤四:利用此字典对原始图像或视频进行重构,得到结果。
本发明给出三种不同的应用来验证此方法的性能,包括图像超分辨率、视频图像颜色编辑、图像去噪。
图像超分辨率应用是将低分辨率的图像重构为高分辨率的图像。首先建立一一对应的高分辨率图像和低分辨率图像库,利用上述字典学习方法同时从库中学习两个字典。当输入一个低分辨率的图像时,利用低分辨率字典进行重构求得系数,然后利用系数和高分辨率字典重构出对应的高分辨率图像。
视频图像颜色编辑应用是通过交互方式改变视频图像的颜色信息。输入视频图像后,首先学习出其颜色字典,当用户通过画笔在图像对象上标记颜色时,字典中对应的颜色会改变为用户标记的颜色,同时这种改变会传播到整个视频图像,得到最终颜色编辑结果。
图像去噪应用是过滤掉图像上的高斯噪声。输入一张带噪声的图像,首先采集8*8大小的图像块,并以此为数据学习出字典。然后利用匹配追踪方法重构图像,得到噪声过滤后的图像。
利用本发明求得的字典具有良好的表达能力和重构能力,同时字典也更加简洁。通过和传统方法的比较能证明这一点。例如传统字典学习方法K-SVD,求得的字典大小为256个,本发明可以将其减少为205个,并且表达能力更强。可以通过字典内部的相关系数来表示此字典的表达能力,系数越小表达能力越强。传统稀疏表达方法求得的字典的相关系数为0.8817,而本发明引入保角映射后,相关系数减小为0.8477,说明本发明学习得到的字典具有更强的学习能力。
以上所述仅为本发明的一些基本说明,依据本发明的技术方案所做的任何等效变换,均应属于本发明的保护范围。
Claims (5)
1.一种图像视频场景内容的保角映射稀疏表达方法,其特征在于包括以下步骤:
(1)输入原始图像或视频并在特征空间中进行采样;
(2)在特征空间中,计算每个样本的K近邻并建立局部完全邻接图,然后计算相邻样本之间的距离;
(3)根据保角映射规则,将其与稀疏表达方法相结合,学习具有保角性质的字典;
(4)利用此字典对原始图像或视频进行重构,得到结果;
在步骤(3)中所述的保角映射规则,是一种流形学习方法,具体描述为:给定特征空间M到另一特征空间N的映射g:M→N,(xi,xj,xk)是特征空间M中相邻的样本点并构成三角形,(αi,αj,αk)是这些样本点在特征空间N中的映射;根据保角映射规则需满足:
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>k</mi>
<mo>&Element;</mo>
<msub>
<mi>N</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msup>
<mrow>
<mo>(</mo>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mi>k</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>-</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>&alpha;</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<msub>
<mi>&alpha;</mi>
<mi>k</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>,</mo>
</mrow>
其中,Ni表示样本xi的K近邻集合,si表示映射的尺度变换。
2.根据权利要求1所述的一种图像视频场景内容的保角映射稀疏表达方法,其特征在于:步骤(2)中所述的局部完全邻接图,是指对于某样本和它的K近邻所构成的集合中,任意两个样本之间都是相连的。
3.根据权利要求1所述的一种图像视频场景内容的保角映射稀疏表达方法,其特征在于:在步骤(3)中所述的与稀疏表达方法相结合学习具有保角性质的字典,具体步骤为:将保角映射规则与稀疏表达算法结合,得到如下能量公式:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mi>D</mi>
<mo>,</mo>
<mi>&alpha;</mi>
<mo>,</mo>
<mi>S</mi>
</mrow>
</munder>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>D&alpha;</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<msub>
<mi>&lambda;</mi>
<mn>1</mn>
</msub>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>&alpha;</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>&lambda;</mi>
<mn>2</mn>
</msub>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>k</mi>
<mo>&Element;</mo>
<msub>
<mi>N</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msup>
<mrow>
<mo>(</mo>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mi>k</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>-</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>&alpha;</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<msub>
<mi>&alpha;</mi>
<mi>k</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>,</mo>
</mrow>
其中,x即(xi,xj,xk),为输入样本特征,D为特征字典,α即(αi,αj,αk),为重构系数,λ1、λ2为权重系数,通过迭代算法最小化此能量公式,最终求得具有保角性质的字典D,si:映射的尺度变换,S为所有si的集合。
4.根据权利要求1所述的一种图像视频场景内容的保角映射稀疏表达方法,其特征在于:所述方法应用于视频图像编辑应用,包括图像超分辨率、视频图像颜色编辑、图像去噪。
5.根据权利要求1所述的一种图像视频场景内容的保角映射稀疏表达方法,其特征在于:通过引入保角映射规则,最大限度地保持了相邻样本之间的局部角度信息,得到表达能力更强的字典;同时,保角映射促使相邻样本用相似的字典进行重构,使字典更加简洁紧凑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510337089.5A CN104966276B (zh) | 2015-06-17 | 2015-06-17 | 一种图像视频场景内容的保角映射稀疏表达方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510337089.5A CN104966276B (zh) | 2015-06-17 | 2015-06-17 | 一种图像视频场景内容的保角映射稀疏表达方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104966276A CN104966276A (zh) | 2015-10-07 |
CN104966276B true CN104966276B (zh) | 2017-10-20 |
Family
ID=54220307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510337089.5A Active CN104966276B (zh) | 2015-06-17 | 2015-06-17 | 一种图像视频场景内容的保角映射稀疏表达方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104966276B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106548476B (zh) * | 2016-11-25 | 2019-11-12 | 天津工业大学 | 利用医学图像统计肺部三维特征形状方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049340A (zh) * | 2012-10-26 | 2013-04-17 | 中山大学 | 基于纹理上下文约束的视觉词汇的图像超分辨率重建方法 |
CN104268593A (zh) * | 2014-09-22 | 2015-01-07 | 华东交通大学 | 一种小样本情况下多稀疏表示的人脸识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8525871B2 (en) * | 2008-08-08 | 2013-09-03 | Adobe Systems Incorporated | Content-aware wide-angle images |
-
2015
- 2015-06-17 CN CN201510337089.5A patent/CN104966276B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049340A (zh) * | 2012-10-26 | 2013-04-17 | 中山大学 | 基于纹理上下文约束的视觉词汇的图像超分辨率重建方法 |
CN104268593A (zh) * | 2014-09-22 | 2015-01-07 | 华东交通大学 | 一种小样本情况下多稀疏表示的人脸识别方法 |
Non-Patent Citations (2)
Title |
---|
"Application of conformal map theory for design of 2-D ultrasonic array structure for ndt imaging application: a feasibility study";Sivaram N. Ramadas等;《IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control》;20140225;第61卷(第3期);论文第496-504页 * |
"稀疏流形建模及其在人脸识别中的应用";高文娟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111215(第S2期);论文第10-13,22,31-35页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104966276A (zh) | 2015-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113469094B (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN110335193B (zh) | 一种基于生成对抗网络的目标域导向的无监督图像转换方法 | |
CN105069825A (zh) | 基于深度置信网络的图像超分辨率重建方法 | |
CN108734661B (zh) | 基于图像纹理信息构建损失函数的高分辨率图像预测方法 | |
CN110349087B (zh) | 基于适应性卷积的rgb-d图像高质量网格生成方法 | |
CN110223234A (zh) | 基于级联收缩扩张的深度残差网络图像超分辨率重建方法 | |
Luo et al. | Lattice network for lightweight image restoration | |
CN113343775B (zh) | 一种用于遥感影像地表覆盖分类的深度学习泛化方法 | |
CN113870124B (zh) | 基于弱监督的双网络互激励学习阴影去除方法 | |
CN105844635A (zh) | 一种基于结构字典的稀疏表示深度图像重建算法 | |
CN112488055B (zh) | 一种基于渐进图注意力网络的视频问答方法 | |
CN111652240B (zh) | 一种基于cnn的图像局部特征检测与描述方法 | |
CN112200029B (zh) | 基于改进型UNet++网络的遥感图像建筑物提取方法 | |
CN103413331B (zh) | 一种支持编辑传播的高分辨率视频图像内容稀疏表达方法 | |
CN113744136A (zh) | 基于通道约束多特征融合的图像超分辨率重建方法和*** | |
CN114742985A (zh) | 一种高光谱特征提取方法、装置及存储介质 | |
CN116167920A (zh) | 一种基于超分辨率和先验知识的图像压缩与重建方法 | |
Kaur et al. | Robust and efficient ‘RGB’based fractal image compression: flower pollination based optimization | |
CN112686817B (zh) | 一种基于不确定性估计的图像补全方法 | |
CN104966276B (zh) | 一种图像视频场景内容的保角映射稀疏表达方法 | |
CN113436094B (zh) | 一种基于多视角注意力机制的灰度图像自动上色方法 | |
CN116152263A (zh) | 一种基于cm-mlp网络的医学图像分割方法 | |
CN114219701A (zh) | 敦煌壁画艺术风格转换方法、***、计算机设备及存储介质 | |
CN105825473A (zh) | 一种基于自适应切换分析稀疏与合成稀疏正则化的图像复原方法 | |
Kuang | Single image super resolution reconstruction algorithm based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |