CN114663285B - 基于卷积神经网络的老电影超分辨*** - Google Patents
基于卷积神经网络的老电影超分辨*** Download PDFInfo
- Publication number
- CN114663285B CN114663285B CN202210339390.XA CN202210339390A CN114663285B CN 114663285 B CN114663285 B CN 114663285B CN 202210339390 A CN202210339390 A CN 202210339390A CN 114663285 B CN114663285 B CN 114663285B
- Authority
- CN
- China
- Prior art keywords
- features
- feature
- image
- primary
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 33
- 238000006731 degradation reaction Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000015556 catabolic process Effects 0.000 claims abstract description 17
- 238000009499 grossing Methods 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000008439 repair process Effects 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 13
- 239000000463 material Substances 0.000 description 11
- 238000012549 training Methods 0.000 description 8
- 230000008447 perception Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001197153 Remaster Species 0.000 description 1
- 238000005299 abrasion Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000012780 transparent material Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
一种基于卷积神经网络的老电影超分辨***,属于数字图像处理与深度学***滑模块,用于对相邻前k帧图像、当前帧图像和相邻后k帧图像进行特征提取,获得所有帧输入图像的中低频全局退化特征;特征提取模块用于进行特征提取,得到每帧输入图像的提取后特征;PCD模块对每组图像进行对齐操作;时间注意力模块用于获得当前帧图像的融合后高频特征;重建模块用于获得当前帧图像的重建后特征;最后通过相加单元获得当前帧图像的高清修复图像。本发明在实现超分的同时,改善了老电影存在的斑块问题。
Description
技术领域
本发明涉及基于卷积神经网络的老电影超分辨***,属于数字图像处理与深度学习领域。
背景技术
老电影作为一种早期的艺术形式,记录了早年社会的面貌,是宝贵的文化遗产和不可或缺的史实资料。为了使其在当今时代绽放价值,拉近与大众的距离,需要对其进行高清化修复,以满足观众对画质的要求。图像超分辨(Super-Resolution,SR,以下简称“超分”)是图像复原的子任务,目的是将输入的分辨率较低的(Low-Resolution,LR)图像或图像序列,处理为分辨率高的(High-Resolution,HR)图像或图像序列,处理后的图像细节信息更为饱满丰富、细腻清晰。
2015年提出的SRCNN首次将卷积神经网络(Convolutional Neural Network,CNN)应用在了图像超分领域,仅使用三个卷积层便有了十分优秀的表现。在此基础上改进的FSRCNN,在网络的末端加入了反卷积层用于放大图像尺寸,因而可以直接输入LR图像而不必先通过双三次插值法放大图像尺寸,运算速度和生成图像质量都得以提升。VDSR采用残差结构,将网络的深度拓展到20层,以带来更好的效果。ESPCN引入亚像素卷积层来代替上采样操作,大大减小了计算开销,该结构在后来的算法中得到广泛应用。与单帧超分(Single Image Super-Resolution,SISR)相比,视频超分(Video Super-Resolution,VSR)可以使用多帧的信息,理论上性能更出色,但这依赖于视频帧之间的准确对齐。TDAN第一次在超分任务中采用可变形卷积(Deformable Convolution)进行对齐,避免了基于光流的方法所采用的两阶段过程。2019年的EDVR算法借鉴了TDAN的可变形卷积对齐方式,并在此基础上提出了PCD(Pyramid,Cascading and Deformable)对齐模块,以从粗到细的运算过程提升了对齐的精度,能成功处理剧烈复杂的运动。
然而,电影胶片介质十分脆弱,反复放映会造成物理磨损,多年存放易产生霉变和化学腐蚀;附着在胶片表面的灰尘、毛发、植物纤维等污染物也会留下噪点、污渍等。这些问题在画面中可表现为斑块(Blotch),呈现出任意的大小、颜色、形状和分布位置,且在时序上有不连续性,即同样的斑块不会出现在连续的两帧上。如果直接对老电影进行超分处理,画面上存在的斑块会干扰帧间对齐,且在输出图像中也会被同步放大,影响图像质量。
针对斑块问题,早期的修复方式多为简单的滤波方法,例如中值滤波、多级中值滤波、LUM滤波、拓扑中值滤波等。1998年,Kokaram提出了一种特殊的二级中值滤波ML3Dex,不仅将每个位置8邻域内的像素纳入计算范围,也利用了前后帧的信息。2008年,Jain和Seung将CNN用于处理图像去噪问题,与传统的小波变换和马尔科夫随机场(Markov RandomField,MRF)方法相比有更好的去噪效果。后来,DnCNN等更深层的图像去噪方法开始流行,但大都只针对简单的高斯噪声,针对老电影修复任务的深度学习方法较少,深度学习的成果未得到充分的利用。2019年,Iizuka等人提出一种老电影上色方法,其中预处理模块由3D卷积层构成,对电影斑块的修复能力超过DnCNN。这些算法体现了CNN在图像去噪、老电影去斑块任务中的巨大潜力。
然而,不论是对于超分问题还是斑块问题而言,现有技术一般只能完成单一的任务,缺少老电影高清化修复的综合解决方案。
发明内容
针对现有老电影修复中,只能单一的进行超分处理或斑块处理,修复效果差的问题,本发明提供一种基于卷积神经网络的老电影超分辨***。
本发明的一种基于卷积神经网络的老电影超分辨***,包括,
平滑模块,用于对相邻前k帧图像xt-i、当前帧图像xt和相邻后k帧图像xt+i进行特征提取,获得所有帧输入图像的中低频全局退化特征;其中k为正整数,i=1,2,3,……,k;
特征提取模块,用于对所有帧输入图像分别进行特征提取,得到每帧输入图像的提取后特征;对所有帧输入图像的提取后特征两两配对形成2k+1组图像;所述2k+1组图像包括当前帧图像xt对应的提取后特征与包括其自身在内的所有帧输入图像对应的提取后特征依次进行组合形成的图像组;
PCD模块,用于以一组图像中对应当前帧图像xt的提取后特征作为基准特征,将另一提取后特征向基准特征进行特征对齐操作;获得每一组图像的对齐后特征;
时间注意力模块,用于对所有对齐后特征进行均衡化处理,获得当前帧图像xt的融合后高频特征Mt;
重建模块,用于对中低频全局退化特征和融合后高频特征Mt相加的和进行图像超分重建,获得当前帧图像xt的重建后特征;
进一步,根据本发明的基于卷积神经网络的老电影超分辨***,
所述PCD模块获得每一组图像的对齐后特征的过程包括:
对基准特征和另一提取后特征分别进行一级下采样获得一级基准特征和一级提取后特征,再对一级基准特征和一级提取后特征分别进行二级下采样获得二级基准特征和二级提取后特征;
将二级基准特征和二级提取后特征连接后获得二级偏移量;
对二级偏移量和二级提取后特征经可变形卷积处理后,获得一次对齐后特征;
由一级基准特征和一级提取后特征连接后的结果结合二级偏移量获得一级偏移量;
对一级偏移量和一级提取后特征经可变形卷积处理后,结合一次对齐后特征获得二次对齐后特征;
由基准特征和另一提取后特征连接后的结果结合一级偏移量获得初级偏移量;
对初级偏移量和另一提取后特征经可变形卷积处理后,结合二次对齐后特征获得三次对齐后特征;
将基准特征和三次对齐后特征连接获得最终偏移量;
将最终偏移量和三次对齐后特征经可变形卷积处理后,获得另一提取后特征对应帧输入图像的对齐后特征。
再进一步,根据本发明的基于卷积神经网络的老电影超分辨***,
时间注意力模块获得融合后高频特征Mt的过程包括:
对当前帧图像xt的对齐后特征与其它帧图像的对齐后特征分别进行初级均衡化处理,获得其它帧图像的初级融合后高频特征;
将所有初级融合后高频特征与当前帧图像xt的对齐后特征进行连接,获得连接后高频特征,再对连接后高频特征进行卷积与激活操作后,获得融合后高频特征Mt。
再进一步,根据本发明的基于卷积神经网络的老电影超分辨***,
初级均衡化处理包括:
将当前帧图像xt的对齐后特征与任一其它帧图像的对齐后特征进行连接操作获得连接后特征,所述连接后特征经卷积操作和ReLU函数激活后,获得一级混合特征;将一级混合特征再进行卷积操作和sigmoid函数激活后,获得二级混合特征;二级混合特征经全局平均池化操作和sigmoid函数激活后,获得时间注意力,所述时间注意力与所述任一其它帧图像的对齐后特征点乘后获得初级融合后高频特征。
再进一步,根据本发明的基于卷积神经网络的老电影超分辨***,
所述二级混合特征的计算方法为:
zt-i=σ(W2δ(W1[Ft,Ft-i])):
式中zt-i为对应任一其它帧图像的二级混合特征,σ(·)表示sigmoid函数,δ(·)表示ReLU函数,W1为对连接后特征进行操作的卷积层的权重,W2为对一级混合特征进行操作的卷积层的权重,Ft为当前帧图像xt的对齐后特征,Ft-i为相邻前k帧图像中的任一帧图像的对齐后特征。
再进一步,根据本发明的基于卷积神经网络的老电影超分辨***,
所述时间注意力的计算方法为:
st-i=σ(AvgPooling(zt-i)),
式中st-i为对应于所述任一其它帧图像的时间注意力,AvgPooling表示全局平均池化。
再进一步,根据本发明的基于卷积神经网络的老电影超分辨***,
初级融合后高频特征表示为Mt-i:
Mt-i=st-iFt-i。
再进一步,根据本发明的基于卷积神经网络的老电影超分辨***,
融合后高频特征Mt为:
Mt=φ(W3[{Mt-i},Ft]),
式中φ(·)表示leaky ReLU函数,W3是对连接后高频特征进行操作的1×1卷积层的权重,{Mt-i}表示所有初级融合后高频特征的集合。
再进一步,根据本发明的基于卷积神经网络的老电影超分辨***,
所述特征提取模块包括5个残差块;重建模块包括10个残差块;每个残差块的通道数均为64。
再进一步,根据本发明的基于卷积神经网络的老电影超分辨***,
所述平滑模块采用3×3×3的13个3D卷积层组成编码器和解码器结构。
本发明的有益效果:本发明提出了一种端到端的卷积神经网络架构,它在实现超分的同时,改善了老电影存在的斑块问题。
经实验验证,采用本发明***进行老电影修复后,在画面清晰度、自然程度以及满足人的感知等方面具有明显优势。其中时间注意力模块分支更关注图像的边缘、纹理等高频信息,物体轮廓清晰可见;而平滑模块则输出中低频特征,图像较为模糊。两者相加后,高低频信息得以融合,便于重建模块进行超分重建。通过表1和表2的结果可以看出,本发明不仅让图像更清晰,也有效减少了斑块的问题,生成的图像最接近真实值。
通过实验证明,本发明在多种风格的老电影中具有良好的稳健性,能够生成较为锐利的边缘,对真实的斑块也有一定的去除效果。
附图说明
图1是本发明所述基于卷积神经网络的老电影超分辨***的网络整体结构图;
图2是特征提取模块和PCD模块对图像进行处理的具体流程图;输入中间帧和相邻帧,经过特征提取之后,对两者的特征进行多层运算来对齐。图中虚线表示特征或偏移量自身的下采样或上采样,DConv表示可变形卷积;
图3是时间注意力模块的数据处理流程图;图中Element-Wise Product表示点乘操作,Concatenate表示连接操作;其输入对齐后的特征,输出融合后的特征;
图4是人工模拟老电影修复前后平均亮度对比图;
图5是本发明采用的老电影数据模拟流程图;
图6是真实老电影的原始视频;
图7是采用本发明***对图6进行修复的结果;
图8是移除本发明***中平滑模块后对图6进行修复的结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
具体实施方式一、结合图1至图3所示,本发明提供了一种基于卷积神经网络的老电影超分辨***,包括,
平滑模块,用于对相邻前k帧图像xt-i、当前帧图像xt和相邻后k帧图像xt+i进行特征提取,获得所有帧输入图像的中低频全局退化特征;其中k为正整数,i=1,2,3,……,k;
特征提取模块,用于对所有帧输入图像分别进行特征提取,得到每帧输入图像的提取后特征;对所有帧输入图像的提取后特征两两配对形成2k+1组图像;所述2k+1组图像包括当前帧图像xt对应的提取后特征与包括其自身在内的所有帧输入图像对应的提取后特征依次进行组合形成的图像组;
PCD模块,用于以一组图像中对应当前帧图像xt的提取后特征作为基准特征,将另一提取后特征向基准特征进行特征对齐操作;获得每一组图像的对齐后特征;
时间注意力模块,用于对所有对齐后特征进行均衡化处理,获得当前帧图像xt的融合后高频特征Mt;
重建模块,用于对中低频全局退化特征和融合后高频特征Mt相加的和进行图像超分重建,获得当前帧图像xt的重建后特征;
视频超分VSR任务中的核心问题是如何充分利用相邻帧的信息。而对老电影而言,由于斑块、闪烁问题的存在,不同帧的图像质量差异明显。于是,本实施方式提出时间注意力模块以平衡多帧图像的信息量,并进行特征融合。此外,尽管图像超分任务更关注高频信息的恢复,但老电影视频在时间和空间维度的全局退化信息可以辅助电影的修复。为了提取这些中低频信息,采用3D卷积层组成平滑模块。对于特征对齐,采用了PCD模块。
在重建模块前的流程分为两个分支,其中平滑模块分支负责提取中低频的全局退化特征,而另一分支由特征提取、PCD模块和时间注意力模块组成,负责提取高频特征。凭借3D卷积层和特征对齐与融合,两条分支均整合了多帧的有效信息。重建模块利用两条分支的结果之和进行图像超分重建。
进一步,结合图2所示,所述PCD模块获得每一组图像的对齐后特征的过程包括:
对基准特征和另一提取后特征分别进行一级下采样获得一级基准特征和一级提取后特征,再对一级基准特征和一级提取后特征分别进行二级下采样获得二级基准特征和二级提取后特征;
将二级基准特征和二级提取后特征连接后获得二级偏移量;
对二级偏移量和二级提取后特征经可变形卷积处理后,获得一次对齐后特征;
由一级基准特征和一级提取后特征连接后的结果结合二级偏移量获得一级偏移量;
对一级偏移量和一级提取后特征经可变形卷积处理后,结合一次对齐后特征获得二次对齐后特征;
由基准特征和另一提取后特征连接后的结果结合一级偏移量获得初级偏移量;
对初级偏移量和另一提取后特征经可变形卷积处理后,结合二次对齐后特征获得三次对齐后特征;
将基准特征和三次对齐后特征连接获得最终偏移量;
将最终偏移量和三次对齐后特征经可变形卷积处理后,获得另一提取后特征对应帧输入图像的对齐后特征。
再进一步,结合图3所示,时间注意力模块获得融合后高频特征Mt的过程包括:
对当前帧图像xt的对齐后特征与其它帧图像的对齐后特征分别进行初级均衡化处理,获得其它帧图像的初级融合后高频特征;
将所有初级融合后高频特征与当前帧图像xt的对齐后特征进行连接,获得连接后高频特征,再对连接后高频特征进行卷积与激活操作后,获得融合后高频特征Mt。
本实施方式中,当前帧图像xt的对齐后特征是指:一组图像中,两帧输入图像的提取后特征均为当前帧图像xt的提取后特征,进行对齐操作后获得的结果;而另一提取后特征对应帧输入图像的对齐后特征是指:一组图像中,两帧输入图像的提取后特征一个为对应当前帧图像xt的提取后特征,另一个为非当前帧图像的提取后特征,对两个提取后特征进行对齐操作后,获得非当前帧图像的提取后特征对应的对齐后特征。
结合图3所示,初级均衡化处理包括:
将当前帧图像xt的对齐后特征与任一其它帧图像的对齐后特征进行连接操作获得连接后特征,所述连接后特征经卷积操作和ReLU函数激活后,获得一级混合特征;将一级混合特征再进行卷积操作和sigmoid函数激活后,获得二级混合特征;二级混合特征经全局平均池化操作和sigmoid函数激活后,获得时间注意力,所述时间注意力与所述任一其它帧图像的对齐后特征点乘后获得初级融合后高频特征。
所述二级混合特征的计算方法为:
zt-i=σ(W2δ(W1[Ft,Ft-i])):
式中zt-i为对应任一其它帧图像的二级混合特征,σ(·)表示sigmoid函数,δ(·)表示ReLU函数,W1为对连接后特征进行操作的卷积层的权重,W2为对一级混合特征进行操作的卷积层的权重,Ft为当前帧图像xt的对齐后特征,Ft-i为相邻前k帧图像中的任一帧图像的对齐后特征。
本实施方式中,虽然zt-i融合了两帧的时间信息,但卷积核也捕获了空间相关性的信息。因此,利用全局平均池化来压缩空间相关性信息。
所述时间注意力的计算方法为:
st-i=σ(AvgPooling(zt-i)),
式中st-i为对应于所述任一其它帧图像的时间注意力,AvgPooling表示全局平均池化。
st-i由Ft和Ft-i计算而来,反映了两者的相对差异,其数值大小体现了对不同帧的信息量的调整力度。直观来看,因退化而亮度偏低的帧对应的时间注意力较大,利于暗部信息的充分挖掘;反之,亮度偏高的帧则会被抑制。所有相邻帧对应的缩放后特征与Ft连接,进行下一步的融合:
初级融合后高频特征表示为Mt-i:
Mt-i=st-iFt-i。
融合后高频特征Mt为:
Mt=φ(W3[{Mt-i},Ft]),
式中φ(·)表示leaky ReLU函数,W3是对连接后高频特征进行操作的1×1卷积层的权重,{Mt-i}表示所有初级融合后高频特征的集合。
由于斑块、闪烁等问题的存在,输入的图像序列不仅存在场景或物体的运动,还存在亮度波动。经过PCD模块后,不同帧的特征已完成空间方向的对齐,但特征数值在时序上仍分布不均。为了有效融合多帧特征,本实施方式提出时间注意力模块,对特征进行均衡化处理,从而提升网络对信息的敏感度。它利用中间帧特征Ft和邻帧的特征,计算时间注意力st-i∈RC,作为权重来强调或抑制Ft-i,其中C是通道数。利用st-i来对Ft-i进行缩放,并与Ft连接,经过特征融合之后,得到融合特征Mt。
作为示例,所述特征提取模块包括5个残差块;重建模块包括10个残差块;每个残差块的通道数均为64。
作为示例,结合图1所示,所述平滑模块采用3×3×3的13个3D卷积层组成编码器和解码器结构。
运动和斑块造成了不同帧之间的信息差异,但模糊度、纹理特征等全局信息仍具有时空一致性;同时,也存在亮度等具有空间一致性的特征,这些全局信息可以辅助老电影的修复。为了充分提取并均衡这些全局信息,采用3D卷积层组成的“编码器-解码器”结构,作为平滑模块。使用3×3×3的3D卷积来进行视频全局特征提取,大大增加了网络的感受野。平滑模块对原始输入的多帧图像直接进行中低频特征提取,经过13个卷积层的累积,得到的特征有更强的表征能力。提取后的特征与关注高频特征的Mt以相加的方式进行融合。
下面介绍老电影数据模拟流程:
结合图5所示,为了训练本发明提出的端到端、强监督深度神经网络,需要准备大量成对高画质和低画质电影,但人工修复的高清电影资源比较稀缺。本发明采用一种新颖的数据模拟流程,利用电影噪声图像素材来自动化生成人工模拟的老电影数据。通过将高分辨率视频退化的方式,人工制作老电影数据集。
将退化过程中的操作分为两类:帧间一致性操作和独立操作,用来区分某操作的参数对输入的连续N帧是否一致。直观上,真实老电影中的斑块和噪声在时序上不连续,应作为帧间独立操作;而模糊、JPEG压缩等全局退化效果则具有时序一致性。原始图像首先经过一致性预处理操作,得到数据对中的真实值图像序列{y},预处理包括翻转、旋转、随机裁剪,以增加数据的广度。然后,图像依次经过独立操作和一致性操作的处理,来进行简单退化。实验中,独立操作为添加高斯噪声,一致性操作为添加高斯模糊和下采样处理。最后,经过基于素材的退化过程,得到最终的低画质图像序列{x}。对于每一帧,基于素材的退化会进行两次,即应用两张噪声素材图像,以增加退化的丰富性。经验证,采用图5流程退化的图像,不仅在视觉上接近老电影,且在风格上具有多样性。
实验验证:对于超分及其他图像复原任务,峰值信噪比(Peak Signal to NoiseRatio,PSNR)和结构相似性(Structure Similarity,SSIM)是常用的评价指标,但两者均为全参考评价指标,无法应用于真实老电影的实验结果分析;此外,它们还存在着与人的主观感受不一致的缺点。2021年,Khrulkov等人提出一种面向超分任务的无参考评价指标NeuralSBS(Neural Side-By-Side),该指标将一对图像作为输入,给出(0,1)范围内的图像质量的相对打分。若输入的两张图像相同,结果为0.5。这里采用“DeepRemaster+EDVR”的综合方法作为参考方法。而对于去斑块的效果分析,采用三种图像质量评价指标:BRISQUE(Blind/Referenceless Image Spatial Quality Evaluator)、NIQE(Natural ImageQuality Evaluator)和LPIPS(Learned Perceptual Image Patch Similarity)。BRISQUE的效用基于MSCN(Mean Subtracted Contrast Normalized)系数,该系数在自然图像和失真图像中呈现不同的分布特性,据此可以预测图像的失真类型以及其感知质量。NIQE由BRISQUE改进而来,区别在于NIQE仅提取图像中的锐利区域进行建模,且无需在人类评分的数据集上训练。LPIPS利用深度神经网络模仿人的视觉感知,将待测图像和参考图像输入同一预训练网络,并计算两者深度特征的距离,距离越小表明图像越相似。BRISQUE、NIQE均为无参考指标,衡量图像接近自然图像的程度,而LPIPS则反映人的主观感受。
因为对于老电影的超分任务,没有其他可比较的综合模型,因此将ML3Dex或DeepRemaster分别与EDVR结合,作为对比方法。采用的EDVR预训练模型残差块数量和通道数的设置与提出的CNN相同,以保证参数数量相近。
表1和表2展示了定量结果,表格中最佳分数被加粗显示。从两个表格中可以看出,本发明在除PSNR、SSIM外的其他指标均表现最佳。由此可见,尽管本发明修复后的视频并非在像素层面上最接近原始图像,但在画面清晰度、自然程度以及满足人的感知等方面具有优势。
表1人工模拟数据上的定量结果对比
注:加粗字体为每列最优值。
表2真实电影上的定量结果对比
注:加粗字体为每行最优值。其中电影片段1取自《工厂大门》,2取自《******效果》,3取自《三毛流浪记》,4取自《上甘岭》,5取自《水浇园丁》,6取自《1933年淘金女郎》,7取自《火车进站》。
图4展示了对一段人工模拟老电影修复前后的逐帧平均亮度,显然原始视频的亮度变化剧烈,存在严重的闪烁问题;采用本发明完整的网络结构进行修复后,闪烁问题得到明显改善,而移除平滑模块后,对闪烁问题的修复效果会下降。可见平滑模块在时序上也起到均衡帧间亮度信息的作用。
结合图6至图8所示,经采用本发明的不完整网络与未改动的完整网络对真实老电影的修复效果对比,可以发现,移除平滑模块的不完整网络生成的图像,如图8存在过度锐化的问题,产生了不真实的纹理,这在一定程度上证明平滑模块分支起到补充全局信息、提升图像的平滑度的作用。
为训练本发明提出的网路模型,采用的损失函数由像素损失Lpixel、感知损失(Perceptual Loss)Lperceptual及对抗损失(Adversarial Loss)Lgan三部分构成。Lpixel计算高清修复图像和图像真实值yt之间的像素级损失,本发明采用MSE损失:
表示对批量中的所有真实值样本求平均值。然而,与分辨率退化相比,老电影的其他失真问题(如斑块、闪烁等)导致的像素级损失更为显著,仅采用Lpixel容易导致超分过程的学习力度不足,网络的输出结果不够清晰,因此引入感知损失与对抗损失。感知损失的计算基于预训练的深度神经网络模型,实质为两张图像在特征空间的距离,其有助于获得更符合人类感官特征的结果。选用激活前的VGG19-54层的特征用于感知损失的计算,以避免激活后特征带来的特征过于稀疏、重建图像亮度不一致的问题。
对抗损失体现了生成对抗网络(Generative Adversarial Networks,GAN)的核心思想,用于生成器(Generator)和判别器(Discriminator)的相互监督。将提出的端到端的卷积网络作为生成器,判别器网络则选用与ESRGAN相同的VGG结构。同时,采用相对判别机制,判别器预测真实图像yt比生成图像更逼真的相对概率,这样有助于网络学习到更尖锐的边缘和更细腻的纹理。生成器的对抗损失定义为:
其中DRa表示相对判别器,由判别器D的结果组合而来:
生成器网络的完整损失可表示为:
其中,α1、α2和α3表示对应的权重。
为训练网络,按照提出的数据模拟流程准备数据集。对经过简单退化后的图像实施基于素材的退化,其具体过程如下。应用的噪声素材图像分为黑色背景素材、白色背景素材和透明素材三类。随机选取一张噪声图像S,首先对其进行随机翻转、旋转、裁剪的预处理,并统一处理为黑色背景素材,其像素值代表污损的程度,0值像素表示无污损。然后,预处理后的噪声图与随机因子w∈[-1,1]相乘,以设置素材的透明度。经过这个过程,得到图像S':
S′=wO(S),
其中O表示预处理。由于裁剪区域尺寸很小,而噪声素材图像中有很大面积的空白区域,为了保证S'中包含有效的污损信息,引入判断机制。首先,对S'进行以r为阈值的二值化处理,得到二值图像b:
b=threshhold(|S′|-μ,r),
其中μ表示|S'|的均值。b实际为待添加污损的掩码图,其全部像素值的求和结果反映了污损区域的面积,求和结果为0表示裁剪区域内不包含有效的污损信息,需重新裁剪。最终,满足条件的S'以相加的方式融合到输入帧图像中,其正值或负值表示它使输入的帧图像的对应区域更亮或更暗。
一个可供参考的参数设置如下:完整的训练过程分为两个阶段,最初,令α2=α3=0,即仅使用MSE损失来训练网络。经过约600,000次迭代后,加入感知损失和对抗损失进行微调,令α1=α2=1,α3设为0.05。继续迭代400,000次迭代以完成训练。数据批量大小为20,输入图像尺寸为32×32。生成器与判别器均使用ADAM优化器,优化器参数β1=0.9,β2=0.999。生成器网络初始学习率为1×10-5,第二阶段为1×10-6;判别器的学习率为1×10-7。
实验表明,本发明不仅在多项指标上超过现有方法,在画面清晰度、自然程度以及满足人的感知等方面也有明显优势。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其它所述实施例中。
Claims (10)
1.一种基于卷积神经网络的老电影超分辨***,其特征在于包括,
平滑模块,用于对相邻前k帧图像xt-i、当前帧图像xt和相邻后k帧图像xt+i进行特征提取,获得所有帧输入图像的中低频全局退化特征;其中k为正整数,i=1,2,3,……,k;
特征提取模块,用于对所有帧输入图像分别进行特征提取,得到每帧输入图像的提取后特征;对所有帧输入图像的提取后特征两两配对形成2k+1组图像;所述2k+1组图像包括当前帧图像xt对应的提取后特征与包括其自身在内的所有帧输入图像对应的提取后特征依次进行组合形成的图像组;
PCD模块,用于以一组图像中对应当前帧图像xt的提取后特征作为基准特征,将另一提取后特征向基准特征进行特征对齐操作;获得每一组图像的对齐后特征;
时间注意力模块,用于对所有对齐后特征进行均衡化处理,获得当前帧图像xt的融合后高频特征Mt;
重建模块,用于对中低频全局退化特征和融合后高频特征Mt相加的和进行图像超分重建,获得当前帧图像xt的重建后特征;
2.根据权利要求1所述的基于卷积神经网络的老电影超分辨***,其特征在于,
所述PCD模块获得每一组图像的对齐后特征的过程包括:
对基准特征和另一提取后特征分别进行一级下采样获得一级基准特征和一级提取后特征,再对一级基准特征和一级提取后特征分别进行二级下采样获得二级基准特征和二级提取后特征;
将二级基准特征和二级提取后特征连接后获得二级偏移量;
对二级偏移量和二级提取后特征经可变形卷积处理后,获得一次对齐后特征;
由一级基准特征和一级提取后特征连接后的结果结合二级偏移量获得一级偏移量;
对一级偏移量和一级提取后特征经可变形卷积处理后,结合一次对齐后特征获得二次对齐后特征;
由基准特征和另一提取后特征连接后的结果结合一级偏移量获得初级偏移量;
对初级偏移量和另一提取后特征经可变形卷积处理后,结合二次对齐后特征获得三次对齐后特征;
将基准特征和三次对齐后特征连接获得最终偏移量;
将最终偏移量和三次对齐后特征经可变形卷积处理后,获得另一提取后特征对应帧输入图像的对齐后特征。
3.根据权利要求2所述的基于卷积神经网络的老电影超分辨***,其特征在于,
时间注意力模块获得融合后高频特征Mt的过程包括:
对当前帧图像xt的对齐后特征与其它帧图像的对齐后特征分别进行初级均衡化处理,获得其它帧图像的初级融合后高频特征;
将所有初级融合后高频特征与当前帧图像xt的对齐后特征进行连接,获得连接后高频特征,再对连接后高频特征进行卷积与激活操作后,获得融合后高频特征Mt。
4.根据权利要求3所述的基于卷积神经网络的老电影超分辨***,其特征在于,
初级均衡化处理包括:
将当前帧图像xt的对齐后特征与任一其它帧图像的对齐后特征进行连接操作获得连接后特征,所述连接后特征经卷积操作和ReLU函数激活后,获得一级混合特征;将一级混合特征再进行卷积操作和sigmoid函数激活后,获得二级混合特征;二级混合特征经全局平均池化操作和sigmoid函数激活后,获得时间注意力,所述时间注意力与所述任一其它帧图像的对齐后特征点乘后获得初级融合后高频特征。
5.根据权利要求4所述的基于卷积神经网络的老电影超分辨***,其特征在于,
所述二级混合特征的计算方法为:
zt-i=σ(W2δ(W1[Ft,Ft-i])):
式中zt-i为对应任一其它帧图像的二级混合特征,σ(·)表示sigmoid函数,δ(·)表示ReLU函数,W1为对连接后特征进行操作的卷积层的权重,W2为对一级混合特征进行操作的卷积层的权重,Ft为当前帧图像xt的对齐后特征,Ft-i为相邻前k帧图像中的任一帧图像的对齐后特征。
6.根据权利要求5所述的基于卷积神经网络的老电影超分辨***,其特征在于,
所述时间注意力的计算方法为:
st-i=σ(AvgPooling(zt-i)),
式中st-i为对应于所述任一其它帧图像的时间注意力,AvgPooling表示全局平均池化。
7.根据权利要求6所述的基于卷积神经网络的老电影超分辨***,其特征在于,
初级融合后高频特征表示为Mt-i:
Mt-i=st-iFt-i。
8.根据权利要求7所述的基于卷积神经网络的老电影超分辨***,其特征在于,
融合后高频特征Mt为:
Mt=φ(W3[{Mt-i},Ft]),
式中φ(·)表示leaky ReLU函数,W3是对连接后高频特征进行操作的1×1卷积层的权重,{Mt-i}表示所有初级融合后高频特征的集合。
9.根据权利要求1至8中任一项所述的基于卷积神经网络的老电影超分辨***,其特征在于,
所述特征提取模块包括5个残差块;重建模块包括10个残差块;每个残差块的通道数均为64。
10.根据权利要求1至8中任一项所述的基于卷积神经网络的老电影超分辨***,其特征在于,
所述平滑模块采用3×3×3的13个3D卷积层组成编码器和解码器结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210339390.XA CN114663285B (zh) | 2022-04-01 | 2022-04-01 | 基于卷积神经网络的老电影超分辨*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210339390.XA CN114663285B (zh) | 2022-04-01 | 2022-04-01 | 基于卷积神经网络的老电影超分辨*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114663285A CN114663285A (zh) | 2022-06-24 |
CN114663285B true CN114663285B (zh) | 2023-06-09 |
Family
ID=82034088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210339390.XA Active CN114663285B (zh) | 2022-04-01 | 2022-04-01 | 基于卷积神经网络的老电影超分辨*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114663285B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110120011A (zh) * | 2019-05-07 | 2019-08-13 | 电子科技大学 | 一种基于卷积神经网络和混合分辨率的视频超分辨方法 |
CN111833261A (zh) * | 2020-06-03 | 2020-10-27 | 北京工业大学 | 一种基于注意力的生成对抗网络的图像超分辨率复原方法 |
CN112991183A (zh) * | 2021-04-09 | 2021-06-18 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
CN114202463A (zh) * | 2021-12-15 | 2022-03-18 | 陕西师范大学 | 面向云端融合的视频超分辨率方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345449B (zh) * | 2018-07-17 | 2020-11-10 | 西安交通大学 | 一种基于融合网络的图像超分辨率及去非均匀模糊方法 |
-
2022
- 2022-04-01 CN CN202210339390.XA patent/CN114663285B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110120011A (zh) * | 2019-05-07 | 2019-08-13 | 电子科技大学 | 一种基于卷积神经网络和混合分辨率的视频超分辨方法 |
CN111833261A (zh) * | 2020-06-03 | 2020-10-27 | 北京工业大学 | 一种基于注意力的生成对抗网络的图像超分辨率复原方法 |
CN112991183A (zh) * | 2021-04-09 | 2021-06-18 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
CN114202463A (zh) * | 2021-12-15 | 2022-03-18 | 陕西师范大学 | 面向云端融合的视频超分辨率方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN114663285A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109360155B (zh) | 基于多尺度特征融合的单帧图像去雨方法 | |
CN113808032B (zh) | 多阶段渐进式的图像去噪算法 | |
Shen et al. | Convolutional neural pyramid for image processing | |
CN116797488A (zh) | 一种基于特征融合与注意力嵌入的低照度图像增强方法 | |
Chen et al. | Image denoising via deep network based on edge enhancement | |
CN113392711A (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及*** | |
CN115063318A (zh) | 自适应频率分解的低光照图像增强方法与相关设备 | |
CN114627002A (zh) | 一种基于自适应特征融合的图像去雾方法 | |
CN114897742A (zh) | 一种纹理和结构特征两次融合的图像修复方法 | |
CN113160286A (zh) | 一种基于卷积神经网络的近红外和可见光图像融合方法 | |
CN115953321A (zh) | 一种基于零次学习的低照度图像增强方法 | |
CN116228550A (zh) | 一种基于生成对抗网络的图像自增强去雾算法 | |
CN117151990A (zh) | 一种基于自注意力编码解码的图像去雾方法 | |
CN111553856A (zh) | 基于深度估计辅助的图像去雾方法 | |
Lu et al. | Underwater image enhancement method based on denoising diffusion probabilistic model | |
Liu et al. | Facial image inpainting using multi-level generative network | |
CN113962878A (zh) | 一种低能见度图像去雾模型方法 | |
CN116128768B (zh) | 一种带有去噪模块的无监督图像低照度增强方法 | |
Yahia et al. | Frame interpolation using convolutional neural networks on 2d animation | |
CN114663285B (zh) | 基于卷积神经网络的老电影超分辨*** | |
CN117333359A (zh) | 基于可分离卷积网络的山水画图像超分辨率重建方法 | |
CN116563133A (zh) | 基于模拟曝光和多尺度融合的低照度彩色图像增强方法 | |
CN112200751B (zh) | 一种图像增强方法 | |
CN114418872A (zh) | 一种基于mGANprior的真实图像美感增强方法 | |
König et al. | Enhancing traffic scene predictions with generative adversarial networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |