CN108961186B

CN108961186B - 一种基于深度学习的老旧影片修复重制方法

Info

Publication number: CN108961186B
Application number: CN201810699895.0A
Authority: CN
Inventors: 赵岩; 聂可卉
Original assignee: Fujian Imperial Vision Information Technology Co ltd
Current assignee: Fujian Timor view Mdt InfoTech Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2022-02-15
Anticipated expiration: 2038-06-29
Also published as: CN108961186A

Abstract

本发明公开一种基于深度学习的老旧影片修复重制方法，其包括以下步骤：步骤1：将视频通过ffmpeg抽帧，并分别形成去隔行扫描模型、视频插帧模型、去模糊网络和超分辨率模型的训练数据集；步骤2：训练去隔行扫描网络模型；步骤3：训练视频插帧网络模型；步骤4：训练去模糊网络；步骤5：训练超分辨率网络；步骤6：训练去噪网络。本发明基于深度学习对老旧影片分别应用去隔行扫描，视频去噪，视频去模糊，视频插帧和超分辨率技术对其进行修复，与人工手动相比，稳定性更高，提高了运算速度，提高了图像复原的精确度。本发明处理后的图像复原效果好、复原后图像清晰度高、使用方便、成本低等优点。

Description

一种基于深度学习的老旧影片修复重制方法

技术领域

本发明涉及深度学习和计算机视觉，尤其涉及一种基于深度学习的老旧影片修复重制方法。

背景技术

影片文化遗产是一个国家和民族的珍贵记忆，是未来非物质文化遗产的重要组成部分，是近现代中华民族文化走出去的优良载体。对传统的红***、反映中国近现代拼搏奋斗的正能量精神的电影来说，能够利用现代技术加以复原并呈现的更加丰满。但由于过去拍摄技术限制，大量老旧影片已无法满足人们对高清视觉的观看需求。

我国需要修复的电影胶片数量庞大，现存的胶片电影光故事片就有二三万部，而如今每年仅可修复约60部老电影胶片。按照目前全国的修复速度，将会有不少拷贝在修复之前“死去”，目前国家已重视到情况的严重性，正大力支持和提倡老电影修复产业，但是有能力进行精致修复的经典影片仅有200部。为了对年代久远、损伤严重的影片进行较好的修复，需要通过图像重构技术等，“制造”出画面上已经消失的细节信息以及对影像去模糊超分辨率等处理翻新。人工精修，基本上一个工作人员一天只能完成100到200帧的画面修复，一部90分钟的电影，大约有12万9600帧画面。如果要一帧一帧地精细修复，一部电影起码要用几个月的时间，成本也在百万级。

发明内容

本发明的目的在于提供一种基于深度学习的老旧影片修复重制方法。

本发明采用的技术方案是：

一种基于深度学习的老旧影片修复重制方法，其包括以下步骤：

步骤1：将视频通过ffmpeg抽帧，并分别形成去隔行扫描模型的训练数据集、视频插帧模型的训练数据集、去模糊网络的训练数据集和超分辨率模型的训练数据集；

步骤2：训练去隔行扫描网络模型，输入隔行扫描的奇数场和偶数场图像块

得到去隔行扫描的预测结果

步骤2.1：去隔行扫描网络包括特征提取模块、非线性映射模块和重建模块；去隔行扫描的特征提取模块和非线性映射模块由简单的串联卷积层堆叠而成，并且每个卷积层后都有ReLU作为激活函数，ReLU函数公式如下所示：

f(x)＝max(0，x)；

步骤2.2：使用MSE-1函数作为训练去隔行扫描网络模型的损失函数，MSE-1函数如下所示：

其中，MSE-1表示损失函数，

为训练的输入目标图像块，

为训练的网络输出的预测图像块；

步骤3：训练视频插帧网络模型，输入连续三张视频帧I^t-1、I^t、I^t+1，分别表示前一帧、当前帧和后一帧，得到当前帧I^t的预测结果I^t′，即为插帧网络的输出；

步骤3.1：视频插帧网络模型的非线性映射模块采取U-Net的网络结构，U-Net的网络结构包括编码模块和解码模块；编码模块包括串联卷积层和一个平均池化层；平均池化层的作用是对输出的特征图进行下采样，通过除去特征图中不重要的样本进一步减少参数量；解码模块依次包含串联卷积层和上采样层；

步骤3.2：使用MSE-2函数作为视频插帧网络中训练的损失函数，MSE-2函数如下所示：

其中，MSE-2表示损失函数，I^t为训练的输入目标图像块，I^t′为训练的网络输出的预测图像块；

步骤4：训练去模糊网络；

步骤4.1：对训练数据集中的子图像块

进行归一化处理和提取Y通道数据，

步骤4.2：将处理过后的模糊的子图像块

利用残差网络模型分别经过特征提取、残差卷积和重建后获得去模糊的子图像块；

步骤4.3：使用MSE-3函数作为去模糊网络的损失函数，MSE-3函数如下所示：

其中，MSE-3表示损失函数，

为训练的输入目标图像块，

为训练的网络输出的预测图像块；

步骤5：训练超分辨率网络

步骤5.1：对训练数据集中的子图像块

进行归一化处理和提取Y通道数据，

步骤5.2：输入处理过后的下采样子图像块

利用超分辨率网络模型分别经过特征提取、非线性映射和重建得到网络输出

步骤5.3：使用Charbonnier函数作为超分辨率网络的损失函数；

步骤6：训练去噪网络，选用NTIRE2018所提供的数据集来进行训练；

步骤6.1：对输入噪声图像利用去噪网络模型分别经过特征提取和非线性映射得到去噪网络输出，

步骤6.2：使用Charbonnier函数作为去噪网络的损失函数。

进一步地，步骤1具体包括以下步骤：

步骤1.1：形成去隔行扫描模型的训练数据集：

步骤1.1.1：将视频通过ffmpeg抽帧得到每一帧图像，将得到的视频帧分别进行偶数场扫描和奇数场扫描得到隔行扫描的训练数据集，原始图像作为训练目标；

步骤1.1.2：每次取隔行扫描数据集中的子视频帧和对应的训练目标，按d×d大小截取子图像块

和

形成若干个图像块的配对集

步骤1.1.3：随机打乱配对集中的子图像块的顺序，得到去隔行扫描模型的训练数据集；

步骤1.2：形成视频插帧模型的训练数据集：

步骤1.2.1：将视频通过ffmpeg抽帧得到每一帧图像作为训练数据，每次取连续的三帧图像为一组训练视频帧对，其中每组的第二帧作为训练网络的目标，

步骤1.2.2：对每组图像按d×d大小截取子图像块I^t-1，I^t，I^t+1形成若干个子图像块的配对集{I^t-1，I^t，I^t+1}；

步骤1.2.3：随机打乱配对集中的子图像块的顺序，得到视频插帧模型的训练数据集；

步骤1.3：形成去模糊网络的训练数据集：

步骤1.3.1：根据图像模糊公式：

b(x，y)＝(k×I)×(x，y)+G(x，y)

其中b、I、k分别表示为模糊图片、原图、模糊核，G代表噪声；模糊核k大小的宽和高分别从(0，5)中随机取值，高斯白噪声方差G，从(0，100)内随机取值，使得每一个高清视频都有对应的不同程度模糊的视频；

步骤1.3.2：分别对高清视频和模糊视频进行抽帧，得到高清数据集和对应的模糊数据集；

步骤1.3.3：每次取模糊数据集中的视频帧按d×d大小截取子图像块

同时在高清数据集中取对应的视频帧执行相同操作，得到子图像块

形成若干个子图像块的配对集

步骤1.3.4：随机打乱配对集中的子图像块的顺序，得到模糊网络的训练数据集；

步骤1.4：形成超分辨率模型的训练数据集：

步骤1.4.1：将视频通过ffmpeg抽帧得到每一帧图像，将得到的视频帧进行下采样形成低分辨率视频帧，原始高分辨率视频帧作为训练目标；

步骤1.4.2：每次取低分辨率视频数据集中的低分辨率视频帧和对应训练目标的视频帧，按d×d大小截取子图像块

和

形成若干个子图像块的配对集

步骤1.4.3：随机打乱配对集中的子图像块的顺序，得到超分辨率模型的训练数据集；

3.根据权利要求1所述的一种基于深度学习的老旧影片修复重制方法，其特征在于：步骤4.1提取Y通道数据的具体步骤为：

步骤4.1.1：图像块的像素值是在[0，255]范围内，将图像块中的每个像素值除以255，使得每个像素值介于[0，1]之间，得到归一化后的图像；

步骤4.1.2：取归一化后的RGB图像块，将其转换为YCbcCr格式，根据公式

Y＝(0.256789×R+0.504129×G+0.097906×B)+16.0

Cb＝(-0.148223×R-0.290992×G+0.439215×B)+128.0

Cr＝(0.439215×R-0.367789×G-0.071426×B)+128.0

将得到的YCbCr的图像块进行通道分离，得到Y通道数据。

进一步地，步骤4.2、步骤5.2和步骤6.1中的特征提取阶段包含一个卷积层和非线性激活层，通过学习得到底层特征F₁；

其中W₁和B₁为初始卷积层的权重和偏置参数，*代表卷积操作；

进一步地，步骤4.2中的残差卷积阶段的每个残差卷积模块包括依次设置的一个卷积层、一个非线性激活层、一个卷积层和一个跳跃连接操作；跳跃连接操作将该残差卷积块的输入特征F_2k-1与该残差卷积块中第二个卷积层的输出特征相加，即：

F_2k+1＝(W_2k+1*F_k+b_2k+1)+F_2k-1

式中，k代表残差块序号，F_k代表残差块中第一个卷积层和非线性激活层的输出，W_2k+1和b_2k+1分别代表残差块中第二个卷积层的权重和偏置，F_2k-1代表残差块的输入。

进一步地，步骤5.2和步骤6.1中非线性映射阶段的每一放大级别设置5个深度记忆模块，且所有卷积层后都是激活函数为带泄露线性整流函数的非线性激活层；深度记忆模块包括模块由残差模块和密集模块单元堆叠而成的深度记忆；

每个深度记忆模块的具体操作为：

步骤S1：每个深度记忆模块先提取特征，该特征记为f₁，并通过三层卷积操作，并与特征f₁相加，该操作的输出记为r₁，

步骤S2：提特征f₁经过四层卷积的密集连接，该操作的输出记为d₁，

然后将r₁，d₁与特征f₁进行连接操作，此时的输出特征记为f₂；

步骤S3：特征f₂通过两层卷积操作，并与特征f₂相加，该操作的输出记为r₂；同时，特征f₂经过四层卷积的密集连接，该操作的输出记为b₂；

步骤S4：将r₂，b₂和特征f₂进行连接操作。

进一步地，步骤5.2中重建阶段的重建层是反卷积层，反卷积层将前一层网络的输出进行上采样，使输出的超分辨率图像与训练目标大小相等。

进一步地，步骤5.3和步骤6.2中的Charbonnier函数如下所示：

其中，

为训练的输入目标图像块，

为网络输出的预测图像块，且ε设置为0.001，使用Adam优化方法使Charbonnier损失函数最小化。

本发明采用以上技术方案，基于深度学习对老旧影片分别应用去隔行扫描，视频去噪，视频去模糊，视频插帧和超分辨率技术对其进行修复，与人工手动相比，稳定性更高，提高了运算速度，同时减少了计算机内存的消耗。本发明有效的解决了现有复原算法的噪声问题，提高了图像复原的精确度，增加了复原图像的清晰度从而提高了图像修复的效果。本发明处理后的图像复原效果好、复原后图像清晰度高、使用方便、成本低等优点。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明一种基于深度学习的老旧影片修复重制方法的流程示意图；

图2为本发明一种基于深度学习的老旧影片修复重制方法的超分辨率的网络结构图；

图3为本发明一种基于深度学习的老旧影片修复重制方法的深度记忆模块结构图。

具体实施方式

如图1-3之一所示，本发明提出了一种基于深度学习的老旧影片修复重制方法，该修复过程主要包括去隔行扫描，视频去噪，视频去模糊，视频插帧和超分辨率技术，其具体流程如图1所示。本发明中所有卷积层均使用大小为3×3的卷积核，其具体步骤如下：

步骤1.1：形成去隔行扫描模型(model1)的训练数据集：

和

形成若干个图像块的配对集

步骤1.1.3：随机打乱配对集中的子图像块的顺序，得到去隔行扫描模型(model1)的训练数据集；

步骤1.2：形成视频插帧模型(model2)的训练数据集：

步骤1.2.3：随机打乱配对集中的子图像块的顺序，得到视频插帧模型(model2)的训练数据集；

步骤1.3：形成去模糊网络(model3)的训练数据集：

步骤1.3.1：根据图像模糊公式：

b(x，y)＝(k×I)×(x，y)+G(x，y)

形成若干个子图像块的配对集

步骤1.3.4：随机打乱配对集中的子图像块的顺序，得到模糊网络(model3)的训练数据集；

步骤1.4：形成超分辨率模型(model4)的训练数据集：

和

形成若干个子图像块的配对集

步骤1.4.3：随机打乱配对集中的子图像块的顺序，得到超分辨率模型(model4)的训练数据集；

步骤2：训练去隔行扫描网络模型(model1)

步骤2.1：输入隔行扫描的奇数场和偶数场图像块

得到去隔行扫描的预测结果

即为去隔行扫描网络的输出。其中，去隔行扫描网络主要包括特征提取模块，非线性映射模块和重建模块组成。去隔行扫描的特征提取模块和非线性映射模块都是由简单的串联卷积层堆叠而成，并且每个卷积层后都有非线性整流函数(ReLU)作为激活函数，ReLU函数公式如下所示：

f(x)＝max(0，x)

步骤2.2：使用MSE函数作为视频插帧网络中训练目标图像块I^t和网络输出的预测图像块I^t′的损失函数，MSE函数如下所示：

步骤3：训练视频插帧网络模型(model2)。

步骤3.1：输入连续三张视频帧I^t-1，I^t，I^t+1(分别表示前一帧，当前帧和后一帧)，得到当前帧I^t的预测结果I^t′，即为插帧网络的输出。其中，视频插帧网络模型的非线性映射模块采取与U-Net^[1]的网络结构，其编码模块包括串联卷积层和一个平均池化层。平均池化层的作用是对输出的特征图进行下采样，通过除去特征图中不重要的样本进一步减少参数量。其解码模块依次包含串联卷积层和上采样层。

步骤3.2：使用MSE函数作为视频插帧网络中训练目标图像块I^t和网络输出的预测图像块I^t′的损失函数，MSE函数如下所示：

步骤4：训练去模糊网络(model3)

步骤4.1：对训练数据集中的子图像块

进行归一化处理和提取Y通道数据，

步骤4.2：将处理过后的模糊的子图像块

进一步地，步骤4.2中的特征提取阶段包含一个卷积层和非线性激活层，通过学习得到底层特征F₁；

F_2k+1＝(W_2k+1*F_k+b_2k+1)+F_2k-1

进一步地，步骤4.2中的重建阶段的重建层为卷积层，重建得到去模糊后的图像块。

其中，MSE-3表示损失函数，

为训练的输入目标图像块，

为训练的网络输出的预测图像块；

步骤5：训练超分辨率网络(model4)；其中，超分辨率网络分别包括特征提取模块、非线性映射模块和重建模块，其网络结构图如图2所示。

步骤5.1：对训练数据集中的子图像块

进行归一化处理和提取Y通道数据，

步骤5.2：输入处理过后的下采样子图像块

进一步地，步骤5.2中的特征提取阶段包含一个卷积层和非线性激活层，通过学习得到底层特征F₁；

每个深度记忆模块的具体操作为：

步骤S2：提特征f₁经过四层卷积的密集连接(concat)，该操作的输出记为d₁，

步骤S4：将r₂，b₂和特征f₂进行连接操作。

进一步地，步骤5.2中重建阶段的重建层是反卷积层(deconvolution)，反卷积层将前一层网络的输出进行上采样，使输出的超分辨率图像与训练目标大小相等。

步骤5.3：使用Charbonnier函数作为超分辨率网络的损失函数；Charbonnier函数如下所示：

通常情况下，ε设置为0.001，使用Adam优化方法使损失函数最小化。

步骤6：训练去噪网络(model5)：

选用NTIRE2018所提供的数据集来进行训练；

进一步地，步骤6.1中的特征提取阶段包含一个卷积层和非线性激活层，通过学习得到底层特征F₁；

进一步地，步骤6.1中非线性映射阶段的每一放大级别设置5个深度记忆模块，且所有卷积层后都是激活函数为带泄露线性整流函数的非线性激活层；深度记忆模块包括模块由残差模块和密集模块单元堆叠而成的深度记忆；

每个深度记忆模块的具体操作为：

步骤S4：将r₂，b₂和特征f₂进行连接操作。

步骤6.2：使用Charbonnier函数作为去噪网络的损失函数。Charbonnier函数如下所示：

参考文献

[1]Olaf Ronneberger，Philipp Fisher，and Thomas Brox.U-Net：Convolutional Networks for Biomedicla Image Segmentation[C]//InternationalConference on Medical Image computing and computer-assistedintervention.Springer，Cham，2015：234-241.

[2]KaiMing He，XiangYu Zhang，ShaoQing Ren，et al.Deep Residual Learningfor Image Recognition[C]//Procedings of the IEEE conference on computervision and pattern recognition.2015：770-778.

[3]Gao Huang，Zhuang Liu，Laurens van der Maaten，et al.DenselyConnected Convolutional Networks[C].Procedings of the IEEE conference oncomputer vision and pattern recognition.2017：4700-4708.

[4]WeiSheng Lai，JiaBin Huang，Narendra Ahuja，et al.Deep LaplacianPyramid Networks for Fast and Accurate Super-Resolution[C].Procedings of theIEEE conference on computer vision and pattern recognition.2017：624-632.