CN110189278A

CN110189278A - 一种基于生成对抗网络的双目场景图像修复方法

Info

Publication number: CN110189278A
Application number: CN201910489503.2A
Authority: CN
Inventors: 李恒宇; 何金洋; 袁泽峰; 罗均; 谢少荣
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-08-30
Anticipated expiration: 2039-06-06
Also published as: CN110189278B

Abstract

本发明属于图像修复技术领域，具体涉及一种基于生成对抗网络的双目场景图像修复方法。该方法包括以下步骤：（1）采集场景的双目视觉图像，制作训练样本集和测试样本集；（2）构建生成对抗网络模型；（3）采用训练样本集训练生成对抗网络模型进，优化生成对抗网络参数，得到训练后生成对抗网络；（4）采用测试样本集测试所有训练后的生成网络，选择最优生成网络模型；（5）使用最优生成网络模型对受损图像进行实时修复。本发明的图像修复方法以同帧不同视角的相机图像作为先验信息来辅助受损图像修复，引入额外的有效约束，与现有方法的修复效果对比，本方法得到的修复图像更加真实、自然。

Description

一种基于生成对抗网络的双目场景图像修复方法

技术领域

本发明属于图像修复技术领域，具体涉及一种基于生成对抗网络的双目场景图像修复方法。

背景技术

随着机器人***、自动驾驶的火热发展，双目***的应用日益广泛，车载的双目相机***能够更好的获取有效数据图像信息，用于感知车辆各个方向的环境及异常变化，对车辆的控制决策起着至关重要的作用，是自动驾驶能够顺利落地的重要保障。而视觉信息在采集、编码、压缩、传输、解压和解码过程中，信息丢失或信息受到噪声干扰容易造成图像异常。图像修复技术可以利用图像中受损区域周围的结构、纹理等先验信息来复原损坏区域，减少信息的丢失，为机器的感知和决策提供尽可能丰富的信息。

现有的单视角传统图像修复方法，其基于受损其余的纹理结构或基于图像像素的空间分布来修复受损图像，修复结果具有混乱的人工修饰痕迹，即使修复结果使人眼看不出图像受损，其修复的内容跟目标修复图像相比也有较大差异。

发明内容

针对现有技术存在的问题和不足，本发明的目的是提供一种基于生成对抗网络的双目场景图像修复方法。

为实现发明目的，本发明采用的技术方案如下：

一种基于生成对抗网络的双目场景图像修复方法，包括以下步骤：

(1)采集场景的双目视觉图像，根据采集的双目视觉图像制作训练样本集和测试样本集；

采集场景的左视角图像和右视角图像，根据采集的图像制作训练样本集和测试样本集；

(2)构建生成对抗网络模型；

(3)采用训练样本集对步骤(2)构建的生成对抗网络模型进行训练，优化生成对抗网络的参数，得到训练后生成对抗网络；

(4)采用测试样本集对所有训练后生成对抗网络中的生成网络进行测试，评价生成网络的图像修复性能，选择最优生成网络模型；

(5)使用步骤(4)得到的最优生成网络模型对受损图像进行实时修复。

根据上述的方法，优选地，步骤(1)的具体操作为：

(1a)采集原始图像：使用双目相机采集n个场景的双目视觉图像，得到了 n对双目视觉图像，将n对双目视觉图像调整至相同大小，然后按照视角不同进行划分，其中，一对双目视觉图像中的左视角图像放入左视角文件夹，右视角图像放入右视角文件夹，并将左视角文件夹和右视角文件夹中的图像按照采集时间先后顺序依次从1到n进行编号；

(1b)制作损坏图像：从编号1至编号n，每次以50％的概率从左视角文件夹或右视角文件夹中选择对应编号的图像，然后在选中的图像上增加占该图像面积30％及以上的随机纯色图像块，得到损坏图像；每张损坏图像都保留其原始图像作为该损坏图像的标签图像；

(1c)划分训练样本集和测试样本集：将每张损坏图像和与损坏图像编号相同的另一视角图像组成1对样本，共有n对样本，将n对样本按照4:1的比例随机划分为训练样本集和测试样本集。

根据上述的方法，优选地，所述生成对抗网络由生成网络和判别网络构成；生成网络的输入是一对双目视觉图像，一对双目视觉图像中的任意一个视角图像为损坏图像，生成网络的输出是损坏图像的修复图像；所述判别网络的输入是生成网络输出的修复图像或与修复图像对应的损坏图像的标签图像，判别网络的输出是输入的图像为标签图像的概率值p。

根据上述的方法，优选地，所述生成网络包括编码器和解码器；编码器是将输入图像编码为高维抽象特征图，编码器含有七个卷积层，解码器是将经过编码的高维抽象特征图进行解码，解码器含有四个反卷积层；编码过程中，一对双目视觉图像输入生成网络后，左视角图像依次经过三个卷积层进行特征提取，得到左视角图像的特征图，右视角图像依次经过三个卷积层进行特征提取，得到右视角图像的特征图，将左视角图像的特征图和右视角图像的特征图进行拼接，得到左视角图像和右视角图像的融合特征图，融合特征图经一个卷积层进行下采样，得到融合特征图的高维抽象特征图，此时，编码操作结束；解码过程中，经编码器编码的高维抽象特征图依次经过四个反卷积层进行上采样、解码，得到修复图像。

根据上述的方法，优选地，所述判别网络包含五个卷积层(conv层)和一个sigmoid层；修复图像或标签图像输入判别网络后依次经过五个卷积层和一个 sigmoid层后输出概率值p(p大于0.5，表示输入图像是标签图像的可能性比较大，p小于0.5则表示输入图像是生成的修复图像的可能性比较大)。

根据上述的方法，优选地，生成网络和判别网络中图像经过每一个卷积层进行特征提取时，按式(I)输出卷积后的特征图；

其中，w是权重参数值，x指上一层特征图的值，是输出图像上某通道某一点的值，c代表通道索引0～2共3个值，i代表行索引0～255共256个值，j代表列索引0～255共256个值，D代表特征图深度，d为特征图深度索引，F代表卷积核大小，m和n均为F的索引，w_b代表偏置参数，最终整合的值得到修复图像。

根据上述的方法，优选地，步骤(3)中，采用训练样本集训练生成对抗网络的具体过程为：

(3a)首先固定生成网络，将训练样本集中的样本图像输入生成网络，得到输入样本图像中损坏图像的修复图像；将修复图像和与修复图像对应的损坏图像的标签图像分别输入判别网络，以交叉熵H(p)作为判别网络损失函数，利用反向传播算法调节判别网络的网络参数θD，使生成对抗网络目标函数V(G,D)最大化，得到优化后判别网络的网络参数θD，进而得到优化后的判别网络D^*；

H(P)＝-y ln p+(y-1)ln(1-P) (II)

其中，p为判别网络输出的概率值；y表示标签值，其取值为0或1(修复图像的标签值为0，标签图像的标签值为1)；x表示判别网络输入，G表示生成网络，D表示判别网络，x～Pdata表示x服从数据集分布Pdata，x～P_G表示x 服从生成图像数据分布P_G，E[·]表示数学期望；

(3b)将步骤(3a)中得到的优化后判别网络D^*的网络参数θD代入生成对抗网络目标函数V(G,D)，利用反向传播算法调节生成网络的网络参数θG，使生成对抗网络目标函数V(G,D)最小化，得到优化后判别网络的网络参数θG，进而得到优化后的生成网络G^*；其中，

(3c)重复上述步骤(3a)和步骤(3b)，反复交替训练判别网络和生成网络，优化判别网络的网络参数θD和生成网络的网络参数θG，直至判别网络无法判别输入的图像为标签图像或修复图像，则训练停止，得到训练后的生成对抗网络。

根据上述的方法，优选地，所述步骤(4)的具体操作为：

(4a)将测试本集中的样本图像依次输入一个训练后生成对抗网络的生成网络中，得到所有样本图像中损坏图像的修复图像，按照式(VI)计算修复图像和与修复图像对应的标签图像的峰值信噪比PSNR(峰值信噪比PSNR是原图像与被处理图像之间的均方误差相对于信号最大值平方的对数值，其单位为dB；修复图像与真实标签图像的PSNR值越大，则说明修复图像与标签图像越相似)，然后求取测试样本集中所有样本图像的峰值信噪比PSNR平均值，得到该生成网络的峰值信噪比PSNR；

其中，n为每个采样值的比特数，(2ⁿ-1)²表示图像颜色的最大数值，MSE 是原图像与修复图像之间均方误差；

(4b)(4b)按照步骤(1)所述的操作求取所有训练后生成对抗网络中生成网络的峰值信噪比PSNR，选取峰值信噪比PSNR最大的生成网络作为最优生成网络模型。

根据上述的方法，优选地，所述步骤(5)的具体操作为：将受损图像和与受损图像相对应的另一视角图像输入到步骤(4)得到的最优生成网络模型中，经最优生成网络模型处理，输出修复完成的图像，即受损图像的修复图像。

与现有技术相比，本发明取得的有益效果为：

(1)本发明的图像修复方法结合双目视觉***的特点，将同帧不同视角的左视角图像和右视角图像同时输入生成对抗网络，生成网络的编码器能够充分利用双目相机的不同视角信息，将左视角图像与右视角图像进行特征编码融合，生成更加利于修复的高维抽象特征(即2×2×512维特征向量)；高维抽象特征经解码器的上采样解码处理，可直接输出与输入尺寸一致的修复图像；因此，本发明的图像修复方法以同帧不同视角的相机图像作为先验信息来辅助受损图像修复，引入额外的有效约束，与现有方法的修复效果对比，本方法得到的修复图像更加真实、自然。

(2)本发明的图像修复方法实现了端到端的部署，具有高效、实时、清晰、精度高等优点，而且修复成本低，无需额外硬件。

附图说明

图1为本发明基于生成对抗网络的双目场景图像修复方法的流程图。

图2为本发明中生成对抗网络的功能示意图。

图3为本发明生成对抗网络中生成网络的结构示意图。

图4为本发明生成对抗网络中判别网络的结构示意图。

图5为本发明图像修复方法的修复结果。

具体实施方式

以下通过具体的实施例对本发明作进一步详细说明，但并不限制本发明的范围。

实施例1：

一种基于生成对抗网络的双目场景图像修复方法，如图1所示，包括以下步骤：

(1)采集场景的双目视觉图像，根据采集的双目视觉图像制作训练样本集和测试样本集。其具体操作过程如下：

(1a)采集原始图像：使用双目相机采集n个场景(n个场景均不相同，n 为正整数)的双目视觉图像，得到了n对双目视觉图像(一对双目视觉图像包括左视角图像和右视角图像)，将n对双目视觉图像调整至256×256×3大小(即256 个像素宽，256个像素高，每张彩色图3个通道)，然后按照视角不同进行划分，其中，一对双目视觉图像中的左视角图像放入左视角文件夹，右视角图像放入右视角文件夹，并将左视角文件夹和右视角文件夹中的图像按照采集时间先后顺序依次从1到n进行编号。

(1b)制作损坏图像：从编号1至编号n，每次以50％的概率从左视角文件夹或右视角文件夹中选择对应编号的图像，然后在选中的图像上增加占该图像面积30％及以上的随机纯色图像块，得到损坏图像；每张损坏图像都保留其原始图像作为该损坏图像的标签图像，标签图像的数量为n。

(2)构建生成对抗网络模型。生成对抗网络由生成网络和判别网络构成(参见图2)；生成网络的输入是一对双目视觉图像，一对双目视觉图像中的任意一个视角图像为损坏图像，生成网络的输出是损坏图像的修复图像；所述判别网络的输入是生成网络输出的修复图像或与修复图像对应的损坏图像的标签图像，判别网络的输出是输入的图像为标签图像的概率值p。

生成网络的网络结构如图3所示，包括编码器和解码器；编码器是将输入图像编码为高维抽象特征图，含有七个卷积层(编码器采用Image-to-Image中的卷积层)，解码器是将经过编码的高维抽象特征图进行解码，解码器含有四个反卷积层；编码过程中，一对双目视觉图像输入生成网络后，左视角图像依次经过编码器中的三个卷积层(conv层)进行特征提取，得到左视角图像的特征图，右视角图像依次经过编码器中另外三个卷积层进行特征提取，得到右视角图像的特征图，将左视角图像的特征图和右视角图像的特征图进行拼接，得到左视角图像和右视角图像的融合特征图，融合特征图经一个卷积层进行下采样，得到融合特征图的高维抽象特征图，此时，编码操作结束；经编码器编码的高维抽象特征图依次经过解码器的四个反卷积层(deconv层)进行上采样、解码，得到修复图像。

判别网络的网络结构如图4所示，包含五个卷积层(conv层)和一个sigmoid 层；修复图像或标签图像输入判别网络后依次经过五个卷积层和一个sigmoid层后输出概率值p(p大于0.5，表示输入图像是标签图像的可能性比较大，p小于0.5则表示输入图像是生成的修复图像的可能性比较大)。

生成网络和判别网络中图像经过每一个卷积层进行特征提取时，按式(I) 输出卷积后的特征图；

(3)采用训练样本集对步骤(2)构建的生成对抗网络模型进行训练，优化生成对抗网络的参数，得到训练后生成对抗网络。

其中，采用训练样本集训练生成对抗网络的具体过程为：

H(P)＝-y ln p+(y-1)ln(1-P) (II)

(4)为了验证本生成网络对图像修复的有效性，采用测试样本集对所有训练后生成对抗网络中的生成网络进行测试，选取峰值信噪比PSNR(峰值信噪比 PSNR是原图像与被处理图像之间的均方误差相对于信号最大值平方的对数值，其单位为dB，修复图像与真实标签图像的PSNR值越大，则说明修复图像与标签图像越相似)作为基准指标评估生成网络的图像修复性能，选择最优生成网络模型。

其具体操作为：

(4a)将测试本集中的样本图像依次输入一个训练后生成对抗网络的生成网络中，得到所有样本图像中损坏图像的修复图像，按照式(VI)计算修复图像和与修复图像对应的标签图像的峰值信噪比PSNR，然后求取测试样本集中所有样本图像的峰值信噪比PSNR平均值，得到该生成网络的峰值信噪比PSNR；

(4b)按照步骤(1)所述的操作求取所有训练后的生成网络的峰值信噪比 PSNR，选取峰值信噪比PSNR最大的生成网络作为最优生成网络模型。

(5)使用步骤(4)得到的最优生成网络模型对受损图像进行实时修复。其的具体操作为：将受损图像和与受损图像相对应的一对双目视觉图像中的另一视角图像输入到步骤(4)得到的最优生成网络模型中，经最优生成网络模型处理，输出修复完成的图像，即受损图像的修复图像。

采用本实施例所述的方法对双目相机采集的同一场景的一双目视觉图像中的左视角图像(左视角图像为损坏图像)进行修复处理，同时，将本发明方法的图像修复结果与Context-Encoder方法、Image-to-Image方法的图像修复结果进行对比，其对比结果参见图5。

由图5可知：采用Image-to-Image方法进行图像修复的修复效果明显好于Context-Encoder方法修复效果，这是因为Context-Encoder方法中没有跨层连接，整个图像细节需要重构，而Image-Image方法引入跨层连接和条件判别后，修复效果改善明显。但是，无论采用Context-Encoder方法还是Image-to-Image方法修复得到的修复图像均有明显的人工修饰痕迹，图像看起来很不自然，这是因为这两种修复方法仅靠编码器学会的样本内容和语义加上生成对抗网络学到的样本分布规律来“凌空”生成图像，修复过程中先验信息不足，无法正确的复原图像。本发明结合双目图像特点引入其它视角中的信息来修复受损图像，对图像生成过程增加了更多的辅导和约束，感官上生成更加准确和自然的图像修复结果。

Claims

1.一种基于生成对抗网络的双目场景图像修复方法，其特征在于，包括以下步骤：

(2)构建生成对抗网络模型；

2.根据权利要求1所述的方法，其特征在于，步骤(1)的具体操作为：

(1a)采集原始图像：使用双目相机采集n个场景的双目视觉图像，得到了n对双目视觉图像，将n对双目视觉图像调整至相同大小，然后按照视角不同进行划分，其中，一对双目视觉图像中的左视角图像放入左视角文件夹，右视角图像放入右视角文件夹，并将左视角文件夹和右视角文件夹中的图像按照采集时间先后顺序依次从1到n进行编号；

3.根据权利要求2所述的方法，其特征在于，所述生成对抗网络由生成网络和判别网络构成；生成网络的输入是一对双目视觉图像，一对双目视觉图像中的任意一个视角图像为损坏图像，生成网络的输出是损坏图像的修复图像；所述判别网络的输入是生成网络输出的修复图像或与修复图像对应的损坏图像的标签图像，判别网络的输出是输入的图像为标签图像的概率值p。

4.根据权利要求3所述的方法，其特征在于，所述生成网络包括编码器和解码器；编码器含有七个卷积层，解码器含有四个反卷积层；编码过程中，将一对双目视觉图像输入生成网络，左视角图像依次经过三个卷积层进行特征提取，得到左视角图像的特征图，右视角图像依次经过三个卷积层进行特征提取，得到右视角图像的特征图，将左视角图像的特征图和右视角图像的特征图进行拼接，得到左视角图像和右视角图像的融合特征图，融合后的特征图经过一个卷积层得到高维抽象特征图，编码操作结束；解码过程中，经编码器编码的高维抽象特征图依次经过四个反卷积层进行上采样、解码，得到修复图像。

5.根据权利要求4所述的方法，其特征在于，所述判别网络包含五个卷积层和一个sigmoid层；修复图像或标签图像输入判别网络后依次经过五个卷积层和一个sigmoid层后输出概率值p。

6.根据权利要求5所述的方法，其特征在于，生成网络和判别网络中图像经过每一个卷积层进行特征提取时，按式(I)输出卷积后的特征图；

7.根据权利要求5所述的方法，其特征在于，步骤(3)中，采用训练样本集训练生成对抗网络的具体过程为：

H(p)＝-y ln p+(y-1)ln(1-p) (II)

其中，p为判别网络输出的概率值；y表示标签值，其取值为0或1；x表示判别网络输入，G表示生成网络，D表示判别网络，x～Pdata表示x服从数据集分布Pdata，x～P_G表示x服从生成图像数据分布P_G，E[·]表示数学期望；

8.根据权利要求7所述的方法，其特征在于，所述步骤(4)的具体操作为：

其中，n为每个采样值的比特数，(2ⁿ-1)²表示图像颜色的最大数值，MSE是原图像与修复图像之间均方误差；

(4b)按照步骤(1)所述的操作求取所有训练后生成对抗网络中生成网络的峰值信噪比PSNR，选取峰值信噪比PSNR最大的生成网络作为最优生成网络模型。

9.根据权利要求8所述的方法，其特征在于，所述步骤(5)的具体操作为：将受损图像和与受损图像相对应的双目视觉图像中的另一视角图像输入到步骤(4)得到的最优生成网络模型中，经最优生成网络模型处理，输出修复完成的图像，即受损图像的修复图像。