CN108171663B

CN108171663B - 基于特征图最近邻替换的卷积神经网络的图像填充***

Info

Publication number: CN108171663B
Application number: CN201711416650.4A
Authority: CN
Inventors: 左旺孟; 颜肇义; 李晓明; 山世光
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2021-05-25
Anticipated expiration: 2037-12-22
Also published as: CN108171663A

Abstract

基于特征图最近邻替换的卷积神经网络的图像填充***，属于图像填充技术领域，解决了现有图像填充方法无法快速地获得整体语义一致且具有良好清晰度的填充图像的问题。所述***：生成网络对待填充图像先编码后解码，得到已填充图像。生成网络的解码器包括N个反卷积层，对于第一反卷积层～第N‑1反卷积层中的任意M个反卷积层，生成网络基于每个反卷积层的输出结果和该反卷积层对应的卷积层的输出结果，并采用特征图最近邻替换的方式得到附加特征图，并将每个反卷积层的输出结果、该反卷积层对应的卷积层的输出结果和附加特征图共同作为下一反卷积层的输入对象。判别网络用于判断已填充图像是否为待填充图像对应的真实图像。

Description

基于特征图最近邻替换的卷积神经网络的图像填充***

技术领域

本发明涉及一种图像填充***，属于图像填充技术领域。

背景技术

图像填充是计算机视觉和图像处理领域中的一项基本问题，其主要用于对受到损坏的图像进行修复重建或者去除图像中的多余物体。

现有的图像填充方法主要包括基于扩散的图像填充方法、基于样本的图像填充方法和基于深度学习的图像填充方法。

基于扩散的图像填充方法的基本思想为：以像素点为单位，将待填充区域边缘的图像信息扩散到待填充区域内部。当待填充区域面积较小且结构简单、纹理单一时，该图像填充方法能够较好地完成图像填充任务。然而，当待填充区域面积较大时，采用该图像填充方法获得的填充图像的清晰度较差。

基于样本的图像填充方法的基本思想为：以图像块为单位，由图像已知区域向待填充区域逐渐填充。每次填充图像块时，用图像已知区域中与待填充区域边缘图像块最相似的图像块来填充待填充区域。与基于扩散的图像填充方法相比，采用基于样本的图像填充方法获得的填充图像的纹理更好，清晰度更高。然而，由于基于样本的图像填充方法是采用图像已知区域中的相似图像块来逐步替换待填充区域中的未知图像块，因此，采用该图像填充方法无法获得整体语义一致的填充图像。

基于深度学习的图像填充方法主要是指将深度神经网络应用到图像填充领域中。目前，有学者提出采用编码器-解码器网络来对中间区域缺失的图像进行图像填充。然而，这种图像填充方法只适用于128*128的RGB图像。采用该图像填充方法获得的填充图像虽然能够满足整体语义一致的要求，但是，其填充图像的清晰度较差。针对这一问题，有学者尝试采用多尺度迭代更新的方式进行大图的清晰填充。然而，虽然这种图像填充方法所获得的填充图像具有整体语义一致性和良好的清晰度，但是，其速度极慢。在Titan X显卡运行环境下，对一张256*256的RGB图像进行填充，需要耗时数十秒至几分钟。

发明内容

本发明为解决现有的图像填充方法无法快速地获得整体语义一致且具有良好清晰度的填充图像的问题，提出了一种基于特征图最近邻替换的卷积神经网络的图像填充***。

本发明所述的基于特征图最近邻替换的卷积神经网络的图像填充***包括生成网络和判别网络；

生成网络包括编码器和解码器，编码器包括N个卷积层，解码器包括N个反卷积层，N≥2；

生成网络通过对待填充图像先编码后解码的方式，得到已填充图像；

对于第一反卷积层～第N-1反卷积层中的任意M个反卷积层，生成网络基于每个反卷积层的输出结果和该反卷积层对应的卷积层的输出结果，并采用特征图最近邻替换的方式得到附加特征图，并将每个反卷积层的输出结果、该反卷积层对应的卷积层的输出结果和得到的附加特征图共同作为下一反卷积层的输入对象；

1≤M≤N-1；

判别网络用于判断已填充图像是否为待填充图像对应的真实图像，进而对生成网络的权重学习进行约束。

作为优选的是，编码器包括卷积层E₁～卷积层E₈，解码器包括反卷积层D₁～反卷积层D₈；

待填充图像为卷积层E₁的输入对象；

对于卷积层E₁～卷积层E₈，前者的输出结果在依次经批规范化和Leaky ReLU函数激活后，作为后者的输入对象；

卷积层E₈的输出结果在依次经批规范化和Leaky ReLU函数激活后，作为反卷积层D₁的输入对象；

反卷积层D₁的输出结果在经ReLU函数激活后作为反卷积层D₂的第一输入对象；

对于反卷积层D₂～反卷积层D₈，前者的输出结果在依次经ReLU函数激活和批规范化后，作为后者的第一输入对象；

反卷积层D₂～反卷积层D₈的第二输入对象依次为卷积层E₇～卷积层E₁的依次经批规范化和Leaky ReLU函数激活后的输出结果；

经Tanh函数激活后的反卷积层D₈的输出结果为已填充图像；

卷积层E₁用于对输入对象进行64个4*4、步长为2的卷积操作；

卷积层E₂用于对输入对象进行128个4*4、步长为2的卷积操作；

卷积层E₃用于对输入对象进行256个4*4、步长为2的卷积操作；

卷积层E₄～卷积层E₈均用于对输入对象进行512个4*4、步长为2的卷积操作；

反卷积层D₁～反卷积层D₄均用于对输入对象进行512个4*4、步长为2的反卷积操作；

反卷积层D₅用于对输入对象进行256个4*4、步长为2的反卷积操作；

反卷积层D₆用于对输入对象进行128个4*4、步长为2的反卷积操作；

反卷积层D₇用于对输入对象进行64个4*4、步长为2的反卷积操作；

反卷积层D₈用于对输入对象进行3个4*4、步长为2的反卷积操作；

生成网络基于反卷积层D₅的输出结果和卷积层E₃的输出结果，并采用特征图最近邻替换的方式得到附加特征图，并将该附加特征图作为反卷积层D₆的第三输入对象。

作为优选的是，生成网络基于反卷积层D₅的输出结果和卷积层E₃的输出结果，并采用特征图最近邻替换的方式得到附加特征图的具体过程为：

选取一个特征值均为0的待赋值特征图，该特征图与反卷积层D₅的输出特征图和卷积层E₃的输出特征图具有相等的通道数和相同的空间大小；

计算得到反卷积层D₅的输出特征图的掩膜区域和卷积层E₃的输出特征图的非掩膜区域，并同时将所述掩膜区域和所述非掩膜区域切割为多个特征块；

多个特征块均为长方体，其尺寸为C*h*w，其中，C、h和w分别为反卷积层D₅的输出特征图的通道数、长方体的长度和长方体的宽度；

对于所述掩膜区域中的每个特征块p₁，选取所述非掩膜区域的多个特征块中与特征块p₁距离最近的特征块p₂；

选取待赋值特征图中的待赋值区域，该待赋值区域与特征块p₁在反卷积层D₅的输出特征图中的位置一致；

将特征块p₂的特征值赋予所述待赋值区域。

作为优选的是，特征块p₂与特征块p₁的余弦距离最近。

作为优选的是，输出特征图的掩膜区域和非掩膜区域的计算方式为：

给定一幅掩码图像来替代待填充图像，掩码图像与待填充图像的尺寸相同，通道数为1，特征值为0或1；

0表示该特征点在待填充图像上的相应位置为非待填充点；

1表示该特征点在待填充图像上的相应位置为待填充点；

通过卷积网络来计算掩码图像的特征图的掩膜区域和非掩膜区域，该卷积网络包括第一卷积层～第三卷积层；

掩码图像为第一卷积层的输入对象；

对于第一卷积层～第三卷积层，前者的输出结果为后者的输入对象；

第一卷积层～第三卷积层均用于对输入对象进行1个4*4、步长为2的卷积操作；

第三卷积层的输出结果为掩码图像的特征图，其尺寸为32*32，通道为1；

对于掩码图像的特征图，当其一个特征值大于设定的阈值时，判定该特征点为掩膜点，否则，判定该特征点为非掩膜点；

掩码图像的特征图的掩膜区域为掩膜点的集合，掩码图像的特征图的非掩膜区域为非掩膜点的集合；

输出特征图的掩膜区域与掩码图像的特征图的掩膜区域相等，输出特征图的非掩膜区域与掩码图像的特征图的非掩膜区域相等。

作为优选的是，生成网络采用引导损失约束的方式进行训练，引导损失约束的具体方式为在生成网络训练的过程中，在任意卷积层或反卷积层中对真实图像和输入图像进行特征相似约束；

输入图像为经掩膜操作的真实图像。

作为优选的是，生成网络进行训练的具体方式为：

将目标图像I^gt输入至生成网络，计算第l层的特征图的掩膜区域，并得到(Φ_l(I^gt))_y信息；

将待填充图像I输入至生成网络，计算第L-l层的特征图的掩膜区域，并得到(Φ_L-l(I))_y信息；

此时定义引导损失约束L_g：

式中，Ω是掩模区域，L为生成网络的总层数，y为掩模区域内的任一坐标点，Φ_L-l(I)为当输入对象为待填充图像时，生成网络在第L-l层输出的特征图，(Φ_L-l(I))_y为第L-l层的输出特征图的掩膜区域中y的信息，Φ_l(I^gt)为输入对象为目标图像时，生成网络在第l层输出的特征图，(Φ_l(I^gt))_y为第l层的输出特征图的掩膜区域中y的信息。

作为优选的是，判别网络包括卷积层E₉～卷积层E₁₃；

卷积层E₉的输入对象为已填充图像；

卷积层E₉的输出结果经Leaky ReLU函数激活后，作为卷积层E₁₀的输入对象；

对于卷积层E₁₀～卷积层E₁₃，前者的输出结果依次经批规范化和Leaky ReLU函数激活后，作为后者的输入对象；

依次经批规范化和Sigmoid函数激活后的卷积层E₁₃的输出结果为判别网络的输出结果；

卷积层E₉用于对输入对象进行64个4*4、步长为2的卷积操作；

卷积层E₁₀用于对输入对象进行128个4*4、步长为2的卷积操作；

卷积层E₁₁用于对输入对象进行256个4*4、步长为2的卷积操作；

卷积层E₁₂用于对输入对象进行512个4*4、步长为1的卷积操作；

卷积层E₁₃用于对输入对象进行1个4*4、步长为1的卷积操作。

作为优选的是，已填充图像为256*256的RGB图像，卷积层E₁₃的输出结果的空间大小为64*64，通道为1。

作为优选的是，所述图像填充***采用Adam优化算法进行端对端的训练。

本发明所述的基于特征图最近邻替换的卷积神经网络的图像填充***，将待填充图像作为其输入对象，通过在生成网络解码部分的中间输出进行特征图最近邻替换，使得一次前向传播即可得到具有整体语义一致性和良好清晰度的已填充图像。与现有的图像填充方法相比，所述图像填充***因只需进行一次前向传播而能够更快速地获得已填充图像。

附图说明

在下文中将基于实施例并参考附图来对本发明所述的基于特征图最近邻替换的卷积神经网络的图像填充***进行更详细的描述，其中：

图1为实施例提及的生成网络的结构框图；

图2为实施例提及的判别网络的结构框图；

图3为任意缺失的待填充图像；

图4为将任意缺失的待填充图像输入生成网络后得到的已填充图像；

图5为中心缺失的待填充图像；

图6为将中心缺失的待填充图像输入生成网络后得到的已填充图像。

具体实施方式

下面将结合附图对本发明所述的基于特征图最近邻替换的卷积神经网络的图像填充***进一步说明。

实施例：下面结合图1～图6详细地说明本实施例。

本实施例所述的基于特征图最近邻替换的卷积神经网络的图像填充***包括生成网络和判别网络；

1≤M≤N-1；

本实施例的编码器包括卷积层E₁～卷积层E₈，解码器包括反卷积层D₁～反卷积层D₈；

待填充图像为卷积层E₁的输入对象；

经Tanh函数激活后的反卷积层D₈的输出结果为已填充图像；

卷积层E₁用于对输入对象进行64个4*4、步长为2的卷积操作；

本实施例的生成网络基于反卷积层D₅的输出结果和卷积层E₃的输出结果，并采用特征图最近邻替换的方式得到附加特征图的具体过程为：

将特征块p₂的特征值赋予所述待赋值区域。

输出特征图的掩膜区域和非掩膜区域的计算方式为：

0表示该特征点在待填充图像上的相应位置为非待填充点；

1表示该特征点在待填充图像上的相应位置为待填充点；

掩码图像为第一卷积层的输入对象；

本实施例的生成网络采用引导损失约束的方式进行训练，引导损失约束的具体方式为在生成网络训练的过程中，在任意卷积层或反卷积层中对真实图像和输入图像进行特征相似约束；

输入图像为经掩膜操作的真实图像。

本实施例的生成网络进行训练的具体方式为：

将目标图像Igt输入至生成网络，计算第l层的特征图的掩膜区域，并得到(Φ_l(I^gt))_y信息；

此时定义引导损失约束L_g：

此外，待填充图像I经过生成网络得到图像记为Φ(I；W)，W是生成网络模型的参数。定义重建损失

对于每个(Φ_L-l(I))_y，其与(Φ_l(I))_x的距离计算如下：

x为非掩模区域内的任一坐标点，(Φ_l(I))_x为第l层的输出特征图的非掩膜区域中x的信息，

是非掩膜区域。

其中距离度量公式如下：

找到最近点x^*(y)后，用x^*(y)替换

区域中的与y在同一平面位置的

为待输入下一反卷积层的附加特征图。

即有：

本实施例的判别网络包括卷积层E₉～卷积层E₁₃；

卷积层E₉的输入对象为已填充图像；

卷积层E₉用于对输入对象进行64个4*4、步长为2的卷积操作；

已填充图像为256*256的RGB图像，卷积层E₁₃的输出结果的空间大小为64*64，通道为1。

判别网络输入是生成网络的输出的Φ(I；W)或是I^gt，生成网络与判别网络进行对抗训练，此时产生对抗损失L_adv：

式中，p_data(I^gt)为真实图像的分布，p_miss(I)为输入图像的分布，D(·)表示判别网络对输入进判别网络的图像来自p_data(I^gt)的概率预测，log为对数函数，I^gt为目标图像，I为待填充图像。

因此，训练生成网络时，总损失为L：

其中λ_g和λ_adv都是超参数。

图3为任意缺失的待填充图像，图4为将任意缺失的待填充图像输入生成网络后得到的已填充图像。将图3与图4对比可知：本实施例所述的基于特征图最近邻替换的卷积神经网络的图像填充***适用于对任意缺失的待填充图像进行填充，且能够获得较好的填充效果。

图5为中心缺失的待填充图像，图6为将中心缺失的待填充图像输入生成网络后得到的已填充图像。将图5与图6对比可知：本实施例所述的基于特征图最近邻替换的卷积神经网络的图像填充***适用于对中心缺失的待填充图像进行填充，且能够获得较好的填充效果。

经仿真实验，本实施例所述的基于特征图最近邻替换的卷积神经网络的图像填充***对一张256*256的RGB图像，耗时80ms左右。与现有图像填充方法耗时数十秒至几分钟相比，本实施例的图像填充***在填充速度方面的提升十分显著。

本实施例所述的基于特征图最近邻替换的卷积神经网络的图像填充***采用Adam优化算法进行端对端的训练。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims

1.基于特征图最近邻替换的卷积神经网络的图像填充***，其特征在于，所述图像填充***包括生成网络和判别网络；

判别网络用于判断已填充图像是否为待填充图像对应的真实图像，进而对生成网络的权重学习进行约束；

编码器包括卷积层E₁～卷积层E₈，解码器包括反卷积层D₁～反卷积层D₈；

待填充图像为卷积层E₁的输入对象；

经Tanh函数激活后的反卷积层D₈的输出结果为已填充图像；

卷积层E₁用于对输入对象进行64个4*4、步长为2的卷积操作；

生成网络基于反卷积层D₅的输出结果和卷积层E₃的输出结果，并采用特征图最近邻替换的方式得到附加特征图，并将该附加特征图作为反卷积层D₆的第三输入对象；

生成网络基于反卷积层D₅的输出结果和卷积层E₃的输出结果，并采用特征图最近邻替换的方式得到附加特征图的具体过程为：

选取待赋值特征图中的待赋值区域，该待赋值区域与特征块p₁在反卷积层D5的输出特征图中的位置一致；

将特征块p₂的特征值赋予所述待赋值区域。

2.如权利要求1所述的基于特征图最近邻替换的卷积神经网络的图像填充***，其特征在于，特征块p₂与特征块p₁的余弦距离最近。

3.如权利要求2所述的基于特征图最近邻替换的卷积神经网络的图像填充***，其特征在于，输出特征图的掩膜区域和非掩膜区域的计算方式为：

0表示该特征点在待填充图像上的相应位置为非待填充点；

1表示该特征点在待填充图像上的相应位置为待填充点；

掩码图像为第一卷积层的输入对象；

4.如权利要求3所述的基于特征图最近邻替换的卷积神经网络的图像填充***，其特征在于，生成网络采用引导损失约束的方式进行训练，引导损失约束的具体方式为在生成网络训练的过程中，在任意卷积层或反卷积层中对真实图像和输入图像进行特征相似约束；

输入图像为经掩膜操作的真实图像。

5.如权利要求4所述的基于特征图最近邻替换的卷积神经网络的图像填充***，其特征在于，生成网络进行训练的具体方式为：

此时定义引导损失约束L_g：

6.如权利要求5所述的基于特征图最近邻替换的卷积神经网络的图像填充***，其特征在于，判别网络包括卷积层E₉～卷积层E₁₃；

卷积层E₉的输入对象为已填充图像；

卷积层E₉用于对输入对象进行64个4*4、步长为2的卷积操作；

7.如权利要求6所述的基于特征图最近邻替换的卷积神经网络的图像填充***，其特征在于，已填充图像为256*256的RGB图像，卷积层E₁₃的输出结果的空间大小为64*64，通道为1。

8.如权利要求7所述的基于特征图最近邻替换的卷积神经网络的图像填充***，其特征在于，所述图像填充***采用Adam优化算法进行端对端的训练。