CN115731132A - 图像修复方法、装置、设备及介质 - Google Patents
图像修复方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115731132A CN115731132A CN202211490963.5A CN202211490963A CN115731132A CN 115731132 A CN115731132 A CN 115731132A CN 202211490963 A CN202211490963 A CN 202211490963A CN 115731132 A CN115731132 A CN 115731132A
- Authority
- CN
- China
- Prior art keywords
- image
- fusion
- repaired
- feature
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000003287 optical effect Effects 0.000 claims abstract description 144
- 230000007547 defect Effects 0.000 claims abstract description 81
- 230000004927 fusion Effects 0.000 claims description 236
- 230000008439 repair process Effects 0.000 claims description 52
- 238000010586 diagram Methods 0.000 claims description 45
- 238000005070 sampling Methods 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 33
- 230000002950 deficient Effects 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 230000001131 transforming effect Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 description 27
- 230000008859 change Effects 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 238000001914 filtration Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
我们楼本公开实施例提供了一种图像修复方法、装置、设备及介质,所述图像修复方法包括:针对目标视频的连续多帧图像,分别获取待修复图像与多个参考图像之间的光流图;其中,所述参考图像至少包括与所述待修复图像相邻的前一帧图像和后一帧图像;基于每个参考图像与所述待修复图像之间的光流图,对该参考图像到所述待修复图像所在时刻进行运动估计,得到运动估计图像;以及基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像;其中,所述缺陷至少包括坏点类型的缺陷。
Description
技术领域
本公开涉及图像处理技术领域,特别是涉及一种图像修复方法、装置、设备及介质。
背景技术
用胶片拍摄的图像,有可能会因时长或者保存不善,出现坏点、坏点、噪声或偏色等问题,这样针对胶片数字化转制后,转制后形成的画面中存在随机出现的坏点、划痕等缺陷。
发明内容
鉴于上述问题,提出了本公开实施例的一种图像修复方法,所述方法包括:
针对目标视频的连续多帧图像,分别获取待修复图像与多个参考图像之间的光流图;其中,所述参考图像至少包括与所述待修复图像相邻的前一帧图像和后一帧图像;
基于每个参考图像与所述待修复图像之间的光流图,对该参考图像到所述待修复图像所在时刻进行运动估计,得到运动估计图像;
基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像;其中,所述缺陷至少包括坏点类型的缺陷。
在一些可选示例中,所述方法还包括:
提取参考图像在多种感受野下的特征图,并基于该参考图像与所述待修复图像之间的光流图,将每种感受野下的特征图进行变换,得到多种感受野下的帧间语义特征;
基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像,包括:
基于多个所述参考图像各自对应的运动估计图像和所述帧间语义特征,对所述待修复图像进行修复,得到所述目标图像。
在一些可选示例中,所述基于多个所述参考图像各自对应的运动估计图像和所述帧间语义特征,对所述待修复图像进行修复,得到所述目标图像,包括:
对所述待修复图像和多个所述参考图像各自对应的运动估计图像进行特征融合,以对所述待修复图像中的缺陷进行修复,得到粗修复特征图;
基于多个所述参考图像各自对应的帧间语义特征,对所述粗修复特征图进行特征校正,得到所述目标图像。
在一些可选示例中,所述基于该参考图像与所述待修复图像之间的光流图,将每种感受野下的特征图进行变换,得到多种感受野下的帧间语义特征,包括:
对该参考图像对应的光流图进行多种尺度的处理,得到与每种尺度对应的子光流图;其中,不同尺度对应不同的所述感受野
基于每种尺度对应的子光流图,对对应感受野下的特征图进行映射,得到所述帧间语义特征。
在一些可选示例中,所述基于多个所述参考图像各自对应的帧间语义特征,对所述粗修复特征图进行特征校正,得到所述目标图像,包括:
从多个所述参考图像各自对应的帧间语义特征中,获取属于同一感受野的多个帧间语义特征;
基于多种所述感受野各自对应的多个帧间语义特征,在多种所述感受野下对所述粗修复特征图进行校正,得到所述目标图像。
在一些可选示例中,,所述基于多种所述感受野各自对应的多个帧间语义特征,在多种所述感受野下对所述粗修复特征图进行校正,得到所述目标图像,包括:
按照感受野的预设大小顺序,迭代进行多次第一特征融合,直到融合完全部感受野的多个帧间语义特征,得到第二融合特征;
基于所述第二融合特征,获取所述目标图像;
其中,在每次的第一特征融合中,对当次对应的感受野的多个帧间语义特征,与上一次执行所述第一特征融合后输出的第一融合特征进行特征融合。
在一些可选示例中,所述基于所述第二融合特征,获取所述目标图像,包括:
获取部分或全部的所述第一融合特征,每一所述第一融合特征对应一种感受野;
进行迭代第二特征融合,得到所述目标图像;其中,在每一次进行所述第二特征融合时,对上一次第二特征融合后所输出的特征与该次对应的感受野下的所述第一融合特征进行融合。
在一些可选示例中,在相邻两次所述第一特征融合中,前一次所述第一特征融合所针对的感受野的尺寸,小于后一次所述第一特征融合所针对的感受野的尺寸;
在每两次所述第二特征融合中,前一次所述第二特征融合所针对的感受野的尺寸,大于后一次所述第一特征融合所针对的感受野的尺寸。
在一些可选示例中,所述分别获取待修复图像与多个参考图像之间的光流图,基于每个所述参考图像和该参考图像与所述待修复图像之间的光流图,获取该参考图像到所述待修复图像所在时刻的运动估计图像,包括:
将所述多个参考图像与所述待修复图像输入到光流网络,通过所述光流网络输出所述待修复图像与多个参考图像之间的光流图;
基于所述光流网络输出的每个所述参考图像和该参考图像与所述待修复图像之间的光流图,对该参考图像进行映射,得到所述运动估计图像。
在一些可选示例中,所述方法还包括:
基于多个所述参考图像,对所述待修复图像中的坏点进行修复,得到坏点修复图像;
基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像进行修复,得到修复后的目标图像,包括:
基于多个所述参考图像各自对应的运动估计图像,对所述坏点修复图像进行修复,得到所述目标图像。
在一些可选示例中,基于多个所述参考图像,对所述待修复图像进行坏点修复,得到坏点修复图像,包括:
基于多个所述图像中,与所述待修复图像相邻的前一图像和后一图像中的无缺陷区域,对所述待修复图像中与所述无缺陷区域对应的区域进行修复,得到坏点修复图像。
在一些可选示例中,基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像,包括:
基于多个所述参考图像,以及多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到所述目标图像。
在一些可选示例中,所述分别获取待修复图像与多个参考图像之间的光流图,包括:
将所述待修复图像与多个所述参考图像输入到图像修复模型中的光流网络,通过所述光流网络输出所述待修复图像与多个所述参考图像之间的光流图;
所述基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像,包括:
将所述待修复图像以及多个所述参考图像各自对应的运动估计图像,输入到所述图像修复模型中的生成网络,以对所述待修复图像的缺陷进行修复,得到所述目标图像。
在一些可选示例中,所述提取每个参考图像的语义特征,并基于该参考图像与所述待修复图像之间的光流图,对该参考图像的语义特征进行帧间变换,得到帧间语义特征,包括:
将每个所述参考图像以及该参考图像对应的光流图和输入到图像修复模型中的语义网络,通过所述语义网络提取该参考图像在多种感受野下的特征图,并基于所述光流图,将每种感受野下的特征图进行变换,得到多种感受野下的帧间语义特征;
所述基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像,包括:
将所述待修复图像、多个所述参考图像各自对应的运动估计图像和所述帧间语义特征,输入到所述图像修复模型中的生成网络,以对所述待修复图像的缺陷进行修复,得到所述目标图像。
在一些可选示例中,所述生成网络包括特征拼接模块,以及依次串接在所述特征拼接模块之后的一次融合模块和二次融合模块;其中,所述一次融合模块包括多个串接的第一融合单元;
所述特征拼接模块,用于对所述待修复图像和多个所述参考图像各自对应的运动估计图像进行特征融合,得到粗修复特征图;
每个所述第一融合单元,用于对一个感受野下的多个帧间语义特征,与上一所述第一融合单元输出的第一融合特征进行特征融合;其中,不同的第一融合单元对应不同感受野下的多个帧间语义特征;
所述二次融合模块,用于基于所述第二融合特征,输出所述目标图像。
在一些可选示例中,所述二次融合模块包括依次串接的多个第二融合单元,其中,一个所述第二融合单元的输入端分别上一第二融合单元以及一个所述第一融合单元的输出端;
每个所述第二融合单元,用于对上一第二融合单元所输出的特征与对应的所述第一融合单元所述输出的第一融合特征所进行融合后,输入到下一所述第二融合单元;
通过最后一个所述第二融合单元,输出所述目标图像。
在一些可选示例中,所述语义网络包括:卷积模块和下采样模块;其中,所述卷积模块包括依次串接的多个卷积单元,所述下采样模块包括多个下采样单元;其中,
每个卷积单元用于对上一卷积单元输出的特征进行特征提取,其中,每一个卷积单元用于对所述参考图像进行特征提取,并将提取到的特征图输入到对应的下采样单元;其中,不同的卷积单元连接不同的下采样单元,不同的卷积单元对应不同的感受野;
每个下采样单元,用于对所述光流图进行相应尺度的下采样操作,并基于所述下采样操作得到的子光流图,对对应速搜卷积单元输出的特征图进行变换,得到帧间语义特征。
本公开公开实施例还提供了一种图像修复装置,所述装置包括:
光流信息获取模块,用于针对目标视频的连续多帧图像,分别获取待修复图像与多个参考图像之间的光流图;其中,所述参考图像至少包括与所述待修复图像相邻的前一帧图像和后一帧图像;
运动估计模块,用于基于每个参考图像与所述待修复图像之间的光流图,对该参考图像到所述待修复图像所在时刻进行运动估计,得到运动估计图像;
修复模块,用于基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像;其中,所述缺陷至少包括坏点类型的缺陷。
本公开实施例还公开了一种电子设备,包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如上述实施例所述的图像修复方法。
本公开实施例还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如上述实施例所述的图像修复方法。
在本公开实施例中,可以针对视频的连续多帧图像,分别获取待修复图像与多个参考图像之间的光流图;接着,基于每个参考图像与待修复图像之间的光流图,对该参考图像到待修复图像所在时刻进行运动估计,得到运动估计图像;并基于多个参考图像各自对应的运动估计图像,对待修复图像中的缺陷进行修复,得到修复后的目标图像。
本实施例中,参考图像至少包括与待修复图像相邻的前一帧图像和后一帧图像,光流图可以反应视频图像的一帧中代表同一对象(物体)的像素点移动到下一帧的移动量,也就是说可以反应同一像素点在两帧图像之间的位置和方向变化,这样,依据光流图对该参考图像到待修复图像所在时刻进行运动估计,便可以估计出参考图像中每个像素点在下一帧的位置和方向,进而得到运动估计图像,如此,运动估计图像可以与待修复图像形成对比,从而基于多个运动估计图像,可以对待修复图像中的坏点、划痕等进行修复。
此外,由于光流图的获取过程不需要消耗较多的计算资源,而在基于运动估计图像对待修复图像进行修复时,可以基于运动估计图像与待修复图像之间的差异,对待修复图像进行修复,从而可以准确去除划痕,提高修复精度。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请的一种图像修复方法的原理示意图;
图2示出了本公开实施例中的图像修复方法的步骤流程图;
图3示出了本公开实施例中的采用运动估计图像和帧间语义特征,对待修复图像进行修复的原理示意图;
图4示出了本公开实施例中的一种图像修复模型的结构示意图,;
图5示出了本公开实施例中的一种光流网络的结构示意图;
图6示出了本公开实施例中的一种得到运动估计图像的过程示意图;
图7示出了本公开实施例中的又一种图像修复模型的结构示意图;
图8示出了本公开实施例中的语义网络的输入和输出示意图;
图9示出了本公开实施例中的语义网络的结构示意图;
图10示出了本公开实施例中的生成网络的结构示意图
图11示出了本公开实施例中的图像修复装置的框架结构示意图;
图12示出了本公开实施例中的一种电子设备的框架结构示意图。
具体实施方式
为使本公开的上述目的、特征和优点能够更加明显易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
胶片数字化转制后,画面中存在的随机出现的坏点、划痕等缺陷,为对出现坏点和划痕的图像进行修复,相关技术中,采用了如下的方式:对连续三帧图像在时域上进行中值滤波的操作,之后,对中值滤波操作后的图送入多尺度级联网络进行修复。
然而,多尺度级联网络为含有3D卷积的三个Unet结构的网络模型,该模型提取相邻帧之间的信息后通过3D平均池化层进行融合来实现帧间运动的估计与补偿,该方式的效果受限于卷积层的感知域范围,当输入图像的分辨率较大或者相邻帧之间运动幅度较大时,超出了模型感知域覆盖上限,影响伪影的修复效果。通常而言,通过扩大卷积层的卷积核尺寸,或者增加卷积层数(加深网络的深度)来扩大感知域,也就是通过加深网络的深度,不断增大感受野,但模型深度增加时,随之而来的边是参数量和计算量的变大,不仅消耗大量计算资源,还降低了处理效率。
而这在胶片数字化转制后的图像修复中,是不能容忍的,因一般胶片数字转制后,数据量一般很大,如果对每帧有缺陷的画面进行修复消耗的时间较多,则无疑会消耗太长的时间进行整个视频的图像修复,导致转制成本增加的问题。
有鉴于此,本申请提出了一种高效率的图像修复方法,该修复方法主要利用视频图像之间的光流信息,对与待修复图像相邻的参考图像进行运动估计,也就是说,预估该与待修复图像在时间上存在连续关系的参考图像,到待修复图像所在时刻的运动估计图像,这些运动估计图像可以与待修复图像形成对比,从而以运动估计图像为参考,对待修复图像中的缺陷进行修复。
由于光流图可以反应同一像素点在两帧图像之间的位置和方向变化,而这一位置和方向的变化,可以准确反映相邻帧之间的运动幅度的大小,也就是说,在相邻帧之间运动幅度较大时,可以不受限于感受野的大小,进而可以无需拓深模型的深度、无需引入不必要的参数量,降低对计算资源的消耗,从而提高处理效率,进而降低胶片数字化转制后,对其中的画面进行修复的成本。
参照图1和图2所示,图1示出了本申请的一种图像修复方法的原理示意图,图2示出了本申请的一种图像修复方法的步骤流程图。
如图1所示,本申请旨在利用相邻帧(即参考图像)与当前帧(即待修复图像)之间的光流图,预估得到前后相邻帧到当前帧的预测当前帧(即运动估计图像),之后,利用预测当前帧对当前帧进行修复。图1中的图像仅是示例性说明,不代表实际中的视频图像,图1中用椭圆和折线示意性示出了当前帧中的缺陷。
如图2所示,本申请的图像修复方法可以应用于视频中的视频帧修复,具体可以由电子设备执行,具体可以包括以下步骤:
步骤S201:针对目标视频的连续多帧图像,分别获取待修复图像与多个参考图像之间的光流图。
其中,参考图像至少包括与待修复图像相邻的前一帧图像和后一帧图像。
目标视频可以是对胶片数字化转制后的视频,其中,可以针对出现坏点、划痕等缺陷的胶片所转制后的视频帧图像进行标记,该被标记的视频帧可以是待修复图像,而与待修复图像前后连续的多个视频帧可以作为参考图像。其中,多个参考图像至少要包括与待修复图像相邻的前一帧图像和后一帧图像,也就是说,待修复图像的前一帧图像和后一帧图像均需要作为参考图像。在一些实施例中,参考图像除包括待修复图像的前一帧图像和后一帧图像外,还可以包括位于前一帧图像之前的n个图像以及位于后一帧图像之后的m个图像。
也就是说,多个参考图像可以包括位于待修复图像之前的至少一张连续视频帧,以及位于待修复图像之后的至少一张连续视频帧。其中,n可以大于或等于1,m也可以大于或等于1,其中,n可以等于m,或者,n与m可以不同。
需要说明的是,无论参考图像包含多少张,其多个参考图像、待修复图像都是目标视频中时间连续的多帧图像,示例地,目标视频依次包括1000张视频帧,分别是N1~N1000,假设其中的一张待修复图像是视频帧N8,则可以将视频帧N7和N9作为参考图像,其中,视频帧N7是前一帧图像,视频帧N9是后一帧图像。又一种示例中,可以将视频帧N6、N7、N9和N10作为参考图像。
其中,由于参考图像与待修复图像具有时间上的连续关系,实际中,这一时间的连续关系可以体现在待修复图像与参考图像之间的画面变化上,这一画面变化包括了由摄像机移动引起的画面变化、由物体移动引起的画面变化以及由摄像机和物体移动引起的画面变化。因此,在时间连续的情况下,视频帧的画面之间具有一定的关联性,例如,在连续三帧上均涉及同一物体,而不同点在于同一物体的大小、方向和位置有所不同。
因此,可以获取待修复图像与每个参考图像之间的光流图,用该光流图可以刻画出待修复图像与参考图像之间的画面关联,其中,光流图中包括同一像素点从参考图像所在时刻到待修复图像所在时刻的运动变化信息,该运动变化信息可以包括位置和方向的变化。
本实施例中,光流图所描述的可以是参考图像到待修复图像的运动变化,其中,针对每个参考图像,均可以得到其与待修复图像之间的光流图,如此,可以以待修复图像为中心,确定与其存在时间连续关系的参考图像之间的运动变化。由于又包括前一帧的参考图像和后一帧的参考图像,如此,可以同时从正向和反向刻画待修复图像与参考图像之间的画面变化。
实际中,由于视频中,无论是从正向(时间前进)到待修复图像,还是反向(时间倒退)到待修复图像,其画面最终都应该定格到待修复图像。这样,在参考图像包括待修复图像的前一帧和后一帧的情况下,可以结合前一帧到待修复图像的光流图,和后一帧到待修复图像之间的光流图,共同进行运动估计,以从不同时间流向上刻画出待修复图像所在时刻的运动估计图像,从而为待修复图像提供时间方位的参考。
步骤S202:基于每个参考图像与待修复图像之间的光流图,对该参考图像到待修复图像所在时刻进行运动估计,得到运动估计图像。
其中,针对每个参考图像,可以估计出该参考图像到待修复图像所在时刻的运动估计图像,具体实施时,可以利用参考图像与待修复图像之间的光流图,对参考图像中像素点的位置、方向进行变换,变换后的图像即为预估出的运动估计图像,该运动估计图像可以理解为基于光流图,对参考图像中的各个物体在下一时刻的位置和形状进行预测后的图,其可以作为待修复图像的参考图像。
其中,由于参考图像至少包括与所述待修复图像相邻的前一帧图像和后一帧图像,这样,可以预测出前一帧图像到待修复图像所在时刻的运动估计图像1(图1中预测的当前帧1),以及后一帧图像到待修复图像所在时刻的运功估计图像2(图1中预测的当前帧2);其中,该运动估计图像1和运动估计图像2都可以作为待修复图像的参照。
一般而言,由于前一帧图像所包含的缺陷缺陷和后一帧图像所包含的缺陷区域,其与待修复图像中所包含的缺陷区域是不同的,因此,运动估计图像1和运动估计图像2所包括的缺陷区域,便与待修复图像的缺陷区域是不同。由此,可以利用运动估计图像1和运动估计图像2,对待修复图像的缺陷区域进行修复。
步骤S203:基于多个参考图像各自对应的运动估计图像,对待修复图像中的缺陷进行修复,得到修复后的目标图像。
其中,缺陷至少包括坏点类型的缺陷。
如图1所示,对于每个参考图像对应的运动估计图像,均可以理解为是待修复图像在一种维度下的预测图像,需要说明的是,由于基于光流图,对参考图像到待修复图像所在时刻进行运动估计,其得到的各个运动估计图像之间的相似性是非常高的,且各个运动估计图像与待修复图像之间的相似度也非常高。如上所述,运动估计图像1和运动估计图像2所包括的缺陷区域,与待修复图像的缺陷区域不同,或者,在一些情况下,运动估计图像1和运动估计图像2不包含缺陷区域,如此,便可以基于运动估计图像1和运动估计图像2,对待修复图像中的缺陷进行替换、填补或校正,从而达到对待修复图像进行修复的目的。
在一些实施例中,基于多个参考图像各自对应的运动估计图像,对待修复图像中的缺陷进行修复,可以理解为是将各个参考图像与待修复图像进行特征融合,在特征融合过程中,针对同一位置处的像素点,可以依据各个运动估计图像在该位置处的像素点的像素值,对待修复图像中该位置处的像素点的像素值进行调整,从而达到修复的目的。
在一些实施例中,在参考图像包括与待修复图像相邻的前一帧图像和后一帧图像的情况下,参考图像与待修复图像时间连续更紧密,三帧之间的图像变化更具有逻辑相关性,因此,前一帧图像和后一帧图像各自预估出的运动估计图像更接近待修复图像,如此,可以提高修复效果。
当然,除包括与待修复图像相邻的前一帧图像和后一帧图像外,也包括其他与前一帧图像和后一帧图像紧邻的视频帧,这样,时间连续时长相对较长,一般而言,时间连续时长较长的情况下,图像中的远景相比于近景,其变化幅度较小。例如,视频帧N6~N10中的远景的变化幅度较小,而近景变化幅度较大。
因此,可以用距离待修复图像较远的参考图像中的远景,为待修复图像提供远景的参考,从而利用与待修复图像连续的多帧参考图像的远景,对待修复图像中远景的缺陷进行准确修复。
采用本实施方式的技术方案,由于基于参考图像与待修复图像之间的光流图,预估参考图像到待修复图像所在时刻的运动估计图像,这些运动估计图像可以与待修复图像形成对比,由于其与待修复图像基本可以理解为是同一时刻同一相机位于同一位置所拍摄的图像,因此,可以利用多个运动估计图像中的无缺陷区域,可以对待修复图像中的缺陷进行修复,从而可以准确去除划痕,提高修复精度。
并且,由于光流图可以准确反映相邻帧之间的运动幅度的大小,也就是说,在相邻帧之间运动幅度较大时,可以不受限于感受野的大小,因此,可以无需拓深模型的深度,引入不必要的参数量,使得光流图和运动估计图像的获取过程不需要消耗较多的计算资源,从而提高处理效率。
为充分理解本申请的实施方案,下面,分块对本申请的图像修复方法进行详细说明:
一、对待修复图像进行修复的三种手段
(一)手段一:结合运动估计图像、以及待修复图像与参考图像之间的上下文帧间信息,对待修复图像进行修复。
在一些实施例中,在对待修复图像进行修复时,除基于参考图像到待修复图像所在时刻的运动估计图像外,还可以利用待修复图像和参考图像之间的帧间信息(下文称帧间语义特征)进行修复,该帧间信息可以包括待修复图像与上一帧参考图像之间的上下文语义特征,也可以包括待修复图像与下一帧参考图像之间的上下文语义特征。
其中,该帧间信息可以描述待修复图像与参考图像之间的相关联的空间特征,也就是说反应参考图像、待修复图像所包括的细节内容的变化,从而基于这一细节内容的变化,可以对待修复图像中的细节内容进行修复,如待修复图像中有噪点、划痕等缺陷时,可以利用帧间信息进行细节填充、修补,从而达到较精确的修复效果。
参照图3所示,示出了采用运动估计图像和帧间语义特征,对待修复图像进行修复的原理示意图,如图3所示,帧间语义特征可以经由参考图像和该参考图像与待修复图像之间的光流图得到。
其中,光流图包含同一像素点在参考图像与待修复图像之间的位置和运动变化,实际中,由于图像的细节内容较多而杂,因此,在获取帧间语义特征时,可以调整对参考图像的感受野,从而构得到参考图像在不同视野下的空间特征,接着,可以基于光流图,将不同视野的空间特征映射到待修复图像的所在时刻T,从而预测出在时刻T下的不同视野下的空间特征。
其中,视野越大,则空间特征的全局性特征越强,也就是说图像的全局架构越清晰,画面中物体之间的差异性更强(对分类预测帮助更大);视野越小,则空间特征的细节性特征越强,画面中物体的细节描述性强,因此,利用在待修复图像所在时刻的不同视野的空间特征,可以进一步对待修复图像进行修复。
具体地,可以提取参考图像在多种感受野下的特征图,之后,基于该参考图像与待修复图像之间的光流图,将每种感受野下的特征图进行变换,得到多种感受野下的帧间语义特征。如此,便可以得到参考图像在各种感知域(即视野)下所描绘的空间特征,也就是说,基于光流图,可以从全局和局部,描绘出参考图像到待修复图像所在时刻的不同空间特征,基于这一空间特征,可以对待修复图像进行全局和局部细节的修复。
本实施例中,参考图像在多种感受野下的特征图的提取过程可以是:对参考图像迭代进行多尺度的卷积操作,每一种卷积操作是对上一卷积操作输出的特征图进行的。
其中,每次卷积处理所选用的卷积核可以不同,以得到多种感受野的特征图。在一些具体的实施方式中,参考图像可以经由多个卷积层进行特征提取,每一卷积层可以视作一种感受野,深度越深的卷积层,其感受野越大,其提取到的特征所描述的画面全局性越强。越处于浅层的卷积层,其感受野越小,提取到的特征所描述的画面细节性越强。
提取到每种感受野对应的特征图后,可以基于该参考图像与待修复图像之间的光流图,将每种感受野的特征图映射到待修复图像所在时刻,从而得到预估出的帧间语义特征,该帧间语义特征,可以反映待修复图像与参考图像的上下文特征,从而从全局和局部上对待修复图像进行修复。
其中,每个参考图像均包括多种感受野各自对应的特征图,需要说明的是,不同参考图像均可以输入上述的多层卷积层中进行特征提取,从而得到多种感受野的特征提取,示例地,对参考图像N7和N9而言,其都提取到四种感受野的特征图。
相应地,在基于多个参考图像各自对应的运动估计图像,对待修复图像中的缺陷进行修复,得到修复后的目标图像时,可以基于多个参考图像各自对应的运动估计图像和帧间语义特征,对待修复图像进行修复,得到目标图像。
本实施例中,帧间语义特征可以辅助运动估计图像,对待修复图像进行修复,其中,运动估计图像是基于像素点在帧间的位置和方向变化,对待修复图像出现的坏点进行修复,帧间语义特征可以辅助运动估计图像,从而从图像的全局和局部上对待修复图像出现的坏点、噪点、划痕等缺陷进行修复。
在一些具体实施方式中,可以先基于各个参考图像对应的运动估计图像,对待修复图像进行修复,示例地,可以将各个运动估计图像与待修复图像进行融合,以对待修复图像进行初步修复。接着,可以将全部参考图像所得到的多个帧间语义特征与初步修复后的待修复图像进行融合,从而可以再次对待修复图像中的全局特征和局部特征进行修复。
由于每个参考图像得到不同感受野下的特征图,一些实施例中,在基于该参考图像与待修复图像之间的光流图,将每种感受野下的特征图进行变换时,可以在同一尺寸空间下,进行感受野下的特征图进行变换。也就是说,可以将光流图变换到与每种感受野的特征图一致的尺寸空间。
具体实施时,可以对该参考图像对应的光流图进行多种尺度的处理,得到与每种尺度对应的子光流图;并基于每种尺度对应的子光流图,对对应感受野下的特征图进行映射,得到所述帧间语义特征。
其中,不同尺度对应不同的所述感受野。
在一些实施例中,每个参考图像与待修复图像之间都有一个光流图,实际中,可以对光流图进行多种尺度的处理,该处理可以是指下采样处理,每种下采样的尺度可以不同,以将光流图处理为与每种感受野的特征图相适配的尺寸。
相应地,对于每个参考图像而言,可以将该参考图像的每种感受野的特征图,基于相应尺寸的一个子光流图进行映射,也就是说将其变换到待修复图像所在时刻的帧间语义特征。一些实施方式中,对每种感受野的特征图,可以基于对一个尺寸的子光流图,进行warp运算,从而得到对应的帧间语义特征。
在得到上述实施例的帧间语义特征后,在一些实施例中,可以先利用运动估计图像对待修复图像进行初步修复,修复之后,再利用帧间语义特征,对初步修复后的待修复图像进行校正。
具体实施时,可以对待修复图像和多个参考图像各自对应的运动估计图像进行特征融合,以对待修复图像中的缺陷进行修复,得到粗修复特征图;并基于多个参考图像各自对应的帧间语义特征,对粗修复特征图进行特征校正,得到目标图像。
在一些实施例中,对待修复图像和多个参考图像各自对应的运动估计图像进行特征融合的过程可以是:将待修复图像和多个参考图像进行拼接,将拼接得到的拼接特征利用卷积层进行特征提取,从而得到粗修复特征图。其中,该拼接可以是指Concat操作。
其中,基于多个参考图像各自对应的帧间语义特征,对粗修复特征图进行特征校正时,可以按照感受野的大小,将各个帧间语义特征与粗修复特征图进行融合。在一些具体的实施方式中,可将属于同一种感受野的多个帧间语义特征与粗修复特征图进行融合后,再与属于另一种感受野的多个帧间语义特征与粗修复特征图进行融合,依次类推,直到融合完全部感受野的全部帧间语义特征,如此,可以分阶段融合不同感受野的帧间语义特征。
其中,可以按照感受野从小到大的顺序进行融合,例如,先将同一种感受野小的多个帧间语义特征与粗修复特征图进行融合后,再与属于另一种感受野大的多个帧间语义特征与粗修复特征图进行融合,这样,可以从按照从细节到整体的修复过程,对粗修复特征图进行校正。
在一些实施例中,为提高校正效果,在校正时,也可以按照感受野的大小,对相应尺寸的粗修复特征图进行特征校正。也就是说,每种感受野的帧间语义特征用于校正该种感受野下的粗修复特征图。
具体实施时,可以从多个参考图像各自对应的帧间语义特征中,获取属于同一感受野的多个帧间语义特征;并基于多种感受野各自对应的多个帧间语义特征,在多种感受野下对粗修复特征图进行校正,得到目标图像。
具体地,由于每种感受野的帧间语义特征用于校正该种感受野下的粗修复特征图,一些实施例中,可以分别利用每种感受野的帧间语义特征,对该种感受野下的粗修复特征图进行校正,具体实施时,可以将粗修复特征图也进行多种感受野的特征再提取,从而得到与每种感受野对应的子特征图,然后将每种感受野的子特征图,和各个参考图像在该种感受野的全部帧间语义特征进行融合,从而得到该种感受野的校正后图像特征,接着,对多种感受野下的校正后图像特征进行融合,从而得到目标图像。
示例地,对粗修复特征图进行多种感受野的特征再提取后,得到四种感受野的子特征图,之后,将每种感受野的子特征图与该种感受野下的多个帧间语义特征进行融合,从而得到该种感受野的校正后图像特征。由于也包括四种感受野的帧间语义特征。因此,可以得到四种校正后图像特征,之后,将四种校正后图像特征进行融合后,得到目标图像。
在又一些实施例中,可以利用多种感受野下的帧间语义特征,对粗修复特征图进行多次迭代特征融合,每一次迭代特征融合可以融合一种感受野下的全部帧间语义特征,与上一次特征融合所得到的特征。如此,可以连续地,按照感受野的大小顺序,依次利用不同空间结构的帧间语义特征,对粗修复特征图中不同细节大小的特征进行补。形象地可以理解为是如下过程:
首先,利用较小感受野的帧间语义特征,对粗修复特征图进行较小细节的特征补全,如对图像中的人物手部的像素点进行补全;
接着,对较小细节补全后的粗修复特征图,利用较大感受野的帧间语义特征,对较大细节的特征进行补全,如对手部的轮廓进行补全;
依次类推,层层进行细节补全,从而得到目标图像。
具体实施时,可以按照感受野的预设大小顺序,迭代进行多次第一特征融合,直到融合完全部感受野的多个帧间语义特征,得到第二融合特征;接着,基于第二融合特征,获取目标图像。
其中,在每次的第一特征融合中,对当次对应的感受野的多个帧间语义特征,与上一次执行第一特征融合后输出的第一融合特征进行特征融合。
本实施例中,可以按照感受野从小到大的顺序,进行迭代融合。具体地,可以将粗修复特征图与感受野最小的多个帧间语义特征进行融合,得到第一融合特征,该感受野最小的多个帧间语义特征可以包括来自不同参考图像的帧间语义特征。
接着,可以将该第一融合特征与感受野次小的多个帧间语义特征进行融合,得到融合后的第一融合特征,同样地,该感受野次小的多个帧间语义特征可以包括来自不同参考图像的帧间语义特征。
依次类推,将融合后的第一子融合特征与下一感受野的多个帧间语义特征进行融合,得到本次融合后的第一子融合特征,按照上述步骤直到融合完全部感受野的帧间语义特征,从而将最后一次融合得到的融合特征作为第二融合特征。
其中,可以将第二融合特征对应的图像作为目标图像,或者,可以将第二融合特征进行上采样操作后,得到对应的目标图像。
在一些实施例中,在利用多种感受野的帧间语义特征,在多种感受野下均对粗修复特征图进行校正后,还可以对每种感受野下被校正后的粗修复特征图,进行融合,从而融合不同感受野下被校正后的结果,使得校正更精确。
具体实施时,在基于第二融合特征,获取目标图像时,可以获取部分或全部的第一融合特征,每一第一融合特征对应一种感受野;并进行迭代第二特征融合,得到目标图像。
其中,在每一次进行第二特征融合时,对上一次第二特征融合后所输出的特征与该次对应的感受野下的第一融合特征进行融合。
在一些实施例中,可以进行多次第一特征融合过程中的全部第一融合特征均与第二融合特征进行融合,或者,可以将感受野较小的第一融合特征与第二融合特征进行融合。例如,假设进行了J次第一特征融合,可以架构前面J-2次第一特征融合所输出的第一融合特征,与第二融合特征进行融合。
一种示例中,其具体过程可以如下:
S1:将第二融合特征第一次第一特征融合所输出的第一融合特征进行融合,得到融合后的第二融合特征;
S2:将该融合后的第二融合特征与第二次第一特征融合所输出的第一融合特征进行融合,得到该次融合后的第二融合特征;
S3:再将S2得到的融合后特征,与第三次第一特征融合所输出的第一融合特征进行融合,得到该次融合后的第二融合特征,从而得到目标图像。
这样,迭代进行多次第一特征融合后得到的第二融合特征,可以再次融合前面每次第一特征融合后的修复结果,从而提高对待修复图像的修复效果。
在一些实施例中,在利用多种感受野下的帧间语义特征,对粗修复特征图进行不同感受野的细节补全时,可以按照感受野从小到大的顺序,依次进行细节补全;在融合多种细节补全的结果时,可以按照感受野从大到小的顺序,进行融合。也就是说,先融合高感受野下的细节补全结果,之后再依次缩小感受野,进行更小感受野的细节补全。
具体地,相邻两次第一特征融合中,前一次第一特征融合所针对的感受野的尺寸,小于后一次第一特征融合所针对的感受野的尺寸;在每两次第二特征融合中,前一次第二特征融合所针对的感受野的尺寸,大于后一次第一特征融合所针对的感受野的尺寸。
采用上述手段一的实施方案时,由于利用了多种感受野的帧间语义特征,对待修复图像进行了校正,从而可以从图像的全局和局部特征出发,对待修复图像的全局轮廓和细节均进行修复,提高了修复效果。
(二)手段二:结合原始的参考图像、运动估计图像、以及待修复图像与参考图像之间的上下文帧间信息,对待修复图像进行修复。
在一些实施例中,可以结合原始的参考图像,先对待修复图像中的坏点进行修复,然后再对坏点修复后的图像,利用运动估计图像进行再修复,或者,结合运动估计图像和帧间信息(帧间语义特征),对坏点修复后的图像进行再修复。
其中,可以基于多个参考图像,对待修复图像中的坏点进行修复,得到坏点修复图像。接着,基于多个参考图像各自对应的运动估计图像,对坏点修复图像进行修复,得到目标图像。
或者,基于多个参考图像各自对应的运动估计图像和帧间语义特征,对坏点修复图像进行修复,得到目标图像。
由于与待修复图像时间连续的参考图像所包含的缺陷区域,与待修复图像不可能是完全相同的,如此,从参考图像中可以得到待修复图像中缺陷区域的一些完整信息,因此,本实施例中,可以利用多个参考图像,对待修复图像中的坏点进行修复。
实际中,可以识别待修复图像中的缺陷区域,接着,从多个参考图像中定位出与缺陷区域对应的目标区域,其中,目标区域与缺陷区域实际中可以是针对同一个对象的区域,如同一个物体。这样,可以基于目标区域中各个像素点的像素信息,修复缺陷区域中各个像素点的像素信息。例如,将目标区域中各个像素点的像素值与缺陷区域中各个像素点的像素值进行融合,从而得到坏点修复图像。
其中,在对待修复图像中的坏点修复后,便可以将图像修复问题转移到对图像的伪影修复中,从而可以提高图像修复的准确率。
在一些实施例中,由于与待修复图像相邻的前一参考图像和后一参考图像,包含与待修复图像更多相同的信息,因此,可以基于多个参考图像中,与待修复图像相邻的前一图像和后一图像中的无缺陷区域,对待修复图像中与所述无缺陷区域对应的区域进行修复,得到坏点修复图像。
具体地,可以基于前一参考图像和后一参考图像,对待修复图像进行中值滤波,得到坏点修复图像。
其中,中值滤波是一种非线性平滑技术,它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值。具体实施时,可以对待修复图像、前一图像和后一图像逐像素计算中值,由于同场景内相邻帧图像的相同位置的像素值一般相差不会过大,因此,在计算中值过程中,与周围灰度值相差较大的坏点区域就会被前帧或后帧图像中的像素所替换,从而消除中间帧图像内的坏点。
在又一些实施例中,在基于多个参考图像各自对应的运动估计图像,对坏点修复图像进行修复,或者在基于多个参考图像各自对应的运动估计图像和帧间语义特征,对坏点修复图像进行修复时,也可以引入原始的参考图像,对坏点修复图像进行再修复。
具体实施时,可以基于多个参考图像,以及多个参考图像各自对应的运动估计图像,对待修复图像中的缺陷进行修复,得到目标图像。
如上述手段(一)中对待修复图像中的缺陷进行修复的过程,本手段(二)中,由于加入了参考图像进行修复,因此,可以对待修复图像、多个参考图像以及多个参考图像各自对应的运动估计图像进行融合,从而得到粗修复特征图,接着利用多种感受野下的帧间语义特征,对粗修复特征图进行特征校正,得到目标图像。
或者,可以对坏点修复图像、多个参考图像以及多个参考图像各自对应的运动估计图像进行融合,从而得到粗修复特征图,接着利用多种感受野下的帧间语义特征,对粗修复特征图进行特征校正,得到目标图像。
采用此种实施方式的技术方案,由于首先利用与待修复图像相邻的前一图像和后一图像,对待修复图像中的坏点进行了修复,接着,再基于各个运动估计图像,对坏点修复后的坏点修复图像进行修复,以修复待修复图像中的伪影、划痕等缺陷,从而提高修复效果。
(三)手段三:利用扁平化的图像修复模型,实现上述手段一、手段二和前序实施例的图像修复方法。
由于本申请主要利用连续图像之间的光流图,得到了参考图像到待修复图像所在时刻的运动估计图像,以及,一些实施例中,可以得到参考图像到待修复图像所在时刻的多种感受野下的帧间语义特征,接着,基于运动估计图像和帧间语义特征,对待修复图像进行修复。这样,即使在相邻帧之间运动幅度较大的情况下,仍然可以基于光流图提取到像素点的位置和运动变化,从而预估出下一帧的图像,这样,可以不再受限于感受野的大小,因此,再利用神经网络模型完成上述图像修复方法时,可以设计用于提取光流信息的光流网络,以及用于进行图像融合的生成网络即可,该生成网络可以用于融合待修复图像和运动估计图像,或,可以用于融合待修复图像、运动估计图像和多种感受野下的帧间语义特征。
由此,可以无需拓深模型的深度,引入不必要的参数量,不需要消耗额外的计算资源,从而提高处理效率。
具体地,参照图4所示,示出了本申请一种实施例中的图像修复模型的结构示意图,该图像修复模型可以包括光流网络和生成网络,其中,光流网络可以用于输出每个参考图像与待修复图像之间的光流图,生成网络,用于基于光流图和参考图像对应的运动估计图像,对待修复图像进行修复。
下面,按照图像修复过程,对图像修复模型中的各个功能模块进行分别介绍:
1、针对光流网络。
在一些实施例中,光流网络可以不包含于图像修复模型,而单独应用,也就是说,该光流网络可以利用现有的光流网络即可,从而无需增加图像修复模型的参数量。
具体地,可以将多个参考图像与待修复图像输入到光流网络,通过光流网络输出待修复图像与多个参考图像之间的光流图,接着,基于光流网络输出的每个参考图像和该参考图像与待修复图像之间的光流图,对该参考图像进行映射,得到运动估计图像。
在一些实施例中,可以将待修复图像、多个参考图像分别对应的光流图输入到生成网络,从而对待修复图像进行修复。
在一些实施例中,光流网络和生成网络可以位于图像修复模型中,随着图像修复模型被一起训练,具体地,可以将待修复图像与多个参考图像输入到图像修复模型中的光流网络,通过光流网络输出待修复图像与多个参考图像之间的光流图;
接着,将待修复图像以及多个参考图像各自对应的运动估计图像,输入到图像修复模型中的生成网络,以对待修复图像的缺陷进行修复,得到目标图像。
如图4所示,该图像修复模型包括光流网络和生成网络、其中,在光流网络与生成网络之间连接有运动估计单元,该运动估计单元用于基于光流网络输出的每个参考图像和该参考图像与待修复图像之间的光流图,对该参考图像进行映射,得到运动估计图像。
参照图5所示,示出了一种实施例中的光流网络的结构示意图,需要说明的是,无论是单独使用还是配置到图像修复模型中,均可以采用该结构的光流网络。如图5所示,“Downsample_n”代表使用双线性插值将输入下采样n倍,例如图5中包括Downsample_8、Downsample_4、Downsample_2,即表示下采样8倍、4倍和2倍;“Upsample_n”代表使用双线性插值将输入上采样n倍,同理,如图5中Upsample_8、Upsample_4、Upsample_2,表示上采样8倍、4倍和2倍;“Conv_i_o_k_s”代表卷积层和ReLU激活层的串联操作,其中i为输入通道数,o为输出通道数,k为卷积核尺寸,s为卷积步长,如图5中Conv_2_384_3_2,即表示该卷积层的输入通道数为2,输出通道数为384,卷积核尺寸为3,卷积步长为2。“Conv_i_o_k_s*n”代表n个“Conv_i_o_k_s”的串联,如图5中Conv_384_384_3_2*6,即表示有6个Conv_2_384_3_2这样的卷积层串联。
其中,光流网络的输入包括:参考图像和待修复图像。
如图5所示,光流网络可以包括多个串接的特征变换模块以及连接在最后一个特征变换模块之后的特征处理模块,每一个特征变换模块由浅层到深层网络依次包括拼接层、下采样层、第一卷积层、第二卷积层、第三卷积层、上采样层以及warp层;特征处理模块包括依次连接的拼接层、第四卷积层、第五卷积层、第六卷积层以及特征相加层。其中,特征相加层的输出即为光流图。
其中,每一个特征变换模块的拼接层的输入端用于输入待修复图像和目标图像,该目标图像可以是参考图像或者可以是上一特征变换模块的warp层的输出。其中,对于第一层的特征变换模块,其输入的目标图像是参考图像,其余的特征变换模块,其输入的目标图像是上一特征变换模块的warp层的输出。
其中,对于每个特征变换模块的warp层,其用于基于上采样层的输出,对参考图像进行warp运算,从而得到的结果输出给下一个特征变换模块。也就是说,参考图像需要输入到每个特征变换模块的warp层。
基于图5所示的光流网络,其中,framet为待修复图像,framet-1为参考图像,即待修复图像的前一帧图像,其得到光流图的过程可以如下所述:
1、光流网络先将输入的参考图像和待修复图像拼接后,进行8倍下采样,采样后经过8个卷积层(本示例中第一卷积层、第二卷积层和第三卷积层一共有8个卷积层)的运算得到相邻两帧图像在原分辨率1/8的尺寸下的光流图,将此光流图上采样8倍后,与framet-1做warp运算得到初步的估计图像;
2、将此图像与framet继续做concat处理,再下采样4倍后经过8个卷积层运算得到在原分辨率1/4的尺寸下的光流图,将此光流图上采样4倍后与1/8尺寸下得到的光流图逐像素相加,用它们相加的和与framet-1做warp运算得到进一步的估计图像;
3、用此估计图像与framet相concat后,下采样2倍,经过连续8个卷积层运算得到原分辨率1/2尺寸下的光流图,将此光流图上采样2倍后,与前两步得到的光流图逐像素相加,得到的和继续与framet-1做warp运算得到估计图像;
4、最后再将上一步的估计图像与framet做concat,之后直接与8个卷积层依次运算得到原分辨率下的光流图,并将此光流图与前面散布得到的光流图逐像素相加做和,得到最终的光流图flowt-1→t。
在一些实施例中,可以基于光流网络输出的光流图和参考图像,进行运动估计,得到运动估计图像,参照图6所示,示出了得到运动估计图像的过程示意图,如图6所示,可以将待修复图像framet和参考图像framet-1输入到光流网络,从而得到光流图flowt-1→t,接着,基于该光流图flowt-1→t,对参考图像framet-1进行Warp操作,从而得到该参考图像到待修复图像framet所在时刻的运动估计图像warpedt-1。
如图6所示,同理,可以得到framet+1到待修复图像framet所在时刻的运动估计图像warpedt+1。
2、针对语义网络。
参照图7所示,示出了本申请的又一种实施例中的图像修复模型的结构示意图,如图7所示,包括光流网络、语义网络和生成网络,其中,光流网络的输出端连接语义网络的输入端,语义网络的输出端连接生成网络的输入端,且光流网络的输出端还可以连接运动估计单元,该运动估计单元可以基于参考图像对应的光流图,对该参考图像进行运动估计,得到运动估计图像。
本实施例中,运动估计图像和语义网络输出的帧间语义特征都会输入到生成网络。
具体实施时,参照图8所示,示出了语义网络的输入和输出示意图,如图8所示,可以将光流图和参考图像输入到图像修复模型中的语义网络,通过语义网络提取每个参考图像的语义特征,并光流图对该参考图像的语义特征进行帧间变换,得到帧间语义特征;
相应地,可以将待修复图像、多个参考图像各自对应的运动估计图像和帧间语义特征,输入到图像修复模型中的生成网络,以对待修复图像的缺陷进行修复,得到目标图像。
在一些实施例中,参照图9所示,示出了语义网络的结构示意图,如图9所示,语义网络包括:卷积模块和下采样模块;其中,卷积模块包括依次串接的多个卷积单元,下采样模块包括多个下采样单元;其中,
每个卷积单元用于对上一卷积单元输出的特征进行特征提取,其中,第一个卷积单元用于对参考图像进行特征提取,并将提取到的特征图输入到对应的下采样单元;其中,不同的卷积单元连接不同的下采样单元;
每个下采样单元,用于对光流图进行相应尺度的下采样操作,并基于下采样操作得到的子光流图,对帧间语义特征进行变换,得到帧间语义特征。
其中,如图9所示,每个卷积单元可以包括两个卷积层,卷积层的卷积核的设置可以参考图9所示即可,其中,每个下采样单元包括下采样层和warp层,下采样层的输入均为光流图,不同下采样层的采样倍数的设置可以参考图9所示即可。其中,warp层连接在下采样层之后,并与相应卷积单元的最后一个卷积层的输出端连接,用于基于下采样操作得到的子光流图,对帧间语义特征进行warp运算,得到帧间语义特征。图9中各个卷积单元中卷积层的尺寸描述参考图5所示,例如,Conv_1-32-3-1,即表示该层卷积层的输入通道数为1,输出通道数为32,卷积核尺寸为3,卷积步长为1。空间,层次越深的卷积单元,提取到的特征越抽象,越能反映画面的全局特征。
本实施例中,帧间语义特征的获取过程如下:
1、对参考图像framet-1而言,首先经过第一个卷积单元的两个卷积层得到第一层语义特征,将此第一层语义特征与光流图flowt-1→t做warp运算,得到语义信息f1;
2、将第一层语义特征(未经过warp运算)再依次输入第二个卷积单元的两个卷积层,即第3、4两个卷积层,得到第二层语义特征,此第二层语义特征的宽高为原输入的1/2,扩大了感受野,将flowt-1→t使用双线性插值方法下采样2倍后,与特征矩阵做warp运算,得到语义信息f2;
3、将第二层语义特征,输入到第三个卷积单元的两个卷积层,即第5、6卷积层,得到宽高为原输入的1/4的第三层语义特征矩阵,进一步扩大感受野,将flowt-1→t下采样4倍后,与特征矩阵做warp运算,得到语义信息f3;
4、将第三层语义特征,输入到第四个卷积单元的两个卷积层,即第7、8卷积层,得到1/8宽高的第四层语义特征,进一步扩大感受野,将flowt-1→t下采样8倍后,与第四层语义特征做warp运算,得到语义信息f4;
5、将第四层语义特征,输入到第五个卷积单元的两个卷积层,即第9、10卷积层,得到1/16宽高的第五层语义特征,再一次扩大感受野,将flowt-1→t下采样16倍后,与第五层语义特征做warp运算,得到语义信息f5;
6、取f1、f2、f3、f4和f5作为framet-1根据flowt-1→t映射得到的估计图像的语义信息序列Context_infos_1;
7、将相邻帧图像framet+1与光流图flowt+1→t重复a~f步骤得到语义信息序列Context_infos_2。
其中,f1、f2、f3、f4和f5即为本申请的帧间语义特征,其中,第一层语义特征至第五层语义特征均可以是特征矩阵。
当然,图9仅为示例性说明,实际中,也可以有更多层的卷积单元,或者更少层的卷积单元,具体地,可以根据运动幅度大小或者图像大小确定即可,在此不做特别限定。
3、针对生成网络
生成网络可以用于基于运动估计图像修复待修复图像,或者基于运动估计图像和参考图像的帧间语义特征修复待修复图像,或者,基于参考图像、运动估计图像和参考图像的帧间语义特征修复坏点修复图像,这样,可以将上述图像输入到生成网络。
具体地,在基于参考图像、运动估计图像和参考图像的帧间语义特征修复坏点修复图像,或者,在基于运动估计图像和参考图像的帧间语义特征修复待修复图像的情况下,生成网络可以包括:
特征拼接模块,以及依次串接一次融合模块和二次融合模块。
其中,每个模块的功能如下:
特征拼接模块,用于对待修复图像和多个参考图像各自对应的运动估计图像进行特征融合,得到粗修复特征图;
一次融合模块包括依次串接的多个第一融合单元,其中,每个第一融合单元,用于对一个感受野下的多个帧间语义特征,与上一第一融合单元输出的第一融合特征进行特征融合;其中,不同的第一融合单元对应不同感受野下的多个帧间语义特征;
二次融合模块,用于基于所述第二融合特征,输出目标图像。
其中,二次融合模块对第二融合特征进行处理,得到目标图像的过程可以参照上述实施例的过程所述,在此不再赘述。
具体而言,特征拼接模块的输入端可以连接运动估计单元的输入端,参考图像、待修复图像、运动估计图像都可以输入到拼接模块的输入端,拼接模块的输出端连接一次融合模块中的第一个第一融合单元。本实施例中,每个第一融合单元都可以对应连接一个下采样单元的输出端。或者,多个下采样单元的输出端均连接到次融合模块中的第一个第一融合单元的输入端,具体融合过程可以参照上述实施例所述。
一些实施例中,由于在对第二融合特征进行多次特征提取,输出目标图像时,可以融合多种感受野对粗修复特征图进行修复的结果,因此,二次融合模块可以包括依次串接的多个第二融合单元,其中,一个第二融合单元的输入端分别上一第二融合单元以及一个第一融合单元的输出端。
其中,每个第二融合单元,用于对上一第二融合单元所输出的特征与对应的第一融合单元输出的第一融合特征所进行融合后,输入到下一第二融合单元;其中,可以通过最后一个第二融合单元,输出目标图像。
具体而言,不同的第一融合单元的输入端可以连接语义网络中不同下采样单元的输出端,从而将语义网络中不同下采样单元输出的帧间语义特征输入到该第一融合单元;其中,不同的第二融合单元可以连接对应一个不同的第一融合单元的输出端,从而融合对应感受野下的校正结果。
参照图10所示,示出了一些实施例中的生成网络的结构示意图,如图10所示,输入到生成网络的包括参考图像framet-1、参考图像framet+1、待修复图像framem、参考图像framet-1的运动估计图像warpedt-1,以及参考图像framet+1的运动估计图像warpedt+1,其中,多种帧间语义特征输入到生成网络的特定融合模块。
如图10所示,在生成网络的网络结构中,“ConvT_i_o_k_s”表示2D转置卷积和ReLU激活层的串联,i代表输入通道数,o代表输出通道数,k代表卷积核尺寸,s代表卷积步长,图中网络上方相连的有阴影填充的矩形,指代提取的不同感受野的帧间语义特征,从左向右(感受野从小到大)依次为f1、f2、f3、f4和f5。
其中,生成网络生成目标图像的过程如下:
1、逐像素的对framet-1、framet和framet+1做中值滤波,得到滤波后的图像framem,这一步是通过中值滤波将存在缺陷的区域用相邻帧的内容进行填补;
2、将framet-1、warpedt-1、framem、warpedt+1、framet+1按顺序concat处理后输入到生成网络的第1、2卷积层进行特征提取,得到特征矩阵F1;
3、从上述图9所示的语义网络所输出的Context_infos_1和Context_infos_2中,取出各自的帧间语义特征f1,输入到第一个第一融合单元中,即将其与F1做concat处理后输入到生成网络的第3、4层卷积层,得到特征矩阵F2;
4、从上述图9所示的语义网络所输出的Context_infos_1和Context_infos_2中,取出各自的帧间语义特征f2,输入到第二个第一融合单元中,即将其与F2做concat处理后输入到生成网络的第5、6层卷积层,得到特征矩阵F3;
5、从上述图9所示的语义网络所输出的从Context_infos_1和Context_infos_2中,取出各自的帧间语义特征f3,输入到第三个第一融合单元中,即将其与F3做concat处理后输入到生成网络的第7、8层卷积层,得到特征矩阵F4;
6、从上述图9所示的语义网络所输出的Context_infos_1和Context_infos_2中,取出各自的帧间语义特征f4,输入到第四个第一融合单元中,即将其与F4做concat处理后输入到生成网络的第9、10层卷积层,得到特征矩阵F5;
7、从上述图9所示的语义网络所输出的Context_infos_1和Context_infos_2中,取出各自的语义信息f5,输入到第四个第一融合单元中,即将其与F5做concat处理后输入到生成网络的第11层卷积层(此层为转置卷积),得到特征矩阵F6;
8、将F6与F4做concat处理后输入到二次融合模块的第一个第二融合单元,即生成网络的第12层卷积层(此层为转置卷积),得到特征矩阵F7;
9、将F7与F3做concat处理后输入到二次融合模块的第二个第二融合单元,即生成网络的第13层卷积层(此层为转置卷积),得到特征矩阵F8;
10、将F8与F2做concat处理后输入到二次融合模块的第三个第二融合单元,即生成网络的第14层卷积层(此层为转置卷积),得到特征矩阵F9;
11、F9经过生成网络的最后一个卷积层(此卷积层没有ReLU激活层)后,得到最终的修复结果,即目标图像。
其中,特征矩阵F1-F9在图10中未示出。
在一些实施例中,训练得到上述图7所示的图像修复模型的过程可以是如下:
首先,准备训练样本,其中,训练样本包括多个样本组,每一个样本组包括连续的多帧视频图像样本,多帧视频图像样本中包括待修复的缺陷图像样本,以及与该缺陷图像样本对应的修复后图像样本。其中,缺陷图像样本可以是对修复后图像样本进行缺陷处理后的图像样本。例如,将一张完整无缺陷的修复后图像样本中的部分区域增加坏点、划痕等缺陷,从而得到缺陷图像样本。
其中,可以利用上述样本组对图7所示的网络结构进行训练,样本组输入到该网络结构后,可以获取输出的对缺陷图像样本进行修复后的修复后图像,接着,可以基于修复后图像与修复后图像样本之间的差异,对网络结构中的超参数进行不断调整,在修复后图像与修复后图像样本之间的差异小于预设差异的情况下,可以结束训练,从而得到图像修复模型。当然,也可以在训练次数达到预设训练次数后,结束进训练,得到图像修复模型。
其中,也可以单独训练图像修复模型中的光流网络,对于光流网络的选择不做限制,可以是任意的目前已经开源的光流网络,如flownet、flownet2,也可以是传统的光流算法(不是深度学习),如TV-L1 flow,只需要利用光流算法得到光流图即可。其中,训练光流网络的过程可以参照相关技术即可俄,在此不再赘述。
在单独训练得到光流网络后,可以将光流网络的参数迁移到图7所示的网络结构中的光流网络中,接着,再利用上述的样本组对图7所示的网络结构的参数进行微调,从而得到图像修复模型。
下面,结合图7所示的图像修复模型,对本申请实施例的一种图像修复方法进行示例性介绍:
首先,准备样本组,训练图7所示的网络结构,得到图像修复模型。样本组包括连续的多帧视频图像样本,多帧视频图像样本中包括待修复的缺陷图像样本,以及与该缺陷图像样本对应的修复后图像样本。其中,多帧视频图像样本中还包括与缺陷图像样本相邻的前一帧图像样本和后一帧图像样本;其中,训练过程参照上述实施例所述。
接着,将得到的图像修复模型应用到推理阶段,进行视频数据中图像的修复,具体包括以下步骤:
S100,获取视频数据中出现坏点、划痕、伪影等缺陷的待修复图像;对每个待修复图像,获取与待修复图像framet为相邻的前一帧参考图像framet-1和后一帧参考图像framet+1;
S200,根据的前一帧参考图像framet-1和后一帧参考图像framet+1,对待修复图像framet进行中值滤波,以对待修复图像中的坏点修复,得到坏点修复图像framem;
S300,将前一帧参考图像framet-1、后一帧参考图像framet+1以及待修复图像framet输入到图像修复模型的光流网络,即如图5所示的光流网络中,以及将前一帧参考图像framet-1、后一帧参考图像framet+1输入到语义网络;以及,将坏点修复图像framem输入到生成网络;并得到光流网络输出的前一帧参考图像到待修复图像的光流图framet-1→t,以及得到后一帧参考图像到待修复图像的光流图framet+1→t。
S400,将光流网络输出的两张光流图输入到运动估计单元和语义网络。
S500,图像修复模型中的运动估计单元,根据光流图framet-1→t,对前一帧参考图像framet-1进行warp运算,得到前一帧参考图像framet-1对应的运动估计图像warpedt-1,同理,得到后一帧参考图像framet+1对应的运动估计图像warpedt+1。
S600,语义网络对前一帧参考图像framet-1和后一帧参考图像framet+1分别进行特征提取,具体地,通过图10的语义网络进行特征提取,得到5种感受野的帧间语义特征,得到前一帧参考图像framet-1对应的序列Context_infos_1(f1、f2、f3、f4和f5),和后一帧参考图像framet+1对应的序列Context_infos_2(f1、f2、f3、f4和f5)。
S700,将前一帧参考图像framet-1对应的序列Context_infos_1(f1、f2、f3、f4和f5)、后一帧参考图像framet+1对应的序列Context_infos_2(f1、f2、f3、f4和f5)、运动估计图像warpedt-1、运动估计图像warpedt+1、前一帧参考图像framet-1、后一帧参考图像framet+1输入生成网络。
其中,在将上述前一帧参考图像framet-1、后一帧参考图像framet+1、运动估计图像warpedt-1、运动估计图像warpedt+1和坏点修复图像framem输入生成网络时,生成网络中的concat层需要将这五帧图像按照图12的顺序拼接,也就是说,在坏点修复图像framem的两端连接运动估计图像warpedt-1、运动估计图像warpedt+1,在运动估计图像warpedt-1的一端连接前一帧参考图像framet-1,在运动估计图像warpedt+1的一端连接后一帧参考图像framet+1,如此,可以使得运功估计图像向坏点图像更靠近,从而提高修复质量。
其中,序列Context_infos_1中的f1和序列Context_infos_2中的f1输入到生成网络的第一个第一融合单元,两个f2输入到第二个第一融合单元,两个f3输入到第三个第一融合单元,两个f4输入到第四个第一融合单元,两个f5输入到第五个第一融合单元。
生成网络基于上述图像,得到坏点修复图像framem被修复后的目标图像。
其中,在完成对待修复图像的修复后,可以将视频数据中的待修复图像替换为修复得到的目标图像,从而完成对整个视频数据的修复。
采用以上实施例的图像修复方法,具有以下优点:
第一点,由于使用光流网络替代3D卷积来学习相邻帧之间的光流信息,并基于参考图像与待修复图像之间的光流图,预测得到运动估计图像,如此,可以通过没有坏点、坏线、划痕的相邻帧(参考图像)预测得到当前帧(待修复图像)内容,从而使得没有坏点、坏线、划痕的预测到的当前帧,对待修复的当前帧进行修复,从而提高修复效果。
第二点,由于光流图可以准确反映相邻帧之间的运动幅度的大小,也就是说,在相邻帧之间运动幅度较大时,可以不受限于感受野的大小,因此,可以无需拓深模型的深度,引入不必要的参数量,使得光流图和运动估计图像的获取过程不需要消耗较多的计算资源,从而提高处理效率。
第三点,由于通过语义网络,根据光流图,提取到相邻帧到当前帧过程中的多种感受野下的帧间语义特征,从而可以得到从相邻帧到当前帧的过程中的全局和局部的特征,进一步提取到不同观察尺度下的帧间运动信息,利用这些帧间语义特征对待修复图像进行校正时,可以用作运动估计图像的校正补偿,进一步优化修复效果。
第四点,生成网络以前后帧预测得到的当前帧(运动估计图像),进一步融合语义特征,对坏点修复图像进行修复,由于坏点修复图像是利用相邻帧对待修复图像中的坏点进行修复后的图像,因此,结合运动估计图像和帧间语义特征再对坏点修复图像时,进一步提高了修复后的目标图像的质量。
第五点,由于充分将相邻帧(参考图像)到当前帧(待修复图像)的光流信息,利用到运动估计中以及利用到帧间语义特征提取中,使得本申请不用设计网络层很深的图像修复模型,如此,大大节约了模型的参数了,从而减小计算量。如此,便允许本申请一些实施例中提出的扁平化的图像修复模型,即包括光流网络、语义网络和生成网络三个网络,这些网络的深度都不深,因此,图像修复模型总体较浅,从而提高了本申请对视频数据中帧的修复的效率。
本实施例的第二方面,还提供了一种图像修复装置,参照图11所示,示出了该图像修复装置的具体结构示意图,如图11所示,具体可以包括以下模块:
光流信息获取模块1101,用于针对目标视频的连续多帧图像,分别获取待修复图像与多个参考图像之间的光流图;其中,所述参考图像至少包括与所述待修复图像相邻的前一帧图像和后一帧图像;
运动估计模块1102,用于基于每个参考图像与所述待修复图像之间的光流图,对该参考图像到所述待修复图像所在时刻进行运动估计,得到运动估计图像;
修复模块1103,用于基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像;其中,所述缺陷至少包括坏点类型的缺陷。
可选地,所述装置还包括:
帧间语义特征提取模块,用于提取参考图像在多种感受野下的特征图,并基于该参考图像与所述待修复图像之间的光流图,将每种感受野下的特征图进行变换,得到多种感受野下的帧间语义特征;
修复模块1103,具体用于基于多个所述参考图像各自对应的运动估计图像和所述帧间语义特征,对所述待修复图像进行修复,得到所述目标图像。
可选地,所述修复模块1103,包括:
第一修复单元,用于对所述待修复图像和多个所述参考图像各自对应的运动估计图像进行特征融合,以对所述待修复图像中的缺陷进行修复,得到粗修复特征图;
第二修复单元,用于基于多个所述参考图像各自对应的帧间语义特征,对所述粗修复特征图进行特征校正,得到所述目标图像。
可选地,所述帧间语义特征提取模块,包括:
第一提取单元,用于对该参考图像对应的光流图进行多种尺度的处理,得到与每种尺度对应的子光流图;其中,不同尺度对应不同的所述感受野;
第二提取单元,用于基于每种尺度对应的子光流图,对对应感受野下的特征图进行映射,得到所述帧间语义特征。
可选地,所述第二修复单元,包括:
组合子单元,用于从多个所述参考图像各自对应的帧间语义特征中,获取属于同一感受野的多个帧间语义特征;
校正子单元,用于基于多种所述感受野各自对应的多个帧间语义特征,在多种所述感受野下对所述粗修复特征图进行校正,得到所述目标图像。
可选地,所述第二修复单元,包括:
一次融合子单元,用于按照感受野的预设大小顺序,迭代进行多次第一特征融合,直到融合完全部感受野的多个帧间语义特征,得到第二融合特征;
二次融合子单元,用于基于所述第二融合特征,获取所述目标图像;
其中,在每次的第一特征融合中,对当次对应的感受野的多个帧间语义特征,与上一次执行所述第一特征融合后输出的第一融合特征进行特征融合。
可选地,所述二次融合子单元,具体用于执行以下步骤:
获取部分或全部的所述第一融合特征,每一所述第一融合特征对应一种感受野;
进行迭代第二特征融合,得到所述目标图像;其中,在每一次进行所述第二特征融合时,对上一次第二特征融合后所输出的特征与该次对应的感受野下的所述第一融合特征进行融合。
可选地,在相邻两次所述第一特征融合中,前一次所述第一特征融合所针对的感受野的尺寸,小于后一次所述第一特征融合所针对的感受野的尺寸;
在每两次所述第二特征融合中,前一次所述第二特征融合所针对的感受野的尺寸,大于后一次所述第一特征融合所针对的感受野的尺寸。
可选地,所述光流信息获取模块1101,具体用于将所述多个参考图像与所述待修复图像输入到光流网络,通过所述光流网络输出所述待修复图像与多个参考图像之间的光流图;
所述运动估计模块1102,具体用于基于所述光流网络输出的每个所述参考图像和该参考图像与所述待修复图像之间的光流图,对该参考图像进行映射,得到所述运动估计图像。
可选地,所述装置还包括:
坏点修复模块,用于基于多个所述参考图像,对所述待修复图像中的坏点进行修复,得到坏点修复图像;
所述修复模块1103,具体用于基于多个所述参考图像各自对应的运动估计图像,对所述坏点修复图像进行修复,得到所述目标图像。
可选地,所述坏点修复模块,具体用于基于多个所述图像中,与所述待修复图像相邻的前一图像和后一图像中的无缺陷区域,对所述待修复图像中与所述无缺陷区域对应的区域进行修复,得到坏点修复图像。
可选地,所述修复模块1103,具体用于基于多个所述参考图像,以及多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到所述目标图像。
可选地,所述光流信息获取模块1101,用于将所述待修复图像与多个所述参考图像输入到图像修复模型中的光流网络,通过所述光流网络输出所述待修复图像与多个所述参考图像之间的光流图;
所述修复模块1103,具体用于将所述待修复图像以及多个所述参考图像各自对应的运动估计图像,输入到所述图像修复模型中的生成网络,以对所述待修复图像的缺陷进行修复,得到所述目标图像。
可选地,所述帧间语义特征提取模块,具体用于:
将所述光流图和所述参考图像输入到图像修复模型中的语义网络,通过所述语义网络提取每个参考图像的语义特征,并所述光流图对该参考图像的语义特征进行帧间变换,得到帧间语义特征;
所述修复模块1103,具体用于将所述待修复图像、多个所述参考图像各自对应的运动估计图像和所述帧间语义特征,输入到所述图像修复模型中的生成网络,以对所述待修复图像的缺陷进行修复,得到所述目标图像。
可选地,所述生成网络包括特征拼接模块,以及依次串接在所述特征拼接模块之后的一次融合模块和二次融合模块;其中,所述一次融合模块包括多个串接的第一融合单元;
所述特征拼接模块,用于对所述待修复图像和多个所述参考图像各自对应的运动估计图像进行特征融合,得到粗修复特征图;
每个所述第一融合单元,用于对一个感受野下的多个帧间语义特征,与上一所述第一融合单元输出的第一融合特征进行特征融合;其中,不同的第一融合单元对应不同感受野下的多个帧间语义特征;
所述二次融合模块,用于基于所述第二融合特征,输出所述目标图像。
可选地,所述二次融合模块包括依次串接的多个第二融合单元,其中,一个所述第二融合单元的输入端分别上一第二融合单元以及一个所述第一融合单元的输出端;
每个所述第二融合单元,用于对上一第二融合单元所输出的特征与对应的所述第一融合单元所述输出的第一融合特征所进行融合后,输入到下一所述第二融合单元;
通过最后一个所述第二融合单元,输出所述目标图像。
可选地,所述语义网络包括:卷积模块和下采样模块;其中,所述卷积模块包括依次串接的多个卷积单元,所述下采样模块包括多个下采样单元;其中,
每个卷积单元用于对上一卷积单元输出的特征进行特征提取,其中,第一个卷积单元用于对所述参考图像进行特征提取,并将提取到的特征图输入到对应的下采样单元;其中,不同的卷积单元连接不同的下采样单元;
每个下采样单元,用于对所述光流图进行相应尺度的下采样操作,并基于所述下采样操作得到的子光流图,对所述帧间语义特征进行变换,得到帧间语义特征。
需要说明的是,装置实施例与方法实施例相近,故描述的较为简单,相关之处参见方法实施例即可。
参照图12所示,示出了本公开实施例的一种电子设备900的结构框图,如图12所示,本发明实施例提供的一种电子设备,该电子设备900可以用于执行图像修复方法,可以包括存储器901、处理器902及存储在存储器上并可在处理器上运行的计算机程序,所述处理器902被配置为执行所述的图像修复方法。
如图12所示,在一实施例中,该电子设备900完整的可以包括输入装置903、输出装置904以及图像采集装置905,其中,在执行本公开实施例的图像修复方法时,图像采集装置905可以采集第一图像和第二图像,接着输入装置903可以获得图像采集装置905采集的第一图像和第二图像,该第一图像和第二图像可以由处理器902进行处理,以基于第一图像和第二图像进行图像处理,输出装置904可以输出对第一图像和第二图像处理后得到的目标视差图像。
当然,在一实施例中,存储器901可以包括易失性存储器和非易失性存储器,其中,易失性存储器可以理解为是随机存取记忆体,用来存储和保存数据的。非易失性存储器是指当电流关掉后,所存储的数据不会消失的电脑存储器,当然,本公开的图像修复方法的计算机程序可以存储在易失性存储器和非易失性存储器中,或者存在二者中的任意一个中。
本公开实施例还提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本公开实施例所述的图像修复方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本公开实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本公开实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开实施例是参照根据本公开实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本公开实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本公开所提供的一种图像修复方法、装置、设备和存储介质进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。
Claims (20)
1.一种图像修复方法,其特征在于,所述方法包括:
针对目标视频的连续多帧图像,分别获取待修复图像与多个参考图像之间的光流图;其中,所述参考图像至少包括与所述待修复图像相邻的前一帧图像和后一帧图像;
基于每个参考图像与所述待修复图像之间的光流图,对该参考图像到所述待修复图像所在时刻进行运动估计,得到运动估计图像;
基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像;其中,所述缺陷至少包括坏点类型的缺陷。
2.根据权利要求1所述的图像修复方法,其特征在于,所述方法还包括:
提取参考图像在多种感受野下的特征图,并基于该参考图像与所述待修复图像之间的光流图,将每种感受野下的特征图进行变换,得到多种感受野下的帧间语义特征;
基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像,包括:
基于多个所述参考图像各自对应的运动估计图像和所述帧间语义特征,对所述待修复图像进行修复,得到所述目标图像。
3.根据权利要求2所述的方法,其特征在于,所述基于多个所述参考图像各自对应的运动估计图像和所述帧间语义特征,对所述待修复图像进行修复,得到所述目标图像,包括:
对所述待修复图像和多个所述参考图像各自对应的运动估计图像进行特征融合,以对所述待修复图像中的缺陷进行修复,得到粗修复特征图;
基于多个所述参考图像各自对应的帧间语义特征,对所述粗修复特征图进行特征校正,得到所述目标图像。
4.根据权利要求2所述的方法,其特征在于,所述基于该参考图像与所述待修复图像之间的光流图,将每种感受野下的特征图进行变换,得到多种感受野下的帧间语义特征,包括:
对该参考图像对应的光流图分别进行多种尺度的处理,得到与每种尺度对应的子光流图;其中,不同尺度对应不同的所述感受野
基于每种尺度对应的子光流图,对对应感受野下的特征图进行映射,得到所述帧间语义特征。
5.根据权利要求3所述的方法,其特征在于,所述基于多个所述参考图像各自对应的帧间语义特征,对所述粗修复特征图进行特征校正,得到所述目标图像,包括:
从多个所述参考图像各自对应的帧间语义特征中,获取属于同一感受野的多个帧间语义特征;
基于多种所述感受野各自对应的多个帧间语义特征,在多种所述感受野下对所述粗修复特征图进行校正,得到所述目标图像。
6.根据权利要求5所述的方法,其特征在于,所述基于多种所述感受野各自对应的多个帧间语义特征,在多种所述感受野下对所述粗修复特征图进行校正,得到所述目标图像,包括:
按照感受野的预设大小顺序,迭代进行多次第一特征融合,直到融合完全部感受野的多个帧间语义特征,得到第二融合特征;
基于所述第二融合特征,获取所述目标图像;
其中,在每次的第一特征融合中,对当次对应的感受野的多个帧间语义特征,与上一次执行所述第一特征融合后输出的第一融合特征进行特征融合。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第二融合特征,获取所述目标图像,包括:
获取部分或全部的所述第一融合特征,每一所述第一融合特征对应一种感受野;
进行迭代第二特征融合,得到所述目标图像;其中,在每一次进行所述第二特征融合时,对上一次第二特征融合后所输出的特征与该次对应的感受野下的所述第一融合特征进行融合。
8.根据权利要求7所述的方法,其特征在于,在相邻两次所述第一特征融合中,前一次所述第一特征融合所针对的感受野的尺寸,小于后一次所述第一特征融合所针对的感受野的尺寸;
在每两次所述第二特征融合中,前一次所述第二特征融合所针对的感受野的尺寸,大于后一次所述第一特征融合所针对的感受野的尺寸。
9.根据权利要求1-8任一所述的方法,其特征在于,所述分别获取待修复图像与多个参考图像之间的光流图,包括:
将所述多个参考图像与所述待修复图像输入到光流网络,通过所述光流网络输出所述待修复图像与多个参考图像之间的光流图。
10.根据权利要求1-8任一所述的方法,其特征在于,所述方法还包括:
基于多个所述参考图像,对所述待修复图像中的坏点进行修复,得到坏点修复图像;
基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像进行修复,得到修复后的目标图像,包括:
基于多个所述参考图像各自对应的运动估计图像,对所述坏点修复图像进行修复,得到所述目标图像。
11.根据权利要求10所述的方法,其特征在于,基于多个所述参考图像,对所述待修复图像进行坏点修复,得到坏点修复图像,包括:
基于多个所述图像中,与所述待修复图像相邻的前一图像和后一图像中的无缺陷区域,对所述待修复图像中与所述无缺陷区域对应的区域进行修复,得到坏点修复图像。
12.根据权利要求1-10任一所述的方法,其特征在于,基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像,包括:
基于多个所述参考图像,以及多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到所述目标图像。
13.根据权利要求1-10任一所述的方法,其特征在于,所述分别获取待修复图像与多个参考图像之间的光流图,包括:
将所述待修复图像与多个所述参考图像输入到图像修复模型中的光流网络,通过所述光流网络输出所述待修复图像与多个所述参考图像之间的光流图;
所述基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像,包括:
将所述待修复图像以及多个所述参考图像各自对应的运动估计图像,输入到所述图像修复模型中的生成网络,以对所述待修复图像的缺陷进行修复,得到所述目标图像。
14.根据权利要求2-8任一所述的方法,其特征在于,所述提取每个参考图像的语义特征,并基于该参考图像与所述待修复图像之间的光流图,对该参考图像的语义特征进行帧间变换,得到帧间语义特征,包括:
将每个所述参考图像以及该参考图像对应的光流图和输入到图像修复模型中的语义网络,通过所述语义网络提取该参考图像在多种感受野下的特征图,并基于所述光流图,将每种感受野下的特征图进行变换,得到多种感受野下的帧间语义特征;
所述基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像,包括:
将所述待修复图像、多个所述参考图像各自对应的运动估计图像和所述帧间语义特征,输入到所述图像修复模型中的生成网络,以对所述待修复图像的缺陷进行修复,得到所述目标图像。
15.根据权利要求14所述的方法,其特征在于,所述生成网络包括特征拼接模块,以及依次串接在所述特征拼接模块之后的一次融合模块和二次融合模块;其中,所述一次融合模块包括多个串接的第一融合单元;
所述特征拼接模块,用于对所述待修复图像和多个所述参考图像各自对应的运动估计图像进行特征融合,得到粗修复特征图;
每个所述第一融合单元,用于对一个感受野下的多个帧间语义特征,与上一所述第一融合单元输出的第一融合特征进行特征融合;其中,不同的第一融合单元对应不同感受野下的多个帧间语义特征;
所述二次融合模块,用于基于所述第二融合特征,输出所述目标图像。
16.根据权利要求15所述的方法,其特征在于,所述二次融合模块包括依次串接的多个第二融合单元,其中,一个所述第二融合单元的输入端分别上一第二融合单元以及一个所述第一融合单元的输出端;
每个所述第二融合单元,用于对上一第二融合单元所输出的特征与对应的所述第一融合单元所述输出的第一融合特征所进行融合后,输入到下一所述第二融合单元;
通过最后一个所述第二融合单元,输出所述目标图像。
17.根据权利要求13所述的方法,其特征在于,所述语义网络包括:卷积模块和下采样模块;其中,所述卷积模块包括依次串接的多个卷积单元,所述下采样模块包括多个下采样单元;其中,
每个所述卷积单元用于对上一卷积单元输出的特征进行特征提取,其中,每个所述卷积单元用于对所述参考图像进行特征提取,并将提取到的特征图输入到对应的下采样单元;其中,不同的卷积单元连接不同的下采样单元,不同的卷积单元对应不同的感受野;
每个下采样单元,用于对所述光流图进行相应尺度的下采样操作,并基于所述下采样操作得到的子光流图,对对应所述卷积单元输出的特征图进行变换,得到帧间语义特征。
18.一种图像修复装置,其特征在于,所述装置包括:
光流信息获取模块,用于针对目标视频的连续多帧图像,分别获取待修复图像与多个参考图像之间的光流图;其中,所述参考图像至少包括与所述待修复图像相邻的前一帧图像和后一帧图像;
运动估计模块,用于基于每个参考图像与所述待修复图像之间的光流图,对该参考图像到所述待修复图像所在时刻进行运动估计,得到运动估计图像;
修复模块,用于基于多个所述参考图像各自对应的运动估计图像,对所述待修复图像中的缺陷进行修复,得到修复后的目标图像;其中,所述缺陷至少包括坏点类型的缺陷。
19.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-17任一所述的图像修复方法。
20.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1-17任一所述的图像修复方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211490963.5A CN115731132A (zh) | 2022-11-25 | 2022-11-25 | 图像修复方法、装置、设备及介质 |
PCT/CN2023/121760 WO2024109336A1 (zh) | 2022-11-25 | 2023-09-26 | 图像修复方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211490963.5A CN115731132A (zh) | 2022-11-25 | 2022-11-25 | 图像修复方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115731132A true CN115731132A (zh) | 2023-03-03 |
Family
ID=85298330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211490963.5A Pending CN115731132A (zh) | 2022-11-25 | 2022-11-25 | 图像修复方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115731132A (zh) |
WO (1) | WO2024109336A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455812A (zh) * | 2023-11-13 | 2024-01-26 | 浙江中录文化传播有限公司 | 一种视频修复方法及*** |
WO2024109336A1 (zh) * | 2022-11-25 | 2024-05-30 | 京东方科技集团股份有限公司 | 图像修复方法、装置、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9886746B2 (en) * | 2015-07-20 | 2018-02-06 | Tata Consultancy Services Limited | System and method for image inpainting |
CN110503619B (zh) * | 2019-06-27 | 2021-09-03 | 北京奇艺世纪科技有限公司 | 图像处理方法、装置及可读存储介质 |
CN114339219A (zh) * | 2021-12-31 | 2022-04-12 | 浙江大华技术股份有限公司 | 帧间预测方法、装置、编解码方法、编解码器及电子设备 |
CN114419519B (zh) * | 2022-03-25 | 2022-06-24 | 北京百度网讯科技有限公司 | 目标对象检测方法、装置、电子设备和存储介质 |
CN115731132A (zh) * | 2022-11-25 | 2023-03-03 | 京东方科技集团股份有限公司 | 图像修复方法、装置、设备及介质 |
-
2022
- 2022-11-25 CN CN202211490963.5A patent/CN115731132A/zh active Pending
-
2023
- 2023-09-26 WO PCT/CN2023/121760 patent/WO2024109336A1/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024109336A1 (zh) * | 2022-11-25 | 2024-05-30 | 京东方科技集团股份有限公司 | 图像修复方法、装置、设备及介质 |
CN117455812A (zh) * | 2023-11-13 | 2024-01-26 | 浙江中录文化传播有限公司 | 一种视频修复方法及*** |
CN117455812B (zh) * | 2023-11-13 | 2024-06-04 | 浙江中录文化传播有限公司 | 一种视频修复方法及*** |
Also Published As
Publication number | Publication date |
---|---|
WO2024109336A1 (zh) | 2024-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008817B (zh) | 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN107403415B (zh) | 基于全卷积神经网络的压缩深度图质量增强方法及装置 | |
CN115731132A (zh) | 图像修复方法、装置、设备及介质 | |
CN111316316A (zh) | 用于图像复原的神经网络及其训练与使用方法 | |
CN102609931B (zh) | 一种显微图像的景深扩展方法及装置 | |
Lee et al. | Dynavsr: Dynamic adaptive blind video super-resolution | |
Purohit et al. | Depth-guided dense dynamic filtering network for bokeh effect rendering | |
Ye et al. | Depth super-resolution with deep edge-inference network and edge-guided depth filling | |
CN115115516B (zh) | 基于Raw域的真实世界视频超分辨率的构建方法 | |
CN112422870B (zh) | 一种基于知识蒸馏的深度学习视频插帧方法 | |
TWI576790B (zh) | 階層式立體匹配裝置及方法 | |
CN116152120A (zh) | 一种融合高低频特征信息的低光图像增强方法及装置 | |
US11783454B2 (en) | Saliency map generation method and image processing system using the same | |
CN115272438A (zh) | 一种面向三维场景重建的高精度单目深度估计***及方法 | |
CN111932594B (zh) | 一种基于光流的十亿像素视频对齐方法及装置、介质 | |
CN114119424A (zh) | 一种基于光流法和多视角场景的视频修复方法 | |
CN115004220A (zh) | 用于原始低光图像增强的神经网络 | |
CN110852947B (zh) | 一种基于边缘锐化的红外图像超分辨方法 | |
Gaikwad | A Review on Self Learning based Methods for Real World Single Image Super Resolution | |
CN110555414A (zh) | 目标检测方法、装置、设备及存储介质 | |
CN115841523A (zh) | 一种基于Raw域的双支路HDR视频重建算法 | |
CN112016456B (zh) | 基于自适应反向投影深度学习的视频超分辨率方法及*** | |
Evain et al. | A lightweight neural network for monocular view generation with occlusion handling | |
CN114862707A (zh) | 一种多尺度特征恢复图像增强方法、装置及存储介质 | |
CN113077385A (zh) | 基于对抗生成网络和边缘增强的视频超分辨率方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |