CN111614974B

CN111614974B - 一种视频图像修复方法和***

Info

Publication number: CN111614974B
Application number: CN202010265051.2A
Authority: CN
Inventors: 赵玉良; 郭玉峰; 黄鑫; 何林晋; 吴昌猛; 王连杰; 张博伦
Original assignee: Shanghai Tuele Information Technology Service Co ltd
Current assignee: Shanghai Tuele Information Technology Service Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2021-11-30
Anticipated expiration: 2040-04-07
Also published as: CN111614974A

Abstract

本发明涉及一种视频图像修复方法和***，其中，所述方法包括：获取待修复的视频图像与多个参考图像；分别对所述待修复视频图像和参考图像进行编码，将编码后得到的两个特征图分别作为其图像的key和value；对比待修复视频图像的key和参考图像的key，获得所述参考图像相对于待修复视频图像的权重a，并根据待修复视频图像的value和参考图像的value及其相对于待修复视频图像的权重a获得待修复视频图像的新value；以及对具有新value的待修复视频图像的编码进行解码，得到已修复的视频图像。本发明可以准确、有效地修复原视频中的附加内容，无需人工操作，修复效率高、效果好。

Description

一种视频图像修复方法和***

技术领域

本发明涉及一种视频技术领域，特别地涉及一种视频图像修复方法和***。

背景技术

在视频应用领域中，随着视频编辑技术的发展，允许向视频增加一些附加内容而得到合成视频。例如，可以在视频中增加文字、图像等静态信息，也可以在视频中增加动画等动态信息。然而，合成视频中的广告、贴片等无关信息却经常是令人反感的，并且其遮挡了视频中的部分原始画面使原始图像受损。因此，有时候需要从合成视频中消除这些附加内容来恢复附加内容。虽然现有技术中有一些工具提供了去除这些附加内容的功能，但是这些工具通常都要借助人工操作，例如，人工选择操作区域、人工识别附加内容等，不但过程繁琐，而且费时费力。

发明内容

针对现有技术中存在的技术问题，本发明提出了一种视频图像修复方法和***，用以有效还原因增加了附加内容而改变的原视频。

为了解决上述技术问题，根据本发明的一个方面，本发明提供了一种视频图像修复方法，包括以下步骤：

获取待修复视频图像与多个参考图像，其中，所述待修复视频图像中包括应去除的附加内容；

分别对所述待修复视频图像和参考图像进行编码，将编码后得到的两个特征图分别作为其图像的key和value；

利用注意力机制，根据所述待修复视频图像和参考图像的key和value获得待修复视频图像的新value；以及

对具有新value的待修复视频图像进行解码，得到已修复的视频图像。

优选地，所述方法进一步包括：

对比待修复视频图像的key和参考图像的key，获得所述参考图像相对于待修复视频图像的权重a；

计算参考图像的value与其相对于待修复视频图像的权重a的内积以得到所述参考图像的加权value；以及

计算待修复视频图像的value与同组参考图像的加权value的和以确定待修复视频图像的新value。

优选地，所述方法进一步包括：

对待修复视频进行切帧以得到多个视频帧；以及

对所述多个视频帧进行目标检测，从所述多个视频帧中确定出包含附加内容的一个或多个合成视频帧及没有附加内容的原始视频帧。

优选地，采用深度学习目标检测算法检测视频帧以确定合成视频帧中的附加内容信息。

优选地，所述方法进一步包括：

从合成视频帧中切分出包括附加内容的图像块作为待修复的视频图像，从原始视频帧中切分出与附加内容的位置相对应的图像块作为参考图像。

其中所述的方法进一步包括：

从待修复视频图像中提取附加内容的背景；以及

按照所述附加内容的背景对待修复视频图像和参考图像进行分组。

其中，对所述待修复视频图像和参考图像进行编码时，采用的编码神经网络结构包括5-10个卷积层，每层的卷积核为3*3或5*5。

其中进一步地，为所述多个卷积层中的一层或多层设置膨胀系数。

解码时采用的解码神经网络结构与编码神经网络的结构相对应，得到与待修复视频图像相同尺寸的已修复视频图像。

为了解决上述技术问题，根据本发明的另一个方面，本发明提供了一种视频图像修复***，包括图像获取模块、编码模块、填充模块和解码模块，其中，所述图像获取模块经配置以获取待修复视频图像及多个参考图像，其中，所述待修复视频图像中包括应去除的附加内容；所述编码模块经配置以分别对所述待修复视频图像和参考图像进行编码，将编码后得到的两个特征图分别作为其图像的key和value；所述填充模块经配置以利用注意力机制，根据所述待修复视频图像和参考图像的key和value获得待修复视频图像的新value；所述解码模块经配置以对获得新value的待修复视频图像的编码进行解码，得到已修复视频图像。

优选地，所述图像获取模块经进一步配置包括：背景提取单元和分组单元，其中，所述背景提取单元经配置以从待修复视频图像中提取附加内容的背景；所述分组单元经配置以所述附加内容的背景对待修复的视频图像和参考图像进行分组。

优选地，所述的***进一步包括切帧模块和检测模块，其中，所述切帧模块对待修复视频进行切帧以得到多个视频帧；所述检测模块经配置以对所述视频帧进行目标检测，从所述多个视频帧中确定出一个或多个包含附加内容的合成视频帧及没有附加内容的原始视频帧。其中，所述检测模块采用深度学习目标检测算法检测视频帧以确定合成视频帧中的附加内容信息。

在上述的***中，所述图像获取模块经进一步配置还包括切块单元，经配置以从合成视频帧中切分出包括附加内容的图像块作为待修复视频图像，从原始视频帧中切分出与附加内容的位置相对应的图像块作为参考图像。

优选地，所述的***中的所述编码模块经进一步包括5-10个卷积层，每层的卷积核为3*3或5*5。进一步地，所述卷积层中的一层或多层设有膨胀系数。

优选地，所述的***中的所述解码模块的结构与所述编码模块的结构相对应，以得到与待修复视频图像相同尺寸的已修复视频图像。

优选地，所述的***中的所述填充模块进一步包括权重计算单元、参考图像value计算单元和value计算单元，其中，所述权重计算单元经配置计算每一个参考图像和所述待修复视频图像的key内积以确定每一参考图像相对所述待修复视频图像的权重a；所述参考图像value计算单元经配置以计算每一参考图像的value与其权重a的内积以确定每一参考图像的加权value；所述value计算单元，经配置以计算所述待修复视频图像value与多个参考图像加权value的和以得到所述待修复视频图像的新value。

本发明利用注意力机制及神经网络架构，可以准确、有效地修复已填加了附加内容的图像，所述图像可以是单独的图像，也可以是从视频中的视频帧，在去除附加内容时无需人工操作，修复效率高、效果好。

附图说明

下面，将结合附图对本发明的优选实施方式进行进一步详细的说明，其中：

图1是根据本发明的一个实施例的视频图像修复方法的流程图；

图2是根据本发明的一个实施例的编码神经网络架构示意图；

图3是根据本发明的一个实施例的计算待修复视频图像的新value的示意图；

图4是根据本发明的一个实施例的编码神经网络架构示意图；

图5是根据本发明的一个实施例的视频图像修复***的原理框图；

图6是根据本发明的一个实施例的图像获取模块的原理框图；

图7是根据本发明的一个实施例的填充模块的原理框图；

图8是根据本发明的一个应用实施例的视频修复原理框图；

图9是根据本发明的一个应用实施例的视频图像恢复方法流程图；以及

图10是根据本发明的一个应用实施例的填充合成视频帧中的附加内容所在图像区域的方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的详细描述中，可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中，相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述，使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解，还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。

图1是根据本发明一个实施例的视频图像修复方法的流程图，其中包括：

步骤S1，获取待修复的视频图像及与多个参考图像。其中，待修复的视频图像中包括了原先额外增加的附加内容，为了还原原图像，还需要多个参考图像。在一个实施例中，出于某些目的，如添加广告、旁白、提高趣味性等目的，向一个视频中增加了一些附加内容，其形式可以文字、图片或动画等，从而覆盖了原有视频中的部分视频图像，在本发明中，将这样的视频称为受损视频，本实施例的目的是恢复原来被覆盖的原有视频图像，从而达到修复该受损视频的目的。

在本实施例，从受损视频中获取待修复的视频图像，并获取多个参考图像。在一个具体实际应用中，首先需要做一些预处理，如对受损视频进行视、音频分离、切帧处理等。在一些实施例中，通过调用某些公开视觉库的功能函数，如OpenCV(Open Source ComputerVision Library，开源计算机视觉库)或FFmpeg(可自由使用的音视频处理的开源工具)的API可以获取受损视频的基本信息，将受损视频的视频和音频分离、对视频进行切帧，从而得到多个视频帧。

然后再对所述多个视频帧进行目标检测，从所述多个视频帧中确定出包含附加内容的一个或多个合成视频帧及没有附加内容的原始视频帧。在一些实施例中，通过深度学习目标检测(Objective Detection)算法来逐帧检测视频帧中的附加内容信息。这些算法包括但不限于R-CNN系算法(如R-CNN、Fast R-CNN、Faster R-CNN等)、Yolo(You Only LookOnce:Unified,Real-Time Object Detection)算法或SSD(Single Shot MultiBoxDetector)算法中的一种或多种。在本发明一个实施例中，检测出的附加内容信息包括但不限于：

附加内容的种类，包括但不限于文字、图片/动图、动画等；

附加内容的表观：包括但不限于包括但不限于形状、图案、颜色、大小等；

附加内容在视频帧中的位置，包括但不限于：边、角、背景、图像中的某个感兴趣区域；以及

附加内容在视频帧中出现的时间段。

在一个简单的实施方式中，可以只检测出附加内容的轮廓，从而提高检测效率。

在一个实施例中，为了减小计算量，提高修复效率，可对所有的视频帧进行切块处理，即从合成视频帧中切分出包含附加内容的图像块，将其作为待修复视频图像，对应地，从原始视频帧中在与附加内容对应的位置切分出大小相同的一块图像作为参考图像。

在一个更好地实施例中，对待修复视频图像和参考图像进行分组，每一组中至少包括一个待修复视频图像和多个参考图像，在以下步骤中分组进行修复。从待修复视频图像中提取出附加内容的背景，根据背景，将待修复视频图像和参考图像分为多组。例如，将附加内容的背景为天空的待修复视频图像和参考图像分为一组，将背景为草地的待修复视频图像和参考图像分为一组等等。在分组修复时，可利用具有相似背景的图像进行信息互补，既可以提升修复的效果，也提升了算法效率。

步骤S2，分别对所述待修复视频图像和参考图像进行编码，将编码后得到的两个特征图分别作为其图像的key和value。如图2所示，为编码时采用的神经网络架构图。在图2所示的实施例中，所述神经网络使用gated convolution作为基本组件，共7个卷积层，使用LeakyRelu作为激活函数。其中，第一层卷积层共有64个5x5的卷积核，卷积步长s为2；第二层卷积层共有64个3x3的卷积核，卷积步长s为1；第三层卷积层共有128个3x3的卷积核，卷积步长s为2；第四层卷积层共有128个3x3的卷积核，卷积步长s为1，膨胀系数d为2；第五层卷积层共有128个3x3的卷积核，卷积步长s为1，膨胀系数d为4；第六层卷积层共128个3x3的卷积核，卷积步长s为1，膨胀系数d为8；第七层卷积层含有两个分支，生成的特征图(feature map)分别作为key和value。通过将待修复视频图像和参考图像分别输入到所述神经网络中，分别得到对应的key和value。例如，对于256*256*3的图像，经过前述神经网络架构的处理后得到两个特征图，每个特征图的维度为64*64*128。

步骤S3，计算待修复视频图像的新value。其中，通过对比待修复视频图像的key和参考图像的key可以获得所述参考图像相对于待修复视频图像的权重a，并根据待修复视频图像的value和参考图像的value及其相对于待修复视频图像的权重a获得待修复视频图像的新value。在一个实施例中，获取新value的方法如图3所示。

步骤S31，分别计算每一个参考图像key和一个待修复视频图像的key内积，再对所述内积进行归一化，将处理完的结果作为该参考图像相对所述待修复视频图像的权重a。

步骤S32，计算每一参考图像的value与其权重a的内积，从而得到每一参考图像的加权value；

步骤S33，计算所述待修复视频图像value与多个参考图像加权value的和以得到所述待修复视频图像的新value。

在以上实施例中，所述value为向量，将待修复视频图像的value和各参考图像的加权value相加时，采用向量相加，即分别将各个分量相加作为新值的对应分量即可。

步骤S4，对具有新value的待修复视频图像的编码进行解码，得到已修复的视频图像。为了得到与原待修复视频图像大小相等的已修复的视频图像，在解码时，采用与编码时相对应的神经网络架构，如图4所示。使用gated convolution作为基本组件，共7个卷积层，使用LeakyRelu作为激活函数，使用最近邻上采样算法，输出与原视频帧或原待修复视频图像相同大小(size)的图像。

如果所述之前进行了切块处理，在得到已修复图像后，将已修改复图像回填回原合成视频帧中，再将所有的视频帧合成为视频，与原音频文件合成为一个完整的视频。

根据本发明的另一个方面，本发明还提供了一种视频图像修复***。如图5所示，为根据本发明一种视频图像修复***的原理框图。所述***包括图像获取模块1、编码模块2、填充模块3和解码模块4。其中，所述图像获取模块1用于获取待修复视频图像和多个参考图像。所述的修复视频图像和多个参考图像可以来自于同一个视频，也可是不同视频的视频帧图像。在视频图像已知时，如图6所示，所述图像获取模块1包括背景提取单元11和分组单元12，其中，所述背景提取单元11分别用以从待修复视频图像中提取附加内容的背景，并确定参考图像的背景。所述的背景例如为天空、草地、城市或人群等，提取背景时可采用目标检测法，检测附加内容的背景图像。所述分组单元12按照背景对待修复视频图像和参考图像进行分组，将具有相同背景的图像分为一组，用于后续的图像填充。

如果原视频或已知视频图像的视频帧分辨率较大时，附加内容覆盖的区域相对于视频帧较小，为了减小计算量，提高修复效率，所述视频获取模块1还进一步包括切块单元13，用以从原视频帧或原视频图像中切分出包括附加内容的图像块作为待修复视频图像，用以减小待修复视频图像的尺寸，从而减小后续的计算量。同理，对应地，参考图像也为与待修复视频图像大小相同的图像块。

所述编码模块2用于对所述待修复视频图像和参考图像进行编码，将编码后得到的两个特征图分别作为其图像的key和value。所述编码模块2采用5-10个卷积层的神经网络结构，每层卷积层的卷积核可以为3*3，或5*5。为了提高感受野，可以为每层卷积层或其中的部分卷积层设置膨胀系数。如图2所示的架构，第一层的卷积核可以为5*5，其他卷积层的卷积核为3*3，并且，从第四层开始设置膨胀系数。图中第一层上的数字，如24、128为卷积核的数量，s为步长，d为膨胀系数。第七层包含两个分支，生成的feature map分别作为该编码图像的key和value。通过所述编码模块2对每一个图像进行编码，分别得到所述待修复视频图像的key和value，每一个参考图像的key和value。

所述填充模块3利用待修复视频图像的key和参考图像的key获得所述参考图像相对于待修复视频图像的权重a，并根据待修复视频图像的value和参考图像的value及其相对于待修复视频图像的权重a获得待修复视频图像的新value。在一个实施例中，如图7所示，所述填充模块3包括权重计算单元31、参考图像value计算单元32和value计算单元33，其中，所述权重计算单元31计算每一个参考图像key2和所述待修复视频图像的key1内积以确定每一参考图像相对所述待修复视频图像的权重a。在一个简单的实施例中，将参考图像key2和所述待修复视频图像的key1内积进行归一化处理后得到的结果作为该参考图像相对所述待修复视频图像的权重a，其代表了参考图像与待修复图像的相似性。所述参考图像value计算单元32用于计算每一参考图像的value2与其权重a的内积，从而确定每一参考图像的加权value2’。所述value计算单元33用于计算所述待修复视频图像value1与多个参考图像加权value2’的和以得到一个value1’，其作为所述待修复视频图像的新value。即对待修复视频图像进行填充后的图像value。在本实施例中，所述填充模块3可按组进行填充。由于每一组中图像背景相近，因而利用参考图像的相近图像进行信息互补，从而更好地填充图像。

所述解码模块4的结构与所述编码模块2的结构相对应，以得到与待修复视频图像相同尺寸的已修复视频图像。例如，采用图4所示的神经网络架构，其与图2所神经网络架构相对应，从而得到与原待修复视频图像相同尺寸的已修复视频图像。

图8是根据本发明一个应用实施例的视频修复原理框图。在本实施例中，所述待修复视频图像来自于某个或某段视频，所述视频或该段视频中由于某些原因，使其中的部分视频画面被额外增加的附加内容覆盖，在本发明中称为受损视频。为了从受损视频得到需要修复的视频图像和多个参考图像，除了图5中的模块外，还包括预处理模块，如切帧模块5和检测模块6，其中，所述切帧模块5调用OpenCV或FFmpeg等公开视觉库的功能函数，可以获取受损视频的基本信息，并对受损视频进行视、音频分离、对视频进行切帧，从而得到多个视频帧。所述检测模块6对切帧后得到的多个视频帧进行目标检测，从所述多个视频帧中确定出一个或多个包含附加内容的合成视频帧及没有附加内容的原始视频帧。在一些实施例中，通过深度学习目标检测(Objective Detection)算法来逐帧检测视频帧中的附加内容信息。这些算法包括但不限于R-CNN系算法(如R-CNN、Fast R-CNN、Faster R-CNN等)、Yolo(You Only Look Once:Unified,Real-Time Object Detection)算法或SSD(Single ShotMultiBox Detector)算法中的一种或多种。在本发明一个实施例中，检测出的附加内容信息包括但不限于附加内容的种类，如文字、图片/动图、动画等；包括但不限于附加内容的表观，如形状、图案、颜色、大小等；还可以包括附加内容在视频帧中的位置，例如位于视频帧的边、角、背景、图像中的某个感兴趣区域；还可以检测出附加内容在视频帧中出现的时间段。在一个最简单的实施方式中，可以只检测出附加内容的轮廓，从而提高检测效率。图像获取模块1将合成视频帧或从中切分出的图像块作为待修复视频图像，将原始视频帧或从中切分出的图像块作为参考图像。其余可参考对图5的说明，在此不再赘述。

在一个应用实施例中，当某个视频中增加了趣味性装饰图像，如人物头饰，时，这些装饰图像遮盖了原视频中的某些画面，为了回复原视频画面，可采用本发明所述的方法对带有装饰图像的视频图像进行填充，从而去掉所述装饰图像。具体如图9所示，为根据本发明一个应用实施例的视频图像恢复方法流程图。

步骤S101，获取待修复视频文件，并分离所述待修复视频的视频和音频。这一步骤是可选的。对于仅有视频内容的视频文件，并不需要此步骤。

在一些实施例中，在获取视频文件的同时，获取到待修复视频的基本信息，包括分辨率、帧率、时长、总帧数等，并从视频中提取出音频内容，将音频内容存储起来，以便在后续处理完视频时再重新合成。在一些实施例中，在该步骤中，可以通过调用某些公开视觉库的功能函数，如OpenCV(Open Source Computer Vision Library，开源计算机视觉库)或FFmpeg(可自由使用的音视频处理的开源工具)的API可以获取待修复视频的基本信息，并将视频和音频分离后以文件的形式保存到磁盘上。

步骤S102，将分离后的视频切分为多个视频帧。即将视频的每一帧图像提取出来，以便于后续的处理。在一些实施例中，同样，可以调用OpenCV或FFmpeg的功能函数API实现切帧功能。

步骤S103，对多个视频帧进行目标检测以确定遮挡原视频画面的图像，即所述的附加内容。附加内容可能位于整个视频的所有视频帧上，也可能只位于部分时段的视频帧上。为了说明方便，将合成有附加内容的视频帧称为合成视频帧，将没有附加内容的视频帧称为原始视频帧。

在一些实施例中，通过深度学习目标检测(Objective Detection)算法来逐帧检测切分后的视频帧，并获得检测视频帧中的附加内容信息。这些算法包括但不限于采用R-CNN系算法(如R-CNN、Fast R-CNN、Faster R-CNN等)、Yolo(You Only Look Once:Unified,Real-Time Object Detection)算法或SSD(Single Shot MultiBox Detector)算法中的一种或多种。

在一个实施例中，目标检测算法为两步(Two-Stage)目标检测法，首先产生候选区域(Region Proposals)，然后对候选区域进行分类和位置精修。这类算法的典型代表是基于候选区域的R-CNN系列算法。在一些实施例中，目标检测算法为单步(One-Stage)目标检测法，不需要产生候选区域的步骤，直接产生物体的类别概率和位置坐标值，比较典型的算法如YOLO和SSD。

以上步骤为可选步骤，如果待修复视频中的附加内容已知，则不需要检测附加内容。

步骤S104，获取匹配图像信息填充合成视频帧中附加内容所在的图像区域。本实施例从其他视频帧中获取与合成视频帧中附加内容的背景图像相匹配的图像来填充附加内容所在的图像区域，从显示结果来看，可以取得与除掉附加内容相同的效果。在一个实施例中，如图10所示，为填充合成视频帧中的附加内容所在图像区域的方法流程图，具体包括以下步骤：

步骤S201，对切分得到的多个视频帧按照附加内容所在的背景分组。在一个具体实施例中，为了能够获取匹配的图像信息并减少计算量，以附加内容的背景为场景，将相近场景的视频帧(包含原始视频帧和合成视频帧)分为一组，从而可以将所有的视频帧分为多组。例如，当一个合成视频帧的附加内容的背景为天空，则将背景为天空的所有的视频帧分为一组。如果一个合成视频帧的附加内容的背景为绿地，将背景为绿地的视频帧分为一组等等。通过分组，在图像信息的获取、填充时，以相同场景的视频帧为操作对象，利用具有相似背景的图片进行信息互补，既可以提升附加内容去除的效果，也提升了算法效率。在一个具体实施例中，可采用图像直方图对视频帧进行场景分割，而后再进行分组。

在获取匹配图像信息填充所述合成视频帧中的附加内容所在区域时，利用深度学习方法实现匹配图像信息的获取及填充。

步骤S202，对同一组中的每一个视频帧进行编码，将编码后得到的两个特征图分别作为key和value。在一个实施例中，编码时采用的神经网络架构如图3所示。

步骤S203，在同组视频帧中，以其中的一个合成视频帧为本帧，从剩余视频帧中选取多帧作为参考帧，根据本帧key与参考帧key的相似性确定每一参考帧的权重a。其中，为减少计算量，在本组中，从除了本帧外的剩余视频帧中平均选取参考帧，如每5、10或15帧中选一帧作为参考帧。

步骤S204，计算每一参考帧的value和权重a的内积，从而得到每一参考帧的加权value。

步骤S205，计算本帧value与同组参考帧加权value的和，从而得到本帧的新value，该新value即为得到的匹配图像信息，并且，其已经填充到附加内容遮挡的图像区域，因而完成了图像的修复。

步骤S206，还原视频帧。在一个实施例中，利用深度学习方法对具有的新value的合成视频帧进行解码以还原视频帧，还原后视频帧即为已修复视频帧。

同理，对同组其他合成视频帧重新前述步骤S202-S206完成一组合成视频帧的修复。重新步骤S201-S206完成其他组的合成视频帧的修复。

步骤S105，将处理完的视频帧和分离出来的音频合成为已修复视频，此时的已修复视频不再带有附加信息，去除了原画面的遮挡物。

在前述处理过程中，如果视频帧较大，而附加内容较小，可从原合成视频帧中将附加内容切分出来，将切分出来包括了附加内容的图像块作为处理对象，在对该图像块修复完成后，再将其回填入原视频帧。

本发明采用注意力机制，快速、有效地利用高匹配度的图像信息填补附加内容区域，在获得好的修复效果的同时提高了修复效率。

上述实施例仅供说明本发明之用，而并非是对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明范围的情况下，还可以做出各种变化和变型，因此，所有等同的技术方案也应属于本发明公开的范畴。

Claims

1.一种视频图像修复方法，包括：

对具有新value的待修复视频图像进行解码，得到已修复的视频图像；

进一步包括：

对待修复视频进行切帧以得到多个视频帧；以及

对所述多个视频帧进行目标检测，从所述多个视频帧中确定出包含附加内容的一个或多个合成视频帧及没有附加内容的原始视频帧；

进一步包括：

2.根据权利要求1所述的方法，其中进一步包括：

3.根据权利要求1所述的方法，其中进一步包括：采用深度学习目标检测算法检测视频帧以确定合成视频帧中的附加内容信息。

4.根据权利要求1所述的方法，进一步包括：

从待修复视频图像中提取附加内容的背景；以及

5.根据权利要求1所述的方法，对所述待修复视频图像和参考图像进行编码时，采用的编码神经网络结构包括5-10个卷积层，每层的卷积核为3*3或5*5。

6.根据权利要求5所述的方法，其中进一步包括：为所述多个卷积层中的一层或多层设置膨胀系数。

7.根据权利要求5所述的方法，其中解码时采用的解码神经网络结构与编码神经网络的结构相对应，得到与待修复视频图像相同尺寸的已修复视频图像。

8.一种视频图像修复***，包括：

图像获取模块，经配置以获取待修复视频图像及多个参考图像，其中，所述待修复视频图像中包括应去除的附加内容；

编码模块，经配置以分别对所述待修复视频图像和参考图像进行编码，将编码后得到的两个特征图分别作为其图像的key和value；

填充模块，经配置以利用注意力机制，根据所述待修复视频图像和参考图像的key和value获得待修复视频图像的新value；

解码模块，经配置以对获得新value的待修复视频图像的编码进行解码，得到已修复视频图像；

切帧模块，对待修复视频进行切帧以得到多个视频帧；

检测模块，经配置以对所述视频帧进行目标检测，从所述多个视频帧中确定出一个或多个包含附加内容的合成视频帧及没有附加内容的原始视频帧；

切块单元，经配置以从合成视频帧中切分出包括附加内容的图像块作为待修复视频图像，从原始视频帧中切分出与附加内容的位置相对应的图像块作为参考图像。

9.根据权利要求8所述的***，所述图像获取模块经进一步配置包括：

背景提取单元，经配置以从待修复视频图像中提取附加内容的背景；以及

分组单元，经配置以所述附加内容的背景对待修复的视频图像和参考图像进行分组。

10.根据权利要求8所述的***，其中，所述检测模块采用深度学习目标检测算法检测视频帧以确定合成视频帧中的附加内容信息。

11.根据权利要求8所述的***，其中，所述编码模块经进一步包括5-10个卷积层，每层的卷积核为3*3或5*5。

12.根据权利要求11所述的***，其中，所述卷积层中的一层或多层设有膨胀系数。

13.根据权利要求11所述的***，其中，所述解码模块的结构与所述编码模块的结构相对应，以得到与待修复视频图像相同尺寸的已修复视频图像。

14.根据权利要求8所述的***，其中，所述填充模块进一步包括：

权重计算单元，经配置计算每一个参考图像和所述待修复视频图像的key内积以确定每一参考图像相对所述待修复视频图像的权重a；

参考图像value计算单元，经配置以计算每一参考图像的value与其权重a的内积以确定每一参考图像的加权value；以及

value计算单元，经配置以计算所述待修复视频图像value与多个参考图像加权value的和以得到所述待修复视频图像的新value。