CN117455812A

CN117455812A - 一种视频修复方法及***

Info

Publication number: CN117455812A
Application number: CN202311504674.0A
Authority: CN
Inventors: 沈君华
Original assignee: Zhejiang Zhonglu Culture Communication Co ltd
Current assignee: Zhejiang Zhonglu Culture Communication Co ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-01-26
Anticipated expiration: 2043-11-13
Also published as: CN117455812B

Abstract

本发明公开了一种视频修复方法及***，属于图像数据处理技术领域，方法包括：获取视频数据；构建缺陷区域检测模型，通过缺陷区域检测模型，检测各个视频帧中的缺陷区域；通过光流提取算法，提取各个视频帧的光流特征；通过卷积神经网络，提取各个视频帧的局部特征；通过长短时记忆网络，提取各个视频帧的全局特征；对光流特征、局部特征和全局特征进行特征融合，得到融合特征；根据融合特征，检测各个视频帧中的缺陷区域；构建视频修复模型，通过视频修复模型，对缺陷区域进行修复；检测邻近帧中是否存在未损坏的诱导图像帧；根据诱导图像帧，对缺陷区域进行修复；通过生成对抗网络，对缺陷区域进行修复。

Description

一种视频修复方法及***

技术领域

本发明属于图像数据处理技术领域，具体涉及一种视频修复方法及***。

背景技术

视频作为现代社会的主流载体之一，在拍摄、储存和传输过程中，由于硬件设备、成像技术、运动模糊、环境光照、大气颗粒物等因素的影响，视频中可能会出现模糊、损坏或缺失的情况，往往需要使用视频修复技术对原视频进行修复。

然而，现有的视频修复技术主要采用线性或非线性插值来填补视频中的缺失帧，其主要原理是使用邻近帧的信息进行插值来补充缺失区域，容易导致图像伪影、失真和不连续性，特别是在高度损坏的区域。

随着模式识别、机器视觉、深度学习等技术的迅速发展，以及对于视频修复的迫切需要，越来越多的现代化技术被应用到视频修复中。

然而，当前生成对抗网络已被应用到视频修复中，其主要原理是基于生成器和判别器的博弈过程，最终通过生成器生成高质量图像对视频进行修复。然而，生成对抗网络的需要大量的计算资源，导致视频修复成本高，修复效率低。

发明内容

为了解决当前采用线性或非线性插值来填补视频中的缺失帧，容易导致图像伪影、失真和不连续性，采用生成对抗网络需要大量的计算资源，导致视频修复成本高，修复效率低的技术问题，本发明提供一种视频修复方法及***。

第一方面

本发明提供了一种视频修复方法，包括：

S1：获取视频数据；

S2：构建缺陷区域检测模型，通过所述缺陷区域检测模型，检测各个视频帧中的缺陷区域；所述S2具体包括：

S201：通过光流提取算法，提取各个视频帧的光流特征；

S202：通过卷积神经网络，提取各个视频帧的局部特征；

S203：通过长短时记忆网络，提取各个视频帧的全局特征；

S204：对所述光流特征、所述局部特征和所述全局特征进行特征融合，得到融合特征；

S205：根据所述融合特征，检测各个视频帧中的缺陷区域；

S3：构建视频修复模型，通过所述视频修复模型，对所述缺陷区域进行修复；所述S3具体包括：

S301：检测邻近帧中是否存在未损坏的诱导图像帧，若是，执行S302，否则，执行S304；

S302：根据所述诱导图像帧，对所述缺陷区域进行修复；

S303：计算修复后的视频帧的图像质量评分，当所述修复后的视频帧的图像质量评分低于预设评分时，执行S304；

S304：通过生成对抗网络，对所述缺陷区域进行修复。

第二方面

本发明提供了一种视频修复***，包括处理器和用于存储处理器可执行指令的存储器；所述处理器被配置为调用所述存储器存储的指令，以执行第一方面中的视频修复方法。

与现有技术相比，本发明至少具有以下有益技术效果：

(1)在本发明中，首先当邻近帧中存在未损坏的诱导图像帧时，优先用诱导图像帧对所述缺陷区域进行修复，如果达不到修复质量才会采用生成对抗网络进行修复，可以一定程度地节省计算资源，降低视频修复成本，提升修复效率，并且无需采用线性或非线性插值来填补视频中的缺失帧，对修复质量进行监测，避免出现图像伪影、失真和不连续性。

(2)在本发明中，综合考虑光流特征、局部特征和全局特征，更全面地评估视频帧的特征，自动化确定缺陷区域，同时提升视频缺陷区域检测的准确性。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种视频修复方法的流程示意图。

图2是本发明提供的一种视频修复***的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接。可以是机械连接，也可以是电连接。可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

在一个实施例中，参考说明书附图1，示出了本发明提供的一种视频修复方法的流程示意图。

本发明提供的一种视频修复方法，包括：

S1：获取视频数据。

S2：构建缺陷区域检测模型，通过缺陷区域检测模型，检测各个视频帧中的缺陷区域。

在一种可能的实施方式中，S2具体包括子步骤S201至S205：

S201：通过光流提取算法，提取各个视频帧的光流特征。

其中，光流特征是描述相邻视频帧之间像素位移的计算机视觉特征。反映了视频中物体的运动信息，通常以光流场的形式表示。光流场是一个包含了每个像素点的运动位移向量的图像，其中每个像素的位移矢量表示了该像素从一个帧到另一个帧的位移。

具体而言，光流提取算法包括：Lucas-Kanade光流提取算法、Horn-Schunck光流提取算法和Farneback光流提取算法。

在一种可能的实施方式中，本发明提出了一种全新的光流提取算法，子步骤S201具体包括孙步骤S2011至S2013：

S2011：在光流基本方程的基础上引入光滑性约束，构建光流提取算法。

其中，光流基本方程表示为：

其中，ξ表示光流基本约束参数，I表示像素点(x,y)处的灰度值，(x,y)表示像素点坐标，t表示时间。

其中，光滑性约束表示为：

其中，ζ表示光滑约束参数。

具体而言，通过在光流基本方程上引入光滑性约束，可以更好地处理图像中像素点之间的连续性和一致性，有助于减少在光流估计中可能出现的噪声和不稳定性，提高光流的准确性。

S2012：构建光流提取目标函数：

f₁(u,v)＝minL＝min{[∫α·ζ²+(1-α)ξ²dxdy}

其中，f₁()表示光流提取目标函数，(u,v)表示像素点(x,y)处的位移矢量，L表示光流提取目标项，ζ表示光滑约束参数，ξ表示光流基本约束参数，α表示光滑约束参数的权重系数。

其中，本领域技术人员可以根据实际情况设置光滑约束参数的权重系数α的大小，本发明不做限定。

S2013：以光流提取目标函数的函数值最小为目标，通过欧拉-拉格朗日方程对光流提取目标项进行求解，得到各个像素点的位移矢量(u,v)，汇总得到各个视频帧的光流特征。

具体而言，使用欧拉-拉格朗日方程对目标函数进行求解是一种常见的最优化方法，可以帮助找到目标函数的最小值，即找到合适的位移矢量(u,v)，以最好地描述图像中的像素位移。

在本发明中，通过在光流提取算法中引入光滑性约束和构建光流提取目标函数，可以提高光流估计的准确性和稳定性，有助于更好地理解图像中的运动信息，提升视频修复效果。

S202：通过卷积神经网络，提取各个视频帧的局部特征。

其中，卷积神经网络(Convolutional Neural Network，CNN)是一种深度学习神经网络架构，专门用于处理和分析具有网格结构数据的机器学习任务。

在一种可能的实施方式中，子步骤S202具体包括孙步骤S2021至S2024：

S2021：输入视频数据。

S2022：提取视频数据的数据特征：

其中，表示当前卷积层第j个通道的输出，/>表示前一卷积层第j个通道中第i个卷积核的输出，/>表示当前卷积层的卷积核权重，/>表示当前卷积层的偏置项，M_j表示选择的输入特征映射，f_c()表示卷积层激活函数。

具体而言，在卷积神经网络中，通过多个卷积核，每个卷积核检测不同的特征，导致了多通道的特征映射，每个通道对应于不同的特征。这些多通道的特征映射可以提供更多的信息，帮助***更好地理解视频中的内容。

S2023：对卷积层提取的特征进行降维压缩：

其中，表示当前池化层第j个通道的输出，f_p()表示池化层激活函数，/>表示当前池化层的乘法偏置，f_down()表示下采样函数，/>表示前一池化层第j个通道的输出，/>表示当前池化层的加法偏置。

具体而言，在池化层中对特征进行降维和压缩有助于减少计算负担和提高计算效率，通过减小特征的空间分辨率，可以有效地减小特征维度，减少后续处理的复杂性。

S2024：对池化层的输出进行汇总，得到视频数据的局部特征。

具体而言，局部特征经过卷积和池化后，被汇总成视频数据的局部特征表示。局部特征表示将包含视频帧中的主要局部特征信息，有助于后续步骤更好地理解视频内容和结构。

在本发明中，使用卷积神经网络来提取视频帧的局部特征可以帮助***更好地理解视频的细节和结构，从而提高视频修复任务的准确性和效率。

S203：通过长短时记忆网络，提取各个视频帧的全局特征。

其中，长短时记忆网络(Long Short-Term Memory，LSTM)是一种递归神经网络(Recurrent Neural Network，RNN)的变体，旨在解决RNN在处理长序列数据时出现的梯度消失和梯度***问题。

需要说明的是，视频数据通常包含时间相关信息，例如对象的运动、动作、连续性等。LSTM网络能够有效地捕获和建模这种时间依赖性。通过LSTM，网络可以记住之前的帧并在后续帧中使用这些信息，从而更好地理解视频的全局上下文。

在一种可能的实施方式中，子步骤S203具体包括孙步骤S2031至S2033：

S2031：输入视频数据的视频帧序列。

S2032：提取各个视频帧的隐状态h，其中，隐状态包括前向隐状态和后向隐状态

I_t＝Sigmoid(W_XIX_t+W_HIh_t-1+b_I)

F_t＝Sigmoid(W_XFX_t+W_HFh_t-1+b_F)

O_t＝Sigmoid(W_XOX_t+W_HOh_t-1+b_O)

C'_t＝tanh(W_XCX_t+W_HCh_t-1+b_C)

C_t＝F_t·C_t-1+I_t·C'_t

h_t＝O_t·tanh(C_t)

其中，I_t表示t时刻输入门的激活输出向量，Sigmoid()表示Sigmoid激活函数，W_XI表示分词序列和输入门之间的权重矩阵，W_HI表示隐藏状态和输入门之间的权重矩阵，b_I表示输入门的偏置项，F_t表示t时刻忘记门的激活输出向量，W_XF表示分词序列和忘记门之间的权重矩阵，W_HF表示隐藏状态和忘记门之间的权重矩阵，b_F表示忘记门的偏置项，O_t表示t时刻输出门的激活输出向量，W_XO表示分词序列和输出门之间的权重矩阵，W_HO表示隐藏状态和输出门之间的权重矩阵，C_t表示t时刻细胞存储单元的激活输出向量，C'_t表示t时刻细胞存储单元的候选输出向量，C_t-1表示t-1时刻细胞存储单元的激活输出向量，tanh()表示tanh激活函数，W_XC表示分词序列和细胞存储单元之间的权重矩阵，W_HC表示隐藏状态和细胞存储单元之间的权重矩阵，b_C表示细胞存储单元的偏置项，h_t表示t时刻的隐状态，h_t-1表示t-1时刻的隐状态。

S2033：对前向隐状态和后向隐状态进行整合，得到综合隐状态，作为各个视频帧的全局特征：

其中，H_t表示t时刻的综合隐状态，W_t ^f表示t时刻的前向权重矩阵，表示t时刻的前向隐状态，W_t ^b表示t时刻的后向权重矩阵，/>表示t时刻的后向隐状态。

需要说明的是，整合前向和后向隐状态，使综合隐状态更全面，允许模型考虑视频帧的上下文，捕获时间特征。

在本发明中，使用LSTM来提取视频帧的全局特征有助于更好地理解视频内容，包括时间依赖性、运动信息和连续性，从而在视频修复等任务中提高性能。

S204：对光流特征、局部特征和全局特征进行特征融合，得到融合特征。

在一种可能的实施方式中，S204具体为：根据以下公式，对光流特征、局部特征和全局特征进行特征融合，得到融合特征：

S＝β₁·s₁+β₂·s₂+β₃·s₃

其中，S表示融合特征，s₁表示光流特征，β₁表示光流特征的权重系数，s₂表示局部特征，β₂表示局部特征的权重系数，s₃表示全局特征，β₃表示全局特征的权重系数。

其中，本领域技术人员可以根据实际情况设置光流特征的权重系数β₁、局部特征的权重系数β₂和全局特征的权重系数β₃的大小，本发明不做限定。

在本发明中，特征融合允许模型从不同的特征源中受益，提高了模型的综合性能，适应性和鲁棒性。

S205：根据融合特征，检测各个视频帧中的缺陷区域。

在一种可能的实施方式中，子步骤S205具体包括孙步骤S2051至S2053：

S2051：根据融合特征，计算各个像素点的缺陷检测值：

C_ij＝Softmax(W·S_ij+B)

其中，C_ij表示像素点(x_i,y_j)处的缺陷检测值，Softmax()表示Softmax激活函数，S_ij表示像素点(x_i,y_j)处的融合特征值，W表示权重系数，B表示偏置参数。

S2052：当缺陷检测值大于预设数值时，将像素点确定为缺陷像素点。

S2053：将各个缺陷像素点组合为缺陷区域。

在本发明中，综合考虑光流特征、局部特征和全局特征，更全面地评估视频帧的特征，自动化确定缺陷区域，同时提升视频缺陷区域检测的准确性。

在一种可能的实施方式中，缺陷区域检测模型的训练方法包括：

构建缺陷区域检测模型的损失函数：

L(θ)＝λL_dice+(1-λ)L_IoU

其中，L()表示损失函数，θ缺陷区域检测模型的模型参数集合，θ＝[α,β₁,β₂,β₃,W,B]，L_dice表示Dice损失，λ表示Dice损失的权重系数，L_IoU表示IoU损失。

其中，本领域技术人员可以根据实际情况设置Dice损失的权重系数λ的大小，本发明不做限定。

在本发明中，Dice损失和IoU损失都是用于度量预测结果和真实标签之间的重叠程度。Dice损失侧重于精确性，而IoU损失侧重于召回率。通过同时使用这两种损失，模型会在训练过程中更加全面地考虑精确性和召回率，以更好地适应各种检测任务。

其中，Dice损失具体为：

其中，y_i表示第i个样本的真实标签，表示第i个样本的预测结果，i＝1,2,…,N，N表示样本总数。

其中，IoU损失具体为：

以缺陷区域检测模型的损失函数的函数值最小为目标，对缺陷区域检测模型进行训练。

在本发明中，综合使用Dice损失和IoU损失构建损失函数有助于提高缺陷区域检测模型的性能，使其在精确性、召回率和适应不平衡数据等方面表现更好。

在一种可能的实施方式中，以缺陷区域检测模型的损失函数的函数值最小为目标，对缺陷区域检测模型进行训练，具体包括：

初始化种群Q、初始温度T₀、最大迭代次数m和终止温度T_m，种群Q中包括多个个体X，每个个体X代表一个可行的模型参数集合θ，θ＝[α,β₁,β₂,β₃,W,B]；

计算各个个体的适应度值，确定种群Q的食物位置与天敌位置，其中，适应度值的计算方式为：

其中，δ_i表示第i个个体的适应度值，L_i表示采用第i个个体的模型参数集合时损失函数的函数值；

需要说明的是，以损失函数的倒数作为适应度函数，可以便于后续的计算以及寻优。

针对个体X进行变异操作，生成新个体X_new：

其中，X_new表示新个体，X表示目标个体，X_max表示适应度值最大的个体，X_min表示适应度值最小的个体，rand表示0至1之间的随机数；

在本发明中，通过对个体进行变异操作，可以引入新的解决方案，从而增加种群的多样性，有助于探索先前未知的解决方案，使算法更有可能找到全局最优解。

比较个体X与新个体X_new之间的适应度值，当δ(X_new)＞δ(X)时，使用新个体X_new替换个体X；当δ(X_new)≤δ(X)时，以预设替换概率P，使用新个体X_new替换个体X；

其中，预设替换概率P的计算方式为：

其中，P表示预设替换概率，e表示自然对数，δ(X_new)表示新个体X_new的适应度值，δ(X)表示个体X的适应度值，T表示当前温度；

在本发明中，引入了温度参数T，允许在早期阶段接受更多的次优解，从而有助于避免过早陷入局部最优解；当温度较高时，更容易接受较差的解，逐渐减小温度可以逐渐收敛到更好的解。

在本发明中，使用预设替换概率P来控制是否接受新个体，有助于在搜索空间中进行随机探索。通过以较高概率接受新解，有机会发现更好的解，而随着温度的逐渐降低，逐渐陷入收敛状态。

当新个体X_new未能成功替换个体X时，更新个体X的位置：

X_t+1＝X_t+ΔX_t+1

ΔX_t+1＝(η₁A₁+η₂A₂+η₃A₃+η₄A₄+η₅A₅)+ωΔX_t

其中，X_t+1表示第t+1次迭代时个体X的位置，X_t表示第t次迭代时个体X的位置，ΔX_t+1表示第t+1次迭代时的位移向量，ΔX_t表示第t次迭代时的位移向量，A₁表示第一行为，η₁表示第一行为的权重系数，A₂表示第二行为，η₂表示第二行为的权重系数，A₃表示第三行为，η₃表示第三行为的权重系数，A₄表示第四行为，η₄表示第四行为的权重系数，A₅表示第五行为，η₅表示第五行为的权重系数，ω表示惯性权重因子；

可选地，第一行为表示分离，第二行为表示对齐，第三行为表示聚集，第四行为表示捕食，第五行为表示躲避天敌；

在本发明中，即使新个体X_new未能替换个体X，也会通过位置更新策略对个体X的位置进行微小的调整，有助于保持个体之间的多样性，避免种群陷入局部最优解，通过小幅度的位移，个体可以逐渐趋向更好的解决方案，而不会突然跳出潜在的良好解决方案。

判断迭代次数是否达到最大迭代次数m，或者，当前温度是否达到终止温度T_m；若是，输出预约适应度值最大(损失函数的函数值最小)的可行解作为最优解；否则，对温度进行更新，返回前述计算各个个体的适应度值的步骤继续迭代：

T_t+1＝εT_t

其中，ε表示降温系数，T_t+1表示第t+1次迭代时的温度，T_t表示第t次迭代时的温度。

在本发明中，通过随着迭代逐渐减小温度，算法能够更容易地从初始解中逃脱，并在搜索空间中更广泛地探索，以找到全局最优解，温度的逐渐降低有助于引导搜索朝向更优解。

S3：构建视频修复模型，通过视频修复模型，对缺陷区域进行修复。S3具体包括子步骤S301至S304：

S301：检测邻近帧中是否存在未损坏的诱导图像帧，若是，执行S302，否则，执行S304。

在一种可能的实施方式中，子步骤S301具体包括孙步骤S3011和S3012：

S3011：根据以下公式，计算当前帧与邻近帧之间的相似度：

其中，σ_k表示当前帧与第k个邻近帧之间的相似度，s₁(ij)表示当前帧中像素点(x_i,y_j)处的光流特征，s₁(ijk)表示第k个邻近帧中像素点(x_i,y_j)处的光流特征，β₁表示光流特征的权重系数，s₂(ij)表示当前帧中像素点(x_i,y_j)处的局部特征，s₂(ijk)表示第k个邻近帧中像素点(x_i,y_j)处的局部特征，β₂表示局部特征的权重系数，s₃(ij)表示当前帧中像素点(x_i,y_j)处的全局特征，s₃(ijk)表示第k个邻近帧中像素点(x_i,y_j)处的全局特征，β₃表示全局特征的权重系数，i＝1,2…,M，M表示视频横向像素点总数，j＝1,2…,N，N表示视频纵向像素点总数。

在本发明中，通过整合不同类型的特征信息(光流特征、局部特征和全局特征)，算法可以更全面地比较当前帧与邻近帧之间的相似度，有助于更好地理解帧之间的关系，特别是在存在复杂运动或不均匀变化的情况下。进一步地，相似度计算公式将各种特征维度的信息结合起来，可以更精确地反映帧之间的相似度，从而更好地决定是否使用邻近帧来修复当前帧。这有助于减少错误决策，提高了修复的效果。

S3012：当当前帧与邻近帧之间的相似度大于预设相似度时，检查邻近帧是否存在未损坏的诱导图像帧，若是，执行S302，否则，执行S304。

其中，本领域技术人员可以根据实际情况设置预设相似度的大小，本发明不做限定。

S302：根据诱导图像帧，对缺陷区域进行修复。

在本发明中，优先确定相似的邻近帧中是否并未损坏，可以快速地采用未损坏的近似邻近帧进行视频修复，提升视频修复效率。

在一种可能的实施方式中，本发明提出了一种全新的视频修复方式，子步骤S302具体包括孙步骤S3021至S3023：

S3021：通过动态高斯过程，对视频帧进行降维处理，将高维的融合特征映射到低维的潜在变量空间。

需要说明的是，将视频帧的高维融合特征映射到低维的潜在变量空间。这有助于减小数据的维度，减轻计算负担，同时保留关键信息。低维表示有助于更有效地处理后续的图像修复任务。

在一种可能的实施方式中，本发明提出了一种全新的动态高斯过程的构建方式，包括：

引入M个辅助点，根据M个辅助点的辅助输入位置Z以及辅助输出u，得到动态高斯过程的概率模型：

p(y,f,u|X,Z)＝p(y|f)·p(f,u|X,Z)

其中，p(y,f,u|X,Z)表示动态高斯过程的概率模型，y表示输出，f表示动态高斯过程，u表示辅助输出，X表示输入位置，Z表示辅助输入位置。

需要说明的是，引入辅助点可以增加模型的灵活性，使其能够更好地适应复杂的数据分布。辅助点的引入可以减少对数据的直接依赖，从而减轻计算和存储的负担，提高模型的计算效率。进一步地，引入辅助点可以提高动态高斯过程模型的灵活性、效率和拟合能力，同时降低计算复杂性，使其更适用于各种应用，包括图像处理和修复。

通过辅助点最优分布，确定动态高斯过程的后验分布：

p(f|y)＝∫p(f|u)q(u)du

其中，p(f|y)表示动态高斯过程的后验分布，p(f|u)表示辅助点的后验分布，q(u)表示辅助点最优分布。

基于动态高斯过程的后验分布，对视频帧进行降维处理，将高维的融合特征映射到低维的潜在变量空间。

在本发明中，将高维融合特征映射到低维的潜在变量空间，有助于提高计算效率、去除噪声、保留关键信息并更好地理解数据的结构，对于各种图像处理任务，特别是图像修复任务具有益处。

S3022：在潜在变量空间中，选取诱导图像帧中的目标区域，对缺陷区域进行替换、插值和重建，以对缺陷区域进行修复。

需要说明的是，在潜在变量空间中，可以更轻松地选择目标区域，对缺陷区域进行替换、插值和重建，允许对缺陷像素或区域进行更精确和有效的修复，改善图像质量。

进一步地，相较于直接利用相似帧进行替换的传统方案，由于在潜在变量空间中的降维表示，缺陷修复更容易实现，修复后的图像可以保留原始图像的视觉质量，避免了不必要的伪影或变形。

S3023：对修复后的视频帧进行反动态高斯过程，重新映射回原始数据空间。

需要说明的是，修复后的图像在完成修复任务后，可以通过反动态高斯过程重新映射回原始数据空间，修复的图像可以保持与原始视频帧相同的分辨率和特性，不会引入意外的失真。

在本发明中，通过数据降维、缺陷修复和反映射，提供更高质量的图像修复结果，同时减小了计算成本，有助于改善图像修复算法的性能和可用性。

S303：计算修复后的视频帧的图像质量评分，当修复后的视频帧的图像质量评分低于预设评分时，执行S304。

在本发明中，评估修复后的视频帧的图像质量有助于确定修复过程的效果。如果图像质量不符合预期，***可以自动触发生成对抗网络重新修复，以确保最终输出的图像质量满足要求。同时可以一定程度地减少生成对抗网络的使用，节省计算资源，降低视频修复成本，提升修复效率。

在一种可能的实施方式中，子步骤S303具体包括孙步骤S3031和S3032：

S3031：计算修复后的视频帧的峰值信噪比和结构相似性。

其中，峰值信噪比具体为：

其中，e₁表示峰值信噪比，k表示二进制表示位数，x_ij表示原图像帧中第i行第j列个像素点的像素值，y_ij表示修复后图像帧中第i行第j列个像素点的像素值，i＝1,2…,M，M表示视频横向像素点总数，j＝1,2…,N，N表示视频纵向像素点总数。

其中，结构相似性具体为：

其中，e₂表示结构相似性，y表示修复后图像帧，ref表示参考图像帧，L(y,ref)表示修复后图像帧与参考图像之间的亮度相似性，γ₁表示亮度相似性的权重系数，C(y,ref)表示修复后图像帧与参考图像之间的对比度相似性，γ₂表示对比度相似性的权重系数，S(y,ref)表示修复后图像帧与参考图像之间的结构相似性，γ₃表示结构相似性的权重系数。

S3032：根据峰值信噪比和结构相似性，计算修复后的视频帧的图像质量评分：

E＝μ·e₁+(1-μ)·e₂

其中，E表示图像质量评分，e₁表示峰值信噪比，μ表示峰值信噪比的权重，e₂表示结构相似性。

其中，本领域技术人员可以根据实际情况设置峰值信噪比的权重μ的大小，本发明不做限定。

在本发明中，综合峰值信噪比和结构相似性来评估图像质量有助于实现客观、全面、可调的图像质量评估，提高图像处理和修复的效率和可靠性。

S304：通过生成对抗网络，对缺陷区域进行修复。

其中，生成对抗网络(Generative Adversarial Network，GAN)是一种深度学习框架。GAN由两个神经网络组成：生成器(Generator)和判别器(Discriminator)，这两个网络相互对抗，通过博弈的方式一起学习，以生成高质量的数据样本。

在一种可能的实施方式中，子步骤S304具体包括孙步骤S3041至S3045：

S3041：构建相互之间存在关联关系的鉴别器F和生成器G。

S3042：输入真实视频数据，通过生成器根据真实视频数据，生成多种派生视频数据。

S3043：固定生成器G的参数，以第一目标函数L₁(θ_f,θ_g)最小为目标，训练鉴别器F：

其中，θ_f表示鉴别器的参数，θ_g表示生成器的参数，E()表示数学期望，x表示真实视频数据，F(x)表示鉴别器对真实视频数据的鉴别结果，p_t表示真实视频数据的分布，y表示派生视频数据，F(y)表示鉴别器对派生视频数据的鉴别结果，p_g表示派生视频数据的分布。

S3044：固定鉴别器F的参数，以第二目标函数L₂(θ_f,θ_g)最大为目标，训练生成器G：

S3045：通过训练完成的生成器G，对缺陷区域进行修复。

在本发明中，充分利用了生成对抗网络的对抗性训练框架，以生成高质量的数据，并在图像修复等任务中取得良好的效果，通过迭代训练，生成器逐渐改进生成的数据，以使其更接近真实数据分布，同时鉴别器也不断提高对真伪数据的识别能力，从而实现更好的数据修复和生成。

与现有技术相比，本发明至少具有以下有益技术效果：

(1)在本发明中，首先当邻近帧中存在未损坏的诱导图像帧时，优先用诱导图像帧对缺陷区域进行修复，如果达不到修复质量才会采用生成对抗网络进行修复，可以一定程度地节省计算资源，降低视频修复成本，提升修复效率，并且无需采用线性或非线性插值来填补视频中的缺失帧，对修复质量进行监测，避免出现图像伪影、失真和不连续性。

实施例2

在一个实施例中，参考说明书附图2，示出了本发明提供的一种视频修复***的结构示意图。

本发明提供的一种视频修复***，包括处理器201和用于存储处理器201可执行指令的存储器202。处理器201被配置为调用存储器202存储的指令，以执行实施例1中的视频修复方法。

本发明提供的一种视频修复***可以实现上述实施例1中的视频修复方法的步骤和效果，为避免重复，本发明不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种视频修复方法，其特征在于，包括：

S1：获取视频数据；

S201：通过光流提取算法，提取各个视频帧的光流特征；

S202：通过卷积神经网络，提取各个视频帧的局部特征；

S203：通过长短时记忆网络，提取各个视频帧的全局特征；

S205：根据所述融合特征，检测各个视频帧中的缺陷区域；

S302：根据所述诱导图像帧，对所述缺陷区域进行修复；

S304：通过生成对抗网络，对所述缺陷区域进行修复。

2.根据权利要求1所述的视频修复方法，其特征在于，所述S201具体包括：

S2011：在光流基本方程的基础上引入光滑性约束，构建所述光流提取算法；

其中，所述光流基本方程表示为：

其中，ξ表示光流基本约束参数，I表示像素点(x,y)处的灰度值，(x,y)表示像素点坐标，t表示时间；

其中，所述光滑性约束表示为：

其中，ζ表示光滑约束参数；

S2012：构建光流提取目标函数：

f₁(u,v)＝minL＝min{[∫α·ζ²+(1-α)ξ²dxdy}

其中，f₁()表示光流提取目标函数，(u,v)表示像素点(x,y)处的位移矢量，L表示光流提取目标项，ζ表示光滑约束参数，ξ表示光流基本约束参数，α表示光滑约束参数的权重系数；

S2013：以所述光流提取目标函数的函数值最小为目标，通过欧拉-拉格朗日方程对光流提取目标项进行求解，得到各个像素点的位移矢量(u,v)，汇总得到各个视频帧的光流特征。

3.根据权利要求1所述的视频修复方法，其特征在于，所述S202具体包括：

S2021：输入所述视频数据；

S2022：提取所述视频数据的数据特征：

其中，表示当前卷积层第j个通道的输出，/>表示前一卷积层第j个通道中第i个卷积核的输出，/>表示当前卷积层的卷积核权重，/>表示当前卷积层的偏置项，M_j表示选择的输入特征映射，f_c()表示卷积层激活函数；

S2023：对所述卷积层提取的特征进行降维压缩：

其中，表示当前池化层第j个通道的输出，f_p()表示池化层激活函数，/>表示当前池化层的乘法偏置，f_down()表示下采样函数，/>表示前一池化层第j个通道的输出，/>表示当前池化层的加法偏置；

S2024：对所述池化层的输出进行汇总，得到所述视频数据的局部特征。

4.根据权利要求1所述的视频修复方法，其特征在于，所述S203具体包括：

S2031：输入所述视频数据的视频帧序列；

S2032：提取各个视频帧的隐状态h，其中，隐状态包括前向隐状态h和后向隐状态

I_t＝Sigmoid(W_XIX_t+W_HIh_t-1+b_I)

F_t＝Sigmoid(W_XFX_t+W_HFh_t-1+b_F)

O_t＝Sigmoid(W_XOX_t+W_HOh_t-1+b_O)

C'_t＝tanh(W_XCX_t+W_HCh_t-1+b_C)

C_t＝F_t·C_t-1+I_t·C'_t

h_t＝O_t·tanh(C_t)

其中，I_t表示t时刻输入门的激活输出向量，Sigmoid()表示Sigmoid激活函数，W_XI表示分词序列和输入门之间的权重矩阵，W_HI表示隐藏状态和输入门之间的权重矩阵，b_I表示输入门的偏置项，F_t表示t时刻忘记门的激活输出向量，W_XF表示分词序列和忘记门之间的权重矩阵，W_HF表示隐藏状态和忘记门之间的权重矩阵，b_F表示忘记门的偏置项，O_t表示t时刻输出门的激活输出向量，W_XO表示分词序列和输出门之间的权重矩阵，W_HO表示隐藏状态和输出门之间的权重矩阵，C_t表示t时刻细胞存储单元的激活输出向量，C_t'表示t时刻细胞存储单元的候选输出向量，C_t-1表示t-1时刻细胞存储单元的激活输出向量，tanh()表示tanh激活函数，W_XC表示分词序列和细胞存储单元之间的权重矩阵，W_HC表示隐藏状态和细胞存储单元之间的权重矩阵，b_C表示细胞存储单元的偏置项，h_t表示t时刻的隐状态，h_t-1表示t-1时刻的隐状态；

S2033：对所述前向隐状态和所述后向隐状态进行整合，得到综合隐状态，作为各个视频帧的全局特征：

5.根据权利要求1所述的视频修复方法，其特征在于，所述S204具体为：

根据以下公式，对所述光流特征、所述局部特征和所述全局特征进行特征融合，得到融合特征：

S＝β₁·s₁+β₂·s₂+β₃·s₃

6.根据权利要求5所述的视频修复方法，其特征在于，所述S205具体包括：

S2051：根据所述融合特征，计算各个像素点的缺陷检测值：

C_ij＝Softmax(W·S_ij+B)

其中，C_ij表示像素点(x_i,y_j)处的缺陷检测值，Softmax()表示Softmax激活函数，S_ij表示像素点(x_i,y_j)处的融合特征值，W表示权重系数，B表示偏置参数；

S2052：当所述缺陷检测值大于预设数值时，将像素点确定为缺陷像素点；

S2053：将各个所述缺陷像素点组合为缺陷区域。

7.根据权利要求1所述的视频修复方法，其特征在于，所述S301具体包括：

S3011：根据以下公式，计算当前帧与邻近帧之间的相似度：

其中，σ_k表示当前帧与第k个邻近帧之间的相似度，s₁(ij)表示当前帧中像素点(x_i,y_j)处的光流特征，s₁(ijk)表示第k个邻近帧中像素点(x_i,y_j)处的光流特征，β₁表示光流特征的权重系数，s₂(ij)表示当前帧中像素点(x_i,y_j)处的局部特征，s₂(ijk)表示第k个邻近帧中像素点(x_i,y_j)处的局部特征，β₂表示局部特征的权重系数，s₃(ij)表示当前帧中像素点(x_i,y_j)处的全局特征，s₃(ijk)表示第k个邻近帧中像素点(x_i,y_j)处的全局特征，β₃表示全局特征的权重系数，i＝1,2…,M，M表示视频横向像素点总数，j＝1,2…,N，N表示视频纵向像素点总数；

8.根据权利要求1所述的视频修复方法，其特征在于，所述S303具体包括：

S3031：计算修复后的视频帧的峰值信噪比和结构相似性；

其中，所述峰值信噪比具体为：

其中，e₁表示峰值信噪比，k表示二进制表示位数，x_ij表示原图像帧中第i行第j列个像素点的像素值，y_ij表示修复后图像帧中第i行第j列个像素点的像素值，i＝1,2…,M，M表示视频横向像素点总数，j＝1,2…,N，N表示视频纵向像素点总数；

其中，所述结构相似性具体为：

其中，e₂表示结构相似性，y表示修复后图像帧，ref表示参考图像帧，L(y,ref)表示修复后图像帧与参考图像之间的亮度相似性，γ₁表示亮度相似性的权重系数，C(y,ref)表示修复后图像帧与参考图像之间的对比度相似性，γ2表示对比度相似性的权重系数，S(y,ref)表示修复后图像帧与参考图像之间的结构相似性，γ₃表示结构相似性的权重系数；

E＝μ·e₁+(1-μ)·e₂

9.根据权利要求1所述的视频修复方法，其特征在于，所述S304具体包括：

S3041：构建相互之间存在关联关系的鉴别器F和生成器G；

S3042：输入真实视频数据，通过所述生成器根据所述真实视频数据，生成多种派生视频数据；

S3043：固定所述生成器G的参数，以第一目标函数L₁(θ_f,θ_g)最小为目标，训练所述鉴别器F：

其中，θ_f表示所述鉴别器的参数，θ_g表示所述生成器的参数，E()表示数学期望，x表示真实视频数据，F(x)表示鉴别器对真实视频数据的鉴别结果，p_t表示真实视频数据的分布，y表示派生视频数据，F(y)表示鉴别器对派生视频数据的鉴别结果，p_g表示派生视频数据的分布；

S3044：固定所述鉴别器F的参数，以第二目标函数L₂(θ_f,θ_g)最大为目标，训练所述生成器G：

S3045：通过训练完成的生成器G，对所述缺陷区域进行修复。

10.一种视频修复***，其特征在于，包括处理器和用于存储处理器可执行指令的存储器；所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至9中任意一项所述的视频修复方法。