CN112102212A

CN112102212A - 一种视频修复方法、装置、设备及存储介质

Info

Publication number: CN112102212A
Application number: CN202011298926.5A
Authority: CN
Inventors: 江林燕; 李雅卿; 涂承杰; 彭龙涛; 熊诗尧; 王茹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2020-12-18
Anticipated expiration: 2040-11-19
Also published as: CN112102212B

Abstract

本申请实施例提供了一种视频修复方法、装置、设备及存储介质，涉及人工智能技术领域，该方法具体为：采用神经网络模型提取待修复视频帧的图像特征，基于图像特征预测待修复视频帧的图像补偿参数值。根据待修复视频帧对应的视频编码参数的分布特征，将待修复视频帧划分为多个待补偿区域。再根据每个待补偿区域的类型、预设的图像补偿策略以及图像补偿参数值，确定每个待补偿区域的区域补偿参数值。基于每个待补偿区域的区域补偿参数值对每个待补偿区域进行图像补偿，获得修复视频帧。将待修复视频帧划分为多个待补偿区域，然后基于预测获得的图像补偿参数值确定每个待补偿区域的区域补偿参数值，并进行针对性的图像补偿，从而提升视频修复的效果。

Description

一种视频修复方法、装置、设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种视频修复方法、装置、设备及存储介质。

背景技术

目前，视频编码会带来压缩失真，常见失真类型有块效应、马赛克、边缘毛刺、振铃效应等。这些压缩噪声对观看者的视觉体验有较大影响。相关技术中采用不同的去压缩失真处理方法，对不同退化程度的视频进行修复。比如，分别采用量化参数（QuantizationParameter，QP）20、QP30、QP40的编码参数压缩产生不同退化强度的退化图像，然后采用不同退化强度的退化图像分别训练不同等级的退化模型。在对视频进行去压缩失真时，先预测视频的退化强度，然后基于预测获得的退化强度选择相应等级的退化模型进行去压缩失真。该方法依赖退化强度预测，若预测不准确，将导致后续视频修复出现反效果，从而影响视频修复的质量。

发明内容

本申请实施例提供了一种视频修复方法、装置、设备及存储介质，用于提高视频修复的质量。

一方面，本申请实施例提供了一种视频修复方法，该方法包括：

基于待修复视频帧的图像特征，预测所述待修复视频帧的图像补偿参数值；

根据所述待修复视频帧对应的视频编码参数的分布特征，将所述待修复视频帧划分为多个待补偿区域；

根据每个待补偿区域的类型、为不同类型的待补偿区域所设定的图像补偿策略以及所述图像补偿参数值，确定每个待补偿区域的区域补偿参数值；

基于每个待补偿区域的区域补偿参数值，对每个待补偿区域进行图像补偿，获得修复视频帧。

一方面，本申请实施例提供了一种视频修复装置，该装置包括：

预测模块，用于基于待修复视频帧的图像特征，预测所述待修复视频帧的图像补偿参数值；

区域划分模块，用于根据所述待修复视频帧对应的视频编码参数的分布特征，将所述待修复视频帧划分为多个待补偿区域；

匹配模块，用于根据每个待补偿区域的类型、为不同类型的待补偿区域所设定的图像补偿策略以及所述图像补偿参数值，确定每个待补偿区域的区域补偿参数值；

区域补偿模块，用于基于每个待补偿区域的区域补偿参数值，对每个待补偿区域进行图像补偿，获得修复视频帧。

可选地，所述图像补偿参数值包括噪声残差值和纹理残差值；

所述匹配模块具体用于：

根据每个待补偿区域的类型和为不同类型的待补偿区域所设定的去噪策略，确定每个待补偿区域的去噪策略；

根据每个待补偿区域的去噪策略以及所述噪声残差值，确定每个待补偿区域的区域噪声残差值；

根据每个待补偿区域的类型和为不同类型的待补偿区域所设定的图像增强策略，确定每个待补偿区域的图像增强策略；

根据每个待补偿区域的图像增强策略以及所述纹理残差值，确定每个待补偿区域的区域纹理残差值。

可选地，所述区域补偿模块具体用于：

基于每个待补偿区域的区域噪声残差值，对每个待补偿区域中的图像噪声去噪，获得去噪视频帧；

基于所述去噪视频帧中每个待补偿区域的区域纹理残差值，对每个待补偿区域进行图像增强，获得修复视频帧。

可选地，所述视频编码参数包括宏块参考和自适应量化，所述待补偿区域的类型包括静态区域、动态区域、纹理区域和平坦区域；

所述区域划分模块具体用于：

将所述待修复视频帧中宏块参考值大于第一阈值的区域，确定为静态区域；

将所述待修复视频帧中宏块参考值不大于所述第一阈值的区域，确定为动态区域；

将所述待修复视频帧中自适应量化值大于第二阈值的区域，确定为纹理区域；

将所述待修复视频帧中自适应量化值不大于所述第二阈值的区域，确定为平坦区域。

可选地，所述区域划分模块还用于：

对所述待修复视频帧进行人脸识别，确定所述待修复视频帧中的人脸区域。

可选地，所述预测模块具体用于：

采用神经网络模型，提取所述待修复视频帧的图像特征，用于训练所述神经网络模型的样本图像集至少包括经锐化处理的参考视频帧、对参考视频帧进行视频编码后获得的待修复样本视频帧以及所述待修复样本视频帧对应的编码信息分布图像；

基于所述待修复视频帧的图像特征，预测所述待修复视频帧的图像补偿参数值。

可选地，所述神经网络模型至少包括M个卷积模块，每个卷积模块包括第一卷积层、第二卷积层、第一合并层、第二合并层以及N个残差块；

所述第一卷积层用于对输入卷积模块的图像特征进行卷积处理；

所述N个残差块按照连接顺序，依次对所述第一卷积层输出的图像特征进行处理，其中，所述N个残差块中第一个残差块的输入为所述第一卷积层输出的图像特征，其他N-1残差块中每个残差块的输入为前一个残差块输出的图像特征；

所述第一合并层用于将所述N个残差块输出的图像特征合并；

所述第二卷积层用于对所述第一合并层输出的图像特征进行卷积处理；

所述第二合并层用于将输入所述卷积模块的图像特征与所述第二卷积层输出的图像特征合并。

一方面，本申请实施例中提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述视频修复方法的步骤。

一方面，本申请实施例中提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述视频修复方法的步骤。

本申请实施例中，基于待修复视频帧对应的视频编码参数的分布情况，将待修复视频帧划分为多个待补偿区域，然后根据每个待补偿区域的类型，采用对应的区域补偿参数值进行补偿，从而提高视频修复的效果，提升视频质量。其次，对于任意一帧待修复视频帧来说，都可以基于待修复视频帧的图像特征，预测待修复视频帧的图像补偿参数值，然后基于图像补偿参数值确定每个待补偿区域的区域补偿参数值并进行图像补偿，从而提高视频修复方案的通用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1a为一种视频修复方法的流程示意图；

图1b为本申请实施例适用的一种***架构的结构示意图；

图2为本申请实施例提供的一种视频编码框架的结构示意图；

图3为本申请实施例提供的一种分割CTU的示意图；

图4为本申请实施例提供的一种视频修复方法的流程示意图；

图5为本申请实施例提供的一种样本图像集的示意图；

图6为本申请实施例提供的一种卷积模块的结构示意图；

图7为本申请实施例提供的一种残差块的结构示意图；

图8为本申请实施例提供的一种反卷积模块的结构示意图；

图9为本申请实施例提供的一种残差块的结构示意图；

图10为本申请实施例提供的一种待补偿区域的示意图；

图11为本申请实施例提供的一种视频修复方法的流程示意图；

图12为本申请实施例提供的一种视频修复装置的结构示意图；

图13为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本发明实施例中涉及的名词进行解释。

人工智能（Artificial Intelligence，AI）：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。比如，在本申请实施例中，通过人工智能技术提取待修复视频帧的图像特征，然后基于待修复视频帧的图像特征，预测待修复视频帧中的图像补偿参数值，之后再基于图像补偿参数值确定待修复视频帧中的各个待补偿区域的区域补偿值并进行图像补偿，获得修复视频帧。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，通过人工智能技术中具体的人工神经网络模型或者算法提取待修复视频帧的图像特征，然后基于待修复视频帧的图像特征，预测待修复视频帧中的图像补偿参数值。

视频编码：指通过压缩技术，将原始视频格式的文件转换成另一种视频格式文件的方式。

下面对本申请实施例的设计思想进行介绍。

图像信息经采集后生成的原始视频数据，数据量非常大，对于某些采集后直接本地播放的应用场合，不需要考虑压缩技术。但现实中更多的应用场合，涉及视频的传输与存储，比如监控场景、直播场景、视频通话场景、视频播放场景等。传输网络与存储设备无法容忍原始视频数据的巨大数据量，必须将原始视频数据经过编码压缩后，再进行传输与存储。然而，视频编码会带来压缩失真，从而影响用户观看视频的体验。

目前采用不同的去压缩失真处理方法，对不同退化程度的视频进行修复。比如，如图1a所示，分别采用QP20、QP30、QP40的编码参数压缩产生不同退化强度的退化图像，然后采用不同退化强度的退化图像分别训练不同等级的退化模型，分别为QP20退化模型、QP30退化模型、QP40退化模型。在对视频进行去压缩失真时，先预测视频的退化强度，然后基于预测获得的退化强度选择相应等级的退化模型进行去压缩失真。该方法需要训练多个退化模型进行去压缩失真，缺乏通用性。另外，当选择的退化模型与退化图像的退化强度不匹配时，将导致后续视频修复出现反效果，从而影响视频修复的质量。

为了提高视频修复方案的通用性和准确性，本申请实施例提供了一种视频修复方法，该方法具体为：基于待修复视频帧的图像特征，预测待修复视频帧的图像补偿参数值，然后根据待修复视频帧对应的视频编码参数的分布特征，将待修复视频帧划分为多个待补偿区域。再根据每个待补偿区域的类型、为不同类型的待补偿区域所设定的图像补偿策略以及图像补偿参数值，确定每个待补偿区域的区域补偿参数值。基于每个待补偿区域的区域补偿参数值，对每个待补偿区域进行图像补偿，获得修复视频帧。

参考图1b，其为本申请实施例提供的视频修复方法适用的***架构图，该架构至少包括第一终端设备101、服务器102以及第二终端设备103。

第一终端设备101安装有视频应用，其中，视频应用可以是客户端应用、网页版应用、小程序应用等。第一终端设备101还包括视频采集模块，视频采集模块采集视频后，视频应用采用编码器对采集的视频进行视频编码获得码流，并将码流发送给服务器102。第一终端设备101可以包括一个或多个处理器1011、存储器1012、与服务器102交互的I/O接口1013以及显示面板1014等。第一终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

图2为本申请实施例提供的一种视频编码框架的结构示意图，如图2所示，视频采集模块采集视频，然后将视频中的视频帧作为待编码帧输入编码器，编码器先按照64x64块大小将待编码帧分割成一个个编码树单元（Coding Tree Uint，简称CTU），再经过深度划分得到编码单元（Coding Uint，简称CU），直至大小为8×8像素的最小编码单元。图3示例性示出了一个CTU分割为多个CU的示意图。每个CU包含预测单元（Predict Unit，简称PU）和变换单元（TransformUnit，简称TU）。对每个预测单元进行预测，得到预测值。对预测单元进行预测时，预测模式包括帧内预测和帧间预测，帧内预测时对预测单元进行空域预测，帧间预测时采用参考帧对预测单元进行运动估计后进行运动补偿。视频编码中，图像的冗余信息包括时间冗余信息以及空间冗余信息，帧间预测可以减少时间冗余信息，帧内预测可以减少空间冗余信息。

将预测值与输入数据相减，得到残差。然后将残差进行DCT（离散余弦变换）和量化，得到残差系数。再将残差系数送入熵编码模块输出码流。同时编码器将残差系数进行反量化、反变换之后，得到重构图像的残差值。再将重构图像的残差值与预测值相加，从而得到了重构图像。重构图像经过区块滤波和自适应像素补偿之后，进入参考帧序列，作为下一个的参考帧，从而依次向后编码。

服务器102为视频应用的后台服务器，为视频应用提供相应的服务，服务器102可以包括一个或多个处理器1021、存储器1022以及与第一终端设备101和第二终端设备103交互的I/O接口1023等。此外，服务器102还可以配置数据库1024。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。第一终端设备101和第二终端设备103与服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

第二终端设备103包括视频应用，其中，视频应用可以是客户端应用、网页版应用、小程序应用等。第二终端设备103可以包括一个或多个处理器1031、存储器1032、与服务器102交互的I/O接口1033以及显示面板1034等。第二终端设备103可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

视频修复方法可以由第二终端设备103执行，也可以是服务器102执行。

第一种情况，视频修复方法由第二终端设备103执行。

服务器102接收到第一终端设备101发送的码流后，将接收的码流发送给第二终端设备103。第二终端设备103中的视频应用采用解码器对码流解码后，获得待修复视频帧。基于待修复视频帧的图像特征，预测待修复视频帧的图像补偿参数值，然后根据待修复视频帧对应的视频编码参数的分布特征，将待修复视频帧划分为多个待补偿区域。再根据每个待补偿区域的类型、为不同类型的待补偿区域所设定的图像补偿策略以及图像补偿参数值，确定每个待补偿区域的区域补偿参数值。基于每个待补偿区域的区域补偿参数值，对每个待补偿区域进行图像补偿，获得修复视频帧。

第二种情况，视频修复方法由服务器102执行。

服务器102接收到第一终端设备101发送的码流后，采用解码器对码流解码，获得待修复视频帧。基于待修复视频帧的图像特征，预测待修复视频帧的图像补偿参数值，然后根据待修复视频帧对应的视频编码参数的分布特征，将待修复视频帧划分为多个待补偿区域。再根据每个待补偿区域的类型、为不同类型的待补偿区域所设定的图像补偿策略以及图像补偿参数值，确定每个待补偿区域的区域补偿参数值。基于每个待补偿区域的区域补偿参数值，对每个待补偿区域进行图像补偿，获得修复视频帧。服务器102接收到第二终端设备103发送的视频请求时，采用高质量的编码方式将修复视频进行压缩编码，然后将获得的码流发送给第二终端设备103，第二终端设备103中的视频应用采用解码器对码流解码后播放视频。

具体实施中，由第二终端设备103执行视频修复方法，还是由服务器102执行视频修复方法，可以根据实际情况进行选择。对于实时性要求比较高的视频修复场景来说，可以由第二终端设备103执行视频修复方法，从而保证视频播放的实时性，比如视频会议、视频直播等场景。对于实时性要求比较低的视频修复场景来说，可以由服务器102执行视频修复方法，从而降低终端侧资源的占用，比如视频点播场景播等。

基于图1b所示的***架构，本申请实施例提供了一种视频修复方法的流程，如图4所示，该方法的流程可以由计算机设备执行，计算机设备可以是终端设备或服务器，该方法包括以下步骤：

步骤S401，基于待修复视频帧的图像特征，预测待修复视频帧的图像补偿参数值。

具体地，待修复视频帧为经视频编码处理的视频帧。视频帧经过压缩编码处理后，待修复视频帧中可能出现压缩噪声，压缩噪声包括块效应、模糊、振铃、鬼影、重像、边缘锯齿、蚊子噪音、马赛克（运动激烈压缩会产生）等。待修复视频帧的图像补偿参数包括噪声残差和纹理残差，其中，噪声残差用于对待修复视频帧进行去噪，纹理残差用于对待修复视频帧进行图像增强。

步骤S402，根据待修复视频帧对应的视频编码参数的分布特征，将待修复视频帧划分为多个待补偿区域。

具体地，视频编码参数为对视频帧进行编码时使用的编码参数，比如，宏块参考（Macroblock Tree，MBtree）、自适应量化（Adaptive Quantization，AQ）等。在对视频帧进行编码时，先将视频帧划分为多个编码单元，然后针对每个编码单元进行编码。由于不同编码单元中的图像内容是不相同的，故在进行视频编码时，不同编码单元对应的视频编码参数值也可能不一样。因此，经编码处理后获得的待修复视频帧中，不同区域对应的视频编码参数值是不同的。根据待修复视频帧对应的视频编码参数的分布情况，可以将待修复视频帧划分为多个待补偿区域，多个待补偿区域可以是完全不同类型的待补偿区域，也可以存在部分相同类型的待补偿区域，对此，本申请不做具体限定。

步骤S403，根据每个待补偿区域的类型、为不同类型的待补偿区域所设定的图像补偿策略以及图像补偿参数值，确定每个待补偿区域的区域补偿参数值。

具体实施中，预先为不同类型的待补偿区域设定不同的图像补偿策略。将待修复视频帧划分为多个待补偿区域后，基于每个待补偿区域的类型，查询预先设定的图像补偿策略，确定每个待补偿区域的图像补偿策略。然后基于每个待补偿区域的图像补偿策略以及待修复视频帧的图像补偿参数值，确定每个待补偿区域具体的区域补偿参数值。

步骤S404，基于每个待补偿区域的区域补偿参数值，对每个待补偿区域进行图像补偿，获得修复视频帧。

可选地，在上述步骤S401中，采用神经网络模型，提取待修复视频帧的图像特征，用于训练所述神经网络模型的样本图像集至少包括对参考视频帧进行视频编码后获得的待修复样本视频帧、待修复样本视频帧对应的编码信息分布图像、经锐化处理的参考视频帧。然后基于所述待修复视频帧的图像特征，预测所述待修复视频帧的图像补偿参数值。

具体实施中，神经网络模型可以是卷积神经网络(Convolutional NeuralNetwork，CNN)、循环神经网络（Recurrent Neural Network，RNN）、深度神经网络（Deepneural network，DNN）等。参考视频帧为预先采集的高清视频中的视频帧，高清视频的场景包括动漫、剧集、游戏、综艺、秀场、新闻、体育、广告、用户原创内容、远景虚化、微距场景等，高清视频的复杂度包括运动激烈、画面平静、内容杂乱、线条规律等。

采用不同的编码参数，对参考视频帧进行视频编码，可以获得不同压缩失真程度的待修复样本视频帧以及包括不同类型的图像噪声的待修复样本视频帧，如图5所示，图像噪声的类型包括块效应、模糊、振铃、鬼影、重像、边缘锯齿、蚊子噪音、马赛克、多次视频编码引入的噪声、上下采样引入的噪声等，其中，上采样表示提高视频帧的分辨率，下采样表示降低视频帧的分辨率。

具体实施中，可以采用不同固定码流系数（Constant Rate Factor，CRF）等级的编码参数来产生不同压缩失真程度的待修复样本视频帧，也可以采用不同的量化参数来产生不同压缩失真程度的待修复样本视频帧。另外，由于高清视频囊括多个场景和多种复杂度，对参考视频帧进行视频编码后，也可以获得多个场景和多种复杂度的待修复样本视频帧。采用覆盖范围广的样本图像集对神经网络模型进行训练时，可以提高神经网络模型的通用性和泛化能力。

由于编码信息分布与图像噪声之间存在关联性，比如，编码分块不当容易导致块效应现象，QP设置过大容易导致局部细节丢失、画面模糊。鉴于此，本申请实施例中在训练神经网络模型时，样本图像集中添加待修复样本视频帧对应的编码信息分布图像。具体实施中，编码信息分布图像包括量化参数分布图像、残差分布图像、编码单元分布图像、编码预测分布图像等。采用编码信息分布图像对神经网络模型进行训练时，能有效提升神经网络模型识别噪声的准确性，进而提升预测获得的图像补偿参数值的准确性。

另外，在神经网络模型提取图像特征时，为了提升图像细节的保留能力，可以在样本图像集中添加经锐化处理的参考视频帧。具体实施中，结合Photoshop的智能锐化来提取参考视频帧的纹理并做增强，避免亮区和暗区的噪声增强。采用经锐化处理的参考视频帧训练神经网络模型时，能有效提高神经网络模型提取图像中细节的能力，缓解传统模型导致的过平滑现象。

本申请实施例中，采用多场景多复杂度的待修复样本视频帧、待修复样本视频帧对应的编码信息分布图像以及经锐化处理的参考视频帧作为训练样本，训练神经网络模型，能有效提升神经网络模型的泛化能力以及区分图像中细节和噪声的能力，进而提升预测获得的图像补偿参数值的准确性。

需要说明的是，本申请实施例中样本图像集并不仅限于上述一种实施方式，样本图像集也可以是包括待修复样本视频帧以及经锐化处理的参考视频帧，样本图像集还可以是包括待修复样本视频帧以及待修复样本视频帧对应的编码信息分布图像，样本图像集还可以是包括待修复样本视频帧等，对此，本申请不做具体限定。

下面具体介绍上述神经网络模型的结构，神经网络模型至少包括M个卷积模块，每个卷积模块的结构如图6所示，卷积模块包括第一卷积层、第二卷积层、第一合并层、第二合并层以及N个残差块，M和N为正整数。第一卷积层用于对输入卷积模块的图像特征进行卷积处理。N个残差块按照连接顺序，依次对第一卷积层输出的图像特征进行处理，其中，N个残差块中第一个残差块的输入为第一卷积层输出的图像特征，其他N-1残差块中每个残差块的输入为前一个残差块输出的图像特征。第一合并层用于将N个残差块输出的图像特征合并；第二卷积层用于对第一合并层输出的图像特征进行卷积处理。第二合并层用于将输入卷积模块的图像特征与第二卷积层输出的图像特征合并。

进一步地，卷积模块中每个残差块的结构如图7所示，残差块中包括第一子卷积层、激励层、第二子卷积层以及合并层，输入残差块的图像特征依次经第一子卷积层、激励层以及第二子卷积层处理后，输出给合并层，合并层将第二子卷积层输出的图像特征与输入残差块的图像特征合并，再将合并获得的图像特征输出残差块。

可选地，神经网络模型还包括L个反卷积模块，神经网络模型中每个反卷积模块的结构如图8所示，反卷积模块包括第一反卷积层、第二反卷积层、第三合并层、第四合并层以及Q个残差块，L和Q为正整数。第一反卷积层用于对输入反卷积模块的图像特征进行反卷积处理。Q个残差块按照连接顺序，依次对第一反卷积层输出的图像特征进行处理，其中，Q个残差块中第一个残差块的输入为第一反卷积层输出的图像特征，其他N-1残差块中每个残差块的输入为前一个残差块输出的图像特征。第三合并层用于将N个残差块输出的图像特征合并；第二反卷积层用于对第三合并层输出的图像特征进行反卷积处理。第四合并层用于将输入反卷积模块的图像特征与第二反卷积层输出的图像特征合并。

进一步地，反卷积模块中每个残差块的结构如图9所示，残差块中包括第一子反卷积层、激励层、第二子反卷积层以及合并层，输入残差块的图像特征依次经第一子反卷积层、激励层以及第二子反卷积层处理后，输出给合并层，合并层将第二子反卷积层输出的图像特征与输入残差块的图像特征合并，再将合并获得的图像特征输出残差块。

基于上述介绍的神经网络模型的结构，本申请实施例提供一种训练神经网络模型的方法，具体包括以下步骤：

采用待训练的神经网络模型和样本图像进行多次迭代训练，直至损失函数满足预设条件，获得神经网络模型，每次迭代训练包括：

采用M个卷积模块对样本图像依次进行卷积处理，获得样本图像的图像特征，然后采用L个反卷积模块依次对样本图像的图像特征进行反卷积处理，获得预测图像，再根据预测图像与参考图像之间的差异度，调整待训练的神经网络模型的参数。

训练结束后，采用神经网络模型中M个卷积模块对待修复视频帧依次进行卷积处理，获得待修复视频帧的图像特征，然后基于待修复视频帧的图像特征，预测待修复视频帧的图像补偿参数值。本申请实施例中，神经网络模型中采用合并层将各个残差块输出的图像特征进行合并后输入后续层进行处理，充分利用了神经网络中低层特征和高层特征，从而提高了神经网络模型的学习能力，进而提高了预测待修复视频帧的图像补偿参数值的准确性。

可选地，在上述步骤S402中，待补偿区域的类型至少包括静态区域、动态区域、纹理区域、平坦区域。本申请实施例提供以下几种基于视频编码参数的分布特征，将待修复视频帧划分为多个待补偿区域的实施方式：

实施方式一、视频编码参数包括宏块参考（Macroblock Tree，MBtree），待补偿区域的类型包括静态区域和动态区域。将待修复视频帧中宏块参考值大于第一阈值的区域，确定为静态区域，将待修复视频帧中宏块参考值不大于第一阈值的区域，确定为动态区域。

具体地，MBtree是一种基于宏块的量化参数控制方法，当MBtree的值越大时，说明对应区域越有可能为缓慢变化的场景，当MBtree的值越小时，说明对应区域越有可能为激烈变化的场景。在将待修复视频帧划分为多个待补偿区域时，可以先获取待修复视频帧对应的宏观参考值的分布图像，待修复视频帧中不同区域的图像内容不同，故对应的宏观参考值也会不相同。将待修复视频帧中宏块参考值大于第一阈值的区域，确定为静态区域，将待修复视频帧中宏块参考值不大于第一阈值的区域，确定为动态区域。

实施方式二、视频编码参数包括自适应量化（Adaptive Quantization，AQ），待补偿区域的类型包括纹理区域和平坦区域。将待修复视频帧中自适应量化值大于第二阈值的区域，确定为纹理区域，将待修复视频帧中自适应量化值不大于第二阈值的区域，确定为平坦区域。

具体地，当AQ的值越大时，说明对应区域的细节度高，当AQ的值越小时，说明对应区域的细节度低。在将待修复视频帧划分为多个待补偿区域时，可以先获取待修复视频帧对应的自适应量化值的分布图像，待修复视频帧中不同区域的图像内容不同，故对应的自适应量化值也会不相同。将待修复视频帧中自适应量化值大于第二阈值的区域，确定为纹理区域，将待修复视频帧中自适应量化值不大于第二阈值的区域，确定为平坦区域。

实施方式三、视频编码参数包括宏块参考和自适应量化，待补偿区域的类型包括静态区域、动态区域、纹理区域和平坦区域。将待修复视频帧中宏块参考值大于第一阈值的区域，确定为静态区域；将待修复视频帧中宏块参考值不大于第一阈值的区域，确定为动态区域。将待修复视频帧中自适应量化值大于第二阈值的区域，确定为纹理区域；将待修复视频帧中自适应量化值不大于第二阈值的区域，确定为平坦区域。

在实施方式三中，可能出现待补偿区域重叠的情况，比如静态区域和平坦区域存在部分重叠区域。需要说明的是，本申请实施例中基于视频编码参数的分布情况，将待修复视频帧划分为多个待补偿区域的实施方式并不仅限于上述三种，还可以是将待修复视频帧划分为静态区域和纹理区域，或者将待修复视频帧划分为动态区域和平坦区域等，对此，本申请不做具体限定。

通过将待修复视频帧划分为不同类型的待补偿区域，便于后续针对不同类型的待补偿区域进行对应补偿，从而提高视频修复的质量。

另外，除了基于视频编码参数的分布情况，将待修复视频帧划分为多个待补偿区域之外，还可以结合目标对象识别方法识别待修复视频帧中的目标对象，然后将目标对象所在的区域也作为待补偿区域。举例来说，目标对象为人脸时，对待修复视频帧进行人脸识别，确定待修复视频帧中的人脸区域，后续可以针对人脸区域进行图像修复，提高人脸区域的图像质量。

可选地，在上述步骤S403中，本申请实施例中至少提供以下几种确定待修复视频帧中每个待补偿区域的区域补偿参数值的实施方式：

实施方式一、区域补偿参数值为区域噪声残差值。根据每个待补偿区域的类型和为不同类型的待补偿区域所设定的去噪策略，确定每个待补偿区域的去噪策略。然后根据每个待补偿区域的去噪策略以及噪声残差值，确定每个待补偿区域的区域噪声残差值。

具体实施中，预先为不同类型的待补偿区域设定不同的去噪策略。比如，动态区域中运动激烈，编码质量差，噪声多，将去噪策略设定为加强去噪。

静态区域中运动平缓，编码质量好，噪声少，将去噪策略设定为减弱去噪。

平坦区域中编码质量好，噪声少，将去噪策略设定为减弱去噪。

纹理区域中编码质量差，噪声多，将去噪策略设定为加强去噪。

人脸区域基于不同的业务设置不同的去噪策略。比如，针对用户选择美颜模式的情况下，将人脸区域的去噪策略设定为加强去噪。针对用户选择原图模式的情况下，将人脸区域的去噪策略设定为减弱去噪。

当待补偿区域的去噪策略是加强去噪时，通过增大预测获得的噪声残差值，获得区域噪声残差值，具体增大的数值或比例可以预先设定。当待补偿区域的去噪策略是减弱去噪时，通过减小预测获得的噪声残差值，获得区域噪声残差值，具体减小的数值或比例可以预先设定。

需要说明的是，待补偿区域的去噪策略并不仅限于上述加强去噪和减弱去噪两种，还可以是默认去噪。当待补偿区域的去噪策略是默认去噪时，直接将预测获得的噪声残差值作为区域噪声残差值。

进一步地，基于每个待补偿区域的区域噪声残差值，对每个待补偿区域中的图像噪声去噪，获得修复视频帧。

具体地，针对每个待补偿区域，采用该待补偿区域的区域噪声残差值，对该待补偿区域的图像噪声去噪。当待修复视频帧中所有待补偿区域完成去噪后，获得修复视频帧。另外，待修复视频帧中各个待补偿区域可能存在重叠的情况，此时，可以对不同待补偿区域之间的重叠区域进行重复去噪，也可以选用一个待补偿区域对应的区域噪声残差值对重叠区域进行去噪。

示例性地，如图10所示，设定静态区域A和平坦区域B存在重叠区域C。可以先采用静态区域A的区域噪声残差值，对重叠区域C的图像噪声去噪，再采用平坦区域B的区域噪声残差值，对重叠区域C的图像噪声去噪。也可以只采用静态区域A的区域噪声残差值或平坦区域B的区域噪声残差值，对重叠区域C的图像噪声去噪。

本申请实施例中，将待修复视频帧划分为多个待补偿区域，然后基于每个待补偿区域的噪声分布情况，进行针对性的去噪，从而提升去噪效果以及视频质量。

实施方式二、区域补偿参数值为区域纹理残差值。根据每个待补偿区域的类型和为不同类型的待补偿区域所设定的图像增强策略，确定每个待补偿区域的图像增强策略，然后根据每个待补偿区域的图像增强策略以及纹理残差值，确定每个待补偿区域的区域纹理残差值。

具体实施中，预先为不同类型的待补偿区域设定不同的图像增强策略。比如，动态区域的编码质量差，故加强图像增强的效果并不佳，因此将图像增强策略设定为默认增强。

静态区域的编码质量好，故加强图像增强的效果较好，因此将图像增强策略设定为加强图像增强。

平坦区域的编码质量好，故加强图像增强的效果较好，因此将图像增强策略设定为加强图像增强。

纹理区域的编码质量差，故加强图像增强的效果并不佳，因此将图像增强策略设定为默认增强。

人脸区域基于不同的业务设定不同的图像增强策略，比如，针对用户选择美颜模式的情况下，将人脸区域的图像增强策略设定为默认增强。针对用户选择原图模式的情况下，将人脸区域的图像增强策略设定为加强图像增强。

当待补偿区域的图像增强策略是加强图像增强时，通过增大预测获得的纹理残差值，获得区域纹理残差值，具体增大的数值或比例可以预先设定。当待补偿区域的图像增强策略是默认增强时，直接将预测获得的纹理残差值作为区域纹理残差值。

需要说明的是，待补偿区域的图像增强策略并不仅限于上述加强图像增强和默认图像增强两种，还可以是减弱图像增强。当待补偿区域的图像增强策略是减弱图像增强时，通过减小预测获得的纹理残差值，获得区域纹理残差值，具体减小的数值或比例可以预先设定。

进一步地，基于每个待补偿区域的区域纹理残差值，对每个待补偿区域进行图像增强，获得修复视频帧。

具体地，针对每个待补偿区域，采用该待补偿区域的纹理残差值，对该待补偿区域进行图像增强。当待修复视频帧中所有待补偿区域完成图像增强后，获得修复视频帧。另外，待修复视频帧中各个待补偿区域可能存在重叠的情况，此时，可以对不同待补偿区域之间的重叠区域进行重复图像增强，也可以选用一个待补偿区域对应的区域纹理残差值对重叠区域进行图像增强。

示例性地，如图10所示，设定静态区域A和平坦区域B存在重叠区域C。可以先采用静态区域A的区域纹理残差值，对重叠区域C进行图像增强，再采用平坦区域B的区域纹理残差值，对重叠区域C进行图像增强。也可以只采用静态区域A的区域纹理残差值或平坦区域B的区域纹理残差值，对重叠区域C进行图像增强。

本申请实施例中，将待修复视频帧划分为多个待补偿区域，然后基于每个待补偿区域的编码质量，进行针对性的图像增强，从而提升视频质量。

实施方式三、区域补偿参数值包括区域噪声残差值和区域纹理残差值。根据每个待补偿区域的类型和为不同类型的待补偿区域所设定的去噪策略，确定每个待补偿区域的去噪策略。然后根据每个待补偿区域的去噪策略以及噪声残差值，确定每个待补偿区域的区域噪声残差值。根据每个待补偿区域的类型和为不同类型的待补偿区域所设定的图像增强策略，确定每个待补偿区域的图像增强策略，然后根据每个待补偿区域的图像增强策略以及纹理残差值，确定每个待补偿区域的区域纹理残差值。

进一步地，基于每个待补偿区域的区域噪声残差值，对每个待补偿区域中的图像噪声去噪，获得去噪视频帧。基于去噪视频帧中每个待补偿区域的区域纹理残差值，对每个待补偿区域进行图像增强，获得修复视频帧。

具体地，去噪策略和图像增强策略在前文已有介绍，此处不再赘述。在具体实施中，对待修复视频帧进行去噪和图像增强的顺序可以不分先后。

本申请实施例中，将待修复视频帧划分为多个待补偿区域，然后基于每个待补偿区域的噪声分布，确定对应的区域噪声残差值。基于每个待补偿区域的编码质量，确定对应的区域纹理残差值。采用区域噪声残差值对待补偿区域进行针对性的图像去噪，从而提升去噪效果以及视频质量。采用区域纹理残差值对待补偿区域进行针对性的图像增强，从而增加视频帧中的细节。

为了更好的解释本申请实施例，下面结合具体的实施场景描述本申请实施例提供的一种视频修复方法的流程，该方法由云服务器执行，如图11所示，包括以下步骤：

从待修复视频中获取视频帧A，将视频帧A输入训练好的卷积神经网络模型。卷积神经网络模型提取视频帧A的图像特征并输出。基于视频帧A的图像特征预测视频帧A的混合残差值。将视频帧A的混合残差值进行信噪分离，获得噪声残差值和纹理残差值。

根据视频帧A对应的视频编码参数的分布特征，将待修复视频帧划分为静态区域、动态区域、纹理区域和平坦区域。对视频帧A进行人脸识别，确定视频帧A中的人脸区域，其中，动态区域的图像增强策略是默认增强，去噪策略是加强去噪。静态区域的图像增强策略是加强图像增强，去噪策略是减弱去噪。平坦区域的图像增强策略是加强图像增强，去噪策略是减弱去噪。纹理区域的图像增强策略是默认增强，去噪策略是加强去噪。人脸区域的图像增强策略是默认增强，去噪策略是加强去噪。

基于噪声残差值和各个待补偿区域的去噪策略，确定各个待补偿区域的区域噪声残差值，基于纹理残差值和各个待补偿区域的图像增强策略，确定各个待补偿区域的区域纹理残差值。之后再采用各个待补偿区域的区域噪声残差值，对各个待补偿区域进行图像去噪，采用各个待补偿区域的区域纹理残差值，对各个待补偿区域进行图像增强，获得修复视频帧。

为了验证本申请实施例中技术方案的效果，本申请中将本申请的方案、QP20退化模型、QP30退化模型、QP40退化模型的视频修复效果进行了比较。具体地，先获取高清视频，采用不同的视频编码方式对高清视频进行编码，产生测试视频集。再采用本申请中的方案、QP20退化模型、QP30退化模型、QP40退化模型分别对测试视频集中的视频进行修复。之后再分别计算获得的修复视频的峰值信噪比 (Peak Signal-to-Noise Ratio，PSNR)。上述四种方案对应的PSNR如表1所示：

表1.

由表1可知，相较于QP20退化模型、QP30退化模型、QP40退化模型来说，本申请中的方案对视频修复的效果更佳。

基于相同的技术构思，本申请实施例提供了一种视频修复装置，如图12所示，该装置1200包括：

预测模块1201，用于基于待修复视频帧的图像特征，预测待修复视频帧的图像补偿参数值；

区域划分模块1202，用于根据待修复视频帧对应的视频编码参数的分布特征，将待修复视频帧划分为多个待补偿区域；

匹配模块1203，用于根据每个待补偿区域的类型、为不同类型的待补偿区域所设定的图像补偿策略以及图像补偿参数值，确定每个待补偿区域的区域补偿参数值；

区域补偿模块1204，用于基于每个待补偿区域的区域补偿参数值，对每个待补偿区域进行图像补偿，获得修复视频帧。

可选地，图像补偿参数值包括噪声残差值和纹理残差值；

匹配模块1203具体用于：

根据每个待补偿区域的去噪策略以及噪声残差值，确定每个待补偿区域的区域噪声残差值；

根据每个待补偿区域的图像增强策略以及纹理残差值，确定每个待补偿区域的区域纹理残差值。

可选地，区域补偿模块1204具体用于：

基于去噪视频帧中每个待补偿区域的区域纹理残差值，对每个待补偿区域进行图像增强，获得修复视频帧。

可选地，视频编码参数包括宏块参考和自适应量化，待补偿区域的类型包括静态区域、动态区域、纹理区域和平坦区域；

区域划分模块1202具体用于：

将待修复视频帧中宏块参考值大于第一阈值的区域，确定为静态区域；

将待修复视频帧中宏块参考值不大于第一阈值的区域，确定为动态区域；

将待修复视频帧中自适应量化值大于第二阈值的区域，确定为纹理区域；

将待修复视频帧中自适应量化值不大于第二阈值的区域，确定为平坦区域。

可选地，区域划分模块1202还用于：

对待修复视频帧进行人脸识别，确定待修复视频帧中的人脸区域。

可选地，预测模块1201具体用于：

采用神经网络模型，提取待修复视频帧的图像特征，用于训练神经网络模型的样本图像集至少包括经锐化处理的参考视频帧、对参考视频帧进行视频编码后获得的待修复样本视频帧以及待修复样本视频帧对应的编码信息分布图像；

基于待修复视频帧的图像特征，预测待修复视频帧的图像补偿参数值。

可选地，神经网络模型至少包括M个卷积模块，每个卷积模块包括第一卷积层、第二卷积层、第一合并层、第二合并层以及N个残差块；

第一卷积层用于对输入卷积模块的图像特征进行卷积处理；

N个残差块按照连接顺序，依次对第一卷积层输出的图像特征进行处理，其中，N个残差块中第一个残差块的输入为第一卷积层输出的图像特征，其他N-1残差块中每个残差块的输入为前一个残差块输出的图像特征；

第一合并层用于将N个残差块输出的图像特征合并；

第二卷积层用于对第一合并层输出的图像特征进行卷积处理；

第二合并层用于将输入卷积模块的图像特征与第二卷积层输出的图像特征合并。

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图13所示，包括至少一个处理器1301，以及与至少一个处理器连接的存储器1302，本申请实施例中不限定处理器1301与存储器1302之间的具体连接介质，图13中处理器1301和存储器1302之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器1302存储有可被至少一个处理器1301执行的指令，至少一个处理器1301通过执行存储器1302存储的指令，可以执行前述视频修复方法的步骤。

其中，处理器1301是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器1302内的指令以及调用存储在存储器1302内的数据，从而进行视频修复。可选的，处理器1301可包括一个或多个处理单元，处理器1301可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1301中。在一些实施例中，处理器1301和存储器1302可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1301可以是通用处理器，例如中央处理器（CPU）、数字信号处理器、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1302作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1302可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器（Random AccessMemory，RAM）、静态随机访问存储器（Static Random Access Memory，SRAM）、可编程只读存储器（Programmable Read Only Memory，PROM）、只读存储器（Read Only Memory，ROM）、带电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory，EEPROM）、磁性存储器、磁盘、光盘等等。存储器1302是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1302还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得所述计算机设备执行前述视频修复方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频修复方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述图像补偿参数值包括噪声残差值和纹理残差值；

所述根据每个待补偿区域的类型、为不同类型的待补偿区域所设定的图像补偿策略以及所述图像补偿参数值，确定每个待补偿区域的区域补偿参数值，包括：

3.如权利要求2所述的方法，其特征在于，所述基于每个待补偿区域的区域补偿参数值，对每个待补偿区域进行图像补偿，获得修复视频帧，包括：

4.如权利要求1所述的方法，其特征在于，所述视频编码参数包括宏块参考和自适应量化，所述待补偿区域的类型包括静态区域、动态区域、纹理区域和平坦区域；

所述根据所述待修复视频帧对应的视频编码参数的分布特征，将所述待修复视频帧划分为多个待补偿区域，包括：

5.如权利要求4所述的方法，其特征在于，还包括：

6.如权利要求1至5任一所述的方法，其特征在于，所述基于待修复视频帧的图像特征，预测所述待修复视频帧的图像补偿参数值，包括：

7.如权利要求6所述的方法，其特征在于，所述神经网络模型至少包括M个卷积模块，每个卷积模块包括第一卷积层、第二卷积层、第一合并层、第二合并层以及N个残差块；

所述第一合并层用于将所述N个残差块输出的图像特征合并；

8.一种视频修复装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1~7任一所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1~7任一所述方法的步骤。