WO2021254139A1

WO2021254139A1 - 视频处理方法、设备及存储介质

Info

Publication number: WO2021254139A1
Application number: PCT/CN2021/097686
Authority: WO
Inventors: 杨维; 徐科; 孔德辉; 宋剑军; 朱方
Original assignee: 中兴通讯股份有限公司
Priority date: 2020-06-15
Filing date: 2021-06-01
Publication date: 2021-12-23
Also published as: EP4167570A4; CN113810763A; EP4167570A1; US20230269395A1

Abstract

本申请提供一种视频处理方法、设备及存储介质。该方法通过对原始视频进行编解码，得到混合分辨率视频，混合分辨率视频包括关键帧对应的第一分辨率帧和第二分辨率帧，还包括非关键帧对应的第三分辨率帧，第一分辨率帧的分辨率高于第二分辨率帧的分辨率和第三分辨率帧的分辨率；根据第一分辨率帧和第二分辨率帧，对非关键帧对应的第三分辨率帧进行放大并输出放大后的视频，放大后的视频包括关键帧对应的第一分辨率帧以及非关键帧对应的放大后的目标帧。

Description

视频处理方法、设备及存储介质

相关申请的交叉引用

本申请要求2020年6月15日提交给中国专利局的第202010544611.8号专利申请的优先权，其全部内容通过引用合并于此。

技术领域

本公开涉及但不限于视频处理技术。

背景技术

在如今的信息时代，视频信息占有比例越来越高，视频数据量越来越大，视频的传输与压缩尤为重要。虽然编解码技术不断发展，但在条件较差的地区，比如山区或者其他环境恶劣的区域，由于搭建的基站不够多、宽带资源不足，可能会导致视频信息丢失、传输时延大等，而如果对整个视频进行大幅度的压缩，解码后的视频分辨率低，主客观的质量和放大效果差，严重影响观看感受。目前缺乏有效的视频处理方法，能够在恶劣环境、资源不足或者限制流量等场景下，既减少视频数据传输占用的资源，又可以解码得到高质量的视频。

发明内容

本公开实施例提供一种视频处理方法，包括：通过对原始视频进行编解码，得到混合分辨率视频，所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧，还包括所述原始视频中的非关键帧对应的第三分辨率帧，其中，所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率；根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大，并输出放大后的视频，其中，所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。

本公开实施例还提供了一种设备，包括：一个或多个处理器；以及存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的视频处理方法。

本公开实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述的视频处理方法。

附图说明

图1为本公开提供的一种视频处理方法的流程图；

图2为本公开提供的一种混合分辨率视频的示意图；

图3为本公开提供的一种视频处理方法的流程图；

图4为本公开提供的一种视频放大网络的原理示意图；

图5为本公开提供的一种运动估计子网络的示意图；

图6为本公开提供的一种运动补偿子网络的示意图；

图7为本公开提供的一种放大子网络的示意图；

图8为本公开提供的一种视频处理装置的结构示意图；

图9为本公开提供的一种视频处理***的结构示意图；

图10为本公开提供的一种设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本公开进行说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互任意组合。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

在本公开中，提供一种视频处理方法，该方法对于非关键帧只需编解码得到低分辨率帧，然后参考关键帧的信息对低分辨率帧进行放大，从而以较少的码流得到放大的高分辨率视频，降低了视频传输的带宽压力，提高了视频放大的主客观质量。

图1为本公开提供的一种视频处理方法的流程图，如图1所示，本公开提供的方法包括步骤110和步骤120。

在步骤110中，通过对原始视频进行编解码，得到混合分辨率视频，所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧，还包括所述原始视频中的非关键帧对应的第三分辨率帧，其中，所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率。

本公开中，原始视频是指待处理或待传输的高分辨率视频，原始视频首先经过编解码处理得到混合分辨率视频，相比于原始视频，部分帧的分辨率已经降低，实现了视频数据的压缩，在此过程中也以较少的资源完成了传输。原始视频中包括关键帧和非关键帧，关键帧例如为场景转换帧、从相似帧中选取出的某个帧、图像组(Group of Pictures，GOP)的内部编码帧(I帧)等，关键帧携带了视频帧的关键信息，可用于概括视频的场景事件，除关键帧以外的所有帧即为非关键帧。

通过视频编解码器可基于分层视频编解码(Scaled Video Coding，SVC)技术，对原始视频中的关键帧和非关键帧分别进行不同的处理，将视频分割为多种分辨率，从而得到混合分辨率视频。SVC是一种混合编解码框架，通过将视频帧帧内的空间冗余和帧间的时间冗余相结合，构建不同的编码块形成整个编解码协议。具体的，对于关键帧，通过视频编解码器得到第一分辨率帧(高分辨率帧)和第二分辨率帧(低分辨率帧)；对于非关键帧，通过下采样得到第三分辨率帧(低分辨率帧)，其中，第二分辨率与第三分辨率相同，从而得到了混合分辨率视频。

图2为本公开提供的一种混合分辨率视频的示意图。如图2所示，较大的方框代表的是关键帧，较小的方框代表非关键帧。经过编解码处理得到的混合分辨率视频中，携带了关键帧的高分辨率帧，以及非关键帧的低分辨率帧。关键帧的高分辨率帧可为非关键帧的低分辨率帧放大提供依据。

在步骤120中，根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大，并输出放大后的视频，其中，所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。

本公开中，通过编解码可以基于空间分级策略(使用不同的空间分辨率进行压缩)得到混合分辨率视频，能够减少视频传输的比特数，降低带宽压力，节约资源；混合分辨率视频再经过视频放大处理，可以将被降低分辨率的非关键帧放大，重新得到高分辨率帧，从而得到完整的高分辨率视频，获取完整的高质量的视频信息。本公开中，基于混合编解码框架的双向参考的帧内参考模式对非关键帧的第三分辨率帧进行放大，即，参考非关键前后的关键帧的信息，对中间的每个非关键帧进行放大，第三分辨率帧经过放大后的高分辨率帧即为目标帧。

本公开的视频处理方法，基于SVC得到混合分辨率视频，其中，对于非关键帧只需编解码得到低分辨率帧，然后参考关键帧的信息对低分辨率帧进行放大，从而以较少的码流得到放大的高分辨率视频，降低了视频传输的带宽压力，提高了视频放大的主客观质量。

图3为本公开提供的一种视频处理方法的流程图。参照图3对原始视频的编解码过程和视频放大过程进行具体描述，其中，视频编解码过程利用残差图实现对原始视频的SVC，视频放大过程了利用了经过训练的神经网络，两者结合起来，保证了视频传输的效率和放大的质量。如图3所示，本公开提供的视频处理方法包括步骤210-250。

在步骤210中，检测所述原始视频中的关键帧。

在对高分辨率的原始视频进行编解码器之前，首先检测关键帧，本公开中，可以将H265协议中GOP中的第一帧(I帧)作为关键帧，关键帧经过编解码得到第一分辨率帧，具有较高分辨率，编解码损失很小，从而可以在视频放大过程中作为参考帧，为视频放大提供依据。

在步骤220中，生成所述关键帧的残差图和第二分辨率帧，并对所述非关键帧进行下采样得到第三分辨率帧。

对于关键帧，需要在编解码之后得到第一分辨率帧和第二分辨率帧，对于第一分辨率帧，可以对关键帧进行下采样到第二分辨率帧，然后再进行上采样并将上采样后的帧与原始视频帧相减，得到残差图，残差图可清晰反映出下采样再上采样后的(或者是对关键帧经过拆分和拼接后的)图像与原始视频关键帧之间的变化区域与非变化区域，从而像素值变化范围比原来小，可以用更小的变化范围做量化，从而降低传输的比特位数；对于第二分辨率帧，可以通过下采样、图像拆分等方法得到关键帧对应的较低分辨率的第二分辨率帧；而对于非关键帧直接进行压缩下采样，得到较低分辨率的第三分辨率帧。

在步骤230中，对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码，得到混合分辨率视频。

通过对残差图、第二分辨率帧以及第三分辨率帧进行编码，得到可传输的码流，然后再对码流进行解码，得到混合分辨率视频。

在步骤240中，对于每个非关键帧，分别将该非关键帧的第三分辨率帧(表示为(I _t ^LR)、该非关键帧的前一非关键帧放大前的第三分辨率帧(表示为I _t-1 ^LR)和放大后的高分辨率帧(表示为I _t-1 ^SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(分别表示为I _k1 ^SR、I _k2 ^SR)和对应的第二分辨率帧(分别表示为(I _k1 ^LR、I _k2 ^LR)输入所述视频放大网络。

本公开中，可以通过视频放大网络(例如为经过训练的循环神经网络)基于混合编解码框架中的双向参考的帧内参考模式，参考每个非关键帧前后的关键帧的高分辨率帧和低分辨率帧(第一分辨率帧和第二分辨率帧)之间的关系和变化，结合前一非关键帧的放大结果，对该非关键帧进行放大。这种情况下，在对一个非关键帧进行放大时，视频放大网络的输入共有七个：

该非关键帧的第三分辨率帧(I _t ^LR)；

与该非关键帧相邻的前一关键帧对应的第一分辨率帧(I _k1 ^SR)和对应的第二分辨率帧(I _k1 ^LR)；

与该非关键帧相邻的后一关键帧对应的第一分辨率帧(I _k2 ^SR)和第二分辨率帧(I _k2 ^LR)；

该非关键帧的前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)和放大后的高分辨率帧(I _t-1 ^SR)。

在步骤250中，通过所述视频放大网络，根据该非关键帧的前一非关键帧放大前的第三分辨率帧(即I _t-1 ^LR)和放大后的高分辨率帧(即I _t-1 ^SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(即I _k1 ^SR、I _k2 ^SR)和对应的第二分辨率帧(即I _k1 ^LR、I _k2 ^LR)，对该非关键帧的第三分辨率帧(即I _t ^LR)进行放大，得到非关键帧对应的放大后的目标帧。

本公开的视频放大网络可以为一个经过训练的循环神经网络，其工作原理是：通过输入相邻两个关键帧对应的第一分辨率帧(高分辨率帧)和第二分辨率帧(低分辨率帧)作为整个中间非关键帧的第三分辨率帧(低分辨率帧)的参考帧，同时还输入前一非关键帧放大前的第三分辨率帧和放大后的高分辨率帧，通过循环神经网络，根据各参考帧与当前帧时空之间的关系，可以对当前的非关键帧的第三分辨率帧进行放大。其中，当前的非关键帧参考了两个方向的参考帧，在场景发生变化的情况下，能够充分利用前向和后向的低分辨率帧与高分辨率帧的信息，保证对当前非关键帧的放大效果。

在一实施方式中，步骤220中，生成所述关键帧的残差图和第二分辨率帧，包括步骤221和步骤222。

在步骤221，对所述关键帧进行下采样，得到关键帧的第二分辨率帧。

本实施方式中，对关键帧进行下采样以得到关键帧的第二分辨率帧(低分辨率帧)，下采样可以采用双线性或者双三次的方法，且解码过程对关键帧采用相同的方法上采样。

在步骤222，对所述关键帧的第二分辨率帧进行上采样，得到关键帧的第一分辨率帧的临时帧，将第一分辨率帧的临时帧与关键帧相减，得到关键帧的残差图。

本实施方式中，对关键帧的第二分辨率帧进行上采样以得到关键帧的第一分辨率帧的临时帧(高分辨率帧)，第一分辨率帧的临时帧和原始视频中真实的关键帧(Ground Truth Frame)相减得到残差图。残差图可清晰反映出第一分辨率帧与原始视频关键帧之间的变化区域与非变化区域，降低编解码的处理量，节约编解码和传输资源。通过对残差图进行编码可以得到残差码流。在解码过程中，首先通过解码得到关键帧的第二分辨率帧(低分辨率帧)，然后通过上采样方法得到放大后的图(记为第四分辨率帧)，通过解码残差码流得到残差图，然后将该放大后的图与残差图相加即可得到关键帧的第一分辨率帧。本实施方式中，对于残差图的编解码需要在高分辨率下进行，在设计芯片时，解码高分辨率帧和解码低分辨率帧的时钟需要分别设置。

在一实施方式中，步骤230可以包括步骤231至步骤233。

在步骤231，通过编码器对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行编码，得到残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流。

在步骤232，通过解码器对所述残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流进行解码，分别得到所述残差图、所述第二分辨率帧以及所述第三分辨率帧。

在步骤233，对所述第二分辨率帧进行上采样，得到放大后的第四分辨率帧，将所述第四分辨率帧与所述残差图相加，得到所述关键帧的第一分辨率帧。

本实施方式中，视频编解码的过程中，首先需要对残差图进行编码得到残差码流，同时也对第二分辨率帧以及第三分辨率帧进行编码(压缩)和传输；而在解码过程中，首先通过解码得到关键帧的第二分辨率帧(低分辨率帧)，然后通过上采样方法得到放大后的图(记为第四分辨率帧)，通过解码残差码流得到残差图，然后将该放大后的图与残差图相加即可得到关键帧的第一分辨率帧。本实施方式中，对于残差图的编解码需要在高分辨率下进行，在设计芯片时，解码高分辨率帧和解码低分辨率帧的时钟需要分别设置。

在一实施方式中，步骤110，可以包括步骤111至步骤115。

在步骤111，检测所述原始视频中的关键帧。

在步骤112，将所述关键帧等分为多个子图，各所述子图的分辨率与所述第二分辨率帧的分辨率相同，并对所述非关键帧进行下采样得到第三分辨率帧。

在步骤113，将各所述子图与所述非关键帧的第三分辨率帧输入视频编解码器，所述视频编解码器包括编码器和解码器。

在步骤114，通过所述编码器对各所述子图与所述非关键帧的第三分辨率帧进行编码，得到各所述子图以及所述非关键帧对应的码流。

在步骤115，通过所述解码器根据各所述子图的码流对各所述子图进行拼接，得到所述关键帧的第一分辨率帧，并对所述第三分辨率帧的码流进行解码，得到所述第三分辨率帧。

本实施方式中，对于非关键帧采用下采样和编解码得到第三分辨率帧，而对于关键帧，采用下采样的方法得到第二分辨率帧，此外，通过将关键帧拆分为多个子图，然后再对多个子图进行拼接得到第一分辨率帧，即，将高分辨率的原始视频中的关键帧拆分为若干个相同大小的子图，通过编解码器再将各子图拼接成一个高分辨率图，得到的图即为该关键帧的第一分辨率帧，其分辨率高于原始视频中关键帧的分辨率。采用拆分方法与上采样方法均可得到关键帧的第一分辨率帧，本实施方式中，拆分方法主要适用于时效性要求不高的视频处理场景，而在超分辨率方法需要放大倍数比较大的情况下，如果采用拆分方法，需要拆分的子图较多，导致解码过程较长，延迟相对较大。

在一实施方式中，视频放大网络包括运动估计(Motion Estimation，ME)子网络、运动补偿(Motion Compansation，MC)子网络和放大子网络。

本实施方式中，视频放大网络包括三种子网络：运动估计子网络、运动补偿子网络和放大子网络，在放大过程中，也考虑了低分辨帧的运动矢量的估计和高分辨帧的运动补偿，能够获取参考帧更充分的信息，提高视频放大的质量。

在一实施方式中，步骤250可以包括步骤251至步骤253。

在步骤251，基于该非关键帧的第三分辨率帧(I _t ^LR)，通过所述运动估计子网络，分别对该非关键帧的前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(I _k1 ^LR、I _k2 ^LR)进行运动估计。

在帧间预测过程中，由于邻近帧中的场景存在着一定的相关性，可以将该非关键帧分成若干块或宏块，并设法搜索出每个块或宏块在邻近帧中的位置，并得出两者之间的空间位置的相对偏移量，即运动矢量，通过矢量运动估计可以去除帧间冗余度，使得视频传输的比特数大为减少。

本实施方式中，对于每个非关键帧，分别估计该非关键帧的低分辨率帧I _t ^LR与另外三种低分辨率帧之间的运动矢量，即，估计I _t ^LR与I _t-1 ^LR、I _t ^LR与I _k1 ^LR、I _t ^LR与I _k2 ^LR之间的运动矢量。

在步骤252，分别根据前一非关键帧放大后的高分辨率帧(I _t-1 ^SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)，对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿，得到中间高分辨率特征图，并通过重组操作将所述中间高分辨率特征图转化为低分辨率特征图。

本实施方式中，对于每个非关键帧，对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿，得到中间高分辨率特征图，然后将通过重组操作将所述中间高分辨率特征图转化为低分辨率特征图。通过运动估计可粗略估计得到运动矢量，通过运动补偿可以将估计结果细化，更加明确帧间之间的偏移，使放大子网络得到更加有效的输入。

在步骤253，通过所述放大子网络根据所述低分辨率特征图对所述第三分辨率帧进行放大，得到非关键帧对应的放大后的目标帧。

本公开的视频处理方法，利用帧间的时空关系对第三分辨率帧进行放大，使得放大后的视频不会抖动，视觉效果更为连贯。

图4为本公开提供的一种视频放大网络的原理示意图。本公开中，视频放大网络采用卷积循环神经网络实现对混合分辨率视频中低分辨率帧的放大。视频放大网络的网络结构如图4所示，包括三个部分：运动估计子网络、运动补偿子网络和放大子网络，放大子网络可以为一个超分辨率网络(Super Resolution Network，SRNet)。其中，运动估计子网络共有三个，分别用于估计I _t ^LR与I _t-1 ^LR、I _t ^LR与I _k1 ^LR、I _t ^LR与I _k2 ^LR之间的运动矢量，三个运动估计子网络的参数共享。I ^LR表示经过编解码后的混合分辨率视频中的低分辨率帧，I ^SR表示混合分辨率视频中的高分辨率帧，例如，I _k1 ^LR和I _k2 ^LR分别为前一关键帧和后一关键帧对应的低分辨率帧(第二分辨率帧)，I _k1 ^SR和I _k2 ^SR为前一关键帧和后一关键帧对应的高分辨率帧(第一分辨率帧)，I _t ^LR表示需要放大的当前的非关键帧的低分辨率帧(第三分辨率帧)，I _t-1 ^LR和I _t-1 ^SR分别为前一非关键帧的低分辨率帧和经过放大后的高分辨率帧。

在一实施方式中，视频放大过程还可以包括以下操作：

“↑”，表示上采样操作；

像素偏移(Warp)操作，表示将高分辨率的像素移动到当前像素位置加上运动矢量后的位置；

重组(Shuffle)操作，表示空间向通道(Channel)特征图的重组操作。

图5为本公开提供的一种运动估计子网络的示意图。如图5所示，运动估计子网络可以包括卷积层(Conv)，卷积核的通道数可以为32、64、128、256等；激活层，如带泄露修正线性单元(Leaky Rectified Linear Unit)激励层、双曲(Tanh)激励层；最大池化层(Max Pool)以及双线性(Bilinear)变换层。

图6为本公开提供的一种运动补偿子网络的示意图。如图6所示，运动估计子网络包括级联层(Concate)，用于将两个及以上的特征图在channel上进行拼接；卷积层(Conv)，卷积核的通道数可以为64、128、256等；残差块(Residual Block)；下采样层(表示为“↓”)和上采样层(表示为“↑”)。

图7为本公开提供的一种放大子网络的示意图。如图7所示，运动估计子网络包括卷积层(Conv)、修正线性单元激励层(ReLU)、反卷积层(Conv Transpose)。

在一实施方式中，步骤252可以包括步骤2521至步骤2523。

在步骤2521，分别对经过运动估计的各帧对应的运动矢量MV _t-1 ^LR、MV _k1 ^LR和MV _k2 ^LR进行上采样得到MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR；其中，MV _t-1 ^LR、MV _k1 ^LR和MV _k2 ^LR分别为前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)、该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(I _k1 ^LR、I _k2 ^LR)分别与该非关键帧的第三分辨率帧经过运动估计后对应的放大后的运动矢量；

在步骤2522，基于MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR，通过像素偏移操作，分别对前一非关键帧放大后的高分辨率帧(I _t-1 ^SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)进行像素偏移，分别得到像素偏移后的I _t-1->t ^SR、I _k1->t ^SR和I _k2->t ^SR；

在步骤2523，将I _t-1->t ^SR、I _k1->t ^SR、I _k2->t ^SR、MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR输入所述补偿子网络，经过所述补偿子网络的运动补偿后得到所述中间高分辨率特征图。

如图4所示，通过运动估计子网络，基于I _t ^LR，分别对除当前非关键帧的低分辨率帧以外的三种低分辨率帧(I _k1 ^LR、I _k2 ^LR、I _t-1 ^LR)分别进行运动估计，得到对应的运动矢量MV _t-1 ^LR、MV _k1 ^LR和MV _k2 ^LR；对经过运动估计的各运动矢量MV _t-1 ^LR、MV _k1 ^LR和MV _k2 ^LR分别进行上采样，得到放大的MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR；然后使用MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR，通过像素偏移操作，分别对I _t-1 ^SR、I _k1 ^SR、I _k2 ^SR进行像素偏移，得到像素偏移后的I _t-1->t ^SR、I _k1->t ^SR和I _k2->t ^SR；将I _t-1->t ^SR、I _k1->t ^SR、I _k2->t ^SR、MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR输入所述补偿子网络，经过所述补偿子网络的运动补偿后得到所述中间高分辨率特征图。在此基础上，通过放大子网络，根据中间高分辨率特征图对非关键帧的第三分辨率帧进行放大，得到非关键帧对应的放大后的目标帧。对于相邻的两个关键帧之间的每个非关键帧，都按此过程执行得到放大后的目标帧，最终实现所有非关键帧的第三分辨率帧的放大，得到高质量的超分辨率视频。

在一实施方式中，若该非关键帧为相邻的前一关键帧后的第一个非关键帧，则将所述前一关键帧的第二分辨率帧作为该非关键帧的前一非关键帧放大前的第三分辨率帧，并将所述前一关键帧的第一分辨率帧作为该非关键帧的前一非关键帧放大后的高分辨率帧。

本实施方式中，如果当前需要放大的非关键帧为其相邻的前一关键帧后的第一个非关键帧，即，该非关键帧与相邻的前一关键帧之间没有其他非关键帧，这种情况下，在该非关键帧所处的两个关键帧的区间内，不存在可用于作为参考帧的前一非关键帧的低分辨率帧 (I _t-1 ^LR)，也不存在对应的放大后的高分辨率帧(I _t-1 ^SR)，则可以将前一非关键帧的低分辨率帧(I _t-1 ^LR)替换为前一关键帧的低分辨率帧(第二分辨率帧，I _k1 ^LR)，并将前一非关键帧的高分辨率帧(I _t-1 ^SR)替换为前一关键帧的高分辨率帧(第一分辨率帧，I _k1 ^SR)，从而在不存在前一非关键帧的情况下，利用前关键帧作为参考帧，为放大算法提供完整依据，确保算法的可行性。

在一实施方式中，在根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的第三分辨率帧进行放大之前，所述方法还包括：步骤100：基于样本视频，根据第一损失函数和第二损失函数训练所述视频放大网络；其中，第一损失函数根据所述原始视频中两个相邻关键帧之间的非关键帧的原始高分辨率帧与原始高分辨率经过下采样然后通过视频放大网络放大后的帧的均方误差确定；第二损失函数根据所述非关键帧的原始高分辨率帧、所述非关键帧的第三分辨率帧与前一非关键帧的第三分辨率帧经过运动估计、运动矢量上采样、像素偏移后的I _t-1->t ^SR、所述非关键帧的第三分辨率帧与相邻的前一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的I _k1->t ^SR、所述非关键帧的第三分辨率帧与相邻的后一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的I _k2->t ^SR的均方误差确定。

视频放大网络预先经过训练，具有较好的放大能力。本实施方式中，可以从数据库中获取不同分辨率的高分辨率视频，将各高分辨率视频经过编解码处理后的混合分辨率视频分别作为样本视频用于视频放大网络的训练，样本视频中包含的内容和特征应足够丰富。

本实施方式中，根据第一损失函数和第二损失函数训练视频放大网络，其中，第二损失函数主要用于训练视频放大网络中的一个子网络(运动估计子网络)，对于运动估计子网络可进行单独训练，并有针对性地构建第二损失函数。

第一损失函数例如为：

其中，G表示相邻的两个关键帧和中间的非关键帧的总和，可以看出，第一损失函数与两帧关键帧无关。

第二损失函数例如为：

Loss _ME＝MSE(I _t ^HR,W _b(I _k1 ^SR,f _t→k1))+MSE(I _t ^HR,W _b(I _k1 ^SR,f _t→k2))+MSE(I _t ^HR,W _b(I _t-1 ^SR,f _t→t-1))，其中，I _t ^HR表示当前待放大的非关键帧的原始高分辨率帧，I _t-1 ^SR表示前一非关键帧放大后的高分辨率帧，f _t→t-1表示该非关键帧到前一非关键帧之间的运动矢量，f _t→k1表示该非关键帧到前一关键帧之间的运动矢量，f _t→k2表示该非关键帧到后一关键帧之间的运动矢量，W _b(Backward Warp)表示反向像素偏移(Warp)操作。视频放大网络对于混合分辨率视频进行放大的原理可参见上述实施方式。当第一损失函数以及第二损失函数分别稳定在一个值附近时，视频放大网络训练完成，此时的视频放大网络具有可靠的放大能力，可应用于对其他视频对应的混合分辨率视频中的低分辨率帧进行放大。

本实施方式中，选取的样本视频是真实有效的且具有多样性，样本视频输入到视频编解码器中得到放大网络的训练数据也是真实可靠的，而不是人为生成的。将视频编解码器作为一个整体，视频放大网络的训练数据从解码端获得，真实有效，训练得到的视频放大网络也更具针对性，从而保证训练效果、提高视频放大网络的放大能力和放大后的视频质量。

在一实施方式中，所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络；步骤100包括：根据所述第一损失函数训练所述视频放大网络，并根据第二损失函数对所述运动估计子网络进行训练，直至第一损失函数和第二损失函数满足设定条件。其中，设定条件是指，第一损失函数和第二损失函数分别稳定在一个值附近，例如，第一损失函数和第二损失函数的值的波动范围小于一定阈值。

在一实施方式中，在根据第一损失函数和第二损失函数训练所述视频放大网络之前，所述方法还包括：步骤101：对样本视频进行预处理，得到预设分辨率的样本视频。

在一些实施方式中，可以将获取到的高分辨率视频截取部分内容，使其符合预设分辨率(例如为256*256)，然后输入至视频编解码器，经过编码得到混合分辨率的码流，经过解码得到混合分辨率帧。

本公开的视频处理方法，利用残差图进行编解码，只需处理关键帧的变化区域，能够降低关键帧编解码的码率；在视频放大过程中，采用双向关键帧作为参考帧，在场景发生变化的情况下，能够充分利用前向和后向的低分辨率帧与高分辨率帧的信息，保证对当前非关键帧的放大效果；对关键帧采用下采样的方法得到第二分辨率帧，减少延迟，提高时效性；在放大过程中，也考虑了低分辨帧的运动矢量的估计和运动补偿，能够获取参考帧更充分的信息，提高视频放大的质量；通过矢量运动估计可以去除帧间冗余度，使得视频传输的比特数大为减少；此外，视频放大网络的训练数据从解码端获得，真实有效，训练得到的视频放大网络也更具针对性，从而保证训练效果、提高视频放大网络的放大能力和放大后的视频质量。

本公开还提供一种视频处理装置。图8为本公开提供的一种视频处理装置的结构示意图。如图8所示，所述视频处理装置包括：编解码模块310和放大模块320。

编解码模块310，设置为通过对原始视频进行编解码，得到混合分辨率视频，所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧，还包括所述原始视频中的非关键帧对应的第三分辨率帧，其中，所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率。

放大模块320，设置为根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大，并输出放大后的视频，其中，所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。

本公开的视频处理装置，通过对原始视频进行编解码，得到混合分辨率视频；根据关键帧对应的第一分辨率帧和第二分辨率帧，对混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大，对于非关键帧只需编解码得到低分辨率帧，然后根据关键帧对低分辨率帧进行放大，以较少的码流得到放大的高分辨率视频，降低了视频传输的带宽压力，提高了视频放大的主客观质量。

在一实施方式中，编解码模块310，包括：检测单元，设置为检测所述原始视频中的关键帧；帧处理单元，设置为生成所述关键帧的残差图和第二分辨率帧，并对所述非关键帧进行下采样得到第三分辨率帧；编解码单元，设置为对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码后，得到混合分辨率视频。

在一实施方式中，生成所述关键帧的残差图和第二分辨率帧，包括：对所述关键帧进行下采样，得到所述关键帧的第二分辨率帧；对所述关键帧进行上采样，得到所述关键帧的第一分辨率帧的临时帧，将所述第一分辨率帧的临时帧与所述关键帧相减，得到所述关键帧的残差图。

在一实施方式中，编解码单元，可设置为：通过得到编码器对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行编码，得到残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流；通过所述解码器对所述残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流进行解码，分别得到所述残差图、所述第二分辨率帧以及所述第三分辨率帧；对所述第二分辨率帧进行上采样，得到放大后的第四分辨率帧，将所述第四分辨率帧与所述残差图相加，得到所述关键帧的第一分辨率帧。

在一实施方式中，编解码模块310，包括：检测单元，设置为检测所述原始视频中的关键帧；帧处理单元，设置为将所述关键帧等分为多个子图，各所述子图的分辨率与所述第二分辨率帧的分辨率相同，并对所述非关键帧进行下采样得到第三分辨率帧；编码单元，设置为将各所述子图与所述非关键帧的第三分辨率帧输入视频编解码器，所述视频编解码器包括编码器和解码器；通过所述编码器对各所述子图与所述非关键帧的第三分辨率帧进行编码，得到各所述子图以及所述非关键帧对应的码流；解码单元，设置为通过所述解码器根据各所述子图的码流对各所述子图进行拼接，得到所述关键帧的第一分辨率帧，并对所述第三分辨率帧的码流进行解码，得到所述第三分辨率帧。

在一实施方式中，放大模块320，包括：输入单元，设置为对于每个非关键帧，分别将该非关键帧的第三分辨率帧(I _t ^LR)、该非关键帧的前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)和放大后的高分辨率帧(I _t-1 ^SR)、以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)和对应的第二分辨率帧(I _k1 ^LR、I _k2 ^LR)输入视频放大网络；放大单元，设置为通过所述视频放大网络，根据该非关键帧的前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)和放大后的高分辨率帧(I _t-1 ^SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)和对应的第二分辨率帧(I _k1 ^LR、I _k2 ^LR)，对该非关键帧的第三分辨率帧(I _t ^LR)进行放大，得到该非关键帧对应的放大后的目标帧。

在一实施方式中，所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络；放大单元，可设置为：基于该非关键帧的第三分辨率帧(I _t ^LR)，通过所述运动估计子网络，分别对该非关键帧的前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(I _k1 ^LR、I _k2 ^LR)进行运动估计；分别根据前一非关键帧放大后的高分辨率帧(I _t-1 ^SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)，对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿，得到中间高分辨率特征图，并通过重组操作将所述中间高分辨率特征图转化为低分辨率特征图；通过所述放大子网络根据所述低分辨率特征图对所述第三分辨率帧进行放大，得到非关键帧对应的放大后的目标帧。

在一实施方式中，分别根据前一非关键帧放大后的高分辨率帧(I _t-1 ^SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)，对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿，得到中间高分辨率特征图，包括：分别对经过运动估计的各帧对应的运动矢量MV _t-1 ^LR、MV _k1 ^LR和MV _k2 ^LR进行上采样得到MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR；其中，MV _t-1 ^LR、MV _k1 ^LR和MV _k2 ^LR分别为前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(I _k1 ^LR、I _k2 ^LR)分别与该非关键帧的第三分辨率帧经过运动估计后对应的放大后的运动矢量；基于MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR，通过像素偏移操作，分别对前一非关键帧放大后的高分辨率帧(I _t-1 ^SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)进行像素偏移，分别得到像素偏移后的I _t-1->t ^SR、I _k1->t ^SR和I _k2->t ^SR；将I _t-1->t ^SR、I _k1->t ^SR、I _k2->t ^SR、MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR输入所述补偿子网络，经过所述补偿子网络的运动补偿后得到所述中间高分辨率特征图。

在一实施方式中，所述装置还包括：训练模块，设置为在根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的第三分辨率帧进行放大之前，基于样本视频，根据第一损失函数和第二损失函数训练所述视频放大网络；其中，所述第一损失函数根据所述原始视频中两个相邻关键帧之间的非关键帧的原始高分辨率帧与原始高分辨率经过下采样然后通过视频放大网络放大后的帧均方误差确定；第二损失函数根据所述非关键帧的原始高分辨率帧、所述非关键帧的第三分辨率帧与前一非关键帧的第三分辨率帧经过运动估计、运动矢量上采样、像素偏移后的I _t-1->t ^SR、所述非关键帧的第三分辨率帧与相邻的前一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的I _k1->t ^SR、所述非关键帧的第三分辨率帧与相邻的后一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的I _k2->t ^SR的均方误差确定。

在一实施方式中，所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络；所述根据第一损失函数和第二损失函数训练所述视频放大网络，包括：根据所述第一损失函数训练所述视频放大网络，并根据第二损失函数对所述运动估计子网络进行训练，直至所述第一损失函数和所述第二损失函数满足设定条件。

在一实施方式中，所述装置还包括：预处理模块，设置为在根据第一损失函数和第二损失函数训练所述视频放大网络之前，对样本视频进行预处理，得到预设分辨率的样本视频。

本公开提出的视频处理装置与上述的视频处理方法属于同一构思，未在视频处理装置的实施方式中详尽描述的技术细节可参见上述任意实施方式，并且视频处理装置具备与执行视频处理方法相同的有益效果。

本公开还提供一种视频处理***。图9为本公开提供的一种视频处理***的结构示意图。如图9所示，该***包括：视频编解码器410，用于处理原始视频，得到混合分辨率视频，所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧，还包括所述原始视频中的非关键帧对应的第三分辨率帧，其中，所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率；视频放大网络420，用于根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大，并输出放大后的视频，其中，所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。

在一实施方式中，视频编解码器410，可用于：检测所述原始视频中的关键帧；生成所述关键帧的残差图和第二分辨率帧，并对所述非关键帧进行下采样得到第三分辨率帧；对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码后，得到混合分辨率视频。

在一实施方式中，对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码后，得到混合分辨率视频，包括：通过所述编码器对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行编码，得到残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流；通过所述解码器对所述残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流进行解码，分别得到所述残差图、所述第二分辨率帧以及所述第三分辨率帧；对所述第二分辨率帧进行上采样，得到放大后的第四分辨率帧，将所述第四分辨率帧与所述残差图相加，得到所述关键帧的第一分辨率帧。

在一实施方式中，视频放大网络420，可用于：对于每个非关键帧，分别将该非关键帧的第三分辨率帧(I _t ^LR)、该非关键帧的前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)和放大后的高分辨率帧(I _t-1 ^SR)、以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)和对应的第二分辨率帧(I _k1 ^LR、I _k2 ^LR)输入视频放大网络；放大单元，设置为通过所述视频放大网络，根据该非关键帧的前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)和放大后的高分辨率帧(I _t-1 ^SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)和对应的第二分辨率帧(I _k1 ^LR、I _k2 ^LR)，对该非关键帧的第三分辨率帧(I _t ^LR)进行放大，得到该非关键帧对应的放大后的目标帧。

在一实施方式中，所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络；根据该非关键帧的前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)和放大后的高分辨率帧(I _t-1 ^SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)和对应的第二分辨率帧(I _k1 ^LR、I _k2 ^LR)，对该非关键帧的第三分辨率帧(I _t ^LR)进行放大，得到该非关键帧对应的放大后的目标帧，包括基于该非关键帧的第三分辨率帧(I _t ^LR)，通过所述运动估计子网络，分别对该非关键帧的前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(I _k1 ^LR、I _k2 ^LR)进行运动估计；分别根据前一非关键帧放大后的高分辨率帧(I _t-1 ^SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)，对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿，得到中间高分辨率特征图，并通过重组操作将所述中间高分辨率特征图转化为低分辨率特征图；通过所述放大子网络根据所述低分辨率特征图对所述第三分辨率帧进行放大，得到非关键帧对应的放大后的目标帧。

在一实施方式中，分别根据前一非关键帧放大后的高分辨率帧(I _t-1 ^SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)，对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿，得到中间高分辨率特征图，包括：分别对经过运动估计的各帧对应的运动矢量MV _t-1 ^LR、MV _k1 ^LR和MV _k2 ^LR进行上采样得到MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR；其中，MV _t-1 ^LR、MV _k1 ^LR和MV _k2 ^LR分别为前一非关键帧放大前的第三分辨率帧(I _t-1 ^LR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(I _k1 ^LR、I _k2 ^LR)分别与该非关键帧的第三分辨率帧经过运动估计后对应的放大后的运动矢量；基于MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR，通过像素偏移Warp操作，分别对前一非关键帧放大后的高分辨率帧(I _t-1 ^SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(I _k1 ^SR、I _k2 ^SR)进行像素偏移，分别得到像素偏移后的I _t-1->t ^SR、I _k1->t ^SR和I _k2->t ^SR；将I _t-1->t ^SR、I _k1->t ^SR、I _k2->t ^SR、MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR输入所述补偿子网络，经过所述补偿子网络的运动补偿后得到所述中间高分辨率特征图。

在一实施方式中，在根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的第三分辨率帧进行放大之前，基于样本视频，根据第一损失函数和第二损失函数训练所述视频放大网络；其中，所述第一损失函数根据所述原始视频中两个相邻关键帧之间的非关键帧的原始高分辨率帧与原始高分辨率经过下采样然后通过视频放大网络放大后的帧均方误差确定；第二损失函数根据所述非关键帧的原始高分辨率帧、所述非关键帧的第三分辨率帧与前一非关键帧的第三分辨率帧经过运动估计、运动矢量上采样、像素偏移后的I _t-1->t ^SR、所述非关键帧的第三分辨率帧与相邻的前一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的I _k1->t ^SR、所述非关键帧的第三分辨率帧与相邻的后一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的I _k2->t ^SR的均方误差确定。

在一实施方式中，视频放大网络420包括运动估计子网络、运动补偿子网络和放大子网络；所述根据第一损失函数和第二损失函数训练所述视频放大网络，包括：根据所述第一损失函数训练所述视频放大网络，并根据第二损失函数对所述运动估计子网络进行训练，直至所述第一损失函数和所述第二损失函数满足设定条件。

在一实施方式中，在根据第一损失函数和第二损失函数训练所述视频放大网络之前，对样本视频进行预处理，得到预设分辨率的样本视频。

本公开提供的视频处理***与上述提出的视频处理方法属于同一构思，未在视频处理***的实施方式中详尽描述的技术细节可参见上述任意实施方式，并且视频处理***具备与执行视频处理方法相同的有益效果。

本公开还提供一种设备。所述视频处理方法可以由视频处理装置执行，该视频处理装置可以通过软件和/或硬件的方式实现，并集成在所述设备中。

图10为本公开提供的一种设备的硬件结构示意图。如图10所示，本公开提供的一种设备，包括：处理器610和存储装置520。该设备中的处理器可以是一个或多个，图10中以一个处理器610为例，所述设备中的处理器610和存储装置620可以通过总线或其他方式连接，图10中以通过总线连接为例。该设备中的存储装置620作为一种计算机可读存储介质，可用于存储一个或多个程序。

所述一个或多个程序被所述一个或多个处理器610执行，使得所述一个或多个处理器实现上述任一实施方式所述的视频处理方法。该方法包括：通过对原始视频进行编解码，得到混合分辨率视频，所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧，还包括所述原始视频中的非关键帧对应的第三分辨率帧，其中，所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率；根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大，并输出放大后的视频，其中，所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。

所述程序可以是软件程序、计算机可执行程序以及模块，如本公开中视频处理方法对应的程序指令/模块(例如，附图8所示的视频处理装置中的模块，包括：编解码模块310和放大模块320)。处理器610通过运行存储在存储装置620中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述方法实施方式中的视频处理方法。

存储装置620主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等(如上述实施方式中的混合分辨率视频、第三分辨率帧等)。此外，存储装置620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置620可进一步包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

并且，当上述设备中所包括一个或者多个程序被所述一个或者多个处理器610执行时，实现如下操作：通过对原始视频进行编解码，得到混合分辨率视频，所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧，还包括所述原始视频中的非关键帧对应的第三分辨率帧，其中，所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率；根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大，并输出放大后的视频，其中，所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。

本公开提出的设备与上述提出的视频处理方法属于同一构思，未在设备的实施方式中详尽描述的技术细节可参见上述任意实施方式，并且本设备具备与执行视频处理方法相同的有益效果。

本公开还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种视频处理方法。该方法包括：通过对原始视频进行编解码，得到混合分辨率视频，所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧，还包括所述原始视频中的非关键帧对应的第三分辨率帧，其中，所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率；根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大，并输出放大后的视频，其中，所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。

通过以上关于实施方式的描述，所属领域的技术人员可以了解到，本公开可借助软件及通用硬件来实现，也可以通过硬件实现。基于这样的理解，本公开的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开任意实施方式所述的方法。

以上所述，仅为本公开的示例性实施方式而已，并非用于限定本公开的保护范围。

本公开附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和***(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。

通过示范性和非限制性的示例，上文已提供了对本公开的示范实施方式的详细描述。但结合附图和权利要求来考虑，对以上实施方式的多种修改和调整对本领域技术人员来说是显而易见的，但不偏离本公开的范围。因此，本公开的恰当范围将根据权利要求确定。

Claims

一种视频处理方法，包括：

通过对原始视频进行编解码，得到混合分辨率视频，所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧，还包括所述原始视频中的非关键帧对应的第三分辨率帧，其中，所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率；

根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大，并输出放大后的视频，其中，所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。
根据权利要求1所述的方法，其中，所述通过对原始视频进行编解码，得到混合分辨率视频，包括：

检测所述原始视频中的关键帧；

生成所述关键帧的残差图和第二分辨率帧，并对所述非关键帧进行下采样得到第三分辨率帧；

对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码后，得到混合分辨率视频。
根据权利要求2所述的方法，其中，生成所述关键帧的残差图和第二分辨率帧，包括：

对所述关键帧进行下采样，得到所述关键帧的第二分辨率帧；

对所述关键帧进行上采样，得到所述关键帧的第一分辨率帧的临时帧，将所述第一分辨率帧的临时帧与所述关键帧相减，得到所述关键帧的残差图。
根据权利要求2所述的方法，其中，对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码，得到混合分辨率视频，包括：

通过编码器对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行编码，得到残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流；

通过解码器对所述残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流进行解码，分别得到所述残差图、所述第二分辨率帧以及所述第三分辨率帧；

对所述第二分辨率帧进行上采样，得到放大后的第四分辨率帧，将所述第四分辨率帧与所述残差图相加，得到所述关键帧的第一分辨率帧。
根据权利要求1所述的方法，其中，所述通过对原始视频进行编解码，得到混合分辨率视频，包括：

检测所述原始视频中的关键帧；

将所述关键帧等分为多个子图，各所述子图的分辨率与所述第二分辨率帧的分辨率相同，并对所述非关键帧进行下采样得到第三分辨率帧；

将各所述子图与所述非关键帧的第三分辨率帧输入视频编解码器，所述视频编解码器包括编码器和解码器；

通过所述编码器对各所述子图与所述非关键帧的第三分辨率帧进行编码，得到各所述子图以及所述非关键帧对应的码流；

通过所述解码器根据各所述子图的码流对各所述子图进行拼接，得到所述关键帧的第一分辨率帧，并对所述第三分辨率帧的码流进行解码，得到所述第三分辨率帧。
根据权利要求1所述的方法，其中，根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的第三分辨率帧进行放大，包括：

对于每个非关键帧，分别将该非关键帧的第三分辨率帧、该非关键帧的前一非关键帧放大前的第三分辨率帧和放大后的高分辨率帧、以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧和对应的第二分辨率帧输入视频放大网络；

通过所述视频放大网络，根据该非关键帧的前一非关键帧放大前的第三分辨率帧和放大后的高分辨率帧、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧和对应的第二分辨率帧，对该非关键帧的第三分辨率帧进行放大，得到该非关键帧对应的放大后的目标帧。
根据权利要求6所述的方法，其中，所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络；

通过所述视频放大网络，根据该非关键帧的前一非关键帧放大前的第三分辨率帧和放大后的高分辨率帧、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧和对应的第二分辨率帧，对该非关键帧的第三分辨率帧进行放大，得到该非关键帧对应的放大后的目标帧，包括：

基于该非关键帧的第三分辨率帧，通过所述运动估计子网络，分别对该非关键帧的前一非关键帧放大前的第三分辨率帧以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧进行运动估计；

分别根据前一非关键帧放大后的高分辨率帧以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧，对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿，得到中间高分辨率特征图，并通过重组操作将所述中间高分辨率特征图转化为低分辨率特征图；

通过所述放大子网络根据所述低分辨率特征图对所述第三分辨率帧进行放大，得到非关键帧对应的放大后的目标帧。
根据权利要求7所述的方法，其中，分别根据前一非关键帧放大后的高分辨率帧以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧，对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿，得到中间高分辨率特征图，包括：

分别对经过运动估计的各帧对应的运动矢量MV _t-1 ^LR、MV _k1 ^LR和MV _k2 ^LR进行上采样得到MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR，其中，MV _t-1 ^LR、MV _k1 ^LR和MV _k2 ^LR分别为前一非关键帧放大前的第三分辨率帧、该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧分别与该非关键帧的第三分辨率帧经过运动估计后对应的放大后的运动矢量；

基于MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR，通过像素偏移操作，分别对前一非关键帧放大后的高分辨率帧、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧进行像素偏移，分别得到像素偏移后的各帧I _t-1->t ^SR、I _k1->t ^SR和I _k2->t ^SR；

将I _t-1->t ^SR、I _k1->t ^SR、I _k2->t ^SR、MV _t-1 ^SR、MV _k1 ^SR和MV _k2 ^SR输入所述补偿子网络，经过所述补偿子网络的运动补偿后得到所述中间高分辨率特征图。
根据权利要求6所述的方法，其中，若该非关键帧为相邻的前一关键帧后的第一个非关键帧，则将所述前一关键帧的第二分辨率帧作为该非关键帧的前一非关键帧放大前的第三分辨率帧，并将所述前一关键帧的第一分辨率帧作为该非关键帧的前一非关键帧放大后的高分辨率帧。
根据权利要求8所述的方法，其中，在根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的第三分辨率帧进行放大之前，所述方法还包括：

基于样本视频，根据第一损失函数和第二损失函数训练视频放大网络，所述视频放大网络用于根据所述关键帧对应的第一分辨率帧和第二分辨率帧，对所述混合分辨率视频中的第三分辨率帧进行放大；

其中，所述第一损失函数根据所述原始视频中两个相邻关键帧之间的非关键帧的原始高分辨率帧与原始高分辨率经过下采样然后通过视频放大网络放大后的帧的均方误差确定；

所述第二损失函数根据所述非关键帧的原始高分辨率帧、所述非关键帧的第三分辨率帧与前一非关键帧的第三分辨率帧经过运动估计、运动矢量上采样、像素偏移后的帧I _t-1->t ^SR、所述非关键帧的第三分辨率帧与相邻的前一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的帧I _k1->t ^SR、所述非关键帧的第三分辨率帧与相邻的后一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的帧I _k2->t ^SR的均方误差确定。
根据权利要求10所述的方法，其中，所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络；

所述根据第一损失函数和第二损失函数训练所述视频放大网络，包括：

根据所述第一损失函数训练所述视频放大网络，并根据所述第二损失函数对所述运动估计子网络进行训练，直至所述第一损失函数和所述第二损失函数满足设定条件。
根据权利要求10所述的方法，其中，在根据第一损失函数和第二损失函数训练所述视频放大网络之前，还包括：

对样本视频进行预处理，得到预设分辨率的样本视频。
一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一所述的视频处理方法。
一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-12中任一所述的视频处理方法。