CN113592719B

CN113592719B - 视频超分辨模型的训练方法、视频处理方法及相应设备

Info

Publication number: CN113592719B
Application number: CN202110933607.5A
Authority: CN
Inventors: 磯部駿; 陶鑫; 章佳杰; 戴宇荣
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-14
Filing date: 2021-08-14
Publication date: 2023-11-28
Anticipated expiration: 2041-08-14
Also published as: CN113592719A

Abstract

本公开提供了一种视频超分辨模型的训练方法、视频处理方法及相应设备。所述视频处理方法包括：针对视频中的每一图像帧，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征；将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征；基于当前图像帧的第二增强特征和当前图像帧，得到当前图像帧的超分辨图像。

Description

视频超分辨模型的训练方法、视频处理方法及相应设备

技术领域

本公开总体说来涉及视频处理技术领域，更具体地讲，涉及一种视频超分辨模型的训练方法、视频处理方法及相应设备。

背景技术

随着视频技术的发展，视频的使用成为人们日常生活不可或缺的一部分。基于视频的超分辩算法也因此受到学术和工业界的广泛关注。在视频监控中，低清的视频序列在超分后可以用于放大观测画面中的行人和车牌；在视频传输中，视频可以降质在低分辨率下传输以节约成本，然后通过超分的方式恢复；在超高清显示中，视频超分辨算法可以提升低质量片源的质量，以提升用户的观感体验。

尽管图像超分辨算法在深度学习的帮助下获得了突飞猛进的改善，但直接将图像算法应用在视频任务上仍不理想。时序信息的忽略导致超分视频的的画面中出现伪影和帧间闪烁。

发明内容

本公开的示例性实施例在于提供一种视频超分辨模型的训练方法、视频处理方法及相应设备，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种视频处理方法，包括：针对视频中的每一图像帧，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征；将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征；基于当前图像帧的第二增强特征和当前图像帧，得到当前图像帧的超分辨图像；其中，当前图像帧的第一预测特征是针对当前图像帧的上一图像帧使用所述前向增强网络时所预测的当前图像帧的图像特征；当前图像帧的第二预测特征是针对当前图像帧的下一图像帧使用所述后向增强网络时所预测的当前图像帧的图像特征。

可选地，当前图像帧的图像特征为：当前图像帧超分辨后的图像特征；与当前图像帧的上一图像帧相关的图像特征为：当前图像帧的上一图像帧超分辨后的图像特征、或当前图像帧与其上一图像帧之间的帧间信息增强后的特征；与当前图像帧的下一图像帧相关的图像特征为：当前图像帧的下一图像帧超分辨后的图像特征、或当前图像帧与其下一图像帧之间的帧间信息增强后的特征。

可选地，当前图像帧的图像特征为：当前图像帧超分辨后的图像特征；与当前图像帧的上一图像帧相关的图像特征为：当前图像帧与其上一图像帧之间的差分图超分辨后的图像特征、或当前图像帧与其上一图像帧之间的光流图超分辨后的图像特征；与当前图像帧的下一图像帧相关的图像特征为：当前图像帧与其下一图像帧之间的差分图超分辨后的图像特征、或当前图像帧与其下一图像帧之间的光流图超分辨后的图像特征。

可选地，所述视频处理方法还包括：基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量；将当前图像帧所对应的拼接向量输入特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征。

可选地，基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量的步骤包括：对当前图像帧、当前图像帧与其上一图像帧之间的帧间信息、以及当前图像帧与其下一图像帧之间的帧间信息进行拼接，得到当前图像帧所对应的拼接向量；或者，对当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧进行拼接，得到当前图像帧所对应的拼接向量。

可选地，所述特征提取网络包括：融合网络、第一特征网络、第二特征网络、以及第三特征网络，其中，将当前图像帧所对应的拼接向量输入所述特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征的步骤包括：将当前图像帧所对应的拼接向量输入所述融合网络，得到当前图像帧所对应的融合向量；分别将当前图像帧所对应的融合向量输入第一特征网络、第二特征网络、以及第三特征网络，得到第一特征网络输出的与当前图像帧的下一图像帧相关的图像特征、第二特征网络输出的当前图像帧的图像特征、以及第三特征网络输出的与当前图像帧的上一图像帧相关的图像特征。

可选地，第一特征网络、第二特征网络、以及第三特征网络为单向循环卷积网络。

可选地，所述前向增强网络包括：预测未来网络和过去对当前增强网络，其中，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入所述前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征的步骤包括：将当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征输入所述预测未来网络，得到预测的当前图像帧的下一图像帧的第一预测特征；将当前图像帧的图像特征、以及当前图像帧的第一预测特征输入所述过去对当前增强网络，得到当前图像帧的第一增强特征。

可选地，所述后向增强网络包括：预测过去网络和未来对当前增强网络，其中，将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入所述后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征的步骤包括：将当前图像帧的第一增强特征、以及与当前图像帧的上一图像帧相关的图像特征输入预测过去网络，得到预测的当前图像帧的上一图像帧的第二预测特征；将当前图像帧的第一增强特征、以及当前图像帧的第二预测特征输入所述未来对当前增强网络，得到当前图像帧的第二增强特征。

可选地，所述预测未来网络获取与当前图像帧的下一图像帧相关的图像特征、与当前图像帧的图像特征之间的对齐信息，并基于所述对齐信息、当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征，预测当前图像帧的下一图像帧的第一预测特征。

根据本公开实施例的第二方面，提供一种视频超分辨模型的训练方法，所述视频超分辨模型包括：前向增强网络和后向增强网络，其中，所述训练方法包括：获取训练样本，其中，所述训练样本包括：具有多个图像帧的训练视频、以及每个图像帧的高分辨率图像；针对所述训练视频中的每一图像帧，做如下处理：将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入所述前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征；将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入所述后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征；基于当前图像帧的第二增强特征和当前图像帧，得到当前图像帧的超分辨图像；基于每一图像帧的超分辨图像及其高分辨率图像，确定所述视频超分辨模型的目标损失函数；通过根据所述目标损失函数调整所述前向增强网络和所述后向增强网络的参数，对所述视频超分辨模型进行训练；其中，当前图像帧的第一预测特征是针对当前图像帧的上一图像帧使用所述前向增强网络时所预测的当前图像帧的图像特征；当前图像帧的第二预测特征是针对当前图像帧的下一图像帧使用所述后向增强网络时所预测的当前图像帧的图像特征。

可选地，所述视频超分辨模型还包括：特征提取网络，其中，所述训练方法还包括：基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量；将当前图像帧所对应的拼接向量输入所述特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征，其中，通过根据所述目标损失函数调整所述前向增强网络和所述后向增强网络的参数，对所述视频超分辨模型进行训练的步骤包括：通过根据所述目标损失函数调整所述特征提取网络、所述前向增强网络、以及所述后向增强网络的参数，对所述视频超分辨模型进行训练。

根据本公开实施例的第三方面，提供一种视频处理设备，包括：前向增强单元，被配置为针对视频中的每一图像帧，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征；后向增强单元，被配置为将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征；超分辨图像获取单元，被配置为基于当前图像帧的第二增强特征和当前图像帧，得到当前图像帧的超分辨图像；其中，当前图像帧的第一预测特征是针对当前图像帧的上一图像帧使用所述前向增强网络时所预测的当前图像帧的图像特征；当前图像帧的第二预测特征是针对当前图像帧的下一图像帧使用所述后向增强网络时所预测的当前图像帧的图像特征。

可选地，所述视频处理设备还包括：拼接向量获取单元，被配置为基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量；特征提取单元，被配置为将当前图像帧所对应的拼接向量输入特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征。

可选地，拼接向量获取单元被配置为对当前图像帧、当前图像帧与其上一图像帧之间的帧间信息、以及当前图像帧与其下一图像帧之间的帧间信息进行拼接，得到当前图像帧所对应的拼接向量；或者，拼接向量获取单元被配置为对当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧进行拼接，得到当前图像帧所对应的拼接向量。

可选地，所述特征提取网络包括：融合网络、第一特征网络、第二特征网络、以及第三特征网络，其中，特征提取单元被配置为将当前图像帧所对应的拼接向量输入所述融合网络，得到当前图像帧所对应的融合向量；并分别将当前图像帧所对应的融合向量输入第一特征网络、第二特征网络、以及第三特征网络，得到第一特征网络输出的与当前图像帧的下一图像帧相关的图像特征、第二特征网络输出的当前图像帧的图像特征、以及第三特征网络输出的与当前图像帧的上一图像帧相关的图像特征。

可选地，所述前向增强网络包括：预测未来网络和过去对当前增强网络，其中，前向增强单元被配置为将当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征输入所述预测未来网络，得到预测的当前图像帧的下一图像帧的第一预测特征；并将当前图像帧的图像特征、以及当前图像帧的第一预测特征输入所述过去对当前增强网络，得到当前图像帧的第一增强特征。

可选地，所述后向增强网络包括：预测过去网络和未来对当前增强网络，其中，后向增强单元被配置为将当前图像帧的第一增强特征、以及与当前图像帧的上一图像帧相关的图像特征输入预测过去网络，得到预测的当前图像帧的上一图像帧的第二预测特征；并将当前图像帧的第一增强特征、以及当前图像帧的第二预测特征输入所述未来对当前增强网络，得到当前图像帧的第二增强特征。

根据本公开实施例的第四方面，提供一种视频超分辨模型的训练设备，所述视频超分辨模型包括：前向增强网络和后向增强网络，其中，所述训练设备包括：训练样本获取单元，被配置获取训练样本，其中，所述训练样本包括：具有多个图像帧的训练视频、以及每个图像帧的高分辨率图像；前向增强单元，被配置为针对所述训练视频中的每一图像帧，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入所述前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征；后向增强单元，被配置为将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入所述后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征；超分辨图像获取单元，被配置为基于当前图像帧的第二增强特征和当前图像帧，得到当前图像帧的超分辨图像；损失函数确定单元，被配置为基于每一图像帧的超分辨图像及其高分辨率图像，确定所述视频超分辨模型的目标损失函数；训练单元，被配置为通过根据所述目标损失函数调整所述前向增强网络和所述后向增强网络的参数，对所述视频超分辨模型进行训练；其中，当前图像帧的第一预测特征是针对当前图像帧的上一图像帧使用所述前向增强网络时所预测的当前图像帧的图像特征；当前图像帧的第二预测特征是针对当前图像帧的下一图像帧使用所述后向增强网络时所预测的当前图像帧的图像特征。

可选地，所述视频超分辨模型还包括：特征提取网络，其中，所述训练设备还包括：拼接向量获取单元，被配置为基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量；特征提取单元，被配置为将当前图像帧所对应的拼接向量输入所述特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征，其中，训练单元被配置为通过根据所述目标损失函数调整所述特征提取网络、所述前向增强网络、以及所述后向增强网络的参数，对所述视频超分辨模型进行训练。

根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的视频处理方法和/或如上所述的视频超分辨模型的训练方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，其特征在于，当述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的视频处理方法和/或如上所述的视频超分辨模型的训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如上所述的视频处理方法和/或如上所述的视频超分辨模型的训练方法。

根据本公开的示例性实施例的视频超分辨模型的训练方法、视频处理方法及相应设备，能够提高视频超分辨的效果。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过将循环卷积网络过去与未来的结果时序变换到当前帧，作为当前帧的一种信息补充，进而增强当前帧的信息，即，提出了时序往返的优化策略，通过对单向循环卷积网络的结果进行状态的变换，将过去和未来的结果变换到当前帧，进而增强当前的结果；通过对超分辨后的结果进行分级优化，缓解了超分辨的病态解问题；

提出了一种巧妙的方式做不同时刻到当前帧的时序变换，巧妙地运用了时序变换的性质，通过光流或者差分的性质进行状态的变换；

用低分辩的时序变换的图像作为输入，并对其进行超分辨，使得神经网络对时序冗余区域和非冗余区域进行不同程度的超分辨，即，采用时序变换图像作为超分辨网络的输入，让神经网络自适应地捕捉相邻帧的时序冗余区域和非冗余区域，解决了视频特征提取中受卷积神经网络局部共享特征的影响的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出根据本公开示例性实施例的视频超分辨模型的训练方法的流程图；

图2和图3示出根据本公开示例性实施例的视频超分辨模型的示例；

图4和图5示出根据本公开示例性实施例的视频超分辨模型的超分辨效果的示例；

图6示出根据本公开示例性实施例的视频处理方法的流程图；

图7示出根据本公开示例性实施例的视频超分辨模型的训练设备的结构框图；

图8示出根据本公开示例性实施例的视频处理设备的结构框图；

图9示出根据本公开示例性实施例的电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图1示出根据本公开示例性实施例的视频超分辨模型的训练方法的流程图。所述视频超分辨模型包括：前向增强网络和后向增强网络。

参照图1，在步骤S101，获取训练样本。

这里，所述训练样本可包括：具有多个图像帧的训练视频、以及每个图像帧的高分辨率图像。每个图像帧本身的分辨率较低，低于该图像帧的高分辨率图像的分辨率。

针对所述训练视频中的每一图像帧，执行步骤S102-S104，换言之，将每一图像帧作为当前图像帧来执行步骤S102-S104。应该理解，针对不同图像帧，可并行执行步骤S102-S104。例如，可在针对第i帧执行步骤S102-S104的同时，针对第i-1帧执行步骤S102-S104，针对第i+1帧执行步骤S102-S104。

在步骤S102，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入所述前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征。当前图像帧的第一增强特征即通过所述前向增强网络对当前图像帧的图像特征进行增强后得到的图像特征。

在步骤S103，将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入所述后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征。当前图像帧的第二增强特征即通过所述后向增强网络对当前图像帧的第一增强特征进行增强后得到的图像特征。

这里，当前图像帧的第一预测特征是针对当前图像帧的上一图像帧使用所述前向增强网络时所预测的当前图像帧的图像特征，即，针对当前图像帧的上一图像帧执行步骤S102时所预测的当前图像帧的第一预测特征。

当前图像帧的第二预测特征是针对当前图像帧的下一图像帧使用所述后向增强网络时所预测的当前图像帧的图像特征，即，针对当前图像帧的下一图像帧执行步骤S103时所预测的当前图像帧的第二预测特征。

相应地，针对当前图像帧执行步骤S102时所预测的当前图像帧的下一图像帧的第一预测特征，在针对当前图像帧的下一图像帧执行步骤S102时会被输入到所述前向增强网络以被使用；针对当前图像帧执行步骤S103时所预测的当前图像帧的上一图像帧的第二预测特征，在针对当前图像帧的上一图像帧执行步骤S103时会被输入到所述后向增强网络以被使用。

作为示例，所述视频超分辨模型还可包括：特征提取网络。作为示例，根据本公开示例性实施例的视频超分辨模型的训练方法还可包括：在步骤S101之后，且在步骤S102之前，基于当前图像帧、当前图像帧的上一图像帧(即，过去一帧)、以及当前图像帧的下一图像帧(即，未来一帧)，得到当前图像帧所对应的拼接向量；并将当前图像帧所对应的拼接向量输入所述特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征。

作为一个示例，可对当前图像帧、当前图像帧与其上一图像帧之间的帧间信息、以及当前图像帧与其下一图像帧之间的帧间信息进行拼接，得到当前图像帧所对应的拼接向量。此外，还可对当前图像帧、当前图像帧与其上一图像帧之间的帧间信息、当前图像帧与其下一图像帧之间的帧间信息、以及当前图像帧的上一图像帧所对应的融合向量(下面会详细介绍得到融合向量的方式)进行拼接，得到当前图像帧所对应的拼接向量。

作为示例，所述帧间信息可包括但不限于以下项之中的至少一项：帧间互补信息、帧间差异信息、以及帧间对齐信息。例如，当前图像帧与其上一图像帧之间的帧间信息可包括但不限于以下项之中的至少一项：当前图像帧与其上一图像帧之间的差分图、光流图、以及单应矩阵；当前图像帧与其下一图像帧之间的帧间信息可包括但不限于以下项之中的至少一项：当前图像帧与其下一图像帧之间的差分图、光流图、以及单应矩阵。

作为另一示例，可对当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧进行拼接，得到当前图像帧所对应的拼接向量。此外，还可对当前图像帧、当前图像帧的上一图像帧、当前图像帧的下一图像帧、以及当前图像帧的上一图像帧所对应的融合向量进行拼接，得到当前图像帧所对应的拼接向量。

作为一个示例，当前图像帧的图像特征可为：当前图像帧的原始图像特征；与当前图像帧的上一图像帧相关的图像特征可为：当前图像帧的上一图像帧的原始图像特征、或者当前图像帧与其上一图像帧之间的帧间信息的特征；与当前图像帧的下一图像帧相关的图像特征可为：当前图像帧的下一图像帧的原始图像特征、或者当前图像帧与其下一图像帧之间的帧间信息的特征。

作为另一示例，当前图像帧的图像特征可为：当前图像帧超分辨后的图像特征；与当前图像帧的上一图像帧相关的图像特征可为：当前图像帧的上一图像帧超分辨后的图像特征、或者当前图像帧与其上一图像帧之间的帧间信息增强后的特征；与当前图像帧的下一图像帧相关的图像特征可为：当前图像帧的下一图像帧超分辨后的图像特征、或者当前图像帧与其下一图像帧之间的帧间信息增强后的特征。

例如，当前图像帧的图像特征可为：当前图像帧超分辨后的图像特征；与当前图像帧的上一图像帧相关的图像特征可为：当前图像帧与其上一图像帧之间的差分图超分辨后的图像特征、或当前图像帧与其上一图像帧之间的光流图超分辨后的图像特征；与当前图像帧的下一图像帧相关的图像特征可为：当前图像帧与其下一图像帧之间的差分图超分辨后的图像特征、或当前图像帧与其下一图像帧之间的光流图超分辨后的图像特征。

作为示例，所述特征提取网络可包括：融合网络、第一特征网络、第二特征网络、以及第三特征网络。

作为示例，可先将当前图像帧所对应的拼接向量输入所述融合网络，得到当前图像帧所对应的融合向量；然后，分别将当前图像帧所对应的融合向量输入第一特征网络、第二特征网络、以及第三特征网络，得到第一特征网络输出的与当前图像帧的下一图像帧相关的图像特征、第二特征网络输出的当前图像帧的图像特征、以及第三特征网络输出的与当前图像帧的上一图像帧相关的图像特征。

作为示例，第一特征网络、第二特征网络、以及第三特征网络可为超分辨网络。作为示例，第一特征网络、第二特征网络、以及第三特征网络可为单向循环卷积网络。

作为示例，所述前向增强网络可包括：预测未来网络和过去对当前增强网络。作为示例，可将当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征输入所述预测未来网络，得到预测的当前图像帧的下一图像帧的第一预测特征；并将当前图像帧的图像特征、以及当前图像帧的第一预测特征输入所述过去对当前增强网络，得到当前图像帧的第一增强特征。

例如，预测未来网络可将当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征拼接在一起后经过卷积网络，以得到预测的当前图像帧的下一图像帧的第一预测特征。

例如，过去对当前增强网络可将当前图像帧的图像特征、以及当前图像帧的第一预测特征拼接在一起后经过卷积网络，以得到当前图像帧的第一增强特征。

作为示例，所述后向增强网络可包括：预测过去网络和未来对当前增强网络。作为示例，可将当前图像帧的第一增强特征、以及与当前图像帧的上一图像帧相关的图像特征输入预测过去网络，得到预测的当前图像帧的上一图像帧的第二预测特征；并将当前图像帧的第一增强特征、以及当前图像帧的第二预测特征输入所述未来对当前增强网络，得到当前图像帧的第二增强特征。

例如，预测过去网络可将当前图像帧的第一增强特征、以及与当前图像帧的上一图像帧相关的图像特征拼接在一起后经过卷积网络，以得到预测的当前图像帧的上一图像帧的第二预测特征。

例如，未来对当前增强网络可将当前图像帧的第一增强特征、以及当前图像帧的第二预测特征拼接在一起后经过卷积网络，以得到当前图像帧的第二增强特征。

作为示例，所述预测未来网络可获取与当前图像帧的下一图像帧相关的图像特征、与当前图像帧的图像特征之间的对齐信息，并基于所述对齐信息、当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征，预测当前图像帧的下一图像帧的第一预测特征。作为示例，所述预测过去网络可获取与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的图像特征之间的对齐信息，并基于所述对齐信息、当前图像帧的图像特征、以及与当前图像帧的上一图像帧相关的图像特征，预测当前图像帧的上一图像帧的第二预测特征。例如，可以是基于patch的对齐信息。

在另一个实施例中，可先将当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入所述后向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征；然后，再将当前图像帧的第一增强特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入所述前向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征。即，调换后向增强网络和前向增强网络的相对位置，应该理解，该方案也在本发明的保护范围之内。

在步骤S104，基于当前图像帧的第二增强特征和当前图像帧，得到当前图像帧的超分辨图像。应该理解，当前图像帧的超分辨图像的分辨率高于当前图像帧的原始分辨率。

在一个实施例中，当当前图像帧的图像特征为当前图像帧的原始图像特征时，所述视频超分辨模型还包括：超分辨网络，其中，步骤S104可包括：将当前图像帧的第二增强特征输入所述超分辨网络，得到当前图像帧的高分辨率的细节图像；对当前图像帧进行上采样处理，以得到当前图像帧的高分辨率的结构图像；然后，对当前图像帧的高分辨率的细节图像和当前图像帧的高分辨率的结构图像进行叠加处理，以得到当前图像帧的超分辨图像。

在另一实施例中，当当前图像帧的图像特征为当前图像帧超分辨后的图像特征时，可对当前图像帧进行上采样处理，以得到当前图像帧的高分辨率的结构图像；并对当前图像帧的第二增强特征和当前图像帧的高分辨率的结构图像进行叠加处理，以得到当前图像帧的超分辨图像。

具体说来，当提取的当前图像帧的图像特征为当前图像帧超分辨后的图像特征时，即在超分辨后图像特征上进行了时序变换，实现时序往返的功能，当提取的当前图像帧的图像特征为当前图像帧的原始图像特征时，即在原始图像特征层上进行时序变换，再在后续进行超分辨处理。

在步骤S105，基于每一图像帧的超分辨图像及其高分辨率图像，确定所述视频超分辨模型的目标损失函数。

在步骤S106，通过根据所述目标损失函数调整所述前向增强网络和所述后向增强网络的参数，对所述视频超分辨模型进行训练。

作为示例，当所述视频超分辨模型还包括：特征提取网络时，通过根据所述目标损失函数调整所述特征提取网络、所述前向增强网络、以及所述后向增强网络的参数，对所述视频超分辨模型进行训练。

作为示例，当所述视频超分辨模型还包括：超分辨网络时，通过根据所述目标损失函数调整所述特征提取网络、所述前向增强网络、所述后向增强网络、以及所述超分辨网络的参数，对所述视频超分辨模型进行训练。

此外，应该理解，可使用多个训练样本对所述视频超分辨模型进行训练。

图2和图3示出根据本公开示例性实施例的视频超分辨模型的示例。

如图2所示，这里的时序变换采用了差分图。即，对当前图像帧I_t、当前图像帧与其上一图像帧之间的差分图当前图像帧与其下一图像帧之间的差分图/>以及当前图像帧的上一图像帧所对应的融合向量h_t-1进行拼接concatenation，得到当前图像帧所对应的拼接向量。然后将当前图像帧所对应的拼接向量输入融合网络Aggregation，得到当前图像帧所对应的融合向量h_t，并分别将h_t输入第一特征网络Future-Residual Head(例如，基于单向循环卷积网络构成的超分辨网络)、第二特征网络Spatial-Residual Head(例如，基于单向循环卷积网络构成的超分辨网络)、以及第三特征网络Past-Residual Head(例如，基于单向循环卷积网络构成的超分辨网络)，得到第一特征网络输出的差分图/>超分后的图像特征/>(也即，对差分图/>增强后的图像特征)、第二特征网络输出的当前图像帧超分后的图像特征S_t、以及第三特征网络输出的差分图/>超分后的图像特征/>通过对差分图像的增强，可以帮助神经网络对冗余区域与非冗余区域进行不同程度的超分辨，解决了卷积的局部共享对不同时序区域的限制。

随后，将原图S加上F或P进行时序变换，分别用F将S变换到未来一帧的超分辨结果，用P将S变换到过去一帧的超分辨结果。那么，对于未来时刻，就有了未来本身的结果和当前到未来的结果；对于过去时刻，就有了过去本身的结果和当前到过去的结果。这个过程就是时序往返优化的过程。具体地，将S_t、以及当前图像帧的第一预测特征/>输入前向增强网络Forward Refinement，得到前向增强网络输出的当前图像帧的下一图像帧的第一预测特征/>和当前图像帧的第一增强特征S_t＇，然后将S_t＇、/>以及当前图像帧的第二预测特征/>输入后向增强网络Backward Refinement，得到后向增强网络输出的当前图像帧的上一图像帧的第二预测特征/>和当前图像帧的第二增强特征S_t＂。然后，对当前图像帧I_t进行上采样处理(例如，Space to depth)，以得到当前图像帧的高分辨率的结构图像，并对S_t＂和当前图像帧的高分辨率的结构图像进行叠加处理(例如，Elemental-wise Addition)，以得到当前图像帧的超分辨图像/>

如图3所示，白色小圆圈表示视频的低分辨率的图像帧，白色大圆圈表示超分辨后的图像帧，方框表示视频超分辨模型的特征提取网络，灰色小圆圈表示用来做时序变换的图像(例如，两个相邻图像帧之间的差分图)。本公开的示例性实施例提出了时序往返优化策略，对单向的循环卷积网络进行了优化，解决了单向循环卷积网络中信息分配不均衡的问题。相比于双向的循环卷积网络，本公开具备更小的计算开销，并且只需要对原视频进行一次超分即可。为了更高效地实现时序的往返优化，本公开采用了时序变换的手段，用较低的成本将过去和未来的超分辨结果变换到当前时刻进行信息的补充，进一步优化了超分辨的病态解问题。图4和图5示出了根据本公开示例性实施例的视频超分辨模型的超分辨效果的示例。

表1示出本公开示例性实施例的视频超分辨模型的性能，作为示例，可分别在Vid4和UDM10上进行验证，此时n＝1，即一个未来状态和一个过去状态。当不采用本公开的视频超分辨模型(即，Baseline)，分别在Vid4和UDM10上达到了27.81和39.23PSNR。当采用本公开的视频超分辨模型且采用不同的时序变换方法时，如光流的方法(即，Optical Flow)，达到了28.03dB和39.51dB；当采用差分作为时序变换的方法(即，Temporal Residual)时，达到了28.12和39.65的PSNR。可以明显看出性能的提升。

表1 性能比较

图6示出根据本公开示例性实施例的视频处理方法的流程图。

参照图6，在步骤S201，针对视频中的每一图像帧，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征。

在步骤S202，将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征。

在步骤S203，基于当前图像帧的第二增强特征和当前图像帧，得到当前图像帧的超分辨图像。

其中，当前图像帧的第一预测特征是针对当前图像帧的上一图像帧使用所述前向增强网络时所预测的当前图像帧的图像特征；当前图像帧的第二预测特征是针对当前图像帧的下一图像帧使用所述后向增强网络时所预测的当前图像帧的图像特征。

作为示例，根据本公开示例性实施例的视频处理方法还可包括：在步骤S201之前，基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量；并将当前图像帧所对应的拼接向量输入所述特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征。

作为示例，可对当前图像帧、当前图像帧与其上一图像帧之间的帧间信息、以及当前图像帧与其下一图像帧之间的帧间信息进行拼接，得到当前图像帧所对应的拼接向量。

作为另一示例，可对当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧进行拼接，得到当前图像帧所对应的拼接向量。

作为示例，当前图像帧与其上一图像帧之间的帧间信息可包括以下项之中的至少一项：当前图像帧与其上一图像帧之间的差分图、光流图、以及单应矩阵；当前图像帧与其下一图像帧之间的帧间信息可包括以下项之中的至少一项：当前图像帧与其下一图像帧之间的差分图、光流图、以及单应矩阵。

作为示例，所述特征提取网络可包括：融合网络、第一特征网络、第二特征网络、以及第三特征网络，其中，可将当前图像帧所对应的拼接向量输入所述融合网络，得到当前图像帧所对应的融合向量；并分别将当前图像帧所对应的融合向量输入第一特征网络、第二特征网络、以及第三特征网络，得到第一特征网络输出的与当前图像帧的下一图像帧相关的图像特征、第二特征网络输出的当前图像帧的图像特征、以及第三特征网络输出的与当前图像帧的上一图像帧相关的图像特征。

作为示例，当前图像帧的图像特征可为：当前图像帧的原始图像特征、或者当前图像帧超分辨后的图像特征；

与当前图像帧的上一图像帧相关的图像特征可为以下项之一：当前图像帧的上一图像帧的原始图像特征、当前图像帧的上一图像帧超分辨后的图像特征、当前图像帧与其上一图像帧之间的帧间信息的特征、当前图像帧与其上一图像帧之间的帧间信息增强后的特征；

与当前图像帧的下一图像帧相关的图像特征可为以下项之一：当前图像帧的下一图像帧的原始图像特征、当前图像帧的下一图像帧超分辨后的图像特征、当前图像帧与其下一图像帧之间的帧间信息的特征、当前图像帧与其下一图像帧之间的帧间信息增强后的特征。

作为示例，当前图像帧的图像特征可为：当前图像帧超分辨后的图像特征；与当前图像帧的上一图像帧相关的图像特征可为：当前图像帧与其上一图像帧之间的差分图超分辨后的图像特征、或当前图像帧与其上一图像帧之间的光流图超分辨后的图像特征；与当前图像帧的下一图像帧相关的图像特征可为：当前图像帧与其下一图像帧之间的差分图超分辨后的图像特征、或当前图像帧与其下一图像帧之间的光流图超分辨后的图像特征。

作为示例，第一特征网络、第二特征网络、以及第三特征网络可为单向循环卷积网络。

作为示例，所述前向增强网络可包括：预测未来网络和过去对当前增强网络。

作为示例，可将当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征输入所述预测未来网络，得到预测的当前图像帧的下一图像帧的第一预测特征；并将当前图像帧的图像特征、以及当前图像帧的第一预测特征输入所述过去对当前增强网络，得到当前图像帧的第一增强特征。

作为示例，所述后向增强网络可包括：预测过去网络和未来对当前增强网络。

作为示例，可将当前图像帧的第一增强特征、以及与当前图像帧的上一图像帧相关的图像特征输入预测过去网络，得到预测的当前图像帧的上一图像帧的第二预测特征；并将当前图像帧的第一增强特征、以及当前图像帧的第二预测特征输入所述未来对当前增强网络，得到当前图像帧的第二增强特征。

作为示例，所述预测未来网络可获取与当前图像帧的下一图像帧相关的图像特征、与当前图像帧的图像特征之间的对齐信息，并基于所述对齐信息、当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征，预测当前图像帧的下一图像帧的第一预测特征。

作为示例，当当前图像帧的图像特征为当前图像帧的原始图像特征时，所述视频超分辨模型还包括：超分辨网络，其中，步骤S203可包括：将当前图像帧的第二增强特征输入所述超分辨网络，得到当前图像帧的高分辨率的细节图像；对当前图像帧进行上采样处理，以得到当前图像帧的高分辨率的结构图像；并对当前图像帧的高分辨率的细节图像和当前图像帧的高分辨率的结构图像进行叠加处理，以得到当前图像帧的超分辨图像。

作为示例，当当前图像帧的图像特征为当前图像帧超分辨后的图像特征时，步骤S203可包括：对当前图像帧进行上采样处理，以得到当前图像帧的高分辨率的结构图像；并对当前图像帧的第二增强特征和当前图像帧的高分辨率的结构图像进行叠加处理，以得到当前图像帧的超分辨图像。

作为示例，所述特征提取网络、所述前向增强网络、以及所述后向增强网络可以是使用如上述示例性实施例所述的训练方法训练得到的。

根据本公开示例性实施例的视频处理方法中的具体处理，已经在上述相关的视频超分辨模型的训练方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7示出根据本公开示例性实施例的视频超分辨模型的训练设备的结构框图。所述视频超分辨模型包括：前向增强网络和后向增强网络。

如图7所示，根据本公开示例性实施例的视频超分辨模型的训练设备10包括：训练样本获取单元101、前向增强单元102、后向增强单元103、超分辨结果获取单元104、损失函数确定单元105、以及训练单元106。

具体说来，训练样本获取单元101被配置获取训练样本，其中，所述训练样本包括：具有多个图像帧的训练视频、以及每个图像帧的高分辨率图像。

前向增强单元102被配置为针对所述训练视频中的每一图像帧，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入所述前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征。

后向增强单元103被配置为将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入所述后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征。

超分辨图像获取单元104被配置为基于当前图像帧的第二增强特征和当前图像帧，得到当前图像帧的超分辨图像。

损失函数确定单元105被配置为基于每一图像帧的超分辨图像及其高分辨率图像，确定所述视频超分辨模型的目标损失函数。

训练单元106被配置为通过根据所述目标损失函数调整所述前向增强网络和所述后向增强网络的参数，对所述视频超分辨模型进行训练。

作为示例，当前图像帧的图像特征可为：当前图像帧超分辨后的图像特征；与当前图像帧的上一图像帧相关的图像特征可为：当前图像帧的上一图像帧超分辨后的图像特征、或当前图像帧与其上一图像帧之间的帧间信息增强后的特征；与当前图像帧的下一图像帧相关的图像特征可为：当前图像帧的下一图像帧超分辨后的图像特征、或当前图像帧与其下一图像帧之间的帧间信息增强后的特征。

作为示例，所述视频超分辨模型还可包括：特征提取网络，其中，所述训练设备10还可包括：拼接向量获取单元(未示出)和特征提取单元(未示出)，拼接向量获取单元被配置为基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量；特征提取单元被配置为将当前图像帧所对应的拼接向量输入所述特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征，其中，训练单元106可被配置为通过根据所述目标损失函数调整所述特征提取网络、所述前向增强网络、以及所述后向增强网络的参数，对所述视频超分辨模型进行训练。

作为示例，拼接向量获取单元可被配置为对当前图像帧、当前图像帧与其上一图像帧之间的帧间信息、以及当前图像帧与其下一图像帧之间的帧间信息进行拼接，得到当前图像帧所对应的拼接向量；或者，拼接向量获取单元可被配置为对当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧进行拼接，得到当前图像帧所对应的拼接向量。

作为示例，所述特征提取网络可包括：融合网络、第一特征网络、第二特征网络、以及第三特征网络，其中，特征提取单元可被配置为将当前图像帧所对应的拼接向量输入所述融合网络，得到当前图像帧所对应的融合向量；并分别将当前图像帧所对应的融合向量输入第一特征网络、第二特征网络、以及第三特征网络，得到第一特征网络输出的与当前图像帧的下一图像帧相关的图像特征、第二特征网络输出的当前图像帧的图像特征、以及第三特征网络输出的与当前图像帧的上一图像帧相关的图像特征。

作为示例，所述前向增强网络可包括：预测未来网络和过去对当前增强网络，其中，前向增强单元102可被配置为将当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征输入所述预测未来网络，得到预测的当前图像帧的下一图像帧的第一预测特征；并将当前图像帧的图像特征、以及当前图像帧的第一预测特征输入所述过去对当前增强网络，得到当前图像帧的第一增强特征。

作为示例，所述后向增强网络可包括：预测过去网络和未来对当前增强网络，其中，后向增强单元103可被配置为将当前图像帧的第一增强特征、以及与当前图像帧的上一图像帧相关的图像特征输入预测过去网络，得到预测的当前图像帧的上一图像帧的第二预测特征；并将当前图像帧的第一增强特征、以及当前图像帧的第二预测特征输入所述未来对当前增强网络，得到当前图像帧的第二增强特征。

如图8所示，根据本公开示例性实施例的视频处理设备20包括：前向增强单元201、后向增强单元202、以及超分辨图像获取单元203。

具体说来，前向增强单元201被配置为针对视频中的每一图像帧，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征。

后向增强单元202被配置为将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征。

超分辨图像获取单元203被配置为基于当前图像帧的第二增强特征和当前图像帧，得到当前图像帧的超分辨图像。

作为示例，所述视频处理设备20还可包括：拼接向量获取单元(未示出)和特征提取单元(未示出)，拼接向量获取单元被配置为基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量；特征提取单元被配置为将当前图像帧所对应的拼接向量输入特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征。

作为示例，所述前向增强网络可包括：预测未来网络和过去对当前增强网络，其中，前向增强单元201可被配置为将当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征输入所述预测未来网络，得到预测的当前图像帧的下一图像帧的第一预测特征；并将当前图像帧的图像特征、以及当前图像帧的第一预测特征输入所述过去对当前增强网络，得到当前图像帧的第一增强特征。

作为示例，所述后向增强网络可包括：预测过去网络和未来对当前增强网络，其中，后向增强单元202可被配置为将当前图像帧的第一增强特征、以及与当前图像帧的上一图像帧相关的图像特征输入预测过去网络，得到预测的当前图像帧的上一图像帧的第二预测特征；并将当前图像帧的第一增强特征、以及当前图像帧的第二预测特征输入所述未来对当前增强网络，得到当前图像帧的第二增强特征。

关于上述实施例中的设备，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，应该理解，根据本公开示例性实施例的视频超分辨模型的训练设备10和视频处理设备20中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。

图9示出根据本公开示例性实施例的电子设备的结构框图。参照图9，该电子设备30包括：至少一个存储器301和至少一个处理器302，所述至少一个存储器301中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器302执行时，执行如上述示例性实施例所述的视频超分辨模型的训练方法和/或视频处理方法。

作为示例，电子设备30可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备30并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备30还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备30中，处理器302可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，处理器302还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器302可运行存储在存储器301中的指令或代码，其中，存储器301还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器301可与处理器302集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器301可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储器301和处理器302可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器302能够读取存储在存储器中的文件。

此外，电子设备30还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备30的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行如上述示例性实施例所述的视频超分辨模型的训练方法和/或视频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由至少一个处理器执行以完成如上述示例性实施例所述的视频超分辨模型的训练方法和/或视频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

针对视频中的每一图像帧，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征；

将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征；

基于当前图像帧的第二增强特征和当前图像帧，得到当前图像帧的超分辨图像；

2.根据权利要求1所述的视频处理方法，其特征在于，当前图像帧的图像特征为：当前图像帧超分辨后的图像特征；

与当前图像帧的上一图像帧相关的图像特征为：当前图像帧的上一图像帧超分辨后的图像特征、或当前图像帧与其上一图像帧之间的帧间信息增强后的特征；

与当前图像帧的下一图像帧相关的图像特征为：当前图像帧的下一图像帧超分辨后的图像特征、或当前图像帧与其下一图像帧之间的帧间信息增强后的特征。

3.根据权利要求2所述的视频处理方法，其特征在于，当前图像帧的图像特征为：当前图像帧超分辨后的图像特征；

与当前图像帧的上一图像帧相关的图像特征为：当前图像帧与其上一图像帧之间的差分图超分辨后的图像特征、或当前图像帧与其上一图像帧之间的光流图超分辨后的图像特征；

与当前图像帧的下一图像帧相关的图像特征为：当前图像帧与其下一图像帧之间的差分图超分辨后的图像特征、或当前图像帧与其下一图像帧之间的光流图超分辨后的图像特征。

4.根据权利要求1所述的视频处理方法，其特征在于，所述视频处理方法还包括：

基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量；

将当前图像帧所对应的拼接向量输入特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征。

5.根据权利要求4所述的视频处理方法，其特征在于，基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量的步骤包括：

对当前图像帧、当前图像帧与其上一图像帧之间的帧间信息、以及当前图像帧与其下一图像帧之间的帧间信息进行拼接，得到当前图像帧所对应的拼接向量；

或者，对当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧进行拼接，得到当前图像帧所对应的拼接向量。

6.根据权利要求4所述的视频处理方法，其特征在于，所述特征提取网络包括：融合网络、第一特征网络、第二特征网络、以及第三特征网络，

其中，将当前图像帧所对应的拼接向量输入所述特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征的步骤包括：

将当前图像帧所对应的拼接向量输入所述融合网络，得到当前图像帧所对应的融合向量；

分别将当前图像帧所对应的融合向量输入第一特征网络、第二特征网络、以及第三特征网络，得到第一特征网络输出的与当前图像帧的下一图像帧相关的图像特征、第二特征网络输出的当前图像帧的图像特征、以及第三特征网络输出的与当前图像帧的上一图像帧相关的图像特征。

7.根据权利要求6所述的视频处理方法，其特征在于，第一特征网络、第二特征网络、以及第三特征网络为单向循环卷积网络。

8.根据权利要求1所述的视频处理方法，其特征在于，所述前向增强网络包括：预测未来网络和过去对当前增强网络，

其中，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入所述前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征的步骤包括：

将当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征输入所述预测未来网络，得到预测的当前图像帧的下一图像帧的第一预测特征；

将当前图像帧的图像特征、以及当前图像帧的第一预测特征输入所述过去对当前增强网络，得到当前图像帧的第一增强特征。

9.根据权利要求1所述的视频处理方法，其特征在于，所述后向增强网络包括：预测过去网络和未来对当前增强网络，

其中，将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入所述后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征的步骤包括：

将当前图像帧的第一增强特征、以及与当前图像帧的上一图像帧相关的图像特征输入预测过去网络，得到预测的当前图像帧的上一图像帧的第二预测特征；

将当前图像帧的第一增强特征、以及当前图像帧的第二预测特征输入所述未来对当前增强网络，得到当前图像帧的第二增强特征。

10.根据权利要求8所述的视频处理方法，其特征在于，所述预测未来网络获取与当前图像帧的下一图像帧相关的图像特征、与当前图像帧的图像特征之间的对齐信息，并基于所述对齐信息、当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征，预测当前图像帧的下一图像帧的第一预测特征。

11.一种视频超分辨模型的训练方法，其特征在于，所述视频超分辨模型包括：前向增强网络和后向增强网络，其中，所述训练方法包括：

获取训练样本，其中，所述训练样本包括：具有多个图像帧的训练视频、以及每个图像帧的高分辨率图像；

针对所述训练视频中的每一图像帧，做如下处理：

将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入所述前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征；

将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入所述后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征；

基于每一图像帧的超分辨图像及其高分辨率图像，确定所述视频超分辨模型的目标损失函数；

通过根据所述目标损失函数调整所述前向增强网络和所述后向增强网络的参数，对所述视频超分辨模型进行训练；

12.根据权利要求11所述的训练方法，其特征在于，当前图像帧的图像特征为：当前图像帧超分辨后的图像特征；

13.根据权利要求12所述的训练方法，其特征在于，当前图像帧的图像特征为：当前图像帧超分辨后的图像特征；

14.根据权利要求11所述的训练方法，其特征在于，所述视频超分辨模型还包括：特征提取网络，

其中，所述训练方法还包括：

将当前图像帧所对应的拼接向量输入所述特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征，

其中，通过根据所述目标损失函数调整所述前向增强网络和所述后向增强网络的参数，对所述视频超分辨模型进行训练的步骤包括：通过根据所述目标损失函数调整所述特征提取网络、所述前向增强网络、以及所述后向增强网络的参数，对所述视频超分辨模型进行训练。

15.根据权利要求14所述的训练方法，其特征在于，基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量的步骤包括：

16.根据权利要求14所述的训练方法，其特征在于，所述特征提取网络包括：融合网络、第一特征网络、第二特征网络、以及第三特征网络，

17.根据权利要求16所述的训练方法，其特征在于，第一特征网络、第二特征网络、以及第三特征网络为单向循环卷积网络。

18.根据权利要求11所述的训练方法，其特征在于，所述前向增强网络包括：预测未来网络和过去对当前增强网络，

19.根据权利要求11所述的训练方法，其特征在于，所述后向增强网络包括：预测过去网络和未来对当前增强网络，

20.根据权利要求18所述的训练方法，其特征在于，所述预测未来网络获取与当前图像帧的下一图像帧相关的图像特征、与当前图像帧的图像特征之间的对齐信息，并基于所述对齐信息、当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征，预测当前图像帧的下一图像帧的第一预测特征。

21.一种视频处理设备，其特征在于，包括：

前向增强单元，被配置为针对视频中的每一图像帧，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征；

后向增强单元，被配置为将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征；

超分辨图像获取单元，被配置为基于当前图像帧的第二增强特征和当前图像帧，得到当前图像帧的超分辨图像；

22.根据权利要求21所述的视频处理设备，其特征在于，当前图像帧的图像特征为：当前图像帧超分辨后的图像特征；

23.根据权利要求22所述的视频处理设备，其特征在于，当前图像帧的图像特征为：当前图像帧超分辨后的图像特征；

24.根据权利要求21所述的视频处理设备，其特征在于，所述视频处理设备还包括：

拼接向量获取单元，被配置为基于当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧，得到当前图像帧所对应的拼接向量；

特征提取单元，被配置为将当前图像帧所对应的拼接向量输入特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征。

25.根据权利要求24所述的视频处理设备，其特征在于，拼接向量获取单元被配置为对当前图像帧、当前图像帧与其上一图像帧之间的帧间信息、以及当前图像帧与其下一图像帧之间的帧间信息进行拼接，得到当前图像帧所对应的拼接向量；

或者，拼接向量获取单元被配置为对当前图像帧、当前图像帧的上一图像帧、以及当前图像帧的下一图像帧进行拼接，得到当前图像帧所对应的拼接向量。

26.根据权利要求24所述的视频处理设备，其特征在于，所述特征提取网络包括：融合网络、第一特征网络、第二特征网络、以及第三特征网络，

其中，特征提取单元被配置为将当前图像帧所对应的拼接向量输入所述融合网络，得到当前图像帧所对应的融合向量；并分别将当前图像帧所对应的融合向量输入第一特征网络、第二特征网络、以及第三特征网络，得到第一特征网络输出的与当前图像帧的下一图像帧相关的图像特征、第二特征网络输出的当前图像帧的图像特征、以及第三特征网络输出的与当前图像帧的上一图像帧相关的图像特征。

27.根据权利要求26所述的视频处理设备，其特征在于，第一特征网络、第二特征网络、以及第三特征网络为单向循环卷积网络。

28.根据权利要求21所述的视频处理设备，其特征在于，所述前向增强网络包括：预测未来网络和过去对当前增强网络，

其中，前向增强单元被配置为将当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征输入所述预测未来网络，得到预测的当前图像帧的下一图像帧的第一预测特征；并将当前图像帧的图像特征、以及当前图像帧的第一预测特征输入所述过去对当前增强网络，得到当前图像帧的第一增强特征。

29.根据权利要求21所述的视频处理设备，其特征在于，所述后向增强网络包括：预测过去网络和未来对当前增强网络，

其中，后向增强单元被配置为将当前图像帧的第一增强特征、以及与当前图像帧的上一图像帧相关的图像特征输入预测过去网络，得到预测的当前图像帧的上一图像帧的第二预测特征；并将当前图像帧的第一增强特征、以及当前图像帧的第二预测特征输入所述未来对当前增强网络，得到当前图像帧的第二增强特征。

30.根据权利要求28所述的视频处理设备，其特征在于，所述预测未来网络获取与当前图像帧的下一图像帧相关的图像特征、与当前图像帧的图像特征之间的对齐信息，并基于所述对齐信息、当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征，预测当前图像帧的下一图像帧的第一预测特征。

31.一种视频超分辨模型的训练设备，其特征在于，所述视频超分辨模型包括：前向增强网络和后向增强网络，其中，所述训练设备包括：

训练样本获取单元，被配置获取训练样本，其中，所述训练样本包括：具有多个图像帧的训练视频、以及每个图像帧的高分辨率图像；

前向增强单元，被配置为针对所述训练视频中的每一图像帧，将当前图像帧的图像特征、与当前图像帧的下一图像帧相关的图像特征、以及当前图像帧的第一预测特征输入所述前向增强网络，得到当前图像帧的第一增强特征、以及预测的当前图像帧的下一图像帧的第一预测特征；

后向增强单元，被配置为将当前图像帧的第一增强特征、与当前图像帧的上一图像帧相关的图像特征、以及当前图像帧的第二预测特征输入所述后向增强网络，得到当前图像帧的第二增强特征、以及预测的当前图像帧的上一图像帧的第二预测特征；

损失函数确定单元，被配置为基于每一图像帧的超分辨图像及其高分辨率图像，确定所述视频超分辨模型的目标损失函数；

训练单元，被配置为通过根据所述目标损失函数调整所述前向增强网络和所述后向增强网络的参数，对所述视频超分辨模型进行训练；

32.根据权利要求31所述的训练设备，其特征在于，当前图像帧的图像特征为：当前图像帧超分辨后的图像特征；

33.根据权利要求32所述的训练设备，其特征在于，当前图像帧的图像特征为：当前图像帧超分辨后的图像特征；

34.根据权利要求31所述的训练设备，其特征在于，所述视频超分辨模型还包括：特征提取网络，

其中，所述训练设备还包括：

特征提取单元，被配置为将当前图像帧所对应的拼接向量输入所述特征提取网络，得到当前图像帧的图像特征、与当前图像帧的上一图像帧相关的图像特征、与当前图像帧的下一图像帧相关的图像特征，

其中，训练单元被配置为通过根据所述目标损失函数调整所述特征提取网络、所述前向增强网络、以及所述后向增强网络的参数，对所述视频超分辨模型进行训练。

35.根据权利要求34所述的训练设备，其特征在于，拼接向量获取单元被配置为对当前图像帧、当前图像帧与其上一图像帧之间的帧间信息、以及当前图像帧与其下一图像帧之间的帧间信息进行拼接，得到当前图像帧所对应的拼接向量；

36.根据权利要求34所述的训练设备，其特征在于，所述特征提取网络包括：融合网络、第一特征网络、第二特征网络、以及第三特征网络，

37.根据权利要求36所述的训练设备，其特征在于，第一特征网络、第二特征网络、以及第三特征网络为单向循环卷积网络。

38.根据权利要求31所述的训练设备，其特征在于，所述前向增强网络包括：预测未来网络和过去对当前增强网络，

39.根据权利要求31所述的训练设备，其特征在于，所述后向增强网络包括：预测过去网络和未来对当前增强网络，

40.根据权利要求38所述的训练设备，其特征在于，所述预测未来网络获取与当前图像帧的下一图像帧相关的图像特征、与当前图像帧的图像特征之间的对齐信息，并基于所述对齐信息、当前图像帧的图像特征、以及与当前图像帧的下一图像帧相关的图像特征，预测当前图像帧的下一图像帧的第一预测特征。

41.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至10中任一项所述的视频处理方法和/或如权利要求11至20中任一项所述的视频超分辨模型的训练方法。

42.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至10中任一项所述的视频处理方法和/或如权利要求11至20中任一项所述的视频超分辨模型的训练方法。

43.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如权利要求1至10中任一项所述的视频处理方法和/或如权利要求11至20中任一项所述的视频超分辨模型的训练方法。