CN113379600A - 基于深度学习的短视频超分辨率转换方法、装置及介质 - Google Patents

基于深度学习的短视频超分辨率转换方法、装置及介质 Download PDF

Info

Publication number
CN113379600A
CN113379600A CN202110580746.4A CN202110580746A CN113379600A CN 113379600 A CN113379600 A CN 113379600A CN 202110580746 A CN202110580746 A CN 202110580746A CN 113379600 A CN113379600 A CN 113379600A
Authority
CN
China
Prior art keywords
super
resolution
short video
resolution conversion
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110580746.4A
Other languages
English (en)
Inventor
傅慧源
马华东
刘蓬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110580746.4A priority Critical patent/CN113379600A/zh
Publication of CN113379600A publication Critical patent/CN113379600A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及短视频分辨率技术领域,具体来说,本申请涉及基于深度学习的短视频超分辨率转换方法、装置及介质。所述方法包括:获取待超分辨率转换的短视频;将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算,得到不同尺度大小的特征图像;将所述不同尺度大小的特征图像进行元素相加融合,将融合后的特征图像输入到去噪网络的后续层中,得到去除噪声的短视频图像;将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像。本方法可以提高在多种拍摄场景下的超分辨率适应性,并改善由于设备差异、手抖和物***移等导致画面效果差的问题,提升短视频画面质量。

Description

基于深度学习的短视频超分辨率转换方法、装置及介质
技术领域
本申请涉及视频分辨率技术领域,更为具体来说,本申请涉及基于深度学习的短视频超分辨率转换方法、装置及介质。
背景技术
随着网络基础设施的快速发展和移动设备的迅速普及,短视频在当前信息社会中的影响力不断增强,观看短视频已经成为人们在线休闲消遣的主要娱乐方式之一。因为短视频具有创作简单、制作门槛较低等特点,所以越来越多的用户通过手机等移动设备完成视频的制作和分享。但是,由于拍摄设备的差异,再加上拍摄过程中容易受到手抖、位移运动和光照环境的影响,使得短视频的质量相较于专业视频有较大差距,从而影响用户的观赏体验。
随着视频超分辨率技术的发展,基于传统方法的视频超分辨率技术需要进行视频帧之间的配准,配准算法的精度直接影响视频超分效果,并且传统方法也不足以适应视频中的各种场景。基于深度学习的视频超分辨率技术虽然具有较强的特征提取和学习能力,但是短视频复杂多变的拍摄场景也为视频帧间关系挖掘带来了挑战。
因此,本申请提出了一种基于深度学习的短视频超分辨率转换方法与装置,以解决此问题。
发明内容
为实现上述技术目的,本申请提供了一种基于深度学习的短视频超分辨率转换方法,包括以下步骤:
获取待超分辨率转换的短视频;
将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算,得到不同尺度大小的特征图像;
将所述不同尺度大小的特征图像进行元素相加融合,将融合后的特征图像输入到去噪网络的后续层中,得到去除噪声的短视频图像;
将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像。
优选地,所述去噪网络和所述超分辨率转换网络均为训练好的网络。
具体地,所述注意力模块包括通道注意力模块和空间注意力模块。
进一步地,所述将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像,具体包括:
对所述去除噪声的短视频图像进行预设卷积运算,得到中间过程特征图像;
将所述中间过程特征图像分别输入到所述通道注意力模块和所述空间注意力模块,得到通道注意力特征图像和空间注意力特征图像;
将所述通道注意力特征图像和所述空间注意力特征图像采用元素相加的方式进行融合,得到通道注意力和空间注意力融合的特征图像;
将所述通道注意力和空间注意力融合的特征图像进行点乘运算,得到注意力加权后的特征图像;
将所述注意力加权后的特征图像输入到所述超分辨率转换网络的后续层中,最终得到画面提升的高分辨率短视频图像。
本方案上述的去噪网络和超分辨率网络都要求为训练好的,所述去噪网络和所述超分辨率转换网络的训练步骤为:
获取短视频训练样本,所述样本由同一拍摄场景下的高分辨率短视频和低分辨率短视频组成;
将所述低分辨率短视频输入到去噪网络中,得到去除噪声的短视频样本;
将所述去除噪声的短视频样本输入到嵌入注意力模块的超分辨率转换网络中进行训练,得到画面提升的高分辨率短视频图像;
根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异,调整所述去噪网络和所述嵌入注意力模块的超分辨率转换网络的参数;
当迭代次数达到预设次数时,终止训练。
优选地,所述通道注意力模块由多个自适应大小的卷积核和非线性运算层组成,所述空间注意力模块由多个大小为1*1的卷积核和非线性运算层组成。
本方明第二方面提供一种基于深度学习的短视频超分辨率转换装置,所述装置包括:
获取模块,用于获取待超分辨率转换的短视频;
卷积模块,用于将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算,得到不同尺度大小的特征图像;
融合模块,用于将所述不同尺度大小的特征图像进行元素相加融合,将融合后的特征图像输入到去噪网络的后续层中,得到去除噪声的短视频图像;
超分辨率转换模块,包括注意力模块,用于将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像。
选择性地,所述装置还包括参数调整模块,根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异,调整参数。
本发明第三方面提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如下步骤:
获取待超分辨率转换的短视频;
将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算,得到不同尺度大小的特征图像;
将所述不同尺度大小的特征图像进行元素相加融合,将融合后的特征图像输入到去噪网络的后续层中,得到去除噪声的短视频图像;
将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像。
本发明第四方面提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行以下步骤:
获取待超分辨率转换的短视频;
将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算,得到不同尺度大小的特征图像;
将所述不同尺度大小的特征图像进行元素相加融合,将融合后的特征图像输入到去噪网络的后续层中,得到去除噪声的短视频图像;
将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像。
本申请的有益效果为:本发明的所述方法与装置可以提高在多种拍摄场景下的超分辨率适应性,并改善由于设备差异、手抖和物***移等导致画面效果差的问题,提升短视频画面质量。
附图说明
图1示出了本申请实施例1的方法流程示意图;
图2示出了本申请实施例1中网络训练的方法流程示意图;
图3示出了本申请实施例2的去噪网络结构示意图;
图4示出了本申请实施例2的超分辨率转换网络结构示意图;
图5示出了本申请实施例2的注意力模块结构示意图;
图6示出了本申请实施例3的装置结构示意图;
图7示出了本申请一实施例所提供的一种电子设备的结构示意图;
图8示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
实施例1:
本实施例实施了一种基于深度学习的短视频超分辨率转换方法,如图1所示,包括以下步骤:
S1、获取待超分辨率转换的短视频;
S2、将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算,得到不同尺度大小的特征图像;
S3、将所述不同尺度大小的特征图像进行元素相加融合,将融合后的特征图像输入到去噪网络的后续层中,得到去除噪声的短视频图像;
S4、将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像。
优选地,去噪网络和超分辨率转换网络均为训练好的网络。
其中,注意力模块包括通道注意力模块和空间注意力模块。
进一步地,将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像,具体包括:
对去除噪声的短视频图像进行预设卷积运算,得到中间过程特征图像;
将中间过程特征图像分别输入到所述通道注意力模块和所述空间注意力模块,得到通道注意力特征图像和空间注意力特征图像;
将通道注意力特征图像和所述空间注意力特征图像采用元素相加的方式进行融合,得到通道注意力和空间注意力融合的特征图像;
将通道注意力和空间注意力融合的特征图像进行点乘运算,得到注意力加权后的特征图像;
将注意力加权后的特征图像输入到所述超分辨率转换网络的后续层中,最终得到画面提升的高分辨率短视频图像。
上述的去噪网络和超分辨率网络都要求为训练好的,如图2所示,去噪网络和所述超分辨率转换网络的训练步骤为:
S21、获取短视频训练样本,所述样本由同一拍摄场景下的高分辨率短视频和低分辨率短视频组成;
S22、将所述低分辨率短视频输入到去噪网络中,得到去除噪声的短视频样本;
S23、将所述去除噪声的短视频样本输入到嵌入注意力模块的超分辨率转换网络中进行训练,得到画面提升的高分辨率短视频图像;
S24、根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异,调整所述去噪网络和所述嵌入注意力模块的超分辨率转换网络的参数;
S25、当迭代次数达到预设次数时,终止训练。
优选地,所述通道注意力模块由多个自适应大小的卷积核和非线性运算层组成,所述空间注意力模块由多个大小为1*1的卷积核和非线性运算层组成。
实施例2:
本实施例实施了一种基于深度学习的短视频超分辨率转换方法,包括以下步骤:
步骤1:获取待超分辨率转换的短视频。
可以从现实场景中拍摄采集,可以从不同生活场景中采集大量的高分辨率短和低分辨率短视频。
步骤2:将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算,得到不同尺度大小的特征图像。
去噪网络的结构示意图如图3所示,图3中的conv表示卷积操作,E0-E3表示经过特征提取后输出的特征图,因为进行了预设卷积运算,得到不同尺度大小的特征图像f0-f3。具体而言,不同尺度大小的特征图像通过多层卷积操作获得。可以理解的是,连续的局部卷积操作不断扩大感受野,提取到输入图像的高层特征信息。在预设卷积运算过程中,每层的卷积核大小和卷积步长应根据具体的场景设定。例如,采用卷积核大小为(3*3),步长为(1*1)的卷积层对短视频图像进行预设卷积运算。特征提取网络通常由多个卷积层组成,图像每经过一个卷积层都会得到一个特定尺度的特征图像,通过多层卷积操作从而获得不同尺度大小的特征图像。
步骤3:将所述不同尺度大小的特征图像进行元素相加融合,将融合后的特征图像输入到去噪网络的后续层中,得到去除噪声的短视频图像。这里再如图3所示,
Figure BDA0003085934540000091
表示元素相加,
Figure BDA0003085934540000092
表示特征拼接。f1、f2、f3经过卷积处理后进行特征拼接,拼接后经过卷积处理与f0进行元素相加,然后一并进行多尺度特征分段融合处理。融合处理后的图像用ffuse表示,再将其进行卷积操作,最终输出的图像用ffinal表示,将ffinal进行激活函数tanh激活,最后得到去除噪音的短视频图像。
步骤4:将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像。
超分辨率转换网络结构示意图如图4所示。如图4所示,从去噪网络中输出的DLR代表去噪后的视频图像序列,将其进行conv3D操作即三维卷积操作后再输入到注意力模块,从注意力模块中输出后还要进行conv2D操作即二维卷积操作,最后再进行上采样。在特征图像融合过程中,由于高层特征图像和低层特征图像尺度不同,在融合操作之前需要进行上采样操作,将高层特征图像恢复成和低层特征图像相同的大小。这种方式可以实现高层特征和低层特征逐步地融合,融合的特征既含有丰富的语义信息也保留有细节信息。
上采样层采用双线性内插方法。将去噪的短视频图像输入到嵌入注意力模块的超分辨率转换网络中,进行预设卷积运算,得到中间过程特征图像。其中,预设卷积运算包括多个卷积核大小为3*3*3的三维卷积层和LReLU非线性激活层。将所述中间过程特征图像分别输入到注意力模块中,图5为注意力模块结果示意图,如图5所示,将中间过程特征图像分别输入到通道注意力模块和空间注意力模块,得到通道注意力特征图像和空间注意力特征图像。其中,通道注意力模块对输入的特征图像进行自适应平均池化,使用卷积核大小为k的一维卷积获取通道间的依赖关系,得到通道注意力特征图。k计算如下:
Figure BDA0003085934540000101
其中,C为特征通道数,超参数β和γ分别设置为1和2,选择该公式最接近的奇数作为一维卷积的内核大小。
空间注意力模块对输入的特征图像使用可分离卷积操作获取特征在空间中的依赖关系,得到空间注意力特征图像。将通道注意力特征图像和空间注意力特征图像采用元素相加的方式进行融合,经过Sigmoid非线性函数得到通道注意力和空间注意力融合的特征图像。将融合的注意力特征图像和所述的中间过程特征图像进行点乘运算,得到注意力加权后的特征图像。将注意力加权后的特征图像输入到超分辨率转换网络的后续层中,最终得到画面提升的高分辨率短视频图像。
本实施例在训练网络时,短视频样本可以从现实场景中拍摄采集,为保证短视频超分辨率模型的鲁棒性和有效性,需要从不同生活场景中采集大量的高分辨率和低分辨率视频。将所述低分辨率短视频输入到去噪网络中,得到去除噪声的短视频样本。将所述去除噪声的短视频样本输入到嵌入注意力模块的超分辨率转换网络中进行训练,得到画面提升的高分辨率短视频图像。根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异,调整所述去噪网络和所述嵌入注意力模块的超分辨率转换网络的参数。当迭代次数达到预设次数时,终止训练。
作为可变换的实施方式,本实施例还可根据超分辨率转换网络输出的高分辨率短视频图像和真实高分辨率短视频图像的L1距离,调整所述去噪网络和嵌入注意力模块的超分辨率转换网络的参数。当迭代次数达到预设迭代次数时,说明短视频超分辨率模型已经有了较好的去噪能力和超分辨率转换能力,其中预设迭代次数可以是5千、1万等,应根据具体的场景设定。
实施例3:
本实施例实施了一种基于深度学习的短视频超分辨率转换装置,如图6所示,所述装置包括:
获取模块601,用于获取待超分辨率转换的短视频;
卷积模块602,用于将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算,得到不同尺度大小的特征图像;
融合模块603,用于将所述不同尺度大小的特征图像进行元素相加融合,将融合后的特征图像输入到去噪网络的后续层中,得到去除噪声的短视频图像;
超分辨率转换模块604,包括注意力模块,用于将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像。
选择性地,所述装置还包括参数调整模块605,根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异,调整参数。
接下来请参考图7,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图7所示,所述电子设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的基于深度学习的短视频超分辨率转换方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述基于深度学习的短视频超分辨率转换方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的基于深度学习的短视频超分辨率转换方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的基于深度学习的短视频超分辨率转换方法对应的计算机可读存储介质,请参考图8,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的基于深度学习的短视频超分辨率转换方法。
所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于深度学习的短视频超分辨率转换方法,其特征在于,包括以下步骤:
获取待超分辨率转换的短视频;
将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算,得到不同尺度大小的特征图像;
将所述不同尺度大小的特征图像进行元素相加融合,将融合后的特征图像输入到去噪网络的后续层中,得到去除噪声的短视频图像;
将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像。
2.根据权利要求1所述的基于深度学习的短视频超分辨率转换方法,其特征在于,所述去噪网络和所述超分辨率转换网络均为训练好的网络。
3.根据权利要求1所述的基于深度学习的短视频超分辨率转换方法,其特征在于,所述注意力模块包括通道注意力模块和空间注意力模块。
4.根据权利要求3所述的基于深度学习的短视频超分辨率转换方法,其特征在于,所述将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像,具体包括:
对所述去除噪声的短视频图像进行预设卷积运算,得到中间过程特征图像;
将所述中间过程特征图像分别输入到所述通道注意力模块和所述空间注意力模块,得到通道注意力特征图像和空间注意力特征图像;
将所述通道注意力特征图像和所述空间注意力特征图像采用元素相加的方式进行融合,得到通道注意力和空间注意力融合的特征图像;
将所述通道注意力和空间注意力融合的特征图像进行点乘运算,得到注意力加权后的特征图像;
将所述注意力加权后的特征图像输入到所述超分辨率转换网络的后续层中,最终得到画面提升的高分辨率短视频图像。
5.根据权利要求2所述的基于深度学习的短视频超分辨率转换方法,其特征在于,所述去噪网络和所述超分辨率转换网络的训练步骤为:
获取短视频训练样本,所述样本由同一拍摄场景下的高分辨率短视频和低分辨率短视频组成;
将所述低分辨率短视频输入到去噪网络中,得到去除噪声的短视频样本;
将所述去除噪声的短视频样本输入到嵌入注意力模块的超分辨率转换网络中进行训练,得到画面提升的高分辨率短视频图像;
根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异,调整所述去噪网络和所述嵌入注意力模块的超分辨率转换网络的参数;
当迭代次数达到预设次数时,终止训练。
6.根据权利要求3所述的基于深度学习的短视频超分辨率转换方法,其特征在于,所述通道注意力模块由多个自适应大小的卷积核和非线性运算层组成,所述空间注意力模块由多个大小为1*1的卷积核和非线性运算层组成。
7.一种基于深度学习的短视频超分辨率转换装置,其特征在于,所述装置包括:
获取模块,用于获取待超分辨率转换的短视频;
卷积模块,用于将待超分辨率转换的短视频输入到去噪网络先进行预设卷积运算,得到不同尺度大小的特征图像;
融合模块,用于将所述不同尺度大小的特征图像进行元素相加融合,将融合后的特征图像输入到去噪网络的后续层中,得到去除噪声的短视频图像;
超分辨率转换模块,包括注意力模块,用于将所述去除噪声的短视频图像输入到嵌入注意力模块的超分辨率转换网络,得到画面提升的高分辨率短视频图像。
8.根据权利要求7所述的基于深度学习的短视频超分辨率转换装置,其特征在于,所述装置还包括参数调整模块,根据所述超分辨率转换网络输出的高分辨率短视频图像和对应真实拍摄的高分辨率短视频图像之间的差异,调整参数。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1至6中任一项方法的步骤。
CN202110580746.4A 2021-05-26 2021-05-26 基于深度学习的短视频超分辨率转换方法、装置及介质 Pending CN113379600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110580746.4A CN113379600A (zh) 2021-05-26 2021-05-26 基于深度学习的短视频超分辨率转换方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110580746.4A CN113379600A (zh) 2021-05-26 2021-05-26 基于深度学习的短视频超分辨率转换方法、装置及介质

Publications (1)

Publication Number Publication Date
CN113379600A true CN113379600A (zh) 2021-09-10

Family

ID=77572071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110580746.4A Pending CN113379600A (zh) 2021-05-26 2021-05-26 基于深度学习的短视频超分辨率转换方法、装置及介质

Country Status (1)

Country Link
CN (1) CN113379600A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113888410A (zh) * 2021-09-30 2022-01-04 北京百度网讯科技有限公司 图像超分辨率方法、装置、设备、存储介质以及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192200A (zh) * 2020-01-02 2020-05-22 南京邮电大学 基于融合注意力机制残差网络的图像超分辨率重建方法
CN111311490A (zh) * 2020-01-20 2020-06-19 陕西师范大学 基于多帧融合光流的视频超分辨率重建方法
CN111915481A (zh) * 2020-06-08 2020-11-10 北京大米未来科技有限公司 图像处理方法、装置、电子设备及介质
CN111986092A (zh) * 2020-09-07 2020-11-24 山东交通学院 一种基于双重网络的图像超分辨率重建方法及***
WO2020258667A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 图像识别方法及装置、非易失性可读存储介质、计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020258667A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 图像识别方法及装置、非易失性可读存储介质、计算机设备
CN111192200A (zh) * 2020-01-02 2020-05-22 南京邮电大学 基于融合注意力机制残差网络的图像超分辨率重建方法
CN111311490A (zh) * 2020-01-20 2020-06-19 陕西师范大学 基于多帧融合光流的视频超分辨率重建方法
CN111915481A (zh) * 2020-06-08 2020-11-10 北京大米未来科技有限公司 图像处理方法、装置、电子设备及介质
CN111986092A (zh) * 2020-09-07 2020-11-24 山东交通学院 一种基于双重网络的图像超分辨率重建方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113888410A (zh) * 2021-09-30 2022-01-04 北京百度网讯科技有限公司 图像超分辨率方法、装置、设备、存储介质以及程序产品

Similar Documents

Publication Publication Date Title
Cai et al. Toward real-world single image super-resolution: A new benchmark and a new model
CN110473137B (zh) 图像处理方法和装置
CN110062164B (zh) 视频图像处理方法及装置
CN108875900B (zh) 视频图像处理方法和装置、神经网络训练方法、存储介质
JP7086235B2 (ja) ビデオ処理方法、装置及びコンピュータ記憶媒体
CN112837245B (zh) 一种基于多模态融合的动态场景去模糊方法
EP3224799A1 (en) Method, apparatus and computer program product for generating super-resolved images
Xu et al. Exploiting raw images for real-scene super-resolution
Nguyen et al. Learning spatially varying pixel exposures for motion deblurring
Wu et al. LiTMNet: A deep CNN for efficient HDR image reconstruction from a single LDR image
CN112184587A (zh) 一种边缘数据增强模型、以及基于所述模型的高效边缘数据增强方法及***
CN113379600A (zh) 基于深度学习的短视频超分辨率转换方法、装置及介质
CN112150363B (zh) 一种基于卷积神经网络的图像夜景处理方法及运行该方法的计算模块与可读存储介质
CN116486009A (zh) 单目三维人体重建方法、装置以及电子设备
CN116071279A (zh) 图像处理方法、装置、计算机设备和存储介质
CN113810597A (zh) 一种基于半预测滤波的快速图像散景渲染方法
CN112508801A (zh) 图像处理方法及计算设备
Huang et al. Linedl: Processing images line-by-line with deep learning
US20230060988A1 (en) Image processing device and method
Que et al. Residual dense U‐Net for abnormal exposure restoration from single images
WO2024130715A1 (zh) 视频处理方法、视频处理装置和可读存储介质
CN116310959B (zh) 一种复杂场景下低质量摄像机画面识别方法及***
Wang et al. Joint blind image deblurring and super-resolution via double-branch projection feedback network
CN115937044A (zh) 图像处理方法、图像处理装置、存储介质与电子设备
Nam et al. Deep Conditional HDRI: Inverse Tone Mapping via Dual Encoder-Decoder Conditioning Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210910