CN115731098A - 视频图像处理方法、网络训练方法、电子设备、介质 - Google Patents

视频图像处理方法、网络训练方法、电子设备、介质 Download PDF

Info

Publication number
CN115731098A
CN115731098A CN202110985417.8A CN202110985417A CN115731098A CN 115731098 A CN115731098 A CN 115731098A CN 202110985417 A CN202110985417 A CN 202110985417A CN 115731098 A CN115731098 A CN 115731098A
Authority
CN
China
Prior art keywords
image
network
loss
calculating
current image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110985417.8A
Other languages
English (en)
Inventor
宋剑军
徐科
孔德辉
易自尧
杨维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanechips Technology Co Ltd
Original Assignee
Sanechips Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanechips Technology Co Ltd filed Critical Sanechips Technology Co Ltd
Priority to CN202110985417.8A priority Critical patent/CN115731098A/zh
Priority to PCT/CN2022/114827 priority patent/WO2023025245A1/zh
Publication of CN115731098A publication Critical patent/CN115731098A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种视频图像处理方法、网络训练方法、电子设备、计算机可读存储介质,视频图像处理方法包括:采用第一胶囊网络对当前图像和与当前图像相邻的N帧参考图像进行特征提取得到当前图像的特征向量,以及每一帧参考图像的特征向量;采用第一注意力网络对当前图像的特征向量,以及参考图像的特征向量进行相关性处理得到第一相关性向量;采用第一运动估计网络对第一相关性向量进行运动估计处理得到第一帧间运动信息;根据第一帧间运动信息对参考图像进行图像变换得到图像变换后的参考图像;采用第一运动补偿网络对当前图像和所有图像变换后的参考图像进行融合处理得到第一融合图像;对第一融合图像进行超分辨率处理得到目标图像。

Description

视频图像处理方法、网络训练方法、电子设备、介质
技术领域
本申请实施例涉及图像处理领域,特别涉及视频图像处理方法、网络训练方法、电子设备、计算机可读存储介质。
背景技术
随着视频图像行业的快速发展,视频分辨率从标清、高清、超清、超高清到4K/8K,帧率从30帧、60帧、90帧到120帧,视频中包含的信息量在不断扩大,这势必会给网络带宽带来极大的压力,如何提高视频图像质量越来越重要。一种方法是不断提高传输码率,另一种方法是在显示前进行超分辨率(SR,Super Resolution),显然传输码率不能够无限增加,而SR则可以根据场景进行不断调整。
SR是指通过硬件或软件的方法来提高原有图像的分辨率,即通过对一系列低分辨率的图像进行处理来得到高分辨率的图像的过程。SR的核心思想就是用时间带宽(即获取同一场景的一帧或多帧图像序列)换取空间分辨率,实现时间分辨率向空间分辨率的转换。
目前的SR技术有可能会陷入局部特征最优的情况,忽略了整体特征层次的相关性。
发明内容
本申请实施例提供一种视频图像处理方法、网络训练方法、电子设备、计算机可读存储介质。
第一方面,本申请实施例提供一种视频图像处理方法,包括:采用第一胶囊网络对当前图像和与所述当前图像相邻的N帧参考图像进行特征提取得到所述当前图像的特征向量,以及每一帧所述参考图像的特征向量;其中,N为大于或等于1的整数;针对每一帧所述参考图像,采用第一注意力网络对所述当前图像的特征向量,以及所述参考图像的特征向量进行相关性处理得到所述当前图像的特征向量与所述参考图像的特征向量之间的第一相关性向量;采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息;根据所述第一帧间运动信息对所述参考图像进行图像变换得到图像变换后的参考图像;采用第一运动补偿网络对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第一融合图像;采用超分辨率网络对所述第一融合图像进行超分辨率处理得到超分辨率的目标图像。
第二方面,本申请实施例提供一种视频图像处理方法,包括:针对与当前图像相邻的每一帧参考图像,采用第三运动估计网络对当前图像和所述参考图像进行运动估计处理得到第二帧间运动信息;根据所述第二帧间运动信息对所述参考图像进行图像变换得到图像变换后的参考图像;采用第二胶囊网络对所述当前图像和所有所述图像变换后的参考图像进行特征提取得到所述当前图像的特征向量,以及每一帧所述图像变换后的参考图像的特征向量;针对每一帧所述图像变换后的参考图像,采用第二注意力网络对所述当前图像的特征向量,以及所述图像变换后的参考图像的特征向量进行相关性处理得到所述当前图像的特征向量与所述图像变换后的参考图像的特征向量的第五相关性向量;采用第二运动补偿网络,根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像;采用超分辨率网络对所述第二融合图像进行超分辨率处理得到超分辨率的目标图像。
第三方面,本申请实施例提供一种网络训练方法,包括:采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像;其中,N为大于或等于1的整数;根据所述目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算第一胶囊网络的第一重构损失,根据所述L2损失、所述第一信息熵损失和所述第一重构损失计算第一总损失;根据所述第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行所述采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到所述第一总损失小于或等于第一预设阈值。
第四方面,本申请实施例提供一种网络训练方法,包括:基于训练好的第一胶囊网络,采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像;其中,N为大于或等于1的整数;计算第一胶囊网络的第一重构损失,计算第二信息熵损失,根据所述第一重构损失和所述第二信息熵损失计算第二总损失;根据所述第二总损失更新所述第一胶囊网络、所述第一注意力网络和所述第一运动估计网络中需要训练的所有参数,继续执行所述采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像的步骤,直到所述第二总损失小于或等于第二预设阈值;采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像;根据所述目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算所述第一胶囊网络的第一重构损失,根据所述L2损失、所述第一信息熵损失和所述第一重构损失计算第一总损失;根据所述第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行所述采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到所述第一总损失小于或等于第一预设阈值。
第五方面,本申请实施例提供一种网络训练方法,包括:采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像;其中,N为大于或等于1的整数;根据所述目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算第二胶囊网络的第二重构损失,根据所述L2损失、所述第一信息熵损失和所述第二重构损失计算第三总损失;根据所述第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行所述采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到所述第三总损失小于或等于第三预设阈值。
第六方面,本申请实施例提供一种网络训练方法,包括:采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像;其中,N为大于或等于1的整数;计算第二信息熵损失,根据所述第二信息熵损失更新所述第三运动估计网络中需要训练的所有参数,继续执行所述采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像的步骤,直到所述第二信息熵损失小于或等于第四预设阈值;采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到所述当前图像的特征向量,以及每一帧所述图像变换后的参考图像的特征向量;计算第二信息熵损失,计算第二胶囊网络的第二重构损失,根据所述第二信息熵损失和所述第二重构损失计算第四总损失;根据所述第四总损失更新所述第三运动估计网络、所述第二胶囊网络中需要训练的参数,继续执行所述采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到所述当前图像的特征向量,以及每一帧所述图像变换后的参考图像的特征向量的步骤,直到所述第四总损失小于或等于第五预设阈值;采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像;根据所述目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算所述第二胶囊网络的第二重构损失,根据所述L2损失、所述第一信息熵损失和所述第二重构损失计算第三总损失;根据所述第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行所述采用上述任意一种视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到所述第三总损失小于或等于第三预设阈值。
第七方面,本申请实施例提供一种电子设备,包括:至少一个处理器;存储器,存储器上存储有至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,实现上述任意一种视频图像处理方法,或上述任意一种网络训练方法。
第八方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种视频图像处理方法,或上述任意一种网络训练方法。
本申请实施例提供的视频图像处理方法,采用胶囊网络得到对应图像的特征向量,结合注意力网络提升了运动估计网络中对特征的对齐效果,从而避免了陷入局部特征最优解的情况,考虑了整体特征层次的相关性。
本申请实施例提供的网络训练方法,基于L2损失、信息熵损失和胶囊网络的重构损失计算用于更新训练参数的总损失,由于胶囊网络的重构损失保证了基于胶囊网络的输出重构的图像与输入到胶囊网络的图像的一致性,也就是保证了胶囊网络对特征提取的准确性,信息熵损失既保证了输出的目标图像与当前图像的基本特征的一致性,即空域信息的波动较小,也保证了输出的目标图像与参考图像的基本特征的一致性,即时域信息的波动较小,从而基于训练好的网络进行视频图像超分辨率处理时,得到空域信息和时域信息的波动较小的目标图像,提高了图像处理效果。
本申请实施例提供的网络训练方法,对视频图像处理方法中的网络进行分阶段训练,进一步提高了训练效果。
附图说明
图1为本申请一个实施例提供的视频图像处理方法的流程图;
图2为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图一;
图3为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图二;
图4为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图三;
图5为本申请另一个实施例提供的视频图像处理方法的流程图;
图6为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图四;
图7为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图五;
图8为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图六;
图9为本申请另一个实施例提供的网络训练方法的流程图;
图10为本申请另一个实施例提供的网络训练方法的流程图;
图11为本申请另一个实施例提供的网络训练方法的流程图;
图12为本申请另一个实施例提供的网络训练方法的流程图。
具体实施方式
为使本领域的技术人员更好地理解本申请的技术方案,下面结合附图对本申请提供的视频图像处理方法、网络训练方法、电子设备、计算机可读存储介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本申请透彻和完整,并将使本领域技术人员充分理解本申请的范围。
在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括至少一个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加至少一个其它特征、整体、步骤、操作、元件、组件和/或其群组。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
SR技术可以分成两类,分别为视频图像修复和视频图像插值。视频图像插值又包括视频图像分辨率变化和视频图像帧数变化,视频图像分辨率变化可以是无极放大或缩小,视频图像帧数变化可以是插帧或抽帧。一般来说,视频超分辨率源于图像超分辨率,其目的是从一个或多个低分辨率的参考图像(Reference Image)中恢复出高分辨率的目标图像(Target Image),它们的区别也很明显,由于视频是由多个帧组成的,即视频超分辨率通常利用帧间和帧内的信息来进行修复。
帧间信息的利用对视频超分辨率的性能有很大的影响。正确和充分地利用这些信息可以提高视频超分辨率的最终结果。运动估计和运动补偿(MEMC,Motion Estimate andMotion Compensation)是视频超分辨率中非常主流的方法,运动估计(ME,MotionEstimate)的目的是提取帧间运动信息,运动补偿(MC,Motion Compensation)用于根据帧间运动信息执行帧间的扭曲操作使其对齐。
其中,大多数运动估计技术都是通过光流方法来实现的。光流方法通过相邻帧在时域的相关性和变化来计算相邻帧之间的运动。运动估计方法可以分为传统方法(如LucasKanade、Druleas等)和深度学习方法(如FlowNet、FlowNet 2.0和SpyNet等)。
光流(optical flow)是空间运动物体在成像平面上的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。通常将二维图像平面上特定坐标点的灰度瞬时变化率定义为光流矢量。
光流方法以两个连续帧作为输入,其中一个是目标帧J对应的图像j,另一个是图像j的相邻帧,即图像i,按照公式Fi→j=(hi→j,vi→j)=ME(Ii,Ij)计算从图像i到图像j的光流。其中,Fi→j为从图像i到图像j的光流,hi→j为位移变化量的水平分量,vi→j为位移变化量的垂直分量,ME()为计算光流的函数。
其中,MC用于根据帧间运动信息对图像i进行图像变换,使相邻帧(即图像i)在空间上与目标帧J对齐,再将图像变换后的图像i与图像j进行融合得到目标帧J,即J=MC(Ii→j,Fi→j)。其中,Ii→j为图像变换后的图像i,MC()为运动补偿函数。
光流方法一方面可以提高单帧质量,另一方面由于考虑了时间相关性,生成的像素在时间上能够保持连续性,使得时间上匹配的像素连贯播放。
目前光流法的深度学习方法采用卷积神经网络(CNN,Convolution NeuralNetworks),虽然随着卷积网络的层数的加深,CNN可以学习到更为全局的上下文信息,然后利用这些上下文信息进行预测,但是因为CNN是局部连接和参数共享的,并没有考虑特征之间的相互关联和相互位置关系,CNN缺乏各个特征的层次结构信息。例如,一旦CNN的卷积核检测到了类似于眼睛、鼻子、嘴巴这种特征,相关卷积核对这些特征卷积出来的值就会很大,那么与人脸相关的神经元就相当突出,最后光流特征对齐到人脸这一类,但是CNN不会考虑到这些特征之间的相关性和结构性,有可能会陷入局部特征最优的情况,忽略了整体特征层次的相关性。
图1为本申请一个实施例提供的视频图像处理方法的流程图。
第一方面,参照图1,本申请一个实施例提供一种视频图像处理方法,包括:
步骤100、采用第一胶囊网络cap-net1对当前图像
Figure BDA0003229624420000051
和与当前图像
Figure BDA0003229624420000052
相邻的N帧参考图像进行特征提取得到当前图像的特征向量
Figure BDA0003229624420000053
以及每一帧参考图像的特征向量;其中,N为大于或等于1的整数。
在本申请实施例中,与当前图像
Figure BDA0003229624420000054
相邻的N帧参考图像是指时间上与当前图像
Figure BDA0003229624420000055
相邻的N帧参考图像,例如,时间上位于当前图像
Figure BDA0003229624420000056
之前的N帧参考图像
Figure BDA0003229624420000057
Figure BDA0003229624420000058
相应的参考图像的特征向量分别为
Figure BDA0003229624420000059
或者,时间上位于当前图像
Figure BDA00032296244200000510
之后的N帧参考图像
Figure BDA00032296244200000511
相应的参考图像的特征向量分别为
Figure BDA00032296244200000512
或者,时间上位于当前图像
Figure BDA00032296244200000513
之前的M帧参考图像
Figure BDA0003229624420000061
以及时间上位于当前图像
Figure BDA0003229624420000062
之后的(N-M)帧参考图像
Figure BDA0003229624420000063
相应的参考图像的特征向量分别为
Figure BDA0003229624420000064
Figure BDA0003229624420000065
以及
Figure BDA0003229624420000066
M为大于或等于1,且小于或等于N的整数。图2以N为1为例给出了一个示意图。
在一些示例性实施例中,对当前图像
Figure BDA0003229624420000067
进行特征提取所采用的第一胶囊网络cap-net1与对参考图像进行特征提取所采用的第一胶囊网络cap-net1属于同一个胶囊网络,或属于不同的胶囊网络;对不同参考图像进行特征提取所采用的第一胶囊网络cap-net1属于同一个胶囊网络,或属于不同的胶囊网络。
在本申请实施例中,当对当前图像
Figure BDA0003229624420000068
进行特征提取所采用的第一胶囊网络cap-net1与对参考图像进行特征提取所采用的第一胶囊网络cap-net1属于同一个胶囊网络,对不同参考图像进行特征提取所采用的第一胶囊网络cap-net1属于同一个胶囊网络时,采用第一胶囊网络cap-net1对当前图像
Figure BDA0003229624420000069
和与当前图像
Figure BDA00032296244200000610
相邻的N帧参考图像进行特征提取得到当前图像的特征向量
Figure BDA00032296244200000611
是指将当前图像
Figure BDA00032296244200000612
和与当前图像
Figure BDA00032296244200000613
相邻的N帧参考图像依次输入到第一胶囊网络cap-net1得到对应的特征向量。也就是说,第一胶囊网络cap-net1一次只能处理一帧图像得到对应的特征向量。
在一些示例性实施例中,第一胶囊网络cap-net1包括以下至少之一:卷积层、主胶囊层、数字胶囊层等。
在本申请实施例中,主胶囊层也可以称为底层胶囊层,数字胶囊层也可以称为高层胶囊层。
步骤101、针对每一帧参考图像,采用第一注意力网络att-net1对当前图像
Figure BDA00032296244200000614
的特征向量,以及参考图像的特征向量进行相关性处理得到当前图像
Figure BDA00032296244200000615
的特征向量与参考图像的特征向量之间的第一相关性向量;采用第一运动估计网络ME-net1对第一相关性向量进行运动估计处理得到第一帧间运动信息;根据第一帧间运动信息对参考图像进行图像变换warp得到图像变换后的参考图像。
在一些示例性实施例中,第一注意力网络att-net1可以采用通道注意力(channelattention)机制、空间注意力(spatial attention)机制等中的至少一个构建得到。
在一些示例性实施例中,第一注意力网络att-net1可以采用点乘计算实现相关性处理。
在本申请实施例中,参考图像
Figure BDA00032296244200000616
对应的第一相关性向量分别为
Figure BDA00032296244200000617
参考图像
Figure BDA00032296244200000618
对应的第一相关性向量分别为
Figure BDA00032296244200000619
参考图像
Figure BDA00032296244200000620
以及
Figure BDA00032296244200000621
对应的第一相关性向量分别为
Figure BDA00032296244200000622
以及
Figure BDA00032296244200000623
在一些示例性实施例中,第一运动估计网络ME-net1可以采用以下至少之一实现:普通方法、传统方法、光流法等。普通方法如Res-net,传统方法如LucasKanade、Druleas等,光流法如FlowNet、FlowNet 2.0和SpyNet。
在一些示例性实施例中,采用第一运动估计网络ME-net1直接对第一相关性向量进行运动估计处理得到第一帧间运动信息,如图2所示;或者,采用第二运动估计网络ME-net2对所述当前图像
Figure BDA00032296244200000725
和所述参考图像进行特征提取和相关性处理得到所述当前图像和所述参考图像之间的第二相关性向量;将所述第一相关性向量和所述第二相关性向量进行点乘计算得到第三相关性向量;采用所述第一运动估计网络ME-net1对所述第三相关性向量进行运动估计处理得到所述第一帧间运动信息;如图3所示或者,将所述第一相关性向量和所述当前图像进行点乘计算得到新的当前图像;将所述第一相关性向量和所述参考图像进行点乘计算得到新的参考图像;采用第二运动估计网络ME-net2对所述新的当前图像和所述新的参考图像进行特征提取和相关性处理得到所述新的当前图像和所述新的参考图像之间的第四相关性向量;采用所述第一运动估计网络ME-net1对所述第四相关性向量进行运动估计处理得到所述第一帧间运动信息,如图4所示。
在本申请实施例中,参考图像
Figure BDA0003229624420000071
对应的第一帧间运动信息分别为
Figure BDA0003229624420000072
对应的图像变换后的参考图像分别为
Figure BDA0003229624420000073
对应的第二相关性向量分别为
Figure BDA0003229624420000074
Figure BDA0003229624420000075
参考图像
Figure BDA0003229624420000076
对应的第一帧间运动信息分别为
Figure BDA0003229624420000077
对应的图像变换后的参考图像分别为
Figure BDA0003229624420000078
对应的第二相关性向量分别为
Figure BDA0003229624420000079
Figure BDA00032296244200000710
参考图像
Figure BDA00032296244200000711
以及
Figure BDA00032296244200000712
Figure BDA00032296244200000713
对应的第一帧间运动信息分别为
Figure BDA00032296244200000714
以及
Figure BDA00032296244200000715
对应的图像变换后的参考图像分别为
Figure BDA00032296244200000716
以及
Figure BDA00032296244200000717
对应的第二相关性向量分别为
Figure BDA00032296244200000718
以及
Figure BDA00032296244200000719
Figure BDA00032296244200000720
步骤102、采用第一运动补偿网络MC-net1对当前图像
Figure BDA00032296244200000721
和所有图像变换后的参考图像进行融合处理得到第一融合图像
Figure BDA00032296244200000722
采用超分辨率网络P-net对第一融合图像
Figure BDA00032296244200000723
进行超分辨率处理得到超分辨率的目标图像
Figure BDA00032296244200000724
在一些示例性实施例中,第一运动补偿网络MC-net1可以是卷积神经网络Cnn-net、循环神经网络Rnn-net中的至少一个。
在一些示例性实施例中,超分辨率处理包括分辨率缩放、插帧和增强中的至少一个。
其中,分辨率缩放是指添加图像的上采样部分(upsample)或下采样部分(downsample),插帧是指添加图像***部分(interpolated),增强是指添加图像修复部分。
在一些示例性实施例中,采用第一运动补偿网络MC-net1对当前图像
Figure BDA0003229624420000081
和所有图像变换后的参考图像进行融合处理得到第一融合图像
Figure BDA0003229624420000082
包括:针对每一帧参考图像,根据第一相关性向量确定参考图像的权重;采用第一运动补偿网络MC-net1,根据所有参考图像的权重对当前图像
Figure BDA0003229624420000083
和所有图像变换后的参考图像进行融合处理得到第一融合图像
Figure BDA0003229624420000084
在一些示例性实施例中,参考图像的权重为第一相关性向量的平均值。例如,当前图像和参考图像均为64×64×3的向量,那么第一相关性向量为64×64×C的向量,那么参考图像的权重应该是64×64×1,也就是将第一相关性向量在C对应的维度上进行平均计算。
在本申请实施例中,可以采用多种方式实现根据所有参考图像的权重对当前图像
Figure BDA0003229624420000085
和所有图像变换后的参考图像进行融合处理得到第一融合图像
Figure BDA0003229624420000086
例如,以参考图像的权重为图像变换后的参考图像的系数将当前图像
Figure BDA0003229624420000087
和所有图像变换后的参考图像进行加权平均得到第一融合图像
Figure BDA0003229624420000088
或者,分别从当前图像
Figure BDA0003229624420000089
和所有图像变换后的参考图像中提取对应的特征,以参考图像的权重为图像变换后的参考图像对应的特征的系数,将当前图像
Figure BDA00032296244200000810
对应的特征和所有图像变换后的参考图像对应的特征进行加权平均得到第一融合图像
Figure BDA00032296244200000811
本申请实施例提供的视频图像处理方法,采用胶囊网络得到对应图像的特征向量,结合注意力网络提升了运动估计网络中对特征的对齐效果,从而避免了陷入局部特征最优解的情况,考虑了整体特征层次的相关性。
图5为本申请另一个实施例提供的视频图像处理方法的流程图。
第二方面,参照图5,本申请另一个实施例提供一种视频图像处理方法,包括:
步骤500、针对与当前图像
Figure BDA00032296244200000812
相邻的每一帧参考图像,采用第三运动估计网络ME-net3对当前图像
Figure BDA00032296244200000813
和参考图像进行运动估计处理得到第二帧间运动信息;根据第二帧间运动信息对参考图像进行图像变换warp得到图像变换后的参考图像。
在本申请实施例中,第三运动估计网络ME-net3相当于上述实施例中第一运动估计网络ME-net1和第二运动估计网络ME-net2的叠加。也就是说,第三运动估计网络ME-net3实际上是先对当前图像
Figure BDA00032296244200000814
和参考图像进行特征提取和相关性处理,再进行运动估计处理才得到第二帧间运动信息。
在本申请实施例中,假设与当前图像
Figure BDA00032296244200000815
相邻的参考图像为N帧,与当前图像
Figure BDA00032296244200000816
相邻的N帧参考图像是指时间上与当前图像
Figure BDA00032296244200000817
相邻的N帧参考图像,例如,时间上位于当前图像
Figure BDA00032296244200000818
之前的N帧参考图像
Figure BDA00032296244200000819
相应的第二帧间运动信息分别为
Figure BDA00032296244200000820
对应的图像变换后的参考图像分别为
Figure BDA0003229624420000091
或者,时间上位于当前图像
Figure BDA0003229624420000092
之后的N帧参考图像
Figure BDA0003229624420000093
相应的第二帧间运动信息分别为
Figure BDA0003229624420000094
Figure BDA0003229624420000095
对应的图像变换后的参考图像分别为
Figure BDA0003229624420000096
或者,时间上位于当前图像
Figure BDA0003229624420000097
之前的M帧参考图像
Figure BDA0003229624420000098
以及时间上位于当前图像
Figure BDA0003229624420000099
之后的(N-M)帧参考图像
Figure BDA00032296244200000910
Figure BDA00032296244200000911
相应的第二帧间运动信息分别为
Figure BDA00032296244200000912
Figure BDA00032296244200000913
以及
Figure BDA00032296244200000914
对应的图像变换后的参考图像分别为
Figure BDA00032296244200000915
以及
Figure BDA00032296244200000916
Figure BDA00032296244200000917
M为大于或等于1,且小于或等于N的整数。图6以N为1为例给出了一个示意图。
步骤501、采用第二胶囊网络cap-net2对当前图像
Figure BDA00032296244200000918
和所有图像变换后的参考图像进行特征提取得到当前图像的特征向量
Figure BDA00032296244200000919
以及每一帧图像变换后的参考图像的特征向量。
在一些示例性实施例中,对当前图像进行特征提取所采用的第二胶囊网络与对图像变换后的参考图像进行特征提取所采用的第二胶囊网络属于同一个胶囊网络,或属于不同的胶囊网络;对不同图像变换后的参考图像进行特征提取所采用的第二胶囊网络属于同一个胶囊网络,或属于不同的胶囊网络。
在本申请实施例中,当对当前图像进行特征提取所采用的第二胶囊网络与对图像变换后的参考图像进行特征提取所采用的第二胶囊网络属于同一个胶囊网络,对不同图像变换后的参考图像进行特征提取所采用的第二胶囊网络属于同一个胶囊网络时,采用第二胶囊网络cap-net2对当前图像
Figure BDA00032296244200000920
和所有图像变换后的参考图像进行特征提取得到当前图像的特征向量
Figure BDA00032296244200000921
是指将当前图像
Figure BDA00032296244200000922
和所有图像变换后的参考图像依次输入到第二胶囊网络cap-net2得到对应的特征向量。也就是说,第二胶囊网络cap-net2一次只能处理一帧图像得到对应的特征向量。
在一些示例性实施例中,第二胶囊网络cap-net2包括以下至少之一:卷积层、主胶囊层、数字胶囊层等。
在本申请实施例中,主胶囊层也可以称为底层胶囊层,数字胶囊层也可以称为高层胶囊层。
在本申请实施例中,参考图像
Figure BDA00032296244200000923
对应的图像变换后的参考图像的特征向量分别为
Figure BDA00032296244200000924
参考图像
Figure BDA00032296244200000925
对应的图像变换后的参考图像的特征向量分别为
Figure BDA00032296244200000926
参考图像
Figure BDA00032296244200000927
以及
Figure BDA00032296244200000928
对应的图像变换后的参考图像的特征向量分别为
Figure BDA0003229624420000101
以及
Figure BDA0003229624420000102
Figure BDA0003229624420000103
步骤502、针对每一帧图像变换后的参考图像,采用第二注意力网络att-net2对当前图像的特征向量
Figure BDA0003229624420000104
以及图像变换后的参考图像的特征向量进行相关性处理得到当前图像的特征向量与图像变换后的参考图像的特征向量的第五相关性向量。
在一些示例性实施例中,第二注意力网络att-net2可以采用通道注意力(channelattention)机制、空间注意力(spatial attention)机制等中的至少一个构建得到。
在本申请实施例中,参考图像
Figure BDA0003229624420000105
对应的第五相关性向量分别为
Figure BDA0003229624420000106
参考图像
Figure BDA0003229624420000107
对应的第五相关性向量分别为
Figure BDA0003229624420000108
参考图像
Figure BDA0003229624420000109
以及
Figure BDA00032296244200001010
对应的第五相关性向量分别为
Figure BDA00032296244200001011
以及
Figure BDA00032296244200001012
步骤503、采用第二运动补偿网络MC-net2,根据所有第五相关性向量对当前图像
Figure BDA00032296244200001013
和所有图像变换后的参考图像进行融合处理得到第二融合图像
Figure BDA00032296244200001014
采用超分辨率网络P-net对第二融合图像
Figure BDA00032296244200001015
进行超分辨率处理得到超分辨率的目标图像
Figure BDA00032296244200001016
在一些示例性实施例中,采用第二运动补偿网络MC-net2,直接根据所有第五相关性向量对当前图像
Figure BDA00032296244200001017
和所有图像变换后的参考图像进行融合处理得到第二融合图像
Figure BDA00032296244200001018
如图6所示;或者,采用第三运动补偿网络MC-net3对所述当前图像
Figure BDA00032296244200001019
和所述图像变换后的参考图像进行特征提取和相关性处理得到所述当前图像和所述图像变换后的参考图像之间的第六相关性向量;将所述第五相关性向量和所述第六相关性向量进行点乘计算得到第七相关性向量;采用第二运动补偿网络MC-net2,根据所有所述第七相关性向量对所述当前图像
Figure BDA00032296244200001020
和所有所述图像变换后的参考图像进行融合处理得到第二融合图像
Figure BDA00032296244200001021
如图7所示;或者,将所述第五相关性向量和所述当前图像
Figure BDA00032296244200001022
进行点乘计算得到新的当前图像;将所述第五相关性向量和所述图像变换后的参考图像进行点乘处理得到新的图像变换后的参考图像;采用第三运动补偿网络MC-net3对所述新的当前图像和所述新的图像变换后的参考图像进行特征提取和相关性处理得到所述新的当前图像和所述新的图像变换后的参考图像之间的第八相关性向量;采用第二运动补偿网络MC-net2,根据所有所述第八相关性向量对所述当前图像
Figure BDA00032296244200001023
和所有所述图像变换后的参考图像进行融合处理得到第二融合图像
Figure BDA00032296244200001024
如图8所示。
在一些示例性实施例中,采用第二运动补偿网络MC-net2,根据所有第五相关性向量对当前图像
Figure BDA00032296244200001025
和所有图像变换后的参考图像进行融合处理得到第二融合图像
Figure BDA00032296244200001026
包括:针对每一帧图像变换后的参考图像,根据第五相关性向量确定图像变换后的参考图像的权重;采用第二运动补偿网络MC-net2,根据所有图像变换后的参考图像的权重对当前图像
Figure BDA0003229624420000111
和所有图像变换后的参考图像进行融合处理得到第二融合图像
Figure BDA0003229624420000112
在一些示例性实施例中,图像变换后的参考图像的权重为第五相关性向量的平均值。例如,当前图像和图像变换后的参考图像均为64×64×3的向量,那么第五相关性向量为64×64×C的向量,那么图像变换后的参考图像的权重应该是64×64×1,也就是将第五相关性向量在C对应的维度上进行平均计算。
在本申请实施例中,可以采用多种方式实现根据所有图像变换后的参考图像的权重对当前图像
Figure BDA0003229624420000113
和所有图像变换后的参考图像进行融合处理得到第二融合图像
Figure BDA0003229624420000114
例如,以图像变换后的参考图像的权重为图像变换后的参考图像的系数将当前图像
Figure BDA0003229624420000115
和所有图像变换后的参考图像进行加权平均得到第二融合图像
Figure BDA0003229624420000116
或者,分别从当前图像
Figure BDA0003229624420000117
和所有图像变换后的参考图像中提取对应的特征,以图像变换后的参考图像的权重为图像变换后的参考图像对应的特征的系数,将当前图像
Figure BDA0003229624420000118
对应的特征和所有图像变换后的参考图像对应的特征进行加权平均得到第二融合图像
Figure BDA0003229624420000119
在本申请实施例中,根据所有所述第七相关性向量对所述当前图像
Figure BDA00032296244200001110
和所有所述图像变换后的参考图像进行融合处理得到第二融合图像
Figure BDA00032296244200001111
以及根据所有所述第八相关性向量对所述当前图像
Figure BDA00032296244200001112
和所有所述图像变换后的参考图像进行融合处理得到第二融合图像
Figure BDA00032296244200001113
的具体实现过程与根据所有所述第五相关性向量对所述当前图像
Figure BDA00032296244200001114
和所有所述图像变换后的参考图像进行融合处理得到第二融合图像
Figure BDA00032296244200001115
的具体实现过程相同,这里不再赘述。
本申请实施例提供的视频图像处理方法,采用胶囊网络得到对应图像的特征向量,结合注意力网络提升了运动估计网络中对特征的对齐效果,从而避免了陷入局部特征最优解的情况,考虑了整体特征层次的相关性。
图9为本申请另一个实施例提供的网络训练方法的流程图。
第三方面,参照图9,本申请另一个实施例提供一种网络训练方法,包括:
步骤900、采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像;其中,N为大于或等于1的整数。
步骤901、根据目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算第一胶囊网络的第一重构损失,根据L2损失、第一信息熵损失和第一重构损失计算第一总损失。
在一些示例性实施例中,根据目标图像和对应的真实图像计算L2损失包括:按照公式
Figure BDA00032296244200001116
计算L2损失;其中,LossSR为L2损失,H为目标图像的高度,W为目标图像的宽度,
Figure BDA0003229624420000121
为目标图像的第i行第j列对应的像素值,
Figure BDA0003229624420000122
为真实图像的第i行第j列对应的像素值,|| ||为平方函数。
在一些示例性实施例中,计算第一信息熵损失包括以下任意一个:
根据目标图像和真实图像计算第一信息熵损失;
根据目标图像和当前图像计算第一信息熵损失;
根据参考图像和图像变换后的参考图像计算第一信息熵损失。
在一些示例性实施例中,根据目标图像和真实图像计算第一信息熵损失包括:按照公式
Figure BDA0003229624420000123
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure BDA0003229624420000124
为目标图像的信息熵,
Figure BDA0003229624420000125
为真实图像的信息熵。
在一些示例性实施例中,根据目标图像和当前图像计算第一信息熵损失包括:按照公式
Figure BDA0003229624420000126
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure BDA0003229624420000127
为目标图像的信息熵,
Figure BDA0003229624420000128
为当前图像的信息熵。
在一些示例性实施例中,根据参考图像和图像变换后的参考图像计算第一信息熵损失包括:按照公式
Figure BDA0003229624420000129
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure BDA00032296244200001210
为第k个参考图像的信息熵,
Figure BDA00032296244200001211
为第k个图像变换后的参考图像的信息熵。
其中,按照公式
Figure BDA00032296244200001212
计算图像x的信息熵。
其中,
Figure BDA00032296244200001213
像素值xi分布在0~N范围内,Pxi为像素值为xi的概率,这里只取Pxi不为0的情况,并且式中对数一般取2为底。
在一些示例性实施例中,计算第一胶囊网络的第一重构损失包括以下任意一个:
根据参考图像和参考图像的特征向量计算第一重构损失;
根据当前图像和当前图像的特征向量计算第一重构损失。
在一些示例性实施例中,根据当前图像和当前图像的特征向量计算第一重构损失包括:按照公式
Figure BDA00032296244200001214
计算第一重构损失;其中,Lossrecon为第一重构损失,H为当前图像的高度,W为当前图像的宽度,
Figure BDA00032296244200001215
为当前图像的第i行第j列的像素值,
Figure BDA00032296244200001216
为当前图像的特征向量的第i行第j列的像素值。
在一些示例性实施例中,根据第k个参考图像和第k个参考图像的特征向量计算第一重构损失包括:按照公式
Figure BDA0003229624420000131
计算第一重构损失;其中,Lossrecon为第一重构损失,H为第k个参考图像的高度,W为第k个参考图像的宽度,
Figure BDA0003229624420000132
为第k个参考图像的第i行第j列的像素值,
Figure BDA0003229624420000133
为第k个参考图像的特征向量的第i行第j列的像素值。
在一些示例性实施例中,根据L2损失、第一信息熵损失和第一重构损失计算第一总损失包括:将L2损失、第一信息熵损失和第一重构损失相加得到第一总损失。
步骤902、根据第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到第一总损失小于或等于第一预设阈值。
在一些示例性实施例中,根据第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络、超分辨率网络中需要训练的所有参数。在另一些示例性实施例中,根据第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第二运动估计网络、第一运动补偿网络、超分辨率网络中需要训练的所有参数。
本申请实施例提供的网络训练方法,基于L2损失、信息熵损失和胶囊网络的重构损失计算用于更新训练参数的总损失,由于胶囊网络的重构损失保证了基于胶囊网络的输出重构的图像与输入到胶囊网络的图像的一致性,也就是保证了胶囊网络对特征提取的准确性,信息熵损失既保证了输出的目标图像与当前图像的基本特征的一致性,即空域信息的波动较小,也保证了输出的目标图像与参考图像的基本特征的一致性,即时域信息的波动较小,从而基于训练好的网络进行视频图像超分辨率处理时,得到空域信息和时域信息的波动较小的目标图像,提高了图像处理效果。
图10为本申请另一个实施例提供的网络训练方法的流程图。
第四方面,参照图10,本申请另一个实施例提供一种网络训练方法,包括:
步骤1000、基于训练好的第一胶囊网络,采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像;其中,N为大于或等于1的整数。
步骤1001、计算第一胶囊网络的第一重构损失,计算第二信息熵损失,根据第一重构损失和第二信息熵损失计算第二总损失。
在一些示例性实施例中,计算第二信息熵损失包括:根据参考图像和图像变换后的参考图像计算第二信息熵损失。
在一些示例性实施例中,根据参考图像和图像变换后的参考图像计算第二信息熵损失包括:按照公式计算第二信息熵损失;其中,
在一些示例性实施例中,根据参考图像和图像变换后的参考图像计算第二信息熵损失包括:按照公式
Figure BDA0003229624420000134
计算第二信息熵损失;其中,Lossin为第二信息熵损失,
Figure BDA0003229624420000141
为第k个参考图像的信息熵,
Figure BDA0003229624420000142
为第k个图像变换后的参考图像的信息熵。
其中,按照公式
Figure BDA0003229624420000143
计算图像x的信息熵。
其中,
Figure BDA0003229624420000144
像素值xi分布在0~N范围内,Pxi为像素值为xi的概率,这里只取Pxi不为0的情况,并且式中对数一般取2为底。
在一些示例性实施例中,计算第一胶囊网络的第一重构损失包括以下任意一个:
根据参考图像和参考图像的特征向量计算第一重构损失;
根据当前图像和当前图像的特征向量计算第一重构损失。
在一些示例性实施例中,根据当前图像和当前图像的特征向量计算第一重构损失包括:按照公式
Figure BDA0003229624420000145
计算第一重构损失;其中,Lossrecon为第一重构损失,H为当前图像的高度,W为当前图像的宽度,
Figure BDA0003229624420000146
为当前图像的第i行第j列的像素值,
Figure BDA0003229624420000147
为当前图像的特征向量的第i行第j列的像素值。
在一些示例性实施例中,根据第k个参考图像和第k个参考图像的特征向量计算第一重构损失包括:按照公式
Figure BDA0003229624420000148
计算第一重构损失;其中,Lossrecon为第一重构损失,H为第k个参考图像的高度,W为第k个参考图像的宽度,
Figure BDA0003229624420000149
为第k个参考图像的第i行第j列的像素值,
Figure BDA00032296244200001410
为第k个参考图像的特征向量的第i行第j列的像素值。
在一些示例性实施例中,根据第一重构损失和第二信息熵损失计算第二总损失包括:将第一重构损失和第二信息熵损失相加得到第二总损失。
步骤1002、根据第二总损失更新第一胶囊网络、第一注意力网络和第一运动估计网络中需要训练的所有参数,继续执行采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像的步骤,直到第二总损失小于或等于第二预设阈值。
在一些示例性实施例中,根据第二总损失更新第一胶囊网络、第一注意力网络和第一运动估计网络中需要训练的所有参数。在另一些示例性实施例中,根据第二总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络和第二运动估计网络中需要训练的所有参数。
步骤1003、采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像。
步骤1004、根据目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算第一胶囊网络的第一重构损失,根据L2损失、第一信息熵损失和第一重构损失计算第一总损失。
在一些示例性实施例中,根据目标图像和对应的真实图像计算L2损失包括:按照公式
Figure BDA0003229624420000151
计算L2损失;其中,LossSR为L2损失,H为目标图像的高度,W为目标图像的宽度,
Figure BDA0003229624420000152
为目标图像的第i行第j列对应的像素值,
Figure BDA0003229624420000153
为真实图像的第i行第j列对应的像素值,|| ||为平方函数。
在一些示例性实施例中,计算第一信息熵损失包括以下任意一个:
根据目标图像和真实图像计算第一信息熵损失;
根据目标函数和当前图像计算第一信息熵损失;
根据图像变换后的参考图像和当前图像计算第一信息熵损失;
根据参考图像和图像变换后的参考图像计算第一信息熵损失。
在一些示例性实施例中,根据目标图像和真实图像计算第一信息熵损失包括:按照公式
Figure BDA0003229624420000154
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure BDA0003229624420000155
为目标图像的信息熵,
Figure BDA0003229624420000156
为真实图像的信息熵。
在一些示例性实施例中,根据目标图像和当前图像计算第一信息熵损失包括:按照公式
Figure BDA0003229624420000157
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure BDA0003229624420000158
为目标图像的信息熵,
Figure BDA0003229624420000159
为当前图像的信息熵。
在一些示例性实施例中,根据参考图像和图像变换后的参考图像计算第一信息熵损失包括:按照公式
Figure DA00032296244267693318
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure DA00032296244267792618
为第k个参考图像的信息熵,
Figure BDA00032296244200001510
为第k个图像变换后的参考图像的信息熵。
在一些示例性实施例中,根据L2损失、第一信息熵损失和第一重构损失计算第一总损失包括:将L2损失、第一信息熵损失和第一重构损失相加得到第一总损失。
步骤1005、根据第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到第一总损失小于或等于第一预设阈值。
在一些示例性实施例中,根据第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络、超分辨率网络中需要训练的所有参数。在另一些示例性实施例中,根据第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第二运动估计网络、第一运动补偿网络、超分辨率网络中需要训练的所有参数。
本申请实施例提供的网络训练方法,对视频图像处理方法中的网络进行分阶段训练,进一步提高了训练效果。
图11为本申请另一个实施例提供的网络训练方法的流程图。
第五方面,参照图11,本申请另一个实施例提供一种网络训练方法,包括:
步骤1100、采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像;其中,N为大于或等于1的整数。
步骤1101、根据目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算第二胶囊网络的第二重构损失,根据L2损失、第一信息熵损失和第二重构损失计算第三总损失。
在一些示例性实施例中,根据目标图像和对应的真实图像计算L2损失包括:按照公式
Figure BDA0003229624420000161
计算L2损失;其中,LossSR为L2损失,H为目标图像的高度,W为目标图像的宽度,
Figure BDA0003229624420000162
为目标图像的第i行第j列对应的像素值,
Figure BDA0003229624420000163
为真实图像的第i行第j列对应的像素值,|| ||为平方函数。
在一些示例性实施例中,计算第一信息熵损失包括以下任意一个:
根据目标图像和真实图像计算第一信息熵损失;
根据目标图像和当前图像计算第一信息熵损失;
根据参考图像和图像变换后的参考图像计算第一信息熵损失。
在一些示例性实施例中,根据目标图像和真实图像计算第一信息熵损失包括:按照公式
Figure BDA0003229624420000164
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure BDA0003229624420000165
为目标图像的信息熵,
Figure BDA0003229624420000166
为真实图像的信息熵。
在一些示例性实施例中,根据目标图像和当前图像计算第一信息熵损失包括:按照公式
Figure BDA0003229624420000167
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure BDA0003229624420000168
为目标图像的信息熵,
Figure BDA0003229624420000169
为当前图像的信息熵。
在一些示例性实施例中,根据参考图像和图像变换后的参考图像计算第一信息熵损失包括:按照公式
Figure BDA00032296244200001610
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure BDA00032296244200001611
为第k个参考图像的信息熵,
Figure BDA00032296244200001612
为第k个图像变换后的参考图像的信息熵。
其中,按照公式
Figure BDA00032296244200001613
计算图像x的信息熵。
其中,
Figure BDA00032296244200001614
像素值xi分布在0~N范围内,Pxi为像素值为xi的概率,这里只取Pxi不为0的情况,并且式中对数一般取2为底。
在一些示例性实施例中,计算第二胶囊网络的第二重构损失包括以下任意一个:
根据图像变换后的参考图像和图像变换后的参考图像的特征向量计算第二重构损失;
根据当前图像和当前图像的特征向量计算第二重构损失。
在一些示例性实施例中,根据当前图像和当前图像的特征向量计算第二重构损失包括:按照公式
Figure BDA0003229624420000171
计算第二重构损失;其中,Lossrecon为第二重构损失,H为当前图像的高度,W为当前图像的宽度,
Figure BDA0003229624420000172
为当前图像的第i行第j列的像素值,
Figure BDA0003229624420000173
为当前图像的特征向量的第i行第j列的像素值。
在一些示例性实施例中,根据第k个图像变换后的参考图像和第k个图像变换后的参考图像的特征向量计算第二重构损失包括:按照公式
Figure BDA0003229624420000174
计算第一重构损失;其中,Lossrecon为第一重构损失,H为第k个图像变换后的参考图像的高度,W为第k个图像变换后的参考图像的宽度,
Figure BDA0003229624420000175
为第k个图像变换后的参考图像的第i行第j列的像素值,
Figure BDA0003229624420000176
为第k个图像变换后的参考图像的特征向量的第i行第j列的像素值。
在一些示例性实施例中,根据L2损失、第一信息熵损失和第二重构损失计算第三总损失包括:将L2损失、第一信息熵损失和第二重构损失相加得到第三总损失。
步骤1102、根据第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到第三总损失小于或等于第三预设阈值。
在一些示例性实施例中,根据第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络、超分辨率网络中需要训练的所有参数。在另一些示例性实施例中,根据第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络、第三运动补偿网络、超分辨率网络中需要训练的所有参数。
本申请实施例提供的网络训练方法,基于L2损失、信息熵损失和胶囊网络的重构损失计算用于更新训练参数的总损失,由于胶囊网络的重构损失保证了基于胶囊网络的输出重构的图像与输入到胶囊网络的图像的一致性,也就是保证了胶囊网络对特征提取的准确性,信息熵损失既保证了输出的目标图像与当前图像的基本特征的一致性,即空域信息的波动较小,也保证了输出的目标图像与参考图像的基本特征的一致性,即时域信息的波动较小,从而基于训练好的网络进行视频图像超分辨率处理时,得到空域信息和时域信息的波动较小的目标图像,提高了图像处理效果。
图12为本申请另一个实施例提供的网络训练方法的流程图。
第六方面,参照图12,本申请另一个实施例提供一种网络训练方法,包括:
步骤1200、采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像;其中,N为大于或等于1的整数。
步骤1201、计算第二信息熵损失,根据第二信息熵损失更新第三运动估计网络中需要训练的所有参数,继续执行采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像的步骤,直到第二信息熵损失小于或等于第四预设阈值。
在一些示例性实施例中,计算第二信息熵损失包括:
根据参考图像和图像变换后的参考图像计算第二信息熵损失。
在一些示例性实施例中,根据参考图像和图像变换后的参考图像计算第二信息熵损失包括:按照公式
Figure BDA0003229624420000181
计算第二信息熵损失;其中,Lossin为第二信息熵损失,
Figure BDA0003229624420000182
为第k个参考图像的信息熵,
Figure BDA0003229624420000183
为第k个图像变换后的参考图像的信息熵。
其中,按照公式
Figure BDA0003229624420000184
计算图像x的信息熵。
其中,
Figure BDA0003229624420000185
像素值xi分布在0~N范围内,Pxi为像素值为xi的概率,这里只取Pxi不为0的情况,并且式中对数一般取2为底。
步骤1202、采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到当前图像的特征向量,以及每一帧图像变换后的参考图像的特征向量。
步骤1203、计算第二信息熵损失,计算第二胶囊网络的第二重构损失,根据第二信息熵损失和第二重构损失计算第四总损失。
在一些示例性实施例中,计算第二胶囊网络的第二重构损失包括以下任意一个:
根据图像变换后的参考图像和图像变换后的参考图像的特征向量计算第二重构损失;
根据当前图像和当前图像的特征向量计算第二重构损失。
在一些示例性实施例中,根据当前图像和当前图像的特征向量计算第二重构损失包括:按照公式
Figure BDA0003229624420000186
计算第二重构损失;其中,Lossrecon为第二重构损失,H为当前图像的高度,W为当前图像的宽度,
Figure BDA0003229624420000187
为当前图像的第i行第j列的像素值,
Figure BDA0003229624420000188
为当前图像的特征向量的第i行第j列的像素值。
在一些示例性实施例中,根据第k个图像变换后的参考图像和第k个图像变换后的参考图像的特征向量计算第二重构损失包括:按照公式
Figure BDA0003229624420000189
计算第一重构损失;其中,Lossrecon为第一重构损失,H为第k个图像变换后的参考图像的高度,W为第k个图像变换后的参考图像的宽度,
Figure BDA00032296244200001810
为第k个图像变换后的参考图像的第i行第j列的像素值,
Figure BDA00032296244200001811
为第k个图像变换后的参考图像的特征向量的第i行第j列的像素值。
在一些示例性实施例中,根据第二信息熵损失和第二重构损失计算第四总损失包括:将第二信息熵损失和第二重构损失相加得到第四总损失。
步骤1204、根据第四总损失更新第三运动估计网络、第二胶囊网络中需要训练的参数,继续执行采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到当前图像的特征向量,以及每一帧图像变换后的参考图像的特征向量的步骤,直到第四总损失小于或等于第五预设阈值。
步骤1205、采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像。
步骤1206、根据目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算第二胶囊网络的第二重构损失,根据L2损失、第一信息熵损失和第二重构损失计算第三总损失。
在一些示例性实施例中,根据目标图像和对应的真实图像计算L2损失包括:按照公式
Figure BDA0003229624420000191
计算L2损失;其中,LossSR为L2损失,H为目标图像的高度,W为目标图像的宽度,
Figure BDA0003229624420000192
为目标图像的第i行第j列对应的像素值,
Figure BDA0003229624420000193
为真实图像的第i行第j列对应的像素值,||||为平方函数。
在一些示例性实施例中,计算第一信息熵损失包括以下任意一个:
根据目标图像和真实图像计算第一信息熵损失;
根据目标图像和当前图像计算第一信息熵损失;
根据参考图像和图像变换后的参考图像计算第一信息熵损失。
在一些示例性实施例中,根据目标图像和真实图像计算第一信息熵损失包括:按照公式
Figure BDA0003229624420000194
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure BDA0003229624420000195
为目标图像的信息熵,
Figure BDA0003229624420000196
为真实图像的信息熵。
在一些示例性实施例中,根据目标图像和当前图像计算第一信息熵损失包括:按照公式
Figure BDA0003229624420000197
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure BDA0003229624420000198
为目标图像的信息熵,
Figure BDA0003229624420000199
为当前图像的信息熵。
在一些示例性实施例中,根据参考图像和图像变换后的参考图像计算第一信息熵损失包括:按照公式
Figure BDA00032296244200001910
计算第一信息熵损失;其中,Lossin为第一信息熵损失,
Figure BDA00032296244200001911
为第k个参考图像的信息熵,
Figure BDA00032296244200001912
为第k个图像变换后的参考图像的信息熵。
其中,按照公式
Figure BDA00032296244200001913
计算图像x的信息熵。
其中,
Figure BDA00032296244200001914
像素值xi分布在0~N范围内,Pxi为像素值为xi的概率,这里只取Pxi不为0的情况,并且式中对数一般取2为底。
在一些示例性实施例中,根据L2损失、第一信息熵损失和第二重构损失计算第三总损失包括:将L2损失、第一信息熵损失和第二重构损失相加得到第三总损失。
步骤1207、根据第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行采用上述任意一种视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到第三总损失小于或等于第三预设阈值。
在一些示例性实施例中,根据第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络、超分辨率网络中需要训练的所有参数。在另一些示例性实施例中,根据第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络、第三运动补偿网络、超分辨率网络中需要训练的所有参数。
本申请实施例提供的网络训练方法,对视频图像处理方法中的网络进行分阶段训练,进一步提高了训练效果。
第七方面,本申请实施例提供一种电子设备,包括:至少一个处理器;存储器,存储器上存储有至少一个程序,当至少一个程序被至少一个处理器执行时,实现上述任意一种视频图像处理方法,或上述任意一种网络训练方法。
其中,处理器为具有数据处理能力的器件,其包括但不限于中央处理器(CPU)等;存储器为具有数据存储能力的器件,其包括但不限于随机存取存储器(RAM,更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)。
在一些实施例中,处理器、存储器通过总线相互连接,进而与计算设备的其它组件连接。
第八方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任意一种视频图像处理方法,或上述任意一种网络训练方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储器、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本申请的范围的情况下,可进行各种形式和细节上的改变。

Claims (26)

1.一种视频图像处理方法,包括:
采用第一胶囊网络对当前图像和与所述当前图像相邻的N帧参考图像进行特征提取得到所述当前图像的特征向量,以及每一帧所述参考图像的特征向量;其中,N为大于或等于1的整数;
针对每一帧所述参考图像,采用第一注意力网络对所述当前图像的特征向量,以及所述参考图像的特征向量进行相关性处理得到所述当前图像的特征向量与所述参考图像的特征向量之间的第一相关性向量;采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息;根据所述第一帧间运动信息对所述参考图像进行图像变换得到图像变换后的参考图像;
采用第一运动补偿网络对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第一融合图像;采用超分辨率网络对所述第一融合图像进行超分辨率处理得到超分辨率的目标图像。
2.根据权利要求1所述的视频图像处理方法,其中,对所述当前图像进行特征提取所采用的第一胶囊网络与对所述参考图像进行特征提取所采用的第一胶囊网络属于同一个胶囊网络,或属于不同的胶囊网络;
对不同所述参考图像进行特征提取所采用的第一胶囊网络属于同一个胶囊网络,或属于不同的胶囊网络。
3.根据权利要求1所述的视频图像处理方法,其中,所述采用第一运动补偿网络对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第一融合图像包括:
针对每一帧所述参考图像,根据所述第一相关性向量确定所述参考图像的权重;
采用第一运动补偿网络,根据所有所述参考图像的权重对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第一融合图像。
4.根据权利要求1所述的视频图像处理方法,所述采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息之前,该方法还包括:
采用第二运动估计网络对所述当前图像和所述参考图像进行特征提取和相关性处理得到所述当前图像和所述参考图像之间的第二相关性向量;将所述第一相关性向量和所述第二相关性向量进行点乘计算得到第三相关性向量;
所述采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息包括:采用所述第一运动估计网络对所述第三相关性向量进行运动估计处理得到所述第一帧间运动信息。
5.根据权利要求4所述的视频图像处理方法,所述采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息之前,该方法还包括:
将所述第一相关性向量和所述当前图像进行点乘计算得到新的当前图像;将所述第一相关性向量和所述参考图像进行点乘计算得到新的参考图像;采用第二运动估计网络对所述新的当前图像和所述新的参考图像进行特征提取和相关性处理得到所述新的当前图像和所述新的参考图像之间的第四相关性向量;
所述采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息包括:采用所述第一运动估计网络对所述第四相关性向量进行运动估计处理得到所述第一帧间运动信息。
6.一种视频图像处理方法,包括:
针对与当前图像相邻的每一帧参考图像,采用第三运动估计网络对当前图像和所述参考图像进行运动估计处理得到第二帧间运动信息;根据所述第二帧间运动信息对所述参考图像进行图像变换得到图像变换后的参考图像;
采用第二胶囊网络对所述当前图像和所有所述图像变换后的参考图像进行特征提取得到所述当前图像的特征向量,以及每一帧所述图像变换后的参考图像的特征向量;
针对每一帧所述图像变换后的参考图像,采用第二注意力网络对所述当前图像的特征向量,以及所述图像变换后的参考图像的特征向量进行相关性处理得到所述当前图像的特征向量与所述图像变换后的参考图像的特征向量的第五相关性向量;
采用第二运动补偿网络,根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像;采用超分辨率网络对所述第二融合图像进行超分辨率处理得到超分辨率的目标图像。
7.根据权利要求6所述的视频图像处理方法,其中,对所述当前图像进行特征提取所采用的第二胶囊网络与对所述图像变换后的参考图像进行特征提取所采用的第二胶囊网络属于同一个胶囊网络,或属于不同的胶囊网络;
对不同所述图像变换后的参考图像进行特征提取所采用的第二胶囊网络属于同一个胶囊网络,或属于不同的胶囊网络。
8.根据权利要求6所述的视频图像处理方法,其中,所述采用第二运动补偿网络,根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像包括:
针对每一帧所述图像变换后的参考图像,根据所述第五相关性向量确定所述图像变换后的参考图像的权重;
采用第二运动补偿网络,根据所有所述图像变换后的参考图像的权重对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像。
9.根据权利要求6所述的视频图像处理方法,所述采用第二运动补偿网络,根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像之前,该方法还包括:
采用第三运动补偿网络对所述当前图像和所述图像变换后的参考图像进行特征提取和相关性处理得到所述当前图像和所述图像变换后的参考图像之间的第六相关性向量;将所述第五相关性向量和所述第六相关性向量进行点乘计算得到第七相关性向量;
所述采用第二运动补偿网络,根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像包括:采用第二运动补偿网络,根据所有所述第七相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像。
10.根据权利要求6所述的视频图像处理方法,所述采用第二运动补偿网络,根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像之前,该方法还包括:
将所述第五相关性向量和所述当前图像进行点乘计算得到新的当前图像;将所述第五相关性向量和所述图像变换后的参考图像进行点乘处理得到新的图像变换后的参考图像;采用第三运动补偿网络对所述新的当前图像和所述新的图像变换后的参考图像进行特征提取和相关性处理得到所述新的当前图像和所述新的图像变换后的参考图像之间的第八相关性向量;
所述采用第二运动补偿网络,根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像包括:采用第二运动补偿网络,根据所有所述第八相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像。
11.一种网络训练方法,包括:
采用权利要求1-5任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像;其中,N为大于或等于1的整数;
根据所述目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算第一胶囊网络的第一重构损失,根据所述L2损失、所述第一信息熵损失和所述第一重构损失计算第一总损失;
根据所述第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行所述采用权利要求1-5任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到所述第一总损失小于或等于第一预设阈值。
12.根据权利要求11所述的网络训练方法,其中,所述计算第一信息熵损失包括以下任意一个:
根据所述目标图像和所述真实图像计算所述第一信息熵损失;
根据所述目标图像和所述当前图像计算所述第一信息熵损失;
根据所述参考图像和所述图像变换后的参考图像计算所述第一信息熵损失。
13.根据权利要求11所述的网络训练方法,其中,所述计算第一胶囊网络的第一重构损失包括以下任意一个:
根据所述参考图像和所述参考图像的特征向量计算所述第一重构损失;
根据所述当前图像和所述当前图像的特征向量计算所述第一重构损失。
14.一种网络训练方法,包括:
基于训练好的第一胶囊网络,采用权利要求1-5任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像;其中,N为大于或等于1的整数;
计算第一胶囊网络的第一重构损失,计算第二信息熵损失,根据所述第一重构损失和所述第二信息熵损失计算第二总损失;
根据所述第二总损失更新所述第一胶囊网络、所述第一注意力网络和所述第一运动估计网络中需要训练的所有参数,继续执行所述采用权利要求1-5任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像的步骤,直到所述第二总损失小于或等于第二预设阈值;
采用权利要求1-5任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像;
根据所述目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算所述第一胶囊网络的第一重构损失,根据所述L2损失、所述第一信息熵损失和所述第一重构损失计算第一总损失;
根据所述第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行所述采用权利要求1-5任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到所述第一总损失小于或等于第一预设阈值。
15.根据权利要求14所述的网络训练方法,其中,所述计算第二信息熵损失包括:
根据所述参考图像和所述图像变换后的参考图像计算所述第二信息熵损失。
16.根据权利要求14所述的网络训练方法,其中,所述计算第一信息熵损失包括以下任意一个:
根据所述目标图像和所述真实图像计算所述第一信息熵损失;
根据所述目标图像和所述当前图像计算所述第一信息熵损失;
根据所述参考图像和所述图像变换后的参考图像计算所述第一信息熵损失。
17.根据权利要求14所述的网络训练方法,其中,所述计算第一胶囊网络的第一重构损失包括以下任意一个:
根据所述参考图像和所述参考图像的特征向量计算所述第一重构损失;
根据所述当前图像和所述当前图像的特征向量计算所述第一重构损失。
18.一种网络训练方法,包括:
采用权利要求6-10任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像;其中,N为大于或等于1的整数;
根据所述目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算第二胶囊网络的第二重构损失,根据所述L2损失、所述第一信息熵损失和所述第二重构损失计算第三总损失;
根据所述第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行所述采用权利要求6-10任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到所述第三总损失小于或等于第三预设阈值。
19.根据权利要求18所述的网络训练方法,其中,所述计算第一信息熵损失包括以下任意一个:
根据所述目标图像和所述真实图像计算所述第一信息熵损失;
根据所述目标图像和所述当前图像计算所述第一信息熵损失;
根据所述参考图像和所述图像变换后的参考图像计算所述第一信息熵损失。
20.根据权利要求18所述的网络训练方法,其中,所述计算第二胶囊网络的第二重构损失包括以下任意一个:
根据所述图像变换后的参考图像和所述图像变换后的参考图像的特征向量计算所述第二重构损失;
根据所述当前图像和所述当前图像的特征向量计算所述第二重构损失。
21.一种网络训练方法,包括:
采用权利要求6-10任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像;其中,N为大于或等于1的整数;
计算第二信息熵损失,根据所述第二信息熵损失更新所述第三运动估计网络中需要训练的所有参数,继续执行所述采用权利要求6-10任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到图像变换后的参考图像的步骤,直到所述第二信息熵损失小于或等于第四预设阈值;
采用权利要求6-10任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到所述当前图像的特征向量,以及每一帧所述图像变换后的参考图像的特征向量;
计算第二信息熵损失,计算第二胶囊网络的第二重构损失,根据所述第二信息熵损失和所述第二重构损失计算第四总损失;
根据所述第四总损失更新所述第三运动估计网络、所述第二胶囊网络中需要训练的参数,继续执行所述采用权利要求6-10任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到所述当前图像的特征向量,以及每一帧所述图像变换后的参考图像的特征向量的步骤,直到所述第四总损失小于或等于第五预设阈值;
采用权利要求6-10任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像;
根据所述目标图像和对应的真实图像计算L2损失,计算第一信息熵损失,计算所述第二胶囊网络的第二重构损失,根据所述L2损失、所述第一信息熵损失和所述第二重构损失计算第三总损失;
根据所述第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络、超分辨率网络中需要训练的所有参数,继续执行所述采用权利要求6-10任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤,直到所述第三总损失小于或等于第三预设阈值。
22.根据权利要求21所述的网络训练方法,其中,所述计算第二信息熵损失包括:
根据所述参考图像和所述图像变换后的参考图像计算所述第二信息熵损失。
23.根据权利要求21所述的网络训练方法,其中,所述计算第一信息熵损失包括以下任意一个:
根据所述目标图像和所述真实图像计算所述第一信息熵损失;
根据所述目标图像和所述当前图像计算所述第一信息熵损失;
根据所述参考图像和所述图像变换后的参考图像计算所述第一信息熵损失。
24.根据权利要求21所述的网络训练方法,其中,所述计算第二胶囊网络的第二重构损失包括以下任意一个:
根据所述图像变换后的参考图像和所述图像变换后的参考图像的特征向量计算所述第二重构损失;
根据所述当前图像和所述当前图像的特征向量计算所述第二重构损失。
25.一种电子设备,包括:
至少一个处理器;
存储器,所述存储器上存储有至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,实现权利要求1-10任意一项所述的视频图像处理方法,或权利要求11-24任意一项所述的网络训练方法。
26.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-10任意一项所述的频图像处理方法,或权利要求11-24任意一项所述的网络训练方法。
CN202110985417.8A 2021-08-25 2021-08-25 视频图像处理方法、网络训练方法、电子设备、介质 Pending CN115731098A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110985417.8A CN115731098A (zh) 2021-08-25 2021-08-25 视频图像处理方法、网络训练方法、电子设备、介质
PCT/CN2022/114827 WO2023025245A1 (zh) 2021-08-25 2022-08-25 视频图像处理方法、网络训练方法、电子设备、和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110985417.8A CN115731098A (zh) 2021-08-25 2021-08-25 视频图像处理方法、网络训练方法、电子设备、介质

Publications (1)

Publication Number Publication Date
CN115731098A true CN115731098A (zh) 2023-03-03

Family

ID=85291053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110985417.8A Pending CN115731098A (zh) 2021-08-25 2021-08-25 视频图像处理方法、网络训练方法、电子设备、介质

Country Status (2)

Country Link
CN (1) CN115731098A (zh)
WO (1) WO2023025245A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9665927B2 (en) * 2015-06-03 2017-05-30 Samsung Electronics Co., Ltd. Method and apparatus of multi-frame super resolution robust to local and global motion
CN111696035A (zh) * 2020-05-21 2020-09-22 电子科技大学 一种基于光流运动估计算法的多帧图像超分辨率重建方法
CN112734644A (zh) * 2021-01-19 2021-04-30 安徽工业大学 一种多个注意力结合光流的视频超分辨模型及方法

Also Published As

Publication number Publication date
WO2023025245A1 (zh) 2023-03-02

Similar Documents

Publication Publication Date Title
CN110969577B (zh) 一种基于深度双重注意力网络的视频超分辨率重建方法
Fuoli et al. Efficient video super-resolution through recurrent latent space propagation
Zhang et al. Deep image deblurring: A survey
WO2021208122A1 (zh) 基于深度学习的视频盲去噪方法及装置
Zhang et al. Image super-resolution based on structure-modulated sparse representation
US20200349680A1 (en) Image processing method and device, storage medium and electronic device
CN110324664B (zh) 一种基于神经网络的视频补帧方法及其模型的训练方法
Zhang et al. Non-local kernel regression for image and video restoration
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
Gajjar et al. New learning based super-resolution: use of DWT and IGMRF prior
US8594464B2 (en) Adaptive super resolution for video enhancement
CN107274347A (zh) 一种基于深度残差网络的视频超分辨率重建方法
CN111784578A (zh) 图像处理、模型训练方法及装置、设备、存储介质
WO2020146911A2 (en) Multi-stage multi-reference bootstrapping for video super-resolution
Wen et al. VIDOSAT: High-dimensional sparsifying transform learning for online video denoising
CN113727141B (zh) 视频帧的插值装置以及方法
CN112446835B (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
Guan et al. Srdgan: learning the noise prior for super resolution with dual generative adversarial networks
CN115578255B (zh) 一种基于帧间亚像素块匹配的超分辨率重建方法
Jeong et al. Multi-frame example-based super-resolution using locally directional self-similarity
Aakerberg et al. Semantic segmentation guided real-world super-resolution
Li et al. Space–time super-resolution with patch group cuts prior
Chen et al. High-order relational generative adversarial network for video super-resolution
Liu et al. Arbitrary-scale super-resolution via deep learning: A comprehensive survey
CN116385283A (zh) 一种基于事件相机的图像去模糊方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination