CN115118991A - 基于深度学习的视频运动放大方法和*** - Google Patents

基于深度学习的视频运动放大方法和*** Download PDF

Info

Publication number
CN115118991A
CN115118991A CN202210690213.6A CN202210690213A CN115118991A CN 115118991 A CN115118991 A CN 115118991A CN 202210690213 A CN202210690213 A CN 202210690213A CN 115118991 A CN115118991 A CN 115118991A
Authority
CN
China
Prior art keywords
video
motion
amplification
encoder
video frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210690213.6A
Other languages
English (en)
Inventor
曾谁飞
田鸿翔
王寿福
郑钦
陈玉东
谭霖
刘亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaneng Clean Energy Research Institute
Huaneng Renewables Corp Ltd
Huaneng Dali Wind Power Co Ltd Eryuan Branch
Original Assignee
Huaneng Clean Energy Research Institute
Huaneng Renewables Corp Ltd
Huaneng Dali Wind Power Co Ltd Eryuan Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaneng Clean Energy Research Institute, Huaneng Renewables Corp Ltd, Huaneng Dali Wind Power Co Ltd Eryuan Branch filed Critical Huaneng Clean Energy Research Institute
Priority to CN202210690213.6A priority Critical patent/CN115118991A/zh
Publication of CN115118991A publication Critical patent/CN115118991A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开提出一种基于深度学习的视频运动放大方法和***,该方法包括:构建视频运动放大模型,该模型包括两个编码器、调制器和解码器,编码器包括多个卷积层、多个激活函数层和多个残差块,解码器包括特征连接层、多个残差块、下采样层、多个卷积层和多个激活函数层;利用视频训练集对视频运动放大模型进行训练获得训练好的视频运动放大模型;实时获取视频数据中存在微小运动位移的两幅视频帧;将两幅视频帧输入训练好的视频运动放大模型,输出运动放大视频帧,在视频运动放大模型中,各编码器接收不同视频帧并输出所需的纹理特征和运动特征,调制器基于运动特征的相对差值进行放大运动,解码器将处理后的特征重建得到运动放大视频帧。

Description

基于深度学习的视频运动放大方法和***
技术领域
本公开涉及视频运动放大技术领域,尤其涉及一种基于深度学习的视频运动放大方法和***。
背景技术
为了能够看到视频中一些肉眼看不到的小的运动,通常需要对视频采用视频运动放大技术进行处理。然而当前的视频运动放大技术大都依赖于人工设定参数的滤波器,但是这类滤波器不能灵敏地辨别出视频运动中微小的振动和噪声,因此导致放大的视频运动中出现明显的噪声和过度的模糊,会对被放大视频的视觉质量产生严重的影响。以当前视频运动放大技术中主要的拉格朗日方法和欧拉方法两种方法为例,具体如下:(1)拉格朗日方法:拉格朗日方法的核心在于提取视频运动的光流场,并依据光流场显式地估计运动,然后跟踪相邻视频帧中每一个像素点的位置,最后重构放大运动后再合成视频中的动作,此方法需要大量时间计算光流,且还需要运动分割技术和纹理填充技术做辅助,对于有遮挡的区域还需要人为干预,极大的增加了算法的时间复杂度和空间复杂度,影响最终的放大效果;(2)欧拉方法:欧拉方法的核心在于不区分运动和静止区域,通常将视频帧分解为允许放大运动的表示形式,然后在感兴趣的时域频带上对每个像素的时间序列信号进行滤波和放大,最后重建时间和空间部分来生成放大后的视频帧。此方法不需要对视频帧中运动区域进行跟踪,但是会极大的依赖于滤波器,滤波器范围选取不当时会产生振铃效应和细节丢失,放大倍数过大会带来明显的噪声,严重影响了视频的质量。
发明内容
本公开提供了一种基于深度学习的视频运动放大方法和***,主要目的在于优化传统滤波器的滤波效果,提高放大视频帧的视觉质量。
根据本公开的第一方面实施例,提供了一种基于深度学习的视频运动放大方法,包括:
构建视频运动放大模型,所述视频运动放大模型包括第一编码器、第二编码器、调制器和解码器,所述第一编码器包括主干路单元、纹理提取支路单元和形状提取支路单元,所述主干路单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层和三个残差块,所述纹理提取支路单元包括依次连接的第三卷积层、第三激活函数层和三个残差块,所述形状提取支路单元包括依次连接的第四卷积层、第四激活函数层和三个残差块,所述第三卷积层和所述第四卷积层分别连接所述主干路单元的最后一个残差块,第一编码器和第二编码器结构相同,所述解码器包括依次连接的特征连接层、三个残差块、下采样层、第五卷积层、第五激活函数层、第六卷积层和第六激活函数层;
利用视频训练集对所述视频运动放大模型进行训练获得训练好的视频运动放大模型,所述视频训练集由多幅视频帧组成;
实时获取视频数据中存在微小运动位移的第一视频帧和第二视频帧;
将所述第一视频帧和第二视频帧输入训练好的视频运动放大模型进行视频运动放大处理,输出运动放大视频帧,其中,在所述视频运动放大模型中,所述第一编码器用于接收所述第一视频帧并输出纹理特征和第一运动特征,所述第二编码器用于接收所述第二视频帧并输出第二运动特征,所述调制器用于接收所述第一运动特征和所述第二运动特征、并通过所述第一运动特征和所述第二运动特征的相对差值进行放大运动输出形状放大特征,所述解码器用于接收所述纹理特征和所述形状放大特征进行重建得到运动放大视频帧。
在本公开的一个实施例中,所述视频训练集由多幅视频帧组成,包括:获取两个真实图像数据集,每个真实图像数据集包括多幅视频帧,两个真实图像数据集包括第一真实图像数据集和第二真实图像数据集;选择第一真实图像数据集中的视频帧作为背景,并对第二真实图像数据集中的视频帧进行分割,将分割出来的图像作为前景,随机挑选前景直接粘贴在背景上的随机位置形成模拟放大视频帧集,所述两个真实图像数据集和所述模拟放大视频帧集形成所述视频训练集。
在本公开的一个实施例中,在形成模拟放大视频帧集前,还需要向所述第一真实图像数据集中补充作为模糊背景的模糊视频帧和作为单一运动背景的单一运动视频帧。
在本公开的一个实施例中,向所述视频训练集中补充静态场景图像集,所述静态场景图像集包括多幅静态场景的图像,所述两个真实图像数据集、所述静态场景图像集和所述模拟放大视频帧集形成所述视频训练集。
在本公开的一个实施例中,在利用视频训练集对所述视频运动放大模型进行训练前,需要对视频训练集进行旋转或调整大小的预处理,在预处理之前还需要在连续域中重建图像。
在本公开的一个实施例中,在训练所述视频运动放大模型时,采用L1损失函数。
根据本公开的第二方面实施例,还提供了一种基于深度学习的视频运动放大***,包括:
建模模块,用于构建视频运动放大模型,所述视频运动放大模型包括第一编码器、第二编码器、调制器和解码器,所述第一编码器包括主干路单元、纹理提取支路单元和形状提取支路单元,所述主干路单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层和三个残差块,所述纹理提取支路单元包括依次连接的第三卷积层、第三激活函数层和三个残差块,所述形状提取支路单元包括依次连接的第四卷积层、第四激活函数层和三个残差块,所述第三卷积层和所述第四卷积层分别连接所述主干路单元的最后一个残差块,第一编码器和第二编码器结构相同,所述解码器包括依次连接的特征连接层、三个残差块、下采样层、第五卷积层、第五激活函数层、第六卷积层和第六激活函数层;利用视频训练集对所述视频运动放大模型进行训练获得训练好的视频运动放大模型,所述视频训练集由多幅视频帧组成;
获取模块,用于实时获取视频数据中存在微小运动位移的第一视频帧和第二视频帧;
放大模块,用于将所述第一视频帧和第二视频帧输入训练好的视频运动放大模型进行视频运动放大处理,输出运动放大视频帧,其中,在所述视频运动放大模型中,所述第一编码器用于接收所述第一视频帧并输出纹理特征和第一运动特征,所述第二编码器用于接收所述第二视频帧并输出第二运动特征,所述调制器用于接收所述第一运动特征和所述第二运动特征、并通过所述第一运动特征和所述第二运动特征的相对差值进行放大运动输出形状放大特征,所述解码器用于接收所述纹理特征和所述形状放大特征进行重建得到运动放大视频帧。
根据本公开的第三方面实施例,还提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的第一方面实施例提出的基于深度学习的视频运动放大方法。
根据本公开的第四方面实施例,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开的第一方面实施例提出的基于深度学习的视频运动放大方法。
根据本公开的第五方面实施例,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开的第一方面实施例提出的基于深度学习的视频运动放大方法。
在本公开一个或多个实施例中,构建视频运动放大模型,视频运动放大模型包括两个编码器、调制器和解码器,各编码器结构相同,每个编码器包括主干路单元、纹理提取支路单元和形状提取支路单元,主干路单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层和三个残差块,纹理提取支路单元包括依次连接的第三卷积层、第三激活函数层和三个残差块,形状提取支路单元包括依次连接的第四卷积层、第四激活函数层和三个残差块,第三卷积层和第四卷积层分别连接主干路单元的最后一个残差块,解码器包括依次连接的特征连接层、三个残差块、下采样层、第五卷积层、第五激活函数层、第六卷积层和第六激活函数层;利用视频训练集对视频运动放大模型进行训练获得训练好的视频运动放大模型,视频训练集由多幅视频帧组成;实时获取视频数据中存在微小运动位移的第一视频帧和第二视频帧;将第一视频帧和第二视频帧输入训练好的视频运动放大模型进行视频运动放大处理,输出运动放大视频帧,其中,在视频运动放大模型中,第一编码器用于接收第一视频帧并输出纹理特征和第一运动特征,第二编码器用于接收第二视频帧并输出第二运动特征,调制器用于接收第一运动特征和第二运动特征、并通过第一运动特征和第二运动特征的相对差值进行放大运动输出形状放大特征,解码器用于接收纹理特征和形状放大特征进行重建得到运动放大视频帧。在这种情况下,上述的视频运动放大模型经过训练后能够大幅改善滤波器的视频运动放大能力,利用训练好的视频运动放大模型对实时采集的视频帧进行视频运动放大处理时,能够更好地将视频帧中微小运动变化的幅度进行放大,实现对肉眼难以感知的微小变化的可视化,优化了传统滤波器的滤波效果,提高了放大视频帧的视觉质量。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1示出本公开实施例提供的基于深度学习的视频运动放大方法的流程示意图;
图2示出本公开实施例提供的视频运动放大模型的结构图;
图3示出本公开实施例提供的编码器网络结构图;
图4示出本公开实施例提供的解码器网络结构图;
图5示出本公开实施例提供的调制器网络结构图;
图6示出本公开实施例提供的基于深度学习的视频运动放大***的结构框图;
图7是用来实现本公开实施例的基于深度学习的视频运动放大方法的电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开实施例的一些方面相一致的装置和方法的例子。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。还应当理解,本公开中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
图1示出本公开实施例提供的基于深度学习的视频运动放大方法的流程示意图。图2示出本公开实施例提供的视频运动放大模型的结构图,图3示出本公开实施例提供的编码器网络结构图,图4示出本公开实施例提供的解码器网络结构图,图5示出本公开实施例提供的调制器网络结构图。本公开涉及一种基于深度学习的视频运动放大方法。本公开的基于深度学习的视频运动放大方法适用于视频运动放大的场景下,本公开中的基于深度学习的视频运动放大方法可以简称为视频运动放大方法,具体地,如图1所示,该基于深度学习的视频运动放大方法,包括:
S101,构建视频运动放大模型。
在步骤S101中,如图2所示,视频运动放大模型包括两个编码器、调制器和解码器。两个编码器包括第一编码器和第二编码器。第一编码器和第二编码器结构相同。第一编码器和第二编码器权重共享。各编码器用于接收对应的视频帧并输出所需的纹理特征和运动特征。调制器用于基于两个编码器输出的运动特征的相对差值进行放大运动,解码器用于将第一编码器输出的纹理特征和调制器输出的放大运动后的特征进行重建得到运动放大视频帧。
在步骤S101中,各编码器是由多层卷积神经网络构成的空间分解滤波器。具体地,如图3所示,编码器包括主干路单元、纹理提取支路单元和形状提取支路单元,其中主干路单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层和三个残差块,主干路单元中的三个残差块依次串联。纹理提取支路单元包括依次连接的第三卷积层、第三激活函数层和三个残差块,纹理提取支路单元中的三个残差块依次串联。形状提取支路单元包括依次连接的第四卷积层、第四激活函数层和三个残差块,形状提取支路单元中的三个残差块依次串联。第三卷积层和第四卷积层分别连接主干路单元的最后一个残差块。输入编码器的视频帧依次经过主干路单元和纹理提取支路单元能够提取出纹理特征,视频帧依次经过主干路单元和形状提取支路单元能够提取出形状特征(即运动特征)。第一编码器输出纹理特征和形状特征,第二编码器输出形状特征。在这种情况下,各编码器能够从视频分解得到的视频帧中提取运动主体形状特征,进而获得运动特征并编码实现对运动的表征。
在步骤S101中,如图4所示,解码器包括依次连接的特征连接层、三个残差块、下采样层、第五卷积层、第五激活函数层、第六卷积层和第六激活函数层,其中解码器中的三个残差块依次串联。特征连接层的输入包括纹理特征和形状特征,其中,纹理特征来自第一编码器,形状特征来自调制器。另外,如图4所示,在特征连接层之前还需要设置上采样层,以对接收到的纹理特征进行采样处理。
在步骤S101中,编码器和解码器使用残差块来产生高质量的输出。编码器开始工作时借助卷积以及激活函数对激活后的图像进行2倍下采样,并在解码器结束时进行2倍上采样。其中,使用步长为2的卷积网络完成下采样,并使用最近邻点插值上采样,随后使用一个卷积层避免伪影。
在步骤S101中,调制器用于基于两个编码器输出的运动特征的相对差值进行放大运动,也即调制器获取运动特征并通过乘以两帧之间的相对差值来放大运动。具体地,如图5所示,调制器包括加法器、减法器、乘法器、卷积层和残差块。调制器的输入包括两个编码器输出的运动特征和放大系数。调制器的输出为调制特征(即形状放大特征)。在调制器中,将第一编码器输出的前帧形状特征(即第一编码器输出的运动特征)和第二编码器输出的后帧形状特征(即第二编码器输出的运动特征)输入至减法器中进行作差,然后将差值与放大系数a相乘,并将乘积依次输入至卷积层和残差块进行处理得到中间特征,将中间特征与第一编码器输出的前帧形状特征进行求和,求和结果即为进行放大运动后的调制特征。
在本实施例中,利用上述的编码器、解码器和调制器构建出视频运动放大模型,该视频运动放大模型的输入为存在微小运动位移的第一视频帧和第二视频帧,输出为运动放大视频帧,其中存在微小运动位移即为肉眼看不到的位移。
S102,利用视频训练集对视频运动放大模型进行训练获得训练好的视频运动放大模型,视频训练集由多幅视频帧组成。
在步骤S102中,由于在实际环境中真实的运动放大视频帧难以捕捉,故利用真实图像进行分割后产生的纹理进行数据合成以此模拟真实的数据,并得到合成数据集(即视频训练集)。
在步骤S102中,视频训练集的获取方法包括:获取两个真实图像数据集,每个真实图像数据集包括多幅视频帧,两个真实图像数据集包括第一真实图像数据集和第二真实图像数据集;选择第一真实图像数据集中的视频帧作为背景,并对第二真实图像数据集中的视频帧进行分割,将分割出来的图像作为前景,随机挑选前景直接粘贴在背景上的随机位置形成模拟放大视频帧集,模拟放大视频帧集包括多幅模拟放大视频帧,两个真实图像数据集和模拟放大视频帧集形成视频训练集。由此,能够实现模拟遮挡效果的同时确保网络能够学习到局部运动。其中,获取的第一真实图像数据集中的视频帧作为视频运动放大模型的输入数据中的第一视频帧,获取的第二真实图像数据集中的视频帧作为视频运动放大模型的输入数据中的第二视频帧,模拟放大视频帧集中的模拟放大视频帧作为视频运动放大模型的标签。
在一些实施例中,在形成模拟放大视频帧集前,还需要向第一真实图像数据集中补充作为模糊背景的模糊视频帧和作为单一运动背景的单一运动视频帧。由此,能够增强神经网络(即模型)在模糊背景和视频帧中前景目标所占比例较大情况下的泛化能力。
在一些实施例中,向视频训练集中补充静态场景图像集,静态场景图像集包括多幅静态场景的图像,两个真实图像数据集、静态场景图像集和模拟放大视频帧集形成视频训练集。由此,能够增强神经网络对噪音引起变化的敏感度。其中,第一真实图像数据集中的视频帧和静态场景图像集中的图像均作为视频运动放大模型的输入数据中的第一视频帧。
在一些实施例中,还可以对视频训练集中的每个训练样本的像素值进行调整,使其在一个不受过大放大倍数影响的范围内。
在一些实施例中,在利用视频训练集对视频运动放大模型进行训练前,需要对视频训练集进行旋转或调整大小的预处理,在预处理之前还需要在连续域中重建图像。由此,能够确保在亚像素级采样到正常值。
在一些实施例中,在训练视频运动放大模型时,采用L1损失函数。在这种情况下,使用L1损失函数对网络的输出和标准放大帧(即视频训练集中的模拟放大视频帧)进行约束,使输出不出现模糊的前提下尽可能和标准放大帧保持一致。
在一些实施例中,在训练视频运动放大模型时,使用ADAM优化器来最小化输出和标准放大帧之间的损失,添加了具有强随机性的泊松噪声以提高对噪声的鲁棒性。
在一些实施例中,在训练视频运动放大模型时,设置两种不同的训练模式,两种不同的训练模式包括图像训练模式和视频训练模式,其中图像训练模式即为使用图像进行训练,在图像训练模式下使用数据集中第一幅图像作为参考,而使用视频进行训练的模式下使用之前的帧作为参考。
在本实施例中,步骤S102获取的视频训练集可以捕捉微小幅度的运动,利用步骤S102获取的视频训练集对视频运动放大模型进行训练,完成训练后,得到训练好的视频运动放大模型。该训练好的视频运动放大模型是能够提取和处理运动信号表征的滤波器,该训练好的视频运动放大模型能够利用视频运动帧序列产生的时空信息改变影像中微小变化幅度的技术,可以将视频中微小运动变化的幅度进行放大,实现对肉眼难以感知的微小变化的可视化,在真实视频中有很好的泛化能力,相比于以前手工设计滤波器实现了的更好的性能。
S103,实时获取视频数据中存在微小运动位移的第一视频帧和第二视频帧。
S104,将第一视频帧和第二视频帧输入训练好的视频运动放大模型进行视频运动放大处理,输出运动放大视频帧。
在步骤S104中,在视频运动放大模型中,第一编码器用于接收第一视频帧并输出纹理特征和第一运动特征,第二编码器用于接收第二视频帧并输出第二运动特征,调制器用于接收第一运动特征和第二运动特征、并通过第一运动特征和第二运动特征的相对差值进行放大运动输出形状放大特征,解码器用于接收纹理特征和形状放大特征进行重建得到运动放大视频帧。
在本公开实施例的基于深度学习的视频运动放大方法,构建视频运动放大模型,视频运动放大模型包括两个编码器、调制器和解码器,各编码器结构相同,每个编码器包括主干路单元、纹理提取支路单元和形状提取支路单元,主干路单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层和三个残差块,纹理提取支路单元包括依次连接的第三卷积层、第三激活函数层和三个残差块,形状提取支路单元包括依次连接的第四卷积层、第四激活函数层和三个残差块,第三卷积层和第四卷积层分别连接主干路单元的最后一个残差块,解码器包括依次连接的特征连接层、三个残差块、下采样层、第五卷积层、第五激活函数层、第六卷积层和第六激活函数层;利用视频训练集对视频运动放大模型进行训练获得训练好的视频运动放大模型,视频训练集由多幅视频帧组成;实时获取视频数据中存在微小运动位移的第一视频帧和第二视频帧;将第一视频帧和第二视频帧输入训练好的视频运动放大模型进行视频运动放大处理,输出运动放大视频帧,其中,在视频运动放大模型中,第一编码器用于接收第一视频帧并输出纹理特征和第一运动特征,第二编码器用于接收第二视频帧并输出第二运动特征,调制器用于接收第一运动特征和第二运动特征、并通过第一运动特征和第二运动特征的相对差值进行放大运动输出形状放大特征,解码器用于接收纹理特征和形状放大特征进行重建得到运动放大视频帧。在这种情况下,上述的视频运动放大模型经过训练后能够大幅改善滤波器的视频运动放大能力,基于两幅存在微小运动位移的视频帧,利用训练好的视频运动放大模型对实时采集的两幅视频帧进行视频运动放大处理,训练好的视频运动放大模型将视频帧输入到编码器进行分解从单帧中提取运动主体形状特征,进而获得运动特征,然后调制器获取该运动特征,并通过乘以两帧之间的相对差值来放大运动,最后解码器对放大后的特征进行重建得到运动放大视频帧,由此,能够更好地将视频帧中微小运动变化的幅度进行放大,实现对肉眼难以感知的微小变化的可视化,实现了高质量的放大,优化了传统滤波器的滤波效果,提高了放大视频帧的视觉质量,同时遏制了振铃效应,并具有更好的噪声灵敏性。在本公开的视频运动放大方法是一种直接利用卷积神经网络从视频运动样本数据(即视频训练集)中学习出最优性能滤波器的视频运动放大方法。
下述为本公开***实施例,可以用于执行本公开方法实施例。对于本公开***实施例中未披露的细节,请参照本公开方法实施例。
请参见图6,图6示出本公开实施例提供的基于深度学习的视频运动放大***的结构框图。该基于深度学习的视频运动放大***可以通过软件、硬件或者两者的结合实现成为***的全部或一部分。本公开的基于深度学习的视频运动放大***可以简称为视频运动放大***。该基于深度学习的视频运动放大***10包括建模模块11、获取模块12和放大模块13,其中:
建模模块11,用于构建视频运动放大模型,视频运动放大模型包括第一编码器、第二编码器、调制器和解码器,第一编码器包括主干路单元、纹理提取支路单元和形状提取支路单元,主干路单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层和三个残差块,纹理提取支路单元包括依次连接的第三卷积层、第三激活函数层和三个残差块,形状提取支路单元包括依次连接的第四卷积层、第四激活函数层和三个残差块,第三卷积层和第四卷积层分别连接主干路单元的最后一个残差块,第一编码器和第二编码器结构相同,解码器包括依次连接的特征连接层、三个残差块、下采样层、第五卷积层、第五激活函数层、第六卷积层和第六激活函数层;利用视频训练集对视频运动放大模型进行训练获得训练好的视频运动放大模型,视频训练集由多幅视频帧组成;
获取模块12,用于实时获取视频数据中存在微小运动位移的第一视频帧和第二视频帧;
放大模块13,用于将第一视频帧和第二视频帧输入训练好的视频运动放大模型进行视频运动放大处理,输出运动放大视频帧,其中,在视频运动放大模型中,第一编码器用于接收第一视频帧并输出纹理特征和第一运动特征,第二编码器用于接收第二视频帧并输出第二运动特征,调制器用于接收第一运动特征和第二运动特征、并通过第一运动特征和第二运动特征的相对差值进行放大运动输出形状放大特征,解码器用于接收纹理特征和形状放大特征进行重建得到运动放大视频帧。
要说明的是,上述实施例提供的基于深度学习的视频运动放大***在执行基于深度学习的视频运动放大方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于深度学习的视频运动放大***与基于深度学习的视频运动放大方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
在本公开实施例的基于深度学习的视频运动放大***,建模模块通过构建视频运动放大模型,视频运动放大模型包括两个编码器、调制器和解码器,各编码器结构相同,每个编码器包括主干路单元、纹理提取支路单元和形状提取支路单元,主干路单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层和三个残差块,纹理提取支路单元包括依次连接的第三卷积层、第三激活函数层和三个残差块,形状提取支路单元包括依次连接的第四卷积层、第四激活函数层和三个残差块,第三卷积层和第四卷积层分别连接主干路单元的最后一个残差块,解码器包括依次连接的特征连接层、三个残差块、下采样层、第五卷积层、第五激活函数层、第六卷积层和第六激活函数层;利用视频训练集对视频运动放大模型进行训练获得训练好的视频运动放大模型,视频训练集由多幅视频帧组成;获取模块实时获取视频数据中存在微小运动位移的第一视频帧和第二视频帧;放大模块将第一视频帧和第二视频帧输入训练好的视频运动放大模型进行视频运动放大处理,输出运动放大视频帧,其中,在视频运动放大模型中,第一编码器用于接收第一视频帧并输出纹理特征和第一运动特征,第二编码器用于接收第二视频帧并输出第二运动特征,调制器用于接收第一运动特征和第二运动特征、并通过第一运动特征和第二运动特征的相对差值进行放大运动输出形状放大特征,解码器用于接收纹理特征和形状放大特征进行重建得到运动放大视频帧。在这种情况下,上述的视频运动放大模型经过训练后能够大幅改善滤波器的视频运动放大能力,基于两幅存在微小运动位移的视频帧,利用训练好的视频运动放大模型对实时采集的两幅视频帧进行视频运动放大处理,训练好的视频运动放大模型将视频帧输入到编码器进行分解从单帧中提取运动主体形状特征,进而获得运动特征,然后调制器获取该运动特征,并通过乘以两帧之间的相对差值来放大运动,最后解码器对放大后的特征进行重建得到运动放大视频帧,由此,能够更好地将视频帧中微小运动变化的幅度进行放大,实现对肉眼难以感知的微小变化的可视化,实现了高质量的放大,优化了传统滤波器的滤波效果,提高了放大视频帧的视觉质量,同时遏制了振铃效应,并具有更好的噪声灵敏性。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7是用来实现本公开实施例的基于深度学习的视频运动放大方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴电子设备和其它类似的计算装置。本公开所示的部件、部件的连接和关系、以及部件的功能仅仅作为示例,并且不意在限制本公开中描述的和/或者要求的本公开的实现。
如图7所示,电子设备20包括计算单元21,其可以根据存储在只读存储器(ROM)22中的计算机程序或者从存储单元28加载到随机访问存储器(RAM)23中的计算机程序,来执行各种适当的动作和处理。在RAM 23中,还可存储电子设备20操作所需的各种程序和数据。计算单元21、ROM 22以及RAM23通过总线24彼此相连。输入/输出(I/O)接口25也连接至总线24。
电子设备20中的多个部件连接至I/O接口25,包括:输入单元26,例如键盘、鼠标等;输出单元27,例如各种类型的显示器、扬声器等;存储单元28,例如磁盘、光盘等,存储单元28与计算单元21通信连接;以及通信单元29,例如网卡、调制解调器、无线通信收发机等。通信单元29允许电子设备20通过诸如因特网的计算机网络和/或各种电信网络与其他电子设备交换信息/数据。
计算单元21可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元21的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元21执行上述所描述的各个方法和处理,例如执行基于深度学习的视频运动放大方法。例如,在一些实施例中,基于深度学习的视频运动放大方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元28。在一些实施例中,计算机程序的部分或者全部可以经由ROM 22和/或通信单元29而被载入和/或安装到电子设备20上。当计算机程序加载到RAM 23并由计算单元21执行时,可以执行上述描述的基于深度学习的视频运动放大方法的一个或多个步骤。备选地,在其他实施例中,计算单元21可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行基于深度学习的视频运动放大方法。
本公开中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑电子设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或电子设备使用或与指令执行***、装置或电子设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或电子设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存电子设备、磁储存电子设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本公开在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (10)

1.一种基于深度学习的视频运动放大方法,其特征在于,包括:
构建视频运动放大模型,所述视频运动放大模型包括第一编码器、第二编码器、调制器和解码器,所述第一编码器包括主干路单元、纹理提取支路单元和形状提取支路单元,所述主干路单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层和三个残差块,所述纹理提取支路单元包括依次连接的第三卷积层、第三激活函数层和三个残差块,所述形状提取支路单元包括依次连接的第四卷积层、第四激活函数层和三个残差块,所述第三卷积层和所述第四卷积层分别连接所述主干路单元的最后一个残差块,第一编码器和第二编码器结构相同,所述解码器包括依次连接的特征连接层、三个残差块、下采样层、第五卷积层、第五激活函数层、第六卷积层和第六激活函数层;
利用视频训练集对所述视频运动放大模型进行训练获得训练好的视频运动放大模型,所述视频训练集由多幅视频帧组成;
实时获取视频数据中存在微小运动位移的第一视频帧和第二视频帧;
将所述第一视频帧和第二视频帧输入训练好的视频运动放大模型进行视频运动放大处理,输出运动放大视频帧,其中,在所述视频运动放大模型中,所述第一编码器用于接收所述第一视频帧并输出纹理特征和第一运动特征,所述第二编码器用于接收所述第二视频帧并输出第二运动特征,所述调制器用于接收所述第一运动特征和所述第二运动特征、并通过所述第一运动特征和所述第二运动特征的相对差值进行放大运动输出形状放大特征,所述解码器用于接收所述纹理特征和所述形状放大特征进行重建得到运动放大视频帧。
2.如权利要求1所述的基于深度学习的视频运动放大方法,其特征在于,所述视频训练集由多幅视频帧组成,包括:
获取两个真实图像数据集,每个真实图像数据集包括多幅视频帧,两个真实图像数据集包括第一真实图像数据集和第二真实图像数据集;
选择第一真实图像数据集中的视频帧作为背景,并对第二真实图像数据集中的视频帧进行分割,将分割出来的图像作为前景,随机挑选前景直接粘贴在背景上的随机位置形成模拟放大视频帧集,所述两个真实图像数据集和所述模拟放大视频帧集形成所述视频训练集。
3.如权利要求2所述的基于深度学习的视频运动放大方法,其特征在于,还包括:
在形成模拟放大视频帧集前,还需要向所述第一真实图像数据集中补充作为模糊背景的模糊视频帧和作为单一运动背景的单一运动视频帧。
4.如权利要求2或3所述的基于深度学习的视频运动放大方法,其特征在于,还包括:
向所述视频训练集中补充静态场景图像集,所述静态场景图像集包括多幅静态场景的图像,所述两个真实图像数据集、所述静态场景图像集和所述模拟放大视频帧集形成所述视频训练集。
5.如权利要求4所述的基于深度学习的视频运动放大方法,其特征在于,还包括:
在利用视频训练集对所述视频运动放大模型进行训练前,需要对视频训练集进行旋转或调整大小的预处理,在预处理之前还需要在连续域中重建图像。
6.如权利要求1所述的基于深度学习的视频运动放大方法,其特征在于,还包括:
在训练所述视频运动放大模型时,采用L1损失函数。
7.一种基于深度学习的视频运动放大***,其特征在于,包括:
建模模块,用于构建视频运动放大模型,所述视频运动放大模型包括第一编码器、第二编码器、调制器和解码器,所述第一编码器包括主干路单元、纹理提取支路单元和形状提取支路单元,所述主干路单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层和三个残差块,所述纹理提取支路单元包括依次连接的第三卷积层、第三激活函数层和三个残差块,所述形状提取支路单元包括依次连接的第四卷积层、第四激活函数层和三个残差块,所述第三卷积层和所述第四卷积层分别连接所述主干路单元的最后一个残差块,第一编码器和第二编码器结构相同,所述解码器包括依次连接的特征连接层、三个残差块、下采样层、第五卷积层、第五激活函数层、第六卷积层和第六激活函数层;利用视频训练集对所述视频运动放大模型进行训练获得训练好的视频运动放大模型,所述视频训练集由多幅视频帧组成;
获取模块,用于实时获取视频数据中存在微小运动位移的第一视频帧和第二视频帧;
放大模块,用于将所述第一视频帧和第二视频帧输入训练好的视频运动放大模型进行视频运动放大处理,输出运动放大视频帧,其中,在所述视频运动放大模型中,所述第一编码器用于接收所述第一视频帧并输出纹理特征和第一运动特征,所述第二编码器用于接收所述第二视频帧并输出第二运动特征,所述调制器用于接收所述第一运动特征和所述第二运动特征、并通过所述第一运动特征和所述第二运动特征的相对差值进行放大运动输出形状放大特征,所述解码器用于接收所述纹理特征和所述形状放大特征进行重建得到运动放大视频帧。
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的基于深度学习的视频运动放大方法。
9.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的基于深度学习的视频运动放大方法。
10.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的基于深度学习的视频运动放大方法。
CN202210690213.6A 2022-06-17 2022-06-17 基于深度学习的视频运动放大方法和*** Pending CN115118991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210690213.6A CN115118991A (zh) 2022-06-17 2022-06-17 基于深度学习的视频运动放大方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210690213.6A CN115118991A (zh) 2022-06-17 2022-06-17 基于深度学习的视频运动放大方法和***

Publications (1)

Publication Number Publication Date
CN115118991A true CN115118991A (zh) 2022-09-27

Family

ID=83329237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210690213.6A Pending CN115118991A (zh) 2022-06-17 2022-06-17 基于深度学习的视频运动放大方法和***

Country Status (1)

Country Link
CN (1) CN115118991A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115708A (zh) * 2023-08-24 2023-11-24 中海建筑有限公司 一种基于深度学习微小运动放大技术的雾天环境桥梁索力识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115708A (zh) * 2023-08-24 2023-11-24 中海建筑有限公司 一种基于深度学习微小运动放大技术的雾天环境桥梁索力识别方法

Similar Documents

Publication Publication Date Title
Wang et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data
CN110570356B (zh) 图像处理方法和装置、电子设备及存储介质
CN111340711A (zh) 一种超分辨率重建方法、装置、设备和存储介质
CN112330574A (zh) 人像修复方法、装置、电子设备及计算机存储介质
CN107563974B (zh) 图像去噪方法、装置、电子设备及存储介质
CN110163237A (zh) 模型训练及图像处理方法、装置、介质、电子设备
KR20130126551A (ko) 저해상도 입력 데이터 구조의 초해상도 버전을 생성하기 위한 방법 및 장치
CN111667410B (zh) 图像分辨率提升方法、装置及电子设备
CN114549308B (zh) 面向感知的具有大感受野的图像超分辨率重建方法及***
Singh et al. Survey on single image based super-resolution—implementation challenges and solutions
CN109146813B (zh) 一种多任务图像重建方法、装置、设备和介质
CN109993824B (zh) 图像处理方法、智能终端及具有存储功能的装置
CN112529776B (zh) 图像处理模型的训练方法、图像处理方法及装置
CN111738952B (zh) 一种图像修复的方法、装置及电子设备
CN111784570A (zh) 一种视频图像超分辨率重建方法及设备
Li et al. Underwater image high definition display using the multilayer perceptron and color feature-based SRCNN
CN113724134B (zh) 一种基于残差蒸馏网络的航拍图像盲超分辨率重建方法
CN115861131A (zh) 基于图像生成视频、模型的训练方法、装置及电子设备
CN114494022B (zh) 模型训练方法、超分辨率重建方法、装置、设备及介质
CN111353955A (zh) 一种图像处理方法、装置、设备和存储介质
CN115118991A (zh) 基于深度学习的视频运动放大方法和***
CN110310293B (zh) 人体图像分割方法及设备
CN113658073B (zh) 图像去噪处理方法、装置、存储介质与电子设备
CN110782398B (zh) 图像处理方法、生成式对抗网络***和电子设备
Liu et al. One-dimensional image surface blur algorithm based on wavelet transform and bilateral filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination