CN114125455A - 一种基于深度学习的双向编码视频插帧方法、***及设备 - Google Patents

一种基于深度学习的双向编码视频插帧方法、***及设备 Download PDF

Info

Publication number
CN114125455A
CN114125455A CN202111394443.XA CN202111394443A CN114125455A CN 114125455 A CN114125455 A CN 114125455A CN 202111394443 A CN202111394443 A CN 202111394443A CN 114125455 A CN114125455 A CN 114125455A
Authority
CN
China
Prior art keywords
coding
convolution
adjacent frames
feature
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111394443.XA
Other languages
English (en)
Inventor
章登勇
黄普
李峰
朱文杰
彭建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202111394443.XA priority Critical patent/CN114125455A/zh
Publication of CN114125455A publication Critical patent/CN114125455A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于深度学习的双向编码视频插帧方法、***及设备,该方法获取目标视频中的两个相邻帧,使用第一编码器对两个相邻帧进行前向编码,获得第一编码特征,使用第二编码器对两个相邻帧进行后向编码,获得第二编码特征,将第一编码特征和第二编码特征进行融合,获得融合编码特征;使用解码器对融合编码特征进行解码,获得解码特征;对解码特征进行卷积获得卷积参数;基于卷积参数和两个相邻帧,计算获得目标合成帧。本申请使用了两个编码器对输入帧进行特征提取并融合提取的特征,让提取的特征更加完整和丰富,加强了视频插帧质量。

Description

一种基于深度学习的双向编码视频插帧方法、***及设备
技术领域
本发明涉及视频处理技术领域,具体涉及一种基于深度学习的双向编码视频插帧方法、***及设备。
背景技术
随着CNN在视频插帧方面的快速应用,最新的视频插帧方法普遍利用CNN来进行插帧,基于CNN的复杂和繁重的模型被设计用于视频插帧的趋势越来越大。这种基于CNN的模型设计越来越复杂,导致模型规模大,计算复杂度高。例如,Lee,Hyeongmin,et al.Adacof:Adaptive collaboration of flows for vi deo frame interpolation.Proceedings ofthe IEEE/CVF Conference on Comp uter Vision and Pattern Recognition.2020:5316-5325.中提出了一种网络结构,包括U-Net、子网络和AdaCoF模块,U-Net中只采用了一个编码器和一个解码器,使用一个编码器进行提取的特征不够完整和丰富,因此,视频插帧的质量不高。
发明内容
为解决现有技术中存在的问题,本发明提供一种基于深度学习的双向编码视频插帧方法、***及设备,能够保证视频插帧的质量。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明提供了一种基于深度学习的双向编码视频插帧方法,包括以下步骤:
获取目标视频中的两个相邻帧,使用第一编码器对所述两个相邻帧进行前向编码,获得第一编码特征,使用第二编码器对所述两个相邻帧进行后向编码,获得第二编码特征,将所述第一编码特征和所述第二编码特征进行融合,获得融合编码特征;
使用解码器对所述融合编码特征进行解码,获得解码特征;
对所述解码特征进行卷积获得卷积参数;
基于所述卷积参数和所述两个相邻帧,计算获得目标合成帧。
与现有技术相比,本发明具有以下有益效果:
本申请第一编码器对所述两个相邻帧进行前向编码,获得第一编码特征,使用第二编码器对所述两个相邻帧进行后向编码,获得第二编码特征,将所述第一编码特征和所述第二编码特征进行融合,让提取的特征更加完整和丰富,加强了视频插帧质量。
进一步,所述使用第一编码器对所述两个相邻帧进行前向编码,获得第一编码特征,使用第二编码器对所述两个相邻帧进行后向编码,获得第二编码特征,包括:
使用第一编码器中的低维特征层的标准卷积和高维特征层的深度可分离卷积,对多个所述输入帧的两个相邻帧从前一帧到后一帧的运动信息进行所述前向编码,获得所述第一编码特征;
使用第二编码器中的低维特征层的标准卷积和高维特征层的深度可分离卷积,对多个所述输入帧的两个相邻帧从后一帧到前一帧的运动信息进行所述后向编码,获得所述第二编码特征。
进一步,所述使用解码器对所述融合编码特征进行解码,获得解码特征,包括:
使用所述解码器中的低维特征层的标准卷积和高维特征层的深度可分离卷积,对所述融合编码特征进行解码,获得所述解码特征。
进一步,还包括:
在所述第一编码器和所述解码器之间以及所述第二编码器和所述解码器之间,加入通道注意力级联模块。
进一步,所述对所述解码特征进行卷积获得卷积参数,包括:
使用多组标准卷积对所述解码特征进行卷积操作,获得所述卷积参数。
进一步,所述基于所述卷积参数和所述两个相邻帧,计算获得目标合成帧,包括:
基于所述卷积参数和所述两个相邻帧,通过如下计算公式计算获得目标合成帧,所述计算公式为:
Figure BDA0003369472310000031
It(i,j)=V⊙In(i,j)+(1-V)⊙In+1(i,j) (2)
式(1)中,所述I(i,j)表示输入帧通过AdaCoF计算后获得的像素点的值,所述K表示核的大小,所述i表示像素点x轴的坐标,所述j表示像素点y轴的坐标,所述αk,l表示输入帧的像素点的竖直方向的偏移量,所述βk,l表示输入帧的像素点的水平方向的偏移量,所述Wk,l表示所述核的权重,所述I(i+dk+αk,l,j±dl+βk,l)代表输入帧的像素点的值,所述dk表示输入帧的像素点的竖直方向的膨胀度,所述dl表示输入帧的像素点的水平方向的膨胀度;
式(2)中,所述V表示一组卷积获得的权重,所述V的取值范围为0至1,所述⊙表示逐像素相乘,所述In(i,j)表示两个相邻帧中的前一帧通过式(1)计算后获得的像素点的值,所述In+1(i,j)表示两个相邻帧中的后一帧通过式(1)计算后获得的像素点的值,所述It(i,j)表示目标合成帧的像素点的值。
第二方面,本发明提供了一种基于深度学习的双向编码视频插帧***,包括:
融合编码特征获取单元,用于获取目标视频中的两个相邻帧,使用第一编码器对所述两个相邻帧进行前向编码,获得第一编码特征,使用第二编码器对所述两个相邻帧进行后向编码,获得第二编码特征,将所述第一编码特征和所述第二编码特征进行融合,获得融合编码特征;
解码特征获取单元,用于使用解码器对所述融合编码特征进行解码,获得解码特征;
参数获取单元,用于对所述解码特征进行卷积获得卷积参数;
目标合成帧获取单元,用于基于所述卷积参数和所述两个相邻帧,计算获得目标合成帧。
与现有技术相比,本发明具有以下有益效果:
本申请中的融合编码特征获取单元使用第一编码器对所述两个相邻帧进行前向编码,获得第一编码特征,使用第二编码器对所述两个相邻帧进行后向编码,获得第二编码特征,将所述第一编码特征和所述第二编码特征进行融合,让提取的特征更加完整和丰富,加强了视频插帧质量。
第三方面,一种基于深度学习的双向编码视频插帧设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上所述的一种基于深度学习的双向编码视频插帧方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的一种基于深度学习的双向编码视频插帧方法。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例提供的一种基于深度学习的双向编码视频插帧方法的流程图;
图2为与本发明相关的现有网络结构图;
图3为本发明一个实施例提供的一种基于深度学习的双向编码视频插帧方法的网络结构图;
图4为本发明一个实施例提供的标准卷积的结构图;
图5为本发明一个实施例提供的深度可分离卷积的结构图;
图6为本发明一个实施例提供的通道注意力级联模块的结构图;
图7为本发明一个实施例提供的一种基于深度学习的双向编码视频插帧***的结构图。
具体实施方式
下面将结合附图,对本公开实施例的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。需要说明的是,在不冲突的情况下,本公开实施例及实施例中的特征可以相互组合。另外,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本公开的每个技术特征和整体技术方案,但其不能理解为对本公开保护范围的限制。
在本发明的描述中,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着卷积神经网络(Convolutional Neural Network,CNN)在视频插帧方面的快速应用,最新的视频插帧方法普遍利用CNN来进行插帧,基于CNN的复杂和繁重的模型被设计用于视频插帧的趋势越来越大。这种基于CNN的模型设计越来越复杂,导致模型规模大,计算复杂度高。例如,Lee,Hyeongmin,et al.Adacof:Adaptive collaboration of flowsfor video frame interpolation.Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2020:5316-5325.中提出了一种网络结构,如图2所述,包括U-Net、子网络和AdaCoF模块,U-Net中只采用了一个编码器和一个解码器,使用一个编码器进行提取的特征不够完整和丰富,因此,视频插帧的质量不高。
为解决上述问题,对比图2,本申请在上述网络结构上使用了两个编码器,生成了一个新的网络结构,该网络结构使用两个编码器对输入帧进行特征提取并融合提取的特征,让提取的特征更加完整和丰富,加强了视频插帧质量。
参照图1,本发明实施例提供了一种基于深度学习的双向编码视频插帧方法,包括以下步骤:
步骤S100、获取目标视频中的两个相邻帧,使用第一编码器对两个相邻帧进行前向编码,获得第一编码特征,使用第二编码器对两个相邻帧进行后向编码,获得第二编码特征,将第一编码特征和第二编码特征进行融合,获得融合编码特征。
进一步,由于CNN的模型设计越来越复杂,导致模型规模大,计算复杂度高,而上述的第一编码器和第二编码器都是基于CNN模型进行设计的,因此,第一编码器和第二编码器计算复杂度高。本实施例为了降低计算复杂度并保证视频插帧质量,参照图3,对上述中的第一编码器和第二编码器使用局部轻量化,该局部轻量化指的是将高维特征层(High-dimensional feature layer)的标准卷积替换为深度可分离卷积,如图4和图5所述,图4为标准卷积的结构,图5为深度可分离卷积的结构。
具体的,使用第一编码器中的低维特征层的标准卷积和高维特征层的深度可分离卷积,对多个输入帧的两个相邻帧从前一帧到后一帧的运动信息进行前向编码,获得第一编码特征。
使用第二编码器中的低维特征层的标准卷积和高维特征层的深度可分离卷积,对多个输入帧的两个相邻帧从后一帧到前一帧的运动信息进行后向编码,获得第二编码特征。
再将第一编码特征和第二编码特征进行拼接,获得融合编码特征。
其中,图3中的(SeparableConv+ReLU)×3表示两个编码器中采用了深度可分离卷积的高维特征层中的卷积,(Conv+ReLU)×3表示两个编码器中采用了标准卷积的低维特征层中的卷积,其中,SeparateConv表示深度可分离卷积,Conv表示标准卷积,ReLU表示激活函数。
为了更好的说明,使用以下公式进行说明:
Figure BDA0003369472310000081
其中,Lencoder表示编码过程,Fforward表示向前获取的第一编码特征,Fbackward表示向后获取的第二编码特征,
Figure BDA0003369472310000082
表示前向编码的两个相邻帧,
Figure BDA0003369472310000083
表示后向编码的两个相邻帧,[Fforward,Fbackward]表示第一编码特征和第二编码特征进行拼接后获得的融合编码特征。
本实施例使用两个编码器对输入帧进行特征提取并融合提取的特征,让提取的特征更加完整和丰富,提高了视频插帧质量。还使用了局部轻量化能够减少参数量,降低计算的复杂度,并且能够保证视频插帧质量。
步骤S200、使用解码器对融合编码特征进行解码,获得解码特征。
具体的,由于解码器也是基于CNN模型进行设计的,因此,解码器的计算复杂度也高。参照步骤S100中的方法,本实施例将解码器中的高维特征层的标准卷积替换为深度可分离卷积。使用解码器中的低维特征层的标准卷积和高维特征层的深度可分离卷积,对第一编码特征和第二编码特征进行拼接后获得的融合编码特征进行解码,获得解码特征。其中,图3中的(Upsample+SeparableConv+ReLU)表示解码器中采用了深度可分离卷积的高维特征层中的卷积,(Upsample+Conv+ReLU)表示解码器中采用了标准卷积的低维特征层中的卷积,其中,SeparateConv表示深度可分离卷积,Conv表示标准卷积,ReLU表示激活函数,Upsample表示上采样。
为了更好的说明,使用以下公式进行说明:
O=Ldecoder([Fforward,Fbackward])
其中,Ldecoder表示解码过程,O表示获得的解码特征,[Fforward,Fbackward]表示第一编码特征和第二编码特征进行拼接后获得的融合编码特征。
进一步,在第一编码器和解码器之间以及第二编码器和解码器之间,加入通道注意力级联模块(Channel Attention Cascade,CAC),用于加强第一编码器和解码器之间的特征传递以及第二编码器和解码器之间的特征传递。
具体的,参照图3,在第一编码器和解码器之间以及第二编码器和解码器之间,使用通道注意力级联模块代替原有的跳级连接,所谓跳级连接就是将编码器中的层加进解码器中大小相同的层中,通过跳级连接进行编码器和解码器之间的特征传递,本申请使用通道注意力去改变两个编码器中不同通道上的权重,再进行相加,加强了第一编码器和解码器之间的特征传递以及第二编码器和解码器之间的特征传递。通道注意力级联模块如图6所示,其中,C表示通道数,W表示宽度,H表示长度。
因此,本实施例使用通道注意力级联模块进一步提高了视频插帧质量。
步骤S300、对解码特征进行卷积获得卷积参数;
具体的,使用多组标准卷积对解码特征进行卷积操作,获得卷积参数。参照图3,参数W使用了一组标准卷积分别为(Conv+ReLU)×3、(Upsample+Conv+Re LU)和Softmax进行卷积操作获得,参数α使用了一组标准卷积分别为(Conv+ReL U)×3和(Upsample+Conv+ReLU)进行卷积操作获得,参数β使用了一组标准卷积分别为(Conv+ReLU)×3和(Upsample+Conv+ReLU)进行卷积操作获得,参数V使用了一组标准卷积分别为(Conv+ReLU)×3、(Upsample+Conv+ReLU)和Sigmoid进行卷积操作获得,其中,AvgPool表示平均池化,Softmax表示归一化,Sigmoi d表示激活函数。
步骤S400、基于卷积参数和两个相邻帧,获得目标合成帧。
基于卷积参数和两个相邻帧,通过计算公式进行计算获得目标合成帧,计算公式为:
Figure BDA0003369472310000101
It(i,j)=V⊙In(i,j)+(1-V)⊙In+1(i,j) (2)
式(1)中,I(i,j)表示输入帧通过AdaCoF计算后获得的像素点的值,K表示核的大小,i表示像素点x轴的坐标,j表示像素点y轴的坐标,αk,l表示输入帧的像素点的竖直方向的偏移量,βk,l表示输入帧的像素点的水平方向的偏移量,Wk,l表示所述核的权重,I(i+dk+αk,l,j+dl+βk,l)代表输入帧的像素点的值,dk表示输入帧的像素点的竖直方向的膨胀度,dl表示输入帧的像素点的水平方向的膨胀度;
式(2)中,V表示一组卷积获得的权重,V的取值范围为0至1,⊙表示逐像素相乘,In(i,j)表示两个相邻帧中的前一帧通过式(1)计算后获得的像素点的值,In+1(i,j)表示两个相邻帧中的后一帧通过式(1)计算后获得的像素点的值,It(i,j)表示目标合成帧的像素点的值。
参照图7,本发明实施例还提供了一种基于深度学习的双向编码视频插帧***,包括:
融合编码特征获取单元100,用于获取目标视频中的两个相邻帧,使用第一编码器对两个相邻帧进行前向编码,获得第一编码特征,使用第二编码器对两个相邻帧进行后向编码,获得第二编码特征,将第一编码特征和第二编码特征进行融合,获得融合编码特征;
解码特征获取单元200,用于使用解码器对融合编码特征进行解码,获得解码特征;
参数获取单元300,用于对解码特征进行卷积获得卷积参数;
目标合成帧获取单元400,用于基于卷积参数和两个相邻帧,计算获得目标合成帧。
需要说明的是,由于本实施例中的基于深度学习的双向编码视频插帧***与上述的基于深度学习的双向编码视频插帧方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本***实施例,此处不再详述。
本发明实施例还提供了一种基于深度学习的双向编码视频插帧设备,包括:至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述实施例的基于深度学习的双向编码视频插帧方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的基于深度学习的双向编码视频插帧方法,例如,执行以上描述的图1中的方法步骤S100至步骤S400。
以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,可使得上述一个或多个控制处理器执行上述方法实施例中的基于深度学习的双向编码视频插帧方法,例如,执行以上描述的图1中的方法步骤S100至S400的功能。
通过以上的实施方式的描述,本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnly Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims (9)

1.一种基于深度学习的双向编码视频插帧方法,其特征在于,包括以下步骤:
获取目标视频中的两个相邻帧,使用第一编码器对所述两个相邻帧进行前向编码,获得第一编码特征,使用第二编码器对所述两个相邻帧进行后向编码,获得第二编码特征,将所述第一编码特征和所述第二编码特征进行融合,获得融合编码特征;
使用解码器对所述融合编码特征进行解码,获得解码特征;
对所述解码特征进行卷积获得卷积参数;
基于所述卷积参数和所述两个相邻帧,计算获得目标合成帧。
2.根据权利要求1所述的基于深度学习的双向编码视频插帧方法,其特征在于,所述使用第一编码器对所述两个相邻帧进行前向编码,获得第一编码特征,使用第二编码器对所述两个相邻帧进行后向编码,获得第二编码特征,包括:
使用第一编码器中的低维特征层的标准卷积和高维特征层的深度可分离卷积,对所述两个相邻帧从前一帧到后一帧的运动信息进行所述前向编码,获得所述第一编码特征;
使用第二编码器中的低维特征层的标准卷积和高维特征层的深度可分离卷积,对所述两个相邻帧从后一帧到前一帧的运动信息进行所述后向编码,获得所述第二编码特征。
3.根据权利要求2所述的基于深度学习的双向编码视频插帧方法,其特征在于,所述使用解码器对所述融合编码特征进行解码,获得解码特征,包括:
使用所述解码器中的低维特征层的标准卷积和高维特征层的深度可分离卷积,对所述融合编码特征进行解码,获得所述解码特征。
4.根据权利要求1所述的基于深度学习的双向编码视频插帧方法,其特征在于,还包括:
在所述第一编码器和所述解码器之间以及所述第二编码器和所述解码器之间,加入通道注意力级联模块。
5.根据权利要求1所述的基于深度学习的双向编码视频插帧方法,其特征在于,所述对所述解码特征进行卷积获得卷积参数,包括:
使用多组标准卷积对所述解码特征进行卷积操作,获得所述卷积参数。
6.根据权利要求1所述的基于深度学习的双向编码视频插帧方法,其特征在于,所述基于所述卷积参数和所述两个相邻帧,计算获得目标合成帧,包括:
基于所述卷积参数和所述两个相邻帧,通过如下计算公式计算获得目标合成帧,所述计算公式为:
Figure FDA0003369472300000021
It(i,j)=V⊙In(i,j)+(1-V)⊙In+1(i,j) (2)
式(1)中,所述I(i,j)表示输入帧通过AdaCoF计算后获得的像素点的值,所述K表示核的大小,所述i表示像素点x轴的坐标,所述j表示像素点y轴的坐标,所述αk,l表示输入帧的像素点的竖直方向的偏移量,所述βk,l表示输入帧的像素点的水平方向的偏移量,所述Wk,l表示所述核的权重,所述I(i+dk+αk,l,j±dl+βk,l)代表输入帧的像素点的值,所述dk表示输入帧的像素点的竖直方向的膨胀度,所述dl表示输入帧的像素点的水平方向的膨胀度;
式(2)中,所述V表示一组卷积获得的权重,所述V的取值范围为0至1,所述⊙表示逐像素相乘,所述In(i,j)表示两个相邻帧中的前一帧通过式(1)计算后获得的像素点的值,所述In+1(i,j)表示两个相邻帧中的后一帧通过式(1)计算后获得的像素点的值,所述It(i,j)表示目标合成帧的像素点的值。
7.一种基于深度学习的双向编码视频插帧***,其特征在于,包括:
融合编码特征获取单元,用于获取目标视频中的两个相邻帧,使用第一编码器对所述两个相邻帧进行前向编码,获得第一编码特征,使用第二编码器对所述两个相邻帧进行后向编码,获得第二编码特征,将所述第一编码特征和所述第二编码特征进行融合,获得融合编码特征;
解码特征获取单元,用于使用解码器对所述融合编码特征进行解码,获得解码特征;
参数获取单元,用于对所述解码特征进行卷积获得卷积参数;
目标合成帧获取单元,用于基于所述卷积参数和所述两个相邻帧,计算获得目标合成帧。
8.一种基于深度学习的双向编码视频插帧设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至6任一项所述的基于深度学习的双向编码视频插帧方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的基于深度学习的双向编码视频插帧方法。
CN202111394443.XA 2021-11-23 2021-11-23 一种基于深度学习的双向编码视频插帧方法、***及设备 Pending CN114125455A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111394443.XA CN114125455A (zh) 2021-11-23 2021-11-23 一种基于深度学习的双向编码视频插帧方法、***及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111394443.XA CN114125455A (zh) 2021-11-23 2021-11-23 一种基于深度学习的双向编码视频插帧方法、***及设备

Publications (1)

Publication Number Publication Date
CN114125455A true CN114125455A (zh) 2022-03-01

Family

ID=80440104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111394443.XA Pending CN114125455A (zh) 2021-11-23 2021-11-23 一种基于深度学习的双向编码视频插帧方法、***及设备

Country Status (1)

Country Link
CN (1) CN114125455A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114598833A (zh) * 2022-03-25 2022-06-07 西安电子科技大学 基于时空联合注意力的视频插帧方法
CN117896526A (zh) * 2024-01-15 2024-04-16 济南大学 基于双向编码结构的视频帧插值方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114598833A (zh) * 2022-03-25 2022-06-07 西安电子科技大学 基于时空联合注意力的视频插帧方法
CN114598833B (zh) * 2022-03-25 2023-02-10 西安电子科技大学 基于时空联合注意力的视频插帧方法
CN117896526A (zh) * 2024-01-15 2024-04-16 济南大学 基于双向编码结构的视频帧插值方法及***

Similar Documents

Publication Publication Date Title
CN109905624B (zh) 一种视频帧插值方法、装置及设备
CN114125455A (zh) 一种基于深度学习的双向编码视频插帧方法、***及设备
CN110324664B (zh) 一种基于神经网络的视频补帧方法及其模型的训练方法
CN110782490A (zh) 一种具有时空一致性的视频深度图估计方法及装置
CN110830802A (zh) 基于机器学习的视频压缩
CN111028142A (zh) 图像处理方法、装置和存储介质
CN113034413B (zh) 一种基于多尺度融合残差编解码器的低照度图像增强方法
CN115883764B (zh) 一种基于数据协同的水下高速视频插帧方法及其***
CN114842400A (zh) 基于残差块和特征金字塔的视频帧生成方法及***
CN116863320B (zh) 基于物理模型的水下图像增强方法及***
CN115002379B (zh) 视频插帧方法、训练方法、装置、电子设备和存储介质
CN114049259A (zh) 一种用于图像处理的方法、芯片、装置及电子设备
CN112884636A (zh) 一种自动生成风格化视频的风格迁移方法
CN114663460B (zh) 基于双流驱动编码器和特征记忆模块的视频分割方法及装置
CN112184587A (zh) 一种边缘数据增强模型、以及基于所述模型的高效边缘数据增强方法及***
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
WO2024152809A1 (zh) 图像去雨网络、图像去雨网络的训练方法及设备
CN112819687B (zh) 基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质
CN117336527A (zh) 视频编辑的方法和装置
CN115499666B (zh) 视频的压缩方法、解压缩方法、装置、设备和存储介质
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及***
CN115880149A (zh) 基于轻量化驱动和三尺度编码的视频帧插值方法及***
CN116824004A (zh) 图标生成方法及装置、存储介质、电子设备
CN112164078B (zh) 基于编码器-解码器的rgb-d多尺度语义分割方法
CN114758282A (zh) 基于时序校正卷积的视频预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination