CN115243044A - 参考帧选择方法及装置、设备、存储介质 - Google Patents

参考帧选择方法及装置、设备、存储介质 Download PDF

Info

Publication number
CN115243044A
CN115243044A CN202210892757.0A CN202210892757A CN115243044A CN 115243044 A CN115243044 A CN 115243044A CN 202210892757 A CN202210892757 A CN 202210892757A CN 115243044 A CN115243044 A CN 115243044A
Authority
CN
China
Prior art keywords
frame
video
model
processed
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210892757.0A
Other languages
English (en)
Inventor
陈志波
符军
刘森
杨智尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
University of Science and Technology of China USTC
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical University of Science and Technology of China USTC
Priority to CN202210892757.0A priority Critical patent/CN115243044A/zh
Publication of CN115243044A publication Critical patent/CN115243044A/zh
Priority to PCT/CN2023/105721 priority patent/WO2024022047A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)

Abstract

本申请提供了参考帧选择方法及装置、设备、存储介质;其中,所述方法包括:获取待处理视频帧的E个第一相邻帧;根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;其中,所述第一参考帧用于增强所述待处理视频帧的图像质量。

Description

参考帧选择方法及装置、设备、存储介质
技术领域
本申请涉及视频图像技术,涉及但不限于参考帧选择方法及装置、设备、存储介质。
背景技术
如今,视频已成为最受欢迎的内容消费方式。根据相关报告,至2022年视频观看占所有互联网流量的82%。为了减少传输带宽和存储成本,视频服务提供商通常会对视频进行压缩。然而,一些视频压缩算法由于采用基于块变换的编码方式容易产生视觉上令人不快的压缩伪影。因此,开发视频增强算法是非常有必要的。
在相关技术中,首先从当前帧的相邻帧中选出参考帧,然后根据参考帧对当前帧进行增强,以得到图像质量优于当前帧的重建帧;然而基于相关技术得到的重建帧的图像质量不能满足质量要求。
发明内容
有鉴于此,本申请提供的参考帧选择方法及装置、设备、存储介质,旨在选择出更优的参考帧,从而帮助更好地增强待处理视频帧的图像质量,提升重建帧的图像质量。
根据本申请实施例的一个方面,提供一种参考帧选择方法,包括:获取待处理视频帧的E个第一相邻帧;其中,E大于1;根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;其中,所述第一参考帧用于增强所述待处理视频帧的图像质量。
如此,由于在进行参考帧的选择时考虑了待处理视频帧以及它的E个第一相邻帧的图像内容,而非是简单地基于相邻帧与待处理视频帧之间的位置关系选择参考帧(例如将待处理视频帧的前一帧以及后一帧作为它的参考帧),因此选取的参考帧与待处理视频帧的图像内容更加相适应,从而能够更好地增强待处理视频帧的图像质量,提升待处理视频帧的图像增强质量。
根据本申请实施例的一个方面,提供一种视频增强方法,包括:获取待处理视频帧的E个第一相邻帧;其中,E大于1;根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;根据所述第一参考帧,对所述待处理视频帧的图像质量进行增强。
根据本申请实施例的一个方面,提供一种参考帧选择装置,包括:获取模块,配置为获取待处理视频帧的E个第一相邻帧;其中,E大于1;选择模块,配置为根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;其中,所述第一参考帧用于增强所述待处理视频帧的图像质量。
根据本申请实施例的一个方面,提供一种视频增强装置,包括:获取模块,配置为获取待处理视频帧的E个第一相邻帧;其中,E大于1;选择模块,配置为根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;增强模块,配置为根据所述第一参考帧,对所述待处理视频帧的图像质量进行增强。
根据本申请实施例的一个方面,提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请实施例所述的方法。
根据本申请实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的所述的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1为本申请实施例提供的参考帧选择方法的实现流程示意图;
图2为本申请实施例提供的另一参考帧选择方法的实现流程示意图;
图3为本申请实施例提供的第一相邻帧与待处理视频帧的关系示意图;
图4为本申请实施例提供的训练好的图像增强模型的确定过程示意图;
图5为本申请实施例提供的训练好的参考帧选择模型的确定过程示意图;
图6为本申请实施例提供的训练好的目标图像增强模型的确定过程示意图;
图7为本申请实施例提供的视频去压缩失真流程示意图;
图8为本申请实施例提供的自适应参考帧选择模块的工作流程示意图;
图9为本申请实施例提供的训练流程示意图;
图10为本申请实施例提供的本申请实施例和启发式参考帧选择方法的去压缩失***观性能对比示意图;
图11为本申请实施例提供的参考帧选择装置的结构示意图;
图12为本申请实施例的电子设备的硬件实体示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在以下的描述中,涉及到“一些实施例”、“本实施例”、“本申请实施例”以及举例等等,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
需要指出,本申请实施例所涉及的术语“第一\第二\第三\第四\第五”等是为了区别类似或不同的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三第四\第五”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
本申请实施例提供一种参考帧选择方法,该方法应用于电子设备,该电子设备在实施的过程中可以为各种类型的具有信息处理能力的设备,例如所述电子设备可以包括手机、平板电脑、台式机、电视机、投影设备等。该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该电子设备至少包括处理器和存储介质。
图1为本申请实施例提供的参考帧选择方法的实现流程示意图,如图1所示,该方法可以包括以下步骤101至步骤102:
步骤101,获取待处理视频帧的E个第一相邻帧;其中,E大于1;
步骤102,根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;其中,所述第一参考帧用于增强所述待处理视频帧的图像质量。
在本申请实施例中,由于在进行参考帧的选择时考虑了待处理视频帧以及它的E个第一相邻帧的图像内容,而非是简单地基于相邻帧与待处理视频帧之间的位置关系选择参考帧(例如将待处理视频帧的前一帧以及后一帧作为它的参考帧),因此选取的参考帧与待处理视频帧的图像内容更加相适应,从而能够更好地增强待处理视频帧的图像质量,提升待处理视频帧的图像增强质量。
在本申请实施例中,实施步骤101和步骤102的处理器与用以增强待处理视频帧的图像质量的处理器可以是同一处理器,也可以是不同处理器,对此不做限定。
本申请实施例再提供一种参考帧选择方法,图2为本申请实施例提供的另一参考帧选择方法的实现流程示意图,如图2所示,该方法包括如下步骤201至步骤203:
步骤201,获取待处理视频帧的E个第一相邻帧;
步骤202,通过预先训练得到的参考帧选择模型,对所述待处理视频帧和所述E个第一相邻帧的图像内容进行处理,得到所述待处理视频帧的第一参考帧;其中,所述参考帧选择模型为AI模型;
步骤203,将所述待处理视频帧和对应的第一参考帧输入至预先训练得到的目标图像增强模型中,得到所述待处理视频帧的第五重建帧。
以下分别对上述各个步骤的进一步的可选的实施方式以及相关名词等进行说明。
在步骤201中,获取待处理视频帧的E个第一相邻帧。
无论是这里的第一相邻帧,还是下文提到的第二相邻帧和第三相邻帧等,所谓相邻帧,是广义上的概念,是指距离待处理视频帧或样本帧一定范围内的视频帧,包括待处理视频帧或样本帧之前的至少一个时刻的视频帧和/或待处理视频帧或样本帧之后的至少一个时刻的视频帧。
举例而言,以待处理视频帧为例,如图3所示,假设Xt为待处理视频帧,视频帧Xt-1至视频帧Xt-N(即视频帧Xt的前N帧)均为视频帧Xt的第一相邻帧,视频帧Xt+1至视频帧Xt+N(即视频帧Xt的后N帧)均为视频帧Xt的第一相邻帧;其中,N大于0。
在步骤202中,通过预先训练得到的参考帧选择模型,对所述待处理视频帧和所述E个第一相邻帧的图像内容进行处理,得到所述待处理视频帧的第一参考帧;其中,所述参考帧选择模型为AI模型。
在本申请实施例中,对于参考帧选择模型的结构不限定,可以是各种各样的AI模型。例如,可以是线性回归、逻辑回归、线性判别分析、决策树、贝叶斯、K-最近邻居、学习矢量量化、支持向量机、套袋和随机森林或深度神经网络等。
进一步地,在一些实施例中,参考帧选择模型为卷积神经网络,至少包括:卷积层、池化层、全连接层和输出层;其中,卷积层用于对待处理视频帧和它的E个第一相邻帧的图像内容进行卷积操作,得到特征图;池化层用于对特征图进行池化操作,得到池化后的特征图;全连接层用于根据池化后的特征图,确定第一相邻帧被选为第一参考帧的概率;输出层用于根据所述E个第一相邻帧被选为第一参考帧的概率,选出第一参考帧。
在一些实施例中,可以将待处理视频帧和所述E个第一相邻帧逐一输入至卷积层中,卷积层逐一对输入的图像内容进行卷积操作;在另一些实施例中,也可以将这些视频帧合并之后再输入至卷积层,也就是将待处理视频帧和所述E个第一相邻帧沿通道维度进行合并操作之后,得到合并视频帧,然后将合并视频帧输入至卷积层,利用卷积操作提取合并视频帧的特征。
所谓合并操作,是指将这些视频帧进行简单的拼接或组合,从而得到一个更大尺寸的图像。举例而言,假设待合并的图像包括图像A和图像B;其中,图像A表示为
Figure BDA0003768244730000051
图像B表示为
Figure BDA0003768244730000052
则对这两帧图像进行合并操作之后,得到的合并视频帧为
Figure BDA0003768244730000053
在一些实施例中,全连接层还用于根据池化后的特征图,确定F个不同的帧数目分别作为第一参考帧的数目的概率;其中,F大于1;相应地,输出层用于根据所述F个不同的帧数目分别作为第一参考帧的数目的概率,确定目标数目;以及根据所述E个第一相邻帧被选为第一参考帧的概率,选出目标数目的第一参考帧。
进一步地,在一些实施例中,可以将概率最大或者概率大于数目阈值的第一参考帧的数目作为目标数目。
在步骤203中,将所述待处理视频帧和对应的第一参考帧输入至预先训练得到的目标图像增强模型中,得到所述待处理视频帧的第五重建帧。
对于目标图像增强模型的确定过程分为三个阶段,即先后依次经历第一阶段、第二阶段和第三阶段;其中,通过第一阶段和第二阶段可以得到训练好的参考帧选择模型,然后在第三阶段基于第二阶段得到的参考帧选择模型重新对图像增强模型进行训练。
其中,第一阶段是对图像增强模型的初始模型进行预训练,从而得到一个具有鲁棒性和可靠性的图像增强模型,即对于各种各样的参考帧,均能获得较好的增强效果;第二阶段是固定预先训练好的图像增强模型,对参考帧选择模型的初始模型进行训练,从而能够快速收敛,获得训练好的参考帧选择模型;第三阶段是基于第二阶段得到的参考帧选择模型重新对图像增强模型进行训练,从而得到性能更好的目标图像增强模型。
上述这三个阶段的详细描述如下:
第一阶段:获得训练好的图像增强模型,包括:
如图4所示,根据第三样本帧的多个第四相邻帧和第三样本帧,对图像增强模型401的第二初始模型的模型参数进行第二调整处理,得到调整后的第二初始模型;其中,第二调整处理包括:从所述多个第四相邻帧中采样得到至少一个第三参考帧;将第三样本帧和所述至少一个第三参考帧输入至第二初始模型中,得到第三样本帧的第三重建帧;至少根据第三重建帧和第三样本帧的标准帧,确定第三重建帧的第二损失;根据第二损失,调整第二初始模型的模型参数;
根据第四样本帧的多个第五相邻帧和第四样本帧,对调整后的第二初始模型的模型参数进行第二调整处理,直至对应得到的第二损失或者迭代次数满足截止条件为止,得到图像增强模型401。也就是说,通过大量的样本帧和相应的相邻帧不断地对第二初始模型的模型参数进行训练,最终在训练结果满足截止条件时,得到图像增强模型,也就是训练好的第二初始模型。
可以理解地,在返回再次对第二初始模型的模型参数进行第二调整处理时,其依据的数据是新的样本数据,例如,所述在“根据第四样本帧的多个第五相邻帧和第四样本帧,对调整后的第二初始模型的模型参数进行第二调整处理”这一步骤中,其依据的数据是第四样本帧和所述多个第五相邻帧,而非是第三样本帧和所述多个第四相邻帧。
本文中提到的第三样本帧的标准帧,是指图像质量满足指标要求的图像帧,比如,该标准帧为无损帧。下文提到的其他样本帧的标准帧,可参考这里对第三样本帧的标准帧的说明而理解。
在本申请实施例中,对于采样方式不做限定,可以从所述多个第四相邻帧中随机采样得到第三参考帧,也可以按照预定的其他采样策略。总之,多次迭代采样的参考帧相对于样本帧的位置不同;如此,使得训练得到的图像增强模型对于输入的任何参考帧,均能输出一个图像质量较好的重建帧。
在本申请实施例中,第二损失满足截止条件包括第二损失小于第一阈值。迭代次数满足截止条件包括迭代次数达到第二阈值。
对于“至少根据所述第三重建帧和所述第三样本帧的标准帧,确定所述第三重建帧的第二损失”的步骤,在一些实施例中,可以基于第三重建帧与第三样本帧的标准帧的差值,确定第二损失。例如,可以通过如下公式(1)计算第二损失L2
Figure BDA0003768244730000071
式(1)中,
Figure BDA0003768244730000072
为第三重建帧,Yt为第三样本帧的标准帧,ε设置为1e-6。
可以理解地,在训练好第二初始模型,即得到图像增强模型之后,即可将该图像增强模型作为一个评估器来评估参考帧选择模型的第一初始模型选择的参考帧的好坏,从而实现对第一初始模型的训练。具体地,参考如下对第二阶段的详细描述。
第二阶段:获得训练好的参考帧选择模型,包括:
如图5所示,根据第一样本帧的多个第二相邻帧和所述第一样本帧,对所述参考帧选择模型501的第一初始模型的模型参数进行第一调整处理,得到调整后的第一初始模型;
其中,所述第一调整处理包括:将所述多个第二相邻帧和所述第一样本帧输入至所述第一初始模型中,得到所述第一样本帧的第二参考帧;获取所述第一样本帧的第一重建帧,所述第一重建帧是预先训练得到的图像增强模型401基于所述第一样本帧和对应的第二参考帧得到的;至少根据所述第一重建帧与所述第一样本帧的标准帧,确定所述第一重建帧的第一损失;根据所述第一损失,调整所述第一初始模型的模型参数;
根据第二样本帧的多个第三相邻帧和所述第二样本帧,对所述调整后的第一初始模型的模型参数进行所述第一调整处理,直至对应得到的第一损失或者迭代次数满足截止条件为止,得到参考帧选择模型501。
如此,一方面,由于在第二阶段考虑了参考帧的选择对图像增强模型的增强效果的影响;因此能够使得训练得到的参考帧选择模型获得更优的参考帧,从而利于更好地增强待处理视频帧的图像质量。另一方面,使用预先训练好的图像增强模型对参考帧选择模型进行训练,使得训练过程快速收敛,从而节约计算功耗。
可以理解地,参考帧选择模型与第一初始模型的结构是相同的,不同的是二者的模型参数的值不同。在一些实施例中,参考帧选择模型为卷积神经网络,所述将所述多个第二相邻帧和所述第一样本帧输入至所述第一初始模型中,得到所述第一样本帧的第二参考帧,包括:通过卷积层对输入的第一样本帧和它的第二相邻帧的图像内容进行卷积操作,得到特征图;然后通过池化层对卷积层输出的特征图进行池化操作之后,输出给全连接层,全连接层基于池化后的特征图,确定各个第二相邻帧被选为第二参考帧的概率;输出层根据所述多个第二相邻被选为第二参考帧的概率,选出第二参考帧。
需要说明的是,第一重建帧是第一阶段得到的图像增强模型401基于输入的第一样本帧和对应的第二参考帧而得到的。
对于第一调整处理中的“至少根据所述第一重建帧与所述第一样本帧的标准帧,确定所述第一重建帧的第一损失”,可以通过如下的实施例1或实施例2实现,当然,也可以通过其他方法确定第一损失。
在实施例1中,与第二损失的确定方法相同,即通过如下公式(2)确定第一损失L1
Figure BDA0003768244730000081
式(2)中,
Figure BDA0003768244730000082
为第一重建帧,Yt为第一样本帧的标准帧,ε设置为1e-6。
在实施例2中,也可以这样确定第一损失:根据所述第一重建帧和所述第一样本帧的标准帧,确定所述第一重建帧的第一奖励;以所述第一样本帧为起点,将所述第一样本帧之前的连续M1帧以及所述第一样本帧之后的连续M2帧作为第五参考帧,将所述第五参考帧和所述第一样本帧输入至所述图像增强模型中,得到所述第一样本帧的第二重建帧;其中,M1和M2大于0且小于或等于所述多个第二相邻帧的数目的一半;根据所述第二重建帧和所述第一样本帧的标准帧,确定所述第二重建帧的第二奖励;根据所述第一奖励、所述第二奖励和所述第二参考帧被选为参考帧的概率,确定所述第一损失;如此,在本申请实施例中,第一损失的计算不仅依据第一重建帧(即图像增强模型基于本申请实施例的参考帧选择模型的第一初始模型输出的参考帧而计算得到的重建帧)的损失,还依据第二重建帧(即图像增强模型基于基准方法选择的参考帧而计算得到的重建帧)的损失,因此,使得最终训练得到的参考帧选择模型输出的参考帧优于基准方法选择的参考帧。
进一步地,在一些实施例中,可以根据如下公式(3)确定第一奖励
Figure BDA0003768244730000083
Figure BDA0003768244730000084
式(3)中,函数f(·)用以计算第一重建帧的PSNR,Yt为第一样本帧的标准帧,
Figure BDA0003768244730000085
为第一重建帧;
基于此,为了最大化期望奖励,使用如下公式(4)所示的损失函数计算第一损失L1
Figure BDA0003768244730000086
式(4)中,K表示第二参考帧的总数,
Figure BDA0003768244730000087
表示第二参考帧被选为参考帧的概率,
Figure BDA0003768244730000088
是指第一奖励,
Figure BDA0003768244730000089
是指第二奖励。
第三阶段:为了获得更好性能的图像增强模型,还需要基于第二阶段训练得到的参考帧选择模型重新对图像增强模型进行训练,在一些实施例中,包括:
如图6所示,根据第五样本帧的多个第六相邻帧和第五样本帧,对图像增强模型401的模型参数进行第三调整处理,得到调整后的图像增强模型;
其中,所述第三调整处理包括:将所述多个第六相邻帧和第五样本帧输入至参考帧选择模型501中,得到第五样本帧的第四参考帧;获取第五样本帧的第四重建帧;第四重建帧是图像增强模型401基于第五样本帧和对应的第四参考帧得到的;至少根据第四重建帧和第五样本帧的标准帧,确定第四重建帧的第三损失;根据第三损失调整图像增强模型401的模型参数;
根据第六样本帧的多个第七相邻帧和第六样本帧,对调整后的图像增强模型的模型参数进行调整处理,直至对应得到的第三损失或者迭代次数满足截止条件为止,得到目标图像增强模型。
如此,固定训练好的参考帧选择模型,再次对图像增强模型进行训练,能够进一步提升图像增强模型的性能,从而在在线使用阶段,通过目标图像增强模型获得图像质量更好的重建帧。
需要说明的是,对于第三损失的确定方法,可以参考第一损失或第二损失的确定方法而理解,这里不再重复描述。
在本申请实施例中,对于图像增强模型的网络结构不做限定,可以是任意的视频增强网络。例如,该图像增强模型的网络结构为EDVR。
本申请实施例再提供一种视频增强方法,包括:获取待处理视频帧的E个第一相邻帧;其中,E大于1;根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;根据所述第一参考帧,对所述待处理视频帧的图像质量进行增强。
在一些实施例中,所述根据所述第一参考帧,对所述待处理视频帧的图像质量进行增强,包括:将所述待处理视频帧和对应的第一参考帧输入至所述目标图像增强模型中,得到所述待处理视频帧的第五重建帧。
需要说明的是,以上视频增强方法实施例的描述,与上述参考帧选择方法实施例的描述是类似的,具有同参考帧选择方法实施例相似的有益效果。对于本申请视频增强方法实施例中未披露的技术细节,请参照本申请参考帧选择方法实施例的描述而理解。
本申请实施例提供的参考帧选择方法和视频增强方法,对于视频去压缩、视频去模糊等场景均适用,在本申请实施例中,对于所述方法的使用场景不做限定,总之,对于需要基于参考帧增强待处理视频帧的图像质量的场景都适用。
一些视频压缩算法由于采用基于块变换的编码方式容易产生视觉上令人不快的压缩伪影。因此,开发视频去压缩伪影算法是非常有必要的。考虑到视频中存在时序冗余,视频去压缩失真算法从参考帧中挖掘时空信息来去除当前帧的压缩失真。如图7所示,视频去压缩失真算法首先利用参考帧选择模块从相邻帧中选出参考帧,然后将参考帧和当前帧输入至去压缩失真模块以得到重建帧。为了提高重建帧的质量,研究人员专注于设计更好的去压缩失真模块,而较少关注参考帧选择模块的设计。而在本申请实施例中,专注于优化参考帧选择模块。
相关的参考帧选择模块都是基于启发式规则设计的。例如,在示例1中将两个最近的峰值质量帧作为参考帧;在示例2中将前帧作为参考帧;在示例3中,将相邻的前后帧作为参考帧;在示例4中,将相邻的具有较低量化参数的视频帧或I/P帧作为参考帧。
然而,上述基于启发式规则而设计的参考帧选择模块,其无法根据视频内容自适应地选择参考帧且容易找到次优的参考帧。具体而言,示例1所述的方法忽略了低质量帧中的高质量细节信息。示例2所述的方法忽略了来自后续帧的信息。示例3所述的方法对于每一帧并不一定是最优的,因为每一帧的相邻帧的质量波动通常是不一样的。示例4所述的方法同样会忽略了低质量帧中的高质量细节信息,并且高度依赖于解码端的信息。
基于此,下面将说明本申请实施例在一个实际的应用场景中的示例性应用。
针对参考帧选择模块中的无法根据视频内容自适应地选择参考帧、易陷入次优解等问题,在本申请实施例中提供一种基于自适应参考帧选择的视频去压缩失真方法。该方法包括两个模块,即自适应参考帧选择模块(即参考帧选择模型的一种示例)和去压缩失真模块(即图像增强模型的一种示例)。首先,自适应参考帧选择模块根据当前帧及其相邻帧的信息选择参考帧,然后,去压缩失真模块基于选择的参考帧对当前帧进行去压缩失真的操作。
其中,自适应参考帧选择模块的工作流程如图8所示,该模块根据当前帧及其相邻帧的信息选择参考帧。具体步骤包括如下步骤801至步骤805:
步骤801,首先,给定当前视频帧,其前N帧视频帧,其后N帧视频帧,共2N+1视频帧,对这些视频帧沿通道维度进行合并操作;
步骤802,利用卷积操作提取合并视频帧的特征,输出具有更小空间分辨率、更多通道数的特征图;
步骤803,利用平均池化将特征图转化为1维向量;
步骤804,利用全连接操作层将1维向量转化为一个概率分布,即Xt-N至Xt-1,以及Xt+1至Xt+N各自被选为参考帧的概率;
步骤805,根据概率分布从2N个相邻帧(即即Xt-N至Xt-1,以及Xt+1至Xt+N)中选取K帧作为参考帧。
去压缩失真模块的输入为当前帧和选择的参考帧,其输出为去除压缩失真的当前帧,其网络结构可采用任意视频增强网络,本实例中采用视频增强网络EDVR。
下面对本申请实施例涉及的训练方式进行描述,训练分为三个阶段:在阶段一中基于随机采样的参考帧选择策略,训练去压缩失真模块;在阶段二中,固定去压缩失真模块,训练自适应参考帧选择模块;在阶段三中,固定自适应参考帧选择模块,重新训练去压缩失真模块。三个阶段的详细说明如下。
阶段一,基于随机采样的参考帧选择策略,训练去压缩失真模块。如图9所示,首先从2N个相邻帧中均匀采样K帧作为参考帧,然后将参考帧和当前帧一起输入到去压缩失真模块,最后如下公式(5)所示,通过Charbonnier损失函数优化去压缩失真模块:
Figure BDA0003768244730000111
式(5)中,
Figure BDA0003768244730000112
是去压缩失真模块的输出,Yt是无损图,ε设置为1e-6。C、H和W分别对应输出图像的通道数、高度和宽度。
阶段二,固定去压缩失真模块,训练自适应参考帧选择模块。如图9所示,采用基于强化学习的训练方式,即根据重建图的质量来优化自适应参考帧选择模块。该训练方式中的状态、动作和奖励的定义如下。
状态:
Figure BDA0003768244730000113
被定义为输入的2N+1个连续帧。
动作:
Figure BDA0003768244730000114
是从概率分布p∈R2N采样得到的。P为自适应参考帧选择模块的输出,满足
Figure BDA0003768244730000115
P0:N和PN:2N分别对应于前帧X[t-N:t-1]和后续帧X[t-N:t-1]的被选择概率。
奖励:
Figure BDA0003768244730000116
反映了在状态
Figure BDA0003768244730000117
采取动作
Figure BDA0003768244730000118
的价值。如下公式(6)所示,使用重建图的质量作为奖励:
Figure BDA0003768244730000119
式(6)中,f用以计算重建图的PSNR。
为了最大化期望奖励,使用如下(7)所示的损失函数:
Figure BDA00037682447300001110
式(7)中,
Figure BDA00037682447300001111
为以相邻的前后帧{Xt-K/2...,Xt-1,Xt+1,...,Xt+K/2}作为参考帧的重建质量。
阶段三,固定自适应参考帧选择模块,重新训练去压缩失真模块。如图9所示,当自适应参考帧选择模块训练完成后,基于其学到的参考帧选择策略重新训练去压缩失真模块。
为了验证上述方法中的自适应参考帧选择模块的有效性,将其与Adjacent、MQF、PQF等三种常见的启发式参考帧选择方法进行了比较。Adjacent方法是将相邻的前后帧{Xt-K/2...,Xt-1,Xt+1,...,Xt+K/2}作为参考帧,MQF方法是将相邻帧中质量最高的K帧作为参考帧,PQF方法是将两个最近的峰值质量帧作为参考帧。自适应参考帧选择模块中的参考帧搜索半径N设置为10。
测试数据为公开数据集中的18个测试序列。这些测试序列的分辨率从352×240到2560×1680不等,由某款手机中的HEVC编码器压缩得到。
如下表1所示,其定量地比较了本申请提供的上述方法和启发式参考帧选择方法优劣,其中ΔPSNR和ΔSSIM分别表示参考帧选择方法的18个测试序列平均PSNR和SSIM提升数值。从表1中可以看出,在不同的参考帧数目下,本申请提供的上述方法均取得了比启发式参考帧选择方法更高的ΔPSNR和ΔSSIM。这验证了本申请提供的上述方法的有效性。
表1
Figure BDA0003768244730000121
如图10所示,其定性地比较了本申请提供的上述方法和启发式参考帧选择方法。如图10所示,相比于启发式参考帧选择方法,本申请提供的上述方法恢复出了更多的细节信息。这主要得益于本申请提供的上述方法能够提供高质量的参考信息,即参考帧选择更优。
在本申请实施例中,提供了一种基于自适应参考帧选择的视频去压缩失真方法。相比于其他视频去压缩失真方法,本申请提供的上述方法在参考帧选择方面具有两大优势。首先,该方法能够根据视频内容自适应地选择参考帧,并且不依赖于解码端信息。其次,该方法采用数据驱动的方式学习参考帧选择,能够找到比启发式参考帧选择方法更优的解。也就是说,在本申请实施例中,考虑了参考帧的选择对增强效果的影响,因此能够找到比启发式参考帧选择方法更优的解,从而利于更好地增强待处理视频帧的图像质量。
在本申请实施例中,去压缩失真模块中的EDVR网络也可以替换为其他的视频增强网络,对于去压缩失真模块的网络结构不做限定。
自适应参考帧选择模块的算法也适用于视频压缩、视频去模糊等任务。
在上述自适应参考帧选择模块的基础上,添加参考帧数目选择分支,实现根据当前帧的时空信息自适应地确定参考帧的数目以及参考帧的位置。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等;或者,将不同实施例中步骤组合为新的技术方案。
基于前述的实施例,本申请实施例提供一种参考帧选择装置,该装置包括所包括的各模块、以及各模块所包括的各单元,可以通过处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为AI加速引擎(如NPU等)、GPU、中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
图11为本申请实施例提供的参考帧选择装置的结构示意图,如图11所示,参考帧选择装置110包括:
获取模块1101,配置为获取待处理视频帧的E个第一相邻帧;
选择模块1102,配置为根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;其中,所述第一参考帧用于增强所述待处理视频帧的图像质量。
在一些实施例中,选择模块1102,配置为:通过预先训练得到的参考帧选择模型,对所述待处理视频帧和所述E个第一相邻帧的图像内容进行处理,得到所述待处理视频帧的第一参考帧;其中,所述参考帧选择模型为AI模型。
在一些实施例中,所述参考帧选择模型为卷积神经网络,至少包括:卷积层、池化层、全连接层和输出层;其中,所述卷积层用于对输入的所述待处理视频帧和所述E个第一相邻帧的图像内容进行卷积操作,得到特征图;所述池化层用于对所述特征图进行池化操作,得到池化后的特征图;所述全连接层用于根据所述池化后的特征图,确定所述第一相邻帧被选为第一参考帧的概率;所述输出层用于根据所述E个第一相邻帧被选为第一参考帧的概率,选出第一参考帧。
在一些实施例中,所述全连接层还用于根据所述池化后的特征图,确定F个不同的帧数目分别作为第一参考帧的数目的概率;相应地,所述输出层用于根据所述F个不同的帧数目分别作为第一参考帧的数目的概率,确定目标数目;以及根据所述E个第一相邻帧被选为第一参考帧的概率,选出所述目标数目的第一参考帧。
在一些实施例中,所述参考帧选择模型的确定过程包括:根据第一样本帧的多个第二相邻帧和所述第一样本帧,对所述参考帧选择模型的第一初始模型的模型参数进行第一调整处理,得到调整后的第一初始模型;其中,所述第一调整处理包括:将所述多个第二相邻帧和所述第一样本帧输入至所述第一初始模型中,得到所述第一样本帧的第二参考帧;获取所述第一样本帧的第一重建帧,所述第一重建帧是预先训练得到的图像增强模型基于所述第一样本帧和对应的第二参考帧得到的;至少根据所述第一重建帧与所述第一样本帧的标准帧,确定所述第一重建帧的第一损失;根据所述第一损失,调整所述第一初始模型的模型参数;
根据第二样本帧的多个第三相邻帧和所述第二样本帧,对所述调整后的第一初始模型的模型参数进行所述第一调整处理,直至对应得到的第一损失或者迭代次数满足截止条件为止,得到所述参考帧选择模型。
需要说明的是,参考帧选择模型的确定过程可以由参考帧选择装置110执行,也可以由其他装置执行,对此不做限定。
在一些实施例中,所述至少根据所述第一重建帧与所述第一样本帧的标准帧,确定所述第一重建帧的第一损失,包括:根据所述第一重建帧和所述第一样本帧的标准帧,确定所述第一重建帧的第一奖励;以所述第一样本帧为起点,将所述第一样本帧之前的连续M1帧以及所述第一样本帧之后的连续M2帧作为第五参考帧,将所述第五参考帧和所述第一样本帧输入至所述图像增强模型中,得到所述第一样本帧的第二重建帧;其中,M1和M2大于0且小于或等于所述多个第二相邻帧的数目的一半;根据所述第二重建帧和所述第一样本帧的标准帧,确定所述第二重建帧的第二奖励;根据所述第一奖励、所述第二奖励和所述第二参考帧被选为参考帧的概率,确定所述第一损失。
在一些实施例中,所述图像增强模型的确定过程包括:根据第三样本帧的多个第四相邻帧和所述第三样本帧,对所述图像增强模型的第二初始模型的模型参数进行第二调整处理,得到调整后的第二初始模型;其中,所述第二调整处理包括:从所述多个第四相邻帧中采样得到至少一个第三参考帧;将所述第三样本帧和所述至少一个第三参考帧输入至所述第二初始模型中,得到所述第三样本帧的第三重建帧;至少根据所述第三重建帧和所述第三样本帧的标准帧,确定所述第三重建帧的第二损失;根据所述第二损失,调整所述第二初始模型的模型参数;根据第四样本帧的多个第五相邻帧和所述第四样本帧,对所述调整后的第二初始模型的模型参数进行所述第二调整处理,直至对应得到的第二损失或者迭代次数满足截止条件为止,得到所述图像增强模型。
需要说明的是,图像增强模型的确定过程可以由参考帧选择装置110执行,也可以由其他装置执行,对此不做限定。
在一些实施例中,参考帧选择装置110还包括输入模块,所述输入模块配置为:将所述待处理视频帧和对应的第一参考帧输入至预先训练得到的目标图像增强模型中,得到所述待处理视频帧的第五重建帧。
在一些实施例中,目标图像增强模型的确定过程包括:根据第五样本帧的多个第六相邻帧和所述第五样本帧,对所述图像增强模型的模型参数进行第三调整处理,得到调整后的图像增强模型;其中,所述第三调整处理包括:将所述多个第六相邻帧和所述第五样本帧输入至所述参考帧选择模型中,得到所述第五样本帧的第四参考帧;获取所述第五样本帧的第四重建帧;所述第四重建帧是所述图像增强模型基于所述第五样本帧和对应的第四参考帧得到的;至少根据所述第四重建帧和所述第五样本帧的标准帧,确定所述第四重建帧的第三损失;根据所述第三损失调整所述图像增强模型的模型参数;
根据第六样本帧的多个第七相邻帧和所述第六样本帧,对所述调整后的图像增强模型的模型参数进行调整处理,直至对应得到的第三损失或者迭代次数满足截止条件为止,得到目标图像增强模型。
需要说明的是,目标图像增强模型的确定过程可以由参考帧选择装置110执行,也可以由其他装置执行,对此不做限定。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例再提供一种视频增强装置,包括:获取模块,配置为获取待处理视频帧的E个第一相邻帧;其中,E大于1;选择模块,配置为根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;增强模块,配置为根据所述第一参考帧,对所述待处理视频帧的图像质量进行增强。
在一些实施例中,增强模块,配置为将所述待处理视频帧和对应的第一参考帧输入至所述目标图像增强模型中,得到所述待处理视频帧的第五重建帧。
需要说明的是,以上视频增强装置实施例的描述,与上述参考帧选择方法实施例的描述是类似的,具有同参考帧选择方法实施例相似的有益效果。对于本申请视频增强装置实施例中未披露的技术细节,请参照本申请参考帧选择方法实施例的描述而理解。
需要说明的是,上述实施例中所述的装置对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。也可以采用软件和硬件结合的形式实现。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
本申请实施例提供一种电子设备,图12为本申请实施例的电子设备的硬件实体示意图,如图12所示,电子设备120包括存储器1201和处理器1202,所述存储器1201存储有可在处理器1202上运行的计算机程序,所述处理器1202执行所述程序时实现上述实施例中提供的方法中的步骤。
需要说明的是,存储器1201配置为存储由处理器1202可执行的指令和应用,还可以缓存在处理器1202以及电子设备120中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的方法中的步骤。
本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例提供的方法中的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质、存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如对象A和/或对象B,可以表示:单独存在对象A,同时存在对象A和对象B,单独存在对象B这三种情况。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个模块或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或模块的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的模块可以是、或也可以不是物理上分开的,作为模块显示的部件可以是、或也可以不是物理模块;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能模块可以全部集成在一个处理单元中,也可以是各模块分别单独作为一个单元,也可以两个或两个以上模块集成在一个单元中;上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种参考帧选择方法,其特征在于,所述方法包括:
获取待处理视频帧的E个第一相邻帧;其中,E大于1;
根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;
其中,所述第一参考帧用于增强所述待处理视频帧的图像质量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧,包括:
通过预先训练得到的参考帧选择模型,对所述待处理视频帧和所述E个第一相邻帧的图像内容进行处理,得到所述待处理视频帧的第一参考帧;其中,所述参考帧选择模型为AI模型。
3.根据权利要求2所述的方法,其特征在于,所述参考帧选择模型为卷积神经网络,至少包括:卷积层、池化层、全连接层和输出层;其中,
所述卷积层用于对所述待处理视频帧和所述E个第一相邻帧的图像内容进行卷积操作,得到特征图;
所述池化层用于对所述特征图进行池化操作,得到池化后的特征图;
所述全连接层用于根据所述池化后的特征图,确定所述第一相邻帧被选为第一参考帧的概率;
所述输出层用于根据所述E个第一相邻帧被选为第一参考帧的概率,选出第一参考帧。
4.根据权利要求3所述的方法,其特征在于,所述全连接层还用于根据所述池化后的特征图,确定F个不同的帧数目分别作为第一参考帧的数目的概率;其中,F大于1;
相应地,所述输出层用于根据所述F个不同的帧数目分别作为第一参考帧的数目的概率,确定目标数目;以及根据所述E个第一相邻帧被选为第一参考帧的概率,选出所述目标数目的第一参考帧。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述参考帧选择模型的确定过程包括:
根据第一样本帧的多个第二相邻帧和所述第一样本帧,对所述参考帧选择模型的第一初始模型的模型参数进行第一调整处理,得到调整后的第一初始模型;
其中,所述第一调整处理包括:将所述多个第二相邻帧和所述第一样本帧输入至所述第一初始模型中,得到所述第一样本帧的第二参考帧;获取所述第一样本帧的第一重建帧,所述第一重建帧是预先训练得到的图像增强模型基于所述第一样本帧和对应的第二参考帧得到的;至少根据所述第一重建帧与所述第一样本帧的标准帧,确定所述第一重建帧的第一损失;根据所述第一损失,调整所述第一初始模型的模型参数;
根据第二样本帧的多个第三相邻帧和所述第二样本帧,对所述调整后的第一初始模型的模型参数进行所述第一调整处理,直至对应得到的第一损失或者迭代次数满足截止条件为止,得到所述参考帧选择模型。
6.根据权利要求5所述的方法,其特征在于,所述至少根据所述第一重建帧与所述第一样本帧的标准帧,确定所述第一重建帧的第一损失,包括:
根据所述第一重建帧和所述第一样本帧的标准帧,确定所述第一重建帧的第一奖励;
以所述第一样本帧为起点,将所述第一样本帧之前的连续M1帧以及所述第一样本帧之后的连续M2帧作为第五参考帧,将所述第五参考帧和所述第一样本帧输入至所述图像增强模型中,得到所述第一样本帧的第二重建帧;其中,M1和M2大于0且小于或等于所述多个第二相邻帧的数目的一半;
根据所述第二重建帧和所述第一样本帧的标准帧,确定所述第二重建帧的第二奖励;
根据所述第一奖励、所述第二奖励和所述第二参考帧被选为参考帧的概率,确定所述第一损失。
7.根据权利要求5所述的方法,其特征在于,所述图像增强模型的确定过程包括:
根据第三样本帧的多个第四相邻帧和所述第三样本帧,对所述图像增强模型的第二初始模型的模型参数进行第二调整处理,得到调整后的第二初始模型;
其中,所述第二调整处理包括:从所述多个第四相邻帧中采样得到至少一个第三参考帧;将所述第三样本帧和所述至少一个第三参考帧输入至所述第二初始模型中,得到所述第三样本帧的第三重建帧;至少根据所述第三重建帧和所述第三样本帧的标准帧,确定所述第三重建帧的第二损失;根据所述第二损失,调整所述第二初始模型的模型参数;
根据第四样本帧的多个第五相邻帧和所述第四样本帧,对所述调整后的第二初始模型的模型参数进行所述第二调整处理,直至对应得到的第二损失或者迭代次数满足截止条件为止,得到所述图像增强模型。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据第五样本帧的多个第六相邻帧和所述第五样本帧,对所述图像增强模型的模型参数进行第三调整处理,得到调整后的图像增强模型;
其中,所述第三调整处理包括:将所述多个第六相邻帧和所述第五样本帧输入至所述参考帧选择模型中,得到所述第五样本帧的第四参考帧;获取所述第五样本帧的第四重建帧;所述第四重建帧是所述图像增强模型基于所述第五样本帧和对应的第四参考帧得到的;至少根据所述第四重建帧和所述第五样本帧的标准帧,确定所述第四重建帧的第三损失;根据所述第三损失调整所述图像增强模型的模型参数;
根据第六样本帧的多个第七相邻帧和所述第六样本帧,对所述调整后的图像增强模型的模型参数进行调整处理,直至对应得到的第三损失或者迭代次数满足截止条件为止,得到目标图像增强模型。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
将所述待处理视频帧和对应的第一参考帧输入至所述目标图像增强模型中,得到所述待处理视频帧的第五重建帧。
10.一种视频增强方法,其特征在于,所述方法包括:
获取待处理视频帧的E个第一相邻帧;其中,E大于1;
根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;
根据所述第一参考帧,对所述待处理视频帧的图像质量进行增强。
11.一种参考帧选择装置,其特征在于,所述装置包括:
获取模块,配置为获取待处理视频帧的E个第一相邻帧;其中,E大于1;
选择模块,配置为根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;其中,所述第一参考帧用于增强所述待处理视频帧的图像质量。
12.一种视频增强装置,其特征在于,所述装置包括:
获取模块,配置为获取待处理视频帧的E个第一相邻帧;其中,E大于1;
选择模块,配置为根据所述待处理视频帧和所述E个第一相邻帧的图像内容,从所述E个第一相邻帧中选择所述待处理视频帧的第一参考帧;
增强模块,配置为根据所述第一参考帧,对所述待处理视频帧的图像质量进行增强。
13.一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述的方法,或者,所述处理器执行所述程序时实现权利要求10所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法,或者,该计算机程序被处理器执行时实现如权利要求10所述的方法。
CN202210892757.0A 2022-07-27 2022-07-27 参考帧选择方法及装置、设备、存储介质 Pending CN115243044A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210892757.0A CN115243044A (zh) 2022-07-27 2022-07-27 参考帧选择方法及装置、设备、存储介质
PCT/CN2023/105721 WO2024022047A1 (zh) 2022-07-27 2023-07-04 参考帧选择方法及装置、解码器、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210892757.0A CN115243044A (zh) 2022-07-27 2022-07-27 参考帧选择方法及装置、设备、存储介质

Publications (1)

Publication Number Publication Date
CN115243044A true CN115243044A (zh) 2022-10-25

Family

ID=83676896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210892757.0A Pending CN115243044A (zh) 2022-07-27 2022-07-27 参考帧选择方法及装置、设备、存储介质

Country Status (2)

Country Link
CN (1) CN115243044A (zh)
WO (1) WO2024022047A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024022047A1 (zh) * 2022-07-27 2024-02-01 中国科学技术大学 参考帧选择方法及装置、解码器、设备、存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8331451B2 (en) * 2007-07-18 2012-12-11 Samsung Electronics Co., Ltd. Method and apparatus for enhancing resolution of video image
CN108307193B (zh) * 2018-02-08 2018-12-18 北京航空航天大学 一种有损压缩视频的多帧质量增强方法及装置
CN113556442B (zh) * 2020-04-23 2023-03-24 北京金山云网络技术有限公司 视频去噪方法、装置、电子设备及计算机可读存储介质
CN115243044A (zh) * 2022-07-27 2022-10-25 中国科学技术大学 参考帧选择方法及装置、设备、存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024022047A1 (zh) * 2022-07-27 2024-02-01 中国科学技术大学 参考帧选择方法及装置、解码器、设备、存储介质

Also Published As

Publication number Publication date
WO2024022047A1 (zh) 2024-02-01

Similar Documents

Publication Publication Date Title
US11606560B2 (en) Image encoding and decoding, video encoding and decoding: methods, systems and training methods
US11025907B2 (en) Receptive-field-conforming convolution models for video coding
CN108900848B (zh) 一种基于自适应可分离卷积的视频质量增强方法
CN115514978B (zh) 用于在视频压缩中的熵代码化的概率的混合的方法和装置
US7271749B2 (en) Context-based denoiser that simultaneously updates probabilities for multiple contexts
Pessoa et al. End-to-end learning of video compression using spatio-temporal autoencoders
US7498961B2 (en) Context identification using a denoised signal
CN110753225A (zh) 一种视频压缩方法、装置及终端设备
CN109903351B (zh) 基于卷积神经网络和传统编码相结合的图像压缩方法
Kim et al. Efficient deep learning-based lossy image compression via asymmetric autoencoder and pruning
CN115243044A (zh) 参考帧选择方法及装置、设备、存储介质
Ma et al. CVEGAN: a perceptually-inspired gan for compressed video enhancement
CN113747163A (zh) 基于上下文重组建模的图像编码、解码方法及压缩方法
CN113992914B (zh) 帧间预测方法及装置、设备、存储介质
CN113096019B (zh) 图像重建方法、装置、图像处理设备及存储介质
JP6195404B2 (ja) 処理システム、前処理装置、後処理装置、前処理プログラム及び後処理プログラム
TW202109380A (zh) 迴旋神經網路之壓縮
Zhou et al. Towards theoretically-founded learning-based denoising
EP4231643A1 (en) Method for image compression and apparatus for implementing the same
US20230007260A1 (en) Probability Estimation for Video Coding
CN117459737B (zh) 一种图像预处理网络的训练方法和图像预处理方法
Bonanno et al. A Medical Video Coding Scheme with Preserved Diagnostic Quality
CN116095333A (zh) 图像压缩方法、装置、设备及存储介质
CN112243132A (zh) 结合非局部先验与注意力机制的压缩视频后处理方法
CN117255203A (zh) 一种基于ai的视频解码方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination