CN115037933B

CN115037933B - 一种帧间预测的方法及设备

Info

Publication number: CN115037933B
Application number: CN202210948427.9A
Authority: CN
Inventors: 林聚财; 彭双; 江东; 方诚; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-11-18
Anticipated expiration: 2042-08-09
Also published as: CN115037933A

Abstract

本发明公开了一种帧间预测的方法及设备，用于利用边信息提高预测的准确率，降低神经网络模型的复杂度、参数量等。该方法包括：获取当前图像块对应的多个预测块和边信息，其中所述当前图像块是对当前图像帧进行划分得到的，所述边信息表征所述图像块在编解码过程中产生的图像特征信息；对所述多个预测块和边信息进行特征提取得到各子特征，对所述各子特征进行特征融合得到融合特征；根据所述融合特征，确定所述当前图像块进行帧间预测的结果。

Description

一种帧间预测的方法及设备

技术领域

本发明涉及视频图像编码技术领域，特别涉及一种帧间预测的方法及设备。

背景技术

视频图像数据量比较大，通常需要对视频像素数据(RGB、YUV等)进行压缩，压缩后的数据称之为视频码流，视频码流通过有线或者无线网络传输至用户端，再进行解码观看。整个视频编码流程包括块划分、预测、变换、量化、编码等过程。

一般来说，时间上相邻图像帧像素点的亮度和色度信号值比较接近，具有强相关性。帧间预测通过运动搜索等方法在参考图像帧中寻找与当前图像块最为接近的匹配块，即为当前图像块的帧间预测值（也称预测块）。

在现有基于神经网络的帧间预测融合技术方案中，仅利用前向预测块、后向预测块作为网络的输入，能获得的信息有限，不仅难以生成更准确的预测块，而且难以降低神经网络模型的复杂度、参数量等。

发明内容

本发明提供一种帧间预测的方法及设备，用于利用边信息提高预测的准确率，降低神经网络模型的复杂度、参数量等。

第一方面，本发明实施例提供的一种帧间预测的方法，该方法包括：

获取当前图像块对应的多个预测块和边信息，其中所述当前图像块是对当前图像帧进行划分得到的，所述边信息表征所述图像块在编解码过程中产生的图像特征信息；

对所述多个预测块和边信息进行特征提取得到各子特征，对所述各子特征进行特征融合得到融合特征；

根据所述融合特征，确定所述当前图像块进行帧间预测的结果。

本发明实施例增加边信息，利用边信息作为先验信息，提高对多个预测块的最终预测的准确率，由于将边信息作为先验信息，而边信息来自图像块在编解码过程中产生的图像特征信息，反应图像之间的相关性，便于设计更有效的神经网络模型，从而有效降低神经网络模型的复杂度、参数量。

第二方面，本发明实施例提供的一种帧间预测筛选的方法，该方法包括：

确定帧间预测模式集合，其中所述帧间预测模式集合包括第一类帧间预测模式和第二类帧间预测模式；

根据率失真优化技术，从所述帧间预测模式集合中筛选出一类帧间预测模式；

其中所述第一类帧间预测模式用于利用上述第一方面的方法进行帧间预测。

第三方面，本发明实施例还提供一种帧间预测的设备，该设备包括处理器和存储器，所述存储器用于存储所述处理器可执行的程序，所述处理器用于读取所述存储器中的程序并执行如下步骤：

第四方面，本发明实施例还提供一种帧间预测的装置，该装置包括：

获取编码信息单元，用于获取当前图像块对应的多个预测块和边信息，其中所述当前图像块是对当前图像帧进行划分得到的，所述边信息表征所述图像块在编解码过程中产生的图像特征信息；

提取融合特征单元，用于对所述多个预测块和边信息进行特征提取得到各子特征，对所述各子特征进行特征融合得到融合特征；

帧间预测融合单元，用于根据所述融合特征，确定所述当前图像块进行帧间预测的结果。

第五方面，本发明实施例还提供计算机存储介质，其上存储有计算机程序，该程序被处理器执行时用于实现上述第一方面或第二方面所述方法的步骤。

本申请的这些方面或其他方面在以下的实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种现有的帧间预测神经网络结构示意图；

图2为本发明实施例提供的一种帧间预测的方法的实施流程图；

图3为本发明实施例提供的一种符号转换的示意图；

图4为本发明实施例提供的一种填充示意图；

图5为本发明实施例提供的一种边信息填充的示意图；

图6为本发明实施例提供的一种对输入矩阵进行插值的尺寸变化示意图；

图7为本发明实施例提供的一种预测块为YUV格式时的插值尺寸变化示意图；

图8为本发明实施例提供的一种预测块进行像素扩展的示意图；

图9为本发明实施例提供的另一种预测块进行像素扩展的示意图；

图10为本发明实施例提供的一种掩模图像的示意图；

图11为本发明实施例提供的另一种掩模图像的示意图；

图12为本发明实施例提供的一种像素扩展的示意图；

图13为本发明实施例提供的一种双向预测融合的输入输出示意图；

图14为本发明实施例提供的一种输入的边信息的示意图；

图15为本发明实施例提供的一种空域相邻像素的示意图；

图16为本发明实施例提供的一种空时域预测融合输入输出示意图；

图17为本发明实施例提供的一种空域相邻像素扩展的示意图；

图18为本发明实施例提供的另一种空域相邻像素扩展的示意图；

图19为本发明实施例提供的一种融合增强输入输出示意图；

图20为本发明实施例提供的一种卷积神经网络结构示意图；

图21为本发明实施例提供的一种残差神经网络的结构示意图；

图22为本发明实施例提供的一种残差块的网络结构示意图；

图23为本发明实施例提供的一种全连接神经网络的结构示意图；

图24为本发明实施例提供的一种帧间预测模式选择的示意图；

图25为本发明实施例提供的一种帧间预测的设备示意图；

图26为本发明实施例提供的一种帧间预测的装置示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

实施例1、视频图像数据量比较大，通常需要对视频像素数据(RGB、YUV等)进行压缩，压缩后的数据称之为视频码流，视频码流通过有线或者无线网络传输至用户端，再进行解码观看。整个视频编码流程包括块划分、预测、变换、量化、编码等过程。在视频编码中，最常用颜色编码方法有YUV、RGB等，本发明中所采用的颜色编码方法为YUV。Y表示明亮度，也就是图像的灰度值；U和V（即Cb和Cr）表示色度，作用是描述图像色彩及饱和度。每个Y亮度块都对应一个Cb和一个Cr色度块，每个色度块只对应一个亮度块。以4:2:0的采样格式为例，一个N*M的块对应亮度块大小为N*M，对应的两个色度块的大小都为(N/2)*(M/2)，色度块为亮度块的1/4大小。对于4:4:4的采样格式，亮度块与色度块大小相同。

下面对视频编码流程中的各个步骤进行简单介绍：

（1）块划分、在进行视频编码时，输入的是一个一个的图像帧，但对一帧图像进行编码时，需要将一帧图像分割成若干LCU（最大编码单元），然后再对每个最大编码单元进行不同尺寸的递归的CU（编码单元）分割，视频编码就是以CU为单元进行的。

（2）帧内预测、由于相邻像素点的亮度和色度信号值比较接近，具有强相关性，如果直接用采样数来表示亮度和色度信息，数据中存在较多的空间冗余。如果先去除冗余数据再编码，表示每个像素点的平均比特数就会下降，即以减少空间冗余进行数据压缩。帧内预测通常有预测块划分，获取参考像素，预测模式选择，预测值滤波等过程。

（3）帧间预测、由于时间上相邻图像帧像素点的亮度和色度信号值比较接近，具有强相关性。帧间预测通过运动搜索等方法在参考图像帧中寻找与当前图像块最为接近的匹配块，并记录当前图像块与匹配块间的运动信息如运动矢量MV(motion vector)和参考帧索引。对运动信息进行编码，传输到解码端。在解码端，解码器只要通过相应句法元素解析出当前块的MV，就可找到当前图像块的匹配块。其中MV包括水平和垂直两个方向。并将匹配块的像素值拷贝作为当前图像块的帧间预测值（也称预测块）。帧间预测中包括在多种帧间预测技术，比如skip、merge等。

在merge模式下，编解码端按照相同的规则构建MV列表，列表中包括多个MV候选，因此在码流中仅需要传输最佳MV索引以及对应的预测残差，而不是直接传输MV。特别的是，对于双向预测帧即B帧，MV候选是成对存在的，比如(MV0，MV1)，MV0为前向运动矢量，MV1为后向运动矢量，前向MV0和MV1通过运动补偿过程后分别得到前向预测块和后向预测块，最后通过双向预测融合过程对前、后向预测值进行融合得到最终预测块。skip模式是merge模式的特殊情况，其在码流中仅传输最佳MV索引，而不需要预测残差。另外，双向预测融合过程是指将前向和后向预测块进行融合的过程，包括双向加权预测(BCW)和平均加权预测等模式。

（4）变换、当前图像块预测完成后，将当前图像块的真实值和预测块的预测值相减，会得到一个残差块，残差块就表示当前图像块对应的真实图像和预测块对应的预测图像之间的差异。然后对残差块进行变换，如用DCT、DST等变换方法。由于对于大部分图像来说，它们都有很多平坦区域和内容变换缓慢的区域，而且相邻像素点的相关性很强，通过变换，可以把这些相关性减少，同时把图像的能量在空间域的分散分布转换为在变换域的相对集中分布，这样就可以去除空间冗余了。

（5）量化、量化就是把信号的连续取值映射成多个离散的幅值的过程，实现了信号取值多对一的映射。残差数据进过变换之后，变换系数具有较大的取值范围，量化可以有效减小信号的取值范围，进而获得更好的压缩效果。由于量化是把连续的值离散到各个量化区间中，所以量化是造成图像失真的根本原因。量化的失真程度由量化参数（QP）决定，通常QP越大，量化导致的失真越大，反之亦然。

（6）编码、编码就是把数据转换成计算机看的懂的数字。编码方式有算数编码、变长编码等多种，此处不再赘述。

如图1所示，本发明实施例提供一种现有的帧间预测神经网络结构，利用前向预测块、后向预测块作为网络的输入，然后通过神经网络进行预测融合，最后输出融合块作为最终的预测结果。其中，神经网络是一种模仿生物神经网络的结构和功能的数学模型或计算模型。现有技术中，仅利用前向、后向预测块作为网络的输入，能获得的信息有限，难以生成更准确的预测块；没有利用边信息，难以降低神经网络模型的复杂度、参数量等，导致了非常高的硬件成本；仅考虑了双向预测的融合过程，没有考虑对最终预测块进一步改进，导致预测残差仍然较大，不利用压缩效率的提升。

为了解决上述技术问题，本实施例提供一种帧间预测的方法，该方法设计的核心思想是增加边信息，利用边信息作为先验信息，提高对多个预测块的最终预测的准确率，由于将边信息作为先验信息，而边信息表征在图像的编解码过程中产生的图像特征信息，因此能够降低神经网络模型的复杂度、参数量。

如图2所示，本实施例提供一种帧间预测的方法的实施流程，具体如下所示：

步骤200、获取当前图像块对应的多个预测块和边信息，其中所述当前图像块是对当前图像帧进行划分得到的，所述边信息表征所述当前图像块在编解码过程中产生的图像特征信息；

在一些实施例中，本实施例中的多个预测块包括但不限于多个前向预测块和多个后向预测块，其中前向预测块是对当前图像块所在的当前图像帧的前向参考图像帧进行运动搜索得到的，后向预测块是对当前图像块所在的当前图像帧的后向参考图像帧进行运动搜索得到的。

在一些实施例中，本实施例利用卷积神经网络进行帧间预测融合，将多个预测块和边信息输入到卷积神经网络进行特征提取得到各子特征，并对所述各子特征进行特征融合得到融合特征，将融合特征输入到卷积神经网络（包括但不限于残差神经网络）中输出对应的融合块，将该融合块作为对当前图像块进行帧间预测的预测结果。

其中，卷积神经网络的特点是用卷积核和激活函数对输入图像进行学习，学习输入图像的特征，通过这些特征进行更加精准的预测，得到质量更佳的图像。卷积神经网络的卷积核的本质是一个多维矩阵，矩阵中的参数用于和图像进行卷积操作；其中卷积步长是在遍历图像的像素点时，隔多少个像素取一个像素进行卷积操作，卷积操作是线性操作；每个激活层都有一个激活函数，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。本实施例中的激活函数包括但不限于Sigmoid，tanh，ReLU，LeakyReLU，PReLU，RReLU中的至少一种。

在一些实施例中，本实施例对输入到卷积神经网络的输入信息进行处理，包括但不限于形式转换和输入信息扩展，其中形式转换的目的是，将输入信息转换为合适的形式输入网络，以及将网络输出转换为合适的形式进行输出。输入扩展的目的是，通过增加输入信息来提升模型效果。本实施例中的输入信息包括主信息和边信息，输出信息为预测结果即预测的融合块。其中，主信息为多个预测块，边信息为除主信息外的信息，边信息主要为编解码过程中产生的中间信息或人为设计的输入信息。

实施中，形式转换包括但不限于符号转换、填充、插值等；输入信息扩展包括但不限于像素扩展，像素填充等。

在一些实施例中，本实施例在获取当前图像块对应的多个预测块和边信息之后，对所述多个预测块和边信息进行特征提取得到各子特征之前，还用于对所述多个预测块和/或所述边信息，进行符号转换、填充、插值中的至少一种处理。

实施中，符号转换是指将一种符号转换为另一种符号的过程，如图3所示，本实施例提供一种符号转换的示意图，源符号集合包括N个符号，转换符号集合同样包括N个符号，两个符号集合中的每个符号一一对应，N>=1。本实施例中，要求转换符号集合为卷积神经网络能输入的数字符号。可选的，源符号集合包括边信息，将边信息进行符号转换后，便于输入到卷积神经网络模型中用于进行特征预测和特征融合。

在一些实施例中，本实施例中的边信息包括但不限于量化参数、时域距离、参考方向、图像帧类型中的至少一种。

当边信息包括图像帧类型时，例如边信息包括{I帧、B帧、P帧}，转换符号集合设置为{-1、0、1}，实施中，将I帧转换为数字-1、B帧转换数字0、P帧转换为数字1。其中，I帧表示帧内预测帧、B帧表示双向预测帧、P帧表示前向预测帧。

实施中，填充是指，将符号进行若干次重复的过程，当边信息的大小不符合卷积神经网络的输入大小时，可以利用填充方式修改边信息的大小，便于输入到卷积神经网络模型中，同样的，当任一符号的尺寸不符合卷积神经网络的输入尺寸时，则通过填充的方式对符号的尺寸进行修改，如图4所示，本实施例提供一种填充示意图，对于卷积神经网络的输入尺寸为W×H，当符号的尺寸小于W×H时，将符号填充为W×H大小的矩阵，其中W>=1，H>=1。

在一些实施例中，本实施例可以对边信息进行填充，当边信息包括量化参数（QP），且确定卷积神经网络的输入尺寸为128×128时，对边信息进行填充，如图5所示，本实施例提供一种边信息填充的示意图，其中边信息中的量化参数QP=32，需要将QP填充为128×128的矩阵。

实施中，插值是指，基于帧间预测模型（即卷积神经网络）的输入尺寸，对原始输入矩阵进行放大或缩小的过程，其中原始输入矩阵可以是预测块的矩阵，也可以是边信息对应的矩阵；如图6所示，本实施例提供一种对输入矩阵进行插值的尺寸变化示意图，其中，将大小为W1×H1的原始输入矩阵经过上采样插值后变为W2×H2，或者，将大小为W1×H1的原始输入矩阵经过下采样插值后变为W0×H0的矩阵，其中，W2>=W1>=W0>1，H2>=H1>=H0>1，宽和高不能同时取“=”。可选的，本实施例中的插值的方式，包括但不限于近邻插值、双线性插值、双线性三次插值中的至少一种。

在一些实施例中，当预测块所在的参考图像帧为YUV420格式的图像时，可以对预测块中的UV/Y分量进行上采样或下采样插值，同样的，为了卷积神经网络输出的图像格式仍为YUV420格式，可以对输出的融合块的UV/Y分量进行上采样或下采样插值。如图7所示，本实施例提供一种预测块为YUV格式时的插值尺寸变化示意图，其中由于卷积神经网络的输入尺寸是固定的，因此需要对输入的预测块的UV分量进行上采样插值，以使输入到卷积神经网络中的预测块的各个分量的大小和卷积神经网络的输入尺寸匹配，对输出的预测块的UV分量进行下采样插值，以使输出的预测块和输入的预测块的大小保持一致。

在一些实施例中，本实施例在获取当前图像块对应的多个预测块和边信息之后，对所述多个预测块和边信息进行特征提取得到各子特征之前，还用于根据所述预测块所在的参考图像帧中，与所述预测块距离最近的像素点，对所述预测块进行像素扩展，得到扩展像素点，其中所述参考图像帧是基于所述当前图像帧确定的。其中本实施例中的像素扩展是指在空间域上的像素扩展即空域像素扩展。

实施中，本实施例中的像素扩展方式包括但不限空域像素扩展、填充等。其中，空域像素扩展，是指将空域相邻的像素作为输入的一部分。在一些实施例中，若所述预测块存在相邻的像素点，则根据所述预测块相邻的像素点，对所述预测块进行像素扩展。如图8所示，本实施例提供一种预测块进行像素扩展的示意图，其中，预测块的尺寸为W×H，为了进行像素扩展，如图中灰色区域所示，将左边相邻的W3列、右边相邻的W4列、上边相邻的H3行、下边相邻的H4行作为扩展的像素点，将扩展后的预测块输入到卷积神经网络中进行特征提取、特征融合等，因此最终扩展后输入的预测块的尺寸为(W3+W+W4)×(H3+H+H4)，其中，W3,W4,H3,H4>0。

实施中，填充是指，当空域相邻像素不存在时，则采用填充的方式进行扩展，在一些实施例中，若无法获取所述预测块中的至少部分像素，则根据所述预测块中可获取的最邻近像素点，对所述预测块进行像素扩展。可选的，若所述预测块中的至少部分像素位于参考图像帧的边界，则根据所述参考图像帧的边界的像素点，对所述预测块进行像素扩展。如图9所示，本实施例提供另一种预测块进行像素扩展的示意图，当部分像素位于参考图像帧的边界时，空域相邻像素不能获得，因此用最近的相邻像素进行填充如预测块中位于所述参考图像帧边界的像素点，如图中斜杠部分所示，列填充宽度为W5，行填充高度为H5，其中，W5，H5>0。

在一些实施例中，本实施例对所述预测块进行像素扩展之后，还用于根据扩展后的预测块中的原始像素点和扩展像素点，对所述当前图像块进行掩模处理生成掩模图像，并将所述掩模图像添加到所述边信息中；其中所述掩模图像用于区分所述扩展后的预测块中原始像素点和扩展像素点。

实施中，为了区分原始像素点和扩展像素点，本实施例还提供了掩模处理，并将掩模图像添加到所述边信息中，以输入卷积神经网络。对于卷积神经网络输出的图像（即融合块），若没有在网络中将扩展后的输入尺寸映射到原输入尺寸，则在网络输出时，仅选取扩展前输入对应位置的有效输出图像。其中，掩模图像是指，通过符号标记的方式表示不同的像素信息，如图10所示，本实施例提供一种掩模图像的示意图，其中，符号A用于标记扩展后的预测块中的扩展像素点、符号B用于标记原始像素点。本实施中对用于标记的符号集合不进行过多限定。如图11所示，本实施例提供另一种掩模图像的示意图，其中，预测块的原始尺寸为128×128，灰色区域为预测块的扩展像素，扩展像素的宽度和高度都是16，将预测块中的原始像素点的像素值设为1，将扩展后的预测块中扩展像素点的像素值设为0，生成掩模图像，将掩模图像作为边信息和预测块一起输入到卷积神经网络。

如图12所示，本实施例提供一种像素扩展的示意图，其中，预测块位于参考图像帧的左下角位置，尺寸为128×128，因此预测块位的左侧和下侧不存在空域相邻的像素点，因此，左侧的扩展像素点通过参考图像帧左侧的边界的像素点进行填充，下侧的扩展像素点通过参考图像帧下侧的边界的像素点进行填充，填充宽度和高度都是16，即扩展像素的宽度和高度都是16。同时，像素扩展后的预测块对应的掩模图像中，将扩展后的预测块中的原始像素点的像素值设为1，将扩展后的预测块中扩展像素点的像素值设为0，生成掩模图像，将掩模图像作为边信息和预测块一起输入到卷积神经网络。

在一些实施例中，本实施例中的卷积神经网络输入的信息包括主信息和边信息，输出为融合块，其中主信息包括多个前向预测块和多个后向预测块，边信息包括但不限于量化参数、时域距离、参考方向、图像帧类型、当前图像块的邻域像素信息、在预设预测模式下对所述当前图像块进行预测得到的额外预测块中的至少一种。

其中，量化参数表征量化引起的图像的失真程度；时域距离表征当前图像帧和参考图像帧在时域上的距离；参考方向表征利用前向预测帧进行前向预测，或利用后向预测帧进行后向预测；图像帧类型包括但不限于帧内预测帧、双向预测帧、前向预测帧中的至少一种；可选的本实施例中的预设预测模式包括但不限于Merge、Skip、AMVP、BCW、CIIP、双向光流技术(BDOF)中的至少一种。

在一些实施例中，本实施例通过如下方式获取当前图像块对应的多个预测块：

按预设顺序或峰值信噪比的大小，从候选集合包含的候选块中筛选出当前图像块对应的多个预测块；实施中，从候选集合包含的多个候选块中筛选出多个预测块。例如将候选集合中每个候选块对应的峰值信噪比的值从大到小进行排序，选取排列顺序在前的3个候选块作为筛选出的预测块。

其中，所述候选块是对候选运动矢量进行运动补偿得到的，所述候选运动矢量表示所述当前图像块相对于参考图像帧的运动信息，其中预测块是运动矢量经过运动补偿得到的，候选运动矢量可以通过运动搜索、空时域推导得到；或者，候选运动矢量可以来自各种帧间预测工具所能产生的候选运动矢量，比如Merge、Skip、AMVP等。

在一些实施例中，本实施例中的多个预测块包括多个前向预测块和多个后向预测块；候选集合包括多个候选块，其中，候选集合中候选块的数量大于或等于前向预测块的数量，候选集合中候选块的数量大于或等于后向预测块的数量。

例如，多个预测块包括N1个前向预测块和N2个后向预测块，N1个前向预测块是从候选集合中的N0个候选块筛选得到的，N2个前向预测块是从候选集合中的N0个候选块筛选得到的，其中，候选集合中的候选块包括前向候选块和后向候选块，从N0个前向候选块中筛选出N1个前向预测块，从N0个后向候选块中筛选出N2个后向预测块；其中候选块是对候选MV进行运动补偿得到的，候选MV的数量和候选块的数量相同。其中，N0>=N1>0，N0>=N2>0。

步骤201、对所述多个预测块和边信息进行特征提取得到各子特征，对所述各子特征进行特征融合得到融合特征；

实施中，本实施例利用卷积神经网络对所述多个预测块和边信息进行特征提取得到各子特征，对所述各子特征进行特征融合得到融合特征，即将多个预测块和边信息输入到卷积神经网络，输出融合特征。

步骤202、根据所述融合特征，确定所述当前图像块进行帧间预测的结果。

在一些实施例中，本实施例中的多个预测块包括多个前向预测块和多个后向预测块；所述边信息包括第一信息，所述第一信息包括量化参数、时域距离、参考方向、图像帧类型中的至少一种；将所述第一信息添加到所述多个预测块中，对添加后的多个预测块进行特征提取得到各子特征。

实施中，以双向预测融合为例，利用卷积神经网络对输入的多个预测块和边信息进行预测融合，输出融合块。其中，输入分为前向和后向输入两个部分，分别是多个前向预测块和多个后向预测块，输出为融合块，对于输入的预测块，除了包括主信息外，还可包括边信息，将边信息中的第一信息添加到预测块中，将添加后的预测块输入到卷积神经网络。

如图13所示，本实施例提供一种双向预测融合的输入输出示意图，其中，候选集合中的候选块包括前向候选块和后向候选块，从N0个前向候选块中筛选出N1个前向预测块，从N0个后向候选块中筛选出N2个后向预测块，将N1个前向预测块和N2个后向预测块以及边信息都输入到卷积神经网络中，输出融合块。其中，L_n0、R_n0分别为前向候选块、后向候选块，n0={1,2,…,N0}，L'_n1、R'_n2为前向预测块、后向预测块，n1={1,2,…,N1}，n2={1,2,…,N2}。N0>=N1>0，N0>=N2>0。

如图14所示，本实施例提供一种输入的边信息的示意图，输入信息中包括N1个前向预测块和N2个后向预测块以及边信息，边信息包括量化参数和时域距离。

实施中，从候选集合包含的候选块中筛选出当前图像块对应的多个预测块的方式包括但不限于按预设顺序选择，或按照峰值信噪比PSNR从大到小的顺序进行选择，其中预设顺序可以是根据候选集合对应的候选列表中各个候选块的顺序确定。例如，按PSNR的升序方式，从前向候选块中选择前3个作为前向预测块输入、从后向候选块中选择前3个作为后向预测块输入，其中，前向候选块的数量为6，后向候选块的数量为6。其中输入的预测块还包括边信息（如量化参数和时域距离）。

在一些实施例中，所述多个预测块包括多个前向预测块和多个后向预测块；所述边信息包括第一信息，所述第一信息包括量化参数、时域距离、参考方向、图像帧类型中的至少一种，以及第二信息，所述第二信息表征所述当前图像块的邻域像素信息；将所述第一信息添加到所述多个预测块中，对添加后的多个预测块和所述第二信息进行特征提取得到各子特征。

可选的，当前图像块的邻域像素信息包括但不限于当前图像块在当前图像帧中的空域相邻像素，如图15所示，本实施例提供的一种空域相邻像素的示意图，其中划线区域为当前图像块的空域相邻像素，当前图像块尺寸为128×128，空域行相邻像素的尺寸为256×4，空域列相邻像素的尺寸为4×256。

实施中，以空时域预测融合为例，输入分为前向、后向、空域相邻像素三个部分，分别是多个前向预测块、多个后向预测块、第二信息，其中第二信息包括当前图像块的空域相邻像素，输出为融合块。如图16所示，本实施例提供一种空时域预测融合输入输出示意图，其中输入包括N1个前向预测块、N2个后向预测块以及第二信息，其中，将每个前向预测块的边信息添加到对应的前向预测块，将每个后向预测块的边信息添加到对应的后向预测块，其中，每个预测块都对应一个边信息，在N1个前向预测块中分别添加边信息的第一信息、在N2个后向预测块中分别添加边信息的第一信息，随N1个前向预测块、N2个后向预测块一起输入到卷积神经网络，其中，N1个前向预测块是从N0个前向候选块中筛选出的，N2个后向预测块是从N0个后向候选块中筛选出的，输出融合块。其中，N0>=N1>0，N0>=N2>0。候选集合中的候选块包括前向候选块和后向候选块。

在一些实施例中，当前图像块的空域相邻像素的选取方式，包括但不限于选取最近的若干相邻像素、采用固定间隔的相邻像素等方式，其中选取最近的若干相邻像素是指，在当前图像块所在的当前图像帧中，选取与当前图像块相邻的若干像素点；采用固定间隔的相邻像素是指，在当前图像块所在的当前图像帧中，采用固定间隔，选取与当前图像块相隔固定间隔的若干像素点。

如图17所示，本实施例提供一种空域相邻像素扩展的示意图，其中，扩展的像素通过划线区域表示，通常空域相邻像素仅存在于当前图像块的左侧和上侧，左侧相邻像素的尺寸为W7×H6，上侧相邻像素的尺寸W6×H7，其中W6,W7,H6,H7>0。另外，对于相邻像素不存时，可以采用最近的相邻像素进行填充，即根据当前图像块所在的当前图像帧中，与当前图像块距离最近的像素点，对当前图像块进行像素扩展。

如图18所示，本实施例提供另一种空域相邻像素扩展的示意图，其中，按固定间隔扩展若干空域相邻像素，扩展的像素为图中划线区域，当前图像块的尺寸为128×128，相邻行的宽度和相邻列的长度均为256，分别间隔1行和1列选取行相邻像素和列相邻像素，分别选取4行，行相邻像素和4列，列相邻像素。将4行，行相邻像素和4列，列相邻像素作为空域相邻像素扩展的像素。

在一些实施例中，所述多个预测块包括多个前向预测块和多个后向预测块；所述边信息包括第一信息，所述第一信息包括量化参数、时域距离、参考方向、图像帧类型中的至少一种，以及第三信息，所述第三信息表征在预设预测模式下对所述当前图像块进行预测得到的额外预测块；在每个预测块中添加对应的第一信息，对添加后的多个预测块和所述第三信息进行特征提取得到各子特征。

实施中，以融合增强为例，输入分为前向、后向、第三信息（即额外预测块）三个部分，如图19所示，本实施例提供一种融合增强输入输出示意图，其中输入包括N1个前向预测块、N2个后向预测块以及第三信息，其中，在N1个前向预测块中分别添加边信息的第一信息、在N2个后向预测块中分别添加边信息的第一信息，随N1个前向预测块、N2个后向预测块一起输入到卷积神经网络，其中，N1个前向预测块是从N0个前向候选块中筛选出的，N2个后向预测块是从N0个后向候选块中筛选出的，输出融合块。其中，N0>=N1>0，N0>=N2>0。候选集合中的候选块包括前向候选块和后向候选块。

可选的，预设预测模式可以是若干任意帧间预测模式，包括但不限于Merge、Skip、高级运动矢量预测(AMVP)、传统双向预测融合(BCW)、帧内帧间联合预测(CIIP)中的至少一种。

可选的，本实施例中的预设预测模式固定使用一个或多个预测模式，或者，从多种帧间预测模式中按PSNR或率失真代价进行选择。

其中，可以将AMVP的预测结果作为第三信息即额外预测块，或者，将{Merge,Skip, AMVP, BCW, CIIP}共5个预测模式的预测结果作为第三信息，或者，从{Merge,Skip, AMVP, BCW, CIIP}中选择出PSNR最高的预测结果作为第三信息，例如，Merge、Skip、AMVP、BCW、CIIP的PSNR分别为32dB、30dB、34dB、31dB、33dB，可以选择将AMVP的预测结果作为第三信息。

在一些实施例中，本实施例中卷积神经网络除输入、输出外，如图20所示，本实施例提供一种卷积神经网络结构示意图，网络结构包括特征提取、特征融合、质量增强、输出三个部分。

特征提取部分，包括前向特征提取、后向特征提取、空域特征提取、预测特征提取四个部分，其中空域特征提取、预测特征提为可选部分，与前面的输入输出设计相关，当输入边信息的第二信息时，使用空域特征提取，反之不使用；当输入边信息的第三信息时，使用预测特征提取，反之不使用。特征提取的方式，包括但不限于残差神经网络、全连接神经网络中的至少一种。

特征融合部分，该部分对提取的特征进行融合，其中融合方式包括但不限于残差神经网络。

质量增强部分，该部分对于融合特征进行质量增强处理，增强的方式，包括但不限于残差神经网络。可选的，本实施例对所述融合特征进行质量增强处理，得到增强特征；根据所述增强特征确定所述当前图像块进行帧间预测的结果。

如图21所示，本实施例提供一种残差神经网络的结构示意图，其中，包括3个卷积层、R个残差块(RB)、连接卷积层1到卷积层2的残差连接线。其中，如图22所示，本实施例提供一种残差块的网络结构示意图，包括2个卷积层、1个ReLU激活层、以及连接输入与输出的残差连接线。

如图23所示，本实施例提供一种全连接神经网络的结构示意图，其中，包括3个变换层（reshape层）、1个连接聚合层（concat层）、m个全连接层。reshape层用于进行矩阵维度变换，concat层用于连接所有的输入。实施中，输入图像块的尺寸W×H=128×128，边信息包括量化参数和时域距离。输入的第二信息包括256×4的行相邻像素和4×256的列相邻像素。全连接神经网络采用3个全连接层。变换层1和变换层2用于将输入的256×4的行参考像素和4×256的列参考像素变形为1024×1的一维矩阵，concat层用于连接输入的两个1024×1的矩阵为2048×1的矩阵，全连接层1、2、3的输入×输出维度分别为2048×4096、4096×16384、16384×262144，变换层3用于262144×1的一维矩阵变形为128×128×16的矩阵。

在一些实施例中，本实施例还提供一种帧间预测筛选的方法，其特征在于，该方法包括：

其中所述第一类帧间预测模式用于利用本发明提供的帧间预测方法进行帧间预测。

本实施例中的第二类帧间预测模式包括传统帧预测模式，如Merge、Skip、AMVP、BCW、CIIP、双向光流技术(BDOF)等。本实施例中的第一类帧间预测模式根据边信息包含的内容分为三种，第一类是双向预测融合模式，该模式下边信息包括第一信息，输入包括多个前向预测块和多个后向预测块，将边信息添加到多个前向预测块和多个后向预测块中一起输入到卷积神经网络，其中，输入的预测块来自前向、后向预测过程，输入的预测块可包括边信息，边信息，包括但不限于量化参数、时域距离、参考方向、帧类型等；第二类是空时域预测融合模式，该模式下，边信息包括第一信息和第二信息，将第二信息作为独立的输入，输入到卷积神经网络中；其中，在双向预测融合模式的基础上，边信息增加了第二信息，包括当前图像块的空域相邻像素。第三种是融合增强模式，该模式下，边信息包括第一信息和第三信息，将第三信息作为独立的输入，输入到卷积神经网络中；其中，在双向预测融合的基础上，边信息增加了额外预测块作为输入。

可选的，本实施例中的双向预测融合模型可用于替换BCW模式，空时域预测融合模型可用于替换CIIP模式，融合增强模型可用于替换双向光流技术(BDOF)模式。

如图24所示，本实施例提供一种帧间预测模式选择的示意图，实施中，可以利用开关句法，标识基于卷积神经网络的帧间预测模式的使用状态，可以利用方案句法，标识具体使用何种预测模式。

例如，开关句法NN_FLAG用于标识是否启用第一类帧间预测模式，NN_FLAG=0标识关闭第一类帧间预测模式，NN_FLAG=1标识开启第一类帧间预测模式。

当NN_FLAG=0时，方案句法不生效。

当NN_FLAG=1时：

BCW_NN用于标识采用BCW模式，或双向预测融合，BCW_NN=0标识使用BCW模式，BCW_NN=1标识使用双向预测融合。

CIIP_NN用于标识采用CIIP模式，或空时域预测融合，CIIP_NN=0标识使用CIIP模式，CIIP_NN=1标识使用空时域预测融合。

BDOF_NN用于标识采用BDOF模式，或融合增强，BDOF_NN=0标识使用BDOF模式，BDOF_NN=1标识使用融合增强。

本发明为了使得卷积神经网络的输入输出与实际信息的输入输出进行适配，对输入输出处理进行了设计，扩展了卷积神经网络的使用范围。另外，对于输入信息的扩展，可增加更多的有效输入信息，例如输入多个前向预测块和多个后向预测块，使得预测融合效果提升，从而达到压缩效率的提升。本实施例还对网络的输入输出进行了设计，通过增加边信息来降低卷积神经网络模型的复杂度、参数量等，从而降低了的硬件成本。另外，对于不同的边信息输入，本实施例对输入进行了进一步的设计，从而提升预测融合的效果。本实施例设计的输入输出方案，可与原有的帧间预测模式进行竞争，从而使得预测效果更加准确，进而提升压缩效率。本实施例设计的卷积神经网络结构，在输出之前设计了质量增强模块，对融合特征进行质量增强，从而可有效提升预测融合块的效果。

实施例2、基于相同的发明构思，本发明实施例还提供了一种帧间预测的设备，由于该设备即是本发明实施例中的方法中的设备，并且该设备解决问题的原理与该方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图25所示，该设备包括处理器2500和存储器2501，所述存储器2501用于存储所述处理器2500可执行的程序，所述处理器2500用于读取所述存储器2501中的程序并执行如下步骤：

作为一种可选的实施方式，所述处理器2500具体被配置为执行：

按预设顺序或峰值信噪比的大小，从候选集合包含的候选块中筛选出所述当前图像块对应的多个预测块；

其中，所述候选块是对候选运动矢量进行运动补偿得到的，所述候选运动矢量表示所述当前图像块相对于参考图像帧的运动信息。

作为一种可选的实施方式，所述获取当前图像块对应的多个预测块和边信息之后，对所述多个预测块和边信息进行特征提取得到各子特征之前，所述处理器2500具体还被配置为执行：

对所述多个预测块和/或所述边信息，进行符号转换、填充、插值中的至少一种处理。

根据所述预测块所在的参考图像帧中，与所述预测块距离最近的像素点，对所述预测块进行像素扩展，得到扩展像素点；其中所述参考图像帧是基于所述当前图像帧确定的。

若所述预测块存在相邻的像素点，则根据所述预测块相邻的像素点，对所述预测块进行像素扩展；或，

若无法获取与所述预测块距离最近的至少部分像素，则根据所述预测块中的最邻近像素点，对所述预测块进行像素扩展。

作为一种可选的实施方式，所述对所述预测块进行像素扩展之后，所述处理器2500具体还被配置为执行：

根据扩展后的预测块中的原始像素点和扩展像素点，对所述当前图像块进行掩模处理生成掩模图像，并将所述掩模图像添加到所述边信息中；

其中所述掩模图像用于区分所述扩展后的预测块中原始像素点和扩展像素点。

作为一种可选的实施方式，所述多个预测块包括多个前向预测块和多个后向预测块；所述边信息包括量化参数、时域距离、参考方向、图像帧类型中的至少一种；

所述处理器2500具体被配置为执行：

将所述边信息添加到所述多个预测块中，对添加后的多个预测块进行特征提取得到各子特征。

作为一种可选的实施方式，所述边信息还包括表征所述当前图像块的邻域像素信息的第二信息；和/或，表征在预设预测模式下对所述当前图像块进行预测得到的额外预测块。

对所述融合特征进行质量增强处理，得到增强特征；

根据所述增强特征确定所述当前图像块进行帧间预测的结果。

实施例3、基于相同的发明构思，本发明实施例还提供了一种帧间预测的装置，由于该装置即是本发明实施例中的方法中的装置，并且该装置解决问题的原理与该方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图26所示，该装置包括：

获取编码信息单元2600，用于获取当前图像块对应的多个预测块和边信息，其中所述当前图像块是对当前图像帧进行划分得到的，所述边信息表征所述图像块在编解码过程中产生的图像特征信息；

提取融合特征单元2601，用于对所述多个预测块和边信息进行特征提取得到各子特征，对所述各子特征进行特征融合得到融合特征；

帧间预测融合单元2602，用于根据所述融合特征，确定所述当前图像块进行帧间预测的结果。

作为一种可选的实施方式，所述获取编码信息单元2600具体用于：

作为一种可选的实施方式，所述获取当前图像块对应的多个预测块和边信息之后，对所述多个预测块和边信息进行特征提取得到各子特征之前，还包括预处理单元具体用于：

作为一种可选的实施方式，所述获取当前图像块对应的多个预测块和边信息之后，对所述多个预测块和边信息进行特征提取得到各子特征之前，还包括扩展单元具体用于：

作为一种可选的实施方式，所述扩展单元具体用于：

作为一种可选的实施方式，所述对所述预测块进行像素扩展之后，还包括掩模单元具体用于：

所述提取融合特征单元2601具体用于：

作为一种可选的实施方式，所述帧间预测融合单元2602具体用于：

对所述融合特征进行质量增强处理，得到增强特征；

基于相同的发明构思，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种帧间预测的方法，其特征在于，该方法包括：

获取当前图像块对应的多个预测块和边信息，其中所述当前图像块是对当前图像帧进行划分得到的，所述边信息表征所述当前图像块在编解码过程中产生的图像特征信息；所述边信息包括量化参数、时域距离、参考方向、图像帧类型中的至少一种；所述多个预测块包括多个前向预测块和多个后向预测块；

将所述边信息添加到所述多个预测块中，利用神经网络对添加后的多个预测块进行特征提取得到各子特征，对所述各子特征进行特征融合得到融合特征，根据所述融合特征，确定融合块，将所述融合块作为对所述当前图像块进行帧间预测的结果。

2.根据权利要求1所述的方法，其特征在于，所述获取当前图像块对应的多个预测块，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取当前图像块对应的多个预测块和边信息之后，利用神经网络对添加后的多个预测块进行特征提取得到各子特征之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述获取当前图像块对应的多个预测块和边信息之后，利用神经网络对添加后的多个预测块进行特征提取得到各子特征之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述图像帧中与所述预测块距离最近的像素点，对所述预测块进行像素扩展，包括：

6.根据权利要求4所述的方法，其特征在于，所述对所述预测块进行像素扩展之后，还包括：

根据扩展后的预测块中的原始像素点和所述扩展像素点，对所述当前图像块进行掩模处理生成掩模图像，并将所述掩模图像添加到所述边信息中；

7.根据权利要求1所述的方法，其特征在于，所述边信息还包括表征所述当前图像块的邻域像素信息的第二信息；和/或，表征在预设预测模式下对所述当前图像块进行预测得到的额外预测块。

8.根据权利要求1所述的方法，其特征在于，所述根据所述融合特征，确定融合块，包括：

对所述融合特征进行质量增强处理，得到增强特征；

根据所述增强特征，确定所述融合块。

9.一种帧间预测筛选的方法，其特征在于，该方法包括：

其中所述第一类帧间预测模式用于利用上述权利要求1~8任一所述的方法进行帧间预测。

10.一种帧间预测的设备，其特征在于，该设备包括处理器和存储器，所述存储器用于存储所述处理器可执行的程序，所述处理器用于读取所述存储器中的程序并执行权利要求1~8任一所述方法的步骤。

11.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1~8或9任一所述方法的步骤。