CN117480777A

CN117480777A - 编码方法、解码方法、编码器、解码器和解码***

Info

Publication number: CN117480777A
Application number: CN202180099322.4A
Authority: CN
Inventors: 李帅; 席欣; 高艳博; 元辉; 李明
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2024-01-30
Also published as: WO2023024115A1

Abstract

本申请实施例提供了一种编码方法、解码方法、编码器、解码器和解码***。该编码方法包括：获取第一图像中的编码块的第一划分信息；根据第一图像和第一划分信息，对机器学习模型进行更新，其中，该机器学习模型是根据编码块样本进行预先训练得到的，该编码块样本包括编码块的像素信息和划分信息；将第二图像输入更新后的机器学习模型，以得到第二图像的编码块的第二划分信息，并根据该第二划分信息，对第二图像进行编码。本申请实施例通过对已经训练好的深度学习模型进行更新，能够使得深度学习模型对于第一图像所在的图像序列达到更好的拟合度，从而有助于寻找到当前模型对当前测试序列的全局最优解，有利于进一步提高机器学习模型的准确率。

Description

编码方法、解码方法、编码器、解码器和解码***

技术领域

本申请实施例涉及视频编解码领域，并且更具体地，涉及编码方法、解码方法、编码器、解码器和解码***。

背景技术

高效视频编码(High Efficiency Video Coding，HEVC)，也称H.265，相比于其上一代视频编码标准H.264，降低了约50％的比特率，但是极大的增加了时间复杂度。同时，HEVC中的编码单元(Coding Unit，CU)的四叉树分割过程占据了相当大的时间消耗。因此，对于该四叉树分割过程加以改进，可以极大的降低时间开销。

目前，可以采用神经网络模型来进行CU的四叉树分割，例如可以基于大的数据集，采用离线学习的方法训练得到一个可以普遍解决CU划分的模型，以应用到更多的测试数据集上。但是，该类模型在测试数据集上的准确率较低。

发明内容

提供了一种编码方法、解码方法、编码器、解码器和解码***，能够提高编码的准确率。

第一方面，提供了一种编码方法，该方法包括：

获取第一图像中的编码块的第一划分信息；

根据所述第一图像和所述第一划分信息，对机器学习模型进行更新，其中，所述机器学习模型是根据编码块样本进行预先训练得到的，所述编码块样本包括编码块的像素信息和划分信息。

将第二图像输入更新后的机器学习模型，以得到所述第二图像的编码块的第二划分信息，并根据所述第二划分信息，对所述第二图像进行编码。

第二方面，提供了一种解码方法，包括：

获取码流，所述码流是采用机器学习模型进行编码得到的，所述机器学习模型是根据编码块样本进行预先训练得到的，并且所述机器学习模型基于第一图像和第一图像中的编码块的第一划分信息进行了更新，其中，所述编码块样本包括编码块的像素信息和划分信息；

对所述码流进行解析，得到第二图像。

第三方面，提供了一种编码器，包括：

第一处理单元，用于获取第一图像中的编码块的第一划分信息；

模型更新单元，用于根据所述第一图像和所述第一划分信息，对机器学习模型进行更新，其中，所述机器学习模型是根据编码块样本进行预先训练得到的，所述编码块样本包括编码块的像素信息和划分信息；

第二处理单元，用于将第二图像输入更新后的机器学习模型，以得到所述第二图像的编码块的第二划分信息，并根据所述第二划分信息，对所述第二图像进行编码。

第四方面，提供了一种解码器，包括：

获取单元，用于获取码流，所述码流是采用机器学习模型进行编码得到的，所述机器学习模型是根据编码块样本进行预先训练得到的，并且所述机器学习模型基于第一图像和第一图像中的编码块的第一划分信息进行了更新，其中，所述编码块样本包括编码块的像素信息和划分信息；

解析单元，用于对所述码流进行解析，得到第二图像。

第五方面，提供了一种电子设备，包括处理器和存储器。所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行上述第一方面或其各实现方式中的方法，或执行上述第二方面或其各实现方式中的方法。

第六方面，提供了一种编码器，包括处理器和存储器。所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行上述第一方面或其各实现方式中的方法。

第七方面，提供了一种解码器，包括处理器和存储器。所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行上述第二方面或其各实现方式中的方法。

第八方面，提供了一种芯片，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如上述第一方面中任一方面或其各实现方式中的方法，或第二方面中任一方面或其各实现方式中的方法。

第九方面，提供了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序使得计算机执行上述第一方面中任一方面或其各实现方式中的方法，或第二方面中任一方面或其各实现方式中的方法。

第十方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令使得计算机执行上述第一方面中任一方面或其各实现方式中的方法，或第二方面中任一方面或其各实现方式中的方法。

第十一方面，提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面中任一方面或其各实现方式中的方法，或第二方面中任一方面或其各实现方式中的方法。

因此，本申请实施例中，通过获取第一图像的编码块的划分信息，并根据该第一图像和划分信息对已经训练好的机器学习模型进行在线更新，能够使得机器学习模型对于第一图像所在图像序列达到更好的拟合度，有利于寻找到机器学习模型在当前测试序列的全局最优解，从而有助于提高机器学习模型对第二图像编码的准确率。

附图说明

图1是四叉树分割算法的一个示例；

图2是一种HEVC编码器的网络架构的示意性框图；

图3是本申请实施例提供的一种编码方法的示意性流程图；

图4是本申请实施例中的标准YUV序列的前10帧图像帧的一个示例；

图5是本申请实施例提供的神经网络模型的网络架构的一个示例；

图6是本申请实施例提供的编码方法的另一个示例；

图7是本申请实施例提供的另一种编码方法的示意性流程图；

图8是本申请实施例提供的一种解码方法的示意性流程图；

图9是本申请实施例提供的编码器的示意性框图；

图10是本申请实施例提供的解码器的示意性框图；

图11是本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。针对本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请实施例涉及的相关术语进行描述。

编码树单元(Coding Tree Units，CTU)：在HEVC或多功能视频编码(Versatile Video Coding，VVC)编码器中，将编码图像帧分为若干编码树块(Coding Tree Blocks，CTB)，CTB是进行预测、变换、量化和熵编码等处理的基本单元，其尺寸或者包含的像素可以为64×64，32×32或16×16。同一位置的亮度CTB和两块色度CTB，再加上相应的语法元素形成一个CTU。同理，CTU的尺寸或者包含的像素可以为64×64，32×32或16×16等，一般默认为64x64。

编码单元(Coding Unit，CU)：CTU可以按照四叉树结构分解为若干CU。示例性的，同一层次的CU可以是同一尺寸的4个方块。示例性的，CTU可以进行最多4层分解，得到尺寸或者包含的像素为64×64，32×32，16×16或8×8的CU。如果不分解，则一个CTU包含一个CU。

CU是最小的编码单元，是后续的一系列处理的基本。作为示例，在图像比较平缓的区域，可以选择较大的CU划分尺寸，而在图像边缘或纹理复杂的区域，可以选择较小的CU划分尺寸，以有利于提高编码效率。

在一具体实现方式中，可以采用四叉树分割算法来确定CU的划分模式。

图1示出了HEVC或VVC中原始的编码器的四叉树分割算法的一个示例。该四叉树分割算法是率失真优化(Rate-Distortion Optimized，RDO)过程，是一种不断递归的复杂算法。如图2所示，对于一个64×64的CTU，首先将其作为一个CU进行编码，计算其最佳的预测模式并记录。然后，将该64×64的CU进行四叉划分为4个32×32大小的CU，依次递归地对该4个32×32的CU进行递归四叉树划分。

具体而言，可以先计算第一个32×32的CU的最佳预测模式，并记录。然后对其继续进行四叉树分割为4个16×16大小的CU，对16×16大小的CU重复以上操作，即分别记录每个CU的最佳预测模式。当第一个32×32大小的CU四叉树分割的第一个16×16大小的CU的4个8×8大小的CU的最佳预测模式记录完毕之后，计算4个8×8大小的CU的率失真代价(Rate-Distortion Optimized cost，RDcost)，并计算该4个8×8大小的CU的父16×16大小的CU的RDcost，进行比较。如果前者小于后者，当前16×16大小的CU进行划分，否则不划分。同时记录当前划分的率失真代价RDcost为该16×16大小的CU的RDcost，之后同样的方式计算其他3个16×16大小的CU块的RDcost，不断向上比较，确立最终的划分。在图1中，标号(1)至(7)表示算法遍历的CU的一部分顺序。

图2示出了一种HEVC编码器200的网络架构的示意性框图。如图2所示，HEVC编码器200可以包括四个模块，分别为预测模块210、变换和量化模块220、反量化、反变换和滤波模块230和熵编码器240。

其中，预测模块210包括帧内估计211、帧内预测212、运动补偿213和运动评估214，其中帧内估计211和帧内预测212用于消除时间冗余，运动补偿213和运动评估214属于帧间预测范畴，主要用来消除时间冗余。变换和量化模块220的输入是原始图像和由预测模块210输出后的图像的残差，变换的目的是将残差数据从时域转化为频域，同时将能量集中在低频区域。量化将连续的变化系数映射为离散值，目的是为了减少经过变换后的残差信号的较大的动态范围，从而实现更好的压缩。反量化、反变换和滤波模块230是一个完整的解码器，其输入是经过量化和变换后的码流，目的是为了给预测模块210提供参考帧。熵编码器240输入是前面模块(例如预测模块210、变换和量化模块220和反量化、反变换和滤波模块230)编码产生和用到的所有信息，目的是运用信息熵的原理将这些信息无损压缩成可以传输的码流。

在HEVC编码器200的帧内预测212部分，需要对编码帧进行CU划分，确定CTU的最佳的CU划分模式。当前，可以采用神经网络模型代替复杂的RDO算法，来进行CU的四叉树分割。由于RDO是一个自上而下的遍历，又自下而上递归的递归算法，即一个输入的CTU中的所有64×64，32×32，16×16，8×8的CU都被遍历并计算了一遍，但这些CU中有的CU最终不是要确定划分，因此理论上可以不进行预测模式的搜索和RDcost的计算，这导致RDO算法的时间复杂度极高。

可以理解的是，本申请实施例以图2中的HEVC编码器的网络架构为例进行描述，但是本申请实施例并不限于此，例如本申请实施例的方案还可以应用于图2中的网络架构的变形的场景，或者是其他编码器，例如VVC编码器等，不做限定。

通常，相邻区域内的CU之间往往有很强的相关性，而机器学习模型可以有效利用CU和CU间的空间相关性更好地确定当前CU的划分模式，而不仅仅只是通过单一而繁琐的Rdcost作为CU是否划分的判定标准。因此，采用机器学习模型进行CU的划分能够有效减少时间消耗，降低时间复杂度。

但是，现有的机器学习模型往往基于大的数据集，采用离线学习的方法训练得到一个可以普遍解决CU划分的模型，从而可以应用到更多的测试数据集上。该离线学习的训练模型的过程中，主要的目的是为了寻找全局最优解，即符合训练中大的数据集的一个最优解，而在需要对标准测试序列进行测试时，这个大的模型上的全局最优解，就不一定是应用于该标准测试序列的全局最优解了。因此，在对标准测试序列进行测试时，还可以进一步提升模型的准确率。

有鉴于此，本申请实施例提供了一种编码方案，为了使得已经训练好的机器学习模型可以在标准测试序列中取得全局最优解，可以采用在线学习的学习机制对机器学习模型进行更新。也就是说，在进行标准测试序列测试的过程中，可以将一部分测试数据来更新已经训练好的机器学习模型，从而使得机器学习模型学习到当前标准测试序列的特征，从而有助于寻找到当前模型的在当前标准测试序列下的全局最优解，使得模型对于当前标准测试序列达到一个更高的拟合度，从而有利于进一步提升模型在当前标准测试序列上的准确率。

图3示出了本申请实施例提供的一种编码方法300的示意性流程图。示例性的，该编码方法300可以应用于图2中的HEVC编码器中，不做限定。如图3所示，方法300包括步骤310至330。

310，获取第一图像中的编码块的第一划分信息。

示例性的，可以采用RDO算法获取第一图像中的编码块的第一划分信息。这里，RDO算法即为HEVC或VVC中原始的HM编码器中的编码块划分算法。也就是说，可以基于RDO算法进行四叉树分割，获取第一图像中的编码块的第一划分信息。

作为示例，编码块可以为CTU，或CU，不做限定，划分信息可以为CU划分信息，或PU划分信息，不做限定。示例性的，可以采用RDO算法获取第一图像中的全部或部分CTU，并获取每个CTU的CU划分信息，作为第一图像的编码块的划分信息。作为一个具体的例子，一个CTU的CU划分信息可以表示为一个大小为16的向量，这些向量的值可以取[0,1,2,3]，用来表示CU划分的深度。

具体的，采用RDO算法获取划分信息可以参见上文图1中的描述，这里不再赘述。

在一些可选的实施例中，第一图像可以为图像序列中的帧，例如第N帧图像，N为自然数。其中，图像序列也可以称为视频序列，为标准测试序列。示例性的，图像序列中可以包含多个帧，其中帧的帧号可以根据帧在图像序列中的排序确定，该排序例如可以按照拍摄的先后顺序确定，不做限定。

作为具体的例子，图像序列可以为YUV序列，比如HEVC或者VVC的标准YUV测试序列。图4示出了标准YUV测试序列的前10帧图像帧的一个示例。从图4中可以看出，从第1帧到第10帧的视频内容具有很大的相似性，区别仅仅在于少数位置的变化。

在一些可选的实施例中，N为L的整数倍，L为大于1的整数。也就是说，第一图像可以为每多个帧中的第一帧，例如可以将图像序列中的每N帧的第一帧作为第一图像。其中N为大于1的正整数。作为一个具体的例子，当N＝10时，可以将帧号为0,10,20,30,40……等10整数倍的帧分别作为第一图像。

320，根据所述第一图像和所述第一划分信息，对机器学习模型进行更新，其中，所述机器学习模型是根据编码块样本进行预先训练得到的，所述编码块样本包括编码块的像素信息和划分信息。也就是说，可以将第一图像和第一划分信息作为该机器学习模型的在线学习更新训练的样本。

作为示例，该机器学习模型例如可以为决策树、贝叶斯分类器、支持向量机(Support Vector Machines,SVM)、卷积神经网络模型等，不做限定。

具体而言，在没有执行步骤320，即没有根据第一图像和第一划分信息，对该机器学习模型进行更新之前，该机器学习模型是基于大的数据集，并采用离线学习的方法训练得到的一个可以普遍解决编码块划分问题的模型，该机器学习模型的全局最优解是一个符合训练中的大的数据集的一个最优解，并不一定是应用于标准测试序列，例如上述图像序列的全局最优解。

以下，以机器学习模型为卷积神经网络模型为例，对模型的在线学习更新过程进行描述。

图5示出了卷积神经网络模型的网络架构的一个示例。下面将结合图5描述对卷积神经网络模型进行更新的一个示例。如图5所示，该卷积神经网络模型可以为提前终止的卷积神经网络(early terminated hierarchical CNN，ETH-CNN)，包括去均值和下采样层、卷积层、汇聚层和全连接层。去均值和下采样层也可以称为预处理层，不做限定。示例性的，在图5中以编码块为CTU，划分信息为CU划分信息为例进行描述。

其中，该ETH-CNN的输入为一个CTU的亮度分块，大小例如为64×64，例如可以为上述CTU。

首先，对该CTU进行去均值和下采样处理(也可以称为预处理)得到三个不同大小的CTU，分别为16×16,32×32,64×64。这三个CTU分别对应三个层级，比如层级1(level 1)、层级2(level 2)和层级3(level 3)。

然后，可以将上述三个不同大小的CTU分别输入到三个层级对应的卷积层中，比如将16×16的CTU输入到层级1的卷积层，将32×32的CTU输入到层级2的卷积层，将64×64的CTU输入到层级3的卷积层。卷积层的目的是为了提取特征，例如空间纹理特征。

示例性的，层级1可以包括三层卷积层，每层卷积层的卷积核的大小可以为4×4×16，2×2×24，1×1×32，另外每层卷积层后面可以紧跟一个leakyRelu作为激活函数。同样的，层级2可以包括三层卷积层，每层卷积层的卷积核的大小可以为8×8×16，4×4×24，2×2×32，层级3可以包括3层卷积层，每层卷积层的卷积核的大小可以为16×16×16，8×8×24，8×8×32，并且该在层级2和层级3中，每一个卷积层后面同时紧跟leakyRelu作为激活函数。

之后，将每个层级的第三层卷积层的输出，以及每个层级的第二层卷积层的输出重新构建为一维向量，扁平化连接在一起，形成汇聚层。也就是说，汇聚层能够将每一个层级的后两个卷积层连接在一起形成一个一维向量，便于全连接层的处理。

汇聚层后面紧跟全连接层，全连接层能够提取全局特征。示例性的，层级一的每一层全连接层的大小为64，48，1，其中1的设定对应着1个64×64的CU是否划分，层级二每一层全连接层的大小为128，96，4，其中4的设定对应着4个32×32的CU是否划分，层级三每一层全连接层的大小为256，192，16，其中16的设定对应着16个16×16的CU是否划分。

在一可选的实施例中，在每一个层级的第一层全连接层和第二层全连接层中，可以将量化参数QP的值作为输入，这样能够使得全连接层能够适应不同的QP。其中，不同的QP对于CTU的划分结果有着不同的影响，例如更大的QP往往意味着更大尺寸的CU被划分。

另外，在一些实施例中，对于每个层级，除了最后一个全连接层之外的其他全连接层的激活函数为leakyRelu，最后一个全连接层紧跟sigmod损失函数，这样能够将每个层级最后输出的结果归一化到[0,1]之间。示例性的，层级一的输出是大小为1的向量，代表模型对于64×64的CU块的预测值，层级二的输出是大小为4的向量，代表模型对于4个32×32的CU块的预测值，层级三的输出是大小为16的向量，代表模型对于16个16×16的CU块的预测值，这些向量的值的范围在[0,1]之间。具体而言，若当前预测值大于0.5，则表示该预测值对应的CU进行划分，否则不划分。

在一些可选的实施例中，如果当前层级一的预测值表示不划分，则模型的预测过程提前终止，不再进行后续子块是否划分的判定。层级二同理。因此，通过该提前终止策略，能够有利于进一步降低模型的时间复杂度。

作为具体的例子，本申请实施例的模型可以具有更少的训练参数(比如1287189个)，从而能够在保证模型本身的拟合能力的同时，大大的小于大多数同样深度的模型。

因此，本申请实施例中，卷积神经网络模型通过提取CTU的特征进行学习，能够利用CU和CU之间的空间相关性更好地确定当前CU的划分模式，而不是仅仅只通过单一而又繁琐的RDcost去作为判断CU划分的标准，因此能够降低CU划分的时间复杂度。

需要说明的是，本申请实施例以图5中的卷积神经网络模型为例进行描述，但本申请实施例并不限于此。例如，对图5中的卷积神经网络模型的架构进行变换依然能够实现本申请实施例的方案，则这样的变换仍然落入本申请实施例的保护范围。例如，可以对图5中模型的第一层、第二层或第三层进行适当的简化等。

在一些可选的实施例中，作为对机器学习模型进行更新的一个具体的实现方式，可以将上述第一图像的编码块输入预处理层，以对该编码块进行下采样处理得到至少一个块，该至少一个块可以是不同尺寸大小的块。然后，将该至少一个块分别输入与之对应的至少一个卷积层，以对该至少一个块分别提取特征。然后，将该至少一个块的经卷积层提取后的特征输入汇聚层，以将该至少一个CTU的特征连接形成一维向量。之后，将该一维向量分别输入与至少一个全连接层，以得到与该至少一个块的预测值，该预测值表示所述机器学习模型对块的预测划分信息。

示例性的，至少一个块中的每个块可以对应一个卷积层，一个全连接层，例如至少一个块可以与至少一个卷积层一一对应，至少一个卷积层与至少一个全连接层一一对应，不做限定。其中，一个卷积层和对应的全连接层可以包含在同一层级中。

最后，根据该预测值与第一划分信息，对上述卷积层和/或全连接层的参数进行更新。

作为一个具体的示例，以深度学习模型为图5所示的ETH-CNN为例，上述第一CTU的尺寸或像素大小可以为64×64，对应的经过预处理得到三个下采样块，尺寸分别为64×64，32×32，16×16，相应的能够得到对应于三个尺寸的1,4,16大小的向量作为预测值，分别代表模型对于1个64×64，4个32×32，以及16个16×16的CU预测的划分信息。之后，可以根据该预测值和步骤310中得到的CU划分信息，对图5中卷积神经网络模型的参数，例如卷积层或全连接层的参数进行更新，例如可以采用误差反向传播算法更新参数。示例性的，可以利用误差反向传播算法，最小化损失函数，并将损失函数最小时对应的模型的参数作为更新后的卷积神经网络模型的参数，本申请对此不作限定。

本申请实施例中，在步骤320之后，即根据第一图像和第一图像划分信息，对该机器学习模型进行更新之后，该机器学习模型能够学习到第一图像的特征，从而能够有助于对第一图像所在的图像序列能够达到一个更好的拟合度，从而有助于寻找到当前机器学习模型对于该第一图像所在图像序列的全局最优解，有利于进一步提升机器学习模型在该图像序列上的准确率。

在一些可选的实施例中，还可以根据上述划分信息，例如通过HM编码器得到的原始的CU划分信息，对第一图像进行编码。示例性的，可以采用图2中的网络架构中的帧内预测部分，对该第一图像进行编码，本申请对此不做限定。

330，将第二图像输入更新后的机器学习模型，以得到所述第二图像的编码块的第二划分信息，并根据所述第二划分信息，对所述第二图像进行编码。

示例性的，第二图像可以为图像序列中与第一图像不同的帧，例如第M帧图像，M为自然数。作为一个示例，第二图像可以为第一图像的后续帧，例如每多个帧中的第一帧的后续一帧或多帧。也就是说，可以使用更新后的机器学习模型对图像序列中每多个帧的后续帧进行编码。作为一个具体的例子，可以将图像序列中除帧号为0,10,20,30,40……等10整数倍的帧之外的图像作为第二图像，输入至更新后的机器学习模型中进行编码。

示例性的，可以获取第二图像的全部或部分CTU，并将该全部或部分CTU输入上述机器学习模型，得到每个CTU的CU划分信息，作为第二图像的编码块的划分信息。之后，可以根据该第二图像的编码块的划分信息，对第二图像进行编码。示例性的，机器学习模型可以为图5所示的卷积神经网络模型。

因此，本申请实施例中，通过采用率失真优化RDO算法得到第一图像的编码块的划分信息，并根据该第一图像和划分信息对已经训练好的机器学习模型进行在线更新，能够使得机器学习模型对于第一图像所在图像序列达到更好的拟合度，有利于寻找到机器学习模型在当前测试序列的全局最优解，从而有助于提高机器学习模型对第二图像编码的准确率。

在一些可选的实施例中，可以将图像序列中的每多个帧作为在线更新模型的一个循环。多个帧的帧数不做限定。作为一种可能的实现方式，可以将图像序列中的每N的整数倍的图像帧的第一帧确定为在线更新训练的样本，每N帧中除第一帧以外的帧使用更新好的模型进行编码，其中N为大于1的正整数。作为一个具体的例子，当N＝10时，可以将帧号为0,10,20,30,40……等10整数倍的图像帧作为在线更新训练模型的样本。除此以外的帧直接利用更新好的模型进行编码。

如图6所示，本申请实施例提供的编码方法，可以分为两个阶段，第一个阶段是在线更新模型的阶段，第二个阶段是实时应用模型的阶段。以N为10为例，在第一阶段中，对每10帧的第1帧，首先根据原始的RDO算法计算CTU的CU划分信息(可以称为原始CU信息)并进行编码，并将该CTU和CU划分信息作为模型的输入训练模型，得到一个在线更新的模型。在第二阶段中，对前10帧中位编码的后9帧，直接使用第一阶段的已经在线更新过的模型进行编码。这样，在经过第一阶段的在线训练的模型更新之后，获得的新的模型能够对当前图像序列的后续9帧图像产生更好的效果。

可选的，后续的每N帧可以再不断重复这样一个阶段一、阶段二的过程。

因此，在本申请实施例中，每N帧对神经网络模型进行更新一次的策略可以使得模型可以不断适应图像序列后续帧的内容变化，可以进一步增加模型对于当前图像序列的效果。

示例性的，对于图4所示的图像序列的10帧图像帧，其视频内容具有很大的相似性，本申请通过对该10帧图像的第1帧图像去训练更新模型，然后利用更新后的模型来对后九帧图像预测CU划分信息以进行编码，利用这样一种相似性，本申请实施例能够获得比原有模型更好的结果。

作为具体的例子，本申请实施例中，测试序列可以为HM标准测试序列，在encoder_intra_main.cfg下进行编码，QP为{22,27,32,37}，输入数据为使用HM16.5提取出来的当前编码序列每第10帧的数据和CU划分信息在线进行更新。因为模型中第三层本身在测试序列中占比很小，且第三层的预测准确率对时间复杂度的影响要小于第一层，第二层的影响。因此，鉴于本身更小的数据量无法获得第三层准确率的在线提升，本申请的方法只对一，二层的网络参数进行训练，而可以不对第三层进行训练。

在仅仅增加了很少的时间复杂度的情况下，使用本申请实施例的编码方法可以有以下增益效果：

本申请实施例增加了较小的时间复杂度，但是换来了较高的模型准确率的提升，第一二层准确率对于编码的结果影响更大，因为第一层决定是否划不划分，直接影响到第二，第三层是否进行下去(因为提前终止策略)，同样地，第二层的准确率，直接影响到第三层是否进行下去。因此本申请实施例可以更好的提升模型。

如表1所示，展示了QP22情况下本申请实施例的网络和原来的网络的效果对比。可以看到，第一层，第二层的准确率获得了很大的提升。其中对于第一层，classA分别提升了大约3％和6％，classB最低提升了3％，最高甚至达到了7％，对于classC，由于模型本身就具有99.99％以上的准确率，因此本申请实施例在这些序列中，效果不大。可以更为明显的看到对于classD，本申请实施例达到了大约30％和21％的提升。对于第二层，可以看到，对于classA，分别是1％的下降和1.3％的提升。对于classB，除了一个序列获得了1.5％的下降外，其他的几个序列均获得了1％到5％的提升。另外其他几个class也获得了很好的提升。

表1

(ori表示原始模型，ours表示本申请实施例提供的模型)

图7示出了本申请实施例提供的另一种编码方法700的示意性流程图。示例性的，方法700可以应用于图2所示的编码器中，不做限定。如图7所示，方法700包括707至707。

应理解，图7示出了编码方法的步骤或操作，但这些步骤或操作仅是示例，本申请实施例还可以执行其他操作或者图7中的各个操作的变形。此外，图7中的各个步骤可以按照与图7呈现的不同的顺序来执行，并且有可能并非要执行图7中的全部操作。

701，输入已训练好的模型和YUV序列。

示例性的，可以输入已经训练好的ETH-CNN模型和当前要编码的YUV序列。这里，该ETH-CNN模型可以为图2中深度学习模型的一个示例，YUV序列可以为图像序列的一个示例。具体的，ETH-CNN模型、YUV序列可以参见上文中的描述，不再赘述。

702，当前帧％10＝＝0？

具体的，可以判断当前编码的YUV帧是否是10的倍数，即判断当前YUV帧是否是第0帧、第10帧、第20帧等等。

703，使用HM编码当前帧并提取CU划分信息和当前帧像素信息。

具体而言，如果当前帧是10的倍数，则执行步骤703，即使用HEVC原始的HM编码器对当前帧编码，并提取CU划分信息，同时提取当前帧的像素信息，该CU划分信息和当前帧的像素信息可以作为ETH-CNN模型的输入。这里，HM编码器采用的是原始的RDO算法来获取CU划分信息。

704，训练1个epoch并更新当前模型。

具体而言，可以将步骤703中得到的CU划分信息和当前帧的像素信息作为模型的输入来训练更新模型。示例性的，模型的预处理模块可以根据该当前帧的像素信息，得到CTU。具体的，训练更新模型的过程可以参见上文中的描述，不再赘述。

可选的，这里每次训练可以训练一个轮次，以使得模型可以具有较低的时间复杂度。

705，使用当前模型来编码当前帧。

具体而言，如果当前帧不是10的倍数，则执行步骤705，即使用当前的ETH-CNN模型生成CU划分信息并进行编码。具体的，使用ETH-CNN模型生成CU划分信息的过程可以参见上文中的描述，不再赘述。

706，是否最后一帧？

具体的，可以判断当前帧是否是YUV序列中的最后一帧。当达到最后一帧时，编码完毕。当不是最后一帧时，执行步骤707。

707，开始编码下一帧。也就是说，可以对于下一帧执行步骤702至706的步骤。

可选的，编码结束后，可以计算最后的编码时间和BD-BR。这里，编码时间可以用来比较本申请实施例提供的模型使用前后时间复杂度的增加和减少情况，BD-BR用来比较编码的质量的变化。

因此，本申请实施例中，通过采用率失真优化RDO算法得到YUV序列中的YUV帧的CTU的CU划分信息，并根据该CU划分信息对已经训练好的ETH-CNN模型进行更新，能够使得ETH-CNN模型对于当前YUV序列达到更好的拟合度，从而有助于寻找到当前ETH-CNN模型在该YUV序列上的全局最优解，有利于进一步提高ETH-CNN模型在该YUV序列上的准确率。

图8示出了本申请实施例提供的一种解码方法800的示意性流程图。如图8所示，方法800包括步骤810和820。

810，获取码流，所述码流是采用机器学习模型进行编码得到的，所述机器学习模型是根据编码块样本进行预先训练得到的，并且所述机器学习模型基于第一图像和第一图像中的编码块的第一划分信息进行了更新，其中，所述编码块样本包括编码块的像素信息和划分信息。

820，对所述码流进行解析，得到第二图像。

在一些可选的实施例中，所述第一图像为图像序列中的第N帧图像，所述第二图像为所述图像序列中的第M帧图像，其中，N、M为自然数，N与M不相等。

在一些可选的实施例中，，其特征在于，N为L的整数倍，L为大于1的整数。

在一些可选的实施例中，其特征在于，所述机器学习模型包括神经网络模型，所述神经网络模型包括预处理层、至少一个卷积层、汇聚层和至少一个全连接层。

在一些可选的实施例中，，所述编码块为编码树单元CTU。

在一些可选的实施例中，所述第一划分信息是基于率失真优化RDO算法获取的。

应理解，解码方法800中的步骤可以参考编码方法300或700中的相应步骤，为了避免重复，在此不再赘述。

以上结合附图详细描述了本申请的具体实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文结合图1至图8，详细描述了本申请的方法实施例，下文结合图9至图11，详细描述本申请的装置实施例。

图9是本申请实施例的编码器900的示意性框图。如图9所示，所述编码器900可包括第一处理单元910、模型更新单元920和第二处理单元930。

第一处理单元910，用于获取第一图像中的编码块的第一划分信息；

模型更新单元920，用于根据所述第一图像和所述第一划分信息，对机器学习模型进行更新，其中，所述机器学习模型是根据编码块样本进行预先训练得到的，所述编码块样本包括编码块的像素信息和划分信息；

第二处理单元930，用于将第二图像输入更新后的机器学习模型，以得到所述第二图像的编码块的第二划分信息，并根据所述第二划分信息，对所述第二图像进行编码。

可选的，所述机器学习模型包括神经网络模型，所述神经网络模型包括预处理层、至少一个卷积层、汇聚层和至少一个全连接层。

可选的，模型更新单元920具体用于：

将所述第一图像的编码块输入所述预处理层，以对所述编码块进行下采样处理得到至少一个块；

将所述至少一个块分别输入所述至少一个卷积层，以分别对所述至少一个块提取特征；

将所述至少一个块的特征输入所述汇聚层，以将所述至少一个块的特征连接形成一维向量；

将所述一维向量分别输入所述至少一个全连接层，以得到所述至少一个块的预测值，所述预测值表示所述卷积神经网络模型对所述块的预测划分信息；

根据所述至少一个块的预测值和所述第一划分信息，对所述卷积层和/或所述全连接层的参数进行更新。

可选的，所述编码块的尺寸为64×64，所述至少一个块包括三个块，所述三个块的尺寸分别为64×64、32×32、16×16。

可选的，所述第一图像为图像序列中的第N帧图像，所述第二图像为所述图像序列中的第M帧图像，其中，N、M分别为自然数，N与M不相等。

可选的，N为L的整数倍，L为大于1的整数。

可选的，所述编码块为编码树单元CTU。

可选的，所述第一划分信息是基于率失真优化RDO算法获取的。

应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图9所示的编码器900可以对应于执行本申请实施例的方法200或方法700中的相应主体，并且编码器900中的各个模块的前述和其它操作和/或功能分别为了实现图3中的各个方法，或图7中的方法中的相应流程，为了简洁，在此不再赘述。

图10是本申请实施例的解码器1000的示意性框图。如图10所示，所述解码器1000可包括获取单元1010和解析单元1020。

获取单元1010，用于获取码流，所述码流是采用机器学习模型进行编码得到的，所述机器学习模型是根据编码块样本进行预先训练得到的，并且所述机器学习模型基于第一图像和第一图像中的编码块的第一划分信息进行了更新，其中，所述编码块样本包括编码块的像素信息和划分信息。

解析单元1020，用于对所述码流进行解析，得到第二图像。

在一些可选的实施例中，N为L的整数倍，L为大于1的整数。

在一些可选的实施例中，所述机器学习模型包括神经网络模型，所述神经网络模型包括预处理层、至少一个卷积层、汇聚层和至少一个全连接层。

应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图10所示的解码器1000可以对应于执行本申请实施例的方法800中的相应主体，并且解码器1000中的各个模块的前述和其它操作和/或功能分别为了实现图8中的各个方法，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置和***。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

如图11是本申请实施例提供的电子设备1100的示意性框图。

如图11所示，该电子设备1100可包括：

存储器1110和处理器1120，该存储器1110用于存储计算机程序，并将该程序代码传输给该处理器1120。换言之，该处理器1120可以从存储器1110中调用并运行计算机程序，以实现本申请实施例中的编码方法。

例如，该处理器1120可用于根据该计算机程序中的指令执行上述方法300中的步骤。

在本申请的一些实施例中，该处理器1120可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器1110包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器1110中，并由该处理器1120执行，以完成本申请提供的编码方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备1000中的执行过程。

可选的，如图11所示，该电子设备1100还可包括：

收发器1130，该收发器1130可连接至该处理器1120或存储器1110。

其中，处理器1120可以控制该收发器1130与其他设备进行通信，具体地，可以向其他设备发送信息或数据，例如发送码流，或接收其他设备发送的信息或数据，例如接收码流。收发器1130可以包括发射机和接收机。收发器1130还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备1100中的各个组件通过总线***相连，其中，总线***除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

根据本申请的一个方面，提供了一种编码器，包括处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行所述存储器中存储的计算机程序，使得所述编码器执行上述方法实施例的编码方法。

根据本申请的一个方面，提供了一种解码器，包括处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行所述存储器中存储的计算机程序，使得所述解码器执行上述方法实施例的解码方法。

根据本申请的另一方面，还提供了一种编解码***，包括上述编码器以及该编码器对应的解码器。

根据本申请的一个方面，提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

根据本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例的方法。

换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

综上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

一种编码方法，其特征在于，包括：

获取第一图像中的编码块的第一划分信息；

根据所述第一图像和所述第一划分信息，对机器学习模型进行更新，其中，所述机器学习模型是根据编码块样本进行预先训练得到的，所述编码块样本包括编码块的像素信息和划分信息；

将第二图像输入更新后的机器学习模型，以得到所述第二图像的编码块的第二划分信息，并根据所述第二划分信息，对所述第二图像进行编码。
根据权利要求1所述的方法，其特征在于，所述第一图像为图像序列中的第N帧图像，所述第二图像为所述图像序列中的第M帧图像，其中，N、M为自然数，N与M不相等。
根据权利要求2所述的方法，其特征在于，N为L的整数倍，L为大于1的整数。
根据权利要求1-3任一项所述的方法，其特征在于，所述机器学习模型包括神经网络模型，所述神经网络模型包括预处理层、至少一个卷积层、汇聚层和至少一个全连接层。
根据权利要求4所述的方法，其特征在于，根据所述第一图像和所述第一划分信息，对机器学习模型进行更新，包括：

将所述第一图像的编码块输入所述预处理层，以对所述编码块进行下采样处理得到至少一个块；

将所述至少一个块分别输入所述至少一个卷积层，以分别对所述至少一个块提取特征；

将所述至少一个块的特征输入所述汇聚层，以将所述至少一个块的特征连接形成一维向量；

将所述一维向量分别输入所述至少一个全连接层，以得到所述至少一个块的预测值，所述预测值表示所述卷积神经网络模型对所述块的预测划分信息；

根据所述至少一个块的预测值和所述第一划分信息，对所述卷积层和/或所述全连接层的参数进行更新。
根据权利要求5所述的方法，其特征在于，所述编码块的尺寸为64×64，所述至少一个块包括三个块，所述三个块的尺寸分别为64×64、32×32、16×16。
根据权利要求1-6任一项所述的方法，其特征在于，所述编码块为编码树单元CTU。
根据权利要求1-7任一项所述的方法，其特征在于，所述第一划分信息是基于率失真优化RDO算法获取的。
一种解码方法，其特征在于，包括：

获取码流，所述码流是采用机器学习模型进行编码得到的，所述机器学习模型是根据编码块样本进行预先训练得到的，并且所述机器学习模型基于第一图像和第一图像中的编码块的第一划分信息进行了更新，其中，所述编码块样本包括编码块的像素信息和划分信息；

对所述码流进行解析，得到第二图像。
根据权利要求9所述的方法，其特征在于，所述第一图像为图像序列中的第N帧图像，所述第二图像为所述图像序列中的第M帧图像，其中，N、M为自然数，N与M不相等。
根据权利要求10所述的方法，其特征在于，N为L的整数倍，L为大于1的整数。
根据权利要求9-11任一项所述的方法，其特征在于，所述机器学习模型包括神经网络模型，所述神经网络模型包括预处理层、至少一个卷积层、汇聚层和至少一个全连接层。
根据权利要求9-12任一项所述的方法，其特征在于，所述第一划分信息是基于率失真优化RDO算法获取的。
一种编码器，其特征在于，包括：

第一处理单元，用于获取第一图像中的编码块的第一划分信息；

模型更新单元，用于根据所述第一图像和所述第一划分信息，对机器学习模型进行更新，其中，所述机器学习模型是根据编码块样本进行预先训练得到的，所述编码块样本包括编码块的像素信息和划分信息；

第二处理单元，用于将第二图像输入更新后的机器学习模型，以得到所述第二图像的编码块的第二划分信息，并根据所述第二划分信息，对所述第二图像进行编码。
一种解码器，其特征在于，包括：

获取单元，用于获取码流，所述码流是采用机器学习模型进行编码得到的，所述机器学习模型是根据编码块样本进行预先训练得到的，并且所述机器学习模型基于第一图像和第一图像中的编码块的第一划分信息进行了更新，其中，所述编码块样本包括编码块的像素信息和划分信息；

解析单元，用于对所述码流进行解析，得到第二图像。
一种编解码***，其特征在于，包括：：

根据权利要求14所述的编码器；以及

根据权利要求15所述的解码器。
一种电子设备，其特征在于，包括处理器和存储器；

所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，使得所述电子设备执行如权利要求1-8任一项所述的方法，或如权利要求9-13任一项所述的方法。
一种芯片，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如权利要求1-8任一项所述的方法，或如权利要求9-13任一项所述的方法。
一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1-8任一项所述的方法，或如权利要求9-13任一项所述的方法。