CN106063268A

CN106063268A - 将视频数据从h.264转码成h.265的方法和设备

Info

Publication number: CN106063268A
Application number: CN201580004901.0A
Authority: CN
Inventors: R·山美
Original assignee: Sagemcom Broadband SAS
Current assignee: Sagemcom Broadband SAS
Priority date: 2014-01-17
Filing date: 2015-01-14
Publication date: 2016-10-26
Anticipated expiration: 2035-01-14
Also published as: WO2015107077A1; US20160353121A1; FR3016764B1; FR3016764A1; EP3095240B1; US10542266B2; EP3095240A1; CN106063268B

Abstract

一种将H.264格式的视频数据流(110)转码成H.265格式的视频数据流(120)的设备(100)，包括：用于根据应用反量化操作之后所述宏块的离散余弦变换DCT系数之间的频率相似性的预定要求来合并H.264格式的数据流的相邻宏块的装置(101)；以及用于通过对源自H.264格式的数据流的宏块的合并所产生的宏块执行对源自H.264格式的数据流的所述宏块的运动向量的组合，来基于H.264格式的运动向量确定H.265格式的运动向量的装置(102)。

Description

将视频数据从H.264转码成H.265的方法和设备

本发明涉及将H.264格式的视频数据流转码成H.265格式的视频数据流。

H.265视频数据编码标准(参考HEVC(高效视频编码))被开发用于接续H.264视频编码标准(参考MPEG-4AVC(高级视频编码)或MPEG-4第10部分)。H.265视频数据编码标准使得能够在同等质量的情况下获得更佳的压缩率，这使得能够在现有的通信网络架构上传输非常高分辨率(2K1K，4K2K，8K4K等)的视频数据流。从另一角度看，H.265视频数据编码标准使得能够极大地减低在这些现有通信网络架构上传输高分辨率或标准分辨率的视频数据流所需要的传输率。从又一角度看，H.265视频数据编码标准使得能够降低在通信网络架构上传输视频数据流所需要的功耗。

很多设备和基础设施目前适合支持到H.264标准的视频数据流编码，而符合H.265标准的设备处于刚出现阶段。因此，为了在不更新所有所述设备和基础设施的情况下获得相比于H.264标准由H.265标准所提供的性能方面的提升，有可能提供一种将H.264格式的视频数据流转码成H.265格式的视频数据流的机制。然而，将H.264格式的视频数据流完全解码以将其完全重新编码为H.265格式的视频数据流在处理资源方面和处理延迟方面而言成本很高。

希望克服现有技术的这些缺点。尤其希望提供能够降低将H.264标准的视频数据流转码成H.265标准的视频数据流所需的处理资源量的方案。也希望提供能够降低执行这样转码所需的处理延迟的方案。

本发明涉及一种将H.264格式的视频数据流转码成H.265格式的视频数据流的转码方法，所述方法由转码设备实现。该方法包括以下步骤：根据应用反量化操作之后宏块的离散余弦变换(DCT)系数的频率相似性的预定条件，执行H.264格式的数据流中相邻宏块的合并；通过对源自H.264格式的数据流的宏块合并所得到的宏块，执行对源自H.264格式的数据流的所述宏块的运动向量的组合，来基于H.264格式的运动向量确定H.265格式的运动向量。由于H.264流不经过完全解码，这种到H.265格式的数据流的转码在处理资源方面和在处理延迟方面而言是有利的。

根据具体实施方式，当合并后的宏块对应于帧内模式的预测数据时，所述转码设备将所得到的宏块与预测方向相关联，该预测方向是根据H.246格式而与与合并后的宏块相关联的预测方向的线性组合最接近的预测方向。

根据具体实施方式，为了确定相邻宏块是否能被合并，所述转码设备获取关于所述相邻宏块反量化之后的DCT系数之间的绝对差之和的信息，并将关于绝对差之和的所述信息与第一预定阈值比较。

根据具体实施方式，为了合并四个相邻宏块从而形成所得到的方形宏块，所述转码设备使用：沿所述宏块的垂直维度的第一蝴蝶图，从而能够从四个相邻宏块中的两个宏块中产生第一中间宏块；沿宏块的垂直维度的第二蝴蝶图，从而能够从四个相邻宏块中的另外两个宏块产生第二中间宏块；以及沿宏块的水平维度的第三蝴蝶图，从而能够产生所得到的方形宏块。

根据具体实施方式，为了合并以帧间模式编码的宏块，所述转码设备确定与所述宏块相关联的运动向量之差，并根据所述运动向量的相似性条件启动或不启动合并所述宏块。

根据具体实施方式，为了确定运动向量是否相似，所述转码设备确定所述运动向量的分量之差的范数并将所述范数与第二预定阈值比较。

根据具体实施方式，转码设备根据以下算式确定帧间模式编码的宏块的合并所产生的H.265格式的每个运动向量MV：

M V = \frac{(α 1. M V 1 + α 2. M V 2 + .. α n . M V n)}{(α 1 + α 2... + α n)}

其中：

-n表示合并后的宏块的数量；

-MV1，…，MVn表示曾被合并到一起的以帧间模式编码的宏块的n个运动向量；并且

α1，…，αn为权重系数。

根据具体实施方式，当H.264格式的多个连续图像序列中的预测图像的能量低于第三预定阈值时，所述转码设备将所述多个连续图像序列合并为单个图像序列。

本发明还涉及一种将H.264格式的视频数据流转码成H.265格式的视频数据流的转码设备。该转码设备包括：用于根据在应用反量化操作之后所述宏块的离散余弦变换DCT系数的频率相似性的预定条件，执行H.264格式的数据流中相邻宏块的合并的装置；以及用于通过对源自H.264格式的数据流的宏块合并所得到的宏块执行对源自H.264格式的数据流的所述宏块的运动向量的组合，来基于H.264格式的运动向量确定H.265格式的运动向量装置。

本发明还涉及一种可保存在介质上和/或从通信网络下载从而被处理器读取的计算机程序。该计算机程序包括当所述程序被处理器执行时用来实现上述方法的中的任何一个的指令。本发明还涉及包括这样的计算机程序的存储装置。

通过阅读下面的对示例实施方式的描述，上面所提到的本发明的特点，以及其他特点，将更加清楚，所述描述与附图相关联地给出，其中：

-图1示意性地例示了根据本发明的视频数据转码设备的第一示例；

-图2示意性地例示了根据本发明的视频数据转码设备的第二示例；

-图3示意性地例示了根据本发明的视频数据转码设备的硬件架构示例；

-图4示意性地例示了根据本发明的视频数据转码设备所使用的转码算法；

图5示意性地例示了合并H.264格式的视频数据流的四个宏块从而形成一个H.265格式的视频数据流的宏块的例子。

为了避免完全解码H.264格式的数据流来将其转码成H.265格式的数据流，提出，对于图像内编码，根据应用反量化操作之后宏块的离散余弦变换DCT系数的频率相似性的预定条件，来合并H.264格式的数据流的相邻宏块。还提出，对于图像间编码，通过对源自H.264格式的数据流的宏块的合并所得到的宏块执行对源自H.264格式的数据流的所述宏块的运动向量的合并，来基于H.264格式的运动向量确定H.265格式的运动向量。其他有利的设置将通过阅读下面的实施方式而呈现。

应当注意，在H.264格式语境中使用的术语宏块对应于这H.265格式语境中的表述编码树单元(CTU)。

图1示意性地例示了根据本发明的视频数据转码设备的第一示例100。

转码设备100适于接收H.264格式的视频数据流110。

转码设备100包括宏块合并模块101并且所述转码设备100适于将视频数据流110注入到所述宏块合并模块101中。H.264格式是基于按照大小为4x4像素和/或8x8像素和/或16x16像素的宏块的划分。宏块合并模块101适于根据应用反量化操作之后所述宏块的DCT系数的频率相似性的预定条件，来合并相邻宏块，从而形成称为四叉树(quadtree)的数据结构。该合并操作既可应用于以帧内模式编码的宏块，也可应用于以帧间模式编码的宏块。四叉树是一种数据结构，其表示通过递归地将所述空间划分为四个象限的二维空间划分。

转码设备100进一步包括运动向量分析模块102并且所述转码设备100适于将在H.264格式的视频数据流110中存在的元数据注入到所述运动向量分析模块102中。运动向量分析模块102适于获取在这些元数据中存在的运动向量，从而获取预测信息，使得能够获取预测图像，所述预测图像称之为P图像(依靠视频数据流中的先前图像的单向“向前”预测)和B图像(依靠视频数据流中的先前图像和后续图像的双向预测)。这些P图像和B图像将被区分于也称之为基准图像的I图像，对于I图像，所有宏块以帧内模式编码，可选地以预测的方式编码。

运动向量分析模块102进一步适于获取由宏块合并模块101提供的宏块合并信息131并且确定与经宏块合并模块101合并后的宏块相关联的所得到的运动向量。对于经宏块合并模块101合并后的宏块，所得到的运动向量是与源自视频数据流110并且被合并的每个宏块关联的运动向量的组合。

运动向量分析模块102进一步适于执行对H.264格式的运动向量的缩放从而将它们变换为H.265格式。确实，根据H.264格式的亚像素精度与H.265格式的亚像素精度不同，这涉及在转码情形中的缩放。这样转变后的运动向量然后为运动信息132，其在转码到H.265格式的情形中使得能够产生P图像和/或B图像(图像间编码)。并且，P图像和B图像包括残差，因为P图像和B图像是从I图像(并且可选地P图像和/或B图像)和与宏块关联的运动向量预测而来。

转码设备100进一步包括编码模块103，其适于根据由宏块合并模块101提供的宏块合并信息131和由运动向量分析模块102提供的运动信息132来产生H.265格式的视频数据流120。

后面关于图4详细描述转码设备100的动作。

图2示意性地例示了根据本发明的视频数据转码设备的第二示例200。转码设备200与已经在图1中展示的转码设备100具有很多相似性。

转码设备200适于接收H.264格式的视频数据流110。

转码设备200包括宏块合并模块201且所述转码设备200适于将视频数据流110注入到所述宏块合并模块201中。宏块合并模块201适于根据应用反量化之后所述宏块的DCT系数的频率相似性的预定条件，来合并相邻宏块，从而形成“四叉树”类型的数据结构。该“四叉树”对应于宏块合并信息231，宏块合并信息231在转码到H.265格式的情形中使得能够产生I图像(图像内编码)。

转码设备200进一步包括运动向量分析模块202且所述转码设备200适于将在H.264格式的视频数据流110中存在的元数据注入到所述运动向量分析模块202中。运动向量分析模块202适于获取在这些元数据中存在的运动向量。运动向量分析模块202进一步适于获取由宏块合并模块201提供的宏块合并信息231并且确定与经宏块合并模块201合并后的宏块相关联的结果运动向量。对于经宏块合并模块201合并后的宏块，所得到的运动向量是与源自视频数据流110且已被合并的宏块中的每个宏块相关联的运动向量的组合。

运动向量分析模块202进一步适于对H.264格式的运动向量进行缩放从而将它们转换为H.265格式。这样转变后的运动向量对应于运动信息232，在运动信息232转码到H.265格式的情形中使得能够产生P图像和/或B图像(图像间编码)。

运动向量分析模块202进一步适于向宏块合并模块201提供运动向分析的反馈233，以使得宏块合并模块201能够改善宏块的合并。

转码设备200进一步包括编码模块203，其适于根据由宏块合并模块201提供的宏块合并信息231和由运动向量分析模块202提供的运动信息232来产生H.265格式的视频数据流220。

后面关于图4详细描述转码设备200的动作。

图3示意性地例示了根据本发明的视频数据转码设备300的硬件架构的示例。那么转码设备300包括由通信总线310连接的：处理器或CPU(中央处理单元)301；随机存取存储器RAM 302；只读存储器ROM 303，存储单元304或存储介质读取器，例如SD(安全数字)读卡器或硬盘驱动HDD；以及用于，例如通过通信网络，接收H.264格式的视频数据流和提供H.265格式的转码数据的一组接口305。

处理器301能够执行从只读存储器303、外部存储器(未示出)、从存储介质或从通信网络(未示出)加载到RAM 302中的指令。当转码设备300上电时，处理器301能够从RAM302读取指令并执行它们。这些指令形成计算机程序，该计算机程序使处理器301实现后面所描述的算法和步骤的全部或一部分。

因此，后面所描述的算法和步骤的全部或一部分可以通过由可编程机器，例如DSP(数字信号处理器)或微控制器，执行一组指令以软件形式实现，或者由机器或专用组件，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)，以硬件形式实现。因此，图1和图2中所示的每个模块可对应于软件实现或硬件实现。这意味着所述模块中只有一些以软件形式实现而所述模块的其余部分可以硬件形式实现。

图4示意性地例示了根据本发明的由视频数据转码设备实现的转码算法。考虑图6中的转码算法由转码设备500实施。

在步骤401，转码设备500接收H.264格式的视频数据流。

在接下来的步骤402，转码设备500根据应用反量化之后所述宏块的DCT系数的频率相似性的预定条件，来合并源自视频数据流110的参考I图像的相邻宏块。因此，转码设备500不执行对H.264格式的视频数据流110的完全解码以执行到H.265格式的转码。

为了这样做，考虑到H.264格式的视频数据流110被分解为GOP，转码设备500在GOP(Group Of Pictures，图像组)序列中选择参考图像(I图像)。转码设备500可重新使用在H.264格式的视频数据流110情形下定义的GOP序列的定义。

在具体实施方式中，转码设备500合并在H.264格式的视频数据流110情形中定义的多个连续GOP序列。因此，得到的GOP先验地包括多个参考I图像。然后，转码设备500用P图像或B图像取代得到的GOP中的至少一个I图像，从而使所述GOP中仅保留一个参考I图像。用P图像或B图像取代参考I图像通过执行相应的预测操作来完成，从而保证GOP的数据(视频和元数据)一致性。

更具体地，当这些GOP的参考I图像接近时，转码设备500合并源自H.264格式的视频数据流110的多个GOP。这方面可由转码设备500通过比较B图像和P图像的能量来确定。当B图像和P图像的能量低于第三预定阈值T时，转码设备500合并相关GOP；否则转码设备500保持H.264格式的视频数据流110中所使用的GOP的定义。这种对GOP的合并使得能够获取比初始尺寸大的得到的GOP，这使得能够降低H.265格式的视频数据流的传输率，特别是在存在固定图像的情况下。第三预定阈值T例如根据学习过程或实验室测试来定义。

对于GOP的每个图像的每个宏块，转码设备500确定与所述宏块相邻的每个宏块的频率相似性信息。

根据具体实施方式，以(i，j)为中心的宏块相对于以(k，i)为中心的宏块的频率相似性S信息，由反量化之后应用到DCT系数的绝对差求和(SAD)算法确定。那么，频率相似性信息S是反量化之后应用到DCT系数的SAD算法的结果。

然后，转码设备500将这样确定的频率相似性信息S与第一预定阈值S₀比较。所述第一预定阈值S₀例如根据学习过程或实验室测试来定义。

如果频率相似性信息S低于所述第一预定阈值S₀，那么转码设备500认为相关的宏块能够被合并；否则，转码设备500认为相关的宏块没有足够的相似性以被合并。转码设备500对每对相邻宏块重复该操作。实际执行的合并操作必须遵守如由H.265格式定义的、规定的CTU大小。

宏块的合并可通过使用一组三个蝴蝶图来执行。该方法使得能够将方形宏块(例如，大小为4x4或8x8)合并为较大尺寸的方形宏块(例如大小为16x16或32x32)。

图5示意性地例示了合并H.264格式的视频数据流的四个相邻宏块501、502、503、504从而形成H.265格式的视频数据流的宏块509的例子。宏块501、502、503、504的空间位置如图5中所示。宏块501、502、503、504的尺寸例示地为2x2(尽管该尺寸不符合H.264格式，但这样允许对合并机制的简单说明)。这些宏块501、502、503、504的合并然后得到尺寸为8x8的宏块。

假设反量化之后宏块501具有如图5所示的表示为A1、B1、C1、D1的DCT系数组。还假设反量化之后宏块802具有如图5所示的表示为A2、B2、C2、D2的DCT系数组。还假设反量化之后宏块503具有如图5所示的表示为A3、B3、C3、D3的DCT系数组。还假设反量化之后宏块504具有如图5所示的表示为A4、B4、C4、D4的DCT系数组。

第一蝴蝶图使得能够沿宏块501和502的垂直维度进行第一合并。第二蝴蝶图使得能够沿宏块503和504的垂直维度进行第二合并。通过这种方式获得四个中间宏块505、506、507、508。假设宏块505包括如图5所示的表示为E1、F1、G1、H1的合并后的DCT系数组。还假设宏块506包括如图5所示的表示为E2、F2、G2、H2的合并后的DCT系数组。还假设宏块507包括如图5所示的表示为E3、F3、G3、H3的合并后的DCT系数组。还假设宏块508包括如图5所示的表示为E4、F4、G4、H4的合并后的DCT系数组。那么宏块501、502、503和504的合并是这样：

第三蝴蝶图使得能够沿着中间宏块505、506、507、508的水平维度进行第三合并从而获得宏块509。假设宏块509包括如图5所示的表示为P1、P2、P3、P4、Q1、Q2、Q3、Q4、R1、R2、R3、R4、S1、S2、S3、S4的合并后的DCT系数组。那么中间宏块505、506、507、508的合并是这样：

返回图4，在执行合并操作后，然后转码设备500使用小于或等于用于产生H.264格式数据流的量化步长的量化步长执行对DCT宏块的量化操作。量化步长信息在包针对H.264格式的数据流的元数据中提供。

根据具体实施方式，当这些宏块中的至少一个以帧内模式编码而所关注的其余宏块以帧间模式编码时，转码设备500不执行任何宏块合并。事实上，P图像和B图像可能包含以帧内模式编码的一个或多个宏块。

当合并后的宏块对应于帧间模式的预测数据时，转码设备500将所得到的宏块与预测方向相关联，该预测方向是根据H.264格式与与合并后的宏块相关联的预测方向的线性组合最接近的预测方向。

在接下来的步骤403，转码设备500根据步骤402的合并和量化操作后获得的宏块产生四叉树类型的数据结构。

接下来，在步骤404，转码设备500从视频数据流110获取运动向量。

在接下来的步骤405，转码设备500估算与源自视频数据流110并且已合并到一起的宏块相关联的运动向量之差。转码设备500试图确定关于所述运动向量之间的运动相似性的信息。为此，转码设备500可确定所述运动向量的分量之差的范数。第一运动向量的每个分量被从第二运动向量的对应分量中减去，然后计算结果范数。然后该范数与第二预定阈值S_l比较。所述第二预定阈值S_l例如根据学习过程或实验室测试来定义。如果运动相似性信息低于所述第二预定阈值S_l，那么转码设备500认为相关的宏块能够实际上被合并；否则转码设备500认为相关的宏块没有足够的相似性以被合并。如果所有合并操作被确认，那么执行步骤406；否则重复步骤402，防止合并或合并操作被步骤405无效。

当图4中的算法表示已经关于图1描述的转码设备100的动作时，省略步骤405并且算法直接从步骤404进行到步骤406。然后保留宏块合并模块101执行的宏块合并。当图4中的算法表示已经关于图2描述的转码设备200的动作时，执行步骤405，这使得运动向量分析模块202能够对宏块合并模块201提出的宏块合并质疑。

在步骤406，对于宏块合并得到的以帧间模式编码的每个宏块，转码设备500确定与源自视频数据流110且已被合并的宏块中的每个宏块相关联的运动向量的合并。

根据第一示例，这样的合并是源自视频数据流110且已被合并的所述宏块的运动向量的中值。对于尚未经过合并的宏块，转码设备500提取存在于H.264格式的视频数据流110中的运动向量。

根据第二示例，这样的合并由下面的算式定义：

M V = \frac{(α 1. M V 1 + α 2. M V 2 + .. α n . M V n)}{(α 1 + α 2... + α n)}

其中：

-MV表示平滑后的运动向量；

-n表示合并后的宏块的数量；

-MV1，…，MVn表示在步骤402中被合并到一起的以帧间模式编码的宏块的n个运动向量；以及

α1，…，αn为权重系数。

权重系数α1，…，αn例如根据学习过程或实验室测试来定义。

转码设备500优选地保证权重系数α1，…，αn是使得与指向I图像的运动向量相关联的权重系数高于与指向P图像或B图像的运动向量相关联的权重系数。

在B图像的情况下，对于关心的宏块，预测可以是“向前”或“向后”。该运动向量具有相反方向的参考帧。然后，在执行步骤406的运动向量合并之前，转码设备500对根据向后预测定义的任何运动向量进行反转。

接下来转码设备500对H.264格式的运动向量进行缩放从而将它们转换为H.265格式。

在接下来的步骤407，转码设备500基于步骤403产生的四叉树和在步骤406经缩放的运动向量产生H.265格式的数据流。

Claims

1.一种将H.264格式的视频数据流(110)转码成H.265格式的视频数据流(120；220)的转码方法，所述方法由转码设备(100；200；500)实施，所述方法的特征在于所述方法包括以下步骤：

-根据应用反量化操作之后宏块的离散余弦变换DCT系数的频率相似性的预定条件，来执行(402)对H.264格式的数据流的相邻宏块的合并；以及

-通过对源自H.264格式的数据流的宏块的合并所得到的宏块执行对源自H.264格式的数据流的所述宏块的运动向量的组合，来基于H.264格式的运动向量确定(406)H.265格式的运动向量。

2.根据权利要求1所述的转码方法，所述方法的特征在于，当合并后的宏块对应于帧内模式的预测数据时，所述转码设备将所得到的宏块与预测方向相关联，所述预测方向是根据H.264格式而最接近与合并后的宏块相关联的预测方向的线性组合的预测方向。

3.根据权利要求1和2中任一项所述的转码方法，所述方法的特征在于，为了确定相邻宏块是否能被合并，所述转码设备获取关于所述相邻宏块的反量化之后的DCT系数之间的绝对差之和的信息，并将关于绝对差之和的所述信息与第一预定阈值比较。

4.根据权利要求1至3中任一项所述的转码方法，所述方法的特征在于，为了合并四个相邻宏块(501、502、503、504)从而形成所得到的方形宏块(509)，所述转码设备实现：

-沿所述宏块的垂直维度的第一蝴蝶图，从而能够从所述四个相邻宏块中的两个宏块(501，502)产生两个第一中间宏块(505、506)；

-沿所述宏块的垂直维度的第二蝴蝶图，从而能够从四个相邻宏块中的另外两个宏块(503，504)产生两个第二中间宏块(507；508)；以及

-沿所述宏块的水平维度的第三蝴蝶图，从而能够产生所得到的方形宏块。

5.根据权利要求1至4中任一项所述的转码方法，所述方法的特征在于，为了合并以帧间模式编码的宏块，所述转码设备确定(405)与所述宏块相关联的运动向量之差，并根据所述运动向量的相似性条件启动或不启动合并所述宏块。

6.根据权利要求5所述的转码方法，所述方法的特征在于，为了确定运动向量是否相似，所述转码设备确定所述运动向量的分量之差的范数并将所述范数与第二预定阈值比较。

7.根据权利要求1至6中任一项所述的转码方法，所述方法的特征在于，所述转码设备根据以下算式确定以帧间模式编码的宏块的合并所得到的H.265格式的每个运动向量MV：

M V = \frac{(α 1. M V 1 + α 2. M V 2 + .. α n . M V n)}{(α 1 + α 2... + α n)}

其中：

-n表示合并后的宏块的数量；

-MV1，...，MVn表示被合并到一起的以帧间模式编码的宏块的n个运动向量；并且

α1，...，αn为权重系数。

8.根据权利要求1至7中任一项所述的转码方法，所述方法的特征在于，当H.264格式的多个连续图像序列中的预测图像的能量低于第三预定阈值时，所述转码设备将所述多个连续图像序列合并为单个图像序列。

9.一种将H.264格式的视频数据流(110)转码成H.265格式的视频数据流(120；220)的转码设备(100；200；500)，所述转码设备的特征在于，所述转码设备包括：

-用于根据应用反量化操作之后宏块的离散余弦变换DCT系数的频率相似性的预定条件，执行H.264格式的数据流的相邻宏块的合并的装置(101；201)；以及

-用于通过对源自H.264格式的数据流的宏块合并所得到的宏块执行对源自H.264格式的数据流的所述宏块的运动向量的组合，来基于H.264格式的运动向量确定H.265格式的运动向量的装置(102；202)。