CN101924943B

CN101924943B - 一种实时的基于h.264的低比特率视频转码方法

Info

Publication number: CN101924943B
Application number: CN 201010276710
Authority: CN
Inventors: 郭敏
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-08-27
Filing date: 2010-08-27
Publication date: 2011-11-16
Anticipated expiration: 2030-08-27
Also published as: CN101924943A

Abstract

一种实时的基于H.264的低比特率视频转码方法，属于多媒体信号处理领域，主要解决低比特率下且要求转码速度快的问题。本发明涉及的视频转码分为离线建模和在线转码两个阶段；利用模式识别技术来进行宏块预测模式的选择，宏块预测模式选择的过程就是模式识别中类别决策的过程，将提取的特征输入到分类器中，得到分类结果，也就是宏块的预测模式。分类器是通过离线训练得到的。本方法不仅可以显著加快转码速度，而且保证了重新编码后的图像质量，满足了实时性的要求。适用于无线视频监控，互联网视频监控，无线视频点播等领域。

Description

一种实时的基于H.264的低比特率视频转码方法

技术领域

本发明属于多媒体信号处理领域，特别是一种实时的基于H.264的低比特率视频转码方法，主要应用于无线视频点播，远程(无线)视频监控等领域。

背景技术

视频的应用环境非常复杂，从传输的信道，存储介质，到播放终端等都各不相同。在这些应用中，常常需要对视频流中的图像大小，帧率，图像质量等各参数进行调整，从而符合接入网络和播放终端的要求。比如在图1所述的视频点播中，就可以在视频服务器上加入视频转码模块，用户就可以通过无线终端完成点播，从而解决了无线信道过窄无法点播的问题。在视频监控中，实时的场景视频流经过转码之后，降低了比特率，就可以通过互联网或者移动智能终端进行远程监控，从而不再局限于监控室内。

视频转码的输入是一种比特流格式(空间分辨率S1，时间分辨率T1，码率R1，标准C1等)，经过转码模块，可以得到另一个输出比特流格式(空间分辨率S2，时间分辨率T2，码率R2，标准C2等)。视频转码的基本过程见图2。

根据输入和输出比特流格式，视频转码通常分为标准间转码和标准内转码两种。标准间转码是指输入比特流和输出比特流属于不同的标准。标准内转码指输入和输出比特流属于同一标准，这时转码的目的主要是降低输出码率，从而适应不同的带宽，又常分为空间分辨率转码(图像尺寸)，时间分辨率转码(帧率)，比特率转码(图像质量)三个方面。

H.264标准由ITU-T和ISO/IEC组成的JVT联合开发的标准，也称为MPEG-4AVC。H.264为宏块提供了多种预测模式可供选择，从而提高了压缩性能。由于每个宏块最终只能使用一种预测模式，这就需要遍历可供选择的多种模式，最终选择压缩性能最好的预测模式。因此，宏块预测模式的选择是基于的H.264转码器中最主要的耗时部分之一，它严重影响了转码速度，使得转码器在要求高实时性的场合下受到很大限制。因此，在基于H.264的视频转码中，如何快速选择宏块的预测模式，是决定转码速度的最关键因素之一。

发明内容

为了解决低比特率下且要求转码速度快的问题，本发明的目的是提供一种实时的基于H.264的低比特率视频转码方法，该方法是基于H.264的低比特率下的视频转码，重点是宏块预测模式的选择方法，适用于无线视频监控，互联网视频监控，无线视频点播等领域，本方法不仅可以显著加快转码速度，而且保证了重新编码后的图像质量，满足了实时性的要求。

本发明解决其技术问题所采取的技术方案是：

本发明是利用模式识别技术来进行宏块预测模式的选择。宏块预测模式选择的过程就是模式识别中类别决策的过程。将提取的特征输入到分类器中，得到分类结果，也就是宏块的预测模式。分类器是通过离线训练得到的，因此，本发明设计的视频转码分为离线建模和在线转码两个阶段进行，离线建模：用来完成分类器的设计，在线转码时，使用该分类器完成对宏块预测模式的选择；

离线建模的步骤包括：

1)挑选视频：不同的视频序列具备不同的特征，首先需要挑选出常用的具备各种典型特征的视频序列，并将这些视频序列使用H.264标准进行编码；

2)视频解码：使用H.264解码器，将压缩好的样本视频序列进行完全解码，得到像素域数据；

3)提取特征：从解码得到的数据中提取出预测模式，残差数据，量化参数三个特征；同时使用全模式搜索法获取当前三个特征决定的最优模式作为目标类别；

4)分类器设计：用前述三个特征和目标类别，使用现有成熟的模式识别方法设计出分类器。

在线转码：使用离线建模得到的分类器，根据在线提取的特征，完成分类功能，即得到宏块的模式预测；在线转码的步骤包括：

1)在线解码：使用H.264解码器，完全解码在线的实时视频流，得到像素域数据，这里的解码方法和离线建模阶段的解码方法相同；

2)提取特征：从在线解码信息中提取出预测模式，残差数据，量化参数三个特征；提取这三个特征的方法与离线建模提取三个特征的方法相同；

3)模式预测：将前述提取的三个特征，输入到离线建立的分类器中，得到分类结果，也就是预测模式，完成宏块模式预测的选择；

4)重新计算运动矢量：针对选择的宏块预测模式，重新计算运动矢量；

5)重新编码：使用选择好的预测模式和重新计算的运动矢量，重新对视频进行编码并输出。

离线建模和在线转码都需要从解码信息中提取三个特征：预测模式，残差数据，量化参数。本发明中所述三个特征提取方法步骤如下：

1)预测模式：本发明支持的空间分辨率转码中的图像缩放因子为2，因此待编码的宏块对应着已编码图像中的4个宏块，每个宏块都有一个预测模式，如图1所示。为了能尽量降低特征向量的维数，提高转码速度，本发明中预测模式特征的计算值是这4个宏块的预测模式之和；

2)残差数据：H.264中采用的是4x4的整数变换，也就是一个宏块包含了16个4x4子块，每个4x4子块都有各自的非零系数，该数据描述了当前4x4子块的性质，这些性质包括：纹理是否丰富，运动是否剧烈；本发明中该特征的计算值是原始图像中4个宏块所包含的所有4x4子块中的非零系数的比例；

3)量化参数：在本发明中比特率转码利用重新量化实现；量化参数特征的计算值是输出量化参数减去输入量化参数。

在线转码的模式预测中，如果预测的是P8x8类型，则不对8x8子块继续分类。

在线转码步骤4)中，在空间分辨率转码部分，采用中间值方法来重新计算宏块的运动矢量。

离线建模步骤4)中，成熟的模式识别方法包括：支持向量机或人工神经网络。

本发明的有益效果是：

1)、充分利用了原始码流的丰富信息，快速进行宏块预测模式选择，并尽可能保证选择的正确性；从解码信息中提取了残差数据，宏块类型，量化参数等作为特征，这些特征都与编码端的块类型息息相关。没有提取比较耗时的运动矢量特征，这样保证了提取特征耗时较少，从而转码速度较快。

2)、基于像素域的视频转码，无任何漂移效应。本发明采用了像素域的视频转码，不会出现漂移误差，也就不会导致漂移效应，从而保证了重新编码后的图像质量。

3)、本发明的宏块预测模式的选择中，使用了训练好的离线模型，在线转码中，仅仅是类别决策的过程，因此转码速度快，计算复杂度低，从而满足了实时性的要求。

4)、可以同时满足空间分辨率转码，时间分辨率转码，和比特率转码三种类型的转码。并可以根据用户设置，选择哪种转码，或者任意两种转码都可以任意组合。

5)、离线训练中，选用了具备各类特征的视频序列，因此该发明适用于各种视频类型，包括运动剧烈，运动平缓，纹理丰富，纹理简单等。

6)、在实时的低比特率下更为有效。本发明设计的方法提取的特征较少，运算复杂度低。另外，针对低比特率的实际情况，在不影响压缩性能的前提下，特殊处理了宏块类型P8x8的选择，从而进一步加快了转码速度。

附图说明

图1转码在视频点播服务中的现有应用原理图；

图2视频转码原理图；

图3本发明转码方法流程图；

图4空间分辨率转码中的宏块。

具体实施方式

为了便于理解和实施本发明，下面结合无线视频点播实例来对本发明作进一步详细描述。

如图3，在无线视频点播中，已编码的视频流存放在视频服务器上，这些视频流都是在高比特率的前提下压缩的，即图像尺寸大，帧率高，图像质量较好。当有无线终端用户进行点播某个视频段，会将相应所要求的参数同时发送到视频服务器，这些参数包括：图像尺寸，帧率，比特率等。视频服务器根据这些参数的要求，启动转码模块，将已经编码好的视频流转码到所要求的格式下，并实时地将转码后的视频流发送到用户终端。

转码模块在实时在线转码时，会使用到事先设计好的分类器。该分类器需要在离线状态下训练得到，因此本发明就分为了离线建模和在线转码两个阶段。

离线建模用来完成分类器的设计，在线转码时，使用该分类器完成对宏块预测模式的选择。离线建模阶段实施的步骤如下：

1)挑选视频。视频点播中一般为自然视频序列，从而具有各种特征，如运动是否剧烈，是否存在镜头切换，纹理是否丰富等。实施中需要挑选出常用的具备各种典型特征的视频序列，并将这些视频序列使用H.264标准进行编码。当然，如果某视频点播***是针对特定的应用，例如篮球比赛，则挑选的典型序列最好也是篮球比赛片段。

2)视频解码。使用H.264解码器，将压缩好的样本视频序列进行完全解码，得到像素域数据。这样可以保证在整个转码过程中不会引入漂移误差，从而保证了图像质量。基于H.264的解码器可以自主开发，也可以使用常用的开源解码软件***，如ffmpeg。

3)提取特征。从解码信息中提取出预测模式，残差数据，量化参数三个特征。同时使用全模式搜索法获取当前三个特征所决定的最优模式作为目标类别。全模式搜索法就是遍历所有可用的预测模式，并选择一个压缩性能最优的结果，该搜索方法的实施过程可以借鉴JVT推荐的H.264开源软件JM系列。

4)分类器设计。针对序列中每个宏块，经过解码和提取特征两个步骤的处理，都可以得到三个特征和一个目标类别，这便构成了一个已知类别的训练样本，将其按一定格式写入文件。对选中的所有视频序列都进行相同的处理，得到样本并写入文件。启动分类器设计模块，如支持向量机的训练模块，从特征和目标类别所在文件中读取样本数据，输入到训练模块中进行训练，得到最终的分类器。当然，也可以通过人工神经网络的训练模块得到分类器。训练好的分类器可以存储到某个文件里，以备在线转码时使用。也可以把分类器模型作为固定源代码直接写到在线转码模块中。

视频服务器根据用户端的参数要求，启动在线转码模块，在线转码使用离线建模得到的分类器，根据在线提取的特征，完成分类功能。该模块的具体实施步骤如下：

1)在线解码。启动H.264解码器将在线的实时视频流完全解码，得到像素域数据。这里的解码方法和离线建模阶段相同。

2)提取特征。从解码信息中提取出预测模式，残差数据，量化参数三个特征。提取这三个特征的方法与离线建模相同。

3)模式预测。将提取的三个特征，输入到离线建立的分类器中，得到分类结果，也就是预测模式，完成宏块模式预测的选择。在H.264中预测模式P8x8比较适用于高比特率下，运动剧烈且细节丰富的场景。由于该模式下还需要细分一直到4x4的小块，因此运算复杂度高。在无线视频点播应用中，比特率较低，而且实时性要求较高，因此如果预测的是P8x8类型，则不对8x8子块继续分解，从而提高转码速度。

4)重新计算运动矢量。每种预测模式，都对应着一个或多个运动矢量，因此选择预测模式之后需要重新计算运动矢量。在空间分辨率转码中，本发明采用中间值方法来重新计算宏块的运动矢量。重新计算后的运动矢量需要进一步细化，才能准确反映运动的实际情况，一般细化步长为2个像素。

5)重新编码。使用选择好的预测模式，重新计算的运动矢量，重新对视频进行编码并输出。

在离线建模和在线转码每个阶段都需要从解码信息中提取预测模式、残差数据和量化参数三个特征，这三个特征的提取方法如下：

1)预测模式：空间分辨率转码中的图像缩放因子确定为2，待编码的宏块对应着已编码图像中的宏块1～宏块4，共4个宏块，每个宏块都有一个预测模式，所述的在线转码中预测模式特征的计算值是这4个宏块的预测模式之和；如图4.

2)残差数据：该特征的计算值是原始图像中4个宏块所包含的所有4x4子块中的非零系数的比例；

3)量化参数：该特征的计算值是输出量化参数减去输入量化参数。

使用本发明的方法对视频编解码常用序列进行了实时的转码实验。相比于H.264的参考软件JM的全模式搜索法，在压缩性能损失很小的前提下，本发明的转码速度是JM的15-20倍。在无线视频点播等低比特率情况下，本方法的转码速度更快，是JM的25倍左右。

Claims

1.一种实时的基于H.264的低比特率视频转码方法，其特征是，包括离线建模和在线转码两个阶段；

所述的离线建模阶段，包含如下步骤：

1)挑选视频：首先需要挑选出常用的具备各种典型特征的视频序列，并将这些视频序列使用H.264标准进行编码；

4)分类器设计：用前述三个特征和目标类别，使用现有成熟的模式识别方法设计出分类器；

所述的在线转码，包含如下步骤：

2)提取特征：从在线解码信息中提取出预测模式、残差数据和量化参数三个特征；这里的提取这三个特征的方法与离线建模提取三个特征的方法相同；

5)重新编码：使用选择好的预测模式和重新计算的运动矢量，重新对视频进行编码并输出；

离线建模和在线转码都需要从解码信息中提取预测模式、残差数据和量化参数三个特征，这三个特征的提取方法如下：

1)预测模式：空间分辨率转码中的图像缩放因子确定为2，待编码的宏块对应着已编码图像中的4个宏块，每个宏块都有一个预测模式，所述的在线转码中预测模式特征的计算值是这4个宏块的预测模式之和；

2.根据权利要求1所述的一种实时的基于H.264的低比特率视频转码方法，其特征是，在线转码的模式预测中，如果预测的是P8x8类型，则不对8x8子块继续分类。

3.根据权利要求1或2所述的一种实时的基于H.264的低比特率视频转码方法，其特征是，在线转码步骤4)中，空间分辨率转码中，运动矢量的计算是由中间值方法完成。

4.根据权利要求1所述的一种实时的基于H.264的低比特率视频转码方法，其特征是，离线建模步骤4)中，成熟的模式识别方法包括：支持向量机或人工神经网络。