CN103634601A

CN103634601A - 基于结构相似度的高效视频编码感知码率控制优化方法

Info

Publication number: CN103634601A
Application number: CN201310632139.3A
Authority: CN
Inventors: 解伟; 赵会玲; 王琳; 李小雨; 张若璠; 王宇鹏; 黄承恺; 王雪旸
Original assignee: Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Current assignee: Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Priority date: 2013-12-02
Filing date: 2013-12-02
Publication date: 2014-03-12
Anticipated expiration: 2033-12-02
Also published as: CN103634601B

Abstract

一种基于结构相似度的高效视频编码感知码率控制优化方法，包括以下步骤：在进行最大编码单元级的码率分配时，利用结构相似度作为图像失真的评价标准计算图像最大编码单元的失真，并利用其代替高效视频编码器编码端码率分配中的图像失真来计算码率控制R-λ模型中最大编码单元级码率分配的权重；在进行模式判决前，利用结构相似度作为图像失真的评价标准计算图像失真，并用其替代高效视频编码器编码端率失真判决中的编码图像的失真。本发明设计合理，使码率分配更加高效、准确，同时在相同码率情况下提高了编码图像的感知视觉质量；在目标码率相同的情况下能提高视频主观质量，或在相同的结构相似度情况下平均能实现12%的码率减少。

Description

基于结构相似度的高效视频编码感知码率控制优化方法

技术领域

本发明属于视频编解码技术领域，尤其是一种基于结构相似度的高效视频编码感知码率控制优化方法。

背景技术

近年来，高清/超高清视频编码技术作为未来家庭影院、数字广播电视、网络视频、高清电影等业务的基础核心技术成为业界关注的焦点。针对高清/超高清视频通信，现有的视频编码标准在压缩比和实际的应用需求相比还有一定的差距。为此，国际标准化组织ISO/IEC（MPEG）和ITU-T启动了下一代数字视频压缩标准的规划——高效视频编码（High Efficiency Video Coding,HEVC），目标是在H.264/AVC高档次的基础上，压缩效率提高一倍以上。

HEVC依然沿用H.264的混合编码框架，采用帧间和帧内预测编码消除时间域和空间域的相关性，变换编码对残差进行变换编码以消除空间相关性，熵编码消除统计上的冗余度。在HEVC现有的码率控制方法中，是通过以下流程完成码率控制的：

1、比特分配

假设目标码率为R_tar，帧率为f，则每帧图像的平均目标码率为

R_PicAvg＝^Rtar/_f

用N_coded表示已经编码的帧数，R_coded表示这些已编码帧所消耗的比特数。

（1）图像组（Group of Picture，GOP）级的码率分配

假设在当前GOP中有N_GOP幅图像，SW是一个平滑窗的窗口大小，用来使得码率变化更加平滑。在本方法中，SW的大小设为40，一个GOP的目标码率由下式决定：

T_{AvgPic} = \frac{R_{PicAvg} \cdot (N_{coded} + SW) - R_{coded}}{SW}

T_GOP＝T_AvgPiciN_GOP

如果这SW个图像每幅图像实际分配了T_AvgPic比特，平滑窗口的目标则是在SW个图像后实现目标码率。同时，当前的缓冲器状态和目标码率被联合考虑进来，式（*）也可以写成另外一种形式：

T_{AvgPic} = R_{PicAvg} + \frac{R_{PicAvg} \cdot N_{coded} - R_{coded}}{SW}

第一项R_PicAvg表示目标码率，第二项R_PicAvg·N_coded-R_coded表示缓冲器状态，从此式可以直观的看到缓冲器状态和目标码率。

（2）帧级比特分配

设T_GOP是当前GOP的目标码率，Coded_GOP是当前GOP已编码比特数。ω是每一幅图像在当前GOP中比特分配中的权重。因此，当前帧的目标码率由下式决定：

T_{CurrPic} = \frac{T_{GOP} - {Coded}_{GOP}}{\underset{NotCodedPictures}{Σ} ω_{i}} \cdot ω_{CurrPic}

上式是根据不同图像的权重分配剩下的比特数。ω值是由表1和表2来决定的，其中bpp表示每个像素所分配到的的比特数。

表1低延迟配置编码中的ω

表2随机接入配置编码中的ω

（3）最大编码单元（LargestCodingUnit，LCU）级目标码率的分配

T_{CurrCU} = \frac{T_{CurrPic} - {Bit}_{header} - {Coded}_{pic}}{\underset{NotCodedLCUs}{Σ} ω_{i}} \cdot ω_{CurrLCU}

ω_CurrLCU＝(1-SSIM_LCU)²

其中T_CurrPic表示该编码帧所分配的目标码率，Bit_header表示该帧中头信息所占用的比特数，Coded_Pic表示已经编码的LCU所用的比特数，ω表示每个LCU码率分配的权重。

2、获得所分配的比特数

（1）根据目标码率T_CurrPic以及公式λ＝α·bpp^β可求得参数λ；

由于在率失真框架中用1-SSIM来表征图像失真，因此需要对λ＝α·bpp^β模型的参数α和β重新进行拟合。

（2）根据对不同序列进行拟合得到的如下QP-λ关系计算编码所需的QP值：

QP＝7.783lnλ+36.132

（3）更新模型参数。

当编码完一个LCU，利用编码后的真实的bpp和λ值来更新模型λ＝α·bpp^β中的α和β值。

在HEVC现有的率失真方法中，是通下式完成计算率失真的：

J＝D+λR

其中λ表示拉格朗日乘数，用来控制码率和失真的平衡。应用在RDO过程中的失真度量对视频编码有深远的影响。

视频编码的主要目的是在保证高质量视觉效果的前提下最大限度地降低码率，即实现压缩。传统的图像/视频编码技术主要针对空间域冗余、时间域冗余以及统计冗余进行压缩编码，这一类编码技术以增加编码端计算复杂度为代价来获取编码性能的提高，如HEVC、H.264/AVC等，其性能提升速度已日趋饱和。近年来，研究人员开始尝试将人体感知、图形学和视觉***特性应用到视频编码框架，利用人类视觉***(Human Visual System，HVS)的视觉特征、非线性特性和心理效应来进行提高压缩效率的视频编码技术定义为感知视频编码(Perceptual Video Coding，PVC)。

传统的率失真优化通常采用客观的失真描述方式，如SAD（Sum of AbsoluteDifference，绝对误差和）、MSE（Mean of Squared Error，平均平方误差）和SSE（Sum of Squared Error，误差平方和）。这种描述方式具有计算简单容易实现的优点，但并不能很好的体现人眼的主观视觉特性。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于结构相似度的高效视频编码感知码率控制优化方法，通过修改HEVC编码器端的LCU级的码率控制权重和率失真求解过程，使得在相同的码率下提高视频的主观视觉质量。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于结构相似度的高效视频编码感知码率控制优化方法，包括以下步骤：

步骤1、在高效视频编码器编码端进行最大编码单元级的码率分配时，利用结构相似度作为图像失真的评价标准计算图像最大编码单元的失真，并利用其代替高效视频编码器编码端码率分配中的图像失真来计算码率控制R-λ模型中最大编码单元级码率分配的权重；

步骤2、在高效视频编码器编码端进行模式判决前，利用结构相似度作为图像失真的评价标准计算图像失真，并用其替代高效视频编码器编码端率失真判决中的编码图像的失真。

而且，所述步骤1的具体步骤包括：

步骤1.1、根据码率控制R-λ模型中图像组级码率控制、帧级码率控制得到当前编码帧所分配的目标码率T_CurrPic；

步骤1.2、计算当前编码帧中头信息所占用的比特数Bit_header和已经编码的最大编码单元所用的比特数Coded_Pic；

步骤1.3、计算该最大编码单元的分配权重ω_CurrLCU＝(1-SSIM_LCU)²,其中SSIM_LCU表示该最大编码单元的结构相似度；

步骤1.4、计算该最大编码单元的目标码率根据公式：

T_{CurrCU} = \frac{T_{CurrPic} - {Bit}_{header} - {Coded}_{pic}}{\underset{NotCodedLCUs}{Σ} ω_{i}} \cdot ω_{CurrLCU}

其中T_CurrCU表示该最大编码单元的目标码率，T_CurrPic表示该编码帧所分配的目标码率，Bit_header表示该帧中头信息所占用的比特数，Coded_Pic表示已经编码的最大编码单元所用的比特数，ω表示每个最大编码单元码率分配的权重；

步骤1.5、根据最大编码单元的目标码率T_CurrCU以及公式λ＝α·bpp^β求得参数λ，其中bpp表示每个像素编码所需的比特数；

步骤1.6、根据对不同序列进行拟合得到的如下QP-λ关系，计算编码所需的量化参数QP值：

QP＝7.783lnλ+36.132

步骤1.7、采用如下方法更新模型参数：当编码完一个最大编码单元，利用编码后的真实的bpp和λ值来更新模型λ＝α·bpp^β中的α和β值，其中bpp表示每个像素编码所需的比特数。

而且，所述步骤1.1中的目标码率T_CurrPic采用下式计算：

T_{CurrPic} = \frac{T_{GOP} - {Coded}_{GOP}}{\underset{NotCodedPictures}{Σ} ω_{i}} \cdot ω_{CurrPic}

其中T_GOP表示当前图像组的目标码率，Coded_GOP表示当前图像组中已编码帧所用的比特数，ω是每一幅图像在当前图像组中比特分配的权重。

而且，所述步骤1.2中的帧中头信息所占用的比特数Bit_header是根据已编码帧中所有头信息所用比特数估计得到。

而且，所述步骤1.3中的当前编码块结构相似度SSIM_LCU通过下式计算：

SSIM (x, y) = \frac{({2 μ}_{x} μ_{y} + C_{1}) ({2 σ}_{xy} + C_{2})}{(μ_{x}^{2} + μ_{y}^{2} + C_{1}) (σ_{x}^{2} + σ_{y}^{2} + C_{2})}

其中μ_x、μ_y分别表示两图像块的均值,

分别表示两图像块的方差,σ_xy表示两图像块之间的样本协方差，C₁和C₂是两个避免低亮度或低对比度区域出现不稳定状况的常数。

而且，所述步骤1.6中的λ估计值保证在：

λ_{lastLCU} \cdot 2^{\frac{- 1.0}{3.0}} \leq λ_{currLCU} \leq λ_{lastLCU} \cdot 2^{\frac{1.0}{3.0}}

λ_{currPic} \cdot 2^{\frac{- 2.0}{3.0}} \leq λ_{currLCU} \leq λ_{currPic} \cdot 2^{\frac{2.0}{3.0}}

量化参数QP值保证在：

QP_lastLCU-1≤QP_currLCU≤QP_lastLCU+1

QP_currPic-2≤QP_currLCU≤QP_currPic+2

其中λ_currLCU表示当前的最大编码单元所对应的λ，λ_lastLCU表示前一帧已编码的相同位置上最大编码单元所对应的λ，λ_currPic表示当前帧所对应的λ，QP_currLCU表示当前的最大编码单元所对应的量化参数，QP_lastLCU表示前一帧已编码的相同位置上最大编码单元所对应的量化参数，QP_currPic表示当前帧所对应的量化参数和。

而且，所述步骤2的具体步骤包括：

步骤2.1、选取1-SSIM作为率失真判决中编码图像的失真，其中SSIMLCU表示该最大编码单元的结构相似度；

步骤2.2、重新拟合R-λ函数曲线以获得相应的视频源特性参数；

步骤2.3、用相关系数R²来衡量拟合的R-λ函数曲线是否合理。

而且，所述步骤2.1中的当前编码块结构相似度SSIMLCU通过下式计算：

SSIN (x, y) = \frac{({2 μ}_{x} μ_{y} + C_{1}) ({2 σ}_{xy} + C_{2})}{(μ_{x}^{2} + μ_{y}^{2} + C_{1}) (σ_{x}^{2} + σ_{y}^{2} + C_{2})}

其中μ_x、μ_y分别表示两图像块的均值,分别表示两图像块的方差,σ_xy表示两图像块之间的样本协方差，C₁和C₂是两个避免低亮度或低对比度区域出现不稳定状况的常数。

而且，所述步骤2.2的具体处理方法为：用4个量化参数QP值22、27、32、37，对该帧进行编码得到该帧中所有最大编码单元的R-λ统计平均值点，用此来拟合曲线λ＝α·bpp^β得到参数α和β。

而且，所述步骤2.3的具体处理方法为：用相关系数R²来评估上述拟合的R-λ模型，其中相关系数用以下公式求得：

R^{2} = 1 - Σ_{i} {(X_{i} - {\overset{&OverBar;}{X}}_{i})}^{2} / Σ_{i} {(X_{i} - {\overset{&OverBar;}{X}}_{i})}^{2}

其中X_i和

分别表示i个数据的实际值和预测值，R²值越大表明这个模型越准确，R²值最大为1，当实际值等于预测值

本发明的优点和积极效果是：

本发明在码率控制中，利用SSIM指标参数决定码率控制R-λ模型中LCU级码率分配的权重，使码率分配更加高效、准确，同时将SSIM指标引入率失真优化模型，从而使码率控制的率失真优化框架能与基于感知的人眼视觉特性结合，在相同码率情况下提高了编码图像的感知视觉质量。实验结果表明本发明虽然复杂度有所增加，但在目标码率相同的情况下能提高视频主观质量，或在相同的结构相似度情况下平均能实现12%的码率减少。

附图说明

图1为相同MSE的不同质量图像示意图；

图2为BUS的R-λ拟合曲线示意图和BQMall的R-λ拟合曲线示意图；

图3为两种方法固定目标码率情况下序列的SSIM比较示意图；

图4为两种方法不同目标码率情况下序列的SSIM比较示意图；

图5为现有算法Bus序列编码重建图像主观效果图；

图6为本发明的Bus序列编码重建图像主观效果图；

图7为现有算法Johnny序列编码重建图像主观效果图；

图8为本发明的Johnny序列编码重建图像主观效果图；

图9为现有算法Crowd Run序列编码重建图像主观效果图；

图10为本发明Crowd Run序列编码重建图像主观效果图。

具体实施方式

以下结合附图对本发明做进一步详述：

一种基于结构相似度的高效视频编码感知码率控制优化方法，是基于以下方面的因素实现的：在HEVC编码端进行LCU级的码率分配时，利用SSIM作为图像失真的评价标准计算码率控制R-λ模型中LCU级码率分配的权重，使码率分配更加高效、准确；在HEVC编码端进行模式判决前，利用SSIM作为图像失真的评价标准计算图像失真，并用其替代HEVC编码端率失真判决中的编码图像的失真，从而使码率控制的率失真优化框架能与基于感知的人眼视觉特性结合；最后使用SSIM参数代替常用的PSNR参数作为质量评测标准评估视频质量。具体包括以下步骤：

步骤1、在HEVC编码端进行LCU级的码率分配时，利用SSIM作为图像失真的评价标准计算图像LCU的失真，并利用其代替HEVC编码端码率分配中的图像失真来计算码率控制R-λ模型中LCU级码率分配的权重。

在HEVC中,LCU大小可以通过配置文件中设定，通常将其设置为64×64。

步骤1.1、根据码率控制R-λ模型中GOP级码率控制、帧级码率控制得到该编码帧所分配的码率T_CurrPic。计算公式如下:

T_{AvgPic} = \frac{R_{PicAvg} \cdot (N_{coded} + SW) - R_{coded}}{SW}

T_GOP＝T_AvgPic·N_GOP

T_{CurrPic} = \frac{T_{GOP} - {Coded}_{GOP}}{\underset{NotCodedPictures}{Σ} ω_{i}} \cdot ω_{CurrPic}

其中T_CurrPic表示当前帧所分配的目标码率，T_GOP表示一个GOP的目标码率，Coded_GOP表示当前GOP已编码比特数，ω表示每一幅图像在当前GOP中比特分配中的权重，N_GOP表示一个GOP中图像的帧数。

步骤1.2、计算该帧中头信息所占用的比特数Bit_header和已经编码的LCU所用的比特数Coded_Pic。

该帧中头信息所占用的比特数Bit_header是根据已编码帧中所有头信息所用比特数估计得到，这是因为相邻帧在时间上的相关性很大。

步骤1.3、计算该LCU的分配权重ω_CurrLCU＝(1-SSIM_LCU)²,其中SSIM_LCU表示该LCU的SSIM值。

之所以用1-SSIM代替MSE来计算LCU码率分配的权重是因为MSE不能直观的衡量一个图像的主观质量。如图1所示，相同MSE的不同质量图像示意图，其中A为原始图像，B为平均改变图像，MSE=144，C为对比度拉伸图像，MSE=144，D为模糊图像，MSE=144，E为JPEG压缩图像，MSE=142。很明显，虽然这几幅图像的MSE相同或相近，但是主观质量却相差很大。因此我们用SSIM来衡量图像主观质量。编码图像SSIM值的取值范围为0到1，SSIM值越大，表示编码后重建的图像与原始图像越接近，意味着重建后的图像质量越好。我们可以认为，图像质量越好，则图像失真越不明显，即SSIM值与图像失真实际上是一个负相关的关系。我们在计算编码图像失真的时候需要利用SSIM作为评价标准，因此，我们可以利用1-SSIM作为度量因子来替代编码图像的失真值。当前编码LCU的码率分配权重由ω_CurrLCU＝(1-SSIM_LCU)²求得，其中当前编码块SSIM值SSIM_LCU可通过下式计算：

SSIM (x, y) = \frac{({2 μ}_{x} μ_{y} + C_{1}) ({2 σ}_{xy} + C_{2})}{(μ_{x}^{2} + μ_{y}^{2} + C_{1}) (σ_{x}^{2} + σ_{y}^{2} + C_{2})}

其中μ_x、μ_y分别表示两图像块的均值,

步骤1.4、计算该LCU的目标码率，目标码率T_CurrPic按以下公式计算：

T_{CurrCU} = \frac{T_{CurrPic} - {Bit}_{header} - {Coded}_{pic}}{\underset{NotCodedLCUs}{Σ} ω_{i}} \cdot ω_{CurrLCU}

其中T_CurrPic表示该编码帧所分配的目标码率，Bit_header表示该帧中头信息所占用的比特数，Coded_Pic表示已经编码的LCU所用的比特数，ω表示每个LCU码率分配的权重；

步骤1.5、根据目标码率T_CurrPic以及公式λ＝α·bpp^β求得参数λ；

由于在率失真框架中用1-SSIM来表征图像失真，因此需要对λ＝α·bpp^β模型的参数α和β重新进行拟合。为了获得一帧中R-λ的统计值，我们编码4种QP值，分别为22、27、32、37。得到所有四组如图2所示的在LCU中R-λ的统计平均值点，此处只展示两个拟合曲线，虽然它们会依据序列的不同而变化，但每个序列的R和λ点很好的拟合匹配了双曲线函数。

下面用相关系数R²的统计校验值来评估以上的R-λ模型。

R^{2} = 1 - Σ_{i} {(X_{i} - {\overset{&OverBar;}{X}}_{i})}^{2} / Σ_{i} {(X_{i} - {\overset{&OverBar;}{X}}_{i})}^{2}

X_i和

分别表示i个数据的实际值和预测值，一个大的R²值表明这个模型更准确，最大的R²值是1，发生在当对于i为任何值时实际值等于预测值

用上述模型测试了6种序列的各100帧，对于每一帧，每一个LCU的R-λ点由上述提出的R-λ模型拟合和存储，表1中是每帧所有LCU的R²平均值，可以看出结果基本都大于0.97证明改进后的算法仍能成功符合R-λ模型，其中BUS和BQMall两种序列的拟合结果如图2所示。

表3相关系数

序列	相关系数
		Bus(CIF)	0.982
Canoa(CIF)	0.9896
		City(D1)	0.9736
BQMall(832x480)	0.9905
		Johnny(720p)	0.9782
FourPeople(720p)	0.9842
		PartyScene(1080p)	0.9923
Cactus(1080p)	0.9885
		平均值	0.9847

步骤1.6、根据对不同序列进行拟合得到的如下QP-λ关系计算编码所需的QP值：

QP＝7.783lnλ+36.132

为保证视频质量的稳定性，λ值和已定的QP值被限制到一个很小的范围内。在LCU级上，λ估计值保证在：

λ_{lastLCU} \cdot 2^{\frac{- 1.0}{3.0}} \leq λ_{currLCU} \leq λ_{lastLCU} \cdot 2^{\frac{1.0}{3.0}}

λ_{currPic} \cdot 2^{\frac{- 2.0}{3.0}} \leq λ_{currLCU} \leq λ_{currPic} \cdot 2^{\frac{2.0}{3.0}}

在LCU级上，QP值保证在：

QP_lastLCU-1≤QP_currLCU≤QP_lastLCU+1

QP_currPic-2≤QP_currLCU≤QP_currPic+2

其中λ_currLCU表示当前的LCU所对应的λ，λ_lastLCU表示前一帧已编码的相同位置上LCU所对应的λ，λ_currPic表示当前帧所对应的λ，QP_currLCU、QP_lastLCU和QP_currPic的定义同理。

步骤1.7、更新模型参数。

当编码完一个LCU，利用编码后的真实的bpp和λ值来更新模型λ＝α·bpp^β中的α和β值。在一幅图像中，每一个LCU都有自己的λ值。α和β值由以下三式来进行更新，在本文实际实现上，δ_α和δ_β依常规分别设定为0.1和0.05：

λ_{comp} = α_{old} \cdot {bpp}_{real}^{β_{old}}

α_new＝α_old+δ_α·(lnλ_real-lnλ_comp)·α_old

β_new＝β_old+δ_β·(lnλ_real-lnλ_comp)·lnbpp_real

其中λ_comp表示未更新模型中的参数。

需要指出的是，针对一些特殊情况，例如当实际编码的bpp太小（可能会出现在一个LCU的skip模式或一帧中太多skip模式），因此更新过程α和β还要满足如下条件：

α_new＝0.96α_old

β_new＝0.98β_old

无论使用哪种方法更新α和β，最终值都要满足如下限定范围：α要满足[0.05,20]，β要满足[-3.0,-0.1]。

步骤2、在HEVC编码端进行模式判决前，利用SSIM作为图像失真的评价标准计算图像失真，并用其替代HEVC编码端率失真判决中的编码图像的失真。

步骤2.1、选取1-SSIM作为率失真判决中编码图像的失真，用1-SSIM来表征图像失真计算率失真从而选择最佳的编码模式。

其中SSIM值的计算在步骤1.3中已经给出。

为了获得一帧中R-λ的统计值，用4个QP值，分别为22，27，32，37，对该帧进行编码可得到该帧中所有LCU的R-λ统计平均值点。用此来拟合曲线λ＝α·bpp^β得到参数α和β。

步骤2.3、用相关系数R²来衡量拟合的R-λ函数曲线是否合理。

用相关系数R²来评估上述拟合的R-λ模型，其中相关系数R²用以下公式求得：

R^{2} = 1 - Σ_{i} {(X_{i} - {\overset{&OverBar;}{X}}_{i})}^{2} / Σ_{i} {(X_{i} - {\overset{&OverBar;}{X}}_{i})}^{2}

其中X_i和

通过以上步骤即可实现基于结构相似度的高效视频编码感知码率优化控制功能。

下面给出在HEVC中应用本专利申请提供的码率控制优化算法时，与现有HM10.0的仿真性能比较。其中，仿真环境为VisualStudio2010。所有视频测试序列都是Y:Cb:Cr为4:2:0模式的，使用标准配置文件中的低延迟配置和IPPP的GOP结构。每一个序列编码100帧，每一个序列都用不同的量化参数QP进行编码，QP值分别采用22、27、32和37，并且未加入码率控制。将上述未开启码率控制的结果码率作为接下来开启码率控制测试改进的码率控制优化方法的相应序列的目标码率，同时相应的QP值作为初始QP值。

如图3所示，除个别帧外，相比原来的码率控制算法，提出的码率控制优化方法可获得更高的SSIM值，表明提出的码率控制优化方法能够在相同的目标码率情况下提高图像主观质量。表4展示了两种方法在相同目标码率情况下的平均SSIM值、PSNR值、码率和误码率比较，从中可以看到：对于所有的序列，改进的感知码率控制方法在HM参考平台编码端获得了较高的SSIM值，在SSIM值有大概0.019的提升的同时PSNR有略微的下降。图4分别展示两种方法针对4个序列在不同目标码率下SSIM值的对比，从中可以看出，提出的码率控制优化方法比原HM参考平台的码率控制算法可以获得更大的SSIM，即图像主观效果更好。表5显示了在相同码率情况下平均SSIM值的提升，以及在相同SSIM值情况下提出的码率控制优化方法比原算法PSNR值的变化和实际码率的减少，从中可以看出对于BUS(CIF)和Cactus(1080p)序列，提出的码率控制优化方法获得了显著的R-SSIM性能提升。

表4相同码率下两种方法性能对比

表5两种方法RD性能对比

序列	PSNR变化(dB)	SSIM增益	比特率减少%
				BUS(CIF)	-0.15	0.014	14.22
City(D1)	-0.13	0.015	9.85
				Johnny(720p)	-0.18	0.012	12.20
Cactus(1080p)	-0.22	0.025	15.08

由图5至-10可见，应用本专利申请的码率控制优化算法后，相比于HM10.0在主观质量上较明显的提高（其中，图5、图7和图9表示由HEVC现有的码率控制优化方法得到的编码重建图像，图6、图8和图10表示由本申请提出的码率控制方法得到的编码重建图像）。从图像的纹理和细节来看，应用本申请的码率控制优化算法比原算法纹理和细节更加清晰。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于结构相似度的高效视频编码感知码率控制优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于结构相似度的高效视频编码感知码率控制优化方法，其特征在于：所述步骤1的具体步骤包括：

步骤1.4、计算该最大编码单元的目标码率根据公式：

T_{CurrCU} = \frac{T_{CurrPic} - {Bit}_{header} - {Coded}_{pic}}{\underset{NotCodedLCUs}{Σ} ω_{i}} \cdot ω_{CurrLCU}

QP＝7.783lnλ+36.132

3.根据权利要求2所述基于结构相似度的高效视频编码感知码率控制优化方法，其特征在于：所述步骤1.1中的目标码率T_CurrPic采用下式计算：

T_{CurrPic} = \frac{T_{GOP} - {Coded}_{GOP}}{\underset{NotCodedPictures}{Σ} ω_{i}} \cdot ω_{CurrPic}

4.根据权利要求2所述基于结构相似度的高效视频编码感知码率控制优化方法，其特征在于：所述步骤1.2中的帧中头信息所占用的比特数Bit_header是根据已编码帧中所有头信息所用比特数估计得到。

5.根据权利要求2所述基于结构相似度的高效视频编码感知码率控制优化方法，其特征在于：所述步骤1.3中的当前编码块结构相似度SSIM_LCU通过下式计算：

SSIM (x, y) = \frac{({2 μ}_{x} μ_{y} + C_{1}) ({2 σ}_{xy} + C_{2})}{(μ_{x}^{2} + μ_{y}^{2} + C_{1}) (σ_{x}^{2} + σ_{y}^{2} + C_{2})}

6.根据权利要求2所述基于结构相似度的高效视频编码感知码率控制优化方法，其特征在于：所述步骤1.6中的λ估计值保证在：

λ_{lastLCU} \cdot 2^{\frac{- 1.0}{3.0}} \leq λ_{currLCU} \leq λ_{lastLCU} \cdot 2^{\frac{1.0}{3.0}}

λ_{currPic} \cdot 2^{\frac{- 2.0}{3.0}} \leq λ_{currLCU} \leq λ_{currPic} \cdot 2^{\frac{2.0}{3.0}}

量化参数QP值保证在：

QP_lastLCU-1≤QP_currLCU≤QP_lastLCU+1

QP_currPic-2≤QP_currLCU≤QP_currPic+2

7.根据权利要求1所述基于结构相似度的高效视频编码感知码率控制优化方法，其特征在于：所述步骤2的具体步骤包括：

步骤2.1、选取1-SSIM作为率失真判决中编码图像的失真，其中SSIM_LCU表示该最大编码单元的结构相似度；

步骤2.3、用相关系数Ｒ^２来衡量拟合的R-λ函数曲线是否合理。

8.根据权利要求7所述基于结构相似度的高效视频编码感知码率控制优化方法，其特征在于：所述步骤2.1中的当前编码块结构相似度SSIM_LCU通过下式计算：

SSIN (x, y) = \frac{({2 μ}_{x} μ_{y} + C_{1}) ({2 σ}_{xy} + C_{2})}{(μ_{x}^{2} + μ_{y}^{2} + C_{1}) (σ_{x}^{2} + σ_{y}^{2} + C_{2})}

其中μ_x、μ_y分别表示两图像块的均值,

9.根据权利要求7所述基于结构相似度的高效视频编码感知码率控制优化方法，其特征在于：所述步骤2.2的具体处理方法为：用4个量化参数QP值22、27、32、37，对该帧进行编码得到该帧中所有最大编码单元的R-λ统计平均值点，用此来拟合曲线λ＝α·bpp^β得到参数α和β。

10.根据权利要求7所述基于结构相似度的高效视频编码感知码率控制优化方法，其特征在于：所述步骤2.3的具体处理方法为：用相关系数Ｒ^２来评估上述拟合的R-λ模型，其中相关系数用以下公式求得：

R^{2} = 1 - Σ_{i} {(X_{i} - {\overset{&OverBar;}{X}}_{i})}^{2} / Σ_{i} {(X_{i} - {\overset{&OverBar;}{X}}_{i})}^{2}

其中Ｘ_i和