CN107071447A

CN107071447A - 一种dvc中基于二次边信息的相关噪声建模方法

Info

Publication number: CN107071447A
Application number: CN201710221263.9A
Authority: CN
Inventors: 刘杰平; 周林斌; 韦岗
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-04-06
Filing date: 2017-04-06
Publication date: 2017-08-18
Anticipated expiration: 2037-04-06
Also published as: CN107071447B

Abstract

本发明公开了一种DVC中基于二次边信息的相关噪声建模方法，在分布式视频编码中该模型采用的相关噪声来源是：在解码端前向补偿帧和后向补偿帧生成的传统的一次在线噪声和边信息的基础上，采用前向帧和边信息帧、边信息帧和后向帧之间分别获得两种形式的二次在线噪声，将一次在线噪声和二次在线噪声融合得到的融合相关噪声作为相关噪声。用参数估计的高斯混合模型和非参数估计的非固定窗宽核密度估计模型对融合相关噪声进行建模，设计KL散度判决模块来决定各个频带的相关噪声模型形式。本发明提出的模型可以更为精确的拟合WZ帧和边信息之间的“虚拟信道”中的相关噪声的统计特性，从而可以有效地改善变换域分布式视频编码的率失真性能。

Description

一种DVC中基于二次边信息的相关噪声建模方法

技术领域

本发明涉及一种视频信号处理技术领域中分布式视频编码的方法，具体是一种DVC中基于二次边信息的相关噪声建模方法。

背景技术

传统的视频编码标准如PEG-4，H.264/AVC等均采用不对称的编码方式，编码端隐含一个解码器而且包含复杂的运动估计模块，这种不对称的编码解码方式适应一次编码，多次解码的应用领域，但对于近些年的一些应用领域中，像监控***中的无线视频探测头，便携式的视频摄像机，无线PC相机等等，这一类的设备往往能量和资源受限，要求编码设备简单，而处于终端的中央服务器的解码设备可以拥有相对更多的资源和能量来进行复杂的计算处理。

上个世纪七十时代，Slepain、Wolf、Wyner、Ziv等人从理论上证明了多个相关的信源在独立编码和联合解码的情形下，也可以达到传统的联合编码联合解码的编码效率。，本世纪初才开始陆续有国外学者着手开展视频在独立编码和联合解码的实现算法研究，且取得了一定的成果并逐渐引起关注。这种新型的分布式视频编码方案将原本复杂的挖掘视频序列时间和空间冗余的运动补偿和帧间预测放到了解码端，从而大大降低了编码端的复杂度。

DVC的编码效率通常是通过使用源信息和边信息的相关统计信息实现的。解码端需要挖掘相关噪声的统计信息，计算估计的概率对数似然比作为解码算法的初始化输入。特别是，高编码效率很大程度上依赖于所用模型对相关噪声的拟合能力。然而，对相关噪声进行精确建模面临很多挑战的原因在于，解码端无法获得原始帧，而在编码端也无法获得边信息。另外，视频信号的时域和空域的非平稳特性，以及遮挡和光照变化会影响相关噪声的统计信息。为了提高编码性能，源信息和边信息之间的相关噪声统计估计应该要尽可能的准确，为了实现这点，本发明从优化在线噪声的获得和优化噪声建模两方面考虑，更精确描述“虚拟信道”的特性，为解码器提供更精确的输入，可以有效改善变换域分布式视频编码的率失真性能。

发明内容

本发明针对现有方法获得的在线噪声不够精确，以及现有模型对在线噪声的拟合能力有待提高的问题。为了获得原始WZ帧与边信息之间更为准确的相关噪声和提高模型对在线噪声的拟合能力，提出了一种DVC中基于二次边信息的相关噪声建模方法。该模型将得到的融合噪声作为残差样本(相关噪声)，并采用高斯混合模型与非参数估计的非固定窗宽核密度估计(KDE,kernel density estimation)共同对融合噪声进行建模，并通过KL散度(KLD, Kullback-Leibler divergence)判决模块来自适应地决定某一频带是采用基于参数估计的高斯混合模型还是非参数估计模型。本发明的相关噪声获得方法和相关噪声建模方案可以更精确描述“虚拟信道”的特性，为解码器提供更精确的输入，同时也有效改善了变换域分布式视频编码(Distributed Video Coding,DVC)的率失真性能。

本发明通过以下技术方案实现。

一种DVC中基于二次边信息的相关噪声建模方法，该方法包括如下步骤：

(1)在线噪声和边信息的二次生成；

(2)二次在线噪声与一次在线噪声的融合、边信息的融合；

(3)训练KDE模型和估计混合高斯模型参数；

(4)利用KL散度判决模块，自适应地对各个频带的相关噪声建模。

进一步地，步骤(1)具体包括：将视频序列经过图像分组模块GOP＝2(Group ofPictures), 分为偶数帧和奇数帧，偶数帧为Wyner-Ziv帧即WZ帧和奇数帧为关键帧即K帧，则2m帧视频序列中WZ帧包括WZ₂、WZ₄、…、WZ_2n、…、WZ_2m帧，K帧包括K₁、K₃、…、K_2n-1、…、K_2m-1帧； K帧采用传统的帧内编码，解码端得到解码的K帧包括帧，n＝1～m； (1.1)解码端，在和帧之间搜索，得到前后向运动矢量其中dx_f代表前向运动矢量在水平方向的分量，dx_b代表后向运动矢量在水平方向的分量，dy_f代表前向运动矢量在垂直方向的分量，dy_b代表后向运动矢量在垂直方向的分量，上标的含义代表在相应两帧之间搜索运动矢量，下述的dx_f dx_b，dy_f dy_b也是同样含义，dx_f dx_b，dy_f dy_b中的f是表示前向Front的意思，b是表示后向Back的意思，WZ_2n帧的前向补偿帧为x表示像素点的横坐标,y表示纵坐标，构造出帧是在帧的基础上利用第2n-1帧,第2n+1帧搜索出的前向运动矢量得到的，后向补偿帧为下述步骤(1.2)构造出来的各帧中的字母的含义也参照本步骤；生成的一次边信息为的下标1表示是一次边信息，上标2n表示第2n帧，即WZ_2n帧对应的边信息，一次在线残差即相关噪声为的下标1表示是一次在线残差，上标2n表示第2n帧，即WZ_2n帧对应的在线残差；都是构造出来的帧；

(1.2)一方面在)和之间搜索，得到前后运动矢量的后向帧为的前向帧另一方面在和之间搜索，得到前后向运动矢量的后向帧为的前向帧为此处的dx_f dx_b，dy_f dy_b含义和前述步骤一样；(1.3)生成的二次边信息如下：其中下标21和下标22分别表示生成的二次边信息的第一种形式和第二种形式；生成的二次残差即相关噪声如下:

进一步地，步骤(2)具体包括：

对二次相关噪声和二次边信息分别进行融合处理，得到融合在线噪声融合边信息取为：此处的上标2n与步骤(1)所述2n-1,2n+1中的n含义是相同的，2n就表示的是第2n帧，2n-1就表示的是第2n-1帧，2n+1就表示的是第2n+1帧，所以SI²ⁿ是第2n帧即WZ_2n帧最终对应的融合边信息，R²ⁿ是第2n帧即WZ_2n帧最终对应的融合在线噪声。

进一步地，步骤(3)具体包括：

(3.1)高斯混合模型参数初始化：

高斯混合模型y表示某个残差样本值，θ是高斯混合模型的参数集，θ＝(θ₁,θ₂,...θ_S)，S为高斯混合模型的分模型个数,θ_i＝(α_i,u_i,σ_i)，i＝1,2,...S,i表示是第几个高斯分布，α_i是第i个高斯分布的权重，第i个高斯分布的概率密度函数是μ_i是第i个高斯分布的权重，是第i个高斯分布的方差，对频带级的融合噪声R²ⁿ做K-means聚类，将聚为S类的聚类中心结果作为高斯混合模型中θ＝(θ₁,θ₂,...θ_S)参数估计的初始值；

(3.2)根据，更新高斯混合模型参数集；y_j是残差样本集R²ⁿ中的第j个残差值；N是残差样本集R²ⁿ的样本容量大小,S为高斯混合模型的分模型个数，α_i是第i个高斯分布的权重，μ_i是第i个高斯分布的权重，是第i个高斯分布的方差，表示y_j属于第i个高斯分布的隶属度的更新估计值，是第i个高斯分布的权重的更新估计值，是第i个高斯分布的权重的更新估计值，是第i个高斯分布的方差的更新估计值；

(3.3)直到前后两次高斯混合模型的对数似然函数变化值小于设定阈值时，高斯混合模型的参数集更新结束；

(3.4)KDE模型参数初始化：

KDE模型x是要估计的残差值，X_i是残差样本集中的第i 个样本值，N是残差样本集R²ⁿ的样本容量，h(x)*为步骤(3.5)所求优化的对要估计的残差值x的自适应的可变带宽，K(·)采用核函数，计算初始固定带宽 h₀，是样本方差；

(3.5)计算优化的自适应的可变带宽其中，h₀为步骤(3.4)所求初始固定带宽，x是要估计的残差值，X_i是残差样本集中的第i个样本值，N是残差样本集R²ⁿ的样本容量,是采用h₀为带宽情况下对要估计的残差值x的概率密度估计值。

进一步地，步骤(4)具体包括：

(4.1)利用步骤(2)得到高斯混合和KDE两种相关噪声模型下的残差R²ⁿ的概率密度，分别与融合噪声残差样本的概率密度做KL散度计算；选择可以获得较小KL散度值的模型作为当前频带的最优模型；

(4.2)基于步骤(4.1)选择的最优模型，计算残差二进制表示后每一位的为0和为1的概率对数似然比，即可得到LDPCA解码器更精确的输入，并送入LDPCA解码器模块。

进一步地，二次边信息和二次在线噪声是指：在生成前向帧和边信息SI²ⁿ之间、边信息SI²ⁿ和后向帧之间继续搜索更深一层的运动矢量；得到更为精确的前向帧前和后向帧通过这些新生成的前向帧和后向帧，得到两种新的二次边信息和二次在线噪声并对其进行融合处理；处理后的融合噪声是原始的一次在线噪声样本集和两种形式的二次在线噪声样本集的叠加；处理后的融合边信息是原始的一次边信息和两种形式的二次边信息的平均。

进一步地，步骤(3.5)中对于融合噪声R²ⁿ的KDE模型中的窗宽估计不再采用固定窗宽，而是针对不同的自变量选择不同的窗宽，更好地适应样本集中密集区域或稀疏区域的自变量。

进一步地，步骤(3.1)-(3.5)中，整合了对于融合噪声R²ⁿ的两种不同统计学方法的概率密度估计；对融合噪声R²ⁿ同时进行参数估计的混合高斯模型和非参数估计的KDE模型的估计，得到残差R²ⁿ在两种模型下的概率密度估计，然后再分别和融合噪声R²ⁿ的概率密度做KL散度计算，选择在当前频带融合噪声的残差样本下可以获得较小KL散度值的模型作为当前频带的最优模型。

本发明与现有技术比较，具有如下优点和有益效果：

1、从在线噪声的获得来源上对以往的噪声获得方法进行了创新，获得的融合噪声可以更为贴近“虚拟信道”中的真实相关噪声。

2、融合噪声是将一次在线噪声和二次在线噪声进行融合，噪声样本集的样本容量得到加倍，样本容量的增加，有助于提高高斯混合模型参数集估计，核密度估计的准确性。

3、建模时，综合考虑了统计分析中属于参数估计的高斯混合模型和非参数估计模型这两种不同类别模型的优点，并通过客观KL散度评判这两种模型样本的拟合程度，自适应地选择对相关噪声建模。

附图说明

图1是现有变换域视频编解码的整体框架图。

图2是本发明基于二次边信息的相关噪声建模的框架图。

图3是本发明基于二次边信息和二次在线噪声的流程图。

具体实施方法

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

图1是现有的变换域的分布式视频编解码的框架图。本发明如图2所示提出了一种DVC 中基于二次边信息的相关噪声建模方法，建模模块整合了属于参数估计的高斯混合模型和非参数估计的KDE模型，利用KL散度判决模块，自适应地为每一频带的残差样本选择最佳的模型，从而更精确地挖掘属于该频带的“虚拟信道”的统计特性。为LDPCA解码器输入更为可靠的概率对数似然比作为输入。从而可以改善DVC***的率失真性能。

下面给出本发明的具体实施例。

(1)如图3，在线噪声和边信息的二次生成包括以下步骤：

(1.1)将视频序列“foreman”,“news”,“soccer”经过图像分组模块(GOP,Group ofPictures)，GOP＝2分为偶数帧和奇数帧，偶数帧为Wyner-Ziv帧(WZ帧)和奇数帧为关键帧(K帧)，如2m帧视频序列中WZ帧包括：WZ₂、WZ₄、…、WZ_2n、…、WZ_2m帧，K帧包括 K₁、K₃、…、K_2n-1、…、K_2m-1帧。K帧采用传统的帧内编码，解码端得到解码的K帧包括帧，n＝1～m。

(1.2)解码端，在和帧之间搜索，得到前后向运动矢量其中dx_f代表前向运动矢量在水平方向的分量，dx_b代表后向运动矢量在水平方向的分量，dy_f代表前向运动矢量在垂直方向的分量，dy_b代表后向运动矢量在垂直方向的分量，上标的含义代表在相应两帧之间搜索运动矢量，下述的dx_f dx_b，dy_f dy_b也是同样含义，dx_f dx_b，dy_f dy_b中的f是表示前向Front的意思，b是表示后向Back的意思，WZ_2n帧的前向补偿帧为x表示像素点的横坐标,y表示纵坐标，构造出帧是在帧的基础上利用第2n-1帧,第2n+1帧搜索出的前向运动矢量得到的，后向补偿帧为下述步骤(1.2)构造出来的各帧中的字母的含义也参照本步骤；生成的一次边信息为的下标1表示是一次边信息，上标2n表示第2n帧，即WZ_2n帧对应的边信息，一次在线残差即相关噪声为的下标1表示是一次在线残差，上标2n表示第2n帧，即WZ_2n帧对应的在线残差；都是构造出来的帧；

(1.3)一方面在和之间搜索，得到前后运动矢量的后向帧为的前向帧另一方面在和之间搜索，得到前后向运动矢量的后向帧为的前向帧为此处的dx_f dx_b，dy_f dy_b含义和前述步骤一样；

(1.4)生成的二次边信息如下：其中下标21和下标22分别表示生成的二次边信息的第一种形式和第二种形式。生成的二次残差(相关噪声)如下:

(1.5)对二次相关噪声和二次边信息进行融合处理，融合在线噪声为融合边信息为：

(2)利用新生成的融合噪声，训练KDE模型和估计混合高斯模型参数的方法包括以下步骤：

(2.1)高斯混合模型参数初始化：

(2.2)根据，更新高斯混合模型参数集；y_j是残差样本集R²ⁿ中的第j个残差值；N是残差样本集R²ⁿ的样本容量大小,S为高斯混合模型的分模型个数，α_i是第i个高斯分布的权重，μ_i是第i个高斯分布的权重，是第i个高斯分布的方差，表示y_j属于第i个高斯分布的隶属度的更新估计值，是第i个高斯分布的权重的更新估计值，是第i个高斯分布的权重的更新估计值，是第i个高斯分布的方差的更新估计值；

(2.3)直到前后两次高斯混合模型的对数似然函数变化值小于设定阈值0.001时，高斯混合模型的参数集更新结束。

(2.4)KDE模型参数初始化：

KDE模型x是要估计的残差值，X_i是残差样本集中的第i 个样本值，N是残差样本集R²ⁿ的样本容量，h(x)^*为步骤(2.5)所求优化的对要估计的残差值x的自适应的可变带宽，K(·)采用核函数，计算初始固定带宽h₀，是样本方差；

(2.5)计算优化的自适应的可变带宽其中，h₀为步骤(2.4)所求初始固定带宽，x是要估计的残差值，X_i是残差样本集中的第i个样本值，N是残差样本集R²ⁿ的样本容量,是采用h₀为带宽情况下对要估计的残差值x的概率密度估计值。

(3)利用KL散度判决模块，自适应地对各个频带的相关噪声建模包括以下步骤：

(3.1)利用步骤(2)得到高斯混合和KDE两种相关噪声模型下的残差R²ⁿ的概率密度，分别与融合噪声残差样本的概率密度做KL散度计算。选择可以获得较小KL散度值的模型作为当前频带的最优模型。

(3.2)基于步骤(3.1)选择的最优模型，计算残差二进制表示后每一位的为0和为1的概率对数似然比，即可得到LDPCA解码器的“软输入”。并送入LDPCA解码器模块。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种DVC中基于二次边信息的相关噪声建模方法，其特征在于该方法包括如下步骤：

(1)在线噪声和边信息的二次生成；

(2)二次在线噪声与一次在线噪声的融合、边信息的融合；

(3)训练KDE模型和估计混合高斯模型参数；

2.根据权利要求1所述的一种DVC中基于二次边信息的相关噪声建模方法，其特征在于：步骤(1)具体包括：

(1.1)将视频序列经过图像分组模块GOP＝2(Group of Pictures),分为偶数帧和奇数帧，偶数帧为Wyner-Ziv帧即WZ帧和奇数帧为关键帧即K帧，则2m帧视频序列中WZ帧包括WZ₂、WZ₄、...、WZ_2n、...、WZ_2m帧，K帧包括K₁、K₃、...、K_2n-1、...、K_2m-1帧；K帧采用传统的帧内编码，解码端得到解码的K帧包括帧，n＝1～m；

(1.2)解码端，在和帧之间搜索，得到前后向运动矢量其中dx_f代表前向运动矢量在水平方向的分量，dx_b代表后向运动矢量在水平方向的分量，dy_f代表前向运动矢量在垂直方向的分量，dy_b代表后向运动矢量在垂直方向的分量，上标的含义代表在相应两帧之间搜索运动矢量，下述的dx_f dx_b，dy_f dy_b也是同样含义，dx_f dx_b，dy_f dy_b中的f是表示前向Front的意思，b是表示后向Back的意思，WZ_2n帧的前向补偿帧为x表示像素点的横坐标,y表示纵坐标，构造出帧是在帧的基础上利用第2n-1帧,第2n+1帧搜索出的前向运动矢量得到的，后向补偿帧为下述步骤(1.3)构造出来的各帧中的字母的含义也参照本步骤；生成的一次边信息为的下标1表示是一次边信息，上标2n表示第2n帧，即WZ_2n帧对应的边信息，一次在线残差即相关噪声为的下标1表示是一次在线残差，上标2n表示第2n帧，即WZ_2n帧对应的在线残差；都是构造出来的帧；

(1.3)一方面在和之间搜索，得到新的前后向运动矢量并计算的后向帧为的前向帧另一方面在和之间搜索，得到前后向运动矢量的后向帧为的前向帧为此处的dx_f dx_b，dy_f dy_b含义和前述步骤一样；

(1.4)生成的二次边信息如下：其中下标21和下标22分别表示生成的二次边信息的第一种形式和第二种形式；生成的二次残差即相关噪声如下:

3.根据权利要求2所述的一种DVC中基于二次边信息的相关噪声建模方法，其特征在于：步骤(2)具体包括：

4.根据权利要求1所述的一种DVC中基于二次边信息的相关噪声建模方法，其特征在于：步骤(3)具体包括：

(3.1)高斯混合模型参数初始化：

(3.4)KDE模型参数初始化：

KDE模型x是要估计的残差值，Xi是残差样本集中的第i个样本值，N是残差样本集R²ⁿ的样本容量，h(x)*为步骤(3.5)所求优化的对要估计的残差值x的自适应的可变带宽，K(·)采用核函数，计算初始固定带宽h₀，是样本方差；

5.根据权利要求1所述的一种DVC中基于二次边信息的相关噪声建模方法，其特征在于：步骤(4)具体包括：

6.根据权利要求1所述的一种DVC中基于二次边信息的相关噪声建模方法，其特征在于：二次边信息和二次在线噪声是指：在生成前向帧和边信息SI²ⁿ之间、边信息SI²ⁿ和后向帧之间继续搜索更深一层的运动矢量；得到更为精确的前向帧前和后向帧通过这些新生成的前向帧和后向帧，得到两种新的二次边信息和二次在线噪声并对其进行融合处理；处理后的融合噪声是原始的一次在线噪声样本集和两种形式的二次在线噪声样本集的叠加；处理后的融合边信息是原始的一次边信息和两种形式的二次边信息的平均。

7.根据权利要求1所述的一种DVC中基于二次边信息的相关噪声建模方法，其特征在于：在步骤(3.5)中对于融合噪声R²ⁿ的KDE模型中的窗宽估计不再采用固定窗宽，而是针对不同的自变量选择不同的窗宽，更好地适应样本集中密集区域或稀疏区域的自变量。

8.根据权利要求1所述的一种DVC中基于二次边信息的相关噪声建模方法，其特征在于：在步骤(3.1)-(3.5)中，整合了对于融合噪声R²ⁿ的两种不同统计学方法的概率密度估计；对融合噪声R²ⁿ同时进行参数估计的混合高斯模型和非参数估计的KDE模型的估计，得到残差R²ⁿ在两种模型下的概率密度估计，然后再分别和融合噪声R²ⁿ的概率密度做KL散度计算，选择在当前频带融合噪声的残差样本下可以获得较小KL散度值的模型作为当前频带的最优模型。