CN101835048A

CN101835048A - 通过基于abt的最小可觉差模型进行视频编码的方法和装置

Info

Publication number: CN101835048A
Application number: CN201010174145A
Authority: CN
Inventors: 颜庆义; 马林; 湛伟权; 刘雨
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2010-03-30
Filing date: 2010-04-30
Publication date: 2010-09-15
Anticipated expiration: 2030-04-30
Also published as: US8559511B2; US20110243228A1; CN101835048B

Abstract

本发明涉及通过基于自适应块尺寸变换(ABT)的最小可觉差(JND)模型对视频编码的方法和装置。为了建立最小可觉差模型，使用空间内容信息(SCI)来表示宏块及其子块之间的空间外观相似度，并且使用运动特性距离(MCD)来表示宏块及其子块之间的运动特性相似度。对帧内编码帧，基于宏块SCI的平衡策略被用来产生基于ABT的JND模型。对帧间编码帧，基于宏块SCI和MCD的平衡策略被用来产生基于ABT的JND模型。使用基于ABT的JND模型，帧内每个块的残差系数被滤波以获得一组缩减的残差系数用于传输，但不会降低视觉质量。

Description

通过基于ABT的最小可觉差模型进行视频编码的方法和装置

【技术领域】

本发明通常涉及数字视频处理，特别涉及包括编码和解码的数字视频编码。

【背景技术】

由于摄像装置的进步，无论何时何地都能够产生越来越多的视频(图像序列，也被称为运动图像)。此外，为了追求更高的分辨率，视频尺寸不断增加，从而涉及到大量数据需要处理。这给诸如显示、传输和存储视频的过程带来了巨大挑战。所以，需要一种视频编码技术，使得视频在不牺牲其质量的情况下能够被压缩。

至于质量，期望发生较少的失真，传统上失真通常是由量化度量如均方差(MSE)和峰值信噪比(PSNR)来衡量的。但是，这些量化度量并不能反映观看者的感受以及失真在观看者眼中的严重程度。因此，通过考虑人类如何视觉感受事物的特性，在不带来额外视觉失真的前提下，需要进一步提高压缩比。换言之，人类如何视觉感受图像的主观试验非常重要。所以，需要保持用户的视觉感受，同时更有效地进行视频处理。

此外，按照视频标准的发展，越来越多的特征被结合到当前和未来的视频编准里。其中一个特征是允许视频编码过程里有各种块尺寸，例如，自适应块尺寸变换(ABT)。通过考虑图像内容，这有助于改善图像质量。所以，需要在视频编码时能够进行ABT，例如，与视频标准如H.264/AVC兼容。

【发明概述】

基于空间内容信息和运动特性距离，本发明产生基于ABT的最小可觉差(JND)模型，其通过残差滤波方法可以应用于视频编码***。JND模型也被称为JND方案。由于JND模型能够以矩阵格式表示，JND模型也被称为JND图。

本发明其中一个优点是通过使用基于ABT的JND模型进行视频编码能够节省高达50％的比特率，而不会降低主观视觉质量。本发明使用人类如何视觉感受事物的特性以降低比特率，而不会带来可觉察的视觉失真。一个模拟人类视觉感受事物过程的***被称为视觉感受模型(VPM)。一个视觉感受模型的例子是最小可觉差(JND)模型。建立基于ABT的JND模型，并提供JND阈值给帧内的每个块，如果非零残差系数的数值小于JND阈值，非零残差系数被滤波。如果非零残差系数的数值大于相应的JND阈值，将从非零残差系数中减去相应的JND阈值。

就本发明JND模型的特性而言，不同于图像域内的现有JND模型，或频率域内产生的基于固定块尺寸DCT的JND模型，本发明采用基于不同块尺寸的基于ABT的JND模型。另外，基于ABT的JND模型在不同块尺寸变换时考虑人类如何视觉感受事物的特性。基于ABT的JND模型是根据空间内容信息(SCI)和运动特性距离(MCD)而确定的。

就本发明JND模型的应用而言，不同于现有JND模型用于图像/视频水印和质量评估，本发明使用JND模型以增强视频编码效率并降低比特率。

此外，依照一个预设的图像质量度量，本发明使用基于ABT的JND模型进行视频编码，而不需要调整量化矩阵。

本发明的一个方面是将固定尺寸的JND模型扩展到不同块尺寸。不同块尺寸的JND模型被用来描述人类对不同尺寸变换如何视觉感受事物的特性。

本发明的另一个方面是确定空间内容信息(SCI)，其描述宏块及其子块之间的空间外观相似性。

本发明的另一个方面是确定运动特性距离(MCD)，其描述宏块及其子块之间的运动特性相似性。

本发明的另一个方面是基于宏块的SCI使用图像或帧内的不同块尺寸变换之间的平衡策略。

本发明的另一个方面是基于宏块的SCI和MCD使用帧间的不同块尺寸变换之间的平衡策略。

本发明的另一个方面是对不同尺寸变换进行残差滤波以降低比特率并保持相同的视觉质量。

本发明的其它方面也将披露，如以下所述的实施例。

【附图说明】

以下将参照附图，详细描述本发明的目的、方面和实施例，其中：

图1显示本发明一个视频编码的典型实施例的流程图；

图2显示一个产生基于ABT的JND模型的典型实施例的流程图；

图3显示一个基于ABT的JND滤波的典型实施例的流程图；

图4显示在一个实施例里分别在一个16x16块和一个4x4块内分配测试DCT子带。

图5描述宏块及其相应子块的运动矢量以解释MCD一致性概念用于帧间的时间平衡策略。

图6描述一个视频编码装置的典型实施例的模块示意图。

【发明详述】

图1显示本发明提供的一个视频编码典型实施例的流程图。在一个实施例里，视频编码实在一个输入视频110上进行，输入视频110被编码。为了编码输入视频110，计算输入视频110里每帧内不同块尺寸的每个块的JND模型。可能的块尺寸的例子包括但不限于4x4、8x8和16x16。

对每个宏块，基于帧内预测121或帧间预测122，计算预测值。例如，当帧是P帧或B帧时，使用帧间预测122。帧内预测121是基于不同块尺寸如4x4、8x8和16x16，并也被称为不同块尺寸的帧内预测。帧间预测122是基于不同块尺寸如4x4、8x8和16x16，并也被称为不同块尺寸的帧间预测。

差值块(difference block)是由预测和块之间的差异而产生。差值块也被称为残差(residual)块。根据残差块的块尺寸，残差块被分割成不同构造的非重叠块用于进行编码。同时计算以下信息：

(1)块类型，如帧间或帧内；

(2)块分类，如平面、边缘或纹理；和

(3)不同尺寸的块的运动矢量。

以上信息被用来计算最小可觉差(Just-Noticeable Difference，JND)模型140。依照其中一个实施例，根据Jia，Y.；Lin，W.；Kassim，A.A.所著的Estimating Just-Noticeable Distortion for Video(IEEE Transactions on Circuitsand Systems for Video Technology，Vol.16，No.7，pp.820-829，Jul.2006)一文中的Jia的模型，在此其披露通过引用结合到本发明，假设JND模型140最初是专为8x8离散余弦变换(DCT)块开发的。8x8DCT块的JND模型140可以被扩展到以下所述的其它块尺寸。

以X表示将被编码的块，X_p是X的预测。如以下等式(1)所示，残差块X_r被变换、量化和编码。

X_r＝X-X_p (1)

残差块X_r通过自适应块尺寸变换(ABT)130进行变换，也被称为不同块尺寸变换，如通过不同块尺寸离散余弦变换(DCT)以计算被变换的残差块Y。被变换的残差块Y在以下等式(2)定义：

Y＝T(X_r) (2)

其中T表示在残差块X_r上的ABT。被量化的变换的残差块Y_q在以下等式(3)定义：

Y_q＝Q(Y) (3)

其中Q表示量化运算。

对块X，计算基于ABT的JND模型140。基于ABT的JND模型140，由J_X(u，v)表示，是一个包括JND阈值的矩阵或图，超过该JND阈值，观察者就能注意到每个残差系数的任何失真。JND阈值的计算将在以下讨论。

以Y(u，v)表示残差块X_r的第(u，v)位置的残差系数。如果Y(u，v)的幅值小于J_X(u，v)，则可以丢弃变换的残差系数Y(u，v)。如果Y(，v)的幅值大于J_X(u，v)，变换的残差系数Y(u，v)减去J_X(u，v)。变换的残差系数Y(u，v)的处理也被称为一个滤波步骤150(基于ABT的JND滤波)。在一个实施例里，基于ABT的JND滤波步骤150在量化之前实施，并且滤波计算如以下等式(4)定义：

Y_{j} (u, v) = \{\begin{matrix} sign (Y (u, v)) \times (| Y (u, v) | - J_{X} (u, v)) & if | Y (u, v) | > J_{X} (u, v), \\ 0 & otherwise \end{matrix} - - - (4)

其中Y_j是JND滤波变换块。Sign函数确保在滤波之后Y(u，v)仍然是负或正。由于残差系数被滤波，通过以下等式(5)计算重建块X_j’：

X_j’＝X_p+T₁(Q^-1(Y_j，q)) (5)

其中Y_j，q是被量化的Y_j。

在重建块X_j’和块X之间的失真d由以下等式(6)定义：

d＝||X_j′-X||₁ (6)

其中失真d等于重建块和初始块之间的绝对差总和(SAD)。其它差值度量，诸如但不限于平方差总和(SSD)或绝对变换差总和(SATD)，也可以被用于率失真优化(RD0)160。

以E表示初始块和重建块之间的DCT变换差，并且从以下等式(7)计算E：

E＝T(X_j’-X) (7)

E由以上等式(4)的J_X滤波，由以下等式(8)计算滤波：

E_{j} (u, v) = \{\begin{matrix} sign (E (u, v)) \times (| E (u, v) | - J_{X} (u, v)) & if | E (u, v) | > J_{X} (u, v), \\ 0 & otherwise \end{matrix} - - - (8)

对“滤波”，进行以下操作：如果E(u，v)的幅值小于J_X(u，v)，可以丢弃DCT变换差E(u，v)。如果E(u，v)的幅值大于J_X(u，v)，则DCT变换差E(u，v)减去J_X(u，v)。然后，如以下等式(9)所示，从E_j的逆变换，计算失真d_j，用于率失真优化160：

d_j＝||T^-1(E_j)||₁ (9)

如果能够进行率失真优化160，选择的块的预测模式是最小化RD(率失真)成本。例如，RD成本是由以下等式(10)定义：

R＝d+λL (10)

其中λ是Lagrangian乘子，而L是利用预测模式对块进行编码的实际比特长度。例如，如果帧间预测的RD成本低于帧内预测，那么就选择帧间预测作为该块的预测模式。

基于ABT的JND滤波步骤150可以看作是一个自适应量化步骤，其中每个块的量化装置是由其空间和时间特性确定的。因为基于ABT的JND滤波的块将经历正常的编码程序，比特流完全与H.264标准兼容，并且能够通过任何解码器准确地进行解码。

选择的变换模式与被滤波的残差系数一起，通过熵编码170进行编码。在进行不同块尺寸变换和基于ABT的JND滤波之后，计算宏块的总失真及其所需比特。根据宏块的总失真及其所需比特，依照率失真优化而确定最佳变换模式(最佳变换尺寸)。基于ABT的JND模型140与变换模式有关，所以不需要编码额外信息。

图2显示一个典型实施例的产生基于ABT的JND模型的流程图。为了产生基于ABT的JND模型，需要确定块类型210。如果是一个帧间块，一个根据空间和时间特性的平衡策略是合适的。如果是一个帧内块，仅空间平衡策略就合适了。在一个实施例里，使用8x8基于DCT的JND模型，并可以扩展到不同块尺寸的基于DCT的JND模型，如16x16基于DCT的JND模型和4x4基于DCT的JND模型。图像的自适应的基于块尺寸变换(ABT)的最小可觉差(JND)模型的详情在Ma，Lin；Ngan，King N.所著的AdaptiveBlock-Size Transform Based Just-Noticeable Difference Profile for Images(Proceedings of the 10^th Pacific Rim Conference on Multimedia：Advances inMultimedia Information Processing，Session 13：Advanced Image ProcessingTechniques；Page 1208-1218；2009)一文里有描述，在此其披露通过引用结合到本发明。

在图像域或变换域内可以确定一个自动的JND模型，如DCT和离散小波变换(DWT)或这两种方案的组合。为了准确地描述人类如何视觉感受事物，在变换域内产生的一个JND模型，其也被称为基于子带(subband-based)的JND，可以集合所有主要的影响因子。主要影响因子包括但不限于空间对比敏感度函数(CSF)、亮度适应效应和对比度掩盖(contrast masking)。

ABT允许不同的变换尺寸。依照普通策略采用不同的变换尺寸，即较大变换会提供较好的能量压缩和较好的细节保留，而较小变换可以避免压缩期间的振铃现象。如果使用不同的变换尺寸，本发明允许基于ABT的JND模型使用人类如何视觉感受事物的不同表现。在扩展期间，进行心理物理实验来参数化空间CSF以考虑人类如何视觉感受事物的特性。图像内容也被自适应地调整以确定采用哪一个变换尺寸来产生基于ABT的JND模型。

对一个帧内块，使用空间平衡策略220来确定空间内容信息(SCI)在块内是否一致。根据空间平衡策略220，如果一个16×16块的空间内容信息一致，DCT的块尺寸被选择为16×16。16×16DCT被用来产生基于ABT的JND模型。根据基于16×16块尺寸的心理物理实验221，产生的基于ABT的JND模型是基于16×16的块尺寸。如果16×16块的空间内容信息不一致，那么16×16块被分割成8×8块。随后，对每个8×8块，根据空间平衡策略222，如果8×8块的空间内容信息一致，就选择DCT的块尺寸为8×8。8×8DCT被用来产生基于ABT的JND模型。产生的基于ABT的JND模型是基于8×8的块尺寸。如果8×8块的空间内容信息不一致，就选择DCT的块尺寸为4×4，4×4DCT被用来产生基于ABT的JND模型。根据基于4×4块尺寸的心理物理实验223，产生的基于ABT的JND模型是基于4×4的块尺寸。

对一个帧间块，使用空间和时间平衡策略230来确定16×16块的空间内容信息(SCI)是否一致，以及16×16块的运动特性距离(MCD)是否一致。依照空间和时间平衡策略230，如果SCI和MCD一致，就选择DCT的块尺寸为16×16。16×16DCT被用来产生基于ABT的JND模型。根据基于16×16块尺寸的心理物理实验231，产生的基于ABT的JND模型是基于16×16的块尺寸。如果SCI和MCD不一致，16×16块被分割成8×8区块。随后，对每个8×8块，使用空间和时间平衡策略232来确定8×8块的SCI是否一致以及8×8块的MCD是否一致。依照空间和时间平衡策略232，如果SCI和MCD一致，就选择DCT的块尺寸为8×8。8×8DCT被用来产生基于ABT的JND模型。如果SCI和MCD不一致，就选择DCT的块尺寸为4×4。4×4DCT被用来产生基于ABT的JND模型。根据基于4×4块尺寸的心理物理实验233，产生的基于ABT的JND模型是基于4×4的块尺寸。

空间平衡策略

在心理物理学中，最小可觉差(JND)是某一特定感官刺激所能察觉的最小差别。JND也被看作是差别阈限或差分阈值。通常，JND模型能够以以下等式(11)表述：

T_{JND} = T_{{JND}_{s}} \times T_{{JND}_{T}} - - - (11)

其中

是空间JND，而

是时间JND调制因子。在帧间帧，对于处理不适合运动估计的块，也需要帧内预测。因为这些块依赖于其空间邻近块多于时间帧。因此，这些块被看作仅包含空间信息，并通过遵循空间平衡策略的空间JND模型进行模拟。

在DCT域里的空间JND模型是由以下等式(12)确定：

T(m，n，i，j)＝T_basic(i，j)·α_lum(m，n)·α_cm(m，n，i，j) (12)

其中(m，n)表示图像里DCT块的位置，(i，j)表示DCT子带(i，j)，T_basic是由空间对比敏感度函数(CSF)产生的基本可视度阈值；α_lum是亮度适应性α_cm是对比度掩盖；而T(m，n，i，j)是获得的空间JND阈值。

基本可视度阈值

基本可视度阈值T_basic被定为空间频率的对比敏感度的倒数，其是在空间频率上人类视觉感受的敏感度，并通过以下等式(13)进行模拟：

H(ω)＝(a+bω)·exp(-cω) (13)

其中ω是指定的空间频率。由于JND阈值是由等式(13)模拟的敏感度的倒数，基本JND阈值由以下等式(14)模拟：

其中s＝0.25表示求和影响因子，并且φ_i，φ_j是如以下等式(15)所定义的DCT正态因子：

φ_{m} = \{\begin{matrix} \sqrt{1 / N}, & m = 0 \\ \sqrt{2 / N}, & m > 0 \end{matrix}, - - - (15)

N表示DCT块的尺寸。

表示相应DCT系数的方向角度，如以下等式(16)所示：

其中

是相应的DCT子带(i，j)的空间频率，由以下等式(17)定义：

ω_{i, j} = (1 / (2 N)) \sqrt{{(i / θ_{x})}^{2} + {(j / θ_{y})}^{2}} - - - (17)

其中θ_x和θ_y分别是水平和垂直视觉角度，由以下等式(18)提供：

θ_x＝θ_y＝2·arctan(1/(2·R_d·P_h)) (18)

其中R_d表示观看距离与图像高度的比率，而P_h是图像高度(像素)。参数(a，b，c)在以下段落进行定义和计算。

亮度适应性

亮度适应性α_lum，被用来表示对比不同亮度有多容易地察觉到差别。例如，在黑暗或明亮区域内有一个较高的可视度阈值，以表示要察觉到任何差别会更困难些，而在中等亮度区域内有一个较低的可视度阈值，以表示更容易察觉到任和差别。亮度适应性是基于DCT块的平均强度I_ave，由以下等式(19)给定：

α_{lum} \{\begin{matrix} (60 - I_{ave}) / 150 + 1 & I_{ave} \leq 60 \\ 1 & 60 < I_{ave} < 170 \\ (I_{ave} - 170) / 425 + 1 & I_{ave} &GreaterEqual; 170 \end{matrix} - - - (19)

其中I_ave是整个DCT块的平均强度值。

对比度掩盖

对比度掩盖α_cm被用来表示在出现另一个视觉分量时一个视觉分量可视度的降低。例如，在一个纹理区域内将较难见到噪声，而在一个光滑区域或边缘区域内将更容易见到噪声。因此，α_cm依块分类的不同而不同，由以下等式(20)给定：

其中

在一个实施例里，块分类是在图像域内实施的。首先，在图像域内使用Canny边缘探测器标记边缘像素。其次，基于块内的边缘像素数目，块可以被分类成三种类型，即分别是PLANE(平面)、EDGE(边缘)、和TEXTURE(纹理)。例如，对一个16×16宏块，依照以下等式(21)定义块分类：

Block_Categorization = \{\begin{matrix} PLANE & Σ_{Edge} < 16 \\ EDGE & 16 \leq Σ_{Edge} \leq 52 \\ TEXTURE & Σ_{Edge} > 52 \end{matrix} - - - (21)

其中∑_Edge是在一个给定宏块里边缘像素的数目。

在一个实施例里，时间JND模型由以下等式(20)确定：

其中f_t＝f_sxv_x+f_syv_y，f_sx，f_sy分别是水平空间频率和垂直空间频率，而v_x，v_y分别是沿着水平方向和沿着垂直方向在视网膜平面上物体运动的速度。

不同块尺寸变换之间的JND方案的平衡策略

在扩展8×8到16×16以及4×4之后，将获得三个基于不同块尺寸变换的JND方案。较小块尺寸的DCT将产生较好的能量压缩和细节信息保留，而较大块尺寸的DCT能够更有效地表示局部图像块的内容和特性。

帧内的空间平衡策略

表格1(在16×16、8×8和4×4JND方案中间的平衡策略)

对帧内，图像首先被分割成16×16宏块。块分类被采用作为平衡不同JND方案的基础。如表格1所示，第一列表示16×16宏块类型，而第二列表示8×8子块分类。第三列是产生JND方案的决定。例如，如果16×16宏块被标记为PLANE，而在宏块内的所有8×8子块也被标记为PLANE，则采用16×16基于DCT的JND模型，因为其具有能量压缩和细节信息保留的优点。否则，JND方案确定过程将继续，如以下表格2：

表格2(在16×16、8×8和4×4JND方案中间的平衡策略)

例如，如果8×8子块被标记为PLANE，并且在8×8子块内的所有4×4子块也被标记为PLANE，根据8×8子块的不同信息和特性，如块类型是否是PLANE或EDGE或TEXTURE，则采用8×8基于DCT的JND模型用于16×16宏块内的每个8×8子块。否则，通过考虑4×4子块的不同内容信息和特性，如区块类型是否是PLANE或EDGE或TEXTURE，采用4×4基于DCT的JND模型用于每个4×4子块。

帧间的时间平衡策略

块及其子块之间的时间特性被用于帧间的平衡策略。在一个实施例里，运动矢量被用来表示物体的运动特性。运动特性距离(MCD)表示一个宏块及其子块之间的运动特性相似性。MCD由以下等式(23)确定：

MCD = \sqrt{Σ_{i = 0}^{N - 1} [{({MV}_{s_i_x} - {MV}_{M_x})}^{2} + {({MV}_{S_i_y} - {MV}_{M_y})}^{2}]} / N - - - (23)

其中MV_{s_i}是子块的运动矢量，而MV_{M_i}是宏块的运动矢量。

如果MCD小于阈值，空间内容信息一致，那么将使用一个较大的基于DCT的JND。否则，将采用较小的基于DCT的JND。

图5描述宏块及其相应子块的运动矢量以解释MCD一致性概念用于帧间的时间平衡策略。图5显示一个当前帧520及其参考帧510。在当前帧520里的宏块521有一个运动矢量，指向参考帧510里的相应宏块511。当前帧520里的宏块522有一个运动矢量，指向参考帧510里的相应宏块512。图中显示，与宏块522的子块的那些运动矢量相比，宏块521的子块的运动矢量与宏块521的运动矢量更加一致。宏块522的MCD大于宏块521的MCD，甚至大于阈值，都是可能的。

心理物理实验

图4显示一个实施例里分别在一个16×16块和一个4×4块内示例分配测试DCT子带。在一个16×16块410的实施例里，测试DCT子带是由阴影单元表示，如单元411，其分配如附图所示。在一个4×4块420的实施例里，测试DCT子带由阴影单元表示，如单元421，其分配如附图所示。如图4所示，测试DCT子带被分配，使得至少一个测试DCT子带安排在每行和每列上，测试DCT子带覆盖低频、中频和高频，并且至少一个DCT子带被安排在每个对角线上。噪声被分别加到16×16和4×4DCT的某些空间频率子带上。对每个测试DCT子带，基于预设的衡量，对每个子带选择多个幅度的噪声。对是否能够感受到噪声，观察者提供意见和看法。如果能察觉到噪声，将降低噪声幅度。相反，如果感受不到噪声，将提高噪声幅度。在实验之后，能够获得所选择DCT子带的最小可觉差阈值。

JND模型有方向性，其表示为对水平和垂直频率分量的最大敏感度和对对角线分量的最小敏感度。

在参数化期间，至少一个DCT子带被安排在每行和每列上，至少一个DCT子带被安排在每个对角线上，并且DCT子带最好覆盖低频、中频和高频。

采用最小均方误差来拟合获得的JND阈值，如以下等式(24)：

(a, b, c) = \arg \min \underset{ω_{ij}}{Σ} {[T_{ω_{ij}} - T_{basic} (m, n, i, j)]}^{2} - - - (24)

其中

是从心理物理实验获得的JND阈值。

图3显示一个基于ABT的JND滤波的典型实施例的流程图。在一个实施例里，依照不同变换尺寸的DCT，4×4残差系数301、8×8残差系数302、和16×16残差系数303是从ABT 300获得。

通过产生JND模型310，而产生选择的JND模型311，其可以是4×4JND模型、8×8JND模型、或16×16JND模型。此外，每个变换尺寸有两种类型的JND模型，即帧内宏块的空间JND模型和帧间宏块的时间JND模型。

为了使JND模型与ABT变换兼容，选择的JND模型通过JND扩展312被扩展到基于不同块尺寸的JND模型。在JND扩展312里，一些信息诸如不同块的块类型、块分类和运动矢量被用来产生每个块的基于不同块尺寸的JND模型。因此，获得了4×4JND模型321、8×8JND模型322、和16×16JND模型323用于滤波变换的残差系数。

{\hat{E}}_{typ} = \{\begin{matrix} 0, & if E_{typ} \leq {JND}_{typ} \\ sign (E_{typ}) \cdot (| E_{typ} | - {JND}_{typ}), & otherwise \end{matrix} - - - (25)

等式(25)表示滤波过程。“typ”表示用于DCT变换和JND模型的块尺寸。E_typ是根据不同块尺寸的变换的残差系数，JND_typ是产生的JND，其可以是4×4JND模型321、8×8JND模型322、或16×16JND模型323。

是被滤波的系数。

在滤波之后，获得4×4被滤波的残差系数331、8×8被滤波的残差系数332、或16×16被滤波的残差系数333。残差系数与预测模式信息一起将由率失真优化(RDO)340进行处理以选择最佳预测模式。因此，当率失真被激活时，选择用于块的预测模式即是最小化率失真成本的那个预测模式。在一个实施例里，率失真成本被定义为R＝d+λL。

其中λ是Lagrangian乘子，而L是对那个预测模式的块进行编码的实际比特长度。

图6描述本发明提供的一个视频编码装置的典型实施例的模块示意图。以下所述的各个部件可以被实施为一个或多个处理器。预测模式确定单元601对输入视频数据进行运作，根据帧预测模式确定视频信号里的帧是帧间编码帧还是帧内编码帧。ABT单元603在输入视频数据上执行自适应块变换以产生各种块尺寸的DCT变换信号。另一方面，基于ABT的JND模型产生单元602基于以下上述信息产生一个基于ABT的JND模型：

(1)块类型，如帧间或帧内；

(2)块分类，如平面、边缘或纹理；和

(3)不同尺寸块的运动矢量。

基于ABT的JND模型包括一个或多个JND阈值，这些阈值是由基于视觉感受模型的心理物理实验确定的。根据上述空间平衡策略，基于ABT的JND模型产生单元602基于空间内容信息计算帧内编码帧的基于ABT的JND模型。根据上述空间和时间平衡策略，基于ABT的JND模型产生单元602也基于空间内容信息和时间特性计算帧间编码帧的基于ABT的JND模型。

通过丢弃一个或多个低于基于ABT的JND模型的JND阈值的残差系数，基于ABT的JND滤波单元604滤波一个或多个残差系数，从而输出一个被滤波的残差系数的信号。基于被滤波的残差系数，如果率失真优化单元激活时，通过降低率失真成本，率失真优化单元605确定率失真成本以选择最佳预测模式。

接着，在对被滤波的残差系数进行编码之后，熵编码单元606计算被编码的数据。

本发明实施例能够以软件、硬件、应用逻辑的形式实施，或以软件、硬件和应用逻辑的组合而实施。软件、应用逻辑和/或硬件可以被安置在集成电路芯片、模块或存储器里。如果期望的话，部分软件、硬件和/或用用逻辑可以被安置在集成电路芯片里，部分软件、硬件和/或用用逻辑可以被安置在模块里，并且部分软件、硬件和/或用用逻辑可以被安置在存储器里。在一个典型实施例里，应用逻辑、软件或指令集合保留在任何一种传统的非临时性计算机可读媒质里。

在本说明书里描述的过程和逻辑流程可以通过一个或多个可编程处理器运行一个或多个计算机程序，运行输入数据并产生输出，以执行以上功能。过程和逻辑流程也可以通过专用逻辑电路如FPGA(现场可编程栅极阵列)或ASIC(专用集成电路)来运行。

在本说明书里描述的装置或设备可以通过可编程处理器、计算机、芯片***或其组合来实施，运行输入数据并产生输出。装置或设备可以包括专用逻辑电路如FPGA(现场可编程栅极阵列)或ASIC(专用集成电路)。装置或设备也可以包括硬件、为计算机程序产生运行环境的代码，如构成处理器固件、协议堆栈、数据库管理***、运行***、跨平台运行环境的代码，如虚拟机或一个或多个虚拟机的组合。

适合执行计算机程序的处理器包括诸如通用和专用微处理器，以及任何类型数字计算机的任何一个或多个处理器。通常，处理器从只读存储器和/或随机存取存储器接收指令和数据。计算机元件通常包括一个用来执行指令的处理器、以及一个或多个用来存储指令和数据的存储器装置。

在本说明书里描述的计算机可读媒质可以是任何与指令执行***、装置或设备如计算机一起连接以保留、存储、通信、传播或传输所用指令的任何媒质或装置。计算机可读媒质可以包括计算机可读存储媒质，其可以是任何与指令执行***、装置或设备如计算机一起连接以保留或存储所用指令的媒质或装置。计算机可读媒质可以包括所有形式的非易失性存储器、媒质和存储器装置，包括如半导体存储器装置，如EPROM、EEPROM、和闪存装置，磁碟如内置硬碟或可移除碟、磁光碟、以及CD-ROM和DVD-ROM碟。

计算机程序(也被称为程序、软件、软件应用程序、脚本或代码)可以任何编码语言撰写，包括可编译或可解释语言、可陈述或程序语言，并且能够以任何形式运行，包括以一个单机程序或适合用于计算环境里的一个模块、组件、子程序、对象或其它单元。计算机程序可以在一个计算机或多个计算机上运行，计算机可以安置在单个地点或分布在多个地点，并通过通信网络互连。

在本说明书里描述的实施例和/或特征可以实施在一个计算***里，其包括一个后端部件如数据服务器，或其包括一个中间件部件如应用程序服务器，或其包括一个前端部件如具有用户界面或Web浏览器的客户计算机，由此用户能够与本说明书里所述的实施例进行互动，或该计算机***可以是一个或多个这种后端、中间或前端部件的任何组合。***部件可以通过任何形式或通过数字数据通信的方法如通信网络而进行互连。通信网络的例子包括局域网(LAN)和广域网(WAN)，如互联网。

计算***可以包括客户机和服务器。客户机和服务器通常互相远离，并通常通过一个通信网络进行互动。客户机和服务器的关系凭借各个计算机上运行的计算机程序发生联系，并互相有一个客户机-服务器的关系。

整个说明书包括许多具体实施细节。这些具体实施细节并不意味着是对本发明范围的限制，而是作为本发明特别实施例的具体特征描述。

在各个实施例上下文里描述的某些特征也可以被合并，并作为单个实施例。相反地，在单个实施例的上下文里描述的各个特征也可以单独或以任何合适的亚合并方式实施在多个实施例里。此外，尽管特征可以被描述以某些方式合并，甚至初始作如此声明，来自所述组合或声明组合的一个或多个特征在某些情况下可以被排除出组合，并且声明组合可能涉及一个亚组合或一个亚组合的变化。尽管本发明各个方面在独立权利要求里有阐述，但本发明的其它方面还包括来自实施例和/或从属权利要求的特征以及独立权利要求特征的其他组合，且并不是仅仅在权利要求里明确阐述的组合。

在本说明书里描述的某些功能可以以不同次序和/或互相同时执行。而且，如果期望的话，一个或多个上述功能可以是可选的或可以合并。

以上描述提供了本发明的典型实施例，但不应该被看作是限制性的。此外，还有可能对其作出改变和修改，而不会脱离如在所附权利要求里所定义的本发明范围。

Claims

1.一种视频编码装置，包括：

一个提供视频信号的单元；

一个预测模式确定单元，其依照帧预测模式确定视频信号里的帧是帧间编码帧还是帧内编码帧；

一个基于ABT的JND模型产生单元，其产生一个基于ABT的JND模型，该模型包括由基于视觉感受模型的心理物理实验确定的一个或多个JND阈值；和

一个基于ABT的JND滤波器，其通过去除一个或多个低于JND阈值的残差系数并从一个或多个大于JND阈值的残差系数中减去JND阈值来滤波一个或多个残差系数，从而输出一个含有被滤波的残差系数的信号。

2.根据权利要求1所述的视频编码装置，其中：

基于空间内容信息，基于ABT的JND模型产生单元为帧内编码帧计算基于ABT的JND模型。

3.根据权利要求2所述的视频编码装置，其中：

如果块及其子块之间的空间内容信息一致，就选择一个较大块尺寸的基于ABT的JND模型。

4.根据权利要求2所述的视频编码装置，其中：

空间内容信息是由块类型确定，而块类型是由帧的每个块里的边缘像素数量决定的。

5.根据权利要求1所述的视频编码装置，其中：

基于空间内容信息和时间特性，基于ABT的JND模型产生单元为帧间编码帧计算基于ABT的JND模型。

6.根据权利要求5所述的视频编码装置，其中：

如果空间内容信息一致并且时间特性一致，就选择一个较大块尺寸的基于ABT的JND模型。

7.根据权利要求5所述的视频编码装置，其中：

空间内容信息是由块类型确定，而块类型是由帧的每个块里的边缘像素数量决定。

8.根据权利要求5所述的视频编码装置，其中：

时间特性是由块及其子块之间的运动特性距离确定。

9.一种对视频信号进行编码的方法，包括：

使用权利要求1所述的视频编码装置，处理视频信号。

10.一种对视频信号进行编码的方法，包括：

提供一个将被编码的视频信号；

依照帧预测模式确定视频信号里的帧是帧间编码帧还是帧内编码帧；

产生一个基于ABT的JND模型，其包括由基于视觉感受模型的心理物理实验确定的一个或多个JND阈值；和

通过去除一个或多个低于JND阈值的残差系数并从一个或多个大于JND阈值的残差系数减去JND阈值，滤波一个或多个残差系数，从而输出一个具有被滤波的残差系数的信号。

11.根据权利要求10所述的视频信号编码方法，还包括：

基于空间内容信息，计算帧内编码帧的基于ABT的JND模型。

12.根据权利要求11所述的视频信号编码方法，其中：

13.根据权利要求11所述的视频信号编码方法，其中：

空间内容信息是由块类型确定的，而块类型是由帧的每个块里的边缘像素数量决定。

14.根据权利要求10所述的视频信号编码方法，还包括：

基于空间内容信息和时间特性，计算帧间编码帧的基于ABT的JND模型。

15.根据权利要求14所述的视频信号编码方法，其中：

16.根据权利要求14所述的视频信号编码方法，其中：

17.根据权利要求14所述的视频信号编码方法，其中：

时间特性是由块及其子块之间的运动特性距离确定。