CN116647683A - 量化处理方法和装置 - Google Patents
量化处理方法和装置 Download PDFInfo
- Publication number
- CN116647683A CN116647683A CN202210143076.4A CN202210143076A CN116647683A CN 116647683 A CN116647683 A CN 116647683A CN 202210143076 A CN202210143076 A CN 202210143076A CN 116647683 A CN116647683 A CN 116647683A
- Authority
- CN
- China
- Prior art keywords
- block
- frequency
- masking threshold
- frequency component
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 427
- 238000003672 processing method Methods 0.000 title claims abstract description 43
- 230000000873 masking effect Effects 0.000 claims abstract description 270
- 238000012545 processing Methods 0.000 claims abstract description 144
- 238000000034 method Methods 0.000 claims abstract description 110
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 35
- 230000035945 sensitivity Effects 0.000 claims description 48
- 230000008825 perceptual sensitivity Effects 0.000 claims description 36
- 230000008447 perception Effects 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006835 compression Effects 0.000 abstract description 13
- 238000007906 compression Methods 0.000 abstract description 13
- 239000013598 vector Substances 0.000 description 51
- 230000000875 corresponding effect Effects 0.000 description 48
- 230000008569 process Effects 0.000 description 41
- 239000011159 matrix material Substances 0.000 description 30
- 239000000872 buffer Substances 0.000 description 29
- 230000006870 function Effects 0.000 description 28
- 238000004891 communication Methods 0.000 description 25
- 230000003044 adaptive effect Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 22
- 230000011218 segmentation Effects 0.000 description 18
- 238000005192 partition Methods 0.000 description 15
- 238000001914 filtration Methods 0.000 description 14
- 230000009466 transformation Effects 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 13
- 238000013507 mapping Methods 0.000 description 12
- 238000003491 array Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 239000004973 liquid crystal related substance Substances 0.000 description 8
- 238000000638 solvent extraction Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 241000023320 Luma <angiosperm> Species 0.000 description 7
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 4
- 230000005055 memory storage Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 239000011449 brick Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 101150114515 CTBS gene Proteins 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 229910052710 silicon Inorganic materials 0.000 description 2
- 239000010703 silicon Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- IESVDEZGAHUQJU-ZLBXKVHBSA-N 1-hexadecanoyl-2-(4Z,7Z,10Z,13Z,16Z,19Z-docosahexaenoyl)-sn-glycero-3-phosphocholine Chemical compound CCCCCCCCCCCCCCCC(=O)OC[C@H](COP([O-])(=O)OCC[N+](C)(C)C)OC(=O)CC\C=C/C\C=C/C\C=C/C\C=C/C\C=C/C\C=C/CC IESVDEZGAHUQJU-ZLBXKVHBSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000736839 Chara Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了量化处理方法和装置,涉及媒体技术领域,能够保证视频质量并提高视频的压缩率。该方法包括:首先获取第一频域表达。然后根据第一频域表达确定待编码块的预测块的目标频率分量的掩蔽阈值。接着根据该掩蔽阈值确定量化步长。然后根据得到的量化步长对该待编码块的残差块进行加权量化。其中,第一频域表达为待编码块的预测块的频域表达。
Description
技术领域
本申请涉及媒体技术领域,尤其涉及量化处理方法和装置。
背景技术
在图像视频压缩领域,通过量化处理可以将视频数据进一步压缩,以减少表示原始视频数据所需的数据量。现有技术在对视频数据进行量化处理时,大多采用同一个量化矩阵实现量化处理,即标量量化。
标量量化可以应用不同程度的比例来实现较细或较粗的量化。较小量化步长对应较细量化,但会影响压缩率造成量化后的数据的码率较大。而较大量化步长对应较粗量化,但会降低量化后的数据的质量。
发明内容
本申请提供了量化处理方法和装置,能够保证视频质量并提高视频的压缩率。为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供了一种量化处理方法,该方法包括:首先获取第一频域表达。然后根据第一频域表达确定待编码块的预测块的目标频率分量的掩蔽阈值。接着根据该掩蔽阈值确定量化步长。然后根据得到的量化步长对该待编码块的残差块进行加权量化。其中,第一频域表达为待编码块的预测块的频域表达。
标量量化可以应用不同程度的比例来实现较细或较粗的量化。较小量化步长对应较细量化,但会影响压缩率造成量化后的数据的码率较大。而较大量化步长对应较粗量化,但会降低量化后的数据的质量。本申请根据视频序列的待编码块的预测块的频域表达(即内容频谱信息),可以得到与待编码块的预测块的内容自适应且更灵敏掩蔽阈值,通过该掩蔽阈值得到与编码预测块自适应的加权量化因子(量化步长)具有更精准的缩放作用,且更好地利用了图像局部变化。此外,上述加权量化因子的获取过程不需要额外的编码开销。因此,同样的主观质量下,本申请的量化处理方法具有更低的码率,由此提高视频的压缩率。
可选地,上述第一频域表达可以包括待编码块的预测块的目标频率分量的频率。
在一种可能的实现方式中,所述根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的掩蔽阈值,包括:根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的频间掩蔽阈值;根据所述频间掩蔽阈值确定所述掩蔽阈值。
可以看出,本申请实施例可以通过待编码块的预测块的频域表达得到该预测块的目标频率分量的频间掩蔽阈值,进而根据该频间掩蔽阈值得到该预测块的目标频率分量的掩蔽阈值,然后通过该掩蔽阈值可以得到与该预测块自适应的量化步长,通过该量化步长可以实现更精准的缩放作用。
在一种可能的实现方式中,所述根据所述频间掩蔽阈值确定所述掩蔽阈值,可以包括:根据所述目标频率分量的频率确定所述目标频率分量的单频感知灵敏度阈值;根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值。
可以看出,本申请实施例具体可以通过待编码块的预测块的目标频率分量的频率确定该目标频率分量的单频感知灵敏度阈值,接着根据该单频感知灵敏度阈值得到该预测块的目标频率分量的掩蔽阈值,进而根据该频间掩蔽阈值得到该预测块的目标频率分量的掩蔽阈值,然后通过该掩蔽阈值可以得到与该预测块自适应的量化步长,通过该量化步长可以实现更精准的缩放作用。
可选地,上述第一频域表达还可以包括待编码块的预测块的目标频率分量的方向。
在一种可能的实现方式中,所述根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值,可以包括:根据所述目标频率分量的频率和所述目标频率分量的方向确定所述目标频率分量的单频感知灵敏度阈值。
可以看出,本申请实施例在待编码块的预测块的频域表达包括频率分量的方向时,还可以通过该预测块的目标频率分量的频率和频率的方向确定该目标频率分量的单频感知灵敏度阈值,然后根据该单频感知灵敏度阈值得到该预测块的目标频率分量的掩蔽阈值,进而通过该掩蔽阈值可以得到与该预测块自适应的量化步长,通过该量化步长可以实现更精准的缩放作用。
可选地,上述第一频域表达可以包括待编码块的预测块的多个频率分量的频率和幅度,目标频率分量为所述多个频率分量中的任一频率分量。
在一种可能的实现方式中,所述根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的频间掩蔽阈值,可以包括:根据所述待编码块的预测块的相对主信号的频率、所述相对主信号的幅度和所述目标频率分量的频率,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
可以看出,本申请实施例可以通过待编码块的预测块的频域表达得到该预测块的相对主信号的频率和幅度以及目标频率分量的频率,然后根据这些数据得到该预测块的目标频率分量的频间掩蔽阈值,之后根据该频间掩蔽阈值得到该预测块的目标频率分量的掩蔽阈值,进而通过该掩蔽阈值可以得到与该预测块自适应的量化步长,通过该量化步长可以实现更精准的缩放作用。
可选地,上述第一频域表达包括待编码块的预测块的多个频率分量的频率、幅度和方向,所述目标频率分量为所述多个频率分量中的任一频率分量,
在一种可能的实现方式中,所述根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的频间掩蔽阈值,可以包括:根据所述待编码块的预测块的相对主信号的频率、所述相对主信号的幅度、所述相对主信号的方向、所述目标频率分量的频率和所述目标频率分量的方向,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
可以看出,本申请实施例在待编码块的预测块的频域表达包括频率分量的方向时,还可以通过该预测块的频域表达得到该预测块的相对主信号的频率、幅度和方向以及目标频率分量的频率和方向,然后根据这些数据得到该预测块的目标频率分量的频间掩蔽阈值,之后根据该频间掩蔽阈值得到预测块的目标频率分量的掩蔽阈值,进而通过该掩蔽阈值可以得到与该预测块自适应的量化步长,通过该量化步长可以实现更精准的缩放作用。
可选地,待编码块的预测块也可以有多个相对主信号。
在待编码块的预测块有多个相对主信号的情况下,可以分别确定每个相对主信号对目标频率分量的频间掩蔽阈值,然后根据这多个相对主信号对目标频率分量的频间掩蔽阈值确定目标频率分量的频间掩蔽阈值。例如,将这多个相对主信号对目标频率分量的频间掩蔽阈值叠加得到目标频率分量的频间掩蔽阈值。
在一种可能的实现方式中,所述根据所述掩蔽阈值确定量化步长,可以包括:根据所述掩蔽阈值确定加权量化因子;根据所述加权量化因子确定量化步长。
可以看出,本申请实施例可以通过待编码块的预测块的目标频率分量的掩蔽阈值,然后通过该掩蔽阈值可以得到加权量化因子,进而根据该加权量化因子得到与该预测块自适应的量化步长,通过该量化步长可以实现更精准的缩放作用。
可选地,上述第一频域表达还可以包括待编码块的预测块的直流分量。
在一种可能的实现方式中,所述根据所述掩蔽阈值确定加权量化因子,可以包括:根据所述掩蔽阈值和所述待编码块的预测块的直流分量的单频感知灵敏度阈值,确定加权量化因子。
可以看出,本申请实施例可以通过待编码块的预测块的目标频率分量的掩蔽阈值和该预测块的直流分量的单频感知灵敏度阈值得到加权量化因子,进而根据该加权量化因子得到与该预测块自适应的量化步长,通过该量化步长可以实现更精准的缩放作用。
在一种可能的实现方式中,所述根据所述加权量化因子确定量化步长,可以包括:根据所述加权量化因子对原始量化步长进行修正确定所述量化步长。
可以看出,本申请实施例可以利用通过待编码块的预测块的目标频率分量的掩蔽阈值得到的加权量化因子,对原始量化步长修正得到与该预测块自适应的量化步长,通过该量化步长可以实现更精准的缩放作用。
第二方面,本申请还提供了另一种量化处理方法,该方法包括:
首先获取第二频域表达。然后根据第二频域表达确定待解码块的预测块的目标频率分量的掩蔽阈值。接着根据该掩蔽阈值确定反量化步长。然后根据得到的反量化步长对该待解码块的残差块进行加权反量化。其中,第二频域表达为待解码块的预测块的频域表达。
本申请根据待解码块的预测块的频域表达(即内容频谱信息),可以得到更灵敏的内容自适应掩蔽阈值,通过该掩蔽阈值得到的加权反量化因子具有更精准的缩放作用,且更好地利用了图像局部变化。此外,上述加权反量化因子的获取过程不需要额外的编码开销。因此,同样的主观质量下,本申请的量化处理方法具有更低的码率,由此提高视频的压缩率。
可选地,上述第二频域表达可以包括待解码块的预测块的目标频率分量的频率。
在一种可能的实现方式中,所述根据所述频间掩蔽阈值确定所述掩蔽阈值,可以包括:根据所述目标频率分量的频率确定所述目标频率分量的单频感知灵敏度阈值;根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值。
可选地,上述第二频域表达还可以包括待解码块的预测块的目标频率分量的方向。
在一种可能的实现方式中,所述根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值,可以包括:根据所述目标频率分量的频率和所述目标频率分量的方向确定所述目标频率分量的单频感知灵敏度阈值。
可选地,上述第二频域表达可以包括待解码块的预测块的多个频率分量的频率和幅度,目标频率分量为所述多个频率分量中的任一频率分量。
在一种可能的实现方式中,所述根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的频间掩蔽阈值,可以包括:根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度和所述目标频率分量的频率,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
可选地,上述第二频域表达包括待解码块的预测块的多个频率分量的频率、幅度和方向,所述目标频率分量为所述多个频率分量中的任一频率分量,
在一种可能的实现方式中,所述根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的频间掩蔽阈值,可以包括:根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度、所述相对主信号的方向、所述目标频率分量的频率和所述目标频率分量的方向,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
可选地,待解码块的预测块也可以有多个相对主信号。
在待解码块的预测块有多个相对主信号的情况下,可以分别确定每个相对主信号对目标频率分量的频间掩蔽阈值,然后根据这多个相对主信号对目标频率分量的频间掩蔽阈值确定目标频率分量的频间掩蔽阈值。例如,将这多个相对主信号对目标频率分量的频间掩蔽阈值叠加得到目标频率分量的频间掩蔽阈值。
在一种可能的实现方式中,所述根据所述掩蔽阈值确定反量化步长,可以包括:根据所述掩蔽阈值确定加权反量化因子;根据所述加权反量化因子确定反量化步长。
可选地,上述第二频域表达还可以包括待解码块的预测块的直流分量。
在一种可能的实现方式中,所述根据所述掩蔽阈值确定加权反量化因子,可以包括:根据所述掩蔽阈值和所述待解码块的预测块的直流分量的单频感知灵敏度阈值,确定加权反量化因子。
在一种可能的实现方式中,所述根据所述加权反量化因子确定反量化步长,可以包括:根据所述加权反量化因子对原始反量化步长进行修正确定所述反量化步长。
第三方面,本申请还提供了一种量化处理装置,该装置包括获取单元、掩蔽阈值单元、量化步长单元和量化单元。获取单元,用于获取第一频域表达,所述第一频域表达为待编码块的预测块的频域表达;掩蔽阈值单元,用于根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的掩蔽阈值;量化步长单元,用于根据所述掩蔽阈值确定量化步长;量化单元,用于根据所述量化步长对所述待编码块的残差块进行加权量化。
在一种可能的实现方式中,所述掩蔽阈值单元具体用于:根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的频间掩蔽阈值;根据所述频间掩蔽阈值确定所述掩蔽阈值。
可选地,所述第一频域表达可以包括待编码块的预测块的目标频率分量的频率。
在一种可能的实现方式中,所述掩蔽阈值单元具体用于:根据所述目标频率分量的频率确定所述目标频率分量的单频感知灵敏度阈值;根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值。
可选地,所述第一频域表达还可以包括待编码块的预测块的目标频率分量的方向。
在一种可能的实现方式中,所述掩蔽阈值单元具体用于:根据所述目标频率分量的频率和所述目标频率分量的方向确定所述目标频率分量的单频感知灵敏度阈值。
可选地,所述第一频域表达可以包括待编码块的预测块的多个频率分量的频率和幅度,所述目标频率分量为所述多个频率分量中的任一频率分量。
在一种可能的实现方式中,所述掩蔽阈值单元具体用于:根据所述待编码块的预测块的相对主信号的频率、所述相对主信号的幅度和所述目标频率分量的频率,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
可选地,所述第一频域表达包括待编码块的预测块的多个频率分量的频率、幅度和方向,所述目标频率分量为所述多个频率分量中的任一频率分量。
在一种可能的实现方式中,所述掩蔽阈值单元具体用于:根据所述待编码块的预测块的相对主信号的频率、所述相对主信号的幅度、所述相对主信号的方向、所述目标频率分量的频率和所述目标频率分量的方向,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
在一种可能的实现方式中,所述量化步长单元具体用于:根据所述掩蔽阈值确定加权量化因子;根据所述加权量化因子确定量化步长。
可选地,上述第一频域表达还可以包括待编码块的预测块的直流分量。
在一种可能的实现方式中,所述量化步长单元具体用于:根据所述掩蔽阈值和所述待编码块的预测块的直流分量的单频感知灵敏度阈值,确定加权量化因子。
在一种可能的实现方式中,所述量化步长单元具体用于:根据所述加权量化因子对原始量化步长进行修正确定所述量化步长。
第四方面,本申请还提供了另一种量化处理装置,该装置包括获取单元、掩蔽阈值单元、反量化步长单元和反量化单元。获取单元,用于获取第二频域表达,所述第二频域表达为待解码块的预测块的频域表达;掩蔽阈值单元,用于根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的掩蔽阈值;反量化步长单元,用于根据所述掩蔽阈值确定反量化步长;反量化单元,用于根据所述反量化步长对所述待解码块的残差块进行加权反量化。
在一种可能的实现方式中,所述掩蔽阈值单元具体用于:根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的频间掩蔽阈值;根据所述频间掩蔽阈值确定所述掩蔽阈值。
可选地,所述第二频域表达可以包括待解码块的预测块的目标频率分量的频率。
在一种可能的实现方式中,所述掩蔽阈值单元具体用于:根据所述目标频率分量的频率确定所述目标频率分量的单频感知灵敏度阈值;根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值。
可选地,所述第二频域表达还可以包括待解码块的预测块的目标频率分量的方向。
在一种可能的实现方式中,所述掩蔽阈值单元具体用于:根据所述目标频率分量的频率和所述目标频率分量的方向确定所述目标频率分量的单频感知灵敏度阈值。
可选地,所述第二频域表达可以包括待解码块的预测块的多个频率分量的频率和幅度,所述目标频率分量为所述多个频率分量中的任一频率分量。
在一种可能的实现方式中,所述掩蔽阈值单元具体用于:根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度和所述目标频率分量的频率,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
可选地,所述第二频域表达包括待解码块的预测块的多个频率分量的频率、幅度和方向,所述目标频率分量为所述多个频率分量中的任一频率分量。
在一种可能的实现方式中,所述掩蔽阈值单元具体用于:根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度、所述相对主信号的方向、所述目标频率分量的频率和所述目标频率分量的方向,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
在一种可能的实现方式中,所述反量化步长单元具体用于:根据所述掩蔽阈值确定加权反量化因子;根据所述加权反量化因子确定反量化步长。
可选地,上述第二频域表达还可以包括待解码块的预测块的直流分量。
在一种可能的实现方式中,所述反量化步长单元具体用于:根据所述掩蔽阈值和所述待解码块的预测块的直流分量的单频感知灵敏度阈值,确定加权反量化因子。
在一种可能的实现方式中,所述反量化步长单元具体用于:根据所述加权反量化因子对原始反量化步长进行修正确定所述反量化步长。
第五方面,本申请还提供一种量化处理装置,该装置包括:至少一个处理器,当所述至少一个处理器执行程序代码或指令时,实现上述第一方面或其任意可能的实现方式中所述的方法。
可选地,该电子设备还可以包括至少一个存储器,该至少一个存储器用于存储该程序代码或指令。
第六方面,本申请还提供一种芯片,包括:输入接口、输出接口、至少一个处理器。可选地,该芯片还包括存储器。该至少一个处理器用于执行该存储器中的代码,当该至少一个处理器执行该代码时,该芯片实现上述第一方面或其任意可能的实现方式中所述的方法。
可选地,上述芯片还可以为集成电路。
第七方面,本申请还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序包括用于实现上述第一方面或其任意可能的实现方式中所述的方法。
第八方面,本申请还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现上述第一方面或其任意可能的实现方式中所述的方法。
本实施例提供的量化处理装置、计算机存储介质、计算机程序产品和芯片均用于执行上文所提供的量化处理方法,因此,其所能达到的有益效果可参考上文所提供的量化处理方法中的有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请实施例提供的译码***的一种示例性框图;
图1b为本申请实施例提供的视频译码***的一种示例性框图;
图2为本申请实施例提供的视频编码器的一种示例性框图;
图3为本申请实施例提供的视频解码器的一种示例性框图;
图4为本申请实施例提供的候选图像块的一种示例性的示意图;
图5为本申请实施例提供的视频译码设备的一种示例性框图;
图6为本申请实施例提供的装置的一种示例性框图;
图7为本申请实施例提供的一种量化处理方法的流程示意图;
图8为本申请实施例提供的通过双线性插值法得到的32×32默认权重矩阵的示意图;
图9为本申请实施例提供的32×32单频感知灵敏度阈值矩阵的示意图;
图10为本申请实施例提供的另一种量化处理方法的流程示意图;
图11为本申请实施例提供的一种量化处理装置的结构示意图;
图12为本申请实施例提供的另一种量化处理装置的结构示意图;
图13为本申请实施例提供的一种芯片的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象,或者用于区别对同一对象的不同处理,而不是用于描述对象的特定顺序。
此外,本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选的还包括其他没有列出的步骤或单元,或可选的还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
需要说明的是,本申请实施例的描述中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请的描述中,除非另有说明,“多个”的含义是指两个或两个以上。
首先对本申请实施例涉及的术语进行解释。
频域掩蔽特性:特指在图像处理领域中,频率域不同频率分量之间存在掩蔽效应,大幅度频率分量信号会掩蔽在其附近的小幅度频率分量信号,导致观看者不能完整地感知到频率分量信号表达的全部信息。
最小可觉察差异(just noticeable difference,JND):在视觉感知中,由于人类视觉***(human visual system,HVS)存在各种掩蔽效应,如对比度掩蔽、亮度掩蔽等,人眼只能察觉超过某一阈值的信号特征值(如幅值、频率、相位等)的变化,这个阈值称为信号特征值的JND掩蔽阈值。
数据编解码包括数据编码和数据解码两部分。数据编码在源侧(或通常称为编码器侧)执行,通常包括处理(例如,压缩)原始数据以减少表示该原始数据所需的数据量(从而更高效存储和/或传输)。数据解码在目的地侧(或通常称为解码器侧)执行,通常包括相对于编码器侧作逆处理,以重建原始数据。本申请实施例涉及的数据的“编解码”应理解为数据的“编码”或“解码”。编码部分和解码部分也合称为编解码(编码和解码,CODEC)。
在无损数据编码情况下,可以重建原始数据,即重建的原始数据与原始数据具有相同的质量(假设存储或传输期间没有传输损耗或其他数据丢失)。在有损数据编码情况下,通过量化等执行进一步压缩,来减少表示原始数据所需的数据量,而解码器侧无法完全重建原始数据,即重建的原始数据的质量比原始数据的质量低或差。
本申请实施例可以应用于对视频数据、图像数据、音频数据、整数型数据以及其他具有压缩/解压缩需求的数据等。以下以视频数据的编码(简称视频编码)为例对本申请实施例进行说明,其他类型的数据(例如图像数据、音频数据、整数型数据以及其他具有压缩/解压缩需求的数据)可以参考以下描述,本申请实施例对此不再赘述。需要说明的是,相对于视频编码,音频数据以及整数型数据等数据的编码过程中无需将数据分割为块,而是可以直接对数据进行编码。
视频编码通常是指处理形成视频或视频序列的图像序列。在视频编码领域,术语“图像(picture)”、“帧(frame)”或“图片(image)”可以用作同义词。
几个视频编码标准属于“有损混合型视频编解码”(即,将像素域中的空间和时间预测与变换域中用于应用量化的2D变换编码结合)。视频序列中的每个图像通常分割成不重叠的块集合,通常在块级上进行编码。换句话说,编码器通常在块(视频块)级处理即编码视频,例如,通过空间(帧内)预测和时间(帧间)预测来产生预测块;从当前块(当前处理/待处理的块)中减去预测块,得到残差块;在变换域中变换残差块并量化残差块,以减少待传输(压缩)的数据量,而解码器侧将相对于编码器的逆处理部分应用于编码或压缩的块,以重建用于表示的当前块。另外,编码器需要重复解码器的处理步骤,使得编码器和解码器生成相同的预测(例如,帧内预测和帧间预测)和/或重建像素,用于处理,即编码后续块。
在以下译码***10的实施例中,编码器20和解码器30根据图1a至图3进行描述。
图1a为本申请实施例提供的译码***10的一种示例性框图,例如可以利用本申请技术的视频译码***10(或简称为译码***10)。视频译码***10中的视频编码器20(或简称为编码器20)和视频解码器30(或简称为解码器30)代表可用于根据本申请中描述的各种示例执行各技术的设备等。
如图1a所示,译码***10包括源设备12,源设备12用于将编码图像等编码图像数据21提供给用于对编码图像数据21进行解码的目的设备14。
源设备12包括编码器20,另外即可选地,可包括图像源16、图像预处理器等预处理器(或预处理单元)18、通信接口(或通信单元)22。
图像源16可包括或可以为任意类型的用于捕获现实世界图像等的图像捕获设备,和/或任意类型的图像生成设备,例如用于生成计算机动画图像的计算机图形处理器或任意类型的用于获取和/或提供现实世界图像、计算机生成图像(例如,屏幕内容、虚拟现实(virtual reality,VR)图像和/或其任意组合(例如增强现实(augmented reality,AR)图像)的设备。所述图像源可以为存储上述图像中的任意图像的任意类型的内存或存储器。
为了区分预处理器(或预处理单元)18执行的处理,图像(或图像数据)17也可称为原始图像(或原始图像数据)17。
预处理器18用于接收原始图像数据17,并对原始图像数据17进行预处理,得到预处理图像(或预处理图像数据)19。例如,预处理器18执行的预处理可包括修剪、颜色格式转换(例如从RGB转换为YCbCr)、调色或去噪。可以理解的是,预处理单元18可以为可选组件。
视频编码器(或编码器)20用于接收预处理图像数据19并提供编码图像数据21(下面将根据图2等进一步描述)。
源设备12中的通信接口22可用于:接收编码图像数据21并通过通信信道13向目的设备14等另一设备或任何其他设备发送编码图像数据21(或其他任意处理后的版本),以便存储或直接重建。
目的设备14包括解码器30,另外即可选地,可包括通信接口(或通信单元)28、后处理器(或后处理单元)32和显示设备34。
目的设备14中的通信接口28用于直接从源设备12或从存储设备等任意其他源设备接收编码图像数据21(或其他任意处理后的版本),例如,存储设备为编码图像数据存储设备,并将编码图像数据21提供给解码器30。
通信接口22和通信接口28可用于通过源设备12与目的设备14之间的直连通信链路,例如直接有线或无线连接等,或者通过任意类型的网络,例如有线网络、无线网络或其任意组合、任意类型的私网和公网或其任意类型的组合,发送或接收编码图像数据(或编码数据)21。
例如,通信接口22可用于将编码图像数据21封装为报文等合适的格式,和/或使用任意类型的传输编码或处理来处理所述编码后的图像数据,以便在通信链路或通信网络上进行传输。
通信接口28与通信接口22对应,例如,可用于接收传输数据,并使用任意类型的对应传输解码或处理和/或解封装对传输数据进行处理,得到编码图像数据21。
通信接口22和通信接口28均可配置为如图1a中从源设备12指向目的设备14的对应通信信道13的箭头所指示的单向通信接口,或双向通信接口,并且可用于发送和接收消息等,以建立连接,确认并交换与通信链路和/或例如编码后的图像数据传输等数据传输相关的任何其他信息,等等。
视频解码器(或解码器)30用于接收编码图像数据21并提供解码图像数据(或解码图像数据)31(下面将根据图3等进一步描述)。
后处理器32用于对解码后的图像等解码图像数据31(也称为重建后的图像数据)进行后处理,得到后处理后的图像等后处理图像数据33。后处理单元32执行的后处理可以包括例如颜色格式转换(例如从YCbCr转换为RGB)、调色、修剪或重采样,或者用于产生供显示设备34等显示的解码图像数据31等任何其他处理。
显示设备34用于接收后处理图像数据33,以向用户或观看者等显示图像。显示设备34可以为或包括任意类型的用于表示重建后图像的显示器,例如,集成或外部显示屏或显示器。例如,显示屏可包括液晶显示器(liquid crystal display,LCD)、有机发光二极管(organic light emitting diode,OLED)显示器、等离子显示器、投影仪、微型LED显示器、硅基液晶显示器(liquid crystal on silicon,LCoS)、数字光处理器(digital lightprocessor,DLP)或任意类型的其他显示屏。
译码***10还包括训练引擎25,训练引擎25用于训练编码器20(尤其是编码器20中的熵编码单元270)或解码器30(尤其是解码器30中的熵解码单元304),以根据估计得到的估计概率分布对待编码图像块进行熵编码,训练引擎25的详细说明请参考下述方法测实施例。
尽管图1a示出了源设备12和目的设备14作为独立的设备,但设备实施例也可以同时包括源设备12和目的设备14或同时包括源设备12和目的设备14的功能,即同时包括源设备12或对应功能和目的设备14或对应功能。在这些实施例中,源设备12或对应功能和目的设备14或对应功能可以使用相同硬件和/或软件或通过单独的硬件和/或软件或其任意组合来实现。
根据描述,图1a所示的源设备12和/或目的设备14中的不同单元或功能的存在和(准确)划分可能根据实际设备和应用而有所不同,这对技术人员来说是显而易见的。
请参考图1b,图1b为本申请实施例提供的视频译码***40的一种示例性框图,编码器20(例如视频编码器20)或解码器30(例如视频解码器30)或两者都可通过如图1b所示的视频译码***40中的处理电路实现,例如一个或多个微处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application-specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、离散逻辑、硬件、视频编码专用处理器或其任意组合。请参考图2和图3,图2为本申请实施例提供的视频编码器的一种示例性框图,图3为本申请实施例提供的视频解码器的一种示例性框图。编码器20可以通过处理电路46实现,以包含参照图2编码器20论述的各种模块和/或本文描述的任何其他编码器***或子***。解码器30可以通过处理电路46实现,以包含参照图3解码器30论述的各种模块和/或本文描述的任何其他解码器***或子***。所述处理电路46可用于执行下文论述的各种操作。如图5所示,如果部分技术在软件中实施,则设备可以将软件的指令存储在合适的非瞬时性计算机可读存储介质中,并且使用一个或多个处理器在硬件中执行指令,从而执行本申请技术。视频编码器20和视频解码器30中的其中一个可作为组合编解码器(encoder/decoder,CODEC)的一部分集成在单个设备中,如图1b所示。
源设备12和目的设备14可包括各种设备中的任一种,包括任意类型的手持设备或固定设备,例如,笔记本电脑或膝上型电脑、手机、智能手机、平板或平板电脑、相机、台式计算机、机顶盒、电视机、显示设备、数字媒体播放器、视频游戏控制台、视频流设备(例如,内容业务服务器或内容分发服务器)、广播接收设备、广播发射设备以及监控设备等等,并可以不使用或使用任意类型的操作***。源设备12和目的设备14也可以是云计算场景中的设备,例如云计算场景中的虚拟机等。在一些情况下,源设备12和目的设备14可配备用于无线通信的组件。因此,源设备12和目的设备14可以是无线通信设备。
源设备12和目的设备14可以安装虚拟现实(virtual reality,VR)应用、增强现实(augmented reality,AR)应用或者混合现实(mixed reality,MR)应用等虚拟场景应用程序(application,APP),并可以基于用户的操作(例如点击、触摸、滑动、抖动、声控等)运行VR应用、AR应用或者MR应用。源设备12和目的设备14可以通过摄像头和/或传感器采集环境中任意物体的图像/视频,再根据采集的图像/视频在显示设备上显示虚拟物体,该虚拟物体可以是VR场景、AR场景或MR场景中的虚拟物体(即虚拟环境中的物体)。
需要说明的是,本申请实施例中,源设备12和目的设备14中的虚拟场景应用程序可以是源设备12和目的设备14自身内置的应用程序,也可以是用户自行安装的第三方服务商提供的应用程序,对此不做具体限定。
此外,源设备12和目的设备14可以安装实时视频传输应用,例如直播应用。源设备12和目的设备14可以通过摄像头采集图像/视频,再将采集的图像/视频在显示设备上显示。
在一些情况下,图1a所示的视频译码***10仅仅是示例性的,本申请提供的技术可适用于视频编码设置(例如,视频编码或视频解码),这些设置不一定包括编码设备与解码设备之间的任何数据通信。在其他示例中,数据从本地存储器中检索,通过网络发送,等等。视频编码设备可以对数据进行编码并将数据存储到存储器中,和/或视频解码设备可以从存储器中检索数据并对数据进行解码。在一些示例中,编码和解码由相互不通信而只是编码数据到存储器和/或从存储器中检索并解码数据的设备来执行。
请参考图1b,图1b为本申请实施例提供的视频译码***40的一种示例性框图,如图1b所示,视频译码***40可以包含成像设备41、视频编码器20、视频解码器30(和/或藉由处理电路46实施的视频编/解码器)、天线42、一个或多个处理器43、一个或多个内存存储器44和/或显示设备45。
如图1b所示,成像设备41、天线42、处理电路46、视频编码器20、视频解码器30、处理器43、内存存储器44和/或显示设备45能够互相通信。在不同实例中,视频译码***40可以只包含视频编码器20或只包含视频解码器30。
在一些实例中,天线42可以用于传输或接收视频数据的经编码比特流。另外,在一些实例中,显示设备45可以用于呈现视频数据。处理电路46可以包含专用集成电路(application-specific integrated circuit,ASIC)逻辑、图形处理器、通用处理器等。视频译码***40也可以包含可选的处理器43,该可选处理器43类似地可以包含专用集成电路(application-specific integrated circuit,ASIC)逻辑、图形处理器、通用处理器等。另外,内存存储器44可以是任何类型的存储器,例如易失性存储器(例如,静态随机存取存储器(static random access memory,SRAM)、动态随机存储器(dynamic random accessmemory,DRAM)等)或非易失性存储器(例如,闪存等)等。在非限制性实例中,内存存储器44可以由超速缓存内存实施。在其他实例中,处理电路46可以包含存储器(例如,缓存等)用于实施图像缓冲器等。
在一些实例中,通过逻辑电路实施的视频编码器20可以包含(例如,通过处理电路46或内存存储器44实施的)图像缓冲器和(例如,通过处理电路46实施的)图形处理单元。图形处理单元可以通信耦合至图像缓冲器。图形处理单元可以包含通过处理电路46实施的视频编码器20,以实施参照图2和/或本文中所描述的任何其他编码器***或子***所论述的各种模块。逻辑电路可以用于执行本文所论述的各种操作。
在一些实例中,视频解码器30可以以类似方式通过处理电路46实施,以实施参照图3的视频解码器30和/或本文中所描述的任何其他解码器***或子***所论述的各种模块。在一些实例中,逻辑电路实施的视频解码器30可以包含(通过处理电路46或内存存储器44实施的)图像缓冲器和(例如,通过处理电路46实施的)图形处理单元。图形处理单元可以通信耦合至图像缓冲器。图形处理单元可以包含通过处理电路46实施的视频解码器30,以实施参照图3和/或本文中所描述的任何其他解码器***或子***所论述的各种模块。
在一些实例中,天线42可以用于接收视频数据的经编码比特流。如所论述,经编码比特流可以包含本文所论述的与编码视频帧相关的数据、指示符、索引值、模式选择数据等,例如与编码分割相关的数据(例如,变换系数或经量化变换系数,(如所论述的)可选指示符,和/或定义编码分割的数据)。视频译码***40还可包含耦合至天线42并用于解码经编码比特流的视频解码器30。显示设备45用于呈现视频帧。
应理解,本申请实施例中对于参考视频编码器20所描述的实例,视频解码器30可以用于执行相反过程。关于信令语法元素,视频解码器30可以用于接收并解析这种语法元素,相应地解码相关视频数据。在一些例子中,视频编码器20可以将语法元素熵编码成经编码视频比特流。在此类实例中,视频解码器30可以解析这种语法元素,并相应地解码相关视频数据。
为便于描述,参考通用视频编码(versatile video coding,VVC)参考软件或由ITU-T视频编码专家组(video coding experts group,VCEG)和ISO/IEC运动图像专家组(motion picture experts group,MPEG)的视频编码联合工作组(joint collaborationteam on video coding,JCT-VC)开发的高性能视频编码(high-efficiency videocoding,HEVC)描述本申请实施例。本领域普通技术人员理解本申请实施例不限于HEVC或VVC。
编码器和编码方法
如图2所示,视频编码器20包括输入端(或输入接口)201、残差计算单元204、变换处理单元206、量化单元208、反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、解码图像缓冲器(decoded picture buffer,DPB)230、模式选择单元260、熵编码单元270和输出端(或输出接口)272。模式选择单元260可包括帧间预测单元244、帧内预测单元254和分割单元262。帧间预测单元244可包括运动估计单元和运动补偿单元(未示出)。图2所示的视频编码器20也可称为混合型视频编码器或基于混合型视频编解码器的视频编码器。
参见图2,帧间预测单元为经过训练的目标模型(亦称为神经网络),该神经网络用于处理输入图像或图像区域或图像块,以生成输入图像块的预测值。例如,用于帧间预测的神经网络用于接收输入的图像或图像区域或图像块,并且生成输入的图像或图像区域或图像块的预测值。
残差计算单元204、变换处理单元206、量化单元208和模式选择单元260组成编码器20的前向信号路径,而反量化单元210、逆变换处理单元212、重建单元214、缓冲器216、环路滤波器220、解码图像缓冲器(decoded picture buffer,DPB)230、帧间预测单元244和帧内预测单元254组成编码器的后向信号路径,其中编码器20的后向信号路径对应于解码器的信号路径(参见图3中的解码器30)。反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、解码图像缓冲器230、帧间预测单元244和帧内预测单元254还组成视频编码器20的“内置解码器”。
图像和图像分割(图像和块)
编码器20可用于通过输入端201等接收图像(或图像数据)17,例如,形成视频或视频序列的图像序列中的图像。接收的图像或图像数据也可以是预处理后的图像(或预处理后的图像数据)19。为简单起见,以下描述使用图像17。图像17也可称为当前图像或待编码的图像(尤其是在视频编码中将当前图像与其他图像区分开时,其它图像例如同一视频序列,即也包括当前图像的视频序列,中的之前编码后图像和/或解码后图像)。
(数字)图像为或可以视为具有强度值的像素点组成的二维阵列或矩阵。阵列中的像素点也可以称为像素(pixel或pel)(图像元素的简称)。阵列或图像在水平方向和垂直方向(或轴线)上的像素点数量决定了图像的大小和/或分辨率。为了表示颜色,通常采用三个颜色分量,即图像可以表示为或包括三个像素点阵列。在RBG格式或颜色空间中,图像包括对应的红色、绿色和蓝色像素点阵列。但是,在视频编码中,每个像素通常以亮度/色度格式或颜色空间表示,例如YCbCr,包括Y指示的亮度分量(有时也用L表示)以及Cb、Cr表示的两个色度分量。亮度(luma)分量Y表示亮度或灰度水平强度(例如,在灰度等级图像中两者相同),而两个色度(chrominance,简写为chroma)分量Cb和Cr表示色度或颜色信息分量。相应地,YCbCr格式的图像包括亮度像素点值(Y)的亮度像素点阵列和色度值(Cb和Cr)的两个色度像素点阵列。RGB格式的图像可以转换或变换为YCbCr格式,反之亦然,该过程也称为颜色变换或转换。如果图像是黑白的,则该图像可以只包括亮度像素点阵列。相应地,图像可以为例如单色格式的亮度像素点阵列或4:2:0、4:2:2和4:4:4彩色格式的亮度像素点阵列和两个相应的色度像素点阵列。
在一个实施例中,视频编码器20的实施例可包括图像分割单元(图2中未示出),用于将图像17分割成多个(通常不重叠)图像块203。这些块在H.265/HEVC和VVC标准中也可以称为根块、宏块(H.264/AVC)或编码树块(coding tree block,CTB),或编码树单元(codingtree unit,CTU)。分割单元可用于对视频序列中的所有图像使用相同的块大小和使用限定块大小的对应网格,或在图像或图像子集或图像组之间改变块大小,并将每个图像分割成对应块。
在其他实施例中,视频编码器可用于直接接收图像17的块203,例如,组成所述图像17的一个、几个或所有块。图像块203也可以称为当前图像块或待编码图像块。
与图像17一样,图像块203同样是或可认为是具有强度值(像素点值)的像素点组成的二维阵列或矩阵,但是图像块203的比图像17的小。换句话说,块203可包括一个像素点阵列(例如,单色图像17情况下的亮度阵列或彩色图像情况下的亮度阵列或色度阵列)或三个像素点阵列(例如,彩色图像17情况下的一个亮度阵列和两个色度阵列)或根据所采用的颜色格式的任何其他数量和/或类型的阵列。块203的水平方向和垂直方向(或轴线)上的像素点数量限定了块203的大小。相应地,块可以为M×N(M列×N行)个像素点阵列,或M×N个变换系数阵列等。
在一个实施例中,图2所示的视频编码器20用于逐块对图像17进行编码,例如,对每个块203执行编码和预测。
在一个实施例中,图2所示的视频编码器20还可以用于使用片(也称为视频片)分割和/或编码图像,其中图像可以使用一个或多个片(通常为不重叠的)进行分割或编码。每个片可包括一个或多个块(例如,编码树单元CTU)或一个或多个块组(例如H.265/HEVC/VVC标准中的编码区块(tile)和VVC标准中的砖(brick)。
在一个实施例中,图2所示的视频编码器20还可以用于使用片/编码区块组(也称为视频编码区块组)和/或编码区块(也称为视频编码区块)对图像进行分割和/或编码,其中图像可以使用一个或多个片/编码区块组(通常为不重叠的)进行分割或编码,每个片/编码区块组可包括一个或多个块(例如CTU)或一个或多个编码区块等,其中每个编码区块可以为矩形等形状,可包括一个或多个完整或部分块(例如CTU)。
残差计算
残差计算单元204用于通过如下方式根据图像块(或原始块)203和预测块265来计算残差块205(后续详细介绍了预测块265):例如,逐个像素点(逐个像素)从图像块203的像素点值中减去预测块265的像素点值,得到像素域中的残差块205。
变换
变换处理单元206用于对残差块205的像素点值执行离散余弦变换(discretecosine transform,DCT)或离散正弦变换(discrete sine transform,DST)等,得到变换域中的变换系数207。变换系数207也可称为变换残差系数,表示变换域中的残差块205。
变换处理单元206可用于应用DCT/DST的整数化近似,例如为H.265/HEVC指定的变换。与正交DCT变换相比,这种整数化近似通常由某一因子按比例缩放。为了维持经过正变换和逆变换处理的残差块的范数,使用其他比例缩放因子作为变换过程的一部分。比例缩放因子通常是根据某些约束条件来选择的,例如比例缩放因子是用于移位运算的2的幂、变换系数的位深度、准确性与实施成本之间的权衡等。例如,在编码器20侧通过逆变换处理单元212为逆变换(以及在解码器30侧通过例如逆变换处理单元312为对应逆变换)指定具体的比例缩放因子,以及相应地,可以在编码器20侧通过变换处理单元206为正变换指定对应比例缩放因子。
在一个实施例中,视频编码器20(对应地,变换处理单元206)可用于输出一种或多种变换的类型等变换参数,例如,直接输出或由熵编码单元270进行编码或压缩后输出,例如使得视频解码器30可接收并使用变换参数进行解码。
量化
量化单元208用于通过例如标量量化或矢量量化对变换系数207进行量化,得到量化变换系数209。量化变换系数209也可称为量化残差系数209。
量化过程可减少与部分或全部变换系数207有关的位深度。例如,可在量化期间将n位变换系数向下舍入到m位变换系数,其中n大于m。可通过调整量化参数(quantizationparameter,QP)修改量化程度。例如,对于标量量化,可以应用不同程度的比例来实现较细或较粗的量化。较小量化步长对应较细量化,而较大量化步长对应较粗量化。可通过量化参数(quantization parameter,QP)指示合适的量化步长。例如,量化参数可以为合适的量化步长的预定义集合的索引。例如,较小的量化参数可对应精细量化(较小量化步长),较大的量化参数可对应粗糙量化(较大量化步长),反之亦然。量化可包括除以量化步长,而反量化单元210等执行的对应或逆解量化可包括乘以量化步长。根据例如HEVC一些标准的实施例可用于使用量化参数来确定量化步长。一般而言,可以根据量化参数使用包含除法的等式的定点近似来计算量化步长。可以引入其他比例缩放因子来进行量化和解量化,以恢复可能由于在用于量化步长和量化参数的等式的定点近似中使用的比例而修改的残差块的范数。在一种示例性实现方式中,可以合并逆变换和解量化的比例。或者,可以使用自定义量化表并在比特流中等将其从编码器向解码器指示。量化是有损操作,其中量化步长越大,损耗越大。
在一个实施例中,视频编码器20(对应地,量化单元208)可用于输出量化参数(quantization parameter,QP),例如,直接输出或由熵编码单元270进行编码或压缩后输出,例如使得视频解码器30可接收并使用量化参数进行解码。
反量化
反量化单元210用于对量化系数执行量化单元208的反量化,得到解量化系数211,例如,根据或使用与量化单元208相同的量化步长执行与量化单元208所执行的量化方案的反量化方案。解量化系数211也可称为解量化残差系数211,对应于变换系数207,但是由于量化造成损耗,反量化系数211通常与变换系数不完全相同。
逆变换
逆变换处理单元212用于执行变换处理单元206执行的变换的逆变换,例如,逆离散余弦变换(discrete cosine transform,DCT)或逆离散正弦变换(discrete sinetransform,DST),以在像素域中得到重建残差块213(或对应的解量化系数213)。重建残差块213也可称为变换块213。
重建
重建单元214(例如,求和器214)用于将变换块213(即重建残差块213)添加到预测块265,以在像素域中得到重建块215,例如,将重建残差块213的像素点值和预测块265的像素点值相加。
滤波
环路滤波器单元220(或简称“环路滤波器”220)用于对重建块215进行滤波,得到滤波块221,或通常用于对重建像素点进行滤波以得到滤波像素点值。例如,环路滤波器单元用于顺利进行像素转变或提高视频质量。环路滤波器单元220可包括一个或多个环路滤波器,例如去块滤波器、像素点自适应偏移(sample-adaptive offset,SAO)滤波器或一个或多个其他滤波器,例如自适应环路滤波器(adaptive loop filter,ALF)、噪声抑制滤波器(noise suppression filter,NSF)或任意组合。例如,环路滤波器单元220可以包括去块滤波器、SAO滤波器和ALF滤波器。滤波过程的顺序可以是去块滤波器、SAO滤波器和ALF滤波器。再例如,增加一个称为具有色度缩放的亮度映射(luma mapping with chromascaling,LMCS)(即自适应环内整形器)的过程。该过程在去块之前执行。再例如,去块滤波过程也可以应用于内部子块边缘,例如仿射子块边缘、ATMVP子块边缘、子块变换(sub-block transform,SBT)边缘和内子部分(intra sub-partition,ISP)边缘。尽管环路滤波器单元220在图2中示为环路滤波器,但在其他配置中,环路滤波器单元220可以实现为环后滤波器。滤波块221也可称为滤波重建块221。
在一个实施例中,视频编码器20(对应地,环路滤波器单元220)可用于输出环路滤波器参数(例如SAO滤波参数、ALF滤波参数或LMCS参数),例如,直接输出或由熵编码单元270进行熵编码后输出,例如使得解码器30可接收并使用相同或不同的环路滤波器参数进行解码。
解码图像缓冲器
解码图像缓冲器(decoded picture buffer,DPB)230可以是存储参考图像数据以供视频编码器20在编码视频数据时使用的参考图像存储器。DPB 230可以由多种存储器设备中的任一种形成,例如动态随机存取存储器(dynamic random access memory,DRAM),包括同步DRAM(synchronous DRAM,SDRAM)、磁阻RAM(magnetoresistive RAM,MRAM)、电阻RAM(resistive RAM,RRAM)或其他类型的存储设备。解码图像缓冲器230可用于存储一个或多个滤波块221。解码图像缓冲器230还可用于存储同一当前图像或例如之前的重建图像等不同图像的其他之前的滤波块,例如之前重建和滤波的块221,并可提供完整的之前重建即解码图像(和对应参考块和像素点)和/或部分重建的当前图像(和对应参考块和像素点),例如用于帧间预测。解码图像缓冲器230还可用于存储一个或多个未经滤波的重建块215,或一般存储未经滤波的重建像素点,例如,未被环路滤波单元220滤波的重建块215,或未进行任何其他处理的重建块或重建像素点。
模式选择(分割和预测)
模式选择单元260包括分割单元262、帧间预测单元244和帧内预测单元254,用于从解码图像缓冲器230或其他缓冲器(例如,列缓冲器,图2中未显示)接收或获得原始块203(当前图像17的当前块203)和重建图像数据等原始图像数据,例如,同一(当前)图像和/或一个或多个之前解码图像的滤波和/或未经滤波的重建像素点或重建块。重建图像数据用作帧间预测或帧内预测等预测所需的参考图像数据,以得到预测块265或预测值265。
模式选择单元260可用于为当前块(包括不分割)和预测模式(例如帧内或帧间预测模式)确定或选择一种分割,生成对应的预测块265,以对残差块205进行计算和对重建块215进行重建。
在一个实施例中,模式选择单元260可用于选择分割和预测模式(例如,从模式选择单元260支持的或可用的预测模式中),所述预测模式提供最佳匹配或者说最小残差(最小残差是指传输或存储中更好的压缩),或者提供最小信令开销(最小信令开销是指传输或存储中更好的压缩),或者同时考虑或平衡以上两者。模式选择单元260可用于根据码率失真优化(rate distortion Optimization,RDO)确定分割和预测模式,即选择提供最小码率失真优化的预测模式。本文“最佳”、“最低”、“最优”等术语不一定指总体上“最佳”、“最低”、“最优”的,但也可以指满足终止或选择标准的情况,例如,超过或低于阈值的值或其他限制可能导致“次优选择”,但会降低复杂度和处理时间。
换言之,分割单元262可用于将视频序列中的图像分割为编码树单元(codingtree unit,CTU)序列,CTU 203可进一步被分割成较小的块部分或子块(再次形成块),例如,通过迭代使用四叉树(quad-tree partitioning,QT)分割、二叉树(binary-treepartitioning,BT)分割或三叉树(triple-tree partitioning,TT)分割或其任意组合,并且用于例如对块部分或子块中的每一个执行预测,其中模式选择包括选择分割块203的树结构和选择应用于块部分或子块中的每一个的预测模式。
下文将详细地描述由视频编码器20执行的分割(例如,由分割单元262执行)和预测处理(例如,由帧间预测单元244和帧内预测单元254执行)。
分割
分割单元262可将一个图像块(或CTU)203分割(或划分)为较小的部分,例如正方形或矩形形状的小块。对于具有三个像素点阵列的图像,一个CTU由N×N个亮度像素点块和两个对应的色度像素点块组成。CTU中亮度块的最大允许大小在正在开发的通用视频编码(versatile video coding,VVC)标准中被指定为128×128,但是将来可指定为不同于128×128的值,例如256×256。图像的CTU可以集中/分组为片/编码区块组、编码区块或砖。一个编码区块覆盖着一个图像的矩形区域,一个编码区块可以分成一个或多个砖。一个砖由一个编码区块内的多个CTU行组成。没有分割为多个砖的编码区块可以称为砖。但是,砖是编码区块的真正子集,因此不称为编码区块。VVC支持两种编码区块组模式,分别为光栅扫描片/编码区块组模式和矩形片模式。在光栅扫描编码区块组模式,一个片/编码区块组包含一个图像的编码区块光栅扫描中的编码区块序列。在矩形片模式中,片包含一个图像的多个砖,这些砖共同组成图像的矩形区域。矩形片内的砖按照片的砖光栅扫描顺序排列。这些较小块(也可称为子块)可进一步分割为更小的部分。这也称为树分割或分层树分割,其中在根树级别0(层次级别0、深度0)等的根块可以递归地分割为两个或两个以上下一个较低树级别的块,例如树级别1(层次级别1、深度1)的节点。这些块可以又分割为两个或两个以上下一个较低级别的块,例如树级别2(层次级别2、深度2)等,直到分割结束(因为满足结束标准,例如达到最大树深度或最小块大小)。未进一步分割的块也称为树的叶块或叶节点。分割为两个部分的树称为二叉树(binary-tree,BT),分割为三个部分的树称为三叉树(ternary-tree,TT),分割为四个部分的树称为四叉树(quad-tree,QT)。
例如,编码树单元(CTU)可以为或包括亮度像素点的CTB、具有三个像素点阵列的图像的色度像素点的两个对应CTB、或单色图像的像素点的CTB或使用三个独立颜色平面和语法结构(用于编码像素点)编码的图像的像素点的CTB。相应地,编码树块(CTB)可以为N×N个像素点块,其中N可以设为某个值使得分量划分为CTB,这就是分割。编码单元(codingunit,CU)可以为或包括亮度像素点的编码块、具有三个像素点阵列的图像的色度像素点的两个对应编码块、或单色图像的像素点的编码块或使用三个独立颜色平面和语法结构(用于编码像素点)编码的图像的像素点的编码块。相应地,编码块(CB)可以为M×N个像素点块,其中M和N可以设为某个值使得CTB划分为编码块,这就是分割。
例如,在实施例中,根据HEVC可通过使用表示为编码树的四叉树结构将编码树单元(CTU)划分为多个CU。在叶CU级作出是否使用帧间(时间)预测或帧内(空间)预测对图像区域进行编码的决定。每个叶CU可以根据PU划分类型进一步划分为一个、两个或四个PU。一个PU内使用相同的预测过程,并以PU为单位向解码器传输相关信息。在根据PU划分类型应用预测过程得到残差块之后,可以根据类似于用于CU的编码树的其他四叉树结构将叶CU分割为变换单元(TU)。
例如,在实施例中,根据当前正在开发的最新视频编码标准(称为通用视频编码(VVC),使用嵌套多类型树(例如二叉树和三叉树)的组合四叉树来划分用于分割编码树单元的分段结构。在编码树单元内的编码树结构中,CU可以为正方形或矩形。例如,编码树单元(CTU)首先由四叉树结构进行分割。四叉树叶节点进一步由多类型树结构分割。多类型树形结构有四种划分类型:垂直二叉树划分(SPLIT_BT_VER)、水平二叉树划分(SPLIT_BT_HOR)、垂直三叉树划分(SPLIT_TT_VER)和水平三叉树划分(SPLIT_TT_HOR)。多类型树叶节点称为编码单元(CU),除非CU对于最大变换长度而言太大,这样的分段用于预测和变换处理,无需其他任何分割。在大多数情况下,这表示CU、PU和TU在四叉树嵌套多类型树的编码块结构中的块大小相同。当最大支持变换长度小于CU的彩色分量的宽度或高度时,就会出现该异常。VVC制定了具有四叉树嵌套多类型树的编码结构中的分割划分信息的唯一信令机制。在信令机制中,编码树单元(CTU)作为四叉树的根首先被四叉树结构分割。然后每个四叉树叶节点(当足够大可以被)被进一步分割为一个多类型树结构。在多类型树结构中,通过第一标识(mtt_split_cu_flag)指示节点是否进一步分割,当对节点进一步分割时,先用第二标识(mtt_split_cu_vertical_flag)指示划分方向,再用第三标识(mtt_split_cu_binary_flag)指示划分是二叉树划分或三叉树划分。根据mtt_split_cu_vertical_flag和mtt_split_cu_binary_flag的值,解码器可以基于预定义规则或表格推导出CU的多类型树划分模式(MttSplitMode)。需要说明的是,对于某种设计,例如VVC硬件解码器中的64×64的亮度块和32×32的色度流水线设计,当亮度编码块的宽度或高度大于64时,不允许进行TT划分。当色度编码块的宽度或高度大于32时,也不允许TT划分。流水线设计将图像分为多个虚拟流水线数据单元(virtual pipeline data unit,VPDU),每个VPDU在图像中定义为互不重叠的单元。在硬件解码器中,连续的VPDU在多个流水线阶段同时处理。在大多数流水线阶段,VPDU大小与缓冲器大小大致成正比,因此需要保持较小的VPDU。在大多数硬件解码器中,VPDU大小可以设置为最大变换块(transform block,TB)大小。但是,在VVC中,三叉树(TT)和二叉树(BT)的分割可能会增加VPDU的大小。
另外,需要说明的是,当树节点块的一部分超出底部或图像右边界时,强制对该树节点块进行划分,直到每个编码CU的所有像素点都位于图像边界内。
例如,所述帧内子分割(intra sub-partitions,ISP)工具可以根据块大小将亮度帧内预测块垂直或水平地分为两个或四个子部分。
在一个示例中,视频编码器20的模式选择单元260可以用于执行上文描述的分割技术的任意组合。
如上所述,视频编码器20用于从(预定的)预测模式集合中确定或选择最好或最优的预测模式。预测模式集合可包括例如帧内预测模式和/或帧间预测模式。
帧内预测
帧内预测模式集合可包括35种不同的帧内预测模式,例如,像DC(或均值)模式和平面模式的非方向性模式,或如HEVC定义的方向性模式,或者可包括67种不同的帧内预测模式,例如,像DC(或均值)模式和平面模式的非方向性模式,或如VVC中定义的方向性模式。例如,若干传统角度帧内预测模式自适应地替换为VVC中定义的非正方形块的广角帧内预测模式。又例如,为了避免DC预测的除法运算,仅使用较长边来计算非正方形块的平均值。并且,平面模式的帧内预测结果还可以使用位置决定的帧内预测组合(positiondependent intra prediction combination,PDPC)方法修改。
帧内预测单元254用于根据帧内预测模式集合中的帧内预测模式使用同一当前图像的相邻块的重建像素点来生成帧内预测块265。
帧内预测单元254(或通常为模式选择单元260)还用于输出帧内预测参数(或通常为指示块的选定帧内预测模式的信息)以语法元素266的形式发送到熵编码单元270,以包含到编码图像数据21中,从而视频解码器30可执行操作,例如接收并使用用于解码的预测参数。
HEVC中的帧内预测模式包括直流预测模式,平面预测模式和33种角度预测模式,共计35个候选预测模式。当前块可以使用左侧和上方已重建图像块的像素作为参考进行帧内预测。当前块的周边区域中用来对当前块进行帧内预测的图像块成为参考块,参考块中的像素称为参考像素。35个候选预测模式中,直流预测模式适用于当前块中纹理平坦的区域,该区域中所有像素均使用参考块中的参考像素的平均值作为预测;平面预测模式适用于纹理平滑变化的图像块,符合该条件的当前块使用参考块中的参考像素进行双线性插值作为当前块中的所有像素的预测;角度预测模式利用当前块的纹理与相邻已重建图像块的纹理高度相关的特性,沿某一角度复制对应的参考块中的参考像素的值作为当前块中的所有像素的预测。
HEVC编码器给当前块从35个候选预测模式中选择一个最优帧内预测模式,并将该最优帧内预测模式写入视频码流。为提升帧内预测的编码效率,编码器/解码器会从周边区域中、采用帧内预测的已重建图像块各自的最优帧内预测模式中推导出3个最可能模式,如果给当前块选择的最优帧内预测模式是这3个最可能模式的其中之一,则编码一个第一索引指示所选择的最优帧内预测模式是这3个最可能模式的其中之一;如果选中的最优帧内预测模式不是这3个最可能模式,则编码一个第二索引指示所选择的最优帧内预测模式是其他32个模式(35个候选预测模式中除前述3个最可能模式外的其他模式)的其中之一。HEVC标准使用5比特的定长码作为前述第二索引。
HEVC编码器推导出3个最可能模式的方法包括:选取当前块的左相邻图像块和上相邻图像块的最优帧内预测模式放入集合,如果这两个最优帧内预测模式相同,则集合中只保留一个即可。如果这两个最优帧内预测模式相同且均为角度预测模式,则再选取与该角度方向邻近的两个角度预测模式加入集合;否则,依次选择平面预测模式、直流模式和竖直预测模式加入集合,直到集合中的模式数量达到3。
HEVC解码器对码流做熵解码后,获得当前块的模式信息,该模式信息包括指示当前块的最优帧内预测模式是否在3个最可能模式中的指示标识,以及当前块的最优帧内预测模式在3个最可能模式中的索引或者当前块的最优帧内预测模式在其他32个模式中的索引。
帧间预测
在可能的实现中,帧间预测模式集合取决于可用参考图像(即,例如前述存储在DBP230中的至少部分之前解码的图像)和其他帧间预测参数,例如取决于是否使用整个参考图像或只使用参考图像的一部分,例如当前块的区域附近的搜索窗口区域,来搜索最佳匹配参考块,和/或例如取决于是否执行半像素、四分之一像素和/或16分之一内插的像素内插。
除上述预测模式外,还可以采用跳过模式和/或直接模式。
例如,扩展合并预测,这个模式的合并候选列表由以下五个候选类型按顺序组成:来自空间相邻CU的空间MVP、来自并置CU的时间MVP、来自FIFO表的基于历史的MVP、成对平均MVP和零MV。可以使用基于双边匹配的解码器侧运动矢量修正(decoder side motionvector refinement,DMVR)来增加合并模式的MV的准确度。带有MVD的合并模式(mergemode with MVD,MMVD)来自有运动矢量差异的合并模式。在发送跳过标志和合并标志之后立即发送MMVD标志,以指定CU是否使用MMVD模式。可以使用CU级自适应运动矢量分辨率(adaptive motion vector resolution,AMVR)方案。AMVR支持CU的MVD以不同的精度进行编码。根据当前CU的预测模式,自适应地选择当前CU的MVD。当CU以合并模式进行编码时,可以将合并的帧间/帧内预测(combined inter/intra prediction,CIIP)模式应用于当前CU。对帧间和帧内预测信号进行加权平均,得到CIIP预测。对于仿射运动补偿预测,通过2个控制点(4参数)或3个控制点(6参数)运动矢量的运动信息来描述块的仿射运动场。基于子块的时间运动矢量预测(subblock-based temporal motion vector prediction,SbTMVP),与HEVC中的时间运动矢量预测(temporal motion vector prediction,TMVP)类似,但预测的是当前CU内的子CU的运动矢量。双向光流(bi-directional optical flow,BDOF)以前称为BIO,是一种减少计算的简化版本,特别是在乘法次数和乘数大小方面的计算。在三角形分割模式中,CU以对角线划分和反对角线划分两种划分方式被均匀划分为两个三角形部分。此外,双向预测模式在简单平均的基础上进行了扩展,以支持两个预测信号的加权平均。
帧间预测单元244可包括运动估计(motion estimation,ME)单元和运动补偿(motion compensation,MC)单元(两者在图2中未示出)。运动估计单元可用于接收或获取图像块203(当前图像17的当前图像块203)和解码图像231,或至少一个或多个之前重建块,例如,一个或多个其它/不同之前解码图像231的重建块,来进行运动估计。例如,视频序列可包括当前图像和之前的解码图像231,或换句话说,当前图像和之前的解码图像231可以为形成视频序列的图像序列的一部分或形成该图像序列。
例如,编码器20可用于从多个其他图像中的同一或不同图像的多个参考块中选择参考块,并将参考图像(或参考图像索引)和/或参考块的位置(x、y坐标)与当前块的位置之间的偏移(空间偏移)作为帧间预测参数提供给运动估计单元。该偏移也称为运动矢量(motion vector,MV)。
运动补偿单元用于获取,例如接收,帧间预测参数,并根据或使用该帧间预测参数执行帧间预测,得到帧间预测块246。由运动补偿单元执行的运动补偿可能包含根据通过运动估计确定的运动/块矢量来提取或生成预测块,还可能包括对子像素精度执行内插。内插滤波可从已知像素的像素点中产生其他像素的像素点,从而潜在地增加可用于对图像块进行编码的候选预测块的数量。一旦接收到当前图像块的PU对应的运动矢量时,运动补偿单元可在其中一个参考图像列表中定位运动矢量指向的预测块。
运动补偿单元还可以生成与块和视频片相关的语法元素,以供视频解码器30在解码视频片的图像块时使用。此外,或者作为片和相应语法元素的替代,可以生成或使用编码区块组和/或编码区块以及相应语法元素。
在获取先进的运动矢量预测(advanced motion vector prediction,AMVP)模式中的候选运动矢量列表的过程中,作为备选可以加入候选运动矢量列表的运动矢量(motion vector,MV)包括当前块的空域相邻和时域相邻的图像块的MV,其中空域相邻的图像块的MV又可以包括位于当前块左侧的左方候选图像块的MV和位于当前块上方的上方候选图像块的MV。示例性的,请参考图4,图4为本申请实施例提供的候选图像块的一种示例性的示意图,如图4所示,左方候选图像块的集合包括{A0,A1},上方候选图像块的集合包括{B0,B1,B2},时域相邻的候选图像块的集合包括{C,T},这三个集合均可以作为备选被加入到候选运动矢量列表中,但是根据现有编码标准,AMVP的候选运动矢量列表的最大长度为2,因此需要根据规定的顺序从三个集合中确定在候选运动矢量列表中加入最多两个图像块的MV。该顺序可以是优先考虑当前块的左方候选图像块的集合{A0,A1}(先考虑A0,A0不可得再考虑A1),其次考虑当前块的上方候选图像块的集合{B0,B1,B2}(先考虑B0,B0不可得再考虑B1,B1不可得再考虑B2),最后考虑当前块的时域相邻的候选图像块的集合{C,T}(先考虑T,T不可得再考虑C)。
得到上述候选运动矢量列表后,通过率失真代价(rate distortion cost,RDcost)从候选运动矢量列表中确定最优的MV,将RD cost最小的候选运动矢量作为当前块的运动矢量预测值(motion vector predictor,MVP)。率失真代价由以下公式计算获得:
J=SAD+λR
其中,J表示RD cost,SAD为使用候选运动矢量进行运动估计后得到的预测块的像素值与当前块的像素值之间的绝对误差和(sum of absolute differences,SAD),R表示码率,λ表示拉格朗日乘子。
编码端将确定出的MVP在候选运动矢量列表中的索引传递到解码端。进一步地,可以在MVP为中心的邻域内进行运动搜索获得当前块实际的运动矢量,编码端计算MVP与实际的运动矢量之间的运动矢量差值(motion vector difference,MVD),并将MVD也传递到解码端。解码端解析索引,根据该索引在候选运动矢量列表中找到对应的MVP,解析MVD,将MVD与MVP相加得到当前块实际的运动矢量。
在获取融合(Merge)模式中的候选运动信息列表的过程中,作为备选可以加入候选运动信息列表的运动信息包括当前块的空域相邻或时域相邻的图像块的运动信息,其中空域相邻的图像块和时域相邻的图像块可参照图4,候选运动信息列表中对应于空域的候选运动信息来自于空间相邻的5个块(A0、A1、B0、B1和B2),若空域相邻块不可得或者为帧内预测,则其运动信息不加入候选运动信息列表。当前块的时域的候选运动信息根据参考帧和当前帧的图序计数(picture order count,POC)对参考帧中对应位置块的MV进行缩放后获得,先判断参考帧中位置为T的块是否可得,若不可得则选择位置为C的块。得到上述候选运动信息列表后,通过RD cost从候选运动信息列表中确定最优的运动信息作为当前块的运动信息。编码端将最优的运动信息在候选运动信息列表中位置的索引值(记为mergeindex)传递到解码端。
熵编码
熵编码单元270用于将熵编码算法或方案(例如,可变长度编码(variable lengthcoding,VLC)方案、上下文自适应VLC方案(context adaptive VLC,CALVC)、算术编码方案、二值化算法、上下文自适应二进制算术编码(context adaptive binary arithmeticcoding,CABAC)、基于语法的上下文自适应二进制算术编码(syntax-based context-adaptive binary arithmetic coding,SBAC)、概率区间分割熵(probability intervalpartitioning entropy,PIPE)编码或其它熵编码方法或技术)应用于量化残差系数209、帧间预测参数、帧内预测参数、环路滤波器参数和/或其他语法元素,得到可以通过输出端272以编码比特流21等形式输出的编码图像数据21,使得视频解码器30等可以接收并使用用于解码的参数。可将编码比特流21传输到视频解码器30,或将其保存在存储器中稍后由视频解码器30传输或检索。
视频编码器20的其他结构变体可用于对视频流进行编码。例如,基于非变换的编码器20可以在某些块或帧没有变换处理单元206的情况下直接量化残差信号。在另一种实现方式中,编码器20可以具有组合成单个单元的量化单元208和反量化单元210。
解码器和解码方法
如图3所示,视频解码器30用于接收例如由编码器20编码的编码图像数据21(例如编码比特流21),得到解码图像331。编码图像数据或比特流包括用于解码所述编码图像数据的信息,例如表示编码视频片(和/或编码区块组或编码区块)的图像块的数据和相关的语法元素。
在图3的示例中,解码器30包括熵解码单元304、反量化单元310、逆变换处理单元312、重建单元314(例如求和器314)、环路滤波器320、解码图像缓冲器(DBP)330、模式应用单元360、帧间预测单元344和帧内预测单元354。帧间预测单元344可以为或包括运动补偿单元。在一些示例中,视频解码器30可执行大体上与参照图2的视频编码器100描述的编码过程相反的解码过程。
如编码器20所述,反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、解码图像缓冲器DPB230、帧间预测单元344和帧内预测单元354还组成视频编码器20的“内置解码器”。相应地,反量化单元310在功能上可与反量化单元110相同,逆变换处理单元312在功能上可与逆变换处理单元122相同,重建单元314在功能上可与重建单元214相同,环路滤波器320在功能上可与环路滤波器220相同,解码图像缓冲器330在功能上可与解码图像缓冲器230相同。因此,视频编码器20的相应单元和功能的解释相应地适用于视频解码器30的相应单元和功能。
熵解码
熵解码单元304用于解析比特流21(或一般为编码图像数据21)并对编码图像数据21执行熵解码,得到量化系数309和/或解码后的编码参数(图3中未示出)等,例如帧间预测参数(例如参考图像索引和运动矢量)、帧内预测参数(例如帧内预测模式或索引)、变换参数、量化参数、环路滤波器参数和/或其他语法元素等中的任一个或全部。熵解码单元304可用于应用编码器20的熵编码单元270的编码方案对应的解码算法或方案。熵解码单元304还可用于向模式应用单元360提供帧间预测参数、帧内预测参数和/或其他语法元素,以及向解码器30的其他单元提供其他参数。视频解码器30可以接收视频片和/或视频块级的语法元素。此外,或者作为片和相应语法元素的替代,可以接收或使用编码区块组和/或编码区块以及相应语法元素。
反量化
反量化单元310可用于从编码图像数据21(例如通过熵解码单元304解析和/或解码)接收量化参数(quantization parameter,QP)(或一般为与反量化相关的信息)和量化系数,并基于所述量化参数对所述解码的量化系数309进行反量化以获得反量化系数311,所述反量化系数311也可以称为变换系数311。反量化过程可包括使用视频编码器20为视频片中的每个视频块计算的量化参数来确定量化程度,同样也确定需要执行的反量化的程度。
逆变换
逆变换处理单元312可用于接收解量化系数311,也称为变换系数311,并对解量化系数311应用变换以得到像素域中的重建残差块213。重建残差块213也可称为变换块313。变换可以为逆变换,例如逆DCT、逆DST、逆整数变换或概念上类似的逆变换过程。逆变换处理单元312还可以用于从编码图像数据21(例如通过熵解码单元304解析和/或解码)接收变换参数或相应信息,以确定应用于解量化系数311的变换。
重建
重建单元314(例如,求和器314)用于将重建残差块313添加到预测块365,以在像素域中得到重建块315,例如,将重建残差块313的像素点值和预测块365的像素点值相加。
滤波
环路滤波器单元320(在编码环路中或之后)用于对重建块315进行滤波,得到滤波块321,从而顺利进行像素转变或提高视频质量等。环路滤波器单元320可包括一个或多个环路滤波器,例如去块滤波器、像素点自适应偏移(sample-adaptive offset,SAO)滤波器或一个或多个其他滤波器,例如自适应环路滤波器(adaptive loop filter,ALF)、噪声抑制滤波器(noise suppression filter,NSF)或任意组合。例如,环路滤波器单元220可以包括去块滤波器、SAO滤波器和ALF滤波器。滤波过程的顺序可以是去块滤波器、SAO滤波器和ALF滤波器。再例如,增加一个称为具有色度缩放的亮度映射(luma mapping with chromascaling,LMCS)(即自适应环内整形器)的过程。该过程在去块之前执行。再例如,去块滤波过程也可以应用于内部子块边缘,例如仿射子块边缘、ATMVP子块边缘、子块变换(sub-block transform,SBT)边缘和内子部分(intra sub-partition,ISP)边缘。尽管环路滤波器单元320在图3中示为环路滤波器,但在其他配置中,环路滤波器单元320可以实现为环后滤波器。
解码图像缓冲器
随后将一个图像中的解码视频块321存储在解码图像缓冲器330中,解码图像缓冲器330存储作为参考图像的解码图像331,参考图像用于其他图像和/或分别输出显示的后续运动补偿。
解码器30用于通过输出端312等输出解码图像311,向用户显示或供用户查看。
预测
帧间预测单元344在功能上可与帧间预测单元244(特别是运动补偿单元)相同,帧内预测单元354在功能上可与帧间预测单元254相同,并基于从编码图像数据21(例如通过熵解码单元304解析和/或解码)接收的分割和/或预测参数或相应信息决定划分或分割和执行预测。模式应用单元360可用于根据重建图像、块或相应的像素点(已滤波或未滤波)执行每个块的预测(帧内或帧间预测),得到预测块365。
当将视频片编码为帧内编码(intra coded,I)片时,模式应用单元360中的帧内预测单元354用于根据指示的帧内预测模式和来自当前图像的之前解码块的数据生成用于当前视频片的图像块的预测块365。当视频图像编码为帧间编码(即,B或P)片时,模式应用单元360中的帧间预测单元344(例如运动补偿单元)用于根据运动矢量和从熵解码单元304接收的其他语法元素生成用于当前视频片的视频块的预测块365。对于帧间预测,可从其中一个参考图像列表中的其中一个参考图像产生这些预测块。视频解码器30可以根据存储在DPB 330中的参考图像,使用默认构建技术来构建参考帧列表0和列表1。除了片(例如视频片)或作为片的替代,相同或类似的过程可应用于编码区块组(例如视频编码区块组)和/或编码区块(例如视频编码区块)的实施例,例如视频可以使用I、P或B编码区块组和/或编码区块进行编码。
模式应用单元360用于通过解析运动矢量和其他语法元素,确定用于当前视频片的视频块的预测信息,并使用预测信息产生用于正在解码的当前视频块的预测块。例如,模式应用单元360使用接收到的一些语法元素确定用于编码视频片的视频块的预测模式(例如帧内预测或帧间预测)、帧间预测片类型(例如B片、P片或GPB片)、用于片的一个或多个参考图像列表的构建信息、用于片的每个帧间编码视频块的运动矢量、用于片的每个帧间编码视频块的帧间预测状态、其它信息,以解码当前视频片内的视频块。除了片(例如视频片)或作为片的替代,相同或类似的过程可应用于编码区块组(例如视频编码区块组)和/或编码区块(例如视频编码区块)的实施例,例如视频可以使用I、P或B编码区块组和/或编码区块进行编码。
在一个实施例中,图3的视频编码器30还可以用于使用片(也称为视频片)分割和/或解码图像,其中图像可以使用一个或多个片(通常为不重叠的)进行分割或解码。每个片可包括一个或多个块(例如CTU)或一个或多个块组(例如H.265/HEVC/VVC标准中的编码区块和VVC标准中的砖。
在一个实施例中,图3所示的视频解码器30还可以用于使用片/编码区块组(也称为视频编码区块组)和/或编码区块(也称为视频编码区块)对图像进行分割和/或解码,其中图像可以使用一个或多个片/编码区块组(通常为不重叠的)进行分割或解码,每个片/编码区块组可包括一个或多个块(例如CTU)或一个或多个编码区块等,其中每个编码区块可以为矩形等形状,可包括一个或多个完整或部分块(例如CTU)。
视频解码器30的其他变型可用于对编码图像数据21进行解码。例如,解码器30可以在没有环路滤波器单元320的情况下产生输出视频流。例如,基于非变换的解码器30可以在某些块或帧没有逆变换处理单元312的情况下直接反量化残差信号。在另一种实现方式中,视频解码器30可以具有组合成单个单元的反量化单元310和逆变换处理单元312。
应理解,在编码器20和解码器30中,可以对当前步骤的处理结果进一步处理,然后输出到下一步骤。例如,在插值滤波、运动矢量推导或环路滤波之后,可以对插值滤波、运动矢量推导或环路滤波的处理结果进行进一步的运算,例如裁剪(clip)或移位(shift)运算。
应该注意的是,可以对当前块的推导运动矢量(包括但不限于仿射模式的控制点运动矢量、仿射、平面、ATMVP模式的子块运动矢量、时间运动矢量等)进行进一步运算。例如,根据运动矢量的表示位将运动矢量的值限制在预定义范围。如果运动矢量的表示位为bitDepth,则范围为-2^(bitDepth-1)至2^(bitDepth-1)-1,其中“^”表示幂次方。例如,如果bitDepth设置为16,则范围为-32768~32767;如果bitDepth设置为18,则范围为-131072~131071。例如,推导运动矢量的值(例如一个8×8块中的4个4×4子块的MV)被限制,使得所述4个4×4子块MV的整数部分之间的最大差值不超过N个像素,例如不超过1个像素。这里提供了两种根据bitDepth限制运动矢量的方法。
尽管上述实施例主要描述了视频编解码,但应注意的是,译码***10、编码器20和解码器30的实施例以及本文描述的其他实施例也可以用于静止图像处理或编解码,即视频编解码中独立于任何先前或连续图像的单个图像的处理或编解码。一般情况下,如果图像处理仅限于单个图像17,帧间预测单元244(编码器)和帧间预测单元344(解码器)可能不可用。视频编码器20和视频解码器30的所有其他功能(也称为工具或技术)同样可用于静态图像处理,例如残差计算204/304、变换206、量化208、反量化210/310、(逆)变换212/312、分割262/362、帧内预测254/354和/或环路滤波220/320、熵编码270和熵解码304。
请参考图5,图5为本申请实施例提供的视频译码设备500的一种示例性框图。视频译码设备500适用于实现本文描述的公开实施例。在一个实施例中,视频译码设备500可以是解码器,例如图1a中的视频解码器30,也可以是编码器,例如图1a中的视频编码器20。
视频译码设备500包括:用于接收数据的入端口510(或输入端口510)和接收单元(receiver unit,Rx)520;用于处理数据的处理器、逻辑单元或中央处理器(centralprocessing unit,CPU)530;例如,这里的处理器530可以是神经网络处理器530;用于传输数据的发送单元(transmitter unit,Tx)540和出端口550(或输出端口550);用于存储数据的存储器560。视频译码设备500还可包括耦合到入端口510、接收单元520、发送单元540和出端口550的光电(optical-to-electrical,OE)组件和电光(electrical-to-optical,EO)组件,用于光信号或电信号的出口或入口。
处理器530通过硬件和软件实现。处理器530可实现为一个或多个处理器芯片、核(例如,多核处理器)、FPGA、ASIC和DSP。处理器530与入端口510、接收单元520、发送单元540、出端口550和存储器560通信。处理器530包括译码模块570(例如,基于神经网络的译码模块570)。译码模块570实施上文所公开的实施例。例如,译码模块570执行、处理、准备或提供各种编码操作。因此,通过译码模块570为视频译码设备500的功能提供了实质性的改进,并且影响了视频译码设备500到不同状态的切换。或者,以存储在存储器560中并由处理器530执行的指令来实现译码模块570。
存储器560包括一个或多个磁盘、磁带机和固态硬盘,可以用作溢出数据存储设备,用于在选择执行程序时存储此类程序,并且存储在程序执行过程中读取的指令和数据。存储器560可以是易失性和/或非易失性的,可以是只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、三态内容寻址存储器(ternary content-addressable memory,TCAM)和/或静态随机存取存储器(static random-access memory,SRAM)。
请参考图6,图6为本申请实施例提供的装置600的一种示例性框图,装置600可用作图1a中的源设备12和目的设备14中的任一个或两个。
装置600中的处理器602可以是中央处理器。或者,处理器602可以是现有的或今后将研发出的能够操控或处理信息的任何其他类型设备或多个设备。虽然可以使用如图所示的处理器602等单个处理器来实施已公开的实现方式,但使用一个以上的处理器速度更快和效率更高。
在一种实现方式中,装置600中的存储器604可以是只读存储器(ROM)设备或随机存取存储器(RAM)设备。任何其他合适类型的存储设备都可以用作存储器604。存储器604可以包括处理器602通过总线612访问的代码和数据606。存储器604还可包括操作***608和应用程序610,应用程序610包括允许处理器602执行本文所述方法的至少一个程序。例如,应用程序610可以包括应用1至N,还包括执行本文所述方法的视频译码应用。
装置600还可以包括一个或多个输出设备,例如显示器618。在一个示例中,显示器618可以是将显示器与可用于感测触摸输入的触敏元件组合的触敏显示器。显示器618可以通过总线612耦合到处理器602。
虽然装置600中的总线612在本文中描述为单个总线,但是总线612可以包括多个总线。此外,辅助储存器可以直接耦合到装置600的其他组件或通过网络访问,并且可以包括存储卡等单个集成单元或多个存储卡等多个单元。因此,装置600可以具有各种各样的配置。
请参考图7,图7为本申请实施例提供的量化处理方法的流程图。量化处理方法可由量化处理装置执行。例如,量化处理方法可由量化处理装置的量化单元执行。量化处理方法描述为一系列的步骤或操作,应当理解的是,量化处理方法可以以各种顺序执行和/或同时发生,不限于图7所示的执行顺序。如图7所示,量化处理方法可以包括:
S701、获取第一频域表达。
其中,第一频域表达为待编码块的预测块的频域表达。
示例性地,编码端可以先获取视频序列中每一帧对应的图像,然后将每一帧对应的图像分割为多个图像块,然后根据任一图像块得到上述待编码块,然后根据已编码块得到上述待编码块的预测块。根据上述待编码块和上述待编码块的预测块得到上述待编码块的残差块。然后将上述待编码块的预测块输入到量化处理装置中,量化处理装置对输入的待编码块的预测块进行变换处理得到上述第一频域表达。
可选地,第一频域表达可以包括待编码块的预测块的多个频率分量的频率、幅度和方向。
在一种可能的实现方式中,量化处理装置可以对待编码块的预测块进行变换得到第一频域表达。
需要说明的是,变化的具体方法可以采用本领域技术人员能够想到的任何一种方法进行处理,本申请对此不做具体限定。
可选地,上述变换可以包括傅立叶变换、离散余弦变换、小波变换、正弦变换或余弦变换中的至少一项。
示例性地,量化处理装置可以先对待编码块的预测块做分块整数离散余弦变换(discrete cosine transform,DCT)变换获得待编码块的预测块的DCT系数,然后计算待编码块的预测块频率分量的DCT系数值映射的频域幅度值。
例如,以32×32变换尺寸为例量化处理装置可以通过DCT变换公式对待编码块的预测块做分块DCT获得待编码块的预测块的DCT系数,然后根据关系式1计算待编码块的预测块频率分量的DCT系数值映射的频域幅度值。
上述DCT变换公式为:
其中,为32×32整数DCT变换频率分量的变换系数矩阵,/>为32×32整数DCT变换矩阵,/>为空域32×32矩阵,/>为/>的转置矩阵。
根据整数DCT变换的公式推导,得到上述32×32变换块第一列各频率分量的整数DCT系数值Bi映射的频域幅度值之间的关系式1为:
其中,Ci为映射系数,N为变换矩阵尺寸(例如N可以取32),i表示频率分量的位置索引。直流分量的映射系数为32。变换块第一行和第一列的变换基存在对称性,所以第一行各频率分量的映射系数与第一列各频率分量的映射系数一致。
又示例性地,量化处理装置可以先对待编码块的预测块做分块离散傅立叶变换(discrete fourier transform,DFT)变换获得待编码块的预测块的傅立叶频谱幅度,然后计算待编码块的预测块频率分量的傅立叶频谱幅度值映射的频域幅度值。
例如,量化处理装置使用8×8DFT变换根据二维DFT公式对待编码块的预测块做分块DFT变换获得待编码块的预测块的傅立叶频谱幅度,然后根据关系式2计算待编码块的预测块频率分量的傅立叶频谱幅度值映射的频域幅度值。
考虑一个大小为N×N的图像f(x,y),上述二维DFT公式为:
其中F(u,v)表示频率域变换系数,其中N可以取8。变换域的u和v分别表示水平和垂直频率。将上述二维DFT中指数项扩展为正弦项和余弦项的形式,其中变量u和v用于确定它们的频率。
即使f(x,y)是实数,其变换通常也是复数。直观地分析一个变换的主要方法是计算它的频谱,即F(u,v)的幅度,令R(u,v)和I(u,v)分别表示F(u,v)的实部和虚部,则傅立叶频谱定义为:
根据上述二维DFT变换的公式推导,得到N×N变换块(u,v)位置频率分量的傅立叶频谱幅度值|F(u,v)|与频域幅度值A(u,v)的关系式2为:
其中,C(u,v)为映射系数,N为变换矩阵尺寸(例如N可以取8),u,v表示频率分量的位置索引。直流分量的映射系数为16。
又示例性地,量化处理装置可以先对待编码块的预测块做DCT变换获得待编码块的预测块的频率分量的DCT系数值,然后计算待编码块的预测块的频率分量的DCT系数值映射的频域幅度值。
例如,量化处理装置使用32×32DCT变换根据II类二维DCT公式对待编码块的预测块做DCT变换获得待编码块的预测块的频率分量的DCT系数值,然后根据关系式3计算待编码块的预测块的频率分量的DCT系数值映射的频域幅度值。
考虑一个大小为N×N的图像f(x,y),II类二维DCT的公式为:
其中,F(u,v)为频率域变换系数,x,y为空间域离散信号位置索引,u,v为频率域离散信号位置索引,u,v=0,1,…,N-1。
根据上述II类二维DCT的公式推导,得到N×N变换块(u,v)位置的频率分量的DCT系数值F(u,v)映射到掩蔽特性函数中频域幅度值A(u,v)的关系式:
其中,E(u,v)为映射系数,N为变换矩阵尺寸(例如N可以取32),u,v表示频率分量的位置索引。直流分量的映射系数为32。
又示例性地,量化处理装置可以先对待编码块的预测块做离散正弦变换(discrete sine transform,DST)获得待编码块的预测块的频率分量的DST系数值,然后计算待编码块的预测块的频率分量的DST系数值映射的频域幅度值。
例如,量化处理装置使用32×32DST变换根据二维DST公式对待编码块的预测块做DST变换获得待编码块的预测块的频率分量的DST系数值,然后根据关系式4计算待编码块的预测块的频率分量的DST系数值映射的频域幅度值。
考虑一个大小为N×N的图像f(x,y),二维DST公式为:
其中,
其中,u,v=1,2,…,N-1。
根据上述二维DST公式推导,得到N×N变换块(u,v)位置频率分量的DST系数值F(u,v)与频域幅度值A(u,v)之间的关系式4为:
其中,E(u,v)为映射系数,N为变换矩阵尺寸(例如N可以取32),u,v表示频率分量的位置索引。直流分量的映射系数为32。
S702、根据上述第一频域表达确定待编码块的预测块的目标频率分量的掩蔽阈值。
其中,待编码块的预测块的目标频率分量可以为待编码块的预测块的多个目标频率分量中的任一频率分量。
在一种可能的实现方式中,量化处理装置可以先根据第一频域表达确定待编码块的预测块的目标频率分量的频间掩蔽阈值,然后根据目标频率分量的频间掩蔽阈值确定目标频率分量的掩蔽阈值。
在一种可能的实现方式中,量化处理装置可以先根据待编码块的预测块的目标频率分量的频率确定待编码块的预测块的目标频率分量的单频感知灵敏度阈值,然后根据目标频率分量的频间掩蔽阈值和目标频率分量的单频感知灵敏度阈值确定目标频率分量的掩蔽阈值。
示例性地,若目标频率分量处于第一行第一列,则量化处理装置可以根据单频感知灵敏度函数(single-frequency perception sensitivity function,SPSF)结合待编码块的预测块的目标频率分量的频率计算确定待编码块的预测块的目标频率分量的单频感知灵敏度阈值,然后根据目标频率分量的频间掩蔽阈值和目标频率分量的单频感知灵敏度阈值确定目标频率分量的掩蔽阈值。
单频感知灵敏度函数可以为:
其中,Fmasked是目标频率分量的频率(空间频率),Fcritical是单频感知灵敏度阈值发生拐点的临界空间频率,Fcritical=5周/度。
若目标频率分量未处于第一行第一列,则量化处理装置可以先通过高效视频编码(high efficiency video coding,HEVC)标准推荐使用的8×8(帧内)默认量化矩阵,将量化矩阵各位置的数值除以16修改为默认权重矩阵,32×32的默认权重矩阵可由8×8默认权重矩阵通过双线性插值法得到。
然后,参考图8所示的通过双线性插值法得到的32×32默认权重矩阵w_single_HM,单频感知灵敏度阈值从第一行第一列扩展到非第一行第一列。参考默认权重矩阵的非第一行非第一列位置权重值与第一行第一列位置权重值的比例关系,根据公式1和公式2,得到只受(0,j)或(i,0)位置单频感知灵敏度阈值影响的(u,v)位置单频感知灵敏度阈值spsf(u,v)。
公式1为:
公式2为:
但是非第一行第一列位置的单频感知灵敏度阈值往往与多个第一行第一列位置的单频感知灵敏度阈值有关。因此,根据第一行第一列各位置单频感知灵敏度阈值对(u,v)位置的单频感知灵敏度阈值的影响程度,将所有第一行第一列位置影响下的单频感知灵敏度阈值进行加权求和,得到(u,v)位置总的单频感知灵敏度阈值。
其中,αi为(i,0)位置单频感知灵敏度阈值对(u,v)位置的单频感知灵敏度阈值的影响因子,βj为(0,j)位置单频感知灵敏度阈值对(u,v)位置的单频感知灵敏度阈值的影响因子。在本申请实施例中N可以取32。
下面计算影响因子。L0为(u,v)位置距离第一行或第一列的最短距离,则L0与第一列各位置(i,0)距(u,v)位置的欧氏距离之比Vi:
L0与第一行各位置(0,j)距(u,v)位置的欧氏距离之比Uj:
下面将影响因子归一化:
最终得到如图9所示的32×32单频感知灵敏度阈值矩阵。图9所示的矩阵非第一行第一列部分即为所求的非第一行第一列对应位置频率分量的单频感知灵敏度阈值。
若目标频率分量未处于第一行第一列,则量化处理装置可以先通过将HEVC标准推荐使用的8×8(帧内)默认量化矩阵各位置的数值除以16,得到8×8默认权重矩阵。如果变换单元是8×8尺寸,将8×8默认权重矩阵作为对应位置频率分量的单频感知灵敏度阈值。如果变换单元是32×32尺寸,将图9所示的32×32默认权重矩阵作为对应位置频率分量的单频感知灵敏度阈值。
8×8默认量化矩阵:
8×8默认权重矩阵:
可选地,待编码块的预测块的目标频率分量的单频感知灵敏度阈值也可以默认为1。
在另一种可能的实现方式中,量化处理装置可以先根据待编码块的预测块的目标频率分量的频率和待编码块的预测块的目标频率分量的频率的方向确定待编码块的预测块的目标频率分量的单频感知灵敏度阈值,然后目标频率分量的频间掩蔽阈值和目标频率分量的单频感知灵敏度阈值确定目标频率分量的掩蔽阈值。
在一种可能的实现方式中,量化处理装置可以根据待编码块的预测块的相对主信号的频率、待编码块的预测块的相对主信号的幅度和待编码块的预测块的目标频率分量的频率,确定待编码块的预测块的目标频率分量的频间掩蔽阈值。其中,待编码块的预测块的相对主信号可以为待编码块的预测块的多个频率分量中幅度大于待编码块的预测块的目标频率分量的幅度的任一频率分量。
在另一种可能的实现方式中,量化处理装置可以根据待编码块的预测块的相对主信号的频率、待编码块的预测块的相对主信号的幅度、待编码块的预测块的相对主信号的方向、待编码块的预测块的目标频率分量的频率和待编码块的预测块的目标频率分量的方向,确定待编码块的预测块的目标频率分量的频间掩蔽阈值。
示例性地,量化处理装置可以根据频间掩蔽特性函数(inter-frequency maskingchara cteristic function,IMCF)结合待编码块的预测块的相对主信号的频率、待编码块的预测块的相对主信号的幅度、待编码块的预测块的相对主信号的方向、待编码块的预测块的目标频率分量的频率和待编码块的预测块的目标频率分量的方向,计算确定待编码块的预测块的目标频率分量的频间掩蔽阈值。
频间掩蔽特性函数可以为:
其中,Astimu,θstimu,Fstimu是相对主信号的幅度(频域幅度值)、方向(方向角)、频率(空间频率);θmasked,Fmasked是目标频率分量的方向(方向角)、频率(空间频率)。
例如,可以将待编码块的预测块的多个频率分量中幅度大于待编码块的预测块的目标频率分量的幅度的所有频率分量均作为待编码块的预测块的相对主信号。
在一种可能的实现方式中,量化处理装置也可以选择每行/列中除目标频率分量以外的频率分量中频域幅度值较大的前Y个频率分量作为相对主信号。Y表示小于变换单元尺寸的一个正整数。
在另一种可能的实现方式中,量化处理装置也可以选择目标频率分量相邻位置并且空间频率较大的一个频率分量作为相对主信号。
在又一种可能的实现方式中,量化处理装置也可以选择目标频率分量相邻位置的两个频率分量作为相对主信号。
目标频率分量的掩蔽阈值也可为:
其中,SPSF(Fmasked)表示为单频感知灵敏度阈值。i表示第i个相对主信号,共K个相对主信号。和/>表示第i个相对主信号的频域幅度值、方向角和空间频率,θmasked和Fmasked表示目标频率分量的方向角和空间频率。
可选地,待编码块的预测块也可以有多个相对主信号。
可选地,第一频域表达还可以包括待编码块的预测块的直流分量。
在一种可能的实现方式中,量化处理装置还可以确定待编码块的预测块的直流分量的单频感知灵敏度。
在一种可能的实现方式中,待编码块的预测块可以包括多个目标频率分量,可以根据第一频率表达确定该预测块的多个目标频率分量中每个目标频率分量的掩蔽阈值,然后根据该预测块的多个目标频率分量的掩蔽阈值,确定该预测块的目标频率分量的掩蔽阈值。
例如,待编码块的预测块可以包括N个目标频率分量,可以先根据第一频率表达确定该预测块的每个目标频率分量的掩蔽阈值(即N个目标频率分量的掩蔽阈值),然后再根据该预测块的N个目标频率分量的掩蔽阈值,确定该预测块的目标频率分量的掩蔽阈值。如将N个目标频率分量的掩蔽阈值加权求和得到该预测块的目标频率分量的掩蔽阈值。
S703、根据上述掩蔽阈值确定量化步长。
在一种可能的实现方式中,量化处理装置可以先根据上述掩蔽阈值确定加权量化因子;然后根据上述加权量化因子确定量化步长。
在一种可能的实现方式中,量化处理装置可以根据所述掩蔽阈值和所述待编码块的预测块的直流分量的单频感知灵敏度阈值,确定加权量化因子。
可选地,加权量化因子可以满足:
其中,(u,v)表示目标频率分量的位置索引,JNDu,v表示目标频率分量(u,v)的掩蔽阈值,SPSF(DC)为直流分量的单频感知灵敏度阈值。wu,v(Fmasked,i)可简写为wu,v。
在另一种可能的实现方式中,量化处理装置也可以直接根据所述掩蔽阈值,确定加权量化因子。
可选地,加权量化因子也可以满足:
fu,v(Fmasked,i)=JNDu,v(Fmasked,i)
其中,(u,v)表示目标频率分量的位置索引,JNDu,v表示目标频率分量(u,v)的掩蔽阈值。fu,v(Fmasked,i)简写为fu,v。
在一种可能的实现方式中,量化处理装置可以根据所述加权量化因子对原始量化步长进行修正确定所述量化步长。
可选地,上述量化步长(即修正后的量化步长)可以满足:
AQstep(wu,v,QPu,v)=wu,v*Qstep(QPu,v)
其中,Qstep(QPu,v)为(u,v)位置原始量化/反量化步长,AQstep(wu,v,QPu,v)为(u,v)位置经过修正的实际量化/反量化步长。
可选地,上述量化步长也可以满足:
AQstep(fu,v,QPu,v)=Qstep(QPu,v)+fu,v
S704、根据上述量化步长对上述待编码块的残差块进行加权量化。
在一种可能的实现方式中,量化处理装置可以先从待编码块中减去待编码块的预测块得到待编码块的残差块,然后根据上述量化步长生成量化公式,最后根据量化公式对上述待编码块的残差块进行加权量化。
可选地,上述量化公式可以满足:
其中,xu,v为(u,v)位置的当前编码块残差变换系数,为(u,v)位置的量化值。round(·)表示四舍五入。
相应地,上述量化公式对应的反量化公式为:
/>
其中,x′u,v为(u,v)位置反量化后的解码块残差变换系数。
可选地,上述量化公式也可以满足:
其中,xu,v为(u,v)位置的当前编码块残差变换系数,为(u,v)位置的量化值。round(·)表示四舍五入。
相应地,上述量化公式对应的反量化公式为:
其中,x′u,v为(u,v)位置反量化后的解码块残差变换系数。
可以看出,本申请实施例提供的量化处理方法可以根据视频序列的待编码块的预测块的频域表达(即内容频谱信息),可以得到与待编码块的预测块的内容自适应且更灵敏掩蔽阈值,通过该掩蔽阈值得到与编码预测块自适应的加权量化因子(量化步长)具有更精准的缩放作用,且更好地利用了图像局部变化。此外,上述加权量化因子的获取过程不需要额外的编码开销。因此,同样的主观质量下,本申请的量化处理方法具有更低的码率,由此提高视频的压缩率。
请参考图10,图10为本申请实施例提供的另一种量化处理方法(也可称为反量化处理方法)的流程图。该反量化处理方法可由量化处理装置(反量化处理装置)执行。例如,该反量化处理方法可由量化处理装置的反量化单元执行。反量化处理方法描述为一系列的步骤或操作,应当理解的是,反量化处理方法可以以各种顺序执行和/或同时发生,不限于图10所示的执行顺序。如图10所示,反量化处理方法可以包括:
S1001、获取第二频域表达。
其中,第二频域表达为待解码块的预测块的频域表达。
示例性地,量化处理装置可以对待解码块的预测块进行变换以获取待解码块的预测块的频域表达。
可选地,第二频域表达可以包括待解码块的预测块的多个频率分量的频率、幅度和方向。
S1001的具体实现方式可以参照上述S701的具体实现方式,在此就不再赘述。
S1002、根据第二频域表达确定待解码块的预测块的目标频率分量的掩蔽阈值。
其中,目标频率分量为待解码块的预测块的多个频率分量中的任一频率分量。
在一种可能的实现方式中,量化处理装置可以先根据所述目标频率分量的频率确定所述目标频率分量的单频感知灵敏度阈值;然后根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值。
在一种可能的实现方式中,量化处理装置可以根据所述目标频率分量的频率和所述目标频率分量的方向确定所述目标频率分量的单频感知灵敏度阈值。
在一种可能的实现方式中,量化处理装置可以根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度和所述目标频率分量的频率,确定所述目标频率分量的频间掩蔽阈值。其中,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
在另一种可能的实现方式中,量化处理装置可以根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度、所述相对主信号的方向、所述目标频率分量的频率和所述目标频率分量的方向,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
S1002的具体实现方式可以参照上述S702的具体实现方式,在此就不再赘述。
S1003、根据待解码块的预测块的目标频率分量的掩蔽阈值确定反量化步长。
在一种可能的实现方式中,量化处理装置可以先根据所述掩蔽阈值确定加权反量化因子,然后根据所述加权反量化因子确定反量化步长。
S1003的具体实现方式可以参照上述S703的具体实现方式,在此就不再赘述。
S1004、根据反量化步长对待解码块的残差块进行加权反量化。
在一种可能的实现方式中,量化处理装置可以先根据上述反量化步长生成反量化公式,然后根据反量化公式对上述待解码块的残差块进行反加权量化。
S1004的具体实现方式可以参照上述S704的具体实现方式,在此就不再赘述。
需要说明的是,使用HM 16.20编解码器,限制变换块尺寸为32×32,设置四个QP:21,31,41,51。下面给出ChineseDocumentEditing.yuv,EnglishDocumentEditing.yuv和sc_ppt_doc_xls.yuv三个序列分别使用现有加权处理方法采用静态量化矩阵(即标量量化)和本申请的加权处理方法采用动态静态量化矩阵进行加权量化得到主观感知质量相同的序列。表1示出了使用现有加权处理方法和采用动态静态量化矩阵进行加权量化得到的码率通过表1可以看出本申请实施例提供的加权处理方法的码率(即kbps)明显小于现有加权处理方法。
其中,QPISlice表示只对序列的I帧进行加权量化。QPISlice的数值表示量化参数(quantization parameter,QP)。需要说明的是,本申请实施例提供的加权处理方法不仅可以对I帧进行加权量化,也可以对其他帧进行加权量化。如对P帧进行加权量化。
表1
下面将结合图11和图12介绍用于执行上述量化处理方法的量化处理装置。
可以理解的是,量化处理装置为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的量化处理装置可以独立存在,集成在编解码器中。当量化处理装置独立存在时,量化处理装置可以通过执行上述量化处理方法以独立实现量化器的功能。
本申请实施例可以根据上述方法示例对量化处理装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图11示出了上述实施例中涉及的量化处理装置的一种可能的组成示意图,如图11所示,该量化处理装置1100可以包括:获取单元1101、掩蔽阈值单元1102、量化步长单元1103和量化单元1104。
获取单元1101,用于获取第一频域表达,第一频域表达为待编码块的预测块的频域表达。
示例性地,获取单元1101可以用于执行上述量化处理方法中的S701。
掩蔽阈值单元1102,用于根据第一频域表达确定待编码块的预测块的目标频率分量的掩蔽阈值。
示例性地,掩蔽阈值单元1102可以用于执行上述量化处理方法中的S702。
量化步长单元1103,用于根据掩蔽阈值确定量化步长。
示例性地,量化步长单元1103可以用于执行上述量化处理方法中的S703。
量化单元1104,用于根据量化步长对待编码块的残差块进行加权量化。
示例性地,量化单元1104可以用于执行上述量化处理方法中的S704。
在一种可能的实现方式中,掩蔽阈值单元1102具体用于:根据第一频域表达确定待编码块的预测块的目标频率分量的频间掩蔽阈值;根据频间掩蔽阈值确定掩蔽阈值。
可选地,第一频域表达可以包括待编码块的预测块的目标频率分量的频率。
在一种可能的实现方式中,掩蔽阈值单元1102具体用于:根据目标频率分量的频率确定目标频率分量的单频感知灵敏度阈值;根据频间掩蔽阈值和单频感知灵敏度阈值确定掩蔽阈值。
可选地,第一频域表达还可以包括待编码块的预测块的目标频率分量的方向。
在一种可能的实现方式中,掩蔽阈值单元1102具体用于:根据目标频率分量的频率和目标频率分量的方向确定目标频率分量的单频感知灵敏度阈值。
可选地,第一频域表达可以包括待编码块的预测块的多个频率分量的频率和幅度,目标频率分量为多个频率分量中的任一频率分量。
在一种可能的实现方式中,掩蔽阈值单元1102具体用于:根据待编码块的预测块的相对主信号的频率、相对主信号的幅度和目标频率分量的频率,确定目标频率分量的频间掩蔽阈值,相对主信号为多个频率分量中幅度大于目标频率分量的幅度的任一频率分量。
可选地,第一频域表达包括待编码块的预测块的多个频率分量的频率、幅度和方向,目标频率分量为多个频率分量中的任一频率分量。
在一种可能的实现方式中,掩蔽阈值单元1102具体用于:根据待编码块的预测块的相对主信号的频率、相对主信号的幅度、相对主信号的方向、目标频率分量的频率和目标频率分量的方向,确定目标频率分量的频间掩蔽阈值,相对主信号为多个频率分量中幅度大于目标频率分量的幅度的任一频率分量。
在一种可能的实现方式中,量化步长单元1103具体用于:根据掩蔽阈值确定加权量化因子;根据加权量化因子确定量化步长。
可选地,上述第一频域表达还可以包括待编码块的预测块的直流分量。
在一种可能的实现方式中,量化步长单元1103具体用于:根据掩蔽阈值和待编码块的预测块的直流分量的单频感知灵敏度阈值,确定加权量化因子。
在一种可能的实现方式中,量化步长单元1103具体用于:根据加权量化因子对原始量化步长进行修正确定量化步长。
在采用对应各个功能划分各个功能模块的情况下,图12示出了上述实施例中涉及的量化处理装置(也可称为反量化处理装置)的另一种可能的组成示意图,如图12所示,该量化处理装置1200可以包括:获取单元1201、掩蔽阈值单元1202、反量化步长单元1203和反量化单元1204。
获取单元1201,用于获取第二频域表达,所述第二频域表达为待解码块的预测块的频域表达。
示例性地,获取单元1201可以用于执行上述量化处理方法中的S1001。
掩蔽阈值单元1202,用于根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的掩蔽阈值。
示例性地,掩蔽阈值单元1202可以用于执行上述量化处理方法中的S1002。
反量化步长单元1203,用于根据所述掩蔽阈值确定反量化步长。
示例性地,反量化步长单元1203可以用于执行上述量化处理方法中的S1003。
反量化单元1204,用于根据所述反量化步长对所述待解码块的残差块进行加权反量化。
示例性地,反量化单元1204可以用于执行上述量化处理方法中的S1004。
在一种可能的实现方式中,掩蔽阈值单元1202具体用于:根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的频间掩蔽阈值;根据所述频间掩蔽阈值确定所述掩蔽阈值。
可选地,所述第二频域表达可以包括待解码块的预测块的目标频率分量的频率。
在一种可能的实现方式中,掩蔽阈值单元1202具体用于:根据所述目标频率分量的频率确定所述目标频率分量的单频感知灵敏度阈值;根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值。
可选地,所述第二频域表达还可以包括待解码块的预测块的目标频率分量的方向。
在一种可能的实现方式中,掩蔽阈值单元1202具体用于:根据所述目标频率分量的频率和所述目标频率分量的方向确定所述目标频率分量的单频感知灵敏度阈值。
可选地,所述第二频域表达可以包括待解码块的预测块的多个频率分量的频率和幅度,所述目标频率分量为所述多个频率分量中的任一频率分量。
在一种可能的实现方式中,掩蔽阈值单元1202具体用于:根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度和所述目标频率分量的频率,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
可选地,所述第二频域表达包括待解码块的预测块的多个频率分量的频率、幅度和方向,所述目标频率分量为所述多个频率分量中的任一频率分量。
在一种可能的实现方式中,掩蔽阈值单元1202具体用于:根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度、所述相对主信号的方向、所述目标频率分量的频率和所述目标频率分量的方向,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
在一种可能的实现方式中,反量化步长单元1203具体用于:根据所述掩蔽阈值确定加权反量化因子;根据所述加权反量化因子确定反量化步长。
可选地,上述第二频域表达还可以包括待解码块的预测块的直流分量。
在一种可能的实现方式中,反量化步长单元1203具体用于:根据所述掩蔽阈值和所述待解码块的预测块的直流分量的单频感知灵敏度阈值,确定加权反量化因子。
在一种可能的实现方式中,反量化步长单元1203具体用于:根据所述加权反量化因子对原始反量化步长进行修正确定所述反量化步长。
本申请实施例还提供一种量化处理装置,该装置包括:至少一个处理器,当所述至少一个处理器执行程序代码或指令时,实现上述相关方法步骤实现上述实施例中的量化处理方法。
可选地,该装置还可以包括至少一个存储器,该至少一个存储器用于存储该程序代码或指令。
本申请实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在量化处理装置上运行时,使得量化处理装置执行上述相关方法步骤实现上述实施例中的量化处理方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的量化处理方法。
本申请实施例还提供一种量化处理装置,这个装置具体可以是芯片、集成电路、组件或模块。具体的,该装置可包括相连的处理器和用于存储指令的存储器,或者该装置包括至少一个处理器,用于从外部存储器获取指令。当装置运行时,处理器可执行指令,以使芯片执行上述各方法实施例中的量化处理方法。
图13示出了一种芯片1300的结构示意图。芯片1300包括一个或多个处理器1301以及接口电路1302。可选的,上述芯片1300还可以包含总线1303。
处理器1301可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述量化处理方法的各步骤可以通过处理器1301中的硬件的集成逻辑电路或者软件形式的指令完成。
可选地,上述的处理器1301可以是通用处理器、数字信号处理(digital signalproce ssing,DSP)器、集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
接口电路1302可以用于数据、指令或者信息的发送或者接收,处理器1301可以利用接口电路1302接收的数据、指令或者其他信息,进行加工,可以将加工完成信息通过接口电路1302发送出去。
可选的,芯片还包括存储器,存储器可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory,NVRAM)。
可选的,存储器存储了可执行软件模块或者数据结构,处理器可以通过调用存储器存储的操作指令(该操作指令可存储在操作***中),执行相应的操作。
可选的,芯片可以使用在本申请实施例涉及的量化处理装置或DOP中。可选的,接口电路1302可用于输出处理器1301的执行结果。关于本申请的一个或多个实施例提供的量化处理方法可参考前述各个实施例,这里不再赘述。
需要说明的,处理器1301、接口电路1302各自对应的功能既可以通过硬件设计实现,也可以通过软件设计来实现,还可以通过软硬件结合的方式来实现,这里不作限制。
其中,本实施例提供的装置、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (39)
1.一种量化处理方法,其特征在于,包括:
获取第一频域表达,所述第一频域表达为待编码块的预测块的频域表达;
根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的掩蔽阈值;
根据所述掩蔽阈值确定量化步长;
根据所述量化步长对所述待编码块的残差块进行加权量化。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的掩蔽阈值,包括:
根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的频间掩蔽阈值;
根据所述频间掩蔽阈值确定所述掩蔽阈值。
3.根据权利要求2所述的方法,其特征在于,所述第一频域表达包括待编码块的预测块的目标频率分量的频率,所述根据所述频间掩蔽阈值确定所述掩蔽阈值,包括:
根据所述目标频率分量的频率确定所述目标频率分量的单频感知灵敏度阈值;
根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值。
4.根据权利要求3所述的方法,其特征在于,所述第一频域表达还包括待编码块的预测块的目标频率分量的方向,所述根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值,包括:
根据所述目标频率分量的频率和所述目标频率分量的方向确定所述目标频率分量的单频感知灵敏度阈值。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所述第一频域表达包括待编码块的预测块的多个频率分量的频率和幅度,所述目标频率分量为所述多个频率分量中的任一频率分量,所述根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的频间掩蔽阈值,包括:
根据所述待编码块的预测块的相对主信号的频率、所述相对主信号的幅度和所述目标频率分量的频率,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
6.根据权利要求2至4中任一项所述的方法,其特征在于,所述第一频域表达包括待编码块的预测块的多个频率分量的频率、幅度和方向,所述目标频率分量为所述多个频率分量中的任一频率分量,所述根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的频间掩蔽阈值,包括:
根据所述待编码块的预测块的相对主信号的频率、所述相对主信号的幅度、所述相对主信号的方向、所述目标频率分量的频率和所述目标频率分量的方向,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述掩蔽阈值确定量化步长,包括:
根据所述掩蔽阈值确定加权量化因子;
根据所述加权量化因子确定量化步长。
8.根据权利要求7所述的方法,其特征在于,所述第一频域表达包括所述待编码块的预测块的直流分量,所述根据所述掩蔽阈值确定加权量化因子,包括:
根据所述掩蔽阈值和所述待编码块的预测块的直流分量的单频感知灵敏度阈值,确定加权量化因子。
9.根据权利要求7或8所述的方法,其特征在于,所述根据所述加权量化因子确定量化步长,包括:
根据所述加权量化因子对原始量化步长进行修正确定所述量化步长。
10.一种量化处理方法,其特征在于,包括:
获取第二频域表达,所述第二频域表达为待解码块的预测块的频域表达;
根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的掩蔽阈值;
根据所述掩蔽阈值确定反量化步长;
根据所述反量化步长对所述待解码块的残差块进行加权反量化。
11.根据权利要求10所述的方法,其特征在于,所述根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的掩蔽阈值,包括:
根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的频间掩蔽阈值;
根据所述频间掩蔽阈值确定所述掩蔽阈值。
12.根据权利要求11所述的方法,其特征在于,所述第二频域表达包括待解码块的预测块的目标频率分量的频率,所述根据所述频间掩蔽阈值确定所述掩蔽阈值,包括:
根据所述目标频率分量的频率确定所述目标频率分量的单频感知灵敏度阈值;
根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值。
13.根据权利要求12所述的方法,其特征在于,所述第二频域表达还包括待解码块的预测块的目标频率分量的方向,所述根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值,包括:
根据所述目标频率分量的频率和所述目标频率分量的方向确定所述目标频率分量的单频感知灵敏度阈值。
14.根据权利要求11至13中任一项所述的方法,其特征在于,所述第二频域表达包括待解码块的预测块的多个频率分量的频率和幅度,所述目标频率分量为所述多个频率分量中的任一频率分量,所述根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的频间掩蔽阈值,包括:
根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度和所述目标频率分量的频率,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
15.根据权利要求11至13中任一项所述的方法,其特征在于,所述第二频域表达包括待解码块的预测块的多个频率分量的频率、幅度和方向,所述目标频率分量为所述多个频率分量中的任一频率分量,所述根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的频间掩蔽阈值,包括:
根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度、所述相对主信号的方向、所述目标频率分量的频率和所述目标频率分量的方向,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
16.根据权利要求10至15中任一项所述的方法,其特征在于,所述根据所述掩蔽阈值确定反量化步长,包括:
根据所述掩蔽阈值确定加权反量化因子;
根据所述加权反量化因子确定反量化步长。
17.根据权利要求16所述的方法,其特征在于,所述第二频域表达包括所述待解码块的预测块的直流分量,所述根据所述掩蔽阈值确定加权反量化因子,包括:
根据所述掩蔽阈值和所述待解码块的预测块的直流分量的单频感知灵敏度阈值,确定加权反量化因子。
18.根据权利要求16或17所述的方法,其特征在于,所述根据所述加权反量化因子确定反量化步长,包括:
根据所述加权反量化因子对原始反量化步长进行修正确定所述反量化步长。
19.一种量化处理装置,其特征在于,所述装置包括获取单元、掩蔽阈值单元、量化步长单元和量化单元;
获取单元,用于获取第一频域表达,所述第一频域表达为待编码块的预测块的频域表达;
掩蔽阈值单元,用于根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的掩蔽阈值;
量化步长单元,用于根据所述掩蔽阈值确定量化步长;
量化单元,用于根据所述量化步长对所述待编码块的残差块进行加权量化。
20.根据权利要求19所述的装置,其特征在于,所述掩蔽阈值单元具体用于:
根据所述第一频域表达确定所述待编码块的预测块的目标频率分量的频间掩蔽阈值;
根据所述频间掩蔽阈值确定所述掩蔽阈值。
21.根据权利要求20所述的装置,其特征在于,所述第一频域表达包括待编码块的预测块的目标频率分量的频率,所述掩蔽阈值单元具体用于:
根据所述目标频率分量的频率确定所述目标频率分量的单频感知灵敏度阈值;
根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值。
22.根据权利要求21所述的装置,其特征在于,所述第一频域表达还包括待编码块的预测块的目标频率分量的方向,所述掩蔽阈值单元具体用于:
根据所述目标频率分量的频率和所述目标频率分量的方向确定所述目标频率分量的单频感知灵敏度阈值。
23.根据权利要求20至22中任一项所述的装置,其特征在于,所述第一频域表达包括待编码块的预测块的多个频率分量的频率和幅度,所述目标频率分量为所述多个频率分量中的任一频率分量,所述掩蔽阈值单元具体用于:
根据所述待编码块的预测块的相对主信号的频率、所述相对主信号的幅度和所述目标频率分量的频率,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
24.根据权利要求20至22中任一项所述的装置,其特征在于,所述第一频域表达包括待编码块的预测块的多个频率分量的频率、幅度和方向,所述目标频率分量为所述多个频率分量中的任一频率分量,所述掩蔽阈值单元具体用于:
根据所述待编码块的预测块的相对主信号的频率、所述相对主信号的幅度、所述相对主信号的方向、所述目标频率分量的频率和所述目标频率分量的方向,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
25.根据权利要求19至24中任一项所述的装置,其特征在于,所述量化步长单元具体用于:
根据所述掩蔽阈值确定加权量化因子;
根据所述加权量化因子确定量化步长。
26.根据权利要求25所述的装置,其特征在于,所述第一频域表达包括所述待编码块的预测块的直流分量,所述量化步长单元具体用于:
根据所述掩蔽阈值和所述待编码块的预测块的直流分量的单频感知灵敏度阈值,确定加权量化因子。
27.根据权利要求25或26所述的装置,其特征在于,所述量化步长单元具体用于:
根据所述加权量化因子对原始量化步长进行修正确定所述量化步长。
28.一种量化处理装置,其特征在于,所述装置包括获取单元、掩蔽阈值单元、反量化步长单元和反量化单元;
获取单元,用于获取第二频域表达,所述第二频域表达为待解码块的预测块的频域表达;
掩蔽阈值单元,用于根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的掩蔽阈值;
反量化步长单元,用于根据所述掩蔽阈值确定反量化步长;
反量化单元,用于根据所述反量化步长对所述待解码块的残差块进行加权反量化。
29.根据权利要求28所述的装置,其特征在于,所述掩蔽阈值单元具体用于:
根据所述第二频域表达确定所述待解码块的预测块的目标频率分量的频间掩蔽阈值;
根据所述频间掩蔽阈值确定所述掩蔽阈值。
30.根据权利要求29所述的装置,其特征在于,所述第二频域表达包括待解码块的预测块的目标频率分量的频率,所述掩蔽阈值单元具体用于:
根据所述目标频率分量的频率确定所述目标频率分量的单频感知灵敏度阈值;
根据所述频间掩蔽阈值和所述单频感知灵敏度阈值确定所述掩蔽阈值。
31.根据权利要求30所述的装置,其特征在于,所述第二频域表达还包括待解码块的预测块的目标频率分量的方向,所述掩蔽阈值单元具体用于:
根据所述目标频率分量的频率和所述目标频率分量的方向确定所述目标频率分量的单频感知灵敏度阈值。
32.根据权利要求29至31中任一项所述的装置,其特征在于,所述第二频域表达包括待解码块的预测块的多个频率分量的频率和幅度,所述目标频率分量为所述多个频率分量中的任一频率分量,所述掩蔽阈值单元具体用于:
根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度和所述目标频率分量的频率,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
33.根据权利要求29至31中任一项所述的装置,其特征在于,所述第二频域表达包括待解码块的预测块的多个频率分量的频率、幅度和方向,所述目标频率分量为所述多个频率分量中的任一频率分量,所述掩蔽阈值单元具体用于:
根据所述待解码块的预测块的相对主信号的频率、所述相对主信号的幅度、所述相对主信号的方向、所述目标频率分量的频率和所述目标频率分量的方向,确定所述目标频率分量的频间掩蔽阈值,所述相对主信号为所述多个频率分量中幅度大于所述目标频率分量的幅度的任一频率分量。
34.根据权利要求28至33中任一项所述的装置,其特征在于,所述反量化步长单元具体用于:
根据所述掩蔽阈值确定加权反量化因子;
根据所述加权反量化因子确定反量化步长。
35.根据权利要求34所述的装置,其特征在于,所述第二频域表达包括所述待解码块的预测块的直流分量,所述反量化步长单元具体用于:
根据所述掩蔽阈值和所述待解码块的预测块的直流分量的单频感知灵敏度阈值,确定加权反量化因子。
36.根据权利要求34或35所述的装置,其特征在于,所述反量化步长单元具体用于:
根据所述加权反量化因子对原始反量化步长进行修正确定所述反量化步长。
37.一种量化处理装置,包括至少一个处理器和接口电路,所述至少一个处理器和所述接口电路耦合,其特征在于,所述至少一个处理器执行存储在存储器中的程序或指令,以使得所述量化处理装置实现权利要求1至9或10至18中任一项所述的方法。
38.一种计算机可读存储介质,用于存储计算机程序,其特征在于,所述计算机程序包括用于实现上述权利要1至9或10至18中任一项所述的方法的指令。
39.一种计算机程序产品,所述计算机程序产品中包含指令,其特征在于,当所述指令在计算机或处理器上运行时,使得所述计算机或所述处理器实现上述权利要求1至9或10至18中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210143076.4A CN116647683A (zh) | 2022-02-16 | 2022-02-16 | 量化处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210143076.4A CN116647683A (zh) | 2022-02-16 | 2022-02-16 | 量化处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116647683A true CN116647683A (zh) | 2023-08-25 |
Family
ID=87614035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210143076.4A Pending CN116647683A (zh) | 2022-02-16 | 2022-02-16 | 量化处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116647683A (zh) |
-
2022
- 2022-02-16 CN CN202210143076.4A patent/CN116647683A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111226438B (zh) | 视频解码的方法及解码器 | |
JP7471328B2 (ja) | エンコーダ、デコーダ、および対応する方法 | |
WO2020181997A1 (en) | An encoder, a decoder and corresponding methods for inter prediction | |
EP3987813A1 (en) | Systems and methods for reducing a reconstruction error in video coding based on a cross-component correlation | |
KR102616714B1 (ko) | 광학 흐름 정제를 위한 조기 종료 | |
CN113196783B (zh) | 去块效应滤波自适应的编码器、解码器及对应方法 | |
WO2021049126A1 (en) | Systems and methods for reducing a reconstruction error in video coding based on a cross-component correlation | |
CN114885159B (zh) | 位置相关预测组合的模式相关和大小相关块级限制的方法和装置 | |
KR102660120B1 (ko) | 이중 예측 옵티컬 플로 계산 및 이중 예측 보정에서 블록 레벨 경계 샘플 그레이디언트 계산을 위한 정수 그리드 참조 샘플의 위치를 계산하는 방법 | |
CN112055200A (zh) | Mpm列表构建方法、色度块的帧内预测模式获取方法及装置 | |
CN115349257B (zh) | 基于dct的内插滤波器的使用 | |
WO2021070427A1 (en) | Systems and methods for reducing a reconstruction error in video coding based on a cross-component correlation | |
CN114913249A (zh) | 编码、解码方法和相关设备 | |
CN111327899A (zh) | 视频译码器及相应方法 | |
CN112055211B (zh) | 视频编码器及qp设置方法 | |
CN115883831A (zh) | 编解码方法和装置 | |
CN116647683A (zh) | 量化处理方法和装置 | |
CN114598873B (zh) | 量化参数的解码方法和装置 | |
WO2023160470A1 (zh) | 编解码方法和装置 | |
WO2024093994A1 (zh) | 编解码方法和装置 | |
CN112135129B (zh) | 一种帧间预测方法及装置 | |
CN117397238A (zh) | 编解码方法和装置 | |
CN116800985A (zh) | 编解码方法和装置 | |
CN116800984A (zh) | 编解码方法和装置 | |
WO2021006773A1 (en) | Motion field storage optimization for the line buffer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |