CN114128294A - 用于视频数据的帧内预测编码的方法和装置 - Google Patents

用于视频数据的帧内预测编码的方法和装置 Download PDF

Info

Publication number
CN114128294A
CN114128294A CN202080048546.8A CN202080048546A CN114128294A CN 114128294 A CN114128294 A CN 114128294A CN 202080048546 A CN202080048546 A CN 202080048546A CN 114128294 A CN114128294 A CN 114128294A
Authority
CN
China
Prior art keywords
block
current block
intra prediction
mode
mip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080048546.8A
Other languages
English (en)
Inventor
姜制远
朴相孝
朴胜煜
林和平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Industry Collaboration Foundation of Ewha University
Kia Corp
Original Assignee
Hyundai Motor Co
Industry Collaboration Foundation of Ewha University
Kia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Motor Co, Industry Collaboration Foundation of Ewha University, Kia Corp filed Critical Hyundai Motor Co
Priority claimed from PCT/KR2020/008910 external-priority patent/WO2021006612A1/ko
Publication of CN114128294A publication Critical patent/CN114128294A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

公开了用于视频数据的帧内预测编码的方法和装置。根据本发明的一个方面,一种用于对视频数据解码的装置包括解码单元和帧内预测单元,所述解码单元从比特流解码指示视频数据的当前块的帧内预测类型的语法元素;所述帧内预测单元通过基于由语法元素指示的当前块的帧内预测类型选择性地执行基于矩阵的帧内预测或常规帧内预测来生成当前块的预测块。

Description

用于视频数据的帧内预测编码的方法和装置
技术领域
本发明涉及视频数据的编码和解码。
背景技术
由于视频数据量通常大于语音数据量或静止影像数据量,因此在不进行压缩处理的情况下存储或传输视频数据需要大量的硬件资源(包括存储器)。
相应地,在存储或传输视频数据时,通常利用编码器来压缩视频数据,以便于进行存储或传输。然后,解码器接收压缩的视频数据,解压并再现视频数据。用于视频的压缩技术包括H.264/AVC和高效率视频编码(High Efficiency Video Coding,HEVC),所述高效率视频编码(HEVC)比H.264/AVC的编码效率提高了大约40%。
然而,对于视频数据,图像大小、分辨率和帧速率逐渐增加,并且相应地,要编码的数据量也在增多。因此,需要一种与现有压缩技术相比具有更好的编码效率和更高的影像质量的新压缩技术。
发明内容
技术问题
本发明公开了一种用于对视频数据的块进行帧内预测编码的改进技术。
技术方案
根据本发明的一个方面,一种对视频数据解码的方法包括:从比特流解码指示视频数据的当前块的帧内预测类型的语法元素,所述帧内预测类型包括基于矩阵的帧内预测(matrix based intra-prediction,MIP)和常规帧内预测(regular intra-prediction);以及通过基于由语法元素指示的当前块的帧内预测类型选择性地执行MIP或常规帧内预测来生成当前块的预测块。
在通过执行MIP来生成当前块的预测块时,该方法进一步包括:从比特流解码指示当前块的MIP模式的语法元素,所述语法元素表示为指定对于当前块的宽度和高度所允许的多个MIP预测模式的一个的截断的二进制码;基于当前块的宽度和高度,利用与当前块邻近的相邻样本来推导输入边界向量;基于输入边界向量与为MIP模式预定义的矩阵之间的矩阵向量乘法来生成当前块的预测的样本;以及基于预测的样本来推导当前块的预测块。
在通过执行常规帧内预测来生成当前块的预测块时,该方法进一步包括:基于与当前块邻近的相邻块的常规帧内预测模式来推导最可能模式(Most Probable Mode,MPM)候选,并且配置当前块的MPM列表;以及基于MPM列表来推导当前块的常规帧内预测模式。当相邻块的帧内预测类型是MIP时,将相邻块的常规帧内预测模式设置为(视为)平面(PLANAR)模式。
根据本发明的另一个方面,一种用于对视频数据解码的装置包括:解码器和帧内预测器,所述解码器配置为从比特流解码指示视频数据的当前块的帧内预测类型的语法元素,所述帧内预测类型包括基于矩阵的帧内预测(MIP)和常规帧内预测;所述帧内预测器配置为通过基于由语法元素指示的当前块的帧内预测类型选择性地执行MIP或常规帧内预测来生成当前块的预测块。
在通过执行MIP来生成当前块的预测块时,帧内预测器配置为:从比特流解码指示当前块的MIP模式的语法元素,所述语法元素表示为指定对于当前块的宽度和高度所允许的多个MIP预测模式的一个的截断的二进制码;基于当前块的宽度和高度,利用与当前块邻近的相邻样本来推导输入边界向量;基于输入边界向量与为MIP模式预定义的矩阵之间的矩阵向量乘法来生成当前块的预测的样本;以及基于预测的样本来推导当前块的预测块。
在通过执行常规帧内预测来生成当前块的预测块时,帧内预测器配置为:基于与当前块邻近的相邻块的常规帧内预测模式来推导最可能模式(MPM)候选,并且配置当前块的MPM列表;以及基于MPM列表来推导当前块的常规帧内预测模式。在推导MPM候选时,当相邻块的帧内预测类型是MIP时,帧内预测器将相邻块的常规帧内预测模式设置为(视为)平面(PLANAR)模式。
附图说明
图1是能够实现本发明技术的视频编码装置的示例性框图。
图2示例性地示出了利用QTBTTT结构的块分区结构。
图3a示例性地示出了多个帧内预测模式。
图3b示例性地示出了包括宽角度帧内预测模式的多个帧内预测模式。
图4是能够实现本发明的技术的视频解码装置的示例性框图。
图5是示出可以在本发明的技术中使用的MIP技术的主要过程的概念图。
图6示出了构建参考样本的平滑滤波和插值滤波。
图7a至图7c是示出利用左侧相邻样本构建输入到矩阵向量乘法运算的边界向量的示例性方法的概念图。
图8a至图8c是示出利用上方相邻样本构建输入到矩阵向量乘法运算的边界向量的示例性方法的概念图。
图9是示出根据本发明实施方案的对视频数据解码的方法的流程图。
具体实施方式
在下文中,将参考所附附图对本发明的一些实施方案进行详细描述。应当注意,在将附图标记添加到各个附图中的组成元件时,尽管元件在不同的附图中示出,但是相同的附图标记也表示相同的元件。进一步地,在本发明的以下描述中,将省略并入本文的已知功能和配置的详细描述,以避免模糊本发明的主题。
图1是能够实现本发明技术的视频编码装置的示例性框图。在下文中,将参考图1来描述视频编码装置以及该装置的元件。
视频编码装置包括:图像分割器110、预测器120、减法器130、变换器140、量化器145、重排单元150、熵编码器155、逆量化器160、逆变换器165、加法器170、滤波单元180和存储器190。
视频编码装置的每个元件可以以硬件或软件、或者硬件和软件的组合来实现。各个元件的功能可以实现为软件,并且微处理器可以实现为执行对应于各个元件的软件功能。
一个视频包括多个图像。每个图像分割为多个区域,并且对每个区域执行编码。例如,一个图像分割为一个或更多个瓦片(tile)或/和切片(slice)。这里,一个或更多个瓦片可以被定义为瓦片组。每个瓦片或切片分割为一个或更多个编码树单元(coding treeunit,CTU)。每个CTU通过树结构分割为一个或更多个编码单元(coding unit,CU)。应用于每个CU的信息被编码为CU的语法,并且共同应用于包括在一个CTU中的CU的信息被编码为CTU的语法。另外,共同应用于一个切片中的所有块的信息被编码为切片头的语法,而应用于构成图像的所有块的信息被编码在图像参数集(Picture Parameter Set,PPS)或图像头中。此外,由多个图像共同参考的信息被编码在序列参数集(Sequence Parameter Set,SPS)中。另外,由一个或更多个SPS共同参考的信息被编码在视频参数集(Video ParameterSet,VPS)中。共同应用于一个瓦片或瓦片组的信息可以被编码为瓦片头或瓦片组头的语法。
图像分割器110配置为确定编码树单元(CTU)的大小。关于CTU的大小(CTU尺寸)的信息被编码为SPS或PPS的语法,并且被传输至视频解码装置。
图像分割器110配置为将构成视频的每个图像分割为具有预定大小的多个CTU,然后利用树结构递归地分割CTU。在树结构中,叶节点用作编码单元(CU),所述编码单元(CU)是编码的基本单元。
树结构可以是四叉树(QuadTree,QT)、二叉树(BinaryTree,BT)、三叉树(TernaryTree,TT)、或者由两个或更多个QT结构、BT结构和TT结构的组合形成的结构,所述四叉树(QT)即节点(或父节点)被分割为相同大小的四个从节点(或子节点),所述二叉树(BT)即节点被分割为两个从节点,所述三叉树(TT)即节点以1:2:1的比率被分割为三个从节点。例如,可以利用四叉树加二叉树(QuadTree plus BinaryTree,QTBT)结构,或者可以利用四叉树加二叉树三叉树(QuadTree plus BinaryTree TernaryTree,QTBTTT)结构。这里,BTTT可以统称为多类型树(multiple-type tree,MTT)。
图2示例性地示出了QTBTTT分割树结构。如图2所示,CTU可以首先分割为QT结构。可以重复QT分割,直到分割块的大小达到QT中允许的叶节点的最小块大小MinQTSize。由熵编码器155对指示QT结构的每个节点是否被分割为下层的四个节点的第一标志(QT_split_flag)进行编码,并将其用信号通知视频解码装置。当QT的叶节点不大于BT中允许的根节点的最大块大小(MaxBTSize)时,可以进一步将其分割为一个或更多个BT结构或TT结构。BT结构和/或TT结构可以具有多个分割方向。例如,可以存在两个方向,即,水平地分割节点的块的方向以及竖直地分割块的方向。如图2所示,当MTT分割开始时,通过熵编码器155对指示节点是否被分割的第二标志(mtt_split_flag)、指示分割情况下的分割方向(竖直或水平)的标志、和/或指示分割类型(二叉或三叉)的标志进行编码,并将其用信号通知视频解码装置。替选地,在对指示每个节点是否被分割为下层的4个节点的第一标志(QT_split_flag)进行编码之前,可以对指示节点是否被分割的CU分割标志(split_cu_flag)进行编码。当CU分割标志(split_cu_flag)的值指示出没有执行分割时,节点的块成为分割树结构中的叶节点,并用作编码单元(CU),编码单元(CU)是编码的基本单元。当CU分割标志(split_cu_flag)的值指示出执行分割时,视频编码装置开始以上述方式从第一标志起对标志进行编码。
当利用QTBT作为树结构的另一个示例时,可以存在两种分割类型,即将块水平地分割为相同大小的两个块的类型(即,对称水平分割)和将块竖直地分割为相同大小的两个块的类型(即,对称竖直分割)。由熵编码器155对指示BT结构的每个节点是否被分割为下层的块的分割标志(split_flag)和指示分割类型的分割类型信息进行编码,并将其传输至视频解码装置。可以存在将节点的块分割为两个非对称块的额外类型。非对称分割类型可以包括以1:3的大小比率将块分割为两个矩形块的类型,或者对角线地分割节点的块的类型。
CU可以根据CTU的QTBT或QTBTTT分割而具有各种大小。在下文中,与要编码或解码的CU(即,QTBTTT的叶节点)相对应的块被称为“当前块”。在采用QTBTTT分割时,当前块的形状可以是正方形或矩形。
预测器120配置为对当前块进行预测以生成预测块。预测器120包括帧内预测器122和帧间预测器124。
通常,图像中的每个当前块可以分别被预测地编码。通常,利用帧内预测技术(其利用来自包括当前块的图像的数据)或帧间预测技术(其利用在包括当前块的图像之前被编码的图像的数据)来执行当前块的预测。帧间预测包括单向预测和双向预测两者。
帧内预测器122配置为利用在包括当前块的当前图像中位于当前块周围的像素(参考像素)来预测当前块中的像素。根据预测方向,存在多个帧内预测模式。例如,如图3所示,多个帧内预测模式可以包括2种非方向模式和65种方向模式,所述2种非方向模式包括平面(PLANAR)模式和DC模式。针对每种预测模式不同地定义要使用的相邻像素和等式。下表列出帧内预测模式编号及其名称。
表1
帧内预测模式 相关名称
0 INTRA_PLANAR
1 INTRA_DC
2……66 INTRA_ANGULAR2……INTRA_ANGULAR66
为了对矩形形状的当前块进行有效的方向预测,可以额外地利用由图3b中的虚线箭头指示的方向模式(帧内预测模式67至80和-1至-14)。这些模式可以称为“宽角度帧内预测模式(wide angle intra-prediction modes)”。在图3b中,箭头指示了用于预测的相应参考样本,而非指示了预测方向。预测方向与由箭头指示的方向相反。宽角度帧内预测模式是在当前块具有矩形形状时在与特定方向模式相反的方向上执行预测而无需额外的比特传输的模式。在这种情况下,在宽角度帧内预测模式中,可以基于矩形当前块的宽度与高度的比率来确定可用于当前块的一些宽角度帧内预测模式。例如,在当前块的矩形形状的高度小于其宽度时,可以利用角度小于45度的宽角度帧内预测模式(帧内预测模式67至80)。在当前块的矩形形状的高度大于其宽度时,可以利用角度大于-135度的宽角度帧内预测模式(帧内预测模式-1至-14)。
帧内预测器122可以确定对当前块进行编码时要使用的帧内预测模式。在一些示例中,帧内预测器122可以利用若干帧内预测模式来对当前块进行编码,并且从测试的模式中选择要使用的适当的帧内预测模式。例如,帧内预测器122可以利用若干测试的帧内预测模式的率失真(rate-distortion)分析来计算率失真值,并且可以在测试的模式中选择具有最佳率失真特性的帧内预测模式。
帧内预测器122配置为从多个帧内预测模式中选择一个帧内预测模式,并且利用根据选择的帧内预测模式所确定的相邻像素(参考像素)和等式来预测当前块。由熵编码器155对关于选择的帧内预测模式的信息进行编码,并将其传输至视频解码装置。
另外,帧内预测器122可以利用基于矩阵的帧内预测(MIP)来生成当前块的预测块,这将在后面描述。帧内预测器122利用从在当前块的左侧重构的样本和在当前块上方重构的样本推导的边界向量、预定义矩阵以及偏移向量来生成当前块的预测块。
帧间预测器124配置为通过运动补偿来生成当前块的预测块。帧间预测器124可以在比当前图像更早已被编码和解码的参考图像中搜索与当前块最相似的块,并且利用搜索到的块来生成当前块的预测块。然后,帧间预测器配置为生成与当前图像中的当前块和参考图像中的预测块之间的位移(displacement)相对应的运动矢量(motion vector)。通常,对亮度(luma)分量执行运动估计,并且基于亮度分量计算的运动矢量用于亮度分量和色度分量两者。由熵编码器155对包括关于参考图像的信息和有关用于预测当前块的运动矢量的信息的运动信息进行编码,并将其传输至视频解码装置。
减法器130配置为将当前块减去由帧内预测器122或帧间预测器124生成的预测块以生成残差块。
变换器140可以将残差块分割为一个或更多个变换块,并且对一个或更多个变换块应用变换,从而将变换块的残差值从像素域变换到频域。在频域中,变换块被称为包含一个或更多个变换系数值的系数块。二维变换核可以用于变换,而一维变换核可以分别用于水平变换和竖直变换。变换核可以基于离散余弦变换(DCT)、离散正弦变换(DST)等。
变换器140可以利用残差块的整个大小作为变换单元来变换残差块中的残差信号。另外,变换器140可以将残差块在水平方向或竖直方向上分区为两个子块,并且可以仅变换两个子块的一个。相应地,变换块的大小可以与残差块的大小(进而预测块的大小)不同。非零残差样本值可能不存在,或者在未变换的子块中可能非常罕见。不用信号通知未变换子块的残差样本,并且未变换子块的残差样本可以被视频解码装置视为“0”。根据分区方向和分区比率可以存在多种分区类型。变换器140可以向熵编码器155提供关于残差块的编码模式(或变换模式)的信息(例如,指示是变换残差块还是变换残差子块的信息,指示选择为将残差块分区为子块的分区类型的信息,以及识别被执行变换的子块的信息)。熵编码器155可以对关于残差块的编码模式(或变换模式)的信息进行编码。
量化器145配置为对从变换器140输出的变换系数进行量化,并且将量化的变换系数输出到熵编码器155。对于一些块或帧,量化器145可以不经变换直接对相关残差块进行量化。
重排单元150可以对量化的残差值的系数值进行重组。重排单元150可以通过系数扫描(coefficient scanning)来将2维系数阵列改变为1维系数序列。例如,重排单元150可以利用锯齿形扫描(zig-zag scan)或对角线扫描(diagonal scan)从直流(DC)系数向高频区域中的系数对系数进行扫描,以输出1维系数序列。根据变换单元的大小和帧内预测模式,可以利用竖直扫描或水平扫描代替锯齿形扫描,所述竖直扫描即在列方向上对系数的二维阵列进行扫描,所述水平扫描即在行方向上对二维块形状的系数进行扫描。也就是说,可以根据变换单元的大小和帧内预测模式在锯齿形扫描、对角线扫描、竖直扫描和水平扫描中确定要利用的扫描模式。
熵编码器155配置为利用诸如基于上下文的自适应二进制算术编码(Context-based Adaptive Binary Arithmetic Code,CABAC)和指数哥伦布(exponential Golomb)的各种编码技术来对从重排单元150输出的一维量化的变换系数进行编码,以生成比特流。
熵编码器155可以对与块分割相关的信息(例如,CTU大小、CU分割标志、QT分割标志、MTT分割类型和MTT分割方向)进行编码,使得视频解码装置可以以与视频编码装置相同的方式来分割块。另外,熵编码器155可以对关于指示当前块是由帧内预测编码还是由帧间预测编码的预测类型的信息进行编码,并且根据预测类型来对帧内预测信息(即,关于帧内预测模式的信息)或帧间预测信息(即,关于参考图像索引和运动矢量的信息)进行编码。
逆量化器160配置为对从量化器145输出的量化的变换系数进行逆量化,以生成变换系数。逆变换器165配置为将从逆量化器160输出的变换系数从频域变换到空域,并且重构残差块。
加法器170配置为将重构的残差块和由预测器120生成的预测块相加,以重构当前块。重构的当前块中的像素在执行后续块的帧内预测时用作参考像素。
滤波单元180配置为对重构的像素进行滤波,以减少由于基于块的预测和变换/量化而产生的块伪影(blocking artifacts)、振铃伪影(ringing artifacts)和模糊伪影(blurring artifacts)。滤波单元180可以包括去块滤波器182和样本自适应偏移(sampleadaptive offset,SAO)滤波器184。
去块滤波器182配置为对重构的块之间的边界进行滤波,以去除由逐块编码/解码而引起的块伪影,并且SAO滤波器184配置为对去块滤波的视频执行额外的滤波。SAO滤波器184是用于对由有损编码(lossy coding)引起的重构的像素与原始的像素之间的差进行补偿的滤波器。
通过去块滤波器182和SAO滤波器184滤波的重构的块存储在存储器190中。一旦一个图像中的所有块被重构,重构的图像就可以用作后续要被编码的图像中的块的帧间预测的参考图像。
图4是能够实现本发明的技术的视频解码装置的示例性功能框图。在下文中,将参考图4来描述视频解码装置和该装置的元件。
视频解码装置可以包括:熵解码器410、重排单元415、逆量化器420、逆变换器430、预测器440、加法器450、滤波单元460和存储器470。
类似于图1的视频编码装置,视频解码装置的每个元件可以用硬件、软件或者硬件和软件的组合来实现。此外,每个元件的功能可以用软件来实现,并且微处理器可以实现为执行对应于每个元件的软件功能。
熵解码器410配置为通过对由视频编码装置生成的比特流解码并提取与块分割相关的信息来确定要解码的当前块,并且提取重构当前块所需的预测信息和关于残差信号的信息等。
熵解码器410配置为从序列参数集(SPS)或图像参数集(PPS)中提取关于CTU大小的信息,确定CTU的大小,并且将图像分割为确定大小的CTU。然后,解码器配置为将CTU确定为树结构的最高层(即,根节点),并且提取关于CTU的分割信息,以利用树结构来分割CTU。
例如,当利用QTBTTT结构来分割CTU时,提取与QT的分割相关的第一标志(QT_split_flag),以将每个节点分割为子层的四个节点。对于与QT的叶节点相对应的节点,提取与MTT的分割有关的第二标志(MTT_split_flag)以及关于分割方向(竖直/水平)和/或分割类型(二叉/三叉)的信息,从而以MTT结构来分割对应的叶节点。由此,以BT或TT结构来递归地分割QT的叶节点下方的每个节点。
作为另一个示例,当利用QTBTTT结构来分割CTU时,可以提取指示是否分割CU的CU分割标志(split_cu_flag)。当分割对应块时,可以提取第一标志(QT_split_flag)。在分割操作中,在零个或更多个递归QT分割之后,每个节点都可能发生零个或更多个递归MTT分割。例如,CTU可以直接经历MTT分割而不经历QT分割,或者仅经历QT分割多次。
作为另一个示例,当利用QTBT结构来分割CTU时,提取与QT分割相关的第一标志(QT_split_flag),并且将每个节点分割为下层的四个节点。然后,提取指示是否以BT进一步分割与QT的叶节点相对应的节点的分割标志(split_flag)以及分割方向信息。
一旦通过树结构进行分割来确定要解码的当前块,熵解码器410就配置为提取关于指示当前块是被帧内预测还是被帧间预测的预测类型的信息。当预测类型信息指示帧内预测时,熵解码器410配置为提取用于当前块的帧内预测信息(帧内预测模式)的语法元素。当预测类型信息指示帧间预测时,熵解码器410配置为提取用于帧间预测信息的语法元素,也就是说,指示运动矢量和由运动矢量参考的参考图像的信息。
熵解码器410配置为从比特流提取关于残差块的编码模式的信息(例如,关于是对残差块编码还是仅对残差块的子块编码的信息,指示选择为将残差块分区为子块的分区类型的信息,识别被编码的残差子块的信息,量化参数等)。熵解码器410还配置为提取关于量化的当前块的变换系数的信息作为关于残差信号的信息。
重排单元415可以以由视频编码装置执行的系数扫描的相反顺序,将由熵解码器410进行熵解码的一维量化的变换系数的序列改变为2维系数阵列(即,块)。
逆量化器420配置为对量化的变换系数进行逆量化。逆变换器430配置为基于关于残差块的编码模式的信息将逆量化的变换系数从频域逆变换到空域,以重构残差信号,从而生成重构的当前块的残差块。
当关于残差块的编码模式的信息指示出当前块的残差块已经被视频编码装置编码时,逆变换器430利用当前块的大小(以及进而要重构的残差块的大小)作为逆量化的变换系数的变换单位,以执行逆变换,从而生成重构的当前块的残差块。
当关于残差块的编码模式的信息指示出只有残差块的一个子块已经被视频编码装置编码时,逆变换器430利用变换的子块的大小作为逆量化的变换系数的变换单位,以执行逆变换,从而重构变换的子块的残差信号,并且用值“0”来填充未变换的子块的残差信号,以生成重构的当前块的残差块。
预测器440可以包括帧内预测器442和帧间预测器444。在当前块的预测类型是帧内预测时,帧内预测器442被激活,而在当前块的预测类型是帧间预测时,帧间预测器444被激活。
帧内预测器442配置为基于从熵解码器410提取的帧内预测模式的语法元素,在多个帧内预测模式中确定当前块的帧内预测模式,并且根据帧内预测模式,利用当前块周围的参考像素来预测当前块。另外,帧内预测器442可以利用基于矩阵的帧内预测(MIP)来生成当前块的预测块,这将在后面描述。帧内预测器422可以利用从在当前块的左侧重构的样本和在当前块的上方重构的样本所推导的边界向量、以及预定义矩阵和偏移向量来生成当前块的预测块。
帧间预测器444配置为利用由熵解码器410提取的帧内预测模式的语法元素来确定当前块的运动矢量和由运动矢量参考的参考图像,并且基于运动矢量和参考图像来预测当前块。
加法器450配置为通过将从逆变换器输出的残差块与从帧间预测器或帧内预测器输出的预测块相加来重构当前块。在对后续要被解码的块进行帧内预测时,重构的当前块中的像素用作参考像素。
滤波单元460可以包括去块滤波器462和SAO滤波器464。去块滤波器462配置为对重构的块之间的边界进行去块滤波,以去除由逐块解码引起的块伪影。SAO滤波器464可以在对相应偏移进行去块滤波之后对重构的块执行额外的滤波,以便补偿由有损编码引起的重构的像素与原始的像素之间的差。通过去块滤波器462和SAO滤波器464滤波的重构的块存储在存储器470中。当一个图像中的所有块被重构时,重构的图像用作对后续要被编码的图像中的块进行帧间预测的参考图像。
本发明的技术通常涉及帧内预测编码。下面的描述主要侧重于解码技术,也就是说,视频解码器的操作。由于编码技术与全面描述的解码技术相反,因此简要地描述编码技术。
在讨论下一代视频编码标准(即,通用视频编码(Versatile Video Coding,VVC))时,引入了几种新的编码工具,这些编码工具能够实现比高效率视频编码(HEVC)更好的编码性能。
与在帧内预测中只能使用最近的参考样本线的HEVC不同,VVC可以使用两个额外的参考线,这就是所谓的多参考线(multiple reference line,MRL)帧内预测。附加参考线只能用于MPM模式,不能使用非MPM模式。当视频编码器对方向模式的每个执行预测时,编码器可以基于RD代价从三个参考线中选择一个参考线。单独地用信号通知选择的参考线的索引(mrl_idx)并将其传输到视频解码器。
ISP(帧内子分区(Intra Sub-Partitions))是一种编码工具,其根据CU的大小在竖直方向或水平方向上将CU划分为多个相同大小的子块,并且以相同的帧内预测模式执行每个子块的预测。每个子块的重构的样本值可用于预测下一个子块,对每个子块迭代地处理所述每个子块的重构的样本值。适用于ISP的最小块大小为4×8或8×4。当块的大小为4×8或8×4时,将其分区为两个子块。当块的大小大于这个尺寸时,可以将其分区为四个子块。当块的MRL索引不为0时,不使用ISP。
与直接应用于重构的视频影像的常规的环内滤波不同,LMCS(具有色度缩放的亮度映射(Luma Mapping with Chroma Scaling))调整视频信号的动态范围的码字分布,以能够实现有效的预测和量化,从而改善编码性能和影像质量。LMCS包括亮度分量映射和色度分量缩放。
亮度映射是指环内映射,在所述环内映射中将用于输入亮度信号的动态范围的码字重新分配为能够改善编码性能的码字。亮度信号映射可以通过与其相对应的前向映射和后向映射来执行。前向映射将现有的动态范围划分为16个相等的区段,然后针对每个区段通过线性模型来重新分配输入视频的码字。色度缩放根据亮度信号与相应的色度信号之间的相关性来修改色度信号。
基于矩阵的帧内预测(MIP)是在VTM 5.0中引入的一种新的帧内预测技术。最初的想法是使用基于神经网络的帧内预测技术,也就是说,基于相邻的重构的像素,使用多层神经网络以预测当前PU像素值。然而,由于利用神经网络的预测方法的高复杂性,引入了一种利用预训练矩阵基于仿射线性变换的帧内预测技术。
为了预测具有宽度W和高度H的矩形块PU,MIP将块的左侧的H个重构的样本和块的上方的W个重构的样本作为输入。通过平均化、矩阵向量乘法、线性插值等来获得最终预测的像素。
应用MIP的块的大小分为以下三类。
Figure BDA0003450453820000101
根据idx(W,H),MIP模式的数量(numModes)、边界大小(boundarySize)和预测块大小(predW、predH、predC)定义如下。在下表中,MipSizeId=idx(W,H)。
表2
MipSizeId numModes boundarySize predW predH predC
0 35 2 4 4 4
1 19 4 4 4 4
2 11 4 Min(nTbW,8) Min(nTbH,8) 8
图5是示出可以在本发明的技术中使用的MIP技术的主要过程的概念图。
(1)平均化
该过程的主要目的是使参考样本归一化。根据块大小和形状(宽度和高度)(即,MipSizeId),获得4个或8个样本。在当前块的宽度和高度两者均为4时(即,W=H=4),总共获得4个样本,包括左侧的2个和上方的2个(boundarySize=2)。在另一种情况下,总共获得8个样本,包括左侧的4个和上方的4个(boundarySize=4)。
如图5所示,上方相邻样本用bdrytop表示,而左侧相邻样本用bdryleft表示。通过对bdrytop和bdryleft分别执行平均化,获得下采样的样本集
Figure BDA0003450453820000111
Figure BDA0003450453820000112
平均化是如下的下采样过程。
Figure BDA0003450453820000113
在上面的等式中,bDwn表示下采样缩放值(nTbs/boundarySize),而refS表示原始参考样本。对于左侧相邻样本,将计算出的reds存储为
Figure BDA0003450453820000114
而对于上方相邻样本,将计算出的redS存储为
Figure BDA0003450453820000115
将下采样的参考样本拼接为长度为4或8的向量。输入到向量矩阵乘法的归约的边界向量bdryred定义为如下等式。例如,当W=H=4且MIP模式小于18时,通过以
Figure BDA0003450453820000116
Figure BDA0003450453820000117
的顺序拼接来构建边界向量。当W=H=4且MIP模式大于或等于18时,以
Figure BDA0003450453820000118
Figure BDA0003450453820000119
的顺序来拼接
Figure BDA00034504538200001110
Figure BDA00034504538200001111
在下面的等式中,“模式”表示MIP模式。
Figure BDA00034504538200001112
(2)矩阵向量乘法
在此过程中,从归约的边界向量生成当前块的下采样预测信号predred。predred是矩阵向量乘积和偏移量的和,并且可以计算如下。
predred=A·bdryred+b
predred的大小为Wred×Hred。根据当前块的大小和形状来定义Wred和Hred,如下所示。矩阵A具有与Wred×Hred一样多的行数,并且当W=H=4时具有4列,其它情况下具有8列。偏移向量b是大小为Wred×Hred的向量。
Figure BDA0003450453820000121
Figure BDA0003450453820000122
对于每种类别的编码块大小,预定义可以用于编码块的矩阵A和偏移向量b的集合S0、S1和S2。根据上述MipSizeId(即,idx(W,H))选择集合S的指数(0,1,2),并且根据应用于当前块的MIP模式从集合S0、S1和S2的一个提取矩阵A和偏移向量b。
集合S0由18个矩阵A0和18个16维偏移向量b0组成,并且用于4×4块,每个矩阵A0具有16行4列。集合S1由10个矩阵A1和10个16维偏移向量b1组成,并且用于4×8、8×4和8×8大小的块,每个矩阵A1具有16行8列。最后,集合S2由6个矩阵A2和6个64维偏移向量b2组成,并且用于所有其他块形状,每个矩阵A2具有64行8列。
(3)像素插值
插值是上采样过程。如上所述,predred是原始块的下采样的预测信号。在这种情况下,具有predW和predH大小的下采样的预测块定义如下。
predred[x][y],其中x=0……predW1,y=0……predH-1
通过在每个方向上的剩余位置线性地插值预测信号而生成的具有原始块大小(nTbW,nTbH)的预测块定义如下。
predSamples[x][y],其中x=0……nTbW-1,y=0……nTbH-1
根据水平上采样缩放因子upHor(=nTbW/predW)和竖直上采样缩放因子upVer(=nTbH/predH),如下所述从predred填充predSamples的部分或全部。
predSamples[(x+1)×upHor-1][(y+1)×upVer-1]=predred[x][y]
当upHor=1时,predred中的predSamples的所有水平位置被填充。当upVer=1时,predred中的predSamples的所有竖直位置被填充。
然后,通过双线性插值来填充predSamples的剩余的空白样本。水平方向上的插值和竖直方向上的插值是上采样过程。对于predSamples中左侧和顶部样本的插值,将下采样的样本
Figure BDA0003450453820000123
分配给predSamples[x][-1]的值,并且将左侧的原始参考样本分配给predSamples[-1][y]的值。根据当前块的大小来确定插值顺序。也就是说,首先在短尺寸的方向上执行插值。随后,在长尺寸的方向上执行插值。
(4)用信号通知MIP帧内预测模式
对于经过帧内预测编码的每个编码单元(CU),传输指示是否应用基于矩阵的帧内预测模式(即,MIP模式)的标志。在VVC草案5中,为了用信号通知MIP模式,类似于与基于矩阵的帧内预测不同的传统帧内预测模式(在下文中,称为“普通帧内预测模式”),使用由3个MPM组成的MPM列表。例如,intra_mip_mpm_flag、intra_mip_mpm_idx和intra_mip_mpm_remainder用于用信号通知MIP模式。利用截断的二进制码对intra_mip_mpm_idx进行编码,利用固定长度码对intra_mip_mpm_remainder进行编码。
根据编码块(CU)的大小,可以支持多达35个MIP模式。例如,对于具有max(W,H)≤8且W×H<32的CU,35个模式是可用的。另外,对于具有max(W,H)=8和max(W,H)>8的CU分别使用19个预测模式和11个预测模式。另外,一对模式(两个模式)可以共享矩阵和偏移向量,以减少存储器需求。具体的共享模式计算如下。例如,对于4×4编码块,模式19使用分配给模式2的矩阵的转置矩阵。
Figure BDA0003450453820000131
当在应用常规帧内预测模式而不是MIP的块(在下文中,称为“常规块”)附近存在应用MIP的块时,在MIP模式与常规模式之间定义的映射表可以用于常规块的MPM推导。映射表用于从应用MIP的相邻块的MIP模式推导相似特性的常规模式。以这种方式推导的常规模式用于常规块的MPM推导。类似地,即使当MIP应用于在色度DM推导中使用的并置亮度块时,也能够利用映射表推导并置亮度块的常规模式,并且将推导出的常规模式用于色度DM推导。下面的等式利用表3和表4的映射表来表达常规模式与MIP模式之间的映射。
predmodeMIP=map_regular_to_mipidx[predmoderegular]
predmoderegular=map_mip_to_regularidx[predmodeMIP]
表3
Figure BDA0003450453820000141
表4
Figure BDA0003450453820000151
如上所述,在VVC草案5中,当基于MIP来预测块时,总是将块左侧的重构的相邻样本和块上方的重构的相邻样本用作参考样本。在块的纹理具有方向特性的块的情况下,该方法可能会使预测性能变差。另外,在VVC草案5中,为了对predSamples中的顶部样本进行插值,将下采样的样本集分配给predSamples[x][-1]的值,如图5所示,从而使得插值过程比必要的更复杂。此外,在VVC草案5中,在每个MPM列表用于用信号通知MIP模式和常规模式的情况下,由于许多检查和条件,例如在MIP模式与常规模式之间的映射要求,实施方式可能会非常复杂。
鉴于上述,本发明提出了能够降低MIP模式的实施方式复杂性并提高预测性能的几种改进技术。
使用平滑滤波的参考样本
在典型的帧内预测编码中,可以选择性地使用平滑滤波器、高斯插值滤波器和三次插值滤波器以获得方向模式的参考样本。图6示出平滑滤波和插值滤波。在参考样本滤波过程中,将帧内预测模式分为三组。A组由水平预测模式和竖直预测模式组成,B组由45度倍数的对角线模式组成,C组由其他方向模式组成。对于A组不应用滤波器。属于B组的对角线模式是指整数位置处的像素,从而不需要应用插值滤波器,而仅对参考样本应用[1,2,1]/4平滑滤波器。对于C组,不应用[1,2,1]/4平滑滤波器,而是根据条件应用4抽头高斯插值滤波器或4抽头三次插值滤波器,以获得小数位置处的参考样本。
用于参考样本的平滑滤波可以如下执行。在下文中,将滤波前的参考样本表示为refUnfilt[x][y],将滤波后的参考样本表示为refFilt[x][y]。这里,使用[1,2,1]/4平滑滤波器进行滤波。refH和refW分别为左侧参考样本的数量和上方参考样本的数量。
-对左上角参考样本进行滤波
refFilt[-1][-1]=(refUnfilt[-1][0]+2×refUnfilt[-1][-1]+refUnfilt[0][-1]+2)>>2
-对左侧参考样本进行滤波
refFilt[-1][y]=(refUnfilt[-1][y+1]+2×refUnfilt[-1][y]+refUnfilt[-1][y-1]+2)>>2{对于y=0..refH-2}
refFilt[-1][refH-1]=refUnfilt[-1][refH-1]
-对上方参考样本进行滤波
refFilt[x][-1]=(refUnfilt[x-1][-1]+2×refUnfilt[x][-1]+refUnfilt[x+1][-1]+2)>>2{对于x=0..refW-2}
refFilt[refW-1][-1]=refUnfilt[refW-1][-1]
如上述等式所示,可以在位于相同参考线上的邻近的参考样本之间执行滤波。然而,也可以在位于不同参考线上的参考样本之间执行滤波。例如,可以通过计算位于MRL索引0和1处的两个样本的平均值来获得滤波的参考样本。
如上所述,当使用MIP时,位于编码块的上方和左侧的邻近的解码的块的边界样本可以构成参考样本。在这种情况下,将未执行滤波的边界样本用作参考样本。考虑到MIP模式经常用于预测和重构低频分量,通过在MIP预测过程中对参考样本进行滤波而使用去除高频分量的样本值可能会是有利的。
根据本发明的一个方面,如在常规帧内预测的方向模式中,参考样本可以被滤波,然后使用在MIP模式中。可以根据块的预测模式、块的大小和MIP模式类型来自适应地使用滤波的参考样本和未滤波的参考样本。
当下列所有条件均为真时,可以执行对参考样本的滤波。因此,如果下列条件的任何一个没有得到满足,则将refUnfil的值复制到refFilt而不进行滤波。在一些情况下,当将帧内子分区(ISP)应用于编码块时,如果分区的子块的宽度或高度大于或等于16,则可以在相应边的边界上执行滤波。
-MRL索引为0。
-nTbW和nTbH的乘积大于32。
-CIdx为0(即,为亮度样本)。
-IntraSubPartitionsSplitType为ISP_NO_SPLIT(即,不应用ISP)。
-RefFilterFlag为1(即,帧内预测模式为0、14、12、10、6、2、34、66、72、76、78、80的一个,或MIP模式的一个)。
可以根据应用MIP的块的大小来确定是否自适应地执行对参考像素的滤波。如上所述,将应用MIP的块的大小分为三类,并且可以根据idx(W,H)来确定是否对参考像素滤波。例如,当Idx小于2(即,具有4×4、4×8或8×4大小的块)时,可以使用refUnfilt,而当Idx为2时,可以使用refFilt,或者相反。作为另一个示例,当Idx小于1时,使用refUnfilt,而当Idx大于或等于1时,使用refFilt,或者相反。作为另一个示例,当块的大小为4×4、4×8或8×4时,可以使用refUnFilt,否则可以使用refFilt,或者相反。作为另一个示例,当块的宽度或块的高度等于4时,可以不使用refFilt。作为另一个示例,当块的宽度和高度的任何一个等于4时,可以不使用refFilt。
可以根据应用MIP的块的形状来确定是否自适应地执行对参考像素的滤波。例如,只有当编码块的宽度和高度相同时,才可以使用refFilt。作为另一个示例,只有当编码块的宽度和高度不同时,才可以使用refFilt。作为另一个示例,可以对编码块的宽度和高度进行比较,refFilt可以仅用于较长边的块的边界。替选地,refFilt可以仅用于长度较短的块的边界。作为另一个示例,refFilt可以仅用于块的宽度或高度为16或更大(或为32或更大)的块的边界。
在一些实施方案中,可以如下配置MIP编码的块周围的参考样本集bdryleft和bdrytop。例如,参考样本集可以从在MIP编码的块周围的LMCS(具有色度缩放的亮度映射)之后映射的亮度样本来配置,或者可以从在MIP编码的块周围的LMCS之前映射的亮度样本来配置。作为另一个示例,参考样本集可以在执行用于常规帧内预测的块边界滤波之前从相邻块的亮度样本来配置,或者可以在块边界滤波之后从相邻块的亮度样本来配置。作为另一个示例,可以通过与用于在MIP编码的块周围执行常规帧内预测相同的过程来配置参考样本集。
生成输入边界向量
如上所述,在基于MIP来预测编码块中,可以使用编码块左侧的重构的相邻样本bdryleft和编码块上方的重构的相邻样本bdrytop。然而,在编码块的纹理具有方向特征的编码块的情况下,该方法可能会使预测性能变差。
相应地,选择性地使用要用于生成bdryleft与bdrytop之间的输入边界向量的相邻样本集,以便反映块的纹理可能具有的方向特性可能会是有利的。例如,在当前编码块的像素具有水平特性时,可以利用左侧相邻样本来生成预测信号。类似地,在当前编码块的像素具有竖直特性时,可以利用上方相邻样本来生成预测信号。可以根据应用于编码块的MIP模式不同地确定要用于生成输入边界向量的相邻样本集。
在下文中,为了简单起见,将针对利用左侧相邻样本的情况和利用上方相邻样本的情况来描述确定边界向量和根据边界向量确定预测的样本的几种方法。
A.利用左侧相邻样本构建边界向量
图7a至图7c是示出利用左侧相邻样本构建要输入到矩阵向量乘法的边界向量的示例性方法的概念图。
作为一个示例,如图7a所示,在当前编码块的大小(高度)与边界向量bdryred的大小相同时,可以利用左侧相邻样本集bdryleft来填充相同大小的边界向量bdryred。例如,在边界向量的项中可以包括左侧相邻样本的每个。
作为另一个示例,如图7b所示,可以利用从左侧相邻样本集bdryleft获得的下采样的样本集
Figure BDA0003450453820000182
来填充边界向量bdryred。例如,可以通过平均每两个样本的bdryleft来获得
Figure BDA0003450453820000183
作为还有另一个示例,如图7c所示,可以通过利用与编码块邻近的两个左侧列计算每行的两个像素的平均值来填充边界向量bdryred
根据编码块的大小,可以自适应地使用bdryleft
Figure BDA0003450453820000184
例如,如下面的等式所示,当H≤8时,使用bdryleft。否则,可以使用
Figure BDA0003450453820000185
Figure BDA0003450453820000181
在一些实施方案中,在从bdryleft生成下采样的样本集
Figure BDA0003450453820000186
时,可以根据视频内容的特性以不同的方式执行下采样。如在屏幕内容编码(screen content coding,SCC)中,视频内容可以在特定区域中具有相同的像素值或强度值,或者可以具有逐渐增加/减少的像素值或强度值。在这种情况下,为了生成下采样的样本集
Figure BDA0003450453820000187
通过仅对与bdryleft的偶数位置(或奇数位置)相对应的项进行采样,而不是通过平均化操作从bdryleft生成下采样的样本集
Figure BDA0003450453820000188
对于降低下采样的复杂性可能会是有用的。
例如,如下面的等式所示,当bdryleft具有从[0]到[H-1]的H项并且由此生成具有大小为H/2的
Figure BDA0003450453820000189
时,如果H≤8,则可以使用bdryleft。否则,可以通过采用与包括0的偶数位置相对应的项来生成
Figure BDA0003450453820000191
Figure BDA0003450453820000192
另外,通过用bdryleft中的第一位置处的项值填充
Figure BDA0003450453820000195
的所有项,可以进一步降低下采样的复杂性。
Figure BDA0003450453820000193
可以根据视频内容的特性来选择这些简化的下采样和通过平均化操作的下采样。例如,当将适用于屏幕内容编码的编码工具的块内复制(IBC)应用于位于MIP编码的当前块的左侧的编码块时,可以将与偶数位置(或奇数位置)相对应的简化的下采样的采用项用于编码块。作为另一个示例,当将屏幕内容编码中经常使用的变换跳过模式(transform skipmode)应用于位于MIP编码的当前块的左侧的编码块时,可以将与偶数位置(或奇数位置)相对应的简化的下采样的采用项用于编码块。作为另一个示例,可以用与偶数位置(或奇数位置)相对应的简化的下采样的采用项完全替换通过平均化操作的下采样。
B.利用上方相邻样本的边界向量构建
图8a至图8c是示出利用上方相邻样本构建要输入到矩阵向量乘法运算的边界向量的示例性方法的概念图。
作为示例,如图8a所示,在当前编码块的大小(宽度)与边界向量bdryred的大小相同时,可以利用上方相邻样本集来填充相同大小的边界向量bdryred。例如,在边界向量的项中可以包括上方相邻样本的每个。
作为另一个示例,如图8b所示,可以利用从上方相邻样本集bdrytop获得的下采样的样本集
Figure BDA0003450453820000196
来填充边界向量bdryred。例如,可以通过平均每两个样本的bdrytop来获得
Figure BDA0003450453820000197
作为另一个示例,如图8c所示,可以通过利用与编码块邻近的两个上方行计算每列中的两个像素的平均值来填充边界向量bdryred
根据编码块的大小,可以自适应地使用bdrytop
Figure BDA0003450453820000198
例如,如下面的等式所示,当W≤8时,可以使用bdrytop。否则,可以使用
Figure BDA0003450453820000199
Figure BDA0003450453820000194
如上所述,为了生成下采样的样本集
Figure BDA00034504538200001910
通过仅对与bdrytop的偶数位置(或奇数位置)相对应的项进行采样,而不是通过平均化操作从bdrytop生成下采样的样本集
Figure BDA00034504538200001911
在降低下采样的复杂性方面是有用的。
例如,如下面的等式所示,当bdrytop具有从[0]到[W-1]的W项并且由此生成具有大小为W/2的
Figure BDA00034504538200001912
时,如果W≤8,则可以使用bdrytop。否则,可以通过采用与包括0的偶数位置相对应的项来生成
Figure BDA00034504538200001913
Figure BDA0003450453820000201
另外,通过用bdrytop中的第一位置处的项值填充
Figure BDA0003450453820000202
的所有项,可以进一步降低下采样的复杂性。
Figure BDA0003450453820000203
可以根据视频内容的特性来选择这些简化的下采样和通过平均化操作的下采样。例如,当将适用于屏幕内容编码的编码工具的块内复制(IBC)应用于位于MIP编码的当前块的左侧(或上方)的编码块时,可以将与偶数位置(或奇数位置)相对应的简化的下采样的采用项用于编码块。作为另一个示例,当将屏幕内容编码中经常使用的变换跳过模式应用于位于MIP编码的当前块的左侧(或上方)的编码块时,可以将与偶数位置(或奇数位置)相对应的简化的下采样的采用项用于编码块。作为另一个示例,可以用与偶数位置(或奇数位置)相对应的简化的下采样的采用项完全替换通过平均化操作的下采样。
(2)矩阵向量乘法
根据VVC草案5中描述的MIP技术,从左侧相邻样本集和上述相邻样本集获得长度为4或8的边界向量bdryred。将边界向量bdryred输入到向量矩阵乘法运算中。相对于将向量矩阵乘法直接应用于边界向量bdryred,在应用向量矩阵乘法之前从边界向量bdryred去除DC分量,并且在应用向量矩阵乘法之后添加DC分量,在计算和硬件复杂性方面可能会更有利。根据该方法,用于向量矩阵乘法的权重矩阵的所有项可以表达为无符号整数。也就是说,在将向量矩阵乘法应用于边界向量bdryred之前,使边界向量bdryred中包括的项的平均值为零或将其转换为接近于零的值可能会是有利的。
作为示例,在应用向量矩阵乘法之前,可以从bdryred的每项中减去属于bdryred的一个像素值。作为另一个示例,在应用向量矩阵乘法之前,可以从bdryred的每项中减去bdryred的平均值。作为还有另一个示例,在应用向量矩阵乘法之前,可以从bdryred的每项中减去bdryred的第一项的像素值。
作为示例性实施方案,视频编码器和视频解码器可以计算边界向量bdryred的平均值,并且将向量矩阵乘法应用于通过从边界向量bdryred的每项减去平均值而获得的向量。要输入到向量矩阵乘法运算中的输入边界向量inputred可以定义如下。这里,p_avr是边界向量bdryred的平均值,而bitDepth表示亮度比特深度。
当MipSizeId(=idx(W,H))为0或1时,
inputred[0]=p_avr-(1<<(bitDepth-1))
inputred[j]=bdryred[j]-p_avr,j=1,...,size(bdryred)-1
当MipSizeId(=idx(W,H))为2时,
inputred[j]=bdryred[j+1]-p_avr,j=0,...,size(bdryred)-2
作为另一个示例性实施方案,为了避免计算平均值,可以用边界向量bdryred的第一项来替换平均值。在这种情况下,要输入到向量矩阵乘法运算中的输入边界向量inputred可以定义如下。
当MipSizeId(=idx(W,H))为0或1时,
inputred[j]=bdryred[j]-bdryred[0],]=1,...,size(bdryred)-1
inputred[0]=bdryred[0]-(1<<(bitDepth-1))
当MipSizeId(=idx(W,H))为2时,
inputred[j]=bdryred[j+1]-bdryred[0],j=0,...,size(bdryred)-2
也就是说,当MipSizeId为0或1时,基于可以用比特深度表示的最大值的一半(“1<<(bitDepth-1)”)与边界向量bdryred的第一项之间的差来获得输入边界向量inputred的第一项,并且基于从边界向量bdryred的每项减去第一项的值来获得输入边界向量inputred的后续项。当MipSizeId=2时,差分向量inputred的长度为7,并且相应地,用于这种情况的集合S2的权重矩阵A2各具有64行7列(在VVC草案5中,权重矩阵A2各具有64行8列)。
另外,通过利用由从权重矩阵(A0,A1,A2)预减去偏移向量而获得的矩阵mWeight[x][y],可以从predred=A·bdryred+b去除偏移向量b,但会获得略有误差的预测的值。根据改进的方法,预测的样本集predred[x][y]可以计算如下。
Figure BDA0003450453820000211
这里,
Figure BDA0003450453820000212
和inSize是inputred[j]的大小、。
线性插值
当predred中的项的数量小于预测块中样本的数量时,需要插值。具有predW和predH大小的下采样的预测块定义如下。
predred[x][y],其中x=0......predW-1,y=0......predH-1
与编码块相对应的具有大小为(nTbW,nTbH)的预测块(在所述预测块中将通过在每个方向上的线性插值来生成剩余位置处的预测信号)定义如下。
predSamples[x][y],其中x=0……nTbW-1,y=0......nTbH-1
根据水平上采样缩放因子upHor(=nTbW/predW)和竖直上采样缩放因子upVer(=nTbH/predH),如下所述从predred填充predSamples的部分或全部。
predSamples[(x+1)×upHor-1][(y+1)×upVer-1]=predred[x][y]
当upHor=1时,从predred填充predSamples的水平方向上的所有位置。当upVer=1时,从predred填充predSamples的竖直方向上的所有位置。
其后,通过双线性插值来填充predSamples的剩余的空白样本。水平方向上的插值和竖直方向上的插值是上采样过程。可以以固定的顺序执行插值,而不管编码块的大小如何。例如,可以首先在编码块的水平方向上执行插值,然后在竖直方向上执行插值。在这种情况下,可以在上采样之前执行裁剪,使得predred[x][y]或predSamples[x][y]的值在0与2bitDepth-1之间。2bitDepth-1是可以用比特深度表达的最大值。
对于插值,相邻块的predred和参考像素可以参考如下。例如,可以将上方的原始参考样本分配给predSamples[x][-1]的值,并且可以将左侧的原始参考样本分配给predSamples[-1][y]的值。作为另一个示例,可以将LMCS之前或之后的相邻块中的亮度样本分配给predSamples[x][-1]位置和predSamples[-1][y]位置。作为还有另一个示例,可以将在用于编码块周围的帧内预测的块边界滤波之前或之后的相邻块中的亮度样本分配给predSamples[x][-1]位置和predSamples[-1][y]位置。
mip_transpose_flag
如上所述,VVC草案5根据CU的大小和形状支持多达35个MIP模式。例如,对于具有max(W,H)≤8且W×H<32的CU,35个模式是可用的。对于具有max(W,H)=8和max(W,H)>8的各个CU,分别使用19个模式和11个模式。另外,一对模式(两个模式)可以共享矩阵和偏移向量,以减少存储器需求。例如,对于4×4编码块,模式19使用分配给模式2的矩阵的转置矩阵。此外,通过以根据MIP模式和块的大小确定的顺序级联
Figure BDA0003450453820000224
Figure BDA0003450453820000223
生成要输入到向量矩阵乘法的边界向量bdryred
可以使用一种改进的方法,其可以在降低复杂性时实现基本等效的编码效率水平。根据本发明的另一个方面,代替一个模式使用由另一个模式使用的矩阵的转置的现有方法,可以使用配置为改变级联构成边界向量bdryred
Figure BDA0003450453820000222
Figure BDA0003450453820000221
的顺序的新方法,所述边界向量bdryred用于针对每个模式的向量矩阵乘法。视频编码器可以用信号通知语法元素(mip_transpose_flag),该语法元素(mip_transpose_flag)指示将
Figure BDA0003450453820000225
Figure BDA0003450453820000226
级联以构成用于每个模式的边界向量bdryred的顺序。当语法元素(mip_transpose_flag)指示以
Figure BDA0003450453820000227
Figure BDA0003450453820000228
的顺序级联时,还可以对通过矩阵向量乘法运算获得的预测矩阵进行转置。根据该方法,可用的MIP模式的数量可以比传统方法减少一半,并且可以降低在边界向量生成和向量矩阵乘法方面的编码复杂性。
用信号通知MIP模式
对于以帧内预测模式编码的编码单元(CU),可以用信号通知指示帧内预测类型是否为基于矩阵的帧内预测(MIP)的标志。当将MIP应用于当前CU时,可以额外地用信号通知指示多个可用的MIP模式中当前CU中使用的MIP模式的语法元素。
与传统帧内预测模式(即,常规帧内预测模式)不同,MPM列表可能不会用于用信号通知MIP模式。而是,例如,可以使用这样一个语法元素(例如,intra_mip_mode),所述语法元素指示在多个MIP模式中的当前CU中使用的MIP模式并且可以用截断的二进制码进行编码。
下面提供基于VVC草案5提出的示例性编码单元语法的一部分。在下面的语法中,灰色的元素用于提供理解。
表5
Figure BDA0003450453820000231
当intra_mip_flag[x0][y0]为1时,其指示出当前块的帧内预测类型为MIP。当intra_mip_flag[x0][y0]为0时,其指示出当前块的帧内预测类型是常规帧内预测,而不是MIP。当intra_mip_flag[x0][y0]不存在时,其可以被推断为等于0。intra_mip_mode[x0][y0]表示用于MIP中当前块的MIP模式,并且表达为截断的二进制码。
MPM(最可能模式)
在传统方法中,可以使用采用最可能模式(Most Probable Mode,MPM)的帧内预测编码。例如,在HEVC中,从左侧块和上方块的帧内预测模式来配置三个MPM的列表。这种方法的缺点是更多的模式(除MPM以外的帧内模式)属于需要用更多比特编码的非MPM。已经提出了数种方法来将MPM的数量扩展到3项或更多项(例如,6个MPM模式)。然而,用更多的项配置这样的MPM列表可能需要更多的检查和条件,这可能会使实施方式更加复杂。
为了保持MPM列表的配置的低复杂性,可以利用与当前块邻近的左侧相邻块和上方相邻块的帧内预测模式来配置包括六个MPM候选的MPM列表。MPM候选可以包括默认帧内预测模式(例如,平面模式)、相邻块的帧内预测模式、以及从相邻块的帧内预测模式推导的帧内预测模式。当不使用相邻块的帧内预测模式时(例如,当对相邻块进行帧间预测时,或者相邻块位于不同的切片或另一个瓦片中时),可以将相邻块的帧内预测模式设置为平面模式。
根据左侧块的模式(左侧(Left)模式)和上方块的模式(上方(Above)模式)的帧内预测模式的类型,大致分为4种情况。当左侧模式和上方模式彼此不同,并且两种模式为方向模式时,可以根据左侧模式和上方模式的不同来进一步划分,以生成MPM列表。在下表中,Max是指左侧模式和上方模式之间的较大模式,而MIN是指左侧模式和上方模式之间的较小模式。
表6
Figure BDA0003450453820000241
视频编码器可以用信号通知指示当前块的帧内预测模式是否对应于MPM的1位标志(例如,mpm_flag)。通常,在当前块的帧内预测模式对应于MPM时,额外地用信号通知指示6个MPM的一个的MPM索引。注意,在表6中,平面模式始终包括在MPM列表中。也就是说,6个MPM可以分为平面MPM和5个非平面MPM。因此,编码器在当前块的帧内预测模式为MPM模式时,显式地用信号通知当前块的帧内预测模式是否为平面模式(例如,利用1位标志),并且在当前块的帧内预测模式与其他五个非平面MPM的一个相同额外地用信号通知指示其他五个非平面MPM的一个的MPM索引会是有效的。在当前块的帧内预测模式不对应于任何MPM时,可以利用截断的二进制码对指示除6个MPM之外的其余61个非MPM的一个的语法元素进行编码。
A.去除MIP模式与常规模式之间的映射表
在VVC草案5中,MPM列表用于用信号通知MIP模式和常规模式,并且需要MIP模式与常规模式之间的映射表来配置MIP列表。由于包括平均化操作和插值操作的MIP技术的特性,应用MIP的块的残差信号可以具有在变换域中占主导地位的低频分量。残差信号的特性可能类似于应用平面模式或DC模式的块的残差信号。因此,在推导以常规帧内预测模式编码的块的MPM列表时,从残差信号的相似性的角度来看,可以避免使用MIP模式与常规模式之间的映射表。
根据本发明的一个方面,在推导用于以常规帧内预测模式编码的块(即,常规块)的MPM列表的情况下,当以MIP模式编码相邻块时,可以将相邻块的帧内预测模式视为平面模式(或DC模式)。例如,当将MIP模式应用于相邻块时,可以将平面模式(或DC模式)添加到MPM列表中代替相邻块的MIP模式。由此,消除了编码器和解码器将MIP模式与常规模式之间的映射表存储在存储器中的需要。
类似地,如果将MIP应用于并置的亮度块,即使当推导色度DM(直接模式)时,也可以将亮度块的帧内预测模式视为平面模式(或DC模式),而不是利用MIP模式与常规模式之间的映射表。视频解码器解析指定用于色度块的帧内预测模式的语法元素,并且所述语法元素可以指示出色度块的帧内预测模式采用并置的亮度块的帧内预测模式。在这种情况下,当将MIP应用于并置的亮度块时,可以将亮度块的帧内预测模式视为平面模式(或DC模式)。也就是说,当将MIP应用于色度直接模式(DM)中的并置的亮度块时,可以确定出色度块的帧内预测模式是平面模式(或DC模式)。
B.将MIP模式合并到常规帧内模式中
在VVC草案5中,将MIP视为不同于常规帧内预测的单独的帧内预测类型,并且利用intra_mip_flag在CU级别用信号通知是否使用MIP。当使用MIP时,对选择为用于当前CU的MIP模式进行编码。当不使用MIP时,对选择为用于当前CU的常规帧内预测模式进行编码。在下文中,提出了一种可以提高帧内预测模式的发信号效率的替选方法。提出的方法是基于用MIP模式替换常规模式的一个(例如,平面模式、DC模式或方向模式),或者将MIP模式添加为常规模式的一个。当在MIP模式与某个常规模式之间存在可能的冗余时,用MIP模式替换常规模式的一个可能会是有用的。在这种情况下,提出的方法可以提高帧内预测模式的发信号效率。
将示例性地给出在用MIP模式替换上述67个模式中的DC模式的情况下对编码块的帧内预测模式进行解码的方法的描述。
视频解码器可以使用MPM列表来确定编码块的intra_predictiton_mode[x0][y0]]。视频解码器可以解码MPM相关的语法元素,以确定intra_predictiton_mode[x0][y0]。当intra_predictiton_mode[x0][y0]的值为{0,2,...,66}的一个时,将编码块的帧内预测类型设置为常规帧内预测。当intra_predictiton_mode[x0][y0]的值为1(其最初是INTRA_DC的模式索引)时,视频解码器将编码块的帧内预测类型设置为MIP,并且解码指示用于对编码块编码的MIP预测模式的语法元素。
可以对与当前编码块邻近的左侧块使用帧内预测模式来配置包括例如6个MPM候选的MPM列表。根据左侧块的模式(左侧模式(Left))和上方块的模式(上方模式(Above))是否为方向模式,大致分为4种情况。当左侧模式和上方模式彼此不同,并且两个模式均为方向性模式时,可以根据左侧模式和上方模式的不同再包括2种情况,以生成MPM列表。在下面的表7中,Max是指左侧模式和上方模式之间的较大模式,而MIN是指左侧模式和上方模式之间的较小模式。
表7
Figure BDA0003450453820000261
注意,在表7中,MIP模式始终包括在MPM列表中。也就是说,六个MPM可以分为一个MIP和五个非MIP的MPM。因此,对于编码器来说,1)在当前块的帧内预测模式为MPM模式时,首先用信号通知当前块的帧内预测模式是否为MIP模式(例如,利用1位标志),并且2)在当前块的帧内预测模式不是MIP模式时,额外地用信号通知指示其他五个非MIP的MPM的一个的MPM索引会是有效的。在当前块的帧内预测模式不是任何MPM时,可以利用截断的二进制码对指示除六个MPM之外的其余61个非MPM的一个的语法元素进行编码。
虽然常规帧内预测模式可以与VVC的多参考线(MRL)和帧内子分区(ISP)一起应用,但只有在MRL索引为0的情况下(也就是说,使用第一行的参考样本)以及在不应用ISP的情况下,MIP模式才是可用的。然而,不管是否应用MRL和ISP,MIP模式都可以是可用的。
下面提供示例性帧内预测模式相关的语法的一部分。在下面的语法中,灰色的元素用于提供理解。
表8
Figure BDA0003450453820000262
可以利用包括intra_luma_mpm_flag、intra_luma_not_MIP_flag、intra_luma_mpm_idx、intra_mip_mode和intra_luma_mpm_remainder的语法元素来用信号通知亮度分量的编码块的帧内预测模式。
intra_luma_mpm_flag指示编码块的帧内预测模式是否为MPM模式。当intra_luma_mpm_flag不存在时,推断出intra_luma_mpm_flag等于1。intra_luma_not_MIP_flag指示编码块的帧内预测模式是否为MIP模式。当intra_luma_not_MIP_flag为1时,其指示出编码块的帧内预测模式不是MIP模式(也就是说,是常规帧内模式)。intra_mip_mode可以指定可用于当前编码块的大小的多个MIP模式中的一个MIP模式,并且可以用截断的二进制码进行编码。当intra_luma_mpm_flag不存在时,其推断出intra_luma_mpm_flag等于1。
intra_luma_mpm_idx指定五个非MIP的MPM中与编码块的帧内预测模式相同的一个MPM模式。intra_luma_mpm_remainder指定在非MPM中与编码块的帧内预测模式相同的一个非MPM模式。可以用截断的二进制码对intra_luma_mpm_remainder进行编码。
参考表8,当intra_luma_mpm_flag为1,并且MRL INDEX(索引)为0(即,intra_luma_ref_idx=0)时,视频解码器解析intra_luma_not_MIP_flag。当intra_luma_not_MIP_flag为0时,编码块的帧内预测类型为MIP,因此视频解码器解码intra_mip_mode以识别编码块中使用的MIP模式。当intra_luma_not_MIP_flag为1时,视频解码器配置由5个非MIP的MPM组成的MPM列表,并且解码指示MPM INDEX的intra_luma_mpm_idx。当intra_luma_mpm_flag为0时,解码intra_luma_mpm_remainder。
图9是示出根据本发明实施方案的对采取一些上述改进的视频数据解码的方法的流程图。
视频解码器可以从比特流解码指示视频数据的当前块的帧内预测类型的语法元素(S910)。帧内预测类型包括基于矩阵的帧内预测(MIP)和常规帧内预测。语法元素可以是指定为对于当前块的大小和形状所允许的多个MIP模式的一个的截断的二进制码。
视频解码器可以通过基于当前块的帧内预测类型选择性地执行MIP或常规帧内预测来生成当前块的预测块。
在通过执行常规帧内预测来生成当前块的预测块时,视频解码器可以执行以下操作(S920至S940)。视频解码器可以通过基于与当前块邻近的相邻块的常规帧内预测模式推导最可能模式(MPM)候选来配置当前块的MPM列表(S920),并且基于MPM列表来推导当前块的常规帧内预测模式(S930)。在基于相邻块的常规帧内预测模式来推导MPM候选中,当相邻块的帧内预测类型是基于矩阵的帧内预测时,视频解码器可以将相邻块的常规帧内预测模式设置为(视为)平面模式。解码器可以基于当前块的常规帧内预测模式来生成当前块的预测块(S940)。
在通过执行基于矩阵的帧内预测来生成当前块的预测块时,视频解码器可以执行以下操作(S921至S951)。为了确定当前块的基于矩阵的帧内预测模式,视频解码器可以从比特流解码指示当前块的基于矩阵的帧内预测模式的语法元素(S921)。视频解码器可以基于当前块的宽度和高度利用与当前块邻近的相邻样本来推导输入边界向量(S931),并且可以基于当前块的基于矩阵的帧内预测模式预定义的矩阵与输入边界向量之间的矩阵向量乘法来生成当前块的预测的样本(S941)。视频解码器可以通过基于预测的样本执行裁剪和线性插值来推导当前块的预测块(S951)。
为了利用与当前块邻近的相邻样本来推导输入边界向量,视频解码器根据当前块的宽度和高度来生成用与当前块邻近的相邻样本的值或来自相邻样本的下采样的值填充的初始边界向量,并且可以从初始边界向量去除DC分量,以生成要应用矩阵向量乘法的输入边界向量。例如,从初始边界向量去除DC分量可以是从初始边界向量中的每项减去第一项的值,或者包括从初始边界向量中的每项减去第一项的值。可以基于能够用比特深度表达的最大值的一半与初始边界向量的第一项之间的差来获得输入边界向量中的第一项,并且可以基于从初始边界向量中的每项减去第一项的值来获得输入边界向量的后续项。
为了生成初始边界向量,视频解码器可以从比特流解码语法元素,该语法元素指示从与当前块邻近的左侧相邻样本推导的初始边界向量的第一项和从与当前块邻近的上方相邻样本推导的初始边界向量的第二项的级联顺序。视频解码器可以通过根据级联顺序级联第一项和第二项来生成初始边界向量。
为了基于预测的样本来推导当前块的预测块,视频解码器可以将预测的样本分配到预测块中的位置,并且对预测的样本、与当前块邻近的左侧相邻样本和与当前块邻近的上方相邻样本执行水平插值和竖直插值,以生成预测块中未分配预测的样本的位置的预测的样本值。可以在竖直插值之前执行水平插值。
在当前块是由亮度分量组成的亮度块并且将MIP应用于亮度块时,如果要将亮度块的帧内预测模式用作与亮度块相对应的色度块的帧内预测模式,则可以将色度块的帧内预测模式设置为平面模式。
应当理解的是,可以以许多不同的方式实现上述示例性实施方案。在一个或更多个样本中描述的功能或方法可以实现为硬件、软件、或者其任何组合。应当理解的是,本文中描述的功能组件已被标记为“单元”,以进一步强调其实施独立性。
本发明中描述的各种功能或方法可以用存储在非易失性记录介质中的指令来实现,所述指令可以由一个或更多个处理器读取和执行。非易失性记录介质包括,例如,所有类型的记录器件,其中数据以计算机***可读的形式存储。例如,非易失性记录介质包括存储介质,例如可擦除可编程只读存储器(EPROM)、闪存驱动器,光盘驱动器、磁性硬盘驱动器和固态驱动器(SSD)。
尽管出于说明的目的已经描述了本发明的示例性实施方案,但是本领域的技术人员应当理解,在不脱离本发明思想和范围的情况下,各种修改和改变是可能的。为了简洁和清楚起见,已经描述了示例性实施方案。相应地,普通技术人员应当理解,实施方案的范围不受以上明确描述的实施方案限制,而是包括在权利要求书及其等同形式内。
相关申请的交叉引用
本申请要求2019年7月8日在韩国提交的专利申请No.10-2019-0082130、2019年8月21日在韩国提交的专利申请No.10-2019-0102494、2019年8月21日在韩国提交的专利申请No.10-2019-010249、2019年10月6日在韩国提交的专利申请No.10-2019-0123492以及2020年7月8日在韩国提交的专利申请No.10-2020-0083979的优先权,其全部内容通过引用结合于本文中。

Claims (20)

1.一种对视频数据解码的方法,包括:
从比特流解码指示视频数据的当前块的帧内预测类型的语法元素,所述帧内预测类型由基于矩阵的帧内预测(MIP)和常规帧内预测指示;以及
通过基于由语法元素指示的当前块的帧内预测类型选择性地执行MIP或常规帧内预测来生成当前块的预测块,
其中,通过执行MIP来生成当前块的预测块包括:
从比特流解码指示当前块的MIP模式的语法元素,所述语法元素表示为指定对于当前块的宽度和高度所允许的多个MIP预测模式的一个的截断的二进制码;
基于当前块的宽度和高度,利用与当前块邻近的相邻样本来推导输入边界向量;
基于输入边界向量与为MIP模式预定义的矩阵之间的矩阵向量乘法来生成当前块的预测的样本;以及
基于预测的样本来推导当前块的预测块。
2.根据权利要求1所述的方法,其中,利用与当前块邻近的相邻样本来推导输入边界向量包括:
根据当前块的宽度和高度来生成用与当前块邻近的相邻样本或来自相邻样本的下采样的值填充的初始边界向量;以及
通过从初始边界向量去除DC分量来生成要应用矩阵向量乘法的输入边界向量。
3.根据权利要求2所述的方法,其中,从初始边界向量去除DC分量包括:
从初始边界向量的每项减去第一项的值。
4.根据权利要求2所述的方法,其中,基于允许以比特深度表达的最大值的一半与初始边界向量的第一项之间的差来获得输入边界向量的第一项,
其中,基于从初始边界向量的每项减去第一项的值来获得输入边界向量的后续项。
5.根据权利要求2所述的方法,其中,生成初始边界向量包括:
从比特流解码语法元素,所述语法元素指示了从与当前块邻近的左侧相邻样本推导的初始边界向量的第一项和从与当前块邻近的上方相邻样本推导的初始边界向量的第二项的级联顺序;以及
根据级联顺序来级联第一项和第二项,从而生成初始边界向量。
6.根据权利要求1所述的方法,其中,基于预测的样本来推导当前块的预测块包括:
将预测的样本分配至预测块中的位置;以及
通过对预测的样本、与当前块邻近的左侧相邻样本和与当前块邻近的上方相邻样本执行水平插值和竖直插值来生成预测块中未分配预测的样本的位置的预测的样本值。
7.根据权利要求6所述的方法,其中,在竖直插值之前执行水平插值。
8.根据权利要求6所述的方法,其中,在执行水平插值和竖直插值之前,对预测的样本执行裁剪,使得预测的样本位于0与2bitDepth-1之间。
9.根据权利要求1所述的方法,其中,当前块是由亮度分量组成的亮度块,
其中,当对亮度块执行MIP,并且将亮度块的帧内预测模式用作与亮度块相对应的色度块的帧内预测模式时,将色度块的帧内预测模式设置为平面模式。
10.根据权利要求1所述的方法,其中,通过执行常规帧内预测来生成当前块的预测块包括:
基于与当前块邻近的相邻块的每个的常规帧内预测模式来推导最可能模式(MPM)候选,从而配置当前块的MPM列表;以及
基于MPM列表来推导当前块的常规帧内预测模式,
其中,当相邻块的帧内预测类型是MIP时,将相邻块的常规帧内预测模式视为平面模式。
11.一种用于对视频数据解码的装置,包括:
解码器,其配置为从比特流解码指示视频数据的当前块的帧内预测类型的语法元素,所述帧内预测类型由基于矩阵的帧内预测(MIP)和常规帧内预测指示;以及
帧内预测器,其配置为通过基于由语法元素指示的当前块的帧内预测类型选择性地执行MIP或常规帧内预测来生成当前块的预测块,
其中,在通过执行MIP来生成当前块的预测块时,所述帧内预测器配置为:
从比特流解码指示当前块的MIP模式的语法元素,所述语法元素表示为指定对于当前块的宽度和高度所允许的多个MIP预测模式的一个的截断的二进制码;
基于当前块的宽度和高度,利用与当前块邻近的相邻样本来推导输入边界向量;
基于输入边界向量与为MIP模式预定义的矩阵之间的矩阵向量乘法来生成当前块的预测的样本;以及
基于预测的样本来推导当前块的预测块。
12.根据权利要求11所述的装置,其中,利用与当前块邻近的相邻样本来推导输入边界向量包括:
根据当前块的宽度和高度来生成用与当前块邻近的相邻样本或来自相邻样本的下采样的值填充的初始边界向量;以及
通过从初始边界向量去除DC分量来生成要应用矩阵向量乘法的输入边界向量。
13.根据权利要求12所述的装置,其中,从初始边界向量去除DC分量包括:
从初始边界向量的每项减去第一项的值。
14.根据权利要求12所述的装置,其中,基于允许以比特深度表达的最大值的一半与初始边界向量的第一项之间的差来获得输入边界向量的第一项,
其中,基于从初始边界向量的每项减去第一项的值来获得输入边界向量的后续项。
15.根据权利要求12所述的装置,其中,生成初始边界向量包括:
从比特流解码语法元素,所述语法元素指示了从与当前块邻近的左侧相邻样本推导的初始边界向量的第一项和从与当前块邻近的上方相邻样本推导的初始边界向量的第二项的级联顺序;以及
根据级联顺序来级联第一项和第二项,从而生成初始边界向量。
16.根据权利要求11所述的装置,其中,基于预测的样本来推导当前块的预测块包括:
将预测的样本分配至预测块中的位置;以及
通过对预测的样本、与当前块邻近的左侧相邻样本以及与当前块邻近的上方相邻样本执行水平插值和竖直插值来生成预测块中未分配预测的样本的位置的预测的样本值。
17.根据权利要求16所述的装置,其中,在竖直插值之前执行水平插值。
18.根据权利要求16所述的装置,其中,在执行水平插值和竖直插值之前,对预测的样本执行裁剪,使得预测的样本位于0与2bitDepth-1之间。
19.根据权利要求11所述的装置,其中,当前块是由亮度分量组成的亮度块,
其中,当对亮度块执行MIP,并且将亮度块的帧内预测模式用作与亮度块相对应的色度块的帧内预测模式时,将色度块的帧内预测模式设置为平面模式。
20.根据权利要求11所述的装置,其中,在通过执行常规帧内预测来生成当前块的预测块时,所述帧内预测器配置为:
基于与当前块邻近的相邻块的常规帧内预测模式来推导最可能模式(MPM)候选,从而配置当前块的MPM列表;以及
基于MPM列表来推导当前块的常规帧内预测模式,
其中,当相邻块的帧内预测类型是MIP时,将相邻块的常规帧内预测模式视为平面模式。
CN202080048546.8A 2019-07-08 2020-07-08 用于视频数据的帧内预测编码的方法和装置 Pending CN114128294A (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
KR20190082130 2019-07-08
KR10-2019-0082130 2019-07-08
KR10-2019-0102495 2019-08-21
KR10-2019-0102494 2019-08-21
KR20190102495 2019-08-21
KR20190102494 2019-08-21
KR20190123492 2019-10-06
KR10-2019-0123492 2019-10-06
PCT/KR2020/008910 WO2021006612A1 (ko) 2019-07-08 2020-07-08 동영상 데이터의 인트라 예측 코딩을 위한 방법 및 장치

Publications (1)

Publication Number Publication Date
CN114128294A true CN114128294A (zh) 2022-03-01

Family

ID=74236872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080048546.8A Pending CN114128294A (zh) 2019-07-08 2020-07-08 用于视频数据的帧内预测编码的方法和装置

Country Status (3)

Country Link
EP (1) EP3993412A4 (zh)
KR (1) KR20210006305A (zh)
CN (1) CN114128294A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115866247A (zh) * 2023-03-02 2023-03-28 中南大学 基于mae预训练模型的视频编码帧内预测方法和***
CN116095316A (zh) * 2023-03-17 2023-05-09 北京中星微人工智能芯片技术有限公司 视频图像处理方法及装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4366304A1 (en) * 2021-06-30 2024-05-08 LG Electronics Inc. Intra prediction method and device using mpm list

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180075422A (ko) * 2016-12-26 2018-07-04 에스케이텔레콤 주식회사 인트라 예측을 이용한 영상의 부호화 및 복호화
US20190028701A1 (en) * 2017-07-24 2019-01-24 Arris Enterprises Llc Intra mode jvet coding
US20190104319A1 (en) * 2017-10-03 2019-04-04 Qualcomm Incorporated Coding affine prediction motion information for video coding
US10284844B1 (en) * 2018-07-02 2019-05-07 Tencent America LLC Method and apparatus for video coding
KR20190062300A (ko) * 2017-11-28 2019-06-05 한국전자통신연구원 양방향 인트라 예측 방법 및 장치
KR20190069613A (ko) * 2011-02-10 2019-06-19 벨로스 미디어 인터내셔널 리미티드 화상 처리 장치 및 화상 처리 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190069613A (ko) * 2011-02-10 2019-06-19 벨로스 미디어 인터내셔널 리미티드 화상 처리 장치 및 화상 처리 방법
KR20180075422A (ko) * 2016-12-26 2018-07-04 에스케이텔레콤 주식회사 인트라 예측을 이용한 영상의 부호화 및 복호화
US20190028701A1 (en) * 2017-07-24 2019-01-24 Arris Enterprises Llc Intra mode jvet coding
US20190104319A1 (en) * 2017-10-03 2019-04-04 Qualcomm Incorporated Coding affine prediction motion information for video coding
KR20190062300A (ko) * 2017-11-28 2019-06-05 한국전자통신연구원 양방향 인트라 예측 방법 및 장치
US10284844B1 (en) * 2018-07-02 2019-05-07 Tencent America LLC Method and apparatus for video coding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FÉLIX HENRY: "Short-Distance Intra Prediction of Screen Content in Versatile Video Coding (VVC)", IEEE SIGNAL PROCESSING LETTERS, vol. 25, no. 11, 30 November 2018 (2018-11-30), XP055669699, DOI: 10.1109/LSP.2018.2871872 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115866247A (zh) * 2023-03-02 2023-03-28 中南大学 基于mae预训练模型的视频编码帧内预测方法和***
CN115866247B (zh) * 2023-03-02 2023-05-09 中南大学 基于mae预训练模型的视频编码帧内预测方法和***
CN116095316A (zh) * 2023-03-17 2023-05-09 北京中星微人工智能芯片技术有限公司 视频图像处理方法及装置、电子设备及存储介质
CN116095316B (zh) * 2023-03-17 2023-06-23 北京中星微人工智能芯片技术有限公司 视频图像处理方法及装置、电子设备及存储介质

Also Published As

Publication number Publication date
KR20210006305A (ko) 2021-01-18
EP3993412A4 (en) 2023-03-08
EP3993412A1 (en) 2022-05-04

Similar Documents

Publication Publication Date Title
US11909962B2 (en) Method and apparatus for intra-prediction coding of video data involving matrix-based intra-prediction
US20230141470A1 (en) Method and apparatus for intra-prediction coding of video data
CN114128294A (zh) 用于视频数据的帧内预测编码的方法和装置
US20240163444A1 (en) Method and apparatus for intra-prediction coding of video data
KR20210018137A (ko) 동영상 데이터의 인트라 예측 코딩을 위한 방법 및 장치
US20230130958A1 (en) Video encoding and decoding using adaptive color transform
CN113841403A (zh) 影像解码装置中使用的逆量化装置和方法
EP3985978A1 (en) Method and apparatus for intra prediction coding of video data
US20240007645A1 (en) Video encoding and decoding method using adaptive reference pixel selection
US20240007620A1 (en) Image encoding and decoding method using adaptive alternative mode
CN114270842A (zh) 利用差分编码的视频编码和解码
CN116458160A (zh) 利用自适应替代模式的影像编码和解码方法
KR20230137232A (ko) 컨텍스트 모델 초기화를 사용하는 비디오 코딩방법 및 장치
KR20240076678A (ko) 인트라 서브분할 예측과 변환생략을 이용하는 비디오 코딩방법 및 장치
CN116648905A (zh) 利用自适应参考像素选择的影像编码和解码方法
KR20220077893A (ko) 블록 기반 딥러닝 모델을 이용하는 비디오 코덱
CN114762328A (zh) 利用差分调制的视频编码和解码

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination