CN109716772A - 用于视频译码的变换选择 - Google Patents

用于视频译码的变换选择 Download PDF

Info

Publication number
CN109716772A
CN109716772A CN201780058149.7A CN201780058149A CN109716772A CN 109716772 A CN109716772 A CN 109716772A CN 201780058149 A CN201780058149 A CN 201780058149A CN 109716772 A CN109716772 A CN 109716772A
Authority
CN
China
Prior art keywords
block
transformation
characteristic
current
decoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780058149.7A
Other languages
English (en)
Other versions
CN109716772B (zh
Inventor
赵欣
张莉
陈建乐
瓦迪姆·谢廖金
李翔
马尔塔·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN109716772A publication Critical patent/CN109716772A/zh
Application granted granted Critical
Publication of CN109716772B publication Critical patent/CN109716772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • H04N19/45Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder performing compensation of the inverse transform mismatch, e.g. Inverse Discrete Cosine Transform [IDCT] mismatch
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于视频译码的装置经配置以:确定当前图片的当前块的预测性块的特性;基于所述特性识别用于对所述当前块进行解码的变换;逆变换系数以确定所述当前块的残余块;以及将所述残余块相加到所述当前块的预测性块以对所述当前块进行解码。

Description

用于视频译码的变换选择
本申请案要求2016年10月1日提交的第62/403,112号美国临时专利申请案的权益,所述申请案的全部内容在此以引用的方式并入本文中。
技术领域
本发明涉及视频编码和视频解码。
背景技术
数字视频能力可以并入到多种多样的装置中,包含数字电视、数字直播***、无线广播***、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式发射装置及其类似者。数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分、高级视频译码(AVC)定义的标准、最近已完成的高效率视频译码(HEVC)标准及此些标准的扩展中所描述的技术。视频装置通过实施此类视频压缩技术可以更有效地发射、接收、编码、解码和/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测来减少或移除视频序列中固有的冗余。对于基于块的视频译码,可将视频切片(即,视频帧或视频帧的部分)分割成若干视频块(其也可被称作树块)、译码单元(CU)及/或译码节点。使用关于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的帧间译码(P或B)切片中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测,或关于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
空间或时间预测产生用于将译码块的预测块。残余数据表示待译码原始块与预测块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残余数据来编码。经帧内译码块是根据帧内译码模式及残余数据来编码的。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,可接着量化所述残余变换系数。可扫描初始按二维阵列排列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以实现更多压缩。
发明内容
本发明描述与确定用于残余数据的译码的变换有关的技术。更具体地,本发明描述用于在视频编码器和视频解码器处导出某些变换信息以使得用以对残余块进行译码的变换可用极少或在一些情况下不用显式信令来用信号表示的技术,因此节省了带宽。
在一个实例中,一种用于对视频数据进行解码的方法包含:确定当前图片的当前块的预测性块的特性;基于所述特性识别用于对所述当前块进行解码的变换;逆变换变换系数以确定所述当前块的残余块;以及将所述残余块相加到所述当前块的预测性块以对所述当前块进行解码。
在另一实例中,一种用于对视频数据进行解码的装置包含:存储器,其经配置以存储所述视频数据;以及一或多个处理器,其经配置以:确定所述视频数据的当前图片的当前块的预测性块的特性;基于所述特性识别用于对所述当前块进行解码的变换;逆变换变换系数的集合以确定所述当前块的残余块;以及将所述残余块相加到所述当前块的预测性块以对所述当前块进行解码。
在另一实例中,一种用于对视频数据进行解码的设备包含:用于确定当前图片的当前块的预测性块的特性的装置;用于基于所述特性识别用于对所述当前块进行解码的变换的装置;用于逆变换变换系数以确定所述当前块的残余块的装置;以及用于将所述残余块相加到所述当前块的预测性块以对所述当前块进行解码的装置。
在另一实例中,一种用于存储指令的计算机可读媒体,所述指令在由一或多个处理器执行时致使所述一或多个处理器:确定当前图片的当前块的预测性块的特性;基于所述特性识别用于对所述当前块进行解码的变换;逆变换变换系数的集合以确定所述当前块的残余块;以及将所述残余块相加到所述当前块的预测性块以对所述当前块进行解码。
在附图和以下描述中阐述本发明的一或多个方面的细节。本发明中所描述的技术的其它特征、目标及优点将从描述及图式且此权利要求书而显而易见。
附图说明
图1是说明可利用本发明中描述的技术的实例视频编码和解码***的框图。
图2A-2E是说明变换类型的实例的表。
图3是说明基于高效视频译码(HEVC)中的残余四叉树的变换方案的实例的概念图。
图4是说明基于HEVC中的译码群组的系数扫描的实例的概念图。
图5示出二次变换的实例。
图6示出KLT过程的流程图的实例。
图7示出可由视频解码器30(或视频编码器20)执行的模板匹配过程的实例。
图8是说明可实施本发明中描述的技术的实例视频编码器的框图。
图9是说明可实施本发明中所描述的技术的实例视频解码器的框图。
图10是说明本发明中所描述的实例视频解码技术的流程图。
具体实施方式
本发明描述与确定用于残余数据译码的一或多个变换有关的技术。更具体地,本发明描述用于在视频编码器和视频解码器两者处导出某些变换信息以使得用以对残余块进行代码的变换可用极少或在一些情况下不用显式信令来用信号表示,因此潜在地减少与信令变换相关联的信令开销。本发明的技术可以与任何现有视频编解码器结合使用,例如HEVC(高效视频译码),或可以是用于在未来视频译码标准中使用的高效译码工具,例如H.266标准及其扩展。
可参考视频译码器来描述本发明中的各种技术,其既定为可指代视频编码器或视频解码器的通用术语。除非以其它方式明确陈述,否则不应假定相对于视频编码器或视频解码器描述的技术不可由视频编码器或视频解码器中的另一者来执行。举例来说,在许多情况下,视频解码器执行与视频编码器相同或有时互逆的译码技术,以便解码经编码视频数据。在许多情况下,视频编码器还包含视频解码环路,且因此视频编码器执行视频解码作为编码视频数据的一部分。因此,除非另外说明,否则本发明中相对于视频解码器所描述的技术还可由视频编码器执行,且反之亦然。
本发明也可以使用例如当前块、当前图片等用语。在本发明的上下文中,用语当前意图识别相较于例如先前或已经译码的块或图片或待译码块或图片的当前正被译码的块或图片。
图1为说明可利用本发明中所描述的技术的实例视频编码和解码***10的框图。如图1中所示,***10包含源装置12,其产生稍后将由目的地装置14解码的经编码视频数据。源装置12和目的地装置14可包括广泛范围的装置,包含桌上型计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手持机、所谓的“智能”垫、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式发射装置,或类似物。在一些情况下,可装备源装置12和目的地装置14以用于无线通信。
目的地装置14可经由链路16接收将解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,链路16可包括通信媒体,其用于使得源装置12能够直接将经编码视频数据实时地发射到目的地装置14。经编码视频数据可根据通信标准(例如,无线通信协议)来调制,且被发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理发射线。通信媒体可形成基于包的网络(例如,局域网、广域网或全球网络,例如因特网)的一部分。通信媒体可包含路由器、交换机、基站或可用于促进从源装置12到目的地装置14的通信的任何其它设备。
在另一实例中,经编码数据可从输出接口22输出到存储装置26。类似地,经编码数据可通过输入接口从存储装置26存取。存储装置26可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器,或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中,存储装置26可对应于文件服务器或可保持由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置26存取所存储的视频数据。文件服务器可为能够存储经编码视频数据和将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可经由包含因特网连接的任何标准数据连接来存取经编码的视频数据。此可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置26的发射可为流式传输发射、下载发射或两者的组合。
本发明的技术未必限于无线应用或设置。所述技术可应用于视频译码以支持多种多媒体应用中的任一者,例如空中电视广播、有线电视发射、***发射、流式视频发射(例如,经由因特网)、编码数字视频以存储于数据存储媒体上、解码存储于数据存储媒体上的数字视频,或其它应用。在一些实例中,***10可经配置以支持单向或双向视频发射,以支持例如视频串流、视频重放、视频广播和/或视频电话的应用。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。在一些状况下,输出接口22可包含调制器/解调器(调制解调器)及/或发射器。在源装置12中,视频源18可包含例如视频捕获装置的源,例如摄像机、含有先前所捕获视频的视频存档、用以从视频内容提供者接收视频的视频馈入接口,和/或用于产生计算机图形数据作为源视频的计算机图形***,或此类源的组合。作为一个实例,如果视频源18是摄像机,那么源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而,本发明中所描述的技术一般来说可适用于视频译码,且可应用于无线和/或有线应用。
经捕获、预先捕获或计算机产生的视频可由视频编码器20编码。可经由源装置12的输出接口22将经编码视频数据直接发射到目的地装置14。经编码视频数据还可(或替代地)存储在存储装置26上以供稍后由目的地装置14或其它装置存取,用于解码和/或回放。
目的地装置14包含输入接口28、视频解码器30及显示装置32。在一些情况下,输入接口28可包含接收器及/或调制解调器。目的地装置14的输入接口28经由链路16接收经编码视频数据。经由链路16传达或提供于存储装置26上的经编码视频数据可包含由视频编码器20产生以供视频解码器(例如视频解码器30)用于解码视频数据的多种语法元素。此类语法元素可与在通信媒体上发射、存储于存储媒体上或存储文件服务器的经编码视频数据包含在一起。
显示装置32可与目的地装置14集成或在目的地装置14外部。在一些实例中,目的地装置14可包含集成显示装置,并且还经配置以与外部显示装置介接。在其它实例中,目的地装置14可为显示装置。一般来说,显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一个,例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20和视频解码器30可根据视频压缩标准操作,例如最近定案的高效视频译码(HEVC)标准。视频编码器20和视频解码器30可另外根据HEVC扩展例如范围扩展、多视图扩展(MV-HEVC)或已由关于视频译码的联合合作小组(JCT-VC)以及关于3D视频译码扩展开发(JCT-3V)的ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的联合合作小组开发的可缩放扩展(SHVC)操作。
视频编码器20和视频解码器30也可以根据其它专有或行业标准(例如ITU-TH.264标准,替代地被称为ISO/IEC MPEG-4,第10部分,高级视频译码(AVC),或此类标准的扩展,例如可缩放视频译码(SVC)和多视图视频译码(MVC)扩展)操作。然而,本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含ITU-T H.261、ISO/IECMPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263和ISO/IECMPEG-4Visual。
ITU-T VCEG(Q6/16)和ISO/IEC MPEG(JTC 1/SC 29/WG 11)现在正在研究对具有显著超出当前HEVC标准(包含其用于屏幕内容译码和高动态范围译码的当前扩展和近期扩展)的压缩能力的压缩能力的未来视频译码技术的标准化的潜在需要。团体在已知为联合视频探索小组(JVET)的联合协作努力中一起从事此探索活动以评估由其在此领域的专家提出的压缩技术设计。JVET在2015年10月19日到21日期间首次会面。参考软件的一个版本(即联合探索模型2(JEM2))可从以下下载:https://jvet.hhi.fraunhofer.de/svn/svn_HMJEMSoftware/tags/HM-16.6-JEM-2.0/。用于JEM2的算法描述于J.Chen、E.Alshina、G.J.Sullivan、J.-R.Ohm、J.Boyce的“联合探索模型2的算法描述(Algorithm descriptionof Joint Exploration Test Model 2)”(JVET-B1001,圣地亚哥,2016年3月)中,其描述以引用的方式并入本文中。参考软件的另一版本(即,联合探索模型3(JEM3))可从以下下载:https://jvet.hhi.fraunhofer.de/svn/svn_HMJEMSoftware/tags/HM-16.6-JEM-3.0/。用于JEM3的算法描述也可被称作JVET-C1001并且以引用的方式并入本文中。
为了易于解释,本发明的技术可利用HEVC术语。然而,不应假设本发明的技术受限于HEVC,且实际上应明确地设想本发明的技术可以在HEVC的后续标准(例如H.266)及其扩展中实施。
尽管图1中未图示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器及解码器集成,且可包含适当多路复用器-多路分用器单元或其它硬件和软件以处置共同数据流或单独数据流中的音频和视频两者的编码。在一些实例中,如果适用的话,多路复用器-多路分用器单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
视频编码器20和视频解码器30各自可实施为多种合适的编码器电路或解码器电路中的任一个,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分以软件实施所述技术时,装置可将用于所述软件的指令存储于合适的非暂时性计算机可读媒体中并使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可以包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可以集成为相应装置中的组合编码器/解码器(编解码器)的部分。
在HEVC及其它视频译码规范中,视频序列通常包含一系列图片。图片也可被称为“帧”。在一个实例方法中,图片可包含三个样本阵列,标示为SL、SCb和SCr。在此实例方法中,SL为明度样本的二维阵列(即,块)。SCb是Cb色度样本的二维阵列。SCr是Cr色度样本的二维阵列。色度样本在本文中还可称为“色度(chroma)”样本。在其它情况下,图片可为单色的且可仅包含明度样本阵列。
为了产生图片的经编码的表示,视频编码器20可以产生一组译码树单元(CTU)。CTU中的每一个可包括明度样本的译码树块、色度样本的两个对应的译码树块,以及用于对译码树块的样本进行译码的语法结构。在单色图片或具有三个单独颜色平面的图片中,CTU可包括单个译码树块及用于对所述译码树块的样本进行译码的语法结构。译码树块可为样本的NxN块。CTU也可以被称为“树块”或“最大译码单元(LCU)”。HEVC的CTU可以广泛地类似于例如H.264/AVC等其它标准的宏块。然而,CTU未必限于特定大小,并且可以包含一或多个译码单元(CU)。切片可包含按光栅扫描次序连续排序的整数数目的CTU。
为了产生经译码CTU,视频编码器20可在CTU的译码树块上以递归方式执行四叉树分割,以将译码树块划分为译码块,因此命名为“译码树单元”。译码块可为样本的NxN块。CU可包括具有明度样本阵列、Cb样本阵列和Cr样本阵列的图片的明度样本的译码块以及色度样本的两个对应的译码块,以及用以对译码块的样本进行译码的语法结构。在单色图片或具有三个单独颜色平面的图片中,CU可包括单个译码块和用以对译码块的样本进行译码的语法结构。
视频编码器20可将CU的译码块分割为一或多个预测块。预测块是对其应用相同预测的样本的矩形(即,正方形或非正方形)块。CU的预测单元(PU)可包括明度样本的预测块、色度样本的两个对应预测块和用以预测预测块的语法结构。在单色图片或具有三个单独颜色平面的图片中,PU可包括单个预测块和用于预测预测块的语法结构。视频编码器20可以产生用于CU的每个PU的明度预测块、Cb预测块以及Cr预测块的预测性明度块、Cb块以及Cr块。
视频编码器20可使用帧内预测或帧间预测以产生PU的预测块。如果视频编码器20使用帧内预测以产生PU的预测块,那么视频编码器20可基于与PU相关联的图片的经解码样本产生PU的预测块。如果视频编码器20使用帧间预测以产生PU的预测性块,那么视频编码器20可基于除与PU相关联的图片外的一或多个图片的经解码样本而产生PU的预测性块。
在视频编码器20产生CU的一或多个PU的预测性明度、Cb及Cr块之后,视频编码器20可产生CU的明度残余块。CU的明度残余块中的每一样本指示CU的预测性明度块中的一者中的明度样本与CU的原始明度译码块中的对应样本之间的差异。另外,视频编码器20可以产生CU的Cb残余块。CU的Cb残余块中的每一样本可以指示CU的预测性Cb块中的一者中的Cb样本与CU的原始Cb译码块中对应的样本之间的差异。视频编码器20还可产生CU的Cr残余块。CU的Cr残余块中的每一样本可指示CU的预测性Cr块中的一者中的Cr样本与CU的原始Cr译码块中的对应样本之间的差异。
此外,视频编码器20可使用四叉树分割将CU的明度、Cb及Cr残余块分解成一或多个明度、Cb及Cr变换块。变换块是应用同一变换的样本的矩形(例如,正方形或非正方形)块。CU的变换单元(TU)可包括明度样本的变换块、色度样本的两个对应变换块和用以对变换块样本进行变换的语法结构。因此,CU的每一TU可与明度变换块、Cb变换块及Cr变换块相关。与TU相关联的明度变换块可以是CU的明度残余块的子块。Cb变换块可为CU的Cb残余块的子块。Cr变换块可为CU的Cr残余块的子块。在单色图片或具有三个单独颜色平面的图片中,TU可包括单个变换块和用于对变换块的样本进行变换的语法结构。
视频编码器20可以将一或多个变换应用到TU的明度变换块从而为TU产生明度系数块。系数块可为变换系数的二维阵列。变换系数可为标量。视频编码器20可将一或多个变换应用至TU的Cb变换块以产生TU的Cb系数块。视频编码器20可将一或多个变换应用至TU的Cr变换块以产生TU的Cr系数块。
在产生系数块(例如,明度系数块、Cb系数块或Cr系数块)之后,视频编码器20可以量化系数块。量化总体上是指对变换系数进行量化以可能减少用以表示变换系数的数据的量从而提供进一步压缩的过程。在视频编码器20量化系数块之后,视频编码器20可对指示经量化变换系数的语法元素进行熵编码。举例来说,视频编码器20可对指示经量化变换系数的语法元素执行上下文自适应二进制算术译码(CABAC)。
视频编码器20可输出包含形成经译码图片及相关联数据的表示的位序列的位流。位流可包括网络抽象层(NAL)单元的序列。NAL单元是含有NAL单元中的数据类型的指示及含有所述数据的呈按需要穿插有模拟阻止位的原始字节序列有效负载(RBSP)的形式的字节的语法结构。NAL单元中的每一者包含NAL单元标头,且囊封RBSP。NAL单元标头可包含指示NAL单元类型码的语法元素。由NAL单元的NAL单元标头指定的NAL单元类型码指示NAL单元的类型。RBSP可为含有囊封在NAL单元内的整数数目个字节的语法结构。在一些情况下,RBSP包含零个位。
不同类型的NAL单元可囊封不同类型的RBSP。举例来说,第一类型的NAL单元可囊封PPS的RBSP,第二类型的NAL单元可囊封经译码切片的RBSP,第三类型的NAL单元可囊封SEI消息的RBSP等等。囊封视频译码数据的RBSP(与参数集及SEI消息的RBSP相反)的NAL单元可被称作VCL NAL单元。
视频解码器30可接收由视频编码器20产生的位流。另外,视频解码器30可剖析位流以从位流获得语法元素。视频解码器30可至少部分地基于从位流获得的语法元素重构视频数据的图片。重构视频数据到方法可大体上与由视频编码器20执行的方法互逆。另外,视频解码器30可逆量化与当前CU的TU相关联的系数块。视频解码器30可对系数块执行逆变换以重构与当前CU的TU相关联的变换块。通过将用于当前CU的PU的预测性块的样本增加到当前CU的TU的变换块的对应的样本上,视频解码器30可以重构当前CU的译码块。通过重构用于图片的每一CU的译码块,视频解码器30可重构所述图片。
以下是离散正弦和余弦变换的描述。视频编码器20和视频解码器可分别使用变换和逆变换以对残余视频数据进行译码。变换指示导出输入信号的替代的表示的过程。举例来说,变换将值从像素域转换到频域(例如,视频编码中)或从频域转换到像素域(例如,视频解码中)。给定N点向量x=[x0,x1,…,xN-1]T和给定向量的集合{Φ01,…,ΦM-1},x可使用Φ01,…,ΦM-1的线性组合来近似或确切地表示,可如下公式化,
其中可为x的近似或等效,向量f=[f0,f1,f2,..,fM-1]称为变换系数向量,且{Φ01,…,ΦM-1}是变换基数向量。
在视频译码的场景中,变换系数是粗略地非相关且稀疏的,即,输入向量x的能量仅在若干变换系数上是紧密的,并且剩余的大部分变换系数通常接近0。举例来说,当视频编码器将变换块变换到系数块时,系数块中的非零系数值倾向于在系数块的左上角分组在一起,并且大部分的其它系数值是零。分组在系数块的左上角附近的非零系数反映低频分量,而系数块的右下角附近的倾向于零的系数值反映高频分量。
给定特定输入数据,就能量压缩而言最佳变换是所谓的卡忽南-洛维变换(Karhunen-Loeve transform,KLT),其使用输入数据的协方差矩阵的本征向量作为变换基数向量。因此,KLT实际上是数据依赖性变换且并不具有一般数学公式。然而,在某些假设之下,例如,输入数据形成第一次序静止马尔可夫过程,在文献中已经证实对应的KLT实际上是单一变换的正弦系列的成员,其描述于Jain,A.K.的单一变换的正弦系列(A sinusoidalfamily of unitary transforms)中,IEEE模式分析和机器智能汇刊,1,356,1979。单一变换的正弦系列指示使用如下用公式表示的变换基数向量的变换:
Φm(k)=A·eikθ+B·e-ikθ
其中e是近似地等于2.71828的自然对数的底数,A、B和θ一般来说是复数,并且取决于m的值。
包含离散傅立叶、余弦、正弦和KLT(用于一级静止马尔可夫过程)的若干众所周知的变换是单一变换的此正弦系列的成员。根据S.A.Martucci的“对称卷积以及离散正弦和余弦变换(Symmetric convolution and the discrete sine and cosine transforms)”,IEEE信号处理汇刊SP-42,1038-1051(1994),完整离散余弦变换(DCT)和离散正弦变换(DST)系列包含基于不同类型的16个变换,即,A、B和θ的不同值,并且在下文中给出不同类型的DCT和DST的完整定义。
假定输入N点向量表示为x=[x0,x1,…,xN-1]T,且其通过与一矩阵相乘而变换为表示为y=[y0,y1,…,yN-1]T的另一N点变换系数向量,此过程可根据以下变换公式中的一者来进一步说明,其中k的范围是从0至N-1(包含性):
DCT类型-I(DCT-1):
其中
DCT类型-II(DCT-2):
其中
DCT类型-III(DCT-3):
其中
DCT类型-IV(DCT-4):
DCT类型-V(DCT-5):
其中
DCT类型-VI(DCT-6):
其中DCT类型-VII(DCT-7):
其中DCT类型-VIII(DCT-8):
DST类型-I(DST-1):
DST类型-II(DST-2):
其中
DST类型-III(DST-3):
其中
DST类型-IV(DST-4):
DST类型-V(DST-5):
DST类型-VI(DST-6):
DST类型-VII(DST-7):
DST类型-VIII(DST-8):
其中
上文提供不同DCT和DST类型的实例,最重要的是存在16个变换类型。变换类型由变换基数函数的数学公式指定。变换类型和变换大小不应被混淆。变换类型是指基数函数,而变换大小是指变换的大小。举例来说,4点DST-VII和8点DST-VII具有同一变换类型,无论N的值如何(例如,4点或8点)。
不失一般性,所有上述变换类型可以使用下文的一般化的公式表示:
其中T是由一个特定变换的定义指定的变换矩阵,例如,DCT类型I~DCT类型VIII,或DST类型I~DST类型VIII,以及T的行向量,例如,[Ti,0,Ti,1,Ti,2,…,Ti,N-1]是第i变换基数向量。应用在N点输入向量上的变换被称作N点变换。
还应注意,应用在1D输入数据x上的上述变换公式可以如下的矩阵乘法形式表示:
y=T·x
其中T指示变换矩阵,x指示输入数据向量,并且y指示输出变换系数向量。
举例来说,视频编码器可执行矩阵乘法y=T·x以产生变换系数向量。视频解码器可执行逆矩阵乘法以从变换系数向量中产生变换向量。
如上文所介绍的变换应用在1D输入数据上,并且变换也可以扩展用于2D输入数据源。假设X是输入MxN数据阵列。在2D输入数据上应用变换的典型方法包含可分开和不可分开的2D变换。
可分开的2D变换应用1D变换依序用于X的水平和垂直向量,公式如下:
Y=C·X·RT
其中C和R分别表示给定MxM和NxN变换矩阵。
从公式中,可以看出C应用1D变换用于X的列向量,而R应用1D变换用于X的行向量。在本发明的稍后部分中,为简单起见,表示C和R为左(垂直)变换和右(水平)变换并且这两者形成变换对。存在C等于R并且是正交矩阵的情况。在此情况下,可分开的2D变换通过仅一个变换矩阵确定。
不可分开的2D变换首先将X的所有元素重新组织到单个向量中,即X',作为一个实例方法是进行以下数学映射:
X′(i·N+j)=Xi,j
随后1D变换T'被如下应用于X':
Y=T′·X
其中T'是(M*N)x(M*N)变换矩阵。
在视频译码中,通常应用可分开的2D变换,因为与1D变换相比,可分开的2D变换通常使用较少的运算(加法,乘法)数目。如下文更详细地描述,本发明描述视频编码器和视频解码器用以确定左变换和右变换的实例技术。
举例来说,视频编码器和视频解码器可确定多个变换子集,每个变换子集识别多个候选变换。作为16和可能的变换(例如,DCT-1到DCT-8和DST-1到DST-8)的实例,视频编码器和视频解码器可确定三个变换子集且所述变换子集中的每一个包含所述16个变换中的两个或更多个。视频编码器和视频解码器可选择三个变换子集中的一个且从选定变换子集确定左变换(例如,C),且选择三个变换子集中的一个且从选定变换子集确定右变换(例如,R)。所选择的变换子集可以是不同子集或相同子集。
变换效率可通过不同标准测得,一种经典的测量是,变换效率的定义是变换译码增益,如下所述:
其中σ2 Yn是变换系数Y(n)的方差。更多实例也可参见http://web.stanford.edu/class/ee398a/handouts/lectures/07-TransformCoding.pdf。
以下是在HEVC中应用的变换类型的描述。在例如H.264/AVC的实例视频编解码器中,针对帧内和帧间预测残余两者应用4点和8点离散余弦变换(DCT)类型-II的整数近似。帧内预测残余是指来自帧内预测的残余并且帧间预测残余是指来自帧间预测的残余。在下文中全部更详细地描述了残余、帧间预测和帧内预测。一般来说,残余块被划分成多个变换块。在视频编码中,变换被应用到变换块中的每一个以产生系数块。在视频解码中,变换被应用到系数块中的每一个以产生变换块并且重构残余块。
为了更好地适应残余样本的各种统计数据,在新一代视频编解码器中利用除了DCT类型II之外的更灵活的类型的变换。举例来说,在HEVC中,4点类型VII离散正弦变换(DST)的整数近似用于帧内预测残余,其在理论上被证明且以实验方式被证实DST类型VII与DCT类型II相比对于沿帧内预测方向产生的残余向量更高效,例如,DST类型VII与DCT类型II相比对由水平帧内预测方向产生的行残余向量更高效。参见例如J.Han、A.Saxena和K.Rose“在视频/图像译码中关于联合地最佳空间预测和自适应变换(Towards jointlyoptimal spatial prediction and adaptive transform in video/image coding)”,IEEE声学、话语和信号处理国际会议(ICASSP),2010年3月,第726-729页。
在HEVC中,4点DST类型VII的整数近似仅应用于4x4明度帧内预测残余块(下文更详细地描述明度帧内预测残余块)。在HEVC中使用的4点DST-VII在图2A中示出。
在HEVC中,对于不是4x4明度帧内预测残余块的残余块,也应用4点、8点、16点和32点DCT类型II的整数近似。图2B说明4点DCT-II的实例;图2C说明8点DCT-II的实例;图2D说明16点DCT-II的实例;以及图2E说明32点DCT-II的实例。图2A-2E说明不同大小的类型II的DCT的实例,并且如同图2A-2E,存在不同类型的N点DCT和DST的实例。
如上文所描述,CU包含一或多个TU。下文描述在HEVC中基于残余四叉树的变换方案。为了适应残余块的各种特性,在HEVC中应用使用残余四叉树(RQT)的变换译码结构,其简要地描述于http://www.hhi.fraunhofer.de/fields-of-competence/image-processing/research-groups/image-video-coding/hevc-high-efficiency-video-coding/transfor m-coding-using-the-residual-quadtree-rqt.html.中。
如上文所描述,每个图片被划分成CTU,其针对特定图块或切片以光栅扫描次序译码。CTU是正方形块且表示四叉树的根,即,译码树。CTU大小可从8×8到64×64明度样本变动,但通常使用64×64。每一CTU可进一步***成较小正方形块,称为译码单元(CU)。在CTU递归***成CU后,每一CU进一步划分成预测单元(PU)和变换单元(TU)。将CU分割成TU是基于四叉树方法递归地进行的;因此,每个CU的残余信号通过树状结构(即,残余四叉树(RQT))译码。RQT允许从4×4直到32×32个明度样本的TU大小。
图3示出了CU包含用字母“a”到“j”标记的10个TU和对应块分割的实例。RQT的每一节点实际上为变换单元(TU)。以深度优先树遍历次序处理个别TU,其在图3中说明为字母次序,其遵循具有深度优先遍历的递归Z扫描。四叉树方法实现变换对残余信号的变化空间-频率特性的适应。通常,具有较大空间支持的较大变换块大小提供较好频率分辨率。然而,具有较小空间支持的较小变换块大小提供较好空间分辨率。所述两者,空间和频率分辨率之间的折衷是通过编码器模式决策(例如,通过视频编码器20)例如基于速率失真优化技术而选择。速率失真优化技术针对每一译码模式(例如,特定RQT***结构)计算译码位和重构失真的加权总和,即速率失真成本,且选择具有最少速率失真成本的译码模式作为最佳模式。
在RQT中定义三个参数:树的最大深度、最小所允许的变换大小和最大所允许的变换大小。最小和最大变换大小可在从4×4到32×32样本的范围内变化,其对应于先前段落中所提及的支持块变换。RQT的最大允许的深度限制TU的数目。等于零的最大深度意味着如果每一包含的TB(变换块)达到最大所允许变换大小,例如32x32,那么CB(译码块)无法做任何进一步***。
所有这些参数与RQT结构相互作用并且影响RQT结构。考虑其中根CB大小是64×64的情况,最大深度等于零且最大变换大小等于32×32。在此情况下,CB必须经分割至少一次,因为否则将导致64×64TB,这是不允许的。在HEVC中,不采用例如64x64变换的较大大小变换,主要是由于其对于相对较小分辨率视频的有限的益处和相对高复杂性。
RQT参数,即最大RQT深度、最小和最大变换大小,在位流中在序列参数集层级传输。关于RQT深度,可以针对经帧内和经帧间译码CU(即,经帧内预测的经编码CU或经帧间预测的经解码CU或经帧内预测的经编码CU或经帧间预测的CU)指定且用信号表示不同值。
四叉树变换适用于帧内和帧间残余块。通常,将当前残余四叉树分割的相同大小的DCT-II变换应用于残余块。然而,如果当前残余四叉树块是4x4并且通过帧内预测产生,那么应用上述4x4DST-VII变换。
下文描述HEVC中的系数译码。无论TU大小,变换单元的残余用非重叠系数群组(CG)译码,并且每个群组含有TU的4x4块的系数。举例来说,32x32TU具有全部64个CG,且16x16TU具有全部16个CG。TU内的CG是根据某一预定义的扫描次序而译码。当译码每一CG时,根据用于4x4块的某一预定义的扫描次序扫描和译码在当前CG内部的系数。图4说明用于含有4个CG的8x8TU的系数扫描。
对于每一色彩分量,可首先用信号表示一个旗标以指示当前变换单元是否具有至少一个非零系数。如果存在至少一个非零系数,那么接着用相对于变换单元的左上角的坐标显式译码变换单元中按系数扫描次序的最末有效系数的位置。坐标的垂直或水平分量由其前缀和后缀表示,其中前缀用截短莱斯(TR)二进制化,且后缀用固定长度二进制化。
last_sig_coeff_x_prefix的值指定变换块内按扫描次序的最后有效系数的列位置的前缀。last_sig_coeff_x_prefix的值将处于0到(log2TrafoSize<<1)-1(包含性)的范围内。
last_sig_coeff_y_prefix的值指定变换块内按扫描次序的最后有效系数的行位置的前缀。last_sig_coeff_y_prefix的值将处于0到(log2TrafoSize<<1)-1(包含性)的范围内。
last_sig_coeff_x_suffix的值指定变换块内按扫描次序的最后有效系数的列位置的后缀。last_sig_coeff_x_suffix的值将处于0到(1<<((last_sig_coeff_x_prefix>>1)-1))-1(包含性)的范围内。
变换块内按扫描次序的最后有效系数的列位置LastSignificantCoeffX如下导出:
-如果last_sig_coeff_x_suffix不存在,那么以下适用:
LastSignificantCoeffX=last_sig_coeff_x_prefix
-否则(last_sig_coeff_x_suffix存在),那么以下适用:
LastSignificantCoeffX=(1<<((last_sig_coeff_x_prefix>>1)-1))*
(2+(last_sig_coeff_x_prefix&1))+last_sig_coeff_x_suffix
last_sig_coeff_y_suffix的值指定变换块内按扫描次序的最后有效系数的行位置的后缀。last_sig_coeff_y_suffix的值将处于0到(1<<((last_sig_coeff_y_prefix>>1)-1))-1(包含性)的范围内。
变换块内按扫描次序的最末有效係数的行位置LastSignificantCoeffY如下导出:
-如果last_sig_coeff_y_suffix不存在,那么以下适用:
LastSignificantCoeffY=last_sig_coeff_y_prefix
-否则(last_sig_coeff_y_suffix存在),那么以下适用:
LastSignificantCoeffY=(1<<((last_sig_coeff_y_prefix>>1)-1))*
(2+(last_sig_coeff_y_prefix&1))+last_sig_coeff_y_suffix
当scanIdx的值等于2时,坐标调换如下:
(LastSignificantCoeffX,LastSignificantCoeffY)=Swap(LastSignificantCoeffX,LastSignificantCoeffY)
通过此经译码位置并且还有CG的系数扫描次序,对于除最后CG(按扫描次序)之外的CG进一步用信号表示一个旗标,其指示最后CG是否含有非零系数。对于可含有非零系数的那些CG,系数的有效旗标、绝对值和正负号信息可以根据预定义4x4系数扫描次序进一步针对每个系数译码。
如上文所描述,本发明中所描述的技术描述确定视频编码器20应用于将变换块转换为系数块的变换的方法和确定视频解码器30应用于将系数块转换为变换块的变换(例如,逆变换)的方法。以下描述用于帧内和帧间预测残余的多变换(例如,用于当从帧内预测产生残余块时且用于当从帧间预测产生残余块时的不同变换类型)。
在一些情况下,尽管与常规的DCT类型II相比DST类型VII可以高效地改进帧内译码效率的事实,但是因为预测残余呈现各种统计数据,并且DCT类型II和DST类型VII无法高效地适应于所有可能情况,变换效率是相对有限的。已经提出一些技术以适应于不同情况。
在S.-C.Lim、D.-Y.Kim、S.Jeong、J.S.Choi、H.Choi和Y.-L.Lee的“速率失真优化自适应变换译码(Rate-distortion optimized adaptive transform coding)”,光学工程,第48卷,第8期,第087004-1-087004-14页,2009年8月中,提出了适应性地采用DCT或DST的整数版本用于预测残余的新变换方案,对于每个块用信号表示DCT或DST变换是否用于预测残余。在Y.Ye和M.Karczewicz的“基于双向帧内预测、定向变换和自适应系数扫描的改进的H.264帧内译码(Improved H.264intra coding based on bidirectional intraprediction,directional transform,and adaptive coefficient scanning)”,第15届IEEE图像处理国际会议会刊,2008年10月,第2116-2119页中,已经提出每个帧内预测模式可以被映射到变换的唯一对(C和R),预定义为KLT对,因此应用模式依赖性变换(MDDT)。因此,不同KLT变换可用于不同帧内预测模式;然而,使用哪个变换是预定义的且取决于帧内预测模式。
在X.Zhao、L.Zhang、S.W.Ma和W.Gao的“通过速率失真优化变换的视频译码(Videocoding with rate-distortion optimized transform)”,IEEE电路***视频技术汇刊,第22卷,第1期,第138-151页,2012年1月中,然而,可使用更多变换并且明确地用信号表示来自从离线训练过程导出的变换候选者的预定义集合的变换的索引。类似于MDDT,每个帧内预测方向可具有其变换对的唯一集合。用信号表示索引以指定哪个变换对是从集合中选择的。举例来说,存在用于最小块大小4x4的多达四个垂直KLT变换和多达四个水平KLT变换;因此可以选择16个组合。对于较大块大小,使用较少数目的组合。在“通过速率失真优化变换的视频译码(Video coding with rate-distortion optimized transform)”中所提出的方法应用于帧内和帧间预测残余两者。对于帧间预测残余,可以选择KLT变换的多达16个组合并且对于每个块用信号表示组合(对于4x4是四且对于8x8是十六)中的一个的索引。
在A.Saxena和F.Fernandes的“用于图像/视频译码中的帧内预测的基于DCT/DST的变换译码(DCT/DST-based transform coding for intra prediction in image/videocoding)”,IEEE图像处理汇刊以及C.Yeo、Y.H.Tan、Z.Li和S.Rahardja的“用于译码方向帧内预测残余的模式依赖性变换(Mode-dependent transforms for coding directionalintra prediction residuals)”,IEEE电路***视频技术汇刊,第22卷,第4期,第545-554页,2012年中,使用多个变换;然而,替代于使用KLT变换(其通常需要训练),DCT(DCT-II)或DST(DST-VII)用于变换单元(其中左和右变换(例如,C和R)两者是相同的)并且使用哪一个通过用信号表示的旗标确定。在F.Zou、O.C.Au、C.Pang、J.Dai和F.Lu的“用于帧内块译码的基于劳埃德型算法的速率失真优化变换(Rate-Distortion Optimized Transforms Basedon the Lloyd-Type Algorithm for Intra Block Coding)”,IEEE信号处理的所选择的话题期刊,卷:7,期:6,2013年11月中使用若干预定义KLT变换对,并且用信号表示(替代于导出)变换对的索引用于译码单元,因此译码单元的每个变换单元使用相同变换对。
在J.An、X.Zhao、X.Guo和S.Lei的“非CE7:用于经帧间预测残余的边界依赖性变换(Non-CE7:Boundary-Dependent Transform for Inter-Predicted Residue)”,JCTVC-G281中,选择多个变换用于根据TU在CU内的位置的TU的帧间预测残余。C和R变换两者都选自DST VII和DST-VII的倒装版本。因此,多达四个组合可能用于CU内的TU。然而,因为组合是通过PU的位置完全地确定的,所以不需要用信号表示使用哪个组合。
现将描述增强型多变换(EMT)的方面。在JEM中,提出EMT(有时也称为自适应多变换,即AMT)用于经帧间和帧内译码块两者的残余译码。此EMT方案的方面在2016年1月25日提交的第15/005,736号美国专利申请案中描述。EMT利用除HEVC中的当前变换之外的来自DCT/DST系列的多个选定变换。新引入的变换矩阵是DST-VII、DCT-VIII、DST-I和DCT-V。以下表示出了选定DST/DCT的基数函数。
为了保持变换矩阵的正交性,与HEVC中的变换矩阵相比所述变换矩阵更精确地经量化。为了保持经变换系数的中间值在16位的范围内,在水平变换之后和在垂直变换之后,将所有系数右移位再2个位(与当前HEVC变换中使用的向右移位相比)。
AMT适用于具有小于等于64的宽度和高度的CU,且是否应用AMT受CU层级旗标控制。当CU层级旗标等于0时,在CU中应用DCT-II以对残余进行编码。对于启用了AMT的CU中的明度译码块,用信号表示两个额外旗标以识别待使用的水平和垂直变换。
对于帧内残余译码,由于不同帧内预测模式的不同残余统计数据,使用模式依赖性变换候选者选择过程。如表1中所示,定义了三个变换子集,并且所述变换子集基于帧内预测模式选择,如表2中所指定。
表1:三个预定义的变换候选者集合
通过子集概念,首先使用CU的帧内预测模式基于表1识别变换子集,其中CU层级AMT旗标等于1。在那之后,针对水平和垂直变换中的每一者,基于显式地用信号表示的滞后来根据表2选择所识别变换子集中的两个变换候选者中的一个。
表2:用于每一帧内预测模式的选定水平(H)和垂直(V)变换集合
然而,对于帧间预测残余,由DST-VII和DCT-VIII组成的仅一个变换集合用于所有帧间模式且用于水平和垂直变换两者。
现将描述不可分开的二次变换(NSST)的方面。在JEM中,在前向核心变换与量化(在编码器处)之间以及在解量化与逆核心变换(在解码器侧)之间应用模式依赖性NSST。模式依赖性NSST(MDNSST)的方面于均在2016年9月20日提交的第15/270,455号和第15/270,507号美国专利申请案中描述。图5示出二次变换的实例。如图5中所示,针对经帧内译码CU内的变换系数的每一4×4子群组独立地执行MDNSST且仅在帧内CU中应用。
如下使用输入作为一实例来描述不可分开的变换的应用。为了应用不可分开的变换,4x4输入块X
表示为向量
不可分开的变换被计算为其中指示变换系数向量,且T是16x16变换矩阵。16x1系数向量随后使用所述块的扫描次序(水平,垂直或对角线)重新组织为4x4块。在4x4系数块中可将索引较小的系数与较小扫描索引放置在一起。
存在总共11×3(对于方向性模式)6+1×2(对于非方向性模式)个不可分开的变换矩阵,其中11是方向性帧内预测模式的变换集合的数目且每一变换集合包含3个变换矩阵。而对于非方向性模式,即平面、DC和LM,应用仅一个变换集合,其包含2个变换矩阵。从帧内预测模式到变换集合的映射在表3中定义。应用于明度/色度变换系数的变换集合根据表3由对应明度/色度帧内预测模式指定。
对于每一变换集合,选定不可分开的二次变换候选者进一步由显式地用信号表示的CU层级MDNSST索引指定。在使用变换系数和截断一元二进制化之后每帧内CU在位流中用信号表示索引一次。截断值在平面或DC模式的情况中为2,且对于角度帧内预测模式为3。仅当CU中存在多于一个非零系数时才用信号表示此MDNSST索引。当未用信号表示值时默认值是零。此语法元素的零值指示二次变换不应用于当前CU,值1-3指示应当应用从集合的哪一个二次变换。
在JEM中,对于以变换跳过模式译码的块不应用MDNSST。当MDNSST索引针对CU用信号表示且不等于零时,MDNSST将不用于CU中以变换跳过模式译码的分量的块。当CU具有在变换跳过模式中译码的所有分量的块时,对于所述CU不用信号表示MDNSST索引。
表8:从帧内预测模式到变换集合索引的映射
在编码器侧,使用CU层级RD检查来选择用于CU的NSST索引。即,对于经帧内译码CU,通过使用NSST索引值作为循环索引来循环CU层级RD检查四次。为了加速编码器速度,应用循环的早期停止。在当前CU中对于具有较小值的NSST索引不存在非零经变换系数时跳过针对具有较大值的NSST索引的RD检查。
现将描述信号依赖性变换(SDT)的方面。如C.Lan等的“经由信号依赖性变换(SDT)利用非局部相关”(IEEE信号处理选定话题期刊5.7(2011):1298-1308)中所描述,考虑在帧内和跨越帧存在许多相似的片,SDT利用此类相关可借助于KLT增强译码性能。此经训练的KLT发挥变换的作用,其希望更高效地压缩能量。在此上下文中,片指代视频数据块。然而,片不一定具有与视频数据的用信号表示的分割(例如CU、PU或TU)的一对一对应。片可例如仅部分地重叠CU、PU或TU,或者可重叠多个CU、PU或TU中的一些或全部。
图6示出利用非局部相关的KLT的流程图的实例。在图6中的流程图描述此想法。对于由C指示的当前译码块,首先获得参考片R,其由经重构左上模板tb和译码块的预测块p组成。然后使用此参考片在经重构区搜索N个最相似片。最后,计算基于这些块和预测块的一维KLT。译码块在用于收集相似候选块的解码器处是未知的。使用预测块和经重构模板代替原始块来指导搜索相似块。此工具用于各种块大小4x4、8x8、16x16和32x32。
卡忽南-洛维(Karhunen-Loéve)变换(KLT)从能量压缩效率来看被视为最佳变换。通过在经重构区上搜索,获得最类似于参考片的N个块xi,i=1,2,…,N。此处,xi=(xi1,xi2,…,xiD)T和D指示作为变换块大小的向量维度。举例来说,对于4x4译码块,N为16。减去从这些块的预测p且获得残余块为ui,i=1,2,…,N,其中这些残余块用作具有零平均值的训练样本以用于KLT导出。这N个训练样本可由U=(u1,u2,…,uN)表示,其为D×N矩阵。协方差矩阵Σ可指示为:
Σ=UUT (1)
其中此协方差矩阵的维度是D×D。KLT基数则是此协方差矩阵的本征向量。对于自然图像/视频内容,将候选者数目N选择为100可足以获得良好性能。
本征值分解的计算复杂性是O(D3)。对于D为16的4x4块,复杂性是O(163),这是可接受的。对于大的块,复杂性可能极高。对于D为1024的32x32块,时间复杂性可例如为比4x4块的情况慢262144倍,这在译码框架中可能是不可容忍的。
考虑这一点,利用快速算法来使大的块大小KLT为可行的。Σ的维度是D×D。然而,UTU具有为N×N的低得多的维度。Σ′的本征向量=UTU,其满足等式可计算为:
UTUφ=φΛ (22)
φ指示本征向量矩阵,而Λ表示本征值为对角线元素的对角矩阵。等式(2)的两侧可乘以U而得到:
UUTUφ=UφΛ (23)
对此等式添加括号而获得:
(UUT)(Uφ)=(Uφ)Λ (24)
Uφ的列向量是UUT的本征向量,其对应本征值是矩阵Λ的对角线元素。假设这指示高维度协方差矩阵UTU的本征向量可通过将U乘以从低维度协方差矩阵UTU获得的本征向量φ而获得。和Λ的维度都是D×N。UUT的所有其它(D-N)个本征向量具有零本征向量。可使用施密特正交化来填充这(D-N)个本征向量而得到D×D本征向量矩阵。
为了减少矩阵乘法的复杂性,可使用获得的N个本征向量执行KLT变换,留下剩余(D-N)个变换系数为零。这不会衰减性能,因为前N个投影可覆盖大多数信号能量,而基数是从与译码块高度相关的样本训练的。
所描述的KLT在JEM中实施于译码块上的块层级。为了具有对图像/视频内容的高可调适性,所提出的方案支持所提出的对4x4、8x8、16x16和32x32译码块的KLT。在JEM编码器侧,利用速率失真优化以确定SDT和高级多变换(AMT)当中的最佳变换模式。将描述的KLT方法包含到JEM中,但由于极高的复杂性,此方法默认地停用。
用于信令变换的现有技术可能存在一些问题。作为一个实例,对于上述应用于经帧间译码块的AMT方法,即“帧间AMT”,每块需要用信号表示高达3位开销以指示实际应用哪一种变换,这对于帧间译码是代价极大的。如果以变换选择上的相似效率节省开销位,那么总体译码性能可改进。作为潜在问题的另一实例,对于上述SDT,实施方案需要的译码器复杂性可能过高,原因在于需要在相似图像片上的密集解码器搜索以及用以导出KLT矩阵的密集计算。如果利用使用相似图像片的在线更新变换功能的想法,但复杂性较低,那么此技术对于以现有硬件实施起来可能较实际。作为潜在问题的另一实例,在当前图片中的图像块与当前未利用的在时间距离方面靠近当前图片的另一图片中的另一块之间存在时间统计相关。此时间统计相关可用于选择或导出变换以用于译码效率的进一步改进。本发明介绍可解决上文描述的各种问题的技术。为了潜在地解决上文所提及的问题,本发明提出以下技术。所描述技术中的一些也可应用于经帧内译码和经帧间译码块两者。
视频编码器20和视频解码器30可个别地或以任何组合应用以下技术。视频编码器20和视频解码器30可例如经配置以确定当前图片的当前块的预测性块的特性且基于所述特性识别用于解码当前块的变换。如下文将更详细地解释,预测性块的特性可例如为当前块的相邻经重构样本的值、预测性块中的边缘的存在、预测性块中的变化量、预测性块中的边缘方向、预测性块的译码模式、用于预测性块的自适应环路滤波器分类,或预测性块的一些其它此类特性。如下文将更详细地解释,视频编码器20和视频解码器30可以各种方式使用这些特性以确定用于当前视频数据块的一或多个变换。
根据一个实例技术,视频编码器20和视频解码器30两者搜索且定位与当前块具有一些相似性的一个或几个图像/视频(经重构或残余)块(片)。所定位的块用以从预定义变换候选者的群组(例如具有不同类型的DCT/DST变换)或预定义KLT的集合识别一个或多个变换候选者(变换子集)。应用所识别的一个变换作为对当前残余块的变换,或应用多个所识别变换中的一个作为对当前残余块的变换。如将在下文更详细地阐释,视频编码器20可使用选定变换将残余样本的块变换为变换系数。由视频编码器20应用的变换有时可称为前向变换。视频解码器30可使用选定变换将变换系数逆变换为残余样本的块。
所述一个或几个图像/视频块可来自当前图片的经解码区或可来自参考图片。所述一个或几个图像/视频块可通过将其相邻经重构像素和当前块的相邻经重构像素进行比较来导出,即模板匹配过程。
图7示出可由视频解码器30(或视频编码器20)执行的模板匹配过程的实例。视频解码器30对当前图片100进行译码,且更具体来说对当前块102进行译码。为了确定用于当前块102的残余块的变换,视频解码器30将当前块102的相邻经重构样本104与图片100中的其它经重构样本进行比较。视频解码器30找到最接近或足够接近地匹配经重构相邻样本104的其它经重构样本的群组。在图7的实例中,经重构样本106是匹配经重构相邻样本104的经重构样本。基于经重构样本106的位置,视频解码器30定位块108。使用下文描述的各种技术中的一个,视频解码器30使用块108以确定用于块102的变换。虽然图7示出经重构相邻样本106和块108在与相邻经重构样本104和当前块102相同的图片中,但应注意经重构相邻样本106和块108在一些实例中可在不同于图片100的参考图片中找到。
所述一个或几个图像/视频块可为当前块的预测块。因此,并非搜索‘相似’块,在此实例中,视频译码器可直接使用当前块的预测块以识别所述一个或多个变换候选者。在另一实例中,当前块的预测块的预测块,即从其预测当前块的块,也可为用于变换识别的相似图像/视频块中的一个。所识别变换可为可分开的变换,即包含左(列)或右(行)变换,或不可分开的变换(例如,来自NSST的变换候选者)。
视频编码器20和/或视频解码器30可通过首先对所述一个或几个图像/视频块执行从给定变换子集的每一可用变换候选者而识别变换,且在给定准则下具有最佳效率的变换可为将应用于当前块的所识别变换。变换效率的准则可为在将变换候选者应用于所定位的图像/视频或残余块之后的绝对经变换系数值的总和(SATC)。较小SATC意味着较高变换效率。在另一实例中,变换效率的准则可为如上文所描述并且还在http://web.stanford.edu/class/ee398a/handouts/lectures/07-TransformCoding.pdf描述的变换译码增益。在另一实例中,变换效率的准则可为若干选定变换系数的绝对值的总和,例如左上方1、2x2或4x4低频率系数,或按扫描次序的最前/最后N个系数,其中N可为可取决于块大小的预定义值。
视频编码器20和/或视频解码器30可通过使用给定准则分析一个或几个图像/视频(或残余,或预测)块而识别变换,且根据所述准则识别一个变换或多个变换(变换子集)。在一个实例中,所述准则可取决于对所述一个或几个图像/视频(或残余,或预测)块执行的分析过程。分析过程的实例包含但不限于边缘检测(例如,使用索贝尔算子)、变化量或用于预测块的译码模式。根据分析过程的输出,识别一个或多个变换候选者(变换子集),且所识别的一个变换或多个所识别变换中的一个用作对当前残余块的变换。
在另一实例中,所述准则可为可直接用以识别一个或多个变换候选者(变换子集)的某种可用分类信息。所述可用分类信息可包含但不限于对位于预测块的位置的图像/视频块应用的ALF(自适应环路滤波器)分类信息。在此情况下,分类信息与变换之间的关系可为预定义的。举例来说,一个变换或变换的子集可基于经量化拉普拉斯活动值和/或方向信息(沿着若干方向的梯度)而选择。
在另一实例中,并非识别仅一个变换候选者,视频编码器20和/或视频解码器30可使用所述一个或几个图像/视频块识别变换子集,且所识别变换子集可包含来自变换候选者的预定义集合/群组的多于一个变换候选者。在此情况下,指示所识别变换子集的哪一变换候选者实际用于当前块的索引,且所述索引可显式地用信号表示或使用经解码信息隐式地导出。
根据另一实例技术,视频编码器20和/或视频解码器30可使用当前块的一些经译码信息以从变换的预定义集合/群组识别一个或多个变换(或变换子集)。此类经译码信息可例如包含但不限于块大小、块宽度和/或高度、块区域大小、块宽度对高度的比率、变换系数、运动信息、仿射模式信息、IC(照明补偿)模式信息等。
在一个实例中,视频编码器20和/或视频解码器30可使用用信号表示的变换系数以从变换的预定义集合/群组识别一个或多个变换(或变换子集)。视频编码器20和/或视频解码器30可例如基于变换系数从给定变换子集识别选定变换候选者的索引。然而,变换索引可不显式地用信号表示,而是可隐藏于用信号表示的变换系数中。在一个实例中,可通过检查非零变换中的一些或全部的奇偶校验来识别选定变换候选者。在另一实例中,可通过检查变换系数的分布,例如非零系数是否在变换系数块的某一位置(高频,低频)中发生,来识别选定变换候选者。
在一个实例中,运动信息可用以从变换的预定义集合/群组识别一个或多个变换(或变换子集)。视频编码器20和/或视频解码器30可基于运动信息从变换的预定义集合/群组识别一个或多个变换(或变换子集)。在一个实例中,基于运动向量的量值识别选定变换,例如不同变换应用于不同量值范围。在另一实例中,基于单向预测或双向预测识别选定变换。在另一实例中,基于运动向量指向的方向识别选定变换。在另一实例中,基于运动向量的类型(平移或仿射运动)识别选定变换。
根据另一实例技术,视频解码器30可从变换的预定义集合/群组识别一个或多个变换(或变换子集),并且接着视频解码器30可接收指示所识别一个或多个变换(或变换子集)是否实际为用于块的选定一个或多个变换(或变换子集)的旗标或索引。所述旗标/索引可包含于位流中,且所述旗标/索引可使用通过已经译码的信息导出的上下文建模来进行熵译码。
所述一个或多个变换(或变换子集)可例如通过使用具有已经解码变换系数块的可用变换候选者中的每一个重构当前块来识别。可测量每一经重构块与相邻经重构块之间的不连续,且可通过选择展示其经重构块与相邻经重构块之间的最少不连续的一个或多个变换来识别所述一个或多个变换(或变换子集)。
在另一实例中,视频编码器20和/或视频解码器30可通过使用具有经解码变换系数块的每一可用变换候选者重构当前块来识别所述一个或多个变换(或变换子集),且计算每一经重构块的上方和/或左边界的一(或若干)行与预测块的那些行之间的差。通过选择展示最少差异的一个或多个变换来识别所述一个或多个变换(或变换子集)。此技术可应用于经帧内预测块或应用于使用某一帧内模式(例如,具有方向性帧内预测模式)的块。在一些实施方案中,基于帧内预测模式的方向,仅使用上方或左边界的行。
用于熵译码所述旗标/索引的上下文建模可取决于变换系数块的层级(变换系数的量值),且层级值可来自一、来自选定变换系数的层级值的总和、或来自所有变换系数的层级值的总和,或来自所有变换系数的平方层级值的总和。在另一实例中,用于熵译码所述旗标/索引的上下文建模可取决于变换系数块的最后位置。
上文所提出的技术可在某些条件下应用。举例来说,可针对某一时间层级调用某些技术。在另一实例中,针对译码模式和/或块大小调用某些技术。
图8是说明可实施本发明中所描述的技术的实例视频编码器20的框图。视频编码器20可执行视频切片内的视频块的帧内和帧间译码。帧内译码依赖于空间预测来减小或移除给定视频帧或图片内的视频的空间冗余。帧间译码依靠时间预测来减少或去除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指代若干基于时间的压缩模式中的任一者。
在图8的例中,视频编码器20包含视频数据存储器33、分割单元35、预测处理单元41、求和器50、变换处理单元52、量化单元54、熵编码单元56。预测处理单元41包含运动估计单元(MEU)42、运动补偿单元(MCU)44和帧内预测单元46。对于视频块重构,视频编码器20还包含逆量化单元58、逆变换处理单元60、求和器62、滤波器单元64和经解码图片缓冲器(DPB)66。
如图8中所示,视频编码器20接收视频数据,并将所述视频数据存储在视频数据存储器33中。视频数据存储器33可存储待由视频编码器20的组件编码的视频数据。存储于视频数据存储器33中的视频数据可例如从视频源18获得。DPB 66可以是参考图片存储器,其存储参考视频数据以用于视频编码器20例如在帧内或帧间译码模式中对视频数据进行编码。视频数据存储器33和DPB 66可由多种存储器装置中的任一者形成,例如包含同步DRAM(SDRAM)的动态随机存储器(DRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM),或其它类型的存储器装置。视频数据存储器33和DPB 66可由同一存储器装置或单独存储器装置提供。在各种实例中,视频数据存储器33可与视频编码器20的其它组件一起在芯片上,或相对于那些组件在芯片外。
分割单元35从视频数据存储器33检索视频数据并将视频数据分割成视频块。此分割还可包含分割成切片、图块或其它较大单元,以及例如根据LCU及CU的四叉树结构的视频块分割。视频编码器20一般说明对待编码的视频切片内的视频块编码的组件。可将切片划分成多个视频块(且可能划分成被称作瓦片的视频块的集合)。预测处理单元41可基于误差结果(例如,译码速率和失真水平)而为当前视频块选择多个可能的译码模式中的一个,例如多个帧内译码模式中的一个或多个帧间译码模式中的一个。预测处理单元41可将所得经帧内或帧间译码块提供到求和器50以产生残余块数据,并提供到求和器62以重构经编码的块以用作参考图片。
预测处理单元41内的帧内预测单元46可相对于与待译码当前块在相同的帧或切片中的一或多个相邻块执行当前视频块的帧内预测性译码,以提供空间压缩。预测处理单元41内的运动估计单元42及运动补偿单元44相对于一或多个参考图片中的一或多个预测块执行当前视频块的帧间预测译码以提供时间压缩。
运动估计单元42可经配置以根据用于视频序列的预定模式来确定用于视频切片的帧间预测模式。预定模式可将序列中的视频切片指定为P切片或B切片。运动估计单元42及运动补偿单元44可高度集成,但出于概念的目的分别加以说明。由运动估计单元42执行的运动估计是产生运动向量的过程,所述过程估计视频块的运动。举例来说,运动向量可指示将当前视频帧或图片内的视频块的PU相对于参考图片内的预测性块的位移。
预测块是被发现在像素差方面与待译码的视频块的PU密切匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,视频编码器20可计算存储于DPB 66中的参考图片的子整数像素位置的值。例如,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可相对于全像素位置及分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。
运动估计单元42通过比较帧间译码切片中的视频块的PU的位置与参考图片的预测性块的位置来计算PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一个识别存储在DPB 66中的一或多个参考图片。运动估计单元42将所计算的运动向量发送到熵编码单元56和运动补偿单元44。
通过运动补偿单元44执行的运动补偿可以涉及基于通过运动估计(可能执行对子像素精确度的内插)确定的运动向量获取或产生预测性块。在接收到当前视频块的PU的运动向量后,运动补偿单元44可在参考图片列表中的一者中定位所述运动向量指向的预测性块。视频编码器20通过从正被译码的当前视频块的像素值中减去预测块的像素值来形成残余视频块,从而形成像素差值。像素差形成用于所述块的残余数据,并且可包含明度和色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿单元44还可产生与视频块和视频切片相关联的语法元素以供视频解码器30在对视频切片的视频块解码时使用。
在预测处理单元41经由帧内预测或帧间预测产生用于当前视频块的预测性块之后,视频编码器20通过从当前视频块减去所述预测性块而形成残余视频块。残余块中的残余视频数据可包含于一或多个TU中,并可应用到变换处理单元52。变换处理单元52使用变换(例如,离散余弦变换(DCT)或在概念上类似的转换)来将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素值域转换到变换域,例如频域。
变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化所述变换系数以进一步减小位速率。量化过程可减小与系数中的一些或全部相关联的位深度。可以通过调节量化参数来修改量化程度。在一些实例中,量化单元54可接着对包含经量化变换系数的矩阵执行扫描。在另一实例中,熵编码单元56可执行扫描。
在量化之后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码方法或技术。在由熵编码单元56熵编码之后,经编码位流可发射到视频解码器30,或经存档以供稍后发射或由视频解码器30检索。熵编码单元56还可对正译码的当前视频切片的运动向量和其它语法元素进行熵编码。
逆量化单元58和逆变换处理单元60分别应用逆量化和逆变换以在像素域中重构残余块,以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块添加到参考图片列表中的一者内的参考图片中的一者的预测性块中来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重构的残余块以计算子整数像素值用于运动估计。求和器62将经重构残余块相加到由运动补偿单元44产生的运动补偿预测块,从而产生经重构块。
滤波器单元64滤波经重构块(例如,求和器62的输出)且将经滤波经重构块存储在DPB 66中以用作参考块。参考块可由运动估计单元42和运动补偿单元44用作参考块以对后续视频帧或图片中的块进行帧间预测。滤波器单元64使用例如解块滤波器、自适应环路滤波器(ALF)、样本自适应偏移(SAO)滤波器或其它类型的滤波器中的一或多者对经重构视频块进行滤波。还可使用其它环路滤波器(在译码环路中或在译码环路之后)来使像素转变变平滑或者以其它方式改善视频质量。
图9是说明可实施本发明中描述的技术的实例视频解码器30的框图。图9的视频解码器30可例如经配置以接收上文关于图8的视频编码器20所描述的信令。在图9的实例中,视频解码器30包含视频数据存储器78、熵解码单元80、预测处理单元81、逆量化单元86、逆变换处理单元88、求和器90、滤波器单元92和DPB 94。预测处理单元81包含运动补偿单元82和帧内预测单元84。在一些实例中,视频解码器30可执行一般与关于图8的视频编码器20描述的编码遍次互逆的解码遍次。
在解码过程期间,视频解码器30从视频编码器20接收经编码视频位流,所述经编码视频位流表示具有经编码视频切片和相关联语法元素的视频块。视频解码器30将接收到的经编码视频位流存储在视频数据存储器78中。视频数据存储器78可存储待由视频解码器30的组件解码的视频数据,例如经编码视频位流。存储在视频数据存储器78中的视频数据可(例如)经由链路16从存储装置26或从本地视频源(例如,相机)或通过对物理数据存储媒体进行存取来获得。视频数据存储器78可形成存储来自经编码视频位流的经编码视频数据的经译码图片缓冲器(CPB)。DPB 94可以是参考图片存储器,其存储参考视频数据以用于视频解码器30例如在帧内或帧间译码模式中对视频数据进行解码。视频数据存储器78及DPB94可由多种存储器装置中的任一者形成,例如DRAM、SDRAM、MRAM、RRAM或其它类型的存储器装置。视频数据存储器78和DPB 94可由同一存储器装置或单独的存储器装置提供。在各种实例中,视频数据存储器78可与视频解码器30的其它组件一起在芯片上,或相对于那些组件在芯片外。
视频解码器30的熵解码单元80对存储于视频数据存储器78中的视频数据进行熵解码以产生经量化系数、运动向量和其它语法元素。熵解码单元80将运动向量及其它语法元素转发到预测处理单元81。视频解码器30可在视频切片层级和/或视频块层级接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,预测处理单元81的帧内预测单元84可基于用信号表示的帧内预测模式及来自当前帧或图片的先前经解码块的数据而产生用于当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码切片(例如,B切片或P切片)时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动向量和其它语法元素产生当前视频切片的视频块的预测性块。可从参考图片列表中的一个内的参考图片中的一个产生预测性块。视频解码器30可基于存储于DPB 94中的参考图片使用默认建构技术来建构参考帧列表,列表0和列表1。
运动补偿单元82通过剖析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,并且使用所述预测信息产生用于经解码当前视频块的预测性块。举例来说,运动补偿单元82使用所接收语法元素中的一些以确定用以对视频切片的视频块进行译码的预测模式(例如,帧内或帧间预测)、帧间预测切片类型(例如,B切片或P切片)、用于切片的参考图片列表中的一或多者的构造信息、切片的每一经帧间编码视频块的运动向量、切片的每一经帧间译码视频块的帧间预测状态,以及用以对当前视频切片中的视频块进行解码的其它信息。
运动补偿单元82还可基于内插滤波器执行内插。运动补偿单元82可使用由视频编码器20在编码视频块期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元82可根据所接收的语法元素来确定由视频编码器20使用的内插滤波器,且使用所述内插滤波器来产生预测性块。
逆量化单元86将提供于位流中且由熵解码单元80解码的经量化变换系数逆量化,即,解量化。逆量化过程可包含使用由视频编码器20针对视频切片中的每一视频块所计算的量化参数以确定应当应用的量化程度且同样确定应当应用的逆量化程度。逆变换处理单元88对变换系数应用逆变换,例如逆DCT、逆整数变换或概念上类似的逆变换过程,以便产生像素域中的残余块。
在预测处理单元使用例如帧内或帧间预测产生当前视频块的预测块之后,视频解码器30通过对来自逆变换处理单元88的残余块与由运动补偿单元82产生的对应预测块进行求和而形成经重构视频块。求和器90表示可执行此求和运算的组件。
滤波器单元92使用例如解块滤波器、ALF滤波器、SAO滤波器或其它类型的滤波器中的一或多者对经重构视频块进行滤波。还可使用其它环路滤波器(在译码环路中或在译码环路之后)来使像素转变变平滑或者以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储于DPB 94中,所述DPB 94存储用于后续运动补偿的参考图片。DPB 94可为存储经解码视频以供稍后呈现于例如图1的显示装置32的显示装置上的额外存储器的部分或与其分离。
图10是说明本发明中所描述的实例视频解码技术的流程图。将相对于图1和9的视频解码器30描述图10的实例,但具体来说图10的技术和本发明一般不限于任何具体类型的视频解码器。在图10的实例中,视频解码器30确定当前图片的当前块的预测性块的特性(120)。视频解码器30基于所述特性识别用于对当前块进行解码的变换(122)。
视频解码器30可例如将当前图片的当前块的预测性块的特性与视频数据中的其它块的特性进行比较以定位第二块且基于所述第二块识别用于对当前块进行解码的变换。第二块可例如为来自参考图片的块或来自当前图片的经解码部分的块。第二块可完全或部分地重叠多个CU。为了将当前图片的当前块的预测性块的特性与视频数据中的其它块的特性进行比较,视频解码器30可将当前块的相邻经重构样本与其它块的相邻经重构样本进行比较。为了将当前图片的当前块的预测性块的特性与视频数据中的其它块的特性进行比较,视频解码器30可将当前块的预测性块与其它块的预测性块进行比较。
在其它实例中,为了确定当前图片的当前块的预测性块的特性,视频解码器30可确定预测性块中的边缘的存在;且其中基于所述特性识别用于对当前块进行解码的变换包括确定与所述边缘的存在相关联的变换。为了确定当前图片的当前块的预测性块的特性,视频解码器30可确定预测性块中的变化量;且其中基于所述特性识别用于对当前块进行解码的变换包括确定与变化量相关联的变换。确定当前图片的当前块的预测性块的特性包括确定预测性块中的边缘方向,且为了基于所述特性识别用于对当前块进行解码的变换,视频解码器30可确定与所述边缘方向相关联的变换。为了确定当前图片的当前块的预测性块的特性,视频解码器30可确定预测性块的译码模式,且为了基于所述特性识别用于对当前块进行解码的变换,视频解码器30可确定与所述译码模式相关联的变换。为了确定当前图片的当前块的预测性块的特性,视频解码器30可确定用于预测性块的自适应环路滤波器分类,且为了基于所述特性识别用于对当前块进行解码的变换,视频解码器30可确定与所述自适应环路滤波器分类相关联的变换。
在一个实例中,为了基于所述特性识别用于对当前块进行解码的变换,视频解码器30可基于所述特性直接识别变换而无需接收额外信令。在其它实例中,为了基于所述特性识别用于对当前块进行解码的变换,视频解码器30可基于所述特性识别可用变换的子集,且接收识别来自所述子集的变换的索引值作为用于对当前块进行解码的变换。在识别变换之后,视频解码器30逆变换变换系数的集合以确定当前块的残余块(124)。视频解码器30将残余块相加到当前块的预测性块以对当前块进行解码(126)。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果用软件实施,则所述功能可以作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于如数据存储媒体或通信媒体的有形媒体,通信媒体(例如)根据通信协议包含有助于将计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如,信号或载波。数据存储媒体可以是可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。并且,适当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源发射指令,则同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电及微波等无线技术包含在媒体的定义中。然而,应理解,有形计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而实际上是针对非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各项的组合也应包含于计算机可读媒体的范围内。
指令可由一或多个处理器来执行,所述一或多个处理器例如一或多个DSP、通用微处理器、ASIC、FPGA或其它等效集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代上述结构或适用于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可在经配置以用于编码和解码的专用硬件和/或软件模块内提供,或并入在组合编解码器中。并且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于广泛多种装置或设备中,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。确切地,如上文所描述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或由互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述了各种实例。这些及其它实例在所附权利要求书的范围内。

Claims (30)

1.一种用于对视频数据进行解码的方法,所述方法包括:
确定当前图片的当前块的预测性块的特性;
基于所述特性识别用于对所述当前块进行解码的变换;
逆变换变换系数以确定所述当前块的残余块;以及
将所述残余块相加到所述当前块的预测性块以对所述当前块进行解码。
2.根据权利要求1所述的方法,其进一步包括:
将所述当前图片的所述当前块的所述预测性块的所述特性与所述视频数据中的其它块的特性进行比较以定位第二块;以及
基于所述第二块识别用于对所述当前块进行解码的所述变换。
3.根据权利要求2所述的方法,其中所述第二块包括来自参考图片的块。
4.根据权利要求2所述的方法,其中所述第二块包括来自所述当前图片的经解码部分的块。
5.根据权利要求2所述的方法,其中所述第二块与多个译码单元重叠。
6.根据权利要求2所述的方法,其中将所述当前图片的所述当前块的所述预测性块的所述特性与所述视频数据中的所述其它块的特性进行比较包括将所述当前块的相邻经重构样本与所述其它块的相邻经重构样本进行比较。
7.根据权利要求2所述的方法,其中将所述当前图片的所述当前块的所述预测性块的所述特性与所述视频数据中的所述其它块的特性进行比较包括将所述当前块的预测性块与所述其它块的预测性块进行比较。
8.根据权利要求1所述的方法,其中确定所述当前图片的所述当前块的所述预测性块的所述特性包括确定所述预测性块中的边缘的存在;且其中基于所述特性识别用于对所述当前块进行解码的所述变换包括确定与所述边缘的所述存在相关联的变换。
9.根据权利要求1所述的方法,其中确定所述当前图片的所述当前块的所述预测性块的所述特性包括确定所述预测性块中的变化量;且其中基于所述特性识别用于对所述当前块进行解码的所述变换包括确定与所述变化量相关联的变换。
10.根据权利要求1所述的方法,其中确定所述当前图片的所述当前块的所述预测性块的所述特性包括确定所述预测性块中的边缘方向;且其中基于所述特性识别用于对所述当前块进行解码的所述变换包括确定与所述边缘方向相关联的变换。
11.根据权利要求1所述的方法,其中确定所述当前图片的所述当前块的所述预测性块的所述特性包括确定所述预测性块的译码模式;且其中基于所述特性识别用于对所述当前块进行解码的所述变换包括确定与所述译码模式相关联的变换。
12.根据权利要求1所述的方法,其中确定所述当前图片的所述当前块的所述预测性块的所述特性包括确定用于所述预测性块的自适应环路滤波器分类;且其中基于所述特性识别用于对所述当前块进行解码的所述变换包括确定与所述自适应环路滤波器分类相关联的变换。
13.根据权利要求1所述的方法,其中基于所述特性识别用于对所述当前块进行解码的所述变换包括:
基于所述特性识别可用变换的子集;以及
接收索引值,其中所述索引值识别来自所述子集的变换作为用于对所述当前块进行解码的所述变换。
14.一种用于对视频数据进行解码的装置,所述装置包括:
存储器,其经配置以存储所述视频数据;以及
一或多个处理器,其经配置以:
确定所述视频数据的当前图片的当前块的预测性块的特性;
基于所述特性识别用于对所述当前块进行解码的变换;
逆变换变换系数的集合以确定所述当前块的残余块;以及
将所述残余块相加到所述当前块的预测性块以对所述当前块进行解码。
15.根据权利要求14所述的装置,其中所述一或多个处理器进一步经配置以:
将所述当前图片的所述当前块的所述预测性块的所述特性与所述视频数据中的其它块的特性进行比较以定位第二块;以及
基于所述第二块识别用于对所述当前块进行解码的所述变换。
16.根据权利要求15所述的装置,其中所述第二块包括来自参考图片的块。
17.根据权利要求15所述的装置,其中所述第二块包括来自所述当前图片的经解码部分的块。
18.根据权利要求15所述的装置,其中所述第二块与多个译码单元重叠。
19.根据权利要求15所述的装置,其中为了将所述当前图片的所述当前块的所述预测性块的所述特性与所述视频数据中的所述其它块的特性进行比较,所述一或多个处理器进一步经配置以将所述当前块的相邻经重构样本与所述其它块的相邻经重构样本进行比较。
20.根据权利要求15所述的装置,其中为了将所述当前图片的所述当前块的所述预测性块的所述特性与所述视频数据中的所述其它块的特性进行比较,所述一或多个处理器进一步经配置以将所述当前块的预测性块与所述其它块的预测性块进行比较。
21.根据权利要求14所述的装置,其中为了确定所述当前图片的所述当前块的所述预测性块的所述特性,所述一或多个处理器进一步经配置以确定所述预测性块中的边缘的存在;且其中为了基于所述特性识别用于对所述当前块进行解码的所述变换,所述一或多个处理器进一步经配置以确定与所述边缘的所述存在相关联的变换。
22.根据权利要求14所述的装置,其中为了确定所述当前图片的所述当前块的所述预测性块的所述特性,所述一或多个处理器进一步经配置以确定所述预测性块中的变化量;且其中为了基于所述特性识别用于对所述当前块进行解码的所述变换,所述一或多个处理器进一步经配置以确定与所述变化量相关联的变换。
23.根据权利要求14所述的装置,其中为了确定所述当前图片的所述当前块的所述预测性块的所述特性,所述一或多个处理器进一步经配置以确定所述预测性块中的边缘方向;且其中为了基于所述特性识别用于对所述当前块进行解码的所述变换,所述一或多个处理器进一步经配置以确定与所述边缘方向相关联的变换。
24.根据权利要求14所述的装置,其中为了确定所述当前图片的所述当前块的所述预测性块的所述特性,所述一或多个处理器进一步经配置以确定所述预测性块的译码模式;且其中为了基于所述特性识别用于对所述当前块进行解码的所述变换,所述一或多个处理器进一步经配置以确定与所述译码模式相关联的变换。
25.根据权利要求14所述的装置,其中为了确定所述当前图片的所述当前块的所述预测性块的所述特性,所述一或多个处理器进一步经配置以确定用于所述预测性块的自适应环路滤波器分类;且其中为了基于所述特性识别用于对所述当前块进行解码的所述变换,所述一或多个处理器进一步经配置以确定与所述自适应环路滤波器分类相关联的变换。
26.根据权利要求14所述的装置,其中为了基于所述特性识别用于对所述当前块进行解码的所述变换,所述一或多个处理器进一步经配置以:
基于所述特性识别可用变换的子集;以及
接收索引值,其中所述索引值识别来自所述子集的变换作为用于对所述当前块进行解码的所述变换。
27.根据权利要求14所述的装置,其中所述装置包括无线通信装置,其进一步包括经配置以接收经编码视频数据的接收器。
28.根据权利要求27所述的装置,其中所述无线通信装置包括电话手持机,且其中所述接收器经配置以根据无线通信标准来解调包括所述经编码视频数据的信号。
29.一种用于对视频数据进行解码的设备,所述设备包括:
用于确定当前图片的当前块的预测性块的特性的装置;
用于基于所述特性识别用于对所述当前块进行解码的变换的装置;
用于逆变换变换系数以确定所述当前块的残余块的装置;以及
用于将所述残余块相加到所述当前块的预测性块以对所述当前块进行解码的装置。
30.一种用于存储指令的计算机可读媒体,所述指令在由一或多个处理器执行时致使所述一或多个处理器:
确定当前图片的当前块的预测性块的特性;
基于所述特性识别用于对所述当前块进行解码的变换;
逆变换变换系数的集合以确定所述当前块的残余块;以及
将所述残余块相加到所述当前块的预测性块以对所述当前块进行解码。
CN201780058149.7A 2016-10-01 2017-09-29 用于视频译码的变换选择 Active CN109716772B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662403112P 2016-10-01 2016-10-01
US62/403,112 2016-10-01
US15/719,202 2017-09-28
US15/719,202 US10880564B2 (en) 2016-10-01 2017-09-28 Transform selection for video coding
PCT/US2017/054379 WO2018064517A1 (en) 2016-10-01 2017-09-29 Transform selection for video coding

Publications (2)

Publication Number Publication Date
CN109716772A true CN109716772A (zh) 2019-05-03
CN109716772B CN109716772B (zh) 2022-12-13

Family

ID=61759103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780058149.7A Active CN109716772B (zh) 2016-10-01 2017-09-29 用于视频译码的变换选择

Country Status (7)

Country Link
US (1) US10880564B2 (zh)
EP (1) EP3520405A1 (zh)
JP (1) JP2019534624A (zh)
KR (1) KR20190052008A (zh)
CN (1) CN109716772B (zh)
BR (1) BR112019006606A8 (zh)
WO (1) WO2018064517A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020228669A1 (en) * 2019-05-10 2020-11-19 Beijing Bytedance Network Technology Co., Ltd. Selection of secondary transform matrices for video processing
WO2020244662A1 (en) * 2019-06-06 2020-12-10 Beijing Bytedance Network Technology Co., Ltd. Simplified transform coding tools
CN112235572A (zh) * 2019-06-30 2021-01-15 腾讯美国有限责任公司 视频解码方法和装置以及计算机设备和存储介质
US11575901B2 (en) 2019-08-17 2023-02-07 Beijing Bytedance Network Technology Co., Ltd. Context modeling of side information for reduced secondary transforms in video
US11638008B2 (en) 2019-08-03 2023-04-25 Beijing Bytedance Network Technology Co., Ltd. Selection of matrices for reduced secondary transform in video coding
US11924469B2 (en) 2019-06-07 2024-03-05 Beijing Bytedance Network Technology Co., Ltd. Conditional signaling of reduced secondary transform in video bitstreams

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180103251A1 (en) * 2016-10-07 2018-04-12 Industrial Technology Research Institute Method for selecting prediction mode of intra prediction, video encoding device and image processing apparatus
US10554974B2 (en) * 2017-01-13 2020-02-04 Mediatek Inc. Method and apparatus enabling adaptive multiple transform for chroma transport blocks using control flags
EP3451663A1 (en) * 2017-08-31 2019-03-06 Thomson Licensing Pools of transforms for local selection of a set of transforms in video coding
US11303928B2 (en) * 2017-09-28 2022-04-12 Sharp Kabushiki Kaisha Image decoding apparatus and image coding apparatus
CN117834920A (zh) * 2018-01-17 2024-04-05 英迪股份有限公司 对视频进行解码或编码的方法和用于发送比特流的方法
US11665367B2 (en) * 2018-03-30 2023-05-30 Sony Corporation Image processing apparatus and method
CN115604470A (zh) * 2018-04-01 2023-01-13 Lg电子株式会社(Kr) 视频编解码方法、计算机可读存储介质及发送方法
US10999604B2 (en) 2018-04-13 2021-05-04 Mediatek Inc. Adaptive implicit transform setting
US11297348B2 (en) * 2018-04-13 2022-04-05 Mediatek Inc. Implicit transform settings for coding a block of pixels
US10462486B1 (en) * 2018-05-07 2019-10-29 Tencent America, Llc Fast method for implementing discrete sine transform type VII (DST 7)
US10536720B2 (en) * 2018-05-07 2020-01-14 Tencent America LLC Method, apparatus and medium for decoding or encoding
US10986340B2 (en) 2018-06-01 2021-04-20 Qualcomm Incorporated Coding adaptive multiple transform information for video coding
JP7223014B2 (ja) * 2018-06-03 2023-02-15 エルジー エレクトロニクス インコーポレイティド 縮小された変換を用いて、ビデオ信号を処理する方法及び装置
US10771783B2 (en) 2018-06-11 2020-09-08 Google Llc Transforms for large video and image blocks
US10666981B2 (en) 2018-06-29 2020-05-26 Tencent America LLC Method, apparatus and medium for decoding or encoding
US10687081B2 (en) * 2018-06-29 2020-06-16 Tencent America LLC Method, apparatus and medium for decoding or encoding
CN116866579A (zh) 2018-08-08 2023-10-10 Lg电子株式会社 编码/解码方法、存储介质和发送方法
EP3723375B1 (en) * 2018-09-02 2023-04-05 LG Electronics Inc. Method for processing image signals and computer-readable storage medium storing a bitstream generated by said method
CN111758260B (zh) * 2018-09-02 2022-07-08 Lg电子株式会社 用于处理图像信号的方法及设备
WO2020056760A1 (en) * 2018-09-21 2020-03-26 Alibaba Group Holding Limited Transform selection for small size block
WO2020071736A1 (ko) * 2018-10-01 2020-04-09 엘지전자 주식회사 비디오 신호의 부호화/복호화 방법 및 이를 위한 장치
CN112956192A (zh) * 2018-10-31 2021-06-11 交互数字Vc控股公司 多参考行帧内预测和最可能的模式
KR102388807B1 (ko) * 2018-12-17 2022-04-20 엘지전자 주식회사 고주파 제로잉을 기반으로 변환 계수 스캔 순서를 결정하는 방법 및 장치
US11323748B2 (en) 2018-12-19 2022-05-03 Qualcomm Incorporated Tree-based transform unit (TU) partition for video coding
CN113711597B (zh) * 2019-04-23 2022-11-25 北京字节跳动网络技术有限公司 上下文建模和多重变换矩阵的选择
CN113994666A (zh) * 2019-06-06 2022-01-28 北京字节跳动网络技术有限公司 隐式选择变换候选
WO2021054799A1 (ko) * 2019-09-21 2021-03-25 엘지전자 주식회사 변환에 기반한 영상 코딩 방법 및 그 장치
WO2021054787A1 (ko) * 2019-09-21 2021-03-25 엘지전자 주식회사 변환에 기반한 영상 코딩 방법 및 그 장치
WO2021060827A1 (ko) * 2019-09-23 2021-04-01 엘지전자 주식회사 변환에 기반한 영상 코딩 방법 및 그 장치
WO2021060905A1 (ko) * 2019-09-25 2021-04-01 엘지전자 주식회사 변환에 기반한 영상 코딩 방법 및 그 장치
CN116437085A (zh) * 2019-10-04 2023-07-14 Lg电子株式会社 图像编码设备、图像解码设备及其存储介质和发送设备
US20240048702A1 (en) * 2019-10-04 2024-02-08 Lg Electronics Inc. Image coding method based on transform, and device therefor
CA3156856A1 (en) * 2019-10-04 2021-04-08 Lg Electronics Inc. Transform-based image coding method, and device therefor
WO2021071283A1 (ko) * 2019-10-08 2021-04-15 엘지전자 주식회사 변환에 기반한 영상 코딩 방법 및 그 장치
WO2021071294A1 (ko) * 2019-10-08 2021-04-15 엘지전자 주식회사 변환에 기반한 영상 코딩 방법 및 그 장치
US12022094B2 (en) 2019-10-08 2024-06-25 Lg Electronics Inc. Transform-based image coding method and device for same
CN117812262A (zh) * 2019-10-08 2024-04-02 Lg电子株式会社 图像编码/解码方法和发送数据的方法
CN114762344B (zh) * 2019-10-08 2023-11-21 Lg电子株式会社 基于变换的图像编码方法及其装置
WO2021141443A1 (ko) * 2020-01-10 2021-07-15 엘지전자 주식회사 변환에 기반한 영상 코딩 방법 및 그 장치
US20230064931A1 (en) * 2020-01-12 2023-03-02 Lg Electronics Inc. Transform-based image coding method and device therefor
US11494875B2 (en) 2020-03-25 2022-11-08 Nintendo Co., Ltd. Systems and methods for machine learned image conversion
US11379951B2 (en) 2020-03-25 2022-07-05 Nintendo Co., Ltd. Systems and methods for machine learned image conversion
JP2023518865A (ja) * 2020-03-25 2023-05-08 任天堂株式会社 機械学習される画像コンバートのためのシステムおよび方法
US11683490B2 (en) * 2020-09-10 2023-06-20 Tencent America LLC Context adaptive transform set
EP4218240A1 (en) * 2020-09-28 2023-08-02 InterDigital VC Holdings France, SAS Template matching prediction for versatile video coding
US20220201334A1 (en) * 2020-12-23 2022-06-23 Tencent America LLC Method and apparatus for video coding
WO2023046463A1 (en) * 2021-09-23 2023-03-30 Interdigital Vc Holdings France, Sas Methods and apparatuses for encoding/decoding a video
WO2023118289A1 (en) * 2021-12-21 2023-06-29 Interdigital Vc Holdings France, Sas Transform coding based on depth or motion information
WO2024124178A1 (en) * 2022-12-08 2024-06-13 Beijing Dajia Internet Information Technology Co., Ltd. Methods and apparatus for transform training and coding
WO2024149285A1 (en) * 2023-01-12 2024-07-18 Mediatek Inc. Method and apparatus of intra template matching prediction for video coding

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080049854A1 (en) * 2006-08-24 2008-02-28 Samsung Electronics Co., Ltd. Method and apparatus for transforming and inverse-transforming image
CN102986216A (zh) * 2010-07-09 2013-03-20 高通股份有限公司 基于大小及帧内模式或基于边缘检测的用于帧内块的自适应频率变换
US20130070848A1 (en) * 2011-09-16 2013-03-21 Qualcomm Incorporated Line buffer reduction for short distance intra-prediction
US20140169475A1 (en) * 2012-12-17 2014-06-19 Qualcomm Incorporated Motion vector prediction in video coding
CN104303501A (zh) * 2012-04-03 2015-01-21 高通股份有限公司 用于视频译码的量化矩阵和解块滤波器
CN104378637A (zh) * 2011-10-18 2015-02-25 株式会社Kt 视频信号解码方法
CN104737538A (zh) * 2012-09-14 2015-06-24 高通股份有限公司 执行量化以促进解块滤波
CN105393536A (zh) * 2013-06-21 2016-03-09 高通股份有限公司 使用位移向量从预测性块的帧内预测
CN105474645A (zh) * 2013-08-26 2016-04-06 高通股份有限公司 当执行帧内块复制时确定区

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2894330B2 (ja) * 1997-07-04 1999-05-24 日本電気株式会社 飛越し走査された動画像の可逆符号化方式
US6983079B2 (en) * 2001-09-20 2006-01-03 Seiko Epson Corporation Reducing blocking and ringing artifacts in low-bit-rate coding
US8325801B2 (en) * 2008-08-15 2012-12-04 Mediatek Inc. Adaptive restoration for video coding
JP5215951B2 (ja) * 2009-07-01 2013-06-19 キヤノン株式会社 符号化装置及びその制御方法、コンピュータプログラム
US9288495B2 (en) * 2009-11-24 2016-03-15 Sk Telecom Co., Ltd. Adaptive secondary prediction-based image encoding/decoding method, device and recording medium
CN103385002A (zh) * 2010-02-17 2013-11-06 韩国电子通信研究院 用于对超高清图像进行编码的装置及其方法、以及解码装置及其方法
KR20110135787A (ko) * 2010-06-11 2011-12-19 삼성전자주식회사 엣지-적응 변환을 이용한 영상 부호화/복호화 시스템 및 방법
KR20130049524A (ko) * 2011-11-04 2013-05-14 오수미 인트라 예측 블록 생성 방법
KR20130049522A (ko) * 2011-11-04 2013-05-14 오수미 인트라 예측 블록 생성 방법
WO2014078068A1 (en) * 2012-11-13 2014-05-22 Intel Corporation Content adaptive transform coding for next generation video
WO2014109826A1 (en) * 2012-11-13 2014-07-17 Intel Corporation Video codec architecture for next generation video
FR3023112A1 (fr) * 2014-06-27 2016-01-01 Bcom Procede de codage d'une image numerique, procede de decodage, dispositifs et programmes d'ordinateurs associes
US10306229B2 (en) 2015-01-26 2019-05-28 Qualcomm Incorporated Enhanced multiple transforms for prediction residual
FR3040578A1 (fr) * 2015-08-31 2017-03-03 Orange Procede de codage et de decodage d'images, dispositif de codage et de decodage d'images et programmes d'ordinateur correspondants
US10491922B2 (en) 2015-09-29 2019-11-26 Qualcomm Incorporated Non-separable secondary transform for video coding
US20170155905A1 (en) * 2015-11-30 2017-06-01 Intel Corporation Efficient intra video/image coding using wavelets and variable size transform coding
US11405645B2 (en) * 2017-02-28 2022-08-02 Google Llc Transform kernel selection and entropy coding

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080049854A1 (en) * 2006-08-24 2008-02-28 Samsung Electronics Co., Ltd. Method and apparatus for transforming and inverse-transforming image
CN101175211A (zh) * 2006-08-24 2008-05-07 三星电子株式会社 用于变换和逆变换图像的方法和设备
CN102986216A (zh) * 2010-07-09 2013-03-20 高通股份有限公司 基于大小及帧内模式或基于边缘检测的用于帧内块的自适应频率变换
US20130070848A1 (en) * 2011-09-16 2013-03-21 Qualcomm Incorporated Line buffer reduction for short distance intra-prediction
CN103797802A (zh) * 2011-09-16 2014-05-14 高通股份有限公司 用于视频译码中的短距离帧内预测的线缓冲器减少
CN104378637A (zh) * 2011-10-18 2015-02-25 株式会社Kt 视频信号解码方法
CN104303501A (zh) * 2012-04-03 2015-01-21 高通股份有限公司 用于视频译码的量化矩阵和解块滤波器
CN104737538A (zh) * 2012-09-14 2015-06-24 高通股份有限公司 执行量化以促进解块滤波
US20140169475A1 (en) * 2012-12-17 2014-06-19 Qualcomm Incorporated Motion vector prediction in video coding
CN105393536A (zh) * 2013-06-21 2016-03-09 高通股份有限公司 使用位移向量从预测性块的帧内预测
CN105474645A (zh) * 2013-08-26 2016-04-06 高通股份有限公司 当执行帧内块复制时确定区

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN J ET AL: "《2. JVET MEETING; 20-2-2016-26-2-2016; SAN DIEGO; (THE JOINT VIDEO EXPLORATION TEAM OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16);URL:HTTP://PHENIX.INT-EVRY.FR/JVET/,,no.JVET-B1001,8 March 2016(2016-03-08),XP030150091》", 8 March 2016 *
XIAORAN CAO ET AL: "Singular vector decomposition based adaptive transform for motion compensation residuals", 《2014 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP 2014):PARIS, FRANCE, 27-30 OCTOBER 2014,1 OCTOBER 2014 (2014-10-01),PAGES 4127-4131,XP055238396》 *
王宁等: "高效视频编码中变换跳过模式的快速选择", 《中国图象图形学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020228669A1 (en) * 2019-05-10 2020-11-19 Beijing Bytedance Network Technology Co., Ltd. Selection of secondary transform matrices for video processing
US11575940B2 (en) 2019-05-10 2023-02-07 Beijing Bytedance Network Technology Co., Ltd. Context modeling of reduced secondary transforms in video
US11611779B2 (en) 2019-05-10 2023-03-21 Beijing Bytedance Network Technology Co., Ltd. Multiple secondary transform matrices for video processing
US11622131B2 (en) 2019-05-10 2023-04-04 Beijing Bytedance Network Technology Co., Ltd. Luma based secondary transform matrix selection for video processing
WO2020244662A1 (en) * 2019-06-06 2020-12-10 Beijing Bytedance Network Technology Co., Ltd. Simplified transform coding tools
US11924469B2 (en) 2019-06-07 2024-03-05 Beijing Bytedance Network Technology Co., Ltd. Conditional signaling of reduced secondary transform in video bitstreams
CN112235572A (zh) * 2019-06-30 2021-01-15 腾讯美国有限责任公司 视频解码方法和装置以及计算机设备和存储介质
CN112235572B (zh) * 2019-06-30 2022-04-26 腾讯美国有限责任公司 视频解码方法和装置以及计算机设备和存储介质
US11638008B2 (en) 2019-08-03 2023-04-25 Beijing Bytedance Network Technology Co., Ltd. Selection of matrices for reduced secondary transform in video coding
US11882274B2 (en) 2019-08-03 2024-01-23 Beijing Bytedance Network Technology Co., Ltd Position based mode derivation in reduced secondary transforms for video
US11575901B2 (en) 2019-08-17 2023-02-07 Beijing Bytedance Network Technology Co., Ltd. Context modeling of side information for reduced secondary transforms in video
US11968367B2 (en) 2019-08-17 2024-04-23 Beijing Bytedance Network Technology Co., Ltd. Context modeling of side information for reduced secondary transforms in video

Also Published As

Publication number Publication date
WO2018064517A1 (en) 2018-04-05
KR20190052008A (ko) 2019-05-15
US20180098081A1 (en) 2018-04-05
EP3520405A1 (en) 2019-08-07
US10880564B2 (en) 2020-12-29
CN109716772B (zh) 2022-12-13
BR112019006606A8 (pt) 2020-02-04
BR112019006606A2 (pt) 2019-07-02
JP2019534624A (ja) 2019-11-28

Similar Documents

Publication Publication Date Title
CN109716772A (zh) 用于视频译码的变换选择
CN109691101A (zh) 用于增强型多变换的查找表
CN106797477B (zh) 用于解码及编码视频数据的方法和设备
CN107211156B (zh) 一种译码视频数据的方法、装置及计算机可读存储媒体
CN106105228B (zh) 一种处理视频数据的方法、装置及计算机可读介质
CN106576171B (zh) 一种对视频数据进行编码、解码的方法以及装置
CN109716774A (zh) 用于视频译码的可变数目的帧内模式
CN105009586B (zh) 多视图或3维视频译码中的视图间残余预测
CN105264891B (zh) 一种对视频数据进行解码、编码的方法及装置
CN103688541B (zh) 在视频译码中缓冲预测数据的设备和方法
CN104396243B (zh) 用于视频压缩的自适应上取样滤波器
CN108605142A (zh) 用于视频译码的多遍不可分开的变换
CN107925764A (zh) 视频译码中的系数等级译码
CN108141596A (zh) 用于视频译码的非可分离二次变换
CN110100436A (zh) 使用导出色度模式译码视频数据
CN107750457A (zh) 帧内预测及帧内模式译码
CN107750455A (zh) 帧内预测及帧内模式译码
CN109076218A (zh) 在视频译码中自适应环路滤波中的多个滤波器的混淆
CN107771393A (zh) 帧内预测及帧内模式译码
CN107211144A (zh) 用于预测残差的增强型多重变换
CN107743705A (zh) 帧内预测及帧内模式译码
CN108353167A (zh) 译码视频数据的正负号信息
CN107736022A (zh) 帧内预测及帧内模式译码
CN107736023A (zh) 帧内预测及帧内模式译码
CN107690810A (zh) 确定用于视频译码的照明补偿状态的***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant