CN117426094A - 用于视频处理的方法、设备和介质 - Google Patents
用于视频处理的方法、设备和介质 Download PDFInfo
- Publication number
- CN117426094A CN117426094A CN202280033705.6A CN202280033705A CN117426094A CN 117426094 A CN117426094 A CN 117426094A CN 202280033705 A CN202280033705 A CN 202280033705A CN 117426094 A CN117426094 A CN 117426094A
- Authority
- CN
- China
- Prior art keywords
- current video
- current
- video
- unit
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 514
- 238000012545 processing Methods 0.000 title claims abstract description 47
- 230000008569 process Effects 0.000 claims abstract description 217
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 230000007704 transition Effects 0.000 claims abstract description 7
- 239000000523 sample Substances 0.000 claims description 86
- 238000001914 filtration Methods 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 28
- 230000003321 amplification Effects 0.000 claims description 20
- 230000002708 enhancing effect Effects 0.000 claims description 20
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 20
- 238000005259 measurement Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 238000000691 measurement method Methods 0.000 claims description 15
- 230000002146 bilateral effect Effects 0.000 claims description 10
- 238000005192 partition Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000003708 edge detection Methods 0.000 claims description 4
- 229910003460 diamond Inorganic materials 0.000 claims description 3
- 239000010432 diamond Substances 0.000 claims description 3
- 239000013074 reference sample Substances 0.000 claims description 2
- 239000000758 substrate Substances 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 16
- 238000009499 grossing Methods 0.000 description 10
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000013139 quantization Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003707 image sharpening Methods 0.000 description 1
- 238000003706 image smoothing Methods 0.000 description 1
- 230000000155 isotopic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本公开的实施例提供了一种用于视频处理的解决方案。提出了一种用于视频处理的方法。该方法包括:在视频的当前视频部分和视频的比特流之间的转换期间,至少基于当前视频部分的编解码信息,确定被应用于当前视频部分的过程,所确定的过程包括上采样过程或增强过程中的至少一个过程;以及基于所确定的过程执行转换。根据本公开的方法改进了当前视频单元的编解码过程。与常规的解决方案相比,所提出的方法可以有利地提高编解码效率,并且具有更多像素和更好视觉质量的更大尺寸的图像/视频被实现。
Description
技术领域
本公开的实施例一般涉及视频编解码技术,并且更具体地,涉及图像和/或视频的超分辨率技术。
背景技术
当今,数字视频功能正被应用于人们生活的各个方面。已经针对视频编码/解码,已经提出了多种类型的视频压缩技术,诸如运动图片专家组(MPEG)-2、MPEG-4、ITU-TH.263、国际电信联盟-电信标准化部门(ITU-T)H.264/MPEG-4第10部分高级视频编解码(AVC)、ITU-T H.265高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准。对于视频会议、网页浏览、车辆导航等消费者应用,图像和/或视频的超分辨率技术尤其受到期待。
发明内容
本公开的实施例提供用于视频处理的解决方案。
在第一方面,一种用于视频处理的方法被提出。该方法包括:在视频的当前视频部分和视频的比特流之间的转换期间,至少基于当前视频部分的编解码信息,确定被应用于当前视频部分的过程,所确定的过程包括上采样过程或增强过程中的至少一个过程;以及基于所确定的过程执行所述转换。根据本公开的第一方面的方法改进了当前视频单元的编解码过程。与常规解决方案相比,所提出的方法可以有利地提高编解码效率,并且具有更多像素和更好视觉质量的更大尺寸的图像/视频被实现。
在第二方面,一种用于处理视频数据的装置被提出。该装置包括处理器和耦合到处理器并在其上存储有指令的非瞬态存储器,其中在处理器执行指令时,使处理器:在视频的当前视频部分和视频的比特流之间的转换期间,至少基于当前视频部分的编解码信息,确定被应用于当前视频部分的过程,所确定的过程包括上采样过程或增强过程中的至少一个过程;以及基于所确定的过程执行所述转换。
在第三方面,一种非瞬态计算机可读存储介质被提出,该非瞬态计算机可读存储介质存储使处理器执行根据本公开的第一方面的方法的指令。
在第四方面,一种非瞬态计算机可读记录介质被提出。该非瞬态计算机可读记录介质存储视频的由视频处理装置执行的方法生成的比特流,其中该方法包括:至少基于视频的当前视频部分的编解码信息,确定被应用于当前视频部分的过程,所确定的过程包括上采样过程或增强过程中的至少一个过程;以及基于所确定的过程生成比特流。
在第五方面,一种用于存储视频的比特流的方法被提出。该方法包括:至少基于视频的当前视频部分的编解码信息确定被应用于当前视频部分的过程,所确定的过程包括上采样过程或增强过程中的至少一个过程;基于所确定的过程生成比特流;以及将比特流存储在非瞬态计算机可读记录介质中。
提供本发明内容是为了以简化的形式介绍以下在具体实施例中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护主题的范围。
附图说明
通过参考附图的以下详细描述,本公开的示例实施例的上述和其他目的、特征和优点将变得更加明显。在本公开的示例实施例中,相同的附图标记通常指代相同的组件。
图1示出了根据本公开的一些实施例的示例视频编解码***的框图;
图2示出了根据本公开的一些实施例的示例视频编码器的框图;
图3示出了根据本公开的一些实施例的示例视频解码器的框图;
图4是示出非锐化掩码滤波器的框图的示意图;
图5是示出视频编解码器的一般框图的示意图;
图6是示出根据本公开的一些实施例的后处理的溢出的示意图;
图7A和图7B是分别示出根据本公开的一些实施例的用于边界样本的填充的示意图;
图8A至图8C是分别示出根据本公开的一些实施例的滤波器形状的示意图;
图9示出了根据本公开的一些实施例的用于视频处理的方法的流程图;以及
图10示出了其中可以实现本公开的各种实施例的计算设备的框图。
在附图中,相同或相似的附图标记通常指代相同或相似元素。
具体实施方式
现在将参考一些实施例来描述本公开的原理。应当理解的是,描述这些实施例仅出于说明并且帮助本领域技术人员理解和实施本公开的目的,而不暗示对本公开的范围的任何限制。除了下文所述的方式之外,本文所描述的公开内容还可以以各种方式实施。
在以下描述和权利要求中,除非另有定义,否则在本文中使用的所有科学术语和技术术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。
本公开中提及的“一个实施例”、“实施例”、“示例实施例”等指示所描述的实施例可以包括特定的特征、结构或特性,但是并非每个实施例都必须包括该特定的特征、结构或特性。此外,这些短语不一定指同一实施例。此外,当结合示例实施例描述特定的特征、结构或特性时,无论是否明确描述,认为影响与其他实施例相关的这种特征、结构或特性在本领域技术人员的知识范围内。
应当理解的是,尽管术语“第一”和“第二”等可以用于描述各种元素,但这些元素不应受限于这些术语。这些术语仅用于区分一个元素与另一个元素。例如,第一元素可以被称为第二元素,类似地,第二元素可以被称为第一元素,而不脱离示例实施例的范围。如本文中所使用的,术语“和/或”包括一个或多个所列术语的任何和所有组合。
本文中所使用的术语仅用于描述特定实施例的目的,并不旨在限制示例实施例。如本文中所用的,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确指示。还应理解,术语“包括”、“包含”和/或“具有”在本文中使用时表示存在所述特征、元素和/或组件等,但不排除一个或多个其他特征、元素、组件和/或其组合的存在或添加。
示例环境
图1是图示可以利用本公开的技术的示例视频编解码***100的框图。如所示出的,视频编解码***100可以包括源设备110和目的设备120。源设备110也可以称为视频编码设备,并且目的设备120也可以称为视频解码设备。在操作中,源设备110可以被配置为生成经编码的视频数据,并且目的设备120可以被配置为对由源设备110生成的经编码的视频数据进行解码。源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。
视频源112可以包括诸如视频捕获设备之类的源。视频捕获设备的示例包括但不限于从视频内容提供商接收视频数据的接口、用于生成视频数据的计算机图形***和/或其组合。
视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码,以生成码流。码流可以包括形成视频数据的编码表示的位序列。码流可以包括编码图片和相关联的数据。编码图片是图片的编码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器和/或发送器。经编码的视频数据可以通过网络130A经由I/O接口116直接传输至目的设备120。经编码的视频数据也可以存储在存储介质/服务器130B上,以供目的设备120访问。
目的设备120可以包括I/O接口126、视频解码器124和显示设备122。I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130B获取经编码的视频数据。视频解码器124可以对经编码的视频数据进行解码。显示设备122可以向用户显示经解码的视频数据。显示设备122可以与目的设备120集成,或者可以在目的设备120的外部,该目的设备120被配置为与外部显示设备接口连接。
视频编码器114和视频解码器124可以根据视频压缩标准操作,诸如高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准和其他现有和/或将来的标准。
图2是示出根据本公开的一些实施例的视频编码器200的示例的方框图,视频编码器200可以是图1所示的***100中的视频编码器114的示例。
视频编码器200可以被配置为实现本公开的任何或所有技术。在图2的示例中,视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各个组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在一些实施例中,视频编码器200可以包括划分单元201、预测单元202、残差生成单元207、变换单元208、量化单元209、反量化单元210、反变换单元211、重建单元212、缓冲213和熵编码单元214,该预测单元202可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206。
在其他示例中,视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中,预测单元202可以包括块内复制(IBC)单元。IBC单元可以在IBC模式中执行预测,其中至少一个参考图片是当前视频块所位于的图片。
此外,尽管一些组件(诸如运动估计单元204和运动补偿单元205)可以被集成,但是为了解释的目的,这些组件在图2的示例中被分离地示出。
划分单元201可以将图片划分成一个或多个视频块。视频编码器200和视频解码器300(其将在以下详细讨论)可以支持各种视频块大小。
模式选择单元203可以例如基于误差结果来选择多种编码模式(帧内编码或帧间编码)中的一种编码模式,并且将所产生的帧内编码块或帧间编码块提供给残差生成单元207以生成残差块数据,并且提供给重建单元212以重建编码块以用作参考图片。在一些示例中,模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合,其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下,模式选择单元203还可以为块选择针对运动矢量的分辨率(例如,亚像素精度或整数像素精度)。
为了对当前视频块执行帧间预测,运动估计单元204可以通过将来自缓冲213的一个或多个参考帧与当前视频块进行比较来生成针对当前视频块的运动信息。运动补偿单元205可以基于运动信息和来自缓冲213的除了与当前视频块相关联的图片之外的图片的经解码样本,来确定针对当前视频块的预测视频块。
运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作,例如,取决于当前视频块是在I条带、P条带还是B条带中。如本文中使用的,“I条带”可以是指由宏块构成的图片的一部分,所有宏块均基于同一图片内的宏块。此外,如本文中使用的,在一些方面中,“P条带”和“B条带”可以是指由独立于同一图片中的宏块的宏块构成的图片的部分。
在一些示例中,运动估计单元204可以对当前视频块执行单向预测,并且运动估计单元204可以搜索列表0或列表1的参考图片,以寻找针对当前视频块的参考视频块。运动估计单元204然后可以生成参考索引和运动矢量,该参考索引指示列表0或列表1中的包含参考视频块的参考图片,并且该运动矢量指示当前视频块与参考视频块之间的空间位移。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。
备选地,在其他示例中,运动估计单元204可以对当前视频块执行双向预测。运动估计单元204可以搜索列表0中的参考图片以寻找针对当前视频块的参考视频块,并且还可以搜索列表1中的参考图片以寻找针对当前视频块的另一参考视频块。运动估计单元204然后可以生成多个参考索引和多个运动矢量,该多个参考索引指示列表0和列表1中的包含多个参考视频块的多个参考图片,并且该多个运动矢量指示在多个参考视频块与当前视频块之间的多个空间位移。运动估计单元204可以输出当前视频块的多个参考索引和多个运动矢量以作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的多个参考视频块来生成针对当前视频块的预测视频块。
在一些示例中,运动估计单元204可以输出完整的运动信息集,以用于解码器的解码处理。备选地,在一些实施例中,运动估计单元204可以参考另一视频块的运动信息来通过信号传输当前视频块的运动信息。例如,运动估计单元204可以确定当前视频块的运动信息与邻近视频块的运动信息足够相似。
在一个示例中,运动估计单元204可以在与当前视频块相关联的语法结构中向视频解码器300指示一值,该值指示当前视频块具有与另一视频块相同的运动信息。
在另一示例中,运动估计单元204可以在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示在当前视频块的运动矢量与所指示的视频块的运动矢量之间的差异。视频解码器300可以使用所指示的视频块的运动矢量以及运动矢量差来确定当前视频块的运动矢量。
如上所讨论的,视频编码器200可以以预测性的方式通过信号传输运动矢量。可以由视频编码器200实现的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和合并模式信令。
帧内预测单元206可以对当前视频块执行帧内预测。当对当前视频块执行帧内预测时,帧内预测单元206可以基于同一图片中其他视频块的经解码样本来生成针对当前视频块的预测数据。针对当前视频块的预测数据可以包括预测视频块和各个语法元素。
残差生成单元207可以通过从当前视频块中减去(例如,由减号指示)当前视频块的(多个)预测视频块来生成针对当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样本的不同样本部分的残差视频块。
在其他示例中,例如在跳过模式中,针对当前视频块可以不存在针对当前视频块的残差数据,并且残差生成单元207可以不执行减去操作。
变换单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块,来生成针对当前视频块的一个或多个变换系数视频块。
在变换单元208生成与当前视频块相关联的变换系数视频块之后,量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
反量化单元210和反变换单元211可以分别对变换系数视频块应用反量化和反变换,以从变换系数视频块重建残差视频块。重建单元212可以将经重建的残差视频块添加到来自由预测单元202生成的一个或多个预测视频块的对应样本,以产生与当前视频块相关联的重建视频块,以供存储在缓冲213中。
在重建单元212重建视频块之后,可以执行环路滤波操作以减少视频块中的视频块效应伪像。
熵编码单元214可以从视频编码器200的其他功能组件接收数据。当数据被接收时,熵编码单元214可以执行一个或多个熵编码操作,以生成熵编码数据并且输出包括该熵编码数据的码流。
图3是示出根据本公开的一些实施例的视频解码器300的示例的方框图,视频解码器300可以是图1所示的***100中的视频解码器124的示例。
视频解码器300可以被配置为执行本公开的任何或所有技术。在图3的示例中,视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各个组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在图3的示例中,视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、反量化单元304、反变换单元305、以及重建单元306和缓冲307。在一些示例中,视频解码器300可以执行通常与关于视频编码器200所描述的编码过程相对的解码过程。
熵解码单元301可以取回经编码的码流。经编码的码流可以包括经熵编码的视频数据(例如,经编码的视频数据块)。熵解码单元301可以对经熵编码的视频数据进行解码,并且运动补偿单元302可以从经熵解码的视频数据中确定运动信息,该运动信息包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息。运动补偿单元302可以例如通过执行AMVP和合并模式来确定该信息。AMVP被使用,包括基于邻近PB的数据和参考图片得出数个最可能的候选项。运动信息通常包括水平和竖直运动矢量位移值、一个或两个参考图片索引,并且在B条带中的预测区域的情况下,还包括哪个参考图片列表与每个索引相关联的标识。如本文所使用的,在一些方面中,“合并模式”可以是指从空间或时间上邻近的块中导出运动信息。
运动补偿单元302可以产生运动补偿块,可能地基于插值滤波器来执行内插。针对以亚像素精度被使用的插值滤波器的标识符可以被包括在语法元素中。
运动补偿单元302可以使用由视频编码器200在视频块的编码期间使用的插值滤波器来计算用于参考块的亚整数像素的内插值。运动补偿单元302可以根据接收到的语法信息来确定由视频编码器200使用的插值滤波器,并且运动补偿单元302可以使用插值滤波器来产生预测块。
运动补偿单元302可以使用至少部分语法信息来确定用于编码经编码视频序列的(多个)帧和/或(多个)条带的块的大小、描述经编码视频序列的图片的每个宏块如何被划分的划分信息、指示每个划分如何被编码的模式、针对每个帧间编码块的一个或多个参考帧(和参考帧列表)、以及对经编码视频序列进行解码的其他信息。如本文中所使用的,在一些方面,“条带”可以是指在熵编码、信号预测和残差信号重建方面可以独立于同一图片的其他条带而被解码的数据结构。条带可以是整个图片,或者也可以是图片的区域。
帧内预测单元303可以使用例如在码流中接收的帧内预测模式,以从空间邻近块形成预测块。反量化单元304反量化(即,去量化)在码流中提供的、并且由熵解码单元301解码的量化视频块系数。反变换单元305应用反变换。
重建单元306可以例如通过将残差块与由运动补偿单元302或帧内预测单元303生成的相应预测块相加来获得经解码的块。如果需要的话,还可以应用去块效应滤波器以对经解码的块进行滤波,以便去除块效应伪像。经解码的视频块随后被存储在缓冲307中,缓冲307为后续运动补偿/帧内预测提供参考块,并且缓冲307还产生经解码的视频以供在显示设备上呈现。
下文将详细描述本公开的一些示例性实施例。应当注意,在本文件中使用章节标题是为了便于理解,而不是将章节中公开的实施例仅限于该章节。此外,尽管参考通用视频编解码或其他特定视频编解码器描述了一些实施例,但是所公开的技术也适用于其他视频编解码技术。此外,尽管一些实施例详细描述了视频编码步骤,但是应当理解的是取消编码的相应解码步骤将由解码器实现。此外,术语视频处理包括视频编码或压缩、视频解码或解压缩以及视频转码,在该视频转码中视频像素被从一种压缩格式表示为另一种压缩格式或以不同的压缩码率表示。
1.概述
本公开涉及图像和视频超分辨率技术,具体而言,是关于产生具有更多像素和更好视觉质量的更大尺寸的图像/视频,特别是用于在诸如视频会议、网页浏览、车辆导航等众多消费者应用中变得越来越流行的屏幕内容图像/视频。
2.缩写
SISR 单图像超分辨率
SCI 屏幕内容图像
HR 高分辨率
LR 低分辨率
SRCNN 基于超分辨率的卷积神经网络
SR 稀疏表示
ANR 锚定邻域回归
CNN 卷积神经网络
DoG 高斯差
RAISR 快速且准确的图像超分辨率
SVD 奇异值分解
OTD 正交-三角分解
MV 运动矢量
IBC 帧内块复制
BV 块矢量
USM 非锐化掩码
LoG 高斯拉普拉斯
CU 编解码单元
CTU 编解码树单元
VVC 通用视频编解码
QP 量化参数
3.背景
3.1.图像超分辨率
图像超分辨率是从低分辨率输入图像估计高分辨率图像的过程。输入图像可以被视为高分辨率图像的测量,并且SISR的目标是从这些已知的测量中恢复未知像素。请注意,在我们的日常生活场景中,降级模型可以是线性(例如模糊)或非线性(例如压缩)。解决SISR问题的方法可以大致分为三类:基于插值的方法、基于重建的方法和基于学习的方法。
插值器是用于解决图像超分辨率问题的基本方法。最常见的插值方法是最临近、双线性和双三次。基于插值的方法由于易于暗示和计算成本低而被广泛使用。然而,这种方法在恢复丰富纹理和明显边缘方面受到限制,因为它们不适应于图像内容。
基于重建的方法通常强制执行重建约束。高分辨率图像从低分辨率图像序列被重建。虽然生成的高分辨率图像满足重建约束,但平滑度和纹理完整性可能无法保证。
基于学习的方法的基本思想是基于预先准备的训练数据集学习从LR补丁到其HR版本的映射。训练数据集通常包含LR-HR补丁对。通常,针对LR补丁和HR补丁,覆盖字典元素和系数的紧凑表示被学习。输入补丁的相应系数与字典元素相结合,以产生HR补丁。基于CNN的方法近年来越来越流行。它们学习从LR图像到HR图像的端到端的映射,并且字典元素被隐藏的卷积层取代。
3.2.图像恢复
图像恢复是指一种技术类型,这种技术类型旨在从给定降级过程的特定模型的图像的降级的版本中恢复高质量的原始的该图像。对于诸如视频会议和在线教学等现代应用,降级模型通常与降缩放采样、压缩(编码和解码)和升缩放采样有关。图像存在的两种最常见的降级形式是清晰度的损失或模糊的损失,以及额外的噪声。
在图像恢复中图像降噪的目的是通过使用平滑滤波器来降低噪声。高斯滤波器是最常用的平滑滤波器。它在图形软件中被广泛地有效地使用,通常用于降低图像噪声和去除细节。这种模糊技术的视觉效果是一种类似于通过半透明屏幕观看图像的平滑模糊,与通过失焦镜头产生的散景效果或物体在通常照明下的阴影明显不同。从数学上讲,将高斯模糊应用于图像与用高斯函数卷积图像相同。在二维中,它是两个高斯函数的乘积,每个维度中的一项如下:
其中x是水平轴上距离原点的距离,y是竖直轴上距离原点的距离,并且σ是高斯分布的均方差。它可以被视为低通滤波器来平滑图像/视频。
双边图像滤波器是一种在保持边缘结构的同时平滑噪声的非线性滤波器。双边滤波是一种使滤波器权重不仅随着样本之间的距离而减小,而且随着强度差异的增加而减小的技术。这样,边缘的过度平滑可以得到改善。权重被定义如下:
其中Δx和Δy是竖直距离和水平距离,并且ΔI是样本之间强度的差异。边缘保持降噪双边滤波器针对域滤波器和范围滤波器都采用低通高斯滤波器。域低通高斯滤波器对空间上靠近中心像素的像素给予更高的权重。范围低通高斯滤波器对与中心像素相似的像素给予更高的权重。结合范围滤波器和域滤波器,边缘像素处的双边滤波器成为沿着边缘被定向并且在梯度方向上被大大减少的拉长的高斯滤波器。这就是双边滤波器可以在保持边缘结构的同时平滑噪声的原因。
导向图像滤波器(GIF)是一种用于边缘保持图像平滑和图像细节增强的全局优化图像滤波器。导向滤波器从局部线性模型被导出,通过考虑导向图像的内容来计算滤波输出,导向图像的内容可以是输入图像本身或另一个不同的图像。导向滤波器可以像流行的双边滤波器一样用作边缘保留平滑算子,但它在边缘附近具有更好的表现。导向滤波器也是平滑之外更通用的概念:它可以将导向图像的结构传递到滤波输出,从而实现像去雾和导向羽化这样的新滤波应用。而且,导向滤波器天然具有快速和非近似的线性时间算法,而不管核大小和强度范围。导向滤波器在各种计算机视觉和计算机图形应用中既有效又高效,包括边缘感知平滑、细节增强、HDR压缩、图像抠图/羽化、去雾、联合上采样等。
图像恢复中图像清晰度增强的目的是通过增强高频分量来锐化图像。
非锐化掩码(USM)滤波器是最常用的图像锐化方法之一。它具有非常低成本的计算结构。非锐化掩码滤波器是一种线性滤波方法,其通过将输入图像的高频内容的一小部分添加回该图像来实现锐化。非锐化掩码滤波器的框图如图4所示。在公式中,USM可以描述为:
其中代表高通滤波器,/>表示低通滤波器,g[m,n]代表位于位置[m,n]处的样本,并且/>代表位于位置[m,n]处的更新的样本。
3.3.视频编解码器
视频压缩是减少多媒体数据冗余的不可或缺且有效的方法,其在节省数据存储空间和总数据传输成本方面变得越来越重要。视频编解码器通常具有基于块的混合编解码架构,如图5所示,该架构将帧间图片和帧内图片预测和变换编解码与熵编解码相结合。
3.4.屏幕内容图像/视频
在我们的日常生活中,屏幕内容图片近年来已经变得相当普遍。许多新兴应用,如在线游戏、移动网页浏览、视频会议和在线教学,都涉及计算机生成的屏幕内容图像。与相机生成的自然图像/视频不同,屏幕内容图像/视频是由计算机、手机或其他电子装置生成或渲染的。屏幕内容图像/视频通常包含测试、人工背景和图形,这导致锐利的边缘和频繁的转换。在屏幕共享过程中,多个客户可以使用不同分辨率的装置。此外,屏幕内容图像和视频通常以缩小的尺寸编解码,以节省传输和编解码成本。因此,缩放方法,特别是针对屏幕内容视频的具有清晰度增强的超分辨率方法是迫切需要的。
4.问题
现有的线性插值设计在被应用于上采样屏幕内容图像/视频时存在以下问题:
1.它们针对相机捕获的图像/视频进行了优化,而不考虑屏幕内容图像的特征。
2.输出视频通常包含模糊或清晰度损失。
3.本地和非本地信息未被利用。
4.来自经编解码的比特流的信息未被利用。
5.本公开的实施例
为了解决上述问题和一些未提及的其他问题,公开了如下所述的方法。本公开应当被认为是解释一般概念的示例,不应当以狭隘的方式来解读。此外,本公开可以被单独地应用或以任何方式进行组合。
在本公开中,一种称为具有细化/清晰度增强的快速超分辨率的方法被提出,其中(例如,在细化/清晰度增强过程中引入用于确定的掩码生成)是否对上采样的样本应用细化/清晰度增强是即时确定的。
所提出的细化(或清晰度增强)解决方案可以单独地被应用或与任何图像放大方法相结合,包括线性方法,如兰索斯(Lanczos)插值、双线性(Bilinear)插值、双三次(Bicubic)插值和非线性方法,如基于压缩感知和基于神经网络的方法。
此外,所提出的想法可以与任何视频编解码器结合,以提供高分辨率和高质量的屏幕内容视频。在又一个示例中,所提出的方法可以在编码/解码过程期间被应用,其中图片内的某个区域可以通过所提出的方法被上采样。
1)针对给定区域内的样本,是否应用细化/清晰度增强过程(例如,对上采样的样本值的额外的细化)可以被即时确定(例如,根据掩码)。
a.在一个示例中,确定可以取决于编码/解码信息,例如跳过模式或非跳过模式,是否存在非零变换系数。
b.在一个示例中,确定可以取决于上采样之前或上采样之后的样本值。
i.在一个示例中,样本值是位于包含要被细化/增强的当前样本的给定窗口内的值。
c.在一个例子中,细化/清晰度增强是基于USM架构而被实现的,同时针对USM过程中的每个步骤多次修改被应用。所提出的方法过程的示例如图6所示。
d.该想法利用初始插值方法来生成高分辨率图像/视频,并通过细化/清晰度增强方案进一步增强高分辨率图像/视频。细化/清晰度增强方案使用低通滤波器或高通滤波器来生成高频内容,并利用权重来增强高分辨率图像/视频中的高频内容。具体而言,该方案将输入像素/样本分类为多个组/类,并利用包含降级图像和真值图像对的训练数据集来学习针对每个组/类的特定权重/参数。所提出的想法可以在输入低分辨率图像/视频时产生具有更多细节和更少伪影的高分辨率、清晰度增强的图像/视频。
2)关于初始上采样过程
a.在一个示例中,兰索斯(Lanczos)插值可以针对初始上采样而被使用。
b.备选地,双三次算法在初始上采样过程中被利用。
c.备选地,双线性算法在初始上采样过程中被利用。
d.备选地,最近邻插值算法在在初始上采样过程中被利用。
e.备选地,其他线性或非线性超分辨率方法可以针对初始上采样而被使用。
3)关于梯度计算
a.在梯度初始化过程中针对视频单元(例如,每M*N个样本/像素,其中M和N是整数)的水平梯度和/或竖直梯度被计算。
i.备选地,此外,对角线梯度(例如,45度和/或135度)被计算。
a)在一个示例中,45度梯度被定义为:
当前视频单元与当前视频单元的相应的右上视频单元之间的差异和当前视频单元与当前视频单元的相应的左下视频单元之间的差异的总和。
b)在一个示例中,135度梯度被定义为:
当前视频单元与当前视频单元的相应的左上视频单元之间的差异和当前视频单元与当前视频单元的相应的右下视频单元之间的差异的总和。
ii.在一个示例中,M和N都等于1。
iii.在一个示例中,M或N中的任意一个大于1。
a)备选地,此外,针对每个视频单元,视频单元内每个样本/像素的梯度信息可以被计算和使用。
b)备选地,此外,针对每个视频单元,视频单元内选择性的K(K<M*N)个样本/像素的梯度信息可以被计算和使用。
c)在一个示例中,针对选择性的K个样本/像素(用tempG表示)中的每个样本/像素,梯度信息可以首先被计算,并且针对视频单元的最终梯度信息可以基于计算的tempG,例如,tempG的平均和。
iv.在一个示例中,通过填充边界样本,图片边界之外的样本的梯度信息被计算。
a)在一个示例中,视频单元的边界样本可以通过镜像函数而被填充。
b)在一个示例中,视频单元的边界样本可以通过扩展函数而被填充。
b.在一个示例中,每个视频单元的梯度被进一步细化,例如直接使用梯度信息的平均值。
i.在一个示例中,针对K*L子区域内所有视频单元的每个方向(例如,水平/竖直/对角线),梯度的平均值被计算,并作为针对K*L子区域内所有样本的细化梯度而被使用。
c.在上述示例中,M、N、X、Y、K、L和T中的至少一个可以被预先定义或被自适应地改变(例如,根据缩放因子/分辨率/解码信息)或被用信号发送。
4)关于掩码生成
a.在一个示例中,基于包含一个或多个样本/像素的视频单元的初始化的/细化的梯度,掩码(MASK)生成过程被调用。
i.在一个示例中,针对处理单元(例如,X*Y样本/像素),相同的掩码值被共享。
a)在一个示例中,掩码值针对处理单元被计算一次。
b)在一个示例中,掩码被定义为:
a.当两个对角线梯度都小于阈值T时,掩码值被设置为1。
b.当水平梯度和竖直梯度都小于阈值T时,掩码值被设置为1。
c.否则,掩码值被设置为0。
b.在一个示例中,处理单元与针对梯度计算的视频单元相同,即X=M,并且Y=N。
c.在一个示例中,处理单元大于针对梯度计算的视频单元,即X*Y>M*N。
a)在一个示例中,针对处理单元掩码值被计算一次。
b)在一个示例中,掩码是基于一个或多个视频单元的梯度而被计算的。
d.在一个示例中,根据编码/解码信息,例如,是否块使用跳过模式而被编解码,或者是否没有非零变换系数,掩码(MASK)可以被导出。
e.在一个示例中,掩码(MASK)信息可以被利用以确定是否执行细化/清晰度增强过程。
5)关于边缘强度测量
a.在一个示例中,视频单元内的样本可以被分类为Nclass个类别(例如,Nclass=64)。
i.在一个示例中,通过边缘强度测量方法,视频单元内的样本可以被分类为多个类别。
a)在一个示例中,边缘强度测量方法可以是LoG算子。
b)在一个示例中,边缘强度测量方法可以是DoG算子。
c)在一个示例中,边缘强度测量方法可以是基于梯度的算子。
d)在一个示例中,边缘强度测量方法可以是边缘检测方法。
ii.在一个示例中,固定阈值Tclass可以被用于基于LoG值、DoG值或其他边缘强度测量方法来计算样本的类别索引,如下所示:
其中0≤indexsample<Nclass,并且infosample代表相应的边缘强度测量信息。
iii.在一个示例中,一组阈值可以被用于基于LoG值、DoG值或其他边缘强度测量方法来对视频单元内的样本分类,如下所示:
indexsampe=0当
indexsample=1当
…
indexsample=Nclass-2当
indexsample=Nclass-1当/>
其中0≤indexsample<Nclass并且infosample代表相应的边缘强度测量信息。
6)关于滤波器匹配
a.在一个示例中,USM架构可以在细化/清晰度增强过程中被使用。在公式中,USM架构可以被描述如下:
其中代表输入视频单元的高频内容,/>代表更新的视频单元。
i.在一个示例中,视频单元的高频内容可以通过高通滤波器直接地生成。
a)在一个示例中,高通滤波器可以是拉普拉斯(Laplacian)算子。
b)在一个示例中,高通滤波器可以是索贝尔(Sobel)算子。
c)在一个示例中,高通滤波器可以是各向同性(Isotropic)算子。
d)在一个示例中,高通滤波器可以是普里威特(Prewitt)算子。
e)备选地,该高通滤波器可以是任何其他高通滤波器。
ii.在一个示例中,视频单元的高频内容可以通过低通滤波器和相应的输入样本而被生成。
a)在一个示例中,视频单元的高频内容可以基于输入内容和相应的低频内容之间的差异而被计算,如下所示:
其中g[m,n]代表位置[m,n]处的输入样本,和/>分别代表高频内容和低频内容。
a.在一个示例中,低通滤波器可以是高斯(Gaussian)算子。
b.在一个示例中,低通滤波器可以是双边(Bilateral)滤波器。
c.在一个示例中,低通滤波器可以是导向(Guided)滤波器。
d.在一个示例中,该低通滤波器可以是任何其他低通滤波器。
iii.在一个示例中,为了通过选择的高通滤波器或低通滤波器生成输入视频单元的高频内容,针对每个类别被使用的相应的参数可以是单独的。
iv.备选地,为了通过选择的高通滤波器或低通滤波器生成输入视频单元的高频内容,针对每个类别被使用的相应的参数可以是统一的。
v.在一个示例中,在选择的高通滤波器或低通滤波器中被使用的参数可以是预先训练的、预先定义的或即时确定的。
vi.在一个示例中,一组权重可以被用于增强输入视频单元的高频内容。
vii.备选地,固定权重λfixed可以被用于增强针对不同的样本类别的输入视频单元的高频内容。
viii.在一个示例中,用于增强输入视频单元的高频内容的权重可以是预先训练的、预先定义的或即时确定的。
b.在一个示例中,在细化/清晰度增强中其他图像/视频恢复架构可以被使用。
7)关于边界样本的填充
a.在一个示例中,在细化/清晰度增强过程之前/或之后,视频单元可以被填充。
b.在一个示例中,是否填充和/或如何填充样本/像素可以取决于邻近样本/像素初始是否已经被放大。
c.在一个示例中,当邻近样本/像素初始已经被放大时,邻近样本/像素可以使用放大的样本/像素而被填充。
d.备选地,当邻近的样本/像素没有被放大时,预先定义的值可以被用于填充。
e.在一个示例中,扩展和/或镜像填充可以被使用,在扩展和/或镜像填充中填充样本/像素不是来自邻近样本/像素,而是来自当前视频单元。
f.在一个示例中,视频单元的边界样本可以通过镜像函数而被填充。
i.例如,假设边界样本是[a,b,c],填充的样本可以是[c,b,a,b,c],如图7A所示。
g.在一个示例中,视频单元的边界样本可以通过扩展函数而被填充。
i.例如,假设边界样本是[a,b,c],填充的样本可以是[b,c,a,b,c],如图7B所示。
h.在一个示例中,填充的样本/像素可以在提出的滤波过程中被应用。
i.在一个示例中,通过细化/清晰度增强,更新的样本/像素可以被用于填充样本/像素。
8)关于启用/禁用滤波
a.是否跳过滤波一些像素/样本可以根据掩码(MASK)信息而被确定。
b.是否跳过滤波一些像素/样本可以根据来自视频编解码器的解码信息而被确定。
9)关于多个缩放因子
a.数个放大比率共享一组用于细化/清晰度增强过程的参数和权重。
i.在一个示例中,M(例如,M=10)个缩放模型完全被训练/维护以覆盖几乎所有常用的缩放比率。
a)在一个示例中,针对1/k(例如,k=0.1)的放大比率训练的参数和权重在放大比率在中的情况下被使用,1/k的放大比率是M中的最大比率。
b)在一个示例中,针对1/p(例如,p=0.9)的放大比率训练的模型在放大比率在中的情况下被使用,1/p的放大比率是M中的最小比率。
c)在一个示例中,针对放大比率1/q(例如,q=0.5)训练的模型在放大比率在中的情况下将会被使用。
ii.在一个示例中,当水平/竖直缩放因子不同时,输入的视频单元被单独地水平缩放和竖直缩放。
iii.在一个示例中,当水平/竖直缩放因子不同时,输入的视频单元被单独地水平增强和竖直增强。
10)关于并行处理。
i.在一个示例中,输入视频单元可以被划分为多个非重叠的条带,并且每个条带被单独处理而不参考任何其他条带中的任何样本。
ii.备选地,输入视频单元可以被划分为多个非重叠的区域,并且每个区域被单独处理,但参考其他区域中的样本。
11)解码信息可以在上采样过程和增强过程中被利用来确定滤波器信息(包括但不限于在高频内容生成中被使用的参数、在细化/清晰度增强中被使用的权重等)和/或滤波器的开/关:
a.关于解码信息
i.在一个示例中,解码信息可以是在解码的比特流中的复制先前重建的帧的重用标志。
ii.在一个示例中,解码信息可以是在解码的比特流中的参考帧信息。
iii.在一个示例中,解码信息可以是在解码的比特流中的块分割信息。
iv.在一个示例中,解码信息可以是在解码的比特流中的IBC模式或帧间模式中的跳过模式标志信息。
v.在一个示例中,解码信息可以是在解码的比特流中的IBC模式或帧间模式中的MV或BV信息。
vi.在一个示例中,解码信息可以是在解码的比特流中的CBF信息。
b.针对跳过上采样过程和/或增强过程的帧级决策
i.在一个示例中,整帧级上采样过程和/或增强过程可以被跳过。
a)在一个示例中,先前处理的帧将被重用并且当前帧的上采样过程和/或增强过程将被跳过。
a.备选地,此外,当针对当前帧的复制先前重建的帧的重用标志等于1时,上述方法可以被应用。
b)在一个示例中,重用的放大帧根据当前帧的相应的参考帧信息被选择。
c.针对跳过上采样和/或增强过程的块级决策。
i.在一个示例中,输入帧可以被分割为视频单元并且每个视频单元可以被自适应地确定是否和/或如何应用上采样过程和/或增强过程。
a)在一个示例中,确定可以是根据来自解码的比特流的视频单元分割信息。
b)在一个示例中,针对视频单元,如果确定跳过上采样过程和/或增强过程,则视频单元的输出版本可以从先前处理的视频单元(在当前帧中或其他帧中)中被导出。
c)在一个示例中,当当前视频单元的跳过模式标志等于1时,先前处理的视频单元可以被重用,并且当前视频单元的上采样过程和/或增强过程可以被跳过。
d)在一个示例中,当当前视频单元的CBF等于0时,先前处理的视频单元可以被重用,并且当前视频单元的上采样过程和/或增强过程可以被跳过。
e)在一个示例中,重用的放大块根据相应的MV或BV信息和参考帧信息而被选择。
12)关于滤波器形状:
a.在一个示例中,滤波器形状可以是正方形。
i.例如,正方形的滤波器形状可以如图8A所示。
b.在一个示例中,滤波器形状可以是菱形。
i.例如,菱形的滤波器形状可以如图8B所示。
c.在一个示例中,滤波器形状可以是十字形。
i.例如,十字形的滤波器形状可以如图8C所示。
d.在一个示例中,滤波器形状可以是对称的。
e.在一个示例中,滤波器形状可以是不对称的。
13)关于与初始插值放大混合
a.放大的视频单元和增强的视频单元可以与初始放大的视频单元一起被混合。
i.在一个示例中,在处理的视频单元中通过平滑检测方法(例如,Census变换)定义的平滑区域可以与初始放大的视频单元一起被混合。
14)关于滤波
a.在一个示例中,滤波以M*N个样本/像素为基础而被执行,即相同的滤波系数被应用于M*N个样本。
15)提出的方法可以在解码的过程中被使用,其中放大版本可以被利用来预测要被解码的其他图片。
a.在一个示例中,解码的帧可以首先被放大,然后被利用。
16)提出的方法可以在解码的过程中被使用,其中帧内的子区域的放大版本可以被利用来预测要被解码的其他区域。
a.在一个示例中,子区域的指示符可以被用信号发送。
i.在一个示例中,子区域可以被定义为CTB/CTU/预先定义的尺寸。
图9示出了根据本公开的一些实施例的用于视频处理的方法900的流程图。如图9所示,方法900包括:在视频的当前视频部分和视频的比特流之间的转换期间,至少基于当前视频部分的编解码信息,确定902被应用于当前视频部分的过程,所确定的过程包括上采样过程或增强过程中的至少一个过程;以及基于所确定的过程执行904转换。
根据方法900,是否或如何执行上采样过程和/或增强或视频部分可以取决于视频部分的编解码信息。因此,基于所提出的方案的视觉质量得到增强。与常规方案相比,根据本公开的实施例的方法900可以有利地提高编解码效率,并且具有更多像素和更好视觉质量的更大尺寸的图像/视频被实现。
在一些实施例中,下文中使用的术语“当前视频部分”可以指视频的当前视频单元或视频的当前帧。
在一些实施例中,编解码信息包括编码信息或解码信息中的至少一种信息。
在一些实施例中,解码信息可以被用于确定用于要在上采样过程和/或增强过程中执行的滤波过程的滤波器信息。在一些实施例中,解码信息可以被用于确定在滤波过程中使用的滤波器的控制信息。例如,指示滤波器是开还是关的控制信息。
在一些实施例中,滤波器信息包括被用于高频内容生成的参数中的至少一个参数或被用于滤波过程的至少一个目标权重。
在一些实施例中,解码信息包括以下至少一项:在解码的比特流中的复制先前重建的帧的重用标志,在解码的比特流中的参考帧信息,在解码的比特流中的块分割信息,在解码的比特流中的帧内块复制(IBC)模式或帧间模式中的跳过模式标志信息,在解码的比特流中的IBC模式或帧间模式中的运动矢量(MV)或二进制矢量(BV)信息,或在解码的比特流中的编解码块标志(CBF)信息。
在一些实施例中,在当前视频部分是视频的当前帧的情况下,整帧级上采样过程和/或增强过程可以被跳过。
在一些实施例中,与当前帧相关联的先前处理的帧被重用,并且当前帧的上采样过程和/或增强过程被跳过。备选地,如果用于当前帧的复制先前重建的帧的重用标志等于1,则上述方法可以被应用。
在一些实施例中,先前处理的帧可以根据当前帧的相应参考帧信息而被选择。
在一些实施例中,在当前视频部分是视频的当前视频单元的情况下,上采样过程和/或增强过程是否可以被应用于当前视频单元是基于当前视频单元的从解码的比特流获得的分割信息而被确定的。
在一些实施例中,确定可以是根据来自解码的比特流的视频单元分割信息。
在一些实施例中,针对当前视频单元,如果确定跳过上采样过程和/或增强过程,则当前视频单元的输出版本可以从先前处理的视频单元被导出,先前处理的视频单元可以在当前帧中或其他帧中。
在一些实施例中,如果当前视频单元的跳过模式标志等于预先定义的标志值,则先前处理的视频单元可以被重用,并且当前视频单元的上采样过程和/或增强过程可以被跳过。例如,预先定义的标志值可以等于1。
在一些实施例中,如果当前视频单元的CBF等于预先定义的标志值,则先前处理的视频单元可以被重用,并且当前视频单元的上采样过程和/或增强过程可以被跳过。例如,预先定义的标志值可以等于0。
在一些实施例中,重用的放大块根据相应的MV或BV信息和参考帧信息而被选择。
在一些实施例中,针对给定区域内的样本,例如当前视频部分,是否应用增强过程可以,例如,基于掩码,被即时确定。在一些实施例中,增强过程包括细化过程和/或清晰度过程。例如,细化过程可以指对上采样的样本值的附加细化。
在一些实施例中,确定可以取决于编解码信息,例如编码和/或解码信息。例如,如果确定跳过模式被允许应用或者在编解码信息中存在非零变换系数,则增强过程可以被跳过。
在一些实施例中,确定可以取决于在上采样之前或在上采样之后与当前视频部分相关联的样本值。例如,样本值是位于当前视频部分中的预先确定的窗口内的当前样本的值。
在一些实施例中,增强过程可以基于非锐化掩码(USM)架构而被实现,同时对USM过程中的每个步骤的多个修改可以被应用。例如,图6示出了增强过程的示例。
总的来说,基于图6所示的示例,本公开的实施例可以利用初始插值方法来生成高分辨率图像/视频,并通过细化/清晰度增强方案进一步增强高分辨率图像/视频。细化/清晰度增强方案使用低通或高通滤波器来生成高频内容,并利用权重来增强高分辨率图像/视频中的高频内容。具体而言,该方案将输入像素/样本分类为多个组/类,并利用包含降级图像和真值图像对的训练数据集来学习每个组/类的特定权重/参数。本公开的解决方案可以在输入低分辨率图像/视频时,产生具有更多细节和更少伪影的高分辨率、清晰度增强的图像/视频。
在一些实施例中,当前视频部分可以是从通过初始插值过程生成的高分辨率图像或高分辨率图像视频获得的。
在一些实施例中,兰索斯(Lanczos)插值可以被用于初始上采样。在一些实施例中,诸如双三次算法、双线性算法、最近邻插值算法等其他插值方法还可以被使用。应当理解,其他线性或非线性超分辨率方法可以被用于初始上采样。
在一些实施例中,针对当前视频单元,在梯度初始化过程中针对当前视频单元的水平和/或竖直梯度被计算。备选地,对角线梯度,例如45度和/或135度,也可以在梯度初始化过程中被计算。例如,45度梯度被定义为当前视频单元与当前视频单元的相应的右上视频单元之间的差异和当前视频单元与当前视频单元的相应的左下视频单元之间的差异的总和。例如,135度梯度被定义为当前视频单元与当前视频单元的相应的左上视频单元之间的差异和当前视频单元与当前视频单元的相应的右下视频单元之间的差异之和。
例如,如果当前视频单元包含M*N个样本/像素,并且M和N是整数,则M和N都等于1。备选地,M或N中的任意一个大于1。
此外,在一些实施例中,针对每个视频单元,视频单元内的每个样本/像素的梯度信息可以被计算和使用。
此外,针对每个视频单元,样本/像素的选择性部分的梯度信息,例如视频单元内的K个样本/像素(K<M*N),可以被计算和使用。
在一些实施例中,针对样本/像素的选择性部分内的每个样本/像素的梯度信息,例如K个样本/像素(K<M*N),其可以用tempG表示,可以首先被计算,并且针对视频单元的最终梯度信息可以基于计算的tempG而被计算,例如,tempG的平均和。
在一些实施例中,位于图片边界之外的样本的梯度信息通过填充边界样本而被计算。作为一种选择,视频单元的边界样本可以通过镜像函数而被填充。作为另一种选择,视频单元的边界样本可以通过扩展函数而被填充。
例如,关于边界样本的填充,视频单元可以在细化/清晰度增强过程之前/之后被填充。
在一些实施例中,是否填充和/或如何填充样本/像素可以取决于邻近样本/像素初始是否已经被放大。例如,如果邻近样本/像素初始已经被放大,则邻近样本/像素可以使用放大的样本/像素而被填充。备选地,如果邻近样本/像素没有被放大,则预先定义的值可以被使用来填充。
在一些实施例中,扩展和/或镜像填充可以被使用,在扩展和/或镜像填充中填充样本/像素不是来自邻近的样本/像素,而是来自当前视频单元。
如图7A所示,视频单元的边界样本可以通过镜像函数被填充。例如,假设边界样本是[a,b,c],边界样本[a,b,c]在图7A的区域701中被指示,则填充的样本可以是[c,b,a,b,c],填充的样本[c,b,a,b,c]在图7A的区域702中被指示。在图7A中,区域710中的样本/像素可以包括在当前视频单元中,而区域720中的样本/像素可以是填充的样本/像素。
如图7B所示,视频单元的边界样本可以通过扩展函数被填充。例如,假设边界样本是[a,b,c],边界样本[a,b,c]在图7B的区域703中被指示,则填充的样本可以是[b,c,a,b,c],填充的样本[b,c,a,b,c]在图7B的区域704中被指示。在图7B中,区域730中的样本/像素可以包括在当前视频单元中,而区域740中的样本/像素可以是填充的样本/像素。
在一些实施例中,每个视频单元的梯度可以被进一步细化,例如直接使用梯度信息的平均值。例如,针对子区域,例如,具有维度为K*L,内的所有视频单元的每个方向(例如,水平/竖直/对角线)的梯度的平均值被计算和使用以作为子区域内所有样本的细化的梯度。
可以理解,下文中使用的M、N、X、Y、K、L和T中的至少一个可以是预先定义的或自适应改变的,例如,根据缩放因子/分辨率/解码信息,或被用信号发送。
在一些实施例中,通过使用基于当前视频单元的梯度,用于增强的掩码(MASK)生成过程被调用。这里使用的当前视频单元的梯度可以指当前视频单元的初始化梯度或当前视频单元的细化的梯度。例如,当前视频单元可以包含一个或多个样本/像素。
在一些实施例中,针对掩码(MASK)生成过程中的处理单元,相同的掩码值针对包含在处理单元中的样本/像素被共享,例如,处理单元可以包括X*Y个样本/像素。作为一种选择,掩码值针对处理单元被计算一次。作为另一种选择,掩码被定义如下。例如,如果两个对角线梯度都小于阈值T,则掩码值被设置为1,如果水平和竖直梯度都小于阈值T,则掩码值被设置为1,否则,掩码值被设置为0。
在一些实施例中,处理单元与用于梯度计算的视频单元相同,即X=M和Y=N。
在一些实施例中,处理单元大于用于梯度计算的视频单元,即X*Y>M*N。例如,掩码值针对处理单元被计算一次。备选地,掩码基于一个或多个视频单元的梯度而被计算。
在一些实施例中,掩码(MASK)可以根据编码/解码信息而被导出,例如,块是否使用跳过模式被编解码,或者是否不存在非零变换系数。
在一些实施例中,掩码(MASK)信息可以被利用来确定是否执行细化/清晰度增强过程。
此外,针对当前视频部分中的样本,例如当前视频单元,当前视频单元内的样本可以被分类为Nclass个类别(例如Nclass=64)。
在一些实施例中,当前视频单元内部的样本可以通过边缘强度测量方法被分类为多个类别。例如,边缘强度测量方法可以是LoG算子、DoG算子、基于梯度的算子和/或边缘检测方法。
在一些实施例中,固定阈值Tclass可以被用于基于LoG值、DoG值或其他边缘强度测量方法来计算样本的类索引,如下所示:
其中0≤indexsample<Nclass,infosample表示边缘强度测量的相应信息。
在一些实施例中,一组阈值可以被用于基于LoG值、DoG值或其他边缘强度测量方法来分类视频单元内部的样本,如下所示:
indexsampe=0当
indexsample=1当
…
indexsample=Nclass-2当
indexsample=Nclass-1当
其中0≤indexsample<Nclass并且infosample代表相应的边缘强度测量信息。
如上所述,USM架构可以被用于细化/清晰度增强过程。具体地,如果增强过程要被应用于当前视频部分,则高频内容可以通过使用低通滤波器或高通滤波器对当前视频部分滤波而被获得。此外,至少一个目标权重可以针对高频内容而被确定,并且增强过程可以通过基于至少一个目标权重来增强高频内容而被执行。
在公式中,USM架构可以描述如下:
其中,表示输入视频单元的高频内容,/>表示更新的视频单元,g表示当前视频部分中的当前样本,并且λ表示针对高频内容的至少一个目标权重。
在一些实施例中,视频单元的高频内容可以通过高通滤波器直接地被生成。例如,高通滤波器可以是拉普拉斯(Laplacian)算子、索贝尔(Sobel)算子、各向同性算子或普里威特(Prewitt)算子,可以理解,该高通滤波器也可以是任何其他高通滤波器。
在一些实施例中,视频单元的高频内容可以通过低通滤波器和相应的输入样本而被生成。例如,视频单元的高频内容可以基于输入内容和相应的低频内容之间的差异而被计算,如下所示:
其中g[m,n]代表位置[m,n]处的输入样本,和/>分别代表高频内容和低频内容。
在一些实施例中,该低通滤波器可以是高斯(Gaussian)算子、双边滤波器、导向滤波器或任何其他低通滤波器。
在一些实施例中,对于通过被选择的高通滤波器或低通滤波器生成输入视频单元的高频内容,用于每个类别的相应参数可以是单独的。
备选地,对于通过被选择的高通滤波器或低通滤波器生成输入视频单元的高频内容,用于每个类别的相应参数可以是统一的。
在一些实施例中,在被选择的高通滤波器或低通滤波器中使用的参数可以是预先训练的、预先定义的或即时确定的。
在一些实施例中,一组权重可以被用于增强输入视频单元的高频内容。
备选地,固定权重λfixed可以被用于增强针对不同样本类别的输入视频单元的高频内容。
在一些实施例中,用于增强输入视频单元的高频内容的权重可以是预先训练的、预先定义的或即时确定的。
备选地,可以理解,其他图像/视频恢复架构可以被用于细化/清晰度增强。
在一些实施例中,填充的样本/像素,如上所述,也可以被用于所提出的滤波处理。
在一些实施例中,通过细化/清晰度增强获得的更新的样本/像素也可以被用于填充样本/像素。
在一些实施例中,在滤波过程中,是否跳过对一些像素/样本的滤波,例如在当前视频部分内,可以根据掩码(MASK)信息被确定。
在一些实施例中,在滤波过程中,是否跳过对一些像素/样本的滤波,例如在当前视频部分内,可以根据来自视频编解码器的解码信息被确定。
在增强过程中,针对当前视频部分的多个缩放因子还可以被考虑。例如,数个放大比率共享一组用于细化/清晰度增强过程的参数和权重。
在一些实施例中,M(例如,M=10)个缩放模型可以完全被训练/维护以覆盖几乎所有常用的缩放比率。例如,针对1/k(例如,k=0.1)的放大比率训练的参数和权重在放大比率在中的情况下被使用,1/k的放大比率是M中的最大比率。备选地,或此外,针对1/p(例如,p=0.9)的放大比率训练的模型在放大比率在/>中的情况下被使用,1/p的放大比率是M中的最小比率。同样可能的是,针对放大比率1/q(例如,q=0.5)训练的模型在放大比率在/>中的情况下将会被使用。
在一些实施例中,当水平/竖直缩放因子不同时,输入的视频单元,例如当前视频单元,被单独地水平缩放和竖直缩放。
在一些实施例中,当水平/竖直缩放因子不同时,输入的视频单元,例如当前视频单元,被单独地水平增强和竖直增强。
进一步地,在增强过程中,输入视频单元,例如当前视频单元,可以被划分为多个非重叠的条带,并且每个条带被单独处理而不参考任何其他条带中的任何样本。备选地,输入视频单元,例如当前视频单元,可以被划分为多个非重叠的区域,并且每个区域被单独处理,但参考其他区域中的样本。
在一些实施例中,在滤波过程中,不同的滤波器形状可以被使用。在一些实施例中,滤波器形状可以是正方形,如图8A所示。备选地,滤波器形状可以是菱形,如图8B所示。进一步地,滤波器形状可以是十字形,如图8C所示。
在一些实施例中,滤波器形状可以是对称的或不对称的。
在一些实施例中,在增强过程中,尤其是在与初始插值放大混合时,放大的和增强的视频单元可以与初始放大的视频单元一起被混合。例如,在处理的视频单元中通过平滑检测方法(例如,Census变换)定义的平滑区域可以与初始放大的视频单元一起被混合。
在一些实施例中,在滤波过程中,滤波以M*N个样本/像素为基础而被执行,即相同的滤波系数被应用于M*N个样本。
在一些实施例中,如上所述,本公开的解决方案可以被用于解码过程中,其中放大版本可以被利用来预测要被解码的其他图片。例如,解码的帧可以首先被放大,然后被利用。
在一些实施例中,如上所述,本公开的解决方案可以被用于解码过程中,其中帧内的子区域的放大版本可以被利用来预测要被解码的其他区域。例如,子区域的指示符可以被用信号发送。在一些实施例中,子区域可以被定义为编解码树块(CTB),编解码树单元(CTU)或预先定义的尺寸。
在一些实施例中,在904处的转换可以包括从视频的比特流解码目标图片。
在一些实施例中,在904处的转换可以包括将目标图片编码成视频的比特流。
可以根据以下条款来描述本公开的实施方式,这些条款的特征可以以任何合理的方式进行组合。
条款1.一种用于视频处理的方法,包括:在视频的当前视频部分和所述视频的比特流之间的转换期间,至少基于所述当前视频部分的编解码信息,确定被应用于所述当前视频部分的过程,所确定的所述过程包括上采样过程或增强过程中的至少一个过程;以及基于所确定的所述过程执行所述转换。
条款2.根据条款1所述的方法,其中所述编解码信息包括编码信息或解码信息中的至少一种信息。
条款3.根据条款2所述的方法,其中所述解码信息被用于确定以下至少一项:用于要在所述上采样过程和所述增强过程中的至少一个过程中执行的滤波过程的滤波器信息,或者在所述滤波过程中使用的滤波器的控制信息。
条款4.根据条款3所述的方法,其中所述滤波器信息包括用于高频内容生成的参数中的至少一个或用于所述滤波过程的至少一个目标权重。
条款5.根据条款3所述的方法,其中所述控制信息指示所述滤波器是开还是关。
条款6.根据条款2所述的方法,其中所述解码信息包括以下至少一项:在解码的比特流中的复制先前重建的帧的重用标志,在所述解码的比特流中的参考帧信息,在所述解码的比特流中的块分割信息,在所述解码的比特流中的帧内块复制(IBC)模式或帧间模式中的跳过模式标志信息,在所述解码的比特流中的IBC模式或帧间模式中的运动矢量(MV)或二进制矢量(BV)信息,或在所述解码的比特流中的编解码块标志(CBF)信息。
条款7.根据条款1所述的方法,其中所述当前视频部分是所述视频的当前帧,并且所确定的所述过程被跳过,所确定的所述过程是整帧级过程。
条款8.根据条款7所述的方法,其中与所述当前帧相关联的先前处理的帧被重用,并且所确定的所述过程被跳过。
条款9.根据条款7所述的方法,其中用于所述当前帧的复制所述先前处理的帧的重用标志等于1。
条款10.根据条款8所述的方法,其中所述先前处理的帧根据所述当前帧的相应参考帧信息而被选择。
条款11.根据条款1所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且所述上采样过程和所述增强过程中的至少一个过程是否被应用于所述当前视频单元是基于所述当前视频单元的从解码的比特流获得的分割信息而被确定。
条款12.根据条款11所述的方法,其中如果确定针对所述当前视频单元跳过所述上采样过程和所述增强过程中的至少一个过程,则所述当前视频单元的输出版本从先前处理的视频单元被导出。
条款13.根据条款11所述的方法,其中如果所述当前视频单元的跳过模式标志等于1,则所述先前处理的视频单元被重用,并且所述上采样过程和所述增强过程中的至少一个过程被跳过。
条款14.根据条款11所述的方法,其中如果所述当前视频单元的编解码块标志(CBF)等于0,则所述先前处理的视频单元被重用并且所述上采样过程和所述增强过程中的至少一个过程被跳过。
条款15.根据条款13或14所述的方法,其中重用的放大块根据相应的运动矢量(MV)或二进制矢量(BV)信息和参考帧信息而被选择。
条款16.根据条款1所述的方法,其中所述增强过程包括细化过程或清晰度过程中的至少一个过程。
条款17.根据条款1所述的方法,其中是否应用所述增强过程是即时确定的。
条款18.根据条款1所述的方法,其中是否应用所述增强过程基于所述编解码信息而被确定。
条款19.根据条款1所述的方法,其中是否应用所述增强过程是基于在所述上采样过程之前或之后与所述当前视频部分相关联的样本值而被确定。
条款20.根据条款19所述的方法,其中所述样本值是位于所述当前视频部分中的预先确定的窗口内的当前样本的值。
条款21.根据条款1所述的方法,其中所述当前视频部分是从通过初始插值过程生成的高分辨率图像或高分辨率图像视频获得的。
条款22.根据条款21所述的方法,其中所述初始插值过程包括以下至少一项:兰索斯插值,双三次算法,双线性算法,或最近邻插值算法。
条款23.根据条款1所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且掩码生成过程是针对所述增强过程通过利用所述当前视频单元的梯度而被执行。
条款24.根据条款23所述的方法,其中相同的掩码值针对所述掩码生成过程中的处理单元的当前样本被共享。
条款25.根据条款23所述的方法,其中掩码值针对所述掩码生成过程中的处理单元被计算一次。
条款26.根据条款25所述的方法,其中如果两个对角线梯度都小于阈值或水平梯度和竖直梯度都小于阈值,则共享的所述掩码值被设置为第一掩码值,以及如果两个对角线梯度都不小于所述阈值,或者水平梯度和竖直梯度都不小于所述阈值,则共享的所述掩码值被设置为第二掩码值。
条款27.根据条款26所述的方法,其中所述第一掩码值为1且所述第二掩码值为0。
条款28.根据条款23所述的方法,其中在所述掩码生成过程中的处理单元与所述当前视频单元相同。
条款29.根据条款23所述的方法,其中在所述掩码生成过程中的处理单元大于所述当前视频单元。
条款30.根据条款29所述的方法,其中掩码值针对所述掩码生成过程中的处理单元被计算一次。
条款31.根据条款29所述的方法,其中掩码值基于一个或多个当前视频单元的梯度而被计算。
条款32.根据条款23所述的方法,其中在所述掩码生成过程中生成的掩码基于所述编解码信息而被导出。
条款33.根据条款32所述的方法,其中所述增强过程是否应用于所述掩码信息从所述掩码生成过程被获得。
条款34.根据条款23所述的方法,其中所述当前视频单元的所述梯度在梯度初始化过程中被计算,并且其中所述当前视频单元的所述梯度包括以下至少一项:水平梯度,竖直梯度,或对角线梯度。
条款35.根据条款34所述的方法,其中所述对角线梯度包括45度梯度或135度梯度中的至少一个,其中所述45度梯度指示所述当前视频单元与所述当前视频单元的相应的右上视频单元之间的第一差异和所述当前视频单元与所述当前视频单元的相应的左下视频单元之间的第二差异的总和。
条款36.根据条款34所述的方法,其中所述当前视频单元包括M*N个样本或M*N个像素,其中M和N是整数。
条款37.根据条款36所述的方法,其中M和N都等于1。
条款38.根据条款36所述的方法,其中M或N中的任意一个大于1。
条款39.根据条款36所述的方法,其中M*N个样本或M*N个像素中的每一个被用于所述梯度初始化过程中的所述计算。
条款40.根据条款36所述的方法,其中M*N个样本或M*N个像素的一部分被用于所述梯度初始化过程中的所述计算。
条款41.根据条款40所述的方法,其中所述当前视频单元的所述梯度从由M*N个样本或M*N个像素的所述一部分计算的初始梯度信息被获得。
条款42.根据条款34所述的方法,其中位于所述当前视频单元的边界之外的一个或多个当前样本的梯度是通过填充所述一个或多个当前样本而被计算。
条款43.根据条款42所述的方法,其中所述一个或多个当前样本通过镜像函数或扩展函数而被填充,所述当前视频单元内的一个或多个参考样本在所述镜像函数或所述扩展函数中被使用。
条款44.根据条款42所述的方法,其中所述填充在所述增强过程之前或在所述增强过程之后而被执行。
条款45.根据条款42所述的方法,其中如果与所述当前视频单元相关联的一个或多个邻近样本或像素初始已被放大,则所述一个或多个邻近样本或像素被允许用于所述填充。
条款46.根据条款42所述的方法,其中如果与所述当前视频单元相关联的一个或多个邻近样本或像素初始没有被放大,则预先定义的值被允许用于所述填充。
条款47.根据条款34所述的方法,其中所述当前视频单元的所述梯度是通过使用梯度的平均值而被进一步细化。
条款48.根据条款47所述的方法,其中在预先定义的区域内的所述当前视频单元中的针对每个方向的梯度的平均值被用作具有所述预先定义的区域的所有当前样本的细化梯度。
条款49.根据条款1所述的方法,其中非锐化掩码(USM)架构在所述增强过程中被使用。
条款50.根据条款1所述的方法,其中执行所述转换包括:如果确定所述增强过程被应用,通过利用低通滤波器或高通滤波器对所述当前视频部分滤波来获得高频内容;确定针对所述高频内容的至少一个目标权重;以及通过基于所述至少一个目标权重增强所述高频内容来执行所述增强过程。
条款51.根据条款50所述的方法,其中所述增强过程基于以下项被执行:
其中表示所述高频内容、/>表示增强的当前样本、g表示所述当前视频部分中的当前样本,并且λ表示所述至少一个目标权重。
条款52.根据条款50所述的方法,其中所述高频内容由高通滤波器直接生成。
条款53.根据条款52所述的方法,其中所述高通滤波器包括拉普拉斯算子、索贝尔算子、各向同性算子或普里威特算子中的至少一个算子。
条款54.根据条款50所述的方法,其中所述高频内容由低通滤波器生成。
条款55.根据条款54所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中所述当前视频单元的所述高频内容是基于输入内容和相应的低频内容之间的差异而被计算的。
条款56.根据条款55所述的方法,其中所述高频内容基于以下项被计算:
其中g[m,n]表示为位置[m,n]处的当前样本,表示高频内容,并且/>表示低频内容。
条款57.根据条款54所述的方法,其中所述低通滤波器包括高斯算子、双边滤波器或导向滤波器中的至少一项。
条款58.根据条款50所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中对于通过被选择的高通滤波器或低通滤波器生成所述当前视频单元的所述高频内容,用于与所述当前视频单元中的当前样本相关联的每个类别的相应参数是单独的。
条款59.根据条款58所述的方法,其中在所述高通滤波器或低通滤波器中使用的所述相应参数是预先训练的、预先定义的或即时确定的。
条款60.根据条款50所述的方法,其中所述至少一个目标权重指示用于增强高频内容的一组权重值。
条款61.根据条款50所述的方法,其中所述至少一个目标权重指示用于增强针对不同样本类别的高频内容的固定权重值。
条款62.根据条款50所述的方法,其中用于增强高频内容的所述至少一个权重是预先训练的、预先定义的或即时确定的。
条款63.根据条款50所述的方法,其中确定针对所述高频内容的至少一个目标权重包括:将所述当前视频部分中的当前样本分类为多组当前样本或多类当前样本;基于包含参考降级样本和原始参考样本对的训练集,学习针对所述多组当前样本或所述多类当前样本的相应的权重;以及将所述相应的权重确定为至少一个目标权重。
条款64.根据条款63所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中所述当前视频单元中的所述当前样本基于边缘强度测量而被分类为第一数目的类别。
条款65.根据条款64所述的方法,其中所述边缘强度测量包括高斯拉普拉斯(LoG)算子、高斯差(DoG)算子、基于梯度的算子或边缘检测方法中的至少一项。
条款66.根据条款64所述的方法,其中针对所述边缘强度测量的固定阈值被用于基于LoG值或DoG值或其他边缘强度测量方法来计算当前样本的类别索引。
条款67.根据条款66所述的方法,其中所述类别索引基于以下项被计算:
其中0≤indexsample<Nclass,infosample表示所述边缘强度测量的对应信息,Tclass表示所述固定阈值,并且Nclass表示所述第一数目。
条款68.根据条款64所述的方法,其中一组阈值被用于基于LoG值、DoG值或其他边缘强度测量方法来对所述当前样本进行分类。
条款69.根据条款68所述的方法,其中所述当前样本基于以下项被分类:
indexsampe=0当
indexsample=1当
…
indexsample=Nclass-2当
indexsample=Nclass-1当
其中0≤indexsample<Nclass,infosample表示所述边缘强度测量的对应信息,表示所述一组阈值,并且Nclass表示所述第一数目。
条款70.根据条款50所述的方法,其中所述当前视频部分内的部分像素/样本不基于掩码信息或编解码信息被滤波。
条款71.根据条款50所述的方法,其中一个或多个填充的样本用于所述滤波。
条款72.根据条款50所述的方法,其中所述一个或多个填充样本与所述增强过程一起被应用。
条款73.根据条款50所述的方法,其中用于对所述至少一个当前样本滤波的形状是正方形、菱形或十字形。
条款74.根据条款50所述的方法,其中用于对所述至少一个当前样本滤波的形状是对称的或不对称的。
条款75.根据条款50所述的方法,其中所述当前视频部分包括M*N个样本或M*N个像素,并且其中相同的滤波器系数被应用于在所述M*N个样本或所述M*N个像素中执行的所述M*N个样本。
条款76.根据条款50所述的方法,其中在所述增强过程中使用的一组参数或权重由多个放大比率共享。
条款77.根据条款76所述的方法,其中第二数目的缩放模型被训练或维护以覆盖几乎所有常用的缩放比率。
条款78.根据条款76所述的方法,其中针对1/k的放大比率训练的所述至少一个目标权重在放大比率在中的情况下被使用,所述1/k的放大比率是多个放大比率中的最大比率。
条款79.根据条款76所述的方法,其中针对1/p训练的所述至少一个目标权重在放大比率在中的情况下被使用,所述1/p是所述多个放大比率中的最小比率。
条款80.根据条款76所述的方法,其中针对1/q训练的所述至少一个目标权重在放大比率在中的情况下被使用。
条款81.根据条款76所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中如果水平缩放因子或竖直缩放因子不同,则所述当前视频单元被独立地水平缩放和竖直缩放。
条款82.根据条款76所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中当水平缩放因子或竖直缩放因子不同时,所述当前视频部分被独立地水平增强和竖直增强。
条款83.根据条款1所述的方法,其中所确定的所述过程在所述当前视频部分的解码过程中被使用,并且其中所述当前视频部分的放大版本被用于预测要解码的其他图片。
条款84.根据条款83所述的方法,其中所述当前视频部分是所述视频的当前帧,并且其中解码的当前帧首先被放大,并且然后被利用。
条款85.根据条款1所述的方法,其中所确定的所述过程在所述当前视频部分的解码过程中被使用,并且其中与所述当前视频部分相关联的当前帧内的子区域的放大版本被用于预测要解码的其他区域。
条款86.根据条款85所述的方法,其中所述子区域的指示符被获得。
条款87.根据条款85所述的方法,其中所述子区域被定义为编解码树块(CTB)、编解码树单元(CTU)或预先定义的尺寸。
条款88.根据条款1所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中如果所述增强过程被应用于所述当前视频单元,则增强参考视频单元被允许与所述当前视频单元混合。
条款89.根据条款1所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中所述当前视频单元被划分为多个非重叠的条带,并且所述多个非重叠的条带中的每个条带被单独处理,而不参考其他条带中的样本或参考其他区域中的样本。
条款90.根据条款1-89中任一项所述的方法,其中所述转换包括从所述视频的所述比特流解码所述当前视频部分。
条款91.根据条款1-89中任一项所述的方法,其中所述转换包括将所述当前视频部分编码到所述视频的所述比特流中。
条款92.一种用于处理视频数据的装置,包括处理器和其上具有指令的非瞬态存储器,其中所述指令在由所述处理器执行时使所述处理器执行根据条款1-91中任一项所述的方法。
条款93.一种非瞬态计算机可读存储介质,存储使处理器执行根据条款1-91中任一项所述的方法的指令。
条款94.一种非瞬态计算机可读记录介质,存储视频的由视频处理装置执行的方法生成的比特流,其中所述方法包括:至少基于所述视频的当前视频部分的编解码信息,确定被应用于所述当前视频部分的过程,所确定的所述过程包括上采样过程或增强过程中的至少一个过程;以及基于所确定的所述过程生成所述比特流。
条款95.一种用于存储视频的比特流的方法,包括:至少基于所述视频的当前视频部分的编解码信息,确定被应用于所述当前视频部分的过程,所确定的所述过程包括上采样过程或增强过程中的至少一个过程;基于所确定的所述过程生成所述比特流;以及将所述比特流存储在非瞬态计算机可读记录介质中。
示例设备
图10示出了可以在其中实现本公开的各种实施例的计算设备1000的框图。计算设备1000可以被实现为源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300),或者可以被包括在源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300)中。
应当理解的是,图10中示出的计算设备1000仅为了说明的目的,而不是以任何方式暗示对本公开实施例的功能和范围的任何限制
如图10所示,计算设备1000包括通用计算设备1000。计算设备1000可以至少包括一个或多个处理器或处理单元1010、存储器1020、存储单元1030、一个或多个通信单元1040、一个或多个输入设备1050以及一个或多个输出设备1060。
在一些实施例中,计算设备1000可以被实现为具有计算能力的任何用户终端或服务器终端。服务器终端可以是由服务提供商提供的服务器、大型计算设备等。用户终端例如可以是任何类型的移动终端、固定终端或便携式终端,包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、个人通信***(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或其任何组合,并且包括这些设备的附件和***设备或其任何组合。可以设想的是,计算设备1000可以支持到用户的任何类型的接口(诸如“可穿戴”电路装置等)。
处理单元1010可以是物理处理器或虚拟处理器,并且可以基于存储在存储器1020中的程序实现各种处理。在多处理器***中,多个处理单元并行地执行计算机可执行指令,以便改善计算设备1000的并行处理能力。处理单元1010也可以被称为中央处理单元(CPU)、微处理器、控制器或微控制器。
计算设备1000通常包括各种计算机存储介质。这样的介质可以是由计算设备1000可访问的任何介质,包括但不限于易失性介质和非易失性介质、或可拆卸介质和不可拆卸介质。存储器1020可以是易失性存储器(例如,寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(诸如只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)或闪存)或其任何组合。存储单元1030可以是任何可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如存储器、闪存驱动器、磁盘或其他可以被用于存储信息和/或数据并且可以在计算设备1000中被访问的介质。
计算设备1000还可以包括附加的可拆卸/不可拆卸存储介质、易失性/非易失性存储介质。尽管在图10中未示出,但是可以提供用于从可拆卸的非易失性磁盘读取和/或写入可拆卸的非易失性磁盘的磁盘驱动器,以及用于从可拆卸的非易失性光盘读取和/或写入可拆卸的非易失性光盘的光盘驱动器。在这种情况下,每个驱动器可以经由一个或多个数据介质接口连接到总线(未示出)。
通信单元1040经由通信介质与另一计算设备通信。另外,计算设备1000中的组件的功能可以由可以经由通信连接进行通信的单个计算集群或多个计算机器来实现。因此,计算设备1000可以使用与一个或多个其他服务器、联网个人计算机(PC)或其他通用网络节点的逻辑连接来在联网环境中运行。
输入设备1050可以是各种输入设备中的一种或多种输入设备,诸如鼠标、键盘、轨迹球、语音输入设备等。输出设备1060可以是各种输出设备中的一种或多种输出设备,诸如显示器、扬声器、打印机等。借助于通信单元1040,计算设备1000还可以与一个或多个外部设备(未示出)通信,外部设备诸如是存储设备和显示设备,计算设备1000还可以与一个或多个使用户能够与计算设备1000交互的设备通信,或任何使计算设备1000能够与一个或多个其他计算设备通信的设备(例如网卡、调制解调器等)通信,如果需要的话。这种通信可以经由输入/输出(I/O)接口(未示出)进行。
在一些实施例中,计算设备1000的一些或所有组件也可以被布置在云计算架构中,而不是被集成在单个设备中。在云计算架构中,组件可以被远程提供并且共同工作,以实现本公开中描述的功能。在一些实施例中,云计算提供计算、软件、数据访问和存储服务,这将不要求最终用户知晓提供这些服务的***或硬件的物理位置或配置。在各种实施例中,云计算使用合适的协议经由广域网(例如互联网)提供服务。例如,云计算提供商通过广域网提供应用程序,可以通过网络浏览器或任何其他计算组件访问这些应用程序。云计算架构的软件或组件以及对应的数据可以存储在远程服务器上。云计算环境中的计算资源可以被合并或分布在远程数据中心的位置。云计算基础设施可以通过共享数据中心提供服务,尽管它们表现为作为用户的单一接入点。因此,云计算架构可与被用于从远程位置的服务提供商处提供本文所述的组件和功能。备选地,它们可以由常规服务器提供,或者直接或以其他方式安装在客户端设备上。
在本公开的实施例中,计算设备1000可以被用于实现视频编码/解码。存储器1020可以包括具有一个或多个程序指令的一个或多个视频编解码模块1025。这些模块能够由处理单元1010访问和执行,以执行本文描述的各种实施例的功能。
在执行视频编码的示例实施例中,输入设备1050可以接收视频数据作为待编码的输入1070。视频数据可以由例如视频编解码模块1025处理,以生成经编码的码流。经编码的码流可以经由输出设备1060作为输出1080被提供。
在执行视频解码的示例实施例中,输入设备1050可以接收经编码的码流作为输入1070。经编码的码流可以由例如视频编解码模块1025处理,以生成经解码的视频数据。经解码的视频数据可以经由输出设备1060作为输出1080被提供。
虽然已经参考本公开的优选实施例具体示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求限定的本申请的精神和范围的情况下,可以在形式和细节上进行各种改变。这些变化旨在由本申请的范围所涵盖。因此,本申请的实施例的前述描述不旨在是限制性的。
Claims (95)
1.一种用于视频处理的方法,包括:
在视频的当前视频部分和所述视频的比特流之间的转换期间,至少基于所述当前视频部分的编解码信息,确定被应用于所述当前视频部分的过程,所确定的所述过程包括上采样过程或增强过程中的至少一个过程;以及
基于所确定的所述过程执行所述转换。
2.根据权利要求1所述的方法,其中所述编解码信息包括编码信息或解码信息中的至少一种信息。
3.根据权利要求2所述的方法,其中所述解码信息被用于确定以下至少一项:
用于要在所述上采样过程和所述增强过程中的至少一个过程中执行的滤波过程的滤波器信息,或者
在所述滤波过程中使用的滤波器的控制信息。
4.根据权利要求3所述的方法,其中所述滤波器信息包括用于高频内容生成的参数中的至少一个或用于所述滤波过程的至少一个目标权重。
5.根据权利要求3所述的方法,其中所述控制信息指示所述滤波器是开还是关。
6.根据权利要求2所述的方法,其中所述解码信息包括以下至少一项:
在解码的比特流中的复制先前重建的帧的重用标志,
在所述解码的比特流中的参考帧信息,
在所述解码的比特流中的块分割信息,
在所述解码的比特流中的帧内块复制(IBC)模式或帧间模式中的跳过模式标志信息,
在所述解码的比特流中的IBC模式或帧间模式中的运动矢量(MV)或二进制矢量(BV)信息,或
在所述解码的比特流中的编解码块标志(CBF)信息。
7.根据权利要求1所述的方法,其中所述当前视频部分是所述视频的当前帧,并且所确定的所述过程被跳过,所确定的所述过程是整帧级过程。
8.根据权利要求7所述的方法,其中与所述当前帧相关联的先前处理的帧被重用,并且所确定的所述过程被跳过。
9.根据权利要求7所述的方法,其中用于所述当前帧的复制所述先前处理的帧的重用标志等于1。
10.根据权利要求8所述的方法,其中所述先前处理的帧根据所述当前帧的相应参考帧信息而被选择。
11.根据权利要求1所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且所述上采样过程和所述增强过程中的至少一个过程是否被应用于所述当前视频单元是基于所述当前视频单元的从解码的比特流获得的分割信息而被确定。
12.根据权利要求11所述的方法,其中如果确定针对所述当前视频单元跳过所述上采样过程和所述增强过程中的至少一个过程,则所述当前视频单元的输出版本从先前处理的视频单元被导出。
13.根据权利要求11所述的方法,其中如果所述当前视频单元的跳过模式标志等于1,则所述先前处理的视频单元被重用,并且所述上采样过程和所述增强过程中的至少一个过程被跳过。
14.根据权利要求11所述的方法,其中如果所述当前视频单元的编解码块标志(CBF)等于0,则所述先前处理的视频单元被重用并且所述上采样过程和所述增强过程中的至少一个过程被跳过。
15.根据权利要求13或14所述的方法,其中重用的放大块根据相应的运动矢量(MV)或二进制矢量(BV)信息和参考帧信息而被选择。
16.根据权利要求1所述的方法,其中所述增强过程包括细化过程或清晰度过程中的至少一个过程。
17.根据权利要求1所述的方法,其中是否应用所述增强过程是即时确定的。
18.根据权利要求1所述的方法,其中是否应用所述增强过程基于所述编解码信息而被确定。
19.根据权利要求1所述的方法,其中是否应用所述增强过程是基于在所述上采样过程之前或之后与所述当前视频部分相关联的样本值而被确定。
20.根据权利要求19所述的方法,其中所述样本值是位于所述当前视频部分中的预先确定的窗口内的当前样本的值。
21.根据权利要求1所述的方法,其中所述当前视频部分是从通过初始插值过程生成的高分辨率图像或高分辨率图像视频获得的。
22.根据权利要求21所述的方法,其中所述初始插值过程包括以下至少一项:
兰索斯插值,
双三次算法,
双线性算法,或
最近邻插值算法。
23.根据权利要求1所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且掩码生成过程是针对所述增强过程通过利用所述当前视频单元的梯度而被执行。
24.根据权利要求23所述的方法,其中相同的掩码值针对所述掩码生成过程中的处理单元的当前样本被共享。
25.根据权利要求23所述的方法,其中掩码值针对所述掩码生成过程中的处理单元被计算一次。
26.根据权利要求25所述的方法,其中
如果两个对角线梯度都小于阈值或水平梯度和竖直梯度都小于阈值,则共享的所述掩码值被设置为第一掩码值,以及
如果两个对角线梯度都不小于所述阈值,或者水平梯度和竖直梯度都不小于所述阈值,则共享的所述掩码值被设置为第二掩码值。
27.根据权利要求26所述的方法,其中所述第一掩码值为1且所述第二掩码值为0。
28.根据权利要求23所述的方法,其中在所述掩码生成过程中的处理单元与所述当前视频单元相同。
29.根据权利要求23所述的方法,其中在所述掩码生成过程中的处理单元大于所述当前视频单元。
30.根据权利要求29所述的方法,其中掩码值针对所述掩码生成过程中的处理单元被计算一次。
31.根据权利要求29所述的方法,其中掩码值基于一个或多个当前视频单元的梯度而被计算。
32.根据权利要求23所述的方法,其中在所述掩码生成过程中生成的掩码基于所述编解码信息而被导出。
33.根据权利要求32所述的方法,其中所述增强过程是否应用于所述掩码信息从所述掩码生成过程被获得。
34.根据权利要求23所述的方法,其中所述当前视频单元的所述梯度在梯度初始化过程中被计算,并且其中所述当前视频单元的所述梯度包括以下至少一项:
水平梯度,
竖直梯度,或
对角线梯度。
35.根据权利要求34所述的方法,其中所述对角线梯度包括45度梯度或135度梯度中的至少一个,其中所述45度梯度指示所述当前视频单元与所述当前视频单元的相应的右上视频单元之间的第一差异和所述当前视频单元与所述当前视频单元的相应的左下视频单元之间的第二差异的总和。
36.根据权利要求34所述的方法,其中所述当前视频单元包括M*N个样本或M*N个像素,其中M和N是整数。
37.根据权利要求36所述的方法,其中M和N都等于1。
38.根据权利要求36所述的方法,其中M或N中的任意一个大于1。
39.根据权利要求36所述的方法,其中M*N个样本或M*N个像素中的每一个被用于所述梯度初始化过程中的所述计算。
40.根据权利要求36所述的方法,其中M*N个样本或M*N个像素的一部分被用于所述梯度初始化过程中的所述计算。
41.根据权利要求40所述的方法,其中所述当前视频单元的所述梯度从由M*N个样本或M*N个像素的所述一部分计算的初始梯度信息被获得。
42.根据权利要求34所述的方法,其中位于所述当前视频单元的边界之外的一个或多个当前样本的梯度是通过填充所述一个或多个当前样本而被计算。
43.根据权利要求42所述的方法,其中所述一个或多个当前样本通过镜像函数或扩展函数而被填充,所述当前视频单元内的一个或多个参考样本在所述镜像函数或所述扩展函数中被使用。
44.根据权利要求42所述的方法,其中所述填充在所述增强过程之前或在所述增强过程之后而被执行。
45.根据权利要求42所述的方法,其中如果与所述当前视频单元相关联的一个或多个邻近样本或像素初始已被放大,则所述一个或多个邻近样本或像素被允许用于所述填充。
46.根据权利要求42所述的方法,其中如果与所述当前视频单元相关联的一个或多个邻近样本或像素初始没有被放大,则预先定义的值被允许用于所述填充。
47.根据权利要求34所述的方法,其中所述当前视频单元的所述梯度是通过使用梯度的平均值而被进一步细化。
48.根据权利要求47所述的方法,其中在预先定义的区域内的所述当前视频单元中的针对每个方向的梯度的平均值被用作具有所述预先定义的区域的所有当前样本的细化梯度。
49.根据权利要求1所述的方法,其中非锐化掩码(USM)架构在所述增强过程中被使用。
50.根据权利要求1所述的方法,其中执行所述转换包括:
如果确定所述增强过程被应用,通过利用低通滤波器或高通滤波器对所述当前视频部分滤波来获得高频内容;
确定针对所述高频内容的至少一个目标权重;以及
通过基于所述至少一个目标权重增强所述高频内容来执行所述增强过程。
51.根据权利要求50所述的方法,其中所述增强过程基于以下项被执行:
其中表示所述高频内容、/>表示增强的当前样本、g表示所述当前视频部分中的当前样本,并且λ表示所述至少一个目标权重。
52.根据权利要求50所述的方法,其中所述高频内容由高通滤波器直接生成。
53.根据权利要求52所述的方法,其中所述高通滤波器包括拉普拉斯算子、索贝尔算子、各向同性算子或普里威特算子中的至少一个算子。
54.根据权利要求50所述的方法,其中所述高频内容由低通滤波器生成。
55.根据权利要求54所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中所述当前视频单元的所述高频内容是基于输入内容和相应的低频内容之间的差异而被计算的。
56.根据权利要求55所述的方法,其中所述高频内容基于以下项被计算:
其中g[m,n]表示为位置[m,n]处的当前样本,表示高频内容,并且/>表示低频内容。
57.根据权利要求54所述的方法,其中所述低通滤波器包括高斯算子、双边滤波器或导向滤波器中的至少一项。
58.根据权利要求50所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中对于通过被选择的高通滤波器或低通滤波器生成所述当前视频单元的所述高频内容,用于与所述当前视频单元中的当前样本相关联的每个类别的相应参数是单独的。
59.根据权利要求58所述的方法,其中在所述高通滤波器或低通滤波器中使用的所述相应参数是预先训练的、预先定义的或即时确定的。
60.根据权利要求50所述的方法,其中所述至少一个目标权重指示用于增强高频内容的一组权重值。
61.根据权利要求50所述的方法,其中所述至少一个目标权重指示用于增强针对不同样本类别的高频内容的固定权重值。
62.根据权利要求50所述的方法,其中用于增强高频内容的所述至少一个权重是预先训练的、预先定义的或即时确定的。
63.根据权利要求50所述的方法,其中确定针对所述高频内容的至少一个目标权重包括:
将所述当前视频部分中的当前样本分类为多组当前样本或多类当前样本;
基于包含参考降级样本和原始参考样本对的训练集,学习针对所述多组当前样本或所述多类当前样本的相应的权重;以及
将所述相应的权重确定为至少一个目标权重。
64.根据权利要求63所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中所述当前视频单元中的所述当前样本基于边缘强度测量而被分类为第一数目的类别。
65.根据权利要求64所述的方法,其中所述边缘强度测量包括高斯拉普拉斯(LoG)算子、高斯差(DoG)算子、基于梯度的算子或边缘检测方法中的至少一项。
66.根据权利要求64所述的方法,其中针对所述边缘强度测量的固定阈值被用于基于LoG值或DoG值或其他边缘强度测量方法来计算当前样本的类别索引。
67.根据权利要求66所述的方法,其中所述类别索引基于以下项被计算:
其中0≤indexsample<Nclass,infosample表示所述边缘强度测量的对应信息,Tclass表示所述固定阈值,并且Nclass表示所述第一数目。
68.根据权利要求64所述的方法,其中一组阈值被用于基于LoG值、DoG值或其他边缘强度测量方法来对所述当前样本进行分类。
69.根据权利要求68所述的方法,其中所述当前样本基于以下项被分类:
indexsampe=0当
indexsample=1当
…
indexsample=Nclass-2当
indexsample=Nclass-1当
其中0≤indexsample<Nclass,infosample表示所述边缘强度测量的对应信息,表示所述一组阈值,并且Nclass表示所述第一数目。
70.根据权利要求50所述的方法,其中所述当前视频部分内的部分像素/样本不基于掩码信息或编解码信息被滤波。
71.根据权利要求50所述的方法,其中一个或多个填充的样本用于所述滤波。
72.根据权利要求50所述的方法,其中所述一个或多个填充样本与所述增强过程一起被应用。
73.根据权利要求50所述的方法,其中用于对所述至少一个当前样本滤波的形状是正方形、菱形或十字形。
74.根据权利要求50所述的方法,其中用于对所述至少一个当前样本滤波的形状是对称的或不对称的。
75.根据权利要求50所述的方法,其中所述当前视频部分包括M*N个样本或M*N个像素,并且其中相同的滤波器系数被应用于在所述M*N个样本或所述M*N个像素中执行的所述M*N个样本。
76.根据权利要求50所述的方法,其中在所述增强过程中使用的一组参数或权重由多个放大比率共享。
77.根据权利要求76所述的方法,其中第二数目的缩放模型被训练或维护以覆盖几乎所有常用的缩放比率。
78.根据权利要求76所述的方法,其中针对1/k的放大比率训练的所述至少一个目标权重在放大比率在中的情况下被使用,所述1/k的放大比率是多个放大比率中的最大比率。
79.根据权利要求76所述的方法,其中针对1/p训练的所述至少一个目标权重在放大比率在中的情况下被使用,所述1/p是所述多个放大比率中的最小比率。
80.根据权利要求76所述的方法,其中针对1/q训练的所述至少一个目标权重在放大比率在中的情况下被使用。
81.根据权利要求76所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中如果水平缩放因子或竖直缩放因子不同,则所述当前视频单元被独立地水平缩放和竖直缩放。
82.根据权利要求76所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中当水平缩放因子或竖直缩放因子不同时,所述当前视频部分被独立地水平增强和竖直增强。
83.根据权利要求1所述的方法,其中所确定的所述过程在所述当前视频部分的解码过程中被使用,并且其中所述当前视频部分的放大版本被用于预测要解码的其他图片。
84.根据权利要求83所述的方法,其中所述当前视频部分是所述视频的当前帧,并且其中解码的当前帧首先被放大,并且然后被利用。
85.根据权利要求1所述的方法,其中所确定的所述过程在所述当前视频部分的解码过程中被使用,并且其中与所述当前视频部分相关联的当前帧内的子区域的放大版本被用于预测要解码的其他区域。
86.根据权利要求85所述的方法,其中所述子区域的指示符被获得。
87.根据权利要求85所述的方法,其中所述子区域被定义为编解码树块(CTB)、编解码树单元(CTU)或预先定义的尺寸。
88.根据权利要求1所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中如果所述增强过程被应用于所述当前视频单元,则增强参考视频单元被允许与所述当前视频单元混合。
89.根据权利要求1所述的方法,其中所述当前视频部分是所述视频的当前视频单元,并且其中所述当前视频单元被划分为多个非重叠的条带,并且所述多个非重叠的条带中的每个条带被单独处理,而不参考其他条带中的样本或参考其他区域中的样本。
90.根据权利要求1-89中任一项所述的方法,其中所述转换包括从所述视频的所述比特流解码所述当前视频部分。
91.根据权利要求1-89中任一项所述的方法,其中所述转换包括将所述当前视频部分编码到所述视频的所述比特流中。
92.一种用于处理视频数据的装置,包括处理器和其上具有指令的非瞬态存储器,其中所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-91中任一项所述的方法。
93.一种非瞬态计算机可读存储介质,存储使处理器执行根据权利要求1-91中任一项所述的方法的指令。
94.一种非瞬态计算机可读记录介质,存储视频的由视频处理装置执行的方法生成的比特流,其中所述方法包括:
至少基于所述视频的当前视频部分的编解码信息,确定被应用于所述当前视频部分的过程,所确定的所述过程包括上采样过程或增强过程中的至少一个过程;以及
基于所确定的所述过程生成所述比特流。
95.一种用于存储视频的比特流的方法,包括:
至少基于所述视频的当前视频部分的编解码信息,确定被应用于所述当前视频部分的过程,所确定的所述过程包括上采样过程或增强过程中的至少一个过程;
基于所确定的所述过程生成所述比特流;以及
将所述比特流存储在非瞬态计算机可读记录介质中。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNPCT/CN2021/093802 | 2021-05-14 | ||
CN2021093802 | 2021-05-14 | ||
PCT/CN2022/092785 WO2022237899A1 (en) | 2021-05-14 | 2022-05-13 | Method, device, and medium for video processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117426094A true CN117426094A (zh) | 2024-01-19 |
Family
ID=84028200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280033705.6A Pending CN117426094A (zh) | 2021-05-14 | 2022-05-13 | 用于视频处理的方法、设备和介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117426094A (zh) |
WO (1) | WO2022237899A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116260973B (zh) * | 2023-03-31 | 2024-03-19 | 北京百度网讯科技有限公司 | 一种时域滤波方法、装置、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10616583B2 (en) * | 2016-06-30 | 2020-04-07 | Sony Interactive Entertainment Inc. | Encoding/decoding digital frames by down-sampling/up-sampling with enhancement information |
CN109257605B (zh) * | 2017-07-13 | 2021-11-19 | 华为技术有限公司 | 图像处理方法、设备及*** |
WO2019112394A1 (ko) * | 2017-12-07 | 2019-06-13 | 한국전자통신연구원 | 채널들 간의 선택적인 정보 공유를 사용하는 부호화 및 복호화를 위한 방법 및 장치 |
CN108833918B (zh) * | 2018-06-20 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 视频编码方法、解码方法、装置、计算机设备及存储介质 |
-
2022
- 2022-05-13 WO PCT/CN2022/092785 patent/WO2022237899A1/en active Application Filing
- 2022-05-13 CN CN202280033705.6A patent/CN117426094A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022237899A1 (en) | 2022-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114424542B (zh) | 具有非规范平滑的基于视频的点云压缩 | |
US8582666B2 (en) | Image compression and decompression | |
US10506249B2 (en) | Segmentation-based parameterized motion models | |
US20220148131A1 (en) | Image/video super resolution | |
Wang et al. | Multi-scale convolutional neural network-based intra prediction for video coding | |
WO2022237899A1 (en) | Method, device, and medium for video processing | |
EP4268463A1 (en) | Switchable dense motion vector field interpolation | |
WO2023056364A1 (en) | Method, device, and medium for video processing | |
US11823350B2 (en) | Image/video processing | |
Kim et al. | Exploiting pseudo-quadtree structure for accelerating HEVC spatial resolution downscaling transcoder | |
WO2023160717A1 (en) | Method, apparatus, and medium for video processing | |
WO2024061330A1 (en) | Method, apparatus, and medium for video processing | |
US20240244272A1 (en) | Method, device, and medium for video processing | |
WO2024078632A1 (en) | Method, apparatus, and medium for video processing | |
WO2023051654A1 (en) | Method, apparatus, and medium for video processing | |
WO2023198120A1 (en) | Method, apparatus, and medium for video processing | |
WO2023226951A1 (en) | Method, apparatus, and medium for video processing | |
US20240205417A1 (en) | Method, apparatus, and medium for video processing | |
WO2024078599A1 (en) | Method, apparatus, and medium for video processing | |
WO2024078598A1 (en) | Method, apparatus, and medium for video processing | |
WO2023198057A1 (en) | Method, apparatus, and medium for video processing | |
US20240137577A1 (en) | Super Resolution Upsampling and Downsampling | |
US20240244226A1 (en) | Method, apparatus, and medium for video processing | |
US20240236380A9 (en) | Super Resolution Upsampling and Downsampling | |
WO2024083250A1 (en) | Method, apparatus, and medium for video processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |