CN118044189A - 使用元数据编码和解码多意图图像和视频 - Google Patents
使用元数据编码和解码多意图图像和视频 Download PDFInfo
- Publication number
- CN118044189A CN118044189A CN202280066734.2A CN202280066734A CN118044189A CN 118044189 A CN118044189 A CN 118044189A CN 202280066734 A CN202280066734 A CN 202280066734A CN 118044189 A CN118044189 A CN 118044189A
- Authority
- CN
- China
- Prior art keywords
- image
- metadata
- intent
- adjustment
- applying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 103
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000035945 sensitivity Effects 0.000 claims description 14
- 238000012546 transfer Methods 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 239000003086 colorant Substances 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims 7
- 238000009877 rendering Methods 0.000 abstract description 26
- 230000006870 function Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 17
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 5
- 238000013138 pruning Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 1
- 208000006992 Color Vision Defects Diseases 0.000 description 1
- 201000000761 achromatopsia Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 201000007254 color blindness Diseases 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000001093 holography Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
Abstract
用于使用元数据对多意图图像和视频进行编码和解码的***和方法。当将图像编码为多意图图像时,可以对该图像进行至少一次外观调整。表征该至少一次外观调整的元数据可包括在被编码的多意图图像中,或者连同被编码的多意向图像一起传输。当解码该多意图图像时,***可获得对所期望的渲染意图的选择,并且基于该选择,利用所应用的外观调整来渲染该多意图图像,或者可使用该元数据使该外观调整逆转并且将图像恢复到外观调整之前。
Description
相关申请的交叉引用
本申请要求2021年10月1日提交的美国临时申请第63/251427号以及2021年11月16日提交的欧洲专利申请第21208445.3号的优先权,所有这些专利申请通过引用方式整体并入本文。
技术领域
本申请整体涉及图像编码和解码的***和方法。
背景技术
皮埃尔·安德里文(Pierre Andrivon)等人:“针对颜色映射信息的SEI消息(SEImessage for Colour Mapping Information)”,ITU-T SG 16WP 3和ISO/IEC JTC 1/SC29/WG 11视频编码联合协作小组(JCT-VC)第17次会议:西班牙巴伦西亚,2014年3月27日至4月4日,编号:JCTVC-Q0074,2014年4月2日,XP030239839,提出一种SET消息中的颜色映射侧信息,该信息保证与即将推出的HDTV和多阶段UHDTV服务部署相关的平滑颜色空间变换。据称,所提出的映射有助于保留工作室制作的内容的艺术意图,同时保持电视机制造商之间的差异。该想法首次曝光于JCTVC-N0180中。JCTVC-00363阐明所提议的SET消息意图。此外,还处理了复杂性问题,对JCTVC-P0126中的颜色映射模型进行了简化。最后,该提议还处理编辑问题和同步层面。提供了一种识别所提出的模型参数的软件。在HM-13.0+RExt-6.0编码器和解码器中提供了实施方式。当存在所提出的颜色映射信息SEI消息时,对解码后的输出图片进行颜色映射。
US2016/261889 A1公开了一种可易于提高编码效率的图像处理装置和方法。设置单元,该设置单元被配置为设置附加信息,该附加信息包括与重新排列原始数据的每个像素数据的打包处理相关的打包信息,该原始数据是根据相关度执行去马赛克处理之前的图像数据;和编码单元,该编码单元被配置为对经过打包处理的原始数据进行编码,以及生成比特流,该比特流包括所获得的经编码的数据以及由设置单元设置的附加信息。
“研究小组报告高动态范围(HDR)成像生态***(Study Group Report High-Dynamic-Range(HDR)Imaging Ecosystem)”,SMPTE技术委员会(TC)10E SG,2015年9月19日,XP055250336,提出了高动态范围(HDR)和相关技术的定义,描述了用于形成、交付和显示HDR相关内容的各个生态***当前所存在的差距,确定可能受到HDR生态***影响的现有标准,包括宽色域(Wide Color Gamut,WGC),并确定实施问题可能需要进行进一步调查的领域。该报告侧重于专业应用领域,但没有明确论述实现到户的问题。
US2016/254028A1公开了为视频数据流生成和应用场景稳定(scene-stable)元数据的方法和***。视频数据流被划分或分区成场景,并且可以为视频数据的给定场景生成第一组元数据。第一组元数据可以是任何已知的作为所期望的视频内容(例如,亮度)的函数的元数据。可逐帧生成第一组元数据。生成可不同于场景的第一组元数据的场景稳定元数据。该场景稳定元数据通过监视所期望的具有场景的特征来生成,并且用于将所期望的特征保持在可接受的值范围内。这可有助于在渲染视频数据时避免发生明显的且可能是不想要的视觉伪影。
WO 2020/264409 A1公开了为在目标上播放的视频保留原始创作意图的问题提供解决方案的装置和方法。视频比特流包括元数据,该元数据具有指示针对目标显示器的创作意图的标志。该元数据包括许多字段,这些字段表示诸如内容类型、内容子类型、预期的白点、是否在参考模式下使用视频、预期的清晰度、预期的降噪、预期的MPEG降噪、预期的帧速率转换、预期的平均图片水平和预期的颜色等特征。该元数据意在使内容创作者轻松标记其内容。可以在多个点将元数据添加到视频内容,标志的状态设置为真(TRUE)或假(FALSE),以指示元数据是由内容创作者添加还是由第三方添加。
发明内容
本发明由独立权利要求限定。从属权利要求涉及本发明的一些实施例的可选特征。当对使用数字设备捕获到的场景的图像进行编码时,通常的做法是通过例如调整图像以供在参考查看环境中查看并且应用诸如增强的对比度和颜色饱和度之类的美学调整来调整捕获到的图像。期望能够传输由成像传感器捕获到的表示“真实”的原始捕获或预处理的图像,然后在播放时应用这些操作。这将允许实现多种渲染意图:在播放时,设备可渲染原始捕获的“真实”图像,或者替代地,设备可对原始捕获的“真实”图像进行修改来形成“令人愉悦的”图像。因此,已经开发出编码和解码多意图图像的技术。
本公开的各个方面涉及用于编码和解码一个或多个多意图图像的设备、***和方法。
在本公开的一个示例性方面中,提供了一种用于编码多意图图像的方法。该方法包括获得用于编码为多意图图像的图像,对该图像应用至少一次外观调整,生成表征该至少一次外观调整的元数据,以及将该图像和元数据编码为多意图图像。
在本公开的另一示例性方面中,提供了一种用于解码多意图图像的方法。该方法包括获得多意图图像以及元数据,该元数据表征多意图图像与多意图图像的替代版本之间的至少一次外观调整,获得对多意图图像的替代版本的选择,以及使用元数据,对多意图图像应用至少一次外观调整的逆调整,以恢复多意图图像的替代版本。
在本公开的另一示例性方面中,提供了一种提供多意图图像的方法。该方法包括获得用于编码为多意图图像的原始图像,生成表征对原始图像应用的至少一次外观调整的元数据,将原始图像和元数据编码为多意图图像,以及提供多意图图像。
在本公开的另一示例性方面中,提供一种存储指令的非暂态计算机可读介质,该指令在由处理器执行时致使处理器执行操作,该操作包括获得用于编码为多意图图像的图像,对该图像应用至少一次外观调整,生成表征至少一次外观调整的元数据,以及将图像和元数据编码为多意图图像。
在本公开的另一示例性方面中,提供一种存储指令的非暂态计算机可读介质,该指令在由处理器执行时致使处理器执行操作,该操作包括获得多意图图像以及元数据,该元数据表征多意图图像与多意图图像的替代版本之间的至少一次外观调整,获得对多意图图像的替代版本的选择,以及使用元数据,对多意图图像应用至少一次外观调整的逆调整,以恢复多意图图像的替代版本。
在本公开的另一示例性方面中,提供一种存储指令的非暂态计算机可读介质,该指令在由处理器执行时致使处理器执行操作,该操作包括获得用于编码为多意图图像的原始图像,生成表征对原始图像应用的至少一次外观调整的元数据,将原始图像和元数据编码为多意图图像,以及提供多意图图像。
以这种方式,本公开的各个方面提供了编码、解码,并且提供了多意图图像和视频,并且至少在图像编码、图像解码、图像投影、图像显示、全息摄影、信号处理等技术领域中实现改进。
附图说明
参考附图,以下描述更全面地公开了各个实施例的这些特征和其它更详细且具体的特征,其中:
图1图示图像编码和解码流程的示例性过程。
图2图示对多意图图像和视频进行编码和解码的示例性过程。图3图示对多意图图像和视频进行编码的示例性过程。
图4图示对多意图图像和视频进行解码的示例性过程。
具体实施方式
本公开及其各方面可体现为各种形式,包括由计算机实现的方法控制的硬件、设备或电路、计算机程序产品、计算机***和网络、用户界面和应用程序编程接口;以及硬件实现的方法、信号处理电路、存储器阵列、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。上述内容仅旨在给出本公开的各个方面的整体概念,而不以任何方式限制本公开的范围。
在以下描述中,阐述了许多细节,诸如光学器件配置、调配、操作等,以便理解本公开的一个或多个方面。对本领域的技术人员而言显而易见的是,这些具体细节仅仅为示例性细节,而不旨在限制本申请的范围。
图1图示图像传送流程(100)的示例性过程,其示出了从图像捕获到图像内容显示的各个阶段。使用图像生成模块(105)来捕获或生成可包括一系列视频帧(102)的图像(102)。图像(102)可通过数字方式捕获(例如,通过数码相机)或由计算机生成(例如,使用计算机动画)以提供图像数据(107)。可选地,图像(102)可由胶片相机捕获在胶片上。将胶片转换成数字格式以提供图像数据(107)。在制作阶段(110)中,编辑图像数据(107)以提供图像制作流(112)。
然后将制作流(112)的图像数据提供给在模块(115)处的处理器(或诸如中央处理单元(CPU)的一个或多个处理器),以供后期制作编辑。模块(115)后期制作编辑可包括按照图像创作者的创作意图来调整或修改图像的特定区域的颜色或光亮度,以增强图像质量或实现特定的图像外观。这有时被称为“颜色调配(color timing)”或“颜色分级(colorgrading)”本文所描述的方法可由处理器在模块(115)处执行。可在模块(115)处执行其它编辑(例如,场景选择和排序、图像裁剪、添加计算机生成的视觉特效等),以产生用于分发的制品的最终版本(117)。在后期制作编辑(115)期间,在参考显示器(125)上观看图像或视频图像。如果有需要,参考显示器(125)可以是消费者级别的显示器或投影仪。
在完成后期制作(115)之后,可将最终制品(117)的图像数据传送到编码模块(120),以供向下游传送到解码设备和播放设备,诸如电脑显示器、电视机、机顶盒、电影院等。在一些实施例中,编码模块(120)可包括音频和视频编码器,诸如由ATSC、DVB、DVD、蓝光和其它传送格式定义的编码器,用于生成经编码的比特流(122)。在接收器中,解码单元(130)对经编码的比特流(122)进行解码,以生成经解码的信号(132),该信号与信号(117)相同或近似。接收器可附接到目标显示器(140),该目标显示器可具有与参考显示器(125)完全不同的特征。在这种情况下,显示器管理模块(135)可用于通过生成显示器映射的信号(137),将经解码的信号(132)的动态范围映射到目标显示器(140)的特征。本文所描述的附加方法可由解码单元(130)或显示器管理模块(135)执行。解码单元(130)和显示器管理模块(135)两者均可包括各自的处理器,或可集成到单个处理单元中。虽然本公开涉及目标显示器(140),但是应当理解,这仅仅是示例。还应理解的是,目标显示器(140)可包括被配置用于显示或投影光的任何设备;例如,计算机显示器、电视、OLED显示器、LCD显示器、量子点显示器、电影院、消费者和其它商业投影***、平视显示器、虚拟现实显示器等。
当使用数字设备获取场景时,很少直接传输真实的参照场景的辐射测量来生成图像。相反,通常的做法是,设备的原始电子制造商(OEM)或软件应用程序设计者调整图像,例如调整图像以供在诸如昏暗的周围环境和D65照明之类的参考查看环境中查看,以及应用美学调整,诸如增强对比度和颜色饱和度。这些调整及其它调整创建了被视为令消费者愉悦的真实情况的优选渲染。
目前,这些操作存在两种损耗。首先,不传输用于应用操作的参数,其次,由于非线性剪裁和量化、不可逆操作、未知算法或未知操作顺序,像素操作可能有损耗。
相反,期望能够传输由成像传感器捕获的表示“真实”的原始捕获/预处理的图像,然后在播放时应用这些操作。这会允许多种渲染意图:在播放时,设备可渲染原始捕获的“真实”图像,或者设备可形成对原始捕获的“真实”图像进行修改而成的“令人愉悦的”图像。
还期望能够以向后兼容的方式传输此类内容。在这种方法中,可在捕获期间应用形成“令人愉悦的”图像的修改,并且将适当的参数传输到播放设备,以使得它能够逆转修改,从而恢复原始捕获的“真实”图像。
图2提供了一种允许使用元数据对具有多个意图的图像进行编码和解码的方法(200)。方法(200)可由例如处理器执行,该处理器作为用于进行编码的模块(115)和/或模块(120)的一部分,以及作为用于进行解码的模块(130)和/或模块(135)的一部分。
在步骤(202)处,捕获图像。在数字捕获设备中,曝光的场景被变换成单通道表示形式的原始传感器值。通过被称为去马赛克的过程,将单通道图像表示扩展为具有例如:红色、绿色和蓝色(RGB)等三个通道的三色表示。有许多去马赛克的方法,其中的任何一种去马赛克方法在本文公开的实施例中都是充分的。
为了完美捕获场景的色度,捕获设备的光谱灵敏度应该与查看者的光谱灵敏度相匹配。在实际操作中,这些通常不完全匹配,而是使用3x3矩阵变换进行近似,以将传感器灵敏度转换为某组期望的RGB原色。传统上,在该步骤期间,相机光谱灵敏度不与内容一起传输,这使得这个过程有损耗。在本发明的一个实施例中,相机光谱灵敏度以及先前应用的3x3矩阵变换连同内容一起传输,这允许播放设备应用或逆转从传感器输出到指定RGB原色的转换。作为非限制性示例,步骤(202)可包括从传感器读取单通道值,应用去马赛克方案以形成三色通道(例如,RGB)图像,可选地应用3x3变换以使图像灵敏度与所期望的三色(例如,RGB)原色的图像灵敏度一致。步骤(202)还可包括测量捕获环绕亮度(例如,捕获环境中的周围环境光的水平)。
一旦确定了捕获到的图像的所期望的RGB构成,这些值就可能与指定的参考白点一致。可通过Von-Kries适应变换使图像与标准化白点(D50、D65等)之一相一致。该过程涉及:(a)估算捕获环境环绕亮度和白点,以及(b)对图像应用校正,以在指定的参考查看环境(例如,具有已知的白点和环绕亮度的环境)中实现观察者的颜色匹配。2021年4月16日提交的编号为PCT/US2021/027826的PCT申请以及2021年4日27日提交的编号为PCT/US2021/029476的PCT申请概述了用于调整图像以使观察者的适应状态适合彩色周围环境的方法,出于所有目的,这两个申请均通过引用方式并入本文。在步骤(204)处,可对捕获到的成像应用一次或多次可选的源外观调整,包括但不限于白平衡调整、颜色校正调整、光光传递函数(optical-optical transfer function,OOTF)调整。步骤(204)可包括计算非线性光光传递函数(OOTF),以从测量得出的捕获环绕亮度映射到参考查看环境。白点调整和3x3矩阵的顺序可以改变。计算和应用光光传递函数(OOTF)可在标准显示器设备上形成图像的渲染意图。在实际操作中,OOTF应用于将图像从捕获时的查看环境映射到显示在参考查看环境中。如今,应用OOTF是一种产生损耗的操作,这使得在播放时难以逆转OOTF。如同白点调整一样,在第一步骤(a)中,可估算捕获环境的环绕亮度,并且在第二步骤(b)中,可对图像进行校正,以针对参考环境中的观察者实现匹配。
在步骤(206)处,可对捕获到的图像应用一次或多次可选的源偏好调整,包括但不限于对比度调整、包括整体的颜色饱和度调整和/或单独的颜色饱和度调整的颜色饱和度调整、色调曲线的斜率-偏移量-幂次Tmid调整以及其它色调曲线修剪和调整。如本文所用,“mid”是指图像的maxRGB值在经感知量化(perceptually quantized,PQ)编码的图像中的平均值,其中,每个像素均具有其各自的等于该像素的最大颜色分量值(R、G或B)的maxRGB值。换言之,像素的任何颜色分量具有最大值,是该像素的maxRGB值,整个经PQ编码的图像中的各个maxRGB值的平均值就是图像的“mid”。“T-mid”可以指代“目标mid”,它可以是用户或内容创作者想要在最终图像中实现的“mid”值。在一些实施例中,单独的颜色饱和度调整可包括6种不同颜色的饱和度调整,这可被称为“六矢量调整”。
步骤(206)和步骤(208)可涉及在步骤(208)中接收来自用户的意图选择,其中,意图选择指定进行什么源外观调整和源偏好调整,此类调整的系数,对图像的哪些部分应用调整等。
常见的做法是,OEM或软件应用程序对捕获到的图像应用源偏好调整。这些改变纯粹在美学层面上,通常用于渲染具有更高水平的对比度和颜色饱和度的图像。在本公开的各个实施例中,由OEM确定的这些偏好改变作为元数据与内容一起传输,并且以与源外观元数据相同的方式在播放时应用。在每种情况下,都有计算或指定待应用的所期望的校正量的第一步骤(a),以及(b)使用参数化函数应用校正。(a)和(b)两者均作为元数据进行传输,使得播放设备能够充分灵活地渲染“令人愉悦的”或“真实”图像,并且使得捕获设备能够充分灵活地传输“令人愉快”或“真实”图像。
如本文所述,本文所公开的各个实施例的一个有益效果是,对三通道图像进行的所有调整均可编码为元数据,并与内容一起发送到播放设备以供应用。在一个实施例中,OEM或编码设备可决定不对外观和偏好应用调整,以便产生“真实”图像。
在步骤(210)处,可对如在步骤(206)和步骤(208)中进行修改的图像进行编码。步骤(210)可包括对图像进行编码,以供向下游传送到解码设备和播放设备,诸如电脑显示器、电视机、机顶盒、电影院等。在一些实施例中,编码步骤(210)可包括音频和视频编码器,诸如由ATSC、DVB、DVD、蓝光和其它传送格式定义的编码器,用于生成经编码的比特流。除了对图像进行编码之外,步骤(210)还可包括形成和/或编码元数据,该元数据表征在步骤(204)中应用的源外观调整以及在步骤(206)中应用的源偏好调整。元数据可包括与源外观调整相关联的元数据,诸如在x、y坐标(或一些其它***)中指定的场景白点;被指定为以勒克斯(或一些其它***)为单位的场景环绕光亮度(例如,有关所估算的捕获环境的信息);所应用的白点调整矩阵的系数;所应用的3x3颜色矩阵的系数、所应用的参数化OOTF的系数;用于计算3x3矩阵的传感器的光谱灵敏度;以及在步骤(204)中应用的其它增强的系数或其它信息。此外,元数据可包括与源偏好调整相关联的元数据,诸如用于进行对比度增强的系数,诸如斜率-偏移量-幂次Tmid对比度调整;饱和度增强的系数;单独的颜色饱和度调整的系数;色调曲线修剪的系数;以及在步骤(206)中应用的其它增强的系数。
在步骤(212)处,可对经编码的图像和元数据进行解码。在步骤(214)处,可获得对所期望渲染意图的选择。作为第一示例,可获得渲染通过步骤(204)的源外观调整以及源偏好调整进行修改的图像的选择。作为第二示例和第三示例,可获得渲染图像的选择,就如同它已经通过步骤(204)的源外观调整进行修改,但是没有通过步骤(206)的源偏好调整进行修改一样(或者与之相反)。作为第四示例,可获得渲染图像的选择,就如同它没有通过步骤(204)的源外观调整或步骤(206)的源偏好调整进行修改一样。在第四示例中,可部分或全部恢复在步骤(202)中捕获的图像。在一些实施例中,在步骤(214)中获得的渲染意图的选择可基于播放设备处的用户选择。在一些实施例中,可在编码过程中指定默认渲染意图,并且在没有相反的用户输入的情况下,可以选择该默认渲染意图。在一些实施例中,默认渲染意图可涉及在应用步骤(204)的源外观调整和步骤(206)的源偏好调整的情况下渲染图像。
在可选步骤(216)处,元数据可用于计算经逆转的源偏好调整。当应用时,步骤(216)的经逆转的源偏好调整可撤消步骤(206)的一些或全部源偏好调整,其中,用户选择和默认渲染意图标识哪些源偏好调整被逆转。
在可选步骤(218)处,元数据可用于计算经逆转的源外观调整。当应用时,步骤(218)的经逆转的源外观调整可撤消步骤(204)的一些或全部源外观调整,其中,用户选择和默认渲染意图标识哪些源外观调整被逆转。
在可选步骤(220)处,可计算和应用目标外观调整。作为非限制性示例,目标外观调整可包括测量显示器环绕亮度(例如,显示器环境中的周围环境光的水平),然后计算和应用非线性光光传递函数(OOTF),以从参考查看环境映射到测量得出的显示器环绕亮度(例如,实际查看环境)。
在可选的步骤(222)处,可计算和应用目标偏好调整。作为非限制性示例,目标偏好调整可包括对比度调整、颜色饱和度调整、斜率-偏移量-幂次Tmid调整、单独的颜色饱和度调整和色调曲线修剪。
在步骤(224)处,可对图像进行渲染。例如,可将图像投影、显示、保存到存储装置,传输到另一设备或以其它方式进行使用。
在一些实施例中,将源调整逆转和应用目标调整组合成单个处理步骤,然后相应计算该调整。换言之,可组合使用步骤216、218、220和220中的一些步骤或全部步骤。
在一些实施例中,在步骤(208)中选择的渲染意图针对“真实”图像,并且基本上绕过步骤(204和206)。这对应于“真实”图像的分布。在此类实施例中的元数据将会指示没有进行源外观调整并且没有进行源偏好调整。
在一些其它实施例中,应用一些源外观调整和偏好调整(例如,在步骤(204和206)中),从而产生“令人愉悦的”的图像。在此类实施例中的元数据可指示已经应用的源外观调整和偏好调整的量和类型。元数据可包括多个值,每个值对应于控制特定函数的参数,该特定函数作为源外观调整和/或偏好调整来应用。播放设备可通过得知所应用的确切函数、应用该确切函数的顺序,以及控制函数的强度的参数来逆转(或近似逆转)这些函数。元数据可被配置为包括由播放设备逆转(或近似逆转)这些函数所需的信息。
如果有需要,在步骤(210)中形成的元数据可用于传输内容的“所期望的渲染意图”,其指定在播放时如何处理图像的默认值(是显示“真实”图像还是显示“令人愉悦的”图像)。这可以是布尔值,也可以是在两者之间连续变化的比例。播放设备将该元数据解释为“所期望的渲染意图”,并根据源调整元数据来逆转源外观调整和偏好调整,并且还根据查看环境应用目标外观调整。如果有需要,在接收到用户输入时,可覆盖元数据中指定的“所期望的渲染意图”。
图3提供一种允许使用元数据对具有多个意图的图像进行编码的方法(300)。方法(300)可由例如作为用于编码的模块(115)和/或模块(120)的一部分的处理器来执行。
在步骤(302)处,通过将场景暴露于传感器来捕获图像。在步骤(304)处,收集每个颜色通道的原始传感器值。在步骤(306)处,可使用去马赛克算法或过程将每个颜色通道的原始传感器值转换成多通道颜色图像(例如,具有三种原色的三通道颜色图像)。在步骤(308)处,可对多通道颜色图像应用3x3矩阵变换,以将原始传感器值转换为一组所期望的原色,诸如RGB原色。步骤(308)的3x3矩阵变换可用于考虑传感器对不同颜色通道的灵敏度差异在。在步骤(310)处,可通过一次或多次白平衡调整、颜色校正调整等使图像与参考白点一致。在步骤(312)处,光光传递函数(OOTF)可应用于例如从捕获环境中的环绕亮度映射到参考查看环境的亮度。在步骤(314)处,可应用一次或多次源偏好调整,包括但不限于对比度调整、颜色饱和度调整、斜率-偏移量-幂次Tmid调整、单独的颜色饱和度调整和色调曲线修剪。在步骤(314)之后,可对图像进行编码并且生成元数据,以使得能够对在方法(300)期间进行的任何源偏好调整和源外观调整进行潜在逆转。
图4提供一种允许使用元数据对具有多个意图的图像进行解码的方法(400)。方法(400)可由例如作为用于解码的模块(130)和/或模块(135)的一部分的处理器来执行。
在步骤(402)处,对多意图图像及其对应的元数据进行解码。
在播放设备上解码图像和元数据之后,存在多种有关所显示的图像的渲染意图的选项。在一个实施例中,所选择的(或优选的)意图存在于元数据内,作为引导目标设备/接收设备的操作的标志或配置文件,以适应对所期望的外观领域和偏好领域两者进行的调整。在另一实施例中,最终渲染的图像可不涉及适应外观调整或偏好调整。另一实施例涉及所渲染的图像接收对外观现象的适应,但不是偏好(或者与之相反)。这些意图不一定是二元的,因为可以部分应用所确定的针对外观和偏好现象的调整。
在步骤(404)处,例如,从元数据中指定的默认值、从用户输入等获得所期望的渲染意图。
一旦已经为目标设备建立了意图,就可能需要逆转基于源图像的调整。对流程的源侧的图像进行的外观调整和偏好调整均已从附带的元数据文件中解码。如果有需要,基于根据元数据而已知的已应用的调整,可确定逆转。在OEM决定不应用任何图像调整的实施例中,不需要计算源的逆转,并且可以直接应用目标。对于所有其它实施例,如果期望不应用基于源图像的调整(例如,如果期望逆转基于源图像的调整),则可计算逆转调整。
在步骤(406)处,例如基于元数据,计算经逆转的源偏好调整和外观调整。
因为在编码之前最后应用源偏好调整,所以可能需要在解码之后首先对它们进行逆转。逆转偏好调整撤销由元数据指定的出于美学目的而进行的任何附加图像处理,例如,在一个实施例中,改变图像对比度和饱和度。在此之后,通过描述源到显示的OOTF的元数据,以及为校正周围环境光和/或彩色光的存在而进行的任何调整,源外观调整被逆转。
一旦源调整已被逆转,就可以应用目标调整。与源外观调整类似,目标外观调整利用有关目标查看环境和标准查看者的适应状态的信息来改变图像白点、亮度和颜色饱和度,以适当再现图像。观看者与屏幕的接近度将会决定屏幕产生的影响与环境产生的影响相比有多大(示例性技术描述于2021年4月16日提交的编号为PCT/US2021/027826的PCT专利申请中,出于所有目的,该专利申请的全部内容并入本文)。可选地,可使用各项标准推荐的观看距离来计算屏幕尺寸对适应的影响。在一个实施例中,可应用附加调整,为单个观看者个性化外观现象。这些调整包括校正个人的对比度敏感度函数、考虑同色异谱以及潜在的色盲程度。可进一步对目标端应用图像增强,以适应OEM的偏好。
在步骤(408)处,例如基于所期望的渲染意图、诸如环绕亮度之类的有关目标显示器环境的信息来计算目标外观调整和偏好调整。
在步骤(410)处,对经解码的图像应用经逆转的源偏好调整和外观调整,例如,以撤消在方法(300)期间进行的源偏好调整和外观调整。
在步骤(412)处,对经解码的图像应用目标外观调整和偏好调整。
在步骤(414)处,显示应用了目标外观调整和偏好调整的经解码的图像,将其保存到磁盘,传送到另一设备或另一方,或以供其它用途。
可提供使用元数据对多意图图像和视频进行编码和解码的上述编码***、解码***和方法。根据本公开的***、方法和设备可采用以下配置中的任何一者或多者。
(1)一种编码多意图图像的方法,该方法包括:获得用于编码为多意图图像的图像,对该图像应用至少一次外观调整,生成表征该至少一次外观调整的元数据,以及将该图像和元数据编码为该多意图图像。
(2)根据(1)所述的方法,其中,元数据在一定程度上表征至少一次外观调整,该一定程度足以使元数据可用于逆转该至少一次外观调整。
(3)根据(1)或(2)所述的方法,其中,应用至少一次外观调整包括将传感器值转换为颜色值。
(4)根据(1)至(3)中任一项所述的方法,其中,应用至少一次外观调整包括使用3x3矩阵将传感器值转换为颜色值,并且其中,元数据包括3x3矩阵的系数。
(5)根据(1)至(4)中任一项所述的方法,其中,应用至少一次外观调整包括估算捕获环境环绕亮度和白点,并且基于估算得出的捕获环境环绕亮度和白点来应用白点校正。
(6)根据(5)所述的方法,其中,元数据包括估算得出的捕获环境环绕亮度和白点。
(7)根据(1)至(4)中任一项所述的方法,其中,应用至少一次外观调整包括估算捕获环境环绕亮度,并且部分基于估算得出的捕获环境环绕亮度应用光光传递函数OOTF,以准备图像以供在参考显示器设备上渲染。
(8)根据(7)所述的方法,其中,元数据包括估算得出的捕获环境环绕亮度。
(9)根据(7)或(8)所述的方法,其中,元数据包括光光传递函数的系数。
(10)根据(1)至(9)中任一项所述的方法,其中,应用至少一次外观调整包括应用饱和度增强,并且其中,元数据包括饱和度增强的系数。
(11)根据(1)至(10)中任一项所述的方法,其中,应用至少一次外观调整包括应用对比度增强,并且其中,元数据包括对比度增强的系数。
(12)根据(1)至(11)中任一项所述的方法,其中,应用至少一次外观调整包括应用单独的颜色饱和度调整,并且其中,元数据包括单独的颜色饱和度调整的系数。
(13)根据(1)至(12)中任一项所述的方法,其中,应用至少一次外观调整包括应用斜率-偏移量-幂次Tmid增强,并且其中,元数据包括斜率-偏移量-幂次T mid增强的系数。
(14)根据(1)至(13)中任一项所述的方法,其中,应用至少一次外观调整包括应用增强,并且其中,元数据包括增强的系数。
(15)根据(1)至(14)中任一项所述的方法,其中,应用至少一次外观调整包括应用色调曲线修剪,并且其中,元数据包括色调曲线修剪的系数。
(16)根据(1)至(15)中任一项所述的方法,其中,多意图图像包括视频中的视频帧。
(17)一种对多意图图像进行解码的方法,该方法包括:获得连同元数据的多意图图像,该元数据表征多意图图像与多意图图像的替代版本之间的至少一次外观调整,获得对多意图图像的替代版本的选择,以及使用元数据,对多意图图像应用至少一次外观调整的逆调整,以恢复多意图图像的替代版本。
(18)一种方法,该方法包括:获得用于编码为多意图图像的原始图像,生成表征对原始图像进行的至少一次外观调整的元数据,将原始图像和元数据编码为多意图图像,以及提供多意图图像。
(19)根据(18)所述的方法,该方法还包括:在解码器处接收多意图图像,在解码器处基于对第一渲染意图的选择来获得对第一渲染意图的选择,通过对原始图像应用至少一次外观调整来解码多意向图像,以及提供应用了至少一次外观调整的原始图像。
(20)根据(18)或(19)所述的方法,该方法还包括:在解码器处基于对第二渲染意图的选择来获得对第二渲染意图的选择,对多意图图像进行解码而不对原始图像应用至少一次外观调整,以及提供不应用至少一次外观调整的原始图像。
(21)根据(18)所述的方法,其中,元数据在一定程度上表征至少一次外观调整,该一定程度足以使元数据可用于逆转该至少一次外观调整。
(22)根据(18)至(21)中任一项所述的方法,其中,至少一次外观调整包括将传感器值转换为颜色值。
(23)根据(18)至(22)中任一项所述的方法,其中,至少一次外观调整包括使用3x3矩阵将传感器值转换为颜色值,并且其中,元数据包括3x3矩阵的系数。
(24)根据(18)至(23)中任一项所述的方法,其中,至少一次外观调整包括估算捕获环境环绕亮度和白点,并且基于估算得出的捕获环境围绕亮度和白点来应用白点校正。
(25)根据(24)所述的方法,其中,元数据包括估算得出的捕获环境环绕亮度和白点。
(26)根据(18)至(23)中任一项所述的方法,其中,至少一次外观调整包括估算捕获环境环绕亮度,并且部分基于估算得出的捕获环境环绕亮度应用光光传递函数OOTF,以准备图像以供在参考显示器设备上渲染。
(27)根据(26)所述的方法,其中,元数据包括估算得出的捕获环境环绕亮度。
(28)根据(26)或(27)所述的方法,其中,元数据包括光光传递函数的系数。
(29)根据(18)至(28)中任一项所述的方法,其中,至少一次外观调整包括应用饱和度增强,并且其中,元数据包括饱和度增强的系数。
(30)根据(18)至(29)中任一项所述的方法,其中,至少一次外观调整包括应用对比度增强,并且其中,元数据包括对比度增强的系数。
(31)根据(18)至(30)中任一项所述的方法,其中,至少一次外观调整包括应用单独的颜色饱和度调整,并且其中,元数据包括单独的颜色饱和度调整的系数。
(32)根据(18)至(31)中任一项所述的方法,其中,至少一次外观调整包括应用斜率-偏移量-幂次Tmid增强,并且其中,元数据包括斜率-偏移量-幂次T mid增强的系数。
(33)根据(18)至(32)中任一项所述的方法,其中,至少一次外观调整包括应用增强,并且其中,元数据包括增强的系数。
(34)根据(18)至(33)中任一项所述的方法,其中,至少一次外观调整包括应用色调曲线修剪,并且其中,元数据包括色调曲线修剪的系数。
(35)根据(18)至(34)中任一项所述的方法,其中,多意图图像包括视频中的视频帧。
(36)一种存储指令的非暂态计算机可读介质,当该指令由电子处理器执行时,致使电子处理器执行根据(1)至(35)中任一项的操作。
(37)一种用于传送多意图图像的图像传送***,该图像传送***包括处理器,该处理器被配置为根据(1)至(16)和(18)至(35)中的任一项编码多意图图像。
(38)一种用于接收和解码多意图图像的图像解码***,该图像解码***包括处理器,该处理器被配置为根据(17)编码多意图图像。
关于本文所描述的过程、***、方法、启发等,应当理解,虽然此类过程等的步骤已经描述为根据某个有序序列发生,但此类过程可按照除本文所述顺序以外的顺序执行的所述步骤来实践。应进一步理解,可以同步执行某些步骤,可以添加其他的步骤,或者可以省略本文所述的某些步骤。换言之,为了说明特定实施方案的目的,提供了对本文中过程的描述,并且绝不应将其解释为限制权利要求书。
因此,应当理解,以上描述意在说明而非限制性描述。在阅读以上描述时,除了所提供的示例之外的许多实施例和应用将会显而易见。范围不应参考上述描述进行确定,而是应参考所附的权利要求以及这些权利要求所享有的等同物的全部范围进行确定。预期且预备本文所论述的技术未来将会得到发展,并且所公开的***和方法将会结合到此类未来的实施例中。总而言之,应当理解,本申请能够进行修改和变化。
权利要求书中使用的所有术语旨在被赋予其最广泛的合理结构和其普通含义,如熟悉本文所描述的技术的人所能够理解,除非本文明确作出相反指示。具体是,使用诸如“一个”、“该”、“所述”之类的单数冠词应理解为列举一个或多个所指示的要素,除非权利要求书明确作出相反限制。
提供本公开的摘要是为了使得读者能够快速确定本技术公开的性质。在理解到它不应用于解释或限制权利要求书的范围或含义的前提下,提交摘要。此外,在前述具体实施方式中可见,为了使本公开流程化的目的,在各个实施例中将各种特征分组在一起。本公开方法不应被解释为反映所要求保护的实施例涵盖比每项权利要求中明确列举的特征更多的特征的意图。相反,如以下权利要求所反映的,发明主题在于少于单个公开实施方案的所有特征。因此,以下权利要求书并入到具体实施方式中,其中,每项权利要求独立作为单独的要求保护的主题。
Claims (13)
1.一种对多意图图像进行解码的方法,所述多意图图像包括所述图像在参考查看环境中的表示以及用于将所包括的所述表示变换为所述图像的替代版本的元数据,所述方法包括:
获得所述多意图图像以及元数据,所述元数据表征所述图像在所述参考查看环境中的所述表示与所述图像的替代版本之间的至少一次外观调整,所述元数据指示在已经由图像传感器捕获到所述图像时捕获环境中的环绕亮度和白点;
获得对所述多意图图像的所述替代版本的选择,其中,被选择的所述替代版本近似于由所述图像传感器捕获到的所述图像;以及
使用所述元数据,对所述图像在所述参考查看环境中的所述表示应用所述至少一次外观调整的逆调整以基于所获得的所述选择来恢复所述多意图图像的所述替代版本。
2.根据权利要求1所述的方法,其中,对所述图像在所述参考查看环境中的所述表示应用所述至少一次外观调整的逆调整以基于所获得的所述选择来恢复所述多意图图像的所述替代版本包括:
将所述图像从所述参考查看环境中的所述白点映射到所述捕获环境中的所述白点;以及
将光光传递函数应用于所述图像,以从所述参考查看环境中的所述环绕亮度映射到所述捕获环境的所述环绕亮度。
3.根据权利要求2所述的方法,其中,所述元数据还指示已经捕获到所述图像的所述图像传感器的光谱灵敏度,以及指示3x3矩阵变换的系数,所述3x3矩阵变换被应用于来自所述图像传感器的原始传感器值,以校正所述图像传感器在颜色通道之间的光谱灵敏度的差异;并且
其中,对所述图像在所述参考查看环境中的所述表示应用所述至少一次外观调整的逆调整以基于所获得的所述选择来恢复所述多意图图像的所述替代版本还包括对所述图像应用所述3x3矩阵变换的逆变换,以重新得到原始传感器值。
4.一种编码多意图图像的方法,所述多意图图像包括所述图像在参考查看环境中的表示以及用于将所述参考表示变换为所述图像的替代版本的元数据,所述方法包括:
获得用于编码为所述多意图图像的图像,包括:
通过将场景暴露于捕获环境中的图像传感器来捕获多通道彩色图像,并且针对每个彩色通道从所述图像传感器收集原始传感器值;和
确定所述捕获环境中的环绕亮度和白点;
对所述图像应用至少一次外观调整,以将捕获到的图像变换为所述图像在所述参考查看环境中的所述表示,包括:
将所述图像从所述捕获环境中的被确定的所述白点映射到所述参考查看环境中的优选白点;以及
将光光传递函数应用于所述图像,以从所述捕获环境中的所述环绕亮度映射到所述参考查看环境的优选环绕亮度;
生成表征所述至少一次外观调整的元数据,所述元数据指示所述捕获环境中的被确定的所述环绕亮度和所述白点;以及
将变换后的图像和元数据编码为所述多意图图像。
5.根据权利要求4所述的方法,其中,对所述图像应用至少一次外观调整还包括对捕获到的所述多通道彩色图像进行3x3矩阵变换,以将收集到的所述原始传感器值转换为一组所期望的原色,所述3x3矩阵变换考虑了所述图像传感器在所述颜色通道之间的光谱灵敏度的差异;和
其中,所述元数据还指示已经捕获到所述图像的所述图像传感器的光谱灵敏度以及用于校正所述图像感测器在所述颜色通道之间的光谱灵敏度的差异的所述3x3矩阵变换的系数,使得所述元数据能够将所述参考表示变换为近似于被捕获到的所述图像的图像。
6.根据权利要求4或权利要求5所述的方法,其中,应用所述至少一次外观调整包括应用单独的颜色饱和度调整,并且其中,所述元数据包括所述单独的颜色饱和度调整的系数。
7.根据权利要求4至6中任一项所述的方法,其中,应用所述至少一次外观调整包括应用斜率-偏移量-幂次-Tmid调整,并且其中,所述元数据包括所述斜率-偏移量-幂次Tmid调整的系数。
8.根据权利要求4至7中任一项所述的方法,其中,应用所述至少一次外观调整包括应用色调曲线调整,并且其中,所述元数据包括所述色调曲线调整的系数。
9.根据权利要求4至8中任一项所述的方法,其中,所述多意图图像包括视频中的视频帧。
10.根据权利要求4至9中任一项所述的方法,其中,所述元数据在一定程度上表征所述至少一次外观调整,所述一定程度足以使所述元数据能够用于逆转所述至少一次外观调整。
11.一种用于对多意图图像进行解码的解码器,所述多意图图像包括所述图像在参考查看环境中的表示以及用于将所包括的所述表示变换为所述图像的替代版本的元数据,所述解码器包括处理器,所述处理器被配置对根据权利要求1至3中任一项所述的多意图图像进行解码。
12.一种用于传送多意图图像的图像传送***,所述多意图图像包括所述图像在参考查看环境中的表示以及用于将所述参考表示变换为所述图像的替代版本的元数据,所述图像传送***包括处理器,所述处理器被配置为编码根据权利要求4至10中任一项所述的多意图图像。
13.一种存储指令的非暂态计算机可读介质,当所述指令由电子处理器执行时,致使所述电子处理器执行根据权利要求1至10中任一项所述的操作。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163251427P | 2021-10-01 | 2021-10-01 | |
US63/251,427 | 2021-10-01 | ||
EP21208445.3 | 2021-11-16 | ||
PCT/US2022/044899 WO2023055736A1 (en) | 2021-10-01 | 2022-09-27 | Encoding and decoding multiple-intent images and video using metadata |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118044189A true CN118044189A (zh) | 2024-05-14 |
Family
ID=78676313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280066734.2A Pending CN118044189A (zh) | 2021-10-01 | 2022-09-27 | 使用元数据编码和解码多意图图像和视频 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118044189A (zh) |
-
2022
- 2022-09-27 CN CN202280066734.2A patent/CN118044189A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102670327B1 (ko) | Hdr 신호 변환을 위한 방법 및 장치 | |
JP7145290B2 (ja) | 様々なレベルのメタデータを含む色管理を制御するスケーラブルシステム | |
US11183143B2 (en) | Transitioning between video priority and graphics priority | |
TWI684166B (zh) | 針對高動態範圍信號的信號重塑形 | |
JP5992997B2 (ja) | 映像符号化信号を発生する方法及び装置 | |
US20170034519A1 (en) | Method, apparatus and system for encoding video data for selected viewing conditions | |
KR102135841B1 (ko) | 높은 다이내믹 레인지 이미지 신호의 생성 및 처리 | |
US20110154426A1 (en) | Method and system for content delivery | |
CN110050292B (zh) | 用于调整高动态范围图像的视频处理曲线的***和方法 | |
JP7084984B2 (ja) | トーンカーブ最適化方法および関連するビデオエンコーダとビデオデコーダ | |
JP7453214B2 (ja) | マルチレンジhdrビデオコード化 | |
WO2018111682A1 (en) | Systems and methods for adjusting video processing curves for high dynamic range images | |
CN118044189A (zh) | 使用元数据编码和解码多意图图像和视频 | |
WO2023055736A1 (en) | Encoding and decoding multiple-intent images and video using metadata | |
US20230230617A1 (en) | Computing dynamic metadata for editing hdr content | |
Demos | High Dynamic Range Intermediate |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |