CN115152212A - 图像处理中的联合前向和后向神经网络优化 - Google Patents

图像处理中的联合前向和后向神经网络优化 Download PDF

Info

Publication number
CN115152212A
CN115152212A CN202180015927.0A CN202180015927A CN115152212A CN 115152212 A CN115152212 A CN 115152212A CN 202180015927 A CN202180015927 A CN 202180015927A CN 115152212 A CN115152212 A CN 115152212A
Authority
CN
China
Prior art keywords
backward
image
color
neural networks
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180015927.0A
Other languages
English (en)
Inventor
苏冠铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN115152212A publication Critical patent/CN115152212A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

可以由包括前向路径和后向路径的端到端图像映射流水线接收源颜色等级和目标颜色等级。可以应用前向路径中的前向神经网络来从源颜色等级生成与目标颜色等级相对应的经前向整形的颜色等级。可以应用后向路径中的后向神经网络来从经前向整形的颜色等级生成与源颜色等级相对应的经后向整形的颜色等级。可以为前向路径和后向路径指定总神经网络成本函数,以生成可以用作用于确定前向神经网络和后向神经网络的操作参数的基础的成本。

Description

图像处理中的联合前向和后向神经网络优化
相关申请的交叉引用
本申请要求均于2020年2月19日提交的美国临时申请62/978,638和欧洲专利申请20158278.0的优先权,这两个申请中的每一个都通过引用以其全文并入本文。
技术领域
本公开总体上涉及图像处理操作。更具体地,本公开的实施例涉及视频编解码器。
背景技术
如本文所使用的,术语“动态范围(DR)”可以涉及人类视觉***(HVS)感知图像中的强度(例如,光亮度、亮度)的范围的能力,例如,从最暗的黑色(深色)到最亮的白色(高光)。从这个意义上说,DR与“参考场景的(scene-referred)”强度有关。DR还可以涉及显示设备充分或近似渲染特定阔度(breadth)的强度范围的能力。从这个意义上说,DR与“参考显示的(display-referred)”强度有关。除非在本文的描述中的任何一点明确指定特定的意义具有特定的意思,否则应该推断为该术语可以在任一意义上例如可互换地使用。
如本文所使用的,术语“高动态范围(HDR)”涉及跨越人类视觉***(HVS)的大约14至15个或更多数量级的DR阔度。实际上,相对于HDR,人类可以同时感知强度范围中的广泛阔度的DR可能被稍微截短。如本文所使用的,术语“增强动态范围(EDR)或视觉动态范围(VDR)”可以单独地或可互换地与这种DR相关:该DR可在场景或图像内由包括眼运动的人类视觉***(HVS)感知,从而允许场景或图像上的一些光适性变化。如本文所使用的,EDR可以涉及跨越5到6个数量级的DR。虽然相对于参考真实场景的HDR可能稍微窄一些,但EDR表示宽DR阔度并且也可以被称为HDR。
实际上,图像包括颜色空间的一个或多个颜色分量(例如,亮度Y以及色度Cb和Cr),其中每个颜色分量由每像素n位的精度表示(例如,n=8)。使用非线性光亮度编码(例如,伽马编码),其中n≤8的图像(例如,彩色24位JPEG图像)被视为标准动态范围的图像,而其中n>8的图像可被视为增强动态范围的图像。
给定显示器的参考电光传递函数(EOTF)表征输入视频信号的颜色值(例如,光亮度)与由显示器产生的输出屏幕颜色值(例如,屏幕光亮度)之间的关系。例如,ITURec.ITU-R BT.1886年,“Reference electro-optical transfer function for flatpanel displays used in HDTV studio production(HDTV工作室制作中使用的平板显示器的参考电光传递函数)”(2011年3月)限定了平板显示器的参考EOTF,其内容通过引用以其全文并入本文。在给定了视频流的情况下,关于其EOTF的信息可以作为(图像)元数据嵌入比特流中。本文术语“元数据”涉及作为编码比特流的一部分传输并且辅助解码器渲染经解码图像的任何辅助信息。这种元数据可以包括但不限于如本文所描述的颜色空间或色域信息、参考显示器参数和辅助信号参数。
如本文所使用的术语“PQ”是指感知光亮度幅度量化。人类视觉***以极非线性方式响应于增加的光水平。人类观察刺激物的能力受到以下因素的影响:该刺激物的光亮度、刺激物的大小、构成刺激物的空间频率以及在观看该刺激物的特定时刻眼睛已适应的光亮度水平。在一些实施例中,感知量化器函数将线性输入灰度级映射到更好地匹配人类视觉***中的对比度敏感度阈值的输出灰度级。在SMPTE ST 2084:2014“High Dynamic RangeEOTF of Mastering Reference Displays[母版制作参考显示器的高动态范围EOTF]”(下文称为“SMPTE”)中描述了示例PQ映射函数,其通过引用以其全文并入本文,其中,在给定固定刺激物大小的情况下,对于每个光亮度水平(例如,刺激水平等),根据最敏感的适应水平和最敏感的空间频率(根据HVS模型)来选择该光亮度水平处的最小可见对比度步长。
支持200至1,000cd/m2或尼特的光亮度的显示器代表了与EDR(或HDR)相关的较低动态范围(LDR),也被称为标准动态范围(SDR)。EDR内容可以显示在支持较高动态范围(例如,从1,000尼特到5,000尼特或更高)的EDR显示器上。这种显示器可以使用支持高光亮度能力(例如,0到10,000或更高尼特)的替代EOTF来限定。在SMPTE 2084和Rec.ITU-RBT.2100,“Image parameter values for high dynamic range television for use inproduction and international programme exchange[用于在制作和国际节目交换中使用的高动态范围电视的图像参数值]”(06/2017)中定义了这种EOTF的示例。如发明人在此理解的,期望可以用于支持各种SDR和HDR显示设备的显示能力的用于合成视频内容数据的改进技术。
在本节中描述的方法是可以追寻的方法,但不一定是先前已经设想到或追寻的方法。因此,除非另有指明,否则不应假定本节中所描述的方法中的任何方法仅凭其被包括在本节中就被视为现有技术。类似地,除非另有表示,否则不应假定在本节的基础上在任何现有技术中已识别关于一种或多种方法所认定的问题。
附图说明
在附图中以举例而非限制的方式来图示本发明的实施例,并且在附图中类似的附图标记指代类似的元件,并且在附图中:
图1描绘了视频传输流水线的示例过程;
图2A图示了用于单层后向兼容编码(SLBC)的示例联合前向和后向优化框架;图2B图示了用于渐进SLBC编码或单层渐进编码(SLPC)的示例联合前向和后向优化框架;
图3A至图3E图示了联合前向和后向路径优化的示例;
图4A和图4B图示了示例过程流程;以及
图5图示了示例硬件平台的简化框图,在该硬件平台上可以实施如本文所描述的计算机或计算设备。
具体实施方式
在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对本公开的透彻理解。然而,将显而易见的是,可以在没有这些具体细节的情况下实践本公开。在其他情形中,为了避免不必要地遮蔽、模糊或混淆本公开,没有详尽地描述众所周知的结构和设备。
概述
本文描述了联合前向和后向神经网络优化框架。该框架可以在各种视频传输和显示应用中实施,包括但不限于支持单层后向兼容(SLBC)编解码器的应用。
在一些方法下,从源(例如,HDR等)颜色等级生成经前向整形的(例如,SDR等)颜色等级的前向整形路径和生成目标或源(例如,SDR、HDR等)颜色等级的重建图像的后向整形路径被单独优化。例如,在编码器侧生成将源颜色等级映射到目标颜色等级的前向映射时,在解码器侧通过后向映射从目标颜色等级映射回的源颜色等级的质量考量因素没有并入前向映射的优化问题公式中。因此,虽然可以优化前向映射,但可能不会优化后向映射。
鉴于亮度的高度非线性结构(例如,8段2阶多项式组等)和用于在前向整形路径和后向整形路径中的不同颜色等级之间进行映射的色度图像内容映射,前向整形路径和后向整形路径的单独优化(或各个优化)可以是有益的。然而,前向整形路径和后向整形路径的单独优化可能导致组合前向整形路径和后向整形路径的端到端优化问题相对难以构建,更不用说产生端到端优化问题的闭型解决方案。前向整形路径和后向整形路径的单独优化还可能导致难以实现前向整形路径与后向整形路径之间的期望折衷。因此,来自单独优化的前向整形路径和后向整形路径两者的预测(例如,SDR、HDR等)图像可能是次优的。
相比之下,在如本文所描述的技术下,利用神经网络是通用函数逼近器的事实,基于神经网络的解决方案可以用于在前向路径和后向路径中的每一者中提供更好的拟合。此外,神经网络的逐层结构可以用于将前向路径和后向路径两者级联在一起,以形成包括前向路径和后向路径两者中的神经网络的端到端视频传输和/或消费***。在联合前向和后向路径优化方法下,如误差或成本等来自后向路径的反馈可以被提供给前向路径。联合前向和后向路径优化问题中的成本函数(或损失函数)可以以包括来自前向整形路径和来自后向整形的单独成本贡献(或单独损失贡献)的方式来建立。可以利用不同的加权因子来加权或指派损失函数中的这些单独成本贡献,以便根据期望折衷来调整前向路径和后向路径的质量。因此,可以获得在端到端视频传输和/或消费***中使用的这些神经网络的操作参数,作为级联的前向路径和后向路径的联合优化问题的整体解决方案。
另外地、可选地或可替代地,这些技术中的一些或所有技术可以扩展至覆盖各种图像处理/渲染应用,例如,以允许单层渐进(SLPC)编解码器并入基于神经网络的解决方案,从而优化关于多种不同颜色等级的视频质量。
如本文所描述的神经网络可以用于生成对应图像集,该对应图像集描绘了不同动态范围水平、不同颜色空间(或不同的色域)等下的相同场景(或相同的语义内容)。具有在联合优化框架下生成的操作参数的这些神经网络中的一些或所有神经网络可以用于将对应图像集中的一个图像映射到同一对应图像集中的其他图像。
不同动态范围水平、不同颜色空间大小(或不同色域)等的对应图像集中的特定动态范围水平、特定颜色空间(或特定色域)等的图像可以被编码为经编码比特流中的基本层(BL)图像数据以及指定一些或所有前向神经网络和/或后向神经网络的一些或所有操作参数的图像元数据。基本层(BL)图像数据和图像元数据可以被提供给接收方解码和回放设备,该接收方解码和回放设备可以在解码之后在支持以特定动态范围水平、特定颜色空间等渲染图像的显示器上直接渲染BL图像数据。另外地、可选地或可替代地,BL图像数据和图像元数据可以被提供给接收方解码和回放设备,该接收方解码和回放设备可以从经解码的BL图像数据和图像元数据以不同动态范围水平、不同颜色空间(或不同色域)重建图像数据,并且在支持以不同动态范围水平、不同颜色空间(或不同色域)渲染图像的显示器上渲染重建图像数据。
因此,在经编码比特流中编码的用于利用一些显示设备进行渲染的图像数据可以用于生成用于利用一些其他显示设备进行渲染的重建图像数据,而无需在经编码比特流中包括针对其他显示设备专门编码的其他图像数据。因此,在如本文所描述的技术下生成的经编码流可以支持具有各种图像渲染能力的各种显示设备类型。
本文描述的示例实施例涉及生成和编码图像元数据以用于图像重建。接收源颜色等级的源图像和目标颜色等级的目标图像作为对包括前向路径和后向路径的端到端图像映射流水线的输入,该前向路径包括一个或多个前向神经网络,并且该后向路径包括后向神经网络。应用前向路径中的一个或多个前向神经网络对源颜色等级的源图像进行前向整形,以生成目标颜色等级的经前向整形的图像。应用后向路径中的一个或多个后向神经网络对目标颜色等级的经前向整形的图像进行后向整形,以生成源颜色等级的经后向整形的图像。为前向路径和后向路径指定(联合)神经网络成本函数。神经网络成本函数包括计算经前向整形的图像与目标图像之间的第一差异的前向成本部分(例如前向成本项)和计算经后向整形的图像与源图像之间的第二差异的后向成本部分(例如后向成本项)。一个或多个前向神经网络和一个或多个后向神经网络的操作参数是使用神经网络成本函数通过反向传播来确定的,例如,通过计算成本作为神经网络成本函数的输出并在反向传播中使用所计算的成本。可选地,从前向路径生成的选定颜色等级的图像数据连同图像元数据一起被编码在视频信号中。图像元数据至少包括一个或多个前向神经网络和/或一个或多个后向神经网络的子集的操作参数的子集。这使得视频信号的接收设备能够使用图像元数据和选定颜色等级的图像数据来生成不同颜色等级的重建图像数据。
本文描述的示例实施例涉及解码图像元数据以用于图像重建和渲染。从在上游视频编码器中实施的前向路径生成的颜色等级的图像数据连同图像元数据一起从视频信号中解码。图像元数据至少包括在上游编码器中实施的前向路径中的一个或多个前向神经网络和/或对应后向路径中的一个或多个后向神经网络的子集的操作参数的子集。将具有操作参数的子集的一个或多个前向神经网络和/或一个或多个后向神经网络的子集应用于颜色等级的图像数据,以生成不同颜色等级的重建图像数据。利用显示设备渲染从不同颜色等级的重建图像得到的显示图像。
示例视频传输处理流水线
图1描绘了视频传输流水线(100)的示例过程,该视频传输流水线示出了从视频捕获到视频内容显示的各个阶段。使用图像生成块(105)来捕获或生成视频帧(102)序列。视频帧(102)可以被(例如,由数码相机等)数字地捕获或者由计算机(例如,使用计算机动画等)生成以提供视频数据(107)。另外地、可选地或可替代地,视频帧(102)可以由胶片相机在胶片上捕获。可以将胶片转换为数字格式以提供视频数据(107)。在制作阶段(110),对视频数据(107)进行编辑以提供视频制作流(112)。
然后,将制作流(112)的视频数据提供给处理器以用于后期制作编辑(115)。后期制作编辑(115)可以包括调整或修改图像的特定区域中的颜色或明亮度,以根据视频创作者的创作意图来增强图像质量或实现图像的特定外观。这有时被称为“颜色调整(colortiming)”或“颜色分级(color grading)”。可以在后期制作编辑(115)执行其他编辑(例如,场景选择和排序、手动和/或自动场景剪切信息生成、图像裁剪、添加计算机生成的视觉特效等),以通过内容映射和/或颜色分级来产生图像的一个、两个或更多个颜色等级。这些颜色等级包括描绘相同场景或语义内容的对应图像集,但是可在以下中的一个或多个方面不同:不同动态范围水平、不同颜色空间、不同EOTF、不同颜色空间类型等。
颜色等级可以包括源颜色等级和一个或多个目标颜色等级。源颜色等级和目标颜色等级中的每一者描绘了同一组视觉场景或语义内容。可以通过手动、自动、或者手动和自动图像处理操作的组合执行的内容映射和/或颜色分级从源颜色等级得到目标颜色等级。在一些操作场景中,在后期制作编辑(115)期间,图像的一些或所有颜色等级例如由调色师在分别支持以不同动态范围水平、不同颜色空间、不同EOTF、不同颜色空间类型等(例如,直接等)渲染图像的不同参考显示器上观看并进行颜色分级。
仅出于说明的目的,颜色等级包括HDR图像(117-1)或SDR(或相对较窄的动态范围)图像(117)(例如,SDR等)的颜色等级。SDR图像(117)可以是从HDR图像(117-1)映射的内容。在一些实施例中,在后期制作编辑(115)期间,由正在对HDR图像(117-1)执行后期制作编辑操作的调色师在支持高动态范围的参考HDR显示器上查看HDR图像(117-1)。另外地、可选地或可替代地,在后期制作编辑(115)期间,由正在对SDR图像(117)执行后期制作编辑操作的调色师在支持标准动态范围(或相对较窄的动态范围)的参考显示器(125)上查看SDR图像(117)。
编码块(120)可以实施如本文所描述的一些或所有联合前向和后向神经网络优化操作,以生成用于在图像的源颜色等级与目标颜色等级之间或之中进行映射的前向神经网络和/或后向神经网络的多个操作参数集。经前向整形的SDR图像可以被编码块(120)压缩/编码到经编码比特流(122)中。前向神经网络和/或后向神经网络的多个操作参数集可以作为图像元数据的一部分被包括或编码在同一经编码比特流中。
通过示例而非限制的方式,HDR图像(117-1)可以表示源颜色等级,而SDR图像(117)可以表示目标颜色等级之一。编码块(120)从后期制作编辑(115)接收HDR图像(117-1),并且将HDR图像(117-1)前向整形为经(前向)整形的SDR图像。经前向整形的SDR图像可以接近地近似于来自颜色分级操作的SDR图像(117)。编码块(120)生成经编码比特流,该经编码比特流包括SDR图像(例如,经前向整形的SDR图像等)和图像元数据,该图像元数据包括由经编码比特流的接收设备用来从SDR图像重建HDR图像的神经网络的操作参数集。
编码块(120)可以包括音频和视频编码器(如由ATSC、DVB、DVD、蓝光和其他传输格式定义的音频和视频编码器),以生成经编码比特流(122)。
在一些操作场景中,经编码比特流(122)可以表示与多种SDR显示设备(例如,SDR显示器等)后向兼容的视频信号(例如,8位SDR视频信号、10位SDR视频信号等)。在非限制性示例中,利用经整形的SDR图像编码的视频信号可以是单层后向兼容视频信号。在此,“单层后向兼容视频信号”可以指在单个信号层中承载针对SDR显示器进行了专门优化或颜色分级的SDR图像的视频信号。示例单层视频编码操作在G-M.Su等人的美国专利申请公开2019/0110054“Encoding and decoding reversible production-quality single-layervideo signals[对可逆的、生产质量的单层视频信号进行编码和解码]”中进行了描述,该美国专利申请的全部内容如本文充分阐述的那样通过引用并入本文。
前向神经网络和/或后向神经网络的多个操作参数集可以由视频信号或经编码比特流的接收设备解码并用于预测操作中,以从一个颜色等级的经解码图像生成一个或多个其他颜色等级的重建图像。可以使用具有由(上游)编码块(120)生成的前向神经网络和/或后向神经网络的多个操作参数集的预测操作(例如,后向整形操作、逆色调映射操作等)针对重建图像生成一个或多个不同的视频质量水平。在编码器侧,这些不同视频质量水平可以分别对应于一个或多个不同颜色等级(例如,源颜色等级和/或目标颜色等级等)。
在一些操作场景中,经解码图像表示由上游视频编码器(例如,使用编码块(120)等)从颜色分级HDR图像(117-1)前向整形以近似颜色分级SDR图像(117)的SDR图像。使用具有在经编码比特流(122)中传输的图像元数据中的对应的操作参数集的神经网络从经解码图像生成的重建图像表示在编码器侧近似于颜色分级HDR图像(117-1)的HDR图像。
在一些操作场景中,出于生成经编码比特流(例如,122等)的目的用作(或被指定为)视频编码(例如,编码块(120)等)的输入的(输入)颜色等级可以按特定顺序进行排序或布置。例如,颜色等级之一可以被指定为源颜色等级,用作(例如,经排序等)前向神经网络序列的输入或起点。剩余(输入)颜色等级可以被排序成目标颜色等级序列。源颜色等级可以由前向神经网络序列进行前向整形,以生成与目标颜色等级序列相对应的经前向整形的颜色等级序列。经前向整形的颜色等级序列中的每个经前向整形的颜色等级与目标颜色等级序列中的相应目标颜色等级相对应(或相同)。如本文所使用的,前向神经网络指的是前向神经网络序列中将给定的源颜色等级或前一个经前向整形的颜色等级整形或转换为经前向整形的颜色等级的神经网络。
前向神经网络序列后可以跟随对应的后向神经网络序列,以重建目标颜色等级和源颜色等级的图像。后向神经网络指的是这样的神经网络:对由前向神经网络输出的经前向整形的图像或前一个经后向整形的图像进行转换或后向整形以生成近似于目标颜色等级或源颜色等级的图像的重建(或经后向整形的)图像。在一些操作场景中,当前向神经网络序列连续地将源颜色等级转换或前向整形为近似于目标颜色等级序列的经前向整形的颜色等级序列时,对应的后向神经网络序列连续地将来自前向神经网络序列的输出重建或后向整形为近似于目标颜色等级序列和源颜色等级的图像的重建图像。
示例整形操作在G-M.Su等人的美国专利10,080,026“Signal reshapingapproximation[信号整形近似]”中进行了描述,该美国专利的全部内容如本文充分阐述的那样通过引用并入本文。
另外地、可选地或可替代地,利用另外的图像元数据对经编码比特流(122)进行编码,该另外的图像元数据包括但不限于显示管理(DM)元数据,下游解码器可以使用该DM元数据对经解码图像或经后向整形的图像执行显示管理操作以生成被优化用于在目标显示器上渲染的显示图像。
然后,将经编码比特流(122)向下游传输到如解码和回放设备、媒体源设备、媒体流客户端设备、电视机(例如,智能电视等)、机顶盒、电影院等接收器。在接收器(或下游设备)中,由解码块(130)对经编码比特流(122)进行解码以生成经解码图像182,该经解码图像可以与由编码块(120)编码成比特流(122)的图像(例如,经前向整形的SDR图像等)相同,但受到在由编码块(120)执行的压缩和由解码块(130)执行的解压缩中生成的量化误差的影响。
在接收器与支持渲染经解码图像(182)的目标显示器140一起操作(或者附接到或可操作地链接到目标显示器)的操作场景中,解码块(130)可以从经编码比特流(122)(例如,编码比特流中的单层等)中解码图像(182),并且直接或间接地使用经解码图像(182)(例如,经前向整形的SDR图像等)以在目标显示器(140)上进行渲染。
在一些操作场景中,目标显示器(140)具有与SDR参考显示器(125)类似的特性,并且经解码图像(182)为可在目标显示器(140)上直接观看的经前向整形的SDR图像。
在一些实施例中,接收器与目标显示器一起操作(或者附接到或可操作地链接到目标显示器),该目标显示器具有与针对其已优化经解码图像(182)的参考显示器不同的显示能力。图像元数据(或合成器元数据)中的前向神经网络和/或后向神经网络的多个操作参数集中的一些或所有可以用于从针对目标显示器进行优化的经解码图像(182)中合成或重建图像。
例如,接收器可以与相比于经解码图像(182)支持高动态范围(例如,100尼特、200尼特、300尼特、500尼特、1,000尼特、4,000尼特、10,000尼特或更多等)的HDR目标显示器140-1一起操作。接收器可以从经编码比特流(122)(例如,该经编码比特流中的一个或多个元数据容器等)提取图像元数据,并使用图像元数据(或合成器元数据)中前向神经网络和/或后向神经网络的多个操作参数集从经解码图像(182)(如经前向整形的SDR图像)合成或重建图像132-1。
在一些操作场景中,重建图像(132-1)表示为在与结合接收器操作的HDR目标显示器相同或可比的HDR(例如,参考等)显示器上查看而优化的重建HDR图像。接收器可以直接使用重建图像(132-1)以在HDR目标显示器上进行渲染。
在一些操作场景中,重建图像(132-1)表示为在与结合接收器操作的HDR目标显示器(140-1)不同的HDR(例如,参考等)显示器上查看而优化的重建HDR图像。可以位于接收器中、位于HDR目标显示器(140-1)中或位于单独的设备中的显示管理块(例如,135-1等)通过生成适配于HDR目标显示器(140-1)的特性的显示器映射信号(137-1)来进一步调整重建图像(132-1)以适配于HDR目标显示器(140-1)的特性。可以在HDR目标显示器(140-1)上渲染显示图像或经调整的重建图像。
针对SLBC的联合优化框架
在单独的优化方法下,使用前向整形(例如,经常为多对一HDR-SDR映射等)从源HDR图像预测的SDR图像相对于源HDR图像可以相对没有视觉伪影。然而,根据后向整形(例如,经常经由一对多SDR-HDR映射等)的经解码SDR图像预测/重建的HDR图像(其可与受到压缩/编码和解压缩/解码中引入的量化或编码错误影响的预测SDR图像相同)相对于源HDR图像或经解码SDR图像可能相对倾向于包含视觉伪影。这些来自后向整形的伪影是由后向整形中将SDR像素值映射到不准确的HDR像素值的一对多SDR-HDR映射引起的。只要前向路径和后向路径仍是单独优化的,即使使用神经网络作为通用函数逼近器,也无法防止这些视觉伪影。
相比之下,在如本文所描述的联合前向和后向优化方法下,成本函数可以用于确保从前向路径到后向路径的(整体)端到端映射是(或接近)一对一的。因此,在如本文所描述的技术下,可以通过包括前向路径和后向路径两者的该端到端***或流水线来引导源像素返回到其初始值。通过说明性而非限制性的方式,可以应用联合前向和后向优化技术以允许SLBC编解码器并入基于神经网络的解决方案。
图2A图示了针对SLBC编码的示例联合前向和后向优化框架。该框架可以但不限于利用以下中的一项或多项中的SLBC编解码器来实施:视频编码器、视频转码器、视频流服务器等。如所示出的,由SLBC编解码器(例如,图1的编码块(120)等)接收的输入可以包括分别属于源颜色等级(表示为“Src Grade(YCbCr 444)”,其中“YCbCr”和“444”分别指源颜色等级的颜色空间和颜色采样格式)和目标颜色等级(表示为“Dst Grade(YCbCr 444)”,其中“YCbCr”和“444”分别指目标颜色等级的颜色空间和颜色采样格式)的两种不同类型的输入图像。
仅出于说明的目的,SLBC编解码器的输入图像可以包括HDR图像作为源颜色等级(例如,HDR颜色等级等)的输入图像并且包括SDR图像作为目标颜色等级(例如,SDR颜色等级等)的输入图像。SDR图像和HDR图像两者描绘了相同的场景(或相同的视觉语义内容)但质量水平不同,如动态范围不同。
联合优化框架由SLBC编解码器实施以找到(1)前向整形函数,该前向整形函数用于将源颜色等级的输入图像(或本示例中的HDR图像)转换为与目标颜色等级相对应(或相同)的前向整形颜色等级的经前向整形的图像(例如,由前向整形函数生成的预测SDR图像等),以及(2)后向整形函数,该后向整形函数用于将目标颜色等级的经前向整形的图像转换为源颜色等级的重建图像(例如,由后向整形函数生成的预测或重建HDR图像等)。
在一些操作场景中,输入SDR和HDR图像可以在具有444颜色采样格式的YCbCr颜色空间中表示/编码。每个输入图像中的每个像素可以包括YCbCr颜色空间的3个(颜色空间)通道/分量(Y/Cb/Cr)中的分量像素值。
每个输入图像中每个像素的分量像素值可以级联成向量。
例如,源颜色等级(或与源颜色等级相对应的源域)的输入图像中的(例如,每个等)像素的分量像素值(在Y/Cb/Cr通道或分量中)可以被级联成单个(输入源)向量。然后,该向量可以用作一个或多个前向神经网络的输入,该一个或多个前向神经网络用于将源颜色等级的输入图像前向整形为目标颜色等级的经前向整形的图像。更具体地,前向神经网络使用该向量作为输入来预测经前向整形的图像中的对应像素的分量像素值。
前向神经网络包括分别对应于Y/Cb/Cr通道/分量的前向神经网络的三个子集。这些前向神经网络的子集可以用于预测对应像素在Y/Cb/Cr通道或分量中的分量像素值。输入源向量(例如,包括3个颜色通道或分量中的分量输入值的YUV向量等)被馈送到每个颜色分量的前向神经网络的每个子集。这些前向神经网络的子集输出目标颜色等级(或目标域)的经前向整形的图像中的对应像素的分量预测值。
如图2A所图示的,前向神经网络的三个子集中的第一子集(表示为“ForwardNetY”)可以用于获得经前向整形的图像中的对应像素的预测Y像素值(表示为“Pred Dst Y”)。前向神经网络的三个子集中的第二子集(表示为“ForwardNet Cb”)可以用于获得经前向整形的图像中的对应像素的预测Cb像素值(表示为“Pred Dst Cb”)。前向神经网络的三个子集中的第三子集(表示为“ForwardNet Cr”)可以用于获得经前向整形的图像中的对应像素的预测Cr像素值(表示为“Pred Dst Cr”)。
由前向神经网络生成的经前向整形的图像中的对应像素的预测分量像素值可以级联成(预测目标)向量。预测目标向量可以用于驱动后向路径中的后向神经网络以及用作计算包括前向路径和后向路径两者的端到端***的总成本函数中的前向整形成本部分的基础。总成本函数可以用于获得端到端***中的前向神经网络和后向神经网络的操作参数(例如,神经网络系数等)。
在后向路径中,预测目标向量可以用作一个或多个后向神经网络的输入,该一个或多个后向神经网络用于将目标颜色等级的经前向整形的图像后向整形为源颜色等级的重建(或经后向整形的)图像。
更具体地,后向神经网络使用向量(包括由前向神经网络生成的预测分量像素值)作为输入来预测源颜色等级(或源域)的重建(或经后向整形的)图像中的对应像素的分量像素值。
后向神经网络包括分别对应于Y/Cb/Cr通道或分量的后向神经网络的三个子集。预测目标向量(例如,包括3个颜色通道或分量中的分量预测值的YUV向量等)被馈送到每个颜色分量的后向神经网络的每个子集。这些后向神经网络的子集输出源颜色等级(或源域)的重建(或经后向整形的)图像中的对应像素的分量预测(源)值。
如所图示的,后向神经网络的三个子集中的第一子集(表示为“BackwardNet Y”)可以用于获得经后向整形的图像中的对应像素的预测Y像素值(表示为“Pred Src Y”)。后向神经网络的三个子集中的第二子集(表示为“BackwardNet Cb”)可以用于获得经后向整形的图像中的对应像素的预测Cb像素值(表示为“Pred Src Cb”)。后向神经网络的三个子集中的第三子集(表示为“BackwardNet Cr”)可以用于获得经后向整形的图像中的对应像素的预测Cr像素值(表示为“Pred Src Cr”)。
由后向神经网络生成的经后向整形的图像中的对应像素的预测分量像素值可以级联成(预测源)向量。预测源向量可以用于用作计算包括前向路径和后向路径两者的端到端***的总成本函数中的后向整形成本部分的基础。
总成本函数中的前向整形成本部分可以至少部分地基于输入目标图像中的原始目标数据与经前向整形的图像中的预测目标数据之间的差异(例如,用减法运算计算、用除法运算计算等)来计算。总成本函数中的后向整形成本部分可以至少部分地基于输入源图像中的原始源数据与经后向整形的图像中的预测源数据之间的差异(例如,用减法运算计算、用除法运算计算等)来计算。总成本函数(表示为“成本”)可以通过加权因子(表示为“加权因子”)形成为前向整形成本部分和后向整形成本部分的加权组合。加权因子可以包括源颜色等级加权因子(对应于或指派给源颜色等级)和目标颜色等级加权因子(对应于或指派给目标颜色等级)。如本文所描述,指派给给定颜色等级的示例加权因子可以包括但不一定限于以下范围中的任一个:如(0,1)、[0.2,0.8]、[0.3,0.4]、[0.4,0.6]等。在各种实施例中,这些加权因子可以被归一化,也可以不被归一化。
该成本函数可以用于反向传播中,以计算或生成前向神经网络和后向神经网络两者(例如,两者中的每个神经网络等)的操作参数。
前向路径神经网络
让三元组
Figure BDA0003807350640000131
Figure BDA0003807350640000132
分别表示第j个源图像和目标(或目的)图像中第i个像素的归一化Y、C0(或Cb)和C1(或Cr)分量像素值。可以收集源图像(帧)的所有P个像素的归一化Y、C0和C1分量像素值,以分别形成三个颜色空间通道/分量Y、C0和C1的三个输入源向量,如下所示:
Figure BDA0003807350640000133
以及
Figure BDA0003807350640000134
类似地,可以收集目标图像(帧)的所有P个像素的归一化Y、C0和C1分量像素值,以分别形成三个颜色空间通道/分量Y、C0和C1的三个输入目标向量,如下所示:
Figure BDA0003807350640000135
以及
Figure BDA0003807350640000136
表达式(1)和(2)中的输入源向量和输入目标向量可以分别级联或合并成两个Px3矩阵,如下所示:
Figure BDA0003807350640000137
Figure BDA0003807350640000138
可以从Px3矩阵的对应合并矩阵中的相应行中以合并或级联形式读出源图像或目标图像中每个像素的三个颜色分量,如下所示:
Figure BDA0003807350640000139
Figure BDA00038073506400001310
源图像中的每个像素的颜色分量可以用作如本文所描述的前向路径中一个或多个跨颜色(或跨通道)前向神经网络的输入。如本文所使用的,“跨颜色”或“跨通道”是指将多个分量(例如,Y、C0和C1中的两个或更多个分量,上述表达式(5)中的分量等)映射到单个分量(例如,Y、C0和C1中的特定分量等)的映射操作。
仅出于说明的目的,一个或多个前向神经网络被实施为前向路径中的多层神经网络。多层神经网络包括分别针对Y、C0和C1通道或分量的三个分量多层神经网络。第一分量多层神经网络(例如,图2A中的“ForwardNet Y”等)生成经前向整形的Y分量像素值。第二分量多层神经网络(例如,图2A中的“ForwardNet Cb”等)生成经前向整形的C0或Cb分量像素值。第三分量多层神经网络(例如,图2A中的“ForwardNet Cr”等)生成经前向整形的C1或Cr分量像素值。
可以针对Y、C0和C1定义或指定前向路径中的多层神经网络的第l层,如下所示:
Figure BDA0003807350640000141
Figure BDA0003807350640000142
Figure BDA0003807350640000143
其中,
Figure BDA0003807350640000144
分别表示针对Y、C0和C1通道或分量的前向神经网络加权矩阵;
Figure BDA0003807350640000145
分别表示针对Y、C0、和C1通道或分量的前向神经网络偏置向量;
Figure BDA0003807350640000146
分别表示针对Y、C0、和C1通道或分量的前向神经网络激活函数;
Figure BDA0003807350640000147
分别表示对Y、C0、和C1通道或分量的当前第l层的输入(来自先前第(l-1)层的输出);
Figure BDA0003807350640000148
分别表示Y、C0、和C1通道或分量的当前第l层的输出。对于前向路径中多层神经网络的第一层,前向路径中多层神经网络的所有三个分量多层神经网络接收共同输入作为上述表达式(5)中的vj,i。示例激活函数可以包括但不一定仅限于以下中的任何一个:Sigmoid函数、具有明确定义的导数的单调递减或递增非线性函数、分段线性段、阶梯函数等。
将前向路径中多层神经网络的(输入、隐藏和输出)层总数表示为(LF+1)。与从前向路径中的相应分量多层神经网络输出的目标颜色等级(或目标域)相对应(或相同)的经前向整形的颜色等级中的经前向整形的或预测的分量像素值可以如下给出:
Figure BDA0003807350640000149
Figure BDA00038073506400001410
Figure BDA00038073506400001411
其中,
Figure BDA0003807350640000151
表示端到端函数,其中对于l=0…LF的设计(或操作)参数
Figure BDA0003807350640000152
Figure BDA0003807350640000153
表示前向路径中分量多层神经网络的特定层神经网络加权矩阵和偏置向量。
对于每个像素,从前向路径中的相应分量多层神经网络输出的经前向整形的或预测的分量像素值可以以级联或合并形式表示,如下所示:
Figure BDA0003807350640000154
经前向整形的图像中的每个像素的从前向路径中的相应分量多层神经网络输出的颜色分量可以用作如本文所描述的后向路径中的一个或多个跨颜色(或跨通道)后向神经网络的输入,以及可以用作包括前向路径和后向路径两者的端到端***中的联合前向和后向优化的总损失函数的输入。
可以收集经前向整形的图像(帧)的所有P个像素的经前向整形的或预测的Y、C0和C1分量像素值,以分别形成针对三个颜色空间通道/分量Y、C0和C1的三个预测目标向量,如下所示:
Figure BDA0003807350640000155
以及
Figure BDA0003807350640000156
后向路径神经网络
仅出于说明的目的,一个或多个后向神经网络被实施为后向路径中的多层神经网络。该多层神经网络包括分别针对Y、C0和C1通道或分量的三个分量多层神经网络。第一分量多层神经网络(例如,图2A中的“BackwardNet Y”等)生成重建或经后向整形的Y分量像素值。第二分量多层神经网络(例如,图2A中的“BackwardNet Cb”等)生成重建或经后向整形的C0或Cb分量像素值。第三分量多层神经网络(例如,图2A中的“BackwardNet Cr”等)生成重建或经后向整形的C1或Cr分量像素值。
可以针对Y、C0和C1定义或指定后向路径中多层神经网络的第l层,如下所示:
Figure BDA0003807350640000157
Figure BDA0003807350640000158
Figure BDA0003807350640000159
其中,
Figure BDA0003807350640000161
分别表示针对Y、C0和C1通道或分量的后向神经网络加权矩阵;
Figure BDA0003807350640000162
分别表示针对Y、C0、和C1通道或分量的后向神经网络偏置向量;
Figure BDA0003807350640000163
分别表示针对Y、C0、和C1通道或分量的后向神经网络激活函数;
Figure BDA0003807350640000164
分别表示对Y、C0、和C1通道或分量的当前第l层的输入(来自先前第(l-1)层的输出);
Figure BDA0003807350640000165
分别表示Y、C0、和C1通道或分量的当前第l层的输出。对于后向路径中多层神经网络的第一层,后向路径中多层神经网络的所有三个分量多层神经网络接收共同输入作为上述表达式(9)中的
Figure BDA0003807350640000166
将后向路径中多层神经网络的(输入、隐藏和输出)层的总数表示为(LB+1)。与源颜色等级(或源域)相对应(多相同)的经后向整形的颜色等级中从后向路径中的相应分量多层神经网络输出的重建或经后向整形的分量像素值可以如下给出:
Figure BDA0003807350640000167
Figure BDA0003807350640000168
Figure BDA0003807350640000169
其中,
Figure BDA00038073506400001610
表示端到端函数,其中对于l=0…LB的设计(或操作)参数
Figure BDA00038073506400001611
Figure BDA00038073506400001612
表示后向路径中分量多层神经网络的特定层神经网络加权矩阵和偏置向量。
对于每个像素,从后向路径中的相应分量多层神经网络输出的经后向整形的或重建的分量像素值可以以级联或合并形式表示,如下所示:
Figure BDA00038073506400001613
经后向整形的或重建图像中的每个像素的从后向路径中的相应分量多层神经网络输出的颜色分量可以用作包括前向路径和后向路径两者的端到端***中联合前向和后向优化的总损失函数的输入。
可以收集经后向整形的或重建图像(帧)的所有P个像素的经后向整形的或重建的Y、C0和C1分量像素值,以分别形成针对三个颜色空间通道/分量Y、C0和C1的三个预测目标向量,如下所示:
Figure BDA0003807350640000171
以及
Figure BDA0003807350640000172
端到端问题公式
包括所描述的前向路径和后向路径的端到端***或流水线的端到端优化问题可以如下用公式表述:
Figure BDA0003807350640000173
联合前向和后向路径优化的总成本函数可以公式表述为前向路径损失部分和后向损失部分的加权组合,前向路径损失部分和后向损失部分表示前向路径和后向路径中的每个路径的每个颜色通道/分量Y、C0和C1的失真,如下所示:
Figure BDA0003807350640000174
其中,
Figure BDA0003807350640000175
分别表示Y、C0和C1的前向路径(损失函数)加权因子;
Figure BDA0003807350640000176
Figure BDA0003807350640000177
分别表示Y、C0和C1的后向路径(损失函数)加权因子。这些损失函数加权因子表示用于控制源颜色等级与目标颜色等级之间的期望折衷或期望偏好的设计变量。更具体地,与后向路径(损失函数)加权因子相比,前向路径(损失函数)加权因子越高,目标(或经前向整形的)颜色等级看起来就越好,源(或经后向整形的)颜色等级看起来就越差。相反,与后向路径(损失函数)加权因子相比,前向路径(损失函数)加权因子越小,目标(或经前向整形的)颜色等级看起来就越差,源(或经后向整形的)颜色等级看起来就越好。在一些操作场景中,所有前向和后向(损失函数)加权因子被归一化为一(1),该所有前向和后向(损失函数)加权因子被指派给如本文所描述的在所有经整形的图像与所有输入(源和/或目标)图像之间计算的损失函数(例如,上述表达式(16)等)中的所有差异或失真。
可以使用(例如,最小化等)上述表达式(16)中规定的损失函数来得到前向神经网络和后向神经网络的操作参数,如下所示:
对于l=0…LF
Figure BDA0003807350640000181
Figure BDA0003807350640000182
对于l=0…LB
Figure BDA0003807350640000183
Figure BDA0003807350640000184
可以基于最小化上述表达式(16)中的损失函数使用反向传播来求解这些操作参数或神经网络系数。上述用公式表述的优化问题可以经由(例如,标准的、专有的、增强的、可商购的、专门开发的等)神经网络优化求解器来迭代地解决。
在一些操作场景中,从前向路径生成的经前向整形的图像可以连同指定后向路径的操作参数(如上述表达式(17-2)所指示的)的图像元数据一起编码在经编码比特流中。另外地、可选地或可替代地,如本文所描述的操作可以在训练阶段和编码阶段执行。例如,经前向整形的图像可以在训练阶段生成。可以在编码阶段对一些或所有经前向整形的图像进行编码。
仅出于说明的目的,已描述了包括单个像素值的输入向量可以至少部分地用于驱动前向神经网络和后向神经网络以及如本文所描述的联合前向和后向路径优化。应当注意,在各种实施例中,可以实施或执行驱动前向神经网络和后向神经网络以及联合前向和后向路径优化的其他方式。例如,除了或代替如上所述的输入向量包括单个像素值的基于像素的问题公式化,包括聚集像素值(如基于三维映射表(3DMT)或三维(3D)颜色立方体得到的聚集值)的输入向量可以至少部分地用于驱动前向神经网络和后向神经网络以及如本文所描述的联合前向和后向路径优化。示例3DMT描述在Q.Song等人于2019年5月09日提交的公开为WO 2019/217751的PCT申请PCT/US2019/031620“High-fidelity full referenceand high-efficiency reduced reference encoding in end-to-end single layerbackward-compatible encoding pipeline[端到端单层后向兼容编码流水线中的高保真全参考和高效缩减参考编码]”中进行了描述,该申请的全部内容如本文充分阐述的那样通过引用并入本文。
单层渐进编解码器的联合优化
可以扩展联合前向和后向路径优化以支持比描绘相同场景或视觉语义内容的源颜色等级和目标颜色等级更多的颜色等级。
图2B图示了用于渐进SLBC编码或单层渐进编码(SLPC)的示例联合前向和后向优化框架。该框架可以但不限于利用以下中的一项或多项中的渐进SLBC编解码器来实施:视频编码器、视频转码器、视频流服务器等。如所示出的,由渐进SLBC编解码器(例如,图1的编码块(120)等)接收的输入可以包括分别属于源颜色等级(表示为“Src Grade(YCbCr444)”)和多个目标颜色等级(表示为“Dst Grade 0(YCbCr 444)”到“Dst Grade K-1(YCbCr444)”)的两种不同类型的输入图像;其中,K表示多个目标颜色等级中的目标颜色等级的总数。
仅出于说明的目的,渐进SLBC编解码器的输入图像可以包括源图像作为源颜色等级(例如,HDR颜色等级等)的输入图像以及多个目标图像作为目标颜色等级的输入图像。所有源图像和目标图像描绘了相同的场景(或相同的视觉语义内容)但质量水平不同,如动态范围不同。
联合优化框架由渐进SLBC编解码器实施以找到(1)多个前向整形函数,该多个前向整形函数用于将源颜色等级的源图像转换为与多个目标颜色等级相对应(或相同)的多个前向整形颜色等级中的多个经前向整形的图像,以及(2)多个后向整形函数,该多个后向整形函数用于将多个目标颜色等级的多个经前向整形的图像中的选定目标颜色等级(例如,最后一个目标颜色等级、目标颜色等级K-1等)的经前向整形的图像转换为源颜色等级的重建图像和多个目标颜色等级中的其他目标颜色等级(例如,除选定目标颜色等级之外,目标颜色等级0到(K-2)等)的其他重建图像。
在一些操作场景中,源图像和目标图像可以在具有444颜色采样格式的YCbCr颜色空间中编码或表示。源图像和目标图像中的每一者中的每个像素可以包括YCbCr颜色空间的3个(颜色空间)通道/分量(Y/Cb/Cr)中的分量像素值。
源图像和目标图像中的每一者中的每个像素的分量像素值可以级联成向量。
例如,源颜色等级(或与源颜色等级相对应的源域)的源图像中的(例如,每个等)像素的分量像素值(在Y/Cb/Cr通道或分量中)可以被级联成单个(输入源)向量。然后,该向量可以用作多个一个或多个前向神经网络集合的输入,该多个一个或多个前向神经网络集合用于将源颜色等级的源图像前向整形为多个目标颜色等级的多个经前向整形的图像。更具体地,多个前向神经网络集合使用该向量作为输入来预测多个经前向整形的图像中的多个对应像素的分量像素值。
多个前向神经网络集合中的每个集合包括分别对应于Y/Cb/Cr通道(或分量)的前向神经网络的三个子集。前向神经网络的这些子集可以用于预测对应像素在多个经前向整形的图像中的对应的经前向整形的图像的Y/Cb/Cr通道或分量中的分量像素值。
多个前向神经网络集合中的第一集合(表示为“ForwardNet YCbCr 0”)可以用于输出多个经前向整形的图像中的第一经前向整形的图像(例如,“Dest Grade 0(YCbCr444)”)。输入源向量(例如,包括3个颜色通道或分量中的分量输入值的YUV向量等)被馈送到针对多个前向神经网络集合中的第一集合(“ForwardNet YCbCr 0”)中每个颜色分量的每个前向神经网络子集。多个前向神经网络集合中的第一集合(“ForwardNet YCbCr0”)中的这些前向神经网络子集输出第一目标颜色等级(或目标域)的第一经前向整形的图像中的对应像素中的分量预测值。
多个前向神经网络集合中的第二集合(表示为“ForwardNet YCbCr 1”)可以用于输出多个经前向整形的图像中的第二经前向整形的图像(例如,“Dest Grade 1(YCbCr444)”)。第一经前向整形的图像中的对应像素的分量预测值被馈送到针对多个前向神经网络集合中的第二集合(“ForwardNet YCbCr 1”)中的每个颜色分量的每个前向神经网络子集。多个前向神经网络集合中的第二集合(“ForwardNet YCbCr 1”)中的这些前向神经网络子集输出第二目标颜色等级(或目标域)的第二经前向整形的图像中的对应像素中的分量预测值。
前述操作可以由多个前向神经网络集合中的其他集合重复,以输出或预测多个目标颜色等级的多个经前向整形的图像中的其他经前向整形的图像中的对应像素的分量像素值,直到前向路径末端处的多个前向神经网络集合中的最后一个集合(表示为“ForwardNet YCbCr K-1”)输出或预测最后一个目标颜色等级(“Dest Grade K-1(YCbCr444)”)的最后一个经前向整形的图像中的对应像素的分量像素值。
在前向路径中的多个前向神经网络集合的末端处生成的最后一个经前向整形的图像中的对应像素的预测分量像素值可以级联成(最后一个预测目标)向量。最后一个预测目标向量可以用于驱动后向路径中的后向神经网络以及用作计算包括前向路径和后向路径两者的端到端***的总成本函数中的前向整形成本部分的基础。总成本函数可以用于获得端到端***中的前向神经网络和后向神经网络的操作参数(例如,神经网络系数等)。
在后向路径中,最后一个预测目标向量可以用作多个一个或多个后向神经网络集合的输入,该多个一个或多个后向神经网络集合用于将最后一个目标颜色等级的最后一个经前向整形的图像后向整形为除最后一个目标颜色等级之外的目标颜色等级的重建(或经后向整形的)图像以及源颜色等级的重建(或经后向整形的)图像。
更具体地,后向神经网络使用最后一个预测目标向量(包括由多个前向神经网络集合最后生成的预测分量像素值)作为输入来预测除最后一个目标颜色等级之外的目标颜色等级的重建(或经后向整形的)图像以及源颜色等级的重建(或经后向整形的)图像中的对应像素的分量像素值。
多个后向神经网络集合中的第一集合(表示为“BackwardNet YCbCr K-1”)可以用于输出颜色等级组中的第一经后向整形的颜色等级(例如,未在图2B中示出的“Dest GradeK-2(YCbCr 444)”等)的第一重建(或经后向整形的)图像,该颜色等级组包括除最后一个目标颜色等级之外的目标颜色等级和源颜色等级。最后一个预测目标向量(例如,包括3个颜色通道或分量中的分量输入值的YUV向量等)被馈送到针对多个后向神经网络集合中的第一集合(“BackwardNet YCbCr K-1”)中的每个颜色分量的每个后向神经网络子集。多个后向神经网络集合中的第一集合(“BackwardNet YCbCr K-1”)中的这些后向神经网络子集输出第一经后向整形的颜色等级的第一重建(或经后向整形的)图像中的对应像素中的分量预测值。
多个后向神经网络集合中的第二集合可以用于输出颜色等级组中的第二经后向整形的颜色等级(例如,未在图2B中示出等)的第二重建(或经后向整形的)图像,该颜色等级组包括除最后一个目标颜色等级之外的其他目标颜色等级和源颜色等级。第一经后向整形的颜色等级的第一重建图像中的对应像素中的分量预测值被馈送到针对多个后向神经网络集合中的第二集合中每个颜色分量的每个后向神经网络子集。多个后向神经网络集合中的第二集合中的这些后向神经网络子集输出第二经后向整形的颜色等级的第二重建(或经后向整形的)图像中的对应像素中的分量预测值。
前述操作可以由多个后向神经网络集合中的其他集合重复,以输出或预测针对颜色等级组的多个经后向整形的图像中的其他经后向整形的图像中的对应像素的分量像素值,该颜色等级组包括除最后一个目标颜色等级之外的其他目标颜色等级和源颜色等级,直到后向路径末端处的多个后向神经网络集合中的最后一个集合(表示为“BackwardNetYCbCr 0”)输出或预测源等级(“Src Grade(YCbCr 444)”)的重建图像中的对应像素的分量像素值。
如图2B所示,由多个后向神经网络集合中的最后一个集合(“BackwardNetYCbCr0”)之前的倒数第二个集合(表示为“BackwardNet YCbCr 1”)输出或预测最后一个目标等级(Dest Grade 0(YCbCr 444))的重建图像中对应像素的分量像素值。
如图2B所图示的,渐进SLBC编码可以将前向路径划分为由多个前向神经网络集合表示的多个子网(例如,“ForwardNet YCbCr 0”到“ForwardNet YCbCr K-1”等),其中该多个子网中的每个子网由多个前向神经网络集合中的对应前向神经网络集合表示。在一些操作场景中,每个子网或前向神经网络集合可以包括相对较少的层(例如,一个隐藏层、两个隐藏层等)。这些子网可以将相对高质量的颜色等级(例如,动态范围为10000尼特或更多等)连续地前向整形为一系列质量连续降低的颜色等级(例如,动态范围从10000尼特到600尼特并且甚至到100尼特或更少等)。
同样,渐进SLBC编码可以将后向路径划分为由多个后向神经网络集合表示的多个子网(例如,“BackwardNet YCbCr K-1”到“BackwardNet YCbCr 0”等),其中该多个子网中的每个子网由多个后向神经网络集合中的对应后向神经网络集合表示。在一些操作场景中,每个子网或后向神经网络集合可以包括相对较少的层(例如,一个隐藏层、两个隐藏层等)。这些子网可以将相对低的颜色等级(例如,动态范围为100尼特或更少的最低颜色等级等)连续地后向整形为一系列质量连续提高的颜色等级(例如,动态范围从100尼特或更少到600尼特并且甚至到10000尼特或更多等)。
在一些操作场景中,由后向路径中的多个后向神经网络集合生成的多个目标颜色等级的多个经后向整形的图像中的每个经后向整形的图像中的对应像素的预测分量像素值可以级联成(预测源)向量。针对多个目标颜色等级中的每个目标颜色等级的每个这种预测源向量可以用于作为计算包括前向路径和后向路径两者的端到端***的总成本函数中的后向整形成本部分的部分基础。
可以至少部分地基于最后一个目标颜色等级(“Dst Grade YCbCr K-1”)的第(K-1)个目标图像中的初始目标数据与在前向路径末端处生成的最后一个目标颜色等级(“DstGrade YCbCr K-1”)的最后一个预测目标数据之间的差异(例如,用减法运算计算、用除法运算计算等)来计算渐进SLBC编码的总成本函数中的前向整形成本部分。
可以至少部分地基于颜色等级组(包括源等级和除最后一个目标颜色等级之外的所有目标颜色等级)的重建图像与同一颜色等级组的输入图像(或者输入源和目标图像)之间的差异(例如,用减法运算计算、用除法运算计算等)来计算渐进SLBC编码的总成本函数中的后向整形成本部分。
渐进SLBC编码的总成本函数(表示为“成本”)可以通过加权因子(表示为“加权因子”)形成为前向整形成本部分和后向整形成本部分的加权组合。加权因子可以包括源颜色等级加权因子(对应于或指派给源颜色等级)和多个目标颜色等级加权因子(对应于或指派给多个目标颜色等级)。多个目标颜色等级加权因子中的每个目标颜色等级加权因子对应于或被指派给多个目标颜色等级中的相应目标颜色等级。
渐进SLBC编码的该成本函数可以用于反向传播,以计算或生成多个前向神经网络集合和多个后向神经网络集合两者(例如,两者中的每个神经网络等)的操作参数。可以向神经网络求解器(如可商购的Google Tensorflow)提供表示神经网络的输入的源图像和表示神经网络的输出的目标图像以及损失函数,以通过在神经网络求解器中实施的反向传播来获得神经网络的操作参数。另外地、可选地或可替代地,可以使用增强的神经网络求解器。在一些操作场景中,反向传播可以在神经网络的一系列多个阶段中实施。损失函数中的不同成本部分可以用于在神经网络的一系列多个阶段中的不同阶段中单独驱动反向传播。
渐进编码问题公式化
Figure BDA0003807350640000231
表示多个目标颜色等级中的第K个目标(或参考)颜色等级的第j个图像(帧)处的第i个像素的3色目标向量,其中,K表示从0到(K-1)的整数。一些或所有目标颜色等级可以由一个或多个调色师进行内容映射和/或颜色分级,以用作具有不同显示能力(例如,在多个质量水平、多个不同动态范围、多个不同颜色空间或色域等方面)的相应参考显示设备的期望外观。
让ΦF表示基于前向神经网络的映射函数(或前向路径),该映射函数执行神经网络操作/映射以将源等级的第j个图像(帧)处的第i个像素的3色源向量(表示为vj,i)转换或变换为第(K-1)个目标(或参考)颜色等级的第j个图像(帧)处的第i个像素的3色预测目标向量(表示为
Figure BDA0003807350640000232
),如下所示:
Figure BDA0003807350640000233
前向路径可以划分为K个子网,
Figure BDA0003807350640000234
如下所示:
Figure BDA0003807350640000235
从K个子网中的每个子网输出的3色预测目标向量
Figure BDA0003807350640000236
可以如下给出:
Figure BDA0003807350640000237
对于k=0,右手边的
Figure BDA0003807350640000238
为vj,i。
对于k=K-1,左手边的
Figure BDA0003807350640000239
Figure BDA00038073506400002310
让ΦB表示基于后向神经网络的映射函数(或后向路径),该映射函数执行神经网络操作/映射以将最后一个目标颜色等级的第j个图像(帧)处的第i个像素的3色源向量(表示为
Figure BDA0003807350640000241
)转换或变换为源颜色等级的第j个图像(帧)处的第i个像素的3色预测经后向整形的向量(表示为
Figure BDA0003807350640000242
)。后向路径可以划分为K个子网,
Figure BDA0003807350640000243
如下所示:
Figure BDA0003807350640000244
从K个子网中的每个子网输出的3色预测经后向整形的向量
Figure BDA0003807350640000245
可以如下给出:
Figure BDA0003807350640000246
对于k=K-1,右手边的
Figure BDA0003807350640000247
Figure BDA0003807350640000248
对于k=0,左手边的
Figure BDA0003807350640000249
Figure BDA00038073506400002410
渐进SLBC的联合前向和后向路径优化的总成本函数可以用公式表述为前向路径损失部分和后向损失部分的加权组合,该前向路径损失部分和后向损失部分表示前向路径和后向路径中的每个路径中的每个颜色通道/分量Y、C0和C1的失真,如下所示:
Figure BDA00038073506400002411
其中,wF
Figure BDA00038073506400002412
是源等级和目标等级中的每一者的(损失函数)加权因子。这些损失函数加权因子表示用于控制源颜色等级与目标颜色等级之间的期望折衷或期望偏好的设计变量。更具体地,与其他颜色等级的(损失函数)加权因子相比,重建颜色等级的(损失函数)加权因子越高,重建颜色等级看起来就越好。在一些操作场景中,指派给如本文所描述的在所有经整形的图像与所有输入(源和/或目标)图像之间计算的损失函数(例如,上述表达式(23)等)中的所有差异或失真的所有损失函数加权因子被归一化为一(1)。在各种实施例中,不同等级级别的损失函数加权因子可以被指派给损失函数中的不同颜色等级。可以选择这些等级级别的损失函数加权因子来强调多个可用颜色等级中的一个或多个选定颜色等级的质量水平。另外地、可选地或可替代地,对于每个颜色等级,可以选择路径级别的损失函数加权因子来强调颜色等级的经前向整形的图像的质量水平或颜色等级的经后向整形的图像的质量水平。
可以使用(例如,最小化等)上述表达式(23)中规定的损失函数来得到前向神经网络和后向神经网络的操作参数。这些操作参数包括后向路径中的后向神经网络的操作参数,对于l=0…LB,表示为
Figure BDA00038073506400002413
Figure BDA00038073506400002414
可以基于最小化上述表达式(23)中的损失函数使用反向传播来求解这些操作参数或神经网络系数。上述用公式表述的优化问题可以经由(例如,标准的、专有的、增强的、可商购的、专门开发的等)神经网络优化求解器来迭代地解决。
仅出于说明的目的,已描述了在前向路径末端处最后生成的经前向整形的图像和贯穿后向路径的经后向整形的图像(例如,如图2B所示等)可以用在如本文所描述的损失函数中。在接收设备要生成经后向整形的图像的操作场景中,上游视频编码器所使用的这种损失函数可以更好地匹配接收设备要生成的内容。应当注意,在各种实施例中,除了或代替贯穿后向路径的经后向整形的图像,贯穿前向路径生成的经前向整形的图像可以用在如本文所描述的损失函数中。在接收设备要生成经前向整形的图像的操作场景中,上游视频编码器使用的此类损失函数可以更好地匹配接收设备要生成的内容。
解码器处的纯后向神经网络
在一些操作场景中,如图3A所图示的,源颜色等级(表示为“Src Grade”)可以由如本文所描述的视频编码器通过一个或多个前向神经网络的一个或多个集合(表示为“ForwardNet Y/Cb/Cr 0”到“ForwardNet Y/Cb/Cr K-1”)进行前向整形。
在前向路径末端处输出的最后一个目标颜色等级的经前向整形的图像被编码为例如视频信号的基本层(表示为BL)中的经编码比特流(例如,图1中的122)。对应后向路径中的一些或所有后向神经网络(表示为“BackwardNet Y/Cb/Cr K-1”到“BackwardNet Y/Cb/Cr 0”)的一些或所有操作参数可以由视频编码器生成(图3A中未示出;参见图2A或图2B)并作为图像元数据(表示为“RPU”)编码到经编码比特流中。
经编码比特流的接收设备(包括但不限于视频解码器),可从经编码比特流中解码图像元数据和中间颜色等级的经前向整形的图像,并使用图像元数据(“RPU”)中的后向神经网络子集和前向神经网络子集的操作参数通过使用具有经编码比特流中接收的操作参数的一些或所有后向神经网络或前向神经网络对从经编码比特流中解码的中间颜色等级的经前向整形的图像进行后向或前向整形来生成除中间颜色等级之外的其他颜色等级的经后向整形的或经前向整形的图像。这些经后向整形的或经前向整形的图像表示除中间颜色等级(已经在经编码比特流中编码)之外的颜色等级的重建图像。
更具体地,视频解码器可以使用后向神经网络子集将中间颜色等级转换为较高颜色等级。同样,视频解码器可以使用前向神经网络子集将中间颜色等级转换为较低颜色等级。非限制性示例是基本层利用1000尼特HDR 10PQ颜色等级进行编码。后向神经网络子集可以用于重建高达如4000尼特(例如,杜比视觉等)颜色等级的源颜色等级的图像,而前向神经网络子集可以用于对低至R.709 100尼特颜色等级的图像进行前向整形。
根据选择哪个颜色等级来用作经编码比特流中的基本层或者提供由该基本层中的视频编码器编码的图像数据,经编码比特流携带的图像元数据可能不同。通过说明性而非限制性的方式,如图3C所示,选择表示为“Dst Grade 1”的目标颜色等级来作为经编码比特流的基本层或者提供由该基本层中的视频编码器编码的图像数据。视频编码器可以进一步将图像元数据编码到经编码比特流中,以允许经编码比特流的接收设备使用图像元数据来重建除目标颜色等级之外的一个或多个不同颜色等级的图像,而不需要在经编码比特流中对这些颜色等级的图像数据进行编码。
如图3C所示,图像元数据可以包括第一后向神经网络集合的第一操作参数集(或Backward Net 1系数)。接收设备可以将具有第一操作参数集的第一后向神经网络集合应用于从经编码比特流中解码的目标颜色等级“Dst Grade 1”的图像数据,以生成或预测目标颜色等级“Dst Grade 0”的重建图像数据(例如,重建图像等)。
在一些操作场景中,图像元数据可以进一步包括第二后向神经网络集合的第二操作参数集(或Backward Net 0系数)。接收设备可以进一步将具有第二操作参数集的第二后向神经网络集合应用于从第一后向神经网络集合生成或预测的目标颜色等级“Dst Grade0”的重建图像数据,以生成或预测源等级的重建图像数据(例如,重建图像等)。
另外地、可选地或可替代地,图像元数据可以包括一个或多个前向神经网络集合的一个或多个操作参数集(例如,Forward Net 2系数、Forward Net 3系数…Forward NetK-2系数、Forward Net K-1系数等)。接收设备可以将具有一个或多个操作参数集中的一些或所有操作参数集的一个或多个前向神经网络集合中的一些或所有前向神经网络集合应用于从经编码比特流中解码的目标颜色等级“Dst Grade 1”的图像数据,以生成或预测除目标颜色等级“Dst Grade 1”之外的目标颜色等级(例如,“Dst Grade K-2”、“Dst GradeK-1”等)的重建图像数据(例如,重建图像等)。
因此,在混合联合优化中,前向神经网络和后向神经网络两者的操作参数可以由视频编码器生成并在如本文所描述的经编码比特流中进行编码,以使得能够生成或预测除图像数据在经编码比特流中编码的颜色等级之外的颜色等级的重建图像。
在一些操作场景中,如本文所描述的图像元数据中包括的神经网络系数可以指神经网络的激活函数中使用的加权因子和偏置。在一些操作场景中,如本文所描述的图像元数据中包括的神经网络系数可以指除神经网络的激活函数中使用的加权因子和偏置之外的操作参数。通过示例而非限制的方式,生成图像元数据的上游视频编码器和使用图像元数据的接收方视频解码器可以采用一种或多种相同的特定类型的(例如,预先配置的、预先固定的等)激活函数类型。因此,视频编码器可能不会(例如,不需要等)发信号表示激活函数类型。另外地、可选地或可替代地,生成图像元数据的上游视频编码器和使用图像元数据的接收方视频解码器可以从多个可用的激活函数类型中选择一种或多种特定类型的激活函数类型。因此,视频编码器可以包括除了或除在激活函数内使用的加权因子和偏置之外的操作参数,以(例如,动态地、自适应地等)识别一种或多种选定激活函数类型和/或其中使用的其他参数。编码语法可以由如视频编码器和视频解码器等视频编解码器指定和实施,以将操作参数编码为图像元数据或从图像元数据中解码操作参数。
解码器处的2D前向神经网络和后向神经网络
在一些操作场景中,联合前向和后向路径优化的纯架构或混合架构可以扩展至二维(2D)网格中表示的目标颜色等级。2D网格可以包括目标颜色等级,其中第一维度指示不同颜色空间(或不同色域)并且第二维度指示具有不同最大光亮度的不同动态范围。
如图3D所图示的,源颜色等级(表示为“Src Grade”)可以用作编码器侧的前向路径的输入。源颜色等级可以由如本文所描述的视频编码器通过一个或多个前向神经网络的2D集合(表示为“ForwardNet Y/Cb/Cr 0,0”、“ForwardNet Y/Cb/Cr 0,1”…“ForwardNetY/Cb/Cr 0,K-2”、“ForwardNet Y/Cb/Cr 0,K-1”…“ForwardNet Y/Cb/Cr M-1,0”、“ForwardNet Y/Cb/Cr M-1,1”…“ForwardNet Y/Cb/Cr M-1,K-2”…“ForwardNet Y/Cb/CrM-1,K-1”)进行前向整形,以生成与2D网格中表示的目标颜色等级相对应(或相同)的经前向整形的颜色等级。
前向路径中的前向神经网络的2D集合中的每个集合可以由两个索引来指示,这两个索引中的第一索引可以指示不同颜色空间,并且这两个索引中的第二索引可以指示不同动态范围。在一些操作场景中,这两个索引中的第一索引的值越高,对应的颜色空间就越小。类似地,这两个索引中的第二索引的值越高,对应的动态范围就越小。因此,在前向路径的末端处,生成或预测具有最小颜色空间(例如,具有最小色域的颜色空间)和最低动态范围的颜色等级。
除了应用前向路径中的前向神经网络之外,在编码器侧的对应后向路径中,在前向路径的末端处生成或预测的具有最小颜色空间和最低动态范围的颜色等级可以由如本文所描述的视频编码器通过一个或多个后向神经网络的2D集合(表示为“BackwardNet Y/Cb/Cr M-1,K-1”、“BackwardNet Y/Cb/Cr M-1,K-2”…“BackwardNet Y/Cb/Cr M-1,1”、“BackwardNet Y/Cb/Cr M-1,0”…“BackwardNet Y/Cb/Cr 0,K-1”、“BackwardNet Y/Cb/Cr0,K-2”…“BackwardNet Y/Cb/Cr 0,1”、“BackwardNet Y/Cb/Cr 0,0”)进行后向整形,以生成或预测颜色等级组的重建图像,该颜色等级组包括源颜色等级和除具有最小颜色空间和最低动态范围的颜色等级之外的其他目标颜色等级。在后向路径的末端处,生成或预测源颜色等级的重建图像。
在一些操作场景中(例如,纯后向神经网络等),具有最小颜色空间和最低动态范围的颜色等级的图像数据可以由视频编码器编码到经编码比特流的基本层中。如通过利用来自所有颜色等级的成本部分优化总成本函数而生成的后向神经网络的一些或所有2D集合的操作参数可以与经编码比特流中具有最小颜色空间和最低动态范围的颜色等级的图像数据一起传递/传输。经编码比特流的接收设备可以使用这些操作参数来生成或预测颜色等级组中的颜色等级的重建图像,该颜色等级组包括源颜色等级和除具有最小颜色空间和最低动态范围的颜色等级之外的其他目标颜色等级。更具体地,在沿一个维度(例如,与2D网格的第一维度相对应等)应用后向神经网络的2D集合来改变或替换颜色空间的同时,沿其他维度(例如,与2D网格的第二维度相对应等)应用后向神经网络的2D集合来增加动态范围。示例颜色空间可以包括但不一定仅限于以下各项中的任何项:Rec.709、P3、P5、在显示设备中实施的由不同原色集合包围的各种三角形或多边形。
在一些操作场景中(例如,混合前向和后向神经网络等),中间颜色等级(除源颜色等级和具有最小颜色空间和最低动态范围的目标颜色等级之外)的图像数据可以由视频编码器编码到经编码比特流的基本层中。如通过利用来自所有颜色等级的成本部分优化总成本函数而生成的前向神经网络和后向神经网络的一些或所有2D集合的操作参数可以与经编码比特流中的中间颜色等级的图像数据一起传递/传输。经编码比特流的接收设备可以使用这些操作参数来生成或预测除中间颜色等级之外的颜色等级的重建图像。
在一些操作场景中,如图3E所图示的,具有最大颜色空间(例如,具有最宽色域的颜色空间)和最高动态范围(例如,对应于源颜色等级)的颜色等级(除源颜色等级和具有最小颜色空间和最低动态范围的目标颜色等级之外的颜色等级)的图像数据可以由视频编码器编码到经编码比特流的基本层中。如通过利用来自所有颜色等级的成本部分优化总成本函数而生成的前向或后向神经网络的一些或所有2D集合的操作参数可以与经编码比特流中具有最大颜色空间和最高动态范围的颜色等级的图像数据一起传递/传输。经编码比特流的接收设备可以使用这些操作参数来生成或预测除具有最大颜色空间和最高动态范围的颜色等级之外的颜色等级的经前向整形的图像。因此,在这些操作场景中,经编码比特流的基本层包括具有最大颜色空间和最高动态范围的图像数据。在沿一个维度应用前向或后向神经网络时,经编码图像数据的最大颜色空间在生成的或预测的图像数据中连续减小;在沿另一个维度应用前向或后向神经网络时,经编码图像数据的最高动态范围在生成的或预测的图像数据中连续减小。
可以通过表示2D网格中从针对其图像数据被编码在如本文所描述的经编码比特流中的选定颜色等级到期望颜色等级的路径的一系列前向或后向神经网络集合来生成除该选定颜色等级之外的颜色等级。根据起始点(或者在经编码比特流中编码的选定颜色等级)并且/或者根据人们更倾向于具有最低计算以在解码器侧进行重建的颜色等级,可以实施2D网格中的不同路径。
仅出于说明的目的,已描述了可以利用前向神经网络和后向神经网络实施联合优化框架,以处理以YCbCr颜色空间类型表示的图像数据。应当注意,在各种实施例中,如本文所描述的一些或所有技术可以但不一定仅限于应用于不同颜色空间类型,如RGB(红、绿、蓝)颜色空间类型、IPT颜色空间类型、ICtCp颜色空间类型等。另外地、可选地或可替代地,在如本文所描述的前向路径和/或后向路径中实施的神经网络可以用于从以源颜色空间类型(例如,YCbCr等)表示的源图像数据生成以不同颜色空间类型(例如,RGB等)表示的经前向整形的和/或经后向整形的图像数据。可以由前向路径和/或后向路径中的神经网络和/或利用神经网络外部的(视频编解码器的)一个或多个图像处理块来实施颜色空间转换。
在一些操作场景中,基于线性段的结构可以用于计算/生成/包括图像元数据中的后向整形映射,以维持图像元数据的时间稳定性。示例基于线性段的结构在H.Kadu和G-M.Su的美国专利10,397,576,“Reshaping curve optimization in HDR coding[HDR编码中的整形曲线优化]”中进行了描述,该美国专利的全部内容如本文充分阐述的那样通过引用并入本文。
如本文所描述的一些或所有技术可以作为实时操作的一部分来实施和/或执行,以产生广播视频应用、实时流式传输应用等的视频内容的颜色等级。另外地、可选地或可替代地,如本文所描述的一些或所有技术可以作为延时或离线操作的一部分来实施和/或执行,以产生适用于非实时流式传输应用、影院应用等的视频内容的颜色等级。
示例过程流程
图4A图示了根据实施例的示例过程流程。在一些实施例中,一个或多个计算设备或部件(例如,编码设备/模块、转码设备/模块、解码设备/模块、逆色调映射设备/模块、色调映射设备/模块、媒体设备/模块、反向映射生成和应用***等)可以执行此过程流程。在框402中,图像处理***接收源颜色等级的源图像和目标颜色等级的目标图像作为包括前向路径和后向路径的端到端图像映射流水线的输入,该前向路径包括一个或多个前向神经网络,并且该后向路径包括后向神经网络。
在框404中,图像处理***应用前向路径中的一个或多个前向神经网络对源颜色等级的源图像进行前向整形,以生成目标颜色等级的经前向整形的图像。
在框406中,图像处理***应用后向路径中的一个或多个后向神经网络对目标颜色等级的经前向整形的图像进行后向整形,以生成源颜色等级的经后向整形的图像。
在框408中,图像处理***生成为前向路径和后向路径指定的神经网络成本函数的成本。该成本包括根据经前向整形的图像与目标图像之间的第一差异计算的前向成本部分,以及根据经后向整形的图像与源图像之间的第二差异计算的后向成本部分。
在框410中,图像处理***使用从神经网络成本函数生成的成本作为基础的一部分来确定一个或多个前向神经网络和一个或多个后向神经网络的操作参数。
在框412中,图像处理***将从前向路径生成的选定颜色等级的图像数据连同图像元数据一起编码在视频信号中。图像元数据至少包括一个或多个前向神经网络和一个或多个后向神经网络的子集的操作参数的子集。这使得视频信号的接收设备使用图像元数据和选定颜色等级的图像数据来生成不同颜色等级的重建图像数据。在一些操作场景中,框412中的一些或所有操作是可选的,并且可以执行或不执行。
在实施例中,视频信号表示单层后向兼容信号。
在实施例中,一个或多个前向神经网络将源颜色等级的源图像转换为多个目标颜色等级的多个经前向整形的图像;一个或多个后向神经网络将前向路径中最后生成的经前向整形的图像转换为多个目标颜色等级的多个经后向整形的图像。
在实施例中,目标颜色等级的经前向整形的图像是前向路径中最后生成的经前向整形的图像。
在实施例中,目标颜色等级的经前向整形的图像不是前向路径中最后生成的经前向整形的图像。
在实施例中,图像元数据不包括一个或多个前向神经网络的操作参数。
在实施例中,图像元数据包括一个或多个前向神经网络和一个或多个后向神经网络的混合的操作参数。
在实施例中,一个或多个前向神经网络将源颜色等级的源图像整形为多个目标颜色等级的多个对应图像;多个目标颜色等级形成二维网格,其中第一维度指示不同颜色空间并且第二维度指示不同动态范围。
在实施例中,选定颜色等级为这样的选定目标颜色等级:动态范围高于从前向路径生成的所有其他目标颜色等级的动态范围,并且颜色空间高于从前向路径生成的所有其他目标颜色等级的颜色空间。
在实施例中,选定颜色等级为这样的选定目标颜色等级:动态范围低于从前向路径生成的所有其他目标颜色等级的动态范围,并且颜色空间低于从前向路径生成的所有其他目标颜色等级的颜色空间。
图4B图示了根据本发明的实施例的示例过程流程。在一些实施例中,一个或多个计算设备或部件(例如,编码设备/模块、转码设备/模块、解码设备/模块、逆色调映射设备/模块、色调映射设备/模块、媒体设备/模块、预测模型和特征选择***、反向映射生成和应用***等)可以执行此过程流程。在框452中,视频解码***将从在上游视频编码器中实施的前向路径生成的颜色等级的图像数据连同图像元数据一起从视频信号中解码。图像元数据至少包括在上游编码器中实施的前向路径中的一个或多个前向神经网络和对应后向路径中的一个或多个后向神经网络的子集的操作参数的子集。
在框454中,视频解码***将具有该操作参数的子集的一个或多个前向神经网络和一个或多个后向神经网络的子集应用于颜色等级的图像数据,以生成不同颜色等级的重建图像数据。
在框456中,视频解码***使得从不同颜色等级的重建图像得到的显示图像利用显示设备来渲染。
在实施例中,包括颜色等级的经前向整形的图像的图像数据是从由一个或多个前向神经网络针对多个目标颜色等级生成的多个经前向整形的图像中选择的;一个或多个后向神经网络将前向路径中最后生成的经前向整形的图像转换为针对多个目标颜色等级的多个经后向整形的图像。
在实施例中,如显示设备、移动设备、机顶盒、多媒体设备等计算设备被配置为执行前述方法中的任一种方法。在实施例中,一种装置包括处理器,并且被配置为执行前述方法中的任一种方法。在实施例中,一种非暂态计算机可读存储介质存储有软件指令,该软件指令当由一个或多个处理器执行时使得执行前述方法中的任一种方法。
在实施例中,一种计算设备包括一个或多个处理器以及一个或多个存储介质,该一个或多个存储介质存储指令集,该指令集当由一个或多个处理器执行时使得执行前述方法中的任一种方法。
注意,尽管本文讨论了单独的实施例,但是本文讨论的实施例和/或部分实施例的任何组合都可以组合以形成进一步实施例。
示例计算机***实施方式
本发明的实施例可以利用计算机***、以电子电路和部件来配置的***、集成电路(IC)设备(如微控制器、现场可编程门阵列(FPGA)或另一个可配置或可编程逻辑装置(PLD)、离散时间或数字信号处理器(DSP)、专用IC(ASIC))和/或包括这样的***、设备或部件中的一个或多个的装置来实施。计算机和/或IC可以执行、控制或实施与对具有增强动态范围的图像的自适应感知量化有关的指令,如本文所描述的那些。计算机和/或IC可以计算与本文所描述的自适应感知量化过程有关的各种参数或值中的任何参数或值。图像和视频实施例可以以硬件、软件、固件及其各种组合来实施。
本发明的某些实施方式包括执行软件指令的计算机处理器,该软件指令使处理器执行本公开的方法。例如,显示器、编码器、机顶盒、转码器等中的一个或多个处理器可以通过执行处理器可访问的程序存储器中的软件指令来实施与如上所述的对HDR图像的自适应感知量化有关的方法。还可以以程序产品的形式提供本发明的实施例。程序产品可以包括携带一组计算机可读信号的任何非暂态介质,该组计算机可读信号包括指令,该指令当由数据处理器执行时,使数据处理器执行本发明的实施例的方法。根据本发明的实施例的程序产品可以采用各种形式中的任何一种。程序产品可以包括例如物理介质,如包括软盘、硬盘驱动器的磁性数据存储介质、包括CD ROM、DVD的光学数据存储介质、包括ROM、闪速存储器RAM的电子数据存储介质等。程序产品上的计算机可读信号可以可选地被压缩或加密。
在上面提到部件(例如,软件模块、处理器、组件、设备、电路等)的情况下,除非另有指明,否则对该部件的引用(包括对“模块”的引用)应该被解释为包括执行所描述部件的功能的任何部件作为该部件的等同物(例如,功能上等同的),包括在结构上不等同于执行本发明的所图示示例实施例中的功能的所公开结构的部件。
根据一个实施例,本文所描述的技术由一个或多个专用计算设备实施。专用计算设备可以是硬接线的以执行该技术,或者可以包括被持久地编程以执行该技术的数字电子设备,如一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA),或者可以包括被编程为根据固件、存储器、其他存储装置或组合中的程序指令来执行该技术的一个或多个通用硬件处理器。这种专用计算设备也可以将定制的硬接线逻辑、ASIC或FPGA与定制编程相结合来实现该技术。专用计算设备可以是台式计算机***、便携式计算机***、手持式设备、联网设备、或合并硬接线和/或程序逻辑以实施该技术的任何其他设备。
例如,图5是图示了可以在其上实施本发明的实施例的计算机***500的框图。计算机***500包括总线502或用于传送信息的其他通信机制、以及与总线502耦接以处理信息的硬件处理器504。硬件处理器504例如可以是通用微处理器。
计算机***500还包括耦接到总线502以用于存储信息和要由处理器504执行的指令的主存储器506,如随机存取存储器(RAM)或其他动态存储设备。主存储器506还可以用于存储在执行要由处理器504执行的指令期间的临时变量或其他中间信息。这种指令在被存储于处理器504可访问的非暂态存储介质中时,使得计算机***500变成被定制用于执行在指令中指定的操作的专用机器。
计算机***500进一步包括只读存储器(ROM)508或耦接到总线502以用于存储处理器504的静态信息和指令的其他静态存储设备。提供存储设备510(如磁盘或光盘),并将其耦接到总线502以用于存储信息和指令。
计算机***500可以经由总线502耦接到如液晶显示器的显示器512上,以用于向计算机用户显示信息。包括字母数字键和其他键的输入设备514耦接到总线502,以用于将信息和命令选择传送到处理器504。另一种类型的用户输入设备是如鼠标、轨迹球或光标方向键的光标控件516,以用于将方向信息和命令选择传送到处理器504并用于控制显示器512上的光标移动。典型地,此输入设备具有在两条轴线(第一轴线(例如,x轴)和第二轴线(例如,y轴))上的两个自由度,其允许设备在某个平面中指定位置。
计算机***500可以使用自定义硬接线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实施本文所描述的技术,固件和/或程序逻辑与计算机***相结合使计算机***500成为用机器或将计算机***500编程为专用机器。根据一个实施例,响应于处理器504执行包含在主存储器506中的一个或多个指令的一个或多个序列,计算机***500执行如本文所描述的技术。这种指令可以从另一个存储介质(如存储设备510)读取到主存储器506中。执行包含在主存储器506中的指令序列使处理器504执行本文所描述的过程步骤。在可替代实施例中,可以使用硬接线电路来代替软件指令或者与软件指令相结合。
如本文所使用的术语“存储介质”是指存储使机器以特定方式操作的数据和/或指令的任何非暂态介质。这种存储介质可以包括非易失性介质和/或易失性介质。非易失性介质例如包括光盘或磁盘,如存储设备510。易失性介质包括动态存储器,例如主存储器506。常见形式的存储介质例如包括软盘、软磁盘、硬盘、固态驱动器、磁带或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、具有孔图案的任何物理介质、RAM、PROM和EPROM、闪速EPROM、NVRAM、任何其他存储器芯片或盒。
存储介质不同于传输介质但可以与传输介质结合使用。传输介质参与在存储介质之间传递信息。例如,传输介质包括同轴电缆、铜线和光纤,包括包含总线502的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的声波或光波。
各种形式的介质可以涉及将一个或多个指令的一个或多个序列载送到处理器504以供执行。例如,指令最初可以携带在远程计算机的磁盘或固态驱动器上。远程计算机可以将指令加载到其动态存储器中,并使用调制解调器通过电话线发送指令。计算机***500本地的调制解调器可以接收电话线上的数据并使用红外发射器将数据转换成红外信号。红外检测器可以接收红外信号中携带的数据,并且适当的电路可以将数据放在总线502上。总线502将数据载送到主存储器506,处理器504从该主存储器取得并执行指令。主存储器506接收的指令可以可选地在由处理器504执行之前或之后存储在存储设备510上。
计算机***500还包括耦接到总线502的通信接口518。通信接口518提供耦接到网络链路520的双向数据通信,该网络链路连接到本地网络522。例如,通信接口518可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或者用于向对应类型的电话线提供数据通信连接的调制解调器。作为另一个示例,通信接口518可以是用于提供到兼容LAN的数据通信连接的局域网(LAN)卡。还可以实施无线链路。在任何这种实施方式中,通信接口518发送并接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。
网络链路520通常通过一个或多个网络向其他数据设备提供数据通信。例如,网络链路520可以通过本地网络522提供到主计算机524或到由因特网服务提供商(ISP)526操作的数据设备的连接。ISP 526进而通过现在通常被称为“因特网”528的全球分组数据通信网络来提供数据通信服务。本地网络522和因特网528都使用携带数字数据流的电信号、电磁信号或光信号。通过各种网络的信号以及网络链路520上并且通过通信接口518的信号(其将数字数据载送到计算机***500并且从该计算机***载送数字数据)是传输介质的示例形式。
计算机***500可以通过一个或多个网络、网络链路520和通信接口518发送消息和接收数据,包括程序代码。在因特网示例中,服务器530可以通过因特网528、ISP526、本地网络522和通信接口518传输对应用程序的请求代码。
所接收的代码可以在其被接收到时由处理器504执行并且/或者存储在存储设备510、或其他非易失性存储器中以供稍后执行。
等同物、扩展、替代方案和杂项
在前述说明书中,已经参考许多具体细节描述了本发明的实施例,这些细节可以根据实施方式而变化。因此,本发明的要求保护的实施例以及申请人期望的本发明的要求保护的实施例的唯一且排他性指示是根据本申请以特定形式发布的权利要求组,其中,这种权利要求发布包括任何后续修正。本文中针对这种权利要求中包含的术语明确阐述的任何定义应该支配如在权利要求中使用的这种术语的含义。因此,权利要求中未明确记载的限制、要素、特性、特征、优点或属性不应以任何方式限制这种权利要求的范围。因此,应当从说明性而非限制性意义上看待本说明书和附图。
可以从以下枚举的示例实施例(EEE)中理解本发明的各个方面:
EEE 1.一种方法,包括:
接收源颜色等级的源图像和目标颜色等级的目标图像作为包括前向路径和后向路径的端到端图像映射流水线的输入,所述前向路径包括一个或多个前向神经网络,并且所述后向路径包括一个或多个后向神经网络;
应用所述前向路径中的所述一个或多个前向神经网络来对所述源颜色等级的所述源图像进行前向整形,以生成所述目标颜色等级的经前向整形的图像;
应用所述后向路径中的所述一个或多个后向神经网络来对所述目标颜色等级的所述经前向整形的图像进行后向整形,以生成所述源颜色等级的经后向整形的图像;
生成为所述前向路径和所述后向路径指定的神经网络成本函数的成本,其中,所述成本包括根据所述经前向整形的图像与所述目标图像之间的第一差异计算的前向成本部分,其中,所述成本包括根据所述经后向整形的图像与所述源图像之间的第二差异计算的后向成本部分;以及
使用从所述神经网络成本函数生成的成本作为用于确定所述一个或多个前向神经网络和所述一个或多个后向神经网络的操作参数的基础的一部分;
并且可选地:
将从所述前向路径生成的选定颜色等级的图像数据连同图像元数据一起编码在视频信号中,其中,所述图像元数据至少包括所述一个或多个前向神经网络和/或所述一个或多个后向神经网络的子集的操作参数的子集,其中,使所述视频信号的接收设备使用所述图像元数据和所述选定颜色等级的图像数据来生成不同颜色等级的重建图像数据。
EEE 2.如EEE 1所述的方法,其中,所述视频信号表示单层后向兼容信号。
EEE 3.如EEE 1或2所述的方法,其中,所述一个或多个前向神经网络将所述源颜色等级的所述源图像转换为多个目标颜色等级的多个经前向整形的图像;其中,所述一个或多个后向神经网络将所述前向路径中最后生成的经前向整形的图像转换为所述多个目标颜色等级的多个经后向整形的图像。
EEE 4.如EEE 1至3中任一项所述的方法,其中,所述目标颜色等级的经前向整形的图像是所述前向路径中最后生成的经前向整形的图像。
EEE 5.如EEE 1至3中任一项所述的方法,其中,所述目标颜色等级的经前向整形的图像不是所述前向路径中最后生成的经前向整形的图像。
EEE 6.如EEE 1至5中任一项所述的方法,其中,所述图像元数据仅包括所述一个或多个后向神经网络的操作参数。
EEE 7.如EEE 1至5中任一项所述的方法,其中,所述图像元数据包括所述一个或多个前向神经网络和所述一个或多个后向神经网络的混合的操作参数。
EEE 8.如EEE 1至7中任一项所述的方法,其中,所述一个或多个前向神经网络将所述源颜色等级的源图像整形为多个目标颜色等级下的多个对应图像;其中,所述多个目标颜色等级形成二维网格,所述二维网格具有指示不同颜色空间的第一维度并且指示不同动态范围的第二维度。
EEE 9.如EEE 1至8中任一项所述的方法,其中,所述选定颜色等级为选定目标颜色等级,所述选定目标颜色等级的动态范围高于从所述前向路径生成的所有其他目标颜色等级的动态范围并且/或者所述选定目标颜色等级的颜色空间高于从所述前向路径生成的所有其他目标颜色等级的颜色空间。
EEE 10.如EEE 1至8中任一项所述的方法,其中,所述选定颜色等级为选定目标颜色等级,所述选定目标颜色等级的动态范围低于从所述前向路径生成的所有其他目标颜色等级的动态范围并且/或者所述选定目标颜色等级的颜色空间低于从所述前向路径生成的所有其他目标颜色等级的颜色空间。
EEE 11.一种方法,包括:
从视频信号中解码从上游视频编码器中实施的前向路径生成的某颜色等级的图像数据连同图像元数据,其中,所述图像元数据至少包括所述上游视频编码器中实施的所述前向路径中的一个或多个前向神经网络和对应后向路径中的一个或多个后向神经网络的子集的操作参数的子集;
将具有所述操作参数的子集的所述一个或多个前向神经网络和所述一个或多个后向神经网络的子集应用于所述颜色等级的图像数据,以生成不同颜色等级的重建图像数据;
使得利用显示设备来渲染从所述不同颜色等级的所述重建图像数据得到的显示图像。
EEE 12.如EEE 11所述的方法,其中,包括所述颜色等级的经前向整形的图像的图像数据是从由所述一个或多个前向神经网络针对多个目标颜色等级生成的多个经前向整形的图像中选择的;其中,所述一个或多个后向神经网络将所述前向路径中最后生成的经前向整形的图像转换为所述多个目标颜色等级的多个经后向整形的图像。
EEE 13.一种***,包括处理器并被配置为执行如EEE 1至12中所述的方法中的任一种方法。
EEE 14.一种装置,包括处理器并且被配置为执行如EEE 1至12中所述的方法中的任一种方法。
EEE 15.一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质具有存储与其上的计算机可执行指令,以用于根据如EEE 1至12所述的方法中的任一种方法、利用一个或多个处理器来执行方法。

Claims (15)

1.一种计算机实施的方法,包括:
接收源颜色等级的源图像和目标颜色等级的目标图像作为包括前向路径和后向路径的端到端图像映射流水线的输入,所述前向路径包括一个或多个前向神经网络,并且所述后向路径包括一个或多个后向神经网络;
应用所述前向路径中的所述一个或多个前向神经网络来对所述源颜色等级的所述源图像进行前向整形,以生成所述目标颜色等级的经前向整形的图像;
应用所述后向路径中的所述一个或多个后向神经网络来对所述目标颜色等级的所述经前向整形的图像进行后向整形,以生成所述源颜色等级的经后向整形的图像;
计算为所述前向路径和所述后向路径指定的神经网络成本函数,其中,所述神经网络成本函数包括计算所述经前向整形的图像与所述目标图像之间的第一差异的前向成本部分,其中,所述神经网络成本函数进一步包括计算所述经后向整形的图像与所述源图像之间的第二差异的后向成本部分;以及
使用所述神经网络成本函数通过反向传播来确定所述一个或多个前向神经网络和所述一个或多个后向神经网络的操作参数。
2.如权利要求1所述的方法,进一步包括:
将从所述前向路径生成的选定颜色等级的图像数据连同图像元数据一起编码在视频信号中,其中,所述图像元数据至少包括所述一个或多个前向神经网络和/或所述一个或多个后向神经网络的子集的操作参数的子集,以使得所述视频信号的接收设备使用所述图像元数据和所述选定颜色等级的所述图像数据来生成不同颜色等级的重建图像数据。
3.如权利要求2所述的方法,其中,所述选定颜色等级为选定目标颜色等级,所述选定目标颜色等级的动态范围高于从所述前向路径生成的所有其他目标颜色等级的动态范围并且/或者所述选定目标颜色等级的颜色空间大于从所述前向路径生成的所有其他目标颜色等级的颜色空间。
4.如权利要求2所述的方法,其中,所述选定颜色等级为选定目标颜色等级,所述选定目标颜色等级的动态范围低于从所述前向路径生成的所有其他目标颜色等级的动态范围并且/或者所述选定目标颜色等级的颜色空间小于从所述前向路径生成的所有其他目标颜色等级的颜色空间。
5.如权利要求2至4中任一项所述的方法,其中,所述图像元数据仅包括所述一个或多个后向神经网络的操作参数。
6.如权利要求2至4中任一项所述的方法,其中,所述图像元数据包括所述一个或多个前向神经网络和所述一个或多个后向神经网络的混合的操作参数。
7.如权利要求2至6中任一项所述的方法,其中,所述视频信号表示单层后向兼容信号。
8.如权利要求1至7中任一项所述的方法,其中,所述一个或多个前向神经网络将所述源颜色等级的所述源图像转换为多个目标颜色等级的多个经前向整形的图像;其中,所述一个或多个后向神经网络将所述前向路径中最后生成的经前向整形的图像转换为所述多个目标颜色等级的多个经后向整形的图像。
9.如权利要求1至8中任一项所述的方法,其中,所述目标颜色等级的所述经前向整形的图像是所述前向路径中最后生成的所述经前向整形的图像。
10.如权利要求1至8中任一项所述的方法,其中,所述目标颜色等级的所述经前向整形的图像不是所述前向路径中最后生成的所述经前向整形的图像。
11.如权利要求1至10中任一项所述的方法,其中,所述一个或多个前向神经网络将所述源颜色等级的所述源图像整形为多个目标颜色等级下的多个对应图像;其中,所述多个目标颜色等级形成二维网格,所述二维网格具有指示不同颜色空间的第一维度和指示不同动态范围的第二维度。
12.一种方法,包括:
从视频信号中解码从上游视频编码器中实施的前向路径生成的某颜色等级的图像数据连同图像元数据,其中,所述图像元数据至少包括所述上游视频编码器中实施的所述前向路径中的一个或多个前向神经网络和/或对应后向路径中的一个或多个后向神经网络的子集的操作参数的子集;
将具有所述操作参数的子集的所述一个或多个前向神经网络和/或所述一个或多个后向神经网络的子集应用于所述颜色等级的所述图像数据,以生成不同颜色等级的重建图像数据;
使得利用显示设备来渲染从所述不同颜色等级的所述重建图像数据得到的显示图像。
13.如权利要求12所述的方法,其中,包括所述颜色等级的经前向整形的图像的所述图像数据是从由所述一个或多个前向神经网络针对多个目标颜色等级生成的多个经前向整形的图像中选择的;其中,所述一个或多个后向神经网络将所述前向路径中最后生成的经前向整形的图像转换为所述多个目标颜色等级的多个经后向整形的图像。
14.一种***,包括处理器并且被配置为执行如权利要求1至13中任一项所述的方法。
15.一种具有指令的计算机程序,所述指令当由计算设备或***执行时,使所述计算设备或***执行如权利要求1至13中任一项所述的方法。
CN202180015927.0A 2020-02-19 2021-02-17 图像处理中的联合前向和后向神经网络优化 Pending CN115152212A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202062978638P 2020-02-19 2020-02-19
US62/978,638 2020-02-19
EP20158278.0 2020-02-19
EP20158278 2020-02-19
PCT/US2021/018407 WO2021168001A1 (en) 2020-02-19 2021-02-17 Joint forward and backward neural network optimization in image processing

Publications (1)

Publication Number Publication Date
CN115152212A true CN115152212A (zh) 2022-10-04

Family

ID=74845131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180015927.0A Pending CN115152212A (zh) 2020-02-19 2021-02-17 图像处理中的联合前向和后向神经网络优化

Country Status (5)

Country Link
US (1) US12003746B2 (zh)
EP (1) EP4107946B1 (zh)
JP (1) JP7443546B2 (zh)
CN (1) CN115152212A (zh)
WO (1) WO2021168001A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240054622A1 (en) * 2021-04-27 2024-02-15 Boe Technology Group Co., Ltd. Image processing method and image processing apparatus
EP4397037A1 (en) * 2021-08-30 2024-07-10 Dolby Laboratories Licensing Corporation Reshaper for learning-based image/video coding
WO2024107472A1 (en) * 2022-11-16 2024-05-23 Dolby Laboratories Licensing Corporation Estimating metadata for images having absent metadata or unusable form of metadata

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5376962A (en) * 1993-03-31 1994-12-27 Panasonic Technologies, Inc. Neural network video image processor
JP2000311243A (ja) 1999-04-28 2000-11-07 Sony Corp 画像色補正方法及び装置
US6993512B2 (en) 2001-06-05 2006-01-31 Basf Corporation System and method for converting a color formula using an artificial intelligence based conversion model
US7221807B2 (en) 2002-03-29 2007-05-22 Sharp Laboratories Of America, Inc. Methods and systems for digital image characteristic adjustment using a neural network
US7512861B2 (en) 2004-05-20 2009-03-31 Vladimir Brajovic Method for determining identity of simultaneous events and applications to image sensing and A/D conversion
WO2016120354A1 (en) 2015-01-30 2016-08-04 Thomson Licensing Method and device for matching colors between color pictures of different dynamic range
EP3067882A1 (en) 2015-03-10 2016-09-14 Thomson Licensing Adaptive color grade interpolation method and device
RU2666234C1 (ru) 2015-03-20 2018-09-06 Долби Лэборетериз Лайсенсинг Корпорейшн Аппроксимация восстановления формы сигнала
US20160286226A1 (en) 2015-03-24 2016-09-29 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding
US20160286241A1 (en) 2015-03-24 2016-09-29 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding
US9826149B2 (en) 2015-03-27 2017-11-21 Intel Corporation Machine learning of real-time image capture parameters
US9794540B2 (en) 2015-04-17 2017-10-17 Google Inc. Hardware-based convolutional color correction in digital images
EP3113496A1 (en) 2015-06-30 2017-01-04 Thomson Licensing Method and device for encoding both a hdr picture and a sdr picture obtained from said hdr picture using color mapping functions
EP3354032A1 (en) * 2015-09-21 2018-08-01 VID SCALE, Inc. Inverse reshaping for high dynamic range video coding
US10728560B2 (en) 2016-01-28 2020-07-28 Koninklijke Philips N.V. Encoding and decoding HDR videos
WO2017165494A2 (en) * 2016-03-23 2017-09-28 Dolby Laboratories Licensing Corporation Encoding and decoding reversible production-quality single-layer video signals
GB201611253D0 (en) 2016-06-29 2016-08-10 Dolby Laboratories Licensing Corp Efficient Histogram-based luma look matching
US10701404B2 (en) 2016-08-30 2020-06-30 Dolby Laboratories Licensing Corporation Real-time reshaping of single-layer backwards-compatible codec
WO2018049335A1 (en) 2016-09-09 2018-03-15 Dolby Laboratories Licensing Corporation Coding of high dynamic range video using segment-based reshaping
US10264287B2 (en) 2016-10-05 2019-04-16 Dolby Laboratories Licensing Corporation Inverse luma/chroma mappings with histogram transfer and approximation
US10691975B2 (en) 2017-07-19 2020-06-23 XNOR.ai, Inc. Lookup-based convolutional neural network
US10979718B2 (en) * 2017-09-01 2021-04-13 Apple Inc. Machine learning video processing systems and methods
US10609372B2 (en) 2017-09-29 2020-03-31 Dolby Laboratories Licensing Corporation Up-conversion to content adaptive perceptual quantization video signals
WO2019112085A1 (en) 2017-12-06 2019-06-13 Korea Advanced Institute Of Science And Technology Method and apparatus for inverse tone mapping
UY38111A (es) 2018-02-28 2019-10-01 Dolby Laboratories Licensing Corp Codificador lineal para el procesamiento de imágenes o video
US10609424B2 (en) 2018-03-09 2020-03-31 Dolby Laboratories Licensing Corporation Single-layer progressive coding for supporting multi-capability HDR composition
CN108681991A (zh) 2018-04-04 2018-10-19 上海交通大学 基于生成对抗网络的高动态范围反色调映射方法及***
CN112204617B (zh) * 2018-04-09 2023-09-05 杜比实验室特许公司 使用神经网络映射的hdr图像表示
US20190325567A1 (en) 2018-04-18 2019-10-24 Microsoft Technology Licensing, Llc Dynamic image modification based on tonal profile
EP3791577A1 (en) 2018-05-11 2021-03-17 Dolby Laboratories Licensing Corporation High-fidelity full reference and high-efficiency reduced reference encoding in end-to-end single-layer backward compatible encoding pipeline
US10943335B2 (en) 2018-06-15 2021-03-09 Intel Corporation Hybrid tone mapping for consistent tone reproduction of scenes in camera systems
US10803565B2 (en) 2018-07-10 2020-10-13 Intel Corporation Low-light imaging using trained convolutional neural networks
CN110197463B (zh) 2019-04-25 2023-01-03 深圳大学 基于深度学习的高动态范围图像色调映射方法及其***

Also Published As

Publication number Publication date
EP4107946B1 (en) 2023-11-22
US20230084705A1 (en) 2023-03-16
WO2021168001A1 (en) 2021-08-26
US12003746B2 (en) 2024-06-04
JP7443546B2 (ja) 2024-03-05
EP4107946A1 (en) 2022-12-28
JP2023514771A (ja) 2023-04-10

Similar Documents

Publication Publication Date Title
CN109416832B (zh) 高效的基于直方图的亮度外观匹配
CN108885783B (zh) 编码和解码可逆制作质量单层视频信号
CN107995497B (zh) 高动态范围视频的屏幕自适应解码
EP3537717B1 (en) Single-layer progressive coding for supporting multi-capability hdr composition
US12003746B2 (en) Joint forward and backward neural network optimization in image processing
JP7386977B2 (ja) テンソル積bスプライン予測子
EP3891995A1 (en) Interpolation of reshaping functions
JP7439251B2 (ja) ビデオコーデックにおける品質と計算の複雑さとの間の調整可能なトレードオフ
CN114175647A (zh) 电光传递函数转换和信号合法化
JP7434554B2 (ja) カスケード予測
CN117426091B (zh) 用于生成或渲染图像的方法以及计算装置
WO2023150193A1 (en) Supporting multiple target display types
WO2023150074A1 (en) Beta scale dynamic display mapping
JP2024522166A (ja) チェーンドリシェーピング関数の最適化
CN115699178A (zh) 计算用于编辑hdr内容的动态元数据
CN116888959A (zh) 经由全局和局部整形实现的图像增强

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination