CN112913230B - 图像生成装置及其方法 - Google Patents

图像生成装置及其方法 Download PDF

Info

Publication number
CN112913230B
CN112913230B CN201980070100.2A CN201980070100A CN112913230B CN 112913230 B CN112913230 B CN 112913230B CN 201980070100 A CN201980070100 A CN 201980070100A CN 112913230 B CN112913230 B CN 112913230B
Authority
CN
China
Prior art keywords
eye
pose
depth value
image
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980070100.2A
Other languages
English (en)
Other versions
CN112913230A (zh
Inventor
C·韦雷坎普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN112913230A publication Critical patent/CN112913230A/zh
Application granted granted Critical
Publication of CN112913230B publication Critical patent/CN112913230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/371Image reproducers using viewer tracking for tracking viewers with different interocular distances; for tracking rotational head movements around the vertical axis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/398Synchronisation thereof; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Stereoscopic And Panoramic Photography (AREA)

Abstract

一种装置包括确定器(305),所述确定器确定第一眼观看姿势和第二眼观看姿势。接收器(301)接收具有相关联的深度值的参考第一眼图像和具有相关联的深度值的参考第二眼图像,所述参考第一眼图像是针对第一眼参考姿势的,并且所述参考第二眼图像是针对第二眼参考姿势的。深度处理器(311)确定参考深度值,并且修改器(307)通过将接收到的深度值与参考深度值之间的差异减小取决于第二或第一眼观看姿势与第二或第一眼参考姿势之间的差异的量来生成经修改的深度值。合成器(303)基于经修改的深度值通过对参考第一眼图像进行视图移位来合成针对第一眼观看姿势的输出第一眼图像并且通过对参考第二眼图像进行视图移位来合成针对第二眼观看姿势的输出第二眼图像。术语第一和第二可以分别由左和右代替,反之亦然。例如,术语第一眼观看姿势、第二眼观看姿势、参考第一眼图像和参考第二眼图像可以分别由左眼观看姿势、右眼观看姿势、参考左眼图像和参考右眼图像代替。

Description

图像生成装置及其方法
技术领域
本发明涉及根据第一眼和第二眼图像以及相关联的深度的图像生成,并且特别但非排他地涉及用于例如受限的虚拟现实应用和服务的图像生成。
背景技术
近年来,随着不断开发和引入新的服务以及利用和消费视频的方式,图像和视频应用的种类和范围已大大增加。
例如,一种越来越流行的服务是以这样的方式提供图像序列:观看者能够主动地和动态地与***交互以改变绘制的参数。在许多应用中,非常吸引人的特征是改变观看者的有效观看位置和观看方向(观看姿势)的能力,这例如允许观看者在呈现的场景中移动并“环顾四周”。这样的特征可以具体地使得能够向用户提供虚拟现实体验。
对于许多应用还期望被呈现的图像是三维图像。实际上,为了优化观看者的沉浸感,通常优选的是,用户将呈现的场景体验为三维场景。
支持基于(尤其是三维)场景表示的各种服务的主要问题是需要大量数据。这导致高资源要求,例如对大型存储资源的需要。然而,在许多情形中,最大的限制不是存储或处理要求,而是通信要求。如果要求表示场景的数据必须通过带宽受限的通信通道(无论是内部还是外部)进行传递,则高度期望尝试减小需要被传递的数据量。
例如,在许多情形中并且对于许多应用,可以使用客户端服务器方法,其中,执行例如虚拟现实应用的远程客户端被耦合到中央服务,该中央服务通过带宽受限的链路提供所需的场景数据。
特定的建议服务试图通过允许适于用户的移动的3D体验来提供受限的虚拟现实体验,只要用户的移动小并且与给定参考点相差不太远。例如,可以为给定的虚拟视点提供场景的3D体验,该体验适于在基本停留在同一地点时进行较小的头部移动的用户。例如,该服务可以提供一种体验,其中,绘制的3D视图跟随诸如点头或摇头的移动,但是如果用户将他的头部基本移到侧面则不跟随。只要用户的眼睛保持在小的最佳位点(sweet spot)内,服务就可以提供完整的3D体验。对于每只眼睛,该最佳位点能够具有仅几厘米的范围。
在捕获和传递的数据两者方面,这样的方法能够允许基于有限数据量来提供高质量的3D体验。通常,可以将具有相关联的深度图的左眼图像和右眼图像提供给本地绘制器。然后,对于非常接近标称位置(在其最佳位点区域)的位置,绘制器可以基于接收到的图像和深度图来生成当前视图的视图图像。这可以在许多情形中提供非常自然的体验,同时保持非常低的数据速率。例如,对于会议应用,两个图像流(每只眼睛一个)和相关联的深度数据的提供可以允许具有一致的立体感和运动视差的远程端的3D表示,只要用户保持在同一位置并且仅做出很小的头部移动。因此,可以提供非常自然和高质量的体验。
然而,关于此类服务的问题在于,用户可能潜在地移动到最佳位点之外。这将倾向于导致图像质量的快速且显著的降级,包括引入可感知的伪影(例如由于缺乏去遮挡数据)。在许多情况下,质量可能很快降级,从而导致非常非期望的用户体验。
已经针对该问题提出了不同的解决方案。许多***被布置为当用户移动远离优选位置和最佳位点时使图像越来越模糊或变暗。在许多情况下,当用户移动到最佳位点之外时,向观看者呈现模糊的图片或黑色的图片。当然,这掩盖了质量降级,并且还倾向于使用户偏向留在最佳位点。
然而,当前解决方案在用户体验、数据速率、复杂性等方面倾向于不是最佳的。
因此,用于合成图像的改进方法将是有利的。特别地,一种允许改进的操作、便利的操作、改进的质量、增加的灵活性、便利的实施方式、便利的操作、降低的数据速率、减小的数据存储、分布和/或处理资源需求、改进的适应性、改进的图像质量、改进的用户体验和/或改进的性能的方法将是有利的。
发明内容
因此,本发明试图优选地单独地或以任何组合减轻、缓解或消除上述缺点中的一个或多个。
根据本发明的一个方面,提供了一种图像生成装置,包括:确定器,其用于确定第一眼观看姿势和第二眼观看姿势;接收器,其用于接收具有相关联的第一深度值的参考第一眼图像和具有相关联的第二深度值的参考第二眼图像,所述参考第一眼图像是针对第一眼参考姿势的,并且所述参考第二眼图像是针对第二眼参考姿势的;深度处理器,其用于确定参考深度值;第一修改器,其用于通过将所述第一深度值与所述参考深度值之间的差异减小第一量来生成经修改的第一深度值,所述第一量取决于所述第一眼观看姿势与所述第一眼参考姿势之间的差异;第二修改器,其用于通过将所述第二深度值与所述参考深度值之间的差异减小第二量来生成经修改的第二深度值,所述第二量取决于所述第二眼观看姿势与所述第二眼参考姿势之间的差异;以及合成器,其用于通过基于所述经修改的第一深度值对所述参考第一眼图像进行视图移位来合成针对所述第一眼观看姿势的输出第一眼图像并且通过基于所述经修改的第二深度值对所述参考第二眼图像进行视图移位来合成针对所述第二眼观看姿势的输出第二眼图像。
本发明可以在许多实施例和情形中允许改进的用户体验。在许多情形中,该方法可以允许观看者的增加的移动自由度,并且可以减小当观看者移动到最佳位点之外时感知到的降级。该方法可以允许来自因视图移位的图像质量降级与空间失真之间的改进的权衡。在许多情形中,该方法可以允许随着从观看姿势到提供了图像数据的参考观看姿势的增加距离的感知的图像质量的改进的逐步恶化。该方法可以进一步允许有利的操作,同时具有低复杂度和/或资源使用,和/或可以允许便利的实施方式。
甚至对于相差其中视图移位可能倾向于不可靠或引入大量伪影的量的观看姿势或位置,该方法例如可以允许场景的三维感知。
姿势可以是位置和/或取向。姿势之间的差异可以例如是对应位置之间的欧几里得距离和/或可以例如是对应的取向之间的角距离(或者当然是欧几里得角和角距离两者的组合度量)。
可以根据任何合适的距离或差异量度来确定第一眼和/或第二眼的观看姿势与参考姿势之间的差异。例如,可以将该差异确定为观看姿势的位置与参考姿势的位置之间的距离的单调递增函数和/或确定为观看姿势的取向与参考姿势的取向之间的角度差(的绝对值)的单调递增函数。
例如,可以相对于参考姿势来确定观看姿势。例如,在给定的时刻,当前观看姿势可以被指定为对应于参考观看姿势。因此,对于该观看姿势,不需要视图移位即可生成输出图像,或者等效地,可以将接收到的图像设置为表示针对该观看姿势的视图图像。然后可以相对于被指定为与参考姿势相对应的观看姿势来确定随后的观看姿势。例如,可以在服务的初始化时和/或在服务期间的不同时刻迭代地执行将参考姿势链接至观看姿势的这种过程。将意识到,接收器不需要接收指示第一眼或第二眼参考姿势的特定信息,而是图像固有地对应于这样的姿势。可以通过在一个时刻将它们设置为等于当前观看姿势来确定参考姿势,并且可以相对于这样的标称/参考观看姿势来确定随后的观看姿势。
第一量和第二量可以是绝对量或相对量。例如,第一量和第二量可以是用于缩放第一深度值以及相应地第二深度值与参考深度值之间的差异的第一因子和第二因子。
第一眼可以是观看者的左眼和右眼之一,并且第二眼可以是观看者的左眼和右眼中的另一个。在一些实施例中,第一眼可以是左眼,而第二眼可以是右眼,反之亦然。对第一眼和左眼的所有引用在一些示例中可以分别由对左眼和右眼的引用替代,或者在一些示例中可以分别由对右眼和左眼的引用替代。
根据本发明的任选特征,深度处理器被布置为将参考深度值确定为预定参考深度值。
在许多情形中,这可以允许低复杂度、资源使用和/或促进实施方式,同时提供高性能和有利用户体验。在一些实施例中,参考深度值可以是恒定或固定的深度值和/或可以独立于第一或第二深度值的任何性质。
根据本发明的任选特征,所述深度处理器被布置为确定所述参考第一眼图像和所述参考第二眼图像中的至少一幅图像中的观看者的注视点;并且响应于针对所述注视点的所述第一深度值和所述第二深度值中的至少一个深度值的深度值而确定所述参考深度值。
这在许多实施例中可以提供有利性能,并且在许多情形中可以具体地减小例如深度失真的可感知影响。
根据本发明的任选特征,所述第一修改器被布置为针对所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的至少一些值,将所述第一深度值与所述参考深度值之间的所述差异减小到基本上为0。
在许多实施例中,这可以提供特别有利的用户体验。对应的特征也可以由第二修改器采用。
该特征可以具体地允许一种低复杂度方法,其减小特别是去遮挡伪影针对观看姿势与参考姿势之间的较大差异而引入。
在一些实施例中,第二修改器被布置为对于第二眼观看姿势与第二眼参考姿势之间的差异的至少一些值,将第二深度值与参考深度值之间的差异减小到基本上为0。
根据本发明的任选特征,所述第一修改器被布置为针对所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的至少一些值,不减小所述第一深度值与所述参考深度值之间的所述差异。
在许多实施例中,这可以提供特别有利的用户体验。对应的特征也可以由第二修改器采用。
该特征可以特别地允许一种低复杂度的方法,其针对观看姿势与参考姿势之间的较小差异减小感知的深度/空间失真。
在一些实施例中,第二修改器被布置为针对第二眼观看姿势与第二眼参考姿势之间的差异的至少一些值,不减小第二深度值与参考深度值之间的差异。
根据本发明的任选特征,所述第一修改器被布置为将所述第一量确定为所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的单调递增函数。
在许多实施例中,这可以提供特别有利的用户体验。对应的特征也可以由第二修改器采用。
这可以在视图移位降级与深度适应失真之间提供有利的逐步权衡。
在一些实施例中,第二修改器被布置为将第二量确定为第二眼观看姿势与第二眼参考姿势之间的差异的单调递增函数。
根据本发明的任选特征,所述第一修改器被布置为通过针对所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的至少一些值以具有在0与1之间的值的缩放因子对所述第一深度值与所述参考深度值之间的差异进行缩放来生成经修改的深度值。
在一些实施例中,第二修改器被布置为通过针对第二眼观看姿势与第二眼参考姿势之间的差异的至少一些值以值在0与1之间的缩放因子缩放第二深度值与参考深度值之间的差异来生成经修改的深度值。
在许多实施例中,这可以提供特别有利的用户体验。对应的特征也可以由第二修改器采用。
根据本发明的任选特征,针对所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的至少一个范围,所述缩放因子是所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的单调递减函数。
在许多实施例中,这可以提供特别有利的用户体验。对应的特征也可以由第二修改器采用。
这可以在视图移位降级与深度适应失真之间提供有利的逐步权衡。
根据本发明的任选特征,针对所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异低于阈值,所述缩放因子的值在0.95与1.05之间。
在许多实施例中,针对第一眼观看姿势与第一眼参考姿势之间的差异低于阈值,缩放因子的值基本上为1。
在许多实施例中,这可以提供特别有利的用户体验。对应的特征也可以由第二修改器采用。
该特征可以特别地允许一种低复杂度方法,其针对观看姿势与参考姿势之间的较小差异减小感知的深度/空间失真。
根据本发明的任选特征,合成器被布置为使所述参考第一眼图像和所述参考第二眼图像在相同方向上移位。
根据本发明的任选特征,所述第一修改器被布置为限制经修改的第一深度值与所述参考深度值之间的所述差异。
在一些实施例中,第一修改器被布置为将经修改的第一深度值与参考深度值之间的差异限制为(低于)界限。
在许多实施例中,这可以提供特别有利的用户体验。对应的特征也可以由第二修改器采用。
该界限可以在仅一个方向上应用和/或可以不对称并且在向前和向后方向上不同。
在许多实施例中,第一修改器可以被布置为限制经修改的第一深度值与参考深度值之间的差异,使得经修改的第一深度值被限制为距参考深度值不比界限更靠前。
在许多实施例中,第一修改器可以被布置为限制经修改的第一深度值与参考深度值之间的差异,使得经修改的第一深度值被限制为距参考深度值不比界限更落后。
在许多实施例中,第一修改器可以被布置为将经修改的第一深度值与参考深度值之间的差异的绝对值限制为低于界限。
根据本发明的任选特征,所述第一修改器被布置为在所述第一量与在所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异之间应用与由所述第二修改器在所述第二量与在所述第二眼观看姿势与所述第二眼参考姿势之间的所述差异之间应用的关系相同的关系。
在许多实施例中,这可以提供有利的操作。
根据本发明的一个方面,提供了一种图像生成方法,所述方法包括:确定第一眼观看姿势和第二眼观看姿势;接收具有相关联的第一深度值的参考第一眼图像和具有相关联的第二深度值的参考第二眼图像,所述参考第一眼图像是针对第一眼参考姿势的,并且所述参考第二眼图像是针对第二眼参考姿势的;确定参考深度值;通过将所述第一深度值与所述参考深度值之间的差异减小第一量来生成经修改的第一深度值,所述第一量取决于所述第一眼观看姿势与所述第一眼参考姿势之间的差异;通过将所述第二深度值与所述参考深度值之间的差异减小第二量来生成经修改的第二深度值,所述第二量取决于所述第二眼观看姿势与所述第二眼参考姿势之间的差异;并且通过基于所述经修改的第一深度值对所述参考第一眼图像进行视图移位来合成针对所述第一眼观看姿势的输出第一眼图像并且通过基于所述经修改的第二深度值对所述参考第二眼图像进行视图移位来合成针对所述第二眼观看姿势的输出第二眼图像。
本发明的这些和其他方面、特征和优点将根据下文描述的(一个或多个)实施例而显而易见,并且将参考下文描述的(一个或多个)实施例得到阐述。
附图说明
将参考附图仅通过示例描述本发明的实施例,其中
图1图示了根据本发明一些实施例的图像处理***的元件的示例;
图2图示了观看姿势的示例;
图3图示了根据本发明一些实施例的图像生成装置的元件的示例;
图4图示了深度变化和观看姿势的示例;
图5图示了观看姿势与参考姿势之间的差异与缩放因子的关系的示例;
图6图示了深度变化和观看姿势的示例;
图7图示了图像位置与图像对象的位置和深度感知之间的关系的示例;
图8图示了图像位置与图像对象的位置和深度感知之间的关系的示例;
图9图示了图像位置与图像对象的位置和深度感知之间的关系的示例;
图10图示了图像位置与图像对象的位置和深度感知之间的关系的示例;
图11图示了深度变化和观看姿势的示例。
具体实施方式
图1图示了可以体现发明构思的实施例的示例和变型的***的示例。
在该示例中,图像生成装置101形式的客户端被布置为基于从图像源装置103接收的图像来本地地合成图像。在该示例中,可以在从用作远程服务器的图像源装置103所发送(或者可能广播)的图像数据流中提供图像。图像源装置103被布置为经由网络105提供图像数据流,该网络例如可以是因特网。该布置可以对应于客户端服务器布置,并且因此图像生成装置101也可以被称为客户端,并且图像源装置103也可以被称为服务器。
作为示例,该方法可以被用于提供远程会议服务或应用,并且图像源装置103可以例如用作会议桥,该会议桥向可以用作会议客户端的图像生成装置101提供视频流。将意识到,在一些实施例中,图像生成装置101还可以被布置为捕获本地视频并将这发送到用作会议桥的图像源装置103。还将意识到,图像数据流在许多应用中,例如在会议应用中,其被提供有相关联的音频流,因此提供完整的视听表示。
还将意识到,所描述的方法不依赖于客户端服务器配置,而是可以在任何配置中使用。例如,在一些实施例中,两个相同的会议装置可以直接通信以启用会议服务。在这样的示例中,每个装置可以包括如以下针对图像生成装置101和图像源装置103两者描述的功能。
图像源装置103提供图像数据流,该图像数据流包括从不同姿势捕获的场景的图像。特别地,其至少包括与第一眼姿势相对应的第一眼(相机)图像和与第二眼姿势相对应的第二眼(相机)图像。图像数据流可以具体地提供包括第一眼图像和第二眼图像的立体图像或立体图像的移动序列(立体视频)。
在以下示例和附图中,对第一眼和第二眼的引用分别主要指观看者的左眼和右眼,但是将意识到,可能并非在所有示例中都是如此。例如,在其他示例中,对第一眼和第二眼的引用可以分别指观看者的右眼和左眼
在本领域中,术语放置或姿势用作例如对象、相机的位置和/或方向/取向以及位置和方向/取向的组合的公共术语,或者实际上,视图通常被称为姿势或放置。因此,放置或姿势指示可以包括六个值/分量/自由度,其中,每个值/分量通常描述对应的对象的位置/定位或取向/方向的个体性质。当然,在许多情况下,例如,如果一个或多个分量被认为是固定的或不相关的(例如,如果所有对象都被认为处于相同的高度并具有水平取向,四个分量可以提供对象的姿势的完整表示),则可以以较少的分量来考虑或表示放置或姿势。在下文中,术语姿势用于指代可以由一到六个值(对应于最大可能自由度)表示的位置和/或取向。该描述将聚焦在姿势具有最大自由度的实施例和示例上,即,姿势和取向中的每个的三个自由度导致总共六个自由度(6DoF)。姿势因此可以由表示六个自由度的六个值的集合或向量来表示,并且因此姿势向量可以提供三维位置和/或三维方向指示。然而,将意识到,在其他实施例中,姿势可以由更少的值表示。
将意识到,在一些实施例中,可以提供两个以上的同时图像。例如,可以从相机的线性阵列提供图像,并且第一眼图像和第二眼图像可以被选择为来自这些相机中的两个相机的图像(选择通常由图像生成装置101基于观看者的位置执行)。
除了第一眼图像和第二眼图像之外,图像数据流包括用于第一眼图像的深度值(此后称为第一深度值)的集合,以及用于第二眼图像的深度值(此后称为第二深度值)的集合。深度值可以是任何合适的值,并且可以采取任何合适的形式。具体地,深度值可以分别采取针对第一眼图像和第二眼图像的第一眼深度图和第二眼深度图的形式。深度图可以直接包括距离(在z方向上,即垂直于图像平面)或差异值。
针对其第一眼图像和第二眼图像被提供的姿势,即接收到的第一眼姿势和第二眼姿势是参考姿势,针对所述参考姿势,接收到的第一眼图像和第二眼图像直接为场景提供立体视图。
在许多实施例中,图像数据流可以仅包括参考第一眼图像和参考第二眼图像,除了它们分别对应于观看者的第一眼和第二眼(例如,(标称)观看者的左眼和右眼)的相同场景的视图之外,没有对相关联的参考姿势的特定指示。图像生成装置101可以相应地将图像与本地确定的参考姿势链接,该本地确定的参考姿势可以用作用于确定观看姿势的改变的基础。例如,在服务开始时,观看者的当前姿势可以被认为是标称姿势,针对该标称姿势直接呈现接收到的图像,即,第一眼和第二眼的标称的局部确定的观看姿势被认为与接收到的参考图像的姿势相对应。因此,将第一眼参考姿势确定为标称第一眼观看姿势,并且将第二眼参考姿势确定为标称第二眼观看姿势,例如,将第一眼参考姿势确定为标称左眼观看姿势,并且将第二眼参考姿势确定为标称右眼观看姿势。用户从该标称姿势的移动相应地导致相对于标称/参考姿势确定的动态改变的观看姿势。
对于直接与参考姿势相对应的观看姿势,图像生成装置101可以直接生成与接收到的第一眼图像和第二眼图像(其因此也可以称为参考图像)相对应的输出图像,并且当输出图像被呈现给用户的左眼和右眼(例如,通过专用耳机或立体声显示器(例如,要求用户戴眼镜))时,它们可以直接提供场景的3D视图。
然而,如果用户移动他的头部,则视点和观看姿势将改变,并且对于自然体验,期望呈现给用户的图像改变以反映该改变。这可以通过使用相关联的深度数据执行与观看姿势从参考观看姿势的改变相对应的视点移位来实现。然而,除非姿势的改变很小,否则这种合成图像的质量可能会大大降低。因此,在许多情形中,视点移位优选地限于相对小的最佳位点。
例如,当使用多个相机来捕获场景的3D表示时,虚拟现实耳机上的播放常常在空间上限于靠近于原始相机位置的虚拟视点。这确保了虚拟视点的绘制质量不示出伪影,通常是缺少信息(被遮挡的数据)或3D估计错误的结果。在所谓的最佳位点内部,可以使用结合视图融合的标准纹理映射直接从一幅或多幅参考相机图像利用相关联的深度图或网格进行绘制。
这可以通过图2的示例来说明。在该示例中,眼睛位置/姿势由三角形图示。在该示例中,第一眼观看姿势201(在该示例中为左眼观看姿势)和第二眼观看姿势203(在该示例中为右眼观看姿势)被定位为具有与参考第一眼姿势205(在该示例中为参考左眼姿势)和参考第二眼姿势207(在该示例中为左眼观看姿势)的2cm的距离。因此,可以通过参考姿势205、207的接收图像的视图移位来生成观看姿势201、203的图像。在该示例中,认为当前观看姿势201、203位于最佳位点的边缘,针对其,图像的图像质量被认为是可接受的。因此,如果观看者进一步移开则会出现问题,因为图像质量降低和伪影能够变得不可接受。
可以针对这种问题设想不同的解决方案。一种方法可以是切换参考姿势以与当前观看姿势一致,即,从提供视图移位的图像切换为提供针对当前观看姿势的接收到的参考图像。因此,有效地,对于紧接在最佳位点之外的姿势,重新对准观看姿势和参考姿势,并且然后通过相对于新参考姿势进行视图移位来跟随围绕新参考姿势的移动。然而,这样的方法将导致用户的感知到的观看姿势的突然跳动(显著的视差移位),这倾向于被感知为具有非常不自然和令人不愉快的体验。
其他解决方案能够包括当观看姿势移到最佳位点之外时呈现模糊或变暗(或黑色)的图像。然而,这也倾向于提供不自然的体验,并且将移动自由度限制到通常非常小的区域。
图3图示了图像生成装置101的示例,图像生成装置101可以在许多实施例和情形中提供改进的用户体验,并且在许多情形中可以为上述问题提供改进的解决方案(以及通常其他优点和益处)。
图像生成装置101包括接收器301,接收器301从图像源装置103接收图像数据流。因此,接收器301至少接收具有第一深度值的第一眼图像和具有第二深度值的第二眼图像。因此,至少为参考第一眼姿势和参考第二眼姿势提供图像和深度。在下文中,为简洁起见,将考虑深度值是在深度图中为图像中的每幅提供的距离值。
下面将描述示例,其中,接收到被认为已经例如由两个相机直接捕获的第一眼图像和第二眼图像,所述两个相机之间具有适当的距离。然而,将意识到,可以以任何合适的方式来生成第一眼图像和第二眼图像,并且例如可以接收到针对不同姿势的更高数量的图像,并且可以从这些中选择或实际上生成第一眼图像和第二眼图像。
例如,该方法可以用于具有许多相机的捕获机。然后可以添加相机选择逻辑,使得从参考相机图像的附近子集合成眼睛图像。然后可以将最佳位点定义为距多个参考相机位置的距离函数。
接收器301耦合到合成器303,该合成器被布置为生成针对观看者姿势的输出图像。因此,图像合成器303被馈送第一眼图像和第二眼图像以便生成输出的第一眼图像和输出的第二眼图像,并且具体地,可以生成输出的左眼图像和右眼图像。
合成器303耦合到姿势确定器305,姿势确定器305被布置为确定第一眼观看姿势和第二眼观看姿势。第一眼观看姿势是与预期的观看者的第一眼(例如,左眼)的姿势相对应的姿势,并且第二眼观看姿势是与预期的观看者的第二眼(例如,右眼)相对应的姿势。因此,第一眼观看姿势和第二眼观看姿势对应于要由图像生成装置101绘制视图图像以提供与观看者的当前姿势相对应的3D图像感知的姿势。
在一些实施例中,第二眼观看姿势和第一眼观看姿势可以被个体地并且分别地确定,例如,基于跟踪个体眼睛姿势的个体测量结果。然而,在许多实施例中,可以一起确定第一眼观看姿势和第二眼观看姿势,并由例如与观看者的眼睛之间的相对姿势差异的预定信息组合的公共数据表示。例如,单个观看者位置,以及可能地头部旋转可以被确定,并且指示第一眼观看姿势和第二眼观看姿势。例如,可以假设用户的眼睛具有预定距离(例如,在图2的示例中为6.3cm),并且因此从头部位置和头部旋转唯一地知道第一眼观看姿势和第二眼观看姿势,所述头部位置指示眼睛的位置,所述头部旋转指示头部的取向。因此,在一些实施例中,可以估计单个观看姿势,并且该第一眼观看姿势和第二眼观看姿势可以被确定并由该观看姿势给定。因此,为简单起见,描述还可将单观看姿势称为表示第一眼观看姿势和第二眼观看姿势,但是将意识到,对单观看姿势的这种引用包括对单独的第一眼观看姿势和第二眼观看姿势的引用。
观看姿势输入可以在不同应用中以不同方式确定。在许多实施例中,可以直接地跟踪用户的物理移动。例如,调查用户区的相机可以检测并且跟踪用户的头部(或甚至眼睛)。在许多实施例中,用户可以穿戴可以由外部和/或内部模块跟踪的VR耳机。例如,耳机可以包括提供关于耳机并且因此头部的移动和旋转的信息的加速度计和陀螺仪。在一些示例中,VR耳机可以发送信号或包括使得外部传感器能够确定VR耳机的位置的(例如视觉)标识符。
在一些***中,绘制观看姿势可以由手动装置提供,例如通过用户手动控制操纵杆或类似手动输入部。例如,用户可以通过利用一只手控制第一模拟操纵杆并且通过利用另一只手手动移动第二操纵杆手动控制虚拟观看者看的方向,在虚拟场景中手动四处移动虚拟观看者。
在一些应用中,手动和自动方法的组合可以被用于生成绘制观看姿势。例如,耳机可以跟踪头部的取向,并且场景中的观看者的移动/位置可以由使用操纵杆的用户控制。
姿势确定器305耦合到图像合成器303,图像合成器303被馈送第一眼观看姿势和第二眼观看姿势。图像合成器303被布置为从参考第一眼图像合成针对第一眼姿势的输出第一眼图像。具体地,基于适当的深度数据,图像合成器303可以执行视图移位操作以将参考第一眼图像修改为与当前第一眼姿势的视图图像相对应。这样的视图移位是基于适当的深度数据执行的,并且包括基于图像对象的深度的图像对象的水平移位,如对于本领域技术人员而言将已知的。
类似地,图像合成器303被布置为根据参考第二眼图像合成针对第二眼姿势的输出第二眼图像。具体地,基于适当的深度数据,图像合成器303可以执行视图移位操作以将参考第二眼图像修改为与当前第二眼姿势的视图图像相对应。
将意识到,技术人员将意识到用于这种视图移位/合成的许多不同的方法和算法,并且可以使用任何合适的方法。还将意识到,尽管在许多实施例中仅从参考第一眼图像生成输出第一眼图像并且仅从参考第二眼图像生成输出第二眼图像,但是在一些实施例中也可以考虑其他图像。例如,对于单只眼睛,可以通过组合/使用/混合多幅参考图像来生成输出图像。
因此,输出第一眼图像和输出第二眼图像的生成可以是单独的过程。基于对应的第一眼姿势和深度值从参考第一眼图像生成输出第一眼图像,而基于对应的第二眼姿势和深度值从参考第二眼图像生成输出第二眼图像。因此,参考第一眼图像被移位以提供输出第一眼图像,而参考第二图像被移位以提供输出第二眼图像。
在一些情况下,视图移位对于第一眼图像和第二眼图像两者可能相同,并且因此输出第一眼姿势与参考第一眼姿势之间的差异可能与输出第二眼姿势与参考第二眼图像之间的差异相同(例如,在图2的示例中)。然而,通常,姿势差异可以是不同的,例如头部绕着靠近于第一眼的点的旋转将导致第一眼图像的没有或很小位置改变,但是第二眼图像的位置的显著改变。输出第一眼图像和第二眼图像的个体生成可以允许这样的差异容易地反映在所生成的输出图像中。
可以使用指示两个姿势之间的差异的任何差异量度。例如,可以使用被确定为两个姿势之间的距离(例如,欧几里得和/或角度)的差异量度。在大多数实施例中,差异量度可以是指示差异的幅度或绝对值的标量值(例如,简单的距离量度)。
可以根据任何合适的距离或差异量度来确定第一眼和/或第二眼的观看姿势与参考姿势之间的差异。例如,该差异可以被确定为观看姿势的位置与参考姿势的位置之间的距离的单调递增函数和/或观看姿势的取向与参考姿势的取向之间的角度差(的绝对值)的单调递增函数。
例如,在一些实施例中,观看姿势与参考姿势之间的差异可以是观看位置与参考位置之间的差异。在这种情况下,可以使用任何空间距离量度。例如,可以确定欧几里得距离,或者可以使用沿着特定轴/方向的距离(例如,可以仅使用x方向或z方向上的距离)。
在一些实施例中,观看姿势和参考姿势之间的差异可以是观看取向与参考取向之间的差异。在这种情况下,例如可以使用任何角度差或距离量度。例如,每个取向可以由向量形式的方向表示,并且差异量度可以确定为包括两个向量的平面中两个向量之间的角度(的绝对值)(或为这些的单调函数)。
在一些实施例中,观看姿势与参考姿势之间的差异可以反映观看取向与参考取向之间以及观看位置与参考位置之间的差异。例如,在前面的段落中提到的距离量度可以是中间差异量度,其被组合以生成最终距离量度,例如,通过利用在角度和位置距离差异量度之间适当设置的权重的加权求和。权重可以例如反映量度中的每个的预期相对感知重要性(并考虑值的单位以提供适当的转换)。在一些实施例中,当然可以使用更复杂的组合功能。例如,加权组合的权重本身可以取决于角度差和位置距离量度。
作为另一示例,在一些实施例中,其中,观看姿势和参考姿势是由包括多个位置和/或取向坐标的向量给出的,差异可以例如被确定为:
其中,n是向量中的坐标数减去一,pi,v是观看姿势向量的坐标i,pi,r是参考姿势向量的坐标i,fi(pi,v-pi,r)是pi,v-pi,r的绝对值的单调函数,而αi是坐标i的权重因子。在这样的实施例中,差异量度可以例如通过针对所有取向坐标将权重因子设置为0而减小为位置距离量度,并且差异量度可以例如通过针对所有位置坐标将权重因子设置为0而减小为取向差异。
因此,图像合成器303生成与当前观看姿势相对应的输出立体图像。只要参考和输出/合成观看姿势之间的差异足够小(在最佳位点内),这就可以以高图像质量完成,并且通常没有让观看者可感知到通过视图移位来合成图像。因此,在动态的实时应用中,可以相应地动态更新输出的立体图像以跟随用户的小的头部移动。例如,可以为用户点头或摇头等提供正确的立体视觉和运动视差。
然而,图3的装置还包括用于基于参考姿势与观看姿势之间的差异来调整操作的模块。具体地,不是在合成图像时直接使用接收到的深度值,而是该装置可以根据参考和合成/输出观看姿势之间的差异来调整/修改深度值。
具体地,该装置包括第一修改器307和第二修改器309,第一修改器307被布置为根据接收到的第一深度值生成经修改的第一深度值,第二修改器309被布置为根据接收到的第二深度值生成经修改的第二深度值。经修改的深度值被馈送到图像合成器303,其中,它们分别用于输出第一眼图像和输出第二眼图像的合成。
该修改是基于参考深度值的,并且因此该装置还包括深度处理器311,深度处理器311被布置为确定参考深度值并将其馈送到第一和第二修改器307、309。
第一修改器307被布置为通过将接收到的参考第一深度值和参考深度值之间的差异减小取决于第一眼观看姿势与第一眼参考姿势之间的差异的量来生成经修改的第一深度值。类似地,第二修改器309被布置为通过将接收到的参考第二深度值与参考深度值之间的差异减小取决于第二眼观看姿势与第二眼参考姿势之间的差异的量来生成经修改的第二深度值。减小的量在一些情形中可能相同,但通常不相同(并且实际上,观看姿势与参考姿势之间的差异通常会不同)。
在该装置中,因此可以修改用于合成的深度值,使得与参考深度值的差异减小一个量,该量取决于该眼睛的观看姿势与参考姿势之间的差异。减小的量通常可以是差异(例如距离)(的绝对值)的单调函数。因此眼睛的观看姿势与参考姿势之间的差异越大,可以使给定图像的深度值越接近于参考深度值。
然而,将减小个体地应用于第一眼图像和第二眼图像的深度值。因此,相对于图像之一的参考深度值的深度的减小可以减小施加到个体图像的视图移位的量。然而,不同眼睛图像之间的差异不会被移除,并且因此深度的3D感知仍然存在。
作为低复杂示例,参考深度值可以被设置为预定深度值。例如,对于会议应用,可以假设从立体相机到被捕获人的典型距离为比如1.2m。因此,参考深度值可以被设置为与该距离相对应的深度值,即与1.2m相对应的深度值。
第一修改器307和第二修改器309通常可以应用相同的函数来确定要应用的减小的量,使得观看姿势和参考姿势之间的相同差异导致相同的减小(无论是绝对还是相对术语)。作为低复杂示例,可以考虑对于最佳位点内的姿势,不应用减小,并且对于最佳位点之外的姿势,将所有深度值设置为等于参考深度值。因此,如果第一眼观看姿势在参考第一眼姿势的最佳位点内(比如,距离小于2cm),则没有改变应用于第一深度值。然而,如果其在最佳位点之外,则所有深度值被设置为恒定于参考深度值,例如设置为对应于1.2m的距离的深度值。
因此,当执行对参考第一眼图像的视图移位时,最佳位点内的第一眼观看姿势将导致全观看姿势移位,从而导致生成与新姿势相对应的图像。然而,如果第一眼观看姿势在最佳位点之外,则对于所有像素和图像对象,视图移位可以基于相同的深度值。这将简单地导致生成输出图像以对应于参考输入图像,但所有像素在相同方向上且以相同的量移位。
对于第二眼图像,独立地执行相同的方法。
因此,为了增加到参考姿势的距离,针对第一眼图像和第二眼图像中的每幅个体地减小深度变化。这导致图像中的对象的移位的较小差异,从而减小图像质量降级和伪影引入(例如,存在较少的去遮挡)。
然而,深度减小不导致生成缺少深度的输出立体图像,即,其不导致生成2D立体图像。而是,就图像内的个体变化而言,针对第一眼图像和第二眼图像的生成的输出图像各自在其内可以具有较小深度变化,但是维持由接收到的参考第一眼图像和第二眼图像之间的差异表示的深度差异。
实际上,实践中已经发现,尽管当观看姿势与参考姿势之间的距离增加太多时,该方法可能会引入一些失真,但是总体效果被感知为是非常有利的。实际上,这种效果被描述为自然感知和逐渐退化。已经发现,对于较大的姿势变化,可以感知到令人满意的3D用户体验。特别地,已经发现,对于最佳位点之外的姿势,该方法可以提供运动视差和立体视觉提示之间的改进的感知一致性。
应当注意,图像合成器303针对参考姿势与观看姿势之间的差异的相同方向使参考第一眼图像和参考第二眼图像在相同方向上移位。因此,通常头部移动导致第一眼观看姿势和第二眼观看姿势在相同方向上移动,并且由图像合成器303施加的所得移位可以相应地在相同方向上。因此,有效观看姿势相应地改变。这与例如在第一眼图像和第二眼图像之间的差异偏移适于改变与显示/图像平面相对应的深度的情况(即,相对于屏幕向前或向后移动对象)形成对比。在这种情况下,通过沿相反方向移动相应的像素/图像对象来改变视差。
在许多实施例中,相对于参考深度水平的减小的量相对于观看姿势与参考姿势之间的差异针对至少一些差异值逐渐改变。因此,针对至少一些差异值,减小的量可以是差异的一对一函数,反之亦然,即,其可以具有一对一的对应关系并且是双射函数。因此,对于差异的值的范围,可能存在到减小的量的对应的范围的一对一映射。一对一映射可以具体地是单调增加的到量的范围的一对一映射。因此,逐渐增大的差导致减小的量逐渐增大(并且因此修改值与参考深度值之间的逐渐减小的差异)。一对一映射可以具体地在从不减小(即,深度值没有改变)到100%减小(将经修改的深度值设置为等于参考深度值)的量的范围。
在许多实施例中,可以通过将深度值与参考深度值之间的差异缩放小于一的正值来实现接收到的深度值与参考深度值之间的差异的减小。因此,第一修改器307可以被布置为通过针对第一眼观看姿势与第一眼参考姿势之间的差异的至少一些值将第一深度值与参考深度值之间的差异以值在0与1之间的缩放因子缩放来生成经修改的深度值。类似地,第二修改器309可以被布置为通过针对第二眼观看姿势与第二眼参考姿势之间的差异的至少一些值以值在0与1之间的缩放因子缩放第二深度值与参考深度值之间的差异,来生成经修改的深度值。
对于第一修改器307和第二修改器309两者,缩放通常可以是相同的,即,它们可以是相同的并且针对相同的差异应用相同的缩放。
该方法的示例在图4中示出。在该示例中,参考深度值由深度线3指示,而输入深度由深度线1指示。如由示例所图示的,当观看姿势使得它们与参考姿势一致(情况1),然后输出深度值可以被生成为与输入深度值相同,即应用1的缩放因子。当观看姿势与参考姿势相距很远时(情况3),经修改的深度值可以全部被设置为与参考深度值相同,即,0的缩放因子被应用于接收的深度值与参考深度值之间的差异。对于介于之间的观看姿势(示例中的情况2,恰好在最佳位点之外),可以应用0与1之间的缩放值,从而将深度值偏向参考深度值。
在许多实施例中,对于差异的至少一些值,参考深度值和减小的深度值之间的差异可以减小到基本为0,即,可以将经修改的深度值设置为与参考深度值基本相同。具体地,如果观看姿势与参考姿势之间的差异的(幅度/绝对值)超过阈值,则可以将经修改的深度值设置为与参考深度值相同。例如,这可以通过针对这些值将缩放因子设置为0来实现。作为结果,经修改的深度值全部将是恒定的,并且由图像合成器303执行的视图移位将导致所有像素被移位相同的量。
在许多实施例中,第一修改器307和第二修改器309可以被布置为针对对应观看姿势与参考姿势之间的差异的至少一些值不修改深度值。具体地,第一修改器307可以被布置为针对第一眼观看姿势与第一眼参考姿势之间的差异的至少一些值,不减小第一深度值与参考深度值之间的差异。类似地,第二修改器309可以被布置为对于第二眼观看姿势与第二眼参考姿势之间的差的至少一些值,不减小第二深度值与参考深度值之间的差。具体地,如果差(的大小/绝对值)小于阈值,则修改器307、309可以生成与接收到的深度值相同的经修改的深度值。可以选择该阈值以对应于认为来自视图移位的得到的图像质量足够(例如,没有降级可感知到)的区域,即,可以选择该阈值以对应于最佳位点。
具体地,这可以通过针对满足准则的观看姿势与参考姿势之间的差异(例如,该差异在与最佳位点相对应的阈值以下)将缩放因子设置为等于1来实现。
在下文中,将提供具体示例,其中,使用这种方法来修改深度值。在该示例中,d用于指代观看姿势与参考姿势之间的差异,在特定示例中,该差异被确定为当前眼睛(第一或第二)3D位置与用于合成该眼睛的新视图的相机的参考相机视图位置之间的欧几里得距离。现在,我们为球形最佳位点引入半径参数R1。在绘制具有接近0.25m的对象的捕获的场景时,R1的典型值=0.01m。我们还引入了第二半径参数R2,R2的典型值=0.1,其是我们将已经使深度图缩放回平面所超过的距离(没有剩余深度变化)。
令z参考指代我们希望将深度图朝向其缩放的假定参考平面,即,它表示参考深度值。请注意,参考深度可能是不断变化的值,其与在观看者的注视方向上观察到的深度相对应。针对深度图中的每个像素(i,j)(即针对深度图中的每个深度值),我们现在计算与参考深度的差异:
Δ(i,j)=z(i,j)-z参考
我们还根据眼睛到最佳位点的中心的距离来计算我们应用的缩放因子:
当d=R2时,缩放因子s减小为0。图5示出了作为差异d的函数的缩放因子。
深度现在修改为:
z(i,j)=z参考+sΔ(i,j)。
在该示例中,缩小的量(缩放因子)与姿势的差异之间的相同关系被用于第一眼图像和第二眼图像两者,即,以上描述可以被认为是个体地应用于第一修改器307和第二修改器309两者。
将意识到,尽管特定示例使用缩放因子来减小深度值与参考深度值之间的差异,但是可以在其他实施例中使用其他方法。例如,可以从接收到的深度值中减去可变的深度偏移,其中,该偏移取决于观看姿势与参考姿势之间的差异。
在先前的示例中,参考深度值被确定为根据特定设置选择的预定固定值。例如,对于0.75m的典型会议距离为0.75m或对于1.5m的典型会议距离为1.5m。然而,在许多实施例中,参考深度值可以是动态确定的值。
例如,在许多实施例中,深度处理器311可以被布置为响应于参考图像的第一和/或第二深度值来确定参考深度值。例如,参考深度值可以被确定为图像对象的平均深度值或深度值。例如,面部检测可以用于检测与面部相对应的图像对象,并且参考深度值可以被设置为所识别的图像对象的平均深度值。
在许多实施例中,深度处理器311可以被布置为基于观看者的注视来确定参考深度值。
深度处理器311可以具体地包括注视估计器,其被布置为估计第一眼图像和/或第二眼图像中的注视点。注视点指示图像内的观看者注视,并且因此反映用户正在看图像中的何处。
例如,可以通过捕获观察者的相机图像并在面部检测之后提取眼睛图像区域来确定注视点。由于这是相对暗的区域,因此然后可以检测到瞳孔。瞳孔相对于眼睛区域的位置可以用于计算3D空间中的注视方向。这可以使用集成在显示器中的相机或使用集成在虚拟现实耳机中的相机来完成。甚至更简单的方法是假设注视方向与观看者方向(头部取向)相对应。然后可以假定注视点与针对每个第一/第二眼图像的中心点相对应。
然后可以将参考深度值设置为针对注视点的深度值。例如,如果注视点被认为定义了特定像素,则参考深度值可以被设置为该像素的深度值。如果注视点被认为具有空间扩展,则参考深度值可以例如被设置为与注视点相对应的区内的深度值的平均。参考深度值在一些实施例中可以基于第一眼图像来确定,而在其他实施例中可以基于第二眼图像来确定,或者实际上可以基于两者。例如,可以在第一眼图像和第二眼图像两者中确定注视点,并且可以将参考深度值设置为两幅图像中的对应的深度值的平均。
这在许多实施例中可以提供实质上改进的用户体验,并且可以实质上减小由于针对距参考姿势的较大距离的深度值的修改而产生的任何失真的可感知性。
该方法特别反映了一种认识,即空间失真的感知效果很大程度上取决于观看者正在看场景中何处。例如,当观看者恰好看着远处的对象时,他不会观察到由于观看姿势移位造成的视差变化。图像的最重要部分集中在注视方向/注视点周围的小固体角上。因此,减小视差失真和注视方向的改变可以实质上改进感知的图像质量。
图6图示了对应于图5的情况,但观看者将其注视点改变为场景的最靠前的部分。作为结果,参考深度值改变为最靠前深度,并且取决于姿势差异的缩放现在相对于该深度,即相对于场景的最靠前部分。因此,该示例可能反映在与人的注视方向(通常是关注的对象)相对应的深度周围的缩放因子的应用。作为结果,当人移动到最佳位点之外时,在注视方向上感知的视差改变减小。
应当注意,特别有利的效果是,甚至对于观看姿势与参考姿势之间的较大差异,也不移除感知的3D体验和场景的深度。因此,尽管通过个体视图移位操作(例如由于去遮挡)减小了个体图像的深度变化从而减小了伪影和降级,但保持了输出第一眼图像和第二眼图像之间的差异,从而保持了当呈现给观看者的两只眼睛时的立体3D效果。
简而言之,可以通过以下考虑来例示:尽管对每幅个体图像的效果是减小朝向“平坦”图像的深度,但是两幅图像仍一起提供左右图像之间(第一图像与第二图像之间,反之亦然)具有差异的立体图像,并且因此提供场景中的深度的感知。输出第一眼图像和输出第二眼图像相应地包括立体视觉提示。
这可以通过考虑特定示例来说明。
图7示出了其中常规立体显示器可以在距观看者给定距离处的合适的显示面板701上呈现立体图像的情形。在这种情况下,分别向观看者的左眼和右眼呈现与对象上的一个点相对应的两个图像点和/>眼睛在位置(pL,pR)处的用户将感知到该点/对象位于深度位置p1。在该示例中,没有提供关于立体图像的深度数据,并且因此不执行视图移位,并且图像点不改变位置。作为结果,如果观看者将其眼睛从位置(pL,pR)移动到位置/>则虚拟3D对象点也从位置p1移动到位置/>因此,当用户改变视点时,发生包括对象的深度的改变的位置的改变。然而,针对正确的运动视差,当观看者移动其头部时,目标点应保持静止。在这种常规方法中,立体和运动视差提示并不一致。
图8图示了对应的示例,但是其中,深度数据可用并且基于观看者姿势的改变来执行适当的视图移位。在该示例中,当观看者移动其头部时,图像点在显示面板上相应地移动(弯曲的箭头)。作为结果,当观看者移动其头部并且立体和运动视差提示一致时,对象点p1保持静止。然而,针对较大的移位,视图移位可能引入误差、降级或伪影。
图9图示了图8的示例,但是还考虑在不同深度z2处的第二对象点p2。当观看者移动头部时,深度数据再次用于执行视图移位。然而,所需移位的大小取决于该点的深度,并且由于第二点位于较大深度处,每只眼睛的其运动视差(弯曲箭头)将比第一点小。立体和运动视差提示针对两个对象点保持一致,但是针对较大的视图移位发生由于视图移位造成的降级。
图10图示了所描述的装置的方法,其中,已经针对每幅个体图像减小了深度变化。由于参考深度值周围的减小的深度变化,因此场景中不同深度处的点的应用的视图移位的变化的差异减小,并且特别是如果深度针对所有值被设置为相同(即,经修改的深度值被设置为等于参考深度值),则移位将相同。这一点的实质性的进步在于,其可以减小由于视图移位而造成的图像质量的降级。特别地,当所有像素在相同方向上并且可能地以相同量移动时,其可以减小或实际上移除去遮挡。
然而,如图10所图示的,针对深度z2,第二对象点p2将以错误的量移位。这将导致被移位的对象点被感知为处于不同的位置处。包括在不同深度/>立体和运动视差提示因此对于第一点是一致的,但是对于第二点是不一致的。
然而,所感知的场景仍然是三维场景,并且实际上所感知的位置移位常常可能是相对小的。另外,在所描述的方法中,可以根据观看姿势与参考姿势之间的差异来灵活地调整图像质量降级与位置一致性之间的权衡。
此外,如果基于注视点调整参考深度值,则可以实质上减小对其他深度处的对象的失真的可感知影响,并且实际上通常如果在示例中观看者在第一点的方向上具有注视,则他甚至可能没有注意到关于第二点的不一致。
在许多实施例中,第一修改器307可以被布置为对所生成的经修改的第一深度值与参考深度值之间的差异施加限制。类似地,第二修改器309可以被布置为对所生成的经修改的第二深度值与参考深度值之间的差异施加限制。因此,可以通过应用最大和/或最小深度值来相对于参考深度值约束深度值。在一些实施例中,可以仅在一个方向上施加限制(例如,可以定义最大靠前或落后值),但是在其他实施例中,可以为增加和减小的深度值两者施加限制。
在图11中图示了具有深度限制的情形的示例。在该示例中,应用了将深度值剪为z与z之间的值,以便进一步减小视图移位伪影。
在特定示例中,接近于观看者的对象被显示,其真实的深度感应运动视差,因为近剪切平面位于比最接近的对象更靠近观看者。然而,位于参考平面后面仅小距离的对象的深度将在远剪切平面z处被剪切。作为结果,在参考平面后面将不允许有太多的深度变化,这将减小绘制误差和去遮挡伪影。
由于参考深度可以根据观看者的动态观看方向或注视方向连续改变,因此近剪切平面和远剪切平面也可以改变。例如,我们可以强制得到的视图的深度变化始终具有10个像素的最大失真(扭曲距离),并选择近深度剪切范围和远深度剪切范围,使得保持该最大扭曲距离。实际上,这能够意味着当该参考深度靠近观看者时,近剪切范围和远剪切范围位于接近于该参考深度(附近的对象给出较大的视差),并且反之,当该深度较大时,它们位于更远离该参考深度。以这种方式,可以独立于参考深度来控制图像绘制质量。在一些实施例中,剪切平面也可以以渐进的方式(作为缩放)被引入,例如与最佳位点的距离越远,每个剪切平面越近移到其最终固定值的位置。
术语第一和第二可以分别由左和右代替,反之亦然。例如,术语第一眼观看姿势、第二眼观看姿势、参考第一眼图像和参考第二眼图像可以分别由左眼观看姿势、右眼观看姿势、参考左眼图像和参考右眼图像代替(反之亦然)。
将意识到,所描述的方法和原理可以被应用在许多不同和变化的应用和情形中,并且为了清楚起见,先前的描述已经集中在较不复杂的示例上。
例如,该方法可以用于回放广泛使用的360度全向立体声(ODS)格式。实际上,即使不传输密集的深度图,将有可能使用所描述的原理。例如,ODS播放器可以包括图形卡着色器代码,该代码可以对在绘制期间(即实质上在绘制管道的最后)已经从ODS格式中提取的立体眼对中心的小图像块(例如32x32像素的区域)执行单个差异测量。然后,可以使用另一个着色器(两幅图像上的全局移位)将该单个深度值应用于所有像素。在360度中环顾四周时,运动视差效果将在特定方向上用于整体深度(例如,一个人站着靠近,而每个事物在另一个方向上很远)。
本发明可以以任何适合的形式实施,包括硬件、软件、固件或者这些的任何组合。本发明可以任选地至少部分地被实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何适合的方式物理地、功能地和逻辑地实施。实际上,功能可以被实施在单个单元中、在多个单元中或者作为其他功能单元的部分。这样一来,本发明可以被实施在单个单元中或者可以物理地并且功能地分布在不同的单元、电路和处理器之间。
尽管本发明已经结合一些实施例描述,但是其不旨在限于本文阐述的特定形式。相反,本发明的范围仅由附图限制。此外,尽管特征可能看起来结合特定实施例描述,但是本领域的技术人员将认识到,所描述的实施例的各种特征可以根据本发明组合。在权利要求中,术语包括不排除其他元件或者步骤的存在。
此外,尽管个体地列出,但是多个装置、元件、电路或方法步骤可以通过例如单个电路、单元或者处理器实施。此外,尽管个体特征可以被包括在不同的权利要求中,但是这些可以可能地有利地组合,并且不同的权利要求中的包括不隐含特征的组合不是可行和/或有利的。而且,一个类别的权利要求中的特征的包括不隐含该类别的限制,而是相反指示特征同样地酌情适用于其他权利要求类别。此外,权利要求中的特征的次序不隐含特征必须在其中工作的任何特定次序并且特别地方法权利要求中的个体步骤的次序不隐含步骤必须以该次序执行。相反,步骤可以以任何适合的次序执行。另外,单数参考不排除多个。因此,对“一”、“一个”、“第一”、“第二”等的参考不排除多个。权利要求中的附图标记仅被提供为澄清示例,不应当被解释为以任何方式限制权利要求的范围。

Claims (13)

1.一种图像生成装置,包括:
确定器(305),其用于确定第一眼观看姿势和第二眼观看姿势;
接收器(301),其用于接收具有相关联的第一深度值的参考第一眼图像和具有相关联的第二深度值的参考第二眼图像,所述参考第一眼图像是针对第一眼参考姿势的,并且所述参考第二眼图像是针对第二眼参考姿势的;
深度处理器(311),其用于确定参考深度值;
第一修改器(307),其用于通过将所述第一深度值与所述参考深度值之间的差异减小第一量来生成经修改的第一深度值,所述第一量取决于所述第一眼观看姿势与所述第一眼参考姿势之间的差异;
第二修改器(309),其用于通过将所述第二深度值与所述参考深度值之间的差异减小第二量来生成经修改的第二深度值,所述第二量取决于所述第二眼观看姿势与所述第二眼参考姿势之间的差异;以及
合成器(303),其用于通过基于所述经修改的第一深度值对所述参考第一眼图像进行视图移位来合成针对所述第一眼观看姿势的输出第一眼图像并且通过基于所述经修改的第二深度值对所述参考第二眼图像进行视图移位来合成针对所述第二眼观看姿势的输出第二眼图像。
2.根据权利要求1所述的图像生成装置,其中,所述深度处理器(311)被布置为将所述参考深度值确定为预定参考深度值。
3.根据权利要求1所述的图像生成装置,其中,所述深度处理器(311)被布置为确定所述参考第一眼图像和所述参考第二眼图像中的至少一幅中的观看者的注视点;并且响应于针对所述注视点的所述第一深度值和所述第二深度值中的至少一个的深度值而确定所述参考深度值。
4.根据权利要求1-3中任一项所述的图像生成装置,其中,所述第一修改器(307)被布置为针对所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的至少一些值,将所述第一深度值与所述参考深度值之间的所述差异减小到基本上为0。
5.根据权利要求1-3中任一项所述的图像生成装置,其中,所述第一修改器(307)被布置为针对所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的至少一些值,不减小所述第一深度值与所述参考深度值之间的所述差异。
6.根据权利要求1-3中任一项所述的图像生成装置,其中,所述第一修改器(307)被布置为将所述第一量确定为所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的单调递增函数。
7.根据权利要求1所述的图像生成装置,其中,所述第一修改器被布置为通过针对所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的至少一些值以值在0与1之间的缩放因子对所述第一深度值与所述参考深度值之间的差异进行缩放来生成经修改的深度值。
8.根据权利要求7所述的图像生成装置,其中,针对所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的至少一个范围,所述缩放因子是所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异的单调递减函数。
9.根据权利要求7或8所述的图像生成装置,其中,针对所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异低于阈值,所述缩放因子的值在0.95与1.05之间。
10.根据权利要求1-3中任一项所述的图像生成装置,其中,所述合成器(303)被布置为使所述参考第一眼图像和所述参考第二眼图像在相同方向上移位。
11.根据权利要求1-3中任一项所述的图像生成装置,其中,所述第一修改器(307)被布置为限制所述经修改的第一深度值与所述参考深度值之间的所述差异。
12.根据权利要求1-3中任一项所述的图像生成装置,其中,所述第一修改器(307)被布置为在所述第一量同所述第一眼观看姿势与所述第一眼参考姿势之间的所述差异之间应用与所述第二修改器(309)在所述第二量同所述第二眼观看姿势与所述第二眼参考姿势之间的所述差异之间所应用的关系相同的关系。
13.一种图像生成方法,所述方法包括:
确定第一眼观看姿势和第二眼观看姿势;
接收具有相关联的第一深度值的参考第一眼图像和具有相关联的第二深度值的参考第二眼图像,所述参考第一眼图像是针对第一眼参考姿势的,并且所述参考第二眼图像是针对第二眼参考姿势的;
确定参考深度值;
通过将所述第一深度值与所述参考深度值之间的差异减小第一量来生成经修改的第一深度值,所述第一量取决于所述第一眼观看姿势与所述第一眼参考姿势之间的差异;
通过将所述第二深度值与所述参考深度值之间的差异减小第二量来生成经修改的第二深度值,所述第二量取决于所述第二眼观看姿势与所述第二眼参考姿势之间的差异;并且
通过基于所述经修改的第一深度值对所述参考第一眼图像进行视图移位来合成针对所述第一眼观看姿势的输出第一眼图像并且通过基于所述经修改的第二深度值对所述参考第二眼图像进行视图移位来合成针对所述第二眼观看姿势的输出第二眼图像。
CN201980070100.2A 2018-10-23 2019-10-23 图像生成装置及其方法 Active CN112913230B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18202085.9A EP3644604A1 (en) 2018-10-23 2018-10-23 Image generating apparatus and method therefor
EP18202085.9 2018-10-23
PCT/EP2019/078782 WO2020083950A1 (en) 2018-10-23 2019-10-23 Image generating apparatus and method therefor

Publications (2)

Publication Number Publication Date
CN112913230A CN112913230A (zh) 2021-06-04
CN112913230B true CN112913230B (zh) 2023-09-12

Family

ID=63965395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980070100.2A Active CN112913230B (zh) 2018-10-23 2019-10-23 图像生成装置及其方法

Country Status (8)

Country Link
US (1) US11368663B2 (zh)
EP (2) EP3644604A1 (zh)
JP (1) JP7377861B2 (zh)
KR (1) KR102659115B1 (zh)
CN (1) CN112913230B (zh)
BR (1) BR112021007522A2 (zh)
TW (1) TW202027500A (zh)
WO (1) WO2020083950A1 (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0641132A1 (en) * 1993-08-26 1995-03-01 Matsushita Electric Industrial Co., Ltd. Stereoscopic image pickup and display apparatus
KR20110136326A (ko) * 2010-06-14 2011-12-21 (주)누리스코프 삼차원 입체안경의 수평각 정보를 반영한 삼차원 스테레오스코픽 렌더링 시스템
WO2012036120A1 (ja) * 2010-09-15 2012-03-22 シャープ株式会社 立体画像生成装置、立体画像表示装置、立体画像調整方法、立体画像調整方法をコンピュータに実行させるためのプログラム、及びそのプログラムを記録した記録媒体
CN104247432A (zh) * 2011-11-11 2014-12-24 弗兰霍菲尔运输应用研究公司 使用深度图估计和更新的高效多视点编码
WO2016202837A1 (en) * 2015-06-16 2016-12-22 Koninklijke Philips N.V. Method and apparatus for determining a depth map for an image
WO2017007166A1 (ko) * 2015-07-08 2017-01-12 고려대학교 산학협력단 투영 이미지 생성 방법 및 그 장치, 이미지 픽셀과 깊이값간의 매핑 방법
WO2018075053A1 (en) * 2016-10-21 2018-04-26 Siemens Aktiengesellschaft Object pose based on matching 2.5d depth information to 3d information
WO2018118538A1 (en) * 2016-12-19 2018-06-28 Microsoft Technology Licensing, Llc Interactive virtual objects in mixed reality environments

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101539935B1 (ko) * 2008-06-24 2015-07-28 삼성전자주식회사 3차원 비디오 영상 처리 방법 및 장치
CN102113324B (zh) * 2008-07-31 2013-09-25 三菱电机株式会社 视频编码装置、视频编码方法、视频再现装置、视频再现方法
JP5494283B2 (ja) * 2010-06-24 2014-05-14 ソニー株式会社 立体表示装置及び立体表示装置の制御方法
US9865083B2 (en) * 2010-11-03 2018-01-09 Industrial Technology Research Institute Apparatus and method for inpainting three-dimensional stereoscopic image
WO2012176109A1 (en) * 2011-06-22 2012-12-27 Koninklijke Philips Electronics N.V. Method and apparatus for generating a signal for a display
KR101470693B1 (ko) * 2012-07-31 2014-12-08 엘지디스플레이 주식회사 영상 데이터 처리 방법과 이를 이용한 입체 영상 표시장치
JP5903023B2 (ja) * 2012-10-04 2016-04-13 株式会社ジオ技術研究所 立体視地図表示システム
KR20150093946A (ko) * 2014-02-10 2015-08-19 한국전자통신연구원 시점 변경 시에 기존 값을 유지하는 뎁스 맵 구조
EP3001680A1 (en) 2014-09-24 2016-03-30 Thomson Licensing Device, method and computer program for 3D rendering
KR101835434B1 (ko) * 2015-07-08 2018-03-09 고려대학교 산학협력단 투영 이미지 생성 방법 및 그 장치, 이미지 픽셀과 깊이값간의 매핑 방법
JP7065836B6 (ja) 2016-09-29 2022-06-06 コーニンクレッカ フィリップス エヌ ヴェ 画像処理
EP3422711A1 (en) 2017-06-29 2019-01-02 Koninklijke Philips N.V. Apparatus and method for generating an image
JP7167633B2 (ja) 2018-10-31 2022-11-09 住友電気工業株式会社 レーダセンサ用アンテナシステム及びレーダセンサ

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0641132A1 (en) * 1993-08-26 1995-03-01 Matsushita Electric Industrial Co., Ltd. Stereoscopic image pickup and display apparatus
KR20110136326A (ko) * 2010-06-14 2011-12-21 (주)누리스코프 삼차원 입체안경의 수평각 정보를 반영한 삼차원 스테레오스코픽 렌더링 시스템
WO2012036120A1 (ja) * 2010-09-15 2012-03-22 シャープ株式会社 立体画像生成装置、立体画像表示装置、立体画像調整方法、立体画像調整方法をコンピュータに実行させるためのプログラム、及びそのプログラムを記録した記録媒体
CN104247432A (zh) * 2011-11-11 2014-12-24 弗兰霍菲尔运输应用研究公司 使用深度图估计和更新的高效多视点编码
WO2016202837A1 (en) * 2015-06-16 2016-12-22 Koninklijke Philips N.V. Method and apparatus for determining a depth map for an image
CN107750370A (zh) * 2015-06-16 2018-03-02 皇家飞利浦有限公司 用于确定图像的深度图的方法和装置
WO2017007166A1 (ko) * 2015-07-08 2017-01-12 고려대학교 산학협력단 투영 이미지 생성 방법 및 그 장치, 이미지 픽셀과 깊이값간의 매핑 방법
WO2018075053A1 (en) * 2016-10-21 2018-04-26 Siemens Aktiengesellschaft Object pose based on matching 2.5d depth information to 3d information
WO2018118538A1 (en) * 2016-12-19 2018-06-28 Microsoft Technology Licensing, Llc Interactive virtual objects in mixed reality environments

Also Published As

Publication number Publication date
JP7377861B2 (ja) 2023-11-10
EP3871408B1 (en) 2024-05-22
CN112913230A (zh) 2021-06-04
US20210385422A1 (en) 2021-12-09
TW202027500A (zh) 2020-07-16
EP3644604A1 (en) 2020-04-29
KR20210076975A (ko) 2021-06-24
JP2022504883A (ja) 2022-01-13
EP3871408A1 (en) 2021-09-01
US11368663B2 (en) 2022-06-21
WO2020083950A1 (en) 2020-04-30
BR112021007522A2 (pt) 2021-07-27
KR102659115B1 (ko) 2024-04-23

Similar Documents

Publication Publication Date Title
JP7480163B2 (ja) 画像の奥行きマップの処理
WO2020219982A1 (en) Methods and apparatus for encoding, communicating and/or using images
WO2021207747A2 (en) System and method for 3d depth perception enhancement for interactive video conferencing
CN111712859A (zh) 用于生成视图图像的装置和方法
WO2020156827A1 (en) Image signal representing a scene
CN112913230B (zh) 图像生成装置及其方法
US11734875B2 (en) Image representation of a scene
CN113632458A (zh) 广角相机透视体验的***、算法和设计
WO2017141139A1 (en) A method for image transformation
KR20230133974A (ko) 이미지 합성 시스템 및 그를 위한 방법
GB2602841A (en) Image generation system and method
Kim et al. Web-based intermediate view reconstruction for multiview stereoscopic 3D display
Kim et al. Implementation of real-time 3D image communication system using stereoscopic imaging and display scheme

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant