CN111164542A - 修改计算设备上的图像的方法 - Google Patents

修改计算设备上的图像的方法 Download PDF

Info

Publication number
CN111164542A
CN111164542A CN201880063146.7A CN201880063146A CN111164542A CN 111164542 A CN111164542 A CN 111164542A CN 201880063146 A CN201880063146 A CN 201880063146A CN 111164542 A CN111164542 A CN 111164542A
Authority
CN
China
Prior art keywords
image
image data
gaze
computationally
user input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880063146.7A
Other languages
English (en)
Inventor
R·佩珀尔
A·伯利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuwo Technology Co Ltd
Fovo Technology Ltd
Original Assignee
Fuwo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuwo Technology Co Ltd filed Critical Fuwo Technology Co Ltd
Publication of CN111164542A publication Critical patent/CN111164542A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • G06T3/047Fisheye or wide-angle transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

公开了一种修改计算设备上的图像的方法以及一种用于实现该方法的***。该方法包括以下步骤:提供表示三维场景的至少一部分的图像数据,所述场景是人类观察者在注视所述场景内的视觉注视点时从查看点可见的;通过将所述图像数据渲染在显示设备上来显示图像;通过用户输入捕获装置捕获用户输入;通过以下方式修改图像:在计算上隔离所述图像内的注视区域,所述注视区域由表示所述图像内的图像对象的图像数据子集定义,其中所述图像对象与所述视觉注视点相关联;在空间上重构所述图像数据子集,以在计算上扩展所述注视区域;在空间上重构相对于所述图像数据子集剩余的图像数据,以便根据距所述注视区域的距离,以渐进方式在计算上压缩所述图像的相对于所述注视区域的周边区域,其中所述图像的所述修改通过所述用户输入来调节,使得产生经修改的图像,所述经修改的图像综合地模仿人类观察者将如何感知所述三维场景。

Description

修改计算设备上的图像的方法
本发明涉及一种修改计算设备上的图像的方法。特别地,本发明涉及一种用于修改计算设备上通过相机记录的静止和运动图像的方法。
配备有相机、传感器和触摸屏的计算设备(诸如照相机、电影摄影机、智能手机和平板电脑)正越来越多地用于记录和操纵照片和电影。在此类设备中使用的常规光学和图像处理方法通常依赖于线性透视几何法来将三维(3D)世界中的进入安装在这些设备中的一个或多个镜头的光线映射到二维(2D)图像平面。计算设备可以通过使用标准的光学、几何和图像处理方法来修改这种线性透视2D图像的各种属性。例如,可以通过施加用户控制的算法或者本领域技术人员已知的其他方法来对2D图像进行缩放、裁剪、扭曲、拉伸、旋转或者滤波以满足用户的需求。
然而,存在与依赖于线性透视来捕获和显示3D世界的图像的相机设备相关联的许多问题和局限性。线性透视操作的原理是,光线沿直线传播通过光栅中的小孔以投射到图像平面上。对于窄视角
Figure BDA0002428462140000011
根据线性透视几何法投射到图像平面并且渲染到显示器的任何对象的外观都相对地不会受到几何失真的影响。然而,窄视角的图像的局限性在于被成像的场景的大片面积被裁剪,并且因此没有被记录在图像中。随着视角的增加
Figure BDA0002428462140000012
可以在图像中记录该场景的更多面积,但是由于线性透视几何法,在图像边缘处的对象将开始变得越来越拉伸,而在中心处的对象将开始以对许多人而言看起来明显不自然的方式缩小。随着视角的进一步增加
Figure BDA0002428462140000013
上述失真将变得更加严重,以至于
Figure BDA0002428462140000014
的视角的图像将越来越难以辨认。
可以使用避免与标准线性透视投影相关联的失真的其他方法来获得3D场景的广角视角。这些方法包括使用鱼眼镜头、
Figure BDA0002428462140000015
镜头和全景图。然而,所有这些方法都会引入不同种类的失真,这是不令人期望的,并且会干扰真实3D场景与计算机图像之间的映射的准确性。如果将图像数学地投射到球形或者曲形表面上并且使用适当的界面来进行查看,使得用户可以在图像周围进行扫描,同时以更自然的角度查看图像的被裁剪部分,就像在
Figure BDA0002428462140000021
视频和类似技术中的情况一样,则可以减少此类方法的失真问题。但是这些方法又重新引起了使场景的视角受限于查看设备的框架内的窄视角的问题。
从理论上讲,如果图像将从足够近的距离处(即,在光线的正确的投影中心处)被查看,则使用线性透视原理生成的广角图像可能看起来不会失真。原因是在这一点上,到达查看者视网膜的光线模式将比从真实场景投射到的更加匹配光路径的模式。然而,在大多数实际情况下,并且尤其是对于广角图像,正确的投影中心离图像表面太近而使得普通的人眼无法舒适地聚焦。因此,线性透视投影不是一种可行的用于以广角视角准确或者舒适地描绘对象的方法。
无论以何种方式查看它们,根据线性透视原理生成的非立体图像在与我们对其所表示的3D真实世界的体验相比时在特性上都显得平坦。这是由于若干原因,包括以下事实:图像中的深度提示(诸如,遮挡、视差、阴影等)被显示图像是平坦的提示(诸如,图像平面的几何形状、来自屏幕的表面眩光等)所抑制。另一个原因是,如上所述,通过常规几何方法生成的图像中的视觉空间的组织在感知上不是自然的,因此限制了在图像中感知到的深度的量。
配备有相机和触摸屏的计算设备或者配备有计算硬件和触摸屏的相机正越来越多地用于制作模仿第一人称视角的图像。然而,具有正常双眼视觉的人从其自身的视角体验到的3D世界的空间结构与通过传统方法(即线性透视或者鱼眼镜头投影)生成的图像在结构上大不相同。众所周知,视觉空间的感知结构无法使用线性透视的几何定律来表示在图像平面上,这限制了任何依赖于那些定律的设备,使其无法有效地表示该结构。
配备有相机的计算设备正越来越多地进一步配备有允许从场景捕获3D深度信息的***,无论是通过提供额外的相机、光场捕获***、激光或者红外测量***、飞行时间***、运动深度***还是通过其他***。原则上,添加3D深度数据可以导致改善感知自然度、图像的感知深度,因为3D深度数据能够更好地模拟自然视觉中的对象的外观并且以计算方式操纵图像的空间特性。然而,当前使用深度捕获技术的***往往依赖于线性透视几何法来将生成的3D图像投射到设备上的2D显示器,从而重新引起了上述限制。
此外,智能手机和平板电脑上的常规用户界面,或者配备有触摸屏的其他计算图像捕获设备,不允许用户以克服上述问题或者限制以便生成比根据常规投影几何创建或者投影的图像感知上更自然的图像的方式来操纵图像的空间、深度和属性。
需要一种方法,该方法允许配备有相机和触摸屏的计算设备的用户使用2D或者3D深度数据来拍摄3D场景的照片或者运动图像,与当前的方法相比,该方法可以按使得改善第一人称视角的感知自然度、感知深度和有效性的方式来操作。
美国专利申请14/763,454公开了一种制作场景图像的方法(包括一种通过该方法制作的场景),该图像通常与由人脑经由人眼感知到的图像相对应,该方法以任何合适的顺序包括以下步骤:捕获、记录、生成、或者以其他方式表示场景,该场景包括人类观察者在注视场景内的给定区域时从给定“查看点”(VP)可见的整个视野或其部分;朝向该场景的该区域渐进地放大图像;以及,渐进地压缩该场景的对应于周边视野的区域,由此产生该场景的经修改的图像,该经修改的图像通常对应于该场景对人类感知者看起来的样子。
本发明的目的在于提供一种技术方案,以解决至少一些上述列举的问题。
根据本发明的第一方面,提供了一种修改计算设备上的图像的方法,该方法包括以下步骤:提供表示三维场景的至少一部分的图像数据,所述场景是人类观察者在注视所述场景内的视觉注视点时从查看点可见的;通过将所述图像数据渲染在显示设备上来显示图像;通过用户输入捕获装置捕获用户输入;通过以下方式修改所述图像:
在计算上隔离所述图像内的注视区域,所述注视区域由表示所述图像内的图像对象的图像数据子集定义,其中所述图像对象与所述视觉注视点相关联;
在空间上重构所述图像数据子集,以在计算上扩展所述注视区域;
在空间上重构相对于所述图像数据子集剩余的图像数据,以便根据距所述注视区域的距离,以渐进方式在计算上压缩所述图像的相对于所述注视区域的周边区域,
其中,所述图像的所述修改通过所述用户输入来调节,使得产生经修改的图像,所述经修改的图像综合地模仿人类观察者将如何感知所述三维场景。
在一个实施例中,修改所述图像可以进一步包括围绕所述注视区域的轴线旋转所述图像。
在一个实施例中,修改所述图像可以进一步包括对所述图像施加几何变换。
在一个实施例中,修改所述图像可以进一步包括改变所述图像在所述图像的水平轴线或者竖直轴线上的视角。
在一个实施例中,所述注视区域可以在计算上被扩展与所述用户的视角正相关的量。
在一个实施例中,所述周边区域可以在计算上被压缩与所述用户的视角负相关的量。
在一个实施例中,所述用户输入可以包括表示所述用户相对于显示设备的运动的运动数据。修改所述图像可以包括:使所述注视区域相对于所述图像的边框静态地定位,并使所述周边区域根据所述用户的运动而相对于所述注视区域移动,以便模仿人类观察者在所述三维场景中感知到的运动视差。修改所述图像可以包括响应于用户的指示手势,在计算上隔离所述注视区域。捕获用户输入可以包括监视所述用户的眼睛的移动,所述移动与所述注视点在所述三维场景内的重新定位相对应,并且修改所述图像包括在计算上隔离包括经重新定位的注视点的所述注视区域。捕获用户输入可以包括监视在所述显示设备的触摸屏上的触摸手势,所述触摸手势与所述注视点在所述三维场景内的重新定位相对应,并且修改所述图像包括隔离包括经重新定位的注视点的所述注视区域。
在一个实施例中,图像数据可以包括与三维场景中的对象和查看点之间的距离有关的数据。
在一个实施例中,在计算上隔离注视区域可以包括:在计算上处理所述图像数据的所述子集,以便确定与所述视觉注视点相关联的至少一个图像对象的边界,隔离所述至少一个图像对象,以及在单独的深度层上渲染每个图像对象。
在一个实施例中,该方法可以进一步包括以下步骤:在每个修改所述图像的步骤之后,更新所述显示设备的显示。
在一个实施例中,图像数据可以由光学设备生成,该光学设备包括选自以下的组的镜头:直线相机镜头、鱼眼相机镜头、
Figure BDA0002428462140000051
镜头、多个镜头和机械可调镜头。
在一个实施例中,该方法可以进一步包括以下步骤:在计算上处理所述图像数据,以便施加图像模糊效果,所述图像模糊效果沿所述图像的高度轴线、宽度轴线和深度轴线中的至少一者径向远离所述注视点地渐进增强。
在一个实施例中,该方法可以进一步包括以下步骤:在计算上处理所述图像数据,以便用所述三维场景中所看到的接近人类观察者的脸部的对象覆盖所述图像。
在一个实施例中,捕获用户输入可以包括计算图像与用户的头部之间的距离。注视区域可以在计算上被扩展和图像与用户的头部之间的距离负相关的量。周边区域可以在计算上被压缩和图像与用户的头部之间的距离正相关的量。
根据本发明的第二方面,提供了一种计算机***,所述计算机***被配置为实现根据第一方面的方法的步骤,该***包括:用户输入捕获装置,所述用户输入捕获装置被配置为捕获用户输入;控制单元,所述控制单元被配置为基于所捕获的用户输入生成经处理的图像数据;显示设备,所述显示设备被配置为显示所述经处理的图像数据。
在一个实施例中,该***可以进一步包括图像捕获装置,所述图像捕获装置被配置为捕获表示三维场景的所述图像数据。
在一个实施例中,该***可以进一步包括深度传感器,所述深度传感器被配置为从所述三维场景捕获深度信息,并且其中所述控制单元被配置为将所捕获的图像数据连同所捕获的深度信息一起处理。
在一个实施例中,用户输入捕获装置可以包括显示设备运动传感器,所述显示设备运动传感器被配置为捕获向所述显示设备施加的运动。
在一个实施例中,用户输入捕获装置可以包括用户运动传感器,所述用户运动传感器被配置为捕获用户相对于所述显示设备的运动。
在一个实施例中,用户输入捕获装置可以包括触摸屏,所述触摸屏被配置为与所述显示设备集成在一起。
在一个实施例中,该***可以进一步包括图形处理器,所述图形处理器被配置为处理所捕获的图像数据,以便生成经修改的图像数据。
虽然上面已经描述了本发明,但是本发明扩展到在上述或者下述的描述中阐述的特征的任何发明性组合。尽管本文参考附图详细描述了本发明的说明性实施例,但是应当理解,本发明不限于这些精确的实施例。
此外,可以预期的是,单独地或者作为实施例的一部分描述的特定特征可以与其他单独描述的特征或者其他实施例的一部分相结合,即使其他特征和实施例没有提及该特定特征。因此,本发明扩展到这种尚未描述的特定组合。
本发明可以以各种方式来执行,并且现在将参考附图仅通过举例的方式描述其实施例,在附图中:
图1示出了根据本发明的第一实施例的修改计算设备上的图像的方法的步骤的流程图;
图2示出了实现图1的方法的步骤的计算机***的框图;
图3示出了解释线性透视的几何原理的示例;
图4示出了根据图1的方法的步骤的图像修改;
图5示出了欧几里得空间(Euclidean space)的示意表示;
图6示出了根据本发明的空间修改;
图7示出了在相机或类似设备中通过线性透视投影生成的3D场景的示意表示;
图8示出了显示图1的方法的步骤的示例场景;
图9示出了显示图1的方法的步骤的另一示例场景;
图10示出了显示图1的方法的步骤的示例场景;
图11示出了显示图1的方法的步骤的示例场景;
图12示出了将在本发明的实施例中使用的用户界面的示例。
现在将参考图1描述根据本发明的第一实施例的修改计算设备上的图像的方法100。在步骤101,访问来自相机、相机阵列和深度传感器(在可用的情况下)的图像数据。在步骤102,将注视区域102a定义为注视坐标和注视对象的组合,该注视坐标对应于一个或多个眼睛正注视着的场景中的点,该注视对象是场景中与注视坐标相关联的对象。注视区域可以通过以下三种技术102b之一来选择:默认设置、通过用户手势、或者经由集成在设备中的眼动追踪传感器。默认设置可以使用由本领域技术人员编程到设备中的合适的算法来施加,该算法选择在图像的中心处或者靠近图像的中心的区域或者检测图像中的显著特征(诸如人或人的脸部)或者在图像的中心处的对象,并且将其选择为注视区域。
在步骤103,可以通过用户向触摸屏显示器施加合适的手势来启用用户手势选择,图像可任选地被显示在触摸屏显示器上。例如,用户的手指碰触触摸屏的区域,并且由此选择图像中的那个点作为注视区域。在整个触摸屏上移动手指会相应地移动注视区域。
一旦将图像显示在屏幕上,就可以启用眼动追踪选择,并且集成到设备中的、具体化该方法的合适的传感器检测用户的眼睛相对于显示器的运动和位置,并且使用在图像上的凝视的位置来选择注视区域。在整个图像上移动凝视会相应地移动注视区域。
在步骤104,根据以下方式修改图像。图像中与注视区域相对应的区域(该区域已在先前步骤中被选择出)相对于其在该图像的原始投影中的大小被放大104a,该原始投影通过向来自3D场景的图像数据施加的线性透视几何法生成。该图像的其余部分相对于其在该图像的原始投影中的大小被缩小104b,该原始投影通过向来自3D场景的图像数据施加的线性透视几何法生成。在本发明中存在可以用于实现指定的空间修改的若干计算技术,诸如扩展(放大)或者压缩(缩小),并且这些计算技术可以由本领域技术人员实施。仅作为示例,一种技术是将合适的网格变换应用于用于对3D场景进行建模的3D坐标、或者3D场景的2D图像。另一种技术是将合适的矩阵变换应用于用于表示3D场景中的光路径的计算机数据。
在步骤105,将根据第一实施例修改的图像渲染到图像显示器,该图像显示器也可以是触摸屏设备。触摸屏可以以按钮、滑动条、开关或者类似的用户界面机制的形式提供用户界面105a,并且通过操纵该界面,用户能够实现对图像的进一步修改。根据所公开的方法,这些进一步修改包括:进一步选择或者修改注视区域;隔离场景中与注视区域相对应的对象;在水平轴线或垂直轴线上改变图像的视角;绕注视区域的轴线或者用户经由合适的界面控制机制指定的另一轴线旋转图像;改变图像中的曲率;扭曲图像;或者向图像施加其他几何变换。一旦被选择,这些修改就会实时更新图像显示屏上的图像。
在步骤106,可以响应于从集成到设备中的传感器106a(诸如眼动仪、头部追踪仪、加速度计或者陀螺仪)传递的数据作出对图像的进一步修改,使得响应于用户行为、手势、动作或者设备的运动实时地修改图像。
在步骤107,可以施加图像效果107a来修改图像。这些效果可以由本领域技术人员使用编程到设备中的算法来施加,从而使得这些效果可以在无需用户干预的情况下自动修改图像,或者这些效果可以经由合适的界面(该界面可以经由触摸屏来控制)在用户的控制下施加。图像效果可能包括模糊化、对图像对比度、饱和度、亮度和分辨率的修改。额外的图像效果107b可以自动地或者在用户的控制下被覆盖在图像上,其被设计为增强第一人称视角的感知真实性。所包括的物品通常会在自然视觉中被看到非常接近眼睛,并且非穷举的示例清单包括眼镜、太阳镜、帽子、鼻子、珠宝、头发、身体穿孔和雨伞。
根据第一实施例的修改计算设备上的图像的方法可以在如图1中所示的计算机***200中具体化。相机或者相机阵列201可以通过以下方式来记录来自3D场景的光线:使用线性透视几何法将这些光线投射到一个或多个传感器(未示出)上,并将它们转换为表示亮度、颜色、运动等的计算数据201a,这些计算数据201a可随后被存储。此外,来自场景的深度信息202a可以通过使用传感器202、通过基于相机运动计算多个相机之间的视差、通过应用光场捕获技术或者本领域技术人员已知的其他技术来进行记录,该信息被转换为计算数据并且被存储在设备中。相机镜头在构造上可以是直线形或者鱼眼形,并且该设备可以以非立体方式或立体方式、以平面投影或使用有关3D场景的3D深度信息、或者使用光场***或用于记录3D场景中的光阵列的类似***来记录3D场景的裁剪区域或者3D场景的360°视野。
表示3D场景的数据被中央处理器203访问,并且根据多个步骤来进行修改,以便获得上面参考图1讨论的经修改的数据203a。经修改的图像数据203a被传递到图形处理器204以供根据参考图1公开的步骤来进一步修改204a,并且被渲染到也可以是触摸屏显示器的图像显示器205,以便于获得经渲染的图像205a。
来自触摸屏显示器205的响应于用户行为(诸如手指手势)而生成的数据205b可被传递到中央处理器203,以便根据参考图1指定的步骤来发起对图像的进一步修改。
图像可以响应于从运动传感器206(诸如,陀螺仪、或者集成到设备中的加速度计206a)或者从检测用户的运动、位置或者行为的传感器207(诸如,眼动追踪或者头部追踪传感器207a)导出的数据被进一步修改。一旦被修改,图像就经由中央处理器203被再次传递到图形处理器204,并且被渲染到显示器205。
***200被配置为使得允许用户经由显示器205连续监视经修改的图像,并且进一步实时修改其属性,这通过用户手势输入来启用或者响应于运动、眼动追踪或者头部追踪传感器207、207a而启用。
图3示出了线性透视的几何原理。在FF处的屏幕上的图像显示了房间的广角视角
Figure BDA0002428462140000091
该房间在AA处以平面图示出。请注意,由于3D场景的广角视角,BB处的房间中的立方体在图像中的BB'处显得过小,而房间的墙壁在AA'处显得过分拉伸。CC处的最前面的立方体当被投射到CC'处时显得过大,并且当施加了GG处的虚线所指示的标准相机裁剪框时,房间中的很大部分都落在了可见区域之外。为了以感知上自然的方式表示房间,这种方法是不适当的。
从理论上讲,如果查看者采用正确的投影中心作为查看点,则可以消除房间的这一图像中的尺寸和形状的明显失真。在这些条件下,进入眼睛瞳孔的光线模式将非常接近从真实场景投射的光线模式。然而,对于广角视角,除非将图像不切实际地变大,否则投影中心将太过靠近图像平面,以至于无法使正在查看的眼睛舒适地聚焦。
图4示出了本发明中采用的图像修改原理。显示了与图3中相同的房间,但是投射到EEE处的图像平面上的光线的路径不同,从而导致3D场景的经修改的图像。从BBB处的立方体投射的光线按本发明中具体说明的方式呈非线性,与图3中的光线相比,该光线在光圈处更发散,从而导致BBB'处的立方体相对于图3中的投影被放大。与图3中的光线相比,从房间的外边缘投射的光线在光圈处更会聚,从而导致AAA'处的房间的外墙壁被缩小。由于立方体CCC比BBB更接近EEE,因此当根据本发明将立方体CCC投影在CCC'处时,它也被缩小了。在BBB处的立方体后面的墙壁根据本发明也被缩小了,并且与图3中的墙壁相比,该墙壁在该附图中被显示为在与BBB'处的立方体成比例的AAA'处的图像中更小。
请注意,在图4中所示的房间的投影中,整个房间在GGG处的标准相机裁剪框内可见。与根据线性透视几何法生成的图像相比,此方法所产生的场景的图像在感知上更加自然,查看起来更加舒适,并且具有更大的感知深度。
附图中向场景施加的放大和缩小的程度仅仅是出于说明的目的示出的,而并不指示在具体化该方法的设备中使用的精确的或唯一的修改程度。
图4中所示的3D空间的图像不会遭受所指出的通过线性透视几何法生成的图像中的一些问题,并且与图3中生成的3D场景的图像相比,该图像被设计成改善了图像的布局、识别性、感知深度、和感知自然度。
图5是欧几里得空间的示意表示。表示3D空间的三个相交平面在正交投影中示出。每个平面都标有均匀分布的网格线,以说明以下原理:即在欧几里得空间中,3D坐标在整个体积中均匀间隔。标准的线性透视投影将使用穿过光圈并且与平面相交的直线光路径将这些坐标投射到2D平面上。
图6是在本发明中施加的空间修改的示意表示。如图5中所示,标有网格线的表示3D空间的三个相交平面在正交投影中示出。此处,网格线不是均匀分布的。所有平面相交的坐标被获取作为3D空间中的注视点和原点,并且在该区域中,在这些点之间的空间被扩展,而超出该区域的空间则按根据距原点的距离递增的方式被压缩。当此3D空间被投影到2D平面时,它产生3D空间的非欧几里德投影。请注意,在与图5相比时,图6中空间中心处的立方体被放大,而边缘处的空间被渐增地缩小。
附图中向场景施加的放大和缩小的程度仅仅是出于说明的目的示出的,而不指示本发明中使用的精确的或唯一的修改程度。举例来说,本领域技术人员会将算法编程到设备中,该算法自动地或在用户控制下控制放大和缩小的程度。
存在几种计算技术,其可以用于实现本方法中具体说明的空间修改,并且可由本领域技术人员在具体化本发明的设备中实施。仅作为示例,一种技术是将合适的网格变换施加到用于对3D场景进行建模的3D坐标或者3D场景的2D图像。另一种技术是将合适的矩阵变换施加到用于表示3D场景中的光路径的计算机数据。
图7示出了在相机或类似的设备中通过线性透视投影生成的3D场景的示意表示30。请注意,在场景中树31的尺寸与树32相同,但是由于树31更远离投影平面,因此树31在图像中显得更小。具体化本发明的配备有直线镜头或等效的光学设备的设备将生成这种图像。
图8示出了示例场景300以及在3D场景300的图像中选择并隔离102注视区域。填充有图案的圆圈301指示位于标记为302的树中的注视坐标,并且该树与场景中的其它对象的计算隔离由302处的树的虚线轮廓指示。注视坐标301可以通过多种技术来选择,包括但不限于:经由触摸屏界面以用户控制来选择;通过施加合适的算法自动地选择;响应于诸如眼动追踪***之类的传感器来选择。举例来说,用户碰触触摸屏上的图像,并且与手指和屏幕的接触点使用本领域技术人员已知的技术获取作为注视坐标。
与注视区域相关联的对象可以通过多种方式来确定,包括但不限于:经由触摸屏界面通过用户控制来确定;通过施加合适的算法自动地确定;响应于诸如眼动追踪***之类的传感器来确定。举例来说,用户用手指在触摸屏上围绕图像中的对象画圆圈,并且被该圆圈包围的对象(无论是2D还是3D)使用本领域技术人员已知的技术获取作为相关联的对象。
与注视区域相关联的对象可以通过多种方式与场景中的其他对象计算上隔离,包括但不限于:经由触摸屏界面通过用户控制来隔离;通过施加合适的算法自动地隔离;响应于诸如眼动追踪***之类的传感器来隔离。举例来说,用户用手指在触摸屏上围绕图像中的对象的轮廓画出轮廓,并且被轮廓包围的对象(无论是2D还是3D)使用本领域技术人员已知的技术获取作为隔离对象并且在计算上被隔离。
图9显示了示例场景400。放大104a注视区域301并且缩小104b场景400中的其余区域和对象的步骤,并且401和404处的树和405处的花上的效果被示出。406处的虚线边界指示在根据第一实施例的修改之前的图像的原始视角,其中虚线内部的区域在图8所示的修改前的版本中可见。虚线外的区域现在变得可在框407内看见。实心箭头402a、402b、402c、402d指示放大的方向,而实心箭头403a、403b、403c、403d、403e、403f指示缩小的方向。
与图8中相比,现在加阴影的401处的树在图像中更大了,并且404处的树更小了。与图8中相比,在图像的右下角的花405(比401处的树更近)现在更小了,但是同时更多的部分可见。406处的虚线边界显示在图8中在图像框内可见的3D场景的部分,并且图9显示现在在图像框内可见的3D场景的附加区域。
根据本发明向图像施加的修改被设计为改善3D场景的图像的感知自然度和深度,并且改进其易识别性。
附图中向场景施加的放大和缩小的程度仅仅是出于说明的目的示出的,而并不指示在具体化该方法的设备中使用的精确的或者唯一的修改程度。
图10示出了场景500,该场景500示出了移动位于注视区域外部的对象。501处的加阴影的树是注视区域,并且相对于图像框502保持静止,而场景中的其余对象被移动或者以其他方式被修改。图10中的附图通过举例的方式显示了围绕注视区域的轴线旋转的效果503a、503b、503c、503d。可以实现其他形式的运动或者修改,包括但不限于:旋转、平移、向前或者向后运动、缩放、扭曲或者弯曲。
所使用的运动类型可以通过具体化该方法的设备的运动来确定,并且经由诸如加速度计或者陀螺仪之类的合适传感器来检测,使得图像的运动与设备的运动相对应,由此实现注视区域与场景的其余部分之间的运动视差的效果。这种运动视差效果可以进一步增强图像中的感知深度。
所使用的运动类型可以进一步通过具体化该方法的设备的用户的眼睛或者头部运动来确定,并且经由诸如眼动追踪或者头部追踪***之类的合适的传感器来检测,使得图像的运动与眼睛或者头部的运动相对应,由此实现注视区域与场景的其余部分之间的运动视差的效果。
图11通过举例的方式示出了场景600,该场景600示出了将图像效果覆盖在图像上,以便增强该图像所表示的第一人称视角的感知自然度。仅通过举例的方式,该附图显示了覆盖在3D场景的图像上的一副眼镜601。该图将眼镜601显示为佩戴者用两只眼睛观看它们时它们将看起来的样子,其图像由视觉***以接近附图的方式融合。被覆盖的图像可以渲染有利用本领域技术人员已知的技术施加的图像模糊和透明效果,以进一步模仿所看到的非常靠近眼睛的对象的感知外观。例如,在为人类鼻子的情况下,这会在图像中表现为在图像中具有一定程度的模糊度和透明度,就像它在自然视觉中呈现出的一样。
图12示出了用户界面700的示例。这种界面700可以配备有一系列的滑动条或按钮(无论是物理的还是虚拟的),这些滑动条或按钮当被改变时将数据发送到中央处理器,以便实现对图像的修改或者控制设备的行为。在该图所示的示例中,存在七个滑动条701、702、703、704、705、706、707,它们可以返回0到100之间的值。举例来说,在本发明的一个实施例中,滑动条701控制注视区域的大小,其中0为小区域,而100为大区域;滑动条702控制向注视区域施加的放大的程度,而滑动条703控制向非注视区域施加的缩小的程度;滑动条704控制图像的视角,其中0为窄角
Figure BDA0002428462140000131
而100为广角
Figure BDA0002428462140000132
滑动条705控制图像的旋转程度,其中0-50是向左旋转,而51-100是向右旋转;滑动条706控制图像中的视曲率,0为没有弯曲,而100为除视线中的纬度线或视线中的经度线以外,3D场景中的所有直线在图像中均被渲染成曲线;并且滑动条707控制施加哪种第一人称图像覆盖效果,其中1是眼镜、2是太阳镜、3是鼻子等等。

Claims (27)

1.一种修改计算设备上的图像的方法,所述方法包括以下步骤:
提供表示三维场景的至少一部分的图像数据,所述场景是人类观察者在注视所述场景内的视觉注视点时从查看点可见的;
通过将所述图像数据渲染在显示设备上来显示图像;
通过用户输入捕获装置捕获用户输入;
通过以下方式修改所述图像:
在计算上隔离所述图像内的注视区域,所述注视区域由表示所述图像内的图像对象的图像数据子集定义,其中所述图像对象与所述视觉注视点相关联;
在空间上重构所述图像数据子集,以在计算上扩展所述注视区域;
在空间上重构相对于所述图像数据子集的剩余图像数据,以便根据距所述注视区域的距离,以渐进方式在计算上压缩所述图像的相对于所述注视区域的周边区域,
其中,所述图像的所述修改通过所述用户输入来调节,使得产生经修改的图像,所述经修改的图像综合地模仿人类观察者将如何感知所述三维场景。
2.根据权利要求1所述的方法,其中,修改所述图像进一步包括围绕所述注视区域的轴线旋转所述图像。
3.根据任一前述权利要求所述的方法,其中,修改所述图像进一步包括对图像施加几何变换。
4.根据任一前述权利要求所述的方法,其中,修改所述图像进一步包括改变所述图像在所述图像的水平轴线或者竖直轴线上的视角。
5.根据权利要求4所述的方法,其中,所述注视区域在计算上被扩展与所述视角正相关的量。
6.根据权利要求4或5中任一项所述的方法,其中,所述周边区域在计算上被压缩与所述视角负相关的量。
7.根据任一前述权利要求所述的方法,其中,所述用户输入包括表示所述用户相对于所述显示设备的运动的运动数据。
8.根据权利要求7所述的方法,其中,修改所述图像包括:使所述注视区域相对于所述图像的边框静态地定位,并使所述周边区域根据所述用户的所述运动而相对于所述注视区域移动,以便模仿人类观察者在所述三维场景中感知到的运动视差。
9.根据权利要求7所述的方法,其中,修改所述图像包括响应于所述用户的指示手势,在计算上隔离所述注视区域。
10.根据权利要求7所述的方法,其中,捕获所述用户输入包括监视所述用户的眼睛的移动,所述移动与所述注视点在所述三维场景内的重新定位相对应,并且修改所述图像包括在计算上隔离包括经重新定位的注视点的所述注视区域。
11.根据权利要求7所述的方法,其中,捕获所述用户输入包括监视在所述显示设备的触摸屏上的触摸手势,所述触摸手势与所述注视点在所述三维场景内的重新定位相对应,并且修改所述图像包括隔离包括经重新定位的注视点的所述注视区域。
12.根据任一前述权利要求所述的方法,其中,所述图像数据包括和所述三维场景中的对象与所述视点之间的距离有关的数据。
13.根据权利要求1至11中的任一项所述的方法,其中,在计算上隔离所述注视区域包括:在计算上处理所述图像数据的所述子集,以便确定与所述视觉注视点相关联的至少一个图像对象的边界,隔离所述至少一个图像对象,以及在单独的深度层上渲染每个图像对象。
14.根据任一前述权利要求所述的方法,进一步包括以下步骤:在每一修改所述图像的步骤之后,更新所述显示设备的显示。
15.根据任一前述权利要求所述的方法,其中,所述图像数据由光学设备生成,所述光学设备包括选自以下群组的镜头:直线相机镜头、鱼眼相机镜头、360°镜头、多个镜头和机械可调镜头。
16.根据任一前述权利要求所述的方法,进一步包括以下步骤:在计算上处理所述图像数据,以便施加图像模糊效果,所述图像模糊效果沿所述图像的高度轴线、宽度轴线和深度轴线中的至少一者径向远离所述注视点地渐进增强。
17.根据任一前述权利要求所述的方法,进一步包括以下步骤:在计算上处理所述图像数据,以便用所述三维场景中所看到的接近所述人类观察者的面部的对象覆盖所述图像。
18.根据任一前述权利要求所述的方法,其中捕获所述用户输入包括计算所述图像与所述用户的头部之间的距离。
19.根据权利要求18所述的方法,其中,所述注视区域在计算上被扩展和所述图像与所述用户的头部之间的所述距离负相关的量。
20.根据权利要求18至19中的任一项所述的方法,其中,所述周边区域在计算上被压缩和所述图像与所述用户的所述头部之间的所述距离正相关的量。
21.一种计算机***,所述计算机***被配置为实现根据任一前述权利要求所述的方法的步骤,所述***包括:
用户输入捕获装置,所述用户输入捕获装置被配置为捕获用户输入;
控制单元,所述控制单元被配置为基于所捕获的用户输入生成经处理的图像数据;
显示设备,所述显示设备被配置为显示所述经处理的图像数据。
22.根据权利要求21所述的***,进一步包括图像捕获装置,所述图像捕获装置被配置为捕获表示三维场景的所述图像数据。
23.根据权利要求21至22中的任一项所述的***,进一步包括:
深度传感器,所述深度传感器被配置为从所述三维场景捕获深度信息,并且其中,所述控制单元被配置为将所捕获的图像数据连同所捕获的深度信息一起处理。
24.根据权利要求21至23中的任一项所述的***,其中:
所述用户输入捕获装置包括显示设备运动传感器,所述显示设备运动传感器被配置为捕获向所述显示设备施加的运动。
25.根据权利要求21至24中的任一项所述的***,其中:
所述用户输入捕获装置包括用户运动传感器,所述用户运动传感器被配置为捕获所述用户相对于所述显示设备的运动。
26.根据权利要求21至25中的任一项所述的***,其中:
所述用户输入捕获装置包括触摸屏,所述触摸屏被配置为与所述显示设备集成在一起。
27.根据权利要求21至26中的任一项所述的***,进一步包括:
图形处理器,所述图形处理器被配置为处理所捕获的图像数据,以便生成经修改的图像数据。
CN201880063146.7A 2017-09-06 2018-08-20 修改计算设备上的图像的方法 Pending CN111164542A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1714341.3A GB2566276B (en) 2017-09-06 2017-09-06 A method of modifying an image on a computational device
GB1714341.3 2017-09-06
PCT/GB2018/052352 WO2019048819A1 (en) 2017-09-06 2018-08-20 METHOD FOR MODIFYING AN IMAGE ON A COMPUTER DEVICE

Publications (1)

Publication Number Publication Date
CN111164542A true CN111164542A (zh) 2020-05-15

Family

ID=60050565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880063146.7A Pending CN111164542A (zh) 2017-09-06 2018-08-20 修改计算设备上的图像的方法

Country Status (6)

Country Link
US (1) US11212502B2 (zh)
EP (1) EP3679453A1 (zh)
KR (1) KR20200043483A (zh)
CN (1) CN111164542A (zh)
GB (1) GB2566276B (zh)
WO (1) WO2019048819A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11259081B2 (en) 2020-02-28 2022-02-22 Rovi Guides, Inc. Systems and methods for adaptively modifying presentation of media content
CN112639867A (zh) * 2020-05-07 2021-04-09 深圳市大疆创新科技有限公司 图像处理方法和装置
KR20220128887A (ko) * 2021-03-15 2022-09-22 삼성전자주식회사 Ar을 이용한 측정 방법 및 전자 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009018557A1 (en) * 2007-08-02 2009-02-05 Atelier Vision Limited Method and software for transforming images
CN103069821A (zh) * 2010-08-09 2013-04-24 索尼电脑娱乐公司 图像显示装置、图像显示方法及图像修正方法
CN104981839A (zh) * 2013-02-07 2015-10-14 卡迪夫城市大学 图像制作中与图像制作相关的改进

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8218895B1 (en) * 2006-09-27 2012-07-10 Wisconsin Alumni Research Foundation Systems and methods for generating and displaying a warped image using fish eye warping
US7903166B2 (en) 2007-02-21 2011-03-08 Sharp Laboratories Of America, Inc. Methods and systems for display viewer motion compensation based on user image data
US8704879B1 (en) * 2010-08-31 2014-04-22 Nintendo Co., Ltd. Eye tracking enabling 3D viewing on conventional 2D display
DE102010053895A1 (de) * 2010-12-09 2012-06-14 Eads Deutschland Gmbh Umfeld-Darstellungsvorrichtung sowie ein Fahrzeug mit einer derartigen Umfeld-Darstellungsvorrichtung und Verfahren zur Darstellung eines Panoramabildes
JP5020398B1 (ja) * 2011-06-29 2012-09-05 パナソニック株式会社 画像変換装置、カメラ、画像変換方法およびプログラム
US20140208263A1 (en) * 2013-01-24 2014-07-24 Victor Maklouf System and method for dynamically displaying characters over a screen of a computerized mobile device
US9727991B2 (en) 2013-03-01 2017-08-08 Microsoft Technology Licensing, Llc Foveated image rendering
US9898081B2 (en) 2013-03-04 2018-02-20 Tobii Ab Gaze and saccade based graphical manipulation
ITUA20162920A1 (it) * 2016-04-27 2017-10-27 Consiglio Nazionale Ricerche Metodo per correggere e/o attenuare difetti visivi dovuti ad una patologia degenerativa della retina e relativo sistema.
US10713752B2 (en) 2017-06-09 2020-07-14 Sony Interactive Entertainment Inc. Temporal supersampling for foveated rendering systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009018557A1 (en) * 2007-08-02 2009-02-05 Atelier Vision Limited Method and software for transforming images
CN103069821A (zh) * 2010-08-09 2013-04-24 索尼电脑娱乐公司 图像显示装置、图像显示方法及图像修正方法
CN104981839A (zh) * 2013-02-07 2015-10-14 卡迪夫城市大学 图像制作中与图像制作相关的改进

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHA ZHANG等: "《Improving depth perception with motion parallax and its application in teleconferencing》", 《2009 IEEE INTERNATIONAL WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING》 *

Also Published As

Publication number Publication date
GB201714341D0 (en) 2017-10-18
US11212502B2 (en) 2021-12-28
GB2566276A (en) 2019-03-13
US20210037225A1 (en) 2021-02-04
EP3679453A1 (en) 2020-07-15
KR20200043483A (ko) 2020-04-27
WO2019048819A1 (en) 2019-03-14
GB2566276B (en) 2020-07-29

Similar Documents

Publication Publication Date Title
JP6873096B2 (ja) イメージ形成における及びイメージ形成に関する改良
WO2008132724A1 (en) A method and apparatus for three dimensional interaction with autosteroscopic displays
US11238558B2 (en) Method for generating and modifying images of a 3D scene
JP2010154422A (ja) 画像処理装置
CN112041788B (zh) 使用眼睛注视来选择文本输入字段
US10885651B2 (en) Information processing method, wearable electronic device, and processing apparatus and system
JP6294054B2 (ja) 映像表示装置、映像提示方法及びプログラム
US11212502B2 (en) Method of modifying an image on a computational device
KR101818839B1 (ko) 스테레오 삼차원 영상 콘텐츠 디스플레이 제작 및 재생 방법
CN106851249A (zh) 图像处理方法及显示设备
US11353953B2 (en) Method of modifying an image on a computational device
US11128836B2 (en) Multi-camera display
US20210327121A1 (en) Display based mixed-reality device
US20230396750A1 (en) Dynamic resolution of depth conflicts in telepresence
KR102132406B1 (ko) 디스플레이 장치 및 그의 제어 방법
KR20180000417A (ko) 투과형 헤드 마운티드 디스플레이 장치 및 상기 장치에서의 화면 심도 제어 방법
JP6356928B1 (ja) 画像提供装置、画像提供方法、プログラム、ならびに、非一時的なコンピュータ読取可能な情報記録媒体
KR20150098252A (ko) 컴퓨터 그래픽스 기반의 스테레오 플로팅 집적 영상생성시스템
WO2024071208A1 (ja) 表示装置、表示方法及びプログラム
CN115867238A (zh) 视觉辅助
JP2018186319A (ja) 立体画像表示制御装置、立体画像表示制御方法及び立体画像表示制御プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200515