CN117459694A - 图像生成方法、装置、电子设备及存储介质 - Google Patents

图像生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117459694A
CN117459694A CN202311393636.2A CN202311393636A CN117459694A CN 117459694 A CN117459694 A CN 117459694A CN 202311393636 A CN202311393636 A CN 202311393636A CN 117459694 A CN117459694 A CN 117459694A
Authority
CN
China
Prior art keywords
image
dimensional
omnidirectional
images
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311393636.2A
Other languages
English (en)
Inventor
谢聪
赵培尧
焦少慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Original Assignee
Douyin Vision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd filed Critical Douyin Vision Co Ltd
Priority to CN202311393636.2A priority Critical patent/CN117459694A/zh
Publication of CN117459694A publication Critical patent/CN117459694A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本公开涉及图像生成方法、装置、电子设备及存储介质。该方法包括:获取M个图像采集设备拍摄的目标场景的M个原始图像,其中,M个图像采集设备中的每个图像采集设备提供目标场景的不同视点,M为大于或等于8的正整数;针对M个原始图像中的每个原始图像,基于原始图像的深度信息和图像采集设备的内外参数,对原始图像进行图像变形处理,得到变形后图像;对经过图像变形处理后的M个变形后图像进行拼接处理,得到全向立体全景图像。本公开能够将全向立体相机的布局和基于深度图的渲染算法相结合,因此,实现了高质量的全向立体视频实时渲染。

Description

图像生成方法、装置、电子设备及存储介质
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图像生成方法、装置、电子设备及计算机可读存储介质。
背景技术
随着虚拟现实(Virtual Reality,VR)等技术的发展,各种VR设备应运而生。这些VR设备可以实现三维动态视景和实体行为的***仿真,支持安装各种用途的应用程序;另外,还安装有各种原生的应用程序,能够为用户在使用应用程序的过程中提供身临其境的沉浸式体验。全向立体(Omni-Directional Stereo,ODS)是360度立体视觉视频的投射模型。ODS可以与VR头戴式显示器(Head Mounted Display,HMD)一起使用,以显示立体视觉影像。通过ODS,可以使用常规视频格式和工具存储、编辑和传输360度立体视觉视频。
相关技术中,非ODS双目360度视频渲染是指在间隔一个瞳距的位置上渲染左右眼全景图像,用户可以在VR头戴式显示器(HMD)中观看,以获得具有双目立体感的沉浸体验。然而,非ODS全景的问题是只有正前方大约70度的视场(Field of View,FOV)范围具有正确的立体感,左右两侧的物体无视差且左右眼和物体三点共线,并且后背区域的物体视差相反,导致严重的眩晕感,因此,非ODS双目360度视频渲染的结果一般不能用于VR显示。
ODS双目360度视频渲染主要包括光线追踪渲染方案、方格拼接渲染方案和ODS偏移量(Offset)渲染方案。光线追踪渲染方案是基于ODS相机模型定义的视点和视线来进行光线追踪渲染,因此,其仅适用于光线追踪渲染引擎,而不适用于光栅渲染引擎。方格拼接渲染方案是将ODS球面划分为水平2度×垂直15度的多个小方格,并逐一对每个小方格进行渲染和拼接,由于小方格的数量过多,因此,计算量巨大,非常耗时,无法实现实时渲染。ODSoffset渲染方案是在光栅渲染引擎中修改物体在相机坐标系下的位置(即,叠加ODSoffset),使得针孔相机的视点到物体偏移后的新位置的视向量等价于ODS视点到物体原始位置的视向量,因此,通过ODS offset渲染立方体的六个面并进行全景图像拼接即可得到左眼/右眼的ODS图像。然而,ODS offset渲染方案需要修改光栅渲染引擎中所有涉及物体顶点坐标的着色器,包括阴影渲染组件和相关的屏幕后处理着色器等,并且需要保证物体的网格模型中不存在面积过大的三角形面片;当不愿修改或无法修改光栅渲染引擎中所有涉及顶点坐标的着色器时,ODS offset渲染方案便不再使用。
因此,如何在不修改光栅渲染引擎中所有涉及物体顶点坐标的着色器的情况下,实现光栅渲染引擎中场景的ODS视频实时渲染,是目前亟待解决的问题。
发明内容
有鉴于此,本公开实施例提供了一种图像生成方法、装置、电子设备及计算机可读存储介质,以解决相关技术中存在的问题。
本公开实施例的第一方面,提供了一种图像生成方法,该方法包括:获取M个图像采集设备拍摄的目标场景的M个原始图像,其中,M个图像采集设备中的每个图像采集设备提供目标场景的不同视点,M为大于或等于8的正整数;针对M个原始图像中的每个原始图像,基于原始图像的深度信息和图像采集设备的内外参数,对原始图像进行图像变形处理,得到变形后图像;对经过图像变形处理后的M个变形后图像进行拼接处理,得到全向立体全景图像。
本公开实施例的第二方面,提供了一种图像生成装置,该装置包括:获取模块,被配置为获取M个图像采集设备拍摄的目标场景的M个原始图像,其中,M个图像采集设备中的每个图像采集设备提供目标场景的不同视点,M为大于或等于8的正整数;变形模块,被配置为针对M个原始图像中的每个原始图像,基于原始图像的深度信息和图像采集设备的内外参数,对原始图像进行图像变形处理,得到变形后图像;拼接模块,被配置为对经过图像变形处理后的M个变形后图像进行拼接处理,得到全向立体全景图像。
本公开实施例的第三方面,提供了一种电子设备,包括至少一个处理器;用于存储至少一个处理器可执行指令的存储器;其中,至少一个处理器用于执行指令,以实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述方法的步骤。
本公开实施例采用的上述至少一个技术方案能够达到以下有益效果:通过获取M个图像采集设备拍摄的目标场景的M个原始图像,其中,M个图像采集设备中的每个图像采集设备提供目标场景的不同视点,M为大于或等于8的正整数;针对M个原始图像中的每个原始图像,基于原始图像的深度信息和图像采集设备的内外参数,对原始图像进行图像变形处理,得到变形后图像;对经过图像变形处理后的M个变形后图像进行拼接处理,得到全向立体全景图像,能够在不修改光栅渲染引擎中所有涉及物体顶点坐标的着色器的情况下,基于深度信息和图像采集设备的内外参数对原始图像进行图像变形和拼接处理,得到全向立体全景图像,因此,降低了基于深度图的渲染过程中的拉伸畸变瑕疵,实现了高质量的全向立体视频实时渲染,并进一步提高了操作效率,降低了操作成本,提升了用户体验。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开一示例性实施例提供的一种图像生成方法的流程示意图。
图2a是本公开一示例性实施例提供的全向立体相机的左眼布局的俯视图。
图2b是本公开一示例性实施例提供的全向立体相机的右眼布局的俯视图。
图2c是本公开一示例性实施例提供的全向立体相机的顶部和底部布局的侧视图。
图2d是本公开一示例性实施例提供的全向立体相机布局与传统单点位等距柱状投影的对比图。
图3是本公开一示例性实施例提供的另一种图像生成方法的流程示意图。
图4是本公开一示例性实施例提供的一种图像生成装置的结构示意图。
图5是本公开一示例性实施例提供的电子设备的结构示意图。
图6是本公开一示例性实施例提供的计算机***的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将结合附图详细说明根据本公开实施例的一种图像生成方法和装置。
图1是本公开一示例性实施例提供的一种图像生成方法的流程示意图。图1的图像生成方法可以由服务器执行。如图1所示,该图像生成方法包括:
S101,获取M个图像采集设备拍摄的目标场景的M个原始图像,其中,M个图像采集设备中的每个图像采集设备提供目标场景的不同视点,M为大于或等于8的正整数;
S102,针对M个原始图像中的每个原始图像,基于原始图像的深度信息和图像采集设备的内外参数,对原始图像进行图像变形处理,得到变形后图像;
S103,对经过图像变形处理后的M个变形后图像进行拼接处理,得到全向立体全景图像。
具体地,可以利用M个图像采集设备对目标场景进行拍摄,得到目标场景的M个原始图像。服务器获取M个原始图像,并基于M个原始图像中的每个原始图像的深度信息和拍摄该原始图像的图像采集设备的内外参数,对原始图像进行图像变形处理得到变形后图像;进一步地,服务器对经过图像变形处理后的M个变形后图像进行拼接处理,得到全向立体全景图像。
这里,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,本公开实施例对此不作限制。
图像采集设备是一种利用光学成像原理形成影像并使用底片记录影像的设备,是用于摄影的光学器械。在本公开实施例中,图像采集设备为相机,相机按照相机模型对目标场景进行拍摄,得到图像。这里,相机模型是指相机通过对目标场景所处的三维立体空间进行拍摄,将目标场景所处的三维立体空间投影到二维平面图像中,建立三维立体空间与二维平面图像之间的映射关系。最常见的相机模型是针孔相机模型,它的基本假设是光线通过一个无限小的光圈(针孔)进入相机。目标场景是指某一空间呈现的场景。
相机可以是ODS相机和/或深度感知相机。这里,ODS相机可以是在水平平面中具有360度视场或具有(大致)覆盖整个球面的视场的相机。深度感知相机可以为在深度感知相机的范围内捕捉的一个或多个对象创建深度数据。视场又称视场角,是指以相机为顶点,以被测目标的物像可通过镜头的最大范围的两条边缘构成的夹角。视场角的大小决定了相机的视野范围,视场角越大,视野就越大。
相机的数量和位置可以根据实际需要进行设置,本公开实施例对此不作限制。相机的数量为M个,M为大于或等于8的正整数。优选地,在本公开实施例中,M为10。进一步地,M个相机中的每个相机可以提供目标场景的不同视点,也就是说,每个相机朝向不同的方向设置,以获取不同视场下的图像。
需要说明的是,M个相机中相邻的相机的视锥体之间相互贴合,以确保所拍摄图像的紧凑性和完整性。这里,视锥体是指一个金字塔被沿着平行于底面切去顶端的立体形状。该形状是可以被看见和被相机渲染的区域。
原始图像为彩色深度(RGBD)图像。RGBD图像可以包括彩色(RGB)图像和深度(Depth)图像。RGB图像的每个像素点的像素值可以是目标表面的每个点的颜色值。通常,人类视力所能感知的所有颜色均是通过对红(Red,R)、绿(Green,G)、蓝(Blue,B)三个颜色通道的变化及其相互之间的叠加得到的。深度图像的每个像素点的像素值可以是深度相机与目标表面的每个点之间的距离。由于RGB图像和深度图是配准的,因此,RGB图像和深度图像的像素点之间具有一对一的对应关系。
内外参数是指相机的内外参数,包括内参数和外参数。内参数是与相机自身特性相关的参数,包括但不限于1/dx、1/dy、u0、v0、r、f等。这里,dx和dy表示x方向和y方向的一个像素分别占多少长度单位,即,一个像素代表的实际物理值的大小;u0和v0表示图像的中心像素坐标和图像原点像素坐标之间相差的横向和纵向像素数,r表示相机的光圈半径,f表示相机的焦距。外参数是与相机的坐标系相关的参数,包括但不限于ω、δ、θ、Tx、Ty、Tz等。这里,ω、δ和θ表示三维坐标系的三个轴的旋转参数,Tx、Ty和Tz表示三维坐标系的三个轴的平移参数。
图像变形(Image Warping/Image Deformation)是指按一定的规则或方法将一幅图像变为另一幅。在图像变形技术中,空间映射是实现图像结构改变的核心手段,通过空间映射处理,可以将原图像中部分区域的像素点偏移映射到变形后图像中的其他位置上,以在变形后的图像中得到与此前不同的像素点位置关系,从而达到改变图像结构的目的。图像拼接是将多个具有重叠部分的局部图像拼成一幅无缝的全景图,这些具有重叠部分的图像可能是不同时间、不同视角或不同传感器获得的图像。
根据本公开实施例提供的技术方案,通过获取M个相机拍摄的目标场景的M个原始图像,其中,M个相机中的每个相机提供目标场景的不同视点,M为大于或等于8的正整数;针对M个原始图像中的每个原始图像,基于原始图像的深度信息和相机的内外参数,对原始图像进行图像变形处理,得到变形后图像;对经过图像变形处理后的M个变形后图像进行拼接处理,得到全向立体全景图像,能够在不修改光栅渲染引擎中所有涉及物体顶点坐标的着色器的情况下,基于深度信息和相机的内外参数对原始图像进行图像变形和拼接处理,得到全向立体全景图像,因此,降低了基于深度图的渲染过程中的拉伸畸变瑕疵,实现了高质量的全向立体视频实时渲染,并进一步提高了操作效率,降低了操作成本,提升了用户体验。
在一些实施例中,获取M个图像采集设备拍摄的目标场景的M个原始图像,包括:将第一设备的左眼和右眼之间的瞳距的中心点作为全向立体相机坐标系的中心点;基于全向立体相机坐标系的中心点,在垂直方向上将M个图像采集设备中的两个图像采集设备设置在第一设备的顶部和底部,以获取顶部图像和底部图像;基于全向立体相机坐标系的中心点,在水平方向上对全向立体视野圆进行N等分,并在N等分处以切向方式设置2N个图像采集设备,以获取N个左眼图像和N个右眼图像,其中,N为大于或等于3且小于M的正整数。
具体地,虚拟现实(Virtual Reality,VR)也称灵境技术,是指通过计算机软件、专用硬件,用视频/图像、声音或者其他信息来产生一个虚拟的三维空间的技术。VR技术提供给用户一种沉浸式的虚拟环境,让用户感觉仿佛身临其境,并且可以实时地、不加限制地在模拟的三维空间中进行互动、移动、控制等操作。在本公开实施例中,第一设备为虚拟现实(VR)设备,VR设备是指能够产生虚拟三维空间,为用户模拟关于视觉、听觉、触觉等感知功能的设备。通常,VR设备由终端设备和感应设备组成,终端设备控制感应设备,感应设备采用虚拟现实技术产生虚拟三维空间。VR设备可以是VR眼镜,也可以是VR头戴式显示器(HMD)等,本公开实施例对此不作限制。
瞳距是指左眼瞳孔与右眼瞳孔之间的距离。在本公开实施例中,可以将瞳距的中心点作为全向立体相机坐标系的中心点。在全向立体相机坐标系的中心点确定之后,可以基于全向立体相机坐标系的中心点,在垂直方向上将两个相机分别设置在虚拟现实设备的顶部和底部,以获取顶部图像和底部图像;并且,在水平方向上对全向立体视野圆进行N等分,并在N等分处以切向方式设置2N个相机,以分别获取左眼的N个左眼图像和右眼的N个右眼图像。
这里,N为大于或等于3且小于M的正整数。N的取值越大,则表示画面采集的性能开销越大,ODS扭曲畸变越小。示例性地,当N=3时,由于针孔相机模型并非是均角度立方体(Equi-Angular Cube,EAC)投影,因此,画面的中心区域分辨率不足(即,清晰度不够);而当N=4时,能够满足性能要求并且畸变量可控。理论上讲,增大N可以进一步降低后续基于深度图的渲染(Depth-Image-Based Rendering,DIBR)的拉伸畸变瑕疵,例如,N=6的效果会优于N=4的效果,考虑到渲染的主体性能开销为针孔图像的渲染耗时,N=4可以更好地兼顾性能和效果二者,因此,在本公开实施例中,N优选为4。当N=4时,目标场景只需要渲染10个(4个左眼图像、4个右眼图像、1个顶部图像和1个底部图像)90度视场角(FOV)的针孔图,与非ODS的立方体贴图(Cubemap)采集相比,减少了两张针孔图的采集。
根据本公开实施例提供的技术方案,通过对全景采集的相机布局进行优化,能够降低后续基于深度图的渲染的拉伸畸变瑕疵,因此,实现了高质量的全向立体视频实时渲染,并进一步提升了用户体验。
下面,结合图2a至图2d,以N=4为例,对本公开实施例的相机布局进行详细说明。
图2a是本公开一示例性实施例提供的全向立体相机的左眼布局的俯视图。如图2a所示,“O”为ODS相机坐标系的中心点(即,ODS视野圆20的圆心),“X”为ODS相机坐标系的X轴,“Z”为ODS相机坐标系的Z轴。基于中心点“O”,在水平方向上对ODS视野圆20进行四等分,并将四个90度FOV的相机分别设置在ODS视野圆20的位置A1、位置B1、位置C1和位置D1处。设置在位置A1处相机具有向后的主视方向201和向后的视锥体205,设置在位置B1处相机具有向左的主视方向202和向左的视锥体206,设置在位置C1处相机具有向前的主视方向203和向前的视锥体207,设置在位置D1处相机具有向右的主视方向204和向右的视锥体208。如图2a所示,相机的主视方向与ODS视野圆20相切,并且左眼的主视方向为顺时针。
图2b是本公开一示例性实施例提供的全向立体相机的右眼布局的俯视图。如图2b所示,“O”为ODS相机坐标系的中心点(即,ODS视野圆20的圆心),“X”为ODS相机坐标系的X轴,“Z”为ODS相机坐标系的Z轴。基于中心点“O”,在水平方向上对ODS视野圆20进行四等分,并将四个90度FOV的相机分别设置在ODS视野圆20的位置A2、位置B2、位置C2和位置D2处。设置在位置A2处相机具有向前的主视方向211和向前的视锥体215,设置在位置B2处相机具有向右的主视方向212和向右的视锥体216,设置在位置C2处相机具有向后的主视方向213和向后的视锥体217,设置在位置D2处相机具有向左的主视方向214和向左的视锥体218。如图2b所示,相机的主视方向与ODS视野圆20相切,并且右眼的主视方向为逆时针。
图2c是本公开一示例性实施例提供的全向立体相机的顶部和底部布局的侧视图。如图2c所示,“O”为ODS相机坐标系的中心点,“Y”为ODS相机坐标系的Y轴。基于中心点“O”,在垂直方向上,将两个相机分别设置在虚拟现实设备的顶部和底部,设置在顶部的相机具有顶部的主视方向(未示出)和顶部的视锥体221,设置在底部的相机具有底部的主视方向(未示出)和底部的视锥体222。
图2d是本公开一示例性实施例提供的全向立体相机布局与传统单点位等距圆柱投影的对比图。如图2d所示,“B”为传统双点位方案下的拍摄视点,虚线231为单点位等距柱状投影(Equi-Rectangular Projection,ERP)的视线,“D”为ODS相机布局下的拍摄视点,实线232为ODS相机的拍摄视线,实线233为理想的ODS视线,ODS视线与ODS视野圆20相切,并且切点为ODS视点。对比“Pw”出发的三条视线,可以发现实线232的ODS布局下的拍摄视线与理想的ODS视线更为接近,即,视线间的夹角更小,因此,ODS相机布局方案理论上优于单点位ERP的拍摄方案。
在一些实施例中,针对M个原始图像中的每个原始图像,基于原始图像的深度信息和图像采集设备的内外参数,对原始图像进行图像变形处理,得到变形后图像,包括:基于深度信息和图像采集设备的内外参数,将原始图像的各个网格顶点的像素坐标转换为全向立体相机坐标系下的相机三维坐标;将全向立体相机坐标系下的相机三维坐标转换为全向立体球面坐标系下的球面三维坐标,并基于球面三维坐标生成三维网格模型;对三维网格模型进行网格平滑处理,并将经过网格平滑处理后的三维网格模型进行展平,得到全向立体平面网格模型作为变形后图像。
具体地,服务器可以基于深度信息和图像采集设备的内外参数,对原始图像的各个网格顶点进行反投影处理;然后,对经过反投影处理后的各个网格顶点进行全向立体球面投影,并基于经过全向立体球面投影处理后的各个网格顶点的坐标,生成三维网格模型;进一步地,服务器对三维网格模型进行网格平滑处理,并将经过网格平滑处理后的三维网格模型进行展平,得到全向立体平面网格模型。
这里,DIBR是利用深度信息将参考图像投影到三维欧式空间,再将三维空间点投影到虚拟相机的成像平面上。DIBR技术可以看作是一种三维的空间图像变换,在计算机图形学中被称为三维图像变形(3D Image Warping)技术。DIBR技术的核心是深度信息的利用,通过深度信息构建当前视点的三维信息,进而通过映射变换得到其他视点的三维信息。
全向立体相机坐标系是指以ODS相机的光心为原点所构成的坐标系。全向立体球面坐标系是用于使用以下三个坐标表示三维中的几何形状的坐标系:一点到固定原点的半径距离,从z轴正方向到该点的天顶角(或仰角)角度,以及从x轴正方向到该点在x-y平面中的正交投影的方位角。
三维网格模型是由多个网格组成的模型。网格是由有形对象的众多点云组成的,点云包括三维坐标(x,y,z)、激光反射强度(Intensity)和颜色(RGB)等信息。网格通常由三角形、四边形或者其它简单的凸多边形组成,可以基于球面三维坐标生成三维网格模型。
在生成三维网格模型后,可以对三维网格模型进行网格平滑处理,以去除三维网格模型中不准确的网格或与实际模型偏差较大的网格,即,噪声网格。网格平滑算法可以包括但不限于Taubin平滑算法、拉普拉斯(Laplacian)平滑算法、平均曲率(Curvature)平滑算法等,本公开实施例对此不作限制。优选地,在本公开实施例中,通过Taubin平滑算法对三维网格模型进行多次迭代优化,以删除噪声网格。
需要说明的是,除了上述的网格平滑处理之外,也可以对三维网格模型进行补洞处理,以使三维网格模型更加完整;或者,还可以对三维网格模型进行网格均一化处理,以防止得到的三维网格模型中的网格过于密集或过于稀疏。
根据本公开实施例提供的技术方案,通过对三维网格模型进行网格平滑处理,能够对局部出现尖锐凸起或凹陷的情况进行优化,并将存在的噪声网格进行删除,因此,提高了网格生成的效率,优化了生成的网格的质量,并提升了生成的网格的外观。
在一些实施例中,对经过图像变形处理后的M个变形后图像进行拼接处理,得到全向立体全景图像,包括:基于原始图像的彩色信息,对M个全向立体平面网格模型进行渲染,得到全向立体全景图像。
具体地,通过底层渲染应用程序接口(Application Program Interface,API)将带纹理图的平面图像网格渲染为全向立体全景图像。这里,渲染是指将三维场景中的物体模型,按照设定好的环境、材质、光照及渲染参数,二维投影成数字图像的过程。
纹理表示物体表面细节的一幅或几幅二维图形,也称纹理图像或纹理贴图。可以理解的是,纹理实际上是一个二维数组,二维数组中的元素是一些颜色值,当把纹理按照特定的方式映射到物体表面上时,能使物体看上去更加真实。纹理可以用于体现需要被渲染到展示图像或视频帧上的对象所包括的内容。
纹理贴图可以存储较多的信息,例如每个像素可以记录颜色、顶点数据、法向量、材质、背景光、散射、高光、透明度、几何高度、几何位移等信息中的至少一种,这些信息可以用于描绘物体表面的细节。纹理贴图具体可以是预先绘制的纹理图像。纹理图像中可以包括一个或多个图形对象所对应的颜色等信息。例如,图形对象可以包括三维场景下的地形、房屋、树木、人物等中的至少一种。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。此外,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图3是本公开一示例性实施例提供的另一种图像生成方法的流程示意图。图3的图像生成方法可以由服务器执行。如图3所示,该图像生成方法包括:
S301,将第一设备的左眼和右眼之间的瞳距的中心点作为全向立体相机坐标系的中心点;
S302,基于全向立体相机坐标系的中心点,在垂直方向上将M个图像采集设备中的两个图像采集设备设置在第一设备的顶部和底部,以获取顶部图像和底部图像,其中,M为大于或等于8的正整数;
S303,基于全向立体相机坐标系的中心点,在水平方向上对全向立体视野圆进行N等分,并在N等分处以切向方式设置2N个图像采集设备,以获取N个左眼图像和N个右眼图像,其中,N为大于或等于3且小于M的正整数;
S304,基于左眼图像、右眼图像、顶部图像和底部图像的深度信息以及图像采集设备的内外参数,将左眼图像、右眼图像、顶部图像和底部图像的各个网格顶点的像素坐标转换为全向立体相机坐标系下的相机三维坐标;
S305,将全向立体相机坐标系下的相机三维坐标转换为全向立体球面坐标系下的球面三维坐标,并基于球面三维坐标生成三维网格模型;
S306,对三维网格模型进行网格平滑处理,并将经过网格平滑处理后的三维网格模型进行展平,得到全向立体平面网格模型;
S307,基于左眼图像、右眼图像、顶部图像和底部图像的彩色信息,对N个左眼的全向立体平面网格模型、N个右眼的全向立体平面网格模型、顶部的全向立体平面网格模型和底部的全向立体平面网格模型进行渲染,得到全向立体全景图像。
根据本公开实施例提供的技术方案,能够在不修改光栅渲染引擎中所有涉及物体顶点坐标的着色器的情况下,基于图像的深度信息和图像采集设备的内外参数,对图像进行图像变形和拼接处理,得到全向立体全景图像,因此,降低了基于深度图的渲染过程中的拉伸畸变瑕疵,实现了高质量的全向立体视频实时渲染,并进一步提高了操作效率,降低了操作成本,提升了用户体验。
在采用对应各个功能划分各个功能模块的情况下,本公开实施例提供了一种图像生成装置,该图像生成装置可以为服务器或应用于服务器的芯片。图4为本公开一示例性实施例提供的一种图像生成装置的结构示意图。如图4所示,该图像生成装置400包括:
获取模块401,被配置为获取M个图像采集设备拍摄的目标场景的M个原始图像,其中,M个图像采集设备中的每个图像采集设备提供目标场景的不同视点,M为大于或等于8的正整数;
变形模块402,被配置为针对M个原始图像中的每个原始图像,基于原始图像的深度信息和图像采集设备的内外参数,对原始图像进行图像变形处理,得到变形后图像;
拼接模块403,被配置为对经过图像变形处理后的M个变形后图像进行拼接处理,得到全向立体全景图像。
根据本公开实施例提供的技术方案,通过获取M个图像采集设备拍摄的目标场景的M个原始图像,其中,M个图像采集设备中的每个图像采集设备提供目标场景的不同视点,M为大于或等于8的正整数;针对M个原始图像中的每个原始图像,基于原始图像的深度信息和图像采集设备的内外参数,对原始图像进行图像变形处理,得到变形后图像;对经过图像变形处理后的M个变形后图像进行拼接处理,得到全向立体全景图像,能够在不修改光栅渲染引擎中所有涉及物体顶点坐标的着色器的情况下,基于深度信息和图像采集设备的内外参数对原始图像进行图像变形和拼接处理,得到全向立体全景图像,因此,降低了基于深度图的渲染过程中的拉伸畸变瑕疵,实现了高质量的全向立体视频实时渲染,并进一步提高了操作效率,降低了操作成本,提升了用户体验。
在一些实施例中,图4的获取模块401将第一设备的左眼和右眼之间的瞳距的中心点作为全向立体相机坐标系的中心点;基于全向立体相机坐标系的中心点,在垂直方向上将M个图像采集设备中的两个图像采集设备设置在第一设备的顶部和底部,以获取顶部图像和底部图像;基于全向立体相机坐标系的中心点,在水平方向上对全向立体视野圆进行N等分,并在N等分处以切向方式设置2N个图像采集设备,以获取N个左眼图像和N个右眼图像,其中,N为大于或等于3且小于M的正整数。
在一些实施例中,N为4时,M为10。
在一些实施例中,图4的变形模块402基于深度信息和图像采集设备的内外参数,将原始图像的各个网格顶点的像素坐标转换为全向立体相机坐标系下的相机三维坐标;将全向立体相机坐标系下的相机三维坐标转换为全向立体球面坐标系下的球面三维坐标,并基于球面三维坐标生成三维网格模型;对三维网格模型进行网格平滑处理,并将经过网格平滑处理后的三维网格模型进行展平,得到全向立体平面网格模型作为变形后图像。
在一些实施例中,图4的变形模块402通过网格平滑算法对三维网格模型进行多次迭代优化,得到优化后的三维网格模型。
在一些实施例中,图4的拼接模块403基于原始图像的彩色信息,对M个全向立体平面网格模型进行渲染,得到全向立体全景图像。
在一些实施例中,M个图像采集设备中的各个图像采集设备的视锥体之间相互贴合,原始图像为彩色深度图像。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
本公开实施例还提供一种电子设备,包括:至少一个处理器;用于存储至少一个处理器可执行指令的存储器;其中,至少一个处理器用于执行指令,以实现本公开实施例公开的上述方法中的相应步骤。
图5为本公开一示例性实施例提供的电子设备的结构示意图。如图5所示,该电子设备500包括至少一个处理器501以及耦接至处理器501的存储器502,该处理器501可以执行本公开实施例公开的上述方法中的相应步骤。
上述处理器501还可以称为中央处理单元(Central Processing Unit,CPU),其可以是一种集成电路芯片,具有信号的处理能力。本公开实施例公开的上述方法中的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processing,DSP)、ASIC、现成可编程门阵列(Field-programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储器502中,例如随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质。处理器501读取存储器502中的信息,结合其硬件完成上述方法的步骤。
另外,根据本公开的各种操作/处理在通过软件和/或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的计算机***,例如,图6所示的计算机***600安装构成该软件的程序,该计算机***在安装有各种程序时,能够执行各种功能,包括诸如前文所述的功能等等。图6为本公开一示例性实施例提供的计算机***的结构示意图。
计算机***600旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,计算机***600包括计算单元601,该计算单元601可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机存取存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储计算机***600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
计算机***600中的多个部件连接至I/O接口605,包括:输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向计算机***600输入信息的任何类型的设备,输入单元606可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许计算机***600通过网络诸如因特网的与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如,蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如,在一些实施例中,本公开实施例公开的上述方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如,存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开实施例公开的上述方法。
本公开实施例还提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得该电子设备能够执行本公开实施例公开的上述方法。
本公开实施例中的计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。上述计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。更具体的,上述计算机可读存储介质可以包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
本公开实施例还提供一种计算机程序产品,包括计算机程序,其中,该计算机程序被处理器执行时实现本公开实施例公开的上述方法。
在本公开的实施例中,可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者,可以连接到外部计算机。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块、部件或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块、部件或单元的名称在某种情况下并不构成对该模块、部件或单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示例性的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (10)

1.一种图像生成方法,其特征在于,包括:
获取M个图像采集设备拍摄的目标场景的M个原始图像,其中,所述M个图像采集设备中的每个图像采集设备提供所述目标场景的不同视点,M为大于或等于8的正整数;
针对所述M个原始图像中的每个原始图像,基于所述原始图像的深度信息和所述图像采集设备的内外参数,对所述原始图像进行图像变形处理,得到变形后图像;
对经过图像变形处理后的M个所述变形后图像进行拼接处理,得到全向立体全景图像。
2.根据权利要求1所述的方法,其特征在于,所述获取M个图像采集设备拍摄的目标场景的M个原始图像,包括:
将第一设备的左眼和右眼之间的瞳距的中心点作为全向立体相机坐标系的中心点;
基于所述全向立体相机坐标系的中心点,在垂直方向上将所述M个图像采集设备中的两个图像采集设备设置在所述第一设备的顶部和底部,以获取顶部图像和底部图像;
基于所述全向立体相机坐标系的中心点,在水平方向上对全向立体视野圆进行N等分,并在N等分处以切向方式设置2N个图像采集设备,以获取N个左眼图像和N个右眼图像,其中,N为大于或等于3且小于M的正整数。
3.根据权利要求2所述的方法,其特征在于,N为4时,M为10。
4.根据权利要求2所述的方法,其特征在于,所述针对所述M个原始图像中的每个原始图像,基于所述原始图像的深度信息和所述图像采集设备的内外参数,对所述原始图像进行图像变形处理,得到变形后图像,包括:
基于所述深度信息和所述图像采集设备的内外参数,将所述原始图像的各个网格顶点的像素坐标转换为所述全向立体相机坐标系下的相机三维坐标;
将所述全向立体相机坐标系下的相机三维坐标转换为全向立体球面坐标系下的球面三维坐标,并基于所述球面三维坐标生成三维网格模型;
对所述三维网格模型进行网格平滑处理,并将经过网格平滑处理后的三维网格模型进行展平,得到全向立体平面网格模型作为所述变形后图像。
5.根据权利要求4所述的方法,其特征在于,所述对所述三维网格模型进行网格平滑处理,包括:
通过网格平滑算法对所述三维网格模型进行多次迭代优化,得到优化后的三维网格模型。
6.根据权利要求4所述的方法,其特征在于,所述对经过图像变形处理后的M个所述变形后图像进行拼接处理,得到全向立体全景图像,包括:
基于所述原始图像的彩色信息,对M个所述全向立体平面网格模型进行渲染,得到所述全向立体全景图像。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述M个图像采集设备中的各个图像采集设备的视锥体之间相互贴合,所述原始图像为彩色深度图像。
8.一种图像生成装置,其特征在于,包括:
获取模块,被配置为获取M个图像采集设备拍摄的目标场景的M个原始图像,其中,所述M个图像采集设备中的每个图像采集设备提供所述目标场景的不同视点,M为大于或等于8的正整数;
变形模块,被配置为针对所述M个原始图像中的每个原始图像,基于所述原始图像的深度信息和所述图像采集设备的内外参数,对所述原始图像进行图像变形处理,得到变形后图像;
拼接模块,被配置为对经过图像变形处理后的M个所述变形后图像进行拼接处理,得到全向立体全景图像。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
用于存储所述至少一个处理器可执行指令的存储器;
其中,所述至少一个处理器用于执行所述指令,以实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的方法。
CN202311393636.2A 2023-10-25 2023-10-25 图像生成方法、装置、电子设备及存储介质 Pending CN117459694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311393636.2A CN117459694A (zh) 2023-10-25 2023-10-25 图像生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311393636.2A CN117459694A (zh) 2023-10-25 2023-10-25 图像生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117459694A true CN117459694A (zh) 2024-01-26

Family

ID=89582864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311393636.2A Pending CN117459694A (zh) 2023-10-25 2023-10-25 图像生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117459694A (zh)

Similar Documents

Publication Publication Date Title
US11076142B2 (en) Real-time aliasing rendering method for 3D VR video and virtual three-dimensional scene
CN106375748B (zh) 立体虚拟现实全景视图拼接方法、装置及电子设备
WO2019075268A1 (en) IMAGE PROCESSING METHOD, APPARATUS THEREFOR, AND STORAGE MEDIUM
WO2018086295A1 (zh) 一种应用界面显示方法及装置
CN109510975B (zh) 一种视频图像的提取方法、设备及***
CN110246146A (zh) 基于多次深度图像渲染的全视差光场内容生成方法及装置
WO2022063260A1 (zh) 一种渲染方法、装置及设备
US11417060B2 (en) Stereoscopic rendering of virtual 3D objects
CN110782507A (zh) 一种基于人脸网格模型的纹理贴图生成方法、***及电子设备
CN106780759A (zh) 基于图片构建场景立体全景图的方法、装置及vr***
CN107005689B (zh) 数字视频渲染
EP3526639A1 (en) Display of visual data with a virtual reality headset
WO2024002023A1 (zh) 全景立体图像的生成方法、装置和电子设备
CN114926612A (zh) 空中全景图像处理与沉浸式显示***
CN114513646A (zh) 一种三维虚拟场景中全景视频的生成方法及设备
CN111327886B (zh) 3d光场渲染方法及装置
WO2019042028A1 (zh) 全视向的球体光场渲染方法
CN110060349B (zh) 一种扩展增强现实头戴式显示设备视场角的方法
TWI817335B (zh) 立體影像播放裝置及其立體影像產生方法
KR20120119774A (ko) 곡면 투사를 이용한 입체 영상 생성 방법, 장치 및 시스템, 이를 위한 기록 매체
CN117459694A (zh) 图像生成方法、装置、电子设备及存储介质
WO2022116194A1 (zh) 一种全景呈现方法及其装置
KR20230022153A (ko) 소프트 레이어링 및 깊이 인식 복원을 사용한 단일 이미지 3d 사진
KR101425321B1 (ko) 적응형 렌즈 어레이를 구비하는 3차원 집적 영상 디스플레이 시스템 및 적응형 렌즈 어레이에 대한 요소 영상 생성 방법
CN116778127B (zh) 一种基于全景图的三维数字场景构建方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination