CN117880480A - 一种图像生成方法和电子设备 - Google Patents
一种图像生成方法和电子设备 Download PDFInfo
- Publication number
- CN117880480A CN117880480A CN202311864649.3A CN202311864649A CN117880480A CN 117880480 A CN117880480 A CN 117880480A CN 202311864649 A CN202311864649 A CN 202311864649A CN 117880480 A CN117880480 A CN 117880480A
- Authority
- CN
- China
- Prior art keywords
- monocular
- images
- image
- view
- optical flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000003287 optical effect Effects 0.000 claims abstract description 104
- 230000000007 visual effect Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种图像生成方法和电子设备,其中,所述图像生成方法包括:获取用户的第一单目视角对应的两张第一图像;其中,两张所述第一图像是分别从不同视角对目标对象进行拍摄后得到的;所述第一单目视角处于两张所述第一图像分别对应的视角之间;基于两张所述第一图像,预测所述第一单目视角对应的第一预测光流;基于所述第一预测光流,对两张所述第一图像进行融合,得到所述第一单目视角的第一单目图像。
Description
技术领域
本申请涉及但不限于裸眼3D显示技术领域,尤其涉及一种图像生成方法和电子设备。
背景技术
裸眼3D(Three-Dimensiona,三维)显示技术是一种用户无需佩戴眼镜而能够直接观看到3D显示画面的技术。但是,相关裸眼3D显示技术中,需要采集深度图以进行3D建模,最终还原不同视角的视图,设备定制化程度高,算法复杂度高,对计算资源要求高,成本高昂,难以向消费级市场推广。
发明内容
有鉴于此,本申请实施例至少提供一种图像生成方法和电子设备。
本申请实施例的技术方案是这样实现的:
一方面,本申请实施例提供一种图像生成方法,所述方法包括:
获取用户的第一单目视角对应的两张第一图像;其中,两张所述第一图像是分别从不同视角对目标对象进行拍摄后得到的;所述第一单目视角处于两张所述第一图像分别对应的视角之间;
基于两张所述第一图像,预测所述第一单目视角对应的第一预测光流;
基于所述第一预测光流,对两张所述第一图像进行融合,得到所述第一单目视角的第一单目图像。
在一些实施例中,所述方法还包括:接收多张所述第一图像;所述获取用户的第一单目视角对应的两张第一图像,包括:如果所述第一单目视角不处于每一所述第一图像分别对应的视角上,基于所述第一单目视角与每一所述第一图像分别对应的视角之间的位置关系,从多张所述第一图像中获取两张所述第一图像。
在一些实施例中,所述基于所述第一单目视角与每一所述第一图像分别对应的视角之间的位置关系,从多张所述第一图像中获取两张所述第一图像,包括:利用所述第一单目视角在多个视角区间中进行匹配,确定目标视角区间;其中,每一所述视角区间分别对应两张所述第一图像;基于所述视角区间和所述第一图像之间的对应关系,从多张所述第一图像中获取所述目标视角区间对应的两张所述第一图像。
在一些实施例中,所述方法还包括:获取用户的第二单目视角对应的至少一张第二图像;所述至少一张第二图像是从不同视角对所述目标对象进行拍摄后得到的;基于所述至少一张第二图像,确定所述第二单目视角的第二单目图像。
在一些实施例中,所述基于所述至少一张第二图像,确定所述第二单目视角的第二单目图像,包括以下之一:如果所述第二单目视角不处于每一所述第二图像分别对应的视角上,获取所述第二单目视角对应的两张所述第二图像;基于所述第二单目视角对应的两张所述第二图像,预测所述第二单目视角对应的第二预测光流;基于所述第二预测光流,对所述第二单目视角对应的两张第二图像进行融合,得到所述第二单目图像;如果所述第二单目视角处于所述第二图像对应的视角上,获取所述第二单目视角对应的所述第二图像;将所述第二单目视角对应的所述第二图像确定为所述第二单目视角的第二单目图像。
在一些实施例中,所述基于两张所述第一图像,预测所述第一单目视角对应的第一预测光流,包括:利用两张所述第一图像各自对应的视角,确定所述第一单目视角对应的第一单目视角差值系数;将两张所述第一图像与所述第一单目视角差值系数输入光流预测模型进行处理,得到所述第一预测光流。
在一些实施例中,所述光流预测模型包括多个降采样特征提取模块;所述将两张所述第一图像与所述第一单目视角差值系数输入光流预测模型进行处理,得到所述第一预测光流,包括:将两张所述第一图像与所述第一单目视角差值系数经过多个所述降采样特征提取模块的依次处理,得到所述第一预测光流以及第一掩膜信息;多个所述降采样特征提取模块是依次相连的;所述基于所述第一预测光流,对两张所述第一图像进行融合,得到所述第一单目视角的第一单目图像,包括:基于所述第一预测光流以及所述第一掩膜信息,对两张所述第一图像进行融合,得到所述第一单目图像。
在一些实施例中,所述方法还包括:基于所述第一单目图像和所述第二单目图像,得到双目图像;利用所述双目图像进行裸眼三维显示。
另一方面,本申请实施例提供一种电子设备,包括处理器和显示组件,其中:所述处理器,用于:获取用户的第一单目视角对应的两张第一图像;其中,两张所述第一图像是分别从不同视角对目标对象进行拍摄后得到的;所述第一单目视角处于两张所述第一图像分别对应的视角之间;基于两张所述第一图像,预测所述第一单目视角对应的第一预测光流;基于所述第一预测光流,对两张所述第一图像进行融合,得到所述第一单目视角的第一单目图像。
在一些实施例中,所述处理器,还用于:获取用户的第二单目视角对应的至少一张第二图像;所述至少一张第二图像是从不同视角对所述目标对象进行拍摄后得到的;基于所述至少一张第二图像,确定所述第二单目视角的第二单目图像;基于所述第一单目图像和所述第二单目图像,得到双目图像;所述显示组件,用于:利用所述双目图像进行裸眼三维显示。
又一方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤或者所述处理器为上述实施例中提供的处理器。
又一方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
又一方面,本申请实施例提供一种计算机程序,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行用于实现上述方法中的部分或全部步骤。
又一方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请的技术方案。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种图像生成方法的实现流程示意图;
图2为本申请实施例提供的一种图像采集场景和观看场景的场景示意图一;
图3为本申请实施例提供的一种图像采集场景和观看场景的场景示意图二;
图4为本申请实施例提供的一种最左端的相机拍摄画面的示意图;
图5为本申请实施例提供的一种校正后的最左端的相机拍摄画面的示意图;
图6为本申请实施例提供的一种像素重映射模块的结构示意图;
图7为本申请实施例提供的一种光流预测模型的结构示意图;
图8为本申请实施例提供的一种图像生成方法的实现流程示意图;
图9为本申请实施例提供的一种图像帧之间的像素移动示意图;
图10为本申请实施例提供的一种光流生成示意图;
图11为本申请实施例提供的一种电子设备的组合结构示意图;
图12为本申请实施例提供的一种电子设备的硬件实体示意图。
具体实施方式
本申请实施例提供一种图像生成方法,该方法可以由电子设备的处理器执行。其中,电子设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。图1为本申请实施例提供的一种图像生成方法的实现流程示意图,如图1所示,该方法包括如下步骤S101至步骤S103:
步骤S101,获取用户的第一单目视角对应的两张第一图像;其中,两张所述第一图像是分别从不同视角对目标对象进行拍摄后得到的;所述第一单目视角处于两张所述第一图像分别对应的视角之间。
这里,两张第一图像是使用两个相机从不同的位置和角度同时捕捉到的目标对象的两张图像,两个相机通常会保持一定的基线距离(即两个相机镜头中心之间的距离)。在一些实施方式中,可以采用任意具有成像功能的相机对目标对象进行拍摄,在此并不限定,例如,可以是数码单反相机、全景相机等。
第一单目视角是指用户的一只眼睛观看显示屏的角度,第一图像对应的视角是指相机拍摄目标对象的角度;第一单目视角可以是用户的左眼视角,也可以是用户的右眼视角,可以理解的是,当第一单目视角是用户的左眼视角的情况下,第二单目视角是用户的右眼视角,当第一单目视角是用户的右眼视角的情况下,第二单目视角是用户的左眼视角,即第一单目视角和第二单目视角分别对应用户的左眼视角和右眼视角。可以理解的是,第一单目视角处于两张第一图像分别对应的视角之间,意味着第一单目视角处看到的景象是这两张第一图像的一种中间状态。
在一些实施方式中,可以计算出第一单目视角相对于这两个第一图像视角的差异(即视差),然后根据这个差异对两张第一图像进行调整或变形得到第一单目视角对应的第一单目图像。
在一些实施方式中,可以采用任意合适的方式确定第一单目视角,在此并不限定,例如,可以利用红外传感器、眼动跟踪***等来实时追踪用户的第一单目视角。
在一些实施方式中,用户和目标对象可以处于同一场景中,也可以处于不同场景中,在此并不限定;例如,在用户处于显示场景,目标对象处于采集场景的情况下,可以以显示场景中进行裸眼3D显示的显示屏的中心为原点建立第一空间坐标系,以采集场景中目标对象的中心为原点建立第二空间坐标系,将用户的眼睛坐标从第一空间坐标系中转换到第二空间坐标系中,这样便可以确定用户第一单目视角和第一图像对应的视角之间的位置关系。在一些实施方式中,目标对象可以是说话的人、动物或者桌椅等,在此并不限定。
步骤S102,基于两张所述第一图像,预测所述第一单目视角对应的第一预测光流。
在一些实施方式中,可以先对两张第一图像进行对齐和配准,以确保两张不同位置拍摄的第一图像在空间上是对齐的,这可能需要进行图像校正、几何变换或者特征匹配来消除由于相机位置变化导致的视角差异;然后在两张第一图像中提取关键的视觉特征,并通过特征匹配找到对应点对;进而利用匹配的特征点对计算从一张第一图像到另一张第一图像的单应性矩阵或者Essential/Fundamental矩阵,这些矩阵描述了两张第一图像之间的相对运动;继而根据已知的两个视角和要预测的第一单目视角,进行空间插值以确定第一单目视角相对于每张第一图像的具体坐标;最后对于每张第一图像,使用光流估计算法预测从该第一图像到第一单目视角的第一预测光流。
在一些实施方式中,光流估计算法可以是深度学习方法、Lucas-Kanade算法或者Horn-Schunck算法等,在此并不限定。
在一些实施方式中,如果使用深度学习方法,可以训练一个模型来直接从两张第一图像预测第一单目视角对应的第一预测光流,或者使用预训练的模型并微调以适应特定的场景和任务。
步骤S103,基于所述第一预测光流,对两张所述第一图像进行融合,得到所述第一单目视角的第一单目图像。
这里,第一单目图像是进行裸眼3D观看中左眼看到的图像或者右眼看到的图像;在实施时,可以利用裸眼3D显示屏显示第一单目图像以使用户的左眼或者右眼能够看到第一单目图像。
在一些实施方式中,对于每一第一图像,根据第一预测光流移动第一图像中每个像素到其在融合图像中的新位置,在融合过程中,可能需要处理像素的重叠和遮挡问题,这可以通过采用不同的融合策略(如平均、选择最大值、加权平均等)来解决,最终得到第一单目视角对应的融合图像,即第一单目图像。
本申请实施例中,通过获取用户的第一单目视角对应的两张第一图像;其中,两张第一图像是分别从不同视角对目标对象进行拍摄后得到的;第一单目视角处于两张第一图像分别对应的视角之间;基于两张第一图像,预测第一单目视角对应的第一预测光流;基于第一预测光流,对两张第一图像进行融合,得到第一单目视角的第一单目图像。这样,在裸眼3D图像生成的过程中,采用任意合适的从不同视角对目标对象进行拍摄后得到的两张第一图像均可以进行图像生成,无需直接获取目标对象的深度信息,对拍摄设备的要求更低,从而能够降低进行裸眼3D图像生成的成本,算法复杂程度也会相应降低,图像的生成效率更高。
在一些实施例中,所述方法还可以包括步骤S111:
步骤S111,接收多张所述第一图像。
这里,多张第一图像是多个相机分别从不同视角对目标对象进行拍摄后得到的;在一些实施方式中,可以利用8个相机对目标对象进行拍摄后得到8张第一图像。
在一些实施方式中,显示场景中会接收目标图像信号并对目标图像信号进行解析和拆分,得到多张第一图像;其中,目标图像信号是采集场景中多个相机对目标对象进行拍摄后得到的。在一些实施方式中,采集场景中的信号发送装置会将目标图像信号发送至实时通信(Real-Time Communication,RTC)服务器,RTC服务器会将目标图像信号转发给显示场景中的信号接收装置。
在一些实施方式中,采集场景中用于进行目标对象拍摄的多个相机依次排布在同一水平线上,最左端的相机、最右端的相机与目标对象之间形成的最大视角区间需要与裸眼3D显示屏的最大显示视角区间相适配;其中,裸眼3D显示屏的最大显示视角区间是指在观看裸眼3D显示屏时,能够看到立体三维效果的最大角度范围。
上述步骤S101中所述获取用户的第一单目视角对应的两张第一图像,可以包括步骤S121:
步骤S121,如果所述第一单目视角不处于每一所述第一图像分别对应的视角上,基于所述第一单目视角与每一所述第一图像分别对应的视角之间的位置关系,从多张所述第一图像中获取两张所述第一图像。
在一些实施方式中,显示场景中的用户进行裸眼3D观看,采集场景中多个相机对目标对象进行拍摄,通过对显示场景对应的第一空间坐标系和采集场景对应的第二空间坐标系进行转换之后,可以在一个统一的空间坐标系中对用户和多个相机之间的视角关系进行分析。
在一些实施方式中,如图2所示,进行空间坐标转换之后,裸眼3D显示屏11的中心和目标对象12的中心重合,8个配备镜头的相机13以云台为支撑,等间隔20厘米地放置在水平滑槽上,相机13排布总宽度W为1.4米,调整拍摄角度,使得所有相机13采集方向汇聚在目标对象12;裸眼3D显示屏11显示宽度L为1.4米,仅使用相机13采集画面中部的1920*1080像素区域,正中间虚拟视点14在该区域对应的水平视场角约为66°。若设定正中间虚拟视点14对应的显示人像与用户等尺寸,则在采集距离的相机13拍摄宽度应正好等于裸眼3D显示屏11的显示宽度,计算可得采集距离H应为1.078米,故可得相机13从外到内和正前方的夹角依次为33°、24.88°、15.55°和5.30°。
在一些实施方式中,采集场景中可以设置一台信号发生器来产生40赫兹的晶体管-晶体管逻辑(Transistor-Transistor Logic,TTL)方波信号作为相机采集的外部触发信号,即每一个方波上升沿触发8个相机采集一帧数据,以实现严格的帧同步;另外,所有相机以全像素2464*2056采集;可以理解的是,这样可以支持多视角拍摄的8路1920*1080分辨率高帧率视频信号实时传输,支持66°范围内任意视点的双目1080p@40fps实时渲染与立体视觉呈现。
在一些实施方式中,如图3所示,进行空间坐标转换之后,图3中X轴为裸眼3D显示屏21平面上从左到右的方向;Z轴垂直于裸眼3D显示屏21平面指向裸眼3D显示屏21背面方向。该空间坐标系中原点O是目标对象和裸眼3D显示屏21中心的位置,第一单目视角22不处于相机I0至I7分别对应的视角上,基于第一单目视角22与每一相机分别对应的视角之间的位置关系,从多个相机中选取相机I4和相机I5,并获取相机I4和相机I5分别拍摄的第一图像。
在一些实施方式中,对于采集场景中等间隔水平排布的多个相机,需要对每一相机进行标定,可以使用张正友标定法对相机进行标定。在一种实施方式中,每个相机拍摄6张随机位置的标定板图像,保证画面中的标定板占画面总面积的2/3以上,基于开源计算机视觉库(Open Source Computer Vision Library,OpenCV)的对应函数得到每个相机的内参矩阵K和畸变系数向量d,以用于画面去畸变和外参估计。
例如,如图4所示为最左端的相机拍摄画面,将标定板31放置在目标对象的位置(即距离相机基线1.078米,左上角第一个交点正对相机基线中点),尽可能保证其平面平行于相机基线、垂直于地面;使用水平仪保证其边缘水平,然后使用OpenCV进行角点检测;此时,世界坐标(XW,YW,ZW)的原点32即是标定板31左上第一个交点,图4中世界坐标X轴为标定板31平面上从左到右的方向;Y轴为标定板31平面上从上到下的方向;Z轴垂直于标定板31平面指向标定板31背面方向。图4中的当前外参,即相机坐标变换到世界坐标经过的三个方向的平移的距离值为(XEx:0.85mm,YEx:-151.53mm,ZEx:1240.73mm),以及绕各个坐标轴旋转的角度值为(ΦEx(Pitch):-2.34°,ΘEx(Yaw):-32.72°,ΨEx(Roll):0.28°)。由于裸眼3D显示屏要求相机成像平面和基线平行,所以需要使用透视变换来校正画面;针对图4所示的最左端的相机拍摄画面,设定校正目标值:X:0mm,Y:-153mm(各个相机纵向平移平均值),Z:1078mm,ang_x(phi):0°,ang_y(theta):0°,ang_z(psi):0°,算得校正画面所用到的单应性矩阵H,用于校正画面。如图5所示,经过校正,图中的标定板41正对观察者,即成像平面已和基线平行,此时再次检测外参,结果显示,除极小由于测量或计算精度造成的误差外,成像平面的校正达到目标。接着,截取画面中部1080p像素区域42,得到一张第一图像并送至后续拼接和编码,生成目标图像信号;截取范围内残留的少部分空白区域用欧氏距离最近的有效像素区域进行填充。
在一些实施方式中,内参矩阵K,畸变系数向量d和单应性矩阵H均为离线计算得出,在采集场景中对相机拍摄的图像进行校正时,利用内参矩阵K、畸变系数向量d进行的画面去畸变以及利用单应性矩阵H进行的透视变换都转换为像素重映射操作进行,且合并两次像素重映射为一次,建立像素重映射表,使用OpenCV在图形处理器(GraphicsProcessing Unit,GPU)存储中运行,实现视频帧的实时预处理。
在一些实施方式中,可以将得到的8个1080p的第一图像将拼接为1个3840*4320大小的视频帧进行编码传输。在一些实施方式中,采集场景中可以基于英伟达的NVIDIARTX4090 GPU,采用英伟达视频编码引擎(NVIDIA Video Encoding Engine,NVENC)编码器以高效视频编码(High Efficiency Video Coding,HEVC)标准在15Mbps的固定码率控制在恒定比特率(Constant Bit Rate,CBR)模式下进行传输,编码后的视频帧以RTP协议打包,送到RTC服务器;在一些实施方式中,采集场景中的编码端的预处理、视频编码到解码端的视频解码、观看场景中的图像生成(送显卡前)均为GPU计算,单端仅需使用一块消费级GPU就完成所有计算,成本更低。
本申请实施例中,如果第一单目视角不处于每一第一图像分别对应的视角上,基于第一单目视角与每一第一图像分别对应的视角之间的位置关系,从多张第一图像中获取两张第一图像。这样,能够根据用户的第一单目视角和多张不同视角拍摄的第一图像,找出最适配用户的第一单目视角的两张第一图像,有利于在裸眼3D显示时提供更符合用户实际视觉体验的图像信息,提升了裸眼3D显示的视觉效果。
在一些实施例中,上述步骤S121中所述基于所述第一单目视角与每一所述第一图像分别对应的视角之间的位置关系,从多张所述第一图像中获取两张所述第一图像,可以包括步骤S131至步骤S132:
步骤S131,利用所述第一单目视角在多个视角区间中进行匹配,确定目标视角区间;其中,每一所述视角区间分别对应两张所述第一图像。
在一些实施方式中,进行空间坐标转换之后,如图3所示,从左到右8个相机位置和O点连线与负Z轴夹角为-33°、-24.88°、-15.55°、-5.30°、5.30°、15.55°、24.88°和33°。利用第一单目视角22在多个视角区间(-33°,-24.88°)、(-24.88°,-15.55°)、(-15.55°,-5.30°)、(-5.30°,5.30°)、(5.30°,15.55°)、(15.55°,24.88°)、(24.88°,33°)中进行匹配,确定目标视角区间(5.30°,15.55°)。
步骤S132,基于所述视角区间和所述第一图像之间的对应关系,从多张所述第一图像中获取所述目标视角区间对应的两张所述第一图像。
在一些实施方式中,在目标视角区间为(5.30°,15.55°)的情况下,从多张第一图像中获取相机I4和相机I5分别对应的第一图像。
本申请实施例中,通过利用第一单目视角在多个视角区间中进行匹配,确定目标视角区间;基于视角区间和第一图像之间的对应关系,从多张第一图像中获取目标视角区间对应的两张第一图像。这样,能够获取更符合用户实际视觉体验的第一图像,提升了裸眼3D显示的视觉效果。
在一些实施例中,所述方法还可以包括步骤S141至步骤S142:
步骤S141,获取用户的第二单目视角对应的至少一张第二图像;所述至少一张第二图像是从不同视角对所述目标对象进行拍摄后得到的。
在一些实施方式中,第二图像和第一图像可以是相机拍摄的同一张图像。
在一些实施方式中,可以通过获取用户的双目连线中点位置,进而确定第一单目的位置和第二单目的位置,利用第一单目的位置和第二单目的位置可以确定第一单目视角和第二单目视角,例如,成人一般瞳距为0.06m且用户正视前方,故基于用户的双目连线中点位置水平分别向左、向右偏移0.03米可以得到两只眼睛的位置,进而可以确定在空间坐标系中两只眼睛各自的视角。
步骤S142,基于所述至少一张第二图像,确定所述第二单目视角的第二单目图像。
本申请实施例中,通过获取用户的第二单目视角对应的至少一张第二图像;至少一张第二图像是从不同视角对目标对象进行拍摄后得到的;基于至少一张第二图像,确定第二单目视角的第二单目图像。这样,生成第二单目视角的第二单目图像后,有助于利用第一单目图像和第二单目图像进行裸眼3D显示。
在一些实施例中,上述步骤S142中所述基于所述至少一张第二图像,确定所述第二单目视角的第二单目图像,可以包括步骤S151和步骤S152中之一:
步骤S151,如果所述第二单目视角不处于每一所述第二图像分别对应的视角上,获取所述第二单目视角对应的两张所述第二图像;基于所述第二单目视角对应的两张所述第二图像,预测所述第二单目视角对应的第二预测光流;基于所述第二预测光流,对所述第二单目视角对应的两张第二图像进行融合,得到所述第二单目图像。
这里,第二单目视角对应的两张第二图像可能和第一单目视角对应的两张第一图像相同,也可能和第一单目视角对应的两张第一图像相同,可以理解的是,即使两张第二图像和两张第一图像相同,由于第二单目视角和第一单目视角之间存在视角差异,第二单目图像和第一单目图像之间也会存在差异。例如,第二单目视角处于(-24.88°,-15.55°),第一单目视角处于(-24.88°,-15.55°),这样第二单目视角对应的两张第二图像和第一单目视角对应的两张第一图像就会相同但是由于第一单目差值系数和第二单目差值系数不同,最终生成的第一单目图像和第二单目图像之间也会不一样。
步骤S152,如果所述第二单目视角处于所述第二图像对应的视角上,获取所述第二单目视角对应的所述第二图像;将所述第二单目视角对应的所述第二图像确定为所述第二单目视角的第二单目图像。
在一些实施方式中,如果第二单目视角处于-24.88°,则获取-24.88°对应相机拍摄的那一张第二图像。
在一些实施方式中,第一单目视角处于第一图像对应的视角上,获取第一单目视角对应的第一图像;例如,如果第一单目视角处于-15.55°,则获取-15.55°对应相机拍摄的那一张第一图像。
本申请实施例中,能够获取生成更符合用户实际视觉体验的第二单目图像,提升了裸眼3D显示的视觉效果。
在一些实施例中,上述步骤S102中所述基于两张所述第一图像,预测所述第一单目视角对应的第一预测光流,可以包括步骤S161至步骤S162:
步骤S161,利用两张所述第一图像各自对应的视角,确定所述第一单目视角对应的第一单目视角差值系数。
在一些实施方式中,两张第一图像各自对应的视角为-33°和-24.88°,第一单目视角θe落在-33°和-24.88°之间,那么第一单目视角对应的第一单目视角差值系数V=(θe-(-33))/((-24.88)-(-33))。
步骤S162,将两张所述第一图像与所述第一单目视角差值系数输入光流预测模型进行处理,得到所述第一预测光流。
在一些实施方式中,光流预测模型可以是轻量级光流预测网络IFNet模型,将两张第一图像与第一单目视角差值系数输入到IFNet模型进行处理,就可以得到第一预测光流。
本申请实施例中,通过利用两张第一图像各自对应的视角,确定第一单目视角对应的第一单目视角差值系数;将两张第一图像与第一单目视角差值系数输入光流预测模型进行处理,得到第一预测光流。这样,利用光流预测模型预测第一预测光流,有助于在图像生成过程中降低算法复杂程度,图像的生成效率更高。
在一些实施例中,所述光流预测模型包括多个降采样特征提取模块;上述步骤S162中所述将两张所述第一图像与所述第一单目视角差值系数输入光流预测模型进行处理,得到所述第一预测光流,可以包括步骤S171:
步骤S171,将两张所述第一图像与所述第一单目视角差值系数经过多个所述降采样特征提取模块的依次处理,得到所述第一预测光流以及第一掩膜信息;多个所述降采样特征提取模块是依次相连的。
在一些实施方式中,光流预测模型包括N个降采样特征提取模块,N为大于1的正整数;在实施时,可以基于第1个降采样特征提取模块,对两张第一图像与双目视角差值系数进行处理,输出第1个第二预测光流以及第1个第二掩膜信息;基于第i个降采样特征提取模块,对两张第一图像、双目视角差值系数、第i-1个第二预测光流和第i-1个第二掩膜信息进行处理,输出第i个第二预测光流以及第i个第二掩膜信息;其中,i为大于1且不超过N的正整数;将第N个第二预测光流和第N个第二掩膜信息分别确定为第一预测光流以及第一掩膜信息。
在一些实施方式中,光流预测模型还包括N个像素重映射模块;在实施时,可以将两张第一图像、第i-1个第二预测光流输入第i-1个像素重映射模块进行像素重映射,得到两张第i-1个第二图像;将两张第i-1个第二图像、双目视角差值系数、第i-1个降采样特征提取模块输出的第i-1个第二预测光流和第i-1个第二掩膜信息输入第i个降采样特征提取模块中进行处理,输出第i个第二预测光流以及第i个第二掩膜信息。
在一些实施方式中,如图6所示是深度学习的方法中像素重映射模块IFBlock(K,C)的结构示意图,IFBlock首先利用大小为1/K的双线性插值因子将像素映射后的图像、光流FV->L、FV->R和掩膜信息M(基于线性内插)降采样K倍,设置高倍数的降采样可以分析画面中大尺度的像素移动,设置小倍数的降采样可以分析画面中小尺度的像素移动;IFBlock中采用的卷积通道数记为C;然后,经过2层带LeakyReLU的激活函数的卷积层,输入图像被进一步下采样2次,每次通过设置卷积步长为2来使得特征图变为1/4大小。接着,特征图经过8层残差卷积层处理,输入的特征图在一个分支上不做处理,在另一个分支经过了一个卷积层并在通道维度上乘以系数向量β。两个分支的特征图按位求和并通过LeakyReLU激活函数处理。最后,经过反卷积、像素整理和大小为K的双线性插值因子线性内插的处理,IFBlock输出与输入图像相同大小的光流FV->L、FV->R以及掩膜M图像。图6中,IFBlock模块里的K值是降采样系数,越来越小代表整个过程是一个从粗粒度到细粒度叠加更新计算的过程,来实现比较好的光流估计;C值是通道数量,K值小了,通道数量对应减小,可以控制整体模型参数量。
在一些实施方式中,如图7所示是IFNet模型的结构示意图,图7中4个降采样特征提取模块IFBlock是依据采样尺寸从粗到细的策略依次相连的。
如图7所示,是IFNet模型使用4个IFblock通过循环迭代产生最终的视点生成第一单目图像IV的过程,与如下公式相对应:
其中,公式(1)中和/>为两张第一图像,V是第一单目差值系数,<·>对应图7中“按通道连接”,公式(2)中W(·)对应图7中“像素重映射”,/>表示按位相加,最终的第一单目图像IV由/>和/>参考经过Sigmoid激活函数处理的掩膜M(3)合成得到。
在一些实施方式中,第二单目图像同样可以将两张第二图像和第二单目视角对应的第二单目视角差值系数输入到IFNet模型中,输出第二单目图像。
上述步骤S103中所述基于所述第一预测光流,对两张所述第一图像进行融合,得到所述第一单目视角的第一单目图像,可以包括步骤S181:
步骤S181,基于所述第一预测光流以及所述第一掩膜信息,对两张所述第一图像进行融合,得到所述第一单目图像。
在一些实施方式中,可以利用第N个像素重映射模块对两张第一图像、第一预测光流进行像素重映射,得到两张目标图像;利用两张目标图像以及第一掩膜信息进行融合,得到双目图像。
本申请实施例中,通过将两张第一图像与第一单目视角差值系数输入包括多个降采样特征提取模块的光流预测模型进行处理,生成第一单目图像,能够降低计算复杂程度,提高了单目图像的生成效率。
在一些实施例中,所述方法还可以包括步骤S191至步骤S192:
步骤S191,基于所述第一单目图像和所述第二单目图像,得到双目图像。
在一些实施方式中,可以基于视差信息,将第一单目图像和第二单目图像转换为一幅包含深度信息的双目图像。
步骤S192,利用所述双目图像进行裸眼三维显示。
这里,进行裸眼三维显示是指通过特定的技术和设备,将基于双目图像获取的三维信息转化为可以让用户无需佩戴特殊眼镜就能感知到立体深度的视觉体验。在一些实施方式中,可以通过如下方式实现裸眼三维显示,例如,柱状透镜技术(Lenticular Lens),视差屏障技术(Parallax Barrier),光学全息技术等,在此并不限定。
本申请实施例中,通过基于第一单目图像和第二单目图像,得到双目图像;利用双目图像进行裸眼三维显示。这样,能够为用户提供更加真实和沉浸式的视觉体验。
下面说明本申请实施例提供的图像生成方法在实际场景中的应用,以基于裸眼3D显示进行的沉浸式视频通信场景为例进行说明。
近年来,移动通信技术以及视频的高效压缩、传输技术迅猛发展,支持相关应用能以更高分辨率(如4K、8K)为用户提供视频服务,满足了用户“看得清”的需求。而如今,用户追求基于3D立体显示的视觉体验,要求相关应用满足其“看得真”的需求,要求相关应用提供的视觉服务应具有沉浸感。实时通信(RTC)是指端到端延迟少于400ms的音视频服务,日常的视频聊天、视频会议、直播连麦等都属于此类服务范畴。实时视频通信对编解码算法时间效率要求很高,特别是对于需要采集多个视点图像的3D相关应用,在传输高质量视觉信息的要求下,只能借助支持编解码的相关硬件设备(如GPU)才能充分保障远端呈现的实时性。2011年,谷歌开放了基于网页显示的RTC服务架构——WebRTC开源代码,它能在浏览器之间建立点对点的远程实时音视频连接。目前,业界普遍采用WebRTC(或经二次开发后的WebRTC)组件与RTC服务器支撑相关RTC应用。
相关技术中,对于沉浸式通信***而言,业界普遍利用多视角采集的彩色+深度信息建立3D几何模型。然而,深度相机采集到的原始深度图往往分辨率低、噪声严重,需要设计融合算法融合多视角的彩色与深度图才能生成高质量的场景深度信息。最终,通过渲染算法才能生成对应视点的左右眼彩色视图,例如谷歌的Starline技术和微软的VirtualCube技术。相关基于裸眼3D显示进行的沉浸式视频通信技术中,需要采集深度图以进行3D建模,最终还原不同视角的视图,设备定制化程度高,算法复杂度高,对计算资源要求高,成本高昂,难以向消费级市场推广。
有鉴于此,本申请实施例提供一种图像生成方法,该方法可以应用于电子设备中。如图8所示,该方法包括如下步骤S201至步骤S204:
步骤S201,获取用户的第一单目视角对应的两张第一图像;其中,两张第一图像是分别从不同视角对目标对象进行拍摄后得到的;第一单目视角处于两张第一图像分别对应的视角之间。
步骤S202,利用两张第一图像各自对应的视角,确定第一单目视角对应的第一单目视角差值系数。
步骤S203,将两张第一图像与第一单目视角差值系数输入光流预测模型进行处理,得到第一预测光流。
这里,光流(Optical Flow)一般指运动物体在成像平面上随时间变化的像素移动。如图9所示,假设从IA帧到IB帧某像素移动到了右下位置,则对应的正向光流矢量然而在实践中,IB帧中的像素往往是通过查找IA帧中对应的原像素获得,所以记录的是通常反向光流/>因此,生成IB帧每个像素值(u,v)可以由以下公式生成:
其中,光流图像FB->A是一个与IA和IB等尺寸的双通道图像,两个通道和分别记录了IB像素位置(u,v)的反向光流矢量的x分量和y分量。公式(4)所示的像素重映射过程以下用W(·)函数表示,即:
IB= W(IA,FB->A) (5)
如图10所示,IFNet模型基于输入的I0帧、I1帧和时间系数t,能实时估计0+t时刻光流变化Ft->0、Ft->1,从而在I0帧和I1帧之间生成新的视频帧It,如下公式和图10中的过程相对应:
It<-0= W(I0,Ft→0), It<-1= W(I1,Ft→1) (6)
It= W(M ⊙It<-0,+(1-M) ⊙ It→1) (7)
其中,⊙表示元素对应相乘。最终的It由基于Ft→0光流推理的It<-0和基于Ft→1光流推理的It<-1综合而成,即通过掩膜M的处理,部分位置采用的是It<-0图对应像素,其余部分采用It<-1图对应像素,该掩膜也通过IFNet和光流一同预测。
步骤S204,基于第一预测光流,对两张第一图像进行融合,得到第一单目视角的第一单目图像。
本申请实施例中,通过获取用户的第一单目视角对应的两张第一图像;其中,两张第一图像是分别从不同视角对目标对象进行拍摄后得到的;第一单目视角处于两张第一图像分别对应的视角之间;利用两张第一图像各自对应的视角,确定第一单目视角对应的第一单目视角差值系数;将两张第一图像与第一单目视角差值系数输入光流预测模型进行处理,得到第一预测光流基于第一预测光流,对两张第一图像进行融合,得到第一单目视角的第一单目图像。这样,在裸眼3D图像生成的过程中,采用任意合适的从不同视角对目标对象进行拍摄后得到的两张第一图像均可以进行图像生成,无需直接获取目标对象的深度信息,对拍摄设备的要求更低,从而能够降低进行裸眼3D图像生成的成本,算法复杂程度也会相应降低,图像的生成效率更高。
本申请实施例提供一种电子设备,如图11所示,所述电子设备5包括:处理器51、以及显示组件52。其中:
所述处理器51,用于:获取用户的第一单目视角对应的两张第一图像;其中,两张所述第一图像是分别从不同视角对目标对象进行拍摄后得到的;所述第一单目视角处于两张所述第一图像分别对应的视角之间;基于两张所述第一图像,预测所述第一单目视角对应的第一预测光流;基于所述第一预测光流,对两张所述第一图像进行融合,得到所述第一单目视角的第一单目图像。
在一些实施例中,所述处理器51,还用于:接收多张所述第一图像;所述获取用户的第一单目视角对应的两张第一图像,包括:如果所述第一单目视角不处于每一所述第一图像分别对应的视角上,基于所述第一单目视角与每一所述第一图像分别对应的视角之间的位置关系,从多张所述第一图像中获取两张所述第一图像。
在一些实施例中,所述处理器51,还用于:利用所述第一单目视角在多个视角区间中进行匹配,确定目标视角区间;其中,每一所述视角区间分别对应两张所述第一图像;基于所述视角区间和所述第一图像之间的对应关系,从多张所述第一图像中获取所述目标视角区间对应的两张所述第一图像。
在一些实施例中,所述处理器51,还用于:获取用户的第二单目视角对应的至少一张第二图像;所述至少一张第二图像是从不同视角对所述目标对象进行拍摄后得到的;基于所述至少一张第二图像,确定所述第二单目视角的第二单目图像。
在一些实施例中,所述处理器51,还用于:如果所述第二单目视角不处于每一所述第二图像分别对应的视角上,获取所述第二单目视角对应的两张所述第二图像;基于所述第二单目视角对应的两张所述第二图像,预测所述第二单目视角对应的第二预测光流;基于所述第二预测光流,对所述第二单目视角对应的两张第二图像进行融合,得到所述第二单目图像;如果所述第二单目视角处于所述第二图像对应的视角上,获取所述第二单目视角对应的所述第二图像;将所述第二单目视角对应的所述第二图像确定为所述第二单目视角的第二单目图像。
在一些实施例中,所述处理器51,还用于:利用两张所述第一图像各自对应的视角,确定所述第一单目视角对应的第一单目视角差值系数;将两张所述第一图像与所述第一单目视角差值系数输入光流预测模型进行处理,得到所述第一预测光流。
在一些实施例中,所述光流预测模型包括多个降采样特征提取模块;所述处理器51,还用于:将两张所述第一图像与所述第一单目视角差值系数经过多个所述降采样特征提取模块的依次处理,得到所述第一预测光流以及第一掩膜信息;多个所述降采样特征提取模块是依次相连的;基于所述第一预测光流以及所述第一掩膜信息,对两张所述第一图像进行融合,得到所述第一单目图像。
在一些实施例中,所述处理器51,还用于:基于所述第一单目图像和所述第二单目图像,得到双目图像;利用所述双目图像进行裸眼三维显示。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式、处理的个人信息种类等信息。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的图像生成方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件、软件或固件,或者硬件、软件、固件三者之间的任意结合。
本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
本申请实施例提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在电子设备中运行的情况下,所述电子设备中的处理器执行用于实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一些实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
这里需要指出的是:上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,图12为本申请实施例中电子设备的一种硬件实体示意图,如图10所示,该电子设备600的硬件实体包括:处理器601、通信接口602和存储器603,其中:处理器601通常控制电子设备600的总体操作。通信接口602可以使电子设备通过网络与其他终端或服务器通信。存储器603配置为存储由处理器601可执行的指令和应用,还可以缓存待处理器601以及电子设备600中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。处理器601、通信接口602和存储器603之间可以通过总线604进行数据传输。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种图像生成方法,包括:
获取用户的第一单目视角对应的两张第一图像;其中,两张所述第一图像是分别从不同视角对目标对象进行拍摄后得到的;所述第一单目视角处于两张所述第一图像分别对应的视角之间;
基于两张所述第一图像,预测所述第一单目视角对应的第一预测光流;
基于所述第一预测光流,对两张所述第一图像进行融合,得到所述第一单目视角的第一单目图像。
2.根据权利要求1所述的方法,其中,所述方法还包括:
接收多张所述第一图像;
所述获取用户的第一单目视角对应的两张第一图像,包括:
如果所述第一单目视角不处于每一所述第一图像分别对应的视角上,基于所述第一单目视角与每一所述第一图像分别对应的视角之间的位置关系,从多张所述第一图像中获取两张所述第一图像。
3.根据权利要求2所述的方法,其中,所述基于所述第一单目视角与每一所述第一图像分别对应的视角之间的位置关系,从多张所述第一图像中获取两张所述第一图像,包括:
利用所述第一单目视角在多个视角区间中进行匹配,确定目标视角区间;其中,每一所述视角区间分别对应两张所述第一图像;
基于所述视角区间和所述第一图像之间的对应关系,从多张所述第一图像中获取所述目标视角区间对应的两张所述第一图像。
4.根据权利要求1所述的方法,其中,所述方法还包括:
获取用户的第二单目视角对应的至少一张第二图像;所述至少一张第二图像是从不同视角对所述目标对象进行拍摄后得到的;
基于所述至少一张第二图像,确定所述第二单目视角的第二单目图像。
5.根据权利要求4所述的方法,其中,所述基于所述至少一张第二图像,确定所述第二单目视角的第二单目图像,包括以下之一:
如果所述第二单目视角不处于每一所述第二图像分别对应的视角上,获取所述第二单目视角对应的两张所述第二图像;基于所述第二单目视角对应的两张所述第二图像,预测所述第二单目视角对应的第二预测光流;基于所述第二预测光流,对所述第二单目视角对应的两张第二图像进行融合,得到所述第二单目图像;
如果所述第二单目视角处于所述第二图像对应的视角上,获取所述第二单目视角对应的所述第二图像;将所述第二单目视角对应的所述第二图像确定为所述第二单目视角的第二单目图像。
6.根据权利要求1至5中任一所述的方法,其中,所述基于两张所述第一图像,预测所述第一单目视角对应的第一预测光流,包括:
利用两张所述第一图像各自对应的视角,确定所述第一单目视角对应的第一单目视角差值系数;
将两张所述第一图像与所述第一单目视角差值系数输入光流预测模型进行处理,得到所述第一预测光流。
7.根据权利要求6所述的方法,其中,所述光流预测模型包括多个降采样特征提取模块;
所述将两张所述第一图像与所述第一单目视角差值系数输入光流预测模型进行处理,得到所述第一预测光流,包括:
将两张所述第一图像与所述第一单目视角差值系数经过多个所述降采样特征提取模块的依次处理,得到所述第一预测光流以及第一掩膜信息;多个所述降采样特征提取模块是依次相连的;
所述基于所述第一预测光流,对两张所述第一图像进行融合,得到所述第一单目视角的第一单目图像,包括:
基于所述第一预测光流以及所述第一掩膜信息,对两张所述第一图像进行融合,得到所述第一单目图像。
8.根据权利要求4或5所述的方法,其中,所述方法还包括:
基于所述第一单目图像和所述第二单目图像,得到双目图像;
利用所述双目图像进行裸眼三维显示。
9.一种电子设备,包括处理器和显示组件,其中:
所述处理器,用于:获取用户的第一单目视角对应的两张第一图像;其中,两张所述第一图像是分别从不同视角对目标对象进行拍摄后得到的;所述第一单目视角处于两张所述第一图像分别对应的视角之间;基于两张所述第一图像,预测所述第一单目视角对应的第一预测光流;基于所述第一预测光流,对两张所述第一图像进行融合,得到所述第一单目视角的第一单目图像。
10.根据权利要求9所述的电子设备,其中:
所述处理器,还用于:获取用户的第二单目视角对应的至少一张第二图像;所述至少一张第二图像是从不同视角对所述目标对象进行拍摄后得到的;基于所述至少一张第二图像,确定所述第二单目视角的第二单目图像;基于所述第一单目图像和所述第二单目图像,得到双目图像;
所述显示组件,用于:利用所述双目图像进行裸眼三维显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311864649.3A CN117880480A (zh) | 2023-12-29 | 2023-12-29 | 一种图像生成方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311864649.3A CN117880480A (zh) | 2023-12-29 | 2023-12-29 | 一种图像生成方法和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117880480A true CN117880480A (zh) | 2024-04-12 |
Family
ID=90587652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311864649.3A Pending CN117880480A (zh) | 2023-12-29 | 2023-12-29 | 一种图像生成方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117880480A (zh) |
-
2023
- 2023-12-29 CN CN202311864649.3A patent/CN117880480A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220014723A1 (en) | Enhancing performance capture with real-time neural rendering | |
KR100560464B1 (ko) | 관찰자의 시점에 적응적인 다시점 영상 디스플레이 시스템을 구성하는 방법 | |
EP3407248B1 (en) | An apparatus, a method and a computer program for video coding and decoding | |
Cao et al. | Ntire 2023 challenge on 360deg omnidirectional image and video super-resolution: Datasets, methods and results | |
CN108282650B (zh) | 一种裸眼立体显示方法、装置、***及存储介质 | |
US10616548B2 (en) | Method and apparatus for processing video information | |
WO2024022086A1 (zh) | 基于三维显示的视频通信方法及*** | |
KR101289283B1 (ko) | 하이브리드 영상획득 장치 기반 홀로그래픽 영상 복원 방법 | |
WO2019008222A1 (en) | METHOD AND APPARATUS FOR ENCODING MULTIMEDIA CONTENT | |
Ikeya et al. | Capturing method for integral three-dimensional imaging using multiviewpoint robotic cameras | |
GB2585197A (en) | Method and system for obtaining depth data | |
Gurrieri et al. | Stereoscopic cameras for the real-time acquisition of panoramic 3D images and videos | |
KR20210018348A (ko) | 라이트 필드 코딩 및 디코딩을 위한 예측 | |
CN117880480A (zh) | 一种图像生成方法和电子设备 | |
KR101788005B1 (ko) | 복수의 모바일 단말들을 이용한 다시점 영상 생성 방법 | |
CN111629194B (zh) | 一种基于神经网络的全景视频转6dof视频的方法及*** | |
CN114040184A (zh) | 图像显示方法、***、存储介质及计算机程序产品 | |
Redert et al. | 3-D scene reconstruction with viewpoint adaptation on stereo displays | |
EP3391330B1 (en) | Method and device for refocusing at least one plenoptic video | |
WO2019008233A1 (en) | METHOD AND APPARATUS FOR ENCODING MULTIMEDIA CONTENT | |
WO2018158494A1 (en) | Method and apparatus for a multi-camera unit | |
Albar et al. | Portable holoscopic 3D camera adaptor for Raspberry Pi | |
CN112634139B (zh) | 光场超分辨成像方法、装置及设备 | |
Park et al. | Free Form Plenoptic Video Acquisition and Visualization System | |
Jammal | Multiview Video View Synthesis and Quality Enhancement Using Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |