CN116823691A - 光场图像处理方法及装置 - Google Patents
光场图像处理方法及装置 Download PDFInfo
- Publication number
- CN116823691A CN116823691A CN202310796486.3A CN202310796486A CN116823691A CN 116823691 A CN116823691 A CN 116823691A CN 202310796486 A CN202310796486 A CN 202310796486A CN 116823691 A CN116823691 A CN 116823691A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- processed
- pixels
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000004891 communication Methods 0.000 claims abstract description 41
- 238000005520 cutting process Methods 0.000 claims abstract description 35
- 238000007499 fusion processing Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 96
- 230000008569 process Effects 0.000 claims description 48
- 230000004927 fusion Effects 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 16
- 210000001508 eye Anatomy 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 description 22
- 239000011159 matrix material Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 238000012549 training Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000005252 bulbus oculi Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/403—Edge-driven scaling; Edge-based scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10052—Images from lightfield camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
Abstract
本公开涉及图像处理技术领域,具体提供了一种光场图像处理方法及装置。一种光场图像处理方法,包括获取通过设于采集设备上的多个相机分别采集到的多张待处理图像,对于每张待处理图像,确定目标物体在待处理图像上的边界范围,根据边界范围以及预设图像尺度,对待处理图像进行裁切处理得到每张待处理图像对应的目标图像,根据目标视点信息对各目标图像进行视点融合处理得到目标光场图像。本公开实施方式中,基于目标物体的边界范围对待处理图像进行裁切处理,可以降低将目标物体置于图像边缘、甚至被裁切掉的风险,提高裁切后图像的质量,为后续的视点融合处理提供较好的数据基础,进而提高光场视频通信的质量和效率。
Description
技术领域
本公开涉及图像处理技术领域,具体涉及一种光场图像处理方法及装置。
背景技术
光场(Light Field)可以记录更高维度的光线数据,从而获得比传统二维成像及以双目立体视觉为代表的传统三维成像更高精度的三维信息,光场视频可以准确感知动态环境,使得用户感受到身临其境的观看体验。
随着机器学习(Machine Learning)技术的发展,利用基于深度神经网络的多视图立体匹配模型(MVS Net,Multi-view Stereo Net)对输入的多视点图像进行三维立体重建,具有较好的精度和效率。
但是对于实时光场视频场景,由于人物位置不固定,导致传统方案中对于MVS Net的多视点输入图像的裁切难以保证人物效果,导致网络输出效果不佳。
发明内容
为提高光场视频场景中针对多视点图像的裁切效果,进而提高光场视频的处理效果和效率,本公开实施方式提供了一种光场图像处理方法、装置、电子设备、视频通信***以及存储介质。
第一方面,本公开实施方式提供了一种光场图像处理方法,包括:
获取通过设于采集设备上的多个相机分别采集到的多张待处理图像;所述多张待处理图像为包括目标物体的不同视角的采集图像;
对于每张待处理图像,确定所述目标物体在所述待处理图像上的边界范围;
根据所述边界范围以及预设图像尺度,对所述待处理图像进行裁切处理,得到每张待处理图像对应的目标图像;
根据目标视点信息对各目标图像进行视点融合处理,得到与所述目标视点信息对应的目标光场图像;所述目标视点信息表示显示设备端的观察者眼睛的位置信息。
在一些实施方式中,所述对于每张待处理图像,确定所述目标物体在所述待处理图像上的边界范围,包括:
对于每张待处理图像,对所述待处理图像进行二值化处理,得到所述目标物体的二值图;
基于所述二值图上的像素值,依次逐行和逐列对所述目标物体进行边界搜索,得到所述目标物体在所述二值图上的水平边界和垂直边界;
基于所述水平边界和所述垂直边界,确定所述边界范围。
在一些实施方式中,所述基于所述二值图上的像素值,依次逐行和逐列对所述目标物体进行边界搜索,得到所述目标物体在所述二值图上的水平边界和垂直边界,包括以下中至少之一:
基于所述二值图上的像素值,从左至右依次逐列检测该列像素的黑色像素数量,响应于第一列像素及其之后的连续预设数量列像素的黑色像素数量均大于第一预设阈值,将所述第一列像素对应的坐标信息确定为所述水平边界的左边界;
从右至左依次逐列检测该列像素的黑色像素数量,响应于第二列像素及其之后的连续预设数量列像素的黑色像素数量均大于第二预设阈值,将所述第二列像素对应的坐标信息确定为所述水平边界的右边界;
从上至下依次逐行检测该行像素的黑色像素数量,响应于第一行像素及其之后的连续预设数量行像素的黑色像素数量均大于第三预设阈值,将所述第一行像素对应的坐标信息确定为所述垂直边界的上边界;
从下至上依次逐行检测该行像素的黑色像素数量,响应于第二行像素及其之后的连续预设数量行像素的黑色像素数量均大于第四预设阈值,将所述第二行像素对应的坐标信息确定为所述垂直边界的下边界。
在一些实施方式中,所述对于每张待处理图像,对所述待处理图像进行二值化处理,得到所述目标物体的二值图,包括:
对每张待处理图像进行抠图处理,得到每张待处理图像对应的包括所述目标物体的前景图像;
对每张前景图像进行二值化处理,得到所述目标物体的二值图。
在一些实施方式中,在所述基于所述二值图上的像素值,依次逐行和逐列对所述目标物体进行边界搜索,得到所述目标物体在所述二值图上的水平边界和垂直边界之前,所述方法还包括:
基于所述二值图上的像素值,以预设尺度的滑动窗口在所述二值图上按预设步长进行搜索;
在每个滑动窗口中,基于该滑动窗口包括的像素的像素值之和,对所述滑动窗口包括的像素进行去噪处理。
在一些实施方式中,所述根据所述边界范围以及预设图像尺度,对所述待处理图像进行裁切处理,得到每张待处理图像对应的目标图像,包括:
根据所述边界范围确定所述目标物体的中心点坐标;
将所述目标物体的中心点坐标确定为所述目标图像的中心点坐标,以所述预设图像尺度对所述待处理图像进行裁切处理,得到所述目标图像。
在一些实施方式中,根据目标视点信息对各目标图像进行视点融合处理,得到与所述目标视点信息对应的目标光场图像,包括:
将所述多张待处理图像中的至少两张待处理图像输入预先训练的深度网络模型,得到所述深度网络模型输出的所述目标物体的深度图;
基于所述目标视点信息对所述深度图进行视点融合处理,得到与所述目标视点信息对应的视点下的目标视点深度图;
将所述目标图像、所述目标视点深度图以及所述目标视点信息输入预先训练的视点融合模型,得到所述视点融合模型输出的所述目标光场图像。
在一些实施方式中,应用于所述采集设备;在所述根据目标视点信息对各目标图像进行视点融合处理,得到与所述目标视点信息对应的目标光场图像之后,所述方法还包括:
将所述目标光场图像发送至所述显示设备,以使所述显示设备渲染显示所述目标光场图像。
第二方面,本公开提供了一种光场图像处理装置,包括:
图像获取模块,被配置为获取通过设于采集设备上的多个相机分别采集到的多张待处理图像;所述多张待处理图像为包括目标物体的不同视角的采集图像;
边界搜索模块,被配置为对于每张待处理图像,确定所述目标物体在所述待处理图像上的边界范围;
裁切处理模块,被配置为根据所述边界范围以及预设图像尺度,对所述待处理图像进行裁切处理,得到每张待处理图像对应的目标图像;
视点融合模块,被配置为根据目标视点信息对各目标图像进行视点融合处理,得到与所述目标视点信息对应的目标光场图像;所述目标视点信息表示显示设备端的观察者眼睛的位置信息。
在一些实施方式中,所述边界搜索模块被配置为:
对于每张待处理图像,对所述待处理图像进行二值化处理,得到所述目标物体的二值图;
基于所述二值图上的像素值,依次逐行和逐列对所述目标物体进行边界搜索,得到所述目标物体在所述二值图上的水平边界和垂直边界;
基于所述水平边界和所述垂直边界,确定所述边界范围。
在一些实施方式中,所述边界搜索模块被配置为:
基于所述二值图上的像素值,从左至右依次逐列检测该列像素的黑色像素数量,响应于第一列像素及其之后的连续预设数量列像素的黑色像素数量均大于第一预设阈值,将所述第一列像素对应的坐标信息确定为所述水平边界的左边界;
从右至左依次逐列检测该列像素的黑色像素数量,响应于第二列像素及其之后的连续预设数量列像素的黑色像素数量均大于第二预设阈值,将所述第二列像素对应的坐标信息确定为所述水平边界的右边界;
从上至下依次逐行检测该行像素的黑色像素数量,响应于第一行像素及其之后的连续预设数量行像素的黑色像素数量均大于第三预设阈值,将所述第一行像素对应的坐标信息确定为所述垂直边界的上边界;
从下至上依次逐行检测该行像素的黑色像素数量,响应于第二行像素及其之后的连续预设数量行像素的黑色像素数量均大于第四预设阈值,将所述第二行像素对应的坐标信息确定为所述垂直边界的下边界。
在一些实施方式中,所述边界搜索模块被配置为:
对每张待处理图像进行抠图处理,得到每张待处理图像对应的包括所述目标物体的前景图像;
对每张前景图像进行二值化处理,得到所述目标物体的二值图。
在一些实施方式中,所述边界搜索模块被配置为:
基于所述二值图上的像素值,以预设尺度的滑动窗口在所述二值图上按预设步长进行搜索;
在每个滑动窗口中,基于该滑动窗口包括的像素的像素值之和,对所述滑动窗口包括的像素进行去噪处理。
在一些实施方式中,所述裁切处理模块被配置为:
根据所述边界范围确定所述目标物体的中心点坐标;
将所述目标物体的中心点坐标确定为所述目标图像的中心点坐标,以所述预设图像尺度对所述待处理图像进行裁切处理,得到所述目标图像。
在一些实施方式中,所述视点融合模块被配置为:
将所述多张待处理图像中的至少两张待处理图像输入预先训练的深度网络模型,得到所述深度网络模型输出的所述目标物体的深度图;
基于所述目标视点信息对所述深度图进行视点融合处理,得到与所述目标视点信息对应的视点下的目标视点深度图;
将所述目标图像、所述目标视点深度图以及所述目标视点信息输入预先训练的视点融合模型,得到所述视点融合模型输出的所述目标光场图像。
在一些实施方式中,本公开所述的装置应用于所述采集设备,其还包括发送模块,所述发送模块被配置为:
将所述目标光场图像发送至所述显示设备,以使所述显示设备渲染显示所述目标光场图像。
第三方面,本公开实施方式提供了一种电子设备,包括:
处理器;和
存储器,存储有计算机指令,所述计算机指令用于使所述处理器执行根据第一方面任意实施方式所述的方法。
第四方面,本公开实施方式提供了一种视频通信***,包括:
显示设备,包括图像采集装置和第一控制器;
采集设备,包括多个相机和第二控制器,所述第一控制器和所述第二控制器至少其中之一用于执行根据第一方面任意实施方式所述的方法。
第五方面,本公开实施方式提供了一种存储介质,存储有计算机指令,所述计算机指令用于使计算机执行根据第一方面任意实施方式所述的方法。
本公开实施方式的光场图像处理方法,包括获取通过设于采集设备上的多个相机分别采集到的多张待处理图像,对于每张待处理图像,确定目标物体在待处理图像上的边界范围,根据边界范围以及预设图像尺度,对待处理图像进行裁切处理得到每张待处理图像对应的目标图像,根据目标视点信息对各目标图像进行视点融合处理得到目标光场图像。本公开实施方式中,基于目标物体的边界范围对待处理图像进行裁切处理,可以降低将目标物体置于图像边缘、甚至被裁切掉的风险,提高裁切后图像的质量,为后续的视点融合处理提供较好的数据基础,进而提高光场视频通信的质量和效率。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开一些实施方式中视频通信***的架构图。
图2是根据本公开一些实施方式中电子设备的结构示意图。
图3是根据本公开一些实施方式中光场图像处理方法的流程图。
图4是根据本公开一些实施方式中光场图像处理方法的原理图。
图5是根据本公开一些实施方式中光场图像处理方法的流程图。
图6是根据本公开一些实施方式中光场图像处理方法的流程图。
图7是根据本公开一些实施方式中光场图像处理方法的原理图。
图8是根据本公开一些实施方式中光场图像处理方法的原理图。
图9是根据本公开一些实施方式中光场图像处理方法的原理图。
图10是根据本公开一些实施方式中光场图像处理方法的流程图。
图11是根据本公开一些实施方式中光场图像处理方法的效果对比图。
图12是根据本公开一些实施方式中光场图像处理方法的流程图。
图13是根据本公开一些实施方式中光场图像处理方法的原理图。
图14是根据本公开一些实施方式中光场图像处理装置的结构框图。
图15是根据本公开一些实施方式中电子设备的结构框图。
具体实施方式
下面将结合附图对本公开的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本公开一部分实施方式,而不是全部的实施方式。基于本公开中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本公开保护的范围。此外,下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
光场(Light Field)的定义是指光在每一个方向通过每一个点的光量,光场图像可以记录比传统二维图像更高维度的光线数据,从而呈现出比传统二维成像及以双目立体视觉为代表的传统三维成像更高精度的三维信息。
光场视频可以准确感知动态环境,结合眼球追踪技术,在用户观看视点发生变化时,视频画面可以实时跟随视点变化,从而呈现给用户身临其境的裸眼3D观看体验。
光场视频的数据采集需要用到相机阵列,相机阵列中包括数个甚至数十个不同视角的相机,每个相机负责采集一个视角的图像,然后利用多视图立体匹配重建(MVS,Multi-view Stereo)算法结合新视点对采集的图像数据进行视点融合,得到新视点下的光场图像。
随着机器学习(Machine Learning)技术的发展,利用基于深度神经网络的多视图立体匹配模型(MVS Net)对输入的多视点图像进行三维立体重建,使得实时光场视频的运算效率及呈现效果具有较大的进步。
MVS Net的输入为相机阵列采集到的多视角采集图像,相关技术中,一方面为了适应模型的输入图像尺度,另一方面为了去除部分无关的背景信息、提高模型计算效率和效果,相机阵列采集的较大分辨率(例如4096像素*3000像素)的图像,在输入MVS Net之前,往往需要裁切为符合模型输入的小尺度(例如2560像素*2560像素)的输入图像。
相关技术中,针对输入图像的裁切一般是基于预设的固定位置和尺度进行裁切。但是通过实践发现,对于实时光场视频通话场景,通信双方主要关注于对方人体形象,但是实际采集图像上人物位置并不一定位于裁切范围中心,这就导致在裁切算法过程中,人物位于输入图像边缘,甚至人物部分身体被裁切掉,进而为模型匹配重建或网络训练过程带来困难,导致最终输出的光场图像效果不佳。
基于上述相关技术存在的缺陷,本公开实施方式提供了一种光场图像处理方法、装置、电子设备、视频通信***及存储介质,旨在提高光场视频场景中针对多视点图像的裁切效果,进而提高光场视频的处理效果和效率。
图1示出了本公开一些实施方式中视频通信***的架构图,下面结合图1对本公开实施方式的应用场景进行说明。
如图1所示,在一些实施方式中,视频通信***包括采集设备100和显示设备200,采集设备100和显示设备200通过有线或者无线网络建立可通信连接。
在一个示例性的单向视频通信场景下,采集设备100可以采集用户A所在场景的图像数据,并将图像数据发送至显示设备200。显示设备200通过对用户B的眼部位置追踪,得到用户B当前观看的视点位置,结合该视点位置及采集设备100发送的光场图像数据进行视点图像合成,并在显示设备200上渲染展示合成后的光场图像。
或者,显示设备200通过对用户B的眼部位置追踪,得到用户B当前观看的视点位置,并将该视点位置发送至采集设备100,从而采集设备100结合该视点位置及自身采集的用户A所在场景的图像数据,进行视点图像合成得到光场图像,并将光场图像发送至显示设备200,从而显示设备200根据接收到的光场图像渲染展示。
当然可以理解,上述示例仅以单向视频通信为例,但是本公开方案并不局限于单向视频通信场景,对于双向视频通信场景,显示设备200同时也可以采集用户B所在场景的光场图像数据,并将光场图像数据发送至采集设备100。采集设备100同时也可以对用户A的眼部位置进行追踪,得到用户A当前观看的视点位置,结合该视点位置及显示设备200发送的光场图像数据进行视点图像合成,并在采集设备100上渲染展示合成后的光场图像。本领域技术人员对此可以理解,本公开不再赘述。
以双向视频通信场景为例,图2示出了本公开一些实施方式中电子设备的结构示意图,该电子设备既可以是采集设备100,也可以是显示设备200,本公开对此不作限制。
如图2所示,电子设备包括显示屏110、相机阵列C1~C4以及图像采集装置C5。
显示屏110用于显示光场图像,显示屏110可以是任何适于实施的屏幕组件,例如LCD(Liquid Crystal Display,液晶显示)屏、OLED(Organic Light-Emitting Diode,有机发光半导体)屏等,本公开对此不作限制。
相机阵列包括多个相机,这些相机在电子设备上呈阵列式部署,例如图2示例中,相机阵列共包括4个相机,分别为C1~C4,且4个相机分别部署于电子设备的4个对角。由于各个相机的位置及拍摄视角不同,从而利用相机阵列可以采集到多张不同视角的场景图像。当然,相机阵列包括的相机数量以及部署方式并不局限于图2示例,还可以是其他任何适于实施的方式,本公开对此不作限制。
图像采集装置C5则是用于实现用户眼部追踪的相机,其可以是例如高精度的RGB相机,也即,图像采集装置C5通过采集当前场景图像,并对场景图像进行图像检测,确定当前用户视点信息,该视点信息即表示用户眼睛的位置信息。在图2示例中,图像采集装置C5设于电子设备的显示屏110的上方中央,但是可以理解,本公开对于图像采集装置C5的具***置不作限定。
在上述图1和图2所示的视频通信***基础上,下面对本公开实施方式的光场图像处理方法进行说明。
值得说明的是,为便于理解,本公开下文实施方式中将以单向视频通信场景为例进行说明,也即采集设备100作为光场数据采集端,显示设备200作为光场视频显示端,对于双向视频通信场景的原理与之完全相同,本公开对此不再赘述。
另外,本公开实施方式中,下述的光场图像处理方法的一个或多个步骤,可以由采集设备100执行处理,也可以由显示设备200执行处理,也可以由采集设备100和显示设备200共同交互执行处理。本公开后文中会对方法步骤的执行主体作具体说明,因此下文中未明确限定执行主体的方法步骤,即表示可以不作限制。
如图3所示,在一些实施方式中,本公开示例的光场图像处理方法,包括:
S310、获取通过设于采集设备上的多个相机分别采集到的多张待处理图像。
结合前述的视频通信场景,采集设备端的相机阵列包括的多个相机可以同时采集得到一张采集图像,该采集图像即为本公开所述的待处理图像。待处理图像中包括目标物体,目标物体即可以是例如人体,而且,由于各个相机的位置和视角不同,因此相机阵列采集得到的多张待处理图像即为包括目标物体不同视角的图像。
结合图1、图2所示,用户A位于采集设备100端时,采集设备100上的相机C1~C4同时采集一张包括用户A在内的采集图像,即可得到包括用户A不同视角的4张采集图像,这4张采集图像即为本公开所述的4张待处理图像。
S320、对于每张待处理图像,确定目标物体在待处理图像上的边界范围。
结合前述可知,在得到待处理图像之后,并不能直接把待处理图像输入到MVS网络模型中,而是需要对待处理图像进行裁切处理。
对待处理图像进行裁切处理的原因有很多,包括但不限于以下几种:
1)对于视频通信场景,通信双方往往只关注于对方人体,对于图像背景关注度不高。但是由于相机视场角较大,所能拍摄的场景范围很宽,使得待处理图像上的人物占比不高,因此需要将人物区域裁切出来,以突出人物。
2)待处理图像上较多的背景信息,会对MVS网络的计算和训练带来干扰,增加额外的计算开销和难度,导致视点融合效果变差。因此,需要将无关背景信息进行裁切,以降低计算开销和难度。
3)MVS网络模型对于的输入图像的尺寸有要求,而且一般为正方形图像,例如一般MVS网络的输入图像尺度为2560像素*2560像素。而相机采集的图像尺度较大,且少有正方形的采集图像,例如相机采集图像的尺度为4096像素*3000像素。因此,需要将采集图像裁切为符合网络模型输入图像尺寸的图像。
传统的裁切方案,一般是基于固定位置将待处理图像裁切为符合MVS输入图像尺寸的图像。例如图4示例中,如图4中(a)所示,外部实线框为待处理图像的尺度,内部虚线框即为预设的针对待处理图像进行裁切的裁切位置和范围。
对于光场视频通信等场景,有时人物并不一定位于待处理图像的中心,例如图4中(b)所示,人物可能会出现在待处理图像非中心的位置,此时如果按照固定位置进行裁切,将导致人物偏移至图像边缘,甚至将人物部分身体裁切掉。进而为MVS匹配重建或网络训练过程带来困难,导致最终输出的光场图像效果不佳。
因此,本公开实施方式中,在得到各个待处理图像之后,并非基于固定位置对待处理图像进行裁切处理,而是首先确定待处理图像上的目标物体的边界范围,然后基于目标物体的边界范围对待处理图像进行裁切处理。
目标物体的边界范围,是指目标物体在待处理图像上的各个边界所围合而成的图像区域。例如图4所示场景,待处理图像上的目标物体即为人体,人体所占待处理图像的范围,可以利用矩形框表示,矩形框的左侧边即为目标物体的左边界,右侧边即为目标物体的右边界,上侧边即为目标物体的上边界,下侧边即为目标物体的下边界,从而通过上下左右4个边界所围合成的矩形框区域,即为目标物体的边界范围。
本公开一些实施方式中,可以通过对待处理图像进行边界搜索,从而得到目标物体在待处理图像上的边界范围。对于边界搜索的具体过程,本公开下文实施方式对此进行说明。
本公开一些实施方式中,在对待处理图像进行边界搜索之前,还可以对待处理图像进行前背景分割、二值化等处理,从而提高针对目标物体的边界搜索精度和效果。当然可以理解,这些处理是可选的,而非必须的,本公开下文中对此进行说明,在此暂不详述。
S330、根据边界范围以及预设图像尺度,对待处理图像进行裁切处理,得到每张待处理图像对应的目标图像。
本公开实施方式中,在对每一张待处理图像进行处理,得到每张待处理图像上目标物体的边界范围之后,即可根据目标物体的边界范围对待处理图像进行裁切处理。
预设图像尺度是指,对待处理图像进行裁切处理之后得到的目标图像的尺度。以MVS网络进行三维立体匹配重建为例,预设图像尺度即可按照MVS网络的输入图像尺度进行设定,例如一个示例中,MVS网络的输入图像尺度要求为2560像素*2560像素,则预设图像尺度即可设置为2560像素*2560像素。
以一张待处理图像为例,在确定目标物体在该待处理图像上的边界范围之后,需要根据该边界范围将待处理图像裁切为预设图像尺度大小的图像,从而得到该待处理图像裁切后的目标图像。
在一些实施方式中,可以目标物体在待处理图像上的边界范围,确定目标物体的中心点坐标,然后基于中心点坐标进行外扩,外扩后的图像范围即为预设图像尺度大小,然后基于外扩后的图像范围对待处理图像进行裁切处理,即可得到待处理图像对应的目标图像。本公开下文实施方式中对此过程进行说明。
通过上述过程对每一张待处理图像进行裁切处理,即可得到每一张待处理图像对应的目标图像,目标图像的尺度大小即为预设图像尺度。
S340、根据目标视点信息对各目标图像进行视点融合处理,得到与目标视点信息对应的目标光场图像。
结合图1所示的视频通信场景可以理解,待处理图像是指采集设备100端采集到的用户A的场景图像,而最终得到的目标光场图像是需要在显示设备200端渲染显示的三维图像,因此,目标光场图像的随动效果需要基于用户B的视点信息确定。也即,最终呈现在显示设备200端的目标光场图像,需要跟随用户B的视点信息融合得到,因此,需要显示设备200采集用户B的视点信息。
本公开实施方式中,目标视点信息即表示显示设备200端的观察者眼睛的位置信息,可以反映出显示设备200端的观察者当前所观看的视点位置。该目标视点信息由显示设备200端的图像采集装置C5采集并利用眼球追踪算法得到。可以理解,对于显示设备200端确定目标视点信息的过程,本领域技术人员参照相关技术并结合传统的眼球追踪算法即可得到,本公开对此不作赘述。
在确定目标视点信息以及裁切后的各个目标图像之后,即可利用目标视点信息对各个目标图像进行视点融合处理,最终即可得到与目标视点信息所对应的目标光场图像。
在一些实施方式中,对目标图像进行视点融合处理的过程,可以利用基于深度神经网络(DNN,Deep Neural Networks)的MVS网络模型实现,也即,预先对MVS网络进行网络训练,得到具有较好收敛效果的MVS网络模型,然后将目标视点信息以及各个目标图像作为MVS网络模型的输入,MVS网络基于各个输入进行视点融合处理,预测并输出目标光场图像。对于MVS网络的结构及原理,本公开下文实施方式进行说明,在此暂不详述。
在得到目标光场图像之后,显示设备200即可渲染显示该目标光场图像,可以理解,由于目标光场图像是基于显示设备200端观察者当前的目标视点信息生成的图像,从而可以实现根据观察者视点变化随动的裸眼3D效果,使得显示设备200端的观察者具有身临其境的视频体验。
值得说明的是,上述整个方法过程中,只有采集待处理图像的过程必须由采集设备100执行,渲染显示目标光场图像的过程必须由显示设备200执行,其余方法过程既可以由采集设备100执行,也可以由显示设备200执行,还可以由与两者共同建立通信连接的第三方设备(例如服务器)执行,本公开对此不作限制。
例如一个示例场景中,前述方法过程S310~S340均由采集设备100执行处理,在得到目标光场图像之后,采集设备100将目标光场图像发送至显示设备200,由显示设备200渲染呈现目标光场图像。
例如另一个示例场景中,前述方法过程仅S310采集待处理图像的过程由采集设备100执行处理,然后采集设备100将待处理图像发送至显示设备200,其余方法过程均由显示设备200执行处理,并最终渲染显示目标光场图像。
例如再一个示例场景中,前述方法过程仅S310采集待处理图像的过程由采集设备100执行处理,然后采集设备100将待处理图像发送至第三方服务器,其余方法过程均由第三方服务器执行处理,然后第三方服务器将得到的目标光场图像发送至显示设备200,由显示设备200渲染呈现目标光场图像。
当然,本领域技术人员可以理解,对于执行主体的实施方式并不局限于上述示例,本公开对此不再赘述。
可以理解,本公开实施方式中,对待处理图像的裁切处理并非基于固定位置进行,而是根据目标物体的边界范围进行裁切处理,从而可以保证裁切后的目标图像上目标物体始终位于中心位置,降低将目标物体置于图像边缘、甚至被裁切掉的风险。
进而,由于目标图像中目标物体的占比范围更大,因此提高后续MVS网络特征提取的效果和精度,使得网络训练以及预测输出的光场图像的效果。而且,由于目标物***于目标图像中心,因此可以尽可能地包括目标物体的周围场景信息,结合更多上下文特征信息,进一步提高MVS网络的精度和效果。
通过上述可知,本公开实施方式中,基于目标物体的边界范围对待处理图像进行裁切处理,可以降低将目标物体置于图像边缘、甚至被裁切掉的风险,提高裁切后图像的质量,为后续的视点融合处理提供较好的数据基础,进而提高光场视频通信的质量和效率。
本公开下文实施方式中,将以图1和图2所示的视频通信***为例,进一步对本公开实施方式的光场图像处理方法进行说明。
如图5所示,在一些实施方式中,本公开示例的光场图像处理方法,确定每张待处理图像上目标物体的边界范围的过程,包括:
S510、对于每张待处理图像,对待处理图像进行二值化处理,得到目标图像的二值图。
可以理解,本公开实施方式中,目标物体的边界范围是指目标物体在待处理图像上的各个边界所围合而成的图像区域,换言之,在本公开示例的视频通信场景中,主要关注目标物体的边界,因此可以将原始的待处理图像转换为二值图(Binary Image)。
二值图是指图像上每一个像素只有两种可能的取值,一般用像素值0和1表示,0表示黑色像素,1表示白色像素,也即二值图上只有黑白像素。本公开实施方式中,即可利用二值图将目标物体和非目标物体进行像素分割,例如一个示例中,属于目标物体的像素即为黑色像素(像素值为0),其他像素则为白色像素(像素值为1)。
另外,可以理解,对于真实的视频通信场景,采集设备100所采集到的待处理图像上,不仅会包括前景的目标物体,还会包括背景区域,本公开一些实施方式中,在对待处理图像进行二值化处理之前,还可以对待处理图像进行抠图处理,将背景区域去除,仅保留前景的目标物体,下面结合图6进行说明。
如图6所示,在一些实施方式中,本公开示例的光场图像处理方法,对待处理图像进行二值化处理的过程,包括:
S511、对每张待处理图像进行抠图处理,得到每张待处理图像对应的包括目标物体的前景图像。
S512、对每张前景图像进行二值化处理,得到目标物体的二值图。
本公开实施方式中,在通过采集设备100得到多张待处理图像之后,可以对每张待处理图像进行图像分割,实现前景目标物体与背景的抠图。
可以理解,抠图处理的目的是将目标物体与背景进行分割,例如对于图1所示的视频通信场景,对待处理图像抠图处理即为将前景的人物(用户A)与背景进行分割,从而得到的前景图像仅包括人物,背景区域可以用单一像素填充。
相关技术中,抠图算法有很多,本领域技术人员可以采用任意的抠图算法。例如一个示例中,可以采用基于DNN的图像分割模型,将每张待处理图像输入预先训练的图像分割模型,即可得到模型输出的前景图像。
在另一些实施方式中,结合视频通信场景可知,以视频会议为例,用于实现视频会议的大屏电子设备往往位置比较固定,从而在视频通信期间,采集设备100所采集到的场景图像中的背景部分几乎不会发生变化,一般只有前景的人或物体会产生运动。
因此,本公开实施方式中,采集设备100可以预先采集不包括目标物体的背景图像并保存,例如,采集设备100可以在开机时采集背景图像并保存。然后,在对待处理图像进行图像分割时,基于待处理图像与预先保存的背景图像的差异,实现对待处理图像的快速抠图,本示例方法过程简单,抠图效率更高。
例如一个示例中,对某一张待处理图像进行抠图处理之后,得到的前景图像可如图7中(a)所示。可以理解,由于对说明书附图灰度化处理之后丢失色彩,因此图7中(a)呈现灰度图,其本身可以是彩色(RGB)图像,本公开对此不再赘述。
本公开实施方式中,在得到每张待处理图像对应的前景图像之后,即可对每张前景图像进行二值化处理,得到每张待处理图像对应的二值图。
以图7中(a)所示的前景图像为例,在一些实施方式中,可以首先将前景图像转换为灰度图像,转换为灰度图像的目的是去除前景图像的色彩,降低计算量。转换灰度图像的过程表示为:
gray=0.302*R+0.566*G+0.132*B (1)
公式(1)中,gray表示灰度图像上每个像素的灰度值,R、G、B表示前景图像上每个像素的RGB值。通过公式(1)可以将前景图像上每个像素转换为灰度值,得到例如图7中(b)所示的灰度图像。
在得到前景图像对应的灰度图像之后,即可将灰度图像转换为二值图像。例如一个示例中,可以预先设置灰度阈值,然后将灰度图像上每个像素的灰度值与灰度阈值进行比较,若某个像素的灰度值大于或等于灰度阈值,则可以将该像素的像素值设置为1,也即白色;若某个像素的灰度值小于灰度阈值,则可以将该像素的像素值设置为0,也即黑色。灰度阈值的具体数值可以根据实际情况进行选取,本公开对此不作限制。
从而,在遍历整个灰度图像的所有像素之后,即可得到仅包括0和1像素的二值图,例如上述示例中,将图7中(b)所示的灰度图像转换为二值图之后,即可得到如图7中(c)所示的二值图,可以看到,二值图上仅包括黑白像素,其中黑色像素表示目标物体,白色像素表示非目标物体。
上述仅针对其中一张待处理图像的二值化处理过程进行了说明,对于采集设备100采集到的多张待处理图像,依次通过上述过程,即可得到每张待处理图像的二值图。
在一些实施方式中,在得到各个待处理图像的二值图之后,考虑到图像上可能会出现噪点,例如二值图的白色区域可能会存在黑色噪点,黑色区域也可能会存在白色噪点,这些噪点可能会对后续边界搜索带来干扰。因此,一些实施方式中,在得到二值图之后,可以进一步对二值图进行去噪处理。
继续参照图6所示,在一些实施方式中,本公开示例的光场图像处理方法,对二值图进行去噪处理的过程包括:
S513、基于二值图上的像素值,以预设尺度的滑动窗口在二值图上按预设步长进行搜索。
S514、在每个滑动窗口中,基于该滑动窗口包括的像素的像素值之和,对滑动窗口包括的像素进行去噪处理。
本公开实施方式中,采用滑动窗口遍历二值图的方式,对二值图上的黑白噪点进行去噪处理。例如,可以预设尺度m*n的滑动窗口按照预设步长d遍历整个二值图,预设尺度m*n以及预设步长d的具体取值,可以根据去噪精度要求进行选取。
在一个示例场景中,滑动窗口的尺度为2*2,预设步长d=1。也即,滑动窗口可如图8所示,预设尺度为2*2,每次在二值图上滑动1个像素的步长。
以一次滑动为例,滑动窗口可框选出二值图上的4个像素,也即图8所示的像素A、像素B、像素C和像素D,每个像素的像素值为0或1。
从而,可以计算滑动窗口中像素A~D的像素值之和,根据像素值之和按照公式(2)关系实现去噪过程:
结合图8和公式(2)所示,若像素A~D的像素值之和等于0,说明像素A~D全部为黑色像素,滑动窗口位于目标物体内部,此时像素A~D都不是噪点。若像素A~D的像素值之和等于1或2,说明像素A~D中有1个或2个白色像素,此时可认为存在白色噪点,将滑动窗口中的所有像素值置为0,也即,将白色噪点转换为黑色像素。若像素A~D的像素值之和等于3,说明像素A~D中有1个黑色像素3个白色像素,可认为存在黑色噪点,从而将黑色像素的像素值置1,转换为白色。若像素A~D的像素值之和等于4,说明像素A~D全部为白色像素,滑动窗口位于背景区域,此时像素A~D都不是噪点。
通过上述公式(2)的去噪过程,利用滑动窗口遍历整张二值图,即可完成对二值图的去噪处理,得到去噪后的二值图。
上述仅针对其中一张二值图的去噪过程进行了说明,对于采集设备100采集到的多张待处理图像对应的二值图,依次通过上述过程,即可完成对每张二值图的去噪处理。
S520、基于二值图上的像素值,依次逐行和逐列对目标物体进行边界搜索,得到目标物体在二值图上的水平边界和垂直边界。
本公开实施方式中,目标物体的边界范围包括水平边界和垂直边界,也即,目标物体的边界范围为矩形框区域,利用矩形框的两个水平边界和两个垂直边界围合形成整个边界范围。
例如一个示例中,待处理图像的二值图可如图7中(c)所示,对二值图进行边界搜索的过程可如图9所示,下面结合图9对本公开示例的边界搜索过程进行说明。
如图9所示,首先根据二值图上的像素值,从左至右依次逐列检测该列像素的像素值,并统计该列像素中黑色像素的数量,表示为 式中,i表示第i个像素,n表示图像高度,valuei表示第i个像素的像素值。
如果cout(0)=0,说明该列像素中像素值为0的像素数量为0,也即黑色像素的数量为0,则继续进行下一列检测,直至某一列像素中黑色像素数量不为0。
例如,检测到第k列像素中黑色像素数量不为0,也即该列像素中包括黑色像素,则继续进行下一列(k+1列)检测,同时计数p=1。如果k+1列像素中不包括黑色像素,则说明第k列检测到的黑色像素为噪点,计数p重新归零。反之,如果k+1列像素包括黑色像素,则计数p再加1,也即p=2,继续进行k+2列检测。
如此,直至计数p达到预设数值,说明第k列像素和之后的连续预设数量列像素均包括黑色像素,此时,即可确定第k列像素对应的坐标信息即为目标物体在二值图上的左边界。
同理,从右至左依次逐列进行检测,即可得到目标物体在二值图上的右边界,本领域技术人员参照前述毫无疑问可以理解并充分实现,本公开对此不再赘述。在确定左边界和右边界之后,即可确定目标物体的边界范围的水平边界。
对于垂直边界,如图9所示,根据二值图上的像素值,从上至下依次逐行检测该行像素的像素值,并统计该行像素中黑色像素的数量,表示为式中,i表示第i个像素,m表示图像宽度,valuei表示第i个像素的像素值。
如果cout(0)=0,说明该行像素中像素值为0的像素数量为0,也即黑色像素的数量为0,则继续进行下一行检测,直至某一行像素中黑色像素数量不为0。
例如,检测到第J行像素中黑色像素数量不为0,也即该行像素中包括黑色像素,则继续进行下一行(j+1行)检测,同时计数p=1。如果j+1行像素中不包括黑色像素,则说明第j行检测到的黑色像素为噪点,计数p重新归零。反之,如果j+1行像素包括黑色像素,则计数p再加1,也即p=2,继续进行j+2行检测。
如此,直至计数p达到预设数值,说明第j行像素和之后的连续预设数量行像素均包括黑色像素,此时,即可确定第j行像素对应的坐标信息即为目标物体在二值图上的上边界。
同理,从下至上依次逐行进行检测,即可得到目标物体在二值图上的下边界,本领域技术人员参照前述毫无疑问可以理解并充分实现,本公开对此不再赘述。在确定上边界和下边界之后,即可确定目标物体的边界范围的垂直边界。
值得说明的是,参见图9所示,在本公开示例的视频通信场景中,考虑到往往只拍摄用户的上半身,因此在对人体进行边界搜索时,可以默认将二值图的下边界确定为目标物体的下边界,也即,无需进行下边界的边界搜索,只需要确定左边界、上边界和右边界即可。
另外,参见图9所示,在确定左边界之后,在进行上边界搜索的过程中,无需对整行所有像素进行检测,只需要对从左边界至最右端的像素进行检测即可。同理,在确定上边界之后,在进行右边界搜索的过程中,也无需对整列所有像素进行检测,只需要对从上边界至最下端的像素进行检测即可。如此可以减少大量像素的冗余检测,提高运算效率。
S530、基于水平边界和垂直边界,确定边界范围。
在确定目标物体在二值图上的水平边界和垂直边界之后,即可根据水平边界和垂直边界的坐标信息,确定目标物体在待处理图像上的边界范围。例如图9示例中,利用左边界、上边界、右边界和下边界框选的矩形范围,即表示目标物体的边界范围。
上述仅针对其中一张待处理图像的边界搜索过程进行了说明,对于采集设备100采集到的多张待处理图像,依次通过上述过程,即可得到每张待处理图像上目标物体的边界范围。
通过上述可知,本公开实施方式中,基于二值图边界搜索的方式,可以快速确定目标物体的边界范围,而且对目标物体的边界检测精度更高,为后续图像裁切提供准确地数据基础。
如图10所示,在一些实施方式中,本公开示例的光场图像处理方法,基于边界范围对待处理图像进行裁切处理的过程,包括
S531、根据边界范围确定目标物体的中心点坐标。
S532、将目标物体的中心点坐标确定为目标图像的中心点坐标,以预设图像尺度对待处理图像进行裁切处理,得到目标图像。
仍以图9所示为例,在得到目标物体的边界范围之后,基于左边界的坐标信息left和上边界的坐标信息top,可以得到边界范围的左上角的坐标(left,top)。
同时,二值图的尺寸m*n已知,假设一个示例中,二值图的尺寸为4096*3000,则目标物体的中心点坐标(Cx,Cy)表示为:
Cx=left+(right-left)/2
Cy=top+(3000-top)/2
在确定目标物体的边界范围的中心点坐标O(Cx,Cy)之后,即可将该中心点坐标O(Cx,Cy)作为目标图像的中心点坐标,从而,基于该中心点坐标按照预设图像尺度进行外扩,即可得到目标图像的图像范围,然后基于该图像范围对待处理图像进行裁切即可得到目标图像。
例如图9示例中,假设目标图像的预设图像尺度为2560*2560像素,则根据中心点坐标O(Cx,Cy)外扩预设图像尺度之后的图像范围即为图中虚线所示,虚线框的尺度即为2560*2560像素。然后,基于该虚线框的图像范围对待处理图像进行裁切,即可得到目标图像。
参见图11所示,图11中第一行的4张图像,即为通过采集设备100的相机C1~C4分别采集到的4张待处理图像。图11中第二行的4张图像,即为利用传统方案中基于固定位置对待处理图像进行裁切的效果。图11中第三行的4张图像,即为利用本公开实施方式方法,基于对目标物体的边界搜索对待处理图像进行裁切的效果。
通过图11对比可以看到,采用传统方案对待处理图像进行裁切之后,人物并不位于图像中心,出现较大程度的偏移,甚至人物部分身体还可能会被裁切掉。然而,采用本公开实施方式对待处理图像进行裁切之后,人物始终保持在图像中心,为后续视点融合提供准确地数据基础。
通过上述可知,本公开实施方式中,基于目标物体的边界范围对待处理图像进行裁切处理,可以降低将目标物体置于图像边缘、甚至被裁切掉的风险,提高裁切后图像的质量,为后续的视点融合处理提供较好的数据基础,进而提高光场视频通信的质量和效率。
本公开实施方式中,在确定目标视点信息以及裁切后的各个目标图像之后,即可利用目标视点信息对各个目标图像进行视点融合处理,最终即可得到与目标视点信息所对应的目标光场图像。
在一些实施方式中,对目标图像进行视点融合处理的过程,可以利用基于深度神经网络(DNN,Deep Neural Networks)的MVS网络模型实现,下面结合图12进行说明。
如图12所示,在一些实施方式中,本公开示例的光场图像处理方法,根据目标视点信息对各目标图像进行视点融合处理的过程,包括:
S1210、将多张待处理图像中的至少两张待处理图像输入预先训练的深度网络模型,得到深度网络模型输出的目标物体的深度图。
S1220、基于目标视点信息对深度图进行视点融合处理,得到与目标视点信息对应的视点下的目标视点深度图。
S1230、将目标图像、目标视点深度图以及目标视点信息输入预先训练的视点融合模型,得到视点融合模型输出的目标光场图像。
如图13所示,本公开实施方式中,MVS网络模型包括深度网络模型和视点融合模型。深度网络模型用于预测目标物体的深度特征,得到目标物体的深度图,深度网络模型例如可以是基于Depth Nnet架构的深度预测模型。而视点融合模型用于预设目标物体在新视点下的视点图像,视点融合模型例如可以是基于MVS Net架构的神经网络模型。
在本公开实施方式中,结合图1和图2所示场景,首先需要对采集设备100上的相机C1~C4进行标定,得到每个相机的内参矩阵和外参矩阵。
具体来说,首先可将4个相机的光轴调整到清晰面中点位置,清晰面是指相机成像清晰的平面,其余相机焦距相关。然后,可以相机C1的坐标系作为世界坐标系,利用张氏标定法对其余相机进行标定,得到每个相机的内参矩阵和外参矩阵。内参矩阵分别表示为K1、K2、K3和K4,外参矩阵分别表示为(R1,t1)、(R2,t2)、(R3,t3)和(R4,t4),其中R表示相对旋转矩阵,t表示相对平移矩阵。
可以理解,相机内参和相机外参是相机实现坐标系转换的必要参数,相机内参和相机外参是矩阵形式,也即相机内参矩阵和外参矩阵。相机内参矩阵的作用是实现相机坐标系到像素坐标系的转换,相机外参矩阵的作用是实现世界坐标系到相机坐标系的转换。
对于相机标定的具体算法及过程,本领域技术人员参照相关技术中的张氏标定法毫无疑问可以理解并充分实现,本公开对此不再赘述。
继续参照图13所示,在实际的视频通信场景中,同步盒可以控制采集设备100相机C1~C4同时采集图像,分别得到待处理图像I1~I4。同步盒是一种同步硬件装置,其作用是控制相机C1~C4同步采集图像,从而得到的待处理图像I1~I4即为同一时刻采集的目标物体不同视角的图像。
本公开实施方式中,需要将待处理图像I1~I4中的至少两张待处理图像作为深度网络模型的输入,例如图13示例中,可以将待处理图像I1和T2作为深度网络模型的输入。深度网络模型的作用是预测目标物体上每个点的深度信息,其输出的是目标物体的深度图,深度图上的每个像素即可表示目标物体上的点的深度值。
深度网络模型可以预先基于样本标注数据进行训练得到,对于深度网络模型的网络训练过程,采用传统的有监督训练过程即可,本公开对此不再赘述。
在得到目标物体的深度图之后,需要结合目标视点信息对深度图进行视点融合处理,从而得到在新视点下的目标视点深度图。通过前述可知,目标视点信息是指显示设备200端的用户B当前的视点信息,也即,需要将深度图转换到目标视点信息所对应的视点。
值得说明的是,结合目标视点信息对深度图进行视点融合处理的过程,需要根据相机的内参矩阵和外参矩阵实现坐标系变换。而由于需要对待处理图像进行裁切处理,裁切后的目标图像尺度与待处理图像的尺度发生改变,因此相机的内参矩阵也发生变化,需要对每个相机的内参矩阵进行更新。
例如以相机C1为例,其内参矩阵K1表示为:
/>
待处理图像的图像尺度为4096*3000像素,裁切后的目标图像尺度为2560*2560像素,则裁切过程中的水平放缩系数Scale_x=4096/2560,垂直放缩系数Scale_y=3000/2560,水平偏移量Trans_x=4096/2-Cx,垂直偏移量为Trans_x=3000/2-Cy。从而,更新后的相机C1的内参矩阵K1’表示为:
上述仅以相机C1的内参矩阵更新过程进行了说明,对于相机C2~C4,其内参矩阵更新过程与之相同,本公开对此不再赘述。
基于更新后的内参矩阵及外参矩阵,根据目标视点信息对深度图进行视点融合处理,将深度图转换到目标视点信息所对应的视点,得到目标视点深度图。对于视点融合处理的具体过程和原理,本领域技术人员参照相关技术即可理解并充分实现,本公开对此不再赘述。
继续参照图13所示,裁切模块基于本公开前述的方法过程,对相机C1至C4采集的待处理图像I1~I4进行裁切处理,得到每张待处理图像对应的目标图像,分别为目标图像I1’~I4’。本领域技术人员参照前述即可,在此不再赘述。
视点融合模型的输入包括目标视点信息、目标视点深度图以及目标图像I1’~I4’,视点融合模型的输入即为与目标视点信息所对应的目标光场图像。视点融合模型可以预先基于样本标注数据进行训练得到,对于视点融合模型的网络训练过程,采用传统的有监督训练过程即可,本公开对此不再赘述。
通过上述方法过程,即可得到目标光场图像。在一些实施方式中,在得到目标光场图像之后,采集设备100即可将目标光场图像发送至显示设备200,显示设备200即可在显示屏上渲染显示目标光场图像,从而显示设备200端的用户B即可看到跟随自己视点变化的光场视频,呈现出身临其境的裸眼3D效果。
通过上述可知,本公开实施方式中,基于目标物体的边界范围对待处理图像进行裁切处理,可以降低将目标物体置于图像边缘、甚至被裁切掉的风险,提高裁切后图像的质量,为后续的视点融合处理提供较好的数据基础,进而提高光场视频通信的质量和效率。
在一些实施方式中,本公开提供了一种光场图像处理装置,参见图14所示,本公开示例的光场图像处理装置包括:
图像获取模块10,被配置为获取通过设于采集设备上的多个相机分别采集到的多张待处理图像;多张待处理图像为包括目标物体的不同视角的采集图像;
边界搜索模块20,被配置为对于每张待处理图像,确定目标物体在待处理图像上的边界范围;
裁切处理模块30,被配置为根据边界范围以及预设图像尺度,对待处理图像进行裁切处理,得到每张待处理图像对应的目标图像;
视点融合模块40,被配置为根据目标视点信息对各目标图像进行视点融合处理,得到与目标视点信息对应的目标光场图像;目标视点信息表示显示设备端的观察者眼睛的位置信息。
在一些实施方式中,边界搜索模块20被配置为:
对于每张待处理图像,对待处理图像进行二值化处理,得到目标物体的二值图;
基于二值图上的像素值,依次逐行和逐列对目标物体进行边界搜索,得到目标物体在二值图上的水平边界和垂直边界;
基于水平边界和垂直边界,确定边界范围。
在一些实施方式中,边界搜索模块20被配置为:
基于二值图上的像素值,从左至右依次逐列检测该列像素的黑色像素数量,响应于第一列像素及其之后的连续预设数量列像素的黑色像素数量均大于第一预设阈值,将第一列像素对应的坐标信息确定为水平边界的左边界;
从右至左依次逐列检测该列像素的黑色像素数量,响应于第二列像素及其之后的连续预设数量列像素的黑色像素数量均大于第二预设阈值,将第二列像素对应的坐标信息确定为水平边界的右边界;
从上至下依次逐行检测该行像素的黑色像素数量,响应于第一行像素及其之后的连续预设数量行像素的黑色像素数量均大于第三预设阈值,将第一行像素对应的坐标信息确定为垂直边界的上边界;
从下至上依次逐行检测该行像素的黑色像素数量,响应于第二行像素及其之后的连续预设数量行像素的黑色像素数量均大于第四预设阈值,将第二行像素对应的坐标信息确定为垂直边界的下边界。
在一些实施方式中,边界搜索模块20被配置为:
对每张待处理图像进行抠图处理,得到每张待处理图像对应的包括目标物体的前景图像;
对每张前景图像进行二值化处理,得到目标物体的二值图。
在一些实施方式中,边界搜索模块20被配置为:
基于二值图上的像素值,以预设尺度的滑动窗口在二值图上按预设步长进行搜索;
在每个滑动窗口中,基于该滑动窗口包括的像素的像素值之和,对滑动窗口包括的像素进行去噪处理。
在一些实施方式中,裁切处理模块30被配置为:
根据边界范围确定目标物体的中心点坐标;
将目标物体的中心点坐标确定为目标图像的中心点坐标,以预设图像尺度对待处理图像进行裁切处理,得到目标图像。
在一些实施方式中,视点融合模块40被配置为:
将多张待处理图像中的至少两张待处理图像输入预先训练的深度网络模型,得到深度网络模型输出的目标物体的深度图;
基于目标视点信息对深度图进行视点融合处理,得到与目标视点信息对应的视点下的目标视点深度图;
将目标图像、目标视点深度图以及目标视点信息输入预先训练的视点融合模型,得到视点融合模型输出的目标光场图像。
在一些实施方式中,本公开的装置应用于采集设备,其还包括发送模块,发送模块被配置为:
将目标光场图像发送至显示设备,以使显示设备渲染显示目标光场图像。
通过上述可知,本公开实施方式中,基于目标物体的边界范围对待处理图像进行裁切处理,可以降低将目标物体置于图像边缘、甚至被裁切掉的风险,提高裁切后图像的质量,为后续的视点融合处理提供较好的数据基础,进而提高光场视频通信的质量和效率。
在一些实施方式中,本公开提供了一种视频通信***,视频通信***可如图1所示,其包括:
显示设备200,包括图像采集装置和第一控制器;
采集设备100,包括多个相机和第二控制器,第一控制器和第二控制器至少其中之一用于执行根据上述任意实施方式的方法。
在一些实施方式中,本公开提供了一种存储介质,存储有计算机指令,计算机指令用于使计算机执行上述任意实施方式的方法。
在一些实施方式中,本公开提供了一种电子设备,包括:
处理器;和
存储器,存储有计算机指令,计算机指令用于使处理器执行上述任意实施方式的方法。
本公开实施方式中,电子设备既可以是上述的采集设备100,也可以是显示设备200,本公开对此不作限制。具体而言,图15示出了适于用来实现本公开方法的电子设备600的结构示意图,通过图15所示电子设备,可实现上述处理器、控制器及存储介质相应功能。
如图15所示,电子设备600包括处理器601,其可以根据存储在存储器602中的程序或者从存储部分608加载到存储器602中的程序而执行各种适当的动作和处理。在存储器602中,还存储有电子设备600操作所需的各种程序和数据。处理器601和存储器602通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施方式,上文方法过程可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行上述方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
显然,上述实施方式仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本公开创造的保护范围之中。
Claims (12)
1.一种光场图像处理方法,其特征在于,包括:
获取通过设于采集设备上的多个相机分别采集到的多张待处理图像;所述多张待处理图像为包括目标物体的不同视角的采集图像;
对于每张待处理图像,确定所述目标物体在所述待处理图像上的边界范围;
根据所述边界范围以及预设图像尺度,对所述待处理图像进行裁切处理,得到每张待处理图像对应的目标图像;
根据目标视点信息对各目标图像进行视点融合处理,得到与所述目标视点信息对应的目标光场图像;所述目标视点信息表示显示设备端的观察者眼睛的位置信息。
2.根据权利要求1所述的方法,其特征在于,所述对于每张待处理图像,确定所述目标物体在所述待处理图像上的边界范围,包括:
对于每张待处理图像,对所述待处理图像进行二值化处理,得到所述目标物体的二值图;
基于所述二值图上的像素值,依次逐行和逐列对所述目标物体进行边界搜索,得到所述目标物体在所述二值图上的水平边界和垂直边界;
基于所述水平边界和所述垂直边界,确定所述边界范围。
3.根据权利要求2所述的方法,其特征在于,所述基于所述二值图上的像素值,依次逐行和逐列对所述目标物体进行边界搜索,得到所述目标物体在所述二值图上的水平边界和垂直边界,包括以下中至少之一:
基于所述二值图上的像素值,从左至右依次逐列检测该列像素的黑色像素数量,响应于第一列像素及其之后的连续预设数量列像素的黑色像素数量均大于第一预设阈值,将所述第一列像素对应的坐标信息确定为所述水平边界的左边界;
从右至左依次逐列检测该列像素的黑色像素数量,响应于第二列像素及其之后的连续预设数量列像素的黑色像素数量均大于第二预设阈值,将所述第二列像素对应的坐标信息确定为所述水平边界的右边界;
从上至下依次逐行检测该行像素的黑色像素数量,响应于第一行像素及其之后的连续预设数量行像素的黑色像素数量均大于第三预设阈值,将所述第一行像素对应的坐标信息确定为所述垂直边界的上边界;
从下至上依次逐行检测该行像素的黑色像素数量,响应于第二行像素及其之后的连续预设数量行像素的黑色像素数量均大于第四预设阈值,将所述第二行像素对应的坐标信息确定为所述垂直边界的下边界。
4.根据权利要求2所述的方法,其特征在于,所述对于每张待处理图像,对所述待处理图像进行二值化处理,得到所述目标物体的二值图,包括:
对每张待处理图像进行抠图处理,得到每张待处理图像对应的包括所述目标物体的前景图像;
对每张前景图像进行二值化处理,得到所述目标物体的二值图。
5.根据权利要求2所述的方法,其特征在于,在所述基于所述二值图上的像素值,依次逐行和逐列对所述目标物体进行边界搜索,得到所述目标物体在所述二值图上的水平边界和垂直边界之前,所述方法还包括:
基于所述二值图上的像素值,以预设尺度的滑动窗口在所述二值图上按预设步长进行搜索;
在每个滑动窗口中,基于该滑动窗口包括的像素的像素值之和,对所述滑动窗口包括的像素进行去噪处理。
6.根据权利要求1所述的方法,其特征在于,所述根据所述边界范围以及预设图像尺度,对所述待处理图像进行裁切处理,得到每张待处理图像对应的目标图像,包括:
根据所述边界范围确定所述目标物体的中心点坐标;
将所述目标物体的中心点坐标确定为所述目标图像的中心点坐标,以所述预设图像尺度对所述待处理图像进行裁切处理,得到所述目标图像。
7.根据权利要求1所述的方法,其特征在于,根据目标视点信息对各目标图像进行视点融合处理,得到与所述目标视点信息对应的目标光场图像,包括:
将所述多张待处理图像中的至少两张待处理图像输入预先训练的深度网络模型,得到所述深度网络模型输出的所述目标物体的深度图;
基于所述目标视点信息对所述深度图进行视点融合处理,得到与所述目标视点信息对应的视点下的目标视点深度图;
将所述目标图像、所述目标视点深度图以及所述目标视点信息输入预先训练的视点融合模型,得到所述视点融合模型输出的所述目标光场图像。
8.根据权利要求1所述的方法,其特征在于,应用于所述采集设备;在所述根据目标视点信息对各目标图像进行视点融合处理,得到与所述目标视点信息对应的目标光场图像之后,所述方法还包括:
将所述目标光场图像发送至所述显示设备,以使所述显示设备渲染显示所述目标光场图像。
9.一种光场图像处理装置,其特征在于,包括:
图像获取模块,被配置为获取通过设于采集设备上的多个相机分别采集到的多张待处理图像;所述多张待处理图像为包括目标物体的不同视角的采集图像;
边界搜索模块,被配置为对于每张待处理图像,确定所述目标物体在所述待处理图像上的边界范围;
裁切处理模块,被配置为根据所述边界范围以及预设图像尺度,对所述待处理图像进行裁切处理,得到每张待处理图像对应的目标图像;
视点融合模块,被配置为根据目标视点信息对各目标图像进行视点融合处理,得到与所述目标视点信息对应的目标光场图像;所述目标视点信息表示显示设备端的观察者眼睛的位置信息。
10.一种电子设备,其特征在于,包括:
处理器;和
存储器,存储有计算机指令,所述计算机指令用于使所述处理器执行根据权利要求1至8任一项所述的方法。
11.一种视频通信***,其特征在于,包括:
显示设备,包括图像采集装置和第一控制器;
采集设备,包括多个相机和第二控制器,所述第一控制器和所述第二控制器至少其中之一用于执行根据权利要求1至8任一项所述的方法。
12.一种存储介质,其特征在于,存储有计算机指令,所述计算机指令用于使计算机执行根据权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310796486.3A CN116823691A (zh) | 2023-06-30 | 2023-06-30 | 光场图像处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310796486.3A CN116823691A (zh) | 2023-06-30 | 2023-06-30 | 光场图像处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116823691A true CN116823691A (zh) | 2023-09-29 |
Family
ID=88128968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310796486.3A Pending CN116823691A (zh) | 2023-06-30 | 2023-06-30 | 光场图像处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116823691A (zh) |
-
2023
- 2023-06-30 CN CN202310796486.3A patent/CN116823691A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11960639B2 (en) | Virtual 3D methods, systems and software | |
CN109615652B (zh) | 一种深度信息获取方法及装置 | |
CN109360235B (zh) | 一种基于光场数据的混合深度估计方法 | |
CN109348119B (zh) | 一种全景监控*** | |
US9300947B2 (en) | Producing 3D images from captured 2D video | |
US10841558B2 (en) | Aligning two images by matching their feature points | |
JPH08331607A (ja) | 三次元表示画像生成方法 | |
US20150379720A1 (en) | Methods for converting two-dimensional images into three-dimensional images | |
CN112207821B (zh) | 视觉机器人的目标搜寻方法及机器人 | |
RU2690757C1 (ru) | Система синтеза промежуточных видов светового поля и способ ее функционирования | |
US20220342365A1 (en) | System and method for holographic communication | |
CN113436130B (zh) | 一种非结构光场智能感知***与装置 | |
Angot et al. | A 2D to 3D video and image conversion technique based on a bilateral filter | |
WO2020196520A1 (en) | Method, system and computer readable media for object detection coverage estimation | |
KR101841750B1 (ko) | 매칭 정보에 의한 입체 영상 보정 장치 및 그 방법 | |
CN117058183A (zh) | 一种基于双摄像头的图像处理方法、装置、电子设备及存储介质 | |
JPH0981746A (ja) | 二次元表示画像生成方法 | |
GB2585197A (en) | Method and system for obtaining depth data | |
Seitner et al. | Trifocal system for high-quality inter-camera mapping and virtual view synthesis | |
CN116823691A (zh) | 光场图像处理方法及装置 | |
Gurrieri et al. | Efficient panoramic sampling of real-world environments for image-based stereoscopic telepresence | |
CN111630569B (zh) | 双目匹配的方法、视觉成像装置及具有存储功能的装置 | |
CN109379577B (zh) | 一种虚拟视点的视频生成方法、装置及设备 | |
CN114390267A (zh) | 立体图像数据合成方法、装置、电子设备及存储介质 | |
CN112102347A (zh) | 一种基于双目视觉的台阶检测和单级台阶高度估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |