CN103208110B - 视频图像的转换方法及装置 - Google Patents

视频图像的转换方法及装置 Download PDF

Info

Publication number
CN103208110B
CN103208110B CN201210013123.XA CN201210013123A CN103208110B CN 103208110 B CN103208110 B CN 103208110B CN 201210013123 A CN201210013123 A CN 201210013123A CN 103208110 B CN103208110 B CN 103208110B
Authority
CN
China
Prior art keywords
image
pretreatment
present frame
video
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210013123.XA
Other languages
English (en)
Other versions
CN103208110A (zh
Inventor
刘立峰
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201210013123.XA priority Critical patent/CN103208110B/zh
Publication of CN103208110A publication Critical patent/CN103208110A/zh
Application granted granted Critical
Publication of CN103208110B publication Critical patent/CN103208110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)

Abstract

一种视频图像的转换方法及装置。所述视频图像的转换方法包括:对二维视频的当前帧图像进行预处理获得当前帧预处理图像,所述预处理包括:去除当前帧图像的全局运动;提取所述当前帧预处理图像的深度图像;基于所述当前帧预处理图像及其深度图像获取当前帧图像的左眼图像和右眼图像。本发明的技术方案,在实现了在手机上将二维视频转换为三维视频的同时,也使得用户在通过具有单一摄像头的手机制作3D视频的过程中可以沿任意方向移动手机,且不需要进行多次操作就可以获得效果较佳的3D视频,给用户提供了极大的方便。

Description

视频图像的转换方法及装置
技术领域
本发明涉及图像技术领域,尤其涉及一种视频图像的转换方法及装置。
背景技术
随着计算机技术与通信技术的快速发展,多媒体视频应用得到了越来越广泛的推广,例如:多媒体视频播放、数字电视、视频通话,通过手机摄像等。然而,传统的二维(2D)视频的显示效果缺乏层次感和立体感,不能满足人们对视频图像逼真感的要求,人们需要在观看视频图像时有身临其境的感觉,因此,三维(3D)视频技术应运而生。
3D视频的产生主要基于两种实现方式:一种是采用立体相机直接产生3D视频,采用该方式拍摄得到的3D视频立体效果强,视觉效果真实,然而制作成本却相当高。另一种则是通过一定的算法将现有的2D视频转换为3D视频,具体地,可以通过将2D视频中存在的景深信息提取出来,利用景深信息将2D视频转换为3D视频,并通过3D视频显示终端显示,采用该方式产生的3D视频,成本低廉,成为产生3D视频的一个主要发展方向。
目前,数字电视领域已经实现了将普通的单路2D视频转换成3D视频,如图1所示,图1是应用于数字电视的2D视频到3D视频的转换***,包括两个基本模块:深度图像估计模块1和3D图像渲染模块2。其中,深度图像估计模块1包括:运动估计单元10、彩色图像分割单元11以及融合单元12;3D图像渲染模块2包括:3D图像映射单元20和空洞填充单元21。
运动估计单元10用于获取单路2D视频的运动矢量场(运动信息),彩色图像分割单元11用于将单路2D视频按照色彩分割为各个区域,融合单元12用于对运动估计单元10获得的运动矢量场和彩色图像分割单元11获得的分割后的各个区域的色彩信息进行融合最终获得单路2D视频的深度图像,3D图像映射单元20将获得的深度图像进行映射,并通过空洞填充单元21对映射后的深度图像进行空洞填充进而得到左眼图像。将单路2D视频作为右眼图像,那么将最终获得的具有一定视差的左眼图像和右眼图像通过3D视频显示***即可显示出3D视频。
对于上述的2D视频图像的深度图像的获取也可以采用其他的方式,例如:利用具有景深提取功能的摄像机获取深度图像,具体地,可以是利用红外或者结构光等方法获得景深图像的摄像机;还可以利用双路视频获取深度图像。
现有的一种利用双路视频获取深度图像如图2所示,其是利用混合迭代匹配(HRM,Hybird Recrusive Matching)算法提取深度图像的流程示意图。如图2所示,以左眼图像为例,先对左眼图像进行矫正,可以采用反畸变模型法进行,对矫正后的左眼图像进行混合迭代匹配,将经过混合迭代匹配后的左眼图像进行一致性检验以去除不可信的运动矢量。对矫正后左眼图像进行图像分割,并对分割后的左眼图像、矫正后的左眼图像以及经过一致性检验的左眼图像进行基于区域的后处理,以进一步提高深度图像生成的精度,最后对分割后的左眼图像、矫正后的左眼图像以及经过基于区域的后处理获得的左眼图像进行基于区域的内插以获取左眼深度图像。对于右眼深度图像的获取与左眼深度图像的获取相类似,故不再展开具体详述。
随着3D视频技术和手机技术的发展,尤其是3D视频的显示技术,经历了从传统的需要立体眼镜的红蓝补色立体显示技术,到快门式立体显示技术,到现在的裸眼3D显示技术(不需要立体眼镜),给手机3D视频的播放和显示提供了相应的技术基础。
对于大部分的3D手机而言,其只能播放已经制作好的3D视频,而用户通过网络或者其他渠道获得的视频文件,如:电影、电视视频信号等视频图像仍然属于2D视频,因此,在很大程度上限制了人们能够观看的3D视频的范围,进而也限制了3D技术在手机应用方面的推广。
另外,对于手机用户而言,其还有自己制作3D视频的需求,就目前而言,用户可以通过安装有两个摄像头的手机来进行3D视频的制作,该手机利用安装在手机一侧的多个摄像头(一般为两个)来进行具有视差的多路视频的拍摄或者模拟人的双眼获得具有双眼视差的立体图像,但是这种方式一方面增加了手机硬件的成本,另一方面也增加了手机的体积和耗电量,导致其在市场上很难推广。此外,用户也可以使用安装有单一摄像头的手机进行3D视频的制作,通过移动手机来获得多幅具有视差的图像,手机通过其自带的姿态传感器或者图像处理的方法来获取手机旋转的信息,并利用手机旋转的信息来去除手机旋转对图像的影响,然后选择合适的两幅图像分别作为左眼和右眼图像送入3d显示***,进而完成3D视频的制作。但是利用单一摄像头进行3D视频的制作存在一定的局限性,例如:利用单一摄像头只能获取静态图像,且在静态图像的获取过程当中需要用户持手机进行特定方向和范围的运动,并进行多次操作,给用户制作3D视频带来极大的不方便,且制作的3D视频的效果不佳。
上述提到的应用于数字电视的2D视频到3D视频的转换***目前还不能应用于手机平台,因此,如何能够通过手机将2D视频转换为3D视频,或者通过手机使得用户可以方便地制作出效果较佳的3D视频成为目前亟待解决的问题之一。
其他有关二维视频转换为三维视频的技术还可以参见公开号为US2011018873A1,发明名称为Two-dimensional to three-dimensional imageconversion system andmethod的美国专利申请。
发明内容
本发明解决的是现有技术中将二维视频转换成三维视频的方法应用于手机的三维显示的效果不佳的问题。
为了解决上述问题,本发明提供了一种视频图像的转换方法,包括:
对二维视频的当前帧图像进行预处理获得当前帧预处理图像,所述预处理包括:去除当前帧图像的全局运动;
提取所述当前帧预处理图像的深度图像;
基于所述当前帧预处理图像及其深度图像获取当前帧图像的左眼图像和右眼图像。
可选的,所述去除当前帧图像的全局运动包括:
获取当前帧图像的全局运动矢量场和全局旋转运动矢量场;
基于所述当前帧图像的全局运动矢量场和全局旋转运动矢量场对当前帧图像进行全局平移和全局旋转。
可选的,所述预处理还包括:在去除所述当前帧图像的全局运动前去除所述当前帧图像的畸变。
可选的,采用桶形畸变模型去除所述当前帧图像的畸变。
可选的,所述提取所述当前帧预处理图像的深度图像包括:
去除所述当前帧预处理图像中运动矢量不可信的像素点;
获取所述当前帧预处理图像的色彩区域分割信息;
至少基于所述色彩区域分割信息对去除了运动矢量不可信的像素点的当前帧预处理图像中的空洞进行填充,获取当前帧预处理图像的深度图像。
可选的,所述去除所述当前帧预处理图像中运动矢量不可信的像素点包括:
对当前帧预处理图像与前一帧图像进行匹配,获取当前帧预处理图像的像素点与其匹配点对应的正向匹配值和反向匹配值;
将所述当前帧预处理图像以预定尺寸分割为图像块;
去除所述当前帧预处理图像中所述正向匹配值和反向匹配值的误差大于第一门限值的像素点,以及所述图像块的平滑度大于第二门限值时,所述图像块中的像素点。
可选的,所述对当前帧预处理图像与前一帧图像进行匹配采用块匹配方法、光流法和混合迭代匹配法中的一种。
可选的,所述至少基于所述色彩区域分割信息对去除了运动矢量不可信的像素点的当前帧预处理图像中的空洞进行填充包括:结合所述色彩区域分割信息和缓存的当前帧图像的至少前一帧图像的深度图像的深度信息确定所述空洞的像素点的深度信息,以对所述空洞进行填充。
可选的,所述当前帧预处理图像的深度图像为归一化和滤波后的当前帧预处理图像的深度图像。
可选的,所述滤波为平滑滤波、中值滤波和双边滤波中的一种。
可选的,所述基于所述当前帧预处理图像及其深度图像获取当前帧图像的左眼图像和右眼图像包括:
将所述当前帧预处理图像作为右眼图像或左眼图像;
对所述当前帧预处理图像的深度图像进行映射,以获得映射图像;
对所述映射图像进行空洞填充,获取对应的另一眼图像。
可选的,所述对所述当前帧预处理图像的深度图像进行映射包括:对所述当前帧预处理图像的深度图像进行低通滤波后再进行映射。
可选的,所述对所述映射图像进行空洞填充包括:对所述映射图像进行线性滤波。
可选的,所述视频图像的转换方法还包括:对所述二维视频的各帧图像的左眼图像和右眼图像进行视频编码,以获得三维视频码流。
可选的,所述视频图像的转换方法还包括:对所述当前帧的左眼图像和右眼图像进行图像压缩,以获得三维图像。
为解决上述问题,本发明还提供了视频图像的转换装置,包括:
预处理单元,适于对二维视频的当前帧图像进行预处理获得当前帧预处理图像,所述预处理包括:去除当前帧图像的全局运动;
深度图像提取单元,适于提取所述当前帧预处理图像的深度图像;
深度图像渲染单元,适于基于所述当前帧预处理图像及其深度图像获取当前帧图像的左眼图像和右眼图像。
与现有技术相比,本发明的技术方案具有以下优点:
通过对所述二维视频的当前帧图像先进行预处理获得当前帧预处理图像,然后获取所述当前帧预处理图像的深度图像、最后基于所述当前帧预处理图像的深度图像映射出左眼图像或右眼图像,并将所述当前帧预处理图像作为另一眼图像,在实现了在手机上将二维视频转换为三维视频的同时,也使得用户在通过具有单一摄像头的手机制作3D视频的过程中可以沿任意方向移动手机,且不需要进行多次操作就可以获得效果较佳的3D视频,给用户提供了极大的方便。
通过预处理的方式去除了二维视频的当前帧图像的畸变和全局运动获得了当前帧图像的预处理图像,对当前帧预处理图像中运动矢量不可信的像素点进行去除,并基于所述当前帧预处理图像的色彩区域分割信息对去除了运动矢量不可信的像素点的当前帧预处理图像中的空洞进行填充,进而获得深度图像,相对于直接通过当前帧图像来获得的深度图像而言其精确度高,因此也提高了最终获得的3D视频的质量。
进一步地,在去除了当前帧预处理图像中的运动矢量不可信的像素点后,利用缓存的当前帧图像的至少前一帧图像的深度图像的深度信息及所述当前帧图像的色彩区域分割信息,对当前帧预处理图像中的大面积空洞进行填充,进一步地提高了获得的当前帧预处理图像的深度图像的精确度。
通过对当前帧预处理图像的深度图像进行归一化和滤波处理,更进一步地提高了当前帧预处理图像的深度图像的精确度,进而提高了3D视频的质量。
对所述当前帧预处理图像的深度图像进行映射包括:对所述当前帧预处理图像的深度图像进行低通滤波后再进行映射,使得所述当前帧预处理图像的深度图像的边缘平滑,减少了对所述当前帧预处理图像的深度图像进行映射时空洞的产生,提高了最终获得当前帧图像的左眼或右眼图像的质量,进而也提高了3D视频的质量。
附图说明
图1是应用于数字电视的2D视频到3D视频的转换***;
图2是利用混合迭代匹配算法提取深度图像的流程示意图;
图3是本发明实施例的视频图像的转换方法的流程示意图;
图4是barrel镜头畸变模型;
图5是深度图像提取的原理图;
图6是本发明实施例的提取当前帧预处理图像的深度图像的流程示意图;
图7是本发明实施例的视频图像的转换装置的结构示意图;
图8是本发明另一实施例的视频图像的转换装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在以下描述中阐述了具体细节以便于充分理解本发明。但是本发明能够以多种不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广。因此本发明不受下面公开的具体实施方式的限制。
正如背景技术部分所述,现有技术中,手机只能对3D视频进行播放,而目前大部分视频源或者图像源均为2D的,此外采用现有的具有单一摄像头的手机制作3D视频时,效果不佳而且具有一定的局限性。
发明人经过研究发现,提取图像深度信息依赖于摄像机本身平移运动造成的视差,但是如果摄像机本身有旋转运动,则会造成视频场景中出现全局的平移或者旋转运动向量场,然而由于目前的应用于数字电视的2D视频到3D视频的转换***并无法去除2D视频图像中的全局运动,因此如果应用在移动终端(例如手机)上,则易导致转换后的3D视频的显示效果不佳,且当视频图像中存在遮挡的区域、平滑无特征的区域时,基于上述***获取的深度图像的效果并不好。
此外,当采用手机的摄像头进行3D视频的制作时,由于手机摄像头口径一般比较小,因此,通过手机摄像头获得的图像畸变比较严重,而上述***也未涉及对畸变的图像进行矫正。
因此,应用于数字电视的2D视频到3D视频的转换***并不能直接应用于手机平台。由此发明人提出,先对2D视频进行预处理,以去除由于摄像头引起的2D视频图像的畸变和由于摄像头旋转导致的2D视频图像的全局运动,然后对经过预处理的2D视频图像中的遮挡区域以及平滑区域(难以检测特征的区域)的像素点的运动矢量进行检测,去除运动矢量不可信的像素点,再对去除了运动矢量不可信的像素点的2D视频图像中的空洞进行填充,以获得效果比较好的深度图像。
为了更好地理解本发明的技术方案,首先对本发明中出现的相关名词进行解释:
匹配点:与第i帧图像中的像素点对应的第i-1帧图像中的像素点。
匹配块:与第i帧图像中的图像块对应的第i-1帧图像中的图像块。
运动矢量:第i帧图像中的像素点与其对应的匹配点的相对位移。
正向匹配值:第i帧图像中的像素点与其匹配点对应的正向运动矢量。
反向匹配值:第i帧图像中的像素点与其匹配点对应的反向运动矢量。
请参见图3,图3是本发明实施例的视频图像的转换方法的流程示意图;如图3所示,所述视频图像的转换方法包括:
步骤S11:对二维视频的当前帧图像进行预处理获得当前帧预处理图像,所述预处理包括:去除当前帧图像的全局运动。
步骤S12:提取所述当前帧预处理图像的深度图像。
步骤S13:基于所述当前帧预处理图像及其深度图像获取当前帧图像的左眼图像和右眼图像。
执行步骤S11,本实施例中,所述2D视频可以是用户通过网络或者其他方式获得的2D视频码流经视频解码后得到的2D视频,也可以是用户通过手机的摄像头拍摄的2D视频。对所述2D视频进行预处理,具体地,就是对2D视频中的每一帧图像进行预处理。所述预处理包括:去除当前帧图像的全局运动,所述全局运动是指由摄像头的旋转所引起的视频运动,此时整个图像的背景和目标都在运动。
需要说明的是,对于通过上述方式获得的2D视频而言,若所述2D视频图像已经去除了畸变,则只需要去除2D视频图像的全局运动,若所述2D视频图像并未去除畸变,则既需要去除所述2D视频图像的畸变也需要去除所述2D视频图像的全局运动,具体地,在去除所述当前帧图像的全局运动前去除所述当前帧图像的畸变。
本实施例中,以当前帧图像未去除畸变进行相应的说明。去除当前帧图像的畸变可以采用镜头校准法、反畸变模型法等,去除当前帧图像的全局运动主要是指去除由于摄像头旋转而引起的全局运动,可以采用光流法等,采用何种方法根据实际需求而定。
具体地,本实施例中采用桶形(barrel)镜头畸变模型来对畸变的2D视频图像进行矫正,请参见图4,图4是barrel镜头畸变模型,其中,图(a)表示未畸变的图像,图(b)表示畸变的图像,对于图像中像素点而言,其对应的畸变公式为:
其中:ru是指在未畸变图像中,像素点距离畸变中心的位置,rd是指畸变图像中,像素点距离畸变中心的位置,k为桶形畸变系数,由镜头的光学特性而定。而畸变校正的目的则是:确定图(a)中每个像素点对应于图(b)中的位置,即:
rd=F(k,ru) (2)
其中F是公式(1)的逆运算,实际计算过程中为了方便计算,通常会将上述公式(2)进行变换,得到如下公式:
通过上述公式确定了图(a)中的每个像素点的位置在图(b)中的相应位置后,将图(b)中相应位置处的像素值作为与该位置对应的图(a)中的像素点的像素值,即可重构未畸变的图像。
在通过上述方法去除了当前帧图像的畸变后,然后去除当前帧图像的全局运动,具体地,可以通过如下方式进行:
先获取当前帧图像的全局运动矢量场和全局旋转运动矢量场,然后基于获得的所述当前帧图像的全局运动矢量场和全局旋转运动矢量场对当前帧图像进行全局平移和全局旋转。
本领域技术人员知晓,若要获取当前帧图像的全局运动矢量场和全局旋转运动矢量场,则需先获取当前帧图像中的每个像素点的全局运动矢量和全局旋转运动矢量,当前帧图像中所有像素点的全局运动矢量即组成了全局运动矢量场,所有像素点的全局旋转运动矢量即组成了全局旋转运动矢量场。而基于获得的所述当前帧图像的全局运动矢量场和全局旋转运动矢量场对当前帧图像进行全局平移和全局旋转,也是先基于像素点的全局运动矢量和全局旋转运动矢量来对像素点进行全局平移和全局旋转,然后通过对所有的像素点进行全局平移和全局旋转进而实现对当前帧图像的全局平移和全局旋转。以下对获取像素点的全局运动矢量和全局旋转运动矢量进行详细地说明。
本实施例中,全局运动矢量可以分为水平全局运动矢量和垂直全局运动矢量,对于带有姿态传感器(陀螺仪)的手机而言,其摄像头拍摄的当前帧图像中像素点的水平全局运动矢量可以以手机摄像头相对于水平方向旋转的角度θh来衡量,垂直全局运动矢量可以以手机摄像头相对于垂直方向旋转的角度θv来衡量,所述角度θh、θv通过陀螺仪检测得到。像素点的全局旋转运动矢量可以以手机摄像头沿自身光轴旋转的角度θo来衡量。
若手机没有姿态传感器,则可以通过图像处理的方法来获得所述全局运动矢量和全局旋转运动矢量,本实施例中具体通过光流法来获得像素点的全局运动矢量和全局旋转运动矢量。对于光流法而言,首先基于亮度恒常性假设,即:
Ixu(x,y)+Iyv(x,y)+It=0
其中:Ix为像素点亮度对x的导数,Iy为像素点亮度对y的导数,It为像素点亮度对t的导数,u(x,y)为像素点(x,y)对应的运动矢量在x方向的分量,v(x,y)为像素点(x,y)对应的运动矢量在y方向的分量。
然后基于光流平滑性假设,即图像中每个邻域的像素点均以相同的方式运动,则像素点(x,y)对应的运动矢量在x方向的分量u(x,y)和在y方向的分量v(x,y)通过如下公式获得如下:
其中:Ix1为第一个像素点亮度对x的导数,Ixn为第n个像素点亮度对x的导数;Iy1为第一个像素点亮度对y的导数,Iyn为第n个像素点亮度对y的导数;It1为第一个像素点亮度对t的导数,Itn为第n个像素点亮度对t的导数,1≤n≤当前帧图像的像素点总数。
本实施例中,为了加快计算速度可以不对当前帧图像中的所有像素点进行计算,而是按照一定的间距,例如:在水平方向和垂直方向上每隔10个像素点取一个像素点,然后代入公式(3)来获得像素点(x,y)对应的运动矢量在x方向的分量u(x,y),以及像素点(x,y)对应的运动矢量在y方向的分量v(x,y)。
通过上述方式获得像素点对应的运动矢量在x方向的分量u(x,y)和在y方向的分量v(x,y)后,对所有的u(x,y)求平均值,并将该平均值作为水平全局运动矢量θh,对所有的v(x,y)求平均值,并将该平均值作为垂直全局运动矢量θv
仍然采用光流法获取像素点的运动矢量,即仍然采用公式(3)来获取像素点的运动矢量,此时n=1。将获得的像素点的运动矢量减去上述的水平全局运动矢量得到uo(每个像素点均对应了一个uo),将获得的像素点的运动矢量减去上述的垂直全局运动矢量得到vo(每个像素点均对应了一个vo),进而通过uo和vo来估计像素点的全局旋转运动矢量θo
进一步,为了能够快速获取像素点的全局旋转运动矢量θo,采用简单的搜索方法,具体地,就是在0°到α度的范围,每隔β度间隔计算一次旋转运动矢量在x方向的分量以及在y方向的分量,即:
ui=ru(1-cosθi)
vi=rusinθi (4)
其中:ui为像素点(x,y)对应的旋转运动矢量在x方向的分量,vi为像素点(x,y)对应的旋转运动矢量在y方向的分量,ru为像素点的旋转运动矢量,θi=β度,2β度,3β度,...,α度。分别计算u1与uo的均方误差,u2与uo的均方误差,u3与uo的均方误差,...,与uo的均方误差,并将与uo的均方误差最小的umin取出;分别计算v1与vo的均方误差,v2与vo的均方误差,v3与vo的均方误差,...,与vo的均方误差,并将与vo的均方误差最小的vmin取出;以umin(该弧度对应的角度)和vmin(该弧度对应的角度)为θi的范围,仍然采用上述公式(4),每隔γ度计算一次旋转运动矢量在x方向的分量以及在y方向的分量,并获得此时的umin(该弧度对应的角度)和vmin(该弧度对应的角度),当最终获得的umin(该弧度对应的角度)和vmin(该弧度对应的角度)的差小于0.1°时,将umin(该弧度对应的角度)或vmin(该弧度对应的角度)或umin(该弧度对应的角度)与vmin(该弧度对应的角度)的平均值作为全局旋转运动矢量θo。若此时umin(该弧度对应的角度)和vmin(该弧度对应的角度)的差大于0.1°,则继续每隔σ度计算一次旋转运动矢量在x方向的分量以及在y方向的分量,直至此次获得的umin(该弧度对应的角度)和vmin(该弧度对应的角度)的差小于0.1°。
以α=90°,β=10°,γ=1°为例对上述方法进行详细说明。先每隔10°计算一次旋转运动矢量在x方向的分量以及在y方向的分量,即分别计算u1与uo的均方误差,u2与uo的均方误差,u3与uo的均方误差,...,u9与uo的均方误差,并将与uo的均方误差最小的umin取出;分别计算v1与vo的均方误差,v2与vo的均方误差,v3与vo的均方误差,...,v9与vo的均方误差,并将与vo的均方误差最小的vmin取出;将umin对应的角度θumin和vmin对应的角度θvmin作为公式(4)中θi的范围,此处以θvmin>θumin,θumin=1°,θvmin=20°为例,由于γ=1°,故每隔1度计算一次旋转运动矢量在x方向的分量以及在y方向的分量,则此时θi=1°,2°,3°,...,19°,20°,分别计算此时u1与uo的均方误差,u2与uo的均方误差,u3与uo的均方误差,...,u20与uo的均方误差,并将与uo的均方误差最小的umin取出;分别计算此时v1与vo的均方误差,v2与vo的均方误差,v3与vo的均方误差,...,v20与vo的均方误差,并将与vo的均方误差最小的vmin取出;将此时获得的umin对应的角度θumin和vmin对应的角度θvmin作为θi的范围,若此时得到的θumin和θvmin的差小于0.1°,则将θumin或θvmin作为全局旋转运动矢量θo。否则,继续每隔一定的度数重复上述过程,直至最终获得的θumin和θvmin的差小于0.1°。
需要说明的是,上述过程中α、β、γ、σ...的取值由具体情况而定,通常为了能够快速获取像素点的全局旋转运动矢量θo,α一般取90°,β、γ、σ...的度数则在1°~10°之间。
至此,通过上述的光流法获得了像素点的水平全局运动矢量θh、垂直全局运动矢量θv和全局旋转运动矢量θo
基于获得的像素点的水平全局运动矢量θh和垂直全局运动矢量θv,以及像素点的全局旋转运动矢量θo对该像素点进行全局平移和全局旋转,具体地通过以下公式来去除像素点的全局运动,
xd=xu+kxθh+rr(1-coSθo)
yd=yu+kyθv+rrsinθo
其中:(xu,yu)是指去除全局运动后的像素点的坐标、(xd,yd)是指未去除全局运动的像素点的坐标,rr是指像素点与旋转中心的距离,kx是指手机每转过1度,图像在水平方向平移多少像素,ky是指手机每转过1度,图像在垂直方向平移多少像素(kx和ky的取值与摄像头物理特性有关,可以通过实验的方法测定)。
将未去除全局运动的像素点(xd,yd)的像素值作为去除全局运动的像素点(xu,yu)的像素值,即可以获得去除全局运动的像素点。对当前帧图像中的所有像素点均去除全局运动,则去除了当前帧图像的全局运动,在对当前帧图像去除全局运动后,提取当前帧预处理图像的深度图像。
为了更好地理解本实施例中提取当前帧预处理图像的深度图像(步骤S12),先简单地对从视频图像中提取深度图像的原理进行介绍。请参见图5,图5是深度图像提取的原理图,如图5所示,点O表示图像场景中的任意一点,摄像机使用简化过的小孔成像模型,视频的两帧图像对应的摄像机的光心位置分别为A、B,f表示摄像机的焦距,Z表示点O距摄像机的距离,则点O的像点在两帧图像中对应了不同的像素点a和b。若像素点a为当前帧图像中点O的像点,像素点b为前一帧图像中点O的像点,则像素点b为像素点a的匹配点,也即当前帧图像中像素点a的匹配点为像素点b。对应于像素点a和b而言,X1表示像素点a与图像中心的距离,X2表示像素点b与图像中心的距离,若Z远远大于f,由几何关系可以得出(X1-X2)的值正比于点O距摄像机的距离Z的倒数1/Z。因此,可以通过(X1-X2)的值乘以一个比例系数来代表O点的深度信息。
故,提取当前帧图像的深度图像的问题转化为提取当前帧图像中每一个像素点与参考帧图像(前一帧图像)中对应匹配点的运动矢量的问题。且由上述也可以获知离摄像机近的物体的像素点对应的运动矢量的绝对值大,离摄像机远的物体的像素点对应的运动矢量的绝对值小,若获得到的运动矢量的信息越精确,那么得到的深度信息也越精确,进而根据深度图像渲染出的三维视频的质量也就越好。
请参见图6,图6是本发明实施例的提取当前帧预处理图像的深度图像的流程示意图(对应于图3中的步骤S12),如图6所示,提取当前帧预处理图像的深度图像包括:
S121:去除所述当前帧预处理图像中运动矢量不可信的像素点。
S122:获取所述当前帧预处理图像的色彩区域分割信息。
S123:至少基于所述色彩区域分割信息对去除了运动矢量不可信的像素点的当前帧预处理图像中的空洞进行填充,获取当前帧预处理图像的深度图像。
执行步骤S121,本实施例中去除所述当前帧预处理图像中运动矢量不可信的像素点包括:包括:
对当前帧预处理图像与前一帧图像进行匹配,获取当前帧预处理图像的像素点与其匹配点对应的正向匹配值和反向匹配值;
将所述当前帧图像以预定尺寸分割为图像块;
去除所述当前帧预处理图像中所述正向匹配值和反向匹配值的误差大于第一门限值的像素点,以及所述图像块的平滑度大于第二门限值时,所述图像块中的像素点。
本实施例中对当前帧预处理图像与前一帧图像进行匹配获取当前帧预处理图像的像素点与其匹配点对应的正向匹配值和反向匹配值可以采用块匹配方法、光流法和HRM方法等,具体采用何种方法,由该方法的运算复杂度来决定。本实施例中采用HRM方法,对于HRM方法而言,虽然其运算复杂度比较高,但是采用HRM方法获得的运动矢量的精度较高,故获得的深度信息也越精确,渲染出的三维视频的效果也就越好。
具体地,第一步:对当前帧预处理图像中的图像块进行运动估计。
本实施例中若当前帧预处理图像为第一帧图像(当前帧图像为第一帧图像),则采用块匹配运动估计方法对所述当前帧预处理图像的图像块进行运动估计(通常图像块的尺寸在4*4~8*8像素之间),并将该运动估计作为初始运动矢量。块匹配运动估计方法为现有的运动估计方法,故此处不再展开具体详述。
若所述当前帧预处理图像不是第一帧图像(当前帧图像不是第一帧图像),则将当前帧预处理图像的图像块与其匹配块对应的运动矢量(所述匹配块是指与当前帧预处理图像中的图像块对应的前一帧图像中的图像块)、当前帧预处理图像的图像块的左边图像块与其匹配块对应的运动矢量,当前帧预处理图像的图像块的上方图像块与其匹配块对应的运动矢量作为候选运动矢量。本实施例中,所述图像块的尺寸优选地为4*4像素,所述当前帧预处理图像的图像块的左边图像块、上方图像块可以这样理解,以将一副160*160像素的图像按照4*4像素大小划分图像块为例,则共有40*40个图像块,每个图像块对应有一个坐标,若其中某个图像块的坐标为(2,10),则其对应的左边的图像块的坐标为(2,9),上方图像块的坐标为(1,10)。
分别计算上述的三个候选运动矢量的匹配误差,选择匹配误差最小的候选运动矢量作为初始运动矢量。所述匹配误差通过以下公式获得:
其中:D为匹配误差,M是图像块在水平方向的像素点的个数,N是图像块在垂直方向的像素点的个数,Fc(x,y)是当前帧预处理图像中坐标为(x,y)的像素点的像素值,Fr(x+dx,y+dy)是前一帧图像中坐标为(x+dx,y+dy)的像素点的像素值,dx为当前帧预处理图像的像素点与其匹配点对应的运动矢量在x方向的分量,dy为当前帧预处理图像的像素点与其匹配点对应的运动矢量在y方向的分量。本实施例中M和N的取值由实际需求而定。
此外,需要说明的是,对于当前帧预处理图像不是第一帧图像而言,若当前帧预处理图像的图像块位于当前帧预处理图像的边界处,则仍需通过块匹配运动估计方法来获取初始运动矢量。
第二步:对当前帧预处理图像的图像块内部的每个像素点对应的运动矢量(每个像素点对应的运动矢量,即指当前帧预处理图像中每个像素点与其匹配点对应的运动矢量,当前帧预处理图像的像素点的匹配点是指与当前帧预处理图像中的像素点对应的前一帧图像中的像素点)赋值为初始运动矢量,采用像素精度匹配方法获取运动矢量修正值。具体地,通过以下公式获得:
d(x,y)=di-|fc(x,y)-fr(x+dx,y+dy)|[ux,uy]T
其中:
d(x,y)为当前帧预处理图像的像素点(x,y)的运动矢量修正值,di为初始运动矢量,fc(x,y)是当前帧预处理图像中坐标为(x,y)的像素点的像素值,fr(x+dx,y+dy)是前一帧图像中坐标为(x+dx,y+dy)的像素点的像素值,Θ为梯度阈值,与图像的平滑度相关。
第三步:获取当前帧预处理图像的图像块内部的每个像素点对应的运动矢量,具体地,将初始运动矢量与每个像素点对应的运动矢量修正值相加,即可以得到每个像素点对应的运动矢量。
选取当前帧预处理图像的图像块内部的每个像素点对应的运动矢量的匹配误差与第一步中获得的三个候选运动矢量对应的匹配误差中,最小匹配误差所对应的运动矢量作为当前帧预处理图像的图像块的最终运动矢量。具体地,每个像素点对应的运动矢量的匹配误差仍采用公式(5)来计算(此时M=0,N=0)。
上述获得的当前帧预处理图像的图像块的最终运动矢量即为当前帧预处理图像的图像块中的像素点与其匹配点对应的正向运动矢量,也即当前帧预处理图像的图像块中的像素点与其匹配点对应的正向匹配值,对于当前帧预处理图像中的每个图像块均采用上述的方法获取所述图像块的最终运动矢量,进而可以获取当前帧预处理图像中的每个像素点与其匹配点对应的正向匹配值。而对于当前帧预处理图像的像素点与其匹配点对应的反向运动矢量的获取与正向运动矢量的获取相类似,不同的是将上述HRM方法中第一步至第三步中的当前帧预处理图像替换为前一帧图像,而将前一帧图像替换为当前帧预处理图像即可。
至此,通过上述的HRM方法获得了当前帧预处理图像的像素点与其匹配点对应的正向匹配值和反向匹配值。
检测上述的正向匹配值和反向匹配值之间的误差是否大于第一门限值,若大于则该像素点与其匹配点对应的运动矢量不可信,反之则为可信。所述第一门限由实际测试而定,可以为3~10个像素点的长度,本实施例中所述第一门限值的取值为5个像素点的长度。
本实施例中还通过计算当前帧预处理图像中图像块的平滑度来判断该图像块中所包含的像素点与其匹配点对应的运动矢量可信还是不可信。具体地,将所述当前帧预处理图像以预定尺寸分割为图像块,所述预定尺寸根据实际需求而定,本实施例中所述预定尺寸为4*4~8*8像素之间,优选地为4*4像素。对分割后的当前帧预处理图像中的每一个图像块的平滑度进行检测,检测所述图像块的平滑度是否大于第二门限值。
本实施例中图像块的平滑度可以通过获取该图像块所包含的所有像素点的像素值的均方差来衡量,即该图像块的平滑度为其包含的所有像素点的像素值的均方差,若所述图像块的平滑度大于所述第二门限值,则该图像块包含的像素点与其匹配点对应的运动矢量不可信,反之则为可信,所述第二门限由实际测试而定,可以为10~100,本实施例中所述第二门限值的取值为40。
经过上述的判断,获取了当前帧预处理图像中的像素点与其匹配点对应的运动矢量为不可信的像素点,则需要将运动矢量不可信的像素点进行去除,即去除所述当前帧预处理图像中正向匹配值和反向匹配值的误差大于第一门限值的像素点,以及所述图像块的平滑度大于第二门限值时,所述图像块中的像素点。
对当前帧预处理图像中的运动矢量不可信的像素点去除后,导致当前帧预处理图像中出现了许多空洞,因此,需要对其进行填补。本实施例中采用对当前帧预处理图像的色彩区域进行分割(即根据色彩的不同将图像区域划分为不同的色块),获取所述当前帧预处理图像的色彩区域分割信息,一方面利用所述色彩区域的分割信息来保留当前帧预处理图像中的物体边缘,另一方面也利用获取到的色彩区域分割信息中位于空洞周围的色彩区域的深度信息来确定需要填充的空洞的深度信息,进而对当前帧预处理图像中的空洞进行填充,以获得当前帧预处理图像的深度图像。
需要说明的是,若所述当前帧预处理图像在去除了运动矢量不可信的像素点后,所述当前帧预处理图像中出现大面积的空洞,则除了利用获取的当前帧预处理图像的色彩区域分割信息外,还需要利用缓存的当前帧图像的至少前一帧图像的深度图像的深度信息来确定所述空洞的像素点的深度信息,进而对去除了运动矢量不可信的像素点后的当前帧预处理图像中的空洞进行填充以获取当前帧预处理图像的深度图像。本实施例中通过缓存的前5帧的深度图像的深度信息来对当前帧预处理图像中的大面积空洞进行填充,且深度图像的深度信息通过以下公式获得:
其中:D(x,y)为像素点(x,y)的深度信息,u(x,y)为像素点(x,y)对应的运动矢量在x方向的分量,v(x,y)为像素点(x,y)对应的运动矢量在y方向的分量。结合当前帧预处理图像的色彩区域分割信息和缓存的当前帧图像的至少前一帧图像的深度图像的深度信息来对当前帧预处理图像中的空洞进行填充为现有技术,故此处不再展开具体详述。
此外,由于不同帧的图像之间,摄像头运动的距离可能会发生变化,因此,总体来讲每帧图像中像素点的运动矢量长度的比例也是会发生变化的(即同一个物体在摄像头运动过程当中其深度没有发生变化,但是由于摄像头运动距离的不同而造成与该物体对应的像素点的运动矢量的长度发生变化),故,需要通过归一化的方法来统一各帧对应的深度图像的比例,即对每一帧图像对应的深度图像均进行归一化处理。
而且对于利用缓存的图像帧的深度图像的深度信息对当前帧预处理图像进行填充的区域而言,由于缓存的图像帧的深度信息的比例与当前帧预处理图像的深度信息的比例不同,因此,更需要对当前帧预处理图像的深度图像进行归一化处理。具体地,通过以下公式对当前帧预处理图像的深度图像进行归一化处理:
其中:Dr为归一化的当前帧预处理图像的像素点的深度信息,D为当前帧预处理图像的像素点的深度信息,Dmin为当前帧预处理图像的像素点深度信息的最小值,Dmax为当前帧预处理图像的像素点深度信息的最大值。
在对所述当前帧预处理图像的深度图像进行归一化后,本实施例中还对归一化后的当前帧预处理图像的深度图像进行滤波处理,主要是为了对归一化后的当前帧预处理图像的深度图像进行去噪。本实施例中可以采用平滑滤波、中值滤波和双边(Bilateral)滤波中的一种对所述归一化后的当前帧预处理图像的深度图像进行滤波。
在通过上述步骤获得了具有精确深度信息的当前帧预处理图像的深度图像后,执行步骤S13,基于所述当前帧预处理图像及其深度图像获取当前帧图像的左眼图像和右眼图像。具体地,
将所述当前帧预处理图像作为右眼图像或左眼图像;
对所述当前帧预处理图像的深度图像进行映射,以获得映射图像;
对所述映射图像进行空洞填充,获取对应的另一眼图像。
本实施例中,由于对所述当前帧预处理图像的深度图像还进行了归一化和滤波,故首先对归一化和滤波后的当前帧预处理图像的深度图像进行映射,根据生理学研究的一些结论,人脑在合成立体图像时更多的依赖于右眼获取的信息(对于习惯使用右手的人来说),因此右眼图像质量好一些有助于提高立体图的观看效果,故本实施例中优选地将所述当前帧预处理图像的深度图像作为右眼图像,将所述归一化和滤波后的当前帧预处理图像的深度图像映射为左眼图像,具体地,通过以下公式实现对所述归一化和滤波后的当前帧预处理图像的深度图像进行映射:
xl=xc+k/Z
其中,xc为当前帧预处理图像的深度图像中像素点的横坐标;xl为通过映射获得的左眼图像中像素点的横坐标;k为比例系数,代表单位深度差对应的像素距离,其大小由手机使用的摄像头的物理特性的不同而不同,具体地通过实测的方法来确定,Z为摄像机与物点之间的距离。
需要说明的是,本实施例中,由于对当前帧预处理图像的深度图像还进行了归一化和滤波,故上述的xc应为归一化和滤波后的当前帧预处理图像的深度图像中像素点的横坐标。
然而,通过上述映射获取的映射图像(左眼图像)当中仍然会出现一些空洞和重叠,其中空洞部分是由于遮挡造成的图像信息缺失形成的,故仍需要对映射图像中出现的空洞进行填充,本实施例中,对所述映射图像进行空洞填充包括:对所述映射图像进行线性滤波以填充空洞区域的像素值,而对于映射图像中出现的像素点重叠的部分,则用深度信息小的像素点的像素值作为最终的像素值。
另外,为了减少空洞的产生,可以在对归一化和滤波后的当前帧预处理图像的深度图像进行映射前进行预处理,具体地,本实施例中采用对归一化和滤波后的当前帧预处理图像的深度图像先进行低通滤波后再进行映射,归一化和滤波后的当前帧预处理图像的深度图像经过低通滤波后,获得的深度图像的边缘平滑,进而可以减少空洞的产生,提高最终渲染的左眼图像的质量。
本实施例中将所述当前帧预处理图像作为右眼图像,而将对归一化和滤波后的当前帧预处理图像的深度图像进行预处理后再进行映射、空洞填充后的图像作为左眼图像;而在其他实施例中也可以将所述当前帧预处理图像作为左眼图像,而将对归一化和滤波后的当前帧预处理图像的深度图像进行预处理后再进行映射、空洞填充后的图像作为右眼图像。
通过上述的视频图像的转换方法获得当前帧图像的左眼图像和右眼图像后,将获得的左眼图像和右眼图像输入3D视频显示***即可以显示有立体感的3D视频。
另外,通过上述的视频图像的转换方法,对获得的2D视频的各帧图像的左眼图像和右眼图像进行视频编码,则可以获得三维视频码流。对获得的2D视频的当前帧图像的左眼图像和右眼图像进行图像压缩,则可以获得静态的单帧3D图像。
对应于上述的视频图像的转换方法,本发明实施例还提供一种视频图像的转换装置,请参见图7,图7是本发明实施例的视频图像的转换装置的结构示意图,如图7所示,所述视频图像的转换装置包括:
预处理单元A10,适于对二维视频的当前帧图像进行预处理获得当前帧预处理图像,所述预处理包括:去除当前帧图像的全局运动。
深度图像提取单元A11,与所述预处理单元A10相连,适于提取所述当前帧预处理图像的的深度图像。
深度图像渲染单元A12,与所述深度图像提取单元A11相连,适于基于所述当前帧预处理图像及其深度图像获取当前帧图像的左眼图像和右眼图像。
所述预处理单元A10包括:
矢量场获取单元(图中未示出),适于获取当前帧图像的全局运动矢量场和全局旋转运动矢量场。
全局运动去除单元(图中未示出),适于基于所述当前帧图像的全局运动矢量场和全局旋转运动矢量场对当前帧图像进行全局平移和全局旋转。
本实施例中,所述预处理单元A10还包括:
畸变去除单元(图中未示出),适于在去除所述当前帧图像的全局运动前去除所述当前帧图像的畸变。所述畸变去除单元适于采用桶形畸变模型去除当前帧图像的畸变。
所述深度图像提取单元A11包括:
去除单元110,与所述预处理单元A10相连,适于去除所述当前帧预处理图像中运动矢量不可信的像素点。
分割信息获取单元111,与所述预处理单元A10相连,适于获取所述当前帧预处理图像的色彩区域分割信息。
第一空洞填充单元112,分别与所述去除单元110和分割信息获取单元111相连,适于至少基于所述色彩区域分割信息对去除了运动矢量不可信的像素点的当前帧预处理图像中的空洞进行填充,获取当前帧预处理图像的深度图像。
其中,所述去除单元110包括:
第一缓存单元(图中未示出),适于存储当前帧图像的前一帧图像。
匹配单元(图中未示出),适于对当前帧预处理图像与前一帧图像进行匹配,获取当前帧预处理图像的像素点与其匹配点对应的正向匹配值和反向匹配值。
图像分割单元(图中未示出),适于将所述当前帧预处理图像以预定尺寸分割为图像块。
第一检测单元(图中未示出),适于检测当前帧预处理图像中的像素点的正向匹配值和反向匹配值的误差是否大于第一门限值。
第二检测单元(图中未示出),适于检测所述图像分割单元分割的图像块的平滑度是否大于第二门限值。
第一去除单元(图中未示出),适于去除所述当前帧预处理图像中所述正向匹配值和反向匹配值的误差大于第一门限值的像素点,以及所述图像块的平滑度大于第二门限值时,所述图像块中的像素点。
本实施例中,所述匹配单元对当前帧预处理图像与前一帧图像进行匹配采用块匹配方法、光流法和HRM方法中的一种。
本实施例中,所述深度图像提取单元A11还包括:
第二缓存单元(图中未示出),适于缓存当前帧图像的至少前一帧图像的深度图像。
所述第一空洞填充单元112,还适于结合所述色彩区域分割信息和第二缓存单元缓存的当前帧图像的至少前一帧图像的深度图像的深度信息确定所述空洞的像素点的深度信息,以对所述空洞进行填充。
所述深度图像渲染单元A12包括:
输出单元120,与所述预处理单元A10相连,适于将所述当前帧预处理图像作为右眼图像或左眼图像输出。
映射单元121,与所述第一空洞填充单元112相连,适于对所述当前帧预处理图像的深度图像进行映射,以获得映射图像。
第二空洞填充单元122,与所述映射单元121相连,适于对所述映射图像进行空洞填充,获取对应的另一眼图像。
本实施例中,所述映射单元121,适于对所述当前帧预处理图像的深度图像进行低通滤波后再进行映射。
所述第二空洞填充单元122包括:
第二滤波单元(图中未示出),适于对所述映射图像进行线性滤波。
本实施例中,所述视频图像的转换装置还包括:视频编码单元(图中未示出),适于对所述二维视频的各帧图像的左眼图像和右眼图像进行视频编码,以获得三维视频码流。
图像压缩单元(图中未示出),适于对所述当前帧的左眼图像和右眼图像进行图像压缩,以获得三维图像。
请参见图8,图8是本发明另一实施例的视频图像的转换装置的结构示意图,图8中,预处理单元B10、去除单元110、分割信息获取单元111、第一空洞填充单元112、输出单元120、第二空洞填充单元122均与图7中的相类似,不同的是本实施例中,深度图像提取单元B11除了包括去除单元110、分割信息获取单元111和第一空洞填充单元112外,还包括:
归一化单元113,与所述第一空洞填充单元112相连,适于对所述当前帧预处理图像的深度图像进行归一化。
第一滤波单元114,与所述归一化单元113相连,适于对归一化后的当前帧预处理图像的深度图像进行滤波。
深度图像渲染单元B12,适于基于所述当前帧预处理图像及归一化和滤波后的当前帧预处理图像的深度图像获取当前帧图像的左眼图像和右眼图像。故,图8中,映射单元121与所述第一滤波单元114相连,适于对经过归一化和滤波后的当前帧预处理图像的深度图像进行映射,以获得映射图像。
所述第一滤波单元114通过平滑滤波、中值滤波和Bilateral滤波中的一种对所述归一化后的当前帧预处理图像的深度图像进行滤波。
本发明实施例的视频图像的转换装置将二维视频转换为三维视频的过程可以参考上述的视频图像的转换方法进行,在此不再赘述。
综上所述,本发明的技术方案至少具有以下有益效果:
通过对所述二维视频的当前帧图像先进行预处理获得当前帧预处理图像,然后获取所述当前帧预处理图像的深度图像、最后基于所述当前帧预处理图像的深度图像映射出左眼图像或右眼图像,并将所述当前帧预处理图像作为另一眼图像,在实现了在手机上将二维视频转换为三维视频的同时,也使得用户在通过具有单一摄像头的手机制作3D视频的过程中可以沿任意方向移动手机,且不需要进行多次操作就可以获得效果较佳的3D视频,给用户提供了极大的方便。
通过预处理的方式去除了二维视频的当前帧图像的畸变和全局运动获得了当前帧图像的预处理图像,对当前帧预处理图像中运动矢量不可信的像素点进行去除,并基于所述当前帧预处理图像的色彩区域分割信息对去除了运动矢量不可信的像素点的当前帧预处理图像中的空洞进行填充,进而获得深度图像,相对于直接通过当前帧图像来获得的深度图像而言其精确度高,因此也提高了最终获得的3D视频的质量。
进一步地,在去除了当前帧预处理图像中的运动矢量不可信的像素点后,利用缓存的当前帧图像的至少前一帧图像的深度图像的深度信息及所述当前帧图像的色彩区域分割信息,对当前帧预处理图像中的大面积空洞进行填充,进一步地提高了获得的当前帧预处理图像的深度图像的精确度。
通过对当前帧预处理图像的深度图像进行归一化和滤波处理,更进一步地提高了当前帧预处理图像的深度图像的精确度,进而提高了3D视频的质量。
对所述当前帧预处理图像的深度图像进行映射包括:对所述当前帧预处理图像的深度图像进行低通滤波后再进行映射,使得所述当前帧预处理图像的深度图像的边缘平滑,减少了对所述当前帧预处理图像的深度图像进行映射时空洞的产生,提高了最终获得当前帧图像的左眼或右眼图像的质量,进而也提高了3D视频的质量。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (26)

1.一种视频图像的转换方法,其特征在于,包括:
对二维视频的当前帧图像进行预处理获得当前帧预处理图像,所述预处理包括:去除当前帧图像的全局运动;
提取所述当前帧预处理图像的深度图像,包括:去除所述当前帧预处理图像中运动矢量不可信的像素点,获取所述当前帧预处理图像的色彩区域分割信息,至少基于所述色彩区域分割信息对去除了运动矢量不可信的像素点的当前帧预处理图像中的空洞进行填充,获取当前帧预处理图像的深度图像;
基于所述当前帧预处理图像及其深度图像获取当前帧图像的左眼图像和右眼图像,包括:将所述当前帧预处理图像作为右眼图像或左眼图像;对所述当前帧预处理图像的深度图像进行映射,以获得映射图像;对所述映射图像进行空洞填充,获取对应的另一眼图像。
2.如权利要求1所述的视频图像的转换方法,其特征在于,所述去除当前帧图像的全局运动包括:
获取当前帧图像的全局运动矢量场和全局旋转运动矢量场;
基于所述当前帧图像的全局运动矢量场和全局旋转运动矢量场对当前帧图像进行全局平移和全局旋转。
3.如权利要求1所述的视频图像的转换方法,其特征在于,所述预处理还包括:在去除所述当前帧图像的全局运动前去除所述当前帧图像的畸变。
4.如权利要求3所述的视频图像的转换方法,其特征在于,采用桶形畸变模型去除所述当前帧图像的畸变。
5.如权利要求1所述的视频图像的转换方法,其特征在于,所述去除所述当前帧预处理图像中运动矢量不可信的像素点包括:
对当前帧预处理图像与前一帧图像进行匹配,获取当前帧预处理图像的像素点与其匹配点对应的正向匹配值和反向匹配值;
将所述当前帧预处理图像以预定尺寸分割为图像块;
去除所述当前帧预处理图像中所述正向匹配值和反向匹配值的误差大于第一门限值的像素点,以及所述图像块的平滑度大于第二门限值时,所述图像块中的像素点。
6.如权利要求5所述的视频图像的转换方法,其特征在于,所述对当前帧预处理图像与前一帧图像进行匹配采用块匹配方法、光流法和混合迭代匹配法中的一种。
7.如权利要求1所述的视频图像的转换方法,其特征在于,所述至少基于所述色彩区域分割信息对去除了运动矢量不可信的像素点的当前帧预处理图像中的空洞进行填充包括:结合所述色彩区域分割信息和缓存的当前帧图像的至少前一帧图像的深度图像的深度信息确定所述空洞的像素点的深度信息,以对所述空洞进行填充。
8.如权利要求1所述的视频图像的转换方法,其特征在于,所述当前帧预处理图像的深度图像为归一化和滤波后的当前帧预处理图像的深度图像。
9.如权利要求8所述的视频图像的转换方法,其特征在于,所述滤波为平滑滤波、中值滤波和双边滤波中的一种。
10.如权利要求1所述的视频图像的转换方法,其特征在于,所述对所述当前帧预处理图像的深度图像进行映射包括:对所述当前帧预处理图像的深度图像进行低通滤波后再进行映射。
11.如权利要求1所述的视频图像的转换方法,其特征在于,所述对所述映射图像进行空洞填充包括:对所述映射图像进行线性滤波。
12.如权利要求1所述的视频图像的转换方法,其特征在于,还包括:对所述二维视频的各帧图像的左眼图像和右眼图像进行视频编码,以获得三维视频码流。
13.如权利要求1所述的视频图像的转换方法,其特征在于,还包括:对所述当前帧的左眼图像和右眼图像进行图像压缩,以获得三维图像。
14.一种视频图像的转换装置,其特征在于,包括:
预处理单元,适于对二维视频的当前帧图像进行预处理获得当前帧预处理图像,所述预处理包括:去除当前帧图像的全局运动;
深度图像提取单元,适于提取所述当前帧预处理图像的深度图像;
深度图像渲染单元,适于基于所述当前帧预处理图像及其深度图像获取当前帧图像的左眼图像和右眼图像;
所述深度图像提取单元包括:
去除单元,适于去除所述当前帧预处理图像中运动矢量不可信的像素点;
分割信息获取单元,适于获取所述当前帧预处理图像的色彩区域分割信息;
第一空洞填充单元,适于至少基于所述色彩区域分割信息对去除了运动矢量不可信的像素点的当前帧预处理图像中的空洞进行填充,获取当前帧预处理图像的深度图像,包括:输出单元,适于将所述当前帧预处理图像作为右眼图像或左眼图像输出;映射单元,适于对所述当前帧预处理图像的深度图像进行映射,以获得映射图像;第二空洞填充单元,适于对所述映射图像进行空洞填充,获取对应的另一眼图像。
15.如权利要求14所述的视频图像的转换装置,其特征在于,所述预处理单元包括:
矢量场获取单元,适于获取当前帧图像的全局运动矢量场和全局旋转运动矢量场;
全局运动去除单元,适于基于所述当前帧图像的全局运动矢量场和全局旋转运动矢量场对当前帧图像进行全局平移和全局旋转。
16.如权利要求15所述的视频图像的转换装置,其特征在于,所述预处理单元还包括:畸变去除单元,适于在去除所述当前帧图像的全局运动前去除所述当前帧图像的畸变。
17.如权利要求16所述的视频图像的转换装置,其特征在于,所述畸变去除单元适于采用桶形畸变模型去除当前帧图像的畸变。
18.如权利要求14所述的视频图像的转换装置,其特征在于,所述去除单元包括:
第一缓存单元,适于存储当前帧图像的前一帧图像;
匹配单元,适于对当前帧预处理图像与前一帧图像进行匹配,获取当前帧预处理图像的像素点与其匹配点对应的正向匹配值和反向匹配值;
图像分割单元,适于将所述当前帧预处理图像以预定尺寸分割为图像块;
第一检测单元,适于检测当前帧预处理图像中的像素点的正向匹配值和反向匹配值的误差是否大于第一门限值;
第二检测单元,适于检测所述图像分割单元分割的图像块的平滑度是否大于第二门限值;
第一去除单元,适于去除所述当前帧预处理图像中所述正向匹配值和反向匹配值的误差大于第一门限值的像素点,以及所述图像块的平滑度大于第二门限值时,所述图像块中的像素点。
19.如权利要求18所述的视频图像的转换装置,其特征在于,所述对当前帧预处理图像与前一帧图像进行匹配采用块匹配方法、光流法和混合迭代匹配法中的一种。
20.如权利要求14所述的视频图像的转换装置,其特征在于,所述深度图像提取单元还包括:
第二缓存单元,适于缓存当前帧图像的至少前一帧图像的深度图像;
所述第一空洞填充单元,还适于结合所述色彩区域分割信息和第二缓存单元缓存的当前帧图像的至少前一帧图像的深度图像的深度信息确定所述空洞的像素点的深度信息,以对所述空洞进行填充。
21.如权利要求14所述的视频图像的转换装置,其特征在于,还包括:
归一化单元,适于对所述当前帧预处理图像的深度图像进行归一化;
第一滤波单元,适于对归一化后的当前帧预处理图像的深度图像进行滤波;
所述深度图像渲染单元适于基于所述当前帧预处理图像及归一化和滤波后的当前帧预处理图像的深度图像获取当前帧图像的左眼图像和右眼图像。
22.如权利要求21所述的视频图像的转换装置,其特征在于,所述滤波为平滑滤波、中值滤波和双边滤波中的一种。
23.如权利要求14所述的视频图像的转换装置,其特征在于,所述映射单元适于对所述当前帧预处理图像的深度图像进行低通滤波后再进行映射。
24.如权利要求14所述的视频图像的转换装置,其特征在于,所述第二空洞填充单元包括:第二滤波单元,适于对所述映射图像进行线性滤波。
25.如权利要求14所述的视频图像的转换装置,其特征在于,还包括:视频编码单元,适于对所述二维视频的各帧图像的左眼图像和右眼图像进行视频编码,以获得三维视频码流。
26.如权利要求14所述的视频图像的转换装置,其特征在于,还包括:图像压缩单元,适于对所述当前帧的左眼图像和右眼图像进行图像压缩,以获得三维图像。
CN201210013123.XA 2012-01-16 2012-01-16 视频图像的转换方法及装置 Active CN103208110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210013123.XA CN103208110B (zh) 2012-01-16 2012-01-16 视频图像的转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210013123.XA CN103208110B (zh) 2012-01-16 2012-01-16 视频图像的转换方法及装置

Publications (2)

Publication Number Publication Date
CN103208110A CN103208110A (zh) 2013-07-17
CN103208110B true CN103208110B (zh) 2018-08-24

Family

ID=48755327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210013123.XA Active CN103208110B (zh) 2012-01-16 2012-01-16 视频图像的转换方法及装置

Country Status (1)

Country Link
CN (1) CN103208110B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103561028A (zh) * 2013-11-06 2014-02-05 烽火通信科技股份有限公司 基于裸眼3d技术的ims可视话机
CN107666606B (zh) 2016-07-29 2019-07-12 东南大学 双目全景图像获取方法及装置
CN108537721B (zh) * 2017-03-02 2021-09-07 株式会社理光 全景图像的处理方法、装置及电子设备
US10564174B2 (en) * 2017-09-06 2020-02-18 Pixart Imaging Inc. Optical sensing apparatuses, method, and optical detecting module capable of estimating multi-degree-of-freedom motion
CN108234985B (zh) * 2018-03-21 2021-09-03 南阳师范学院 用于反向深度图渲染处理的维度变换空间下的滤波方法
CN111556244B (zh) * 2020-04-23 2022-03-11 北京百度网讯科技有限公司 视频风格迁移方法和装置
CN111833269B (zh) * 2020-07-13 2024-02-02 字节跳动有限公司 视频降噪方法、装置、电子设备及计算机可读介质
CN116711303A (zh) * 2021-01-06 2023-09-05 华为技术有限公司 三维视频通话方法及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7573475B2 (en) * 2006-06-01 2009-08-11 Industrial Light & Magic 2D to 3D image conversion
CN101968895A (zh) * 2009-07-27 2011-02-09 鸿富锦精密工业(深圳)有限公司 二维图像转换***及方法
CN102163331A (zh) * 2010-02-12 2011-08-24 王炳立 采用标定方法的图像辅助***
CN102098526B (zh) * 2011-01-28 2012-08-22 清华大学 一种深度图求取方法及装置

Also Published As

Publication number Publication date
CN103208110A (zh) 2013-07-17

Similar Documents

Publication Publication Date Title
CN103208110B (zh) 视频图像的转换方法及装置
CN108734776B (zh) 一种基于散斑的三维人脸重建方法及设备
CN104504671B (zh) 一种用于立体显示的虚实融合图像生成方法
US9445072B2 (en) Synthesizing views based on image domain warping
US8711204B2 (en) Stereoscopic editing for video production, post-production and display adaptation
CN101902657B (zh) 一种基于深度图分层的虚拟多视点图像的生成方法
CN109035394B (zh) 人脸三维模型重建方法、装置、设备、***及移动终端
CN101247530A (zh) 增强图像的立体效果的三维图像显示设备和方法
WO2010119852A1 (ja) 任意視点画像合成装置
CN109919911A (zh) 基于多视角光度立体的移动三维重建方法
CN101651841A (zh) 一种立体视频通讯的实现方法、***和设备
CN104506872B (zh) 一种平面视频转立体视频的方法及装置
CN109769109A (zh) 基于虚拟视点合成绘制三维物体的方法和***
CN105612742A (zh) 重新映射深度图以用于3d观看
CN104853175B (zh) 一种新的合成虚拟视点客观质量评价方法
CN102026012B (zh) 平面视频立体化转换深度图生成方法和装置
CN109218706B (zh) 一种由单张图像生成立体视觉图像的方法
Zhang et al. Adaptive reconstruction of intermediate views from stereoscopic images
CN111899293B (zh) Ar应用中的虚实遮挡处理方法
CN106169179A (zh) 图像降噪方法以及图像降噪装置
Hanhart et al. Free-viewpoint video sequences: A new challenge for objective quality metrics
Kao Stereoscopic image generation with depth image based rendering
Knorr et al. From 2D-to stereo-to multi-view video
Sharma et al. A novel image fusion scheme for ftv view synthesis based on layered depth scene representation & scale periodic transform
US20190297319A1 (en) Individual visual immersion device for a moving person

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190314

Address after: 101399 Building 8-07, Ronghui Garden 6, Shunyi Airport Economic Core Area, Beijing

Patentee after: Xin Xin finance leasing (Beijing) Co.,Ltd.

Address before: 201203 Shanghai Pudong New Area Pudong Zhangjiang hi tech park, 2288 Chong Nong Road, exhibition center, 1 building.

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130717

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xin Xin finance leasing (Beijing) Co.,Ltd.

Contract record no.: X2021110000008

Denomination of invention: Video image conversion method and device

Granted publication date: 20180824

License type: Exclusive License

Record date: 20210317

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221021

Address after: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 101399 Building 8-07, Ronghui Garden 6, Shunyi Airport Economic Core Area, Beijing

Patentee before: Xin Xin finance leasing (Beijing) Co.,Ltd.