CN111612878B - 将静态照片制作成三维效果视频的方法及装置 - Google Patents
将静态照片制作成三维效果视频的方法及装置 Download PDFInfo
- Publication number
- CN111612878B CN111612878B CN202010436112.7A CN202010436112A CN111612878B CN 111612878 B CN111612878 B CN 111612878B CN 202010436112 A CN202010436112 A CN 202010436112A CN 111612878 B CN111612878 B CN 111612878B
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- video
- depth
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/80—Shading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/80—Shading
- G06T15/87—Gouraud shading
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/271—Image signal generators wherein the generated image signals comprise depth maps or disparity maps
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种将静态照片制作成三维效果视频的方法及装置,得到神经网络参数模型;利用所述移动客户端获取原始图像,确定待处理图像;将所述待处理图像输入所述神经网络参数模型中,神经网络参数模型将所述待处理图像转化为景深灰度图像,得到第一图像;在预渲染操作后的移动客户端中对原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像;利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频。本申请不需要依赖设备硬件,通过对任一单张图像进行景深信息预测,进而重建三维效果,当用户移动照片角度时,可以演示该照片在不同视角下的三维效果,并最终制作成面向用户记录生活娱乐需求的视频形式。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种将静态照片制作成三维效果视频的方法及装置。
背景技术
相关技术中,市面上用静态图片进行三维重建的方案有双目立体视觉三维重建,即通过如双摄像头设备同时拍摄获得两张有显示角度差异的图像,进而通过BM或SGM等立体匹配算法,计算视差图,最终恢复出景深信息。也有使用具有TOF摄像头的设备,或者如苹果、华为厂商等移动设备的人像模式直接拍摄出含有景深信息的图像。但是上述方案都一定程度地依赖设备硬件或者特定***功能,要求用户使用特定设备进行拍摄或者需要有同一个场景的不同角度的图像,对于用户导入任一已有的图像则难以获得满意的景深信息。而获取到景深信息后,往往是进行三维点云重建等构建面向科研的展示方式,但其并不是面向用户记录生活娱乐需求的友好呈现方式。
对大部分用户来说,在手机硬件或***较为低端的情况下,无法拍摄带有景深信息的图像,不能根据这张图像制作出三维效果的视频,这并不是面向用户记录生活娱乐需求的友好呈现方式。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种将静态照片制作成三维效果视频的方法及装置,以解决现有技术中无法拍摄带有景深信息的图像,不能根据这张图像制作出三维效果的视频的问题。
为实现以上目的,本发明采用如下技术方案:一种将静态照片制作成三维效果视频的方法,包括:
对神经网络进行训练,得到神经网络参数模型;
将所述神经网络参数模型载入到移动客户端,利用所述移动客户端获取原始图像,并根据所述原始图像,确定待处理图像;
将所述待处理图像输入所述神经网络参数模型中,所述神经网络参数模型将所述待处理图像转化为景深灰度图像,得到第一图像;
所述移动客户端进行预渲染操作;
在预渲染操作后的移动客户端中对所述原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像;
利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频。
进一步的,所述对神经网络进行训练,得到神经网络参数模型,包括:
获取多个场景的图片以及景深信息,对所述景深信息进行处理获取景深灰度图;
将所述图片、景深灰度图进行缩放至预设尺寸以构成训练数据;
将所述训练数据输入到神经网络中进行训练;
在训练过程中动态调节学习率并进行多次训练,直至神经网络收敛,在所述神经网络预测结果真实表示所述景深信息时存储神经网络参数,获取神经网络参数模型。
进一步的,所述根据所述原始图像,确定待处理的图像,包括:
对原始图像进行尺寸调整,缩放至预设尺寸,将所述调整为预设尺寸的图像确定为待处理图像;
所述原始图像为通过摄像头拍摄的图片。
进一步的,所述移动客户端进行预渲染操作,包括:
配置启用OpenGLES以及与其关联的移动界面组件,设置视口大小为输出尺寸;
初始化并设置帧缓存,绑定帧缓存纹理,设置帧缓存纹理的颜色模式为GL_RGBA,大小为所述输出尺寸,格式为GL_UNSIGNED_BYTE,设置帧缓存纹理的环绕模式为GL_CLAMP_TO_EDGE,过滤模式为GL_LINEAR;
设置启用深度测试;
载入顶点着色器和片段着色器代码文件,编译链接着色器程序,获得着色器句柄;
通过所述着色器句柄,启用着色器程序;
为所述着色器程序设置一组顶点坐标,一组纹理坐标;其中,顶点坐标取值范围[-1,1],纹理坐标取值范围[0,1],两组坐标均以一维浮点型数组表示且数组长度一致;
为着色器程序设置当前时间参数;
计算正交投影转换矩阵PM以及根据所述时间参数计算视见转换矩阵VM;
设置模型矩阵MM为单位矩阵;
将视见转换矩阵VM和所述模型矩阵MM相乘得到MV矩阵,再将MV矩阵和正交投影转换矩阵PM相乘得到MVP矩阵;
为所述着色器程序设置所述MVP矩阵。
进一步的,根据输出尺寸调整顶点坐标和纹理坐标的数量。
进一步的,所述在预渲染操作后的移动客户端中对所述原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像,包括:
载入预渲染程序和景深灰度图像;
将所述原始图像和第一图像输入所述预渲染程序;
计算每一个所述顶点坐标和对应的纹理坐标,根据纹理坐标获取第一图像中对应坐标位置的像素值的绿色通道G分量,将所述G分量的取值赋值给所述顶点坐标的Z分量,将所述MVP矩阵和顶点坐标相乘并赋值给gl_Position;
待所述顶点坐标和纹理坐标均计算完成后,在所述片段着色器中根据片段的纹理坐标采样原始图片中的颜色信息并赋值给gl_FragColor;
输出具有三维效果的第二图像。
进一步的,所述利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频,包括:
创建一个视频文件、一个视频编码器、一个视频合成器、一个定时器;其中,所述定时器以24帧每秒的速度运行;
在每一帧中,记录当前的时间戳,并将所述时间戳作为参数传入所述时间参数中,再进行渲染操作;
在所述渲染操作完毕后,通过所述视频编码器对纹理进行编码,得到视频编码数据;
利用所述视频合成器将所述视频编码数据合成到所述视频文件中并导出,得到三维效果视频。
进一步的,所述神经网络包括:景深预测模块,用于输出预测的景深灰度图像;
所述景深预测模块包括:卷积层、批标准化层、激活层、最大值池化层、平均池化层、上采样层。
本申请实施例提供一种将静态照片制作成三维效果视频的装置,包括:
训练模块,用于对神经网络进行训练,得到神经网络参数模型;
获取模块,用于将所述神经网络参数模型载入到移动客户端,利用所述移动客户端获取原始图像,并根据所述原始图像,确定待处理图像;
神经网络模块,用于将所述待处理图像输入所述神经网络参数模型中,所述神经网络参数模型将所述待处理图像转化为景深灰度图像,得到第一图像;
预渲染模块,用于对所述移动客户端进行预渲染操作;
渲染模块,用于在预渲染操作后的移动客户端中对所述原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像;
输出模块,用于利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频。
进一步的,所述获取模块,包括:
第一获取单元,用于获取多个场景的图片以及景深信息,对景深信息进行处理获取景深灰度图;其中,所述景深灰度图中,白色的区域表示远景,黑色区域表示前景;
调整单元,用于将所述图片、景深灰度图进行缩放至预设尺寸以构成训练数据;
训练单元,用于将所述训练数据输入到神经网络中进行训练;
第二获取单元,用于在训练过程中动态调节学习率并进行多次训练,直至神经网络收敛,在所述神经网络预测结果真实表示所述景深信息时存储神经网络参数,获取神经网络参数模型。
本发明采用以上技术方案,能够达到的有益效果包括:
本发明通过构建神经网络模型,不需要依赖设备硬件,通过对任一单张图像进行景深信息预测,进而重建三维效果,当用户移动照片角度时,可以演示该照片在不同视角下的三维效果,并最终制作成面向用户记录生活娱乐需求的视频形式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种将静态照片制作成三维效果视频的方法步骤示意图;
图2为本发明一种将静态照片制作成三维效果视频的方法的流程示意图;
图3为本发明构建神经网络参数模型的步骤示意图;
图4为本发明一种将静态照片制作成三维效果视频的装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面结合附图介绍本申请实施例中提供的一个具体的将静态照片制作成三维效果视频的方法。
如图1所示,本申请提供一种将静态照片制作成三维效果视频的方法,包括:
S101、对神经网络进行训练,得到神经网络参数模型;
具体的,如图2所示,采用多次训练数据对神经网络进行训练,最终得到最优的神经网络参数模型。
S102、将神经网络参数模型载入到移动客户端,利用移动客户端获取原始图像,并根据原始图像,确定待处理图像;
将训练后得到的神经网络参数模型载入到移动客户端,用户通过移动客户端拍摄图片,或是从移动客户端存储的图片库中获取图片作为原始图像,即原始图像是通过拍照类软件或图像类产品获得的人像或风景二维图像,对原始图像的尺寸进行调整,调整为预设尺寸的图像,以方便对图像进行处理,预设尺寸的图像即为待处理图像。
其中,移动客户端为设有摄像头的终端,例如:移动客户端可以是手机、平板电脑等。
S103、将待处理的图像输入神经网络参数模型中,神经网络参数模型将待处理的图像转化为景深灰度图像,得到第一图像;
将调整为预设尺寸的图像输入到神经网络参数模型中,得到景深灰度图像,称为第一图像。
S104、移动客户端进行预渲染操作;
对移动客户端进行配置,初始化渲染程序。
S105、在预渲染操作后的移动客户端中对原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像;
对原始图像和第一图像进行渲染操作,得到具有三维效果的第二图像。
S106、利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频;
对具有三维效果的第二图像进行视频合成,得到三维效果的视频。
一些实施例中,如图3所示,对神经网络进行训练,得到神经网络参数模型,包括:
S301、获取多个场景的图片以及景深信息,对景深信息进行处理获取景深灰度图;
在移动客户端的文件***中获取多个场景的图片或者通过双摄或景深摄像头拍摄的各种各样场景下的照片以及景深信息,对景深信息进行处理得到表示照片景深信息的景深灰度图;需要说明的是,景深灰度图中假设0表示纯黑色,255表示纯白色,灰度图每一个像素的色值落在0-255之间,越接近255就越远,越接近0就越近。
S302、将图片、景深灰度图进行缩放至预设尺寸以构成训练数据;
将图片、景深灰度图的尺寸进行调整,调整为预设尺寸的图片,其中预设尺寸为用户预设的,调整为对图片进行放大或缩小,缩放为预设尺寸的图片和缩放为预设尺寸的景深灰度图即为训练数据。
S303、将训练数据输入到神经网络中进行训练;
将缩放为预设尺寸的图片和缩放为预设尺寸的景深灰度图输入到神经网络中进行训练。
S304、在训练过程中动态调节学习率并进行多次训练,直至神经网络收敛,在神经网络预测结果真实表示景深信息时存储神经网络参数时,存储神经网络参数,获取神经网络参数模型。
训练过程中动态调节学习率,进行多次训练,学习,同时观察模型预测结果,直到神经网络收敛并且模型预测结果能较为真实地表示输入图片的景深信息时,存储神经网络参数,得到神经网络参数模型,完成模型训练。
一些实施例中,根据原始图像,确定待处理图像,包括:
对原始图像进行尺寸调整,缩放至预设尺寸,将调整为预设尺寸的图像确定为待处理图像;
原始图像为通过摄像头拍摄的图片。
具体的,预设尺寸为提前设定的尺寸,用户可根据实际情况进行设定,本申请在此不做限定;原始图像为通过拍照类软件或图像类产品获得的人像或风景二维图像。
一些实施例中,移动客户端进行预渲染操作,包括:
配置启用OpenGLES以及与其关联的移动界面组件,设置视口大小为输出尺寸;
初始化并设置帧缓存,绑定帧缓存纹理,设置帧缓存纹理的颜色模式为GL_RGBA,大小为输出尺寸,格式为GL_UNSIGNED_BYTE,设置帧缓存纹理的环绕模式为GL_CLAMP_TO_EDGE,过滤模式为GL_LINEAR;
设置启用深度测试;
载入顶点着色器和片段着色器代码文件,编译链接着色器程序,获得着色器句柄;
通过着色器句柄,启用着色器程序;
为着色器程序设置一组顶点坐标,一组纹理坐标;其中,顶点坐标取值范围[-1,1],纹理坐标取值范围[0,1],两组坐标均以一维浮点型数组表示且数组长度一致;
为着色器程序设置当前时间参数;
计算正交投影转换矩阵PM以及根据时间参数计算视见转换矩阵VM;
设置模型矩阵MM为单位矩阵;
将视见转换矩阵VM和模型矩阵MM相乘得到MV矩阵,再将MV矩阵和正交投影转换矩阵PM相乘得到MVP矩阵;
为着色器程序设置MVP矩阵。
具体的,预渲染模块,用于初始化渲染程序上下文;具体如下:
配置启用OpenGLES以及其关联的移动界面组件,优选地,可以根据移动客户端***信息使用2.0或3.0等版本;
设置视口大小为输出尺寸
初始化并设置帧缓存,绑定帧缓存纹理,设置帧缓存纹理的颜色模式为GL_RGBA,大小为输出尺寸,格式为GL_UNSIGNED_BYTE,设置帧缓存纹理的环绕模式为GL_CLAMP_TO_EDGE,过滤模式为GL_LINEAR。
设置启用深度测试GL_DEPTH_TEST。
载入顶点着色器和片段着色器代码文件,编译链接着色器程序,获得着色器句柄。
通过着色器句柄,启用着色器程序。
为着色器程序设置一组顶点坐标,顶点坐标取值范围[-1,1],一组纹理坐标,纹理坐标取值范围[0,1],两组坐标以两个一维浮点型数组表示且数组长度一致,优选地,可以根据输出尺寸调整坐标的数量,数量越多渲染效果越细致,但是渲染计算量也会越大。
为着色器程度设置当前时间参数TIME,时间参数TIME会不断变化。
计算正交投影转换矩阵PM,如下
LEFT为-1.0;
RIGHT为1.0;
BOTTOM为-1.0;
TOP为1.0;
NEAR为1.0;
FAR为5.0;
Matrix.orthoM(PM,0,LEFT,RIGHT,BOTTOM,TOP,NEAR,FAR);
根据时间参数,计算视见转换矩阵VM,如下
设置EYE向量,如下
ANGLE=(360/2000)*(TIME);
EYE向量X分量EYEX为SIN(ANGLE*PI/180)*0.75;
EYE向量Y分量EYEY为SIN(ANGLE*PI/180)*0.75;
EYE向量Z分量EYEZ为4.0;
设置LOOK向量,如下
LOOK向量X分量LOOKX为0.0;
LOOK向量Y分量LOOKY为0.0;
LOOK向量Z分量LOOKZ为-2.0;
设置UP向量,如下
UP向量X分量UPX为0.0;
UP向量Y分量UPY为1.0;
UP向量Z分量UPZ为0.0;
Matrix.setLookAtM(VM,0,EYEX,EYEY,EYEZ,LOOKX,LOOKY,LOOKZ,UPX,UPY,UPZ);
设置模型矩阵MM为单位矩阵。
将视见转换矩阵VM和模型矩阵MM相乘得到MV矩阵,将MV矩阵和正交投影转换矩阵PM相乘得到MVP矩阵,为着色器程序设置MVP矩阵。
优选的,在预渲染操作后的移动客户端中对原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像,包括:
载入预渲染程序和景深灰度图像;
将原始图像和第一图像输入预渲染程序;
计算每一个顶点坐标和对应的纹理坐标,根据纹理坐标获取第一图像中对应坐标位置的像素值的绿色通道G分量,将G分量的取值赋值给顶点坐标的Z分量,将MVP矩阵和顶点坐标相乘并赋值给gl_Position;
待顶点坐标和纹理坐标均计算完成后,在片段着色器中根据片段的纹理坐标采样原始图片中的颜色信息并赋值给gl_FragColor;
输出具有三维效果的第二图像。
具体的,载入预渲染模块处理后的程序,称为预渲染程序。
载入预测模块输出的景深灰度图像。
将原始图像和第一图像输入预渲染程序。
预渲染程序中会计算每一个顶点坐标和对应的纹理坐标,根据纹理坐标获取第一图像中对应坐标位置的像素值的绿色通道G分量,G分量取值最小值为0,最大值为1。将G分量的取值赋值给顶点坐标的Z分量。将MVP矩阵和顶点坐标相乘并赋值给gl_Position。
待顶点坐标和纹理坐标均计算完成后,在片段着色器中根据片段的纹理坐标采样原始图片中的颜色信息并赋值给gl_FragColor;完成上述计算后,即完成三维效果的渲染。
一些实施例中,利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频,包括:
创建一个视频文件、一个视频编码器、一个视频合成器、一个定时器;其中,定时器以24帧每秒的速度运行;
在每一帧中,记录当前的时间戳,并将时间戳作为参数传入时间参数TIME中,再进行渲染操作;
在渲染操作完毕后,通过视频编码器对纹理进行编码,得到视频编码数据;
利用视频合成器将视频编码数据合成到视频文件中并导出,得到三维效果视频。
一些实施例中,神经网络包括:景深预测模块,用于输出预测的景深灰度图像;
景深预测模块包括:卷积层、批标准化层、激活层、最大值池化层、平均池化层、上采样层。
本申请提供一种将静态照片制作成三维效果视频的装置,如图4所示,包括:
训练模块401,用于对神经网络进行训练,得到神经网络参数模型;
获取模块402,用于将神经网络参数模型载入到移动客户端,利用移动客户端获取原始图像,并根据原始图像,确定待处理图像;
神经网络模块403,用于将待处理图像输入神经网络参数模型中,神经网络参数模型将待处理图像转化为景深灰度图像,得到第一图像;
预渲染模块404,用于对移动客户端进行预渲染操作;
渲染模块405,用于在预渲染操作后的移动客户端中对原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像;
输出模块406,用于利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频。
本申请提供的将静态照片制作成三维效果视频的装置,包括训练模块对神经网络进行训练,得到神经网络参数模型,获取模块将神经网络参数模型载入到移动客户端,利用移动客户端获取原始图像,并根据原始图像,确定待处理图像;神经网络模块将待处理图像输入神经网络参数模型中,神经网络参数模型将待处理图像转化为景深灰度图像,得到第一图像;预渲染模块对移动客户端进行预渲染操作;渲染模块在预渲染操作后的移动客户端中对原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像;输出模块利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频。
优选的,获取模块,包括:
第一获取单元,用于获取多个场景的图片以及景深信息,对景深信息进行处理获取景深灰度图;其中,景深灰度图中,白色的区域表示远景,黑色区域表示前景;
调整单元,用于将图片、景深灰度图进行缩放至预设尺寸以构成训练数据;
训练单元,用于将训练数据输入到神经网络中进行训练;
第二获取单元,用于在训练过程中动态调节学习率并进行多次训练,直至神经网络收敛,在神经网络预测结果真实表示景深信息时存储神经网络参数,获取神经网络参数模型。
综上所述,本申请提供的将静态照片制作成三维效果视频的方法及装置,包括对神经网络进行训练,得到神经网络参数模型;将所述神经网络参数模型载入到移动客户端,利用所述移动客户端获取原始图像,并根据所述原始图像,确定待处理图像;将所述待处理图像输入所述神经网络参数模型中,所述神经网络参数模型将所述待处理图像转化为景深灰度图像,得到第一图像;所述移动客户端进行预渲染操作;在预渲染操作后的移动客户端中对所述原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像;利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频。本申请不需要依赖设备硬件,通过对任一单张图像进行景深信息预测,进而重建三维效果,当用户移动照片角度时,可以演示该照片在不同视角下的三维效果,并最终制作成面向用户记录生活娱乐需求的视频形式。
可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的方法。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种将静态照片制作成三维效果视频的方法,其特征在于,包括:
对神经网络进行训练,得到神经网络参数模型;
将所述神经网络参数模型载入到移动客户端,利用所述移动客户端获取原始图像,并根据所述原始图像,确定待处理图像;
将所述待处理图像输入所述神经网络参数模型中,所述神经网络参数模型将所述待处理图像转化为景深灰度图像,得到第一图像;
所述移动客户端进行预渲染操作;
在预渲染操作后的移动客户端中对所述原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像;
利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频;
所述移动客户端进行预渲染操作,包括:
配置启用OpenGLES以及与其关联的移动界面组件,设置视口大小为输出尺寸;
初始化并设置帧缓存,绑定帧缓存纹理,设置帧缓存纹理的颜色模式为GL_RGBA,大小为所述输出尺寸,格式为GL_UNSIGNED_BYTE,设置帧缓存纹理的环绕模式为GL_CLAMP_TO_EDGE,过滤模式为GL_LINEAR;
设置启用深度测试;
载入顶点着色器和片段着色器代码文件,编译链接着色器程序,获得着色器句柄;
通过所述着色器句柄,启用着色器程序;
为所述着色器程序设置一组顶点坐标,一组纹理坐标;其中,顶点坐标取值范围[-1,1],纹理坐标取值范围[0,1],两组坐标均以一维浮点型数组表示且数组长度一致;
为着色器程序设置当前时间参数;
计算正交投影转换矩阵PM以及根据所述时间参数计算视见转换矩阵VM;
设置模型矩阵MM为单位矩阵;
将视见转换矩阵VM和所述模型矩阵MM相乘得到MV矩阵,再将MV矩阵和正交投影转换矩阵PM相乘得到MVP矩阵;
为所述着色器程序设置所述MVP矩阵。
2.根据权利要求1所述的方法,其特征在于,所述对神经网络进行训练,得到神经网络参数模型,包括:
获取多个场景的图片以及景深信息,对所述景深信息进行处理获取景深灰度图;
将所述图片、景深灰度图进行缩放至预设尺寸以构成训练数据;
将所述训练数据输入到神经网络中进行训练;
在训练过程中动态调节学习率并进行多次训练,直至神经网络收敛,在神经网络预测结果真实表示所述景深信息时存储神经网络参数,获取神经网络参数模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述原始图像,确定待处理图像,包括:
对原始图像进行尺寸调整,缩放至预设尺寸,将调整为预设尺寸的图像确定为待处理图像;
所述原始图像为通过摄像头拍摄的图片。
4.根据权利要求1所述的方法,其特征在于,
根据输出尺寸调整顶点坐标和纹理坐标的数量。
5.根据权利要求1所述的方法,其特征在于,所述在预渲染操作后的移动客户端中对所述原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像,包括:
载入预渲染程序和景深灰度图像;
将所述原始图像和第一图像输入所述预渲染程序;
计算每一个所述顶点坐标和对应的纹理坐标,根据纹理坐标获取第一图像中对应坐标位置的像素值的绿色通道G分量,将所述G分量的取值赋值给所述顶点坐标的Z分量,将所述MVP矩阵和顶点坐标相乘并赋值给gl_Position;
待所述顶点坐标和纹理坐标均计算完成后,在所述片段着色器中根据片段的纹理坐标采样原始图片中的颜色信息并赋值给gl_FragColor;
输出具有三维效果的第二图像。
6.根据权利要求1所述的方法,其特征在于,所述利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频,包括:
创建一个视频文件、一个视频编码器、一个视频合成器、一个定时器;其中,所述定时器以24帧每秒的速度运行;
在每一帧中,记录当前的时间戳,并将所述时间戳作为参数传入所述时间参数中,再进行渲染操作;
在所述渲染操作完毕后,通过所述视频编码器对纹理进行编码,得到视频编码数据;
利用所述视频合成器将所述视频编码数据合成到所述视频文件中并导出,得到三维效果视频。
7.根据权利要求1所述的方法,其特征在于,所述神经网络包括:景深预测模块,用于输出预测的景深灰度图像;
所述景深预测模块包括:卷积层、批标准化层、激活层、最大值池化层、平均池化层、上采样层。
8.一种将静态照片制作成三维效果视频的装置,其特征在于,包括:
训练模块,用于对神经网络进行训练,得到神经网络参数模型;
获取模块,用于将所述神经网络参数模型载入到移动客户端,利用所述移动客户端获取原始图像,并根据所述原始图像,确定待处理图像;
神经网络模块,用于将所述待处理图像输入所述神经网络参数模型中,所述神经网络参数模型将所述待处理图像转化为景深灰度图像,得到第一图像;
预渲染模块,用于对所述移动客户端进行预渲染操作;
渲染模块,用于在预渲染操作后的移动客户端中对所述原始图像和第一图像进行渲染操作,获取具有三维效果的第二图像;
输出模块,用于利用视频编码器和视频合成器对第二图像进行处理,输出具有三维效果的视频;
所述移动客户端进行预渲染操作,包括:
配置启用OpenGLES以及与其关联的移动界面组件,设置视口大小为输出尺寸;
初始化并设置帧缓存,绑定帧缓存纹理,设置帧缓存纹理的颜色模式为GL_RGBA,大小为所述输出尺寸,格式为GL_UNSIGNED_BYTE,设置帧缓存纹理的环绕模式为GL_CLAMP_TO_EDGE,过滤模式为GL_LINEAR;
设置启用深度测试;
载入顶点着色器和片段着色器代码文件,编译链接着色器程序,获得着色器句柄;
通过所述着色器句柄,启用着色器程序;
为所述着色器程序设置一组顶点坐标,一组纹理坐标;其中,顶点坐标取值范围[-1,1],纹理坐标取值范围[0,1],两组坐标均以一维浮点型数组表示且数组长度一致;
为着色器程序设置当前时间参数;
计算正交投影转换矩阵PM以及根据所述时间参数计算视见转换矩阵VM;
设置模型矩阵MM为单位矩阵;
将视见转换矩阵VM和所述模型矩阵MM相乘得到MV矩阵,再将MV矩阵和正交投影转换矩阵PM相乘得到MVP矩阵;
为所述着色器程序设置所述MVP矩阵。
9.根据权利要求8所述的装置,其特征在于,所述获取模块,包括:
第一获取单元,用于获取多个场景的图片以及景深信息,对景深信息进行处理获取景深灰度图;
调整单元,用于将所述图片、景深灰度图进行缩放至预设尺寸以构成训练数据;
训练单元,用于将所述训练数据输入到神经网络中进行训练;
第二获取单元,用于在训练过程中动态调节学习率并进行多次训练,直至神经网络收敛,在神经网络预测结果真实表示所述景深信息时存储神经网络参数,获取神经网络参数模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436112.7A CN111612878B (zh) | 2020-05-21 | 2020-05-21 | 将静态照片制作成三维效果视频的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436112.7A CN111612878B (zh) | 2020-05-21 | 2020-05-21 | 将静态照片制作成三维效果视频的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111612878A CN111612878A (zh) | 2020-09-01 |
CN111612878B true CN111612878B (zh) | 2023-04-07 |
Family
ID=72203635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010436112.7A Active CN111612878B (zh) | 2020-05-21 | 2020-05-21 | 将静态照片制作成三维效果视频的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111612878B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184856B (zh) * | 2020-09-30 | 2023-09-22 | 广州光锥元信息科技有限公司 | 支持多图层特效及动画混合的多媒体处理装置 |
CN112150591B (zh) * | 2020-09-30 | 2024-02-02 | 广州光锥元信息科技有限公司 | 智能动画和图层化的多媒体处理装置 |
CN112614211B (zh) * | 2020-12-29 | 2023-09-22 | 广州光锥元信息科技有限公司 | 用于文本、图像自适应排版及动画联动的方法及装置 |
CN116095413B (zh) * | 2022-05-30 | 2023-11-07 | 荣耀终端有限公司 | 视频处理方法及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358648A (zh) * | 2017-07-17 | 2017-11-17 | 中国科学技术大学 | 基于单张人脸图像的实时全自动高质量三维人脸重建方法 |
CN108230240A (zh) * | 2017-12-31 | 2018-06-29 | 厦门大学 | 一种基于深度学习获取图像城市范围内位置及姿态的方法 |
CN108335349A (zh) * | 2017-01-18 | 2018-07-27 | 辉达公司 | 利用神经网络滤波图像数据 |
CN110111408A (zh) * | 2019-05-16 | 2019-08-09 | 洛阳众智软件科技股份有限公司 | 基于图形学的大场景快速求交方法 |
CN110428388A (zh) * | 2019-07-11 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 一种图像数据生成方法及装置 |
CN110472502A (zh) * | 2019-07-10 | 2019-11-19 | 视联动力信息技术股份有限公司 | 视联网下危险物品图像检测的方法、装置、设备、介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040109608A1 (en) * | 2002-07-12 | 2004-06-10 | Love Patrick B. | Systems and methods for analyzing two-dimensional images |
-
2020
- 2020-05-21 CN CN202010436112.7A patent/CN111612878B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108335349A (zh) * | 2017-01-18 | 2018-07-27 | 辉达公司 | 利用神经网络滤波图像数据 |
CN107358648A (zh) * | 2017-07-17 | 2017-11-17 | 中国科学技术大学 | 基于单张人脸图像的实时全自动高质量三维人脸重建方法 |
CN108230240A (zh) * | 2017-12-31 | 2018-06-29 | 厦门大学 | 一种基于深度学习获取图像城市范围内位置及姿态的方法 |
CN110111408A (zh) * | 2019-05-16 | 2019-08-09 | 洛阳众智软件科技股份有限公司 | 基于图形学的大场景快速求交方法 |
CN110472502A (zh) * | 2019-07-10 | 2019-11-19 | 视联动力信息技术股份有限公司 | 视联网下危险物品图像检测的方法、装置、设备、介质 |
CN110428388A (zh) * | 2019-07-11 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 一种图像数据生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111612878A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111612878B (zh) | 将静态照片制作成三维效果视频的方法及装置 | |
US20220014723A1 (en) | Enhancing performance capture with real-time neural rendering | |
US9736455B2 (en) | Method and apparatus for downscaling depth data for view plus depth data compression | |
US20220116659A1 (en) | A method, an apparatus and a computer program product for volumetric video | |
US10497140B2 (en) | Hybrid depth sensing pipeline | |
CN110322542B (zh) | 重建真实世界3d场景的视图 | |
EP3419286A1 (en) | Processing of 3d image information based on texture maps and meshes | |
KR101271460B1 (ko) | 영상 복원 장치 및 그 방법 | |
WO2018208698A1 (en) | Processing 3d video content | |
CN108833877B (zh) | 图像处理方法及装置、计算机装置及可读存储介质 | |
Bleyer et al. | Temporally consistent disparity maps from uncalibrated stereo videos | |
JP7344988B2 (ja) | ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品 | |
CN115359173A (zh) | 虚拟多视点视频生成方法、装置、电子设备和存储介质 | |
CN102026012B (zh) | 平面视频立体化转换深度图生成方法和装置 | |
CN111161407A (zh) | 一种水下三维重建***和方法 | |
KR102505130B1 (ko) | 명시야 컨텐츠를 표현하는 신호를 인코딩하기 위한 방법 및 디바이스 | |
WO2021245326A1 (en) | A method, an apparatus and a computer program product for video encoding and video decoding | |
WO2021205068A1 (en) | A method, an apparatus and a computer program product for volumetric video coding | |
CN109166176B (zh) | 三维人脸图像的生成方法与装置 | |
Cho et al. | Depth image processing technique for representing human actors in 3DTV using single depth camera | |
JP2014164497A (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN109379577B (zh) | 一种虚拟视点的视频生成方法、装置及设备 | |
CN111627098A (zh) | 对图像中水流区域识别并生成动态水流视频的方法及装置 | |
Melendez et al. | Relightable Buildings from Images. | |
CN116528065B (zh) | 一种高效虚拟场景内容光场获取与生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |