CN115914606A - 一种视频处理方法、***、可读存储介质及设备终端 - Google Patents

一种视频处理方法、***、可读存储介质及设备终端 Download PDF

Info

Publication number
CN115914606A
CN115914606A CN202211364949.0A CN202211364949A CN115914606A CN 115914606 A CN115914606 A CN 115914606A CN 202211364949 A CN202211364949 A CN 202211364949A CN 115914606 A CN115914606 A CN 115914606A
Authority
CN
China
Prior art keywords
image
frame
converted
video
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211364949.0A
Other languages
English (en)
Inventor
黄子嵩
杨灏
向天宇
黄荣权
区一彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Technology University
Original Assignee
Shenzhen Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Technology University filed Critical Shenzhen Technology University
Priority to CN202211364949.0A priority Critical patent/CN115914606A/zh
Publication of CN115914606A publication Critical patent/CN115914606A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明适用于视频处理技术领域,提供了一种视频处理方法、***、可读存储介质及设备终端,该方法包括将所获取的待转换视频中的音频信号和视频信号进行分离得到音频数据和视频数据;将视频数据进行逐帧拆分得到每一帧的待转换图像;分别将每一帧的待转换图像进行深度处理,并根据深度处理的结果对待转换图像进行图像处理生成对应的虚拟右图;分别将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像;将所有帧的三维图像进行合并得到三维视频数据;将所分离的音频数据与所生成的三维视频数据进行合并得到三维视频。本发明提供的视频处理方法,解决了现有3d视频制作成本高及效率低的问题。

Description

一种视频处理方法、***、可读存储介质及设备终端
技术领域
本发明属于视频处理技术领域,尤其涉及一种视频处理方法、***、可读存储介质及设备终端。
背景技术
目前,随着科学技术的发展以及人们生活水平的提高,越来越多的用户愿意体验新鲜的科技产品,而裸眼3d技术及对应的产品便是用户所愿意体验的科技技术中的其中一种。
其中裸眼3d技术自2013年以来已经发展了很久,但普及较少,其发展也更多是体现在硬件的发展上,而关于普通2d视频转3d视频的发展则极其缓慢,根据调研发现现在市面上没有能够自动生成3d右图虚拟视角的软件,只能手动处理,使得目前市面上流行的裸眼3d片源主要都是由厂商通过逐帧人工处理而成,具体例如2分钟的视频通常就有4600张左右的图片需要人工进行抠图处理,使得人工成本极其高昂,同时裸眼3d的视频制作效率也极低,这也导致了目前市面上可用于播放的裸眼3d视频较少。
发明内容
本发明实施例的目的在于提供一种视频处理方法,旨在解决现有3d视频制作成本高及效率低的问题。
本发明实施例是这样实现的,一种视频处理方法,所述方法包括:
将所获取的待转换视频中的音频信号和视频信号进行分离得到音频数据和视频数据;
将视频数据进行逐帧拆分得到每一帧的待转换图像;
分别将每一帧的待转换图像进行深度处理,并根据深度处理的结果对待转换图像进行图像处理生成对应的虚拟右图,所述虚拟右图为待转换图像经深度转化处理后的虚拟视点图像;
分别将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像,所述三维图像为待转换图像与虚拟右图分别位于左右两侧的图像;
将所有帧的三维图像进行合并得到三维视频数据;
将所分离的音频数据与所生成的三维视频数据进行合并得到三维视频。
更进一步地,所述分别将每一帧的待转换图像进行深度处理,并根据深度处理的结果对待转换图像进行图像处理生成对应的虚拟右图的步骤包括:
分别将每一帧的待转换图像进行深度处理得到所对应的深度图;
分别将每一帧的深度图动态转换为所对应的蒙版;
分别根据每一帧的蒙版从所对应的待转换图像中分割出前景和背景;
分别将每一帧所提取的前景进行旋转拉伸及左移变换,并将所变换得到的结果填充到所对应的背景中;
分别将每一帧所填充到背景中的图像进行图像修复得到所对应的虚拟右图。
更进一步地,所述分别将每一帧的待转换图像进行深度处理得到所对应的深度图的步骤包括:
分别将每一帧的待转换图像转换为含三原色信息的矩阵,所述三原色信息包括红、绿、蓝三种颜色通道信息;
将每一帧所包括三原色信息的矩阵输入至深度处理算法中进行算法处理得到对应的深度图。
更进一步地,所述分别将每一帧的深度图动态转换为所对应的蒙版的步骤包括:
分别将每一帧的深度图的对比度比例进行提高调整;
分别将每一帧的深度图转换成灰度图;
分别将每一帧所转换为灰度图的深度图进行二值化处理得到所对应的蒙版。
更进一步地,所述分别将每一帧所填充到背景中的图像进行图像修复得到所对应的虚拟右图的步骤包括:
根据每一帧所填充到背景中的图像的像素位置绘制掩膜;
对掩膜外的空洞进行填补得到对应的虚拟右图。
更进一步地,所述分别将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像的步骤包括:
将每一帧的待转换图像与所对应的虚拟右图分别转换为对应的两组数组;
分别对每一帧中的两组数组进行矩阵的广播,并进行数组的合并;
分别将每一帧中所合并的数组转换为对应的三维图像。
更进一步地,所述将视频数据进行逐帧拆分得到每一帧的待转换图像的步骤之后还包括:
对每一帧的待转换图像添加文字字幕。
本发明另一实施例的目的还在于提供一种视频处理***,所述***包括:
分离模块,用于将所获取的待转换视频中的音频信号和视频信号进行分离得到音频数据和视频数据;
拆分模块,用于将视频数据进行逐帧拆分得到每一帧的待转换图像;
第一图像处理模块,用于分别将每一帧的待转换图像进行深度处理,并根据深度处理的结果对待转换图像进行图像处理生成对应的虚拟右图,所述虚拟右图为待转换图像经深度转化处理后的虚拟视点图像;
第二图像处理模块,用于分别将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像,所述三维图像为待转换图像与虚拟右图分别位于左右两侧的图像;
第一合并模块,用于将所有帧的三维图像进行合并得到三维视频数据;
第二合并模块,用于将所分离的音频数据与所生成的三维视频数据进行合并得到三维视频。
本发明另一实施例的目的还在于提供一种可读存储介质,其存储有程序,所述程序被处理器执行时实现如上述所述的视频处理方法。
本发明另一实施例的目的还在于提供一种设备终端,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上述所述的视频处理方法。
本发明实施例提供的视频处理方法,通过将需要制作成裸眼3d视频的原始待转换视频先经过音视频的分离,使得先得到音频数据以及视频数据,然后将视频数据进行逐帧分帧处理,从而得到每一帧的待转换图像,然后利用视觉处理技术将待转换图像转换为具体3d右图虚拟视角的虚拟右图,并将待转换图像与虚拟右图进行拼接使得生成三维图像,然后通过将所有帧的三维图像进行合并得到三维视频数据,并在三维视频数据中并入所分离的音频数据,使得最终生成三维视频,使得将原图转换为裸眼3d图像的处理可以实现自动化,实现自动化将原视频转成对应的裸眼3d视频,从而极大地降低了裸眼3d视频制作的高昂人工成本,提高制作裸眼3d的视频制作,有利于裸眼3d的普及,解决了现有3d视频制作成本高及效率低的问题。
附图说明
图1是本发明实施例提供的视频处理方法的流程图;
图2是本发明实施例提供的视频处理方法的又一流程图;
图3是本发明实施例提供的视频处理***的结构示意图;
图4是本发明实施例提供的设备终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
请参阅图1,是本发明第一实施例提供的视频处理方法的流程示意图,为了便于说明,仅示出了与本发明实施例相关的部分,该方法包括:
步骤S10,将所获取的待转换视频中的音频信号和视频信号进行分离得到音频数据和视频数据;
其中,在本发明的一个实施例中,该视频处理方法用于将现有普通的二维视频进行处理后转换为可三维显示的三维视频。具体的,该视频处理方法可应用于设备终端,其中设备终端可以为智能终端、智能平板、电视、投影仪等用于视频源播放的终端,当然设备终端也可以为VR设备、VR盒子等用于虚拟现实体验的终端,另外设备终端还可以为服务器等用于数据处理的终端。
其中,该设备终端中存储有待转换视频,其待转换视频可以为现有所制作完成的视频,也可以为设备终端所拍摄得到的视频,该方法先通过将所获取的待转换视频中的音频信号和视频信号进行分离得到音频数据和视频数据。具体的,其将待转换视频进行视频格式的解码解封装,当在识别到音频轨道后,提取视频中的音频声道,并单独保存提取完的视频数据与音频数据,并将音频数据与视频数据进行分离,此时视频数据为不含音频信息的视频。需要指出的是,当待转换视频中不含有音频时,则相应的不会分离得到与音频数据,此时直接进入步骤S20。
在本发明的一个实施例中,具体操作时,其利用Python中的moviepy.editor开源模块提取待转换视频中的音频声道,其moviepy中使用ffmpeg可对视频、音频文件进行读取和导出,而使用VideoFileClip可对视频进行读取,得到VideoFileClip对象,记作clip,之后可以对这个clip进行任意的操作,例如进行剪切、合并、调整亮度、速度、提取音频和其它的clip拼接在一起等等操作。
步骤S20,将视频数据进行逐帧拆分得到每一帧的待转换图像;
其中,在本发明的一个实施例中,在将待转换视频分离出音频数据和视频数据后,其将所分离得到的视频数据进行分帧处理,使得将视频数据进行拆分得到每一帧的待转换图像,并将所分离好的所有待转换图像单独保存在文件夹中以用于后续处理。
在本发明的一个实施例中,具体操作时,其利用python对上述待转换视频进行解码后,利用python的Opencv(Open Source Computer Vision Library)开源库调用cv.VideoCapture API打开视频数据,并逐帧保存图像,使得逐帧提取所分离好的视频数据得到每一帧的待转换图像,然后单独保存在文件夹中用于后续处理。
步骤S30,分别将每一帧的待转换图像进行深度处理,并根据深度处理的结果对待转换图像进行图像处理生成对应的虚拟右图;
其中,在本发明的一个实施例中,在将视频数据进行分帧处理得到每一帧的待转换图像后再对所有帧的待转换图像进行深度处理得到每一帧待转换图像所对应的深度图,此时通过算法将每一帧的待转换图像基于所对应的深度图的结果进行图像处理使得生成对应的虚拟右图,其中虚拟右图为待转换图像经深度转化处理后的虚拟视点图像,也即通常用户在右眼虚拟视角下的图像。
在本发明实施例中,具体的,其每一帧的待转换图像输入到深度处理的算法中,其深度处理算法采用的是视觉顶会CVPR2022年的深度估计NeW CRFs与Midas开源算法,在算法处理完后,将所生成的每一帧的深度图单独建立一个文件夹进行保存,其用于检验深度图像生成是否合理(具体的检查图像深度提取是否正确,防止后续提取出错)及方便后续步骤。
其中深度估计原理为:获取物体和拍摄点之间的距离,最终会获得一个深度图,也称为光流图,它记录了同一物体在不同图像之间的视差,再通过相机参数、两个拍摄点之间的位置信息即可换算出物体和拍摄点之间的距离。例如在100m的距离下,汽车在图像中大致高为3cm,此时通过多个物品来相互修正深度,从而获得相对准确的预测结果。其中,深度估计是计算机视觉领域中的一个子任务,其目的是获取物体和拍摄点之间的距离,为三维重建、距离感知、SLAM、视觉里程计、活体检测、视频插帧、图像重建等一系列任务提供深度信息。
进一步的,在深度估计算法处理完后,基于深度估计的结果对初始每一帧的待转换进行图像处理生成每一帧待转换图像所对应的虚拟右图。
步骤S40,分别将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像;
其中,在本发明的一个实施例中,在将每一帧的待转换图像分别转换为对应的虚拟右图后再将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像,其中三维图像为待转换图像与虚拟右图分别位于左右两侧的图像,也即在左右两侧分别加载待转换图像及虚拟右图从而拼接成三维图像。此时将待转换图像与新生成的虚拟右图进行左右拼接即可生成裸眼3d技术中左右形式的3d视频源中所需的三维图像。
步骤S50,将所有帧的三维图像进行合并得到三维视频数据;
其中,在本发明的一个实施例中,当将待转换图像与虚拟右图一同进行图像处理生成三维图像后,判断每一帧的图片是否转换完毕,若否,则继续将所剩下的待转换图像与虚拟右图进行图像处理生成三维图像;若是,则将转换后的所有帧的三维图像进行合并后得到一个没有声音的视频。具体的,在本发明实施例中,参照前述所述,利用Python的moviepy.editor开源模块,将每一帧的三维图像按照原始帧数、封装格式合成视频。
步骤S60,将所分离的音频数据与所生成的三维视频数据进行合并得到三维视频;
其中,在本发明的一个实施例中,参照步骤S10所述,当转换视频中含有音频时,则将所分离的音频数据与所生成的三维视频数据进行合并得到三维视频,也即直接在上述三维视频数据中导入所分离的音频数据,此时由于所有时间参数均与原始视频相同,因此无需进行音频视频同步,可直接生成三维视频。
而当待转换视频中不含有音频且无需音频数据时,则直接在上述步骤S50中即可得到三维视频;而当需要制作音频数据时,则将所制作的音频数据导入至三维视频数据中,且对音频数据进行调整以得到适配三维视频数据的三维视频。
相应的,其所转换成的三维视频可应用于如下场景:
一、需要由平台视频转化成裸眼3d视频的场景,通过本发明实施例中所提供的视频处理方法可以将普通视频进行处理后生成具有虚拟右眼视角的每一帧虚拟右图,然后通过将普通视频所分帧出的每一帧待转换图像与对应的虚拟右图进行拼接后即可生成裸眼3d技术中左右形式的3d视频源,并用于放映。
二、作VR盒子所需的3d视频源,通过本发明实施例中所提供的视频处理方法为部分3d视频源的转化提供技术支持。
综上,本发明上述实施例当中的视频处理方法,通过将需要制作成裸眼3d视频的原始待转换视频先经过音视频的分离,使得先得到音频数据以及视频数据,然后将视频数据进行逐帧分帧处理,从而得到每一帧的待转换图像,然后利用视觉处理技术将待转换图像转换为具体3d右图虚拟视角的虚拟右图,并将待转换图像与虚拟右图进行拼接使得生成三维图像,然后通过将所有帧的三维图像进行合并得到三维视频数据,并在三维视频数据中并入所分离的音频数据,使得最终生成三维视频,使得将原图转换为裸眼3d图像的处理可以实现自动化,实现自动化将原视频转成对应的裸眼3d视频,从而极大地降低了裸眼3d视频制作的高昂人工成本,提高制作裸眼3d的视频制作,有利于裸眼3d的普及,解决了现有3d视频制作成本高及效率低的问题。
实施例二
请参阅图2,是本发明第二实施例提供的一种视频处理方法的流程示意图,为了便于说明,仅示出了与本发明实施例相关的部分,该第二实施例与第一实施例的方法大抵相同,为简要描述,本实施例中未提及之处,可参考第一实施例中相应内容,具体该方法包括:
步骤S11,将所获取的待转换视频中的音频信号和视频信号进行分离得到音频数据和视频数据。
步骤S21,将视频数据进行逐帧拆分得到每一帧的待转换图像。
其中,在本发明的一个实施例中,其步骤S21之后还可以包括:
对每一帧的待转换图像添加文字字幕。
也即是说,当待转换视频中仅包括音频信息及视频信息,但是不包括字幕信息时,其可相应的在进行本发明实施例所述的视频处理方法中,在对所拆分的待转换图像进行文字字幕的合成添加,且每一帧的文字字幕需要与音频数据中的音频相对应,使得其所添加的文字字幕也可相应的进行后续的图像处理,使得最终生成带有字幕的三维视频。
步骤S31,分别将每一帧的待转换图像进行深度处理得到所对应的深度图;
其中,在本发明的一个实施例中,上述分别将每一帧的待转换图像进行深度处理得到所对应的深度图可通过如下步骤实现:
分别将每一帧的待转换图像转换为含三原色信息的矩阵,所述三原色信息包括红、绿、蓝三种颜色通道信息;
将每一帧所包括三原色信息的矩阵输入至深度处理算法中进行算法处理得到对应的深度图。
具体的,先将每一帧的待转换图像转换为含RGB(红(R)、绿(G)、蓝(B))信息的矩阵,然后将每一帧所转换的矩阵输入到深度处理算法中进行算法处理,此时深度处理算法将利用训练好的数据集,识别不同物体在一般情况下的距离大小,并结合条件随机场优化运算速度,从而快速识别物体深度,最终得到对应的深度图。可以理解的,在本发明的其他实施例中,其将待转换图像转换为深度图的方式还可以为现有其他方式,其根据实际使用需要进行设置,在此不做具体限定。
步骤S41,分别将每一帧的深度图动态转换为所对应的蒙版;
其中,在本发明的一个实施例中,上述分别将每一帧的深度图动态转换为所对应的蒙版可通过如下步骤实现:
分别将每一帧的深度图的对比度比例进行提高调整;
分别将每一帧的深度图转换成灰度图;
分别将每一帧所转换为灰度图的深度图进行二值化处理得到所对应的蒙版。
具体的,在将待转换图像进行深度处理得到深度图后,
具体的,其先对每一帧的深度图进行图像处理以提高主体部分的对比度,具体可对深度图的Gama值(伽马值)与对比度比例进行调整,然后转化成灰度图,再进行二值化处理得到二值图像(也即蒙版)。
步骤S51,分别根据每一帧的蒙版从所对应的待转换图像中分割出前景和背景;
其中,在本发明的一个实施例中,当将深度图动态转换为蒙版后,利用图像分割技术,使得可以单独提取某部分的图像,具体的,将蒙版与待转换图像进行bitwise操作(也即位运算),使得将前景与背景分开,然后根据蒙版截取反相,使得除了前景区域其他都是黑色,此时可将前景的主体部分进行扣出提取。
步骤S61,分别将每一帧所提取的前景进行旋转拉伸及左移变换,并将所变换得到的结果填充到所对应的背景中;
其中,在本发明的一个实施例中,当将前景与背景进行分割后,将前景进行提取后,将所提取的前景中的所有像素基于中间轴进行旋转拉伸以及左移等操作,以此单独突出主体的深度变换,然后将变换后的所有像素再放回至背景中。
步骤S71,分别将每一帧所填充到背景中的图像进行图像修复得到所对应的虚拟右图;
其中,在本发明的一个实施例中,上述分别将每一帧所填充到背景中的图像进行图像修复得到所对应的虚拟右图可通过如下步骤实现:
根据每一帧所填充到背景中的图像的像素位置绘制掩膜;
对掩膜外的空洞进行填补得到对应的虚拟右图。
其中,由于前景基于深度进行左移,使得后续填充回背景后,由于生成的图像在深度信息发生较大变换的情况下,会产生一些空洞,此时需要对空白部分进行修复;具体的,根据平移的图像像素位置进行绘制掩膜,然后进行空洞区域的填补,从而得到和原始的待转换图像相同格式大小,但部分图层位置进行平移的虚拟右图。目前为了算力考虑,通常采用的是均值填充法或最近邻插值法,使得最终在对整体图像进行平滑,抹去细小“裂缝”后生成3d右图虚拟视角的虚拟右图。
步骤S81,分别将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像;
其中,在本发明的一个实施例中,上述分别将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像可通过如下步骤实现:
将每一帧的待转换图像与所对应的虚拟右图分别转换为对应的两组数组;
分别对每一帧中的两组数组进行矩阵的广播,并进行数组的合并;
分别将每一帧中所合并的数组转换为对应的三维图像。
其中通过先将两组图像分别转换为多维数组,此时将图像转换成多维数组形式,这样就能将两组图像拼接的问题转换成两个多维数组的合并,此时再将所合并的多维数组转换成三维图像,使得完成将两组图像实现拼接为三维图像。此时如果观察三维图像中的左右两个视图就可以发现两个图片有了细微的变化,而这个细微变化本质上就是类似人眼中左右眼所看到画面的差异。因此通过将原图与新生成的虚拟视角进行左右拼接即可以模拟人眼平时所见的三维物体视角。
步骤S91,将所有帧的三维图像进行合并得到三维视频数据。
步骤S101,将所分离的音频数据与所生成的三维视频数据进行合并得到三维视频。
综上,本发明上述实施例当中的视频处理方法,通过将需要制作成裸眼3d视频的原始待转换视频先经过音视频的分离,使得先得到音频数据以及视频数据,然后将视频数据进行逐帧分帧处理,从而得到每一帧的待转换图像,通过将待转换图像基于深度估计技术生成深度图,然后将深度图动态转换成蒙版,再利用蒙版提取待转换图像中前景的所有像素并进行旋转拉伸及左移,并基于图像修复技术对由移动所产生的空洞进行图像修复,使得最终生成3d右图虚拟视角下的虚拟右图,然后将待转换图像与虚拟右图进行拼接使得生成三维图像,并通过将所有帧的三维图像进行合并得到三维视频数据,并在三维视频数据中并入所分离的音频数据,使得最终生成三维视频,此时该视频处理方法通过软件自动化进行处理,使得解决了现有3d视频制作成本高及效率低的问题。
实施例三
请参阅图3,是本发明第三实施例提供的视频处理***的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,该***包括:
分离模块11,用于将所获取的待转换视频中的音频信号和视频信号进行分离得到音频数据和视频数据;
拆分模块21,用于将视频数据进行逐帧拆分得到每一帧的待转换图像;
第一图像处理模块31,用于分别将每一帧的待转换图像进行深度处理,并根据深度处理的结果对待转换图像进行图像处理生成对应的虚拟右图,所述虚拟右图为待转换图像经深度转化处理后的虚拟视点图像;
第二图像处理模块41,用于分别将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像,所述三维图像为待转换图像与虚拟右图分别位于左右两侧的图像;
第一合并模块51,用于将所有帧的三维图像进行合并得到三维视频数据;
第二合并模块61,用于将所分离的音频数据与所生成的三维视频数据进行合并得到三维视频。
进一步的,在本发明的一个实施例中,第一图像处理模块31包括:
深度图处理单元,用于分别将每一帧的待转换图像进行深度处理得到所对应的深度图;
蒙版转换单元,用于分别将每一帧的深度图动态转换为所对应的蒙版;
图像分割单元,用于分别根据每一帧的蒙版从所对应的待转换图像中分割出前景和背景;
图像变换单元,用于分别将每一帧所提取的前景进行旋转拉伸及左移变换,并将所变换得到的结果填充到所对应的背景中;
虚拟右图处理单元,用于分别将每一帧所填充到背景中的图像进行图像修复得到所对应的虚拟右图。
进一步的,在本发明的一个实施例中,所述深度图处理单元用于:
分别将每一帧的待转换图像转换为含三原色信息的矩阵,所述三原色信息包括红、绿、蓝三种颜色通道信息;
将每一帧所包括三原色信息的矩阵输入至深度处理算法中进行算法处理得到对应的深度图。
进一步的,在本发明的一个实施例中,所述蒙版转换单元用于:
分别将每一帧的深度图的对比度比例进行提高调整;
分别将每一帧的深度图转换成灰度图;
分别将每一帧所转换为灰度图的深度图进行二值化处理得到所对应的蒙版。
进一步的,在本发明的一个实施例中,虚拟右图处理单元用于:
根据每一帧所填充到背景中的图像的像素位置绘制掩膜;
对掩膜外的空洞进行填补得到对应的虚拟右图。
进一步的,在本发明的一个实施例中,第二图像处理模块41包括:
数组转换单元,用于将每一帧的待转换图像与所对应的虚拟右图分别转换为对应的两组数组;
数组合并单元,用于分别对每一帧中的两组数组进行矩阵的广播,并进行数组的合并;
图像转换单元,用于分别将每一帧中所合并的数组转换为对应的三维图像。
进一步的,在本发明的一个实施例中,所述***还包括:
字幕添加模块,用于对每一帧的待转换图像添加文字字幕。
本发明实施例所提供的视频处理***,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例四
本发明另一方面还提出一种设备终端,请参阅图4,所示为本发明第四实施例当中的设备终端,包括存储器20、处理器10以及存储在存储器上并可在处理器上运行的程序30,所述处理器10执行所述程序30时实现如上述实施例一或实施例二所述的视频处理方法。
其中,处理器10在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器20中存储的程序代码或处理数据,例如执行访问限制程序等。
其中,存储器20至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是设备终端的内部存储单元,例如该设备终端的硬盘。存储器20在另一些实施例中也可以是设备终端的外部存储装置,例如设备终端上配备的智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器20还可以既包括设备终端的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于设备终端的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
综上,本发明上述实施例当中的设备终端,通过将需要制作成裸眼3d视频的原始待转换视频先经过音视频的分离,使得先得到音频数据以及视频数据,然后将视频数据进行逐帧分帧处理,从而得到每一帧的待转换图像,然后利用视觉处理技术将待转换图像转换为具体3d右图虚拟视角的虚拟右图,并将待转换图像与虚拟右图进行拼接使得生成三维图像,然后通过将所有帧的三维图像进行合并得到三维视频数据,并在三维视频数据中并入所分离的音频数据,使得最终生成三维视频,使得将原图转换为裸眼3d图像的处理可以实现自动化,实现自动化将原视频转成对应的裸眼3d视频,从而极大地降低了裸眼3d视频制作的高昂人工成本,提高制作裸眼3d的视频制作,有利于裸眼3d的普及,解决了现有3d视频制作成本高及效率低的问题。
本发明实施例还提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现如上述实施例所述的视频处理方法步骤。所述可读存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何可读存储介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的视频处理***的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的视频处理方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被视频处理***中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于视频处理***的存储设备(图未示)内。
本领域技术人员还可以理解,图4中示出的组成结构并不构成对本发明的设备终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的视频处理方法亦采用图4中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (10)

1.一种视频处理方法,其特征在于,所述方法包括:
将所获取的待转换视频中的音频信号和视频信号进行分离得到音频数据和视频数据;
将视频数据进行逐帧拆分得到每一帧的待转换图像;
分别将每一帧的待转换图像进行深度处理,并根据深度处理的结果对待转换图像进行图像处理生成对应的虚拟右图,所述虚拟右图为待转换图像经深度转化处理后的虚拟视点图像;
分别将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像,所述三维图像为待转换图像与虚拟右图分别位于左右两侧的图像;
将所有帧的三维图像进行合并得到三维视频数据;
将所分离的音频数据与所生成的三维视频数据进行合并得到三维视频。
2.如权利要求1所述的视频处理方法,其特征在于,所述分别将每一帧的待转换图像进行深度处理,并根据深度处理的结果对待转换图像进行图像处理生成对应的虚拟右图的步骤包括:
分别将每一帧的待转换图像进行深度处理得到所对应的深度图;
分别将每一帧的深度图动态转换为所对应的蒙版;
分别根据每一帧的蒙版从所对应的待转换图像中分割出前景和背景;
分别将每一帧所提取的前景进行旋转拉伸及左移变换,并将所变换得到的结果填充到所对应的背景中;
分别将每一帧所填充到背景中的图像进行图像修复得到所对应的虚拟右图。
3.如权利要求2所述的视频处理方法,其特征在于,所述分别将每一帧的待转换图像进行深度处理得到所对应的深度图的步骤包括:
分别将每一帧的待转换图像转换为含三原色信息的矩阵,所述三原色信息包括红、绿、蓝三种颜色通道信息;
将每一帧所包括三原色信息的矩阵输入至深度处理算法中进行算法处理得到对应的深度图。
4.如权利要求2所述的视频处理方法,其特征在于,所述分别将每一帧的深度图动态转换为所对应的蒙版的步骤包括:
分别将每一帧的深度图的对比度比例进行提高调整;
分别将每一帧的深度图转换成灰度图;
分别将每一帧所转换为灰度图的深度图进行二值化处理得到所对应的蒙版。
5.如权利要求2所述的视频处理方法,其特征在于,所述分别将每一帧所填充到背景中的图像进行图像修复得到所对应的虚拟右图的步骤包括:
根据每一帧所填充到背景中的图像的像素位置绘制掩膜;
对掩膜外的空洞进行填补得到对应的虚拟右图。
6.如权利要求1所述的视频处理方法,其特征在于,所述分别将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像的步骤包括:
将每一帧的待转换图像与所对应的虚拟右图分别转换为对应的两组数组;
分别对每一帧中的两组数组进行矩阵的广播,并进行数组的合并;
分别将每一帧中所合并的数组转换为对应的三维图像。
7.如权利要求1所述的视频处理方法,其特征在于,所述将视频数据进行逐帧拆分得到每一帧的待转换图像的步骤之后还包括:
对每一帧的待转换图像添加文字字幕。
8.一种视频处理***,其特征在于,所述***包括:
分离模块,用于将所获取的待转换视频中的音频信号和视频信号进行分离得到音频数据和视频数据;
拆分模块,用于将视频数据进行逐帧拆分得到每一帧的待转换图像;
第一图像处理模块,用于分别将每一帧的待转换图像进行深度处理,并根据深度处理的结果对待转换图像进行图像处理生成对应的虚拟右图,所述虚拟右图为待转换图像经深度转化处理后的虚拟视点图像;
第二图像处理模块,用于分别将每一帧的待转换图像与所对应的虚拟右图一同进行图像处理生成三维图像,所述三维图像为待转换图像与虚拟右图分别位于左右两侧的图像;
第一合并模块,用于将所有帧的三维图像进行合并得到三维视频数据;
第二合并模块,用于将所分离的音频数据与所生成的三维视频数据进行合并得到三维视频。
9.一种可读存储介质,其存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1至8任意一项所述的视频处理方法。
10.一种设备终端,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的视频处理方法。
CN202211364949.0A 2022-11-03 2022-11-03 一种视频处理方法、***、可读存储介质及设备终端 Pending CN115914606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211364949.0A CN115914606A (zh) 2022-11-03 2022-11-03 一种视频处理方法、***、可读存储介质及设备终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211364949.0A CN115914606A (zh) 2022-11-03 2022-11-03 一种视频处理方法、***、可读存储介质及设备终端

Publications (1)

Publication Number Publication Date
CN115914606A true CN115914606A (zh) 2023-04-04

Family

ID=86478797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211364949.0A Pending CN115914606A (zh) 2022-11-03 2022-11-03 一种视频处理方法、***、可读存储介质及设备终端

Country Status (1)

Country Link
CN (1) CN115914606A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117849587A (zh) * 2024-01-09 2024-04-09 深圳今日芯科技有限公司 一种视频芯片测试的方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117849587A (zh) * 2024-01-09 2024-04-09 深圳今日芯科技有限公司 一种视频芯片测试的方法及***

Similar Documents

Publication Publication Date Title
US20240214611A1 (en) Source color volume information messaging
US7054478B2 (en) Image conversion and encoding techniques
US8422801B2 (en) Image encoding method for stereoscopic rendering
KR101651442B1 (ko) 이미지 기반 3d 비디오 포맷
US20230306563A1 (en) Image filling method and apparatus, decoding method and apparatus, electronic device, and medium
CN115914606A (zh) 一种视频处理方法、***、可读存储介质及设备终端
KR100989435B1 (ko) 다시점 영상 처리 방법 및 장치
US9111352B2 (en) Automated detection and correction of stereoscopic edge violations
JP2005269022A (ja) 符号化装置およびその方法、符号データ編集装置およびその方法、並びに、プログラムおよび記録媒体
US9967546B2 (en) Method and apparatus for converting 2D-images and videos to 3D for consumer, commercial and professional applications
CN113037947A (zh) 一种连续动态图像中空间信息的编码方法
WO2022141636A1 (en) Methods and systems for processing video streams with layer information
KR102414377B1 (ko) 색상요소분할 전처리 기반의 플렌옵틱 영상 디코딩 방법
Barenbrug Declipse 2: multi-layer image and depth with transparency made practical
US20230316647A1 (en) Curvature-Guided Inter-Patch 3D Inpainting for Dynamic Mesh Coding
AU738692B2 (en) Improved image conversion and encoding techniques
CN114679620A (zh) 一种带阿尔法通道的视频播放方法、装置和电子设备
Sahane et al. DISOCCLUSION FREE VIDEO INPAINTING APPLICATION TO OBJECT REMOVAL

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination