CN107018400B

CN107018400B - 一种将2d视频转换成3d视频的方法

Info

Publication number: CN107018400B
Application number: CN201710227433.4A
Authority: CN
Inventors: 曹治国; 赵富荣; 肖阳; 李炽; 张骁迪; 鲜可; 李睿博; 李然; 张润泽; 杨佳琪; 朱延俊; 赵峰
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2018-06-19
Anticipated expiration: 2037-04-07
Also published as: CN107018400A

Abstract

一种将2D视频转换成3D视频的方法，属于模式识别和计算机视觉领域，目的在于消除现有技术场景深度估计和视点合成带来的不可预测误差，同时大大提高计算速度。本发明包括训练阶段和使用阶段，训练阶段依次包括数据输入、特征提取、特征融合、视点合成和参数更新步骤；使用阶段依次包括数据输入、特征提取、特征融合和视点合成步骤。训练阶段对10⁶级的左右格式的3D立体视频电影片进行训练，将场景深度估计和视点合成同时进行优化求解，确定参数，保证了输出右路视图的像素级精度预测，减少了将2D视频转3D视频分成两个任务操作带来的误差；训练完成以后，即可直接进行2D视频到3D视频的转换，可以大大提高转制效率，保证最后输出的3D立体视频的精度。

Description

一种将2D视频转换成3D视频的方法

技术领域

本发明属于模式识别和计算机视觉领域，具体涉及一种将2D视频转换成3D视频的方法，用于将普通摄像机拍摄的平面2D视频直接转换成电影院中可以观看的左右格式的3D立体视频。

背景技术

随着虚拟现实技术的发展，让观众沉浸于3D体验越来越成为多媒体娱乐领域一个非常重要的方向。3D体验需要全景视频和3D效果的支撑，普通的平面视频如果期望获得影院的3D观影体验，需要将2D的平面视频转换成3D视频。3D视频的格式有很多种，对于具有左右格式的3D立体视频，通常2D视频转3D视频是先根据2D视频图像中的各种几何关系、场景的语义信息，估计出2D视频图像中的物体的前后层次关系，进而通过这种空间位置关系，进行几何映射，合成另外一个视点的图像，左右两个视点的图像再进行合并，最终生成3D立体视频。

传统的二维视频转三维视频通过硬件和软件两种途径来解决。硬件主要有三维投影仪或者裸眼3D电视，它们首先将输入的2D视频图像进行宽度的压缩，将宽度变为原来的一半，然后将得到的视频不加区分的直接进行水平量的偏移或者映射，最终同一个物体在左右两个视点上的位置不一样，基于人眼的感知原理，期望得到3D效果，这是一种很粗糙的方法，绝大多数场景下3D效果不显著，市面上这种产品的2D转3D功能受制于其产品质量，真正受众的用户比较少，绝大部分厂商更多专注于硬件设备的性能提升，即输入已经转制好的3D立体视频，通过其硬件，获得比较好的三维显示效果。而2D转3D的功能主要通过软件算法得到，一般的2D转3D都要经过估计场景内物体的深度层次信息、语义分析、视点合成来得到另外一路的视频，两个不同的视点图像对场景的空间结构有不同的展示方式，人在观看的时候就可以获得比较好的三维体验。

四川长虹电器公司(201110239086.X)等解决方案是通过硬件或者软件算法优化上述两步，以期望获得更好的三维视觉效果输出。这些方案一方面对计算资源的消耗比较大，时间成本也比较高；另外一方面场景的深度提取、视点合成技术目前还在进一步探索中，实际使用过程中会有较大的计算误差，两部分的误差很容易累加进而影响最终的观看体验。随着大数据时代的到来，越来越多优质的三维电影、纪录片、动画等视频被制作出来，而当前平面视频的后期2D转3D制作仍然要耗费巨大的人力物力。

本发明中涉及VGG16模型，它是由K.Simonyan，A.Zisserma，在“Very deepconvolutional networks for large-scale imagerecognition，”提出，见arXiv：1409.1556，2014。该文章附录开源项目，其中包括参数文件vgg16-0001.params，其内容包括VGG16模型中各层卷积核的权值参数。

发明内容

本发明提供一种将2D视频转换成3D视频的方法，目的在于消除现有技术中场景的深度估计和视点合成带来的不可预测误差，同时大大提高视频立体转制的计算速度，以获得更好的立体观看体验。

本发明所提供的一种将2D视频转换成3D视频的方法，包括训练阶段和使用阶段，其特征在于：

(1)所述训练阶段依次包括数据输入步骤、特征提取步骤、特征融合步骤、视点合成步骤和参数更新步骤；

(1.1)数据输入步骤：通过公开的视频数据资源获取数量级为10⁶的左右视图格式的3D立体视频电影片，并从中挑选出视差范围为-15～+16的3D立体视频电影片，作为训练数据集，立体视频电影片中图像大小为H行、W列，H＝200～1920、W＝180～1080；

(1.2)特征提取步骤：将训练数据集中左右视图格式的立体视频拆分为左、右视图格式的立体图像，保留右视图不变，对一帧左视图依次通过数学卷积运算和池化降采样运算进行特征提取，得到该帧左视图的第一层卷积特征矩阵～第二十一层卷积特征矩阵，作为其图像特征；

(1.3)特征融合步骤：分别对第三层、第六层、第十层、第十四层、第二十一层卷积特征矩阵，进行矩阵反卷积操作，将所得到的第一组反卷积特征矩阵D3到第五组反卷积特征矩阵D21进行级联，构成融合特征矩阵Dc，融合特征矩阵Dc大小为H×W×32，即矩阵有H行、W列、32个张量维度；

(1.4)视点合成步骤：

对融合特征矩阵Dc，使用回归参数矩阵θ，得到对应左视图中每个像素取不同视差时的概率预测值，构成左视图的视差概率矩阵Dep；

依据原始左视图和视差概率矩阵Dep，通过视点合成，得到右路合成视图；

(1.5)参数更新步骤：

计算右路合成视图与步骤(1.2)中的右视图的误差矩阵err_R；

对于连续M帧右路合成视图，各误差矩阵err_R相加，构成传播误差矩阵errS_R，M≥16；将所得到的传播误差矩阵通过反向传播算法传播到视点合成步骤、特征融合步骤和特征提取步骤中的各子步骤，依次反向更新视差概率矩阵Dep、回归参数矩阵θ，以及各层各卷积核的各权值，完成所有参数的一次更新；

转特征提取步骤(1.2)，对所获得的训练数据集中余下的左视图继续依次进行上述特征提取、特征融合、视点合成步骤和参数更新步骤，当训练数据集中所有左、右视图均使用完毕，完成视差概率矩阵Dep、回归参数矩阵θ，以及各层各卷积核的第一轮更新；

依照所述步骤(1.1)至步骤(1.5)，继续完成视差概率矩阵Dep、回归参数矩阵θ，以及各层各卷积核的第二轮更新；如此重复，当完成第五十轮～第二百轮更新以后，训练阶段结束；

(2)所述使用阶段依次包括数据输入步骤、特征提取步骤、特征融合步骤和视点合成步骤；

(2.1)数据输入步骤：准备待转换的平面2D视频；

(2.2)特征提取步骤：将平面2D视频拆分为图像，作为相当于步骤(1.2)中的左视图，依次通过数学卷积运算和池化降采样运算进行特征提取，得到该帧左视图的第一层卷积特征矩阵～第二十一层卷积特征矩阵，作为其图像特征，各层所涉及各卷积核各权值均采用训练阶段结束后对应各层各卷积核的各权值；

(2.3)特征融合步骤：与步骤(1.3)相同；

(2.4)视点合成步骤：与步骤(1.4)相同，依据步骤(1.4)中得到的视差概率矩阵Dep，和(2.2)中的图像，通过视点合成得到右路合成视图；

对每一帧左视图依次进行上述特征提取步骤(2.2)、特征融合步骤(2.3)和视点合成步骤(2.4)，将原始图像作为左视图和所得到的右路合成视图进行左右拼接，然后一帧一帧连在一起即得到左右格式的3D立体视频。

所述特征提取步骤(1.2)包括下述子步骤：

(1.2.1)对一帧左视图进行卷积操作，得到第一层卷积特征矩阵：

使用3×3的卷积核，步长为1，从图像的左上角开始，依次向右移动，至图像的右边界，换为图像的下一行，继续从左向右移动，直到图像的右下角为止，每移动一次，卷积核各权值与对应位置图像的像素值相乘，所有乘积再相加，得到图像卷积核所在区域卷积值；图像各区域卷积值按原区域位置排列，构成该帧左视图的1次卷积特征矩阵C1₁，对C1₁中所有小于零的元素值取值为零；

共计使用64个3×3的卷积核，对图像进行上述卷积操作，得到64个1次卷积特征矩阵C1₁、C1₂、C₁₃……C1₆₄，构成第一层卷积特征矩阵；

(1.2.2)对第一层卷积特征矩阵进行卷积操作，得到第二层卷积特征矩阵：

使用3×3的卷积核，步长为1，从第一层1次卷积特征矩阵C1₁的左上角开始，依次向右移动，至1次卷积特征矩阵C1₁的右边界，换为下一行，继续从左向右移动，直到1次卷积特征矩阵C1₁的右下角为止，每移动一次，卷积核各权值与对应位置1次卷积特征矩阵C1₁的矩阵元素值相乘，所有乘积再相加，得到1次卷积特征矩阵C1₁卷积核所在区域卷积值；1次卷积特征矩阵C1₁各区域卷积值按原区域位置排列，构成卷积特征矩阵，对得到的卷积特征矩阵中所有小于零的元素值取值为零；

之后对其余63个1次卷积特征矩阵C1₂、C₁₃……C1₆₄，使用该层卷积特征矩阵对应的卷积核重复进行上一段所述操作，共计得到64个卷积特征矩阵，直接进行相加，构成2次卷积特征矩阵C2₁；

共计使用64个3×3的卷积核，对第一层卷积特征矩阵所包括的64个1次卷积特征矩阵C1₁、C1₂、C₁₃……C1₆₄进行上两段所述卷积操作，得到64个2次卷积特征矩阵C2₁、C2₂、C2₃……C2₆₄，构成第二层卷积特征矩阵；

(1.2.3)对第二层卷积特征矩阵进行第一次池化降采样操作，得到第三层卷积特征矩阵：

对第二层2次卷积特征矩阵C2₁，使用2×2的滑动窗口，步长为2，从2次卷积特征矩阵C2₁的左上角开始，依次向右移动，至2次卷积矩阵C2₁的右边界，换为下一行，继续从左向右移动，直到2次卷积矩阵C1₁的右下角为止，每移动一次，取2×2的滑动窗区域中对应位置2次卷积特征矩阵C2₁矩阵元素的最大值，作为卷积核所在区域的池化采样特征值，2次卷积特征矩阵C2₁各区域池化采样特征值按原区域位置排列，构成3次卷积特征矩阵C3₁；

对其余63个2次卷积特征矩阵C2₂、C2₃……C2₆₄依次进行上述池化降采样操作，共计得到64个3次卷积特征矩阵C3₁、C3₂、C3₃……C3₆₄，构成第三层卷积特征矩阵；

(1.2.4)对第三层卷积特征矩阵进行卷积操作，得到第四层卷积特征矩阵：

采用子步骤(1.2.2)中同样方式，使用3×3的卷积核，步长为1，卷积核各权值，对64个3次卷积特征矩阵C3₁、C3₂、C3₃……C3₆₄，分别进行矩阵卷积操作，共计得到64个卷积特征矩阵，直接进行相加，构成4次卷积特征矩阵C4₁；

共计使用128个3×3的卷积核，对第三层卷积特征矩阵所包括的64个3次卷积特征矩阵C3₁、C3₂、C3₃……C3₆₄，进行上一段所述卷积操作，得到128个4次卷积特征矩阵C4₁、C4₂、C4₃……C4₁₂₈，构成第四层卷积特征矩阵；

(1.2.5)对第四层卷积特征矩阵进行卷积操作，得到第五层卷积特征矩阵：

采用子步骤(1.2.2)中同样方式，使用3×3的卷积核，步长为1，卷积核各权值，对128个4次卷积特征矩阵C4₁、C4₂、C4₃……C4₁₂₈，分别进行矩阵卷积操作，共计得到128个卷积特征矩阵，直接进行相加，构成5次卷积特征矩阵C5₁；

共计使用128个3×3的卷积核，对第四层卷积特征矩阵所包括的128个4次卷积特征矩阵C4₁、C4₂、C4₃……C4₁₂₈，进行上一段所述卷积操作，得到128个5次卷积特征矩阵C5₁、C5₂、C5₃……C5₁₂₈，构成第五层卷积特征矩阵；

(1.2.6)对第五层卷积特征矩阵进行第二次池化降采样操作，得到第六层卷积特征矩阵：

采用子步骤(1.2.3)中同样方式，对128个5次卷积特征矩阵C5₁、C5₂、C5₃……C5₁₂₈，依次进行池化降采样操作，共计得到128个6次卷积特征矩阵C6₁、C6₂、C6₃……C6₁₂₈，构成第六层卷积特征矩阵；

(1.2.7)对第六层卷积特征矩阵进行卷积操作，得到第七层卷积特征矩阵：

采用子步骤(1.2.2)中同样方式，使用3×3的卷积核，步长为1，对128个6次卷积特征矩阵C6₁、C6₂、C6₃……C6₁₂₈，分别进行矩阵卷积操作，得到128个卷积结果，直接进行相加，构成7次卷积特征矩阵C7₁；

共计使用256个3×3的卷积核，对第六层卷积特征矩阵所包括的128个6次卷积特征矩阵C6₁、C6₂、C6₃……C6₁₂₈，进行上一段所述卷积操作，得到256个7次卷积特征矩阵C7₁、C7₂、C7₃……C7₂₅₆，构成第七层卷积特征矩阵；

(1.2.8)对第七层输出特征矩阵进行卷积操作，得到第八层卷积特征矩阵：

采用子步骤(1.2.2)中同样方式，使用3×3的卷积核，步长为1，卷积核各权值，对256个7次卷积特征矩阵C7₁、C7₂、C7₃……C7₂₅₆，分别进行矩阵卷积操作，得到256个卷积结果，直接进行相加，构成8次卷积特征矩阵C8₁；

共计使用256个3×3的卷积核，对第七层卷积特征矩阵所包括的256个7次卷积特征矩阵C7₁、C7₂、C7₃……C7₂₅₆，进行上一段所述卷积操作，得到256个8次卷积特征矩阵C8₁、C8₂、C8₃……C8₂₅₆，构成第八层卷积特征矩阵；

(1.2.9)对第八层输出特征矩阵进行卷积操作，得到第九层卷积特征矩阵：

采用子步骤(1.2.2)中同样方式，使用3×3的卷积核，步长为1，卷积核各权值，对256个8次卷积特征矩阵C8₁、C8₂、C8₃……C8₂₅₆，分别进行矩阵卷积操作，得到256个卷积结果，直接进行相加，构成9次卷积特征矩阵C9₁；

共计使用256个3×3的卷积核，对第八层卷积特征矩阵所包括的256个8次卷积特征矩阵C8₁、C8₂、C8₃……C8₂₅₆，进行上一段所述卷积操作，得到256个9次卷积特征矩阵C9₁、C9₂、C9₃……C9₂₅₆，构成第九层卷积特征矩阵；

(1.2.10)对第九层输出卷积特征矩阵进行第三次池化降采样操作，得到第十层卷积特征矩阵：

采用子步骤(1.2.3)中同样方式，对256个9次卷积特征矩阵C9₁、C9₂、C9₃……C9₂₅₆，依次进行池化降采样操作，共计得到256个10次卷积特征矩阵C10₁、C10₂、C10₃……C10₂₅₆，构成第十层卷积特征矩阵；

(1.2.11)对第十层卷积特征矩阵依次进行卷积操作，依次得到第十一层、第十二层、第十三层卷积特征矩阵：

按照子步骤(1.2.7)类似的操作，对第十层卷积特征矩阵进行卷积操作，使用的卷积核数量为512个，对第十层卷积特征矩阵所包括的256个10次卷积特征矩阵C10₁、C10₂、C10₃……C10₂₅₆得到512个11次卷积特征矩阵C11₁、C11₂、C11₃……C11₅₁₂，构成第十一层卷积特征矩阵；

按照子步骤(1.2.8)类似的操作，对第十一层卷积特征矩阵进行卷积操作，使用的卷积核数量为512个，对第十一层卷积特征矩阵所包括的512个11次卷积特征矩阵C11₁、C11₂、C11₃……C11₅₁₂得到512个12次卷积特征矩阵C12₁、C12₂、C12₃……C12₅₁₂，构成第十二层卷积特征矩阵；

按照子步骤(1.2.9)类似的操作，对第十二层卷积特征矩阵进行卷积操作，使用的卷积核数量为512个，对第十二层卷积特征矩阵所包括的512个12次卷积特征矩阵C12₁、C12₂、C12₃……C12₅₁₂得到512个13次卷积特征矩阵C13₁、C13₂、C13₃……C13₅₁₂，构成第十三层卷积特征矩阵；

(1.2.12)对第十三层卷积特征矩阵C13₁、C13₂、C13₃……C13₅₁₂，进行第四次池化降采样操作，得到第十四层卷积特征矩阵：

采用子步骤(1.2.3)中同样方式，对512个13次卷积特征矩阵C13₁、C13₂、C13₃……C13₅₁₂，依次进行池化降采样操作，共计得到512个14次卷积特征矩阵C14₁、C14₂、C14₃……C14₅₁₂，构成第十四层卷积特征矩阵；

(1.2.13)对第十四层卷积特征矩阵依次进行卷积操作，依次得到第十五层、第十六层、第十七层卷积特征矩阵：

按照子步骤(1.2.11)类似的操作，对第十四层卷积特征矩阵进行卷积操作，使用的卷积核数量为512个，对第十四层卷积特征矩阵所包括的512个14次卷积特征矩阵C14₁、C14₂、C14₃……C14₅₁₂得到512个15次卷积特征矩阵C15₁、C15₂、C15₃……C15₅₁₂，构成第十五层卷积特征矩阵；

按照子步骤(1.2.12)类似的操作，对第十五层卷积特征矩阵进行卷积操作，使用的卷积核数量为512个，对第十五层卷积特征矩阵所包括的512个15次卷积特征矩阵C15₁、C15₂、C15₃……C15₅₁₂得到512个16次卷积特征矩阵C16₁、C16₂、C16₃……C16₅₁₂，构成第十六层卷积特征矩阵；

按照子步骤(1.2.12)类似的操作，对第十六层卷积特征矩阵进行卷积操作，使用的卷积核数量为512个，对第十六层卷积特征矩阵所包括的512个16次卷积特征矩阵C16₁、C16₂、C16₃……C16₅₁₂得到512个17次卷积特征矩阵C17₁、C17₂、C17₃……C17₅₁₂，构成第十七层卷积特征矩阵；

(1.2.14)对第十七层卷积特征矩阵，进行第四次池化降采样操作，得到第十八层卷积特征矩阵：

采用子步骤(1.2.3)中同样方式，对512个17次卷积特征矩阵C17₁、C17₂、C17₃……C17₅₁₂，依次进行池化降采样操作，共计得到512个18次卷积特征矩阵C18₁、C18₂、C18₃……C18₅₁₂，构成第十八层卷积特征矩阵；

(1.2.15)对第十八层输出特征矩阵进行卷积操作，得到第十九层卷积特征矩阵：

采用子步骤(1.2.2)中同样方式，使用3×3的卷积核，步长为1，卷积核各权值，对512个18次卷积特征矩阵C18₁、C18₂、C18₃……C18₅₁₂，分别进行矩阵卷积操作，得到512个卷积结果，直接进行相加，构成19次卷积特征矩阵C19₁；

共计使用4096个3×3的卷积核，对第十八层卷积特征矩阵所包括的512个18次卷积特征矩阵C18₁、C18₂、C18₃……C18₅₁₂，进行上一段所述卷积操作，得到4096个19次卷积特征矩阵C19₁、C19₂、C19₃……C19₄₀₉₆，构成第十九层卷积特征矩阵；

(1.2.16)对第十九层卷积特征矩阵进行卷积操作，得到第二十层卷积特征矩阵：

采用子步骤(1.2.2)中同样方式，使用1×1的卷积核，步长为1，卷积核各权值，对4096个19次卷积特征矩阵C19₁、C19₂、C19₃……C19₄₀₉₆，分别进行矩阵卷积操作，得到4096个卷积结果，直接进行相加，构成20次卷积特征矩阵C20₁；

共计使用4096个1×1的卷积核，对第十九层卷积特征矩阵所包括的4096个19次卷积特征矩阵C19₁、C19₂、C19₃……C19₄₀₉₆，进行上一段所述卷积操作，得到4096个20次卷积特征矩阵C20₁、C20₂、C20₃……C20₄₀₉₆，构成第二十层卷积特征矩阵；

(1.2.17)对第二十层输出特征矩阵进行卷积操作，得到第二十一层卷积特征矩阵：

采用子步骤(1.2.2)中同样方式，使用1×1的卷积核，步长为1，卷积核各权值，对4096个20次卷积特征矩阵C20₁、C20₂、C20₃……C20₄₀₉₆，分别进行矩阵卷积操作，得到4096个卷积结果，直接进行相加，构成21次卷积特征矩阵C21₁；

共计使用32个1×1的卷积核，对第二十层卷积特征矩阵所包括的4096个20次卷积特征矩阵C20₁、C20₂、C20₃……C20₄₀₉₆，进行上一段所述卷积操作，得到32个21次卷积特征矩阵C21₁、C21₂、C21₃……C21₃₂，构成第二十一层卷积特征矩阵；

子步骤(1.2.1)至子步骤(1.2.17)中所涉及各卷积核各权值均采用VGG16模型的参数文件vgg16-0001.params中数值进行初始化，之后则采用参数更新步骤(1.5)后对应各层各卷积核的各权值；

对每帧左视图，经过子步骤(1.2.1)至(1.2.17)，得到经过不同尺度提取得到的二十一层卷积特征矩阵。

所述特征融合步骤(1.3)包括下述子步骤：

(1.3.1)对第一次池化降采样操作得到的第三层卷积特征矩阵进行反卷积操作，得到第一组反卷积特征矩阵D3：

使用1×1的卷积核，分别对64个3次卷积特征矩阵C3₁、C3₂、C3₃……C3₆₄进行矩阵反卷积操作，得到64个卷积输出结果，直接进行相加，构成1次反卷积特征矩阵D3₁；

共计使用32个1×1的卷积核，对第三层卷积特征矩阵所包括的64个3次卷积特征矩阵C3₁、C3₂、C3₃……C3₆₄进行上一段所述操作，得到32个1次反卷积特征矩阵D3₁、D3₂、D3₃……D3₃₂，构成第一组反卷积特征矩阵D3；

(1.3.2)对第二次池化降采样操作得到的第六层卷积特征矩阵进行反卷积操作，得到第二组反卷积特征矩阵D6：

使用2×2的卷积核，分别对128个6次卷积特征矩阵C6₁、C6₂、C6₃……C6₁₂₈进行矩阵反卷积操作，得到128个卷积输出结果，直接进行相加，构成2次反卷积特征矩阵D6₁；

共计使用32个2×2的卷积核，对第六层卷积特征矩阵所包括的128个6次卷积特征矩阵C6₁、C6₂、C6₃……C6₁₂₈进行上一段所述操作，得到32个2次反卷积特征矩阵D6₁、D6₂、D6₃……D6₃₂，构成第二组反卷积特征矩阵D6；

(1.3.3)对第三次池化降采样操作得到的第十层卷积特征矩阵、第四次池化降采样操作得到的第十四层卷积特征矩阵，分别进行反卷积操作，得到第三组反卷积特征矩阵D10和第四组反卷积特征矩阵D14：

其中，按照子步骤(1.3.2)中的矩阵反卷积操作，共计使用32个4×4的卷积核，卷积核各权值，对第十层卷积特征矩阵所包括的256个10次卷积特征矩阵C10₁、C10₂、C10₃……C10₂₅₆进行操作，得到32个3次反卷积特征矩阵D10₁、D10₂、D10₃……D10₃₂，构成第三组反卷积特征矩阵D10；

共计使用32个8×8的卷积核，对第十四层卷积特征矩阵所包括的512个14次卷积特征矩阵C14₁、C14₂、C14₃……C14₅₁₂进行操作，得到32个4次反卷积特征矩阵D14₁、D14₂、D14₃……D14₃₂，构成第四组反卷积特征矩阵D14；

(1.3.4)对第二十一层卷积特征矩阵进行矩阵反卷积操作，得到第五组反卷积特征矩阵：

按照子步骤(1.3.2)中的矩阵反卷积操作，共计使用32个16×16的卷积核，卷积核各权值，对第二十一层卷积特征矩阵所包括的32个21次卷积特征矩阵C21₁、C21₂、C21₃……C21₃₂进行操作，得到32个5次反卷积特征矩阵D21₁、D21₂、D21₃……D21₃₂，构成第五组反卷积特征矩阵D21；

(1.3.5)将第一组反卷积特征矩阵D3到第五组反卷积特征矩阵D21进行级联，构成融合特征矩阵Dc，具体级联方式如公式(1)所示：

子步骤(1.3.1)至子步骤(1.3.4)中所涉及各卷积核各权值均采用VGG16模型的参数文件vgg16-0001.params中数值进行初始化，之后则采用参数更新步骤(1.5)后对应各层各卷积核的各权值。

所述视点合成步骤(1.4)包括下述子步骤：

(1.4.1)深度映射：对融合特征矩阵Dc，采用以下公式(2)计算，得到对应左视图中每个像素取不同视差时的概率预测值，构成左视图的视差概率矩阵Dep：

其中，矩阵元素Dep_k亦为矩阵，k＝1、2、…、32，表示概率值p(y＝k|x；θ)，即取视差为k-16，回归参数矩阵为θ时左视图各像素对应的视差概率值；回归参数矩阵θ由回归参数[θ₁，θ₂，…，θ₃₂]组成，表示Dc中第p个张量维度在回归参数θ_p下的逻辑回归值，p＝1、2、...32，使用VGG16模型的参数文件vgg16-0001.params中数值对回归参数矩阵θ的各回归参数初始化，之后则采用参数更新步骤(1.5)后相应回归参数矩阵θ的各回归参数；

(1.4.2)形成右路合成视图R，其中第i行第j列的像素值R_i，j如公式(3)所示：

其中，L_d为原始左视图平移视差d时的平移视图，为其第i行第j列的像素值，L_i，j-d为原始左视图中i，j-d位置处的像素值，若j-d＜0，则d为视差值，-15≤d≤+16，为矩阵Depk中i，j位置处的元素值，为左视图中i，j位置处像素值视差取为d的概率，k＝d+16，i＝1～H、j＝1～W。

所述参数更新步骤(1.5)包括下述子步骤：

(1.5.1)将右路合成视图R与步骤(1.2)中的右视图相减，得到误差矩阵err_R；对于连续M帧右路合成视图，各误差矩阵err_R相加，构成传播误差矩阵errS_R，M≥16；

(1.5.2)将传播误差矩阵errS_R反向传播到视点合成步骤(1.4)，首先将视差概率矩阵Dep更新为新的视差概率矩阵Dep^l+1，其矩阵元素为如公式(4)所示：

表示视差为d(d＝k-16)时的第l+1次的更新值，表示其前一次更新值，学习率η初始化为0.00003～0.00008；

(1.5.3)其次将回归参数矩阵θ更新为θl⁺¹，对于θ^l+1的每个回归参数按照下述公式(5)更新；

其中表示回归参数θ_p的第l+1次更新值，表示其前一次的更新值，Dep_p即为视点合成步骤(1.4)参数更新以后对应的Dep_k，其中p＝k，L_p为视点合成步骤对应的L_d，其中d＝p-16，Dc_p即为步骤(1.3.5)中对应的Dc_t，其中t＝p，p的取值范围是1到32，λ为θ的更新速率，0.00001≤λ≤0.01；

(1.5.4)将传播误差矩阵errS_R变为特征误差矩阵errD_R，如公式(6)所示：

再将特征误差矩阵errD_R送入特征提取步骤(1.2)和特征融合步骤(1.3)，对涉及的每个卷积核的权值采用caffe深度学习框架中的迭代方式进行更新，

从第二十一层到第一层依次更新共计12608个卷积核，共计113472个卷积核权值；经过子步骤(1.5.2)～(1.5.4)，完成所有参数的一次更新。

特征提取步骤和特征融合步骤均和参数初始化使用的VGG16模型的层次一致，实际操作时，对每个卷积核的权值更新采用caffe深度学习框架(Jia Y，Shelhamer E，Donahue J，et al.Caffe：Convolutional architecture for fast featureembedding.In：Proc，ACM international conference on Multimedia.2014：675-678.)中的迭代方式，其为学术界和工业界通用的梯度下降误差传播方式，其核心描述为：卷积核各权值的当前值加上相应的残差值，为更新后的卷积核各权值；某一层输入卷积特征矩阵经过该层卷积核进行卷积运算以后得到输出卷积特征矩阵，即为下一层的输入卷积特征矩阵，则认为该层输入卷积特征矩阵与下一层的输入卷积特征矩阵之间通过该层的卷积核各权值对应位置之间具有权值连接，

某一层某卷积核各权值的残差值构成一个矩阵，按下述方式求解：

将与该卷积核有权值连接的后一层所有卷积核上各权值的残差值分别乘以其对应位置权值，对所有结果求和得到结果矩阵，当其某处位置矩阵元素小于零时取值为零，最终所得到的矩阵为残差值矩阵。

本发明包括训练阶段和使用阶段，训练阶段通过特征提取、特征融合、视点合成和参数更新四个核心步骤，对10⁶级的左右格式的3D立体视频电影片进行训练，将场景深度估计和视点合成的任务同时进行优化求解，确定参数，保证了输出右路视图的像素级精度预测，减少了通常将2D视频转3D视频分成两个任务操作带来的误差。训练完成以后，即可直接进行2D视频到3D视频的转换，中间不需要经过从场景的深度估计到视点合成前后分开的转制过程，而是在其训练过程中作为输入的前后步骤共同优化、一起训练，在使用阶段可以大大提高2D视频到3D视频的转制效率，保证了最后输出的3D立体视频的精度。

与现有其他2D视频转制3D视频方法相比，本发明的效果突出体现在以下几点：

1.相比于以往的首先进行场景深度估计，然后再进行视点合成的技术途径，本发明首次提出将场景深度估计和视点合成统一到一个框架中，一方面步骤设计简洁明了，训练完成以后计算速度快；另一方面减少了中间大量计算尤其是目前场景的深度估计精度不够而带来的误差，可以获得更高的输出精度；

2.本发明实现的是像素级别的图像输出，针对原始图像中的每一个像素点，预测其可能的像素映射，精准的获得其在另外一个视点中的图像分布情况。根据10⁶级的左右格式的3D立体视频电影片进行训练，这些视频制作设计的初衷就是为了让人观看时有更强的视觉舒适感，这保证了最后输出的三维视频的准确性，同时在视频观看时带来更强的视觉冲击效果。

附图说明

图1为本发明的流程示意图；

图2为本发明的输入输出图像，上边一行为输入图像，下边一行为对应的合成右路视图。

具体实施方式

以下结合附图和实施例，对本发明进一步详细说明。

如图1所示，本发明包括训练阶段和使用阶段，所述训练阶段依次包括数据输入步骤、特征提取步骤、特征融合步骤、视点合成步骤和参数更新步骤；所述使用阶段依次包括数据输入步骤、特征提取步骤、特征融合步骤和视点合成步骤。

本发明的实施例，包括训练阶段和使用阶段，

(1.1)数据输入步骤：通过公开的视频数据资源获取数量级为10⁶的左右视图格式的3D立体视频电影片，并从中挑选出视差范围为-15到+16的3D立体视频电影片，作为训练数据集，立体视频电影片中图像大小为H行、W列，H＝200～1920、W＝180～1080；

左右视图格式的3D立体视频电影片包含了不同种类的立体电影数据，包括动作片、剧情片、国外上映的动画、纪录片、3D视频宣传片等；

从3D立体视频电影片中挑选出视差范围-15～+16的3D立体视频电影片，其过程如下：

(a)将3D立体视频电影片中的视频数据转换为一帧一帧的左、右视图格式的立体图像；

(b)将(a)中得到的左、右视图使用立体匹配算法得到对应的视差图；

(c)对(b)得到的视差图进行均值滤波平滑处理；

(d)对经过(c)平滑处理后的视差图进行直方图统计，得到视差图直方图统计中视差的最大值和最小值；

(e)根据(d)中得到的视差值的最大值和最小值，判断该帧立体图像是否在-15～+16视差范围内，是则保留；否则丢弃当前帧立体图像。

对于初始选取的每段视频都进行上述过程的处理，保证不被个别特殊处理的视频片段所干扰，在本实施例中，最终通过上述过程得到大约一百二十万帧的图像数据，用做确定模型参数的训练数据集。

本实施例中使用双目立体匹配算法(D.Scharstein，R.Szeliski，“Ataxonomy andevaluation of dense two-frame stereo correspondencealgorithms”，InternationalJournal of Computer Vision，2002，47(1-3)，pp.7-42.)对训练数据集中的视频的左右两路进行立体匹配，得到每个双目立体视频的视差分布范围，所述双目立体匹配算法是一种通用的解决方案，本实施例使用的是其官方开源项目。

挑选好训练数据集以后，对不同的训练视频数据进行格式的统一，鉴于训练数据集中不同视频的图像尺寸差距会比较大，需要对图像尺度大小做统一的处理，保证模型参数的可训练性，本实施例中将所有视频中的图像尺度缩放为统一的640×960。

(1.2)特征提取步骤：将训练数据集中左右格式的立体视频拆分为左、右路视图格式的立体图像，保留右视图不变，对一帧左视图依次通过数学卷积运算和池化降采样运算进行特征提取，得到该帧左视图的第一层卷积特征矩阵～第二十一层卷积特征矩阵，作为其图像特征。

特征提取步骤采用了大量的卷积操作和池化降采样操作，不断的进行不同尺度，不同区域的特征提取。为清楚起见，将形成各层卷积特征矩阵的操作、卷积核大小、数量以及滑动窗口大小、数量陈列于下：

第一层，卷积运算，卷积核大小为3×3，数量为64；

第二层，卷积运算，卷积核大小为3×3，数量为64；

第三层，第一次池化降采样操作，滑动窗口为2×2，步长为2；

第四层，卷积运算，卷积核大小为3×3，数量为128；

第五层，卷积运算，卷积核大小为3×3，数量为128；

第六层，第二次池化降采样操作，滑动窗口为2×2，步长为2；

第七层，卷积运算，卷积核大小为3×3，数量为256；

第八层，卷积运算，卷积核大小为3×3，数量为256；

第九层，卷积运算，卷积核大小为3×3，数量为256；

第十层，第三次池化降采样操作，滑动窗口为2×2，步长为2；

第十一层，卷积运算，卷积核大小为3×3，数量为512；

第十二层，卷积运算，卷积核大小为3×3，数量为512；

第十三层，卷积运算，卷积核大小为3×3，数量为512；

第十四层，第四次池化降采样操作，滑动窗口为2×2，步长为2；

第十五层，卷积运算，卷积核大小为3×3，数量为512；

第十六层，卷积运算，卷积核大小为3×3，数量为512；

第十七层，卷积运算，卷积核大小为3×3，数量为512；

第十八层，第五次池化降采样操作，滑动窗口为2×2，步长为2；

第十九层，卷积运算，卷积核大小为3×3，数量为4096；

第二十层，卷积运算，卷积核大小为1×1，数量为4096；

第二十一层，卷积运算，卷积核大小为1×1，数量为32；

输入左视图经过连续几个卷积特征提取以后得到的特征具有更强的局部区域和全局空间表达能力。对于一张大小为640×960大小的输入图片来说，其左图像和右图像大小分别为640×480和640×480。

经过卷积操作和池化降采样操作以后，其左视图的第三层、第六层、第十层、第十四层、第二十一层卷积特征矩阵大小分别为320×240、160×120、80×60、40×30、20×15。

(1.3)特征融合步骤：分别对第三层、第六层、第十层、第十四层、第二十一层卷积特征矩阵，进行矩阵反卷积操作，将所得到的第一组反卷积特征矩阵D3到第五组反卷积特征矩阵D21进行级联，构成融合特征矩阵Dc，本实例中融合特征矩阵Dc大小为640×480×32，即矩阵有640行、480列、32个张量维度；

本发明中最终是输出像素级别的图像，因而，为了保证像素级别的右路合成视图中对不同尺度，不同区域，局部和全局特征都具有良好的响应，本发明将不同卷积层输出的卷积特征矩阵进行融合。每次经过池化降采样操作以后，矩阵特征维度就会减少为上一层的一半，如C3₁、C3₂、C3₃…C3₆₄中每个特征矩阵的维度是C4₁、C4₂、C4₃…C4₁₂₈中每个矩阵特征的两倍，即矩阵C3₁的长和宽分别是C4₁的两倍。为了保证特征融合时矩阵维度大小的一致，本发明中针对不同池化降采样操作以后矩阵的维度，分别进行矩阵的反卷积，不同池化降采样层输出卷积特征矩阵进行反卷积操作的区别在于卷积核的大小不同。

以要进行反卷积的矩阵C6₁为例，反卷积的具体操作如下：首先将矩阵C6₁的长和宽分别扩大N倍，N即是反卷积核的大小，如前文所述，本发明中反卷积核大小分别设置为2×2，4×4，8×8，16×16，32×32，即N根据不同层分别取2、4、8、16、32。对C6₁反卷积时N取4。矩阵长宽扩大N倍以后的，其中间值使用最近邻插值来完成，得到矩阵C6₁′。然后使用N×N的卷积核，步长为N/2，从矩阵C6₁′的左上角开始，依次向右移动，至矩阵C6₁′的右边界，换为矩阵C6₁′的下一行，继续从左向右移动，直到矩阵C6₁′的右下角为止。每移动一次，卷积核各权值与对应位置矩阵C6₁′的卷积值相乘，所有乘积再相加，得矩阵C6₁′该区域卷积值。矩阵C6₁′各区域卷积值，按原区域位置排列，即完成一次矩阵反卷积操作。

对(1.2)中输入大小为640×480的左视图，其第三层、第六层、第十层、第十四层、第二十一层卷积特征矩阵经过反卷积操作以后，所得到的第一组反卷积特征矩阵D3到第五组反卷积特征矩阵D21大小均为640×480×32。经过级联，最终构成大小为640×480×32的融合特征矩阵。

(1.4)视点合成步骤：对融合特征矩阵Dc，使用回归参数矩阵θ，得到对应左视图中每个像素取不同视差时的概率预测值，构成左视图的视差概率矩阵Dep；依据原始左视图和视差概率矩阵Dep，通过视点合成，得到右路合成视图。640×480×32大小的融合特征矩阵，经过回归参数矩阵θ进行视差概率预测回归，得到的依然是640×480×32的矩阵；此时对于每一个张量维度，即640×480的矩阵，直观上理解可以得到左视图中的每个像素点取对应视差值d的概率，本实施例依据大小为640×480×32的视差概率矩阵Dep和大小为640×480的原始左视图，通过视点合成所得到的右路合成视图与原始左视图大小一致，为640×480；

(1.5)参数更新步骤：计算右路合成视图与步骤(1.2)中的右视图的误差矩阵err_R；

对于连续640帧右路合成视图，各误差矩阵err_R相加，构成传播误差矩阵errS_R；将所得到的传播误差矩阵通过反向传播算法传播到视点合成步骤、特征融合步骤和特征提取步骤中的各子步骤，依次反向更新视差概率矩阵Dep、回归参数矩阵θ，以及各层各卷积核的各权值，完成所有参数的一次更新；参数更新过程中的特征融合和特征提取步骤的误差传播调用caffe深度学习框架中相应的函数接口即可实现。本实施例中学习率η初始化设置为0.00005，之后每隔20000轮运算以后设置学习率衰减30％；

转特征提取步骤(1.2)，对所获得的训练数据集中下余的左视图继续依次进行上述特征提取、特征融合、视点合成步骤和参数更新步骤，当训练数据集中所有左、右视图均使用完毕，完成视差概率矩阵Dep、回归参数矩阵θ，以及各层各卷积核的第一轮更新，本实施例中每一轮中需要更新参数2000次；

依照上述方式，继续完成视差概率矩阵Dep、回归参数矩阵θ，以及各层各卷积核的第二轮更新；如此重复，当完成第100轮更新以后，本实施例训练阶段结束；

(2)所述使用阶段依次包括数据输入步骤、特征提取步骤、特征融合步骤和视点合成步骤。

(2.1)数据输入步骤：准备待转换的平面2D视频；

(2.2)特征提取步骤：将平面2D视频拆分为图像，作为相当于步骤(1.2)中的左视图，依次通过数学卷积运算和池化降采样运算进行特征提取，得到该帧左视图的第一层卷积特征矩阵～第二十一层卷积特征矩阵，作为其图像特征；各层所涉及各卷积核各权值均采用训练阶段结束后对应各层各卷积核的各权值；

(2.3)特征融合步骤：与步骤(1.3)相同；

(2.4)视点合成步骤：与步骤(1.4)相同，依据步骤(1.4)中得到的视差概率矩阵Dep，和(2.2)中的图像，通过视点合成得到右路合成视图，

对每一帧左视图依次进行上述特征提取、特征融合和视点合成步骤，将原始图像作为左视图和所得到的右路合成视图进行左右拼接，然后一帧一帧连在一起即得到左右格式的3D立体视频。

输出部分实验结果如图2所示，上边一行从左向右为连续三帧输入图像，下边一行为对应的右路合成视图。

Claims

1.一种将2D视频转换成3D视频的方法，包括训练阶段和使用阶段，其特征在于：

(1.4)视点合成步骤：

(1.5)参数更新步骤：

计算右路合成视图与步骤(1.2)中的右视图的误差矩阵err_R；

(2.1)数据输入步骤：准备待转换的平面2D视频；

(2.3)特征融合步骤：与步骤(1.3)相同；

2.如权利要求1所述的将2D视频转换成3D视频的方法，其特征在于：所述特征提取步骤(1.2)包括下述子步骤：

共计使用64个3×3的卷积核，对图像进行上一段所述卷积操作，得到64个1次卷积特征矩阵C1₁、C1₂、C₁₃……C1₆₄，构成第一层卷积特征矩阵；

对每帧左视图，经过子步骤(1.2.1)55(1.2.17)，得到经过不同尺度提取得到的二十一层卷积特征矩阵。

3.如权利要求1或2所述的将2D视频转换成3D视频的方法，其特征在于：

所述特征融合步骤(1.3)包括下述子步骤：

其中N＝32，表示经过子步骤(1.3.1)-(1.3.4)中，每个子步骤得到的每组反卷积特征矩阵的个数，得到的融合特征矩阵Dc大小为H×W×32，即H行、W列，32个张量维度，Dc₁表示32个张量维度中的第一个，Dc_t表示32个张量维度中的第t个；

4.如权利要求3所述的将2D视频转换成3D视频的方法，其特征在于：

所述视点合成步骤(1.4)包括下述子步骤：

(1.4.2)形成右路合成视图R，其中第i行第j列的像素值R_i，_j如公式(3)所示：

其中，L_d为原始左视图平移视差d时的平移视图，为其第i行第j列的像素值，L_i，j-d为原始左视图中i，j-d位置处的像素值，若j-d＜0，则d为视差值，-15≤d≤+16，为矩阵Dep_k中i，j位置处的元素值，为左视图中i，j位置处像素值视差取为d的概率，k＝d+16，i＝1～H、j＝1～W。

5.如权利要求4所述的将2D视频转换成3D视频的方法，其特征在于：

所述参数更新步骤(1.5)包括下述子步骤：

表示视差为d(d＝k-16)时的第l+1次的更新值，d＝k-16；表示其前一次更新值，学习率η初始化为0.00003～0.00008；

(1.5.3)其次将回归参数矩阵θ更新为θ^l+1，对于θ^l+1的每个回归参数按照下述公式(5)更新；

再将特征误差矩阵errD_R送入特征提取步骤(1.2)和特征融合步骤(1.3)，对涉及的每个卷积核的权值采用caffe深度学习框架的迭代方式进行更新；