CN111193920A

CN111193920A - 一种基于深度学习网络的视频画面立体拼接方法和***

Info

Publication number: CN111193920A
Application number: CN201911406584.1A
Authority: CN
Inventors: 鲍敏; 谢超
Original assignee: Chongqing Terminus Technology Co Ltd
Current assignee: Chongqing Terminus Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-22
Anticipated expiration: 2039-12-31
Also published as: CN111193920B

Abstract

本发明公开了一种基于深度学习网络的视频画面立体拼接方法和***，该方法包括：提取步骤：提取同一视点拍摄的二维视频画面中的匹配点；拼接步骤：基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面；判别步骤：将所述全景视频画面输入所述GAN网络进行判别，生成第一视点的全景视频画面；重复步骤：提取另一视点拍摄的二维视频画面中的匹配点，重复拼接步骤与判别步骤，生成第二视点的全景视频画面；组合步骤：将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合，生成全景立体视频。该方法通过GAN网络实现对景点实时风貌和表演进行全景立体视频展示，降低人工成本。

Description

一种基于深度学习网络的视频画面立体拼接方法和***

技术领域

本发明涉及视频画面拼接技术领域，具体是一种基于深度学习网络的视频画面立体拼接方法和***。

背景技术

随着在线智慧旅游服务的兴起，以及VR头盔等设备进入消费市场，越来越多的景区开始在其官网或者APP上面提供景点的全景立体视频展示服务，让游客在家中通过头戴VR头盔设备，也能够身临其境，获得360度无死角的立体视觉感官体验。

甚至可以根据在景点实时拍摄的全景立体视频，对在线展示的内容进行同步更新，比如全景立体视频展示服务呈现的景点的当前风貌与真实景点完全同步，或者通过全景立体视频展示服务也可以观赏景点正在举办的表演等活动。

但是，真正的高清晰度全景立体视频摄像机价格不菲，无法做到在景点大量安装，而且为了与游客的正常视角一致，这些摄像机的安装高度应该与人体高度近似，这也造成设备很容易被损坏。

因此，从成本的角度出发，可以利用高清晰度的普通摄像头，从各个视角方向上拍摄较大数量的景点二维视频画面，再通过后期拼接技术生成景点的全景立体视频画面；但是，一般后期拼接都要由专门的工作人员花费较多的工时，人力成本高，而且无法实现对景点实时风貌和表演进行全景立体视频展示。

因此，如何对景点实时风貌和表演进行全景立体视频展示，降低人工成本是本领域技术人员亟待解决的问题。

发明内容

鉴于上述问题，本发明的目的是解决通过后期拼接技术将景点二维视频画面生成景点的全景立体视频画面人力成本高，而且无法实现对景点实时风貌和表演进行全景立体视频展示的问题，实现对景点实时风貌和表演进行全景立体视频展示，降低人工成本。

本发明实施例提供一种基于深度学习网络的视频画面立体拼接方法，包括：

提取步骤：提取同一视点拍摄的二维视频画面中的匹配点；

拼接步骤：基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面；

判别步骤：将所述全景视频画面输入所述GAN网络进行判别，生成第一视点的全景视频画面；

重复步骤：提取另一视点拍摄的二维视频画面中的匹配点，重复拼接步骤与判别步骤，生成第二视点的全景视频画面；

组合步骤：将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合，生成全景立体视频。

在一个实施例中，基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面，包括：

建立所述二维视频画面中的匹配点之间的初始匹配向量集合；

将所述初始匹配向量集合输入生成器G，获取配准匹配向量，生成配准匹配向量集合；

根据所述配准匹配向量集合，确定任意两个二维视频画面之间的配准关系；

根据所述配准关系，对所述二维视频画面进行拼接，生成所述全景视频画面。

在一个实施例中，将所述全景视频画面输入所述GAN网络进行判别，生成第一视点的全景视频画面，包括：

将所述全景视频画面输入经过训练之后的判别器D进行判别，生成判别结果，并将所述判别结果反馈给所述生成器G；

若判别结果为伪，则所述生成器G生成下一轮的配准匹配向量集合；

根据所述下一轮的配准向量集合，确定所述任意两个二维视频画面之间的配准关系；

根据所述配准关系，对所述任两个二维视频画面进行拼接，生成下一轮的全景视频画面；

将所述下一轮的全景视频画面输入所述判别器D进行判别，生成判别结果；

若判别结果为伪，重复上述步骤，直至所述判别结果为真，生成所述第一视点的全景视频画面。

在一个实施例中，若判别结果为伪，则所述生成器G生成下一轮的配准匹配向量集合，包括：

若判别结果为伪，所述生成器G的神经网络调节神经元连接权重，生成匹配向量集合；

根据所述下一轮的匹配向量集合，获取下一轮的配准匹配向量，生成所述下一轮的配准匹配向量集合。

在一个实施例中，所述匹配点，包括以下任意一种：

SIFT特征点、HARRIS角点。

第二方面，本发明还提供一种基于深度学习网络的视频画面立体拼接***，包括：

提取模块，用于提取同一视点拍摄的二维视频画面中的匹配点；

拼接模块，用于基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面；

判别模块，用于将所述全景视频画面输入所述GAN网络进行判别，生成第一视点的全景视频画面；

重复模块，用于提取另一视点拍摄的二维视频画面中的匹配点，重复拼接步骤与判别步骤，生成第二视点的全景视频画面；

组合模块，用于将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合，生成全景立体视频。

在一个实施例中，所述拼接模块，包括：

建立子模块，用于建立所述二维视频画面中的匹配点之间的初始匹配向量集合；

第一生成子模块，用于将所述初始匹配向量集合输入生成器G，获取配准匹配向量，生成配准匹配向量集合；

第一确定子模块，用于根据所述配准匹配向量集合，确定任意两个二维视频画面之间的配准关系；

拼接子模块，用于根据所述配准关系，对所述二维视频画面进行拼接，生成所述全景视频画面。

在一个实施例中，所述判别模块，包括：

反馈子模块，用于将所述全景视频画面输入经过训练之后的判别器D进行判别，生成判别结果，并将所述判别结果反馈给所述生成器G；

第二生成子模块，用于若判别结果为伪，则所述生成器G生成下一轮的配准匹配向量集合；

第二确定子模块，用于根据所述下一轮的配准向量集合，确定所述任意两个二维视频画面之间的配准关系；

全景视频画面生成子模块，用于根据所述配准关系，对所述任两个二维视频画面进行拼接，生成下一轮的全景视频画面；

判别子模块，用于将所述下一轮的全景视频画面输入所述判别器D进行判别，生成判别结果；

重复子模块，用于若判别结果为伪，重复上述步骤，直至所述判别结果为真，生成所述第一视点的全景视频画面。

在一个实施例中，所述第二生成子模块，包括：

调节单元，用于若判别结果为伪，所述生成器G的神经网络调节神经元连接权重，生成匹配向量集合；

获取单元，用于根据所述下一轮的匹配向量集合，获取下一轮的配准匹配向量，生成所述下一轮的配准匹配向量集合。

在一个实施例中，所述提取模块中的所述匹配点，包括以下任意一种：

SIFT特征点、HARRIS角点。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的一种基于深度学习网络的视频画面立体拼接方法，本方法利用GAN网络对同一视点的二维视频画面进行拼接与判断，能够快速准确地实现拼接较多数量的二维视频画面，并利用GAN网络对拼接后的全景视频画面进行判断，提高了拼接的准确率，降低了人力成本，提高了效率。将不同视点的全景视频画面进行组合，实现了对景点实时风貌和表演的全景立体视频展示，提高了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步地详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的一种基于深度学习网络的视频画面立体拼接方法的流程图；

图2为本发明实施例提供的步骤S102流程图；

图3为本发明实施例提供的步骤S103的流程图；

图4为本发明实施例提供的一种基于深度学习网络的视频画面立体拼接***的框图；

图5为本发明实施例提供的提取模块42的框图；

图6为本发明实施例提供的提取模块43的框图；

图7为本发明实施例提供的第二生成子模块432的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1所示，本发明实施例提供的一种基于深度学习网络的视频画面立体拼接方法，该方法包括：步骤S101～S105；

S101、提取步骤：提取同一视点(即前端由摄像头在同一个位置以不同的视角方向拍摄)拍摄的二维视频画面中的匹配点。

S102、拼接步骤：基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面；

S103、判别步骤：将所述全景视频画面输入所述GAN网络进行判别，生成第一视点(例如左眼视点)的全景视频画面；

S104、重复步骤：提取另一视点拍摄的二维视频画面中的匹配点，重复拼接步骤与判别步骤，生成第二视点(例如右眼视点)的全景视频画面；

S105、组合步骤：将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合(例如将左眼视点的全景视频画面与右眼视点的全景视频画面进行组合)，生成全景立体视频。

本实施例中，利用GAN网络对同一视点的二维视频画面进行拼接与判断，能够快速准确地实现拼接较多数量的二维视频画面，并利用GAN网络对拼接后的全景视频画面进行判断，提高了拼接的准确率，降低了人力成本，提高了效率。将不同视点的全景视频画面进行组合，实现了对景点实时风貌和表演的全景立体视频展示，提高了用户体验。

在步骤S101中，所述匹配点，包括以下任意一种：SIFT特征点、HARRIS角点。

其中，提取所述二维视频画面中的SIFT特征点的具体步骤如下：

A、尺度空间极值检测：搜索所述二维视频画面所有尺度上的图像位置，通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点；

B、关键点定位：在每个候选的位置上，通过一个拟合精细的模型来确定位置和尺度，关键点的选择依据于它们的稳定程度；

C、方向确定：基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向，所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换，从而提供对于这些变换的不变性；

D、关键点描述：在每个关键点周围的邻域内，在选定的尺度上测量图像局部的梯度，这些梯度被变换成一种表示，这种表示允许比较大的局部形状的变形和光照变化。

进一步的，提取所述二维视频画面中的HARRIS角点的具体步骤如下：

A、利用水平、竖直差分算子对二维视频图像中每个像素进行滤波，求得I_x、I_y，进而求得图矩阵m中四个元素的值，具体公式如下所示：

其中，

I_x表示像素点灰度在x和y方向上的偏导(即梯度)。

B、对图矩阵m中的四个元素进行高斯平滑滤波(目的是提高抗噪能力)，得到新的图矩阵m。其中，离散二维零均值高斯函数为：

C、利用新的图矩阵m计算对应与每个像素的角点量cim，具体的计算公式如下所示：

D、若二维视频图像中的点同时满足条件cim大于阈值thresh(提前设置阈值)和条件cim是某邻域内的局部极大值，则上述二维视频图像中的点为角点。

在一个实施例中，参照图2所示，上述步骤S102中基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面，包括：

S1021、建立所述二维视频画面中的匹配点之间的初始匹配向量集合；其中，所述初始匹配向量集合包含随机生成的匹配向量；

S1022、将所述初始匹配向量集合输入生成器G，获取配准匹配向量，生成配准匹配向量集合；其中，生成器G是一个神经网络，由生成器G对所述初始匹配向量集合中的匹配向量进行调试，获得配准匹配向量，从而形成配准匹配向量集合；

S1023、根据所述配准匹配向量集合，确定任意两个二维视频画面之间的配准关系；

S1024、根据所述配准关系，对所述二维视频画面进行拼接，生成所述全景视频画面。

本实施例中，利用GAN网络中的生成器G根据任意两个二维视频画面之间的配准关系进行拼接，只用到了反向传播，可以产生更加清晰，真实的样本，拼接形成的全景视频画面更加准确。

在一个实施例中，参照图3所示，上述步骤S103中将所述全景视频画面输入所述GAN网络进行判别，生成第一视点的全景视频画面，包括：

其中，判别器D是一个神经网络，且采用一定数量的、真实全景视频画面的图像样本进行了训练，从而使得该判别器对接近真实的全景视频画面输出为真，对不接近真实的全景视频画面输出为伪；

若判别结果为伪，则所述生成器G生成下一轮的配准匹配向量集合；若判别结果为真，则将全景视频画面作为第一视点的全景视频画面；

具体的，若判别结果为伪，所述生成器G的神经网络调节神经元连接权重，生成匹配向量集合；根据所述下一轮的匹配向量集合，获取下一轮的配准匹配向量，生成所述下一轮的配准匹配向量集合。

本实施例中，利用GAN网络中的判别器D对拼接形成的全景视频画面判别真伪，实现了无监督的学习方式训练，自动对全景视频画面的真伪进行判别，节约了人力成本，并且通过生成器G与判别器D之间的循环训练，生成第一视点的全景视频画面更加准确，提高了判别效率。

基于同一发明构思，本发明实施例还提供了一种基于深度学习网络的视频画面立体拼接***，由于该装置所解决问题的原理与前述一种基于深度学习网络的视频画面立体拼接方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

本发明实施例提供的一种基于深度学习网络的视频画面立体拼接***，参照图4所示，包括：

提取模块41，用于提取同一视点(即前端由摄像头在同一个位置以不同的视角方向拍摄)拍摄的二维视频画面中的匹配点；

拼接模块42，用于基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面；

判别模块43，用于将所述全景视频画面输入所述GAN网络进行判别，生成第一视点(例如左眼视点)的全景视频画面；

重复模块44，用于提取另一视点拍摄的二维视频画面中的匹配点，重复拼接步骤与判别步骤，生成第二视点(例如右眼视点)的全景视频画面；

组合模块45，用于将所述第一视点的全景视频画面与所述第二视点的全景视频画面进行组合(例如将左眼视点的全景视频画面与右眼视点的全景视频画面进行组合)，生成全景立体视频。

在一个实施例中，如图5所示，所述拼接模块42，包括：

建立子模块421，用于建立所述二维视频画面中的匹配点之间的初始匹配向量集合；

第一生成子模块422，用于将所述初始匹配向量集合输入生成器G，获取配准匹配向量，生成配准匹配向量集合；其中，生成器G是一个神经网络，由生成器G对所述初始匹配向量集合中的匹配向量进行调试，获得配准匹配向量，从而形成配准匹配向量集合；

第一确定子模块423，用于根据所述配准匹配向量集合，确定任意两个二维视频画面之间的配准关系；

拼接子模块424，用于根据所述配准关系，对所述二维视频画面进行拼接，生成所述全景视频画面。

在一个实施例中，如图6所示，所述判别模块43，包括：

反馈子模块431，用于将所述全景视频画面输入经过训练之后的判别器D进行判别，生成判别结果，并将所述判别结果反馈给所述生成器G；

第二生成子模块432，用于若判别结果为伪，则所述生成器G生成下一轮的配准匹配向量集合；

第二确定子模块433，用于根据所述下一轮的配准向量集合，确定所述任意两个二维视频画面之间的配准关系；

全景视频画面生成子模块434，用于根据所述配准关系，对所述任两个二维视频画面进行拼接，生成下一轮的全景视频画面；

判别子模块435，用于将所述下一轮的全景视频画面输入所述判别器D进行判别，生成判别结果；

重复子模块436，用于若判别结果为伪，重复上述步骤，直至所述判别结果为真，生成所述第一视点的全景视频画面。

在一个实施例中，所述第二生成子模块432，包括：

调节单元4321，用于若判别结果为伪，所述生成器G的神经网络调节神经元连接权重，生成匹配向量集合；

获取单元4322，用于根据所述下一轮的匹配向量集合，获取下一轮的配准匹配向量，生成所述下一轮的配准匹配向量集合。

在一个实施例中，所述提取模块41中的所述匹配点，包括以下任意一种：

SIFT特征点、HARRIS角点。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习网络的视频画面立体拼接方法，其特征在于，包括：

提取步骤：提取同一视点拍摄的二维视频画面中的匹配点；

2.如权利要求1所述的一种基于深度学习网络的视频画面立体拼接方法，其特征在于，基于所述二维视频画面中的匹配点，利用GAN网络，对所述二维视频画面进行拼接，生成全景视频画面，包括：

3.如权利要求1所述一种基于深度学习网络的视频画面立体拼接方法，其特征在于，将所述全景视频画面输入所述GAN网络进行判别，生成第一视点的全景视频画面，包括：

4.如权利要求3所述的一种基于深度学习网络的视频画面立体拼接方法，其特征在于，若判别结果为伪，则所述生成器G生成下一轮的配准匹配向量集合，包括：

5.如权利要求1所述的一种基于深度学习网络的视频画面立体拼接方法，其特征在于，所述匹配点，包括以下任意一种：

SIFT特征点、HARRIS角点。

6.一种基于深度学习网络的视频画面立体拼接***，其特征在于，包括：

7.如权利要求6所述的一种基于深度学习网络的视频画面立体拼接***，其特征在于，所述拼接模块，包括：

8.如权利要求6所述的一种基于深度学习网络的视频画面立体拼接***，其特征在于，所述判别模块，包括：

9.如权利要求8所述的一种基于深度学习网络的视频画面立体拼接***，其特征在于，所述第二生成子模块，包括：

10.如权利要求6所述的一种基于深度学习网络的视频画面立体拼接***，其特征在于，所述提取模块中的所述匹配点，包括以下任意一种：

SIFT特征点、HARRIS角点。