CN111866523B

CN111866523B - 全景视频合成方法、装置、电子设备和计算机存储介质

Info

Publication number: CN111866523B
Application number: CN202010724342.3A
Authority: CN
Inventors: 李虎民; 孙鑫
Original assignee: Beijing Aibee Technology Co Ltd
Current assignee: Beijing Aibee Technology Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2022-08-12
Anticipated expiration: 2040-07-24
Also published as: CN111866523A

Abstract

本申请提供一种全景视频合成方法、装置、电子设备和计算机存储介质，全景视频合成方法包括，获取待处理帧和全景图像；将待处理帧映射为待合并全景图；对待合并全景图和全景图像进行合并，得到全景图像帧，待处理视频的每一帧对应的全景图像帧组合为待处理视频对应的全景视频。本方案可以将一个普通的待处理视频与全景图像合成为全景视频，即只需要处理一个待处理视频就可以得到对应的全景视频，不需要处理多个子视频，计算量比现有的生成全景视频的方法少，因此可以减少生成全景视频所消耗的***资源。

Description

全景视频合成方法、装置、电子设备和计算机存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种全景视频合成方法、装置、电子设备和计算机存储介质。

背景技术

全景视频是在全景图像的基础上发展出来的一项技术，全景视频的每一帧都可以认为是一个全景图，利用全景视频，可以实现全方位的，动态的场景展示。目前，全景视频已经被广泛应用于旅游展览，城市介绍等领域。

现有的生成全景视频的方法，一般是同时使用多个镜头拍摄得到多个不同方位的子视频，最后将多个子视频合成为全景视频。这种方法需要逐一将每个子视频的每一帧合成为对应的全景图，当使用的镜头数量较多时，这种生成全景视频的方法需要处理多个子视频，因而会消耗大量的***资源。

发明内容

基于上述现有技术存在的问题，本申请提供一种全景视频合成方法、装置、电子设备和计算机存储介质，以减少生成全景视频所消耗的***资源。

本申请第一方面提供一种全景视频合成方法，包括：

获取待处理帧和全景图像；其中，所述待处理帧指代待处理视频中的每一帧；其中，所述全景图像对应的场景包含所述待处理帧的背景图像对应的场景；

将所述待处理帧映射为所述待处理帧对应的待合并全景图；其中，所述待合并全景图的背景图像和所述全景图像相互匹配；

对所述待合并全景图和所述全景图像进行合并，得到合并后图像；其中，所述合并后图像作为所述待处理帧对应的全景图像帧；

组合所述待处理视频的每一帧对应的全景图像帧，得到所述待处理视频对应的全景视频。

可选的，所述将所述待处理帧映射为所述待处理帧对应的待合并全景图，包括：

将所述待处理帧的每一个像素点均投影至目标球面；其中，所述目标球面根据所述全景图像的分辨率确定；所述待处理帧投影在所述目标球面上的位置，根据所述全景图像中与所述待处理帧对应的区域的位置确定；

将所述目标球面上属于所述待处理帧的每一个像素点投影至所述目标球面的正切面，并根据每一个投影至所述正切面的像素点生成所述待处理帧对应的待合并全景图。

可选的，所述根据每一个投影至所述正切面的像素点生成所述待处理帧对应的待合并全景图，包括：

对每一个投影至所述正切面的像素点依次进行畸变处理和针孔映射处理，得到处理后的像素点；

组合每一个所述处理后的像素点，得到所述待处理帧对应的待合并全景图。

可选的，所述对所述待合并全景图和所述全景图像进行合并，得到合并后图像之后，还包括：

调整所述合并后图像的亮度，使所述合并后图像中对应于所述待合并全景图的像素点的亮度和对应于所述全景图像的像素点的亮度趋于一致；其中，调整后的所述合并后图像作为所述待处理帧对应的全景图像帧。

可选的，所述对所述待合并全景图和所述全景图像进行合并，得到合并后图像，包括：

对所述待合并全景图和所述全景图像进行对齐；

用所述待合并全景图覆盖所述全景图像中与所述待合并全景图对齐的区域，得到拼接图像；

利用图像融合算法对所述待合并全景图在所述拼接图像中的边界进行融合，得到合并后图像。

本申请第二方面提供一种全景视频合成装置，包括：

获取单元，用于获取待处理帧和全景图像；其中，所述待处理帧指代待处理视频中的每一帧；所述全景图像所显示的场景包含所述待处理帧所显示的场景；

映射单元，用于将所述待处理帧映射为所述待处理帧对应的待合并全景图；其中，所述待合并全景图的背景图像和所述全景图像相互匹配；

合并单元，用于对所述待合并全景图和所述全景图像进行合并，得到合并后图像；其中，所述合并后图像作为所述待处理帧对应的全景图像帧；

组合单元，用于组合所述待处理视频的每一帧对应的全景图像帧，得到所述待处理视频对应的全景视频。

可选的，所述映射单元将所述待处理帧映射为所述待处理帧对应的待合并全景图时，具体用于：

可选的，所述合并单元对所述待合并全景图和所述全景图像进行合并，得到合并后图像时，具体用于：

对所述待合并全景图和所述全景图像进行对齐；

本申请第三方面提供一种电子设备，包括存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，具体用于执行如本申请第一方面任意一项提供的全景视频合成方法。

本申请第四方面提供一种计算机存储介质，用于存储计算机程序，所述计算机程序被执行时，用于实现如本申请第一方面任意一项提供的全景视频合成方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获取其他的附图。

图1为现有的一种生成全景视频的方法的流程图；

图2为本申请实施例提供的一种全景视频合成方法的流程图；

图3为本申请实施例提供的一种拍摄全景图像的方法的流程图；

图4为本申请实施例提供的一个待处理帧和映射后的待合并全景图的对比示意图；

图5为本申请实施例提供的一种将待合并全景图和全景图像合并为拼接图像的示意图；

图6为本申请实施例提供的一种全景视频合成方法生成全景视频的示意图；

图7为本申请实施例提供的一种对待处理帧进行映射的方法的流程图；

图8为本申请实施例提供的一种等角投影模型的原理示意图；

图9为本申请实施例提供的一种将球面上的像素点投影至正切面的示意图；

图10为本申请实施例提供的一种全景视频合成装置的结构示意图；

图11为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

全景视频是在全景图像技术的基础上发展的一种新型的视频，全景视频的每一帧，都可以认为是一张全景图像。区别于只有一个固定视角的普通视频，观众在观看全景视频时可以任意的转动视角，从而观看到不同方位的场景。例如，在同一个场景下拍摄的一段普通视频和一段全景视频，观众观看普通视频时只能看到摄像头朝向的固定的视角范围内的物体，而无法看到该场景下位于视角范围外的物体，观看全景视频时，则可以转换视角从而看到该场景下的任意物体。

如背景技术所述，现有的一种生成全景视频的方法是，在特定场景下设置多个朝向不同方位的镜头，如图1所示，可以在一个场景下设置分别朝向四个方向的镜头，这四个镜头同时拍摄得到该场景下不同方向的四个子视频。

在此基础上，可以逐一将这四个子视频中对应的帧合成为全景图像，最后合成的多帧全景图像就组合为该场景下拍摄得到的一段全景视频。

如图1所示，可以将这四个子视频的第1帧合成为全景图像1，全景图像1就作为最后生成的全景视频中的第1帧，将四个子视频的第2帧合成为全景图像2，全景图像2作为生成的全景视频中的第2帧，以此类推。

这种方法存在以下的缺点：

第一方面，将多个图像合成为一个全景图像所需的计算量较大，进一步的，在上述生成全景视频的方法中，需要连续合成多个全景图像，导致生成全景视频的计算量过大，需要消耗大量的***资源，即消耗用于生成全景视频的电子设备(包括但不限于个人电脑，服务器，具有足够的处理能力的移动智能终端)的处理器资源和***内存。

例如，在上述例子中，假设每一个子视频包括1000帧，那么，基于上述四个子视频生成一个全景视频，就需要累计处理4000帧图像，并将这4000帧图像分别合并为1000张全景图像。

第二方面，上述生成全景视频的方法需要依赖于朝向不同方位的镜头同时拍摄多个子视频，使得生成全景视频需要较高的设备成本，并且，在某些无法配置多个不同朝向的镜头的情况下就无法生成全景视频。例如，现有的VR(虚拟现实，Virtual Reality)设备一般只配置有一个固定方向的镜头，导致VR设备无法通过上述方法生成全景视频。

基于上述现有技术存在的问题，本申请提供一种视频处理方法，利用单镜头拍摄得到的待处理视频和对应场景下的全景图像合成待处理视频对应的全景视频，以提供一种消耗的***资源较少，所需的设备成本较低，且具有更广泛的适用范围的全景视频生成方法。

首先请参考图2，本申请实施例提供的全景视频合成方法可以包括以下步骤：

S201、获取待处理帧和全景图像。

步骤S201中的待处理帧，可以理解为待处理视频中的每一帧。本申请中的待处理视频，是用单镜头在某一场景下拍摄得到的一段视频，例如，可以是用单镜头在一个展厅内拍摄得到的人在该展厅中活动的一段视频。

换言之，本申请实施例提供的视频处理方法可以逐一将待处理视频中的每一帧合成为对应的全景图像帧，最后，将合成的所有全景图像帧，依据对应的待处理帧在待处理视频中的顺序组合，就得到待处理视频对应的全景视频。

可选的，本申请所提供的视频处理方法可以在拍摄待处理视频时实时进行，也可以在待处理视频拍摄完成后执行。

例如，拍摄待处理视频的过程中，每拍摄得到待处理视频的一帧图像，就可以利用本实施例所介绍的方法处理得到这一帧图像对应的全景图像帧，然后存储或者在相应的设备上显示该全景图像帧。

或者，也可以在拍摄完成后，将待处理视频的第一帧作为待处理帧，利用本实施例提供的方法生成对应的第一个全景图像帧，此后，依次以待处理视频的第二帧，第三帧……作为待处理帧，并利用本实施例提供的方法生成对应的第二个全景图像帧，第三个全景图像帧……，生成的所有全景图像帧按顺序组合，就得到待处理视频对应的全景视频。

步骤S201中的全景图像，是在拍摄待处理视频的场景下拍摄得到的全景图像。例如，待处理视频所显示的是一个人在一个房屋内活动的过程，那么，上述全景图像，就是该房屋的全景图像。

换言之，对于待处理视频的每一帧，该帧所显示的场景均属于上述全景图像所显示的场景中的一部分。比如在上述例子中，待处理视频的某一帧可能显示的场景是房屋的一个角落，另一帧可能显示的场景是房屋的门口，而全景图像显示的是整个房屋的场景，因此，上述两帧中的场景，均是全景图像所显示的整个房屋的场景的一部分。

进一步的，为了确保最后生产的全景视频与真实的场景一致，避免合成的全景图像帧出现显著的失真，需要在拍摄待处理视频时，控制用于拍摄待处理视频的镜头的位置，处于上述全景图像所显示的场景的中心位置，或者控制拍摄待处理视频时镜头的位置和拍摄全景图像时镜头所处的位置基本重合。

拍摄全景图像的方法可以参考图3。具体的，可以在待拍摄的场景下确定一个固定的拍摄位置，并选取任意一个方向作为初始方向，将镜头朝向初始方向拍摄得到一张图像，随后，将镜头从当前方向顺时针(也可以逆时针)旋转一定角度，再拍摄得到一张图像，之后重复上述动作，直至镜头旋转回到初始方向为止，然后用任意一种现有的全景图像合成算法将旋转一圈后拍摄得到的多张图像进行合成，就可以得到该场景的全景图像。

S202、将待处理帧映射为待合并全景图。

同一个物体在单镜头拍摄的视频的一帧中的形状，和该物体在全景图像中的形状存在较大的差别。例如，图4左侧为视频中的某一帧，右侧为全景图像中对应区域的截图，可以发现，两侧图像中位于场景左部的桌子的形状并不相同。因此，需要将待处理帧进行映射，以获得物体的形状与全景图像中相同物体的形状一致的待合并全景图。图4左侧的待处理帧经过映射得到的待合并全景图中，其背景图像(即除待处理帧中的人像以外的图像)与图4右侧的全景图像的对应区域基本一致，人像部分则相对于原本的待处理帧发生一定的变形。

待处理视频中的某一个待处理帧，可以认为是由被拍摄的目标物体的图像，和目标物体所在的场景的图像，也就是待处理帧的背景图像组合而成，如图4所示，图4左侧的待处理帧中显示的人像就是被拍摄的目标物体，即位于房屋中的人的图像，而房屋以及房屋中的固有的物体(地板，窗户，桌椅等)组成的图像，就是目标物体所在的场景的图像，即背景图像。

为了将待处理帧和全景图像合成为对应的全景图像帧，就需要将待处理帧进行映射，得到对应的待合并全景图。待合并全景图仍然由原本目标物体的图像和目标物体所在场景对应的背景图像组成，但是，待合并图像的背景图像和全景图像相互匹配，具体来说，可以认为待合并图像的背景图像，和全景图像中待处理帧对应区域的图像相同或者基本相同。

以图4为例，图4右侧全景图像中和待处理帧相对应的区域的截图，可以认为就是图4左侧的待处理帧经过映射得到的待合并图像的背景图像。

或者，也可以将视频所拍摄的物体静置于全景图像所显示的场景中，其位置与该物体在待处理帧中的位置一致，然后对该场景拍摄一个全景图像，从这个全景图像中截取出与待处理帧对应的区域的图像，截取得到的图像就相当于是待处理帧映射得到的待合并全景图。

例如，待处理视频拍摄的是位于场景M中的目标物体X，在某一待处理帧中，物体X位于场景M的位置Y处。那么，对这个待处理帧映射得到的待合并全景图，可以认为是，将物体X放置于位置Y之后，拍摄得到一个场景M的全景图像K，然后从全景图像K中待处理帧对应的区域(即位置Y以及附近的区域)截取得到的全景图像K的一个局部的截图。

将待处理帧映射为待合并全景图的具体方法可以参考后续实施例的内容。

S203、对待合并全景图和全景图像进行合并，得到合并后图像。

步骤S203的具体执行过程可以包括：

对待合并全景图和全景图像进行对齐。

对两个图像进行对齐，可以理解为在两个图像中搜索出每一对相互匹配的像素点。

具体的，对于两个显示有同一物体的图像(分别记为图像A和图像B)，图像A中的一个像素点X，和图像B中的一个像素点Y均对应于同一物体上的相同位置，则像素点X和像素点Y就是图像A和图像B之间的一对相互匹配的像素点。

因此，对待合并全景图和全景图像进行对齐，就是指，分别在这两个图像中搜索对应于相同物体的每一对像素点。

由于待处理视频的每一帧所显示的场景，均属于全景图像所显示的场景的一部分，因此，对于每一待处理帧，以及由待处理帧映射得到的待合并全景图，可以确保总能够在待合并全景图和全景图像中找到相同的物体。例如，一个待处理帧及其待合并全景图显示的是房屋的门口这一局部场景，对应的，在显示有整个房屋的全景图像中，也可以找到该房屋的门口的局部场景，进而将局部场景中相互匹配的像素点进行对齐。

完成对齐后，就可以将全景图像中，与待合并全景图的像素点相互匹配的像素点，替换为待合并全景图中对应的像素点，从而得到拼接图像。例如，在对齐时检测出全景图像中的像素点A和待合并全景图中的像素点B相互匹配，就可以将全景图像中的像素点A，替换为待合并全景图中的像素点B。

如图5所示，假设图5中从上往下的第一个图像为待合并全景图，第二个图像为全景图像，通过对这两个图像进行对齐，可以确定全景图像中的矩形区域为待合并全景图对齐的区域。然后用最上方的待合并全景图覆盖(或者说替换)中间的全景图像中的对齐的区域，得到最下方的拼接图像。

获得拼接图像后，可以利用图像融合算法对待合并全景图在拼接图像中的边界进行融合，融合完成后就可以得到待合并全景图和全景图像合并的合并后图像。

可选的，获得待处理帧对应的合并后图像后，可以直接以合并后图像作为待处理帧对应的全景图像帧，也可以进一步对合并后图像的亮度进行调整，以使得合并后图像中对应于待合并全景图的像素点的亮度和对应于全景图像的像素点的亮度趋于一致，然后将调整后的图像作为待处理帧对应的全景图像帧。

S204、组合待处理视频的每一帧对应的全景图像帧，得到待处理视频对应的全景视频。

步骤S204中的全景图像帧，可以是步骤S203中合并得到的合并后图像，也可以是对步骤S203中的合并后图像在亮度上进行调整后得到的图像。

需要说明的是，在逐一生成待处理视频中每一帧对应的全景图像帧的过程中，每次执行步骤S203时使用的全景图像，都是步骤S201中获取的待处理视频的拍摄场景的全景图像，或者说是将步骤S201中获取的全景图像复制后得到的副本，其中并不包含位于待处理帧之前的其他帧所显示的不属于视频的拍摄场景的物体。换言之，执行本实施例提供的视频处理方法时，对于待处理视频中的任意两帧，处理前一帧时所用的全景图像，和处理后一帧时所用的全景图像完全相同，而不会出现处理后一帧时用的全景图像包含前一帧中不属于拍摄场景的物体的情况。

为了方便理解本申请实施例提供的视频处理方法，下面结合图6介绍一个示例：

假设本次对待处理视频的处理是在拍摄完成后进行的。拍摄的待处理视频是某人在一间房屋内活动的一段视频。

如前文所述，在处理之前需要拍摄得到该视频的场景(即人活动的房屋)的全景图像。

获得全景图像后，首先读取待处理视频的第一帧作为待处理帧，然后，通过执行上述实施例中的步骤S202，将第一帧映射为对应的待合并全景图，最后将待合并全景图和全景图像合并得到第一个全景图像帧(或者，如前文所述，也可以调整合并后图像的亮度，以调整亮度之后的图像作为全景图像帧)。

随后，读取待处理视频中的第二帧作为待处理帧，并通过上述实施例所述的方法将第二帧对应的待合并全景图和全景图像合并，得到第二个全景图像帧。以此类推，通过逐一对待处理视频的帧进行处理，可以依次获得第三个，第四个……第N个全景图像帧，获得的所有全景图像帧按顺序组合，就得到待处理视频对应的全景视频，也就是记录某人在房屋内活动的全景视频，观众在观看这一全景视频时，既可以跟随拍摄视频的镜头的方向观看人在房屋内的动作，也可以转换视角观看房屋内其他位置的物体，获得身临其境的视觉体验。

相对于现有的生成全景视频的方法，本实施例提供的视频处理方法具有如下的有益效果：

一方面，利用本实施例提供的视频处理方法生成全景视频所需要的计算量相比于现有的方法要小，因此所消耗的***资源(即处理器资源和设备的内存)比现有的方法少。结合前述例子，假设采用现有的方法拍摄得到四个子视频，每个子视频包含1000帧，那么将这四个子视频合成一个全景视频需要处理累计4000帧图像，得到一个1000帧的全景视频，而本实施例提供的方法用于对待处理视频的每一帧的处理过程只涉及全景图像和待处理帧，共两张图像，相应的，利用本实施例提供的方法处理一个1000帧的待处理视频，得到对应的包含1000个全景图像帧的全景视频，只需要累计处理2000张图像。也就是说，生成同样大小的全景视频，本实施例提供的视频处理方法所需要处理的图像的数量少于现有的方法所需要处理的图像的数量。

并且，利用本实施例提供的视频处理方法生成一个全景图像帧只需要将待处理帧映射并将映射得到的待合并全景图和全景图像合并即可，处理过程比利用全景图像合成算法将多个子视频中的对应帧合成为全景图像简单。

综上所述，本实施例提供的视频处理方法在生成全景视频时所消耗的***资源比现有的方法少。

第二方面，本实施例只需要单个镜头拍摄得到的一段待处理视频就可以生成全景视频，对于处理过程中所用的全景图像，也可以利用旋转镜头拍摄得到的不同方向的图像合成得到，也就是说本实施例提供的视频处理方法在生成全景视频时，只需要使用单个镜头拍摄图像和视频，相对于现有的依赖于多个镜头拍摄得到多个子视频的方法，本实施例提供的方法在实施时所需的设备成本更低，并且可以适用于不方便配置多个不同方向的镜头的场景中，适用范围更广。

如步骤S202所述，本实施例提供的视频处理方法需要将待处理帧映射为待合并全景图，下面请参考图7，一种可选的将待处理帧映射为待合并全景图的方法可以包括以下步骤：

S701、将待处理帧和全景图像对齐。

需要说明的是，由于待处理帧中物体的形状和全景图像中物体形状不完全一致，因此，执行步骤S701时，不需要在全景图像中找到和待处理帧的每一个像素点相互匹配的像素点，而只需要搜索出三对及以上的相互匹配的像素点，然后将这些相互匹配的像素点对齐。

具体的，在待处理帧和全景图像之间搜索出四对相互匹配的像素点后，将这些像素点对齐，可以理解为，调整待处理帧和全景图像之间的相对位置，使得每一对相互匹配的像素点在根据全景图像确定的平面坐标系中均位于同一位置，这些相互匹配的像素点对齐后，就可以确定出待处理帧在全景图像中所对应的区域，从而完成步骤S701所述的将待处理帧和全景图像对齐。

参考后续步骤S702的投影过程，将待处理帧的像素点投影至目标球面，可以认为是将待处理帧放置于由全景图像围成的圆柱面上，然后通过连接圆柱面上待处理帧的像素点和目标球面的圆心，确定待处理帧在目标球面上的投影。

因此，在执行投影之前，需要执行步骤S701所述的将待处理帧和全景图像对齐的操作，以确定待处理帧在全景图像中的位置，换言之，也就是确定将待处理帧放置于全景图像的哪一区域。确定了待处理帧在全景图像中的位置之后，执行步骤S702时就可以对应的从全景图像围成的圆柱面上确定出待处理帧的位置，从而执行投影。

具体来说，将待处理帧的像素点投影至根据全景图像确定的目标球面上，需要确定待处理帧的每个像素点在全景图像的坐标系中的坐标，换言之就是确定待处理帧的每个像素点在全景图像中的位置。如前文所述，通过步骤S701将待处理帧和全景图像对齐，可以确定待处理帧在全景图像中的位置，进而确定待处理帧的每一个像素点在全景图像中的位置，进而得到待处理帧的像素点在全景图像的坐标系中的坐标。而只有确定待处理帧的像素点在全景图像的坐标系中的坐标，才能在执行步骤S702的投影时，利用对应的公式计算出待处理帧的像素点在目标球面上的投影的位置。

S702、利用等角投影模型将待处理帧的每一个像素点均投影至根据全景图像的分辨率确定的目标球面上。

等角(equirectangular)投影模型是一种用于将平面图像的像素点向球面投影的数学模型。在全景图像的长宽比为2:1时，可以采用圆柱等角投影模型执行步骤S702。

圆柱等角投影模型的原理可以参考图8。将平面图像卷曲为一个圆柱面后，做一个内切于该圆柱面的球面，球面的半径R可以根据要投影的平面图像的分辨率确定，例如，要投影的图像的分辨率为W×H，则球面的半径R满足下述公式：

W＝2×R×PI

通过上述公式，即可根据要投影的平面图像的分辨率确定球面的半径。

调整球面的位置使得球面的赤道与圆柱面的水平的中位线重合，在此基础上，将圆柱面上的每一个像素点和球面的球心连接，连线与球面的交点，就是将该像素点投影至球面后所在的位置。

该数学模型可以用下述公式(1)和(2)表示：

A＝(u-0.5)×2×PI……(1)

B＝(v-0.5)×PI……(2)

其中，PI表示圆周率，A表示平面图像上的一个像素点P投影至球面后，所在的位置的经度，B表示该位置的纬度，参考图8，像素点P投影至球面后，将其所在位置和球心连接，其经度A可以理解为用弧度制表示的图8中的角1的度数，纬度B可以理解为用弧度制表示的图8中的角2的度数。

经度为负的点位于图8所示的基准经度线左侧的球面，经度为正的点位于图8所示的基准经度线右侧的球面，纬度为正的点位于图示的赤道上方的球面，纬度为负的点位于赤道下方的球面。

u表示像素点P在平面图像上的水平相对位置，v表示像素点P在平面图像上的竖直相对位置。具体的，在以平面图像的左下角的顶点作为原点确定的平面直角坐标系中，设像素点P的坐标是(x，y)，表示像素点P是平面图像中的第x列(从平面图像的左侧往右侧数)，第y行(从平面图像的下方往上方数)，平面图像的分辨率是W×H，表示平面图像有W列，H行像素点，那么，像素点P的水平相对位置u＝x/W，竖直相对位置等于v＝y/H。

可以理解的，通过上述公式，可以确定平面图像上任意一个像素点在球面上的位置，相当于将平面图像投影至球面上。

具体在实施步骤S702时，可以先以全景图像作为要投影的平面图像，通过前述方法根据全景图像确定一个对应的目标球面。又由于步骤S701中已经在全景图像上确定了待处理帧所对齐的区域，可以直接将待处理帧覆盖与全景图像中对应的区域，由此，待处理帧的每一个像素点，都可以在以全景图像左下角的顶点为原点的平面坐标系中找到一个平面坐标，然后就可以基于这个平面坐标和前述圆柱等角投影模型所提供的公式，将待处理帧的像素点投影至目标球面上。

S703、将目标球面上属于待处理帧的每一个像素点投影至目标球面的正切面，并根据每一个投影至正切面的像素点生成待处理帧对应的待合并全景图。

其中，所有处理后的像素点组合为待处理帧对应的待合并全景图。

将目标球面上属于待处理帧的每一个像素点投影至目标球面的正切面的过程可以包括：

将待处理帧投影至目标球面后，查找出投影在目标球面上的，待处理帧的中心像素点，将该点标记为S点，以S点为切点构建目标球面的一个正切平面，如图9所示。

在此基础上，对于球面上任意一个属于待处理帧的像素点P，或者说任意一个从待处理帧投影过来的像素点P，可以构建像素点P和球心的连线，并计算出该连线前文构建的正切平面的交点P1，交点P1就是目标球面上的像素点P投影在正切面上的像素点。

进一步的，在执行上述投影时，还可以将全景图像所在的平面作为上述正切平面，即控制目标球面和前述全景图像相切，并且在全景图像上查找出于S点相互匹配的S1点，在目标球面和全景图像相切时，控制S点和S1点重合，然后调整投影在目标球面上的待处理帧的方向，使得投影在目标球面上的待处理帧的方向和全景图像上对应物体的方向一致，在此基础上执行上述投影，可以使步骤S703最终获得的待合并全景图和全景图像基本对齐。

根据每一个投影至正切面的像素点生成待处理帧对应的待合并全景图，可以包括：

将目标球面的像素点投影至正切面之后，可以依次对投影至正切面的像素点进行畸变处理和针孔映射处理，得到对应的处理后的像素点，最后，将每一个处理后的像素点组合，就可以得到待处理帧对应的待合并全景图。

将平面图像投影至球面时，若平面图像的像素点被投影至接近球面的两极的位置，则将球面上的像素点再投影至平面时，这些像素点就会发生畸变，具体来说就是投影后像素点在平面上的位置和真实的位置相差较大，因此需要通过畸变处理调整从球面投影至平面的像素点的位置，以消除上述影响。

对于从球面投影至平面的像素点进行畸变处理，是图像处理领域常用的一种技术手段，具体的处理过程可以参考相关的现有技术，此处不再赘述。

目前单镜头的摄像设备一般是基于针孔映射的原理实现视频拍摄的，这样拍摄的视频中物体的外形相对于真实物体的外形存在一定程度的失真，因此需要在将球面上的待处理帧的像素点投影至平面后进行针孔映射处理，以消除拍摄视频时的失真。消除针孔映射的带来的失真的具体方法可以参考相关的现有技术，此处不再详述。

在步骤S203中，将待合并全景图和全景图像进行合并时，需要对待合并全景图和全景图像进行对齐。在本申请中，上述对齐可以利用光流算法实现，或者也可以分别在待合并全景图和全景图像中确定多个特征点，然后利用滑动最小二乘法实现待合并全景图和全景图像的对齐。

光流(Optical flow)算法，也可以称为光流法，是在视频处理技术领域常用的一种方法。光流算法主要用于，根据拍摄视频的过程中存在的相机有运动(包括相机，即用于拍摄视频的摄像设备，的空间坐标的变化以及镜头方向的变化两方面)，计算出视频的任意一帧中各个像素点的光流矢量。

一帧中一个像素点的光流矢量，指代，以前一帧中和这个像素点相互匹配(即对应于实际物体中的同一位置)的像素点为起点，以这个像素点为终点的矢量。

可以理解，确定了一帧中各个像素点的光流矢量后，就可以确定出这一帧中每个像素点和前一帧中的哪个像素点相互匹配。具体在本申请中，获得待处理帧的待合并全景图之后，可以利用光流算法确定待合并全景图的像素点和待处理帧的前一帧的待合并全景图中哪些像素点相互匹配，进而将全景图像中和前一帧的待合并全景图的像素点相互匹配的像素点，确定为与待处理帧的待合并全景图的像素点相互匹配的像素点，由此完成待处理帧的待合并全景图和全景图像的对齐。

假设待处理帧为第K帧，前一帧为第K-1帧，对于第K帧对应的待合并全景图的一个像素点A(k)，可以通过光流法在第K-1帧的待合并全景图中找到和像素点A(k)相互匹配的像素点，记为A(k-1)，那么，在利用本申请提供的方法处理第K-1帧时，在全景图像中查找到的和像素点A(k-1)相互匹配的像素点(记为As)，显然和第K帧的待合并全景图中的像素点A(k)相互匹配，由此就确定了第K帧的待合并全景图和全景图像之间的一对相互匹配的像素点。

滑动最小二乘法，也可以称为移动最小二乘法。利用滑动最小二乘法将待处理帧对应的待合并全景图和全景图像对齐的原理是：

首先利用任意一种现有的特征点检测算法分别在待合并全景图和全景图像中确定出多对相互匹配的特征点。特征点检测算法可以使用哈里斯(Harris)角点检测方法，尺度不变特征变换(Scale-invariant feature transform，SIFT)方法，或者其他特征点检测算法。

获得这些特征点后，可以利用移动最小二乘法根据这些特征点的坐标计算得到多个参数(具体计算过程可以参考相关的现有技术)，进而利用这些参数构造一个用于将待合并全景图的像素点映射至全景图像的变化函数，随后可以用变化函数计算待合并全景图中每一个像素点的坐标，得到在全景图像中相互匹配的像素点的坐标，从而完成待合并全景图和全景图像的对齐。

在步骤S203中，将待合并全景图和全景图像对齐，并用待合并全景图中的像素点替换全景图像中相互匹配的像素点，得到拼接图像之后，需要对拼接图像进行图像融合处理，以消除拼接图像中位于待合并全景图和全景图像之间的边界。

可选的，本申请所提供的视频处理方法可以使用下述两种图像融合算法中的任意一种对拼接图像进行图像融合。当然，在其他可选的实施例中，也可以采用除下述两种图像融合算法以外的其他图像融合算法对拼接图像进行图像融合。

第一种图像融合算法为alpha融合，利用这种方法进行图像融合，融合后的图像中原本的边界处会出现虚拟过度的现象，并且会有一定的重影。

Alpha融合的实现过程可以是：

首先在拼接图像中确定出待合并全景图的边界，然后，对于拼接图像中属于原本的待合并全景图的每一个像素点P，若该像素点和待合并全景图的边界之间的距离小于预设的阈值(可以将经过P且垂直于边界的线段所经过的像素点的数量作为P至边界的距离)，则基于下述公式更新像素点P的像素值：

pix(P)’＝pix(P)×A+pix(P1)×(1-A)

上述公式中，等号左侧的pix(P)’表示更新后的像素点P的像素值，等号右侧的pix(P)表示像素点P原本的像素值，P1表示全景图像中位于当前的像素点P所在位置的像素点，也就是在将待合并全景图和全景图像拼接时，被待合并全景图的像素点P替换的像素点，pix(P1)表示像素点P1的像素值，A是一个大于0且小于1的系数，该系数的取值正比于像素点P和待合并全景图的边界的距离，像素点P距离边界越近，系数A的值就越接近于1，在阈值范围内，像素点P距离边界越远，系数A的值越接近于0。

对拼接图像中每一个满足条件的、且属于待合并全景图的像素点执行上述更新过程后，对拼接图像的alpha融合完成。

第二种图像融合算法为多波段融合(Mutilband Blending)，多波段融合的边界较为清晰，但是当边界两侧的图像之间存在较严重的错位(例如一个物体的轮廓在边界两侧不连续，且边界两侧的轮廓之间间隔较大)时，多波段融合难以修正这种错位，而前述alpha融合可以较好的修正边界两侧图像的错位。

多波段融合又称为拉普拉斯金字塔融合，其基本原理是，对于需要融合的两个图像(在本申请中，边界外侧的全景图像，和边界所包围的待合并全景图就是两个需要融合的图像)分别利用拉普拉斯算子(一种现有的数学工具，具体可以参考相关的现有技术)构建这两个图像的拉普拉斯金字塔，每个图像的金字塔包含该图像在多个不同频段上的图层，所有频段的图层叠加就可以得到原本的图像。

获得两个图像的拉普拉斯金字塔后，对位于同一频段的两个图层使用前述alpha融合方法进行融合，对位于不同频段的两个图层则基于预设的融合规则进行融合，一种可选的融合规则是，对高频段的图层进行快速融合，对低频段的图层进行慢速融合，最后将两个图像的拉普拉斯金字塔融合为一个拉普拉斯金字塔，然后将融合得到的这一个拉普拉斯金字塔中各个频段的图层叠加，得到融合后的图像。

可选的，在步骤S203中，将待合并全景图和全景图像合并得到合并后图像之后，调整合并后图像的亮度，使得合并后图像中待合并全景图区域的亮度和全景图像区域的亮度趋于一致。

目前常用的调整亮度的方法是，利用特定的算法对需要调整的图像的灰度直方图进行调整，例如对灰度直方图进行直方图正规化，但是在待合并全景图和全景图像原本的灰度直方图差别较大时，这种调整方法调整后的效果并不理想，也就是说调整后的图像中待合并全景图对应的区域和全景图像对应的区域仍然有较明显的亮度差异，

因此，下面提供另一种调整亮度的方法：

首先从利用特征点检测算法在待合并全景图和全景图像中检测出若干对相互匹配的特征点，并将待合并全景图和全景图像中每个像素点的像素值从原本的RGB模型(一种现有的颜色模型，用红，绿，蓝三个通道的数值表示像素点的颜色)转换为YUV模型(另一种颜色模型，用一个亮度分量Y，和两个色度分量U和V表示像素点的颜色)。

随后，针对每一对相互匹配的特征点，提取这两个特征点的Y分量，组成一个二维坐标(Y1，Y2)，其中Y1表示一对相互匹配的特征点中属于全景图像的特征点的Y分量，Y2表示属于待合并全景图(由视频中的待处理帧映射得到)的特征点的Y分量。

最后根据多对相互匹配的特征点所确定的多个二维坐标，拟合出一个高次(三次及以上)线性函数，这个拟合得到的高次线性函数的以待合并全景图中的像素点的亮度分量Y作为自变量，输出的因变量就是调整后趋近于全景图像的亮度分量Y’。

获得上述高次线性函数后，就可以用该函数逐一更新待合并全景图中各个像素点的亮度分量，更新完成后再将待合并全景图和全景图像的像素点的像素值从YUV模型转换为RGB模型，由此完成对合并后图像的亮度的调整，得到调整后的图像。

结合本申请任一实施例提供的全景视频合成方法，本申请实施例还提供一种视频处理装置，请参考图10，该装置包括：

获取单元1001，用于获取待处理帧和全景图像。

其中，待处理帧指代待处理视频中的每一帧。

映射单元1002，用于将待处理帧映射为待处理帧对应的待合并全景图。

合并单元1003，用于对待合并全景图和全景图像进行合并，得到合并后图像。其中，合并后图像可以作为待处理帧对应的全景图像帧。

组合单元1004，用于组合待处理视频的每一帧对应的全景图像帧，得到待处理视频对应的全景视频。

映射单元1002将待处理帧映射为待处理帧对应的待合并全景图时，具体用于：

将待处理帧和全景图像对齐；

利用等角投影模型将待处理帧的每一个像素点均投影至根据全景图像的分辨率确定的目标球面上；

将目标球面上属于待处理帧的每一个像素点投影至目标球面的正切面，并根据每一个投影至正切面的像素点生成待处理帧对应的待合并全景图。

合并单元1003对待合并全景图和全景图像进行合并，得到合并后图像时，具体用于：

对待合并全景图和全景图像进行对齐；

用待合并全景图覆盖全景图像中与待合并全景图对齐的区域，得到拼接图像；

利用图像融合算法对待合并全景图在拼接图像中的边界进行融合，得到合并后图像。

映射单元1002根据每一个投影至正切面的像素点生成待处理帧对应的待合并全景图时，具体用于：

对每一个投影至正切面的像素点依次进行畸变处理和针孔映射处理，得到处理后的像素点；

将每一个处理后的像素点组合得到待处理帧对应的待合并全景图。

合并单元1003还用于：

调整合并后图像的亮度，使合并后图像中对应于待合并全景图的像素点的亮度和对应于全景图像的像素点的亮度趋于一致；其中，调整后的合并后图像作为待处理帧对应的全景图像帧。

本实施例提供的视频处理装置的具体工作原理可以参考本申请任一实施例提供的视频处理方法中的对应步骤，此处不再赘述。

本申请提供的视频处理装置，只需要利用单个镜头拍摄的一段待处理视频和一个全景图像就可以生成对应的全景视频，相对于现有的将多个子视频合并成一个全景视频的方案，显著的减少了生成全景视频的计算量，进而减少了消耗的***资源。

本申请实施例还提供一种计算机存储介质，用于存储计算机程序，存储的计算机程序被执行时，用于实现本申请任一实施例所提供的视频处理方法。

本申请实施例还提供一种电子设备，请参考图11，该电子设备包括存储器1101和处理器1102。

其中，存储器1101用于存储计算机程序，处理器1102用于执行计算机程序，具体用于实现本申请任一实施例提供的全景视频合成方法。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种全景视频合成方法，其特征在于，包括：

组合所述待处理视频的每一帧对应的全景图像帧，得到所述待处理视频对应的全景视频；

其中，所述将所述待处理帧映射为所述待处理帧对应的待合并全景图，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每一个投影至所述正切面的像素点生成所述待处理帧对应的待合并全景图，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述待合并全景图和所述全景图像进行合并，得到合并后图像之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述待合并全景图和所述全景图像进行合并，得到合并后图像，包括：

对所述待合并全景图和所述全景图像进行对齐；

5.一种全景视频合成装置，其特征在于，包括：

组合单元，用于组合所述待处理视频的每一帧对应的全景图像帧，得到所述待处理视频对应的全景视频；

其中，所述映射单元将所述待处理帧映射为所述待处理帧对应的待合并全景图时，具体用于：

6.根据权利要求5所述的装置，其特征在于，所述合并单元对所述待合并全景图和所述全景图像进行合并，得到合并后图像时，具体用于：

对所述待合并全景图和所述全景图像进行对齐；

7.一种电子设备，其特征在于，包括存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，具体用于执行如权利要求1至4任意一项所述的全景视频合成方法。

8.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序被执行时，用于实现如权利要求1至4任意一项所述的全景视频合成方法。