CN112712487A

CN112712487A - 一种场景视频融合方法、***、电子设备及存储介质

Info

Publication number: CN112712487A
Application number: CN202011536124.3A
Authority: CN
Inventors: 潘金龙; 宋亚连
Original assignee: Beijing Softcom Smart City Technology Co ltd
Current assignee: Beijing Softcom Smart City Technology Co ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-27

Abstract

本发明公开了一种场景视频融合方法、***、电子设备及存储介质，其中，所述方法包括：获取至少两个摄像头采集的视频，并在采集的视频中确定包含相同目标实物对象中的至少两帧图像；基于所述至少两个摄像头位置参数将所述至少两帧图像融合成为一帧图像，得到融合图像；将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置，本发明实施例的技术方案，可以快速实现图像融合，可以实现现实图像与虚拟场景相互叠加，有效增加虚拟场景与现实的互动性，增强可视化体验。

Description

一种场景视频融合方法、***、电子设备及存储介质

技术领域

本发明实施例涉及信息处理技术领域，尤其涉及一种场景视频融合方法、***、电子设备及存储介质。

背景技术

场景视频融合技术是虚拟现实技术的一个分支，是虚拟现实的一个发展阶段，可以将一个或多个由视频采集设备采集的关于某场景或模型的图像序列视频与一个与之相关的虚拟场景加以融合，以生成一个新的关于此场景的虚拟场景或模型。在智慧城市建设中，尤其在安防和管理方面，实现场景视频的融合都有非常重要的意义。

普通摄像头等一些传统的监控设备无法实现虚拟场景和现实结合，另外相关技术在实现场景视频融合的过程中直接对原始图像进行融合，融合速度慢，效率低。

发明内容

本发明实施例提供了一种场景视频融合方法、***、电子设备及存储介质，可以快速实现图像融合，可以实现现实图像与虚拟场景相互叠加，有效增加虚拟场景与现实的互动性，增强可视化体验。

第一方面，本发明实施例提供了一种场景视频融合方法，其中，该方法包括：

获取至少两个摄像头采集的视频，并在采集的视频中确定包含相同目标实物对象中的至少两帧图像；其中，所述至少两帧图像分别来自于对应的至少两个摄像头采集的视频；

基于所述至少两个摄像头位置参数将所述至少两帧图像融合成为一帧图像，得到融合图像；

将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置。

第二方面，本发明实施例还提供了一种场景视频融合***，其中，该***包括：

图像获取模块，用于获取至少两个摄像头采集的视频，并在采集的视频中确定包含相同目标实物对象中的至少两帧图像；其中，所述至少两帧图像分别来自于对应的至少两个摄像头采集的视频；

图像融合模块，用于基于所述至少两个摄像头位置参数将所述至少两帧图像融合成为一帧图像，得到融合图像；

投影模块，用于将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置。

第三方面，本发明实施例还提供了一种电子设备，其中，该设备包括：一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一项所述的场景视频融合方法。

第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一项所述的场景视频融合方法。

本发明实施例提供的技术方案，通过获取至少两个摄像头采集的视频，并在采集的视频中确定包含相同目标实物对象中的至少两帧图像，基于至少两个摄像头位置参数将至少两帧图像融合成为一帧图像，得到融合图像，将融合图像中的目标实物对象投影到虚拟场景中的对应位置，可以实现图像快速融合，可以实现现实图像与虚拟场景的相互叠加，有效增加虚拟场景与现实的互动性，增强可视化体验。

附图说明

图1是本发明实施例提供的一种场景视频融合方法的流程图；

图2是本发明实施例提供的另一种场景视频融合方法的流程图；

图3是本发明实施例提供的又一种场景视频融合方法的流程图；

图4是本发明实施例提供的又一种场景视频融合方法的流程图；

图5(a)是仿射变换之前的原始图像；

图5(b)是仿射变换之后的输出效果图；

图6(a)是透视变换之前的原始图像；

图6(b)是透视变换之后的输出效果图；

图7是图像融合的流程图；

图8(a)是径向畸变偏差校正之前的原始图像；

图8(b)是对原始图像进行枕形畸变偏差校正的效果图；

图8(c)是对原始图像进行桶形畸变偏差校正的效果图；

图9(a)是切向畸变偏差校正之前的原始图像；

图9(b)是对原始图像进行切向畸变偏差校正之后的效果图；

图10是语义分割过程中的原始示例图；

图11是语义分割过程中原始示例图对应的语义分割掩码图；

图12是语义分割过程中的语义分割前景图；

图13是语义分割过程中的语义分割合成图；

图14是AI抠图得到的alpha通道图；

图15是AI抠图的合成示例图；

图16是本发明实施例所适用的场景视频融合***架构示意图；

图17是本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1是本发明实施例提供的场景视频融合方法的流程图，所述方法可以由场景视频融合***来执行，所述***可以由软件和/或硬件的方式实现，所述***可以配置在服务器等电子设备中。可选的，所述方法应用于虚拟场景与摄像头采集的视频进行融合的场景中。如图1所示，本发明实施例提供的技术方案具体包括：

S110：获取至少两个摄像头采集的视频，并在采集的视频中确定包含相同目标实物对象中的至少两帧图像；其中，所述至少两帧图像分别来自于对应的至少两个摄像头采集的视频。

在本发明实施例中，可选的，摄像头在真实室内场景中的位置是预先确定好的，该位置基于视场范围与图像融合产生的畸变情况进行确定，即确定的摄像头位置既可以满足能拍摄到比较广的视场范围，例如可以是通过至少两个摄像头拍摄到整个真实室内场景的范围，又可以达到将不同摄像头采集的视频中的图像进行融合时产生的畸变最小的效果。摄像头采集的视频可以有多种格式，可以是avi、mp4、rtsp、m3u8的格式，也可以是其他的视频格式。分别从不同的摄像头采集的视频中获取至少一帧图像，得到的至少两帧图像中，须包含相同目标实物对象，即至少两帧图像中必须有重叠的区域。目标实物对象可以是人，也可以是物体，也可以是真实室内场景中的其他事物。

在本发明实施例的一个实施方式中，可选的，所述在采集的视频中确定包含相同目标实物对象中的至少两帧图像之后，还包括：将所述至少两帧图像进行图像变换，得到变换图像。

在本发明实施例中，可选的，图像变换可以是基于仿射变换对倾斜视角的图像进行图像变换得到变换图像，也可以是基于透视变换将短焦摄像头拍摄的图像进行图像变换为长焦摄像头拍摄的图像形式，得到变换图像，还可以是用其他的变换方式得到变换图像，根据实际情况判断使用哪种图像变换方式更佳。

S120：基于所述至少两个摄像头位置参数将所述至少两帧图像融合成为一帧图像，得到融合图像。

在本发明实施例中，可选的，每个摄像头位置固定并且每个摄像头位置对应一个位置参数，即摄像头的变换矩阵，该位置参数由摄像头位置决定，基于基准坐标确定摄像头的变换矩阵，基准坐标可以选择真实室内场景中的墙角，也可以将其他参考坐标作为基准坐标，可以视情况确定。基于每个摄像头的位置参数将至少两帧图像通过图像融合算法融合成为一帧图像，即得到融合图像。

由此，通过基于至少两个摄像头位置参数将至少两帧图像融合成为一帧图像，可以快速地将图像进行融合，得到融合图像。

S130：将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置。

在本发明实施例中，可选的，虚拟场景为通过3D建模方式或者通过测绘方式对真实室内场景进行建模或测绘得到，虚拟场景与真实室内场景为1:1比例对应关系，可以借助特定的视频编辑工具，例如可以是Video Mixer Editor，基于虚拟场景中摄像头的位置参数确定投影矩阵，实现将融合图像中的目标实物对象投影到虚拟场景中的对应位置来实现虚拟现实，也可以用其他的方式实现虚拟现实。

在本发明实施例的一个实施方式中，可选的，所述将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置，包括：基于所述虚拟场景中摄像头的位置参数以及真实室内场景中摄像头的位置参数确定投影关系；基于所述投影关系将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置。

在本发明实施例中，可选的，虚拟场景中摄像头的位置参数与真实室内场景中摄像头的位置参数一一对应，可以是虚拟场景中摄像头的位置参数与真实室内场景中摄像头的位置参数完全一致，也可以是其他的对应关系。基于该对应关系确定投影关系，并依据该投影关系基于对应的坐标变换公式对融合图像的每一个像素点都进行投影转换，通过坐标转换公式实现两个三维坐标系之间的转换，将融合图像中的目标实物对象投影到虚拟场景中的对应位置。

由此，通过基于虚拟场景中摄像头的位置参数以及真实室内场景中摄像头的位置参数确定投影关系，基于该投影关系将融合图像中的目标实物对象投影到虚拟场景中的对应位置，可以实现虚拟场景与真实室内场景的对应，可以增强现实感和临境体验。

在本发明实施例中，可选的，在将融合图像中的目标实物对象投影到虚拟场景中对应位置的过程中，还可以使用编辑工具进行编辑，包括裁切(即由于视场角变换导致的投影不匹配而将不是主要目标或者影响视觉效果的部分涂掉)、透视变换和色差匹配(即可以实现去色和裂缝消除等，根据视频的颜色调整角点处的颜色，减小色差)，让融合更平稳。

本发明实施例提供的技术方案，通过获取至少两个摄像头采集的视频，并在采集的视频中确定包含相同目标实物对象中的至少两帧图像，基于至少两个摄像头位置参数将至少两帧图像融合成为一帧图像，得到融合图像，将融合图像中的目标实物对象投影到虚拟场景中的对应位置，即通过在至少两帧图像进行融合时加入至少两个摄像头位置参数，并在图像融合完成后将融合图像中的目标实物对象投影到虚拟场景对应位置，可以实现图像快速融合，可以实现现实图像与虚拟场景相互叠加，有效增加虚拟场景与现实的互动性，增强可视化体验。

图2是本发明实施例提供的场景视频融合方法的流程图，在本发明实施例中，可选的，所述基于所述至少两个摄像头位置参数将所述至少两帧图像融合成为一帧图像，得到融合图像，包括：基于所述至少两个摄像头的位置参数确定所述至少两帧图像中的重叠区域；将每帧图像中的重叠区域中的目标实物对象采用图像融合算法进行融合，并将所述至少两帧图像中的非重叠区域进行图像填充，得到所述融合图像。

如图2所示，本发明实施例提供的技术方案包括：

S210：获取至少两个摄像头采集的视频，并在采集的视频中确定包含相同目标实物对象中的至少两帧图像；其中，所述至少两帧图像分别来自于对应的至少两个摄像头采集的视频。

S220：基于所述至少两个摄像头的位置参数确定所述至少两帧图像中的重叠区域。

在本发明实施例中，可选的，根据至少两个摄像头的位置参数，可以计算出至少两帧图像的重叠区域，具体的确定方法为：通过分别将至少两帧图像切割成10×10的小单位，计算至少两帧图像中每个对应小单位中点的世界坐标，如果世界坐标有重合，则代表是重叠区域；如果世界坐标无重合，则代表不是重叠区域。

S230：将每帧图像中的重叠区域中的目标实物对象采用图像融合算法进行融合，并将所述至少两帧图像中的非重叠区域进行图像填充，得到所述融合图像。

在本发明实施例中，可选的，将至少两帧图像的非重叠区域的RGB值设为1，然后将至少两帧图像输入到图像融合算法中进行图像融合，图像融合的过程可以包括：特征点提取(即依据输入的图像对输入图像中的特征点进行提取，每个特征点包括位置和特征向量两个属性)、图像配准(将输入图像中对应特征点的属性分别进行配准后，通过特定算法计算置信度最高以及特征点最多的一组图像)以及获取一帧图像到另一帧图像的投影矩阵(即通过一帧图像相对另一帧图像的变换实现图像拼接)，然后将非重叠区域，即将RGB值设为1的区域用原始图像的对应区域图像进行填充，再进行后期缝合，即将图像融合过程中出现的黑色部分去除，最终进行输出得到融合图像。

由此，通过将每帧图像中的重叠区域中的目标实物对象采用图像融合算法进行融合，并将至少两帧图像中的非重叠区域进行图像填充，得到融合图像，可以实现只针对重叠区域进行特征点提取，大大地减少了对整帧图像进行特征提取的工作量，提高了图像融合效率，加快了图像的融合速度。

S240：将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置。

图3是本发明实施例提供的场景视频融合方法的流程图，在本发明实施例中，可选的，本发明实施例提供的方法还包括：将所述融合图像中除所述目标实物对象之外的其他实物对象进行抠图，并将抠取的所述其他实物对象的图像投影到所述虚拟场景中。

可选的，所述将所述融合图像中除所述目标实物对象之外的其他实物对象进行抠图之前，本发明实施例提供的方法还包括：将与所述虚拟场景对应的真实室内场景中包含所述其他实物对象的图像以及对应的所述实物对象的掩码文件输入到语义分割模型中，对所述语义分割模型进行训练。

如图3所示，本发明实施例提供的技术方案包括：

S310：获取至少两个摄像头采集的视频，并在采集的视频中确定包含相同目标实物对象中的至少两帧图像；其中，所述至少两帧图像分别来自于对应的至少两个摄像头采集的视频。

S320：基于所述至少两个摄像头位置参数将所述至少两帧图像融合成为一帧图像，得到融合图像。

S330：将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置。

S340：将与所述虚拟场景对应的真实室内场景中包含所述其他实物对象的图像以及对应的所述实物对象的掩码文件输入到语义分割模型中，对所述语义分割模型进行训练。

在本发明实施例中，可选的，语义分割模型是机器学习中的一种模型，其结构可以是一个神经网络结构，也可以是其他的结构。在使用语义分割模型之前，还包括对语义分割模型进行训练：将训练集中与虚拟场景对应的真实室内场景中包含其他实物对象的图像、对应的实物对象的掩码文件输入到语义分割模型中，对语义分割模型进行训练。其中，掩码文件中记录了与虚拟场景对应的真实室内场景中包含其他实物对象的图像的每一个像素所属的类别，例如该像素属于哪一个实物对象。具体的，将训练集中的与虚拟场景对应的真实室内场景中包含其他实物对象的图像、对应的实物对象的掩码文件输入到语义分割模型中，得到每个像素点所对应的类别，将对应的实物对象的掩码文件与得到的每个像素点所对应的类别同时输入到损失函数中，根据损失函数的输出结果判断是否需要对语义分割模型进行优化，当损失函数的输出结果满足预设条件时，即可停止训练过程，得到已训练的语义分割模型。

由此，通过将虚拟场景对应的真实室内场景中包含其他实物对象的图像以及对应的实物对象的掩码文件输入到语义分割模型中进行训练，使得训练得到的语义分割模型可以识别与虚拟场景对应的真实室内场景中包含其他实物对象的图像中的实物对象，为后续的抠图流程提供准确可靠的抠图内容。

S350：将所述融合图像中除所述目标实物对象之外的其他实物对象进行抠图，并将抠取的所述其他实物对象的图像投影到所述虚拟场景中。

在本发明实施例中，可选的，其他实物对象标识复杂的目标物，如果只对其他实物对象做简单的投影到虚拟场景，实际投影到虚拟场景的效果无法与虚拟场景中的周围环境融为一体，达不到场景视频融合的自然贴合的要求，此时就需要对包含其他实物对象的图像进行抠图将其他实物对象识别出来，然后再利用投影的技术将抠取出来的其他实物对象投影到虚拟场景的对应位置。可以使用已训练的语义分割模型进行抠图，也可以使用基于特定室内目标训练的基于神经网络的AI抠图技术进行抠图，也可以选择其他的方式进行抠图。

在本发明实施例的一个实施方式中，可选的，所述将所述融合图像中除所述目标实物对象之外的其他实物对象进行抠图，包括：通过语义分割模型将所述融合图像中除所述目标实物对象之外的其他实物对象进行抠图。

在本发明实施例中，可选的，基于将虚拟场景对应的真实室内场景中包含其他实物对象的图像以及对应的实物对象的掩码文件输入到语义分割模型得到已训练的语义分割模型，可以识别与虚拟场景对应的真实室内场景中包含其他实物对象的图像中的其他实物对象，并可以实现对其他实物对象的抠图，为更好地进行场景视频的融合提供可靠精准的图像来源。

由此，通过将融合图像中除目标实物对象之外的其他实物对象进行抠图，将抠取得到的其他实物对象的图像投影到虚拟场景中，可以实现虚拟场景与真实室内场景画面同步，达到平稳流畅的场景视频融合效果。

图4是本发明实施例提供的场景视频融合方法的流程图，如图4所示，真实室内场景中的黑点是融合的目标，虚拟场景中的黑点为融合后的投影。如图4所示，本发明实施例提供的技术方案包括如下步骤：

1、获取视频：支持常规格式的视频数据接入，包括avi，mp4，rtsp，m3u8格式等。

2、获取图像：视频的概念是连续的图像，一个完整的视频包含多帧图像，并包含图像的运动信息，每个视频都有对应帧数，比如60帧的视频，即60帧/秒，实际上是每秒播放了60帧图像，所以也称为视频流，而由于人眼识别的频率有限，故而当在单位时间内看到的图像帧数超过一定的数目，给人眼造成的感觉就是画面是运动的。所以实际上视频也是图像，处理视频即是对每帧图像的处理。视频融合都是将视频按帧数分为对应数量的图像进行处理。

3、图像变换：基于OpenCV的图像变换算法，主要是仿射变换和透视变换。

仿射变换与透视变换在图像还原、图像局部变化处理方面有重要意义。仿射变换在2D平面中的应用较多，透视变换在3D平面中应用较多。两种变换原理和结果都相似，但针对不同的场合应该使用适当的变换。仿射变换和透视变换的数学原理就是计算方法为坐标向量和变换矩阵的乘积，换言之就是矩阵运算。在应用层面，仿射变换是图像基于3个固定顶点的变换，如图5(a)和5(b)所示，图5(a)是仿射变换之前的原始图像，图5(b)是仿射变换之后的输出效果图，固定顶点是图中的黑点51，固定顶点的像素值在变换先后不变，图像整体则根据变换规则进行变换；同理，透视变换是图像基于4个固定顶点的变换，如图6(a)和6(b)所示，图6(a)是透视变换之前的原始图像，图6(b)是透视变换之后的输出效果图，固定顶点是图中的黑点61，固定顶点的像素值在变换先后不变，图像整体则根据变换规则进行变换。参考OpenCV中，仿射变换和透视变换已经封装好的函数，分别为void warpAffine与void warpPerspective，两种变换函数形式完全相同。基于图像变换算法，服务于同坐标系下多个摄像头图像变换。

4、图像融合：图像融合是一种将同一场景的至少两帧有重叠区域的图像拼接成较大图像的方法，它在数字孪生领域具有重要意义。所有输入图像的并集是图像拼接的输出，如图7所示，图像融合主要按以下流程进行：1)输入图像；2)特征提取；3)图像配准；4)随机抽样一致算法(Random sample consensus，RANSAC)；5)变形融合；6)输出图像。

对所有输入图像中的特征点检测以进行图像配准就是特征提取，需要建立图像之间的几何对应关系，以便在共同的参照系中对它们进行比较，变换和分析。它大致可分为：直接使用图像的像素值的算法；用于频域处理的算法，例如基于FFT的方法；低级特征的算法，通常使用边和角，例如，基于特征的方法；高级特征的算法，通常用于重叠图像对象的部分，如图论方法。

特征点提取功能用于匹配图像块内部的两帧输入图像中的元素。这些图像块是图像中的像素组。因为像素的强度非常相似，所以不可能执行精确的特征匹配。为了为图像对提供更好的特征匹配，角匹配用于定量测量。角落是一个很好的匹配功能。当视点改变时，角部特征是稳定的。此外，角落附近的强度突然变化。角点检测算法用于检测图像的角落。

变形融合包括图像变形和图像融合，图像变形是指重新投影其中一帧图像，并将投影后的图像放在更大的画布上。而图像融合是指改变边界附近图像的灰度，去除这些间隙，并创建混合图像，从而实现图像之间的平滑过渡。混合模式用于将两个层合并在一起。

与通用图像融合算法相比，改进的图形融合算法增加了摄像头位置参数，可加快图像融合效率，减小融合畸变，增大融合视场，普通显卡就能满足1080×30的融合。

5、投影：投影会根据融合图像和摄像机位置参数计算出融合主要的投影变换，实际投影过程中如因目标物遇遮挡或变形可通过手动调整偏差进行矫正。

投影的原理是对图像的每一个像素点都进行投影转换(两个三维坐标系之间的转换)，然后输出到新的图像对应位置，实际算法应该是先计算出输出栅格的大小，然后通过坐标转换公式计算输出栅格中的像素点与之对应的源影像中的像素点，进行采样输出。

偏差矫正：实际投影过程中如因目标物遇遮挡或变形可通过手动调整偏差进行矫正。图像的偏差矫正主要有两种：径向畸变偏差矫正和切向畸变偏差矫正。

径向畸变偏差矫正：正中心位置的畸变最小，随着半径的增大畸变增大，包括枕形畸变偏差矫正和桶形畸变偏差矫正。结合图8(a)、8(b)和图8(c)来说明径向畸变偏差校正的过程，其中，图8(a)是径向畸变偏差校正之前的原始图像，图8(b)是对原始图像进行枕形畸变偏差校正的效果图，图8(c)是对原始图像进行桶形畸变偏差校正的效果图。径向畸变偏差矫正的公式如下(泰勒级数展开式前3项)：

其中(x，y)是理想坐标，x_dr和y_dr是畸变后的像素点坐标，且：r²＝x²+y²。

切向畸变偏差矫正：在透镜与成像平面不平行时就会产生类似于透视变换。结合图9(a)和图9(b)来说明切向畸变偏差校正过程，其中，图9(a)是切向畸变偏差校正之前的原始图像，图9(b)是对原始图像进行切向畸变偏差校正之后的效果图。切向畸变偏差矫正的公式如下：

两种畸变偏差矫正最后都归结到五个参数：k₁，k₂，k₃，p₁，p₂；知道这五个参数后即可完成畸变的偏差矫正。

融合后的图像，没有和实际摄像头对应的投影参数，Video Mixer Editor这一视频编辑工具会预先计算一个投影矩阵将融合图像进行投影到虚拟场景的对应位置，然后对投影后的图像进行编辑，包括裁切，透视变换，色差匹配等，可以根据视频的颜色调整角点处的颜色，减小色差，让融合更流畅和自然。

6、抠图：对于仅靠投影操作不能达到满足与虚拟场景融合要求的其他实物对象，利用抠图技术可更好地获取复杂目标物的外轮廓，获得良好的投影效果。可以用经过训练的语义分割模型进行抠图，也可以使用针对特定室内目标训练的为虚拟场景投影服务的AI抠图神经网络进行抠图。

语义分割是端到端的对像素按照语义进行多分类，在用语义分割模型对目标图片进行抠图之前，首先需要将虚拟场景对应的真实室内场景中包含其他实物对象的图像以及对应的实物对象的掩码文件输入到语义分割模型中，对语义分割模型进行训练。结合图10、图11、图12和图13来说明完整的语义分割模型过程，其中，图10是语义分割过程中的原始示例图，图11是语义分割过程中原始示例图对应的语义分割掩码图，图12是语义分割过程中的语义分割前景图，图13是语义分割过程中的语义分割合成图。

获取复杂目标物的外轮廓是AI抠图技术的强项，获得的投影效果也是不错的。抠图将图片分成前景和背景两部分然后提取前景部分。在AI抠图中alpha通道的概念可以理解为透明度，AI抠图模型将抠图建模为下面的公式：I＝αF+(1-α)B，其中I为观测图像，F为前景，B为背景。α即为alpha，代表透明度。观测图像相当于前景和背景的线性混合，各部分的混合度由α控制。可以将F和B理解为PhotoShop中的图层，I是两个图层的叠加。AI抠图的最终目标其实是为了得到α，而这个α并不是一个简单的0、1二值分类或者是简单的多分类，在实际操作中α也看作一个通道(alpha通道)，它的取值范围和RGB颜色空间一样是[0，255]的整数。从这个角度来理解，语义分割任务中只定义两个语义(前景和背景)，那么语义分割的每个像素的预测范围是0或1，即二值分类。而对于AI抠图，每个像素的预测范围是0到255的整数，其精度要求更高。因此，AI抠图是高版本的语义分割任务，其难度更大。

结合图14和图15来说明AI抠图的工作过程，其中，图14是AI抠图得到的alpha通道图，图15是AI抠图的合成示例图，如图14和图15所示，AI抠图合成图像其透明区域自带了一部分原始图像背景，在自然度效果上，AI抠图更加自然。语义分割和AI抠图有不同之处，但是常常协同来处理。AI抠图最核心的技术就是通过算法来计算其alpha通道图。

本发明实施例提供的技术方案，支持获取图像、图像变换、图像融合、投影和抠图。在虚拟场景中，通过获取摄像头视频流数据和摄像机的位置参数将至少两个摄像头视频流进行融合，然后通过投影，将融合的图像投影到虚拟场景中。虚拟场景视频融合技术是数字孪生技术前期，为快速复现重现真实场景的“动态增强虚拟环境”的一种图形图像技术，结合5G的快速传输和图像融合算法，支持多摄像头，多角度图像融合，有效增强临景感。

图16是本发明实施例所适用的场景视频融合***架构示意图，该***包括：图像获取模块1610、图像融合模块1620和投影模块1630。

其中，图像获取模块1610，用于获取至少两个摄像头采集的视频，并在采集的视频中确定包含相同目标实物对象中的至少两帧图像；其中，所述至少两帧图像分别来自于对应的至少两个摄像头采集的视频；图像融合模块1620，用于基于所述至少两个摄像头位置参数将所述至少两帧图像融合成为一帧图像，得到融合图像；投影模块1630，用于将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置。

在一个示例性的实施方式中，所述***还包括抠图模块，用于将所述融合图像中除所述目标实物对象之外的其他实物对象进行抠图，并将抠取的所述其他实物对象的图像投影到所述虚拟场景中。

在一个示例性的实施方式中，所述将所述融合图像中除所述目标实物对象之外的其他实物对象进行抠图，包括：通过语义分割模型将所述融合图像中除所述目标实物对象之外的其他实物对象进行抠图。

在一个示例性的实施方式中，所述***还包括模型训练模块，用于将与所述虚拟场景对应的真实室内场景中包含所述其他实物对象的图像以及对应的所述实物对象的掩码文件输入到语义分割模型中，对所述语义分割模型进行训练。

在一个示例性的实施方式中，所述基于所述至少两个摄像头位置参数将所述至少两帧图像融合成为一帧图像，得到融合图像，包括：基于所述至少两个摄像头的位置参数确定所述至少两帧图像中的重叠区域；将每帧图像中的重叠区域中的目标实物对象采用图像融合算法进行融合，并将所述至少两帧图像中的非重叠区域进行图像填充，得到所述融合图像。

在一个示例性的实施方式中，所述***还包括图像变换模块，用于在采集的视频中确定包含相同目标实物对象中的至少两帧图像之后，将所述至少两帧图像进行图像变换，得到变换图像。

在一个示例性的实施方式中，所述将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置，包括：基于所述虚拟场景中摄像头的位置参数以及真实室内场景中摄像头的位置参数确定投影关系；基于所述投影关系将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置。

需要说明的是，本发明实施例中的各个模块可以配置在一个设备中，例如可以配置在服务器中。

上述实施例所提供的***可以执行本发明任意实施例所提供的场景视频融合方法，具备执行方法相应的功能模块和有益效果。

图17是本发明实施例提供的一种电子设备结构示意图，如图17所示，该设备包括：

一个或多个处理器1710，图17中以一个处理器1710为例；

存储器1720；

所述设备还可以包括：输入装置1730和输出装置1740。

所述设备中的处理器1710、存储器1720、输入装置1730和输出装置1740可以通过总线或者其他方式连接，图17中以通过总线连接为例。

存储器1720作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种场景视频融合方法对应的程序指令/模块(例如，附图16所示的图像获取模块1610、图像融合模块1620和投影模块1630)。处理器1710通过运行存储在存储器1720中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种场景视频融合方法，即：

存储器1720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器1720可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器1720可选包括相对于处理器1710远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1730可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置1740可包括显示屏等显示设备。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种场景视频融合方法，也即：

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种场景视频融合方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少两个摄像头位置参数将所述至少两帧图像融合成为一帧图像，得到融合图像，包括：

基于所述至少两个摄像头的位置参数确定所述至少两帧图像中的重叠区域；

将每帧图像中的重叠区域中的目标实物对象采用图像融合算法进行融合，并将所述至少两帧图像中的非重叠区域进行图像填充，得到所述融合图像。

3.根据权利要求1所述的方法，其特征在于，还包括：

将所述融合图像中除所述目标实物对象之外的其他实物对象进行抠图，并将抠取的所述其他实物对象的图像投影到所述虚拟场景中。

4.根据权利要求1所述的方法，其特征在于，在采集的视频中确定包含相同目标实物对象中的至少两帧图像之后，还包括：

将所述至少两帧图像进行图像变换，得到变换图像。

5.根据权利要求3所述的方法，其特征在于，所述将所述融合图像中除所述目标实物对象之外的其他实物对象进行抠图，包括：

通过语义分割模型将所述融合图像中除所述目标实物对象之外的其他实物对象进行抠图。

6.根据权利要求1所述的方法，其特征在于，还包括：

将与所述虚拟场景对应的真实室内场景中包含所述其他实物对象的图像以及对应的所述实物对象的掩码文件输入到语义分割模型中，对所述语义分割模型进行训练。

7.根据权利要求1所述的方法，其特征在于，所述将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置，包括：

基于所述虚拟场景中摄像头的位置参数以及真实室内场景中摄像头的位置参数确定投影关系；

基于所述投影关系将所述融合图像中的目标实物对象投影到虚拟场景中的对应位置。

8.一种场景视频融合***，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的方法。