CN116996742A

CN116996742A - 一种基于三维场景的视频融合方法及***

Info

Publication number: CN116996742A
Application number: CN202310884577.2A
Authority: CN
Inventors: 石立阳; 曹琪; 黄星淮; 祝昌宝
Original assignee: Digital Technology Guangzhou Co ltd
Current assignee: Digital Technology Guangzhou Co ltd
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-11-03

Abstract

本发明公开了一种基于三维场景的视频融合方法，本发明的视频融合技术比通过相机标定或手动调节虚拟相机参数融合的方式效率更高，而且无需载体，极大提高了视频融合的效率。是一项全新的视频融合技术的发明。对比现有市面上的一些视频融合技术，很多现有视频融合技术存在操作复杂，适用场景太理想化，局限性大，融合效果差等问题。本发明的视频融技术只需选取四对标准点坐标(包括视频图像像素坐标和三维实景模型对应的世界坐标)，就能自动，快速，准确的融合好一个待融合视频，而且融合效果不错，极大的缩减了视频融合到三维实景模型上的成本。

Description

一种基于三维场景的视频融合方法及***

技术领域

本发明涉及图像处理的技术领域，尤其涉及一种基于三维场景的视频融合方法及***。

背景技术

视频融合技术在智慧城市，数字孪生领域有着重要作用。在智慧城市的业务场景中会经常碰到把实时监控视频投影到三维实景模型数据上的需求，从而达到虚实融合的效果，在安防，无人巡检等领域也有广泛使用。如何将视频自动或者半自动投影到三维实景模型数据上，是实现视频融合效果的第一步，也是最关键的一步。当前市面上已经有不少视频融合技术，例如，现有技术中国专利202211528984.1公开了一种视频融合方法、装置、电子设备及存储介质，其采用的方法是在所述GIS***中加载三维模型，构建类真实的虚拟场景；将所述实时监控视频投射到GIS***中；对所述实时监控视频进行不规则裁剪，将裁剪后的实时监控视频融合到构建的虚拟场景中。

然而上述方法，还是会出现视频融合时候局限于三维模型的形状，而且容易出现视频穿透模型、视频重复的问题，导致用户体验较差。

发明内容

本发明的视频融合技术是通过视频关键帧采样标准点，然后计算出视频在实景三维场景中的虚拟相机位置和姿态，然后再根据虚拟相机的位置和姿态将视频流投射到实景三维中，从而实现视频融合的效果。

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种基于三维场景的视频融合方法，所述视频融合方法包括如下步骤：

步骤1，获取预设视频图像序列并从所述视频图像序列中截取预设位置的单帧视频图像，在所述单帧视频图像上初始化图像坐标，并在视频图像上的预设坐标位置上选取多个标准点；

步骤2，获取待与所述视频图像序列进行融合的三维实景模型，建立所述三维实景模型与待融合的视频图像的坐标映射关系，从所述三维实景模型中确定所述多个标准点对应的世界坐标；

步骤3，在所述三维实景模型中做出视频图像的第一标准点对应的世界坐标到视频图像第二标准点对应的世界坐标的连线，并在所述连线的延长线上按照第一预设长度间隔，竖直间隔生成预设数量的插值点，把视频融合的虚拟相机的位置放置所述插值点上并朝向所述第一标准点对应的世界坐标的位置后执行渲染操作，将渲染后的数据存储于帧缓存中；

步骤4，在所述帧缓存中求得所述多个标准点中除第一标准点之外的其余标准点对应的屏幕坐标，通过欧几里得距离法求取所述其余标准点对应的屏幕坐标与所述多个标准点在视频图像上的预设坐标位置进行相似度比较，并将相似程度最高的插值点作为虚拟相机的第一暂定位置；

步骤5，在所述三维实景模型中做出视频图像的第一标准点对应的世界坐标到视频图像第二标准点对应的世界坐标的连线，以所述第一暂定位置为中心沿所述连线方向按照第二预设长度的水平间隔，重新竖直间隔生成预设数量的插值点，并将视频融合的虚拟相机的位置放置所述插值点上并朝向所述第一标准点对应的世界坐标的位置后重新执行渲染操作重复所述步骤4确定虚拟相机的第二暂定位置，

步骤6，继续调下插值间隔并重复步骤5，直到求得欧几里得距离最小即融合效果最佳的虚拟相机的位置，将视频流从得到的最佳虚拟相机的位置和朝向投射到三维实景模型中。

更进一步地，所述多个标准点为4个确定位置的标准点，其位于所述单帧视频图像的中心点位置、底部最左下角、底部中间点以及底部最右下角。

更进一步地，所述在所述三维实景模型中做出视频图像的第一标准点对应的世界坐标到视频图像第二标准点对应的世界坐标的连线进一步包括：所述第一标准点为图像中心点坐标，所述第二标准点为图像底部中点坐标。

更进一步地，所述第一预设长度和第二预设长度为由用户输入的长度数值，所述第一预设长度初始设定为10米所述第二预设长度初始设定为1米。

更进一步地，所述通过欧几里得距离法求取所述其余标准点对应的屏幕坐标与所述多个标准点在视频图像上的预设坐标位置进行相似度比较进一步包括：欧几里得距离计算公式得到相似度表示为：

√[(p1-q1)2+(p2-q2)2+(p3-q3)2]

其中，p1，p2，p3为帧缓存中表示标准点的对应的屏幕坐标值，q1，q2，q3表示对应的在视频图像上的预设坐标值。

本发明还公开了一种基于三维场景的视频融合***，所述视频融合***包括如下模块：

坐标点选择模块，获取预设视频图像序列并从所述视频图像序列中截取预设位置的单帧视频图像，在所述单帧视频图像上初始化图像坐标，并在视频图像上的预设坐标位置上选取多个标准点；

坐标映射模块，获取待与所述视频图像序列进行融合的三维实景模型，建立所述三维实景模型与待融合的视频图像的坐标映射关系，从所述三维实景模型中确定所述多个标准点对应的世界坐标；

虚拟相机初始渲染模块，在所述三维实景模型中做出视频图像的第一标准点对应的世界坐标到视频图像第二标准点对应的世界坐标的连线，并在所述连线的延长线上按照第一预设长度间隔，竖直间隔生成预设数量的插值点，把视频融合的虚拟相机的位置放置所述插值点上并朝向所述第一标准点对应的世界坐标的位置后执行渲染操作，将渲染后的数据存储于帧缓存中；

虚拟相机定位模块，在所述帧缓存中求得所述多个标准点中除第一标准点之外的其余标准点对应的屏幕坐标，通过欧几里得距离法求取所述其余标准点对应的屏幕坐标与所述多个标准点在视频图像上的预设坐标位置进行相似度比较，并将相似程度最高的插值点作为虚拟相机的第一暂定位置；

定位更新模块，在所述三维实景模型中做出视频图像的第一标准点对应的世界坐标到视频图像第二标准点对应的世界坐标的连线，以所述第一暂定位置为中心沿所述连线方向按照第二预设长度的水平间隔，重新竖直间隔生成预设数量的插值点，并将视频融合的虚拟相机的位置放置所述插值点上并朝向所述第一标准点对应的世界坐标的位置后重新执行渲染操作重复所述步骤4确定虚拟相机的第二暂定位置，

融合模块，继续调下插值间隔并重复定位更新模块执行的功能，直到求得欧几里得距离最小即融合效果最佳的虚拟相机的位置，将视频流从得到的最佳虚拟相机的位置和朝向投射到三维实景模型中。

√[(p1-q1)2+(p2-q2)2+(p3-q3)2]

本发明与现有技术相比，有益效果为：本发明的视频融合技术比通过相机标定或手动调节虚拟相机参数融合的方式效率更高，而且无需载体，极大提高了视频融合的效率。是一项全新的视频融合技术的发明。对比现有市面上的一些视频融合技术，很多现有视频融合技术存在操作复杂，适用场景太理想化，局限性大，融合效果差等问题。本发明的视频融技术只需选取四对标准点坐标(包括视频图像像素坐标和三维实景模型对应的世界坐标)，就能自动，快速，准确的融合好一个待融合视频，而且融合效果不错，极大的缩减了视频融合到三维实景模型上的成本。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的一实施例中的视频图像的标准点选取图。

图2是本发明一实施例中的实现基于三维场景的视频融合的流程图。

图3是本发明一实施例中的把视频融合的虚拟相机的位置放置这些插值点上的示意图。

图4是本发明一实施例中的另一实现基于三维场景的视频融合的流程图。

具体实施方式

下面将结合附图及实施例对本发明的技术方案进行更详细的说明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

移动终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

如图1-4所示的一种基于三维场景的视频融合方法，所述视频融合方法包括如下步骤：

√[(p1-q1)2+(p2-q2)2+(p3-q3)2]

在本实施例中，实现技术方案，分为以下步骤：

从视频流中截取一帧视频图像，在图像上取四个标准点，分别为a1(图像左下角点),a2(图像底部中点)，a3(图像右下角点)，a4(图像中心点)。参考附图1。再从三维实景模型中取这几个标准点对应的世界坐标B1(a1对应的世界坐标),B2(a2对应的世界坐标),B3(a3对应的世界坐标),B4(a4对应的世界坐标)。

在三维实景模型中做出B4-B2的连线，在B4-B2连线的延长线方向，按照10米的水平间隔，竖直间隔生成100个插值点。把视频融合的虚拟相机的位置放置这些插值点上，虚拟相机看向B4坐标点，然后渲染到帧缓存中。参考附图3。

在帧缓存中求B1,B2,B3对应的屏幕坐标c1,c2,c3。使用欧几里得距离算法求c1,c2,c3和a1,a2,a3的相似程度，欧几里得距离最小即相似程度最高的插值点坐标暂定为虚拟相机的位置P1。

√[(p1-q1)2+(p2-q2)2+…+(pn-qn)2]欧几里得距离计算公式

已知P1在B4-B2连线的延长线上，以P1为中心，沿着B4-B2直线的左右方向按照1米的水平间隔，竖直间隔生成100个插值点。把虚拟相机的位置放置这些插值点上，虚拟相机看向B4坐标点，然后渲染到帧缓存中。重复步骤3求得虚拟相机的暂定位置P2。

继续调下插值间隔0.5，0.3，0.1，0.01......。重复步骤4，直到求得欧几里得距离最小即融合效果最佳的虚拟相机的位置Pn。

将视频流从步骤5得到的虚拟相机的位置和朝向(注：虚拟相机看向B4，B4为视频图像中心点对应三维实景模型的世界坐标点)投射到三维实景模型中，完成视频融合到三维实景的效果。

本实施例中还公开一种实现步骤：

步骤1：从视频流中截取一帧视频图像，取图像的4个标定点，a1(左下)，a2(下中)，a3(右下)，a4(中心点)的像素坐标。再取对应三维实景模型中的世界坐标B1(左下)，B2(下中)，B3(右下)，B4(中心点)

步骤2：在三维实景模型中做出B4-B2的连线，在B4-B2连线的延长线上按照10米的水平间隔，垂直间隔生成100个插值点。将虚拟相机放置在这些插值点上，相机朝向看向B4。渲染到帧缓存

步骤3：在帧缓存中求B1,B2,B3对应的屏幕坐标c1,c2,c3。使用欧几里得距离法求c1,c2,c3和a1,a2,a3的相似程度。相似程度最高的插值点暂定为虚拟相机的位置P1。

步骤4：P1在B4-B2的连线上,以P1为中心，沿着B4-B2直线的左右方向按照1米的水平间隔，垂直间隔生成100个插值点。将虚拟相机放置在这些插值点上，相机朝向看向B4。渲染到帧缓存，重复步骤3，求得虚拟相机的位置P2

步骤5：将插值间隔设置为0.5,0.3,0.1，0.01.....。重复步骤4。直到求出最佳的视频融合虚拟相机的位置。

步骤6：将视频流从步骤5的虚拟相机的位置和朝向投射到三维实景模型中，完成视频融合到三维实景模型的效果。

帧缓存

也称作后帧缓存，是计算机图形学中的一种技术，可以用于加速渲染过程。在渲染时，图形数据会被存储在帧缓存中，等待被输出到显示器上。

视频融合

将视频投射到实体三维模型中，在三维场景中能看到视频播放效果。

欧几里得距离算法

欧几里得距离算法，又称为欧氏距离算法，是机器学习领域中常用的距离度量方法。如果有两个点p和q，它们在n维空间中的坐标分别为(p1,p2,…,pn)和(q1,q2,…,qn)，则p和q之间的欧几里得距离定义为：

√[(p1-q1)2+(p2-q2)2+…+(pn-qn)2]

这个距离代表了两个点在n维空间中的距离，是一种以欧几里得空间中的长度作为点之间距离的度量方式。在机器学习的分类、聚类算法等领域中，经常使用欧几里得距离算法来计算样本之间的相似度或距离。通常情况下，如果两个点之间的欧几里得距离越小，则它们的相似度越高，距离越远，则它们的相似度越低。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于三维场景的视频融合方法，其特征在于，所述视频融合方法包括如下步骤：

步骤2，获取待与所述预设视频图像序列进行融合的三维实景模型，建立所述三维实景模型与待融合的视频图像的坐标映射关系，从所述三维实景模型中确定所述多个标准点对应的世界坐标；

步骤5，在所述三维实景模型中做出视频图像的第一标准点对应的世界坐标到视频图像第二标准点对应的世界坐标的连线，以所述第一暂定位置为中心沿所述连线方向按照第二预设长度的水平间隔，重新竖直间隔生成预设数量的插值点，并将视频融合的虚拟相机的位置放置所述插值点上，并朝向所述第一标准点对应的世界坐标的位置后，重新执行渲染操作，重复所述步骤4确定出虚拟相机的第二暂定位置；

步骤6，继续调下插值间隔并重复步骤5，直到求得欧几里得距离最小的位置，将视频流从得到的最佳虚拟相机的位置和朝向投射到三维实景模型中。

2.如权利要求1所述的一种基于三维场景的视频融合方法，其特征在于，所述多个标准点为4个确定位置的标准点，其位于所述单帧视频图像的中心点位置、底部最左下角、底部中间点以及底部最右下角。

3.如权利要求2所述的一种基于三维场景的视频融合方法，其特征在于，在所述三维实景模型中做出视频图像的第一标准点对应的世界坐标到视频图像第二标准点对应的世界坐标的连线进一步包括：所述第一标准点为图像中心点坐标，所述第二标准点为图像底部中点坐标。

4.如权利要求1所述的一种基于三维场景的视频融合方法，其特征在于，所述第一预设长度和第二预设长度为由用户输入的长度数值，所述第一预设长度初始设定为10米，所述第二预设长度初始设定为1米。

5.如权利要求1所述的一种基于三维场景的视频融合方法，其特征在于，所述步骤4中，通过欧几里得距离法得到相似度表示为d：

d＝√[(p1-q1)2+(p2-q2)2+(p3-q3)2]

其中，p1，p2，p3为帧缓存中表示标准点的对应的屏幕坐标值，q1，q2，q3表示对应的在视频图像上的预设坐标值，√符号表示开平方。

6.一种基于三维场景的视频融合***，其特征在于，所述视频融合***包括如下模块：

7.如权利要求6所述的一种基于三维场景的视频融合***，其特征在于，所述多个标准点为4个确定位置的标准点，其位于所述单帧视频图像的中心点位置、底部最左下角、底部中间点以及底部最右下角。

8.如权利要求7所述的一种基于三维场景的视频融合***，其特征在于，所述在所述三维实景模型中做出视频图像的第一标准点对应的世界坐标到视频图像第二标准点对应的世界坐标的连线进一步包括：所述第一标准点为图像中心点坐标，所述第二标准点为图像底部中点坐标。

9.如权利要求6所述的一种基于三维场景的视频融合***，其特征在于，所述第一预设长度和第二预设长度为由用户输入的长度数值，所述第一预设长度初始设定为10米所述第二预设长度初始设定为1米。

10.如权利要求6所述的一种基于三维场景的视频融合***，其特征在于，所述通过欧几里得距离法求取所述其余标准点对应的屏幕坐标与所述多个标准点在视频图像上的预设坐标位置进行相似度比较进一步包括：通过欧几里得距离法得到相似度表示为d：

d＝√[(p1-q1)2+(p2-q2)2+(p3-q3)2]