CN117278731B

CN117278731B - 多视频与三维场景融合方法、装置、设备及存储介质

Info

Publication number: CN117278731B
Application number: CN202311553740.3A
Authority: CN
Inventors: 余杰敏; 黄海滨
Original assignee: Tus Digital Technology Shenzhen Co ltd
Current assignee: Tus Digital Technology Shenzhen Co ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-05-28
Anticipated expiration: 2043-11-21
Also published as: CN117278731A

Abstract

本发明公开了多视频与三维场景融合方法、装置、设备及存储介质，包括：获取与融合指令对应的拼接视频；获取与三维场景对应的视频播放载体及三维场景视频播放方式；获取与三维场景对应的视频图像虚拟框及视频图像虚拟框参数；获取与融合指令对应的目标虚拟图像采集装置集，基于视频图像虚拟框参数确定视频播放载体与目标虚拟图像采集装置集之间的当前播放距离；获取目标虚拟图像采集装置集的视椎体截面在视频图像虚拟框中的目标区域；基于目标区域获取拼接视频的目标裁剪区域，并生成对应的多帧目标裁剪图像和多帧目标透明遮罩贴图，以在视频播放载体中对应展示。本发明实施例能实现多视频图像与三维场景的快速融合和及时展示。

Description

多视频与三维场景融合方法、装置、设备及存储介质

技术领域

本发明涉及三维视频融合技术领域，尤其涉及多视频与三维场景融合方法、装置、设备及存储介质。

背景技术

三维视频融合技术指把一个或多个由摄像机图像序列视频和与之相关的三维虚拟场景加以匹配和融合，生成一个新的关于此场景的动态虚拟场景，实现虚拟场景与实时视频的融合，即虚实结合。例如，以摄像机为监控摄像机为例，将多个监控摄像机采集到的监控视频和三维虚拟场景融合在一起可以为许多应用提供丰富的信息和更真实的体验，但在实际应用中也可能面临如下的问题和缺点：

1）融合不自然，即现有方法中将视频与三维场景相融合时，可能由于视觉差异，畸变问题，或者呈现方式等问题导致融合效果不够自然，扭曲、畸变或者不连贯，无法提供理想的用户体验，影响用户体验；

2）缺乏沉浸感，即目前常见的三维场景和监控视频融合的方法是在三维场景弹出一个视频框来播放视频，或者把视频源转换成纹理的方式然后贴到三维场景中，这两种方式使得用户都比较难感受到监控信息和实际场景的融合，这可能影响用户对监控信息的理解和决策能力；

3）限制了监控覆盖范围，即在现有的三维场景和监控视频融合的方法中可能受限于单个监控摄像头的视野，导致监控范围受限，这会影响到用户对全景情况的了解；

4）动态场景适应不足，即在现有的三维场景和监控视频融合的解决方案中，如有移动的物体或者人员，传统方法难以准确的将监控视频和三维场景融合，这会导致在动态情况下的监控效果不佳；

5）存在带宽不足的问题，即现有的三维场景中，在展示多个监控视频时，同时传给三维程序会照成传输卡顿，或者三维程序端编解码压力过大而造成三维程序卡顿、卡死等现象。

发明内容

本发明实施例提供了多视频与三维场景融合方法、装置、设备及存储介质，旨在解决现有技术中多个监控摄像机采集到的监控视频和三维虚拟场景融合时由于视觉差异，畸变问题，或者呈现方式等问题导致融合效果不够自然，扭曲、畸变或者不连贯的问题。

第一方面，本发明实施例提供了一种多视频与三维场景融合方法，其包括：

响应于融合指令，获取与所述融合指令对应的拼接视频；其中，所述拼接视频由多个图像采集装置采集分别采集的视频流数据预先或实时基于视频拼接策略拼接处理得到；

获取预先设置的且与三维场景对应的视频播放载体及三维场景视频播放方式；

获取预先设置的且与三维场景对应的视频图像虚拟框及视频图像虚拟框参数；

获取与所述融合指令对应的目标虚拟图像采集装置集，基于所述视频图像虚拟框参数确定所述视频播放载体与所述目标虚拟图像采集装置集之间的当前播放距离；

基于所述当前播放距离获取所述目标虚拟图像采集装置集的视椎体截面在所述视频图像虚拟框中对应的目标区域；

基于所述目标区域获取所述拼接视频的目标裁剪区域，并生成与所述目标裁剪区域对应的多帧目标裁剪图像和多帧目标透明遮罩贴图；

在所述视频播放载体中以多帧目标透明遮罩贴图为辅助体对应展示所述多帧目标裁剪图像。

第二方面，本发明实施例还提供了一种多视频与三维场景融合装置，其包括：

拼接视频获取单元，用于响应于融合指令，获取与所述融合指令对应的拼接视频；其中，所述拼接视频由多个图像采集装置采集分别采集的视频流数据预先或实时基于视频拼接策略拼接处理得到；

视频播放载体获取单元，用于获取预先设置的且与三维场景对应的视频播放载体及三维场景视频播放方式；

虚拟框获取单元，用于获取预先设置的且与三维场景对应的视频图像虚拟框及视频图像虚拟框参数；

播放距离确定单元，用于获取与所述融合指令对应的目标虚拟图像采集装置集，基于所述视频图像虚拟框参数确定所述视频播放载体与所述目标虚拟图像采集装置集之间的当前播放距离；

目标区域确定单元，用于基于所述当前播放距离获取所述目标虚拟图像采集装置集的视椎体截面在所述视频图像虚拟框中对应的目标区域；

目标图像获取单元，用于基于所述目标区域获取所述拼接视频的目标裁剪区域，并生成与所述目标裁剪区域对应的多帧目标裁剪图像和多帧目标透明遮罩贴图；

视频播放控制单元，用于在所述视频播放载体中以多帧目标透明遮罩贴图为辅助体对应展示所述多帧目标裁剪图像。

第三方面，本发明实施例还提供了一种计算机设备；所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述第一方面所述的方法。

本发明实施例提供了多视频与三维场景融合方法、装置、设备及存储介质，方法包括：响应于融合指令，获取与融合指令对应的拼接视频；获取预先设置的且与三维场景对应的视频播放载体及三维场景视频播放方式；获取预先设置的且与三维场景对应的视频图像虚拟框及视频图像虚拟框参数；获取与融合指令对应的目标虚拟图像采集装置集，基于视频图像虚拟框参数确定视频播放载体与目标虚拟图像采集装置集之间的当前播放距离；基于当前播放距离获取目标虚拟图像采集装置集的视椎体截面在视频图像虚拟框中对应的目标区域；基于目标区域获取拼接视频的目标裁剪区域，并生成与目标裁剪区域对应的多帧目标裁剪图像和多帧目标透明遮罩贴图；在视频播放载体中对应展示多帧目标裁剪图像和多帧目标透明遮罩贴图。本发明实施例能实现多视频图像与三维场景的快速融合和及时展示。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多视频与三维场景融合方法的应用场景示意图；

图2为本发明实施例提供的多视频与三维场景融合方法的流程示意图；

图3为本发明实施例提供的多视频与三维场景融合方法的子流程示意图；

图4为本发明实施例提供的多视频与三维场景融合方法的另一子流程示意图；

图5为本发明实施例提供的多视频与三维场景融合方法的又一子流程示意图；

图6为本发明实施例提供的多视频与三维场景融合方法的再一子流程示意图；

图7为本发明实施例提供的多视频与三维场景融合装置的示意性框图；

图8为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请同时参考图1和图2，图1为本发明实施例多视频与三维场景融合方法的场景示意图，图2是本发明实施例提供的多视频与三维场景融合方法的流程示意图。如图2所示，该方法包括以下步骤S110-S170。

S110、响应于融合指令，获取与所述融合指令对应的拼接视频；其中，所述拼接视频由多个图像采集装置采集分别采集的视频流数据预先或实时基于视频拼接策略拼接处理得到。

在本实施例中，是以服务器10为执行主体描述技术方案，服务器也可以理解为后台服务器。当用户操作用户端20登录了服务器中提供的三维场景模拟***后，用户可以对应使用用户端操作相应三维虚拟人物在三维场景模拟***对应的三维虚拟世界中行走活动。三维场景模拟***对应的三维虚拟世界可以理解是对物理世界的局部区域或者是全部区域的映射，即三维虚拟世界是物理世界的数字孪生世界。在三维虚拟世界的一些具体场景如室内、室外、公共区域、通道等场景对应的位置处部署有若干个虚拟图像采集装置，这些图像采集装置也是与物理世界中相对应位置处所设置真实的图像采集装置一一对应。

其中，为了确保后续进行视频拼接更加快速和顺畅，前期在物理世界中部署图像采集装置时，需要注意以下事项：

A1）确保每个图像采集装置的采集参数相同或近似，具体是确保每个图像采集装置的分辨率、帧率、白平衡、曝光等采集参数相同或近似；其中采集参数近似是指两者之间的差值不超过对应预设的差值阈值；

A2）适当选择每个图像采集装置的分辨率和帧率，以平衡视频质量和存储需求（这是因为高分辨率和高帧率可以提供更清晰的画面，但也会占用更多的存储空间和计算资源；同样的，低分辨率和低帧率是不太清晰的画面，但不会占用更多的存储空间和计算资源；选择一个居中合适的分辨率和帧率，以平衡视频质量和存储需求）；

A3）使得每个图像采集装置采用相同的视频格式如H.264、H.265等（H.264、H.265各表示一种视频编码标准），以便于在服务器中对视频流数据进行统一解码处理；

A4）使得每个图像采集装置的***时间同步，以便在后续的视频拼接中保持视频帧的顺序；

A5）每个图像采集装置可采用有线连接或无线连接的方式与服务器连接；

A6）在服务器中能根据各图像采集装置采用的编码协议和传输协议有对应的接收协议和解码协议；例如，图像采集装置采用的H.264编码协议，则在服务器中采用与H.264编码协议对应的解码协议进行解码；

A7）服务器可以将接收到的各图像采集装置传输的视频流数据进行备份存储，以防数据丢失。

当用户操作用户端以操控其对应的三维虚拟人物在三维虚拟世界中运动时，若行走至某一个虚拟图像采集装置对应的采集范围中时，则会触发产生融合指令，该融合指令是用于触发在三维虚拟人物身边的指定位置处显示多个图像采集装置采集分别采集的视频流数据对应拼接处理得到的拼接视频。在基于融合指令触发获取拼接视频时，服务器可以是实时的进行视频拼接，即将多个图像采集装置采集分别采集的视频流数据进行拼接得到拼接视频。

当然，也可以是在服务器中只要接收到了物理世界中的多个图像采集装置上传的视频流数据，就立即在服务器中基于多个图像采集装置上传的视频流数据进行视频拼接，例如每次多个图像采集装置每秒上传一段包括至少30帧图像的视频流数据后则传输至服务器，服务器接收上述各图像采集装置采集的视频流数据后则完成视频拼接并缓存在服务器中，而且服务器中针对多个图像采集装置持续不断上传的视频流数据也是一直持续不断的拼接和缓存。之后，一旦检测到融合指令是用户操控其对应的三维虚拟人物在三维虚拟世界中行走至某一个虚拟图像采集装置对应的采集范围中时而触发，则获取到该虚拟图像采集装置所采集视频流数据及其相邻图像采集装置所采集视频流数据共同拼接得到的拼接视频。

在一实施例中，如图3所示，作为步骤S110的第一实施例，是在服务器中预先基于视频拼接策略对多个图像采集装置采集分别采集的视频流数据进行拼接处理，步骤S110包括：

S111a、获取所述融合指令对应的第一指令产生时间点和第一目标图像采集装置集，以所述第一指令产生时间点确定与所述第一目标图像采集装置集对应的第一拼接视频播放起始时间点；

S112a、获取与所述第一目标图像采集装置集对应且以所述第一拼接视频播放起始时间点为视频起始时间点的所述拼接视频。

在本实施例中，因在服务器中只要接收到了图像采集装置上传的视频流数据后（这一传输过程可以理解为一个图像采集装置向服务器持续不断的传输视频流数据的过程）均会在服务器中进行视频拼接处理，故在服务器中所拼接得到的拼接视频无论最终是否需要显示都不影响上述拼接处理工作是在服务器中持续不断的进行。这样，只要服务器检测到了融合指令，且确定了所述融合指令对应的第一指令产生时间点和第一目标图像采集装置集，则可以获取到与所述第一目标图像采集装置集对应且以所述第一拼接视频播放起始时间点为视频起始时间点的所述拼接视频。

也即，只要确定了融合指令的产生时间，即可在服务器中调用与该融合指令对应的且已经预先完成拼接的所述拼接视频。可见，服务器中预先基于视频拼接策略对多个图像采集装置采集分别采集的视频流数据进行拼接处理的方式，可以快速响应融合指令并生成当前待显示的拼接视频。

其中，在物理部署的若干个图像采集装置后，服务器在接收到若干个图像采集装置分别传输的视频流数据且基于视频拼接策略进行拼接处理时，并不需要将所有的图像采集装置的视频流数据全部用来合成一个大的拼接视频，而是要考虑到图像采集装置的分组情况。例如，物理世界的室内场馆A中部署了图像采集装置A1、图像采集装置A2、图像采集装置A3、图像采集装置B1和图像采集装置B2；若图像采集装置A1、图像采集装置A2和图像采集装置A3相互邻近且图像采集范围有重合部分，则将图像采集装置A1、图像采集装置A2和图像采集装置A3划分为第一组图像采集装置集合；若图像采集装置B1和图像采集装置B2相互邻近且图像采集范围有重合部分，则将图像采集装置B1和图像采集装置B2划分为第二组图像采集装置集合。

同样的，在物理世界的室内场馆A中进行了上述图像采集装置的部署后，可以理解为在三维虚拟世界的室内场馆A’中部署了虚拟图像采集装置A1’、虚拟图像采集装置A2’、虚拟图像采集装置A3’、虚拟图像采集装置B1’和虚拟图像采集装置B2’。如物理世界中相对应，是将虚拟图像采集装置A1、虚拟图像采集装置A2和虚拟图像采集装置A3划分为第一组虚拟图像采集装置集合；且将虚拟图像采集装置B1和虚拟图像采集装置B2划分为第二组虚拟图像采集装置集合。在服务器中接收到第一组图像采集装置集合中所包括三个图像采集装置分别上传的视频流数据后，服务器是将第一组图像采集装置集合的三个视频流数据进行拼接得到对应的第一拼接视频，且将第二组图像采集装置集合的两个视频流数据进行拼接得到对应的第二拼接视频。

请继续参考上述示例，若是当用户操作用户端以操控其对应的三维虚拟人物在三维虚拟世界中运动时，若行走至虚拟图像采集装置A1’对应的采集范围中时，则会触发产生融合指令。此时是可以获取到融合指令的第一指令产生时间点T1和第一目标图像采集装置集（即上述示例中的第一组图像采集装置集合）。因在服务器中已经预先针对第一目标图像采集装置集中各图像采集装置采集的视频流数据基于视频拼接策略完成了预先拼接，故此时只需要确定一个第一拼接视频播放起始时间点，即可去服务器中去获取到与所述第一目标图像采集装置集对应且以所述第一拼接视频播放起始时间点为视频起始时间点的所述拼接视频。例如第一指令产生时间点T1是已知，而且服务器还已知一个第一预设滞后时长deltaT1（这是因为服务器中所能接收到图像采集装置的视频流数据都是具有传输延迟、解码延迟，还需综合考虑到服务器中视频拼接所需时长，则基于上述因素共同确定一个第一预设滞后时长deltaT1），此时先以T1- deltaT1确定与所述第一目标图像采集装置集对应的第一拼接视频播放起始时间点，然后再从服务器中获取与所述第一目标图像采集装置集对应且以所述第一拼接视频播放起始时间点（即T1- deltaT1）为视频起始时间点的所述拼接视频。

在一实施例中，如图4所示，作为步骤S110的第二实施例，是在服务器中实时基于视频拼接策略对多个图像采集装置采集分别采集的视频流数据进行拼接处理，步骤S110包括：

S111b、获取所述融合指令对应的第二指令产生时间点和第二目标图像采集装置集，以所述第二指令产生时间点确定与所述第二目标图像采集装置集对应的第二拼接视频播放起始时间点；

S112b、获取与所述第二目标图像采集装置集对应且以所述第二拼接视频播放起始时间点为视频起始时间点的目标视频流数据集；

S113b、将所述目标视频流数据集中所包括各目标视频流数据基于所述视频拼接策略进行拼接处理，得到所述拼接视频。

在本实施例中，为了降低服务器的视频拼接处理压力，还可以是指服务器检测到了融合指令后，再在服务器中获取相应的视频流数据并完成实时的视频拼接处理。通过这一方式，使得服务器大部分时间是作为各图像采集装置的视频流数据的存储装置，只有在检测到了融合指令后才进行视频拼接处理。

例如，在参考步骤S110的第二实施例中仍参考步骤S110的第一实施例中关于物理世界的室内场馆A及其所部署图像采集装置的场景示例。若是当用户操作用户端以操控其对应的三维虚拟人物在三维虚拟世界中运动时，若行走至虚拟图像采集装置A1’对应的采集范围中时，则会触发产生融合指令。此时是可以获取到融合指令的第二指令产生时间点T2和第二目标图像采集装置集（即仍是可以对应上述示例中的第一组图像采集装置集合）。因在服务器中还未预先针对第二目标图像采集装置集中各图像采集装置采集的视频流数据基于视频拼接策略完成预先拼接，故此时需要先确定一个第二拼接视频播放起始时间点，之后在服务器中获取到与所述第二目标图像采集装置集对应且以所述第二拼接视频播放起始时间点为视频起始时间点的目标视频流数据集，最后将所述目标视频流数据集中所包括各目标视频流数据基于所述视频拼接策略进行拼接处理得到所述拼接视频。例如第二指令产生时间点T2是已知，而且服务器还已知一个第二预设滞后时长deltaT2（这是因为服务器中所能接收到图像采集装置的视频流数据都是具有传输延迟、解码延迟，还需综合考虑到服务器中视频拼接所需时长，则基于上述因素共同确定一个第二预设滞后时长deltaT2），此时先以T2- deltaT2确定与所述第二目标图像采集装置集对应的第二拼接视频播放起始时间点，然后再从服务器中获取与所述第二目标图像采集装置集对应且以所述第二拼接视频播放起始时间点（即T2- deltaT2）为视频起始时间点的目标视频流数据集。最后将所述目标视频流数据集中所包括各目标视频流数据基于所述视频拼接策略进行拼接处理，得到所述拼接视频。

在一实施例中，如图5所示，步骤S113b包括：

S1131、对所述目标视频流数据集中所包括各目标视频流数据进行图像预处理，得到目标预处理视频流数据集；

S1132、对所述目标预处理视频流数据集进行畸变矫正，得到目标畸变矫正视频流数据集；

S1133、对所述目标畸变矫正视频流数据集进行特征匹配和视频拼接处理，得到所述拼接视频。

在本实施例中，在服务器中对所述目标视频流数据集进行视频拼接处理时，因各视频流数据的本质是多帧连续图像，故可以采用图像处理中图像预处理、畸变矫正、特征匹配等技术来处理视频拼接前的各项处理。

例如，以所述目标视频流数据集中包括分别由图像采集装置A1、图像采集装置A2、图像采集装置A3分别上传的目标视频流数据，例如图像采集装置A1上传的目标视频流数据记为第一目标视频流数据、图像采集装置A2上传的目标视频流数据记为第二目标视频流数据且图像采集装置A3上传的目标视频流数据记为第三目标视频流数据。此时可以对第一目标视频流数据包括的每一帧视频图像、对第二目标视频流数据包括的每一帧视频图像以及对第三目标视频流数据包括的每一帧视频图像均进行图像预处理（如包括去图像噪声、对比度增强、尺度归一化、去除不相关区域、光照校正等处理），即可得到与第一目标视频流数据对应的第一预处理视频流数据、与第二目标视频流数据对应的第二预处理视频流数据及与第三目标视频流数据对应的第三预处理视频流数据。最后还是由第一预处理视频流数据、第二预处理视频流数据及第三预处理视频流数据组成所述目标预处理视频流数据集。

其中，以对第一目标视频流数据包括的其中一帧视频图像如视频图像PicA1为例，对该视频图像PicA1进行图像预处理时包括以下步骤：

B1）对视频图像PicA1进行去图像噪声处理，得到第一处理图像；因视频图像PicA1中存在的噪声会对特征点提取和匹配造成干扰，降低配准的准确性，故可采用降噪算法（如高斯滤波算法、中值滤波算法）对视频图像PicA1进行去图像噪声处理以得到第一处理图像，通过去图像噪声处理可以减少噪声的影响，提高图像配准的稳定性；

B2）对第一处理图像进行对比度增强处理，得到第二处理图像；因第一处理图像中还可能因图像对比度不足可能导致特征点提取和匹配的困难，故还可通过调整第一处理图像的亮度和对比度（在服务器中是已知针对图像采集装置的统一初始设置的采集参数如***时间、分辨率、帧率、白平衡、曝光等采集参数，通过各图像采集装置采集并上传的视频所提取出的图像，是具有统一的图像亮度和图像对比度，当确定了第一处理图像的图像亮度和图像对比度没有达到上述采集参数中的图像亮度和图像对比度，则将第一处理图像的图像亮度和图像对比度对应调整成采集参数中的图像亮度和图像对比度即可），可以增强第一处理图像中的特征和细节从而得到第二处理图像，这样便于与其他图像采集装置采集的视频图像保持一致的图像亮度和图像对比度，从而实现后续的图像融合；

B3）对第二处理图像进行尺度归一化处理，得到第三处理图像；因第二处理图像在尺度上的变化（如缩放、旋转）会导致特征点的尺度差异而使得特征匹配困难，故还可以对第二处理图像进行尺度归一化等处理得到第三处理图像（如图像金字塔、尺度空间变换等处理），可以使得第三处理图像中特征点具有更一致的尺度特性，提高匹配的成功率；

B4）对第三处理图像进行去除不相关区域处理，得到第四处理图像；因第三处理图像还存在背景、噪声等不相关区域可能干扰特征点的提取和匹配，故可以通过图像分割或区域选择对对第三处理图像进行去除不相关区域处理，以得到第四处理图像，提高配准的准确性；

B5）对第四处理图像进行光照校正处理，得到第五处理图像；其中第五处理图像可以作为与视频图像PicA1对应的预处理视频图像B1；因第四处理图像中的光照变化会影响特征点的外观和分布，故对第四处理图像进行光照校正（如直方图均衡化、颜色校正等处理）得到第五处理图像，可以减少光照变化对配准结果的影响，和保持需要融合的视频图像光照参数的一致性。

所述目标视频流数据集中第一目标视频流数据包括的每一帧视频图像、对第二目标视频流数据包括的每一帧视频图像以及对第三目标视频流数据包括的每一帧视频图像均参照对视频图像PicA1进行图像预处理的过程，可得到与第一目标视频流数据对应的第一预处理视频流数据、与第二目标视频流数据对应的第二预处理视频流数据及与第三目标视频流数据对应的第三预处理视频流数据。最后由第一预处理视频流数据、第二预处理视频流数据及第三预处理视频流数据组成所述目标预处理视频流数据集。

之后，接着对所述目标预处理视频流数据集中包括的第一预处理视频流数据、第二预处理视频流数据及第三预处理视频流数据以每一帧视频图像为单位进行畸变矫正处理，从而得到目标畸变矫正视频流数据集。此时，仍以所述目标预处理视频流数据集中第一预处理视频流数据中包括的预处理视频图像B1（即视频图像PicA1进行图像预处理得到的预处理视频图像B1）为例来说明对预处理视频图像B1的畸变矫正处理得到校正后图像C1过程，具体包括以下步骤：

C1）对预处理视频图像进行变形和畸变参数估计，得到透视变形参数和畸变参数；其中，对预处理视频图像进行变形和畸变参数估计时，可以参照图像采集装置中所采用镜头的特性并获取到透视变形参数、径向畸变参数和切向畸变参数等；图像采集装置的透视变形参数、径向畸变参数和切向畸变参数可以是通过拍摄校准图像，然后利用计算机视觉技术来估计得到上述参数；

C2）基于透视变形参数对所述预处理视频图像进行透视变形矫正，得到透视变形图像；其中，还需对预处理图像进行透视变形是因为图像采集装置捕捉的画面与实际场景存在视角不同而导致的，这种变形会使得画面中角度发生变化；为了纠正透视变形，可以使用几何变换方法，如透视变换或相机标定技术且结合透视变形参数对所述预处理视频图像进行透视变形矫正，得到透视变形矫正后图像；

C3）基于畸变参数对所述透视变形矫正后图像进行畸变矫正，得到畸变矫正后图像；其中，畸变参数为径向畸变参数或切向畸变参数；基于径向畸变参数对所述透视变形矫正后图像进行径向畸变矫正时，是因为图像采集装置的镜头形状等因素导致画面中心的图像放大或缩小而导致边缘的图像形变，这种畸变可以使用径向畸变校正算法来修正，如Brown模型（即布朗模型）或Barrel-Distortion模型（即桶形畸变模型）。基于切向畸变参数对所述透视变形矫正后图像进行切向畸变矫正时，是因为图像采集装置的镜头不是正好与图像平面平行引起的，它使图像中的物体在水平或垂直方向上发生偏移而导致图像中的直线变成曲线，这种畸变可以使用畸变模型来矫正图像，如二阶切向畸变（tangentialdistortion）模型等。

C4）对畸变矫正后图像进行重采样处理，以获得校正后图像；其中，在前面的步骤中进行了多次几何变换后，畸变矫正图像中可能会出现空白区域或者变形，而通过重采样技术可以对畸变矫正图像重新插值像素值，并填充空白区域，以获得校正后图像。

所述目标预处理视频流数据集中第一目标预处理视频流数据包括的每一帧视频图像、对第二目标预处理视频流数据包括的每一帧视频图像以及对第三目标预处理视频流数据包括的每一帧视频图像均参照对预处理视频图像B1进行畸变矫正处理过程，可得到与第一目标预处理视频流数据对应的第一目标畸变矫正视频流数据、与第二目标预处理视频流数据对应的第二目标畸变矫正视频流数据及与第三目标预处理视频流数据对应的第三目标畸变矫正视频流数据。最后由第一目标畸变矫正视频流数据、第二目标畸变矫正视频流数据及第三目标畸变矫正视频流数据组成所述目标畸变矫正视频流数据集。

在一实施例中，如图6所示，步骤S1133包括：

S11331、将对所述目标畸变矫正视频流数据集中包括各目标畸变矫正视频流数据中依次进行特征提取、特征描述、特征描述匹配、特征筛选、几何验证、多视角匹配及匹配结果校验，得到与各目标畸变矫正视频流数据分别对应的特征匹配后视频流数据；

S11332、将各特征匹配后视频流数据依次进行帧对齐、匹配结果应用、视频过渡处理、遮挡处理和帧合并，得到所述拼接视频。

在本实施例中，在对所述目标畸变矫正视频流数据集中包括的第一目标畸变矫正视频流数据、第二目标畸变矫正视频流数据及第三目标畸变矫正视频流数据进行特征匹配和视频拼接处理，得到所述拼接视频。此时以第一目标畸变矫正视频流数据中校正后图像C1、第二目标畸变矫正视频流数据中校正后图像C11和第三目标畸变矫正视频流数据中校正后图像C21为例来说明特征匹配和视频拼接处理的过程，具体包括以下步骤：

D1）对校正后图像C1、校正后图像C11和校正后图像C21分别提取出具有独特性质的特征点或特征区域（如角点、边缘、斑点等），得到与校正后图像C1对应的第一特征点集（或第一特征区域）、与校正后图像C11对应的第二特征点集（或第二特征区域）以及与校正后图像C21对应的第三特征点集（或第三特征区域），且第一特征点集（或第一特征区域）、第二特征点集（或第二特征区域）及第三特征点集（或第三特征区域）在图像中是最稳定的特征；

D2）对第一特征点集、第二特征点集及第三特征点集分别进行特征描述转换处理，得到与所述第一特征点集对应的第一特征描述信息、与所述第二特征点集对应的第二特征描述信息及与所述第三特征点集对应的第三特征描述信息；在对第一特征点集、第二特征点集及第三特征点集分别进行特征描述转换处理时，具体可采用SIFT算法（SIFT即尺度不变特征变换）、SURF算法（SURF即加速稳健特征）或ORB算法（ORB旋转不变特征）等，以提取到与所述第一特征点集对应的第一特征描述信息、与所述第二特征点集对应的第二特征描述信息及与所述第三特征点集对应的第三特征描述信息；其中，所提取到的第一特征描述信息、第二特征描述信息和第三特征描述信息是表示特征的方向、尺度、形状等信息；

D3）对第一特征描述信息、第二特征描述信息和第三特征描述信息两两之间分别进行特征匹配处理，得到所述第一特征描述信息与所述第二特征描述信息之间的第一特征描述匹配结果、所述第二特征描述信息与所述第二特征描述信息之间的第二特征描述匹配结果、以及所述第三特征描述信息与所述第一特征描述信息之间的第三特征描述匹配结果；其中，在处理获取两个特征描述信息之间的特征描述匹配结果时，采用最近邻匹配、K近邻匹配、RANSAC（即随机抽样一致性）等匹配算法，以获取两个特征描述信息之间的特征描述匹配结果，以找到其中一个特征描述信息中的每一特征在另一个特征描述信息中最相似的特征；

D4）对第一特征描述匹配结果、第二特征描述匹配结果及第三特征描述匹配结果分别进行特征筛选，得到与第一特征描述匹配结果对应的第一特征筛选结果、与第二特征描述匹配结果对应的第二特征筛选结果及与第三特征描述匹配结果对应的第三特征筛选结果；其中，之所以要对上述三个特征描述匹配结果进行特征筛选，是因为图像中可能存在噪音和重复的特征，特征匹配可能会出现错误匹配，故此时需要进行特征筛选以排除错误匹配，如具体采用的方法是基于距离阈值进行特征匹配，只保留距离最近的匹配对；

D5）对第一特征筛选结果、第二特征筛选结果及第三特征筛选结果分别进行集合验证，得到与第一特征筛选结果对应的第一几何验证结果、与第二特征筛选结果对应的第二几何验证结果及与第三特征筛选结果对应的第三几何验证结果；为了进一步排除错误匹配，可以采用几何验证方式，具体是使用对上述三个特征筛选结果分别基于RANSAC算法（即随机抽样一致性算法）来估计图像间的变换矩阵，然后将待匹配的特征点应用变换，看是否能够在另一个图像中找到对应的目标特征点；

D6）将第一几何验证结果对应的第一视角、第二几何验证结果对应的第二视角及第三几何验证结果对应的第三视角进行多视角匹配，得到多视角匹配结果；例如，第一几何验证结果对应的第一视角也即图像采集装置A1的采集视角，第二几何验证结果对应的第二视角也即图像采集装置A2的采集视角，第三几何验证结果对应的第三视角也即图像采集装置A3的采集视角，若图像采集装置A2处于图像采集装置A1与图像采集装置A3之间的中间位置，则可以选择图像采集装置A2的第二视角作为基准视角，并将第一视角和第三视角分别拼接到第一视角上，得到多视角匹配结果；

D7）基于所述多视角匹配结果对所述目标畸变矫正视频流数据集中包括各目标畸变矫正视频流数据进行匹配结果校验，例如具体是在校正后图像C1、校正后图像C11和校正后图像C21上分别绘制匹配线，并判断这些匹配线在上述三个校正后图像中是否能够形成连贯的特征对应关系，从而得到匹配结果校验；其中，以在校正后图像C1上绘制匹配线为例，可以使用OpenCV这一计算机视觉库中cv2.line（）函数针对校正后图像C1绘制匹配线，其他图像绘制匹配线也是参考在校正后图像C1上绘制匹配线的方式；

D8）在完成了D1）-D7）的视频匹配处理，得到了与各目标畸变矫正视频流数据分别对应的特征匹配后视频流数据，此时以特征匹配后图像D1（对应的是将校正后图像C1依次进行特征提取、特征描述、特征描述匹配、特征筛选、几何验证、多视角匹配及匹配结果校验处理后的图像）、特征匹配后图像D11（对应的是将校正后图像C11依次进行特征提取、特征描述、特征描述匹配、特征筛选、几何验证、多视角匹配及匹配结果校验处理后的图像）及特征匹配后图像D21（对应的是将校正后图像C21依次进行特征提取、特征描述、特征描述匹配、特征筛选、几何验证、多视角匹配及匹配结果校验处理后的图像）为例，若判定特征匹配后图像D1、特征匹配后图像D11和特征匹配后图像D21具有相同的帧率和时间戳，则得到与特征匹配后图像D1、特征匹配后图像D11和特征匹配后图像D21对应的帧对齐结果；

D9）将帧对齐结果对应的特征匹配后图像D1、特征匹配后图像D11和特征匹配后图像D21均乘以多视角匹配结果对应的变换矩阵，得到与特征匹配后图像D1对应的视角变换图像E1、与特征匹配后图像D11对应的视角变换图像E11及与特征匹配后图像D21对应的视角变换图像E21；其中，可以根据步骤D6）中得到的多视角匹配结果具体应用在此步骤中，具体是在以特征匹配后图像D11对应的基准视角的前提下，获取多视角匹配结果中与特征匹配后图像D1对应的第一变换矩阵，与特征匹配后图像D11对应的第二变换矩阵（特征匹配后图像D11对应的图像矩阵与该第二变换矩阵相乘后仍保持特征匹配后图像D11对应的图像矩阵不变，例如第二变换矩阵为单位矩阵）、及与特征匹配后图像D21对应的第三变换矩阵，将特征匹配后图像D1乘以第一变换矩阵得到视角变换图像E1，将特征匹配后图像D11乘以第二变换矩阵得到视角变换图像E11，将特征匹配后图像D21乘以第三变换矩阵得到视角变换图像E21。通过上述方式，使得多视角匹配结果在视频拼接过程中得到了具体应用，以确保特征点在拼接图像中正确对应；

D10）对视角变换图像E1、视角变换图像E11和视角变换图像E21分别进行过渡处理，得到与视角变换图像E1对应的过渡处理图像F1、与视角变换图像E11对应的过渡处理图像F11及与视角变换图像E21对应的过渡处理图像F21；对上述各视角变换图像进行过渡处理可采用图像融合、渐变等技术，即在视角变换图像E1和与其对应的上一帧视角变换图像之间增加过渡效果（其中与视角变换图像E1对应的上一帧视角变换图像，是指与视角变换图像E1对应原始的视频图像一样均是由同一个图像采集装置采集的同一段视频流数据中上一帧视频图像处理得到的视角变换图像），在视角变换图像E11和与其对应的上一帧视角变换图像之间增加过渡效果，且在视角变换图像E21和与其对应的上一帧视角变换图像之间增加过渡效果之间增加过渡效果，以确保拼接视频在切换时不会出现突然的变化，使得过渡平滑自然；

D11）对过渡处理图像F1、过渡处理图像F11和过渡处理图像F21分别进行遮挡处理，得到与过渡处理图像F1对应的遮挡处理图像G1、与过渡处理图像F11对应的遮挡处理图像G11及与过渡处理图像F21对应的遮挡处理图像G21；对上述各过渡处理图像进行遮挡处理是因为在视频拼接时，可能会出现一些遮挡现象，即某个视角的物体遮挡了其他视角的物体。可以使用深度信息或者背景填充等方法来处理这些遮挡，使得拼接后的视频看起来更连贯；

D12）将遮挡处理图像G1、遮挡处理图像G11和遮挡处理图像G21进行帧合并，得到与遮挡处理图像G1、遮挡处理图像G11和遮挡处理图像G21对应的帧合并图像。

之后每一组帧对齐的图像集合经过如D1）-D12）的处理之后，得到多个帧合并图像。将多个帧合并图像按照图像采集时间的先后顺序进行组合，即可得到所述拼接视频。所得到的拼接视频是基于物理世界中设置的多个图像采集装置采集分别采集的视频流数据预先或实时基于视频拼接策略拼接处理得到，并且需要将其投射至三维虚拟世界中相应的位置进行播放显示。

在一实施例中，步骤S110之后还包括：

将所述拼接视频按预设视频传输策略发送至三维场景。

在本实施例中，当在服务器中完成了对多个图像采集装置采集分别采集的视频流数据预先或实时基于视频拼接策略拼接处理得到拼接视频后，还需要将其传输至服务器中部署的三维场景模拟***中。

具体的，在将所述拼接视频按预设视频传输策略发送至三维场景时，具体需要经过以下处理过程：

E1）对所述拼接视频按与所述预设视频传输策略对应的视频编码格式进行视频编码，得到编码后拼接视频；其中，对所述拼接视频按与所述预设视频传输策略对应的视频编码格式进行视频编码（也可以理解为将拼接视频在服务器中相应的编码器中按与所述预设视频传输策略对应的视频编码格式进行视频编码）时，需要将拼接视频在压缩为适合流传输的格式（如H.264、H.265等格式），而且选择适当的编码器和参数可以平衡视频质量和传输带宽；

E2）获取预设的流协议、流传输信息、接收端信息及安全性设置信息，并基于所述流协议、流传输信息、接收端信息及安全性设置信息将编码后拼接视频发送至所述三维场景。

在步骤E2）中，流协议包括RTSP（实时流传输协议）、RTMP（实时消息传输协议）、HTTP Live Streaming（即HLS，表示基于HTTP的自适应码率流媒体传输协议）、WebRTC（表示网页视频语音实时通讯协议）等。流传输信息中根据所选择的流协议，配置流传输的设置，包括流地址、端口号等，且这些设置将用于接收端设备连接到服务器并接收流数据。接收端信息中至少包括了接收端基于流协议对应选择的播放器或应用程序，如VLC、Web浏览器、移动应用等。安全性设置信息表示将编码后拼接视频发送至所述三维场景时采用的加密协议（如HTTPS、TLS/SSL等加密协议），以用于确保视频频传输过程中的机密性和完整性。

S120、获取预先设置的且与三维场景对应的视频播放载体及三维场景视频播放方式。

在本实施例中，可以理解为三维虚拟人物的眼睛是一台主相机，还可以在距离主相机的一定距离的位置处设置一个平面形式的静态网格体组件（其中，静态网格体组件与主相机的距离最佳设置为一固定距离，该固定距离的获取由后续方案中描述）。该静态网格体，对准主相机视角前方，依附在主相机上，可以跟主相机一直保持相对位置，可与主相机同步移动，可填充三维虚拟人物的眼睛整个视锥体的截面，该静态网格体组件对准三维虚拟世界中所设置的虚拟图像采集装置。

其中，在静态网格体组件可以至少采用Unreal Engine三维引擎或Unity3D三维引擎播放拼接视频。

例如，在静态网格体组件中采用Unreal Engine三维引擎时，视频播放具体处理过程如下：F1）创建一个Stream Media Source，然后将Stream Url配置RTSP视频流送地址；F2）创建Media Player，并启动纹理资源Texture，视频源（即拼接视频）的图像绘制在这个Texture上；F3）然后通过上面步骤中的获得的纹理资源Texture，创建一个半透明材质，以通过半透明材质更好的将三维场景和视频内容相融合，Texture作为该材质的BaseColor；F4）用F3）中的半透明材质作为三维场景视频载体的材质，就能在主相机前面的静态网格体组件中播放从服务器实时传输的拼接视频；F5）在程序启动的时候，对F2）中的创建的Media Player 调用Open source，拼接视频就能够实时接收并显示。

在静态网格体组件中采用Unity3D三维引擎时，视频播放具体处理过程如下：G1）根据三维场景视频载体（即静态网格体组件）创建一个对象GameObject，GameObject对象是用于播放视频的容器；G 2）将VideoPlayer组件添加到GameObject对象，并在Inspector视图中的Add Component 按钮中搜索并添加Video Player组件。G3）将VideoPlayer组件的属性，设置视频源，视频源可以是本地路径，也可以是URL，实时流播放地址；G 4）VideoPlayer组件中的MeshRenderer（渲染模式），选择MaterialOverride模式，播放视频和贴图相似，播放视频用的MovieTexture属于Texture的子类。G 5）选择play on awake就可以运行，或者创建一个视频播放的C#脚本，可以通过用户交互或者事件来控制VideoPlayer组件的播放、暂停、停止等操作。

S130、获取预先设置的且与三维场景对应的视频图像虚拟框及视频图像虚拟框参数。

在本实施例中，由于在三维虚拟世界相应的三维场景中，视频图像虚拟框又可以理解为放置在三维场景中且能完整承载整个拼接后视频画面的矩形框，一是可以确定视频播放载体的位置，二是可以用于确定需要在拼接视频这一全景视频源中截取的参数。该视频图像虚拟框是设置在三维场景中能够承载静态网格体组件的矩形框，三维场景模拟***时，视频图像虚拟框设置为隐藏属性。

具体的，在确定三维场景对应的视频图像虚拟框和视频图像虚拟框参数，具体过程如下：

H1）在拼接视频任意截取一帧，生成截取图像，用该截取图像生成一个半透明材质、透明度系数为0.8，并以截取图像作为BaseColor；

H2）在三维场景中，自定义一个平面静态网格体，该平面静态网格体的材质使用由截取图像生成的半透明材质，且一般摆放在三维场景中比较大面积墙壁前面或者覆盖重要区域前面，具体情况根据三维场景的实际需求去手动摆放调试；

H3）在确定了平面静态网格体的摆放位置然后，通过手动旋转和缩放该平面静态网格体，当拼接视频中的截取图像和平面静态网格体相融合的时，则平面静态网格体所在的大小、位置和旋转，就是视频图像虚拟框的大小、位置和旋转角度；

H4）确定了视频图像虚拟框的大小位置和旋转角度并组成视频图像虚拟框参数后，将视频图像虚拟框参数传输至服务器，使得服务器基于视频图像虚拟框参数计算出所需要的拼接视频源截取位置和截取大小。

S140、获取与所述融合指令对应的目标虚拟图像采集装置集，基于所述视频图像虚拟框参数确定所述视频播放载体与所述目标虚拟图像采集装置集之间的当前播放距离。

在本实施例中，在获取所述拼接视频时，服务器是能准确获知实际具体参与视频拼接过程的各图像采集装置，以及各图像采集装置在三维虚拟世界中对应的虚拟图像采集装置，从而组成了目标虚拟图像采集装置集（可参考步骤S111a中获取第一目标图像采集装置集的过程）。在步骤S120中确定了视频播放载体的形式，但未确定与目标虚拟图像采集装置集之间的距离。在步骤S130中确定了视频图像虚拟框及视频图像虚拟框参数，故之后可以基于所述视频图像虚拟框参数确定所述视频播放载体与所述目标虚拟图像采集装置集之间的当前播放距离。

在一实施例中，步骤S140包括：

在确定目标虚拟图像采集装置集对应的视锥体处于所述视频图像虚拟框中预设的中心区域范围时，获取目标虚拟图像采集装置集对应的综合虚拟图像采集装置与所述视频图像虚拟框之间的当前间距，并以所述当前间距作为所述当前播放距离。

在本实施例中，目标虚拟图像采集装置集中包括的多个虚拟图像采集装置可以融合成一个能综合代表这多个虚拟图像采集装置并投影拼接视频的综合虚拟图像采集装置。在已知了该综合虚拟图像采集装置后，需要先获知在物理世界的现实场景中的图像采集装置设置点位在三维虚拟世界中的映射位置，之后在三维虚拟世界中的映射位置的下方附近放置一个虚拟摄像机，以辅助在各映射位置处能够更快的找到更合适的对准位置，之后具体获取当前播放距离的过程如下：

I1）旋转综合虚拟图像采集装置，以正面垂直对准视频图像虚拟框；

I2）在显示综合虚拟图像采集装置的视锥体的状态下，上下左右不断调整综合虚拟图像采集装置在三维场景中的位置，直至综合虚拟图像采集装置的视锥体的端面与视频图像虚拟框中预设的中心区域范围重合时，则停止调整综合虚拟图像采集装置在三维场景中的位置；

I3）获取停止调整后的综合虚拟图像采集装置与所述视频图像虚拟框之间的当前间距，并以所述当前间距作为所述当前播放距离。

可见，基于上述方式间接的基于视频图像虚拟框参数来确定所述当前播放距离。

S150、基于所述当前播放距离获取所述目标虚拟图像采集装置集的视椎体截面在所述视频图像虚拟框中对应的目标区域。

在本实施例中，在确定了视频图像虚拟框的位置后，通过获取目标虚拟图像采集装置集的运动位置（这是因为目标虚拟图像采集装置集是固定在虚拟摄像机的前面，且跟虚拟摄像机的相对位置是固定的，随着虚拟摄像机的移动而移动），来实时计算三维场景中目标虚拟图像采集装置集的视椎体截面与视频图像虚拟框相交的区域作为目标区域。将该目标区域的点位信息传输到服务器，以用于在拼接视频中进行相应区域的裁剪处理。具体的处理过程如下：

J1）在服务器的三维引擎中，通过三维引擎的内置函数获取目标虚拟图像采集装置集对应的综合虚拟图像采集装置在三维场景中的虚拟世界坐标，并展示面片轴心的世界坐标及面片长宽属性，如UnrealEngine中的GetActorTransform以或者Unity3D中直接获取物体中transform组件的对应属性；

J2）根据面片轴心的世界坐标及面片偏转角度，依次计算出面片的左上a点，右上b点，右下c点，左下d点四个顶点的坐标并保存为顶点数组；

J3）以J2）步骤中顶点数组依次计算出相机坐标（即综合虚拟图像采集装置对应的相机坐标）到对应顶点（即面片的左上a点，右上b点，右下c点，左下d点四个顶点中其中一个顶点）的顶点坐标的单位向量，其中以视频图像虚拟框的左下角的点定位为坐标原点，视频图像虚拟框的最左边纵向线定义为y轴，视频图像虚拟框的最下边横向线定义x轴，建立平面坐标系，并以相机坐标为起点，以计算所得的四个单位向量作为方向向量创建四条射线。其中，若四条射线均与视频图像虚拟框相交，则于UE中调用LineTraceByChannel或者Unity3D中使用ray结构创建射线后，用Physics.Raycast进行射线投射检测，将射线检测结果对应的四个坐标点（以下称为虚拟框交点集）按顺序存入数组；若四条射线中存在射线不与视频图像虚拟框相交，则可根据视频图像虚拟框的顶点坐标计算出其在三维场景的三维空间中相应平面方程，计算平面方程与四条射线的交点，从而得到相交区域的四个坐标点，并按顺序存入数组；

J4）获取J3）步骤中最后得到的四个坐标点，并以此确定所述目标虚拟图像采集装置集的视椎体截面在所述视频图像虚拟框中对应的目标区域。

S160、基于所述目标区域获取所述拼接视频的目标裁剪区域，并生成与所述目标裁剪区域对应的多帧目标裁剪图像和多帧目标透明遮罩贴图。

在本实施例中，当确定了视频图像虚拟框的大小以及所述目标区域后，可以在服务器中确定所述拼接视频的目标裁剪区域，然后计算获取与所述目标裁剪区域对应的目标裁剪图像和目标透明遮罩贴图。

其中，目标透明遮罩贴图是用于场景的贴图，具体获取过程如下：

K1）以拼接视频中图像左下角为原点，左纵向侧边为x轴，下横向侧边为y轴建立一个平面坐标系，并建立该平面坐标系与视频图像虚拟框所处坐标系的映射关系；

K2）根据拼接视频的图像画面大小与视频图像虚拟框的大小计算出三维空间中画面缩小比例，根据该画面缩小比例及拼接视频中视频图像的平面坐标系与视频图像虚拟框所处坐标系的映射关系，在拼接视频中确定与所述目标区域对应的目标裁剪区域；

K3）基于生成目标裁剪区域和拼接视频生成对应的目标裁剪图像和目标透明遮罩贴图；

K4）将目标裁剪图像和目标透明遮罩贴图发送至视频播放载体。

在步骤K3）中，还存在目标裁剪区域都在拼接视频对应的视频源图像范围内，以及目标裁剪区域部分或者全部没在拼接视频对应的视频源图像范围内的情况。

目标裁剪区域都在拼接视频对应的视频源图像范围内时，可以先使用OpenCV 库中的gluPerspective函数或自定义矩阵操作函数来构建透视投影矩阵；之后通过glLoadMatrix或glMultMatrix函数将构建好的透视投影矩阵与目标裁剪图像的三维顶点投影到视频图像虚拟框的二维屏幕坐标上，从而完成透视畸变，即使得目标裁剪图像变换成填充整个视频图像虚拟框的大小，以更新所述目标裁剪图像。然后基于目标裁剪图像的图像大小生成裁切后透明遮罩贴图以白色颜色填充，得到目标透明遮罩贴图。最后将目标透明遮罩贴图变换成填充整个视频图像虚拟框的大小，以得到一个视频载体框透明遮罩png格式的贴图。

目标裁剪区域部分或者全部没在拼接视频对应的视频源图像范围内时，先使用OpenCV 库中的gluPerspective函数或自定义矩阵操作函数来构建透视投影矩阵；之后通过glLoadMatrix或glMultMatrix函数将构建好的透视投影矩阵与目标裁剪图像的三维顶点投影到视频图像虚拟框的二维屏幕坐标上，从而完成透视畸变，且将目标裁剪图像中在目标裁剪区域以外的区域用白色填充，以更新所述目标裁剪图像。使目标裁剪图像变换成填充整个视频图像虚拟框的大小，以更新所述目标裁剪图像。根据目标裁剪图像的图像大小生成裁切后透明遮罩贴图的裁切范围区域。裁切后透明遮罩贴图的裁切范围区域在拼接视频对应的视频源图像范围内的部分用白色填充，裁切后透明遮罩贴图的裁切范围区域在拼接视频对应的视频源图像范围外的部分用黑色填充，以得到目标透明遮罩贴图。最后将目标透明遮罩贴图变换成填充整个视频图像虚拟框的大小，以得到一个视频载体框透明遮罩png格式的贴图。

S170、在所述视频播放载体中以多帧目标透明遮罩贴图为辅助体对应展示所述多帧目标裁剪图像。

在本实施例中，在三维场景中的视频图像虚拟框中的视频播放载体接收到了目标裁剪图像和目标透明遮罩贴图后，以目标裁剪图像作为视频图像虚拟框中材质的BaseColor贴图，并以目标透明遮罩贴图作为视频图像虚拟框中材质的半透明贴图（其中，视频虚拟框的材质透明属性*0.8，其目的在于更方便直观的看到视频虚拟框中的半透明现实视频素材与虚拟框后面的三维场景相结合显示）。当拼接视频中的每一帧目标裁剪图像基于上述方式展示后，即实现了视频图像就能和三维场景实时融合。

可见，实施该方法的实施例能实现多视频图像与三维场景的快速融合和及时展示。

图7是本发明实施例提供的一种多视频与三维场景融合装置的示意性框图。如图7所示，对应于以上多视频与三维场景融合方法，本发明还提供一种多视频与三维场景融合装置100。如图7所示，所述多视频与三维场景融合装置100包括：拼接视频获取单元110、视频播放载体获取单元120、虚拟框获取单元130、播放距离确定单元140、目标区域确定单元150、目标图像获取单元160和视频播放控制单元170。

拼接视频获取单元110，用于响应于融合指令，获取与所述融合指令对应的拼接视频；其中，所述拼接视频由多个图像采集装置采集分别采集的视频流数据预先或实时基于视频拼接策略拼接处理得到；

视频播放载体获取单元120，用于获取预先设置的且与三维场景对应的视频播放载体及三维场景视频播放方式；

虚拟框获取单元130，用于获取预先设置的且与三维场景对应的视频图像虚拟框及视频图像虚拟框参数；

播放距离确定单元140，用于获取与所述融合指令对应的目标虚拟图像采集装置集，基于所述视频图像虚拟框参数确定所述视频播放载体与所述目标虚拟图像采集装置集之间的当前播放距离；

目标区域确定单元150，用于基于所述当前播放距离获取所述目标虚拟图像采集装置集的视椎体截面在所述视频图像虚拟框中对应的目标区域；

目标图像获取单元160，用于基于所述目标区域获取所述拼接视频的目标裁剪区域，并生成与所述目标裁剪区域对应的多帧目标裁剪图像和多帧目标透明遮罩贴图；

视频播放控制单元170，用于在所述视频播放载体中以多帧目标透明遮罩贴图为辅助体对应展示所述多帧目标裁剪图像。

要说明的是，所属领域的技术人员可以清楚地了解到，上述多视频与三维场景融合装置中各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

可见，实施该装置的实施例能实现多视频图像与三维场景的快速融合和及时展示。

上述多视频与三维场景融合装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本发明实施例提供的一种计算机设备的示意性框图。该计算机设备集成了本发明实施例所提供的任一种多视频与三维场景融合装置，其可以视为一种服务器。

参阅图8，该计算机设备包括通过***总线401连接的处理器402、存储器和网络接口405，其中，存储器可以包括存储介质403和内存储器404。

该存储介质403可存储操作***4031和计算机程序4032。该计算机程序4032包括程序指令，该程序指令被执行时，可使得处理器402执行上述多视频与三维场景融合方法。

该处理器402用于提供计算和控制能力，以支撑整个计算机设备的运行。

该内存储器404为存储介质403中的计算机程序4032的运行提供环境，该计算机程序4032被处理器402执行时，可使得处理器402执行上述的多视频与三维场景融合方法。

该网络接口405用于与其它设备进行网络通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器402用于运行存储在存储器中的计算机程序4032，以实现如上述的多视频与三维场景融合方法。

应当理解，在本发明实施例中，处理器402可以是中央处理单元（CentralProcessing Unit，CPU），该处理器402还可以是其他通用处理器、数字信号处理器（DigitalSignal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机***中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如上述的多视频与三维场景融合方法。

所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，终端，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多视频与三维场景融合方法，其特征在于，包括：

响应于融合指令，获取与所述融合指令对应的拼接视频；其中，所述拼接视频由多个图像采集装置分别采集的视频流数据预先或实时基于视频拼接策略拼接处理得到，且多个图像采集装置分别采集的视频流数据作为多视频；

获取预先设置的且与三维场景对应的视频播放载体；所述三维场景为与三维虚拟世界相应的三维场景，三维虚拟世界为物理世界的数字孪生世界；所述视频播放载体为静态网格体组件；所述静态网格体组件采用Unreal Engine三维引擎或Unity3D三维引擎；

获取预先设置的且与三维场景对应的视频图像虚拟框及视频图像虚拟框参数；所述视频图像虚拟框是设置于三维场景中用于承载静态网格体组件的矩形框；所述视频图像虚拟框参数至少包括视频图像虚拟框的大小、位置和旋转角度；

获取与所述融合指令对应的目标虚拟图像采集装置集，基于所述视频图像虚拟框参数确定所述视频播放载体与所述目标虚拟图像采集装置集之间的当前播放距离；所述基于所述视频图像虚拟框参数确定所述视频播放载体与所述目标虚拟图像采集装置集之间的当前播放距离包括：在确定目标虚拟图像采集装置集对应的视锥体截面处于所述视频图像虚拟框中预设的中心区域范围时，获取目标虚拟图像采集装置集对应的综合虚拟图像采集装置与所述视频图像虚拟框之间的当前间距，并以所述当前间距作为所述当前播放距离；其中，所述目标虚拟图像采集装置集中的多个虚拟图像采集装置融合成一个用于综合代表多个虚拟图像采集装置并投影拼接视频的综合虚拟图像采集装置；

基于所述当前播放距离获取所述目标虚拟图像采集装置集的视锥体截面在所述视频图像虚拟框中对应的目标区域；

基于所述目标区域获取所述拼接视频的目标裁剪区域，并生成与所述目标裁剪区域对应的目标裁剪图像和目标透明遮罩贴图；

在所述视频播放载体中以多帧目标透明遮罩贴图为辅助载体分别对应展示相应的多帧目标裁剪图像，以实现多帧目标裁剪图像与所述视频图像虚拟框中的三维场景相结合显示；其中，所述在所述视频播放载体中以多帧目标透明遮罩贴图为辅助载体对应展示所述多帧目标裁剪图像包括：以目标裁剪图像为所述视频图像虚拟框中材质的BaseColor贴图，并以目标透明遮罩贴图作为视频图像虚拟框中材质的半透明贴图。

2.根据权利要求1所述的方法，其特征在于，所述多个图像采集装置包括目标图像采集装置；所述获取与所述融合指令对应的拼接视频，包括：

获取所述融合指令对应的第一指令产生时间点和第一目标图像采集装置集，以所述第一指令产生时间点确定与所述第一目标图像采集装置集对应的第一拼接视频播放起始时间点；

获取与所述第一目标图像采集装置集对应且以所述第一拼接视频播放起始时间点为视频起始时间点的所述拼接视频。

3.根据权利要求1所述的方法，其特征在于，所述多个图像采集装置包括目标图像采集装置；所述获取与所述融合指令对应的拼接视频，包括：

获取所述融合指令对应的第二指令产生时间点和第二目标图像采集装置集，以所述第二指令产生时间点确定与所述第二目标图像采集装置集对应的第二拼接视频播放起始时间点；

获取与所述第二目标图像采集装置集对应且以所述第二拼接视频播放起始时间点为视频起始时间点的目标视频流数据集；

将所述目标视频流数据集中所包括的各目标视频流数据基于所述视频拼接策略进行拼接处理，得到所述拼接视频。

4.根据权利要求3所述的方法，其特征在于，所述将所述目标视频流数据集中所包括各目标视频流数据基于所述视频拼接策略进行拼接处理，得到所述拼接视频，包括：

对所述目标视频流数据集中所包括各目标视频流数据进行图像预处理，得到目标预处理视频流数据集；

对所述目标预处理视频流数据集进行畸变矫正，得到目标畸变矫正视频流数据集；

对所述目标畸变矫正视频流数据集进行特征匹配和视频拼接处理，得到所述拼接视频。

5.一种多视频与三维场景融合装置，其特征在于，包括：

拼接视频获取单元，用于响应于融合指令，获取与所述融合指令对应的拼接视频；其中，所述拼接视频由多个图像采集装置分别采集的视频流数据预先或实时基于视频拼接策略拼接处理得到，且多个图像采集装置分别采集的视频流数据作为多视频；

视频播放载体获取单元，用于获取预先设置的且与三维场景对应的视频播放载体；所述三维场景为与三维虚拟世界相应的三维场景，三维虚拟世界为物理世界的数字孪生世界；所述视频播放载体为静态网格体组件；所述静态网格体组件采用Unreal Engine三维引擎或Unity3D三维引擎；

虚拟框获取单元，用于获取预先设置的且与三维场景对应的视频图像虚拟框及视频图像虚拟框参数；所述视频图像虚拟框是设置于三维场景中用于承载静态网格体组件的矩形框；所述视频图像虚拟框参数至少包括视频图像虚拟框的大小、位置和旋转角度；

播放距离确定单元，用于获取与所述融合指令对应的目标虚拟图像采集装置集，基于所述视频图像虚拟框参数确定所述视频播放载体与所述目标虚拟图像采集装置集之间的当前播放距离；所述基于所述视频图像虚拟框参数确定所述视频播放载体与所述目标虚拟图像采集装置集之间的当前播放距离包括：在确定目标虚拟图像采集装置集对应的视锥体截面处于所述视频图像虚拟框中预设的中心区域范围时，获取目标虚拟图像采集装置集对应的综合虚拟图像采集装置与所述视频图像虚拟框之间的当前间距，并以所述当前间距作为所述当前播放距离；其中，所述目标虚拟图像采集装置集中包括的多个虚拟图像采集装置融合成一个用于综合代表多个虚拟图像采集装置并投影拼接视频的综合虚拟图像采集装置；

目标区域确定单元，用于基于所述当前播放距离获取所述目标虚拟图像采集装置集的视锥体截面在所述视频图像虚拟框中对应的目标区域；

目标图像获取单元，用于基于所述目标区域获取所述拼接视频的目标裁剪区域，并生成与所述目标裁剪区域对应的目标裁剪图像和目标透明遮罩贴图；

视频播放控制单元，用于在所述视频播放载体中以多帧目标透明遮罩贴图为辅助载体分别对应展示相应的多帧目标裁剪图像，以实现多帧目标裁剪图像与所述视频图像虚拟框中的三维场景相结合显示；其中，所述在所述视频播放载体中以多帧目标透明遮罩贴图为辅助载体对应展示所述多帧目标裁剪图像包括：以目标裁剪图像为所述视频图像虚拟框中材质的BaseColor贴图，并以目标透明遮罩贴图作为视频图像虚拟框中材质的半透明贴图。

6.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的方法。