CN117857769A

CN117857769A - 自适应多摄像机捕获与实时自由视角视频渲染方法及***

Info

Publication number: CN117857769A
Application number: CN202410257313.9A
Authority: CN
Inventors: 顾建国; 吴昊; 徐书朗; 王正星; 王潇; 刘昱呈; 沈伟; 钱锐; 唐陆峰; 耿恒杰; 耿建峰
Original assignee: Changjiang Longxin Media Co ltd
Current assignee: Changjiang Longxin Media Co ltd
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-04-09
Anticipated expiration: 2044-03-07

Abstract

本发明涉及多摄像机捕获与实时自由视角视频渲染技术领域，尤其涉及自适应多摄像机捕获与实时自由视角视频渲染方法及***，使用计算几何算法布置多摄像机机位，捕获二维视频数据并对捕获的二维视频数据进行时间同步；根据二维视频数据计算深度图，并根据深度图构建场景的3D模型；根据场景3D模型进行实时自由视角视频渲染。使用计算几何算法来确定摄像机布置，最大化场景覆盖并减少无效的拍摄，提高了整体的***效率和成本效益。通过计算和校正每个摄像机的时间偏差，确保了从多个角度捕捉到的动态场景数据在时间上的一致性。结合像素强度、纹理、运动等多种信息进行深度估计，提高了深度图的准确性，增强了模型对各种场景的适应性。

Description

自适应多摄像机捕获与实时自由视角视频渲染方法及***

技术领域

本发明涉及多摄像机捕获与实时自由视角视频渲染技术领域，尤其涉及自适应多摄像机捕获与实时自由视角视频渲染方法及***。

背景技术

传统的多摄像机***主要用于电影和电视节目制作，但受限于同步和几何校正问题，以及硬件和软件的限制。随着计算能力的增强和算法的优化，自由视角视频技术应运而生，允许用户从任意视角观看场景，但早期技术在实时渲染质量和速度方面面临挑战。深度感知和3D重建技术的进步，特别是自动深度感知和3D重建技术，提供了更快速的解决方案，虽然早期技术精度有限。近年来，硬件进步（如GPU加速和云计算）以及机器学习和人工智能的发展，尤其是深度学习在图像识别和3D重建方面的应用，极大地提高了数据处理速度、效率和准确性。

发明内容

鉴于上述现有技术中存在的问题，提出了本发明。

因此，本发明提供了自适应多摄像机捕获与实时自由视角视频渲染方法，能够解决传统的多摄像机***面临着同步难题，特别是在捕获动态、快速变化的场景时。这导致了在最终视频输出中存在时间上的不一致性，影响了观众体验。

为解决上述技术问题，本发明提供如下技术方案，自适应多摄像机捕获与实时自由视角视频渲染方法，包括：使用自适应多摄像机算法布置多摄像机机位，捕获二维视频数据并对捕获的二维视频数据进行时间同步；根据二维视频数据计算深度图，并根据深度图构建场景的3D模型；根据场景3D模型进行实时自由视角视频渲染。

作为本发明所述的自适应多摄像机捕获与实时自由视角视频渲染方法的一种优选方案，其中：所述自适应多摄像机算法表示为，

；

其中，表示从世界坐标系到摄像机坐标系的转换矩阵，/>为从世界坐标系到摄像机坐标系的旋转矩阵，/>为从世界坐标系到摄像机坐标系的平移向量，/>为第i个相机的内参矩阵，/>是点P在第i个摄像机成像平面上的二维投影坐标，/>是场景中的一个三维点；

若的坐标未超过成像平面的尺寸范围，则认为摄像机覆盖点P，统计摄像机视野内包含/>的总数，覆盖点P的摄像机数量占总摄像机数量的比例R计算为，

；

其中，表示覆盖点P的摄像机数量，N是摄像机总数；

若第一阈值时，则认为摄像机的覆盖率充足，无需调整摄像机布置，若/>第一阈值时，则认为摄像机的覆盖率不充足，重新调整摄像机布置以增加覆盖率。

作为本发明所述的自适应多摄像机捕获与实时自由视角视频渲染方法的一种优选方案，其中：所述时间同步包括，

；

其中，是第i个摄像机在第n帧的时间戳，/>是第n帧的全局平均时间戳，i是摄像机的索引，i=(1,2,…,N)，n是帧的索引；

计算每个摄像机相对全局平均时间戳的偏差，

；

其中，为第i个摄像机在第n帧的时间偏差；

计算同步误差度量，

；

其中，为第n帧的同步误差度量；

若，则认为第n帧的数据是同步的，若/>，则认为第n帧的数据不同步，重新进行数据同步。

作为本发明所述的自适应多摄像机捕获与实时自由视角视频渲染方法的一种优选方案，其中：所述二维视频数据包括，像素强度、图像纹理、运动信息、图像序列的时间关联、光照和阴影信息、视角信息、相机参数。

作为本发明所述的自适应多摄像机捕获与实时自由视角视频渲染方法的一种优选方案，其中：所述计算二维视频数据的深度图表示为，

；

其中，是点P在第i个摄像机成像平面上的二维投影坐标，/>是模型参数，D是深度估计网络，F是融合函数，M是多视角图像的集合，A是二维视频数据的深度图，/>是深度图估计模型；

根据深度图，从每个摄像机视角重建出的估计位置/>，对于每个点P，在不同摄像机视角下的投影误差表示为，

；

其中，表示点P在不同摄像机视角下的重建误差；

综合所有摄像机视角的投影误差，定义整体一致性度量，

；

其中，N是摄像机的数量，是所有被评估的点的集合；

若小于等于预设阈值/>时，则认为深度图与原始图像数据高度一致，则构建场景的3D模型，若/>大于预设阈值/>时，则重新调整深度估计模型；

所述重新调整深度估计模型包括，

；

其中，L是损失函数，R是正则化项，是平衡系数，/>是损失函数，衡量预测深度图与实际深度之间的差异；/>表示找到一组参数/>，使/>的值最小，表示调整后的参数。

作为本发明所述的自适应多摄像机捕获与实时自由视角视频渲染方法的一种优选方案，其中：所述构建场景的3D模型包括将深度图转换为网络模型，通过将每个像素的深度值与其他在图像平面上的位置结合，转换为三维空间中的坐标点，

；

其中，K是摄像机的内参矩阵，是图像平面上的像素坐标，/>是对应于像素的深度值，/>是三维空间中的坐标点；

为三维模型添加纹理，提高视觉真实感,纹理映射通过计算图像坐标到模型表面映射实现，

；

其中，纹理图像中的坐标，表示图像上的纹理位置，/>为纹理映射函数，将纹理坐标映射到三维模型上。

作为本发明所述的自适应多摄像机捕获与实时自由视角视频渲染方法的一种优选方案，其中：所述进行实时自由视角视频渲染包括当从多摄像机位中获取场景的3D模型，包括物体的表面几何和纹理信息，对于渲染视角中的每个像素点，计算像素点的颜色和亮度，通过结合光线追踪技术和从摄像机捕获的真实场景数据来实现；

当点P从摄像机数据中获得表面属性时，对于摄像机视角中的像素点x，通过模型计算像素点的亮度，表示为，

；

其中，是像素点x的亮度，Ω表示光线方向，/>是从点P在方向/>到观察点x方向/>的反射率函数，/>是从点P在方向/>的光源亮度，结合环境光和其他光源信息计算，o是P点表面的法线方向，/>是从点P发出并最终达到观察点x的光线方向，/>是光线方向与表面法线o的点积，/>是微分元素，表示在积分过程中考虑的微小光线方向范围。

本发明的另外一个目的是提供自适应多摄像机捕获与实时自由视角视频渲染***，通过计算几何算法优化的摄像机布置确保了场景的高效覆盖。提高了图像捕捉的质量，确保了视角的多样性，为后续的深度估计和三维重建提供了坚实的基础。数据同步模块能够精确地同步多个摄像机的数据，对于动态场景的捕捉至关重要。时间同步减少了后续处理中的复杂性，提高了最终输出的质量。深度估计模块有效地从二维视频数据中提取深度信息，使得三维模型更加准确。这对于需要高质量三维重建的应用（如虚拟现实和增强现实）尤为重要。视频渲染模块提供了高度灵活和动态的用户体验，允许用户从任何角度观看场景。

作为本发明所述的自适应多摄像机捕获与实时自由视角视频渲染***的一种优选方案，其中：包括，摄像机布置模块、数据同步模块、深度估计模块、视频渲染模块；

所述摄像机布置模块，使用计算几何算法确定摄像机的最佳位置和方向，确保场景被有效覆盖；

所述数据同步模块，确保所有摄像机捕获的视频数据在时间上保持同步；

所述深度估计模块，从二维视频数据中计算深度图，并构建场景的三维模型；

所述视频渲染模块，利用构建的三维模型进行实时自由视角视频渲染。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现自适应多摄像机捕获与实时自由视角视频渲染方法中任一项所述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现自适应多摄像机捕获与实时自由视角视频渲染方法中任一项所述的方法的步骤。

本发明的有益效果：本发明方法使用计算几何算法来确定摄像机布置，最大化场景覆盖并减少无效或重复的拍摄，提高了整体的***效率和成本效益。通过计算和校正每个摄像机的时间偏差，确保了从多个角度捕捉到的动态场景数据在时间上的一致性，这对于保证最终视频质量是至关重要的。结合像素强度、纹理、运动等多种信息进行深度估计，提高了深度图的准确性，增强了模型对各种场景的适应性。采用光线追踪等先进技术，结合真实场景数据，能够生成高度真实感和视觉吸引力的视频内容，为用户提供更为丰富和生动的观看体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明一个实施例提供的自适应多摄像机捕获与实时自由视角视频渲染方法流程示意图。

图2为本发明一个实施例提供的自适应多摄像机捕获与实时自由视角视频渲染***流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

实施例1

参照图1，为本发明的第一个实施例，该实施例提供了自适应多摄像机捕获与实时自由视角视频渲染方法，包括：

S1：使用自适应多摄像机算法布置多摄像机机位，捕获二维视频数据并对捕获的二维视频数据进行时间同步。

应说明的是，所述自适应多摄像机算法表示为，

；

其中，表示覆盖点P的摄像机数量，N是摄像机总数；

两者联合使用，可以确保在自适应多摄像机捕获***中，每个重要的空间点都被足够数量的摄像机所覆盖，从而为后续的视频渲染和三维重建提供充分的视角和信息。

应说明的是，所述时间同步包括，

；

其中，是第i个摄像机在第n帧的时间戳，/>是第n帧的全局平均时间戳，i是摄像机的索引，/>，n是帧的索引；

计算每个摄像机相对全局平均时间戳的偏差，

；

其中，为第i个摄像机在第n帧的时间偏差；

计算同步误差度量，

；

其中，为第n帧的同步误差度量；

多摄像机***中，每个摄像机捕获的图像数据用于重建或渲染三维场景。为了确保这些图像数据在空间和时间上是一致的，必须同步各摄像机捕获的帧。如果帧数据在时间上不同步，即使空间上的覆盖率充分，也会导致最终渲染或重建的场景出现错误或失真。

S2：根据二维视频数据计算深度图，并根据深度图构建场景的3D模型。

应说明的是，所述二维视频数据包括，像素强度、图像纹理、运动信息、视频时间信息、光照和阴影信息、视角信息、相机参数。

像素强度: 二维视频的基本属性之一是每个像素的强度。这些值是深度估计中用于特征提取和图像匹配的基础。

图像纹理: 纹理信息有助于在特征匹配和立体匹配算法中识别相似的图像区域。纹理特征可以帮助改善深度估计的准确性，特别是在图像中有重复模式的情况下。

运动信息: 对于动态场景，从连续的视频帧中提取的运动信息对于理解场景动态和估计深度非常重要。这可能包括对象的运动速度和方向。

视频时间信息: 保证进行时间的一致性对深度估计至关重要。

光照和阴影信息: 光照条件和阴影对于理解三维场景的结构非常重要。可以帮助区分物体表面的凹凸变化和深度差异。

视角信息: 对于多摄像机***，每个摄像机捕获的视角信息对于深度估计和三维重建是关键的。了解每个摄像机的位置和方向有助于正确地融合来自不同视角的信息。

相机参数: 包括焦距、光圈大小、传感器大小等内参，这些参数对于将二维图像映射到三维空间至关重要。

更进一步的，所述计算二维视频数据的深度图表示为，

；

应说明的是，深度图提供了场景中各个对象距离摄像机的相对深度信息。

；

其中，表示点P在不同摄像机视角下的重建误差；

综合所有摄像机视角的头像误差，定义整体一致性度量C，

；

其中，N是摄像机的数量，是所有被评估的点的集合；

所述重新调整深度估计模型包括，

；

其中，L是损失函数，R是正则化项，是平衡系数，/>是损失函数，衡量预测深度图与实际深度之间的差异；/>表示找到一组参数/>，使/>的值最小。

这种一致性度量方法结合了二维视频数据的深度图和图像重建的误差评估，提供了一种有效的方式来验证和改进深度图的质量。确保从不同摄像机视角获得的信息在空间上是一致的，从而提高整个***的准确性和可靠性。

S3：根据场景3D模型进行实时自由视角视频渲染。

所述构建场景的3D模型包括将深度图转换为网络模型，通过将每个像素的深度值与其他在图像平面上的位置结合，转换为三维空间中的坐标点，

；

构建三维模型的过程需要深度信息来确定模型中每个点的位置，这些信息来自之前的深度估计。同时，将纹理映射到模型上，需要知道每个像素点在三维空间中的准确位置，这又依赖于深度信息和摄像机的内参矩阵。深度图的生成、摄像机的校准、三维模型的构建以及纹理的映射是一个连续的过程，每个步骤都依赖于前一个步骤的输出。

更进一步的，所述进行实时自由视角视频渲染包括当从多摄像机位中获取场景的3D模型，包括物体的表面几何和纹理信息，对于渲染视角中的每个像素点，计算像素点的光照和亮度，通过结合光线追踪技术和从摄像机捕获的真实场景数据来实现；

；

其中，是像素点x的亮度，Ω表示光线方向，/>是从点P在方向/>到观察点x方向/>的反射率函数，/>是从点P在方向/>的光源亮度，结合环境光和其他光源信息计算，o是P点表面的法线方向，/>是从点P发出并最终达到观察点x的光线方向，/>是光线方向与表面法线n的点积，/>是微分元素，表示在积分过程中考虑的微小光线方向范围，/>用于计算所有这些方向上的光线对于点P的亮度L(x)的贡献总和。

实施例2

为本发明的第二个实施例，提供了自适应多摄像机捕获与实时自由视角视频渲染方法，为了验证本发明的有益效果，通过实验进行科学论证。

在相同场景中使用我发技术方案和传统技术方案进行数据测试，如表1所示。

表1、数据比对表

我方技术方案达到了95%的摄像机覆盖率，相比传统方法的80%，显著提高了15%。这意味着技术方案能够更全面地捕捉场景，确保几乎每个角度和位置都被摄像机覆盖，从而为深度估计和3D建模提供了更丰富的视觉数据。

在数据同步方面，将误差降低到5毫秒，而传统方法为15毫秒。这10毫秒的改进减少了时间同步误差，对于捕捉动态场景和高速运动非常关键，有助于提升最终视频内容的质量和一致性。

在深度估计的准确性上达到了92%，相比于传统方法的75%，提高了17%。显著的提高对于三维重建是至关重要的，意味着更准确的空间定位和更细致的细节重现，为后续的应用（如虚拟现实、增强现实等）提供了更为可靠的基础。

在视频渲染质量方面，方案比传统方法高出20分，表明更高的图像清晰度、更好的颜色还原和更平滑的动态渲染效果。

实施例3

本发明第三个实施例，其不同于前两个实施例的是：

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置）、便携式计算机盘盒（磁装置）、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编辑只读存储器（EPROM或闪速存储器）、光纤装置以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

实施例4

参考图2，为本发明的第四个实施例，该实施例提供了自适应多摄像机捕获与实时自由视角视频渲染***，其特征在于：包括，摄像机布置模块、数据同步模块、深度估计模块、视频渲染模块；

所述深度估计模块，从二维视频数据中计算深度图，并构建场景的3D模型；

应说明的是，以上实施例仅用于说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.自适应多摄像机捕获与实时自由视角视频渲染方法，其特征在于：包括，

使用自适应多摄像机算法布置多摄像机机位，捕获二维视频数据并对捕获的二维视频数据进行时间同步；

根据二维视频数据计算深度图，并根据深度图构建场景的3D模型；

根据场景3D模型进行实时自由视角视频渲染。

2.如权利要求1所述的自适应多摄像机捕获与实时自由视角视频渲染方法，其特征在于：所述自适应多摄像机算法表示为，

；

其中，表示从世界坐标系到摄像机坐标系的转换矩阵，/>为从世界坐标系到摄像机坐标系的旋转矩阵，/>为从世界坐标系到摄像机坐标系的平移向量，/>为第i个相机的内参矩阵，/>是点/>在第/>个摄像机成像平面上的二维投影坐标，/>是场景中的一个三维点；

若的坐标未超过成像平面的尺寸范围，则认为摄像机覆盖点/>，统计覆盖点/>的摄像机数量占总摄像机数量的比例/>计算为，

；

其中，表示覆盖点P的摄像机数量，N是摄像机总数；

3.如权利要求2所述的自适应多摄像机捕获与实时自由视角视频渲染方法，其特征在于：所述时间同步包括，

；

计算每个摄像机相对全局平均时间戳的偏差，

；

其中，为第i个摄像机在第n帧的时间偏差；

计算同步误差度量，

；

其中，为第n帧的同步误差度量；

若，则认为第n帧的数据是同步的，若/>，则认为第n帧的数据不同步，重新进行时间同步。

4.如权利要求3所述的自适应多摄像机捕获与实时自由视角视频渲染方法，其特征在于：所述二维视频数据包括，像素强度、图像纹理、运动信息、视频时间、光照和阴影信息、视角信息、相机参数。

5.如权利要求4所述的自适应多摄像机捕获与实时自由视角视频渲染方法，其特征在于：根据二维视频数据计算深度图表示为，

；

根据深度图，从每个摄像机视角重建出的估计位置/>，对于每个点P在不同摄像机视角下的投影误差表示为，

；

其中，表示点P在不同摄像机视角下的投影误差；

综合所有摄像机视角的投影误差，定义整体一致性度量，

；

其中，N是摄像机的数量，是所有被评估的点的集合，C为一致性度量；

若小于等于预设阈值/>时，则认为深度图与原始图像数据几何一致，则构建场景的3D模型，若/>大于预设阈值/>时，则重新调整深度估计模型；

所述重新调整深度估计模型包括，

；

6.如权利要求5所述的自适应多摄像机捕获与实时自由视角视频渲染方法，其特征在于：所述构建场景的3D模型包括将深度图转换为网络模型，通过将每个像素的深度值与其他在图像平面上的位置结合，转换为三维空间中的坐标点，

；

其中，K是摄像机的内参矩阵，是图像平面上的像素坐标，/>是对应于像素/>的深度值，/>是三维空间中的坐标点，由图像坐标/>和深度值/>转换得到；

为三维模型添加纹理，提高视觉真实感,纹理映射通过计算图像坐标到模型表面映射实现表示为，

；

7.如权利要求6所述的自适应多摄像机捕获与实时自由视角视频渲染方法，其特征在于：所述进行实时自由视角视频渲染包括当从多摄像机位中获取场景的3D模型，包括物体的表面几何和纹理信息，对于渲染视角中的每个像素点，计算像素点的光照和亮度，通过结合光线追踪技术和从摄像机捕获的真实场景数据来实现；

；

8.一种基于权利要求1-7任一所述的自适应多摄像机捕获与实时自由视角视频渲染方法的***，其特征在于：包括，摄像机布置模块、数据同步模块、深度估计模块、视频渲染模块；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。