CN113393566A

CN113393566A - 使用先验深度场景进行的基于深度的3d重建

Info

Publication number: CN113393566A
Application number: CN202011556656.3A
Authority: CN
Inventors: 埃拉德·陶伯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2020-02-26
Filing date: 2020-12-24
Publication date: 2021-09-14
Also published as: US20200195904A1; DE102020133245A1

Abstract

本申请提供了使用先验深度场景进行的基于深度的3D重建。本文描述了一种用于使用先验深度场景进行基于深度的3D重建的***。该***包括静态深度图提取器，用于针对多个摄像头视图提取场景的静态场景深度图。该***还包括动态场景平面扫描器，用于基于来自静态场景的深度图来扫过动态场景的深度平面以针对每个摄像头视图推断动态场景的深度图。最后，该***包括融合机构，用于根据来自每个摄像头视图的动态场景的深度图来融合三维点云。

Description

使用先验深度场景进行的基于深度的3D重建

技术领域

本申请涉及使用先验深度场景进行的基于深度的3D重建。

背景技术

在诸如用于体育赛事或其他引人关注的事件的各种情境中，可以安装多个摄像头以捕获发生该事件的场景(例如，在体育场周围)的许多视图。出于为用户提供沉浸式媒体体验的目的而使用对多个摄像头的安装、分割、和三维(3D)重建技术来创建体积内容。例如，捕获场景的同时或同期的视频，并且可以构建点云以创建场景的体积模型。然后可以每时每刻利用来自场景的多个捕获摄像头图像的捕获纹理来渲染该点云。

发明内容

本申请的一个方面提供了一种用于使用先验深度场景进行基于深度的3D重建的***，包括：静态深度图提取器，用于针对多个摄像头视图提取场景的静态场景深度图；动态场景平面扫描器，用于基于来自静态场景的所述深度图来扫过动态场景的深度平面，以推断所述动态场景的针对每个摄像头视图的深度图；和融合机构，用于根据所述动态场景的针对每个摄像头视图的深度图来融合三维点云。

附图说明

图1是MVS的过程流程图；

图2是背景图像的图示；

图3是来自背景图像的单视图摄像头的渲染深度的图示；

图4是动态场景的匹配摄像头视图；

图5是平面扫描(sweeping)结果的图示；

图6是用于基于先验(a-priori)深度场景进行的基于深度的3D重建的方法的过程流程图；

图7是示出使得能够基于先验深度场景进行基于深度的3D重建的***的框图；并且

图8是示出计算机可读介质的框图，该计算机可读介质存储用于基于先验深度场景进行的基于深度的3D重建的代码。

在整个公开和附图中使用相同的数字来引用相似的组件和特征。100系列中的数字是指最初在图1中找到的特征；200系列中的数字是指最初在图2中找到的特征；诸如此类。

具体实施方式

如在上面大体讨论的，场景的三维(3D)体积模型可包括点云，该点云是用来自场景的多个摄像头图像的捕获纹理来渲染的。该体积模型内的虚拟摄像头或视图然后可以用于在由该体积模型表示的3D空间中进行导航。观察到的视图被渲染以使能针对高度沉浸式用户体验的多个自由度。

创建事件的实时体积视频需要极高的计算能力。另外，最终的***输出(例如，3D模型上的渲染图像)应具有极高的质量以保持沉浸式用户体验，并且理想地实时运行。本技术使得能够减少在对场景的3D重建的实时创建期间使用的计算能力。这些改进对于在通过多个摄像头获得的3D场景中提供沉浸式用户体验是必不可少的。

如本文描述的基于深度的3D重建依赖于先验深度场景，并且可以与任何数量的计算机辅助任务一起使用。一般而言，与3D重建结合使用的特定硬件、软件和算法可能会根据手头上的特定任务而有所不同。例如，在远场范围和/或实时重建的情况下，专用于深度感测的典型硬件(例如，结构光、RGBD或LIDAR)无法满足对3D重建的实时和/或质量要求。在实施例中，使用远场范围和/或实时重建的应用可以依赖于高质量的成像传感器、专用的软件以及基于多视图立体(multi-view-stereo，MVS)的算法捆绑。一般而言，本文描述的方法、设备、装置、计算平台和物品涉及连续的3D重建以用于对场景内的高质量虚拟视图的生成。

如上所述，为了使用(用多个摄像头捕获的)场景的帧来生成所捕获场景内的虚拟视图，使用了场景的极高质量的3D重建。对虚拟视图的生成试图提供在环境内具有六个自由度(6DOF)的实时视频流传输，使得来自无法放置物理摄像头的位置的视图被交互地提供给用户。与生成虚拟视图相关联的处理以最小的等待时间产生高质量的视图，使得视觉效果对于观看者而言是沉浸式的。在一些情况下，场景中的物体和人(例如，场地、篮球场等上的球员)的3D动态运动是基于体素(三维像素)的。在该示例中，每一个单个体素的保真度对于沉浸式视频输出的整体外观来说是至关重要的。

图1是典型的多视图立体(MVS)处理100的框图。在图1的示例中，本文中所讨论的MVS处理100可包括：第一阶段102，其提供校准参数和场景的稀疏3D重建；以及第二阶段104，其执行密集点云生成。第一阶段102可被表征为运动恢复结构(structure frommotion，SfM)处理，并且包括根据3D结构在一系列图像上的投影(例如，投影几何学)来重建3D结构。到SfM处理的输入106是从不同视点拍摄的同一场景或对象的一组重叠图像。SfM处理的输出是该对象或场景的稀疏3D重建118以及所有图像的重建出的内在和外在的摄像头参数120。

SfM处理可以进一步分为包括特征检测108、特征提取110、特征匹配112、几何验证114、以及结构和运动重建116的阶段。一般而言，特征检测108发现每个输入图像中的二维(2D)特征，并且特征提取将这些特征与每个输入图像的其余部分分开。特征匹配112跨多个输入图像匹配2D特征，并且几何验证检查每个匹配特征在不同视图之间的一致性。结构和运动重建116通常根据这些匹配特征来构造踪迹。这些踪迹可用于生成SfM模型，该SfM模型可经由捆绑调整(bundle adjustment)来进行完善。

如图所示，第一处理阶段102输出场景中一个或多个对象的稀疏点云118，并校准在这一个或多个对象上训练的所有摄像头。摄像头校准结果包括：每个摄像头的3D摄像头位置和每个摄像头在施加在场景上的坐标系内的3D朝向(orientation)，以及每个摄像头的内在参数。由第一处理阶段输出的摄像头参数120可包括外在和内在的摄像头参数。如本文所使用的，术语“位置”(或“地点”)通常指示对象、特征点、摄像头等在施加在场景上的坐标系内的坐标(例如，x、y和z)，并且术语“朝向”顾名思义提供对象在该位置处的朝向并且可以用例如俯仰、偏航和横滚(roll)来表示。术语“姿态”用于指示物品的位置和朝向两者。值得注意的是，在一些情况下，可以向物品仅提供位置，并且在一些情况下，向物品提供位置和朝向两者(即姿态)。另外，术语“3D地点”或“3D位置”指示可具有3个自由度的地点或位置(例如，在空间坐标系中)，而术语“2D地点”或“2D位置”指示可具有2个自由度的地点或位置(例如，在平面坐标系中，诸如在图像平面上)。

在第二阶段104中，由第一阶段102输出的稀疏3D重建118和摄像头参数120被用于生成密集点云124。密集点云生成122可以基于将来自相邻摄像头的帧之间的相互二维(2D)信息转换为点和特征的3D定位以得出密集点云124。密集点云然后可用于各种计算机辅助任务。例如，密集点云可用于生成场景内的虚拟视图。可以使用密集点云和来自场景的帧的纹理信息来渲染和绘制在场景内任何位置和朝向的视图。如本文中所使用的，术语“帧”用于指示从摄像头或一组同步摄像头获得的视频的帧或场景的图像。术语“帧”和“图像”可以互换使用。注意到的是，用于渲染虚拟视图的局部密集点云的准确性和质量受第一阶段102和第二阶段104两者限制。

MVS 100处理的第二阶段104包括先验静态深度场景126。如下所述，先验静态深度场景被用于生成动态场景的密集点云。在实施例中，根据本技术的3D重建实现了平面扫描算法，该平面扫描算法“扫过(sweep through)”在捕获场景的坐标系内描述的在给定摄像头平面前面的多个平面或通过这多个平面进行。平面扫描立体通过如下操作来测试一族平面假设：定义一组平面，使得捕获场景中的对象位于这些平面中的至少一个平面上。例如，深度定义了每个平面到摄像头平面的距离，并且法线向量定义了相对于摄像头平面的3D平面朝向。在实施例中，在每个摄像头的自然图像平面坐标系内逐像素地执行共同的深度和法线推断，使得在推断过程结束时，深度图针对每个摄像头对在给定摄像头平面前面的逐像素深度进行编码。

在实施例中，在给定了摄像头校准、深度、和法线朝向的情况下，通过测试参考图像平面相比于针对相邻摄像头的透视变换的相似性度量，来执行对在给定摄像头前面的受测试平面和法线的推断。一般而言，在给定了透视变换的情况下，在多个摄像头帧之间最相似的平面和该平面在场景内的朝向满足相似性度量。平面扫描技术可以逐像素地被应用，或者以图像平面坐标系内的任何一组离散化被应用，从而产生每摄像头视图的逐像素深度图。

在传统的平面扫描技术中，对场景的先验知识的缺乏决定了每像素的固定深度范围搜索，因此在分辨率(平面的数量和针对每像素要搜索的深度范围)方面效率低下。此外，场景表面法线也是未知的。因此，全局优化技术需要在给定了相似性度量成本函数的情况下找到最佳的深度和法线(4个参数，因此是4个DOF)。这些缺陷在深度图保真度和时间约束方面限制了传统平面扫描在实时应用中有用的能力。另外，与深度神经网络(DNN)结合的传统平面扫描技术也受到限制(因为深度范围应当被提供作为网络的输入)，从而使得深度推断阶段效率低下，尤其是在场景对象在距摄像头/传感器的多个不同深度范围内的情况下。由于当深度搜索增加时网络的大小以三次方增长，因此这些DNN受输入图像的大小和计算时间限制。根据本技术的具有先验深度图的平面扫描克服了与传统平面扫描相关联的这些障碍。

具体而言，关于检查中的场景形状和结构的先验知识不但减少了平面扫描期间平面假设的数量，而且提高了作为结果的密集点云的保真度。在本文讨论的示例中，摄像头(或至少大多数摄像头)是静止的。因此，摄像头具有众所周知的运动。然而，动态场景的结构包括静态场景(例如，体育情境中的场地或球场)与以变化的运动速度和方向的非刚性动态场景(例如，运动的运动员和物体)的组合。如本文中所讨论的，本技术在组合的动态和静态场景中使能实时的密集深度图推断(例如，以小于拍摄场景的视频的帧速率的倒数进行的3D重建)。本技术还通过提供每像素的深度图推断来使能对视野中结构的高频变化的跟踪。

在实施例中，针对摄像头渲染的静态场景深度可以用作形状先验项(prior)，以使得能够提取由同一摄像头捕获的动态场景的深度图。因此，根据本技术的平面扫描期间的每像素的一族平面假设可被缩减到相对于静止场景深度的单个深度方向，其中该静止场景深度已被编码在场景的静态深度图中。另外，为了降低计算成本，可以将相对于检查中的摄像头平面的平面法线朝向缩减到与平面向量平行(即，正面平行(fronto-parallel))的朝向。因此，平面扫描发生在单个正面平行方向上相对于静态场景的深度偏差上。如本文所使用的，“正面平行”是与图像平面平行的方向。

通过使用静态场景深度图作为形状先验项，本技术将在四个自由度(深度和法线朝向)内的搜索问题缩减到3D重建阶段期间离散的、定义明确的逐像素进行的一维搜索。在实施例中，该重建可以被实时地执行，并且使得能够针对由多个摄像头捕获的每组帧实时创建3D场景。例如，远场范围和/或实时重建可用于捕获事件。这些事件包括常常为了最终用户的娱乐而广播的体育赛事、竞赛、演出等。这些事件可以以各种格式呈现。例如，比赛可以被呈现为二维视频或三维沉浸式视频。比赛可以使用被放置在整个事件区域(诸如，比赛区域)中的一个或多个高分辨率摄像头来捕获。多个摄像头可以捕获整个三维体积空间，包括比赛区域、舞台、竞技场等。在实施例中，摄像头***可包括多个用于体积捕获的超高分辨率摄像头。在3D沉浸式视频中，最终用户可以观看事件的动作并自由地穿过捕获的体积，这通过根据任何用户对3D重建场景内的虚拟视图的交互式选择而被展现以(使用原始摄像头纹理)在3D场景上渲染的2D图像序列来进行。在这种情况下，3D场景是最终用户可以在其中自由地四处移动的体积空间。因此，最终用户可以从虚拟摄像头观看诸如体育赛事之类的事件，该虚拟摄像头通过跟随三维体积空间中的球或特定运动员来跟随比赛区域内的比赛动作。在给定了用户定义的虚拟摄像头姿态6DOF环境(例如，任何AR头戴装置)的情况下，最终用户可以通过流传输2D图像来体验实时视频，其具有最小的等待时间和高质量的视频。

为了便于描述，使用体育赛事作为由多个摄像头捕获的事件来描述本技术。然而，本技术可以与由多个摄像头捕获的任何事件一起使用。而且，本技术不受本文描述的特定用例限制。而是，根据本技术描述的3D重建可以与从多个图像重建3D内容的任何应用一起使用。此外，根据本技术的深度数据不限于特定的深度表示。例如，如在上面讨论的，深度可以基于体素表示，或者可以是针对每个摄像头视图的逐像素深度。

图2是背景图像200的图示。背景图像200表示由特定摄像头视图捕获的静态场景。该静态场景中的对象是当在空间中存在其他动态对象时保持静止的对象。例如，在背景图像200中捕获了诸如地面202、第一目标204和第二目标206之类的静态对象。此外，示出了球场入口区域208和看台/座位210。背景图像200是由多个摄像头中的单个摄像头捕获的。来自这多个摄像头的其他摄像头可以被放置在背景图像200中可见的场景周围。这其他摄像头可以捕获同一场景的不同视图。因此，从多个摄像头，可以捕获静态场景的多个图像。

一般而言，背景图像表示静态场景，其包括场景中的静止对象。在一些情况下，静态场景可以是所捕获的没有任何运动员或比赛进行的比赛区域。此外，在一些情况下，静态场景可包括对象(诸如在比赛区域之外的人)，这些对象被限于比赛区域之外的区域。动态场景可以是在比赛进行期间捕获的场景，其中对象和人根据正在进行的特定比赛的规则在整个比赛区域中移动。动态场景可以是非刚性的，其中对象以各种速度和方向移动。

可以从静态场景的多个图像中提取深度图。在实施例中，静态场景被用于得出多个深度平面并且针对每个摄像头视图中的每个像素得出与静态场景相关联的深度值。将静态场景用作形状先验项与使用特定几何形状先验项的传统技术有所不同。例如，使用形状先验项的传统技术通常对特定类别的对象施加限制，诸如将建筑物的面限制为垂直的。传统的平面扫描技术也可对正被重建为特定事物的对象(诸如在已知具有建筑物的场景中捕获的建筑物)施加限制。

本技术使用从静态场景得出的深度平面来实时地约束动态场景的深度提取。对于捕获静态场景的多个摄像头，相对于给定的摄像头视图，平面在空间内选择性地位于正面平行方向上。经由平面诱导单应性将多个相邻摄像头(它们共享场景的重叠视图)上的匹配图像块扭曲到参考帧上。平面诱导单应性由参考摄像头、邻近摄像头、和如下平面之间的相对姿态来给出，该平面在本文通过相对于参考摄像头平面的深度和法线依据投影几何学来定义。如果特定平面靠近场景空间中的动态对象，则经扭曲的匹配图像和参考图像将在对应的块中对齐。在实施例中，可以通过根据相似性度量对平面评分来找到针对每个像素的最佳平面位置。例如，给定来自一组平面的多个候选对应关系，可以通过绝对差和(SAD)来确定相似性。其他相似性度量包括但不限于平方差和(SSD)和归一化互相关(NCC)。另外，在实施例中，针对每个像素的最佳平面可以是使匹配成本最小化的平面。确定相似性成本提取的策略有几个方面，例如：推断参考视图(以处理遮挡)所需的目标图像数量，成本函数(NCC、SAD等)，以及深度确定(加权均值、赢者通吃(winner-takes-it-all)等)。

通过使用静态场景来约束深度提取并最终约束动态场景的3D重建，每像素的深度推断变为容易应用于并行计算的受约束且离散的问题，并且比传统的平面扫描快至少几个数量级，即使在传统平面扫描被实现在图形处理单元(GPU)上时也是如此。在实施例中，针对每个摄像头视图的每个像素的静态深度值可以是以深度图的形式。可以在由在3D重建应用外部的软件捕获动态场景之前，离线提取每个每摄像头视图的深度图。也可以通过专用的渲染模块来实时地生成每摄像头视图的深度图。在实施例中，可以生成静态场景的3D模型并将其具体与校准后的摄像头对齐，使得摄像头的姿态与背景场景的3D模型共同对齐(co-align)到同一3D空间。因此，在动态场景深度图提取之前，可以以高精度提取每摄像头视图的背景场景的静态深度图。

图3是来自背景图像的单视图摄像头的渲染深度图300的图示。渲染深度图300可以对应于从背景场景200(图2)中提取的深度。在该示例中，每个像素对静态场景到摄像头平面的距离(即，深度)进行编码。在渲染深度图300中，诸如地面302、第一目标304和第二目标306之类的静态对象是可见的，因为存在与地面302、第一目标304和第二目标306中的每一个相关联的深度值。此外，基于分别在球场入口区域308和看台/座位310附近发生的深度变化，球场入口区域308和看台/座位310也是可见的。可以从背景图像200得出深度平面，并且将针对每个摄像头视图的每个像素的深度示出为静态深度图300。

图4是动态场景400的匹配摄像头视图。如图4所示，球场位于地面402上，其中示出了第一目标404和第二目标406。动态场景400捕获了球场入口区域408和看台/座位410。另外，运动员412在地面402上的球场上，并且观众414在看台/座位410中。为了便于描述，从单个摄像头视图示出了动态场景400。然而，在实施例中，动态场景是由多个摄像头捕获的。

受约束的平面扫描可以应用于由多个摄像头捕获的动态场景。如在上面大体讨论的，平面扫描立体测试一族平面假设，并针对参考视图中的每个像素记录通过某相似性度量进行评分的最佳平面。该算法对任何数量的摄像头都有效，并且图像无需校正。在实施例中，通过将静态场景深度值用作形状先验项，平面扫描在被应用于动态场景时受到约束。该约束将这一族平面缩减为在摄像头平面的方向上相对于背景场景的离散深度偏移，同时深度步长是相对于静态场景深度逐像素采用的。此外，由于通过静态场景深度图，在相邻像素之间存在空间连接，因此平面法线估计变得多余并且可以缩减为相对于参考摄像头平面的正面平行法线。

在实施例中，与需要平面的深度范围和数量来进行对于所有像素和视图而言通用的推断(这限制了其在远场和未知深度范围的情况下的鲁棒性和/或效率)的典型网络不同，具有静态场景深度先验项的平面扫描可以依据与静态场景深度有关的扫描而容易地应用于基于平面扫描的任何深度神经网络(DNN)。本文描述的对静态场景先验项的使用可以使DNN更紧凑、基于关注、并且不受深度范围的限制。

根据本文描述的3D重建获得的深度值可以应用于各种用例。例如，重建的动态场景深度值可以用于深度图融合。具体而言，在完成每摄像头视图的深度推断之后，通过融合重新投影的深度点来重建整个3D场景。在另一示例中，重建的动态场景深度值可以用作动态对象形状先验项。在不失静态场景先验项的一般性的情况下，还可以检索动态对象的先验项。例如，在捕获体育赛事时，可以通过对运动员进行分割和定位来提取运动员的深度先验项。考虑到运动员的脚最有可能在地面上，从而“附着”或(紧密附着)到静态场景，其初始深度被给出并且运动员的其余部分的深度可以被推测为不一定准确的一定高度(例如，篮球运动员可以被估计为相当于2米高度的从底部到顶部的总深度变化)，使得现在相对于形状先验项进行深度推断。

此外，重建的动态场景深度值可以用于虚拟摄像头深度提取。例如，由于静态场景是定义明确的，因此可以生成任何虚拟摄像头(姿态和内在参数)并渲染虚拟摄像头的相应静态深度。通过诱导从目标真实摄像头视图到虚拟图像平面的逆单应性以进行目标-目标的深度推断，可以对参考摄像头应用相同的平面扫描过程。输出是虚拟摄像头的动态场景的深度图，并且可以通过真实目标摄像头的视图进行渲染。

在实施例中，动态场景的深度图可以用于基于图像的渲染。在该示例中，由于深度推断基于相邻图像之间的颜色和纹理相似性，因此可以提取那些图像的颜色和纹理的混合以产生虚拟摄像头的视图。

图5是平面扫描结果500的图示。具体而言，图5示出了由单个摄像头捕获的动态图像502及其通过本文描述的平面扫描立体提取的相应深度图504。图6是用于基于先验深度场景进行基于深度的3D重建的方法600的过程流程图。在框602，针对每个摄像头视图提取静态场景深度图。在实施例中，通过渲染静态场景的3D详细模型到捕获场景的每个摄像头的深度来获得静态场景深度图。在框604，基于针对每个摄像头视图从静态场景得出的深度平面，扫过动态场景的深度平面。在实施例中，在静态场景中找到的深度平面被用于约束由多个摄像头捕获的动态场景的平面扫描方向。通过诱导到相邻视图的平面单应性变换并记录相邻视图之间的相似性来推断针对动态场景的每个像素的深度值。在实施例中，相似性可以是颜色相似性、纹理相似性、或特征相似性。在框606，根据所有摄像头视图的所有推断出的深度图来融合统一的3D点云。

过程流程图600并非旨在表明要以任何特定顺序执行示例方法600的框，或者在所有情况下所有框要被包括。另外，根据具体实现方式的细节，在示例方法600内可包括任何数量的未示出的附加框。

现在参考图7，其示出了使得能够基于先验深度场景进行基于深度的3D重建的***的框图。计算设备700可以例如是膝上型计算机、台式计算机、平板计算机、移动设备、或可穿戴设备等。计算设备700可包括被配置为执行所存储的指令的中央处理单元(CPU)702，以及存储可由CPU702执行的指令的存储器设备704。CPU 702可以通过总线706耦合到存储器设备704。此外，CPU 702可以是单核处理器，多核处理器，计算集群，或任何数量的其他配置。另外，计算设备700可包括多于一个CPU702。在一些示例中，CPU 702可以是具有多核处理器架构的片上***(SoC)。在一些示例中，CPU 702可以是用于图像处理的专用数字信号处理器(DSP)。存储器设备704可以包括随机存取存储器(RAM)，只读存储器(ROM)，闪速存储器，或任何其他合适的存储器***。例如，存储器设备704可包括动态随机存取存储器(DRAM)。存储器可包括驱动710。

计算设备700还可包括图形处理单元(GPU)708。如图所示，CPU702可以通过总线706耦合到GPU 708。GPU 708可被配置为执行计算设备700内的任何数量的图形操作。例如，GPU 708可被配置为渲染或操纵要向计算设备700的观看者显示的图形图像、图形帧、视频等。

CPU 702还可以通过总线706连接到输入/输出(I/O)设备接口712，该I/O设备接口被配置为将计算设备700连接到一个或多个I/O设备714。I/O设备714可包括例如键盘和指点设备，其中指点设备可包括触摸板或触摸屏等。I/O设备714可以是计算设备700的内置组件，或者可以是从外部连接到计算设备700的设备。在一些示例中，存储器704可以通过直接存储器访问(DMA)通信地耦合到I/O设备714。

CPU 702还可以通过总线706链接到显示接口716，该显示接口被配置为将计算设备700连接到显示设备718。显示设备718可包括作为计算设备700的内置组件的显示屏。显示设备718还可包括在计算设备700内部或从外部连接到计算设备700的计算机监视器、电视或投影仪等。显示设备718还可包括头戴式显示器。

计算设备700还包括存储设备720。存储设备720是物理存储器，诸如硬驱动器、光驱动器、拇指驱动器、驱动器阵列、固态驱动器、或其任何组合。存储设备720还可包括远程存储驱动器。

计算设备700还可包括网络接口控制器(NIC)722。NIC 722可被配置为将计算设备700通过总线706连接到网络724。网络724可以是广域网(WAN)、局域网(LAN)、或因特网等。在一些示例中，该设备可以通过无线技术与其他设备进行通信。例如，该设备可以经由无线局域网连接与其他设备进行通信。在一些示例中，该设备可以经由

(蓝牙)或类似技术与其他设备进行连接和通信。

计算设备700还包括多个摄像头726。摄像头726可被配置为捕获图像。在实施例中，摄像头726被放置以捕获体积空间并且与计算设备700通信地耦合。

计算设备700包括密集点云生成器728。密集点云生成器728包括静态深度图提取器730、动态场景平面扫描器(sweeper)732、和融合机构734。静态深度图提取器730被配置为通过针对每个摄像头视图将平面扫描算法应用于静态场景来获得静态场景深度图。动态场景平面扫描器732被配置为基于针对每个摄像头视图从静态场景得出的深度平面来扫过动态场景的深度平面。结果是针对动态场景的每个摄像头视图的每个帧的深度图。在实施例中，在静态场景中找到的深度平面被用于约束由多个摄像头捕获的动态场景的平面扫描方向。如在上面讨论的，通过诱导到相邻视图的平面单应性变换并记录相邻视图之间的相似性来推断动态场景的每个像素的深度值。融合机构734被配置为根据来自每个摄像头视图的所有推断的深度图来融合统一的3D点云。

图7的框图并非旨在表明计算设备700要包括图7所示的所有组件。而是，计算设备700可以包括更少的组件或未在图7中示出的附加组件，诸如附加的缓冲器、附加的处理器等。根据具体实现方式的细节，计算设备700可包括未在图7中示出的任何数量的附加组件。另外，密集点云生成器728、静态深度图提取器730、动态场景平面扫描器732、和融合机构734的任何功能可以部分地或完全地以硬件实现和/或在处理器702中实现。例如，该功能可以用专用集成电路来实现，以在处理器702中实现的逻辑来实现，或在任何其他设备中实现。例如，密集点云生成器728的功能可以用专用集成电路来实现，以在处理器中实现的逻辑来实现，以在诸如GPU 708之类的专用图形处理单元中实现的逻辑来实现，或在任何其他设备中实现。

图8是示出计算机可读介质800的框图，该计算机可读介质800存储用于基于先验深度场景进行的基于深度的3D重建的代码。处理器802可以通过计算机总线804来访问计算机可读介质800。另外，计算机可读介质800可包括被配置为指导处理器802执行本文描述的方法的代码。在一些实施例中，计算机可读介质800可以是非暂时性计算机可读介质。在一些示例中，计算机可读介质800可以是存储介质。

如图8所示，本文讨论的各种软件组件可以被存储在一个或多个计算机可读介质800上。例如，静态深度图提取模块806可被配置为通过针对每个摄像头视图将平面扫描算法应用于静态场景来获得静态场景深度图。动态场景平面扫描模块808可被配置为基于针对每个摄像头视图从静态场景得出的深度平面来扫过动态场景的深度平面。结果是动态场景的每个摄像头视图的每个帧的深度图。在实施例中，在静态场景中找到的深度平面被用于约束由多个摄像头捕获的动态场景的平面扫描方向。融合模块810可被配置为根据来自每个摄像头视图的所有推断的深度图来融合统一的3D点云。

图8的框图并非旨在表明计算机可读介质800要包括图8所示的所有组件。另外，根据具体实现方式的细节，计算机可读介质800可包括未在图8中示出的任何数量的附加组件。

示例

示例1是一种用于使用先验深度场景进行基于深度的3D重建的***。该***包括：静态深度图提取器，用于针对多个摄像头视图提取场景的静态场景深度图；动态场景平面扫描器，用于基于来自静态场景的深度图来扫过动态场景的深度平面，以针对每个摄像头视图推断动态场景的深度图；以及融合机构，用于根据针对每个摄像头视图的动态场景的深度图来融合三维点云。

示例2包括示例1的***，包括或不包括可选特征。在该示例中，针对每个摄像头视图的动态场景的深度图的推断使用从静态场景得出的深度平面来约束动态场景的平面扫描方向。

示例3包括示例1至2中的任一个的***，包括或不包括可选特征。在该示例中，静态场景深度图是通过对静态场景进行平面扫描来得出的。

示例4包括示例1至3中的任一个的***，包括或不包括可选特征。在该示例中，针对每个摄像头视图推断动态场景的深度图是通过神经网络执行的。

示例5包括示例1至4中的任一个的***，包括或不包括可选特征。在该示例中，扫过动态场景的深度平面基于从静态场景得出的深度平面来测试经缩减的一族平面假设，并针对参考视图中的每个像素记录最佳平面，其中所述平面通过相似性度量被评分。

示例6包括示例1至5中的任一个的***，包括或不包括可选特征。在该示例中，基于来自静态场景的深度图扫过动态场景的深度平面将平面法线缩减为相对于参考摄像头的正面平行法线。

示例7包括示例1至6中的任一个的***，包括或不包括可选特征。在该示例中，该***包括：生成包括姿态和内在参数的虚拟摄像头参数，以及经由所融合的三维点云来渲染虚拟摄像头视图。

示例8包括示例1至7中的任一个的***，包括或不包括可选特征。在该示例中，该***包括：经由具有已知结构和运动的多个摄像头来捕获多个摄像头视图。

示例9包括示例1至8中的任一个的***，包括或不包括可选特征。在该示例中，融合机构实时地根据针对每个摄像头视图的动态场景的深度图来融合3D点云以生成密集的点云。

示例10是一种用于使用先验深度场景进行基于深度的3D重建的方法。该方法包括：针对多个摄像头视图提取场景的静态场景深度图；基于来自静态场景的深度图来扫过动态场景的深度平面，以针对每个摄像头视图推断动态场景的深度图；以及根据针对每个摄像头视图的动态场景的深度图来融合三维点云。

示例11包括示例10的方法，包括或不包括可选特征。在该示例中，对针对每个摄像头视图的动态场景的深度图的推断使用从静态场景得出的深度平面来约束动态场景的平面扫描方向。

示例12包括示例10至11中的任一个的方法，包括或不包括可选特征。在该示例中，静态场景深度图是通过对静态场景进行平面扫描而得出的。

示例13包括示例10至12中的任一个的方法，包括或不包括可选特征。在该示例中，推断动态场景中针对每个像素的深度值是通过神经网络来执行的。

示例14包括示例10至13中的任一个的方法，包括或不包括可选特征。在该示例中，扫过动态场景的深度平面基于从静态场景得出的深度平面来测试经缩减的一族平面假设，并针对参考视图中的每个像素记录最佳平面，其中所述平面通过相异性度量被评分。

示例15包括示例10至14中的任一个的方法，包括或不包括可选特征。在该示例中，基于来自静态场景的深度图扫过动态场景的深度平面将平面法线缩减为相对于参考摄像头的正面平行法线。

示例16包括示例10至15中的任一个的方法，包括或不包括可选特征。在该示例中，该方法包括：生成包括姿态和内在参数的虚拟摄像头参数，以及经由所融合的三维点云来渲染虚拟摄像头视图。

示例17包括示例10至16中的任一个的方法，包括或不包括可选特征。在该示例中，该方法包括：经由具有已知结构和运动的多个摄像头来捕获多个摄像头视图。

示例18包括示例10至17中的任一个的方法，包括或不包括可选特征。在该示例中，该方法包括实时地根据针对每个摄像头视图的动态场景的深度图来融合3D点云以生成密集的点云。

示例19是至少一种用于使用先验深度场景进行基于深度的3D重建的计算机可读介质，其中存储有指令。该计算机可读介质包括指令，这些指令指导处理器进行以下操作：针对多个摄像头视图提取场景的静态场景深度图；基于来自静态场景的深度图来扫过动态场景的深度平面，以针对每个摄像头视图推断动态场景的深度图；以及根据针对每个摄像头视图的动态场景的深度图来融合三维点云。

示例20包括示例19的计算机可读介质，包括或不包括可选特征。在该示例中，该计算机可读介质包括示例19的至少一种计算机可读介质，对针对每个摄像头视图的动态场景的深度图的推断使用从静态场景得出的深度平面来约束动态场景的平面扫描方向。

示例21包括示例19至20中的任一个的计算机可读介质，包括或不包括可选特征。在该示例中，静态场景深度图是通过对静态场景进行平面扫描而得出的。

示例22包括示例19至21中的任一个的计算机可读介质，包括或不包括可选特征。在该示例中，推断动态场景中针对每个像素的深度值是通过神经网络来执行的。

示例23包括示例19至22中的任一个的计算机可读介质，包括或不包括可选特征。在该示例中，扫过动态场景的深度平面基于从静态场景得出的深度平面来测试经缩减的一族平面假设，并针对参考视图中的每个像素记录最佳平面，其中所述平面通过相异性度量被评分。

示例24包括示例19至23中的任一个的计算机可读介质，包括或不包括可选特征。在该示例中，基于来自静态场景的深度图扫过动态场景的深度平面将平面法线缩减为相对于参考摄像头的正面平行法线。

示例25包括示例19至24中的任一个的计算机可读介质，包括或不包括可选特征。在该示例中，该计算机可读介质包括：生成包括姿态和内在参数的虚拟摄像头参数，以及经由所融合的三维点云来渲染虚拟摄像头视图。

不是在本文中描述和示出的所有组件、特征、结构、特性等都需要被包括在一个或多个特定方面中。例如，如果说明书写明“可能”、“可”、“可以”或“能”包括组件、特征、结构或特性，则不要求包括该特定的组件、特征、结构或特性。如果说明书或权利要求书提及“一”或“一种”元素，则那不表示仅存在一个元素。如果说明书或权利要求书提及“附加”元素，则那不排除存在多于一个的附加元素。

要注意的是，尽管已经参考特定实现方式描述了一些方面，但是根据一些方面，其他实现方式也是可能的。此外，在附图中示出和/或在本文中描述的电路元件或其他特征的布置和/或顺序不需要以所示出和描述的特定方式来布置。根据一些方面，许多其他布置是可能的。

在附图中示出的每个***中，在一些情况下，元件可以各自具有相同的附图标记或不同的附图标记，以暗示所表示的元件可以是不同的和/或类似的。然而，元件可以灵活到足以具有不同的实现方式并且对在本文中示出或描述的一些或全部***有效。在附图中示出的各种元件可以是相同的或不同的。哪个被称为第一元素和哪个被称为第二元素是任意的。

将会明白，在一个或多个方面中的任何地方都可以使用前述示例中的细节。例如，还可针对本文描述的方法或计算机可读介质中的任一者来实现上述计算设备的所有可选特征。另外，尽管在本文中可能已经使用流程图和/或状态图来描述各方面，但是技术不限于那些图或本文中的对应描述。例如，流程不需要移动经过每个示出的框或状态或以与在本文中示出和描述的完全相同的顺序移动。

本技术不限于本文列出的特定细节。其实，受益于本公开的本领域技术人员将认识到，可以在本技术的范围内做出来自前述描述和附图的许多其他变体。因此，限定本技术的范围的是所附权利要求，包括对其的任何修改。

Claims

1.一种用于使用先验深度场景进行基于深度的3D重建的***，包括：

静态深度图提取器，用于针对多个摄像头视图提取场景的静态场景深度图；

动态场景平面扫描器，用于基于来自静态场景的所述深度图来扫过动态场景的深度平面，以推断所述动态场景的针对每个摄像头视图的深度图；和

融合机构，用于根据所述动态场景的针对每个摄像头视图的深度图来融合三维点云。

2.如权利要求1所述的***，其中，对所述动态场景的针对每个摄像头视图的深度图的推断使用从所述静态场景得出的深度平面来约束所述动态场景的平面扫描方向。

3.如权利要求1所述的***，其中，所述静态场景深度图是通过对所述静态场景进行平面扫描来得出的。

4.如权利要求1所述的***，其中，推断所述动态场景的针对每个摄像头视图的深度图是通过神经网络执行的。

5.如权利要求1所述的***，其中，扫过所述动态场景的深度平面基于从所述静态场景得出的深度平面来测试经缩减的一族平面假设，并针对参考视图中的每个像素记录最佳平面，其中所述平面通过相似性度量被评分。

6.如权利要求1所述的***，其中，基于来自静态场景的所述深度图来扫过动态场景的深度平面将平面法线缩减到相对于参考摄像头的正面平行法线。

7.如权利要求1至6中任一项所述的***，包括：生成包括姿态和内在参数的虚拟摄像头参数，以及经由所融合的三维点云来渲染虚拟摄像头视图。

8.如权利要求1至6中任一项所述的***，包括：经由具有已知结构和运动的多个摄像头来捕获所述多个摄像头视图。

9.如权利要求1至6中任一项所述的***，其中，所述融合机构实时地根据所述动态场景的针对每个摄像头视图的深度图来融合所述3D点云以生成密集点云。

10.一种用于使用先验深度场景进行基于深度的3D重建的方法，包括：

针对多个摄像头视图提取场景的静态场景深度图；

基于来自静态场景的所述深度图来扫过动态场景的深度平面，以推断所述动态场景的针对每个摄像头视图的深度图；和

根据所述动态场景的针对每个摄像头视图的深度图来融合三维点云。

11.如权利要求10所述的方法，其中，对所述动态场景的针对每个摄像头视图的深度图的推断使用从所述静态场景得出的深度平面来约束所述动态场景的平面扫描方向。

12.如权利要求10所述的方法，其中，所述静态场景深度图是通过对所述静态场景进行平面扫描来得出的。

13.如权利要求10所述的方法，其中，推断所述动态场景中针对每个像素的深度值是通过神经网络来执行的。

14.如权利要求10所述的方法，其中，扫过所述动态场景的深度平面基于从所述静态场景得出的深度平面来测试经缩减的一族平面假设，并针对参考视图中的每个像素记录最佳平面，其中所述平面通过相异性度量被评分。

15.如权利要求10所述的方法，其中，基于来自静态场景的所述深度图扫过动态场景的深度平面将平面法线缩减到相对于参考摄像头的正面平行法线。

16.如权利要求10至15中任一项所述的方法，包括：生成包括姿态和内在参数的虚拟摄像头参数，以及经由所融合的三维点云来渲染虚拟摄像头视图。

17.如权利要求10至15中任一项所述的方法，包括：经由具有已知结构和运动的多个摄像头来捕获所述多个摄像头视图。

18.如权利要求10至15中任一项所述的方法，包括：实时地根据所述动态场景的针对每个摄像头视图的深度图来融合所述3D点云以生成密集点云。

19.至少一种用于使用先验深度场景进行基于深度的3D重建的计算机可读介质，其中存储有指令，这些指令响应于在计算设备上被执行而使该计算设备进行以下操作：

针对多个摄像头视图提取场景的静态场景深度图；

20.如权利要求19所述的至少一种计算机可读介质，对所述动态场景的针对每个摄像头视图的深度图的推断使用从所述静态场景得出的深度平面来约束所述动态场景的平面扫描方向。

21.如权利要求19所述的至少一种计算机可读介质，其中，所述静态场景深度图是通过对所述静态场景进行平面扫描来得出的。

22.如权利要求19所述的至少一种计算机可读介质，其中，推断所述动态场景中针对每个像素的深度值是通过神经网络来执行的。

23.如权利要求19所述的至少一种计算机可读介质，其中，扫过所述动态场景的深度平面基于从所述静态场景得出的深度平面来测试经缩减的一族平面假设，并针对参考视图中的每个像素记录最佳平面，其中所述平面通过相异性度量被评分。

24.如权利要求19所述的至少一种计算机可读介质，其中，基于来自静态场景的所述深度图扫过动态场景的深度平面将平面法线缩减到相对于参考摄像头的正面平行法线。

25.如权利要求19-24中任一项所述的至少一种计算机可读介质，包括：生成包括姿态和内在参数的虚拟摄像头参数，以及经由所融合的三维点云来渲染虚拟摄像头视图。