CN112581627A

CN112581627A - 用于体积视频的用户控制的虚拟摄像机的***和装置

Info

Publication number: CN112581627A
Application number: CN202010586260.7A
Authority: CN
Inventors: D.巴鲁亚; F.杨
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-09-27
Filing date: 2020-06-24
Publication date: 2021-03-30
Also published as: US20210097667A1; DE102020124815A1; US11748870B2

Abstract

用于确定虚拟视频摄像机的质量分数的设备和方法。例如，一个实施例包括：感兴趣区域（ROI）检测器，所述感兴趣区域（ROI）检测器用于检测第一图像内的感兴趣区域，所述第一图像从位于第一坐标的第一物理摄像机（PCAM）生成；虚拟摄像机电路和/或逻辑，所述虚拟摄像机电路和/或逻辑用于生成第二图像，所述虚拟摄像机电路和/或逻辑位于所述第一坐标；图像比较电路和/或逻辑，所述图像比较电路和/或逻辑用于建立所述第一图像和所述第二图像之间的像素到像素对应性；图像质量评估器，所述图像质量评估器用于通过考虑到所述第一图像而评估所述第二图像来确定所述第二图像的质量值。

Description

用于体积视频的用户控制的虚拟摄像机的***和装置

技术领域

本公开涉及摄像、图像捕获和回放。更特定地，本公开涉及用于体积视频的用户控制的虚拟摄像机的***和方法。

背景技术

使用从多个摄像机捕获的体育事件的视频并使用该视频来生成虚拟现实（VR）环境的技术是公知的。然而，这些先前的解决方案限于事件的静态视图，其中VR环境内的透视图是预先选择的。在那些先前的解决方案中用户能够控制和观看体育事件的方式是极其有限的且是非交互式的。

附图说明

结合附图从以下具体实施方案可以获得对本发明的更好理解，在附图中：

图1是时间码同步机制10的构造的实施例，其延伸跨多个全景摄像机头12、14和18以及捕获站22、24和25；

图2是客户机36上的多个接收器64、66和68分别经由分发通道34从全景视频馈送接收加时间戳的切片78、80和82的实施例；

图3是观看者机器上的客户端应用的实施例；

图4是在观看者机器中涉及的、用于接收多个全景视频流并确定要显示给终端用户的帧的步骤的实施例；

图5是在处理由用户所触发的摄像机改变事件时所涉及的步骤的实施例；

图6是在处理由用户从开始300触发的视频回放状态改变事件时所涉及的步骤的实施例；

图7是在处理由用户从开始400触发的视见区改变事件时所涉及的步骤的实施例；

图8A-B是在开始500启动的观看应用如何处理传输控制事件的实施例；

图9是作为事件位置的橄榄球场90的实施例，其中多个全景摄像机12、14、16和18位于关键位置，使得他们提供不同角度（要从所述不同角度观看体育事件），并且允许一个或多个终端用户选择（对于他们）最佳地适合于在任何给定时间点观看事件的角度；

图10是从进攻方后的位置示出在橄榄球比赛的发球开始之后不久的时间点的实施例；

图11是在发球开始时从防守线锋后面的起点的实施例；

图12A-B是示出根据本发明的一个实施例的***的实施例；

图13是包括接球员前场（receiver downfield）的视图的示例的实施例；

图14A-B示出在本发明的不同实施例中使用的补充数据和控制图形的示例；

图15是透视性增强的另一示例的实施例，该透视性增强是内容选择盘；

图16是在透视图中示出两个运动员的体积突出显示的实施例；

图17是包括2D UI图形元素的2D屏幕空间UI的实施例；

图18是图形元素的实施例，其示出关于不同摄像机观看有利点的众包投票（crowdsourced voting）的结果；

图19是热图可视化的实施例，其示出正看着图像的特定区域的用户的相对数量；

图20是沉浸式体积媒体***的实施例；

图21是处理输入流以生成稳定矢量的稳定器的实施例；

图22是内部点云的模式详细图示；

图23是用于确定虚拟摄像机的对象视频质量的设备的实施例；

图24示出PCAM和VCAM图像的示例序列；

图25是PCAM视频流的一个特定实现的实施例，所述PCAM视频流被用作VCAM视频流的参考；

图26A-B示出用于将拉格朗日父元素映射到不规则拉格朗日元素的技术；

图27A-B示出用于评估VCAM图像的度量的不同示例；

图28示出不同的点大小如何影响图像质量；

图29示出给定点大小的一系列体元的示例；

图30是用于实现操作序列的设备的实施例，所述操作序列用于生成BCF分数；

图31是使用以上技术的PCAM和VCAM图像的并排比较的实施例；以及

图32是用于确定虚拟摄像机质量的方法的实施例。

具体实施方式

提交本公开是为了促进美国专利法“促进科学和实用技术的进步”（第1条第8节）的法治目的。

本发明的实施例公开了一种设备和方法，其用于从多个全景视频摄像机头或从本地存储盘接收视频流，将视频数据存储在本地存储器缓冲器中，并使用用户界面装置观看全景视频中的任一个全景视频内的感兴趣区域，同时以同步方式跨所有全景视频数据全局地控制视频时间、回放速度和回放方向。根据一种构造，多个全景视频摄像机头通过时间码生成器来同步，该时间码生成器跨所有摄像机头同步触发图像捕获。根据另一构造，多个摄像机头由一个“主”摄像机头同步，该“主”摄像机头向所有摄像机头发送触发信号。此外，根据另外的构造，每个摄像机头被设置为以预定义的帧率“自由运行”，并且处理计算机都从这些摄像机中的每个摄像机捕获最新帧，并且利用来自时间码生成器的时间码对他们加时间戳。

参考附图描述了本文的各种实施例。然而，可以在没有这些特定细节中的一个或多个特定细节的情况下或者结合其他已知方法和配置来实践某些实施例。在以下描述中，阐述了许多特定细节，例如特定配置和方法等，以便提供对本公开的透彻理解。在其他情况下，尚未特别详细地描述公知的构造技术和方法，以免不必要地使本公开难以理解。贯穿本说明书，对“一个实施例”或“实施例”的参考意味着结合该实施例所描述的特定特征、配置、组成、或特性被包括在至少一个实施例中。因此，贯穿本说明书在各个地方出现短语“在一个实施例中”或“实施例”不一定是指同一实施例。此外，特定特征、配置、组成、或特性可以采用任何合适的方式被组合在一个或多个实施例中。

如本文所使用的，术语“传输控制”被理解为意味着允许观看者控制视频回放（诸如在播放、暂停、倒带和前进、以及倒带或前进的速度之间进行选择）的用户界面。

图1示出时间码同步机制10的构造，其延伸跨多个全景摄像机头12、14和18以及捕获站22、24和25。时间码生成器20被用于基于需要从全景摄像机12、14和18捕获帧50、52和54的期望速率来获得一致的时间戳。来自时间码生成器20的相同时间码由捕获站22、24和26中的每个捕获站接收，并且在该机制的实施例之一中，时间码用于触发44、46和48全景摄像机12、14和18。这也被称为全景摄像机12、14和18 的“软件触发器” 44、46和48。全景摄像机12、14和18分别在被触发器44、46和48触发时捕获帧50、52和54，并将帧50、52和54返回给生成了触发44、46和48的对应捕获站22、24和26。捕获站22、24和26将来自时间码的时间戳信息附加到帧，从而形成“具有时间戳的帧” 56、58和60。由于时间码在捕获站22、24和26之间被共享，因此对于给定时间码，从捕获站22、24和26中的每个捕获站生成的帧56、58和60被同步，因为他们具有相同的时间戳。这些帧56、58和60然后分别被传送到处理站28、30和32，在那里他们被压缩以便通过网络传输并被发送到某个分发通道34。贯穿该处理、压缩和分发过程，帧56、58和60上的时间戳信息被维持。分发装置或通道（交换机）34被配置成将所处理的图像或压缩的视频流分发到客户端36、38和40中的客户端处理器。客户端36、38和40还包括存储器。

图1的时间码同步机制10的另一实施例涉及使用“硬件同步触发器²”42来触发全景摄像机头12、14和18。基于期望的帧率以特定时间间隔生成硬件触发器42。硬件触发的该速率必须与由时间码生成器20所生成的时间码的速率相匹配，全景摄像机头12、14和18之一充当“主”，并且所有其他全景摄像机头12、14和18充当“从”。“主”全景摄像机同步地触发其自身和所有“从”全景摄像机。当生成触发器时，在全景摄像机50、52或54处捕获帧。一旦捕获到帧50、52或54，事件就在捕获站22、24或26处被调用，并且这是在捕获站22、24或26从摄像机12、14或18“抓取”帧，并将与从时间码生成器20接收到的最新时间码对应的时间戳关联到帧50、52或54时。

图1的时间码同步机制10的第三实施例涉及使全景摄像机12、14和18以“自由运行”模式来捕获帧，在该模式中全景摄像机12、14和18中的每个全景摄像机尽可能快地触发。捕获站22、24和26使用时间码信号来“抓取”由全景摄像机12、14或18捕获到的最新帧50、52或54，并将与时间码对应的时间戳与帧相关联。

图2示出客户机36上的多个接收器64、66和68分别经由分发通道34从全景视频馈送接收加时间戳的切片78、80和82。客户机36上的用户界面70确定哪个接收器是显示给用户的活动接收器64、66或68。用户界面70还管理来自装置62（像如操纵杆75、键盘76和（一个或多个）基于触摸或手势的装置77）的用户交互输入，用户界面70使用该输入来确定哪个客户端流应当是活动流（在视频74之间切换），以及全景视频的什么部分应当被显示（缩放/倾斜/摇摄73）给终端用户。来自用户交互装置的另一输入是与传输控制72相关的输入。用户界面70使用该输入并将其传递到所有接收器。这使得所有接收器能够对他们各自的全景视频流执行相同的传输控制操作，并且确保所有全景视频流被同步。

图3示出观看者机器上的客户端应用的另一实施例。在该实施例中，单个应用用作接收器和用户界面84。接收器经由分发通道34接收所有全景视频流的加时间戳的帧，并在其自己的应用存储器中管理这些流中的每个。接收器还包括处理电路。图2中描述的用户界面功能性也被集成在本申请中。如图2中所描述的，用户界面管理来自用户交互装置86的输入，并且执行用于以下操作的动作：在视频89之间切换、全景视频的什么部分应当被显示（缩放/摇摄/倾斜88）给终端用户、以及如何将传输控制87应用于存储器中的所有流。

以下变量与接收器和用户界面84的控制器模块一起被存储，所述变量确定向终端用户显示的视图的状态：a.要显示的当前摄像机b.要显示的帧的当前时间戳c.当前视频回放状态——可能的值是播放、暂停、快进、倒带、实况转播d.当前视见区——视见区由当前缩放、摇摄和倾斜值所确定。

用户交互装置86可以生成由接收器和用户界面84处理的以下类型的事件：a.摄像机改变事件b.视频回放状态改变事件c.视见区改变事件d.传输控制事件。

图4示出在观看者机器中涉及的、用于接收多个全景视频流并确定要显示给终端用户的帧的步骤。来自由观看者机器所接收的每个全景视频流102的帧在存储器（硬盘驱动器、应用存储器、或任何其他形式的存储装置）中被缓冲104。由观看者机器所接收的每个帧具有与其相关联的时间戳，该时间戳用作用于跨多个全景流而使帧同步的手段。一旦帧已经开始缓冲，则观看者应用进入以“等待刷新周期”106开始的刷新周期循环。刷新周期是由应用在显示的每一个刷新间隔执行的一组周期性操作。观看应用基于应用的回放状态和与传输控制相关的用户输入来存储关于正被显示的全景摄像机108的信息和关于要被显示的时间戳的信息。对于每个刷新周期，应用检查需要显示的当前全景摄像机，并且然后检查要显示的时间戳110。使用这两条信息，从存储器112中的缓冲器寻找要显示的适当帧。然后，在该刷新周期中将该帧传递到应用以用于显示114。

图5示出在处理由用户所触发的摄像机改变事件时涉及的步骤。在发起开始200之后，初始摄像机被使用或定义202为默认。然后应用进入“侦听”模式204，其中他等待由用户交互装置所触发的摄像机改变事件206。当接收到改变所选摄像机的请求时，存储当前摄像机信息的应用中的本地变量被更新208，并且应用回到“侦听”模式中，从而等待下一摄像机改变事件。

图6示出在处理由用户从开始300触发的视频回放状态改变事件时所涉及的步骤。初始视频回放状态302被用作默认以开始。然后应用进入“侦听”模式304，其中他等待由用户交互装置所触发的视频回放状态改变事件306。当接收到改变视频回放状态的请求时，存储当前视频回放状态的应用中的本地变量被更新308，并且应用回到“侦听”模式中，从而等待下一视频回放状态改变事件。

图7示出在处理由用户从开始400触发的视见区改变事件时所涉及的步骤。可以通过改变缩放、倾斜或摇摄来改变视见区。初始缩放、倾斜和摇摄被用作默认402以开始。然后应用进入“侦听”模式404，其中他等待由用户交互装置所触发的视见区改变事件。当接收到改变视见区的请求时，应用检查以查看缩放410、摇摄406或倾斜408值是否已经改变，并且分别更新存储缩放、摇摄和倾斜的应用中的本地变量416、412和414。然后，应用回到“侦听”模式中，从而等待下一视见区改变事件。

图8A和8B示出在开始500启动的观看应用如何处理传输控制事件。应用正侦听传输控制改变事件502。应用检查以查看传输控制的速率是否改变了504。如果速率改变了，则在应用内存储的速率的值被更新518，并且应用返回到侦听传输控制改变事件。如果速率尚未改变，则应用检查以查看用户是否已请求“传输开始”506，使得他们观看存储器中的缓冲视频流的开始。如果请求了“传输开始”，则要显示的当前时间戳的值被改变为与存储器520中的缓冲器开始处的帧的时间戳相同，并且应用返回到侦听传输控制改变事件。如果没有请求“传输开始”，则应用基于应用所处的回放状态来确定要用于显示的当前时间戳。如果应用处于“播放”状态508，则当前时间戳被递增到下一时间戳522。如果应用处于“暂停”状态520，则不改变当前时间戳524。如果应用处于“快进”512或“倒带”状态514，则考虑到帧率和传输速率，当前时间戳被递增526或递减528。如果应用处于“实况转播”状态516，则当前时间戳被设置为在存储器530中的缓冲帧末尾处的帧的时间戳。

图9示出作为事件位置的橄榄球场90，其中多个全景摄像机12、14、16和18位于关键位置，使得他们提供不同角度（要从所述不同角度观看体育事件），并且允许一个或多个终端用户选择（对于他们）最佳地适合于在任何给定时间点观看事件的角度。全景视频摄像机12、14、16和18中的每个全景视频摄像机分别连接到捕获站22、24、25和26。每个捕获站22、24、25和26从时间码生成器接收时间码，并且来自时间码的时间戳被附加到从全景视频摄像机接收的帧。然后，将帧传送到处理站28、30、31和32，在那里对他们进行处理，并将他们流播出到分发通道34。分发通道34接收帧，并通过网络将帧传递到多个客户端，所述多个客户端连接到该分发通道。

如本文所使用的全景视频捕获装置包括多个传感器，所述多个传感器以圆形阵列放置，使得由每个传感器捕获的图像的一部分与由相邻传感器捕获的图像的一部分重叠。基于触发机制同步地捕获来自不同传感器的重叠图像，并且这些重叠图像形成用于创建单个无缝全景图像的基础。

如本文使用的，处理器是容纳多个图形处理单元（GPU）的高性能服务器级机器。GPU能够并行执行大量操作。在处理器中使用多个GPU允许对由全景视频捕获装置传递的多个图像帧的高度并行化计算。存储器也可以是驻留的。

处理器包括以下模块。首先，捕获模块负责触发全景视频捕获装置，并且一旦完成帧的曝光，就检索图像帧。在捕获模块的某些实施例中，传感器的触发不由该模块执行。对于传感器存在独立触发器机制并且每当新的图像帧在全景视频捕获装置上可用时，将事件通知捕获模块。当该通知由捕获模块接收时，他从全景视频捕获装置检索图像帧。

如本文使用的，处理模块可操作以从捕获模块接收原始帧并且对原始帧应用以下过滤器：去马赛克过滤器：在该过滤器中，使用来自原始图像帧的不完整颜色样本来重构全色图像。着色过滤器：从去马赛克过滤器输出的全色图像然后被转换为合适的颜色空间（例如，RGB）以供在下游模块中使用。接缝混合过滤器：从着色过滤器输出的经着色图像用于对相邻图像之间的重叠使用拼接算法来混合接缝。

如本文使用的，剪接模块（splicing module）负责使用从处理模块输出的图像，并且将他们放在一起，其中末端彼此排成一排，使得这些个体图像的聚合创建一个全景图像。

还如本文使用的，切片模块采取接缝混合全景图像，并且将该图像拆分成多个切片。这被进行使得全景图像的每个切片可以采用优化方式通过网络来分发。这克服了某些网络协议的现有限制：无法传递大于某一大小的图像的全景图像。

如本文使用的，时间戳模块侦听来自时间码生成器的时间码。然后该时间戳被附加到从切片模块输出的图像段的每个切片。

如本文使用的，压缩模块采取由时间戳模块输出的图像帧并且使用某些图像压缩技术（JPEG、H.264等）来压缩该图像帧以用于通过网络传输。

如本文使用的，分发装置是一种路由器或交换机，其用于通过网络传送经压缩的帧。多个客户端可以连接到分发装置并且接收正传送的图像帧。除此之外，后续分发装置其自身可以连接到传送图像的分发装置，以用于通过广泛的网络来中继图像。

如本文使用的，客户端进程处理观看者机器上的子进程和模块的组合以从分发装置接收图像帧、将他们存储在缓冲器中、管理来自用户交互装置的用户输入、以及向最终用户显示视频图像。

客户端进程被分成以下模块：

接收模块，其经由分发装置连接到视频图像源、通过网络接收图像、并且将所述图像存储在观看者机器上的缓冲器中。

用户界面模块用于管理来自用户交互装置的用户输入。在用户界面模块的实现之一中，操纵杆控制器用于捕获用户输入。可以使用操纵杆上的按钮或使用操纵杆上的多个拇指垫控件来提供用户输入。不同的按钮用于跟踪播放、暂停、快进、倒带、或实况转播模式的视频回放状态改变输入。拇指垫控件用于跟踪视图的缩放、摇摄、倾斜的视见区改变输入。另一拇指垫控件用于跟踪传输控制输入，以用于基于通过拇指垫控件已经被推了多远来确定的推动速率来向前或向后推动。

显示模块用于向用户显示全景视频帧的一部分。基于来自用户界面模块的输入来确定要显示的视频帧的该部分。来自缓冲器的图像帧被提取，并且基于其他用户输入，确定要显示的全景图像的该部分。然后向最终用户显示该部分以用于观看。

遵照章程，已采用或多或少特定关于结构和方法特征的语言描述了本发明的实施例。然而，要理解整个发明不限于所示出和/或描述的特定特征和/或实施例，因为所公开的实施例包括使本发明生效的形式。因此，本发明以其在根据等同原则而适当解释的所附权利要求书的适当范围内的形式或修改中任一项而要求保护。

用于体积视频的用户控制的虚拟摄像机的***和装置

本发明的实施例允许用户交互地控制他们对体积空间中的实际事件的观看和体验。观看可以被输入或流播到具有6DOF的VR头戴式装置或在移动装置（诸如iPhone或SamsungGalaxy装置）上被输入或流播。通过这些装置的嵌入式传感器，用户可以当在虚拟空间中正回放事件时选择体积空间内的有利点。这种与体积空间中的视频内容的用户交互性支持一系列创新和新颖的使用。例如，用户被提供有用于以下操作的能力：逼真地与虚拟空间中的对象交互、控制流播内容的回放、选择最佳起始视图以开始导航、观看附加的运动员统计、享受来自虚拟扬声器的环境音频、以及定制人们在实况体育事件中可以看到和听到什么的体验。这些实施例将体育事件观看体验提升到新的水平。

在一个实施例中，原始事件数据由摄像机和麦克风捕获。原始事件被转换成点云数据（例如，3D空间中的数据点集合）并被输入到具有六个自由度（6DOF）的虚拟现实头戴式显示器中。然而，注意，本发明的实施例可以在各种其他类型的头戴式/移动装置上实现。本发明的一个实施例允许用户在体积空间内的交互式移动，因为事件在围绕他们的虚拟空间中被渲染。用户可以通过物理移动或通过经由在虚拟环境内显示的场地（或体育事件的其他区域）上渲染的光标而跨较长距离“跳跃”来选择其自己的有利点。

在一个实施例中，用于体积环境的点云数据是从贯穿事件所分布的多个摄像机（例如，30、35或更多摄像机）生成的。在一个实施例中，点云数据被流播到渲染环境的客户端侧应用。备选地或另外地，可以响应于从客户端接收的控制信号在服务器上执行渲染，并且可以将所得到的视频流流播至客户端。在一个实现中，客户端侧应用包括具有时间控制的完整套件的图形用户界面覆盖。他可以实时地被实况渲染或者稍后根据记录的数据按需播放。

上述全景VR广播***的某些方面可用于捕获、压缩和分发音频/视频内容，以便如下所述那样生成和管理点云数据。然而，本发明的基本原理不限于这些特定细节，并且实际上，上述***的一些方面未在以下实现中被使用。

本申请中所示的屏幕截图包括从本发明的一个实施例的实际实现（橄榄球比赛）生成的结果。所示的体育场是从用于改善美学上下文的预渲染3D模型生成的。

图10从进攻方后的位置示出在橄榄球比赛的发球开始之后不久的时间点。注意，在图10中，光标1001被渲染在穿着#60的进攻前锋的右脚附近。在一个实施例中，光标1001作为用户将VR控件向下指向场地的结果而出现，并且指示用户的视图可以被移动的点，使得用户可以从该位置（例如，从前锋#60的视角）观看事件。当点击控件时，摄像机将被移动到该点，在该点处，用户可以随着事件序列继续而恢复环视。在该示例中，所显示的光标可以位于橄榄球场、边线或看台上的任何位置。

图11示出在发球开始时从防守线锋后面的起点。通过操纵输入装置或在虚拟环境内执行特定运动，用户可以在进攻起点（图10）和防守起点（图11）之间跳跃。

注意，图11描绘了一个示例，其中用户观看点的开始位置被设置为在序列的开始处具有最佳观看体验。该开始位置通过将用户置于他们最可能看到最多动作的位置（在该情况下，在防守线锋之后）来给予用户观看最多动作的机会。用户控制的虚拟摄像机体验可以从捕获并创建实况转播事件的点云数据（PCD）的***中创建，或者从具有可用于按需访问的数据的存储端点中创建。为了引人注目的沉浸式体验，本发明的实施例捕获并提供沉浸式视频和音频内容，从而实现组合的视觉和音频6DOF体验。

在图12A-B中示出根据本发明的一个实施例的***。作为概览，包括耦合到视频流播器和编码器1210的多个摄像机（例如，30、40、60个摄像机等）的视频捕获***1201被关键地定位在事件地点（例如，体育事件）的不同位置处。视频捕获***1201的摄像机捕获图像序列，并将那些序列传送到视频流播器和编码器1210，其将视频压缩并流播到云服务1290。在一个实施例中，用（下面描述的）具有嵌入式时间戳的H.264来编码所述视频，并且根据RTP/RTCP协议或TCP上的可靠传输来传送所述视频。

贯穿事件场地1200来分布包括耦合到音频编码器1220的多个麦克风的音频捕获***1202，以从不同视角捕获音频。麦克风捕获原始音频（例如，PCM数据），音频编码器对该原始音频进行编码/压缩，并且（例如，经由具有时间戳的Opus/RTP）将该原始音频流播到云服务1290。

在所示的实施例中，公共定时***1203耦合到视频捕获***1201和音频捕获***1202两者，以确保由视频捕获***1201捕获的视频帧和由音频捕获***1202捕获的音频在回放期间可以同步。在一个实施例中，视频捕获***1201用由公共定时***1203提供的时间戳来对每个视频帧和/或分组（或每第N个帧/分组）加戳。类似地，音频捕获***1202用时间戳来对每个音频分组（或每第N个分组）加戳。

视频流播器和编码器1210编码/压缩视频并将视频流播至云服务1290，云服务1290包括点云数据生成和管理***1291，点云数据生成和管理***1291包括用于生成（如本文所述的）点云数据的电路和逻辑。点云数据库1292存储点云数据并在用户的控制下将点云数据提供给请求客户端/播放器1250。例如，用户可以指定特定位置（从其观看事件）。作为响应，对应的点云数据被流播至客户端/播放器1250以供用户观看。

类似地，云服务1290内的音频数据生成和管理***1296对音频数据库1292内的音频内容进行解码并存储。响应于从场地或看台上的特定位置观看事件的特定部分的用户请求，对应的音频数据被流播至客户端/播放器1250，客户端/播放器1250使用时间戳来同步视频和音频流、渲染视频、并且为用户再现音频。

图12B示出本发明的一个实施例的附加细节，包括内容管理***2930，所述内容管理***2930用于管理对点云数据库1292和音频数据库1243中的数据的访问，如下所述。视频解码器1211对经压缩的视频流进行解码（例如，使用H./264解码），并将解码的视频帧提供给点云数据引擎2912和重构引擎1213。点云数据引擎2912的一个实施例包括图像分析/识别电路和软件，其用于标识每个视频帧内的特定对象或对象组，例如特定运动员、每个队、球、和不同的比赛视图。机器学习或其他图像识别技术可以由点云数据引擎2912实现，以“学习”标识不同类型的事件中的不同对象。

一旦标识了对象，就将对象的坐标提供给重构引擎1213，其生成具有时间戳的点云数据文件（例如，.pcd文件、.ply文件）。然后，他将点云数据文件存储在点云数据库1292内。

音频解码器1221对流播的音频1218进行解码以提取时间戳（例如，使用AAC或其他音频压缩/解压缩技术），音频解码器1221将该时间戳提供给音频处理电路/逻辑1223。音频处理电路/逻辑1223然后将音频和时间戳存储到音频数据库1243 （例如，使用Opus/RTP或其他协议来流播音频数据）。

在一个实施例中，内容管理***2930管理点云数据库1292中的点云数据以及音频数据库1243中的音频数据的存储。例如，内容管理***2930建立与重构引擎1213和/或点云数据库1292的HTTP/REST会话，以管理/跟踪点云数据的存储。类似地，他建立与音频处理电路/逻辑1223和/或音频数据库1243的HTTP/REST会话，以管理/跟踪音频数据。

响应于在特定时间点在场地/看台上的特定位置处观看特定事件的客户端请求，该请求被重定向到向客户端1250提供（例如，经由HTTP/REST）元数据的内容管理***2930。除了向客户端1250提供到点云数据库1292中的点云数据和音频数据库1243中的音频数据的链接之外，内容管理***2930还可以提供与事件相关的相关元数据，诸如运动员和队统计以及当前分数。客户端1250然后从点云数据库1292请求点云数据并从音频数据库1243请求对应的音频。另外，客户端1250的GUI可以解译元数据并将其显示在虚拟事件环境内。

以下附加细节可被包含在以下***组件中的每个内：

实况流播时间场馆1200

这是经由物理摄像机和麦克风而具有视频和音频捕获能力的源位置，所述物理摄像机和麦克风在场馆位置被安装和操作。视频摄像机1201可以贯穿事件地点1200来战略性地分布，并且可以被静态地定位和/或操作于动态可调装置（例如移动平台或视频捕获无人机）上。类似地，麦克风1202可以物理地位于场地周围，以从不同取向捕获事件的声音。

公共时间戳源1203

假设内容由针对视频和音频源的不同***捕获，公共时钟/时间源1203对所捕获的视频帧和对应音频样本加时间戳。时间戳指示捕获内容的时间，并且随后由客户端1250用来同步来自这些源的内容。

视频和音频编码

以未经压缩的原始格式捕获的视频和音频数据不适合带宽受限的数据传输，诸如通过IP网络的递送。为了将内容移动到远程位置以用于下一阶段的处理，可以将视频压缩并编码为用于数据传输和处理的适合格式。因此，在图12中，视频编码电路/逻辑1210压缩并编码原始视频，并且音频编码电路/逻辑1220压缩并编码原始音频内容，以便通过网络通信信道传送。

视频解码1211和音频解码1221

所传输和压缩的视频和音频数据分别由视频解码电路/逻辑1211和音频解码电路/逻辑1221接收，视频解码电路/逻辑1211和音频解码电路/逻辑1221分别解压缩视频和音频。解码电路/逻辑1221、1211包括处理分组/数据丢失和任何分组传输可靠性要求的端点。所接收的内容被解码，并且可以被变换成用于下一阶段的处理的适合格式。特定地，所解码的视频被提供给重构引擎1213和点云数据引擎1212，并且所解码的音频被提供给音频处理器1223，如下所述。

重构引擎1213

在流处理阶段，重构引擎1213处理视频流并将视频流转换成存储在点云数据存储***1242（例如，云服务）上的点云数据1241。重构引擎1213执行各种点云操作，包括（但不限于）i）背景图像的清除（cleaning）、ii）2D定位操作、iii）3D定位操作、iv）分段、以及v）重构。

重构引擎1213还从并行运行的点云数据引擎1212接收信息，并提供与视频中的视觉内容相关的信息，例如球位于何处或特定的运动员。重构引擎1213使用该信息来生成并存储点云数据中的附加元数据，该附加元数据可用于帮助客户端1250标识点云中的相关或感兴趣的内容。

重构引擎1213还在内容管理***1230中记录或分类该信息，内容管理***1230管理客户端1250要从点云数据存储***1242访问的内容。特定地，内容管理***1230可以记录用于标识用户要访问的感兴趣或另外相关的视图的数据。可以使用在点云数据本身中记录的时间戳来标识特定视图的开始和结束。此外，内容管理***1230管理与内容相关联的元数据以及到点云数据1241和音频数据1240的相关部分的指针。根据请求，该元数据和指针被提供给客户端1250，以允许用户选择期望的内容和期望的视图。在选择时，客户端1250生成请求，并且相关联的视频内容从点云数据流播且音频内容从音频数据1240流播。

点云数据引擎1212

点云数据引擎1212的一个实施例接收如从场地所捕获的视频流，并运行计算机视觉算法来标识和跟踪流中感兴趣或相关的内容。然后，他向重构引擎1213提供识别感兴趣/相关内容的数据。例如，点云数据引擎1212可以提供指示球或运动员在当前视图中位于何处的位置信息。该数据允许重构引擎1213将元数据添加到指示该位置的点云数据1241中。

内容管理***1230

内容管理***1230的一个实施例对可供客户端1250访问的点云内容进行分类和管理，或者提供附加内容以增强最终用户体验。例如，没有直接记录在点云数据1241中的运动员统计或其他外部信息可以根据需要从内容管理***1230中检索。

点云数据存储***1242

在实况转播***中，连同从点云数据引擎1212提供的附加元数据（例如，时间戳和跟踪信息），所解码的视频帧由重构引擎1213变换成点云数据1241。所有这些数据都被存储在点云数据存储***1242中。在一个实施例中，点云数据1242跨云服务中的多个服务器而被冗余地分布。

在一个实施中，视频内容在实况比赛期间不被主动写入存储装置，而是从较早记录的事件中存储。例如，可以从外部点云数据源中检索数据。本发明的基本原理不限于处理和存储视频/音频数据的时间方式。数据必须简单地遵守客户端1250所预期的格式和语法要求。

点云数据存储***1242还可以采用压缩格式提供数据，以更高效地将数据递送给带宽受限的客户端，例如在无线网络上操作的移动端点。在一个实施例中，点云数据存储***1242采用多个不同位率存储视频内容，并流播最适合于客户端1250连接的位率。

音频处理器1223

音频处理器1223的一个实施例处理音频流，并且基于音频麦克风1202的物理位置和取向，他创建包括该位置信息（其与相关音频样本相关联）的元数据。音频处理器1223还可以在内容管理***1230中记录或分类该信息，客户端1250可以从内容管理***1230访问该信息。

当基于点云数据1241内的用户当前观看点来播放音频内容时，麦克风的物理位置和取向的知识提供了6DOF音频体验。

音频数据存储装置1243

音频数据存储装置1243是客户端所访问的音频样本的存储端点。内容在内容管理***1230中被分类，并且经由公共时间戳而与点云数据1241的相关部分相关联。因此，当用户从特定观看点请求特定视频内容时，从点云数据存储装置1242提供视频内容，并且从音频存储装置1243提供相关联的音频数据1240。客户端1250然后使用时间戳来同步音频内容和视频内容。

客户端1250

客户端1250的一个实施例基于用户控制和动作而向用户渲染点云数据1241。客户端1250访问内容管理***1230以发现点云数据中可用的感兴趣视图/播放。这些视图可被渲染给用户以供选择。一旦被选择，客户端1250就基于该入口点和/或开始时间信息来访问点云数据1241。

被访问的内容可以是实况转播实时流，或者可以按需从可用的存储数据中请求和检索。如上所提及，客户端1250还通过来自内容管理***1230的参考或者通过存储在点云数据1241内的元数据来访问他发现的音频数据1240。虽然点云数据存储装置1242和音频数据存储装置1243在图12A-B中分离地示出，但是相同的云存储服务可以用于存储音频数据1240和点云数据1241两者。

个人化用户数据组件1251存储用户偏好，例如（一个或多个）偏好的队和喜爱的运动员。在一个实施例中，该信息用于标识内容管理***1230中的特定内容（例如，（一个或多个）队/运动员的特定剪辑），或者当该信息可从与点云数据1241相关联的元数据中获得时可被直接使用。

在一个实施例中，客户端1250还与社交连网服务1260连接，以允许用户发布视图并与朋友或其他社交团体共享视图。

个人化用户数据1251

个人化用户数据1251包括当访问来自点云数据1241的内容时与用户偏好相关的信息。例如，当访问体育事件的事件日历时，用户可能更喜欢从特定队或运动员的角度访问视图。在一个实施例中，该信息由客户端1250访问，客户端1250使用该信息以经由内容管理***1230发现可用内容。此外，当这样的元数据被存储在点云数据1241中时，该信息可用于直接标识点云数据1241中的内容。

社交网络1260

社交网络1260可以是任何第三方外部网络（用户是其成员）。客户端1250可以访问这些网络来共享和发布来自点云数据或相关信息的内容。

用户定制的虚拟摄像机

在一个实施例中，提供了可导航菜单，该菜单允许用户从位于最感兴趣的有利点的预选择虚拟摄像机中进行选择。每个虚拟摄像机都包括独特的角度，并且可以针对个人用户来定制。从这个起始视图，用户可以在任何时间访问控件以如他们所愿地重新定位。初始位置可以基于用户的偏好来配置，或者显式地输入到正用于观看序列的客户端应用中，或者基于他们过去在观看其他内容时的行为。例如，如果用户已经显式地声明了喜爱的队，或者具有更经常观看特定队的已知历史，则客户端1250可以从场地的该队侧放置用户的初始观看位置。

在一个实施例中，一组用户可以在社交化设置中同时与同一场景相关联，其中每个用户能够看到场景中显示的另一用户的“化身”，使得他们知道每个用户正在看什么。每个用户都可以完全控制他们的位置，从该位置观察正在进行的动作，并且可以随时改变。用户可以选择的区域的边界可以在用户观看之前由呈现方所配置；在这个示例中，他被配置成了橄榄球场的整个区域，但是也可以被设置为包括运动员头上的鸟瞰图、来自体育场中座位内的观众视图、场地上方的豪华包厢内、或者呈现方所期望的任何其他位置。例如，用户可能希望将他们自己放置在场地的更下方，以在接球员将要接球时观察接球员。

图13示出包括接球员前场视图的示例。虽然这个示例是在从橄榄球的单个发球时绘制的，但不存在他需要被限于该取向的结构性原因。

体积视频序列的时间控制

在一个实施例中，向用户提供对序列重放的控制。如图14中所示，用户可以在任何时候经由输入装置或动作提供输入，以使得用户界面1401被渲染。该实施例的用户界面包括叠加在视频内容上的图形视频控件。用户可以访问这些控件在序列重放中暂停、从暂停恢复、向前跳、或向后跳。

这些控件允许用户在特定时间点停止动作，并继续移动以从感兴趣场地内的不同视图重新检查场景。可被编辑到场景中的音频控制、建议的摄像机角度、或整体体验的任何其他附加元素都可与这被包含。对可能的有利点没有逻辑或结构性限制；给定的截屏描绘视点就像用户站在场地上一样，但是可以呈现来自头顶、来自看台、来自虚拟“豪华包厢”、或视线内任何其他地方的视图。

对感兴趣对象加标签

此外，如图14中所示，可以将“标签”1401A-C添加到场景中，以将用户的眼睛引导向感兴趣的人或对象。例如，四分卫可以让他的名字和球衣号码写在他场地周围位置后面的文本中。接到传球的接球员、跟随他到前场的防守员、以及对事件序列有帮助的任何其他运动员都可以用元数据来加标签。如上所述，元数据可以由内容管理***所存储和管理。

通过观看和/或访问这些标签1401A-C，向用户提供更了解队、运动员和/或事件的能力。也可以对场景添加虚拟“远程演示者”来提供关于事件是如何以其进行的方式展开的解释，以及其内的人在什么地方做出了引起最终结果的好的或坏的决定。可以针对每个用户来个人化该数据（例如，存储为个人化用户数据），使得向不同用户提供不同形式的元数据和图形。

最佳视图的标记

在一个实施例中，使两种类型的摄像机可用作供用户观看的预设置：

1.PCAM（物理摄像机）：摄像机物理上位于地点内。这些可以在地点内是静态的和/或是动态移动的。例如，静态摄像机可被预配置在地点周围的位置，而另一组摄像机可以连接到摄像机定位装置或由摄像机工作人员手持，并在时间期间在场地周围移动（例如，耦合到场地上方或边线上的可调节有线***）。

2.VCAM（虚拟摄像机）：虚拟摄像机是由制作方预定义的那些摄像机（例如，使用制作工具），制作方将他们在3D空间中定位在事件地点内的任何位置。这些也可以是静态摄像机（其停留在3D空间中的相同位置），或者他们可以使用点云引擎2912摄取的跟踪数据来跟随摄像机（其在3D空间中跟随球或特定运动员）。

因为不是所有PCAM和VCAM都递送在场地中发生的动作和事件的同一感兴趣视图，所以本发明的一个实施例包括视图排序引擎（例如，在点云数据引擎1212内），该引擎基于比赛期间的动作和/或场地上的其他感兴趣事件的最佳观看角度来对所有视图进行排序。可以用图形标记来标识一组最高排序的位置，以便用户可以挑选视图来开始导航。用户还可以通过浏览所有可用视图来预览每个标记位置的视图，并且然后选择锁定视图。

视图排序引擎的一个实施例从运动员和球检测开始，所述检测使用计算机视觉技术（CVT）引擎以对象的边界框来分段出对象。基于运动员和球的深度学习训练模型，视图排序引擎的一个实施例为用户给出最佳视图的推断。

用于体积数据中的对象的物理引擎

在一个实施例中，对于由点云数据引擎1212处理和生成的体积数据中的感兴趣对象的对象分段被用于创建对象本身的边界框。对象的边界框用于真实地给出对象本身在事件地点的存在。在一个实施例中，每个VCAM还具有边界框来标记他在场地中的存在，使得VCAM的视图在VCAM碰到对象时从对象的边界框弹开。这解决了如果VCAM的视图穿过对象可能导致的问题。此外，使用物理建模引擎来使反弹动画化，以给出更真实的用户体验。

边界框可以被提供给场地中的增强对象和真实对象两者，并且可以在体育场周围添加不可见的障碍物来限制虚拟摄像机可以移动的位置，类似于人在真实世界中可以做的那样。

体积增强

体积增强是将视觉元素***点云数据中，以便在HMD（头戴式显示器）或移动装置上显示。内容的增强允许***各种视觉元素（本文描述了其示例），所述各种视觉元素允许更深层次的叙事，这增强体积观看体验。这些增强可以是“透视性”3D元素，或者是2D“屏幕空间”UI元素。体积增强还可以包括***点云的外部数据馈送的3D数据可视化。这些体积增强的示例包括（1）标识符图形（透视性），和（2）标识符图形（2D屏幕空间UI）。

标识符图形（透视性）

标识符图形是透视性指针和给出关于3D场景中对象的相关上下文信息的其他视觉元素。这些标识符图形的示例包括：

a）对象上方的指针，

b）对象下的内容选择盘，

c）对象轨迹，

d）体积高亮，

e）3D赞助图形***物，以及

f）3D远程演示。

透视性增强既可以是静止的，或者可以在场景内随时间跟踪对象。例如，爱好者的洞察力可以被提供到战术上感兴趣的情况中。在该实施例中，多个用户可以在体积空间中看比赛、分析比赛流程并使用3D远程演示工具讨论比赛的重要情况。这将使用户能够在实况转播视频上绘制3D效果和图形。

图14中所示的运动员信息标签1401A-C是透视性对象标识符图形的一个示例。透视性增强的另一示例是图15中所示的内容选择盘1501。图16中示出另外的示例，其示出两个运动员的透视性体积高亮1601A-B。

标识符图形（2D屏幕空间UI）

标识符图形是显示在装置屏幕上的2D视觉用户界面元素，其提供关于对象（例如，运动员、队等）的相关上下文信息。这些标识符的示例包括从体积点云导出的内容（例如位置、速度或定位）的HUD（抬头显示）。图17示出了示例2D屏幕空间UI，其包括在装置屏幕上的图像之上渲染的2D UI图形元素1701A-C。

感兴趣的体积空间点

在一个实施例中生成的感兴趣的体积空间点包括体积点云内的感兴趣的多个3D音频点，其用于在HMD或移动装置上回放。这些各种感兴趣的点允许用户从不同观看点体验上下文音频，从而允许更深地沉浸在内容中。在一个实施例中，这些感兴趣的区域被表示为在点云内捕获的3D体积音频球体。

感兴趣的体积空间点的示例包括上下文特定的音频。例如，在橄榄球比赛中，用户被提供有以下能力：在点云中的四分卫和外接手的音频之间切换，并分别从四分卫或外接手的观看点听独特的音频。当用户选择不同的感兴趣的点时，音频转变与3D点云渲染同步。

众包协作控制

众包协作控制是用于从源自个人或源自具有共享的共同兴趣的群体的、针对HMD和移动装置的体积体验中获得有利点的能力。这些优选的体积有利点可以从用户的数据分析中收集或者由用户自己给出，并且向用户提供用于策划他们自己的实际真实世界事件的体积体验的能力。由于一条体积内容可以从比标准固定摄像机更多得多的角度观看，因此该***可以采取最相关的数据，以向用户提供他们最喜欢的有利点。个人还被提供与其他用户分享他们对事件的个人化体积体验或体验其他人的共享有利点的能力。为了标识这些众包体积内容有利点，可以使用以下技术中的一个或组合：

A.投票最佳体积观看角度

B.个人化体积观看有利点

C.将用户的来源数据分析增加到体积体验

D.分享自己的体积经验和观看个人的体积经验

E.在体积空间内分享你的反应

这些能力为个人提供了工具以具有对实际‘真实世界’事件的个人化叙事体验。体验的叙事被留给用户来决定他们想在他们的体验中扮演主动还是被动的角色。通过构建结合尽可能多或尽可能少的有利点建议以从不同视角体验‘真实世界’事件的***。横切实际6DoF事件的能力（无论它是实况转播还是后期制作）为用户提供了有利点（从其体验体积内容）的许多选择。

投票最佳体积观看角度

用户群体可以集体一起决定最佳的体积有利点。这些有利点也可以是较大社区的子社区，以定制更优选的体积观看有利点，其与子社区的偏好更强地对齐。

这一功能性还可以扩展到允许子社区具有关于最佳体积内容有利观看点位于何处来集体挑战其他子社区的能力。

图18示出图形元素1801A-B，其示出关于不同摄像机观看有利点的众包投票的结果。图形元素1801A指示10个用户已投票给四分卫的视角，而1801B指示23个用户已投票给防守截锋的视角。

个人化体积观看有利点

定制的个人化体积观看有利点也可以从用户的预体验、在体验期间、和体验后偏好中导出。预体验有利角度可以源自与个人用户相关的用户偏好数据。该有利角度由关于个人用户的自愿询问偏好或普遍可用的信息中的一个或组合所标识。

在体验期间的有利角度考虑到个人当前在哪里及如何与一条‘真实世界’体积内容进行交互。在为用户确定有利点时，要考虑这些条相关信息，如用户位于何处、用户正在看什么、以及用户如何消费内容。

示例1：用户位于何处。

如果用户具有对类型A的体验的偏好，但是他们当前位于更适合具有类型B的偏好的用户的地点。

用户将被视觉或听觉提示所指示，从而接收反馈：更优选的有利角度是可用的，其与他们的偏好更紧密对齐。

示例2：用户视野（FOV）中有什么

通过跟踪用户当前FOV中的内容，***可以确定用户是否正在与他们的内容偏好对齐或不对齐的有利点观看。

该***能够向用户指示他们当前的FOV是他们的优选还是有更优选的有利角度可用。

示例3：用户如何消费体积内容

能够知道用户是坐着还是站着给出了关于该用户的高度信息。用户消费体积内容的媒体类型也增加了更适合移动对HMD体验的有利点的额外层。

为了增强用户的预设置消费偏好的存在，并且在体验物理交互期间确定优选的有利点。该***采取用户在‘真实世界’中如何物理设置来影响他们在体积世界中的优选有利点。

为了确定用户的个人化有利点，群集使用这些标志来检测用户的预体验、体验期间、和体验后交互中的相似性，以对用户的优选有利点进行加权。

示例4：用户在看哪里（实时眼睛/头部跟踪）

本发明的一个实施例利用由用户的VR头戴式设备执行的眼睛或头部跟踪。该实施例在摄像机基于用户的注视的当前方向移动/枢转到某一位置的体验中向摄像机选择增加了自动化感。例如，如果用户正看着屏幕的右边缘，则***基于用户眼睛的跟踪将摄像机向右旋转。

同样的想法可以扩展到头部跟踪的概念。目前的VR***可以检测头部运动。该数据可用于预测性分析，以切换摄像机或将用户移动到3D空间中的特定位置。例如，当用户在场地中心观看比赛，但是一直看着右侧时，本发明的一个实施例则移动用户更靠近该空间，或者切换到在该空间附近提供的摄像机，以自动允许用户看到更靠近该空间的事物。假设上述两个示例中的任一个都不会对用户实施，而将是可以根据需要打开或关闭的可轮换特征。

将用户来源的数据分析增加到体积体验

可以从一组用户或较大组的派生子组中收集数据分析，以在体积体验内向用户提供反馈，所述反馈关于组或子组如何通过音频和视觉提示与体积内容交互。

图19示出热图可视化，其示出正看着图像的特定区域的用户的相对数量。

组和子组热图

可以在时间期和空间内在体积空间中跟踪你属于的用户组、你不属于的用户组、以及单独跟踪的用户中的最多量的视觉表示。类似地，音频提示也可以用来提供反馈：大多数用户在某个时间点和空间位于某个有利点周围。

这种数据表示可以给予用户他们将喜欢体验什么有利点的感觉。

分享自己的体积经验和观看个人的体积经验

在一个实施例中，用户被给予通过体积体验来策划他们自己的观看有利点（例如，讲述关于事件的故事）或者体验另一用户的共享体积体验的能力。个人化有利点的这个工具集合允许用户从他们选择的视角分享体积体验或观看其他体积体验。

“真实生活”时刻的这些共享有利观看点可以被记录或广播给其他用户来体验。在一个实施例中，这是从用户在他们的HMD或移动视图中消费体验（例如，经由客户端应用）的媒体中实现的。此外，共享的体积体验可以通过社交媒体1260或记录而被输出以到达其他用户，并被保存以在另一时间再次走过所策划的有利点。

分享体积空间内的反应

在输出用户策划的虚拟摄像机有利点之前，用户还可以增强体积内容体验。这在所选的有利点中添加了个人化元素。

例如，在一个实施例中，用户将他们自己的个人化反应结合到一条体积内容中。采取用户在体积内容内的位置和序列内的时间戳提供了这样的能力：添加反应（如表情符号、录制的音频、或其他工具）以传达用户对‘真实世界’体积体验的感觉和情感反应。

示例：表情符号

用户的情感反应的视觉表示可以在某一时间戳和确定的位置被增加到体积体验中。这些用户控制的观看角度增强允许用户分享他们自己对体验的情感反应，并看到其他用户对体验的情感反应。在一个实施例中，用户将表情符号放置在他们的虚拟摄像机视野（FOV）中。用户还可以在实况转播和非实况转播体验中看到其他用户的表情符号，这些表情符号被定位并放置在相关有利点的设定时间中。

体积沉浸式媒体中的虚拟摄像机的视频质量测量

如上所述，虚拟摄像机从实况转播点云数据渲染连续视图，并且提供用于从任何位置观看事件的创新且个人化的方式，该实况转播点云数据是从安装在事件地点（诸如体育场）中的物理摄像机阵列创建的。

下面描述的本发明的实施例提供了虚拟摄像机的视觉质量的定量测量。在一个实现中，虚拟摄像机（VCAM）与物理摄像机（PCAM）对齐，并且在补偿失真和未对齐之后，在VCAM和PCAM图像之间建立像素到像素对应性。导出质量度量，其被称为虚拟摄像机质量合成（VCQC）分数。在一个特定实施例中，使用四个测量来确定VCQC分数：峰值信噪比（PSNR）、结构相似性度量（SSIM）、点云体元密度（PVD）、和体形轮廓拟合（BCF）。因此，除了基于像素的客观测量（例如，PSNR）和基于结构的主观度量（例如，SSIM）之外，为了更精确的质量测量，还评估结合运动员的轮廓完整性（BCF）的点云数据的渲染（PVD）。

体积沉浸式媒体***

如图20中所示，对于沉浸式体积媒体***，在事件地点2021周围放置有‘N’个摄像机2010A-C，他们从不同角度捕获事件，从而完成体育场的360°全景。在一个实施例中，‘N’个摄像机2010A-C中的每个摄像机包含单个传感器，该传感器以5120×3072（5K）的帧分辨率、以每像素8位、并以30 fps捕获原始数据。然而，注意本发明的基本原理不限于这些特定配置。

每个摄像机2010A-C连接到图像处理块2020A-C，在一个实施例中，图像处理块2020A-C将5K RAW 8bpp图像转换成5K RGB 24位图像，然后转换成YUV420，并缩小到4080×2448（4K）。5k RAW图像流2027A-C可以存储在存储数据库2030中，以供后续使用（例如，用于如本文所述的图像比较）。在一个实现中，使用30的GOP大小和120 Mbps的数据速率，将H.264编码应用于4080×2448（4K）图像。所产生的H.265流2026A-C然后通过网络2090（例如，因特网）传送到云服务2041。在云2041中，使用一个或多个视频解码器2040A-C对输入的H.264 4080×2448 @ 120 Mbps流进行解码，以输出NV12 YUV帧（即，以30 FPS的4：2：0帧）。然而，如上所提及，本发明的基本原理不限于任何特定协议或配置参数集合。

参考图21，一个实施例包括稳定器2102，其处理NV12 YUV 30 FPS流2152以生成稳定矢量、消除失真、并扭曲（wrap）图像。检测块2105除了接收干净背景（CB）YOV帧2151之外，还接收由稳定器2102产生的稳定帧2153，干净背景（CB）YOV帧2151包括当事件地点2021为空从而没有运动员或对象阻挡背景（例如，篮球场或橄榄球场）时记录的视频。检测块2105通过比较稳定帧2153与CB帧2151来标识稳定流2153内的对象，例如运动员。在一个实施例中，检测块2105生成在每个帧中检测到的对象的多达200个前景（FG）裁剪和他们对应的感兴趣区域（ROI）。在该实施例中，检测块2105为每个对象指配独特的ID、X和Y坐标、宽度值、和高度值，从而为每个对象产生边界框信息。运动员、球、和场地上感兴趣的任何其它对象因此被检测到并与背景分离。

在一个实施例中，分段块2125接收前景裁剪和ROI 2154，并产生分段的前景遮罩裁剪2156和他们对应的ROI。在这一阶段，已经标识了场地上的所有裁剪对象及其大小和位置。

在一个实施例中，场内重构块2130使用第一组点云生成技术，基于分段的前景遮罩裁剪2156创建场内对象2161的点云（“内部”点云）。图22中提供了内部点云2161的更详细图示。

外部重构块2110使用第二组点云生成技术，基于颜色前景裁剪、遮罩裁剪和ROI数据2158创建场2160的点云（“外部”点云）。在一个实施例中，第一组点云生成技术包括背影轮廓（shape-from-silhouette）3D重构技术（例如，视觉外壳处理（visual hullprocessing））和水平集处理技术（levelset processing technique）。第二组点云生成技术包括基于点的渲染方法，该方法基于对象空间点插值（例如XGen）。

在一个实施例中，稳定器2102还执行诸如直接X变换（DXT）之类的变换，以生成未经压缩的稳定图像2157。如果使用DXT，则未经压缩的稳定图像2157可以包括DXT1 RGB纹理。在该实现中，渲染器2135接收具有内部和外部点云2160-2161的所有‘N’DXT1纹理，并基于摄像机控制输入坐标2170来渲染2D图像2175，从而指示虚拟摄像机的当前位置和观看方向（例如，由用户输入所指定）。虚拟摄像机允许终端用户通过任何普通的2D观看装置（包括手机和平板计算机）从场地上的任一点观看事件。备选地，用户也可以使用虚拟现实头戴式装置（HMD）利用本文描述的技术。

渲染器2135使用虚拟摄像机控制坐标2170来确定递送给用户显示器的未经压缩图像流2175的正确位置和取向。虽然在上述实施例中，未经压缩的图像流2175是2D图像流，但是备选实施例生成全景3D图像流。

本发明的一个实施例包括电路和逻辑，所述电路和逻辑用于测量每个虚拟摄像机（例如，在用户指定的坐标2170处）生成的图像的质量，以确保质量高于指定阈值。在一个实施例中，目标是使虚拟摄像机质量与物理摄像机的质量相匹配。

在图23中描绘用于确定虚拟摄像机的对象视频质量的设备的实施例。

步骤1：在一个实施例中，虚拟摄像机（VCAM）2310最初被放置在物理摄像机（PCAM）2305的位置（例如，虚拟摄像机坐标被设置为PCAM 2305的坐标）。物理摄像机参考图像为虚拟摄像机2310提供了地面实况。因此，在一个实施例中，从‘N’个PCAM 2305坐标中的每个坐标指向VCAM 2310以渲染场景，并使用PCAM 2305的视频作为VCAM 2310的参考以用于比较。

步骤2：检测感兴趣区域。可以采用各种实时对象检测技术来标识质量测量的感兴趣区域。算法之一是“你只看一次（YOLO）”。YOLOv3是极为快速且精确的，将单个神经网络2315应用于整个图像。在一个实施例中，神经网络2315将图像划分成多个区域，并预测每个区域的边界框2320和概率。例如，可以根据预测的概率对边界框2320进行加权。神经网络2315在测试时间评估整个图像，因此其预测由图像中的全局上下文通知。他还通过单个网络评估进行预测，而不像需要对单个图像进行数千次评估的***（诸如R-CNN（具有卷积神经网络的区域））。这使得他极为快速，比R-CNN快1000多于倍，并且比“快速”R-CNN快100倍。

一个实施例使用预训练的权重（‘yolov3.weights’）并执行神经网络2315来检测场地或球场上的运动员，并在他们周围绘制边界框2320。这些预训练的权重是通用的，并且因此执行时间在几百毫秒内。然而，该模型是通过在实况比赛中使用从物理摄像机2305生成的样本进行训练来定制的，从而减小了权重文件大小。这导致了神经网络2315的性能方面的显著改善，该神经网络2315能够在几毫秒内实时检测对象。

在图24中，左边的图像对应于PCAM 2305，并且右边的图像对应于在PCAM 2305的位置和取向渲染的VCAM 2310。顶行2401示出原始的PCAM/VCAM图像。中间行2402是YOLO的输出（其中在场景中检测到两个对象），并且第三行2403是中间行2402的放大版本。

返回到图23，PCAM/VCAM像素到像素映射器2330在PCAM和VCAM图像之间建立像素到像素对应性。PCAM 2305的视频和VCAM 2310的视频的比较并不简单。首先，这两个视频流遭受不同的伪像和错误。虽然PCAM视频流具有典型的伪像（像如闪光、镜头失真、传感器灰尘、不同的颜色平衡），但VCAM视频流遭受重构和量化误差。其次，不保证来自PCAM和VCAM流的两个图像帧具有像素到像素对应性，尤其是当PCAM具有更宽视野时。

PCAM/VCAM像素到像素映射器2330的一个实施例包括预处理电路和/或逻辑，以补偿PCAM图像中的失真，并建立PCAM和VCAM图像之间的像素到像素对应性。

图25示出PCAM视频流2305的一个特定实现，所述PCAM视频流2305被用作VCAM视频流2310的参考。

在边界框内提取稳定的图像特征

在一个实施例中，锚被放置在PCAM视频流2305中的边界框内的稳定图像特征处。子带图像分解电路/逻辑2501在频域中执行极性可分离分解（例如，使用子带图像分解技术，诸如Gabor过滤器和可操纵金字塔）。这为视频帧提供了比例和取向的独立表示。子带图像分解电路/逻辑2501为不同的比例和取向生成能量图，该能量图从子带分解中导出，但是为具有中等大小比例的带提供相当大的偏差。在加权求和和阈值化2502之后，结果能量图的强度被用于在PCAM视频2520中分配PCAM锚，所述PCAM锚标记稳定图像特征的存在以建立对应性。

使用锚建立对应性

块匹配电路/逻辑2503使用PCAM视频2520中的锚来找到VCAM视频2310中的最佳匹配位置。如前所述，在一个实施例中，使用90KHz参考时钟对来自不同源的视频帧加时间戳并进行同步。任何类型的块匹配算法都可以用于基于锚来建立对应性。因为可能存在锚的相对稀疏分布，所以块匹配电路/逻辑2503的计算要求不重要。最佳匹配位置被用作对应VCAM视频锚2520的VCAM视频图像2521中锚的新位置。在这个阶段，PCAM视频流和VCAM视频流之间已经实现了锚到锚对应性。

使用可变形网格来规格化边界框

在一个实施例中，可变形网格覆盖电路/逻辑2504将拉格朗日元素的可变形网格应用于具有锚2521的VCAM图像帧，并且网格覆盖电路/逻辑2514将拉格朗日元素的可变形网格应用于具有锚2520的PCAM图像帧，使得拉格朗日元素的每个节点位置与锚的位置匹配。可变形拉格朗日元素是合适的，因为元素内的像素表示是非刚性的，并针对第二阶建模。

参考图26A，随着可变形网格（整个网格具有不规则元素）的放置，D_m 2600可以通过拉格朗日变换块2505、2515（分别用于VCAM网格和PCAM网格）规格化为具有规则父元素的矩形K_m 2601。使用形状函数的这种规格化过程补偿视频帧中固有的任何失真。形状函数的一个特定示例在图26B中示出。拉格朗日变换块2505、2515可以使用先前建立的锚到锚对应性，以在PCAM和VCAM图像帧都经历相同的规格化时，在PCAM和VCAM图像帧之间实施像素到像素对应性。

计算质量测量度量

如图23中所示，在一个实现中，在建立PCAM和VCAM图像之间对应的像素到像素之后，确定客观质量测量度量2340。以下四种类型的质量测量中的一种或多种可用作度量评估的基础：均方误差（MSE）2341；结构相似性（SSIM）2342；点云体元密度（PVD）2343；和体形轮廓拟合（BCF）2344。

均方误差（MSE）

均方误差（MSE）提供像素强度之间的距离。MSE的值为0指示完美的相似性，而大于一的值暗示较低的相似性，并且还将随着像素强度之间的平均差异增加而继续增长。两个图像的MSE可以如下计算：

其中P（i，j）和V（i，j）分别是位置（i，j）处的PCAM和VCAM图像的像素值。在所示示例中，如图27A中所示，对于人1观察到393.66的高MSE，而图27B中对于人2观察到902.71的MSE。还示出SSIM，灰度级MSE，以及Y、U和V坐标的MSE值。

结构相似性（SSIM）

像素强度之间的大的距离不一定意味着图像的内容显著不同。为了补救与图像比较的MSE相关联的一些问题，可以使用结构相似性指数（SSIM）。与MSE不同，SSIM值可以在-1和1之间变化，其中1指示完美的相似性。两个图像的SSIM可以如下确定：

其中，u_x、u_y是平均值，并且σ_x ²和σ_y ²分别是x和y的方差，并且σ_xy是x和y的协方差。变量c₁、c₂是用于稳定具有弱分母的除法的两个变量。SSIM试图对图像的结构信息中所感知的变化进行建模，而MSE实际上估计所感知的误差。在图示的示例中，观察到对于图27A中的人1的低SSIM分数（0.9216）和图27B中的人2的低SSIM分数（0.7874）。

点云体元密度（PVD）

点云体元密度（PVD）指示点云中点的紧密程度。如果PVD太低，可以选择较大的体元大小来填充空间，但是这可能导致块状渲染图像。另一方面，如果体元大小与点的间距相比太小，则渲染可能具有显著的未填充空间。这可以在图28中看到，其中左上图像2801对应于基于点大小1的稀疏渲染，并且右下图像2802对应于基于点大小6的块状渲染。从右到左和从上到下之间的图像对应于连续较大的点大小（例如，2-5）。

图29示出以原点O₁、O₂、… O₁₁为中心的点大小为‘s’的一系列体元，其与立方体顶点的距离为‘r’，测量如下：

而‘d_k’是最靠近的邻居之间的距离。

两个点O₁（x₁，y₁，z₁）和O₂（x₂，y₂，z₂）之间的欧几里德距离在3D空间上被测量为：

其中k∈[1，N-1]并且‘N’是点云中的点的总数。

点云中最靠近的邻居之间的平均距离由以下公式确定：

以及

其中‘s_Θ’是体元的最优点大小。

为了惩罚稀疏分布的点云中的点，确定由先前操作生成的边界框中的点的比率和长方体的体积。

ψ = # （边界框内的点） / w. l . ℎ

其中，‘w’是宽度，‘l’是长度，并且‘ℎ’是从点云上的VCAM生成的边界框的高度。

体形轮廓拟合（BCF）

如所讨论的，预处理块中的规格化PCAM和VCAM图像帧在两个图像之间建立了像素到像素对应性。虽然MSE和SSIM对他们之间的相似性提供了客观和主观评估，但是这些措施没有考虑到PCAM固有的伪像。

为了解决该限制，本发明的一个实施例包括对虚拟摄像机质量的体形轮廓拟合（BCF）测量，其不遭受这种伪像。BCF的中心思想是比较PCAM和VCAM图像之间的轮廓。该措施最佳地准确指出重构中的问题区域，诸如撕裂、缺失跛行（missing limps）、盒状效应（boxyeffect）和VCAM图像帧中的过度不连续。

图30示出用于实现一系列操作以生成BCF分数的设备的一个实施例。在一个实施例中，BCF开始于执行PCAM图像帧2305的边缘检测的边缘检测器2501和执行VCAM图像帧2310的边缘检测的边缘检测器2511。可以使用任何形式的边缘检测过滤器，例如Canny边缘检测过滤器。目标是从提取的边缘中标识强连续性。

在一个实现中，可操纵金字塔和能量映射逻辑2502、2512分别对由边缘检测器2501、2511所标识的边缘应用带分解（例如，可操纵金字塔）。在一个实施例中，当形成能量图时，对于大比例大小以及水平和垂直取向给出更多偏差。使用能量图，保留具有高能量幅度（例如，高于指定阈值）的那些边缘，并将其传递给活动轮廓拟合逻辑2503、2513。

用活动轮廓拟合

在一个实施例中，主动轮廓拟合逻辑2503、2513包括可变形样条，其分别拟合从可操纵金字塔和能量映射逻辑2502、2512提供的‘强’边缘。活动轮廓使用能量项的组合来给出在线、边和连续性方面的最优化轮廓。在对PCAM和VCAM帧两者进行主动轮廓拟合之后，执行轮廓映射2504、2514，以分别确定PCAM中的轮廓和VCAM中的轮廓之间的对应性。在一个实施例中，这是通过匹配两个轮廓之间的接近度、他们彼此的相对长度、以及他们的主方向的偏移来实现的。

计算轮廓对之间的距离

在一个实现中，距离计算逻辑2505确定从轮廓映射逻辑2504和2514提供的每个轮廓对之间的差异或“距离”。例如，可以使用Fréchet距离，该距离是曲线之间相似性的测量，其考虑到沿着曲线的点的位置和定序。距离加权逻辑2506应用权重来生成最终BCF分数2507。BCF分数是具有权重的所有距离的总和，所述权重对长而连续的曲线给予偏置。

计算虚拟摄像机质量合成分数

再次参考图23，本发明的一个实施例包括虚拟摄像机质量神经网络2350，以基于上述质量度量2340来生成最终质量值2360。特定地，质量测量度量2340包括以下项中的一项或多项：MSE 2341、SSIM 2342、PVD 2343和BCE 2344，他们被用作输入。在一个实施例中，另一神经网络2350（在此称为“虚拟摄像机质量神经网络”）使用这些输入来生成虚拟摄像机质量合成分数（VCQC）2360。

在一个特定实现中，训练样本是1920x1080 @ 30 fps的10-20秒剪辑，其可以从事件位置（例如篮球场、橄榄球体育馆等）处的实况事件中生成。点云可以用从1到7变化的点大小来构造，并且对应的VCAM视频序列被渲染。提供在[0，100]范围内的平均意见分数（MOS）作为对这些序列中的每个序列的主观质量评估2360。在一个实施例中，神经网络2350被训练来微调权重并生成最终的VCQC分数2360。

图31示出使用以上技术的PCAM和VCAM图像的并排比较。当使用canny边缘检测时，示出PCAM图像3101A和VCAM图像3101B。在图像3102A-B中示出对强边缘的检测。对于PCAM/VCAM图像3103A-B示出活动轮廓模型蛇模型（Active contour model snake），并且对于PCAM/VCAM图像3104A-B示出每个轮廓对之间的Fréchet距离的计算

在图32中示出用于确定虚拟摄像机质量的方法的一个实施例。该方法可以在上述***架构但不限于任何特定的架构的上下文内实现。

在3201，虚拟摄像机被放置在物理摄像机的位置和方向。如上所提及，因为本实施例中的PCAM为VCAM提供了地面实况，所以可以从‘N’个PCAM坐标中的每个PCAM坐标指向VCAM来渲染场景，并使用PCAM的视频作为VCAM的参考以用于比较。

在3202，感兴趣区域（ROI）被标识。在以上示例中的一些示例中，ROI是篮球场上篮球运动员的图像。各种不同的对象检测技术可用于标识ROI。在一个特定实现中，神经网络或其他机器学习实现可用于标识PCAM图像内的各种感兴趣区域，并相应地生成ROI边界框和关联元数据（例如，显示坐标、宽度、高度等）。

在3203，确定PCAM图像和VCAM图像之间的像素到像素对应性。在一个实施例中，这包括在PCAM视频内的稳定图像特征处放置锚，从而使用锚来建立VCAM和PCAM图像之间的对应性、使用可变形网格来规格化边界框、以及执行拉格朗日变换。然而，取决于VCAM和/或PCAM图像的质量和格式，可以使用各种其他技术来确定像素到像素对应性。

在3204，使用各种质量测量度量来评估VCAM图像。如上所提及，质量测量度量可以包括以下项中的一项或多项：均方误差（MSE）、结构相似性（SSIM）、点云体元密度（PVD）、和体形轮廓拟合（BCF）。虽然这些质量测量度量是作为示例而被提供的，但是也可以使用各种其他质量测量度量。

在3205，质量测量度量被组合以达到虚拟摄像机质量合成（VCQC）值。在一个实施例中，这通过深度神经网络或其他机器学习实现来完成，所述深度神经网络或其他机器学习实现使用质量测量度量作为输入，并生成单个虚拟摄像机质量合成（VCQC）分数作为输出。

虚拟摄像机的使用将很快变成体积沉浸式媒体的重要特征。因此，如上所述的测量虚拟摄像机的感知质量的能力对于为用户自动选择高质量视图并由此增强整体体积视频体验是至关重要的。

示例

以下是本发明的不同实施例的示例实现。

示例1. 一种方法，包括：

检测第一图像内的感兴趣区域，所述第一图像从位于第一坐标的第一物理摄像机（PCAM）生成；

从位于所述第一坐标的虚拟摄像机（VCAM）生成第二图像；

建立所述第一图像和所述第二图像之间的像素到像素对应性；

通过考虑到所述第一图像而评估所述第二图像来确定所述第二图像的质量值。

示例2. 根据示例1所述的方法，其中考虑到所述第一图像而评估所述第二图像包括将所述第一图像中的一个或多个特征与所述第二图像中的对应特征进行比较。

示例3. 根据示例1所述的方法，其中考虑到所述第一图像而评估所述第二图像包括确定所述第一图像和所述第二图像之间的像素强度和/或轮廓方面的差异。

示例4. 根据示例3所述的方法，其中考虑到所述第一图像而评估所述第二图像还包括执行均方误差（MSE）评估以生成MSE值、执行结构相似性（SSIM）评估以生成SSIM值、执行点云体元密度（PVD）评估以生成PVD值、和/或执行体型轮廓拟合（BCF）评估以生成BCF值。

示例5. 根据示例4所述的方法，其中考虑到所述第一图像而评估所述第二图像包括实现神经网络，所述神经网络使用以下项中的一项或多项作为输入：所述MSE值、SSIM值、PVD值、和/或BCF值，所述神经网络用于响应地生成所述质量值。

示例6. 根据示例1所述的方法，其中在所述第一图像和所述第二图像之间建立像素到像素对应性包括在边界框内提取稳定图像特征，使用锚来建立在所述第一图像和所述第二图像之间的对应性。

示例7. 根据示例1所述的方法，其中检测感兴趣区域包括执行使用权重的对象检测操作来检测所述第一图像内的对象。

示例8. 根据示例7所述的方法，其中使用权重的所述对象检测操作由神经网络来执行，所述神经网络使用所述第一图像作为输入并生成感兴趣区域作为输出。

示例9. 根据示例1所述的方法，还包括：

检测第三图像内的感兴趣区域，所述第三图像从位于第二坐标的第二PCAM生成；

从位于所述第二坐标的虚拟摄像机（VCAM）生成第四图像；

建立所述第三图像和所述第四图像之间的像素到像素对应性；以及

通过考虑到所述第三图像而评估所述第四图像来确定所述第四图像的质量值。

示例10. 一种***，包括：

感兴趣区域（ROI）检测器，所述感兴趣区域（ROI）检测器用于检测第一图像内的感兴趣区域，所述第一图像从位于第一坐标的第一物理摄像机（PCAM）生成；

虚拟摄像机电路和/或逻辑，所述虚拟摄像机电路和/或逻辑用于生成第二图像，所述虚拟摄像机电路和/或逻辑位于所述第一坐标；

图像比较电路和/或逻辑，所述图像比较电路和/或逻辑用于建立所述第一图像和所述第二图像之间的像素到像素对应性；

图像质量评估器，所述图像质量评估器用于通过考虑到所述第一图像而评估所述第二图像来确定所述第二图像的质量值。

示例11. 根据示例10所述的***，其中所述图像质量评估器用于通过将所述第一图像中的一个或多个特征与所述第二图像中的对应特征进行比较，考虑到所述第一图像而评估所述第二图像。

示例12. 根据示例10所述的***，其中所述图像质量评估器用于通过确定所述第一图像和所述第二图像之间的像素强度和/或轮廓方面的差异，考虑到所述第一图像而评估所述第二图像。

示例13. 根据示例12所述的***，其中所述图像质量评估器用于执行均方误差（MSE）评估以生成MSE值、执行结构相似性（SSIM）评估以生成SSIM值、执行点云体元密度（PVD）评估以生成PVD值、和/或执行体型轮廓拟合（BCF）评估以生成BCF值。

示例14. 根据示例13所述的***，还包括：

神经网络，所述神经网络用于基于以下项中的一项或多项来响应地生成所述质量值：所述MSE值、SSIM值、PVD值、和/或BCF值。

示例15. 根据示例10所述的***，其中在所述第一图像和所述第二图像之间建立像素到像素对应性包括在边界框内提取稳定图像特征，使用锚来建立在所述第一图像和所述第二图像之间的对应性。

示例16. 根据示例10所述的***，其中检测感兴趣区域包括执行使用权重的对象检测操作来检测所述第一图像内的对象。

示例17. 根据示例16所述的***，其中所述ROI检测器包括使用所述第一图像作为输入并生成所述感兴趣区域作为输出的神经网络。

示例18. 根据示例10所述的***，其中所述感兴趣区域（ROI）检测器用于检测第三图像内的感兴趣区域，所述第三图像从位于第二坐标的第二物理摄像机（PCAM）生成；所述虚拟摄像机电路和/或逻辑用于生成第四图像，所述虚拟摄像机电路和/或逻辑位于所述第二坐标；所述图像比较电路和/或逻辑用于建立所述第三图像和所述第四图像之间的像素到像素对应性；以及图像质量评估器用于通过考虑到所述第三图像而评估所述第四图像来确定所述第四图像的质量值。

示例19. 一种机器可读介质，在其上存储有程序代码，所述程序代码当由机器执行时，使所述机器执行以下操作：

从位于所述第一坐标的虚拟摄像机（VCAM）生成第二图像；

示例20. 根据示例19所述的机器可读介质，其中考虑到所述第一图像而评估所述第二图像包括将所述第一图像中的一个或多个特征与所述第二图像中的对应特征进行比较。

示例21. 根据示例19所述的机器可读介质，其中考虑到所述第一图像而评估所述第二图像包括确定所述第一图像和所述第二图像之间的像素强度和/或轮廓方面的差异。

示例22. 根据示例21所述的机器可读介质，其中考虑到所述第一图像而评估所述第二图像还包括执行均方误差（MSE）评估以生成MSE值、执行结构相似性（SSIM）评估以生成SSIM值、执行点云体元密度（PVD）评估以生成PVD值、和/或执行体型轮廓拟合（BCF）评估以生成BCF值。

示例23. 根据示例22所述的机器可读介质，其中考虑到所述第一图像而评估所述第二图像包括实现神经网络，所述神经网络使用以下项中的一项或多项作为输入：所述MSE值、SSIM值、PVD值、和/或BCF值，所述神经网络用于响应地生成所述质量值。

示例24. 根据示例19所述的机器可读介质，其中在所述第一图像和所述第二图像之间建立像素到像素对应性包括在边界框内提取稳定图像特征，使用锚来建立在所述第一图像和所述第二图像之间的对应性。

示例25. 根据示例19所述的机器可读介质，其中检测感兴趣区域包括执行使用权重的对象检测操作来检测所述第一图像内的对象。

示例26. 根据示例25所述的机器可读介质，其中使用权重的所述对象检测操作由神经网络来执行，所述神经网络使用所述第一图像作为输入并生成感兴趣区域作为输出。

示例27. 根据示例19所述的机器可读介质，还包括用于使所述机器执行以下操作的程序代码：

从位于所述第二坐标的虚拟摄像机（VCAM）生成第四图像；

本发明的实施例可以包括上文已经描述的各种步骤。步骤可以体现在机器可执行指令中，所述机器可执行指令可以用于促使通用或专用处理器执行步骤。备选地，这些步骤可以由包含硬接线逻辑以用于执行步骤的特定硬件组件或通过经编程的计算机组件和自定义硬件组件的任何组合来执行。

如本文描述的，指令可以指硬件的特定配置，该硬件诸如专用集成电路（ASIC），其配置成执行某些操作或具有预定功能性或存储在非暂时性计算机可读介质中所体现的存储器中的软件指令。从而，图中示出的技术可以使用所存储且在一个或多个电子装置（例如，终端站、网络元件等）上执行的代码和数据来实现。这样的电子装置使用计算机机器可读介质存储和传递（在内部和/或通过网络与其他电子设备）代码和数据，该计算机机器可读介质诸如非暂时性计算机机器可读存储介质（例如，磁盘；光盘；随机存取存储器；只读存储器；闪存装置；相变存储器）和暂时性计算机机器可读通信介质（例如，电、光、声或其他形式的传播信号——诸如载波、红外信号、数字信号等）。

另外，这样的电子装置典型地包括一个或多个处理器的集合，所述一个或多个处理器耦合到一个或多个其他组件，诸如一个或多个存储装置（非暂时性机器可读存储介质）、用户输入/输出设备（例如，键盘、触摸屏和/或显示器）和网络连接。处理器和其他组件的集合的耦合典型地通过一个或多个总线和桥接器（也被称作总线控制器）。存储装置和承载网络业务的信号分别表示一个或多个机器可读存储介质和机器可读通信介质。从而，给定电子装置的存储装置典型地存储代码和/或数据，以用于在该电子装置的一个或多个处理器的集合上执行。当然，本发明的实施例的一个或多个部分可以使用软件、固件和/或硬件的不同组合来实现。在该整个详细描述中，出于解释的目的，阐述了众多具体细节以便提供对本发明的透彻理解。然而，对于本领域技术人员而言将明显的是，可以在没有这些具体细节中的一些具体细节的情况下实践本发明。在其他实例中，未详尽描述公知的结构和功能以便避免使本发明的主题模糊。因此，本发明的范围和精神应从以下的权利要求书的方面来判断。

Claims

1.一种方法，包括：

从位于所述第一坐标的虚拟摄像机（VCAM）生成第二图像；

2.根据权利要求1所述的方法，其中考虑到所述第一图像而评估所述第二图像包括将所述第一图像中的一个或多个特征与所述第二图像中的对应特征进行比较。

3.根据权利要求1或2所述的方法，其中考虑到所述第一图像而评估所述第二图像包括确定所述第一图像和所述第二图像之间的像素强度和/或轮廓方面的差异。

4.根据权利要求3所述的方法，其中考虑到所述第一图像而评估所述第二图像还包括执行均方误差（MSE）评估以生成MSE值、执行结构相似性（SSIM）评估以生成SSIM值、执行点云体元密度（PVD）评估以生成PVD值、和/或执行体型轮廓拟合（BCF）评估以生成BCF值。

5.根据权利要求4所述的方法，其中考虑到所述第一图像而评估所述第二图像包括实现神经网络，所述神经网络使用以下项中的一项或多项作为输入：所述MSE值、SSIM值、PVD值、和/或BCF值，所述神经网络用于响应地生成所述质量值。

6.根据权利要求1或5所述的方法，其中在所述第一图像和所述第二图像之间建立像素到像素对应性包括在边界框内提取稳定图像特征，使用锚来建立在所述第一图像和所述第二图像之间的对应性。

7.根据权利要求1或6所述的方法，其中检测感兴趣区域包括执行使用权重的对象检测操作来检测所述第一图像内的对象。

8.根据权利要求7所述的方法，其中使用权重的所述对象检测操作由神经网络来执行，所述神经网络使用所述第一图像作为输入并生成感兴趣区域作为输出。

9.根据权利要求1或8所述的方法，还包括：

从位于所述第二坐标的虚拟摄像机（VCAM）生成第四图像；

10.一种***，包括：

11.根据权利要求10所述的***，其中所述图像质量评估器用于通过将所述第一图像中的一个或多个特征与所述第二图像中的对应特征进行比较，考虑到所述第一图像而评估所述第二图像。

12.根据权利要求10或11所述的***，其中所述图像质量评估器用于通过确定所述第一图像和所述第二图像之间的像素强度和/或轮廓方面的差异，考虑到所述第一图像而评估所述第二图像。

13.根据权利要求12所述的***，其中所述图像质量评估器用于执行均方误差（MSE）评估以生成MSE值、执行结构相似性（SSIM）评估以生成SSIM值、执行点云体元密度（PVD）评估以生成PVD值、和/或执行体型轮廓拟合（BCF）评估以生成BCF值。

14.根据权利要求13所述的***，还包括：

15.根据权利要求10或14所述的***，其中在所述第一图像和所述第二图像之间建立像素到像素对应性包括在边界框内提取稳定图像特征，使用锚来建立在所述第一图像和所述第二图像之间的对应性。

16.根据权利要求10或15所述的***，其中检测感兴趣区域包括执行使用权重的对象检测操作来检测所述第一图像内的对象。

17.根据权利要求16所述的***，其中所述ROI检测器包括使用所述第一图像作为输入并生成所述感兴趣区域作为输出的神经网络。

18.根据权利要求10或17所述的***，其中所述感兴趣区域（ROI）检测器用于检测第三图像内的感兴趣区域，所述第三图像从位于第二坐标的第二物理摄像机（PCAM）生成；所述虚拟摄像机电路和/或逻辑用于生成第四图像，所述虚拟摄像机电路和/或逻辑位于所述第二坐标；所述图像比较电路和/或逻辑用于建立所述第三图像和所述第四图像之间的像素到像素对应性；以及图像质量评估器用于通过考虑到所述第三图像而评估所述第四图像来确定所述第四图像的质量值。

19.一种机器可读介质，在其上存储有程序代码，所述程序代码当由机器执行时，使所述机器执行以下操作：

从位于所述第一坐标的虚拟摄像机（VCAM）生成第二图像；

20.根据权利要求19所述的机器可读介质，其中考虑到所述第一图像而评估所述第二图像包括将所述第一图像中的一个或多个特征与所述第二图像中的对应特征进行比较。

21.根据权利要求19或20所述的机器可读介质，其中考虑到所述第一图像而评估所述第二图像包括确定所述第一图像和所述第二图像之间的像素强度和/或轮廓方面的差异。

22.根据权利要求21所述的机器可读介质，其中考虑到所述第一图像而评估所述第二图像还包括执行均方误差（MSE）评估以生成MSE值、执行结构相似性（SSIM）评估以生成SSIM值、执行点云体元密度（PVD）评估以生成PVD值、和/或执行体型轮廓拟合（BCF）评估以生成BCF值。

23.根据权利要求22所述的机器可读介质，其中考虑到所述第一图像而评估所述第二图像包括实现神经网络，所述神经网络使用以下项中的一项或多项作为输入：所述MSE值、SSIM值、PVD值、和/或BCF值，所述神经网络用于响应地生成所述质量值。

24.根据权利要求19或23所述的机器可读介质，其中在所述第一图像和所述第二图像之间建立像素到像素对应性包括在边界框内提取稳定图像特征，使用锚来建立在所述第一图像和所述第二图像之间的对应性。

25.根据权利要求19或24所述的机器可读介质，其中检测感兴趣区域包括执行使用权重的对象检测操作来检测所述第一图像内的对象。