CN102740127A

CN102740127A - 方法、装置和***

Info

Publication number: CN102740127A
Application number: CN2012100928548A
Authority: CN
Inventors: 克里夫·亨利·吉尔拉德; 罗伯特·马克·斯特凡·波特
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-03-29
Filing date: 2012-03-29
Publication date: 2012-10-17
Anticipated expiration: 2032-03-29
Also published as: US8745258B2; CN102740127B; GB2489675A; GB201105237D0; US20120254369A1; US20140195914A1; US8924583B2

Abstract

本发明提供了方法、装置和***。一种在客户端设备上观看集锦套件的方法，包括在客户端设备处：接收包括多个帧的视频流，从服务器接收视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并将所限定的片段显示给用户。

Description

方法、装置和***

技术领域

本发明涉及方法、装置和***。

背景技术

许多人喜欢观看和制作家庭视频。例如，YouTube非常流行。一旦这种视频被上载到因特网，人们就可以对视频进行评论并向制作者留言。

但是，为了观看视频，视频剪辑(clip)被下载。这具有两个优点。首先，在视频被流式传输到设备时，需要很大的带宽。此外，视频是被从单个视场捕捉并被这样显示的。

本发明的一个目的在于提高一个用户对另一个用户所创建的视频集锦(video highlight)的交互性。

发明内容

根据第一方面，提供了一种在客户端设备上观看集锦套件(highlightpackage)的方法，该方法包括在该客户端设备处：接收包括多个帧的视频流，从服务器接收视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段(segment)的位置信息，并将所限定的片段显示给用户。

该方法还可以包括在所述客户端设备处接收注解信息，所述注解信息限定了要写在所显示的帧的片段上的注解。

该方法还可以包括从除了提供所述视场信息的所述服务器之外的源接收所述视频流。

所述源可以是对等(peer-to-peer)源。

该方法可以包括从所述客户端设备向所述服务器传送对所述集锦套件的用户评分。

该方法可以包括在所述客户端设备处接收基于针对所述集锦套件的评分来选择的视频流。

该方法可以包括在所述客户端设备处接收基于由所述客户端设备的用户提供的且被存储在所述服务器内的偏好来选择的视频流。

所述偏好可以是用户最喜欢的足球队或者最喜欢的集锦套件作者中的任一者。

该方法可以包括向所述服务器传送由所述客户端设备的用户提供的对所述集锦套件的注解(annotation)。

该方法可以包括向所述服务器传送所述集锦套件的经修改版本。

根据本发明另一个方面，提供了一种在客户端设备上生成集锦套件的方法，包括在所述客户端设备处：接收包括多个帧的视频流，生成视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并且将所述位置信息和唯一地标识出所述视频流中的帧的帧标识符传输给服务器。

该方法还可以包括在所述客户端设备处生成限定了写在所述帧的片段上的注解的注解信息。

根据一个方面，提供了一种包括计算机可读指令的计算机程序，所述计算机可读指令当被载入到计算机上时将所述计算机配置为执行根据任一个实施例所述的方法。

根据一个方面，提供了一种客户端设备，包括接收器和显示器，所述接收器可操作来接收包括多个帧的视频流并从服务器接收视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，所述显示器在使用时可操作来向用户显示所限定的片段。

所述接收器可能还可操作来接收注解信息，所述注解信息限定了要写在所显示的帧的片段上的注解。

所述接收器可能还可操作来从除了提供所述视场信息的所述服务器之外的源接收所述视频流。

所述源是对等源。

该设备可以包括输出设备，该输出设备可操作来从所述客户端设备向所述服务器传送对所述集锦套件的用户评分。

所述接收器可能还可操作来在所述客户端设备处接收基于针对所述集锦套件的评分来选择的视频流。

所述接收器可能还可操作来在所述客户端设备处接收基于由所述客户端设备的用户提供的且被存储在所述服务器内的偏好来选择的视频流。

所述输出设备可能还可操作来向所述服务器传送由所述客户端设备的用户提供的对所述集锦套件的注解。

所述输出设备可能还可操作来向所述服务器传送所述集锦套件的经修改版本。

根据另一个方面，提供了一种用于在客户端设备上生成集锦套件的设备，包括接收器、生成设备和输出设备，所述接收器可操作来接收包括多个帧的视频流，所述生成设备可操作来生成视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并且所述输出设备可操作来将所述位置信息和唯一地标识出所述视频流中的帧的帧标识符传输给服务器。

所述生成设备可能可操作来在所述客户端设备处生成限定了写在所述帧的片段上的注解的注解信息。

根据另一个方面，提供了一种***，该***包括连接到网络的服务器，该服务器在使用时与根据任一个上述实施例所述的设备通信。

附图说明

本发明的上述和其它目的、特征和优点将从要结合附图阅读的如下对例示性实施例的详细描述中清楚明了，在附图中：

图1示出了根据本发明第一实施例的***；

图2示出了在第一实施例的***中的客户端设备；

图3示出了根据本发明第二实施例的***；

图4A示出了本发明第一实施例的服务器；

图4B示出了本发明第二实施例的服务器；

图5示出了根据第一或第二实施例的、说明了客户端设备向服务器的登记过程的流程图；

图6示出了根据适用于第一和第二实施例两者的本发明的示例的对象跟踪方法的流程图；

图7A示出了根据本发明的第一和第二实施例两者的对象键值创建；

图7B示出了根据本发明的第一和第二实施例两者的向球场的3D模型添加方向性指示；

图8示出了根据本发明第一和第二实施例的多个球员以及他们的关联边界框；

图9示出了根据本发明第一和第二实施例两者的对象跟踪和遮蔽检测方法的流程图；

图10A和10B示出了根据本发明第一和第二实施例两者的对象跟踪和遮蔽检测的一些示例；

图11示出了根据本发明第一实施例的服务器内的重定格式设备；

图12示出了根据本发明第二实施例的服务器内的重定格式设备；

图13是根据本发明第一和第二实施例两者的、用于确定相机位置与相机视场内的对象之间的距离的***的示意图；

图14是根据本发明第一和第二实施例两者的、用于确定相机与相机视场内的对象之间的距离的***的示意图；

图15A示出了根据本发明第一实施例的客户端设备；

图15B示出了根据本发明第二实施例的客户端设备；

图16A示出了位于图15A的客户端设备中的客户端处理设备；

图16B示出了位于图15B的客户端设备中的客户端处理设备；

图17示出了根据本发明另一实施例的联网***；

图18示出了根据第一或第二实施例的位于图17的联网***中的用于生成集锦套件的客户端设备；

图19A和19B示出了根据第一或第二实施例的位于图17的联网***中的用于观看集锦套件的客户端设备；

图20示出了根据本发明另一实施例的可在便携式设备上实现扩增现实的体育场的平面视图；

图21示出了根据图20的便携式设备的看图；

图22示出了当扩增现实被启动时、图20和图21的便携式设备的显示；以及

图23示出了说明本发明的扩增现实实施例的流程图。

具体实施方式

图1示出了***100。在该***100中，由相机布置130捕捉场景的图像。在实施例中，场景具有诸如足球比赛之类的体育事件，但是本发明不限于此。在该相机布置130中，三个高清相机被定位在机架(rig)(未示出)上。布置130使得能够生成缝合图像(stitched image)。布置130因此使得各个相机捕捉同一场景的不同部分，其中在各个相机之间具有小的视场重叠。三幅图像各自是高清图像，它们在被缝合在一起时产生超高清图像。由相机布置130中的三个相机捕捉的三幅高清图像被馈入到图像处理器135，该图像处理器135对这些图像执行诸如色彩增强之类的编辑。此外，图像处理器135从相机布置130中的相机接收与诸如焦距、缩放系数等的相机参数有关的元数据。增强的图像和元数据被馈给后面将参考图4A说明的第一实施例的服务器110或者将参考图4B说明的第二实施例的服务器110′。

在实施例中，在用户设备200A-N中执行实际的图像缝合。但是，为了降低用户设备200A-N内的运算成本，执行缝合所需的参数是在与图像处理器135相连的服务器110内计算的。服务器110可以以有线或者无线方式直接或经由诸如局域网、广域网或因特网之类的网络连接到图像处理器135。在GB 2444566A中描述了计算这些参数和实际执行缝合的方法。此外，在GB 2444566A中公开了一种合适类型的相机布置130。GB2444566A中与参数计算、缝合方法和相机布置有关的内容被结合于此。

如GB 2444566A所述，针对相机布置130中的每一个相机的相机参数被确定。这些参数包括针对每一个相机的焦距和相对偏转(yaw)、俯仰(pitch)和滚转(roll)，以及对镜头失真、桶形失真等进行校正的参数，并且这些参数在服务器110上被确定。此外，还可以在服务器110中计算用于缝合图像所需的诸如色像差(chromatic aberration)校正参数、色度测量和曝光校正参数之类的其它参数。而且，如技术人员所了解的，还可以在服务器110中计算图像缝合处理所需的其它值。GB 2444566A中说明了这些值，因此为了简便起见，将不在下文中对其进行说明。在服务器110中计算出的这些值被发送到将在后面说明的各个用户设备200A-N。

除了图像缝合参数是在服务器110中计算的之外，还可以发生其它计算。例如，发生对象检测和分割，以识别并提取图像中的可应用三维效果的对象。标识出图像中的每一个检测出的对象的位置的位置信息也在服务器110内被确定。

此外，还在服务器110内生成深度图。深度图向相机所捕捉的图像中的每一个像素分配在所捕捉的场景中离相机的相应距离。换而言之，一旦针对所捕捉图像完成了深度图，就可以确定场景中与像素相对应的点与捕捉该图像的相机之间的距离。此外，还在服务器110内维持被周期性更新的背景模型。以使得背景图像的不同部分被以不同速率更新的方式来更新背景模型。具体而言，依据图像部分是否在先前帧中被检测为参与者(player)来更新背景模型。

可替代地，服务器110可以具有两个背景模型。在此情况中，在服务器110内维持了一个长期背景模型和一个短期背景模型。长期背景模型定义了图像中在诸如5分钟之类的较长时间段内的背景，而短期模型定义了在诸如1秒之类的较短时段内的背景。对短期和长期背景模型的使用使得能够将诸如照明变化之类的短期事件考虑在内。

在服务器110内计算出的深度图被发送到各个用户设备200A-N。在实施例中，相机布置130内的每一个相机是固定的。这意味着深度图不随时间变化。但是，针对每一个相机的深度图在受触发而允许新的用户设备连接到服务器110时被发送到各个用户设备200A-N。例如，深度图可以在新的用户设备向服务器110登记时或者在时间方面周期性地被发送出去。如将了解到的，如果相机的视场移动了，则深度图需要被重新计算并被更加频繁地发送到用户设备200A-N。但是，还可以设想到将深度图持续地发送到各个用户设备200A-N。

后面将说明生成深度图和背景模型的方式。此外，后面将说明执行对象检测和对象分割的方式。

与服务器110相连的还有多个用户设备200A-N。这些用户设备200A-N在实施例中通过因特网120来连接到服务器110。但是，将理解，本发明不限于此，而是，用户设备200A-N可以通过诸如局域网(LAN)之类的任何类型的网络来连接到服务器110，或者可以以有线方式连接到服务器110，或者可以以无线方式连接到服务器110。与各个用户设备附接的还有相应的显示器205A-N。显示器205A-N可以是电视机、或者监视器或者能够显示可被用户感知为三维图像的图像的任意种类的显示器。在本发明的实施例中，用户设备200A-N是3游戏机(games console)。但是，本发明不限于此。事实上，用户设备可以是机顶盒、计算机或者能够处理图像的任何其它类型的设备。

经由因特网120与服务器110和各个用户设备200A-N相连的还有社区集线器1700(有时候称为网络服务器)。后面将说明社区集线器1700的构造和功能。

图2中示出了用户设备200A的示意图。用户设备包含存储介质220。在本发明的实施例中，存储介质220是硬盘驱动器，但是本发明不限于此。存储介质可以是光学介质或者半导体存储器等。

与存储介质220相连的是中央处理器250。在实施例中，中央处理器250是单元处理器(Cell Processor)。单元处理器在实施例中是有利的，因为其特别适合于诸如图像处理之类的复杂计算。

另外，连接到中央处理器250的有无线配件接口210，该无线配件接口210适合连接到无线配件210A并与之通信。在实施例中，无线配件210A是用户操作设备，该用户操作设备可以是六轴控制器，不过本发明不限于此。六轴控制器允许用户与用户设备200A交互并控制用户设备200A。

此外，图形处理器230连接到中央处理器250。图形处理器230可操作来连接到显示器205A并控制显示器205A以显示立体图像。

如将了解的，诸如音频处理器240之类的其它处理器也连接到中央处理器250。

参考图3，示出了***100的另一实施例。该另一***称为100′，其中，相似标号指示相似特征，并且该另一实施例被配置为经由长期演进3GPP网络来提供内容。在此另一实施例中，服务器110′连接到服务网关305，并提供特别适合于经由移动网络分发的内容。如技术人员所了解的，服务网关305将用户数据路由至数个增强型Node-B以及从这数个增强型Node-B路由用户数据。为了简便起见，在图3中示出了单个增强型Node-B 310。该增强型Node-B 310与多个用户装备315A-C通信。

图4A示出了服务器110的实施例。在图4A的此实施例中，经图像处理器135处理的图像被馈给图像缝合设备1101。如上所述，图像缝合设备1101生成超高清影像，该超高清影像包括三幅单独捕捉的被缝合在一起的图像。GB 2444566A对此进行了描述，因此下文中将不对其进行描述。

缝合图像被馈给背景生成器1102，背景生成器1102从该缝合图像中去除前景对象。换而言之，背景生成器1102生成了仅包含缝合图像的背景的图像。后面将说明背景生成器1102的构造和功能。另外，缝合图像还被馈给对象键值(object key)产生设备1103。这识别出缝合图像中的前景对象并确定各个识别出的对象的位置，如将说明的。

生成的背景被馈给重定格式设备1104，并被馈给对象键值产生设备1103。重定格式设备1104将生成的背景格式化成更适当的格式以供经由网络120传输，如后面将说明的。

来自对象键值产生设备1103的输出被馈给加法器1105和高级视频编码(AVC)编码器1106。特别地，对象键值产生设备1103的一个输出可操作来控制与AVC编码器1106相关联的量化器。AVC编码器1106的输出产生合成流，该合成流包括来自相机布置130的缝合图像和所提取的对象两者，如后面将说明的。来自对象键值产生设备1103的输出还包含与对象相关联的元数据。例如，元数据可以包括参与者名字、参与者数目或者参与者生物信息。该元数据被馈给与网络120相连的数据流产生设备1108。

重定格式设备1104的输出也被馈给加法器1105。来自加法器1105的输出被馈给AVC编码器1106。来自AVC编码器1106的输出被馈给数据流产生设备1108。数据流产生设备1108随后将输入的信号复用在一起。复用流随后被转换成数据分组并经由因特网120被传送到适当的用户设备。

图4B示出了替代的服务器110′。在该替代服务器110′中，许多组件与结合图4A论述的组件相同。这些相同组件具有相同标号。但是，此实施例中的背景生成器1102′没有到重定格式设备1104′的输出。取代之，来自图像缝合设备1101的输出被馈给背景生成器1102′和重定格式设备1104′两者。

此外，在替代服务器110′中，没有加法器。取代之，来自重定格式设备1104′的输出被直接馈给AVC编码器1106′。而且，此实施例中的对象键值产生设备1103′不产生如图4A的实施例中所产生那样的合成图像。

用户登记

在从服务器110向用户设备200A-N或者从替代服务器110′向用户装备315A-C发送任意内容之前，各个设备或装备需要向适当的服务器登记。下面涉及用户设备200A向服务器110的登记，并且在图5中进行说明。应当注意，用户装备将以相同方式向替代服务器110′登记。

当用户开启用户设备200A时，用户使用无线配件210A来选择他们希望在显示器205A上观看的特定事件。该事件可以是流行音乐会、体育事件或者任何种类的事件。在下面的示例中，事件是足球比赛。该选择是开始步骤S50。

为了观看事件，用户可能需要支付一次性的费用，或者事件可以是订阅套件的一部分。该费用或者套件可以通过在观看事件之前在用户设备200A中输入***详情来购买。可替代地，事件可通过任何其它手段来购买，或者事实上，事件可能是免费的。为了观看事件，用户将需要向服务器110登记。用户设备200A因此用作相对于服务器110的客户端设备。该登记发生在步骤S55中，并且允许服务器110从用户设备200A获得使能在服务器110和用户设备200A之间发生通信的诸如IP地址等的必要信息。此外，在此阶段还可以由服务器110收集其它信息，例如，与要由用户观看的事件有关的、允许对该用户发生定向广告的信息。

在登记之后，用户在步骤S510中对他们希望观看的事件进行确认并确认支付详情。

在步骤S515，用户设备200A从服务器110和显示器205A两者接收初始化信息。来自显示器205A的初始化信息可以包括与画面尺寸有关的信息。这可以直接从显示器205A获得或者可以由用户输入。来自服务器110的初始化信息可以包括深度图。初始化信息可以响应于来自用户设备200A的请求而被提供，或者可以响应于登记而从服务器110传送过来。可替代地，初始化信息可以周期性地被传送到与服务器110相连的各个用户设备200A。这里应当注意，深度图仅需要被提供给用户设备200A一次，因为相机布置130是固定的。在相机布置130是可移动的情况下，则初始化信息将被更加定期地提供。初始化信息被存储在用户设备200A内的存储介质220中。

在步骤S520，服务器110提供从在图像缝合设备1101中被缝合在一起的图像生成的背景的格式化高清图像。用户设备200A的中央处理器250使用该格式化背景图像来生成超高清图像以供显示。另外，中央处理器250还生成超高清图像的左右版本和/或超高清图像的可变视场，以显示超高清图像或者图像的视场的3D(或者立体)表示。

如这里指出的，用户还可以确定他们希望具有的、事件的视场。该视场将使用接口210A来选择。在GB 2444566A中还描述了用户设备200A用来允许选择适当视场的方法。

另外，针对每一个捕捉的图像，服务器110对该图像进行分析以检测图像中的对象。该检测是在对象键值产生设备1103中执行的，对象键值产生设备1103的功能在下面论述。在检测出图像中的对象之后，产生对象块。对象块包含前景对象。这将在后面得到说明。还产生了标识出所提取的对象在图像中的位置的位置数据。这也在后面论述。

高清背景图像、图像内的经分割对象以及位置数据被发送给用户设备200A。

在用户设备200A从服务器110接收到前述信息之后，用户设备200A生成超高清图像。这是步骤S325。另外，使用深度图、隔离的对象块和所检出对象在图像中的位置数据，用户设备200A对超高清图像应用三维效果。此外，其它元数据被提供给用户设备200A。为了改进用户体验，诸如球员信息之类的对象元数据被提供。此外，宏块数目可以与各个对象块一起被提供。这标识出了与各个对象块相关联的宏块数目。这降低了在用户设备200A内的将对象块置于背景图像上的运算成本。

对于替代服务器110′，类似信息被提供给用户装备320A。但是，在此实施例中，重定格式后的所捕捉并经缝合图像(而不是在服务器110的实施例中的重定格式后的背景图像)被提供。另外，对象块未被提供，因为在此实施例中没有对检测出的对象应用额外的三维效果。

对象检测和跟踪

现在将参考图6、7和8来描述根据本发明示例的对象跟踪。特别地，下面的对象检测和跟踪涉及服务器110。但是，在替代服务器110′中使用相同的对象检测和跟踪技术。

图6示出了根据本发明示例的对象跟踪方法的流程图。为了跟踪对象，从所接收视频中的、跨预定数目的帧被检测为基本静态的那些部分构造背景模型。在第一步骤S60中，对从布置130内的一个相机接收的表示足球场的视频图像进行处理以构造图像的背景模型。构造背景模型是为了创建前景掩膜，该前景掩膜辅助识别和跟踪各个球员。前景掩膜将被用于生成后面说明的对象键值。在步骤S60通过如下方式来形成背景模型：针对每一个像素确定连续帧之间的像素平均以及像素值的方差，以便构建背景模型。于是，在连续帧中像素均值没有大变化的这些像素可被识别为背景像素，以便识别前景掩膜。

这样的背景/前景分割是在图像处理领域中已知的处理，并且本发明可以利用发表在会议记录ICVGIP，2004中的由Manzanera和Richefeu所著且题为“A robust and Computationally Efficient Motion Detection AlgorithmBased on∑-ΔBackground Estimation”的文献中描述的算法。但是，本发明不应当被视为限制于此已知技术，用于相对于背景模型生成前景掩膜以供在跟踪时使用的其它技术也是已知的。

将了解，在视频相机的视场包含人群中的一些人的情况下，该人群不太可能被包括在背景模型中，因为他们很可能来回走动。这是不希望的，因为这很可能增大在执行对象跟踪时在单元处理器上的处理负荷，并且这是不必要的，因为大多数体育播音员不太可能对跟踪人群中的人感兴趣。

在本发明的示例中，可以构造单个背景模型，或者事实上可以构造两个背景模型。在构造单个背景模型的情况中，背景的不同部分被取决于是否曾在先前帧中的这种位置处检测到球员来以不同速率更新。例如，在球员存在于先前帧中的情况下，背景可以不那么频繁地被更新，以使得球员不成为背景图像的一部分。

可替代地，在创建两个背景模型的情况下，一个模型可在比赛开始时构造，并且甚至可以在球员进入球场之前完成。这被称为长期背景模型。另外，另一个背景模型可贯穿整个比赛被周期地重新计算，以便将可能贯穿整个比赛变化的诸如阴影之类的照明条件的任何改变考虑在内。这是短期背景模型。在比赛开始时创建的背景模型和周期性地被重新计算的背景模型两者都被存储在服务器110的存储介质(未示出)中。对于下面的说明，使用单个背景模型。

在步骤S605，从来自相机的进入图像中减去背景模型以识别出具有差异的区域。于是，背景模型被从图像中减去，并且得到的图像被用于生成针对每一个球员的掩膜。在步骤S610，针对已经减去背景模型而产生的图像版本中的像素值来创建阈值。通过首先跨视频图像的一系列帧确定像素平均来生成背景模型。根据每一个像素的均值，可以从视频图像的帧计算出每一个像素的方差。像素的方差随后被用于确定阈值，该阈值将针对视频图像的所有像素中的每一个像素而变化。对于与图像中的方差较高的部分(例如包括人群的部分)相对应的像素，阈值可被设定为较高值，而图像中的与球场相对应的部分将具有较低阈值，这是因为除了球员的存在之外的球场的颜色和容量将总是相同。于是，阈值将判断出前景元素是否存在，并因此前景掩膜可被相应地识别出。在步骤S615，使用基于与平均人形模型的相关度的形状概率来提取前景掩膜内的形状。此外，还从图像中提取出颜色特征以创建颜色概率掩膜，从而例如从球员汗衫的颜色来识别出球员。于是，可以使用各个球队的汗衫的颜色来对球员进行彼此区分。为此，服务器110依据各个足球队的队服的已知颜色来生成颜色模版。因而，需要各个球队的汗衫的颜色、守门员汗衫的颜色以及裁判的汗衫的颜色。但是，将了解，可以使用其它合适的颜色模版和/或模版匹配处理。上面说明的背景生成是在背景生成器1102中执行的。

返回到图6，在步骤S615中，服务器110对各个颜色模版的各个像素与球员图像的汗衫区域所对应的像素进行比较。服务器110随后生成指示出颜色模版的像素与所选择的像素之间的相似性的概率值，以根据球队和球场颜色模型、基于色相饱和度值(HSV)颜色空间中的距离来形成颜色概率。另外，使用形状概率来定位球员，这是基于与平均人形模型的相关度的。此外，运动概率是基于距由递归最小平方估计器使用开始位置、速度和加速参数预测出的位置的距离的。

在图7A中图示出了对象键值创建设备1103对对象键值的创建。图7A示出了由布置130中的相机之一生成的足球场的相机视图710。如已经说明过的，球场形成了背景模型部分，而球员730、732、734、736、738和740应当形成前景掩膜部分并且各自是分离的，如上所述。球员边界框(可以称为矩形轮廓)被示出为围绕各个球员的虚线。

到目前为止，针对相机图像处理执行了步骤S60、S605、S610和S615。已经设计出前景掩膜，在步骤S620中在首先按距相机的接近度对球员轨迹进行排序之后执行球员跟踪。于是，首先对被识别为最接近相机的球员进行处理，以从跟踪处理中消除这些球员。在步骤S630，对球员位置进行更新以便最大化形状概率、颜色概率和运动概率。在步骤S640中，构造遮蔽掩膜(occlusion mask)，该遮蔽掩膜排除了已知被其它更接近的球员轨迹覆盖的图像区域。这确保了部分或全部被其它球员遮蔽的球员仅能够被匹配到可视图像区域。遮蔽掩膜提高了跟踪可靠性，因为其降低了轨迹合并(通过轨迹合并，两条轨迹在遮蔽事件之后跟随同一球员)的发生率。这是在许多目标由于他们无法按颜色进行(容易地)区分而看起来相同时的特殊问题。遮蔽掩膜允许将像素指派给较近的球员并排除较远的球员，从而防止两条轨迹匹配到相同的像素集合并因而维持了它们的单独身份。

之后跟随的是通过提取相机图像内提供的特征并将这些特征映射到3D模型上来跟踪各个球员的处理，如图7A和7B所示。于是，针对由相机产生的2D图像内的相应位置，向球员指派使得形状概率、颜色概率和运动概率最大化的3D位置。如将简短说明的，在已经检测到遮蔽事件的情况下，将修改对球员的选择以及球员从2D图像到3D模型的映射。为了辅助从2D图像到3D模型的映射，在步骤S625中将要跟踪的球员初始化为使得形状和颜色概率的峰值被映射到最适当选择的球员。应当强调，在步骤S625执行的跟踪初始化仅被执行一次，通常是在跟踪处理的开始时。为了***的良好跟踪初始化，应当适当地分离球员。在跟踪初始化之后，根据本发明的技术来自动校正在跟踪球员时的任何错误。

为了根据2D图像位置实现3D模型中的跟踪，通过使用投影矩阵P来实现变换。跟踪要求2D图像位置能够与3D模型内的位置相关。这种变换是通过使用投影(P)矩阵来实现的。2D空间中的点等同于3D空间中的线：

[\begin{matrix} x \\ y \\ 1 \end{matrix}] = [\begin{matrix} P_{00} & P_{01} & P_{02} & P_{03} \\ P_{10} & P_{11} & P_{12} & P_{13} \\ P_{20} & P_{21} & P_{22} & P_{23} \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} x^{'} \\ y^{'} \\ z^{'} \\ w \end{matrix}]

2D空间中的点等同于3D空间中的线，是因为作为距相机的距离的第三维度是未知的，并因此将相应地表现为跨3D模型的线。可以使用对象(球员)的高度来确定距相机的距离。通过沿着位于已知地平线上方固定高度(人的平均身高)处的线选择一点来获得3D空间中的点。投影矩阵P被先验地获得，在通过相机校准处理进行的匹配之前每一相机进行一次这种获得，在该相机校准处理中，球场的物理特性(例如，球场70的角71a、71b、71c、71d)被用于确定相机参数，这些相机参数因而可以辅助将已被识别的球员的2D位置映射到3D模型上。这是使用已建立方法的已知技术。就物理参数而言，投影矩阵P包含相机的缩放水平、焦点中心、3D位置和3D旋转向量(其指向何方)。

在步骤S630中执行的跟踪算法是可扩展的，并且能够在一个或多个相机上操作，而仅要求球场上的所有点都从至少一个相机(以足够的分辨率)可见。

除了颜色和形状匹配之外，步骤S630还包括如下处理：其中，被跟踪的球员的运动也被包括以便以更高的概率来正确地识别各个球员。于是，可以在相关运动和方向两个方面来确定帧之间的球员的相关运动。因而，可以对后续帧使用相对运动以产生用于识别特定球员的搜索区域。此外，如图7B所示，足球场的3D模型可以用线条730.1、732.1、734.1、736.1、738.1、740.1来扩增(augment)，这些线条被相对于球员的位置的图形指示来定位，以反应出球员的运动在足球场上的相对方向。

在步骤S640，一旦已经在3D模型中识别出球员的相对位置，则该位置被相应地往回投影到足球场的2D图像视图，并且相对边界被投影成围绕根据其在3D模型中的位置识别出的球员。此外，在步骤S640，围绕球员的相对边界随后被添加到针对该球员的遮蔽掩膜。

图7B示出了足球场的虚拟模型220的平面视图。在图7B所示的示例中，(在球场左手侧的)球员730、732和734已被服务器110识别为穿着与(在球场右手侧的)球员736、738和740不同颜色的足球衫，因而指示出他们属于不同的球队。以这种方式区分球员使得可以更容易地检测在遮蔽事件之后的各个球员，因为他们能够按照他们的衣服的颜色来容易地进行相互区分。

往回参考图6，在步骤S630，使用诸如卡尔曼滤波之类的已知技术来跟踪各个球员的位置，不过将了解可以使用其它的合适技术。这个跟踪既发生在相机视图710中，又发生在虚拟模型720中。在本发明的示例中，由服务器110使用球员在虚拟模型720中的位置执行的速度预测被用于辅助跟踪相机视图710中的各个球员。

步骤S630和S640被重复，直到如判决框S635所表示的、所有球员都已得到处理为止。于是，如果不是所有球员都已得到处理，则处理行进到步骤S630，而如果处理已经结束，则处理终止于S645。

如图6所示，所图示的方法包括另一步骤S650，如果由一个以上的相机产生图像则需要该步骤S650。如此一来，可以针对来自每一个相机的视频图像来执行处理步骤S60至S645。如此一来，每一个球员都将被提供以来自每一个相机的检测概率。因此，根据步骤S650，根据来自每一个相机的、每一个球员的概率来估计每一个球员的位置，并且根据各个相机所提供的概率中的最高者估计出的球员的位置(因而是针对每一个球员的具有最高概率的位置)被识别为针对该球员的位置。该位置是上面提及的位置数据。

如果已经确定在跟踪足球场上的球员时发生了错误，则可以在步骤S655重新初始化针对该球员的轨迹。在对特定球员的检测概率针对特定轨迹而言相对较低的情况下产生对跟踪时的错误的检出，相应地该轨迹被重新初始化。

执行图6所图示的方法的结果是生成针对每一个球员的路径数据，该路径数据提供了球员在视频图像的每一帧中的位置，并且表示该球员贯穿整场比赛所采取的路径。这一计算出的位置是被发送到用户设备200A的位置数据。因而，路径数据提供了相对于时间的位置。

当在一个球员遮掩了另一个球员的全部或者一部分(如图8所示)的情况下从单个相机视图跟踪各个球员的位置时，可能产生问题。

图8示出了多个球员810、820、830和840以及如围绕各个球员的虚线所指示的他们的关联边界框。球员810和840可清楚地相互区分，而球员820遮掩了球员830的一部分。这是所谓的遮蔽事件。遮蔽事件可能在如下情况中发生：一个球员的全部或者一部分遮掩了至少一个其它球员的全部或者一部分，使得跟踪这些球员变得模糊，即使在将诸如球员的相对运动和方向之类的其它因素考虑在内之后也是如此。但是，将了解，可能发生涉及两个或更多个球员的遮蔽事件。

为了检测遮蔽事件，服务器110检测是否在与一个球员所关联的掩膜的全部或一部分相同的图像区域中发生了另一个球员所关联的掩膜的全部或一部分，如图8所示。在遮蔽事件所涉及的球员属于对立球队并因而具有不同颜色的汗衫的情况中，他们可能很容易被区分并相应地被跟踪。但是，在遮蔽事件之后，如果球员两者都属于同一方，则服务器110可能无法区分哪个球员是哪个，特别是因为在例如由冲撞引起的遮蔽事件之后的他们的运动可能是不可预测的，并因此可能不能正确地跟踪球员。其结果是，被指派给各个球员的跟踪路径可能变成是交换了的。

为了解决被跟踪的球员的模糊性，服务器110利用遮蔽事件所涉及的所有球员的身份来标示(label)遮蔽事件所涉及的所有那些球员。然后，在稍后的时间，如果这些球员中的一个或多个变得可容易区分，则服务器110使用该信息来将球员的身份重新指派给正确的球员以便维持哪个球员是哪个的记录。这个处理将参考图9更详细地描述。

图9示出了根据本发明的示例的进行对象跟踪和遮蔽检测的方法的流程图。

在步骤S900，服务器110对所捕捉的视频图像执行图像处理，以便如参考上面的图6所描述那样地提取一个或多个图像特征。所提取的图像特征随后被与从对象的可能示例提取出的相应图像特征进行比较，以便识别出各个对象。在一个示例中，根据汗衫上的编号来识别球员。服务器110随后生成每一个对象的对象标识，该对象标识识别出各个对象。该标识被连同图像和位置信息来存储为元数据。可替代地，在一个示例中，由操作者经由操作者界面来识别每一个对象(例如，球员)。服务器110随后使用来自操作者界面的数据输入来生成对象标识数据。但是，技术人员将了解，操作者可将图像辨识技术与标识相组合来生成对象标识数据，或者可以使用其它的合适对象标识方法，例如通过球员汗衫后背上的数字来标识球员的数字辨识。

在步骤S905，服务器110依据在步骤S900提取出的一个或多个图像特征来检测如上面参考图6所述的诸如球员之类的要检测的任何对象。如上所述，还使用虚拟模型720和相机视图710两者来跟踪各个球员。服务器110使用在跟踪处理期间生成的数据来生成并存储对象路径数据，对象路径数据描述了各个对象在所接收的视频图像内所采取的路径。对象路径数据采取球员的x-y坐标的样本相对于时间的形式。在本发明的示例中，路径数据具有格式(t_i，x_i，y_i)，其中，t_i是样本时间，x_i和y_i是对象在样本时间t_i处的x和y坐标。但是，将了解，可以使用其他合适的路径数据格式。

在步骤S915，服务器110登录针对每一个对象的对象标识数据以及与每一个对象在视频图像内采取的路径有关的对象路径数据。所登录的数据被存储在服务器110的硬盘驱动器(HDD)上或者动态随机存取存储器(DRAM)中。这使得可以保持关于哪个球员与各个检测到并跟踪的路径相关联的记录。所登录的数据随后可被用于生成关于各个球员以及他们在比赛期间所处的位置的数据。例如，可从存储在关联日志中的数据生成一球员在球场的特定区域中花费的时间。这一信息可在比赛期间或者在比赛结束时被发送给用户设备200A，并且可被显示给用户(如果他们希望的话)。在本发明的实施例中，被显示的所登录数据可以包括球员所覆盖的距离等。这将由用户设备200A的用户来选择。此外，如果由于任何原因使得球员与路径之间的关联性变得模糊(例如，在遮蔽事件之后可能发生)，则此记录可被保持直到模糊性得到解决为止，如下面所述的。下面的表1示出了所登录的对象标识数据以及对象路径数据的示例。

表1

每一个对象的对象标识数据和该对象的对象路径数据之间的关联性使得可以跟踪并相应地识别每一个对象。在上述示例中，每一个球员都可被跟踪，因此使得播音员可以知道哪个球员是哪个，即使球员可能太远离致使操作者无法在视觉上识别或者致使无法通过由服务器110执行的图像辨识来在视觉上识别。这使得播音员可以基于这一关联性而并入广播内容的观看者可能会要求的其他特征和信息。在步骤S920，服务器110检测是否发生了遮蔽事件，如上面参考图6所述的。如果没有检测到遮蔽事件，则处理返回到步骤S905，在该步骤中检测对象。以这种方式，每一个对象可被个体地跟踪，并且每一个对象的路径唯一地与该对象的身份相关联。

但是，如果检测到遮蔽事件，则在步骤S925，服务器110将遮蔽事件所涉及的每一个对象的对象标识数据与遮蔽事件所涉及的每一个对象的对象路径数据关联起来。例如，如果标示为A和B的两个对象分别与路径P和Q相关联，则在检测到涉及对象A和B的遮蔽事件之后，路径P将与A和B两者相关联，并且路径Q将与A和B两者相关联。遮蔽事件之后由服务器110生成的关联性随后被如上所述地登录。这使得可以跟踪遮蔽事件所涉及的对象(例如，球员)而无需再次识别每一个对象，即使有些不确定哪个球员是哪个也是如此。因此，服务器110上的处理负荷得以降低，因为仅遮蔽事件所涉及的那些对象被模糊地识别，而遮蔽事件没有涉及的对象仍然能够被识别。

在步骤S930，服务器110检查看是否已经进行对遮蔽事件所涉及的对象中的一个或多个对象的识别，以使得与所生成的路径相关联的对象的身份能够被分辨。对这些对象的至少一个的识别由服务器110通过对与该对象相关联的一个或多个图像特征与从对象的可能示例提取的图像特征进行比较来执行。如果所有识别都尚未做出，则处理传递到步骤S905，其中，针对每一个对象生成的路径数据与遮蔽事件所涉及的所有那些对象相关联。

但是，如果检测出已经发生对遮蔽事件所涉及的对象中的一个或多个对象的识别，则在步骤S935，对所登录的路径数据进行更新以反映出肯定地识别出的对象的身份。在上面给出的示例中，关联性日志将被更新以使得A与路径P相关联，而B与路径Q相关联。

可替代地，对象的识别可由操作者经由操作者界面、由服务器110使用根据本发明的示例的图像辨识技术(如下所述)或者通过这两种技术的组合来执行。但是，将了解，可以使用适合于区分或识别每一个对象的任何其他识别技术。在图像辨识的情况下，服务器110可以生成置信水平，置信水平指示出通过图像辨识处理作出的识别有多大可能是正确的。在本发明的示例中，在置信水平大于预定阈值的情况下，识别被确定是正确的。另外，操作者可以像他们的识别指派置信水平，并且如果该置信水平超过了预定阈值，则识别被检测出。

在本发明的示例中，生成了指示出所登录的路径数据被更新的时间的事件历史，并且该事件历史也可被存储以便在肯定识别被证明是错误的情况下用作备份。例如，在如下情况中识别会被证明是错误的：操作者确信之前远离相机布置130的球员具有特定身份，但是当该球员靠近视频相机(使得用户可以看到球员的更高分辨率图像)时，操作者意识到他们弄错了。在此情况中，他们可以使用操作者界面来推翻(over-ride)他们先前对球员的识别，以便服务器110能够相应地更新所登录的路径数据。在上面给出的示例中，识别事件历史可被存储在服务器110的硬盘驱动器(HDD)上或者动态随机存取存储器(DRAM)中，其中具有的数据表明：在肯定识别之前，路径P曾与A和B两者相关联并且路径Q曾与A和B两者相关联。

识别事件历史还可以包括在识别处理期间生成的置信水平。如果对一对象作出的后续识别具有比先前的肯定识别更高的置信水平，则该后续识别的置信水平可被用于证实或者取消先前识别。

将了解，在检测出遮蔽事件之后，可在遮蔽事件之后的任意时间识别出对象以便澄清遮蔽事件所涉及的对象。因此，在检测出遮蔽事件之后，服务器110可以监视是否已经发生对对象的肯定识别，作为与步骤S105至S125同时运行的背景处理。

现在将参考图10a和10b来描述根据本发明示例的对象跟踪和遮蔽检测的一些示例。

在图10a所示的示例中，遮蔽事件1010涉及被标识为A和B的两个对象。在该遮蔽事件之后，箭头所指示的检测到的两个对象路径都与A和B两者(AB)相关联。一段时间之后，对象B被肯定地识别，如下面的路径上的AB所指示的。该识别随后被用于更新对象与路径之间的关联性，以使得对象A与遮蔽事件1010之后上面的路径相关联，而对象B与遮蔽事件1010之后下面的路径相关联。

在图10b所示的示例中，起初对象A和B涉入遮蔽事件1020。但是，在对象A和B能够被肯定地识别之前，与遮蔽事件1020之后下面的路径上的A和B两者相关联的对象涉入了与对象C的另一遮蔽事件1030。因此，在遮蔽事件1030之前，不清楚遮蔽事件1020之后下面的路径上的对象是对象A还是对象B。因此，在遮蔽事件1030之后，这两个对象遵循的上下两条路径都与对象A、B和C(ABC)相关联。

在稍后的时间，遮蔽事件1030之后下面的路径上的对象被肯定地识别为对象B(ABC)。因此，关联性日志能够被更新以使得遮蔽事件1030之后上面的路径与对象C相关联。此外，该信息可被用于更新关联性日志以使得遮蔽事件1020所涉及的两个对象能够被澄清，遮蔽事件1030所涉及的必然是对象B，因为对象B已被肯定地识别为与遮蔽事件1030之后下面的路径相关联。相应地，关联性日志可被更新为使得遮蔽事件1020之后上面的路径与对象A相关联，而遮蔽事件1020之后下面的路径与对象B相关联。

因此，本发明的示例允许对象与对象的被跟踪路径相关联，即使在对象被肯定地识别之前可能已经发生若干遮蔽事件也是如此。此外，本发明的示例允许相互参照不同对象的身份，以便允许每一条路径与正确对象相关联。

在一些示例中，可以使用表示对象的开始位置的数据来初始化和证实对象跟踪。以足球为例，球员很可能在比赛场地上近似固定的位置开始比赛。每一个球员的位置很可能距比赛场地上的特定坐标阈值距离之内。开始位置可能取决于诸如4-4-2(4个后卫，4个中场，2个前锋)或5-3-2之类的队形，并且还取决于哪个球队开球，而哪个球队防守开球。在从球门区开球门球时，球员很可能采取类似位置。这样的位置信息可被用于例如通过对位置数据与球队名单和队形信息进行比较来启动球员跟踪。这样的位置信息也可被用于校正已经发生遮蔽事件时的路径信息。使用队形信息是有利的，因为如果例如在换人或者罚下场之后队形改变变得很明显，则操作者可以在比赛过程期间重置队形信息。这将改进对象跟踪的准确性和可靠性。

超高清图像内的每一个对象(或者在此示例中，球员)的位置被建立。另外，在图7A中分别被图示为框730至740的、围绕每一个球员的块被建立。每一个块将包含球员的图像，因此将被称为“球员块”。当使用AVC编码器1106’来编码图像时，球员块将形成图像内的一个或多个宏块。由于球员块对于用户至关重要并且对于在用户设备上创建立体图像而言也至关重要，所以由对象键值生成器1103’生成图像内的球员块的宏块地址。对象键值生成器1103’将宏块地址提供给对象键值生成器1103’内的量化控件，其确保球员块被编码成与其余图像相比具有高分辨率。这确保了最高效地使用传送经编码图像的网络的带宽。

这里应当注意，在服务器110的对象键值生成器1103中，除了生成了对象位置和宏块数目之外，还从超高清图像中提取了球员块的内容。换而言之，在对象键值生成器1103中，从超高清图像提取出了各个球员。但是，在替代服务器110′的对象键值生成器1103′中，仅生成位置和宏块数目，而没有提取球员块的内容。

重定格式设备

现在将参考图11来描述服务器110的重定格式设备1104。由背景生成器生成的超高清图像的背景被馈给比例缩放(scaling)设备1150。超高清图像的背景的大小是6k x 1k个像素。比例缩放设备1150将该尺度减小到3840x 720个像素。如应当注意的，水平方向的比例缩放量小于垂直方向上的比例缩放量。换而言之，水平方向上的数据减小小于垂直方向上的数据减小。这在捕捉像足球比赛那样的事件时特别有用，因为球在水平方向上行进，并且球员的大多数运动是在水平方向上的。因此，重要的是确保水平方向上的分辨率较高。但是，本发明并不限于此，并且如果存在图像捕捉的是垂直运动最重要的事件的情形，则垂直方向上的比例缩放量将小于水平方向上的比例缩放量。

经比例缩放的图像被馈给帧拆分器1160。帧拆分器1160在水平方向上对经比例缩放的背景图像进行均等拆分。帧拆分器1160被配置为产生1920x 1080像素的两个帧。这符合108030P(1920)帧AVCHD格式。这两个帧被馈给加法器1105。

如这里将注意到的，帧拆分器1160在垂直方向上添加了360个空白像素。但是，为了高效地利用带宽，该空白空间将使得在其中***由对象键值生成器1103提取出的隔离的球员块。这意味着能够以高效方式通过因特网120来传送隔离的球员块。隔离的球员块在加法器1105中被***两个图像中。这意味着被馈入AVC编码器1106的来自加法器1105的输出包括如下合成图像，该合成图像包含经比例缩放且经拆分的背景以及被***到360个空白像素中的隔离的球员块。

参考图12，描述了替代服务器110′的重定格式设备1104′。在此情况中，超高清图像被馈给比例缩放器1150′，该比例缩放器1150′被配置为将超高清图像按比例缩放成2880x 540像素的图像。经比例缩放的图像被馈给帧拆分器1160′。帧拆分器1160′被配置为在水平方向上对该经比例缩放的图像进行均等地拆分并形成大小为1440x 1080个像素并因而符合108030P(1440)帧AVCHD格式的图像。换而言之，经比例缩放图像的左侧形成了所生成图像的上半部，而经比例缩放图像的右侧形成了所生成图像的下半部。这单个图像被馈给AVC编码器1106′。

AVC编码

现在将描述由服务器110中的AVC编码器1106执行的AVC编码。如早先提到过的，对象键值生成器1103生成球员块并从超高清图像提取球员块的内容。球员块的内容被提供在经比例缩放且经拆分的合成图像中的360个空白像素中。与球员块的位置(即，各个球员块在空白像素中的位置)相关联的宏块被馈给AVC编码器1106中的量化器。具体而言，合成图像中的球员块的量化被控制为使得AVC编码器1106使用比图像中的任何其他地方更多的比特来编码球员块。这提高了球员块的质量，因为用户将专注于观看球员块。

包括背景和球员块的两个合成图像被使用H.264编码来进行AVC编码，并且被以近似7Mbps的比特率进行传输，不过这取决于网络的能力而可以变化。

在替代服务器110’中，AVC编码由AVC编码器1106′执行。如上所述，被馈给AVC编码器1106′的经重定格式的图像是具有108030P(1440)格式的超高清图像。与服务器110不同，替代服务器110′中的对象键值生成器1103′不提取球员块的内容。取代之，使用各个球员块的位置和与各个球员块相关联的宏块数目来控制AVC编码器1106′的量化。量化被控制为确保以比图像的其他部分更多的比特来编码球员块，从而确保球员被清楚地再现。AVC编码器1106′使用H.264标准以大约3Mbps的比特率来编码图像，不过这取决于网络的容量而可以变更。

由任一种服务器中的编码器产生的经编码图像被馈给数据流产生设备1108。另外，被馈给数据流产生设备1108的还有与各个球员块相关联的宏块数目以及各个球员块在该经编码图像中的位置。这作为元数据来被传送给客户端设备200A或者用户装备。

深度图和位置数据生成

现在将参考图13至15描述本发明的实施例，其中，相机与相机所捕捉的图像内的对象之间的距离被用于确定偏移量。这是在位于服务器110和替代服务器110′中的深度图生成器1107中执行的。

图13是根据本发明实施例的用于确定相机位置与相机视场内的对象之间的距离的***的示意图。

图13示出了被布置来与相机布置130中的捕捉球场70的图像的相机通信的服务器110。如上所述，服务器110可操作来对由相机捕捉的图像进行分析以便跟踪球场70上的球员，并确定他们在球场70上的位置。在一些实施例中，***包括距离检测器1210，该距离检测器1210可操作来检测相机与相机视场内的对象之间的距离。稍后将在下面更详细地描述距离检测器1210及其操作。

在一些实施例中，服务器110可以使用跟踪数据和位置数据来确定相机位置与球场上的球员之间的距离。例如，服务器110可以对所捕捉图像进行分析以便确定相机位置与球员1201之间的距离1201a、相机位置与球员1203之间的距离1203a以及相机位置与球员1205之间的距离1205a。

换而言之，本发明的实施例确定场景内的对象与相对于相机限定的参考位置之间的距离。在参考图13描述的实施例中，参考位置位于相机位置处。

另外，在一些实施例中，服务器110可操作来检测所捕捉图像内的与场景内的已知特征点相对应的预定图像特征。例如，服务器110可以使用已知技术来分析所捕捉图像以便检测与足球场的诸如边角、中区圆点、罚球区等的特征相对应的图像特征。基于检测到的已知特征点(图像特征)的所检测位置，服务器110随后可以使用已知技术将球场70的三维模型映射到所捕捉图像。相应地，服务器110可以对所捕捉图像进行分析，以依据相对于已被映射到所捕捉图像的3D模型来检测到的球员的位置来检测相机与球员之间的距离。

在本发明一些实施例中，服务器110可以对所捕捉图像进行分析以便确定球员的脚与球场接触的位置。换而言之，服务器110可以确定诸如球员之类的对象与诸如球场70之类的平面重合的交叉点。

在对象被检测为在一个以上的交叉点与平面重合的情况下(例如，球员的两只脚都与球场70接触)，则服务器110可操作来检测哪个交叉点最接近相机并使用该距离来生成偏移量。可替代地，在生成偏移量时可以计算并使用针对该对象检测到的所有交叉点的平均距离。但是，将了解，可以选择其它合适的交叉点，例如最远离相机的交叉点。

但是，在一些情形中，如上所述的确定相机位置与场景内的对象之间的距离的方法可能会造成三维图像外观的失真。如果图像是由超广角相机捕捉的或者是通过将数个高清相机所捕捉的图像缝合在一起而形成的(例如，本发明实施例中的情况)，则这样的失真可能特别明显。

例如，如果要将球场70显示为其上叠加了球员和球的三维图像，则可能发生三维图像的图像失真。在此情况中，边角71b和71c看起来将比最接近相机30的边线上的中心点1214更远离。边线因而可能看起来是弯曲的，虽然该边线在所捕捉图像中是直的。

当在诸如计算机监视器之类的相对较小的显示器上观看三维图像时，该效果会特别明显。如果在诸如电影屏幕之类的比较大的屏幕上观看三维图像，则该效果不怎么明显，因为边角71b和71c更可能处在观看者的***视觉中。稍后将在下面更详细地描述可将球场显示为三维图像的方式。

解决这个问题的一种可能方式是针对图像的每一个部分生成适当偏移量以便补偿失真。但是，这可能是运算密集型的，并且取决于诸如由于广角图像、显示器尺寸等引起的失真度之类的若干物理参数。

因此，为了减小三维图像的失真并且为了尽力确保球场的前端(即，最接近相机的边线)看起来离显示器恒定距离，尤其是当将在诸如计算机监视器或电视屏幕之类的相对较小显示器上观看三维图像时，本发明的实施例确定对象与位于参考线上的参考位置之间的距离。参考线与相机的光轴正交并且穿过相机位置，而参考位置位于参考线上的、对象位置线与参考线相交的点处。对象位置线与参考线正交并且穿过对象。这将在下面参考图14进行描述。

图14是根据本发明实施例的用于确定相机与相机视场内的对象之间的距离的***的示意图。图14所示的实施例与上面参考图9描述的实施例基本相同。但是，在图14所示的实施例中，服务器110可操作来确定对象与由虚线1207指示的参考线之间的距离。

如图14所示，参考线1207与相机的光轴正交(即，与光轴成直角)并且穿过相机的位置。另外，图14示出了位于参考线1207上的参考位置1401a、1403a和1405a。

例如，工作站可操作来确定参考位置1401a和球员1201之间的距离1401。参考位置1401a位于参考线1207上的、球员1201的(由虚线1401b指示出的)对象参考线与参考线1207相交的位置处。类似地，参考位置1403a位于参考线1207上的、球员1203的(由虚线1403b指示出的)对象参考线与参考线1207相交的位置处，并且参考位置1405a位于参考线1207上的、(由虚线1405b指示出的)对象参考线与参考线1207相交的位置处。对象参考线1401b、1403b和1405b与参考线1207正交并且分别穿过球员1201、1203和1205。

在一些实施例中，参考线1207与连接边角71b和71c的边线平行，以使得当以合适方式在显示器上一起观看球场的所捕捉图像和球场的经修改图像时，连接边角71b和71c的边线上的所有点都看起来像是离显示器恒定距离(深度)。这改善了三维图像的外观，而无需生成补偿在使用广角相机捕捉图像时可能产生的或者源于通过组合由两个或更多个相机捕捉的图像而形成的合成图像(如本发明实施例中的情况)的任何失真的偏移量。但是，将了解，参考线不必与边线平行，而可以与场景内的任何其它适当特征平行，或者被相对于场景内的任何其它适当特征来布置。

为了使得图像被生成为使得当被观看时它们看起来是三维的，服务器110可操作来检测所捕捉图像内的诸如球员之类的对象的位置。上面参考图6描述了服务器110在图像内检测对象的方式。该信息被馈给用户设备200A。用户设备200A随后通过将所捕捉图像内的对象的位置移位所述偏移量来从所捕捉图像生成经修改图像，以使得当在显示器205上作为图像对来一起观看经修改图像和所捕捉图像时，对象看起来位于离显示器预定距离处。这将在下面说明。

为了产生正确的位移以模拟3维效果，用户设备200A需要知晓对象离相机的距离。这可以使用深度图或者一些其它手段来实现。在本发明一些实施例中，***包括距离检测器1210，距离检测器1210可以与服务器110通信或者经由网络与用户设备200A通信。距离检测器1210可以耦合到相机布置130内的相机，或者可以与相机布置分离。距离检测器可操作来生成指示出相机与球场70上的诸如球员之类的对象之间的距离的距离数据。距离检测器1210可操作来经由(如图13中的虚线1212所指示的)合适的通信链路将距离数据发送到服务器110。服务器110随后可操作来依据从距离检测器1210接收的距离数据来确定相机与对象之间的距离。换而言之，距离检测器1210用作距离传感器。这样的传感器是本领域已知的，并且可使用红外光、超声、激光等来检测离对象的距离。针对每一个对象的距离数据随后被馈给用户设备200A。

在一些实施例中，距离检测器可操作来生成深度图数据，该深度图数据针对所捕捉图像的每一个像素来指示出相机与场景内的与该像素重合的场景特征之间的相应距离。从服务器110发送到用户设备200A的距离数据于是可以包括距离图数据。

为了实现这个功能，距离检测器可以包括发出红外光脉冲的红外光源。相机于是可以检测以预定时间间隔(通常具有毫微秒的量级)从相机视场内的对象反射的红外光的强度，以便生成指示出对象离相机的距离的灰阶图像。换而言之，灰阶图像可被认为是通过检测红外光从源到相机的飞行时间而生成的距离图。

为了简化设计，相机可以包括红外光源形式的距离检测器。这样的相机是本领域已知的，例如由3DV Systems制造的“Z-Cam”。但是，将了解，可以使用生成3D深度图的其它已知方法，例如红外模式失真检测。

将了解，可以使用任何其它合适的距离检测器。例如，可以使用光轴与所述相机的光轴垂直的相机来捕捉球场的图像。这些进一步捕捉的图像可由服务器110进行分析以检测并跟踪球员位置以及与来自相机的图像数据相关的结果数据，以便对球员的位置进行更准确的三角测量。

在一些实施例中，服务器110可操作来使用距离检测器1210来检测并跟踪相机视场内的其它对象，例如足球，但是将了解，可以检测任何其它合适对象。例如，由一个或多个附加相机捕捉的图像可由服务器110进行分析并与来自跟踪***的数据相组合以便跟踪足球。该数据被作为位置和深度信息来馈给用户设备200A以使得用户设备200A可以相应地生成适当的左手图像和右手图像。

服务器110可操作来检测所捕捉图像内的与场景内的对象相对应的对象像素。在上述实施例中，对象像素与如下所述的用于生成经修改图像的球员掩膜的那些像素相对应。球员掩膜被馈给用户设备200A以使得用户设备200A可以生成经修改图像。

用户设备200A随后使用距离图数据中的与球员掩膜的像素相关联的距离数据来确定相机与球员之间的距离。为了简化三维显示，可以使用距离图数据中的与球员掩膜的像素相对应的距离值的平均来生成如上所述的偏移量。但是，将了解，可以使用从距离图数据选择与对象相对应的距离值的任何其它合适方法。

用户设备200A可操作来针对深度图数据中的每一个像素来生成应用在左手图像和右手图像之间的偏移量。因此，在应用了差距之后，当如上所述在显示器上以图像对的形式一起观看左手图像和右手图像时，对象可以具有改善的三维外观，这是因为可以更准确地再现对象的表面维度，而不是将对象显示为就像是距显示器某一距离的二维图像。

用户设备200A和用户装备320A

现在将参考图15A描述用户设备200A的实施例。用户设备200A包括经由因特网接收经复用数据流的解复用器1505。解复用器1505连接到AVC解码器1510、音频解码器1515和客户端处理设备1500。解复用器1505将经复用数据流解复用成AVC流(其被馈给AVC解码器1510)、音频流(其被馈给音频解码器1515)以及深度图数据、诸如球员的名字之类的球员元数据和任何其它元数据(其被馈给客户端处理设备1500)。用户也可以使用向客户端处理设备1500发送数据的控制器1520来与用户设备200A交互。将参考图16A来详细描述客户端处理设备1500。

将参考图15B来描述用户装备315A的实施例。如清楚可见的，用户装备315A内的许多组件与如关于用户设备200A所述的那些组件相同或者提供与那些组件类似的功能。这些组件具有相同标号并且将不再进行描述。但是，如从图15B清楚可见的，取代图15A中的客户端处理设备1500而提供了用户装备处理设备1500′。然而，应当注意，用户装备处理设备1500′接收与客户端处理设备1500类似的数据并且将在图15B中描述用户装备处理设备1500′的功能。图15B中的用户控件1520可作为触摸屏或者键盘等来集成到用户装备315A中。

客户端处理设备1500

客户端处理设备1500包括生成要显示的左手图像和右手图像的图像处理单元1600。图像处理单元1600从服务器110接收两个合成背景图像。来自服务器110的两个合成背景图像还被馈给球员块提取设备1615。球员块提取设备1615从合成图像提取球员块。所提取的球员块被馈给图像处理单元1600。从球员块提取设备1615馈给图像处理单元1600的还有每一个球员块在各个背景合成图像上的位置和与球员块相关联的宏块数目。这使得图像处理单元1600能够将球员块置于背景合成图像上的正确位置以高效地重新创建超高清图像的两个合成图像。这两个合成图像被图像处理单元1600缝合在一起来形成超高清图像。

在数据控制器1610中接收包括球员块中的每一个球员的名字的球员元数据。被馈给数据控制器1610的还有来自用户控制器1520的信息以及提供相机布置的参数等的附加元数据，所述相机布置的参数允许用户选择适当视场，如GB 2444566A所述。数据控制器1610的输出是包含该信息的经复用数据流。数据控制器1610的经复用输出被馈给虚拟相机生成器1605。此外，虚拟相机生成器1605接收深度图。当虚拟相机生成器1605被馈给来自用户控制器1520的信息时，虚拟相机生成器1605识别出虚拟相机的边界。换而言之，用户操纵用户控制器1520来确定超高清图像的哪个区域或片段对他们至关重要。虚拟相机生成器1605选择重要的超高清的片段并显示该区域。在GB 2444566A中描述了生成和显示该区域的方法。

GB 2444566A中的方法涉及生成单个图像。但是，在本发明的实施例中，所选择的区域可被立体地显示。换而言之，所选择的区域应当被显示为使得其可3D地观看。为了这个目的，生成了经移位的所选择片段，该经移位的所选择片段具有其中每一个像素被移位取决于深度图的量的背景并且具有经水平移位的前景对象。由于用户所选择的区域在屏幕上的位置是已知的，并且要在其上显示图像的屏幕的尺寸是已知的，所以如技术人员所知的，使用所选区域离相机的相应距离(即，深度图)来确定前景对象之间的差距(即，在用户限定片段和第二所选片段中的前景对象之间的水平位移)。该差距确定了与屏幕上的前景对象相关联的表观深度。用户所选片段随后被显示在显示器上供用户左眼观看，而经移位的所选片段被显示在显示器上供用户右眼观看。用户所选片段和经移位的所选片段被立体地显示。此外，用户可以控制位移量，其允许用户调整所选片段的左右眼图像之间的位移量以调整3D图像中的场景的表观深度。

用户装备处理设备1500′

现在将参考图16B来描述用户装备处理设备1500′。经由LTE网络发送来的合成图像被馈给用户装备图像处理器1600′。另外，提供给用户装备图像处理器1600′的还有附加元数据，该附加元数据提供了允许用户选择供显示的超高清图像的区域的相机参数等。所需元数据在GB 244566A中被提到了，并且允许用户选择供观看的超高清图像的区域。选择和显示该区域的方法也在GB 244566A中描述了。

用户装备处理设备1500′还被输入了指示出球员在合成图像中所处的位置的球员元数据。在实施例中，该球员元数据是限定了合成图像中的围绕球员的框的坐标集合。附加球员元数据可以包括每一个球员的名字和统计数据，例如年龄、先前的俱乐部、在球队中的位置等。球员元数据和附加球员元数据被馈给用户装备数据控制器1610′。被馈给用户装备数据控制器1610′的还有由用户控制设备1520′产生的用户生成控制信息。这允许用户与用户装备交互来更改超高清图像中的所选区域的位置以及其它交互控件。

用户装备数据控制器1610′的输出被作为经复用数据流来馈给虚拟相机处理设备1605′。被馈给虚拟相机处理设备1605′的还有深度图。虚拟相机处理设备1605′以上面关于虚拟相机生成器1605所论述的相同方式来生成由用户选择的左右图像片段。这提供了供3D显示的立体图像。应当注意，虚拟相机处理设备1605′与虚拟相机生成器1605略微不同，不同之处在于整个图像都被处理为背景从而所选区域中的每一个图像像素被移位取决于深度图的量，而不管其是构成背景的一部分还是构成前景对象的一部分。每一个像素被水平地移位由计算出的差距(如技术人员所知的，该差距是从深度图和显示器的尺寸计算出的)提供的量。这允许了在显示器上对场景进行3D观看。

应当注意，在参考图16A和16B描述的两个实施例中，限定了虚拟相机的变焦、摇动(pan)、倾斜(tilt)和覆盖范围的信息以及限定了所选区域在屏幕上的位置的详情信息和任何其它用户限定的信息(例如，对水平位移的任何改变)将由用户设备200A或用户装备315A存储。另外还存储了诸如与特定镜头(在该特定镜头中，体验了这个视图)相关联的UMID之类的唯一标识符。该信息将被存储作为包含比被显示的图像数据少的数据的元数据，并且可被存储在用户设备200A或用户装备315A上或者在网络服务器1700上。该所存储的元数据当连同合成图像、球员键值(如果有必要)和球员信息一起被提供时，将使得用户能够在用户设备200A或者用户装备315A上重新创建相同体验。此外，如果被提供给不同用户，则该所存储元数据将使得该不同用户能够重新创建第一用户的体验。将参考图17至19B描述说明了对所存储元数据的使用的实施例。

社区观看

网络服务器1700连接到因特网并且在图17中被示出。网络服务器1700可以等同地连接到用户装备315A和用户设备200A两者。事实上，在实施例中，一个用户可以使用用户账户来将他/她的用户装备315A和他/她的用户设备200A两者都连接到网络服务器1700。但是，为了简便起见，现在描述用户设备200A的连接和使用。

参考图17，网络服务器1700包含存储介质1705，其可以是光或磁记录介质。存储介质1705连接到数据库管理器1710，数据库管理器1710将信息存储在存储介质1705上。数据库管理器1710还被用于取回存储在存储介质1705上的数据。数据库管理器1710连接到网络处理器1715，网络处理器1715控制对数据库管理器1710的访问。网络处理器1715连接到允许数据经由因特网120传送的网络接口1720。

当用户设备200A连接到因特网120时，用户设备200A可以连接到网络服务器1700。当用户设备200A首次连接到网络服务器1700时，用户被要求登录其在网络服务器1700上的账户或者创建新账户。如果用户选择登录账户，则用户被要求输入用户名和密码。这向网络服务器1700认证用户。在正确认证(由网络处理器1715执行)之后，用户可以访问存储在存储介质1705上的他/她的账户详情。账户详情可以提供有关用户最喜欢的足球队或者用户最喜欢的球员的信息。通过提供这种信息，用户可被提供集锦套件中的最相关镜头，如后面将说明的。

通常，用户可以处理用户设备和用户装备两者。如果是这种情况，则网络服务器1700将存储用户所拥有的装备的详情。网络服务器1700还将通过询问用户设备来建立是用户设备还是用户装备连接到网络服务器1700。一旦用户登录到其账户，他/她就可以从其账户添加或删除设备。

与用户账户相关联的选项之一是上载存储在用户设备200A上的元数据，这些元数据将允许该用户或另一用户重新创建用户的观看体验。该元数据可由用户设备200A在观看比赛的同时收集，或者如果用户在观看比赛之前登录到网络服务器1700，则元数据可被存储在网络服务器1700内。如果元数据被收集在用户设备200A上，则用户可以在其连接到网络服务器1700时将元数据上载到网络服务器1700。这可以自动完成或者在用户干预下完成。

除了使能对观看者的体验的复制的元数据之外，另外的元数据也可被传送到网络服务器1700。将参考图18说明另外的元数据的生成和形式，图18示出了用户用来生成元数据和所述另外的元数据的图形用户界面。图18所示的图形用户界面允许用户生成对比赛的注解。这些注解增强了观看者对比赛的体验。此外，由于仅存储了重新创建比赛的元数据，而没有存储视频剪辑本身，所以减小了用于重新创建比赛而存储的数据量。

图形用户界面被显示在用户设备200A的显示器205A上。用户使用控制器210A来与该界面交互。显示器包含缝合图像显示区域1835，其显示经缝合的超高分辨率图像。在超高清图像内有使得用户能够选择缝合图像的视场的虚拟视场。这被显示在虚拟视场区域1800中。为了使用户识别出超高清图像的哪个部分形成了虚拟视场，在超高清图像上示出了虚拟视场的轮廓1840。

在虚拟视场区域1800下方有标准视频控制按钮1805，例如暂停、快进、倒带、停止和记录。视频控制按钮的布置不限于此，而可以包括对显示器上的视频的动作进行控制的任何类型的按钮。在虚拟视场区域1800右方有编辑按钮1810。这些编辑按钮1810允许对视频进行附加注解，例如向视频添加文本、绘制线条或者添加形状。当被添加到视频时，这些附加注解形成了所述另外的元数据的一部分。

存在元数据标签输入区域1815，其允许将元数据标签添加到视频的特定帧或者多个帧。这可以包括对帧的内容的文本描述，例如罚球、断球、任意球等。此外，为了使能更容易的注解，以热键1720的形式提供了诸如黄牌、射门和事故(incident)之类的常见标签。此外，还提供了自由文本输入区域1825。这允许添加用户希望的任何文本。该文本与元数据标签输入一起也形成了所述另外的元数据的一部分。

最后，提供了事件列表区域1830。该事件列表区域1830可通过元数据标签来自动更新，或者可以由用户创建。可替代地，事件列表可使用元数据标签来自动生成，或者可由用户进行校正或者证实。自动生成事件列表是可能的，因为用户随着比赛的进行而更新了射门和记名警告(booking)等。事实上，由于在元数据中提供了球员位置信息，所以如果用户在图像中识别出哪个球员射门得分了，则用户设备200A知道哪个球员射门得分。此外，如果对球的位置进行自动跟踪，则用户设备200A可以自动将得分者限定成在“射门”元数据产生之前接触球的最后一个球员。通过使用元数据标签来自动更新事件列表，使得生成事件列表更加容易。此外，通过使用元数据和所述另外的元数据，存储在用户设备200A和网络服务器1700任一者中的数据量减小了，这是因为事件列表是“即时”(on the fly)生成的，因而无需存储。

除了将元数据上载到网络服务器1700上之外，用户还可以访问并观看由网络服务器1700的其他用户生成的集锦节目。换而言之，除了访问用户自己生成的集锦套件之外，用户还可以访问由另一用户生成的集锦套件。

为了这个目的，用户设备200A需要由另一用户上载的原始比赛镜头、元数据和另外的元数据。原始比赛镜头可以从网络服务器1700提供，或者使用将增大提供比赛镜头的速度的对等***来提供。元数据和另外的元数据将由网络服务器1700来提供。

参考图19A和19B来说明发现和观看其它用户的观看体验的方法。

参考图19A，显示器1900具有文本搜索框1905。这使得可以搜索存储在网络服务器1700上的自由文本元数据和元数据标签。在图19A所示的示例中，已针对“NUFC和MUFC”之间的集锦镜头执行搜索。如将从图19A了解到的，按时间顺序返回比赛数据1910。换而言之，最近的比赛位于列表顶部，而较老的比赛位于屏幕底部。

除了搜索结果之外，网络服务器1700可以使用在用户账户中提供的诸如最喜欢的足球队或最喜欢的球员之类的信息来返回最相关的结果，而用户不必执行搜索。例如，如果用户是纽卡斯尔联队足球俱乐部的狂热者，则最近的纽卡斯尔联队足球比赛将被置于主屏幕上。类似地，如果用户表明他们是法布雷加斯的狂热者，则包括元数据标签“法布雷加斯”的最新剪辑将被置于主屏幕上。

与比赛数据1910相邻的是用户数据1915。这示出了已经上载比赛的集锦套件的每一个用户的用户名。与用户数据1915相邻的是用户评分数据1920。这给出了由观看了用户数据1915所标识出的用户所创建的其它比赛集锦套件的其他用户归结而成的平均分数。如果用户点击“评论”超链接，则还可访问用户的评论。为了辅助用户选择其他用户的集锦套件中的哪个，最受欢迎的用户处于列表顶部，而最不受欢迎的用户位于列表底部。

与用户评分数据1920相邻的是比赛评分数据等级1925。这提供了关于该比赛的特定集锦套件的用户反馈。这种类型的信息是有用的，因为通常完成精彩集锦套件的用户可能针对该比赛制作出特别差的集锦套件。或者，通常制作出普通集锦套件的用户可能针对该比赛完成了特别好的集锦套件。

为了提供用户灵活性，每一栏数据的排序可以取决于用户偏好而变化。

在用户选择了特定集锦套件之后，原始比赛被下载并在本地存储在用户设备200A内。另外还(从网络服务器1700)下载了用于显示制作了集锦套件的其他用户所体验的视场的元数据以及由其他用户生成的任何另外的元数据。由于元数据小于其所表示的数据，所以与下载集锦剪辑相比，与元数据相关联的下载速度和存储要求较小。

参考图19B，屏幕1900具有视场区域1930，该视场区域1930示出创建了集锦套件的其他用户所体验过的视场。这是从元数据和原始镜头创建的。事件列表区域1935也在显示器1900上。该列表与图18中的事件列表1830相对应。注解观看区域1940是从另外的元数据创建的。这显示了要向用户显示的具有由其他用户添加的注解的最后帧。例如，如果其他用户用标记高亮显示出特定事故，则这将被置于注解观看区域1940中。设置了标准的一组视频控制按钮1945，例如对显示在视场1930中的视频进行加速或者减慢。与视频控制按钮1945相邻的下一事件按钮1950允许用户跳到下一事件。下一事件是用户特别感兴趣的一个镜头。用户可以从下一事件选择按钮1955中选择特别感兴趣的下一事件。在此实施例中，接下来的事件包括下一射门、下一任意球、下一黄牌或红牌或者下一角球。用户可以通过围绕适当的下一事件符号的框来容易地看出哪个事件被选择了。在本实施例中，下一事件高亮框1960围绕着下一射门。

用户还能够对另一用户的特定集锦套件进行改善，以例如改善虚拟相机占位、编辑集锦套件的持续时段或者添加另外的注解。这可以在创建可被编辑的集锦套件时被用户许可。此外，可由其他用户添加关于特定集锦套件的附加注解。这使能了不同用户对特定集锦套件作出评语。例如，用户可以添加一评语，该评语标识出集锦套件的创建者可能遗漏的内容的特定特征。因此，在足球比赛的上下文中，不同用户可以识别出其他用户可能没有注意到的球员在球场上的占位。这可以实现各自在观看同一集锦套件的一群用户之间的实时消息传递。

可能是如下情况：在示出在具有1920x1080像素分辨率的显示器上的视频上输入了由集锦套件的作者施加的注解。然而，其他用户可能在具有小得多的显示器的便携式手持设备上观看该带有注解的视频。例如，手持设备可能是具有像素分辨率为320x240的显示器的设备。此外，其他用户可能在该便携式设备上对在更大显示器上创建的集锦套件施加另外的注解。在实施例中，为了解决这个问题，可以与集锦套件一起存储指示出在其上创建注解的显示器的尺寸的元数据。因此，显示器上的注解的像素位置可被按比例缩放或者调整以确保：当在不同尺寸的显示器上再现注解时，注解被置于显示器的正确区域上。

作为一个示例，如果在具有1920x1080像素的分辨率的显示器上生成集锦套件并且在集锦套件上的帧的(430，210)的左上像素位置上输入了具有240x90像素尺寸的注解，则生成限定该注解、注解的尺寸和像素位置以及在其上生成注解的显示器的尺寸的元数据。这被与套件一起存储。

当另一个用户希望在便携式设备上观看集锦套件时，描述了注解的元数据被取回。便携式设备知道了注解的尺寸和像素位置以及在其上创建注解的显示器的尺寸。因此，便携式设备对注解进行比例缩放，以使得注解的尺寸对于显示器是正确的。具体而言，便携式设备上的注解的尺寸是40x20像素。当针对便携式设备的显示器进行比例缩放时注解的位置将是像素(71.6，46.6)。为了选择正确的像素位置，注解将被置于像素位置(72，47)。这是简单地向最近的像素取整。然而，可设想在比例缩放产生十进制像素位置时进行像素选择的其它方法。

如果便携式设备的用户在像素位置(140，103)处创建了具有尺寸38x28的另外的注解，则描述了该注解和在其上创建该注解的显示器的尺寸的元数据被创建。

因此，如果原始作者再次观看套件，则由便携式设备的用户创建的注解将被按比例放大为在像素位置(840，463.5)处的具有尺寸228x126的注解。同样，为了正确地在原始作者的显示器上显示注解，该注解将被置于像素位置(840，464)。

最后，用户可以使用框1970来对特定集锦套件的质量进行评分。用户选择适当标记(在此情况中，满分为5分)并点击框1970。该值随后被传送到网络服务器1700，在网络服务器1700中该值被与其他用户和该特定集锦套件两者相关联地存储。

通过向网络服务器1700发送元数据和另外的元数据，而不是发送视频剪辑，经由网络发送的数据量得以减小。事实上，当经由不同方法将原始视频镜头提供给用户时，由网络服务器1700处置的数据量可被进一步减小。例如，用户可以使用对等***或者通过邮件等在记录介质上接收原始视频镜头。

可能是如下情况：创建集锦套件的用户或者观看集锦套件的用户可能为此而支付费用。该费用可能是按次计费或者按月计费或者是年度订阅服务。

虽然参考用户设备200A描述了上述内容，但是可以等同地使用用户装备315A。

客户端设备上的扩增现实(Augmented Reality)

图20示出了正在进行足球比赛的体育场2000的平面视图。足球场2020位于体育场2000内，并且正通过相机***2010来摄制比赛。相机***2010包括相机布置130、图像处理设备135和服务器110。相机***包括全球定位***(GPS)传感器(未示出)、高度传感器和倾斜传感器。GPS***提供了相机***2010的坐标位置，高度传感器提供并标识出相机***的高度，而倾斜传感器提供对施加于相机***2010的倾斜量的指示。GPS***、高度传感器和倾斜传感器是已知的，因此将不在下文中进行描述。

球场上有第一球员2040、第二球员2050、第三球员2055、第四球员2060、第五球员2065、第六球员2070和第七球员2075。还提供了球2045，其在球员2040的控制之下。相机***2010如先前的实施例所述那样正在捕捉足球比赛。

位于人群内的有观众2030，该观众正在通过其蜂窝电话2100观看比赛，蜂窝电话2100在实施例中是由索尼爱立信移动通信公司制造的Xperia X10电话。将参考图21描述蜂窝电话2100。蜂窝电话2100包括通信接口2160，该通信接口2160可经由使用3G或LTE网络标准的蜂窝网络进行通信。事实上，通信接口2160可能能够使用诸如WiFi或蓝牙等的任何网络标准进行通信。还提供了存储器2140。在该存储器上存储数据。存储器例如可以是固态存储器。存储器还存储计算机可读指令，因而存储器2140是存储计算机程序的存储介质。另外，存储器2140还存储其它类型的数据，例如元数据、或特定于用户的数据、以及与蜂窝电话2100中的相机2120的镜头失真相关的数据。蜂窝电话2100设有向用户显示信息的显示器2110。

相机2120被布置来捕捉图像，这些图像可被存储在存储器2140中，或者可在被存储在存储器2140中的同时或者在没有存储到存储器2140中的情况下被直接显示到显示器2110上。还提供了GPS传感器2130，其提供蜂窝电话2100的全球唯一位置。此外，还提供了倾斜和高度传感器2155，其提供对施加于蜂窝电话2100的倾斜以及电话2100的高度的指示。另外，用于观看场景的相机2120的焦距由电话2100确定。

还提供了处理器2150，该处理器2150控制前述组件的每一个并且被布置来在其上运行计算机软件。此实施例中的处理器2150的示例是由

公司制造的SnapDragon处理器。处理器2150使用数据总线2155来连接到各个组件。

图22示出了如用户2030所见的蜂窝电话2100。用户2030握持着蜂窝电话2100以使得他可以容易地看到显示器2110。用户正将蜂窝电话2100的相机2120指向比赛。显示器2110示出了由蜂窝电话2100的相机2120捕捉的比赛的实况图像。这被示出在图22中，其中，第一至第七球员的每一个被示出在球场2020上。另外，位于每一个球员2040至2075上方的是每一个球员的名字。每一个球员的名字被处理器2150置于显示器2110上。每一个球员的名字提供自在相机***2010中生成的球员元数据。将在下面参考图23对此进行说明。除了每一个球员上方的名字之外，还在显示器2110上提供了示出比赛时间的时钟2220，并且还显示了当前比赛比分2225。

在实施例中，显示器2110是允许用户2030通过按压显示器2110来向蜂窝电话2100发布命令的触摸屏。为了提供增强的用户能力，用户2030可触摸每一个球员上方的名字来展现球员传记。可在比赛之前将球员传记存储在存储器2140中。可替代地或者除此之外，通过按压球员上方的名字可以提供与该球员相关的实时比赛统计数据。换而言之，实时比赛统计数据提供了球员得分的射门次数、球员完成的传球次数、以及当相机***2010使用球员跟踪时球员所跑的距离量。该信息可响应于用户触摸名字而被提供给电话2100。或者，该数据可经由网络被不断地更新并存储在存储器2140中以使得当用户触摸名字时，信息被从存储器2140取回。这比经由网络请求信息更快。如上面参考图9所说明的，该信息由相机***生成。

参考图23，描述了一种将球员的名字置于显示器2110上的方法。蜂窝电话2100向相机***2010登记。在登记处理期间完成认证处理，认证处理识别出蜂窝电话2100的用户是否有资格访问该信息。例如，交换支付信息。这在步骤S2310中示出。

如上所述，相机***2010捕捉比赛的图像，并且从该所捕捉图像检测出图像中的每一个球员的位置并且确定球员的真实世界位置。为了实现这个，相机***2010使用图14所描述的技术来识别出检测到的对象在球场上的位置。有必要注意的是，使用这种技术识别出的球员在球场上的位置确定了球员相对于相机***2010的位置。因此，当相机***2010被提供以其GPS位置时，相机***2010确定每一个球员的GPS位置(或者真实世界位置)。另外，当每一个球员的身份是已知的时，还生成诸如球员名字之类的与球员相关联的元数据。这是步骤S2320。

真实世界位置信息和元数据被发送给蜂窝电话2100。这是步骤S2330。应当注意，诸如足球、或者裁判、或者裁判助理之类的所检测到的图像也可被传送到蜂窝电话2100。

蜂窝电话2100接收与每一个检测到的球员和检测到的球相关联的真实世界位置信息。蜂窝电话2100从GPS传感器取回标识出蜂窝电话2100的位置的GPS值。这是步骤S2340。

此外，从位于蜂窝电话2100内的高度和倾斜传感器取回高度和倾斜值。另外，还确定蜂窝电话2100中的相机2120的焦距。这是步骤S2350。

使用电话2100的GPS位置、倾角和焦距，电话2100确定使用相机2120捕捉的球场区域。换而言之，电话2100确定通过相机看到的真实世界位置的边界。通过相机***2010提供球场上的参考点的真实世界位置进一步对此提供了便利。为了实现这个，使用这些参考点来计算球场的平面的真实世界位置和角度。使用电话的GPS位置及其倾角，运算出三维向量，该三维向量表示电话的镜头在真实世界中指向的方向。使用已知技术，因而可运算出如下的真实世界点，在该真实世界点处，此向量将球场的平面一分为二。该真实世界点是相机视场的中心。为了确定视场的范围，首先必须运算出水平视场和垂直视场的角度。这些是使用已知技术从传感器尺寸和镜头的焦距来计算出的。

作为一个示例，使用诸如下面所示的公式：

FOV(水平)＝2*arctan(传感器宽度/(焦距*2))

FOV(垂直)＝2*arctan(传感器高度/(焦距*2))

这些角度随后被用于旋转表示电话镜头所指向的方向的向量，以使得其穿过相机图像的边角之一。同样，使用已知技术，在该点处此向量将球场的平面一分为二的真实世界点被运算出。该真实世界点是相机视场的边角。这个技术随后被针对相机视场的所有四个边角进行重复，以确定通过相机看到的真实世界位置的边界。由于蜂窝电话2100被提供以球员在球场上的真实世界位置以及球场上的真实世界关键点，所以电话2100确定最可能在通过相机2120观看的图像中的什么位置看到球员和关键点。随后在图像内的这些位置处放置注解。

在替代实施例中，为了增大注解放置的准确性，蜂窝电话2100在所捕捉图像上执行图像检测以检测图像内的任意对象。这是步骤S2360。由于蜂窝电话2100知道通过相机看到的真实世界位置的边界，所以电话2100识别出在图像内检测到的每一个对象的真实世界位置。因此，通过对由电话2100捕捉的每一个对象的真实世界位置与由相机***2010捕捉的每一个对象的真实世界位置进行比较，可以确定由蜂窝电话2100捕捉的图像内的哪个对象对应于哪个检测到的球员。由相机***2010提供的(被提供作为元数据的)注解被应用于图像内的正确对象。这是步骤S2370。这里应当注意，为了提高注解处理的准确性，蜂窝电话2100中的相机的镜头失真被考虑在内。例如，如果相机内的镜头失真使得通过镜头的光向左弯曲了5个像素，则检测到的对象的真实世界位置将不同于由相机捕捉的对象的真实世界位置。因此，可向在所捕捉图像内检测到的位置施加校正以校正这种错误。镜头失真被存储在存储器2140中，并且是在制造电话时生成的。处理随后结束(步骤S2380)。

与蜂窝电话的相机的当前焦距相结合地使用这个信息，蜂窝电话可以确定体育场的哪个部分将出现在其视场中，并因而计算出由相机***检测到的球员中的任一者应当出现在其屏幕上的什么位置。

在实施例中，可以使用块匹配技术等来执行在由蜂窝电话2100捕捉的图像中的对象检测。这可以提高在蜂窝电话2100的显示器上放置注解的准确性。

相机***可向蜂窝电话2100发送对象的表示(例如，每一个球员的剪切图样(cut-out))。可对由蜂窝电话2100检测到的对象与从相机***2010接收到的那些对象进行比较。这提高了检测技术的质量。

为了减小执行这种对象比较所需的处理器功率，实施例中的蜂窝电话2100对来自相机***的已知参考位置与其视场内的相应参考位置进行比较。例如，可对从相机***2010接收的任意球场标记与在蜂窝电话2100所捕捉的图像中检测到的任意球场标记进行比较。有用的是对场景中静态时的球场标记进行比较，因而这些标记的位置将保持恒定。如果没有比赛，或者比赛可能性低于例如98％的阈值，则从相机***2010接收到的检测到的球被与由蜂窝电话2100检测到的其他对象进行比较。由于用户很可能聚焦于球，所以最有可能的是由蜂窝电话2100捕捉的任意图像都将包括球。此外，由于球是图像中的独特对象，所以检测这个对象将更加容易，因此蜂窝电话2100内的处理功率得以降低。

如果没有球赛或者比赛的可能性低于阈值，则由蜂窝电话2100检测到的对象被与从相机***2010发送来的其他对象进行比较。当实现了值得肯定的比赛时，由蜂窝电话2100检测到的对象的位置被与通过变换计算出的位置进行比较。这建立了校正值。该校正值随后被应用于每一个经变换的位置值。该校正后的经变换位置值标识出向其提供了诸如球员名字之类的元数据的球员的位置。蜂窝电话2100将名字施加于最接近该校正后的经变换位置值的所检出对象。具体而言，蜂窝电话2100将名字***在所检出对象的上方。这提高了放置注解的准确性。为了提供增强的用户体验，向显示器的特定区域(例如，在显示器的边角中)施加比赛时间和比赛分数。这些区域通常不是用户的焦点，所以不会遮掩动作。

可设想，扩增现实实施例将是在蜂窝电话2100上运行的计算机程序。例如，该实施例可以是所谓的“应用程序”。为了辅助用户，当初始化应用程序时，蜂窝电话2100将自动启动GPS传感器以及高度和倾斜传感器。此外，如将预期到的，在比赛期间，用户可能不希望与蜂窝电话2100交互。通常，为了节省电池功率，显示器将在一段时间的不活动之后关断。然而，这将是不便的。因此，应用程序将禁用显示器的自动关断。

虽然已经在从所捕捉图像确定球场上的不同对象的位置的情况下描述了前述内容，但是本发明不限于此。例如，可以使每一个球员携带一设备，该设备使用GPS***来提供球场上的球员的位置。此外，可在球上放置类似设备。这将减小***的运算成本，因为该信息将被自动提供，而无需对位置进行计算。

虽然这里参考附图详细描述了本发明的例示性实施例，但是将理解，本发明不限于那些精确实施例，并且本领域技术人员将在不脱离由所附权利要求限定的本发明的范围和精神的情况下在其中实现各种改变和修改。

Claims

1.一种在客户端设备上观看集锦套件的方法，包括在所述客户端设备处：接收包括多个帧的视频流，从服务器接收视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并将所限定的片段显示给用户。

2.根据权利要求1所述的方法，还包括在所述客户端设备处接收注解信息，所述注解信息限定了要写在所显示的帧的片段上的注解。

3.根据权利要求1或2所述的方法，包括从除了提供所述视场信息的所述服务器之外的源接收所述视频流。

4.根据权利要求3所述的方法，其中，所述源是对等源。

5.根据权利要求1所述的方法，包括从所述客户端设备向所述服务器传送对所述集锦套件的用户评分。

6.根据权利要求1所述的方法，包括在所述客户端设备处接收基于针对所述集锦套件的评分来选择的视频流。

7.根据权利要求1所述的方法，包括在所述客户端设备处接收基于由所述客户端设备的用户提供的且被存储在所述服务器内的偏好来选择的视频流。

8.根据权利要求7所述的方法，其中，所述偏好是用户最喜欢的足球队或者最喜欢的集锦套件作者中的任一者。

9.根据权利要求1所述的方法，包括向所述服务器传送由所述客户端设备的用户提供的对所述集锦套件的注解。

10.根据权利要求1所述的方法，包括向所述服务器传送所述集锦套件的经修改版本。

11.一种在客户端设备上生成集锦套件的方法，包括在所述客户端设备处：接收包括多个帧的视频流，生成视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并且将所述位置信息和唯一地标识出所述视频流中的帧的帧标识符传输给服务器。

12.根据权利要求5所述的方法，还包括在所述客户端设备处生成限定了写在所述帧的片段上的注解的注解信息。

13.一种包括计算机可读指令的计算机程序，所述计算机可读指令当被载入到计算机上时将所述计算机配置为执行根据权利要求1所述的方法。

14.一种存储介质，被配置为在其中或其上存储根据权利要求13所述的计算机程序。

15.一种客户端设备，包括接收器和显示器，所述接收器可操作来接收包括多个帧的视频流并从服务器接收视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，所述显示器在使用时可操作来向用户显示所限定的片段。

16.根据权利要求15所述的设备，其中，所述接收器还可操作来接收注解信息，所述注解信息限定了要写在所显示的帧的片段上的注解。

17.根据权利要求15或16所述的设备，其中，所述接收器还可操作来从除了提供所述视场信息的所述服务器之外的源接收所述视频流。

18.根据权利要求17所述的设备，其中，所述源是对等源。

19.根据权利要求15所述的设备，包括输出设备，该输出设备可操作来从所述客户端设备向所述服务器传送对所述集锦套件的用户评分。

20.根据权利要求15所述的设备，其中，所述接收器还可操作来在所述客户端设备处接收基于针对所述集锦套件的评分来选择的视频流。

21.根据权利要求15所述的设备，其中，所述接收器还可操作来在所述客户端设备处接收基于由所述客户端设备的用户提供的且被存储在所述服务器内的偏好来选择的视频流。

22.根据权利要求21所述的设备，其中，所述偏好是用户最喜欢的足球队或者最喜欢的集锦套件作者中的任一者。

23.根据权利要求15所述的设备，其中，所述输出设备还可操作来向所述服务器传送由所述客户端设备的用户提供的对所述集锦套件的注解。

24.根据权利要求15所述的设备，其中，所述输出设备还可操作来向所述服务器传送所述集锦套件的经修改版本。

25.一种用于在客户端设备上生成集锦套件的设备，包括接收器、生成设备和输出设备，所述接收器可操作来接收包括多个帧的视频流，所述生成设备可操作来生成视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并且所述输出设备可操作来将所述位置信息和唯一地标识出所述视频流中的帧的帧标识符传输给服务器。

26.根据权利要求25所述的设备，其中，所述生成设备可操作来在所述客户端设备处生成限定了写在所述帧的片段上的注解的注解信息。

27.一种***，包括连接到网络的服务器，该服务器在使用时与根据权利要求15所述的设备通信。