CN102196280A

CN102196280A - 方法、客户端设备和服务器

Info

Publication number: CN102196280A
Application number: CN2011100394512A
Authority: CN
Inventors: 罗伯特·马克·斯特凡·波特; 斯蒂芬·马克·凯汀; 克里夫·亨利·吉尔拉德
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-02-15
Filing date: 2011-02-15
Publication date: 2011-09-21
Also published as: GB2477793A; GB201002549D0; US20110199372A1; US8965043B2

Abstract

公开了方法、客户端设备和服务器。描述了一种在客户端设备处检测图像中的对象的方法。此方法包括以下步骤：从服务器接收场景的二维图像，场景被相机拍摄并且图像包括位于场景内的对象，从服务器接收位置数据，位置数据指示出对象在图像内的位置；从服务器接收对象在该位置处的轮廓表示，轮廓表示针对图像在该位置处的片段中的像素位置限定该像素位置是否表示对象；以及基于所述轮廓，在图像中检测对象。

Description

方法、客户端设备和服务器

技术领域

本发明涉及方法、客户端设备和服务器。

背景技术

目前，家庭中的电视显示器只显示二维内容。然而，能够显示三维内容的电视显示器正在被生产。为了受益于这些显示器的额外能力，内容正在被开发。

为了生成三维内容，同一场景的两个图像被拍摄并被发送到电视显示器。这些图像相对于彼此有水平位移。水平位移的程度决定了三维效果的量。已知如何从两个水平位移的图像创建三维的或者说立体的图像。

然而，在电视显示器上生成三维图像的这种方法要求广播两个相似的图像。这要求大量的带宽，尤其如果要显示高清晰度图像则更是如此。另外，由于两个图像在被拍摄时必须有非常精确的位移，所以能够拍摄用于作为三维内容显示的图像的相机和装配台(rig)是非常昂贵的。

本发明的实施例的目标是解决这些问题。

发明内容

根据第一方面，提供了一种在客户端设备处检测图像中的对象的方法，包括以下步骤：从服务器接收场景的二维图像，场景被相机拍摄并且图像包括位于场景内的对象；从服务器接收位置数据，位置数据指示出对象在图像内的位置；从服务器接收对象在该位置处的轮廓表示(outlinerepresentation)，该轮廓表示针对图像在该位置处的片段中的像素位置限定该像素位置是否表示对象；以及基于所述轮廓，在图像中检测对象。

这之所以有利是因为，为了在图像中检测对象，在服务器与客户端设备只传送少量数据。这减小了所需的带宽。

该方法还可包括从服务器接收距离数据，该距离数据指示出在该位置处对象与相对于相机的参考点的距离。

该方法还可包括在时间上周期性地从服务器接收距离数据。

该方法还可包括向服务器注册客户端设备并且响应于这种注册而接收距离数据。

该方法还可包括：接收另一二维图像，该另一二维图像与第一接收图像相比具有场景的不同但交迭的视场；从服务器接收拼接参数；通过根据拼接参数将第一接收图像拼接到另一接收图像并且在拼接的图像中检测对象来生成场景的全景图像的至少一部分。

根据第二方面，提供了一种生成用于显示的立体图像的方法；包括如其他实施例中的在客户端设备处检测图像中的对象的方法；在客户端设备处接收指示出要用于显示立体图像的屏幕的大小的显示数据；以及通过使检测到的对象在图像内的位置位移某一量来生成经修改的图像，位移量取决于场景中参考点与对象之间的距离以及显示数据，从而使得当接收到的二维图像和经修改的图像都在显示器上被立体地显示时，所拍摄的对象看起来距显示器预定的距离。

该方法还可包括：从服务器接收背景图像信息，该背景图像信息限定了场景的相对于相机的位置而言在对象的后面的至少一部分；以及在经修改的图像中，在对象的一部分上***背景图像信息的与对象的所述部分相对应的部分。

该方法还可包括使所述背景图像信息在所述经修改的图像中位移，其中位移量取决于背景与所述参考点之间的距离。

位移量还可以是根据用户偏好来确定的。

根据另一方面，提供了一种可连接到服务器的客户端设备，该客户端设备包括：接口，其可操作来从服务器接收场景的二维图像，场景被相机拍摄并且图像包括位于场景内的对象，接口还可操作来从服务器接收位置数据和对象在该位置处的轮廓表示，位置数据指示出对象在图像内的位置，轮廓表示针对图像在该位置处的片段中的像素位置限定该像素位置是否表示对象；以及对象检测器，其基于所述轮廓在图像中检测对象。

接口可操作来从服务器接收距离数据，该距离数据指示出在该位置处对象与相对于相机的参考点的距离。

接口可操作来在时间上周期性地从服务器接收距离数据。

客户端设备还可包括注册设备，该注册设备可操作来向服务器注册客户端设备，并且接口还可操作来响应于这种注册而接收距离数据。

接口可操作来接收另一二维图像，该另一二维图像与第一接收图像相比具有场景的不同但交迭的视场，并且接口可操作来从服务器接收拼接参数；并且一生成器可操作来通过根据拼接参数将第一接收图像拼接到另一接收图像并且在拼接的图像中检测对象来生成场景的全景图像的至少一部分。

客户端设备还可生成用于显示的立体图像；其中接口可操作来在客户端设备处接收指示出要用于显示立体图像的屏幕的大小的显示数据；并且设备还包括图像生成器，该图像生成器还可操作来通过使检测到的对象在图像内的位置位移某一量来生成经修改的图像，位移量取决于场景中参考点与对象之间的距离以及显示数据，从而使得当接收到的二维图像和经修改的图像都在显示器上被立体地显示时，所拍摄的对象看起来距显示器预定的距离。

接口还可操作来从服务器接收背景图像信息，该背景图像信息限定了场景的相对于相机的位置而言在对象的后面的至少一部分；并且在经修改的图像中，图像生成器还可操作来在对象的一部分上***背景图像信息的与对象的所述部分相对应的部分。

图像生成器可操作来使所述背景图像信息在所述经修改的图像中位移，其中位移量取决于背景与所述参考点之间的距离。

位移量还可以是根据用户偏好来确定的。

根据另一方面，提供了一种向客户端设备提供对象检测数据的方法，包括以下步骤：从相机元件接收场景的二维图像，图像包括位于场景内的对象；从图像生成位置数据，位置数据指示出对象在图像内的位置；生成对象在该位置处的轮廓表示，轮廓表示表示针对图像在该位置处的片段中的像素位置限定该像素位置是否表示对象；以及向客户端设备发送二维图像、位置数据和轮廓表示。

该方法还可包括生成距离数据，该距离数据指示出在该位置处对象与相对于相机的参考点的距离。

该方法还可包括在时间上周期性地向客户端设备发送距离数据。

该方法还可包括在服务器处注册客户端设备并且响应于这种注册而发送距离数据。

该方法还可包括：向客户端设备发送另一二维图像，该另一二维图像与第一接收图像相比具有场景的不同但交迭的视场；以及从服务器发送拼接参数。

根据本发明的另一方面，提供了一种可连接到客户端设备的服务器，该服务器包括：可操作来向客户端设备发送场景的二维图像的接口，场景被相机拍摄并且图像包括位于场景内的对象；对象检测器，其可操作来生成位置数据，位置数据指示出对象在图像内的位置，并且对象检测器还可操作来生成对象在该位置处的轮廓表示，轮廓表示表示针对图像在该位置处的片段中的像素位置限定该像素位置是否表示对象；以及可操作来向客户端设备发送位置数据和轮廓表示的接口。

检测器可操作来生成距离数据，该距离数据指示出在该位置处对象与相对于相机的参考点的距离，并且接口可操作来将距离数据发送到客户端设备。

接口可操作来在时间上周期性地从服务器发送距离数据。

服务器还可包括注册设备，该注册设备可操作来注册客户端设备，并且接口还可操作来响应于这种注册而发送距离数据。

接口可操作来发送另一二维图像，该另一二维图像与第一接收图像相比具有场景的不同但交迭的视场；拼接参数生成器可操作来生成拼接参数；并且所述接口还可操作来将所述拼接参数发送到客户端设备。

根据另一方面，提供了一种计算机程序，其包含计算机可读指令，所述指令在被加载到计算机上时将计算机配置为执行根据上述实施例中任何一个所述方法。

附图说明

从以下将联系附图来理解的对示例性实施例的详细描述中，将清楚本发明的以上和其他目的、特征和优点，附图中：

图1示出了根据本发明的实施例的***；

图2示出了根据本发明的实施例的客户端设备；

图3示出了描述图1的***的操作的流程图；

图4示出了根据本发明的示例的对象跟踪的方法的流程图；

图5A和5B是对象跟踪的示例性方法的示意图；

图6是示例性遮蔽(occlusion)检测方法的示意图；

图7是描述遮蔽检测和对象跟踪的示例性方法的流程图；

图8A和8B是描述遮蔽检测和对象跟踪的示例性方法的示意图；

图9是根据本发明实施例的用于确定相机的视场内的对象之间的距离的***的示意图；

图10是根据本发明实施例的用于确定相机的视场内的对象之间的距离的***的另一示意图；

图11示出了根据本发明实施例在客户端设备中生成图像以使这些图像能够作为三维图像被用户观看的***；并且

图12A至12C示出了截屏图的示意图，其说明了根据本发明实施例的对象的二值表示的生成。

具体实施方式

图1中示出了***100。在此***100中，相机布置130拍摄场景的图像。在实施例中，该场景是体育事件，比如足球比赛，但是本发明并不限于此。在此相机布置130中，三个高清晰度相机位于装配台(未示出)上。布置130使得能够生成拼接的图像。布置130因此使每个相机拍摄同一场景的不同部分，其中在每个相机之间存在视场的小交迭。三个图像各自是高清晰度图像，这些高清晰度图像在被拼接在一起时产生超高清晰度图像。由相机布置130中的三个相机拍摄的三个高清晰度图像被馈送到图像处理器135中，图像处理器135执行对图像的编辑，例如颜色增强。另外，图像处理器135从相机布置130中的相机接收与诸如焦距、变焦倍数等等之类的相机参数有关的元数据。增强的图像和元数据被馈送到服务器110中。

在实施例中，实际的图像拼接是在用户设备200A-N中执行的。然而，为了减少用户设备200A-N内的计算花费，执行拼接所需的参数是在与图像处理设备135相连的服务器110内计算的。服务器110可以直接地或经由诸如局域网、广域网或因特网之类的网络以有线或无线方式连接到图像处理器135。计算参数和实际执行拼接的方法在GB 2444566A中记载。GB 2444566中还公开了适当类型的相机布置130。

如GB 2444566中所述，相机布置130中的每个相机的相机参数被确定。这些参数包括每个相机的焦距和相对横倾、纵倾、横摆以及针对透镜畸变、桶形畸变等等进行校正的参数，并且是在服务器110上确定的。另外，拼接图像所需的诸如色差校正参数、比色和曝光校正参数之类的其他参数也可在服务器110中计算。另外，正如本领域的技术人员将会明白的，在服务器110中可以计算图像拼接过程所需的其他值。这些值已在GB 2444566A中说明并且因此为了简洁将不在下文中说明。在服务器110中计算的这些值被发送到每个用户设备200A-N，稍后将对此进行说明。

除了在服务器110内计算图像拼接参数以外，还发生其他计算。例如，发生对象检测和分割，以识别和提取图像中的将被应用三维效果的对象。还在服务器110内确定标识每个检测到的对象在图像内的位置的位置信息。另外，在服务器110内计算限定每个分割出的对象的轮廓的二值表示。二值表示还详细描述分割出的对象的高度和宽度。稍后将参考图12A-C来说明二值表示。

另外，在服务器110内生成深度图。深度图为相机所拍摄的图像中的每个像素分配一个在拍摄的场景中与相机的相应距离。换言之，一旦为拍摄的图像完成深度图，就可以确定场景中与像素相对应的点与拍摄图像的相机之间的距离。在服务器110内还维护两个背景模型。具体而言，在服务器110内有长期背景模型和短期背景模型。长期背景模型定义了在较长的一段时间(例如5分钟)期间图像中的背景，而短期背景模型则定义了在较短的时段(例如1秒)期间的背景。对短期和长期背景模型的使用使得能够考虑到诸如照明变长之类的短期事件。在服务器110内计算的深度图被发送到每个用户设备200A-N。在实施例中，相机布置130内的每个相机是固定的。这意味着深度图不随着时间而变化。然而，每个相机的深度图根据触发而被发送到每个用户设备200A-N，以允许新的用户设备连接到服务器110。例如，深度图可以在新的用户设备向服务器110注册时或者在时间上周期性地被送出。将会明白，如果相机的视场移动，则深度图需要被更频繁地重新计算并发送到用户设备200A-N。

稍后将说明生成深度图和背景模型的方式。另外，稍后将说明执行对象检测和对象分割的方式以及如何生成二值表示。

多个用户设备200A-N也连接到服务器110。这些用户设备200A-N在实施例中通过因特网120连接到服务器110。然而，要理解本发明并不限于此，并且用户设备200A-N可以通过诸如局域网(LAN)之类的任何类型的网络连接到服务器110，或者可以有线连接到服务器110或无线连接到服务器110。相应的显示器205A-N也附接到每个用户设备。显示器205可以是电视，或者监视器，或者任何种类的能够显示出可被用户感知为三维图像的图像的显示器。

在本发明的实施例中，用户设备200A-N是3游戏控制台。然而，本发明并不限于此。实际上，用户设备可以是机顶盒、计算机或任何其他类型的能够处理图像的设备。

用户设备200A的示意图在图2中示出。用户设备包含存储介质220。在本发明的实施例中，存储介质220是硬盘驱动器，但本发明并不限于此。存储介质可以是光介质，或者半导体存储器，等等。

中央处理器250连接到存储介质220。在实施例中，中央处理器250是Cell处理器。Cell处理器在实施例中是有利的，因为它尤其适合于诸如图像处理之类的复杂计算。

还有无线附件接口210也连接到中央处理器250，无线附件接口210适合于连接到无线附件210A并与之通信。在实施例中，无线附件210A是用户操作的设备，其可以是六轴控制器，但本发明并不限于此。六轴控制器使得用户可以与用户设备200A交互并控制用户设备200A。

另外，图形处理器230连接到中央处理器250。图形处理器230可操作来连接到显示器205A并且控制显示器205A显示立体图像。

将会明白，诸如音频处理器240之类的其他处理器连接到中央处理器250。

现在将参考图3来描述根据本发明实施例的图1的***的操作。

当用户开启用户设备200A时，用户使用无线附件210A来选择其希望在显示器205A上观看的特定事件。此事件可以是流行音乐会、体育事件或任何种类的事件。在以下示例中，该事件是足球比赛。此选择是开始步骤S30。

为了观看该事件，用户可能需要支付一次性费用，或者该事件可能是一个订购包的一部分。此费用或订购包可以通过在观看事件之前在用户设备200A中输入***详情来购买。或者，该事件可以通过任何其他手段来购买，或者实际上该事件可以是免费的。为了观看该事件，用户将需要向服务器110注册。用户设备200A因此相对于服务器110充当客户端设备。此注册在步骤S35中发生，并且使得服务器110可以从用户设备200A获得必要信息，例如IP地址等等，用以使得服务器110与用户设备200A-N之间能够发生通信。另外，服务器110在这个阶段可以收集其他信息，例如与用户要观看的事件有关的信息，以便允许对该用户做针对性广告。

在注册之后，用户在步骤S310中确认其希望观看的事件并且确认支付详情。

在步骤S315中，用户设备200A从服务器110和显示器205A两者接收初始化信息。来自显示器205A的初始化信息可包括与屏幕的大小有关的信息。这可以直接从显示器205A获得或者由用户输入。来自服务器110的初始化信息包括拼接参数和深度图。可以响应于来自用户设备200A的请求而提供初始化信息或者可以响应于注册而从服务器110传送初始化信息。或者，可以周期性地向连接到服务器110的每个用户设备200A传送初始化信息。这里应当注意，只需要向用户设备200A提供深度图和拼接参数一次，因为相机布置130是固定的。在相机布置130可移动的情况下，则将更定期地提供初始化信息。初始化信息被存储在存储介质220中。

在步骤S320中，服务器110提供来自相机布置130中的每个相机的高清晰度图像。用户设备200A的中央处理器250使用在服务器110中计算并存储在存储介质220中的拼接参数来形成超高清晰度图像。用户设备200A用来将图像拼接到一起的方法在GB 2444566A中记载。另外，在这个阶段，用户还可以确定其希望对该事件具有的视场。将利用接口210A来选择此视场。用户设备200A用来允许选择适当视场的方法也在GB2444566A中记载。

此外，对于每个拍摄的图像，服务器110分析该图像以检测该图像中的对象。服务器110分析图像的方式在下文中论述。在检测图像中的对象之后，产生检测到的对象的二值表示。这将在稍后说明。还产生标识对象位于图像中何处的位置数据。这也将在稍后论述。

如前所述，在服务器110内还生成场景的背景模型。这在下面的题为“对象跟踪和检测”一节中描述。鉴于此，对于图像内每个检测到的对象，服务器110还从背景图像中得出检测到的对象后面的背景。

高清晰度图像、图像内的分割出的对象、位置数据、二值表示以及每个检测到的对象后面的背景被发送到用户设备200A。通过在服务器110内计算上述参数，减少了整体上***内的数据处理量。这是因为参数被计算一次并且结果被发送到每个用户设备200A-N，而不是每个用户设备200A-N必须各自计算这些参数。另外，通过在服务器110内生成参数，处理负担被加诸在服务器110上，而服务器110与每个用户设备200A-N相比更容易被配置来针对重处理负担而加以优化。另外，通过将检测到的对象的二值表示与图像一起传送，网络中的数据流量的量减少了。这是因为用户设备200A可以非常容易地提取检测到的对象并且生成用于立体观看的经修改(位移)的版本，但在服务器110与用户设备200A之间除了图像之外只传送了很少量的信息。

在用户设备200A从服务器110接收到前述信息之后，用户设备200A执行图像拼接。这是步骤S325。此外，利用深度图、对象的二值表示、图像中检测到的对象的位置数据以及适当的背景信息，用户设备200A向超高清晰度图像应用三维效果。

应当注意，以下说明涉及单个相机拍摄的图像。本领域的技术人员将会明白，以下内容可以应用到每个相机拍摄的每个相机或者应用到超高清晰度图像。

对象检测和跟踪(在服务器110中进行)

现在将参考图4、5和6描述根据本发明的示例的对象跟踪。

图4示出了根据本发明的示例的对象跟踪的方法的流程图。为了跟踪对象，从接收到的视频的如下部分构造背景模型：这些部分被检测为在预定数目的帧期间基本上是静止的。在第一步骤S20中，从布置130内的一个相机接收的表示足球场的视频图像被处理以构造图像的背景模型。构造背景模型是为了创建前景遮罩(foreground mask)，其帮助识别和跟踪各个球员。前景遮罩将用于生成稍后说明的球员的二值表示。在步骤S20，通过为每个像素确定在接连的帧之间像素的均值和像素值的方差以便构建背景模型，来形成背景模型。从而，在接连的帧中，在像素的均值没有大变化的情况下，则这些像素可被识别为背景像素以便识别前景遮罩。

这种背景/前景分割是图像处理领域中已知的过程，并且本技术利用了在2004年的ICVGIP学报中发表的Manzanera和Richefeu所著的题为“Arobust and Computationally Efficient Motion Detection Algorithm Based on ∑-ΔBackground Estimation”的文献中记载的算法。然而，本技术不应当被理解为限于此已知技术，还知道其他用于相对于背景模型生成前景遮罩以用于跟踪中的技术。

将明白，在视频相机的视场包含观众中的一些人的情况下，观众不太可能被包括在背景模型中，因为他们很有可能在四处移动。这是不合需要的，因为这在执行对象跟踪时有可能增大Cell处理器上的处理负担，并且也是不必要的，因为大多数体育广播公司不太可能对跟踪观众中的人感兴趣。

在本发明的示例中，背景模型是在比赛开始时构造的，并且甚至可以在球员进入球场之前完成。这被称为长期背景模型。此外，在整个比赛期间可以周期性地重新计算背景模型，以便考虑照明条件的任何变化，例如在整个比赛期间可能发生变化的阴影等等。这是短期背景模型。在比赛开始时计算的背景模型和周期性重计算的背景模型都被存储在服务器110中。对于以下的说明，使用长期背景模型。

在步骤S40中，从来自相机的传入图像中减去背景模型以识别差异区域。从而，背景模型被从图像中减去并且所得到的图像被用于为每个球员生成遮罩。在步骤S45中，在减去背景模型后得到的图像的版本中，针对像素值创建阈值。通过首先确定在视频图像的一系列帧期间像素的均值来生成背景模型。根据每个像素的均值，可以从视频图像的帧计算每个像素的方差。像素的方差随后被用于确定阈值，在视频图像的所有像素上，该阈值对于每个像素将是不同的。对于与图像的方差较高的部分(例如包括观众的部分)相对应的像素，阈值可以被设定为较高的值，而图像的与球场相对应的部分将具有较低的阈值，因为球场的颜色和内容将是始终相同的，除了出现球员之外。从而，阈值将决定是否存在前景元素因此前景遮罩可相应地被识别。在步骤S50中，基于与平均人类形状模型的相关运算的形状概率被用于提取前景遮罩内的形状。另外，从图像中提取颜色特征以创建颜色概率遮罩，以便例如根据球员的球衣的颜色识别球员。从而，每一队的球衣的颜色可用于将球员相互区分开。为此，服务器110依据每个足球队的队服的已知颜色来生成颜色模板。从而，需要每一队的球衣的颜色，守门员的球衣的颜色和裁判的上衣的颜色。然而，将会明白，也可使用其他适当的颜色模板和/或模板匹配过程。

返回图4，在步骤S50中，服务器110将每个颜色模板的每个像素与对应于球员的图像的球衣区域的像素相比较。服务器110随后生成指示出颜色模板的像素与所选像素之间的相似性的概率值，以根据球队和球场颜色模型生成基于色度饱和度值(HSV)颜色空间中的距离的颜色概率。此外，形状概率被用于定位球员，其是基于与平均人类形状模型的相关运算的。另外，运动概率是基于与由递归最小二乘估计器利用起始位置、速度和加速度参数来预测的位置的距离的。

球员遮罩的创建在图5A中示出。图5A示出了由布置130中的相机之一生成的足球场的相机视野210。如已经说明的，球场形成背景模型的一部分，而球员230、232、234、236、238、240如上所述应当形成前景遮罩的一部分。球员界限框可以被称为矩形轮廓，被示为围绕每个球员的虚线。

至此，关于相机图像处理，执行了步骤S30、S40、S45和S50。在设计了前景遮罩之后，在首先在步骤S55中按与相机的接近度对球员踪迹排序之后，执行球员跟踪。从而，被识别为最靠近相机的球员被首先处理以便将这些球员从跟踪过程中去除。在步骤S60，球员位置被更新以便使形状、颜色和运动概率最大化。在步骤S70中，创建遮蔽遮罩，其排除已知被其他更靠近的球员踪迹覆盖的图像区域。这确保了被其他球员部分或全部遮蔽的球员只能被匹配到可见的图像区域。遮蔽遮罩提高了跟踪可靠性，因为它减少了踪迹合并的发生(由于踪迹合并，在遮蔽事件之后两条踪迹跟随同一球员)。当许多目标看起来相同时这尤其成问题，因为不能(容易地)按颜色来区分他们。遮蔽遮罩使得像素可以被指派给近处的球员，而排除较远的球员，从而防止了两个踪迹匹配到同一组像素并从而维持其各自的身份。

接下来是通过提取在相机图像内提供的特征并将这些特征匹配到3D模型来跟踪每个球员的过程，如图5A和5B所示。从而，为了对应由相机产生的2D图像内的位置，使形状、颜色和运动概率最大化的3D位置被指派给球员。如即将说明的，如果检测到遮蔽事件，则从2D图像选择球员并将其映射到3D模型的操作将被修改。为了帮助从2D图像映射到3D模型，在步骤S65中，要跟踪的球员被初始化，以便形状和颜色概率中的峰值被映射到对球员的最适当选择。应当强调，在步骤S65执行的跟踪初始化只被执行一次，通常是在跟踪过程开始时。为了进行***的良好的跟踪初始化，球员应当被很好地分开。在跟踪初始化之后，根据本技术自动校正对球员的跟踪的任何差错，这不要求手动干预。

为了实现从2D图像位置在3D模型中跟踪，通过使用投影矩阵P来实现变换。跟踪要求2D图像位置能够与3D模型内的位置相关。此变换是通过使用投影(P)矩阵来实现的。2D空间中的一个点等同于3D空间中的一条线：

[\begin{matrix} x \\ y \\ 1 \end{matrix}] = [\begin{matrix} P_{00} & P_{01} & P_{02} & P_{03} \\ P_{10} & P_{11} & P_{12} & P_{13} \\ P_{20} & P_{21} & P_{22} & P_{23} \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} x^{'} \\ y^{'} \\ z^{'} \\ w \end{matrix}]

2D空间中的一个点等同于3D空间中的一条线，因为第三维亦即与相机的距离不是已知的并且因此相应地看起来将是3D模型上的一条线。对象(球员)的高度可用于确定与相机的距离。通过选择该条线上位于已知的地平面上的固定高度(平均人类高度)处的点来获得3D空间中的点。投影矩阵P是通过相机校准过程在匹配之前先验地获得的，对于每个相机获得一次，其中诸如球场30的边角31a、31b、31c、31d之类的球场的物理特性被用于确定相机参数，相机参数因此可帮助将已识别的球员的2D位置映射到3D模型上。这是利用已确立的方法的已知技术。至于物理参数，投影矩阵P包含了相机的变焦级别、焦点中心、3D位置和3D旋转向量(指向何处)。

在步骤S60中执行的跟踪算法是可扩展的并且可对一个或多个相机操作，只要求从至少一个相机可以(以足够的分辨率)看见球场上的所有点。

除了颜色和形状匹配以外，步骤S60还包括一个过程，其中被跟踪的球员的运动也被包括以便以更高的概率正确地识别每个球员。从而，可以就有关运动和方向两者来确定在帧之间球员的有关运动。从而，相对运动可用于后续的帧以产生用于识别特定球员的搜索区域。另外，如图5B所示，可以用线条230.1、232.1、234.1、236.1、238.1、240.1来扩增足球场的3D模型，这些线条是相对于球员的位置的图形指示而定位的，以便反映出足球场上的球员的运动的相对方向。

在步骤S70，一旦在3D模型中识别了球员的相对位置，就将此位置相应地投影回足球场的2D图像视野中，并且在球员周围投影根据其在3D模型中的位置而识别的相对界限。在步骤S70，随后还将球员周围的相对界限添加到该球员的遮蔽遮罩。

图5B示出了足球场的虚拟模型220的平面视图。在图5B所示的示例中，服务器110已经识别出球员230、232和234(在球场的左手侧)已被服务器110穿着与球员236、238和240(在球场的右手侧)不同颜色的足球衣，从而表明它们是不同球队的。以这种方式区分球员使得在遮蔽事件之后检测每个球员更加容易，因为很容易按其衣服的颜色来相互区分他们。

返回参考图4，在步骤S60，利用诸如Kalman滤波之类的已知技术来跟踪每个球员的位置，但将会明白，也可使用其他适当的技术。此跟踪在相机视野210和虚拟模型220中都发生。在本发明的示例中，由服务器110利用球员在虚拟模型220中的位置进行的速度预测被用于帮助在相机视野210中跟踪每个球员。

步骤S60和S70被重复，直到所有球员已被处理为止，这由判决框S75表示。从而，如果不是所有球员都已被处理，则处理进行到步骤S60，而如果处理已完成，则处理在S80终止。

如图4中所示，所示出的方法包括额外的步骤S85，如果图像是由不止一个相机产生的则可能需要此步骤。这样，可以对来自每个相机的视频图像执行过程步骤S20至S80。这样，每个球员将被提供以来自每个相机的检测概率。因此，根据步骤S85，根据来自每个相机的每个球员的概率来估计每个球员的位置，并且球员的位置是根据每个相机提供的概率之中最高的那个来估计的，从而每个球员的具有最高概率的位置被识别为该球员的位置。此位置是以上提到的位置数据。

如果已经确定在对足球场上的球员进行跟踪时发生了差错，则可以在S90中重初始化该球员的踪迹。在特定球员的检测概率对于特定踪迹相对较低的情况下产生对跟踪差错的检测，并且因此踪迹被重初始化。

执行图4所示的方法的结果是为每个球员生成路径数据，路径数据提供了球员在视频图像的每个帧中的位置，这代表了该球员在整个比赛期间所行经的路径。这个计算出的位置是被发送到用户设备200A的位置数据。从而，位置数据提供了相对于时间的位置。

如果如图6中所示一个球员遮蔽另一球员的全部或一部分，则当从单个相机视野跟踪每个球员的位置时，可能发生问题。

图6示出了多个球员310、320、330和340以及他们相关联的界限框，这些界限框由每个球员周围的虚线指示。球员310和340彼此可清楚区分，而球员320则遮蔽了球员330的一部分。这就是所谓的遮蔽事件。遮蔽事件可发生在一个球员的全部或一部分遮蔽了至少一个其他球员的全部或一部分时，其效果是对球员的跟踪变得含糊不明，即使在考虑了诸如球员的相对运动和方向之类的其他因素之后也是如此。然而，将会明白，涉及两个或更多个球员的遮蔽事件是可能发生的。

为了检测遮蔽事件，服务器110检测与一球员相关联的遮罩的全部或一部分是否和与另一球员相关联的遮罩的全部或一部分出现在同一图像区域中，如图6所示。在遮蔽事件中涉及的球员属于对立的球队并从而有不同颜色的球衣的情况下，他们可以很容易被区分并从而被跟踪。然而，在遮蔽事件之后，如果球员都是同一方的，则服务器110可能不能区分哪个球员是哪个，尤其因为他们在遮蔽事件之后的运动(例如是由碰撞引起的)可能不是可预测的并且因此可能不能正确地跟踪球员。结果，指派给每个球员的跟踪路径可能被交换了。

为了解决被跟踪的球员的含糊性，服务器110利用在遮蔽事件中涉及的所有那些球员的身份来标记在遮蔽事件中涉及的所有球员。然后，在之后某时，如果这些球员中的一个或多个变得易于区分，则服务器110使用此信息来将球员的身份重新指派给正确的球员，以便维持哪个球员是哪个的记录。参考图7来更详细描述此过程。

图7示出了根据本发明的示例的对象跟踪和遮蔽检测的方法的流程图。

在步骤S100，服务器110对拍摄的视频图像执行图像处理以便提取一个或多个图像特征，如以上参考图4所述。然后将所提取的图像特征与从对象的可能示例中提取的相应图像特征相比较以便识别每个对象。在一示例中，根据球衣的数目来识别球员。服务器110随后为每个对象生成标识每个对象的对象标识。或者，在一示例中，经由操作员接口由操作员来标识每个对象(例如球员)。服务器110随后使用从操作员接口输入的数据来生成对象标识数据。然而，本领域的技术人员将会明白，可以将图像识别技术与操作员进行的标识相结合来生成对象标识数据或者可以使用其他适当的对象标识方法，例如数字识别，其通过球员的球衣背面的数字来标识球员。

在步骤S105，服务器110依据在步骤S100提取的一个或多个图像特征，检测要检测的任何对象，例如球员，如以上参考图4所述。如上所述，还利用虚拟模型220和相机视野210两者来跟踪每个球员。服务器110使用在跟踪过程期间生成的数据来生成和存储描述每个对象在所接收的视频图像内所行经的路径的对象路径数据。对象路径数据采取球员的x-y坐标相对于时间的采样的形式。在本发明的示例中，路径数据具有格式(t_i，x_i，y_i)，其中t_i是采样时间，并且x_i和y_i是对象在采样时间t_i的x和y坐标。然而，将会明白，也可使用其他适当的路径数据格式。

在步骤S115，服务器110将每个对象的对象标识数据以及关于每个对象在视频图像内所行经的路径的对象路径数据记入日志。所记入日志的数据被存储在服务器110的硬盘驱动器(HDD)上或动态随机访问存储器(DRAM)中。这样就可以保持关于哪个球员与每个检测和跟踪的路径相关联的记录。所记入日志的数据随后可用于生成关于每个球员以及在比赛期间其在何处的数据。例如，可以根据在关联日志中存储的数据来生成一球员在球场的特定区域中所花的时间。此信息在比赛结束时可被发送到用户设备200A，并且可被显示给用户，如果其希望的话。在本发明的实施例中，所显示的记入日志的数据可包括球员经过的距离。这将由用户设备200A的用户来选择。另外，如果出于任何原因，球员与路径之间的关联变得含糊(例如在遮蔽事件后可能发生)，则对此的记录可以被保持，直到如上所述该含糊被解决为此。所记入日志的对象标识数据以及对象路径数据的示例在以下的表1中示出。

表1

每个对象的对象标识数据与该对象的对象路径数据之间的关联使得每个对象可以被相应的跟踪和识别。在上述示例中，每个球员可被跟踪，因此允许了广播公司知道哪个球员是哪个，即使该球员可能离得太远而不能***作员或者由服务器110进行的图像识别从视觉上识别。这使得广播公司可以包含基于此关联的进一步特征和信息，这些特征和信息可能是广播内容的观看者想要的。在步骤S120，服务器110检测是否发生了遮蔽事件，如以上参考图6所述。如果没有检测到遮蔽事件，则过程返回到步骤S105，在该步骤中检测对象。这样，可以分别跟踪每个对象并且可将每个对象的路径与该对象的身份唯一地关联。

然而，如果检测到遮蔽事件，则在步骤S125，服务器110将遮蔽事件中涉及的每个对象的对象标识数据与遮蔽事件中涉及的每个对象的对象路径数据关联起来。例如，如果被标记为A和B的两个对象分别与路径P和Q相关联，则在检测到涉及对象A和B的遮蔽事件之后，路径P将与A和B两者相关联，并且Q将与A和B两者相关联。在遮蔽事件之后服务器110生成的关联随后如上所述被记入日志。这使得可以跟踪在遮蔽事件中涉及的对象(例如球员)，而无需重新识别每个对象，即使有些不确定哪个球员是哪个。因此，服务器110上的处理负担减轻了，因为哪有在遮蔽事件中涉及的那些对象才被含糊地识别，而在遮蔽事件中不涉及的对象仍可被识别。

在步骤S130，服务器110进行检查以查明是否已经对遮蔽事件中涉及的对象中的一个或多个进行了识别从而可以确定与所生的路径相关联的对象的身份。对对象中的至少一个的识别由服务器110通过将与该对象相关联的一个或多个图像特征与从对象的可能示例中提取的图像特征相比较来执行。如果没有进行识别，则过程转到步骤S105，其中所生成的每个对象的路径数据与遮蔽事件中涉及的所有那些对象相关联。

然而，如果检测到对遮蔽事件中涉及的对象中的一个或多个的识别已发生，则在步骤S135，记入日志的路径数据被更新以反映被肯定地识别的对象的身份。在以上给出的示例中，关联日志将被更新，以使得A与路径P相关联，并且B与路径Q相关联。

或者，对对象的识别可由操作员经由操作员接口来执行，由服务器110利用图像识别技术根据本发明的示例(如上所述)来执行，或者由两种技术的组合来执行。然而，将会明白，可以使用适合于区分或识别每个对象的任何其他识别技术。在图像识别的情况下，服务器110可生成置信级别，其表明图像识别过程进行的识别正确的可能性有多大。在本发明的示例中，在置信级别大于预定的阈值的情况下，则确定识别。此外，操作员可以向其识别指派置信级别，并且如果该置信级别超过预定的阈值，则检测到了识别。

在本发明的示例中，生成事件的历史，其表明所记入日志的路径数据何时被更新，并且其也可被存储，以便万一肯定的识别被证明原来是不正确的情况下充当后备。例如，在以下情况下识别可能被证明原来是不正确的：操作员确信远离相机布置130的球员具有特定的身份，但随着球员靠近视频相机(从而允许了用户看到球员的更高清晰度图像)，操作员意识到其弄错了。在此情况下，他们可以使用操作员接口来推翻其先前对球员的识别，以便服务器110可以相应地更新所记入日志的路径数据。在以上给出的示例中，识别事件历史可被存储在服务器110的硬盘驱动器(HDD)上或动态随机访问存储器(DRAM)中，带有表明在肯定识别之前路径P曾与A和B两者相关联并且路径Q曾与A和B两者相关联的数据。

识别事件历史还可包括在识别过程期间生成的置信级别。如果对对象做出具有比先前肯定识别更高的置信级别的后续识别，则后续识别的置信级别可用于核实或废止先前识别。

将会明白，在检测到遮蔽事件后，可以在遮蔽事件之后的任何时间识别对象，以便消除遮蔽事件中涉及的对象的含糊性。因此，在检测到遮蔽事件后，作为与步骤S105至S125同时运行的后台过程，服务器110可以监视是否发生了对对象的肯定识别。

现在将参考图8A和8B来描述根据本发明的示例的对象跟踪和遮蔽检测的一些示例。

在图8A所示的示例中，在遮蔽事件410中涉及被识别为A和B的两个对象。在遮蔽事件之后，由箭头指示的两个检测到的对象路径与A和B两者(AB)相关联。在一段时间之后，对象B被肯定地识别，如下方路径上的AB所指示。此识别随后被用于更新对象和路径之间的关联，以使得对象A与遮蔽事件410后的上方路径相关联并且对象B与遮蔽事件410后的下方路径相关联。

在图8B所示的示例中，对象A和B最初陷入遮蔽事件420中。然而，在对象A和B能够被肯定地识别之前，在遮蔽事件420之后的下方路径上与A和B两者相关联的对象陷入了与对象C的另一遮蔽事件430。因此，在遮蔽事件430之前，不清楚在遮蔽事件420后的下方路径上的对象是对象A还是对象B。因此，在遮蔽事件430之后，两个对象所循的上方和下方路径都与对象A、B和C(ABC)相关联。

在以后某个时间，遮蔽事件430之后下方路径上的对象被肯定地识别为对象B(ABC)。因此，关联日志可被更新，以使得遮蔽事件430后的上方路径与对象C相关联。另外，此信息可用于更新关联日志，以便可以消除遮蔽事件420中涉及的两个对象的含糊性，因为在遮蔽事件430中涉及的必然是对象B，因为对象B被肯定地识别为与遮蔽事件430后的下方路径相关联。因此，关联日志可被更新，以使得遮蔽事件420后的上方路径与对象A相关联，并且遮蔽事件420后的下方路径与对象B相关联。

因此，本发明的示例使得，即使在对象被肯定地识别之前可能发生了若干个遮蔽事件，也可以将对象与所跟踪的对象的路径相关联。另外，本发明的示例使得可以相互交叉参考不同对象的身份，以便可以将每条路径与正确的对象相关联。

在一些示例中，表示对象的起始位置的数据可用于初始化和核实对象跟踪。以足球为例，球员有可能在比赛场地上的近似静止的位置上开始比赛。每个球员有可能位于从比赛场地上的特定坐标起的阈值距离内。起始位置可取决于队型，例如4-4-2(四个防守，四个中场，两个进攻)或者5-3-2，以及哪一队开球，哪一队防守开球。在从地面开球门球时球员可能采取相似的位置。这种位置信息可用于发起球员跟踪，例如通过将位置数据与球队表和队型信息相比较。这种位置信息还可用于在发生遮蔽事件时校正路径信息。利用队型信息是有利的，因为如果队型变化变得明显的话(例如在换人或罚下之后)，则在比赛过程中操作员可对此进行重置，这将提高对象跟踪的精确度和可靠性。

深度图和位置数据生成(在服务器110内执行)

现在将参考图9至13来描述本发明的实施例，其中相机与该相机拍摄的图像内的对象之间的距离被用于确定偏移量。

图9是根据本发明的实施例用于确定相机的位置与相机的视场内的对象之间的距离的***的示意图。

图9示出了服务器110被布置为与相机布置130中的相机通信，该相机拍摄球场30的图像。如上所述，服务器110可操作来分析相机拍摄的图像以便跟踪球场30上的球员，并且确定其在球场30上的位置。在一些实施例中，该***包括距离检测器810，该距离检测器810可操作来检测相机与相机的视场内的对象之间的距离。距离检测器810及其操作将在下文中更详细描述。

在一些实施例中，服务器110可以使用跟踪数据和位置数据来确定相机的位置与球场上的球员之间的距离。例如，服务器110可以分析所拍摄的图像以确定相机的位置与球员801之间的距离801a，相机的位置与球员803之间的距离803a，以及相机的位置与球员805之间的距离805a。

换言之，本发明的实施例确定场景内的对象与相对于相机定义的参考位置之间的距离。在参考图9描述的实施例中，参考位置位于相机的位置处。

此外，在一些实施例中，服务器110可操作来检测所拍摄的图像内的与场景内的已知特征点相对应的预定图像特征。例如，服务器110可以利用已知的技术来分析所拍摄的图像，以便检测与诸如边角、开球点、禁区等等之类的足球场特征相对应的图像特征。基于检测到的已知特征点(图像特征)的检测到的位置，服务器110随后可以利用已知的技术将球场30的三维模型映射到所拍摄的图像。因此，服务器110随后可以分析所拍摄的图像以依据检测到的球员相对于已被映射到所拍摄的图像的3D模型的位置来检测相机与球员之间的距离。

在本发明的一些实施例中，服务器110可以分析所拍摄的图像以便确定球员的脚与球场接触的位置。换言之，服务器110可以确定诸如球员之类的对象与诸如球场30之类的平面重合的交点。

在对象被检测为在不止一个交点处与该平面重合的情况下(例如球员的双脚都与球场30接触)，则服务器110可操作来检测哪个交点最靠近相机并且使用该距离来生成偏移量。或者，该对象的所有检测到的交点的平均距离可以被计算并在生成偏移量时被使用。然而，将会明白，也可选择其他适当的交点，例如离相机最远的交点。

然而，在一些情形中，如上所述的确定相机的位置与场景内的对象之间的距离的方法可能导致三维图像看起来失真。如果图像是由超广角相机拍摄的或者是像本发明的实施例中的情况那样通过将若干个高清晰度相机拍摄的图像拼接在一起而形成的，则这种失真可能会尤其明显。

例如，如果球场30要被显示成三维图像，其上叠加了球员和球，则三维图像中的图像失真可能发生。在此情况下，在最靠近相机20的边线上，边角31b和31c看起来可能比中点814离得远。边界从而看起来可能是弯曲的，虽然边界在所拍摄的图像中是直的。

当在诸如计算机监视器之类的相对较小的显示器上观看三维图像时，此效果可能尤其明显。如果在诸如电影院屏幕之类的相当大的屏幕上观看三维图像，此效果则不那么明显，因为边界31b和31c很有可能在观看者的余光中。球场被显示为三维图像的方式将在下文中更详细描述。

解决此问题的一种可能方式将是为图像的每个部分生成适当的偏移量，以便针对失真进行补偿。然而，这可能是计算上密集的，而且可能取决于若干物理参数，例如由于广角图像引起的失真度，显示器大小，等等。

因此，为了减轻三维图像中的失真并尝试确保球场的前面(例如最靠近相机的边线)看起来相对于显示器有恒定的深度，尤其是当要在诸如计算机显示器或电视屏幕之类的相对较小的显示器上观看三维图像时，本发明的实施例确定对象与位于参考线上的参考点之间的距离。参考线与相机的光轴正交并且穿过相机的位置，并且参考位置位于参考线上对象位置线与参考线相交的那一点。对象位置线与参考线正交并且穿过对象。下面将参考图10来描述这一点。

图10是根据本发明实施例的用于确定相机与相机的视场内的对象之间的距离的***的示意图。图10所示的实施例基本上与以上参考图9描述的相同。然而，在图10所示的实施例中，服务器110可操作来确定对象与由虚线907指示的参考线之间的距离。

如图10所示，参考线907与相机的光轴正交(即与光轴成直角)并且穿过相机的位置。此外，图10示出了位于参考线907上的参考位置901a、903a和905a。

例如，工作站可操作来确定参考位置901a与球员801之间的距离901。参考位置901a位于参考线907上球员801的对象参考线(由虚线901b指示)与参考线907相交之处。类似地，参考位置903a位于参考线907上球员803的对象参考线(由虚线903b指示)与参考线907相交之处，并且参考位置905a位于参考线907上对象参考线(由虚线905b指示)与参考线907相交之处。对象参考线901b、903b和905b与参考线907正交并且分别穿过球员801、803和805。

在一些实施例中，参考线907与连接边角31b和31c的边线平行，从而，当所拍摄的球场的图像和经修改的球场的图像被以适当的方式在显示器上一起观看时，连接边角31b和31c的边线的所有点看起来相对于显示器都有恒定的距离(深度)。这改善了三维图像的外观，而无需生成针对可能在利用广角相机拍摄图像时可能发生的或者来自像本发明实施例中的情况那样通过组合由两个或更多个相机拍摄的图像而形成的合成图像的任何失真进行补偿的偏移量。然而，将会明白，参考线不一定与边线平行，而可以与场景内的任何其他适当的特征平行，或者相对于场景内的任何其他适当的特征来布置。

为了生成图像以使其在被观看时看起来是三维的，服务器110可操作来检测诸如球员之类的对象在所拍摄的图像内的位置。服务器110在图像内检测对象的方式在以上参考图4描述。此信息被馈送到用户设备200A。用户设备200A随后通过按照偏移量使所拍摄的图像内的对象的位置位移来从所拍摄的图像生成经修改的图像，以使得当经修改的图像和所拍摄的图像作为一对图像在显示器705上被观看时，对象看起来位于距显示器预定距离处。这将在下文中说明。

为了产生正确的位移以模拟三维效果，用户设备200A需要知道对象与相机的距离。这可以利用深度图或某种其他手段来实现。在本发明的一些实施例中，***包括距离检测器810，其可通过网络与服务器110或用户设备200A通信。距离检测器810可耦合到相机布置130内的相机或者它可与相机布置相分开。距离检测器可操作来生成指示出相机与对象(例如球场30上的球员)之间的距离的距离数据。距离检测器810可操作来经由如图9中的虚线812所指示的适当通信链路将距离数据发送到服务器110。服务器110随后可操作来依据从距离检测器810接收的距离数据确定相机与对象之间的距离。换言之，距离检测器810充当距离传感器。这种传感器是本领域中已知的并且可使用红外光、超声、激光等等来检测到对象的距离。每个对象的距离数据随后被馈送到用户设备200A。

在一些实施例中，距离检测器可操作来生成深度图数据，该深度图数据对于所拍摄的图像的每个像素，指示出相机与场景内与该像素相重合的场景特征之间的相应的距离。从服务器110发送到用户设备200A的距离数据于是可包括深度图数据。

为了实现此功能，距离检测器可包括发射红外光的脉冲的红外光源。相机随后可以以预定的时间间隔(通常大约是若干纳秒)检测从相机的视场内的对象反射的红外光的强度，以便指示出对象与相机的距离的灰度图像。换言之，该灰度图像可被认为是根据检测红外光从光源到相机的飞行时间而生成的深度图。

为了简化设计，相机可包括红外光源形式的距离检测器。这种相机在本领域中是已知的，例如由3DV Systems制造的“Z-Cam”。然而，将会明白，也可使用生成3D深度图的其他已知方法，例如红外图案失真检测。

将会明白，也可使用任何其他适当的距离检测器。例如，具有与该相机的光轴垂直的光轴的相机可用于拍摄球场的图像。这些另外的所拍摄的图像可被服务器110分析以检测和跟踪球员位置，并且所得到的数据与来自相机的图像数据进行相关运算，以便更准确地对球员的位置进行三角测量。

在一些实施例中，服务器110可操作来使用距离检测器810来检测和跟踪相机的视场中的其他对象，例如足球，但是将会明白也可检测任何其他适当的对象。例如，由一个或多个额外的相机拍摄的图像可被服务器110分析并且与来自跟踪***的数据相组合以便跟踪足球。此数据被馈送到用户设备200A作为位置和深度信息，以使得用户设备200A可以相应地生成适当的左侧和右侧图像。

服务器110可操作来检测所拍摄的图像内与场景内的对象相对应的对象像素。在上述实施例中，对象像素对应于如上所述用于生成经修改的图像的球员遮罩的那些像素。球员遮罩被馈送到用户设备200A，以使得用户设备200A可以生成经修改的图像。

用户设备200A随后利用深度图数据中与球员遮罩的像素相关联的距离数据来确定相机与球员之间的距离。为了简化三维显示，深度图数据中与球员遮罩的像素相对应的距离值的平均可用于如上所述生成偏移量。然而，将会明白，也可使用任何其他从深度图数据中选择与对象相对应的距离值的适当方法。

用户设备200A可操作来生成偏移量，用以应用在深度图数据中的每个像素的左侧图像和右侧图像之间。因此，在视差被应用之后，当左侧图像和右侧图像如上所述作为一对图像在显示器上被一起观看时，对象可具有改善的三维外观，因为对象的表面维度可被更准确地再现，而不是将对象显示成好像是距显示器某个距离处的二维图像那样。修改图像以创建立体图像(在用户设备200A中执行)

经修改的图像和所拍摄的图像可被一起显示的方式在图11中示出。

图11示出了根据本发明的实施例的用于显示图像以使得图像可被用户看作三维图像的***。

具体地，图11示出了显示器205A上球员801和球员803的图像。相机拍摄的图像被用于显示对应于球员801的左侧图像801L以及球员803的左侧图像803L。左侧图像欲被用户的左眼观看，例如被佩戴适当的一副偏振眼镜的用户的左眼观看。用户设备200A可操作来从所拍摄的图像生成经修改的图像，以便生成包括每个对象的相应右侧图像。图11示出了对应于球员801的右侧图像801R(由虚线指示)，以及对应于球员803的右侧图像803R(由虚线指示)。例如，当左侧图像801L与右侧图像801R在显示器205A上被一起观看时，球员801看起来将好像是位于距显示器205A的预定距离处。

为了从左侧图像生成经修改的图像(即从左侧图像生成右侧图像)，服务器110可操作来生成对象(例如球员)的二值表示。服务器110随后可操作来将此二值表示发送到用户设备200A。如以下所说明的，用户设备200A利用二值表示从图像中提取对象。用户设备200A向对象内的图像像素应用偏移量，以便生成经修改的图像(右侧图像)。这可以针对在所拍摄的图像内检测到的每个对象进行。

每个球员的偏移量取决于相机与球员之间的距离以及要显示立体图像的屏幕的显示参数。这些显示参数可由用户选择或者作为替换或附加可以与显示器的大小有关。

具体而言，根据以下的式(1)来计算应用到每个像素的视差：

视差＝深度*乘数+平移 (1)

其中视差是要应用的像素视差的数字；

深度是来自深度图的像素的深度；

乘数是将深度图中的一个深度单位转换成屏幕上的一个像素位置的值。此值取决于屏幕大小；并且

平移是使对象在屏幕前方或后方的值。

将会明白，在一些情况中，例如在足球球员在足球场上的情况中，可能不希望使得球员在三维中看起来与显示器705的距离对应于与相机的实际距离，因为这可能导致用户的观看体验不愉快。此外，这可能会失去一些三维效果，如果对象被呈现成看起来离显示器数十米的话。因此，在本发明的实施例中，用户设备200A可操作来检测所拍摄的图像在垂直方向上有多大比例被足球场所占据并且相应的对看起来的对象深度进行缩放。

例如，基于3D模型到所拍摄的图像的映射，用户设备200A可以检测足球场30的最靠近相机的边线的位置，并且检测足球场30的最远离相机的边线的位置。用户设备200A随后相应地生成偏移量，以使得距相机的距离与最近的边线相同的对象看起来距用户的距离与显示器相同。

最远的边线看起来距显示器的距离随后可被用户设备200A设定为与显示器205A的垂直高度相对应的距离。然而，将会明白，也可使用任何其他对看起来的对象深度进行缩放的适当方法。

在一些实施例中，用户设备200A可以使得显示器205A显示图像的校准序列，该校准序列使得用户可以经由输入设备210A提供例如关于对象看起来是在无穷远处，还是在屏幕距离处，还是在无穷远与用户之间的某个距离处的反馈。然而，将会明白，也可使用对用于在显示器上输出的右侧图像和左侧图像进行缩放的其他适当方法。

如上所述，在一些实施例中，相机和与对象相关联的交点之间的距离可由服务器110确定并馈送到用户设备200A。因此，在一些实施例中，偏移量可以依据相机与该对象的交点之间的距离来生成并且被应用作为该对象的整体的偏移量。换言之，球场看起来将是二维的，但是看起来将位于足球场上的三维位置处，距显示器某个预定的距离。这有利地减少了处理资源，因为到球员上与显示器上的输出像素相对应的每个点的距离不必被检测并用于生成相应的偏移量。另外，这解决了从如上所述生成的跟踪和位置数据可能无法得到这种距离数据的问题。

在一些实施例中，服务器110可操作来将包括足球场30的体育场的三维模型映射到所拍摄的图像。这使得用户设备200A可以为与体育场相对应的所拍摄的图像中的每个像素生成适当的偏移量，以使得体育场和/或球场30当在显示器205上观看时看起来是三维图像。由于体育场和球场相对于相机是相对静止的，所以所拍摄的图像中的每个像素的相应偏移量的生成可在生成背景图像时进行，或者可以周期性地进行，以便减少处理资源。

在一些实施例中，可应用的视差量被限制，以使得左侧图像中的对象之间的最大视差永远不大于与经修改的图像中的相应对象的眼间距离。另外，关于左侧图像中的对象可以在右侧图像中的对象的右边的程度也有限制。这是为了减轻观看者的不适。

对象的二值表示(在服务器110中计算)

如前所述，服务器110生成所检测和跟踪的对象的二值表示。二值表示限定了所检测的对象的轮廓。参考图12A-C来描述这一点。

图12A示出了由布置130中的一个相机拍摄的足球比赛的典型截屏图。在此足球比赛中，球员801、803和805位于球场30(在图中由阴影线表示)上。另外，球802也位于球场30上。利用以上所述的对象检测和跟踪算法，服务器110已经识别出球员801在所拍摄的图像中的位置(x1，y1)处，球员803在所拍摄的图像中的位置(x2，y2))处，球员805在所拍摄的图像中的位置(x3，y3))处，并且球802在所拍摄的图像中的位置(x4，y4)处。位置被定义为检测到的球员或球或更一般而言图像中的对象的左下角的位置。此位置是参考图像的左下角的。换言之，点1201的位置是(1，1)。

图12B示出了根据本发明实施例的球员和球的二值表示。具体而言，球员801由二值表示801A表示，球员803由二值表示803A表示，球员805由二值表示805A表示，并且球802由二值表示802A表示。为了生成二值表示801A，服务器110确定球员801的水平和垂直大小。因此，在图12B中，看到一个球员801A高dy1个像素并且宽dx1个像素。这产生了球员801的位于图像中的位置(x1，y1)处的矩形轮廓。

服务器110随后顺序地分析矩形轮廓内的每个像素位置以判定该像素位置是表示背景(或者在此情况下是球场30)的一部分，还是该像素位置是对象的一部分。服务器110将表示背景的像素位置标识为二进制0并且将表示对象的像素位置标识为二进制1。在图12B中，等于二进制0的值为黑，等于二进制1的值为白。此二值流被进行游程长度编码以减小二值流的量，以使能进行高效数据传送。

位置数据(x1，y1)、矩形轮廓(dy1和dx1)以及经游程长度编程的数据作为球员轮廓的二值表示被传送到用户设备200A-N。这个过程对于所有的球员、球和图像中的要被应用三维效果的对象重复。

与矩形轮廓相关联的背景也被发送到用户设备200A-N。这由图12C中的虚线框示出。换言之，除了球员801的二值表示以外，背景模型的位于位置(x1，y1)处的高dy1个像素且宽dx1个像素的部分也被发送到用户设备200A-N。

从而，在例如用户设备200A处，接收图像，接收标识对象的位置的位置数据，接收详细描述对象的水平和垂直大小的信息，并且接收对象的二值表示。另外，还接收长期背景模型的相应部分。

用户设备200A随后分析所接收的图像并且识别图像内对象的位置、对象的水平和垂直大小，并且在所限定的对象的水平和垂直大小内，用户设备200A确定哪些像素与对象有关以及哪些像素与背景有关。用户设备200A因此可以从图像中提取出对象并且利用少量的计算花费产生如图11中所述的图像的修改版本。另外，由于用户设备200A被提供以背景模型的详情，所以用户设备200A知道场景中的对象后面的背景的像素值。在生成(具有位移的对象的)经修改的图像时这是有用的，因为用户设备200A可以将适当的背景像素***在原始对象所位于的位置处。换言之，当在经修改的图像中对象被位移时，图像的原本有该对象的部分可以被填充以适当的背景像素值。这改善了三维图像的真实感。

为了进一步改善三维图像的真实感，在通过应用根据深度图计算的偏移而产生整个当前图像的修改版本以便向场景中的所有背景信息应用正确的3D效果后，利用二值表示中的信息，每个前景对象随后与和该对象相关联的背景像素值相覆盖。这些像素值也被偏移了根据深度图计算的量，以便它们看起来在正确的地方。这是有利的，因为它确保了前景对象不会因为被应用了与背景图像相同的3D效果而看起来在球场上是扁平的。前景对象随后按与上述相同的方式被***到图像中。

虽然以上描述了从左侧图像产生右侧图像，但是本发明并不限于此，也可以从右侧图像产生左侧图像。另外，虽然以上描述了使用对象检测和跟踪来得到对象位置和轮廓，但是本发明并不限于此。具体而言，可以使用对象检测和对象分割。

其他实施例

虽然前述实施例涉及传送图像以用于创建三维图像，但是本发明并不一定限于此。在以上实施例中，在用户设备200A内利用图像和在服务器110中确定的图像的二值表示来从图像中提取对象(球员)。这是非常有用的，因为对象的二值表示的量非常小，尤其在被游程长度编码时则更是如此。另外，在用户设备200A中所需的处理量较小，因为二值表示告知了用户设备200A屏幕上的哪些像素是对象像素而哪些是背景像素。

在其他实施例中，在用户设备200A中可利用此二值表示技术从图像中识别任何对象。这使得可以向图像中的任何对象应用任何个性化的内容。例如，服务器可以提供体育事件的图像，以及检测到的球场周围的广告牌的二值表示。用户设备200A随后将向这些广告牌应用个性化的评论和广告。或者，服务器110可以将依用户而定的广告与图像和二值表示一起提供。用户设备200A随后将能够向检测到的广告牌应用这些个性化广告。(拥有服务器110的)服务提供者随后将能够基于提供给不同用户设备200A的广告来向广告主收费。

虽然前述用户设备200A-N是家庭消费型设备，但本发明并不限于此。例如，用户设备200A-N也可以是移动个人设备，例如PlayStationPortable设备，或者蜂窝电话，或者便携式电视等等。

最后，以上可实现为包含计算机可读指令的计算机程序，所述指令当被加载到计算机上时将计算机配置为执行本发明的方法。此计算机程序可体现在诸如磁或光可读介质之类的存储介质上或者体现为通过网络传送的信号。

虽然这里已经参考附图详细描述了本发明的示例性实施例，但是要理解本发明并不限于这些确切的实施例，在不脱离由所附权利要求限定的本发明的范围和精神的情况下，本领域的技术人员可以实现各种变化和修改。

Claims

1.一种在客户端设备处检测图像中的对象的方法，包括以下步骤：

从服务器接收场景的二维图像，所述场景被相机拍摄并且所述图像包括位于所述场景内的对象，

从所述服务器接收位置数据，所述位置数据指示出所述对象在所述图像内的位置；

从所述服务器接收所述对象在该位置处的轮廓表示，所述轮廓表示针对所述图像在该位置处的片段中的像素位置限定该像素位置是否表示所述对象；以及

基于所述轮廓，在所述图像中检测所述对象。

2.根据权利要求1所述的方法，还包括：

从所述服务器接收距离数据，该距离数据指示出在该位置处所述对象与相对于所述相机的参考点的距离。

3.根据权利要求2所述的方法，包括：

在时间上周期性地从所述服务器接收所述距离数据。

4.根据权利要求2所述的方法，还包括：

向所述服务器注册所述客户端设备并且响应于这种注册而接收所述距离数据。

5.根据权利要求2所述的方法，包括：

接收另一二维图像，所述另一二维图像与第一接收图像相比具有所述场景的不同但交迭的视场；

从所述服务器接收拼接参数；

通过根据所述拼接参数将第一接收图像拼接到另一接收图像并且在拼接的图像中检测所述对象来生成所述场景的全景图像的至少一部分。

6.一种生成用于显示的立体图像的方法，包括：

如权利要求2所述的在客户端设备处检测图像中的对象的方法；

在所述客户端设备处接收指示出要用于显示所述立体图像的屏幕的大小的显示数据；以及

通过使检测到的对象在所述图像内的位置位移某一量来生成经修改的图像，位移量取决于所述场景中所述参考点与所述对象之间的距离以及所述显示数据，从而使得当接收到的二维图像和经修改的图像都在显示器上被立体地显示时，所拍摄的对象看起来距所述显示器预定的距离。

7.根据权利要求6所述的方法，还包括：

从所述服务器接收背景图像信息，该背景图像信息限定了所述场景的相对于所述相机的位置而言在所述对象的后面的至少一部分；以及

在所述经修改的图像中，在所述对象的一部分上***所述背景图像信息的与所述对象的所述部分相对应的部分。

8.根据权利要求7所述的方法，还包括：

使所述背景图像信息在所述经修改的图像中位移，其中位移量取决于所述背景与所述参考点之间的距离。

9.根据权利要求6所述的方法，其中，所述位移量还是根据用户偏好来确定的。

10.一种可连接到服务器的客户端设备，所述客户端设备包括：

接口，其可操作来从服务器接收场景的二维图像，所述场景被相机拍摄并且所述图像包括位于所述场景内的对象，所述接口还可操作来从所述服务器接收位置数据和所述对象在该位置处的轮廓表示，所述位置数据指示出所述对象在所述图像内的位置，所述轮廓表示针对所述图像在该位置处的片段中的像素位置限定该像素位置是否表示所述对象；以及

对象检测器，其基于所述轮廓在所述图像中检测所述对象。

11.根据权利要求10所述的客户端设备，其中，所述接口可操作来从所述服务器接收距离数据，该距离数据指示出在该位置处所述对象与相对于所述相机的参考点的距离。

12.根据权利要求11所述的客户端设备，其中，所述接口可操作来在时间上周期性地从所述服务器接收所述距离数据。

13.根据权利要求11所述的客户端设备，包括注册设备，该注册设备可操作来向所述服务器注册所述客户端设备，并且所述接口还可操作来响应于这种注册而接收所述距离数据。

14.根据权利要求11所述的客户端设备，其中，所述接口可操作来接收另一二维图像，所述另一二维图像与第一接收图像相比具有所述场景的不同但交迭的视场，并且所述接口可操作来从所述服务器接收拼接参数；并且一生成器可操作来通过根据所述拼接参数将第一接收图像拼接到另一接收图像并且在拼接的图像中检测所述对象来生成所述场景的全景图像的至少一部分。

15.根据权利要求10所述的客户端设备，还可操作来生成用于显示的立体图像；其中所述接口可操作来在所述客户端设备处接收指示出要用于显示所述立体图像的屏幕的大小的显示数据；并且所述设备还包括图像生成器，该图像生成器还可操作来通过使检测到的对象在所述图像内的位置位移某一量来生成经修改的图像，位移量取决于所述场景中所述参考点与所述对象之间的距离以及所述显示数据，从而使得当接收到的二维图像和经修改的图像都在显示器上被立体地显示时，所拍摄的对象看起来距所述显示器预定的距离。

16.根据权利要求15所述的客户端设备，其中，所述接口还可操作来从所述服务器接收背景图像信息，该背景图像信息限定了所述场景的相对于所述相机的位置而言在所述对象的后面的至少一部分；并且在所述经修改的图像中，所述图像生成器还可操作来在所述对象的一部分上***所述背景图像信息的与所述对象的所述部分相对应的部分。

17.根据权利要求16所述的客户端设备，其中，所述图像生成器可操作来使所述背景图像信息在所述经修改的图像中位移，其中位移量取决于所述背景与所述参考点之间的距离。

18.根据权利要求15所述的客户端设备，其中，所述位移量还是根据用户偏好来确定的。

19.一种向客户端设备提供对象检测数据的方法，包括以下步骤：

从相机元件接收场景的二维图像，所述图像包括位于所述场景内的对象；

从所述图像生成位置数据，所述位置数据指示出所述对象在所述图像内的位置；

生成所述对象在该位置处的轮廓表示，所述轮廓表示表示针对所述图像在该位置处的片段中的像素位置限定该像素位置是否表示所述对象；以及

向所述客户端设备发送所述二维图像、所述位置数据和所述轮廓表示。

20.根据权利要求19所述的方法，还包括：

生成距离数据，该距离数据指示出在该位置处所述对象与相对于所述相机的参考点的距离。

21.根据权利要求20所述的方法，包括：

在时间上周期性地向所述客户端设备发送所述距离数据。

22.根据权利要求20所述的方法，包括：

在所述服务器处注册所述客户端设备并且响应于这种注册而发送所述距离数据。

23.根据权利要求20所述的方法，包括：

向所述客户端设备发送另一二维图像，所述另一二维图像与第一接收图像相比具有所述场景的不同但交迭的视场；以及

从所述服务器发送拼接参数。

24.一种可连接到客户端设备的服务器，所述服务器包括：

可操作来向客户端设备发送场景的二维图像的接口，所述场景被相机拍摄并且所述图像包括位于所述场景内的对象，

对象检测器，该对象检测器可操作来生成位置数据，所述位置数据指示出所述对象在所述图像内的位置，并且该对象检测器还可操作来生成所述对象在该位置处的轮廓表示，所述轮廓表示表示针对所述图像在该位置处的片段中的像素位置限定该像素位置是否表示所述对象；以及

可操作来向所述客户端设备发送所述位置数据和所述轮廓表示的接口。

25.根据权利要求24所述的服务器，其中，所述检测器可操作来生成距离数据，该距离数据指示出在该位置处所述对象与相对于所述相机的参考点的距离，并且所述接口可操作来将所述距离数据发送到客户端设备。

26.根据权利要求25所述的服务器，其中，所述接口可操作来在时间上周期性地从所述服务器发送所述距离数据。

27.根据权利要求25所述的服务器，包括注册设备，该注册设备可操作来注册所述客户端设备，并且所述接口还可操作来响应于这种注册而发送所述距离数据。

28.根据权利要求25所述的服务器，其中，所述接口可操作来发送另一二维图像，所述另一二维图像与第一发送图像相比具有所述场景的不同但交迭的视场；拼接参数生成器可操作来生成拼接参数；并且所述接口还可操作来将所述拼接参数发送到所述客户端设备。

29.一种计算机程序，包含计算机可读指令，所述指令在被加载到计算机上时将所述计算机配置为执行根据权利要求1或19所述的方法。

30.一种存储介质，被配置为在其中或其上存储如权利要求29所述的计算机程序。