CN101563698A

CN101563698A - 个性化视频

Info

Publication number: CN101563698A
Application number: CNA2006800341565A
Authority: CN
Inventors: 布莱克·森夫特纳; 利兹·拉尔斯顿; 迈尔斯·莱特伍德; 托德·希夫利特
Original assignee: Flixor Inc
Current assignee: Flixor Inc
Priority date: 2005-09-16
Filing date: 2006-09-14
Publication date: 2009-10-21

Abstract

公开了通过部分图像替换来个性化视频的处理方法和装置。个性化可以包括部分或全部替换演员的图像。个性化还可以包括***或替换对象，以及全部或部分替换背景和/或声轨。视频准备处理可用于创建准备好个性化的视频库。

Description

个性化视频

版权和商业外观公告

本专利文献公开内容的一部分包含受版权保护的内容。本专利文献可能显示和/或描述作为或可能成为所有者的商业外观的内容。版权和商业外观所有者不反对任何人以本专利公开内容在专利商标局的专利文档或记录中表现的形式对其进行传真复制，但保留除此之外的其它所有版权和商业外观权利。

相关申请信息

本专利要求以下申请的优先权，所有这些申请均以引用方式合并于此：于2005年9月16日提交的名称为“Facial image replacement”的申请No.60/717,852；于2005年9月16日提交的名称为“Customized product marketingimages”的申请No.60/717,937；于2005年9月16日提交的名称为“Call andmessage notification”的申请No.60/717,938。

技术领域

本公开内容涉及用于通过部分图像替换来创建个性化(personalized)的视频的处理方法和装置。

背景技术

现在，数字图像记录、存储和合成被广泛用于电视、电影和视频游戏。数字视频实质上是以周期间隔拍摄的场景(scene)的一系列数字照片，通常称其为“帧”。数字视频可以使用数字摄像机来记录，可以通过数字化模拟视频记录或数字化电影胶片记录来创建，可以通过渲染2D和3D计算机图形来创建，甚至可以是所有上述内容与模拟或数字复合的各种元素的混合组合以实现最终的数字视频。为了给观看者以平滑、连续运动的印象，数字或模拟视频图像一般由每秒25、30、60或更多帧构成。但是，每秒的帧数不应当被看作是识别数字视频的限制因素；一些数字视频格式支持低至每隔N秒1帧的帧速率，甚至在必要时支持可变帧速率，以便在试图减少作为结果的数字视频的最终存储大小的同时达到感知(perceived)运动的效果。不管帧速率是多少，每一帧都可被分成多个水平行，而每一行典型地被分成多个画面元素，通常称为每行的“像素”。美国标准广播视频记录为每帧有525行，HDTV记录为每帧有1080行。然而，出于在这里进行描述的目的，术语“数字视频”具有更宽泛意义上的含义，即简单地指代当顺序观看时描绘一个或多个背景(settings)内时间流逝的表现的一系列图像。图像的数量、图像显示的速率以及图像的维数是无关的。但是图像仍然可以传统方式识别为由行和像素组成，尽管贯穿这里所公开的处理方法的各个步骤，可以针对各个步骤所要求的精确性的精度，根据需要对每帧的行和像素的数目进行统计上的重新采样。

因此，数字视频的每一帧由某一总数的像素组成，并且每个像素由某一数目的比特信息来表示，该信息表示图像的对应部分的亮度和颜色。对于所有可以创建数字视频的多种方法，实质上都是一系列图像，这些图像表示为由行和像素组成的一系列的帧。存在以比特和字节表示数字视频的各种方式，但是在某种意义上所有这些都可以被称为帧、行和像素。

数字视频要求显示媒介顺序地呈现帧。显示媒介典型地为电子的，诸如电视、计算机和监视器、蜂窝电话或个人数字助理(PDA)。这些设备接收或处理文件形式的数字视频，顺序地向用户显示帧。还存在其它可能的非电子的显示媒介，它们也是用户体验数字视频的方式。这样的媒介的例子为：1)在***/支付卡和可收集运动卡上出现的自然的打印全息图，2)采用化学和其它非电子图像编码方法的数字纸张，3)简单的打印翻页书(flipbook)。

附图说明

图1是创建个性化数字视频的处理的流程图。

图2是图1的处理的扩展。

图3是创建个性化视频的处理中的可选步骤的流程图。

图4是创建个性化视频的处理中的可选步骤的流程图。

图5是创建个性化视频的处理中的可选步骤的流程图。

图6是创建个性化视频的处理中的可选步骤的流程图。

图7是创建个性化视频的处理中的可选步骤的流程图。

图8是用于提供个性化视频的另一个处理的流程图。

图9是用于提供个性化广告的处理的流程图。

图10是计算机装置的框图。

图11是另一个计算机装置的框图。

具体实施方式

贯穿本说明书，示出的实施例和例子应当被看作是示例性的，而不是对公开的或要求保护的装置和方法的限制。

贯穿本说明书，术语“数字视频剪辑(clip)”、“视频剪辑”、“剪辑”和“数字视频”都是指一系列图像的数字编码，以用于顺序观看图像。对于数字视频的持续时间和可以表现数字视频的最终媒介都没有隐含的限制。数字视频的例子包括但不限于：当前的或经典的电影或电视节目的一部分、整个电影或电视节目、广告、音乐视频、或专门为个性化制作的特制剪辑(specialtyclip)(例如，可以被个性化以便以“名人朋友”展示新演员的剪辑)。数字视频可以是使用数字摄像机记录的，可以是从模拟摄像机或胶片记录数字化而成的，可以是从诸如DVD的数字介质恢复的，可以是通过采用了任何上述处理方法以及这里未描述的其它处理方法的复合处理方法或其它方式创建的。

个性化视频的创建是多个领域的组合，总体来说，所述多个领域允许改变视频序列，以便个人能够用他们自己、他们的朋友、他们的家庭成员或任何他们拥有其图像的真实的或想象出来的个体来替换原始视频的参与者。由于视图的框架和/或视频序列中遮挡整个被替换者身体视图的遮蔽者和遮蔽对象、在视频序列的故事情节中被替换人物所刻画的角色穿着的服饰和/或戏服、等等，这种对原始视频中参与者的替换可以仅仅要求但不限于替换脸部、头部和/或原始视频中可见的连接皮肤。取决于原始视频中描述的故事情节的内容，视频中的参与者的替换可以包括他们的其它可见皮肤部分，诸如手、胳膊、腿等。

此外，期望的替换可以极端地执行，基本上去除视频序列中的原始演员，去除他们的影子(shadow)、影像(reflection)和对场景中其它对象的视觉影响，替换成完全合成的替换者的版本(“数字替身(digital double)”)，并添加他们特有的影子、影像和对场景中其它对象的其它视觉影响。

取决于期望的替换的质量，以及这种期望的质量对原始视频故事情节的影响，可以改变被替换演员表演(interpretation)的主要元素和故事情节上下文中的含义。例如，通过将视频中强壮英勇的男性替换成娇小的女性，故事情节基本上不变，但对故事情节的表演会被彻底地改变，从而给人留下深刻的印象。为了发生这样的改变，替换脸部和头部不足以达到这样的结果。在这种情况下，要完全去除原始演员，将他们的关键动作保存在第二存储介质中，然后作为娇小女性数字替身的动画制作和***的参考。

在脸部/头部以及连接皮肤和完全的数字替身这两个极端之间，存在着演员替换可以执行的程度的无限范围。注意，在这个无限范围的所有实例中，原始视频中的故事情节和演员的主要动作可以不做改变。

特定的剧场***使用立体影像(stereopsis)来提供三维(3D)图像的错觉。这些***向观看者的每只眼睛呈现单独的图像或胶片2D信道。这两个图像信道可以被呈现在公用的表面上，通过具有偏振镜片或有色镜片的特殊眼镜在观看者的眼睛处分离。也可以采用其它的光学技术，以使得每个图像信道仅呈现给适当的眼睛。尽管本公开内容中的讨论主要涉及个性化传统的(2D)视频，但这里公开的个性化技术也可以应用于立体影像3D显示***的两个图像信道。

个性化视频可以以多种可能的格式来提供，包括但不限于如下格式：

(a)允许对视频进行下载和免费交换及买卖的无数字版权管理(DRM-free)的格式。在广告应用中，由于潜在存在产品放置，广告商可以交换、买卖个性化视频以及使其在尽可能多的地点显示，并从中获益。

(b)仅允许特定个人在特定设备上下载和重放的数字版权管理有效(DRM-enabled)的格式，诸如购买个性化视频以在特定设备上重放。

(c)能够在蜂窝电话、计算机和类似的通信和计算设备上播放的3gp、3gpp、mv4、gif或其它公共或私人的数字视频或数字图像格式。在这个实例中，个性化视频可以简单地被观看，可以用作视频铃声音调以替代音频铃声音调，或者可以用于在使用该设备的情景内的事实上任何事件通知。

(d)在支付卡/***上出现的那种打印的全息图像。在这个实例中，个性化视频不再以数字图像格式存在；它被转换成一系列全息图像并被嵌入到全息图的图像序列中。以这种形式，根本无需使用任何电子观看设备就可以观看个性化视频。

(e)将图像和图像序列以电子方式或化学方式编码到潜在的非电子纸张介质中的数字纸张介质。

(f)数字织物介质，其中，用于衣服、家具遮盖物、以及织物的其它传统用途的织物将LED、OLED或其它发光和转换技术嵌入到织物纤维中，以便可以在织物表面上嵌入、发射或以其它方式显示图像和动画。

若干种数字视频格式允许嵌入通过数字视频的回放触发的逻辑。在一些实例中，可能希望将这样的逻辑嵌入到个性化视频中，以使得每次播放视频时计数器都递增。类似地，可以将逻辑触发器嵌入到个性化视频中，当显示特定产品图像、标识、或其它图像时被触发。计数器可以位于因特网上，和/或个性化视频被观看的设备上。当计数器不是位于因特网上，而是位于观看设备上时，可以采用一些手段将计数器值发送给对这些值感兴趣的人，例如当设备下一次连接到因特网以检索新的视频或其它信息时。

处理的描述

必须记住，应用于视频的处理步骤涉及在逐像素和逐帧的基础上改变或处理存储在数字视频中的真实的数据。为了避免在本说明书中过多地重复这一概念，在这里按照动作和所涉及的图像的部分来描述处理步骤。例如，被描述为“用新的对象替换原始对象”的步骤并非实际涉及对象本身，而是涉及在视频中描绘的对象的图像。“替换”的动作可以涉及识别每个视频帧中表现将被替换的原始对象的图像的所有像素，然后通过两步处理来改变那些像素的数字数据：1)用表现原始对象背后的背景的像素盖写原始对象，以及2)用新对象的图像盖写用新背景替换的图像。也可以通过用新数据盖写原始数据的单一步骤来改变数据。当替换对象的形状可能与原始对象不同时采用所述两步处理。然后对视频的每一帧重复识别和改变的步骤。

将利用示例情形来对处理进行最初的描述，在该示例情形中，通过用新演员的脸的图像代替视频原始演员之一的脸部来个性化视频。在本说明书中，术语脸和脸部应被解释成包括耳朵、脖子、和其它相邻皮肤区域的可见部分，除非有另外地说明。可以应用相同的处理来用新演员的更大的部分代替原始演员的相应部分，直到并且包括整个身体的代替。可以在可能的范围内应用相同的基本处理，处理的复杂度、时间和成本会随着被代替的视频部分的增加而增加。类似地，可以对视频中多个原始演员执行这一相同的基本处理，从而得到描绘多个新演员的个性化视频。

图1是创建通过用新演员的脸的图像来代替视频的原始演员之一的脸部图像的至少一部分来创建个性化的视频的处理的流程图。所述新演员可以是想要该个性化视频的个人，他的朋友或家庭成员，或任何其他真实的或想象出来的个人，只要能够提供至少一张2D图像即可。

图1中示出的处理被分成演员建模处理100、视频准备处理200和个性化处理300。注意，处理100和200是相互独立的。个性化处理300需要已准备的视频(处理200)和至少一个新演员模型(处理100)这两个结果。对于任何特定视频，必须执行处理200。对于任何特定的个性化视频，处理200的结果与处理100的至少一个结果配对，并且它们一起通过处理300以创建个性化视频。处理200仅需要对每个视频执行一次。处理100仅需要对每个新演员使用一次。因此，一旦通过处理200准备好了视频，该视频就可以与任何数目的新演员模型配对，以利用该演员创建该视频的个性化版本。类似地，一旦利用处理100创建了演员模型，该演员模型就可以与任何数目的已准备的视频配对，以创建由该演员主演的不同的个性化视频。

视频准备处理200和个性化处理300可以几乎并行地执行，但有这样的限制，即对每个视频帧的视频准备处理可能需要在将个性化处理应用于该帧之前完成。然而，处理200可以是人员、劳动密集的处理，可能需要很长的时期来完成。实际中，可以要求在处理300能够开始之前完成处理200。

在图1和随后的示图中，在101和199之间的参考指示符指示演员建模处理100中的处理步骤。此外，将向参考指示符100添加字母后缀(100A、100B等)，以指示演员建模处理100的可选扩展。视频准备处理200和个性化处理300也将遵循类似的规则。

演员建模处理100接受新演员的一个或多个二维(2D)数字图像，以及相关支持信息，并在步骤110创建新演员的数字模型，其由三维模型以及可选的人口简档(demographic profile)和描述该新演员的其它个人信息构成。优选的2D图像主要捕获新演员的脸部、他们的头的顶部和底部、双耳、他们的脖子的部分，同时双眼可见，并且相对于摄像机的旋转不超过30度。由于相对于摄像机的旋转可能超过30度，因此脸或头的一部分可能被遮蔽，在这种情况下，可以使用统计信息来提供不能通过分析照片图像恢复的信息。从2D图像创建3D图像的技术是已知的，并且是同样可用于安全***的计算机示图领域和人脸识别技术的分支。最少的相关支持信息仅仅是作为结果的新演员模型的名字。附加的相关支持信息可以包括人口简档和/或描述该新演员的其它个人信息。该信息可以通过简单地从用户请求该信息来获得，和/或通过借助于人口信息订阅服务来确定信息而获得，和/或通过观察用户在使用个人媒体服务时的活动来跟踪和保留该信息而获得。

视频准备处理200在步骤210开始，在步骤210，识别和跟踪原始演员的位置、方向(orientation)和表情。该步骤开发(develop)并保存用于视频的每一帧的附加数据。该数据可以包括原始演员的脸在视频帧内的位置以及在观察该场景的模拟数字摄像机的坐标空间内的相对大小，根据一些标准集合量化的演员的面部表情，以及原始演员的方向，或相对头部旋转和倾斜。脸部位置跟踪和方向估计可以由数字艺术家(digital artist)在自动图像处理工具的辅助下完成。原始演员的表情可以通过对原始或类似演员的头部的参考3D模型进行几何变形(morphing)或者变换以匹配视频图像中的表情来量化。随后，可以在步骤320应用类似的变换来变换新演员头部的3D模型，从而使新演员的图像与原始演员的表情匹配。

由于耳朵、鼻子和其它脸部特征的大小的自然变化(natural variability)，新演员的脸可能无法精确替换原始演员的脸。在许多情况中，简单地将新演员的图像放置在已有图像之上可能使原始演员的脸的一些残余像素仍然可见。残余像素可能使新演员的脸的图像失真，特别是如果原始演员和新演员的皮肤色调存在显著差别，则所述残余像素会令人讨厌。目前，可以随着在每个视频帧中***新演员的图像来检测和消除残余像素。然而，由于残余像素的数目和位置将取决于新演员的特征和物理大小，因此这样的处理可能不得不在每次针对不同的新演员个性化视频时都进行重复。

为了保证完全去除原始演员的脸部图像而不会有残余像素的可能性，视频准备处理200可以在步骤220继续，在其中去除至少该原始演员的图像的关键部分，并用与该演员后面的背景连续的图像进行替换。在专为用于个性化而创建的视频的情况中，可以简单地通过记录没有原始演员的场景来提供背景图像。在现有视频的情况中，已经去除了原始演员的脸部图像的图像区域中的背景可以由数字艺术家在自动视频处理工具的辅助下从周围的场景延续。去除原始演员的脸部图像并用背景场景的延续进行回填准备了这样的视频，其可与多个不同的新演员一起使用，而无需附加的处理来去除残余像素。

在步骤220替换的原始演员的关键部分可以包括脸和相邻的皮肤区域。可选地，该关键部分可以包括头发、服装、或附加部分，最多包括整个演员。如果有必要实现适当的错觉，演员的影子和影像也可以被去除和替换。通常，演员的影子是漫反射的，并且反射面足够模糊，从而不需要替换。然而，当存在清晰的影子或高度抛光的反射面时，就需要在步骤220替换影子或影像。步骤220的结果变成供处理300使用的背景图像。步骤220创建在其上放置所有进一步的个性化图像的背景图像。

视频可以包括将不会被背景图像或新演员替换的原始演员的可见皮肤区域，诸如一个或两个手或胳膊。在步骤230，可以由数字艺术家在自动图像处理工具的辅助下识别原始演员的可见非替换皮肤区域。非替换皮肤区域可以通过简单地定位具有原始演员皮肤的适当色彩的像素来识别。可以为视频的每一帧开发并保存定义非替换皮肤区域的位置和范围的数据。步骤230可以创建另外一个系列只有皮肤的帧，其具有粗糙的(matte)背景，以允许该只有皮肤的帧集合可以复合到步骤220的结果之上。步骤220和230以及步骤320和330可以按照与图1示出的相反的顺序进行。

视频的每一帧都是3D场景的2D图像。照明(illumination)、阴影、影子和影像(reflection)是向观看者描述场景的深度(depth)的重要视觉提示。没有重建适当的照明、阴影、影子和影像效果而进行替代的任何图像部分都可能被立即识别出是错误的或伪造的。

因此，在步骤240，视频准备处理可以继续识别和跟踪由于场景中原始演员的存在而存在的照明、阴影、影子和影像。为了在图像的替代部分中准确地重建这些效果，需要开发或估计定义至少以下参数之一的数据：摄像机相对于场景的位置；光源的数目、类型、强度、颜色和相对于场景和摄像机的位置；在场景内对象的相对深度；以及任何可见反射面的性质、相对位置和角度。在专为用于个性化而记录的视频的情况中，所述数据中的许多数据可以简单地在创建视频的同时测量和存档记录(documented)。在现有视频的情况中，所述数据可以由数字艺术家在自动视频处理工具的辅助下根据图像进行估计。

在视频准备处理200中，可以由执行步骤210、220、230和240的数字艺术家利用构成数字视频的图像的多个副本进行工作，以任何顺序来完成这些步骤。注意，视频准备处理200不要求有关新演员的任何信息或数据。因此，如果在步骤210、220、230和240开发的数据被存储，则视频准备处理仅需要对每个视频进行一次。所述数据作为视频的一系列伴随文件进行存储。

个性化处理在步骤320开始，在步骤320，新演员的图像被***到视频中。在图2中特别详细地示出了替代新演员图像的处理。在步骤322，可以将新演员的3D模型进行变换以匹配由来自视频准备处理的步骤210的数据所定义的原始演员的方向和表情。这一变换可以涉及以任何顺序进行的在若干轴上的旋转和脸部表情的几何变形两者。在将3D模型旋转和变形之后，在步骤324开发出3D模型的2D图像，并将其缩放(scale)到适当的大小。然后，在步骤326将经变换缩放的新演员的2D图像***到视频中，以使得新演员的位置、方向和表情与之前去除的原始演员的位置、方向和表情基本匹配。在本上下文中，当个性化视频呈现出好似在创建视频时新演员就实际存在的令人信服的错觉时，认为是“基本匹配”。

再次参照图1，在步骤330，原始演员的可见非替换皮肤区域被改变为与新演员的皮肤外观匹配。皮肤外观可以包括诸如颜色、色调和纹理的因素。可以进行这一改变，以使得在改变之后，非替换区域的平均皮肤颜色与新演员的脸部区域的平均皮肤颜色相同，同时保持在原始图像中存在的变化。

在步骤340，重新创建在原始视频中存在的照明、阴影、影子和影像。这一处理可以包括重新创建新演员或图像的其它被替换区域上的照明加亮区和阴影，以及重新创建或改变新演员的任何影子或影像。因此，步骤340优选作为个性化处理的最后的步骤来执行。

图3是可选处理100A的流程图，可选处理100A可用来创建混合新演员模型，该新演员模型是定义新演员的参数的复合。每个新演员模型由三维几何图形、人口简档和附加个人信息组成，所述附加个人信息诸如年龄、性别、身体类型等。每个新演员模型以与每个其它新演员模型相同的数据格式保存。这允许用户选择任何数目的新演员，并允许执行用户控制的N维变换和变形。组合和参数变形处理110A允许用户选择任何数目的新演员以供他们处理，并创建新的混合演员模型，该混合演员模型是定义新演员的任何和/或所有参数的组合或变换的结果。这允许个人选择描绘他们自己或与他们同性别的父母之一的新演员作为输入，并借助于对三维几何图形以及年龄参数的变形，来创建他们自己老年时或与他们同性别的父亲或母亲年轻时的版本。类似地，这个处理可以用于创建他们自己与名人之间的想象的后代或其它可能的混合组合。

可能希望将对象的图像添加到个性化视频中，或者将现有对象的图像替换成不同的对象。例如，可以***一件运动器材，以进一步为狂热运动迷个性化视频。或者，可以在个性化视频中放置或替换对象，以便提供个性化的有目标的(targeted)广告。类似地，可以选择对象以庆祝特定节日、季节或事件。将被添加或替代到视频中的对象可以根据新演员的人口信息来选择，或者根据与新演员相关或无关的其它信息来选择。

图4是可选处理200A和300A的流程图，可选处理200A和300A可以分别被合并到视频准备处理200和个性化处理300中，以便在视频中放置新对象。在步骤250，贯穿视频各帧而识别和跟踪适合放置对象的对象放置地点。例如，对象放置地点可以是桌子上或地面上的开放空间。在特定视频中可能会识别和跟踪到一个这样的地点、没有这样的地点或者有多个这样的地点。如果对象放置地点相对于观看场景的真实的或模拟的摄像机是静止的，并且如果没有演员或其它场景元素在该对象放置地点与摄像机之间移动，则跟踪该地点可能是比较普通的。如果摄像机相对于场景移动，或者如果对象放置地点本身相对于场景移动，例如被演员紧握住，则跟踪对象放置地点会较为复杂。

在步骤350新对象的图像被添加到场景中。在步骤350的处理与之前描述的步骤320的处理类似，只是不需要对新对象的表情进行变形。根据需要旋转新对象的3D模型以与摄像机角度匹配，并且将新对象的3D模型缩放到适当的大小。然后，根据旋转缩放后的3D模型开发2D图像，并将其***到视频图像中。

除了步骤240A和340A考虑到在新对象的图像上的照明、阴影和影子以及新对象的影子和影像的效果之外，步骤240A和340A基本上是步骤240和340的延续和扩展。在步骤240A，将开发定义至少一个下列参数的数据：摄像机相对于新对象的位置；光源的数目、类型、强度、颜色和光源相对于新对象和摄像机的位置；新对象在场景中的相对深度；以及任何可见的影子接收表面和/或反射表面的性质、相对位置和角度。在专为用于个性化而创建的视频的情况中，这些数据中的许多数据可以简单地在创建视频时测量和破存档记录。在已有视频的情况中，这些数据可以由数字艺术家在自动视频处理工具的辅助下从图像中估计。

在步骤340A，将添加与原始视频一致的照明、阴影、影子和影像。这一处理可以包括创建新对象上的照明和阴影效果，以及创建或改变新对象的任何影子或影像。步骤340A可以与步骤340一起作为个性化处理的最后的步骤来执行。

图5是可选处理200B和300B的流程图，可选处理200B和300B可以分别合并到视频准备处理200和个性化处理300中，以便将视频中的原始对象替换成替换对象。在步骤255，贯穿视频各帧而识别原始对象并跟踪原始对象的位置和方向。例如，原始对象可以是桌子上的饮料罐或谷类食品盒。在特定视频中可能会识别和跟踪到一个原始对象、没有原始对象或者有多个原始对象。如果原始对象的位置相对于观看场景的真实的或模拟的摄像机是静止的，并且如果没有演员或其它场景元素在该原始对象与摄像机之间移动，则跟踪原始对象可能是比较普通的。如果摄像机相对于原始对象移动，或者如果原始对象本身相对于场景移动，则跟踪原始对象会更加复杂。

用较小的替换对象来替换原始对象可能导致残余像素，就象之前就替换演员的脸所讨论过的那样。为了避免残余像素，视频准备处理200B可以继续步骤260，在步骤260，原始对象的图像的至少一部分被去除，并替换成与该原始对象背后的背景场景连续的图像。在专为用于个性化而创建的视频的情况中，可以简单地通过创建没有原始对象的场景的版本来提供背景图像。在现有视频的情况中，可以由数字艺术家在自动视频处理工具的辅助下从周围的场景延续该背景场景。去除原始对象的图像并用背景回填准备了这样的视频，其可与多个不同的替换对象一起使用，而无需附加的处理来去除残余像素。在特定情况下可能不需要步骤260的处理，例如将一个12盎司的标准饮料罐替换成不同标准的饮料罐。

在步骤360，使用与针对步骤350所描述的基本相同的处理来将替换对象的图像添加到场景中。替换对象的3D模型可以根据需要进行旋转以与原始对象的方向匹配，还可以被缩放成适当的大小。然后，可以从经旋转缩放的3D模型开发2D图像，并将其***到视频图像中。

除了步骤240B和340B考虑到在新对象的图像上的照明、阴影和影子以及新对象的影子和影像的效果之外，步骤240B和340B基本上是步骤240和340的延续和扩展。在步骤240B，可以开发定义下列参数中的至少一个的数据：摄像机相对于新对象的位置；光源的数目、类型、强度、颜色和光源相对于新对象和摄像机的地点；新对象在场景中的相对深度；以及任何可见反射表面的性质、相对位置和角度。在专为用于个性化而创建的视频的情况中，这些数据中的许多数据可以简单地在创建视频时测量和存档记录。在已有视频的情况中，这些数据可以由数字艺术家在自动视频处理工具的辅助下从图像中估计。

在步骤340B，将添加与原始视频一致的照明、阴影、影子和影像。这一处理可以包括创建落到新对象的图像上的影子，以及创建或改变新对象的任何影子或影像。步骤340B可以与步骤340一起作为个性化处理的最后的步骤来执行。

可能希望将场景的背景，或视频发生的“场地”(set)替换成不同的背景，该不同的背景描绘与新演员自己的所在地相关的地点、与新演员的人口简档更接加匹配的地点、或一些其它地点。例如，原始视频可能发生在餐厅，但在个性化之后，该餐厅背景可以被替换成包含特定餐厅和/或餐厅连锁店的标识和识别特征的类似的餐厅，甚至可以被替换成位于新演员目前所在地附近的特定餐厅。类似地，可能希望将背景场景替换成与将被***和替代到视频中的新对象关系密切的场景。

图6是可选处理200C和300C的流程图，可选处理200C和300C可以分别合并到视频准备处理200和个性化处理300中，以便将原始背景场景的至少一部分替换成新的背景场景。在步骤270，视频图像可以被分成分离的前景和背景场景区域。背景场景一般是距离摄像机最远的图像的部分，并且通常可以是平坦表面或背景幕(backdrop)。前景图像区域一般是在平面背景前面的任何事物，并且可以包含一个或多个演员、任何可能替换的对象、和/或新对象可能***到图像中的任何地点。对于专为用于个性化而创建的视频，前景/背景分离可以通过在去除演员和前景对象的情况下记录背景场景来实现，或者通过在均匀的“绿屏幕”背景下记录场景、以便可以在场景记录之后***背景场所和环境的已知技术来实现。在现有视频的情况下，可以由数字艺术家在自动视频处理工具的辅助下分离背景和前景图像区域。

步骤265可以出现在步骤270之前或之后，在步骤265，确定和记录摄像机地点。对于专为用于个性化而创建的视频，可以通过在计算机控制下的摄像机运动来记录场景，以便保留摄像机在每一帧中的焦距和位置。这一方法是已知的，用来将计算机图形整合到视频记录中。在借助于三维动画***为个性化创建的视频的情况中，不会发生对物理对象的“记录”，假想的数字摄像机的焦距和位置也被类似地保留下来，以使得作为结果的数字视频可以与记录的视频一样地被处理。在现有视频的情况下，可利用计算机视觉分析来恢复摄像机在最初观看场景时的地点。

在步骤370，可以用新的背景场景来替换原始背景场景的至少一部分。新的背景场景必须被放置在前景图像区域的“背后”，并且必须被放置在前景演员和对象投下的任何影子的下面。

在用新演员的图像替换了原始演员的图像之后，可能还希望将新演员的对话修改或替换成与替换者的特有的音色更加近似。替换对话可以非常简单，简单到可以在新演员与视频同步地讲话时进行记录。然而，可能希望修改原始对话以与新演员的语音类似，从而不会有新演员改变对话措辞或内容的可能性。此外，可能希望将非对话的背景音频元素修改或替换成与新演员的环境或所在地更加匹配的替换元素。例如，如果新演员位于英国，则将美国警笛的声音替换成英国的警笛声音会比较适当。至少可以替换一些背景音频元素，以便将原始音频特有的音频背景替换成适合新演员的特有音频背景。

图7是可选处理100B、200D和300D的流程图，可选处理100B、200D和300D可以分别合并到演员建模处理100、视频准备处理200和个性化处理300中，以修改或替换原始演员的对话或背景音频元素。在步骤280和290，分析视频声轨以隔离原始演员的对话并隔离背景音频元素，以用于替换或修改。数字艺术家、软件处理或两者的结合可以检查原始视频的声轨，并识别构成声轨的单独轨道(individual track)和声音元素。

在步骤180，使用已知的技术接收并分析新演员的语音采样，以提取作为新演员语音特征的至少一个关键属性。该关键属性可以是音高(pitch)、谐波含量(harmonic content)或其他属性。在步骤380，将原始演员的对话变换成与新演员语音的至少一个关键属性匹配，从而使变换后的对话听起来像是由替换者讲的一样。

在步骤390可以修改或替换在步骤290隔离的背景音频元素。在步骤390也可以添加附加的音频元素。对话修改处理(步骤180、280、380)和背景音频修改处理(步骤290和390)是相对独立的，其中的任何一个都可以在没有另一个的情况下完成。

如前面提到的，替换原始演员可以极端地执行，从而从原始视频完全去除原始演员，保留他们的关键动作，并且可以用新演员的完全数字重构替代原始演员的位置，该新演员的完全数字重构具有必要的帧到帧的身***置、面部表情、环境光和阴影对***的人的外形和重建的场景这两者的影响。在这种情况下，可用收集有关新演员的运动信息，例如参考视频或3D运动捕捉数据，从而使替代到视频中的新演员的图像具有新演员特有的表情、走路、跑步、站立姿势或其它个人特点。

图8示出了用于创建和传递(delivery)个性化视频的处理400的流程图。可以在没有关于将被替代或***到视频中的新演员图像或产品图像的预先知识的情况下完成视频准备处理200，包括之前描述的步骤210、220、230和240，以及可选步骤250、240A、255、260、240B、265、270、280和/或290。原始数字视频455可以从视频450的供应者处获得。原始数字视频455可以在诸如致密盘或磁盘的数字存储介质上传递到视频准备处理200，也可以借助于诸如因特网或局域网的网络传递到视频准备处理200。可以通过视频准备处理200对原始数字视频455进行处理，并将作为结果的已准备的数字视频465保存在视频库470中，该视频库470包含准备好用于个性化的至少一个视频。

类似地，可以在没有关于要将新演员的图像***到其中的视频的知识的情况下完成演员建模处理100，包括步骤110和可选步骤120、130和/或180。演员建模处理100接收并处理2D数字图像和其它信息425，得到演员模型435。2D数字图像425可以借助于数字图像记录设备420来创建，所述数字图像记录设备例如为数码相机、数字摄像机或配备有相机的蜂窝电话。2D数字图像425也可以是通过扫描传统照片来获得。2D数字图像425可以在诸如致密盘或磁盘的数字存储介质上传递到演员建模处理100，也可以借助于诸如因特网或局域网的网络传递到演员建模处理100。2D数字图像425可以伴随有姓名或标识符，该姓名或标识符将用作图像的参考(reference)，以供以后个性化请求使用。2D数字图像425可以伴随有附加可选信息，包括但不限于性别、身高、体重、年龄、总体体形和/或图像中显示的个人的其它物理特征；该个人的一般所在地，诸如他们的邮政编码、所在地国家、国籍或类似信息；和/或该个人的随机讲话或该个人讲出的特定的一系列词语的音频采样。

演员模型可以直接传递给个性化处理300，或者可以保存在演员模型库440中。

个性化视频410的请求者将请求415发送给个性化处理。请求者410可以是或可以不是其图像将被替代到视频中的新演员，请求者410可以是或可以不是接收传递的个性化视频490的一方，并且请求者并不一定是人类用户，也可以是其它一些非特指的软件或其它处理。请求415可以经由因特网或一些其它网络传递，或者可以借助于诸如传真、电话或邮件的手段传递。该请求可以标识将从视频库470中检索的特定视频。该请求可以标识将从演员模型库440中检索的演员模型。该请求可以包括2D数字图像425，在这种情况下将在个性化处理300之前对该图像执行演员建模处理100。个性化处理300检索所选择的已准备的数字视频和3D演员模型，并执行所请求的个性化。可以借助于诸如因特网的网络将完成的个性化视频490传递给请求者410或一些其它方，或者可以在诸如致密盘或数字视频盘的存储介质上传递完成的个性化视频490。

个性化处理300可以包括可选的个性化步骤，包括创建复合的和/或年龄转换后的新演员模型、替换或添加一个或多个对象、替换背景场景的至少一部分、修改对话、和/或修改或添加背景声音元素。可选个性化步骤可以响应于来自请求者410或诸如广告商的另一方的请求而进行，或者可以根据关于请求者或所选择的新演员的人口信息自动地选择。

可以将用于创建和传递个性化视频的处理400实现为因特网上的一个或多个网站接口。这些网站接口可以经由计算机、蜂窝电话、PDA或任何其它当前的或未来的具有因特网浏览功能的设备来访问。处理400可以是在线商店、俱乐部或允许个人成员创建、观看、购买或接收个性化视频以用于娱乐、参考或教育的其它社团的一部分。处理400可以是出于向慈善机构、和/或政治活动和刊物捐赠的动机而建立提供个性化视频以供下载和/或在线观看的资金筹集网站的至少一部分。

图9是用于创建个性化视频的另一个处理500的流程图。处理500与在图8中描述的处理400类似，但添加了3D产品建模处理510、产品模型库520和广告策略处理530。有关新演员或请求者的人口信息540被提供给广告策略处理530，广告策略处理530做出有关从产品模型库520中选择一个或多个将被***或替代到个性化视频中的产品的决定。可以将用于创建和传递个性化视频的处理500实现为因特网上的一个或多个网站接口。这些网站接口可以经由计算机、蜂窝电话、PDA或任何其它当前或将来具有因特网浏览功能的设备来访问。处理500可以是在线广告宣传的一部分，该在线广告宣传例如向潜在客户提供他们正在使用广告商的产品的视频。类似地，处理500可以被透明地***到在线广告活动中，以使得浏览因特网网站的个人可以无需特定的请求就接收到个性化视频广告，和/或使得通过蜂窝电话、有线机顶盒或其它点播(on-demand)娱乐设备请求点播视频娱乐的个人可以在其点播视频请求内接收个性化视频广告。

装置的描述

在图10中以框图的形式示出了用于创建个性化视频的计算设备600。计算设备600可以包括与存储器620和存储介质630通信的处理器610。存储介质630可以保存指令，当所述指令被执行时，使得处理器610执行创建个性化视频所必需的处理。计算设备600可以包括到网络640的接口，所述网络诸如因特网或局域网或它们两者。计算设备600可以接收2D数字图像和其它信息，并可以经由网络640传递个性化视频。计算设备600可以经由网络640和远程个人计算机670或其它网络使能的设备与请求者650和数字图像源660接口。计算设备600可以借助于网络640或第二接口与视频库680接口。应当理解，网络640、计算机670、请求者650、数字图像设备660和视频库680不是计算设备600的一部分。

计算设备600可以分成两个或多个物理单元，包括一个或多个下述物理单元：与网络640接口的网络服务器；与视频库680、以及演员模型库或产品模型库(如果存在的话)接口的文件服务器；以及专用视频/图形处理计算机，用以执行之前描述的个性化视频创建处理方法的至少一部分。如果装置600被分成多个物理单元，每个物理单元可以包括处理器610、存储器620和存储介质630部分。也可以使用更多的或更少的单元、模块或其它软件、硬件和数据结构配置来实现这里所描述的处理方法和装置。

在图11中以框图形式示出了用于创建个性化视频的另一个计算设备700。计算设备700可以包括与存储器720和存储介质730通信的处理器710。存储介质730可以保存指令，当所述指令被执行时，使得处理器710执行创建个性化视频所必需的处理方法。计算设备700可以包括到请求者650的接口，诸如键盘、鼠标或其它人机接口装置。计算设备700还可以具有到数字图像设备660的接口，并且可以经由该接口从图像设备660接收2D数字图像。计算设备700可以包括到网络740的接口，所述网络诸如因特网或局域网或它们两者。计算设备700可以借助于网络740，并且可选地，借助远程服务器750从远程视频库接收已准备的可个性化的数字视频。然后，计算设备700可以对该视频进行个性化。然后，可以借助于显示设备将个性化视频呈现给用户650，或者可以将个性化视频存储在存储器720或存储介质730中。应当理解，网络740、请求者650、数字图像设备660、服务器750和视频库760不是计算设备700的一部分。

在图10和图11的计算设备中，存储介质630或730可以是包括在计算设备中或以其它方式耦接或附加到计算设备的任何存储设备中的任何存储介质。这些存储介质例如包括：诸如硬盘、软盘和磁带的磁介质；诸如致密盘(CD-ROM和CD-RW)和数字多功能盘(DVD和DVD±RW)的光介质；快闪存储卡；以及任何其它存储介质。如这里所使用的，存储设备是允许对存储介质进行读和/或写的设备。存储设备包括硬盘驱动器、DVD驱动器、快闪存储器设备等等。

这里所使用的计算设备指的是任何可以执行指令的、具有处理器、存储器和存储设备的设备，其包括但不限于个人计算机、服务器计算机、计算板、机顶盒、视频游戏***、个人摄像机、电话、个人数字助理(PDA)、便携式计算机和膝上型计算机。这些计算设备可以运行任何操作***，包括例如各个版本的Linux、Unix、MS-DOS、Microsoft Windows、Palm OS和Apple MacOS X操作***。

计算设备600或700可以包括适合执行这里描述的功能的软件和/或硬件。因此，计算设备600可以包括一个或多个：逻辑阵列、存储器、模拟电路、数字电路、软件、固件、和处理器，诸如微处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、可编程逻辑器件(PLD)和可编程逻辑阵列(PLA)。计算设备600的硬件和固件组件可以包括用于提供这里描述的功能和特征的各种专用单元、电路、软件和接口。所述的处理、功能和特征可以全部或部分地体现在运行在客户机计算机上的软件中，或者，可以采用固件、应用程序、小应用程序(例如Java applet)、浏览器插件、COM对象、动态链接库(DLL)、脚本(script)、一个或多个子例程、或操作***组件或服务的形式。硬件和软件以及它们的功能可以是分布式的，从而一些组件由客户机计算机执行，而另一些由其它设备执行。

结束语

以上内容仅仅是说明性的，而非限制性的，并且仅仅是通过举例的方式来提供的。尽管示出和描述了一些例子，但是对于本领域普通技术人员来说显而易见的是，可以进行改变、修改和/或变更。

尽管这里提供的许多例子包括方法动作或***元件的特定组合，但是应当理解，那些动作和元件可以以其它方式组合来实现相同的目的。对于流程图，可以采用更多的或更少的步骤，并且示出的步骤可以组合或进一步细化以实现这里所描述的方法。仅仅与一个实施例相结合描述的动作、元件和特征并非打算被排除在其它实施例的类似角色之外。

对于权利要求中描述的装置加功能的限定，其中的装置并非意图被限定于这里所公开的用于执行所述功能的装置，而是旨在覆盖范围内的、用于执行所述功能的、现在已知的或以后开发的任何装置。

如这里所使用的，“多个”是指两个或更多个。

如这里所使用的，无论是说明书中还是权利要求中提到的术语“包括”、“包含”、“携带”、“具有”、“含有”等都应被理解为是开放式的，即，其含义是包括但不限于。对于权利要求来说，只有变化的短语“由......构成”和“基本上由......构成”是封闭式的或半封闭式的变化短语。

如这里所使用的，“和/或”的含义是所列项目是可选项，但是该可选项还包括所列项目的任意组合。

Claims

1、一种用于个性化原始数字视频的处理方法，所述原始数字视频包含图像，该图像包括原始背景场景和前景，该前景包括原始演员，所述处理方法包括：

跟踪所述原始演员的位置、方向和表情；

将所述原始演员的至少一个关键部分替换成与所述背景场景连续的图像；

将新演员***到所述视频中，所述新演员与所述原始演员的被替换部分的位置、方向和表情基本匹配；

重新创建所述新演员上的照明和阴影效果；

重新创建所述新演员的影子和影像。

2、如权利要求1所述的处理方法，其中，被替换的所述原始演员的部分至少包括脸和邻近的皮肤区域，所述邻近的皮肤区域包括耳朵和脖子的可见部分。

3、如权利要求2所述的处理方法，其中，

所述图像包含至少一个非替换的所述原始演员的皮肤区域，该皮肤区域具有的皮肤外观与所述新演员的皮肤外观不同，并且

所述处理方法还包括改变所述非替换皮肤区域，以匹配所述新演员的皮肤外观。

4、如权利要求1所述的处理方法，其中，将整个原始演员替换成与背景场景连续的图像。

5、如权利要求1所述的处理方法，还包括：在***之前，对包括所述新演员的数据应用组合和参数变形变换处理，以创建混合的新演员。

6、如权利要求1所述的处理方法，其中，替换还包括替换所述原始演员的影子或影像。

7、如权利要求1所述的处理方法，还包括：

将新对象***到所述视频中；

重新创建所述新对象上的照明和阴影效果；

重新创建所述新对象的影子和影像。

8、如权利要求7所述的处理方法，其中，***新对象使用了该新对象的3D模型。

9、如权利要求7所述的处理方法，其中，所述新对象是基于与所述新演员相关的人口信息选择的。

10、如权利要求1所述的处理方法，

其中，所述原始视频包含具有位置和方向的原始对象，

所述处理方法还包括：

将所述原始对象的至少一部分替换成与所述背景场景连续的图像；

将新对象***到所述视频中，所述新对象与所述原始对象的被替换部分的位置和方向基本匹配；

重新创建所述新对象上的照明和阴影效果；

重新创建所述新对象的影子和影像。

11、如权利要求10所述的处理方法，其中，***新对象使用了该新对象的3D模型。

12、如权利要求10所述的处理方法，其中，所述新对象是基于与所述新演员相关的人口信息而选择的。

13、如权利要求1所述的处理方法，还包括用新背景场景替代所述原始背景场景的至少一部分。

14、如权利要求1所述的处理方法，其中，

所述视频包括音轨，该音轨可分离成原始背景音频元素和由所述原始演员讲出的对话；

所述处理方法还包括用新的背景音频元素替代所述原始背景音频元素的至少一部分。

15、如权利要求1所述的处理方法，其中，

所述处理方法还包括向原始音轨添加新的背景音频元素。

16、如权利要求1所述的处理方法，其中，所述视频包括音轨，该音轨可分离成原始背景音频元素和由所述原始演员讲出的对话，所述处理方法还包括：

获得新演员的语音采样；

分析所述新演员的语音采样，以定义新演员语音的一个或多个描述性特征；

使用所述新演员语音的一个或多个描述性特征变换由所述原始演员讲出的对话。

17、一种用于个性化视频的处理方法，该处理方法包括：

提供多个已准备视频的视频库，每一个已准备视频是通过视频准备处理而得到的；

提供一个或多个新演员模型的演员模型库，每一个新演员模型是通过演员建模处理而得到的；

从所述视频库中选择视频；

从所述演员模型库中选择新演员模型；

应用个性化处理，以使用所选择的新演员模型来创建所选择的视频的个性化版本。

18、如权利要求17所述的处理方法，所述视频准备处理还包括：

提供包含图像的视频，该图像包括原始背景场景和前景，该前景包括原始演员；

跟踪所述原始演员的位置、方向和表情；

识别和跟踪所述视频内的照明、阴影、影子和影像。

19、如权利要求18所述的处理方法，所述演员建模处理还包括：

提供新演员的至少一个2D数字图像以及相关支持信息；

根据所述2D数字图像和相关支持信息创建新演员的模型，该新演员的模型由3D模型、人口简档和其它个人信息构成。

20、如权利要求18所述的处理方法，所述个性化处理还包括：

使用所述新演员模型将新演员***到视频中，所述新演员与所述原始演员被替换部分的位置、方向和表情基本匹配；

重新创建所述新演员上的照明和阴影效果；

重新创建所述新演员的影子和影像。

21、如权利要求20所述的处理方法，其中，

所述视频包含至少一个非替换的所述原始演员的皮肤区域，该皮肤区域具有的皮肤外观与所述新演员的皮肤外观不同，并且

22、如权利要求20所述的处理方法，其中，

所述视频准备处理还包括：

跟踪视频中原始对象的位置和方向；

将所述原始对象的至少一个关键部分替换成与所述背景场景连续的图像；

所述个性化处理还包括：

将新对象***到所述视频中，所述新对象的位置和方向与所述原始对象的位置和方向基本上匹配；

重新创建所述新对象上的照明和阴影效果；

重新创建所述新对象的影子和影像。

23、如权利要求20所述的处理方法，其中，

所述视频准备处理还包括：

跟踪视频中适合用来放置对象的地点的位置和方向；

所述个性化处理还包括：

将新对象***到所述视频中，所述新对象的位置和方向与所述地点的位置和方向基本匹配；

重新创建所述新对象上的照明和阴影效果；

重新创建所述新对象的影子和影像。

24、如权利要求20所述的处理方法，其中，所选择的视频包括音轨，该音轨可分离成原始背景声轨和由所述原始演员讲出的对话，并且其中，

所述新演员建模处理还包括：

获得新演员的语音采样；

所述个性化处理还包括：

使用所述新演员语音的一个或多个描述性特征对所述原始演员讲出的对话进行变形。

25、一种用于创建原始数字视频的个性化版本的处理方法，所述原始视频包含原始演员的图像，所述处理方法包括：

将所述原始演员的图像的至少一部分替换成新演员的图像；

将新对象的图像***到所述视频中。

26、如权利要求25所述的处理方法，其中，所述新对象的图像是基于与所述新演员相关的人口信息从多个候选对象的图像中选择的。

27、如权利要求26所述的处理方法，所述原始视频还包含原始对象的图像，其中所述原始对象的图像的至少一部分被替换成所述新对象的图像。

28、一种用于创建原始数字视频的个性化版本的计算设备，所述原始数字视频包含图像，该图像包括背景场景和前景，该前景包括原始演员的图像，所述计算设备包括：

处理器；

与所述处理器耦接的存储器；

其上存储有指令的存储介质，当所述指令被执行时，使得所述计算设备执行动作，这些动作包括：

个性化视频，该视频包含图像，该图像包括原始演员的图像，所述动作还包括：

跟踪所述原始演员的位置、方向和表情；

重新创建所述新演员上的照明和阴影效果；

重新创建所述新演员的影子和影像。

29、如权利要求28所述的计算设备，还包括到网络的接口，其中，由所述计算设备执行的动作还包括在执行***的步骤之前，经由所述网络接收所述新演员的2D数字图像。

30、如权利要求29所述的计算设备，其中，由所述计算设备执行的动作还包括：在所述重新创建影子和影像的步骤之后，经由所述网络发送个性化的视频。

31、如权利要求29所述的计算设备，还包括到一个或多个包含多个视频的数据库的接口。

32、如权利要求31所述的计算设备，其中，由所述计算设备执行的动作在替换的步骤之前还包括：

经由所述网络接收定制所述多个视频之一的请求；

从所述一个或多个数据库中检索被请求的视频。

33、如权利要求31所述的计算设备，其中，由所述计算设备执行的动作在替换的步骤之前还包括：

基于与所述新演员相关的人口信息选择所述多个视频中的一个；

从所述一个或多个数据库中检索所选择的视频。

34、如权利要求28所述的计算设备，还包括到数字图像设备的第一接口，其中，由所述计算设备执行的动作还包括：在***的步骤之前经由所述接口接收所述新演员的2D数字图像。

35、如权利要求35所述的计算设备，还包括到网络的第二接口，其中，由所述计算设备执行的动作还包括：在替换的步骤之前经由网络请求和接收所述原始视频。

36、一种存储介质，其上存储有指令，当由处理器执行所述指令时，将使得该处理器执行动作，这些动作包括：

跟踪所述原始演员的位置、方向和表情；

重新创建所述新演员上的照明和阴影效果；

重新创建所述新演员的影子和影像。