CN102542249A

CN102542249A - 视频内容中的脸部识别

Info

Publication number: CN102542249A
Application number: CN2011103584398A
Authority: CN
Inventors: F·O·福尔塔; 何亚明; K·W·奥尔; M·G·希洛特里; S·斯皮尔斯; 顾创
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-11-01
Filing date: 2011-10-31
Publication date: 2012-07-04
Anticipated expiration: 2031-10-31
Also published as: US8494231B2; HK1171846A1; CN102542249B; US20120106806A1

Abstract

本主题公开涉及在视频中的脸部识别。输入数据的帧中的脸部检测数据被用来生成脸部图库，所述脸部图库被标记并用于在整个视频中识别脸。生成与该视频帧和脸相关联的元数据并维护该元数据以供后续识别。可以通过脸的跟踪来找出除了由脸部检测找到的那些脸之外的脸，其中，由脸部检测所找到的脸部显著标记被用于跟踪在先前和/或后续的视频帧中的脸。一旦生成，可以访问维护的元数据以有效地确定对应于观看者选择的脸的人的身份。

Description

视频内容中的脸部识别

技术领域

本发明涉及人脸识别，特别是在视频内容中的脸部识别。

背景技术

许多视频内容的消费者在寻求与视频内容的交互。例如，用户可以暂停、倒带、快进以及其它方式控制他们的观看体验。这些都是众所周知的概念，然而，许多用户也非常想要其它类型的交互。

一种期望的交互类型是能够使用个性化视频服务之类以探索在视频内容中嵌入了什么。作为示例，用户可能希望找出在某个场景中的演员的身份，和/或(即使该演员的身份是已知的)，找出有关该演员的更多一些的信息，例如传记信息。当前，为了找到有关电视节目或电影的演员表的更多信息，用户可以转向因特网，所述因特网包括了至少一个具有以每个节目为基础上的全局信息的网站。在那，用户可以查找在这样的站点上的节目，并浏览图像库直到找到感兴趣的演员。

除了手动转到因特网之外，提供更加自动用户交互章节(例如暂停节目并请求在该时刻出现的演员的自动标识)的服务将需要依赖于脸部识别。然而，脸部识别是最具挑战性的机器学习任务之一，因为诸如亮度条件、姿势位置和脸部表情之类的因素对最终的精度和调用(recall)结果有显著的影响。而且，脸部识别是复杂的，因为人的年龄等等随时间是变化的，例如从有胡须的到刮光胡须的，同时带了帽子等等。迄今，还不存在一种提供对这样的自动化服务支持的已知的方法。

发明内容

提供本发明内容以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本发明内容不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在以限制所要求保护的主题的范围的任何方式来使用。

简而言之，在此所述的主题的各个方面旨在推动可以从输入视频识别脸部的技术。将与在输入视频帧中(例如通过脸部检测模块)检测到的脸部相对应的脸部检测数据和(例如在脸部图库中维护的)脸部标识数据进行匹配以识别脸部。为后续标识生成并维护将视频帧以及脸部与脸部标识数据相关联的元数据。可以通过脸部跟踪找到附加脸部，其中，使用脸部检测数据作为用于在一个或多个先前和/或后续视频帧上(例如通过脸部显著标记(faciallandmark))跟踪脸的基础。

在一个方面，通过基于类似性数据对脸进行分组来生成脸部图库，这样，每个类似的脸的集合被放置同一候选组中。基于类似性数据将候选组分成超过一个的候选组，和/或可以基于类似性数据将候选组与另一候选组组合成基于该类似性数据的单个候选组。可以通过例如如果在一个候选组中的任意脸看起来不是同一个人的则丢弃该候选组来过滤候选组。随后将剩余的脸加入到脸部图库之一中，每个脸部图库用脸部标识数据来标记。

在一个方面，可以访问维护的元数据以有效地确定对应于观看者选择的脸的人的身份。例如，当接收到标识与视频帧号相关联的观看者选择的脸的请求后，可以访问元数据以确定是否存在该观看者选择的脸的脸部标识数据。如果存在，对应于脸部标识数据的信息(例如人的名字)可以被返回以作为对所述请求的响应。

在一个方面，可以提供脸部识别流水线，它包括提供检测的脸的数据的脸部检测模块、通过类似性将脸分组以生成图库的脸部分组模块、在相邻的帧上跟踪所检测的脸的脸部***、以及将输入视频中的脸与脸部图库中的脸进行匹配以输出对应于在输入视频中所识别的脸的信息(例如元数据)的脸部识别机制。可以访问在给定视频帧中的观看者选择的脸的情况下标识人所需的所述信息。

结合附图阅读以下详细描述，本发明的其他优点会变得显而易见。

附图说明

作为示例而非限制，在附图中示出了本发明，附图中相同的附图标记指示相同或相似的元素，附图中：

图1是表示脸部识别流水线的示例组件的框图。

图2A是可用于跟踪视频帧中的脸的正面脸部显著标记的表示。

图2B是可用于跟踪视频帧中的脸的侧面脸部显著标记的表示。

图3-6是随时间的视频帧表示，说明了脸部检测和脸部跟踪。

图7是示出可以由脸部识别流水线执行的示例步骤的流程图。

图8是表示用于使用由流水线提供的脸部识别数据来后续标识所选择的脸的示例组件的框图。

图9示出可以将本发明的各方面并入其中的计算环境的说明性示例。

具体实施方式

在此所述的技术的各个方面通常旨在实现视频中的实用的且有效的脸部识别。为了这个目的，一种实现通过处理流水线运行输入请求视频，所述处理流水线具有执行脸部检测、脸部跟踪、脸部分组和脸部识别的集成模块。如在此所述，流水线可以输出脸部相关的元数据(例如节目ID(ShowID)、帧号、帧中的位置、演员ID(ActorID))，这些元数据随后可以被用于以高精度和调用性能有效地标识视频中的人。

应当理解，此处的任何示例都是非限制性的。作为用于在电视节目和电影被用作相对于标识演员的经处理的视频的示例的一个应用，例如标识会议中的人、处理安全连续镜头(footage)等等的其它应用可以得益于在此描述的技术。如此，本发明不限于此处所描述的任何特定实施例、方面、概念、结构、功能或示例。相反，此处所描述的实施例、方面、概念、结构、功能或示例中的任一个都是非限制性的，并且本发明一般能够以在视频处理方面提供好处和优点的各种方式来使用。

图1示出处理流水线的示例组件，包括脸部检测模块102、脸部分组模块104、脸部跟踪模块106以及脸部识别模块108。将输入视频馈送给脸部检测模块102，它对出现在输入视频的帧中的脸的位置进行检测。通常，脸部检测找到每个视频帧中可能的脸，例如通过具有考虑了姿势位置的多视角支持的Haar特征检测器。脸部检测是一种通常公知的技术，例如在美国专利号为7,689,033中所描述的技术，并且因此，除了注意对于包含可以被检测到的脸的经处理的帧来说，脸部检测模块102将针对该帧中的一个或多个脸的结果数据输出到脸部跟踪模块106和脸部识别模块108之外，在此不会对该技术进行进一步描述。

注意如下所述，为了效率，脸部检测模块不需要处理输入视频的每个帧，而是可以使用一些减少采样率的或减少分辨率的帧，这样例如依据可用的资源和时间，以每第四帧、每第十帧或其它速率来进行处理。还应该注意，脸部检测可以针对图库生成使用一种采样率，例如每第四帧，并且针对如下所述的脸部跟踪和识别使用不同的速率，例如每帧。通常，图库生成和脸部跟踪是完全独立的但可以并行执行的处理，包括由脸部检测模块102生成的相同数据。

另一种获得脸部图像的方式是从因特网获取。

许多众所周知的人物的脸包括标记已经是可以免费获得的。

脸部分组模块106基于对应于来自脸部检测模块102的结果数据的检测到的脸和/或从其它图像获得的类似数据生成一个或多个脸部图库110。为了这个目的，脸部分组模块106评估脸中的特征，并将那些具有类似特征的脸分组在一起。在一个实现中，脸部分组模块106测试在整个视频内容中的每个检测到的脸之间的类似性矩阵，并基于它们彼此的类似性将它们分组到数个脸部图库中。

以这种方式，脸部分组将一个脸的集合分组到数个组中，每个组包含类似的脸。注意脸部分组可以具有能够用于生成图库图像的其它用途和其它技术。例如，来自一个电视节目章节(或一些更小的子集)的脸可以分组并标记，并作为完整章节集合的图库图像。这改善了识别的精度，因为演员通常跨整个系列看上去是类似的。脸部分组还可以用于直接标记未经脸部识别的经分组的脸，这例如对于趋向于具有不同的演员(例如脱口秀)的电影或电视节目是有用的。

在每个脸部图库中，理想地，所有经检测的脸都将属于同一人，然而，可能出现差错。而且，理想情况是一个人仅有一个图库，但也可能一个人具有超过一个的与他或她相关联的图库，例如由于显著的亮度差异或显著的脸部表情改变。一个最大允许的类似性测量差值或某个其它机制可用于将图库彼此分开。同样，可以基于具有接近的类似性分数来将图库组合。在图库中实际上完全相同地类似的脸可以滤除，这样，可以消除高度重复的数据。

作为生成脸部图库110的一部分，通常使用很少努力就可以应用手动(或基于机械视觉)的处理来标记生成的脸部图库。例如，可以提供一种易懂的工具，该工具示出在图库(或其子集)中的某个实际数目的脸供人们判断，(例如为这样的输入的参与者付费的人群源服务)，并且仅仅提问所示出的所有脸是否是同一人的。如果恰好一个脸都没有出现在对同一人的脸的判断中，就丢弃图库(或其显示的子集)。.注意，丢弃的脸可以(例如在反馈回路中)用于改进后续分组，例如在电视系列的后续情节上执行的分组。

将名字标签标记到(例如图库)保持的每个脸的集合；由于当前脸部分组技术的精度原因，所述标记处理是有效的，通常仅需要在一组脸上一次点击。还可以替换地使用更复杂的工具，例如基于判断置信分数、和/或允许对简单消除局外人的脸并保持其余的脸的判断的工具。

流水线的另一部分旨在聚集更多的脸部数据，例如从没有被采样并由脸部检测模块102处理的帧中，或从存在脸但不能检测到脸的帧中聚集数据。为了此目的，脸部跟踪模块106尝试跟踪在临时时域中的检测到的脸位置，以便找到任何错过的脸。

通常，脸部跟踪是定位在视频序列中的脸对象的处理。基于作为脸部检测模块102的结果提供的在当前视频帧处的初始检测到的脸，脸部跟踪模块106分析周围/邻近的输入视频帧以便跟随在在先和随后的视频帧中的(例如移动的)脸的位置。尤其是，基于脸部模型的跟踪***使用来自脸部检测模块102的脸部特征点的明确定义，所述脸部特征点倾向于可靠地描述脸上的显著的脸部标记的物理位置，如通常在图2A和2B中所表示，所述图示出了如何能够通过点/分段作为数据来分别表示正面和侧面脸部显著标记。脸部跟踪模块106估计并跟踪在在先和随后视频帧中这些显著标记的移动。

为了清楚起见，在图2A中标记了两个点221和222，而应该理解，任意点可以与一个标识符相关联，并且可以使用其它点和/或特征，以及更少的点或更多的点。如可以容易理解地，脸部跟踪模块102可以通过充分利用用各种显著标记数据(例如缩放期间保持相同的比率、用于旋转的数学调整和部分闭塞)来训练的通用脸部模型来使用显著标记补偿检测以及在时域中的它们的移动和安排。不需要作出有关帧中的背景、相机运动或脸部数目的假设；对于一个场景片断中的任意时间长度，可以同时跟踪任意数目的脸。由跟踪恢复能力来处理场景片断中的闭塞情况。

作为脸部跟踪的示例，图3示出包括两个快照(shot)331和332的集合，其中一个快照是由快照边界(图3到6中的垂直线)所分开的帧集合。例如，图3到6可以示出包括在两个视点之间切换的转换的场景，每个视点是一个快照。

在图7的流程图中通常以步骤702表示的初始步骤标识不同的快照，这提供了工作的相对低水平基础。注意，虽然图7表示了用于任意单个快照的示例逻辑，但这里允许并行处理每个快照。快照边界检测是一种众所周知的技术。

步骤704与图4一起表示处理单个快照的脸部检测模块120的结果。通常，当主题正开始进入照相机时，脸部检测工作得最好，因为脸朝向、皮肤颜色、照明条件和其它因素会影响检测算法的性能。在图4的示例中，检测直到快照的中部才找到脸，如在标记为443的帧中的虚线圆圈所示。还要注意，如上所述，脸部检测可以不处理每个帧，代之以仅采样某些帧，因此，即使当脸部检测模块102清楚地检测到脸时也能跳过帧。

步骤705-707(可以是分开的处理，并且不需要通过快照边界关注)旨在图库生成，并且已经在上面描述过。总之，步骤705表示通过脸所检测到的特征的类似性来分组脸，步骤706表示过滤脸(例如消除过度的冗余数据和/或任何其中具有两个或更多不同人的脸的组)，而步骤707表示通过利用它们所标记的名字保存组来生成图库。

步骤708-710旨在脸部跟踪。图5对应于步骤708，示出了协助检测的脸部跟踪模块106。一旦脸部检测模块120通过步骤704已经找到脸，脸部跟踪模块106很可能能够通过显著标记在快照的剩余部分中持续锁定在该脸上。即使当通常如图2B所示，脸转向旁边(就是说变成侧视图)，脸部跟踪模块106典型地能够通过姿势估计来跟踪该脸的特征点。

在对应于步骤709的图6中，表示了以反向帧顺序工作的脸部跟踪模块106。与以上示例一致，直到在快照中部的帧433处才出现脸部检测。通过反向跟踪，脸部跟踪模块106标识了由于脸部检测模块102无力定位帧或由于跳过了这些帧而在先前没有检测到的帧441和442中的脸。

这样，基于检测到的初始脸的脸部建模，脸部跟踪找到了更多的机会在单独的空间脸部检测不能检测到脸的场合从时间上跟随相关的脸，因此，通过以更高置信度在视频序列中发现更多的脸来改进精度。注意，脸部跟踪还减少了视频序列中的虚假检测，因为这样的虚假数据倾向于以较低置信度仅保存短时间周期。而且，通过用半侧面和侧面的脸的附加的脸部显著标记来训练脸部跟踪模块，用于脸部显著标记的基于形状的运动估计可以提供这些检测的脸的时间上的轨迹。

一旦已经检测和/或跟踪到脸，可以相对于到脸部图库中的每个参考脸的特征距离来测量这些脸。110具有到测试的采样的最小距离的脸表示脸部识别的一个匹配。例如，现在已知在图6的帧441中的脸属于一个特定的人。注意，如果距离太大，那么，会生成“未匹配”状态，在这种方式中，出现在节目中的不能出于图库标记目来标识的每个小角色演员就不需要仅因为某个人是最接近的而被错误地匹配到这个人。

可以随后保存标识节目中的人的元数据，如在步骤714中通常表示的。一种有效方式是维护标识哪个人存在于哪个节目的哪个帧(时间戳)的哪个位置的元数据，例如{ShowID，frame number，location in frame，ActorID}({节目ID、帧号、帧中的位置、演员ID})。还可以使用其它格式化元数据的方式，例如通过一个或多个GUID，然而，通常，元数据允许将节目、帧和帧位置中的未知的脸与(如果先前已识别)身份进行有效匹配。

在一个实现中，包含所识别的脸的每个帧将具有元数据。可以维护帧和/或位置的范围以用于当该人不再在一系列帧中移动时的有效存储。还应注意，在其中公众提供例如用来标记演员的数据的人群源也可以被用于识别为之维护元数据的另外的未知的人。

注意，电视连续剧可以用作输入视频，当该电视连续剧的一集或多集被分别作为输入视频处理时，可以发现存在改进的精度和调用。而且，对于大多数演员仍然是相同的连续剧来说，通过在各个剧集上运行脸部识别来仅处理该连续剧中的剧集的子集以构建图库。这样，在此所使用的“节目”可以意指电影、剧集、连续剧或其某个子集，并且，图库生成可以独立于对图库的脸部识别。

图8示出了观看者如何使用保存的脸部元数据880来标识人，并且具有为该人检索的传记或其它数据。例如，人类接口设备882，例如通过观看者正在观看节目之类的电视机的遥控器、游戏控制台、计算机上的鼠标等，观看者可以与节目交互。例如，如果观看者暂停帧884并选择该帧中的一个人(例如通过在该人周围拖动框886或在该人处指向/悬停光标等等)，就能知道该帧和位置。如果已经如上所述处理了节目，可以由脸部匹配机制888通过{ShowID，frame number，location in frame}(节目ID、帧号、帧中位置)访问元数据880来找到ActorID(演员ID)。接着，ActorID可以用于查找数据库890以提供例如标识在该帧中的人是谁的结果，提供有关该人的传记信息，提供到更多数据的链接等等。

在替换实现中，或者如果例如要请求标识的脸与元数据不匹配，则可以尝试动态脸部识别，包括通过将特征与现有图库110或其它源进行匹配。虽然可能不如基于元数据的查找那么有效，还可以使用脸部特征来将人和剪辑图像进行匹配(或可能与该人可能是谁的候选集匹配)并返回这样的信息给用户。

注意，图8中的任意或所有的组件和功能可以在客户端侧设备上，或者(除了人类接口设备和显示帧的显示机制之外的)某个功能可以由远程服务来提供。例如，客户端可以发送脸部元数据给服务，服务随后执行查找，或者客户端可以发送脸部特征(或脸的图像)给服务，服务执行脸部识别。

可以以任意合适的方式将结果送回和/或输出，例如通过电子邮件、文本消息等等将它们置于在屏幕图像之上。用户可以交互以订阅特定感兴趣人的“频道”，其中，涉及该特定人的有关新的或旧的内容的信息可以被自动以各种方式告知用户，例如具有更新的新闻的整个电影或电视节目、剧集、场景、帧和/或与该人相关的人物。

示例性操作环境

图9示出可在其上实现图1-8的示例的合适计算和联网环境900的示例。计算***环境900只是合适计算环境的一个示例，而非意在暗示对本发明使用范围或功能有任何限制。也不应该将计算环境900解释为对示例性操作环境900中示出的任一组件或其组合有任何依赖性或要求。

本发明可用各种其他通用或专用计算***环境或配置来操作。适用于本发明的公知计算***、环境、和/或配置的示例包括但不限于：个人计算机、服务器计算机、手持式或膝上型设备、平板设备、多处理器***、基于微处理器的***、机顶盒、可编程消费电子产品、网络PC、微型计算机、大型计算机、包括任何以上***或设备的分布式计算环境等等。

本发明可在诸如程序模块等由计算机执行的计算机可执行指令的通用上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括存储器存储设备在内的本地和/或远程计算机存储介质中。

参考图9，用于实现本发明的各方面的示例性***可包括计算机910形式的通用计算设备。计算机910的组件可以包括但不限于：处理单元920、***存储器930和将包括***存储器在内的各种***组件耦合至处理单元921的***总线920。***总线921可以是若干类型的总线结构中的任一种，包括使用各种总线体系结构中的任一种的存储器总线或存储器控制器、***总线、以及局部总线。作为示例而非限制，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线，以及也称为夹层总线的***部件互连(PCI)总线。

计算机910通常包括各种计算机可读介质。计算机可读介质可以是能由计算机910访问的任何可用介质，并包含易失性和非易失性介质以及可移动、不可移动介质。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以存储诸如计算机可读的指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不仅限于，RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或可以用来存储所需信息并可以被计算机910访问的任何其他介质。通信介质通常以诸如载波或其他传输机制的已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据，并包括任意信息传送介质。术语“已调制数据信号”是指具有以在信号中编码信息的方式被设定或改变其一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线连接之类的有线介质，以及诸如声学、RF、红外及其他无线介质之类的无线介质。上面各项中的任何项的组合也包括在计算机可读介质的范围内。

***存储器930包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)931和随机存取存储器(RAM)932。基本输入/输出***933(BIOS)包含诸如在启动期间帮助在计算机910内的元件之间传输信息的基本例程，基本输入/输出***931(BIOS)通常储存储在ROM 531中。RAM932通常包含处理单元920可立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图9示出了操作***934、应用程序935、其他程序模块936和程序数据937。

计算机910也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图9示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器941，从可移动、非易失性磁盘952中读取或向其写入的磁盘驱动器951，以及从诸如CD ROM或其他光学介质等可移动、非易失性光盘956中读取或向其写入的光盘驱动器955。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器941通常由诸如接口940等不可移动存储器接口连接至***总线921，并且磁盘驱动器951和光盘驱动器955通常由诸如接口950等可移动存储器接口连接至***总线921。

以上描述并在图9中示出的驱动器及其相关联的计算机存储介质为计算机910提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。例如，在图9中，硬盘驱动器941被示为存储操作***944、应用程序945、其他程序模块946和程序数据947。注意，这些组件可以与操作***934、应用程序935、其他程序模块936和程序数据937相同，也可以与它们不同。操作***944、应用程序945、其他程序模块946和程序数据947在这里被标注了不同的附图标记是为了说明至少它们是不同的副本。用户可通过诸如平板或者电子数字化仪964、话筒963、键盘962和定点设备961(通常指的是鼠标、跟踪球或触摸垫)等输入设备向计算机910输入命令和信息。图9中未示出的其他输入设备可以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其他输入设备通常通过耦合至***总线的用户输入接口960连接至处理单元920，但也可以由其他接口和总线结构，例如并行端口、游戏端口或通用串行总线(USB)来连接。监视器991或其他类型的显示设备也通过诸如视频接口990之类的接口连接至***总线921。监视器991也可以与触摸屏面板等集成。注意到监视器和/或触摸屏面板可以在物理上耦合至其中包括计算设备910的外壳，诸如在平板型个人计算机中。此外，诸如计算设备910等计算机还可以包括其他***输出设备，诸如扬声器995和打印机996，它们可以通过输出***接口994等连接。

计算机910可以使用到一个或多个远程计算机(如远程计算机980)的逻辑连接，以在联网环境中操作。远程计算机980可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见网络节点，并且通常包括许多或所有以上关于计算机910所描述的元件，但在图9中仅示出了存储器存储设备981。图9中所示的逻辑连接包括一个或多个局域网(LAN)971和一个或多个广域网(WAN)973，但也可以包括其他网络。这些联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当用于LAN网络环境中时，计算机910通过网络接口或适配器970连接到LAN 971。当在WAN联网环境中使用时，计算机910通常包括调制解调器972或用于通过诸如因特网等WAN 973建立通信的其他手段。可为内置或可为外置的调制解调器972可以经由用户输入接口960或其他合适的机制连接至***总线921。诸如包括接口和天线的无线联网组件可通过诸如接入点或对等计算机等合适的设备耦合到WAN或LAN。在联网环境中，相对于计算机910所描述的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非限制，图9示出了远程应用程序985驻留在存储器设备981上。可以理解，所示的网络连接是示例性的，也可以使用在计算机之间建立通信链路的其他手段。

结论

尽管本发明易于作出各种修改和替换构造，但其某些说明性实施例在附图中示出并在上面被详细地描述。然而应当了解，这不旨在将本发明限于所公开的具体形式，而是相反地，旨在覆盖落入本发明的精神和范围之内的所有修改、替换构造和等效方案。

Claims

1.在计算环境中，至少部分在至少一个处理器上执行的方法，包括：接收与在输入视频帧中检测到的脸相对应的脸部检测数据(704)，将脸部检测数据与与在脸部图库中维护的脸部标识数据进行匹配(712)以识别在输入视频帧中的脸，以及生成将所述视频帧和脸与所述脸部标识数据相关联的元数据(714)。

2.如权利要求1所述的方法，其特征在于，进一步包括：在一个或多个后续帧上跟踪在所述输入视频帧中检测到的所述脸，并且生成将所述一个或多个后续帧的每个与所述脸部标识数据相关联的元数据；或者包括：在一个或多个先前帧上跟踪在所述输入视频帧中检测到的所述脸，并且生成将所述一个或多个先前帧的每个与所述脸部标识数据相关联的元数据；或者包括：既在一个或多个后续帧上跟踪在所述输入视频帧中检测到的所述脸，并且生成将所述一个或多个后续帧的每个与所述脸部标识数据相关联的元数据，也在一个或多个先前帧上跟踪在所述输入视频帧中检测到的所述脸，并且生成将所述一个或多个先前帧的每个与所述脸部标识数据相关联的元数据这两者。

3.如权利要求1所述的方法，其特征在于，进一步包括：构建所述脸部图库，包括基于类似性数据将输入视频帧中检测到的脸分组到候选分组中。

4.如权利要求3所述的方法，其特征在于，还包括：

基于类似性数据将一个候选分组分成至少两个候选分组，或者

基于类似性数据将两个或更多的候选分组组合成单个候选分组，或者

从一个候选分组中过滤出至少一些脸，将剩余的脸加入到所述脸部图库之一中，并用所述脸部标识数据来标记每个脸部图库，或者

基于类似性数据将一个候选分组分成至少两个候选分组、基于类似性数据将两个或更多的候选分组组合成单个候选分组、或者从一个候选分组中过滤出至少一些脸、将剩余的脸加入到所述脸部图库之一中、以及用所述脸部标识数据来标记每个脸部图库中的任意组合。

5.如权利要求1所述的方法，其特征在于，还包括：接收标识观看者选择的脸的请求，所述请求与视频帧号相关联，访问所述元数据以确定是否存在用于该观看者选择的脸的脸部标识数据，并且如果存在，返回对应于所述脸部标识数据的信息作为对所述请求的响应。

6.在计算环境中，一种***包括：从输入视频中识别脸的脸部识别流水线，包括配置用于基于由脸部检测模块数据(102)所提供的脸部检测数据通过类似性来将脸分组的脸部分组模块(104)，所述分组模块进一步配置用于提供对应于所述分组的脸部图库，所述脸部图库包括了标识与脸部图库(110)中的脸相关联的每个人的信息，所述脸部标识流水线进一步包括脸部识别机制(108)，所述脸部识别机制(108)将所述输入视频中的脸与所述脸部图库中的脸进行匹配以输出对应于所述输入视频中所识别的脸的信息。

7.如权利要求6所述的***，其特征在于，进一步包括：脸部跟踪模块，其被配置用于跟踪与所述脸部检测模块数据为之提供脸部检测数据的帧相邻的一个或多个帧中的脸。

8.如权利要求6所述的***，其特征在于，对应于在所述输入视频中所识别的脸的所述信息包括：元数据，从该元数据中可以标识在节目或电影中的、在给定帧和该帧的位置处的人，并且还包括配置用于访问所述元数据以标识给定节目或电影、给定帧和该帧位置处的人。

9.一个或多个具有计算机可执行指令的计算机可读介质，所述计算机可执行指令在被执行时执行以下步骤，包括：

接收对应于在输入视频帧中检测到的脸的脸部检测数据(704)；

基于至少一些所述脸部检测数据跟踪一个或多个相邻视频帧中的所述脸；以及

基于所述脸部检测数据或对应于跟踪所述脸部的数据或基于所述脸部检测数据和对应于跟踪所述脸部的数据两者来识别(712)所述输入视频帧和每个相邻视频帧中的所述脸。

10.如权利要求9所述的一个或多个计算机可读介质，其特征在于，识别所述脸包括将所述输入视频帧和每个相邻视频帧中的所述脸与在脸部图库中维护的脸部标识数据进行匹配。