CN103703472A

CN103703472A - 视频中对象的语意解析

Info

Publication number: CN103703472A
Application number: CN201180036737.3A
Authority: CN
Inventors: D·娃凯尔罗; R·S·福瑞斯; A·汉帕博; L·M·布朗
Original assignee: International Business Machines Corp
Current assignee: Qindarui Co.
Priority date: 2010-07-28
Filing date: 2011-07-27
Publication date: 2014-04-02
Anticipated expiration: 2031-07-27
Also published as: WO2012013711A3; US8532390B2; DE112011101927B4; US8774522B2; US20130308868A1; GB2495881B; US20160132730A1; US8588533B2; KR20130095727A; GB201302234D0; TW201227535A; US20150131910A1; US20120027304A1; DE112011101927T5; US9002117B2; WO2012013711A2; US9245186B2; US20140185937A1; TWI505200B; JP5657113B2

Abstract

本发明提供一种以计算机视觉检测人体的语意属性的改良方法。在以计算机视觉检测人体的语意属性时，本发明维护语意属性的列表，这些语意属性中的每一者对应于人体部位。计算机模块接着分析数字视频的帧的区域段，以通过找到每一区域段的最可能属性来检测每一语意属性。应用阈值以选择该帧的候选区域段以供进一步分析。该帧的这些候选区域段接着通过应用人体的身体结构原理及通过分析图像的分辨率愈来愈高的版本来经历几何及分辨率内容脉络分析，以验证部位及属性的存在及准确性。基于通过评估外观特征、几何特征及在该图像的较高分辨率版本可用时的分辨率内容脉络特征而针对该图像的较高分辨率版本所计算的加权平均分，计算机模块计算该图像的较低分辨率版本的分辨率内容脉络分数。最后，经由动态程序设计来执行最佳结构步骤以选择该帧上的具有人体部位的语意属性及空间位置两者的最佳输出。

Description

视频中对象的语意解析

技术领域

本发明涉及视频处理及对象识别，且更具体的，涉及分析对象的图像以识别属性。

背景技术

自动地识别视频中的对象及其各部分的位置对于许多任务而言是重要的。举例而言，在人体部位的情况下，自动地识别人体各部位的位置对诸如自动动作辨识、人类姿势估计等的任务而言是重要的。身体解析是用以描述视频中的各个身体部位的计算机化定位的术语。用于视频中的身体解析的现有方法仅估计诸如头、腿、手臂等部位的位置。参见(例如)Ramanan等人“Strike a Pose:Tracking People byFinding Stylized Poses”，2005年6月美国加州圣地亚哥(San Diego,CA)Computer Vision and Pattern Recognition(CVPR)及Felzenszwalb等人“Pictorial Structures for Object Recognition”，2005年1月International Journal of Computer Vision(IJCV)。

大多数先前方法实际上仅执行语法对象解析，也即，这些方法仅估计对象部位(例如，手臂、腿、脸部等)的定位，而没有有效地估计与这些对象部位相关联的语意属性。

鉴于上述内容，需要一种用于自图像有效地识别对象的语意属性的方法及***。

发明内容

本发明在于用于估计视频中的对象的部位及属性的一种方法、一种计算机程序产品、一种计算机***及一种处理。该方法、该计算机程序产品、该计算机***及该处理包含：接收视频输入；从所述视频输入检测对象且从所述视频输入裁切所述对象的图像；接收具有所述对象的相关联部位的多个语意属性；产生并储存所述图像的多个版本，每一版本具有所述对象的所述图像的不同分辨率；针对所述多个语意属性，计算在所述对象的所述图像的所述版本中的最低分辨率版本上的多个区域中的每一区域处的外观分数，针对每一区域的所述多个语意属性中的至少一个语意属性的所述外观分数指示所述至少一个语意属性中的每一语意属性出现于所述区域中的概率；针对所述最低分辨率版本中的每一区域来分析分辨率相对于所述最低分辨率版本递增的版本，以计算分辨率内容脉络分数，所述最低分辨率版本中的所述分辨率内容脉络分数指示如下的程度，所述程度是针对每一区域，相比于最低分辨率版本，在所述分辨率递增的版本中存在更精细的空间结构的程度；确定所述最低分辨率版本中的身体部位及相关联语意属性的优化结构，所述确定利用所述最低分辨率版本的各区域中的外观分数及分辨率内容脉络分数；以及显示和/或储存身体部位及相关联语意属性的所述优化结构。

附图说明

参考以下附图通过仅为举例的方式说明本发明的优选实施例，其中：

图1示出了根据本发明实施例的用于检测人体的语意属性的***的说明性环境。

图2示出了根据本发明实施例的用于检测视频中的人体的语意属性的说明性环境的近视图。

图3示出了根据本发明实施例的输入及输出的实例。

图4示出了根据本发明实施例的用于检测图像上的语意属性的说明性数据流。

图5示出了根据本发明实施例的与身体部位相关联的语意属性的实例。

图5A及图5B示出了根据本发明实施例的将语意属性应用于人体图像的实例。

图5C示出了根据本发明实施例的评估外观分数的实例。

图5D示出了根据本发明实施例的用于计算外观分数的步骤的输入及输出。

图6及图6A示出了根据本发明实施例的计算分辨率内容脉络分数的实例。

图6B示出了根据本发明实施例的用于计算分辨率内容脉络分数的步骤的输入及输出。

图7A及图7B示出了根据本发明实施例的用于计算最佳配置的几何分数的实例。

图7C示出了根据本发明实施例的用于计算几何分数的步骤的输入及输出。

图8示出了根据本发明实施例的用于计算总分的步骤的输入及输出。

请注意，这些附图并不按比例绘制。这些附图意欲仅描绘本发明的典型方面，且因此不应被认为限制本发明的范畴。虽然这些附图说明了对视频中的人体的处理，但本发明扩展至对视频中的其他对象的处理。在附图中，类似编号表示附图之间的类似组件。

具体实施方式

本发明涉及视频处理及对象识别，且更具体的，涉及分析对象的图像以识别属性

本发明的各方面提供了一种用于检测视频中的对象的语意属性的改良解决方案。举例而言，本发明的各方面提供从身体部位提取属性，以使得能够基于个人描述来在视频中自动搜寻人物。在另一实例中，本发明提供从汽车提取属性，以使得能够基于汽车的描述来在视频中自动搜寻汽车。可能的查询可为：“显示上个月进入IBM的有胡须、戴太阳眼镜、穿红色夹克及蓝色裤子的所有人物”或“显示上周进入IBM停车场的具有菱形轮毂盖的所有蓝色双门Toyota”。

本发明处理语意对象解析的问题，其中目标为在同一处理中有效地估计部位位置及语意属性两者。使用人体解析作为实例，本发明的实施例提供在同一处理中估计人体部位的语意属性连同身体部位的定位。克服先前方法的低效率及不准确，本发明充分利用全局优化方案来同时估计部位及其对应属性两者。

不同于先前方法，本发明的实施例使用诸如“胡须”、“小胡子”及“无脸部毛发”的语意属性来不仅定位人体部位而且识别该身体部位的属性。举例而言，代替仅识别诸如“腿”的身体部位，本发明使用诸如“黑色长裤”、“长裙”及“短裤”的语意属性来定位该身体部位且识别其属性两者。本发明维护使每一语意属性与对应身体部位相关的数据表。举例而言，语意属性“胡须”对应于身体部位“下部脸部区域”。

本发明的实施例系基于三种特征：外观特征、分辨率内容脉络特征，及几何特征。外观特征指代通过将来自图像库的语意属性与出现在该图像上的事物进行比较以评估匹配概率所获得的分数。分辨率内容脉络特征指代在不同图像分辨率下的对象一致性。特定区域的分辨率内容脉络分数为来自该特定区域的较高分辨率图像的加权平均分。通过合计外观分数、几何分数及(若较高分辨率图像可用时的)分辨率内容脉络分数来计算该较高分辨率图像的总分。自较高分辨率图像将分辨率内容脉络分数计算为给定区域处的总分除以组成被分析的较高分辨率图像上的该区域的子区域的数目。几何特征指代基于可能结构中的基础部位间的空间关系来计算的分数。举例而言，潜在属性“胡须”对应于“脸部”，且“黑衬衫”对应于“躯体”。几何特征通过应用一般人体结构原理来测试候选语意属性的准确性，该一般人体结构原理为“脸部”在“躯体”上方且距“躯体”特定距离。

在人体解析的实例中，本发明的各方面不仅估计人体部位位置，而且估计其语意属性，诸如颜色、脸部毛发类型、眼镜的存在等。换言之，本发明的各方面利用统一学习方案来执行语法解析(也即，位置估计)及语意解析(也即，提取描述每一身体部位的语意属性)两者。本发明优于先前技术而在同一处理中检测身体部位及属性两者以更准确地识别人体的属性。

转向附图，图1示出了根据本发明的实施例的用于检测人体的语意属性的说明性环境。就此而言，至少一个相机42捕捉场景或背景90。通常，该背景或场景90可包括至少一个对象(诸如，人员92)。如本文中所论述，获得数字视频输入40且将其发送至***12，该***12包括例如语意属性检测程序30、数据50、预定或指定语意属性52、输出54和/或其类似物。

图2示出了根据本发明的实施例的用于检测视频40中的人员92(图1)的语意属性的说明性环境10的近视图。就此而言，环境10包括计算机***12，其可执行本文中所描述的处理以便检测视频40中的人员92的语意属性。具体的，计算机***12被示出为包括计算装置14，该计算装置14包含使计算装置14可操作以用于通过执行本文中所描述的处理来检测视频40中的人员92(图1)的语意属性的语意属性检测程序30。

计算装置14被示出为包括：处理器20、存储器22A、输入/输出(I/O)接口24，及总线26。另外，计算装置14被示出为与外部I/O装置/资源28及非暂时性计算机可读存储装置22B(例如，硬盘、软盘、磁带、诸如光盘(CD)或数字视频盘(DVD)的光学储存器)通信。一般而言，处理器20执行诸如语意属性检测程序30的程序代码，该程序代码储存于诸如存储器22A(例如，动态随机存取存储器(DRAM)、只读存储器(ROM)等)和/或存储装置22B的储存***中。在执行程序代码时，处理器20可读取和/或写入数据，诸如，将数据36写入至存储器22A、存储装置22B和/或I/O接口24/自存储器22A、存储装置22B和/或I/O接口24读取数据36。计算机程序产品包含存储装置22B，该存储装置22B上储存有供处理器20随后执行以执行用于估计视频中的对象的部位及属性的方法的程序代码。总线26提供计算装置14中的组件中的每一个之间的通信链路。I/O装置28可包含在用户16与计算装置14之间和/或在数字视频输入40与计算装置14之间传送信息的任何装置。就此而言，I/O装置28可包含：用户I/O装置，其用以使得各个用户16能够与计算装置14互动；和/或通信装置，其使用任何类型的通信链路以使得组件(诸如，数字视频输入40)能够与计算装置14通信。I/O装置28表示至少一个输入设备(例如，键盘、鼠标等)及至少一个输出设备(例如，打印机、绘图机、计算机屏幕、磁带、可拆卸硬盘、软盘)。

在任何情况下，计算装置14可包含任何通用计算制造对象，其能够执行安装于其上的程序代码。然而，应理解，计算装置14及语意属性检测程序30仅代表可执行本文中所描述的处理的各种可能的等效计算装置。就此而言，在其他实施例中，通过计算装置14及语意属性检测程序30提供的功能性可通过计算制造对象来实施，该计算制造对象包括通用和/或专用硬件和/或程序代码的任何组合。在每个实施例中，可分别使用标准程序设计及工程技术来建立程序代码及硬件。这些标准程序设计及工程技术可包括开放架构以允许整合来自不同位置的处理。上述开放架构可包括云计算。因此，本发明公开了一种用于支持计算机基础结构、整合、代管、维护及部署计算机可读代码至计算机***12中的处理，其中与该计算机***12结合的代码能够执行一种用于估计视频中的对象的部位及属性的方法。

类似地，计算机***12仅说明用于实施本发明的各方面的各种类型的计算机***。举例而言，在一个实施例中，计算机***12包含两个或两个以上计算装置，该两个或两个以上计算装置经由任何类型的通信链路(诸如，网络、共享存储器或其类似者)进行通信以执行本文中所描述的处理。另外，在执行本文中所描述的处理时，计算机***12中的一个或多个计算装置可使用任何类型的通信链路与计算机***12外部的一个或多个其他计算装置通信。在任一情况下，通信链路可包含各种类型的有线和/或无线链路的任何组合；包含一种或多种类型的网络的任何组合；和/或利用各种类型的传输技术及协议的任何组合。

如本文中所论述，语意属性检测程序30使得计算机***12能够检测对象(诸如，视频40中的人员92(图1))的语意属性。就此而言，语意属性检测程序30被示出为包括对象检测模块32、外观分数模块34、几何分数模块36、分辨率内容脉络模块37、结构优化模块38、计算总分模块39，及结构化学习模块35。本文中进一步论述这些模块中的每一个的操作。然而，应理解，图2中所示出的各种模块中的一些模块可独立地实施、组合和/或储存于包括于计算机***12中的一个或多个单独计算装置的存储器中。另外，应理解，可以不实施一些模块和/或功能性，或可包括额外模块和/或功能性作为计算机***12的一部分。

本发明的各方面提供一种用于检测对象(诸如，视频40中的人员92(图1))的语意属性的改良解决方案。就此而言，图3示出了根据本发明的实施例的输入90(图1)及输出54(图1)的实例。如上文(图1)所描述，输入90为具有至少一个对象(在此实例中为人)的场景。输出54包括身体部位的空间位置及图像上的属性。举例而言，本发明将区域402识别为上部脸部区域，且自同一区域识别该人员的属性“秃发”。区域404为中间脸部区域且识别属性“太阳眼镜”。区域406为下部脸部区域且识别属性“胡须”。区域408被识别为手臂且识别属性“纹身”。区域410被识别为腿且识别属性“黑色长裤”。此外，如本文中所描述，输出54包括图像的外观分数、几何分数及(若可用)分辨率内容脉络分数的总分和/或加权平均分。

本发明的各方面提供一种用于检测对象(诸如，视频40中的人员92(图1))的语意属性的改良解决方案。就此而言，图4示出了根据本发明的实施例的用于通过使用语意属性检测程序30(图2)的模块而检测图像上的人员92(图1)的语意属性的说明性数据流。举例而言，在D1处，***12接收数字彩***输入40。数字彩***输入40通常呈红色-绿色-蓝色(RGB)格式，且在每一时间瞬时处，具有人员92(图1)的视频输入的帧到达对象检测模块32(图2)。

在S1处，对象检测模块32(图2)在视频输入的帧中检测对象且识别其对象类型。可通过使用对象分类器来将对象的图像与先前储存且储存于对象库中的持续自学对象进行比较而测试该检测(参见论文：2005年6月美国加州圣地亚哥(San Diego,USA)Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，N.Dalal及B.Triggs的“Histograms of Oriented Gradients for Human Detection”第II卷第886至893页))。一旦自图像识别出对象，便裁切覆盖该对象的图像区域。现有技术支持产生图像的较低分辨率版本。自裁切区域，产生原始裁切区域的至少一个较低分辨率图像且将其与原始裁切图像一起保存以供进一步分析。在随后步骤中，首先处理裁切区域的最低分辨率图像，且以较低分辨率至较高分辨率的次序处理图像。出于获得分辨率内容脉络分数的目的，处理较高分辨率图像。具体的，分辨率内容脉络分数模块37(图2)分析与对象的各种部位及子部位相对应的图像的各种区域及子区域的分辨率愈来愈高的图像。较高分辨率图像的分析依次包括计算语意属性的外观分数、针对子区域计算几何分数及计算分辨率内容脉络分数，所述子区域具有比最低分辨率图像中的区域高的精细度。最低分辨率图像的分辨率可为预定的，诸如，作为常数储存于语意属性检测程序30中或作为输入经由I/O装置28(图2)来提供。

D2维护语意属性及相关联图像的列表。除了描述语意属性之外，每个语意属性还对应于身体部位。举例而言，语意属性“太阳眼镜”、“眼镜”及“无眼镜”全部对应于身体部位“中间脸部区域”；语意属性“胡须”、“小胡子”及“无脸部毛发”全部对应于身体部位“下部脸部区域”。图5示出了根据本发明的实施例的与身体部位相关联的语意属性的实例。语意属性52(图1)的列表含有这些语意属性及其对应身体部位两者。

在S2处，外观分数模块34(图2)通过评估语意属性52(D2)存在于图像的各区域处的概率而实时或以延迟模式来分析自S1保存的图像。如上文所陈述，首先分析最低分辨率图像。可在此阶段评估可能在最低分辨率图像上可见的语意属性，而可在随后步骤处评估可能在较高分辨率图像上可见的其他语意属性。语意属性的图像储存于持续自学的语意属性库中。

在S2处，在评估语意属性存在于影像的各区域处的概率时，本发明的各方面使用了描述于2001年2月“Cambridge ResearchLaboratory Technical Report”Viola等人的作品“Robust Real-timeObject Detection”中的方法。在2004年IEEE International Conferenceon Automatic Face and Gesture Recognition Bo Wu等人的作品“FastRotation Invariant Multi-View Face Detection Based on RealAdaboost”中用实值信赖分数进一步描述了该方法。该方法提供计算外观分数用以表示属性存在于某一区域处的概率的步骤。经由语意属性检测器的应用来评估语意属性的存在。用于语意属性的检测器是将图像的某一区域映射成在区域间[0,1]中的实数的函数，其中输出指示语意属性在给定作为输入的图像区域中存在的概率。依据本发明，外观分数的所得值的范围可为0至1。在图像的每一区域处，可存在对应于存在于同一区域处的多个语意属性的概率的多个外观分数。

图5A及图5B示出了根据本发明的实施例的将语意属性应用于人体图像的实例。在图5A中，不同于将仅把图像区域60、62及64分别识别为头、躯体及腿的先前技术，本发明的实施例另外自区域60提取皮肤颜色、自区域62提取衬衫颜色且自区域64提取裤子颜色等。类似地，在图5B中，区域66不仅被识别为上部脸部区域，而且其提供描述头发、秃发或帽子的存在的属性。区域68不仅被识别为中间脸部区域，而且其还提供描述眼睛、视力眼镜或太阳眼镜的属性。区域70不仅被识别为下部脸部区域，而且其还可提供嘴、小胡子或胡须的属性。此外，图5A的图像具有比图5B低的分辨率。将适用于整个身体的属性检测器(诸如，皮肤颜色、衬衫颜色及裤子颜色)应用于图5A中的较低分辨率图像，而将特定于脸部的属性检测器(诸如，发型、眼镜的存在及小胡子)应用于图5B。

随后在S2(图4)中，外观分数模块34(图2)将阈值应用于由在图像上应用语意属性检测器所产生的所有外观分数。将舍弃小于阈值的外观分数，而将保留剩余的外观分数。阈值可为预定的，诸如作为常数储存于语意属性检测程序30中或作为输入经由I/O装置28(图2)来提供。在应用阈值之后，在图像的区域处仍可存在剩余的一个以上外的观分数。在图像的每一区域处的每一外观分数对应于语意属性。如上文所描述，每一语意属性对应于身体部位。因此，在图像区域处的每一外观分数也对应于身体部位。接着，具有超过阈值的外观分数的每一区域将用对应的身体部位来加标签。结果，外观分数模块34的输出包括用外观分数作标记且用语意属性及身体部位名称加标签的区域的位置，例如，对于区域x，外观分数为0.6且标签为“胡须/下部脸部区域”，其中“胡须”为语意属性且“下部脸部区域”为身体部位。

图5C示出了根据本发明的实施例的评估外观分数的实例。区域602获得三个外观分数：胡须(0.1)、小胡子(0.1)及“无毛发”(0.95)。举例而言，阈值为0.5。结果，如上文所描述，将“无毛发”选择为区域602的属性，这是因为“无毛发”包括了超过阈值0.5的分数。类似地，区域604获得三个外观分数：胡须(0.9)、小胡子(0.2)及“无毛发”(0.1)。结果，将胡须选择为区域604的属性，这是因为胡须包括了超过阈值0.5的分数。如上文所描述，区域604及区域602两者将用身体部位“下部脸部区域”加标签。根据通过S5(图4)中的结构优化模块的评估，区域604可由于具有低几何分数以及低分辨率内容脉络分数而在随后被拒绝。

S2(图4)的输出包括用属性及外观分数作标记且用身体部位名称加标签的各区域的各个位置。图5D示出了根据本发明的实施例的用于计算外观分数的步骤的输入及输出。在计算外观分数时，外观分数模块34(图2)获取输入610，该输入610包括对象的裁切图像612、具有对应部位的语意属性的列表52、作为参考的语意属性的图像库620，及外观分数阈值630。输出690包括图像上的具有语意属性、部位名称及外观分数650的区域。输出外观分数全部超过外观分数阈值630。

在S3(图4)处，为了计算在S2中处理的图像(例如，图像x)的分辨率内容脉络分数，分辨率内容脉络分数模块37(图2)需要分析图像x的较高分辨率图像。如上文所描述，自S1产生且储存较高分辨率图像。主要想法在于，若身体部位在给定分辨率下在图像中可见，则其在较高分辨率下在同一图像中也应可见。举例而言，在特定区域(区域y)处，向语意属性“胡须”给定分数0.9且因此将区域y加标签为“胡须/下部脸部区域”。在较高分辨率图像中，区域y预期显示出下部脸部区域的子部位(例如，嘴，下巴等)。若该情况没有发生，则有可能身体部位“下部脸部区域”实际上不存在于区域y中，且将较低分辨率内容脉络分数指派给区域y。

图6示出了根据本发明的实施例的评估分辨率内容脉络分数的实例。在较低分辨率图像下，在图像700上，外观分数模块34(图2)通过应用语意属性检测器(诸如，胡须或眼镜或脸部皮肤颜色)在区域702处检测脸部身体部位。图像750为区域702的较高分辨率图像。由于区域的分辨率内容脉络分数的可用性取决于该区域的较高分辨率图像的可用性，因此在图像750可用的情况下，可获得图像700上的区域702的分辨率内容脉络分数。在图像750下，评估区域702以检测如在图像700上所检测到的脸部是否含有预期子部位(诸如，眼睛、鼻子及嘴)。相关语意属性检测器(诸如，胡须或眼镜或甚至眼睛颜色)可应用于图像750。因此，针对在诸如区域704的区域处应用的语意属性而在图像750上计算外观分数。此外，针对经识别具有超过预定阈值的语意属性的区域来计算几何分数。简言之，图4中的步骤S2到步骤S7将应用于图像750以产生总分和/或加权平均分，该总分和/或加权平均分用于图像750的输出54的一部分。在分析时，每一图像都产生输出54。来自图像750的加权平均分成为图像700上的区域702的分辨率内容脉络分数。

图6A进一步说明分辨率内容脉络分数模块37如何获得分辨率分数。在自较低分辨率图像至较高分辨率图像的处理中，在分辨率N下的图像670的分辨率低于图像690的分辨率N+1。在图像670上的区域675处，属性“欧洲脸”具有外观分数0.9。图像690在较高分辨率下检查区域675。应用于图像690的分析处理包括通过应用语意属性来计算外观分数、计算分辨率内容脉络分数、计算几何分数(在随后步骤描述)、执行结构优化(在随后步骤描述)及计算总分(在随后步骤描述)。如上文所描述，输出54包括图像的外观分数、分辨率内容脉络分数及几何分数的加权平均(如本文中所描述)。因此，在此情况下，来自用于图像690的输出54的加权平均分0.7为图像670上的区域675的分辨率内容脉络分数。

为了进一步说明图6A上的图像670上的区域675如何具有分辨率内容脉络分数0.7，假定基于应用于图像690上的语意属性，存在在图像690上检测出的三个区域。假定该三个区域为区域x、区域y及区域z。假定图像690上的区域x、区域y及区域z的外观分数分别为0.9、0.8及0.9。假定图像690上的区域x、区域y及区域z的几何分数分别为0.5、0.6及0.35。假定存在区域x、区域y及区域z的较高分辨率图像。假定区域x的较高分辨率图像具有两个子区域：区域xx及区域xy。假定区域xx及区域xy不具有对应的较高分辨率图像。假定区域xx具有外观分数0.95且区域xy具有外观分数0.9。假定区域xx及区域xy的几何分数分别为0.9及0.8。由于不存在区域xx及区域xy的对应的较高分辨率图像，因此区域xx及区域xy的分辨率内容脉络分数为0。假定在该实例中的所有分析中，外观分数的加权因子为0.5，几何分数的加权因子为0.3且分辨率内容脉络分数的加权因子为0.2。因此，可在表1中表示对应于图像690上的区域x的最高分辨率图像的数字。

表1

	区域xx	区域xy	权重
				外观分数	0.95	0.9	0.5
几何分数	0.9	0.8	0.3
				分辨率内容脉络分数	0	0	0.2

对应于图像690上的区域x的最高分辨率图像的加权平均分为：

(0.95*0.5+0.9*0.3+0*0.2+0.9*0.5+0.8*0.3+0*0.2)/2＝0.7275

因为在计算中存在两个区域(区域xx及区域xy)，所以将总和除以2。输出0.7275成为图像690上的区域x的分辨率内容脉络分数。类似地，假定依据对区域y及区域z的较高分辨率图像的分析，区域y及区域z的分辨率内容脉络分数分别为0.6及0.5。表2描绘了图像690上的区域x、区域y及区域z的分数，其在下文示出了。

表2

	区域x	区域y	区域z	权重
					外观分数	0.9	0.8	0.9	0.5
几何分数	0.5	0.6	0.35	0.3
					分辨率内容脉络分数	0.7275	0.6	0.5	0.2

因此，图像690的加权平均分为：

(0.9*0.5+0.5*0.3+0.7275*0.2+0.8*0.5+0.6*0.3+0.6*0.2+0.9*0.5+0.35*0.3+0.5*0.2)/3≈0.7

因为图像690为图像670上的区域675的对应较高分辨率图像，所以图像670上的区域675具有分辨率内容脉络分数0.7。

如在图6A中进一步表明，区域的分辨率内容脉络分数的存在取决于该区域的较高分辨率图像是否可用于分析。因此，最高分辨率图像不具有分辨率内容脉络分数。结果，最高分辨率图像的输出54的加权平均分将仅包括外观分数及几何分数的加权平均值。此外，如由图6A所表明，图像690提供图像670上的区域675的分辨率内容脉络分数。图像670上的其他区域将必须经历如上文所描述的类似分析，以获得其对应分辨率内容脉络分数。

S3(图4)的输出包括最低分辨率图像上的具有语意属性、部位名称及分辨率内容脉络分数的区域。图6B示出了根据本发明的实施例的评估分辨率内容脉络分数的步骤的输入及输出。在计算分辨率分数时，分辨率分数模块37(图2)获取输入830，输入830包括具有不同分辨率的图像860及最低分辨率图像上的具有语意属性、部位名称及外观分数的区域650。输出880包括最低分辨率图像上的具有语意属性、部位名称及分辨率内容脉络分数的区域885。在获得最终输出时，分辨率分数模块37可产生中间输出，这些中间输出包括不同分辨率图像上的具有语意属性、部位名称及分辨率内容脉络分数的区域。

在S4(图4)处，几何分数模块36(图2)通过测量分析的候选区域的特定结构间的距离及角度来计算几何分数，且试图将候选区域间的距离及角度与人体的几何结构匹配。举例而言，候选区域的结构越有可能匹配人体的自然位移，则对于该结构中的每一部位给定的几何分数越高。在一个实施例中，计算几何分数的算法如下：在步骤S2(图4)处所识别的语意属性当中，从这些属性提取部位名称；对于每一部位，当将动态编程用于优化时，几何分数模块36计算与所有其他部位或仅父部位的距离及角度，且使用标准分类方法(例如，在http://en.wikipedia.org/wiki/Naive_Bayes_classifier处可得的NaiveBayes Classifier)来关于距离及角度特征向量如何对应于人体的合理结构而给定范围在0至1的分数。在各实施例中，计算几何分数的实例提供如下。

几何分数(G_i)实例

身体部位i(或区域i)的几何分数(G_i)可依据基于角度的几何分数(G_Ai)和/或基于距离的几何分数(G_Di)来表达。

在一个实施例中，G_i=(G_Ai+G_Di)/2，其为直接的算术平均值。

在一个实施例中，G_i=W_AG_Ai+W_DG_Di，其为加权的算术平均值，其中权重(W_A、W_D)为满足W_A+W_D=1的非负实数，且其中权重(W_A、W_D)为输入，在一个实例中，这些输入可基于诸如用以计算几何分数G_Ai及G_Di的角度及距离(见下文)的参考值的相对准确性和/或重要性的因子来选择或判定。

在一个实施例中，G_i=(G_Ai*G_Di)^1/2，其为几何平均值。

在一个实施例中，G_i=G_Ai，其中仅使用角度而不使用距离。

在一个实施例中，G_i=G_Di，其中仅使用距离而不使用角度。

基于角度的几何分数(G_Ai)

使A_i={A_i1,A_i2，...,A_iN}指示如上文所描述在部位i(或区域i)与每一对其他身体部位(或区域)之间所确定的N个角度的数组。

使a_i={a_i1,a_i2,...,a_iN}指示储存于库或文件中的N个对应参考角度的数组，其中N≥2。

使δ_Ai指示A_i与ai之间的差异的测量结果。

在一个实施例中，δ_Ai＝[{(A_i1-a_i1)²+(A_i2-a_i2)²+...+(A_iN-a_iN)²}/N]^1/2。

在一个实施例中，δ_Ai＝(|A_i1-a_i1|+|A_i2-a_i2|+...+|A_iN-a_iN|)/N。

使t_A指示指定或输入的角度阈值，使得：

若δ_Ai≥t_A，则G_Ai=0；且

若δ_Ai<t_A，则G_Ai=1-δ_Ai/t_A。

因此，G_Ai满足0≤G_Ai≤1。具体的，若δ_Ai=0(也即，若所有确定的角度等于所有对应的参考角度)，则G_Ai=1。此外，若δ_Ai≥t_A(也即，若A_i与a_i之间的差异的测量结果不能容忍得大)，则G_Ai=0。

基于距离的几何分数(G_Di)

使D_i={D_i1,D_i2，...,D_iM}指示如上文所描述的在身体部位i(或区域i)与每一其他身体部位(或区域)之间所确定的M个距离的数组。

使d_i={d_i1,d_i2,...,d_iM}指示储存于库或文件中的M个对应参考距离的数组，其中M≥2。

使δ_Di指示D_i与di之间的差异的测量结果。

在一个实施例中，δ_Di=[{(D_i1-d_i1)²+(D_i2-d_i2)²+...+(D_iN-d_iM)²}/M]^1/2。

在一个实施例中，δ_Di＝(|D_i1-d_i1|+|D_i2-d_i2|+...+|D_iN-d_iM|)/M。

让t_D指示特定或输入的距离阈值，使得：

若δ_Di≥t_D，则G_Di=0；且

若δ_Di<t_D，则G_Di=1-δ_Di/t_D。

因此，G_Di满足0≤G_Di≤1。具体的，若δ_Di=0(也即，若所有确定的距离等于所有对应的参考距离)，则G_Di=1。此外，若δ_Di≥t_A(也即，若D_i与d_i之间的差异的测量结果不能容忍得大)，则G_Di=0。

图7A及图7B示出了根据本发明的实施例的用于评估最佳结构的几何分数的实例。在图7A中，存在在图例800上所识别的许多部位，其中每一正方形表示图像上的识别出具有部位名称的语意属性的区域。在识别出许多独立部位的情况下，存在可能形成人体的许多可能结构。图像中的实际人体在图7A中迭置。举例而言，可能在区域801处检测到头。在区域803及805处检测到两个手臂，且在区域807及809处检测到两条腿。图7B说明了图例802上的通过结构优化模块38选择为最佳结构的部位的区域的集合。在后续步骤中描述了结构优化模块38的功能性。如在图7B中所示的，将区域801、803、805、807及809选择为优化结构的部位。通过测量与其他区域的角度及距离来计算给定结构中的每一区域的几何分数。举例而言，可从测量区域801与属于特定结构候选者的所有其他区域的角度及距离来计算区域801的几何分数。

S4(图4)的输出包括候选部位的结构，其中每一部位(i)与语意属性、外观分数A_i、分辨率内容脉络分数R_i及几何分数G_i相关联。图7C示出了根据本发明的实施例的用于评估几何分数的步骤的输入及输出。在计算几何分数时，几何分数模块36(图2)获取输入810，这些输入810可包括由优化模块分析的部位的候选结构(具有外观分数及分辨率分数的部位的集合)815，及部位间的角度及距离的参考库820。输出890包括部位候选者结构850，其中每一部位(i)与语意属性、外观分数A_i、分辨率内容脉络分数R_i及几何分数G_i相关联。

在S5(图4)处，结构优化模块38(图2)使用动态编程来基于外观分数、几何分数及分辨率内容脉络分数选择最佳结构。给定候选者的集合，可存在可从图像选择为最终身体部位区域加上属性估计的若干可能结构。使用在2005年1月“International Journal of Computer Vision(IJCV)”Felzenszwalb等人的“Pictorial Structures for ObjectRecognition”中提出的算法，经由动态编程来选择最佳结构，该最佳结构是具有最大外观分数、几何分数及分辨率分数的结构。当选定最佳结构时，该最佳结构的选定区域已与语意属性相关联且在该区域处具有身体部位标签，如上文所描述。

因此，在S5(图4)处，可自可用区域及其相关联身体部位标签和属性导出许多可能的候选身体结构。S5的目标为从该多个可能的身体结构中选择出最佳结构。优化模块搜寻此结构空间，其旨在依据外观分数、分辨率内容脉络分数及几何分数确定具有最高加权平均分的结构。作为实例，结构优化模块38可使用如上文所描述的公式结合表1及表2使用，来计算每一可能结构的加权平均分，并选择具有最高加权平均分的结构作为输出。

作为对在计算加权平均分时使预定权重用于三种类型的分数的替代，可动态地确定这些权重。为了自所有三种类型的分数计算优化加权平均分，S6(图4)可确定这些分数的最佳权重。在确定这些最佳权重时，在S6(图4)处，结构化学习模块35(图2)使用称作“结构化学习”的机器学习过程，该机器学习过程描述于2005年9月“Journal ofMachine Learning Research(JMLR)”Tsochantaridis等人“LargeMargin Methods for Structured and Interdependent OutputVariables”中。基本想法包括向***呈现身体部位结构(包括其属)的许多实例。该结构化学习模块接着将使这些权重优化，使得所呈现的实例集合中的任何结构均具有比不对应于有效人体配置的无效结构高的整体分数。结构化学习也于2007年“National Information ProcessingSystems Foundation”由Tran等人描述于“Configuration EstimatesImprove Pedestrian Finding”中。结构化学习是使用一系列正确实例来相对于彼此估计特征的适当权重，以产生在估计结构时有效的分数的方法。

在S7(图4)处，计算总分模块39(图2)基于优化结构中的各区域的外观分数、几何分数及分辨率内容脉络分数而计算优化总分。通过来自结构化学***均分。

因此，分析的每一结构是由各部位的集合组成的，其中每一部位(i)与属性及对应外观分数A_i、分辨率内容脉络分数R_i及几何分数G_i相关联。在S7(图4)处，计算总分模块39(图2)使用以下公式来计算优化总分：

\underset{i}{Σ} W_{1} (A_{i}) + W_{2} (G_{i}) + W_{3} (R_{i})

其中对于结构的每一部位i，A_i表示外观分数，G_i表示几何分数，R_i表示分辨率分数，且W₁、W₂及W₃对应于由结构化学习模块获得的权重。通过S6的结构化学习模块35(图2)经由上文所描述的方法来提供W₁、W₂及W₃。

图8示出了根据本发明的实施例的用于计算总分的步骤的输入及输出。计算总分模块39(图2)的输入840包括：部位候选者结构842，其中每一部位(i)具有外观分数A_i、分辨率分数R_i及几何分数G_i：及由结构化学***均分。输出849包括作为A_i、R_i及G_i的加权平均值的分数847。

如本文中所使用，应理解，“程序代码”意谓语句或指令(以任何语言、程序代码或计数法表示)的任何集合，其使具有信息处理能力的计算装置直接地或在以下各者的任何组合的后执行特定功能：(a)转换至另一语言、程序代码或计数法；(b)以不同材料形式重现；和/或(c)解压缩。就此而言，程序代码可体现为或多种类型的计算机程序的任何组合，诸如，应用程序/软件程序、组件软件/函数库、操作***、用于特定计算的基本I/O***/驱动器、储存器和/或I/O装置，及其类似者。

已出于说明及描述的目的呈现了本发明的各种各方面的上述描述。其不意欲为详尽的或将本发明限于所揭示的精确形式，且明显地，许多修改及变化系可能的。熟习此项技术者可显而易见的这些修改及变化包括于如由所附申请专利范围所界定的本发明的范畴内。

Claims

1.一种用于确定视频中的对象的部位及相关属性的方法，所述方法包含：

接收视频输入；

从所述视频输入检测对象且从所述视频输入裁切所述对象的图像；

接收具有所述对象的相关联部位的多个语意属性；

产生并储存所述图像的多个版本，每一版本具有所述对象的所述图像的不同分辨率；

针对所述多个语意属性，计算在所述对象的所述图像的所述版本中的最低分辨率版本上的多个区域中的每一区域处的外观分数，针对每一区域的所述多个语意属性中的至少一个语意属性的所述外观分数指示所述至少一个语意属性中的每一语意属性出现于所述区域中的概率；

针对所述最低分辨率版本中的每一区域来分析分辨率相对于所述最低分辨率版本递增的版本，以计算分辨率内容脉络分数，所述最低分辨率版本中的所述分辨率内容脉络分数指示如下的程度，所述程度是针对每一区域，相比于最低分辨率版本，在所述分辨率递增的版本中存在更精细的空间结构的程度；

确定所述最低分辨率版本中的身体部位及相关联语意属性的优化结构，所述确定利用所述最低分辨率版本的各区域中的外观分数及分辨率内容脉络分数；以及

显示和/或储存身体部位及相关联语意属性的所述优化结构。

2.如权利要求1的方法，其进一步包含：

针对所述最低分辨率版本的所述多个区域中的每一区域计算几何分数，所述几何分数关于所述多个区域间的角度及距离来计算某一区域与对应于所检测对象的参考对象所储存的参考数据相匹配的概率。

3.如权利要求2的方法，其中所述图像的较低分辨率版本的所述分辨率内容脉络分数被计算为加权平均分，所述加权平均分是从所述图像的所述较高分辨率版本的下一个更高分辨率版本的多个分数来计算的。

4.如权利要求3的方法，其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数及几何分数。

5.如权利要求3的方法，其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数、几何分数及分辨率内容脉络分数。

6.如权利要求5的方法，其中所述图像的所述下一个更高分辨率版本的所述加权平均分是使用以下公式除以I来计算的：

\underset{i}{Σ} W_{1} (A_{i}) + W_{2} (G_{i}) + W_{3} (R_{i})

其中I表示所述图像的所述下一个更高分辨率版本中的区域的数目，i为区域索引，∑_i指示从i=1至i=I的求和，A_i表示区域i的外观分数，G_i表示区域i的几何分数，R_i表示区域i的分辨率内容脉络分数，且W₁、W₂及W₃表示分别指派给所述外观分数、所述几何分数及所述分辨率内容脉络分数的权重。

7.如权利要求6的方法，其进一步包含：

储存和/或显示具有关于语意属性及相关联部位的空间信息的所述图像的所述较高层级版本中的至少一个版本中的所述图像的至少一部分的输出。

8.一种计算机程序产品，其包含：

计算机可读储存介质，其具有在所述储存介质实现的计算机可读程序代码，所述计算机可读程序代码含有执行用于估算视频中的对象的部位及属性的方法的指令，所述方法包括：

接收视频输入；

接收具有所述对象的相关联部位的多个语意属性；

显示和/或储存身体部位及相关联语意属性的所述优化结构。

9.权利要求8的计算机程序产品，所述方法进一步包含：

10.权利要求9的计算机程序产品，其中所述图像的较低分辨率版本的所述分辨率内容脉络分数被计算为加权平均分，所述加权平均分是从所述图像的所述较高分辨率版本的下一个更高分辨率版本的多个分数来计算的。

11.如权利要求10的计算机程序产品，其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数及几何分数。

12.如权利要求10的计算机程序产品，其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数、几何分数及分辨率内容脉络分数。

13.如权利要求12的计算机程序产品，其中所述图像的所述下一个更高分辨率版本的所述加权平均分是使用以下公式除以I来计算的：

\underset{i}{Σ} W_{1} (A_{i}) + W_{2} (G_{i}) + W_{3} (R_{i})

14.如权利要求13的计算机程序产品，其进一步包含：

15.一种计算机***，其包含处理器及耦接至所述处理器的计算机可读存储器单元，所述计算机可读存储器单元含有指令，所述指令在由所述处理器执行时实施用于估算视频中的对象的部位及属性的方法，所述方法包括：

接收视频输入；

接收具有所述对象的相关联部位的多个语意属性；

显示和/或储存身体部位及相关联语意属性的所述优化结构。

16.如权利要求15的***，所述方法进一步包含：

17.如权利要求16的***，其中所述图像的较低分辨率版本的所述分辨率内容脉络分数被计算为加权平均分，所述加权平均分是从所述图像的所述较高分辨率版本的下一个更高分辨率版本的多个分数来计算的。

18.如权利要求17的***，其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数及几何分数。

19.如权利要求17的***，其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数、几何分数及分辨率内容脉络分数。

20.如权利要求19的***，其中所述图像的所述下一个更高分辨率版本的所述加权平均分是使用以下公式除以I来计算的：

\underset{i}{Σ} W_{1} (A_{i}) + W_{2} (G_{i}) + W_{3} (R_{i})

21.如权利要求20的***，所述方法进一步包含：

22.一种支持计算机基础架构的方法，所述方法包含提供用于建立、整合、代管、维护及部署计算机可读程序代码于计算机***中的至少其中之一的至少一种支持服务，其中结合所述计算***的程序代码能够执行用于估算视频中的对象的部位及属性的方法，所述方法包含：

接收视频输入；

接收具有所述对象的相关联部位的多个语意属性；

显示和/或储存身体部位及相关联语意属性的所述优化结构。

23.如权利要求22的方法，所述方法进一步包含：

24.如权利要求23的方法，其中所述图像的较低分辨率版本的所述分辨率内容脉络分数被计算为加权平均分，所述加权平均分是从所述图像的所述较高分辨率版本的下一个更高分辨率版本的多个分数来计算的。