CN105469029B

CN105469029B - 用于对象再识别的***和方法

Info

Publication number: CN105469029B
Application number: CN201510642148.XA
Authority: CN
Inventors: 买斐; 杰弗里·理查德·泰勒
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-09-30
Filing date: 2015-09-30
Publication date: 2020-04-03
Anticipated expiration: 2035-09-30
Also published as: EP3002710A1; US20180075300A1; US10248860B2; JP2016072964A; US9852340B2; AU2014240213A1; CN105469029A; US20160092736A1; JP6018674B2; AU2014240213B2

Abstract

本发明提供一种用于对象再识别的***和方法。所述方法(400)用于利用摄像机识别场景的图像(120)中的对象，所述方法包括以下步骤：独立于摄像机视角，确定(410)关注对象(100)的多个属性中的各个属性的特有性(411)；基于所述场景的图像(120)中的候选对象(130)的相对定向(541)，确定(820)所述多个属性中的各个属性的可检测性(821)；基于所确定的至少一个属性的特有性(411)，确定(460)用于观察所述候选对象(130)的摄像机设置(461)，以提高所述至少一个属性的可检测性；以及利用所确定的摄像机设置(461)拍摄(420)所述候选对象的图像，以确定(440)所述候选对象是所述关注对象的置信度(441)。

Description

用于对象再识别的***和方法

技术领域

本发明大体涉及图像处理，尤其涉及一种用于规划用于判断候选对象是否是关注对象的、诸如平摇、俯仰和缩放值等的一系列摄像机设置的方法、***和设备。在一个例子中，术语“候选对象”和“关注对象”分别是指(i)拥挤的机场中的人，其中，该人仅是人群中的一个人，以及(ii)人群中被识别为特别关注的人。本发明还涉及一种包括计算机可读介质的计算机程序产品，其中，该计算机可读介质上记录有用于规划用于判断候选对象是否是关注对象的一系列摄像机设置的计算机程序记录。

背景技术

诸如购物中心、停车场和火车站等的公共场所正越来越多地受到使用大规模视频摄像机网络的监视。大规模视频监视的应用领域包括安保、安全、交通管理和业务分析。许多这类应用中的关键任务是快速、稳健的对象再识别，这是跨网络中的多个摄像机找到特定关注对象的问题。在安保领域的一个示例性应用中，保安员可能希望观察包含特定可疑目标的任何视频传送以识别意外活动。在业务分析领域的另一个例子中，购物中心可能希望跨多个摄像机追踪特定客户以建立该客户的购物习惯档案。在下面的说明中，术语“对象再识别”将被理解为包含术语“对象辨识”和“对象识别”。

稳健的对象再识别因为几个原因而成为一个挑战性的问题。首先,视角(即，摄像机相对于摄像机视野中的对象的相对定向)和照明在网络中的摄像机之间可能有显著差别。例如,一个网络可能包含用于在明亮的日光下远距离观察目标的室外摄像机和在人工照明下近距离观察目标的室内摄像机两者。此外,许多目标可能有相似的外观，并且只在小细节上可能会有所不同。例如,公共交通工具上的许多乘客穿着类似的职业装，但是他们的外观在诸如领带和头发长度等细节方面存在不同。另外，公共场所的特征通常是非合作目标人群以相对于摄像机变化且不可预测的距离、速度和定向在不受控环境下移动。术语“非合作目标”是指既非有意识地、也非不自觉地保持与摄像机的特殊关系的目标。最后，网络中的摄像机可能具有非重叠视野，因而可能不能从一个摄像机到下一摄像机来连续追踪给定目标。

用于对象再识别的一般方法包括(i)基于外观或者基于属性的方法和(ii)适用于静止摄像机或者活动摄像机的方法。一种已知用于使用静止摄像机的、基于外观的对象再识别的方法，通过从对象的示例性图像提取基于颜色、纹理和形状的低层特征的矢量来对对象的外观进行建模。在通过目标的头部周围的垂直条纹所定义的关注区域中，提取这些特征。再识别一定程度地是基于对外观差异评分的计算，其中，该计算基于从候选目标和关注目标的图像所提取的特征矢量之间的巴氏(Bhattacharyya)距离。

另一已知用于静止摄像机中的、基于属性的再识别的方法，使用支持向量机(SVM)分类器的库来判断行人的图像是否存在15个二值属性(诸如太阳镜、背包和裙子等)。根据具有已知属性的行人的训练集，针对2784维低层颜色和纹理特征矢量来训练SVM分类器。为了克服以不同的可靠性检测不同属性这一问题，基于用于匹配行人的图像对的数据集来学习属性距离度量(马氏距离)。再识别一定程度地是基于对在从候选目标和关注目标的图像所提取的15个属性之间所学习的属性距离度量的计算。

上述基于静止摄像机的再识别方法的性能在跨大距离观察对象时变差，这常见于大规模视频监视***。基于平摇-俯仰-缩放(PTZ)的再识别方法可以通过控制摄像机拍摄大距离处的候选对象的高分辨率图像来克服该局限性。该方法被称为“主动再识别”的一种形式。用于主动再识别的一种已知方法使用面部检测来识别关注对象。使用静止主摄像机来检测目标、并且估计他们的注视方向，并且使用活动的从摄像机来获得所选择的候选目标的高分辨率面部图像。候选目标选择是基于针对观察目标的目标识别的预期信息增益的。还被称为“互信息”的“预期信息增益”，是通过进行观察所获得的、对于与目标识别有关的不确定性的预期降低。该方法趋向于选择面对着从摄像机的身份不明的候选者。该方法的缺点在于依赖于以特定视角(即，正面)所拍摄的高鉴别特征(即，面部)。

用于基于信息论概念的主动再识别的另一已知方法动态规划一系列PTZ设置来拍摄候选对象上不同区域的放大图，以使针对候选对象的类的预期信息增益最大化。术语“类”是指诸如“书籍”或者“杯子”等的语义对象分类。该信息增益一定程度地是根据关注对象在不同PTZ设置下的低层图像特征的学习分布而计算出的。该方法假定可以离线获得所有可用PTZ设置下对象的每一类的多个图像以学习特征分布。

在另一已知相关方法中，控制摄像机设置以使诸如对象检测器等的随机自动机中的互信息最大化。随机自动机以不同尺度的量化图像特征(还被称为“代码字”)作为输入。起初，在第一拍摄图像中检测代码字，并且迭代更新摄像机设置从而以更高分辨率来观察各个代码字。与前述方法相同，通过在观察被作为向元胞的输入的代码字之后，使针对随机自动机中的元胞的状态的互信息最大化来选择摄像机设置。

另一已知方法基于对于不同身体区域的一系列放大观察，主动从已知人物的图库再识别行人。该方法首先拍摄候选者的整个身体图像，并且基于颜色和纹理来提取特征矢量。基于候选者和每一图库图像之间的巴氏距离，使用该特征矢量来对图库进行排序。然后，在基于当前排序而假定跨图库的特征方差最大的情况下，选择每一连续观察作为放大区域。该方法假定对于图库中的每一关注对象，整个身体和所有身体区域的放大图都是可用的。

发明内容

本发明的目的是为了基本上克服或者至少改善现有配置的一个以上的缺点。

公开了被称为视角独立特有性确定(Viewpoint Independent DistinctivenessDetermination(VIDD))配置的配置，其旨在通过独立于摄像机和关注对象之间的相对定向而确定关注对象的属性的特有性来解决上述问题。这样使得能够在先前没有看见关注对象的视角下再识别关注对象，这不同于要求先前已经在特定视角下观察到关注对象的现有方法。此外，所公开的VIDD配置包括使得在基于关注对象的语义描述时，能够在无需该对象的任何先前图像的情况下再识别该对象。

根据本发明的第一方面，提供一种用于利用摄像机识别场景的图像中的对象的方法，所述方法包括以下步骤：独立于摄像机视角，确定关注对象的多个属性中的各个属性的特有性；基于所述场景的图像中的候选对象的相对定向，确定所述候选对象的所述多个属性中的各个属性的可检测性；基于所确定的至少一个属性的特有性，确定用于观察所述候选对象的摄像机设置，以提高所述至少一个属性的可检测性；以及利用所确定的摄像机设置来拍摄所述候选对象的图像，以确定所述候选对象是所述关注对象的置信度。

根据本发明的另一方面，提供一种设备，其包括：摄像机，用于拍摄关注对象的图像和场景中候选对象的图像；处理器；以及存储器，用于存储计算机可执行软件程序，其中，所述计算机可执行软件程序用于指示所述处理器进行用于利用所述摄像机来识别所述场景的图像中的对象的方法，所述方法包括以下步骤：独立于摄像机视角，确定所述关注对象的多个属性中的各个属性的特有性；基于所述场景的图像中的候选对象的相对定向，确定所述候选对象的所述多个属性中的各个属性的可检测性；基于所确定的至少一个属性的特有性，确定用于观察所述候选对象的摄像机设置，以提高所述至少一个属性的可检测性；以及利用所确定的摄像机设置来拍摄所述候选对象的图像，以确定所述候选对象是所述关注对象的置信度。

根据本发明的另一方面，提供一种用于利用摄像机识别场景的图像中的对象的设备，所述设备包括：特有性确定模块，用于独立于摄像机视角，确定关注对象的多个属性中的各个属性的特有性；可检测性确定模块，用于基于所述场景的图像中的候选对象的相对定向，确定所述候选对象的所述多个属性中的各个属性的可检测性；摄像机设置确定模块，用于基于所确定的至少一个属性的特有性，确定用于观察所述候选对象的摄像机设置，以提高所述至少一个属性的可检测性；以及拍摄模块，用于利用所确定的摄像机设置拍摄所述候选对象的图像，以确定所述候选对象是所述关注对象的置信度。

根据本发明的另一方面，提供一种用于存储计算机可执行软件程序的计算机可读非暂时性存储器，其中，所述计算机可执行软件程序用于指示处理器进行用于利用摄像机识别场景的图像中的对象的方法，所述方法包括以下步骤：独立于摄像机视角，确定关注对象的多个属性中的各个属性的特有性；基于所述场景的图像中的候选对象的相对定向，确定所述候选对象的所述多个属性中的各个属性的可检测性；基于所确定的至少一个属性的特有性，确定用于观察所述候选对象的摄像机设置，以提高所述至少一个属性的可检测性；以及利用所确定的摄像机设置来拍摄所述候选对象的图像，以确定所述候选对象是所述关注对象的置信度。

还公开了本发明的其它方面。

附图说明

这里参考以下附图说明本发明一个以上的实施例，其中：

图1A是示出根据一种VIDD配置的用于描述示例性关注对象的属性的简化图；

图1B是示出通过可使用VIDD配置的PTZ摄像机所拍摄的示例性候选对象的图像的简化图；

图2是示出在可以使用VIDD配置的不同摄像机设置下所拍摄的示例性候选对象的图像的简化图；

图3是根据一种VIDD配置的用于将候选对象的身份与所检测到的属性相关的信念网络的简化图；

图4是示出根据一种VIDD配置的用于利用摄像机识别场景中的对象的方法的示意性流程图；

图5、6A和6B共同示出根据图4的方法的一种实施方案的用于确定候选对象的相对定向的方法；

图7A是示出图4的方法中所使用的用于检测候选对象的属性的方法的示意性流程图；

图7B示出根据图7A的方法的一种实施方案的用于检测候选对象的属性的关注区域的例子；

图8是示出在图4的方法中所使用的用于确定候选对象是关注对象的概率的方法的示意性流程图；

图9是示出根据图4的方法的一种实施方案的用于选择新的摄像机设置的方法的示意性流程图；

图10A和10B形成可以实现上述VIDD配置的通用计算机***的示意性框图；

图11描述本说明书中所使用的术语之间的关系；以及

图12描述在图4的步骤440所使用的如何确定特有性的例子。

具体实施方式

如果下面任一附图或者多个附图中的步骤和/或者特征具有相同的附图标记，则对于本说明书，这些步骤和/或者特征具有相同的功能或者操作，除非另有说明除外。

应该注意，“背景技术”部分和上述与在先技术配置有关的部分所包含的说明，涉及对于通过各自的公开和/或者使用可能形成公共知识的文献或者装置的说明。这些说明不应被解释为本发明人或者本专利申请人表示这些文献或者装置无论如何都形成该技术领域的一般公共知识的一部分。

背景技术部分中所述的作为在先技术的主动再识别方法，需要在特定摄像机设置或者观察条件(包括所有可能观察条件)下要拍摄的候选对象或者关注对象的图像。在本说明书中，“观察条件”是指诸如摄像机和对象之间的距离、摄像机的焦距和分辨率以及对象相对于摄像机的定向(即，视角)等的、拍摄对象的图像时的条件。大规模监视场景的特征是非合作目标在不受控环境下移动。因而，实际应用表现出对于已知主动再识别方法的不利条件。

本发明提供一种用于通过规划一系列所要使用的摄像机设置以提高最特有属性的可检测性，从而基于对象的属性使用摄像机来识别场景中的关注对象的方法和***。在本说明书中，“属性”是诸如“头发长度”等的、在图像中可以观察的对象的分类特征。术语“类”以及“类标签”和“属性标签”可互换地指属性的特殊表现，诸如，对于属性“头发长度”，类标签为“长发”。特定图像的属性的“可检测性”是指从图像可以确定该属性的确定性。

图1A和1B示出可以应用VIDD配置的示例性使用情况。在该例子中，目的是判断关注的人100(该例子中的关注对象)何时出现在PTZ摄像机140的监视下的场景的图像120中。在下面的说明中，“候选对象”是指可能是关注对象、但是当前具有不明身份的任何观察对象。例如，通过摄像机140所观察的场景的图像120中的行人130，是关注对象100的候选对象。

图1B示出通过数字摄像机140所拍摄的场景的图像120。

图11描述本说明书中所使用的一些术语。图像1101由诸如1104等的视觉元素构成。在整个说明书中可以互换使用术语“像素”、“像素位置”和“图像位置”以指拍摄图像中的视觉元素中的一个。通过表示拍摄场景的特征的一个以上的值来描述每一像素。在一个例子中，单个强度值表示场景在像素位置处的亮度的特征。在另一例子中，三个一组的值表示场景在像素位置处的颜色的特征。图像1101中的“区域”1103是指诸如1104等的一个以上的空间相邻的视觉元素的集合。“特征”1102表示根据图像区域1103中的像素值所确定的推断值或者推断值集。在一个例子中，特征是图像区域1103中的颜色值的直方图。在另一例子中，特征是通过估计区域1103中的强度梯度所确定的“边缘”值。在另一例子中，特征是诸如包含头部的区域中的标签“帽子”等的、用于描述图像区域1103中的属性的类标签。通过对从图像区域1103所提取的特征应用支持向量机(SVM)或者其它分类方法，来确定类标签。

按照诸如“头发长度”等的固定属性集来描述关注的人100，其中，向每一属性分配离散的类标签(例如，“长发”)。在一个VIDD配置中，属性是用于描述关注的人的软生物特征(soft biometric)。软生物特征对表示人类观察者在描述他人时偏爱的特征的分类语义信息进行编码。在一个例子中，使用软生物特征(属性)“头发长度”来描述人，其中，“头发长度”具有类标签“长发”和“短发”中的一个。在本说明中，可以互换使用术语“类标签”和“类”，并且可以互换使用术语“属性”和“软生物特征”。对于图1A中的示例性人100，软生物特征描述可以包含分配给属性“头发长度”111的类标签“短发”、分配给属性“眼镜类型”112的类标签“佩戴太阳镜”、分配给属性“面部毛发风格”113的类标签“留胡须”、分配给属性“上衣的颜色深浅”114的类标签“浅色上衣”、分配给属性“衣袖长度”115的类标签“长袖”、分配给属性“裤子的颜色深浅”116的类标签“深色裤子”、分配给属性“裤子长度”117的类标签“长裤子”、以及分配给属性“行李类型”118的类标签“肩包”。软生物特征可以跨不同的视角而被检测到，可以容易地适用于外观变化(诸如摘掉太阳镜等)，与基于外观的模型相比更加简洁，并且可以根据书面或者口头描述(例如，来自犯罪目击者的书面陈述)来构建。因此，软生物特征(和一般属性)适用于用于基于对象的最小描述而跨摄像机网络中的不同视角来再识别对象的任务。

尽管以下说明中的例子大多数涉及识别关注的人，但是，本说明书中所述的VIDD配置同样可以适用于其它类型的对象。在一个例子中，VIDD方法被应用于识别通过诸如“车身颜色”、“前照灯形状”和“存在导流板”等的属性所描述的关注车辆。在另一例子中，VIDD方法被应用于识别通过诸如“尾巴长度”、“毛色”和“毛长”等的属性所描述的关注动物。属性可以是任意分类图像特征，并且并非必须是语义性的。在另一例子中，VIDD方法被应用于使用基于从场景中的候选对象上的关注的点所提取的低层图像特征而学习的视觉词集来识别关注对象。VIDD配置可被应用于不同类型的摄像机。在以下说明所使用的一个例子中，使用VIDD配置来控制PTZ摄像机的定向和缩放。在另一例子中，使用VIDD配置来控制诸如焦点和曝光值等的、影响观察条件的其它摄像机设置。在另一例子中，使用VIDD方法在用于进一步处理的静止高分辨率视频流中选择关注区域。

在下面的说明中，属性的“特有性”描述与通过摄像机可以观察的其它候选对象相比，属性类标签对于关注对象有多独特。其它对象被统称为候选对象的“种群”。在一个例子中，如果种群中相对少的人戴着帽子，则类标签“戴着帽子”具有高的特有性。相反，如果种群中大多数其它人戴着帽子(例如，当场景为阳光灿烂的户外时)，则“戴着帽子”具有低的特有性。属性的“可检测性”描述在候选对象的图像中可以检测到该属性的确定程度。通常，可检测性随着诸如摄像机和对象之间的距离、摄像机的焦距和分辨率、以及对象相对于摄像机的定向(即，视角)等的观察条件而变化。例如，在面部的放大正面图像中，是否存在胡须可能具有高的可检测性。相反，当人将面背着摄像机时，或者当人距离摄像机非常远时，可能难以检测到胡须。

如图1B所示，数字摄像机140与计算机***150通信。该示例性VIDD配置可被广泛应用。在一个例子中，计算机***150可以允许保安员通过交互式用户接口指定可疑目标的属性，并且返回被确定为可疑目标的一个以上的候选目标的图像。在另一例子中，计算机可以识别用于观察诸如购物中心等的零售场所的不同摄像机中的各个客户，并且自动建立对于零售分析所要使用的客户行为模型。在另一例子中，计算机***可以跨交通摄像机网络识别各个车辆在不同时间的位置，并且使用该信息来控制交通信号以提高交通流量。

本发明的概述

如上所述，本说明涉及用于判断通过摄像机所观察的候选对象是否是关注对象的方法。如上所述，已知用于该问题的解决方案需要在特定观察条件下来拍摄候选对象或者关注对象的图像。例如，基于面部识别的现有方法至少需要候选对象和关注对象两者的一个正面图像。此外，基于低层图像特征的现有方法需要候选对象在所有实际观察条件下的图像。相反，当不能如上所述限制观察条件时，现有方法可能不佳。该局限性的一个例子是用于在候选目标在大的开放空间内自由移动的购物中心，基于目击者描述(即，不能获得商店窃贼的图像)来识别商店窃贼的任务。

本说明所述的VIDD方法通过使用在一系列观察条件下可检测到的多个属性来描述对象以克服上述局限性。这样允许在先前未被观察的观察条件下来识别关注对象。此外，该方法获得使与候选对象的身份有关的不确定性的降低最大化的一系列观察。这通过主动控制摄像机设置以提高在当前视角(即，候选对象相对于摄像机的相对定向)下最特有属性的可检测性来得以实现。该控制过程被称为“PTZ询问”。由于候选对象可能仅暂时出现在摄像机的视野内，因而PTZ询问的目的是利用最小数量的拍摄图像来使所获得的与每一候选对象的身份有关的信息最大化。

图10A和10B描述可以实现所述的各种VIDD配置的通用计算机***150。

通过图10A可知，计算机***150包括：计算机模块1001；诸如键盘1002、鼠标指针装置1003、扫描器1026、诸如摄像机140等的一个以上的摄像机140、以及麦克风1080等的输入装置；以及包括打印机1015、显示装置1014和扬声器1017的输出装置。计算机模块1001可以使用外部调制器-解调器(调制解调器)收发装置1016，经由连接1021与诸如141等的通信网络1020上的远程摄像机通信。通信网络1020可以是诸如因特网、蜂窝电信网或者私人WAN等的广域网(WAN)。如果连接1021是电话线，则调制解调器1016可以是传统的“拨号”调制解调器。可选地，如果连接1021是高容量(例如，线缆)连接，则调制解调器1016可以是宽带调制解调器。对于与通信网络1020的无线连接，还可以使用无线调制解调器。

计算机模块1001通常包括至少一个处理器单元1005、以及存储器单元1006。例如，存储器单元1006可以具有半导体随机存取存储器(RAM)和半导体只读存储器(ROM)。计算机模块1001还包括许多输入/输出(I/O)接口，其包括：与视频显示器1014、扬声器1017和麦克风1080连接的音频视频接口1007；与键盘1002、鼠标1003、扫描器1026、摄像机140和可选操纵杆或者其它人机接口装置(未示出)连接的I/O接口1013；以及用于外部调制解调器1016和打印机1015的接口1008。在一些实施方案中，调制解调器1016可被整合在计算机模块1001内，例如接口1008内。计算机模块1001还具有允许经由连接1023将计算机***150连接至被称为局域网(LAN)的本地区域通信网络1022的本地网络接口1011。如图10A所示，本地通信网络1022还可以经由通常包括所谓的“防火墙”装置或者具有类似功能的装置的连接1024而连接至广域网1020。本地网络接口1011可以包含以太网电路卡、

无线配置、或者IEEE 802.11无线配置；然而，对于接口1011，使用使用许多其它类型的接口。

I/O接口1008和1013可以提供串联连接或者并联连接、或者两者，其中，串联连接通常根据通用串行总线(USB)标准来实现，并且具有相应的USB连接器(未示出)。设置存储装置1009，并且存储装置1009通常包括硬盘驱动器(HDD)1010。还可以使用诸如软盘驱动器和磁带驱动器(未示出)等的其它存储装置。通常设置光盘驱动器1012以用作非易失性数据源。可以使用例如诸如光盘(例如，CD-ROM、DVD、Blu-ray Disc^TM)、USB-RAM、便携式外部硬盘驱动器和软盘等的便携式存储器装置作为向***150的适当数据源。

计算机模块1001的组件1005～1013通常经由互连总线1004、并且以下面的方式进行通信：该方式导致计算机***150的被称为相关技术下的工作模式的传统工作模式。例如，使用连接1018将处理器1005连接至***总线1004。同样，通过连接1019将存储器1006和光盘驱动器1012连接至***总线1004。可以实现所述配置的计算机的例子包括IBM-PC及其兼容机、Sun Sparcstations、Apple MacTM或者类似计算机***。

可以使用计算机***150实现VIDD方法，其中，可以实现将要说明的图4、5、7A、8和9的处理，作为可以在计算机***150内执行的一个以上的VIDD软件应用程序1033。特别地，VIDD方法的步骤受在计算机***150内所进行的软件1033的指令1031(参考图10B)的影响。软件指令1031可以被形成为一个以上的、每个都用于进行一个以上的特定任务的代码模块。该软件还可以被分成两个独立部分，其中，第一部分和相应代码模块进行VIDD方法，而第二部分和相应代码模块管理第一部分和用户之间的用户接口。

可以将VIDD软件存储在例如包括下述存储装置的计算机可读介质中。该软件被从计算机可读介质装载进计算机***150中，并然后通过计算机***150来执行。记录有这类软件或者计算机程序的计算机可读介质是计算机程序产品。该计算机程序产品在计算机***150中的使用，对于实现VIDD方法的设备产生更加有利的影响。

软件1033通常被存储在HDD 1010或者存储器1006中。该软件被从计算机可读介质装载进计算机***150中，并且通过计算机***150来执行。因此，例如，可以将软件1033存储在通过光盘驱动器1012读取的光学可读磁盘存储介质(例如，CD-ROM)1025上。记录有这类软件或者计算机程序的计算机可读介质是计算机程序产品。该计算机程序产品在计算机***150中的使用，对于实现VIDD配置的设备产生更加有利影响。

在某些情况下，VIDD应用程序1033可以通过被编码在一个以上的CD-ROM 1025上并且经由相应驱动器1012进行读取来将其提供给用户，或者，可选地，用户可以从网络1020或者1022读取VIDD应用程序1033。另外，还可以从其它计算机可读介质将该软件装载进计算机***150中。计算机可读存储介质是指将所记录的指令和/或者数据提供给计算机***150以执行和/或者进行处理的、任何非暂时性有形存储介质。这类存储介质的例子包括软盘、磁带、CD-ROM、DVD、Blu-ray^TM光盘、硬盘驱动器、ROM或者集成电路、USB存储器、磁光盘、或者诸如PCMCIA卡等的计算机可读卡等，而不管这类装置是在计算机模块1001的内部还是外部。在向计算机模块1001提供软件、应用程序、指令和/或者数据时还可以使用的暂时性或者非有形计算机可读传输介质的例子包括无线电或者红外传输通道，还包括与其它计算机或者网络装置的网络连接、以及包括电子邮件传输和记录在网站上的信息的因特网或者内联网等。

可以执行上述应用程序1033的第二部分和相应代码模块，以实现一个以上所要绘制的或者被呈现在显示器1014上的图形用户界面(GUI)。通常通过操作键盘1002和鼠标1003，计算机***150和该应用程序的用户可以以与功能相适应的方式来操作该界面以向与该GUI相关联的应用程序提供控制命令和/或者输入。还可以实现其它形式的与功能相适应的用户界面，诸如利用经由扬声器1017所输出的语音提示的音频接口和经由麦克风1080所输入的用户语音命令。

图10B是处理器1005和“存储器”1034的详细示意性框图。存储器1034表示通过图10A中的计算机模块1001可以访问的所有存储器模块(包括HDD 1009和半导体存储器1006)的逻辑聚合。

当最初接通计算机模块1001的电源时，执行通电自检(POST)程序1050。POST程序1050通常被存储在图10A的半导体存储器1006的ROM 1049中。诸如用于存储软件的ROM1049等的硬件装置有时被称为固件。POST程序1050检查计算机模块1001内的硬件以确保发挥适当功能，并且通常检查处理器1005、存储器1034(1009、1006)和基本输入输出***软件(BIOS)模块1051，另外通常被存储在ROM 1049中用于正常工作。一旦POST程序1050成功运行，BIOS 1051启动图10A的硬盘驱动器1010。硬盘驱动器1010的启动，导致经由处理器1005执行安装在硬盘驱动器1010上的引导装载程序1052。这样将操作***1053装载进RAM存储器1006中，其中，操作***1053在RAM存储器1006上开始工作。操作***1053是通过处理器1005可以执行的、用于满足包括处理器管理、存储器管理、装置管理、存储管理、软件应用程序接口和通用用户接口的各种高级功能的***级应用程序。

操作***1053管理存储器1034(1009、1006)以确保运行在计算机模块1001上的每一处理或者应用程序具有足够执行的存储空间，从而使得不会与分配给其它处理的存储空间发生冲突。此外，必须适当使用可在图10A的***150中使用的不同类型的存储器，从而使得各处理可以有效运行。因此，聚合存储器1034并非旨在示出如何分配存储器的特定片段(除非另外说明)，而是提供通过计算机***150可存取的存储器的一般视图以及如何使用。

如图10B所示，处理器1005包括许多功能模块，包括控制单元1039、算术逻辑单元(ALU)1040和有时被称为高速缓冲存储器的本地或者内部存储器1048。高速缓冲存储器1048通常包括寄存器部中的许多存储寄存器1044～1046。一个以上的内部总线1041在功能上互连这些功能模块。处理器1005通常还具有一个以上的用于使用连接1018经由***总线1004与外部装置进行通信的接口1042。使用连接1019将存储器1034连接至总线1004。

VIDD应用程序1033包括可以包括条件分支和循环指令的一系列指令1031。程序1033还可以包括在执行程序1033时所使用的数据1032。指令1031和数据1032被分别存储在存储位置1028、1029、1030和1035、1036、1037中。根据指令1031和存储位置1028～1030的相对大小，可以将特定指令存储在单个存储位置处，如通过存储位置1030处所示的指令所示。可选地，可以将指令分成许多部分，其中，每一部分被存储在单独的存储位置处，如通过存储位置1028和1029所示的指令片段所示。

通常，给出处理器1005在其内执行的一组指令。处理器1005等待后续输入，对于该后续输入，处理器1005通过执行另一组指令来做出反应。可以从一个以上个数量的源来提供每一输入，包括图10A所示的通过一个以上的输入装置1002、1003所生成的数据、通过网络1020、1002中的一个从外部源所接收到的数据、从存储装置1006、1009中的一个所检索的数据、或者从被***相应阅读器1012的存储介质1025所检索到的数据。执行一组指令，在某些情况下可能导致数据输出。执行还可能涉及将数据或者变量存储到存储器1034。

所公开的VIDD配置使用被存储在相应存储位置1055、1056、1057中的存储器1034中的输入变量1054。VIDD配置产生被存储在相应存储位置1062、1063、1064中的存储器1034中的输出变量1061。可以将中间变量1058存储在存储位置1059、1060、1066和1067中。

参考图10B的处理器1005，寄存器1044、1045、1046、算术逻辑单元(ALU)1040和控制单元1039一起工作，以进行用于对于构成程序1033的指令集中的每一指令进行“读取、解码和执行”周期所需的一系列微操作。每一读取、解码和执行周期包括：

读取操作，其从存储位置1028、1029、1030获取或者读取指令1031；

解码操作，其中，控制单元1039判断读取了哪一指令；以及

执行操作，其中，控制单元1039和/或者ALU 1040执行该指令。

此后，可以执行用于下一指令的另一读取、解码和执行周期。类似地，可以进行控制单元1039将值存储或者写至存储位置1032的存储周期。

图4、5、7A、8和9的处理器中的每一步骤或者子处理被与程序1033的一个以上的片段相关联，并且通过处理器1005中的寄存器部1044、1045、1047、ALU 1040和控制单元1039一起工作来进行，以进行对于所述程序1033的标准片段所设置的指令中的每一指令的读取、解码和执行周期。

可选地，可以在诸如用于进行VIDD功能或者子功能的一个以上的集成电路等的专用硬件中实现VIDD方法。这类专用硬件可以包括图形处理器、数字信号处理器、或者一个以上的微处理器及其相关存储器，并且可以安装在诸如视频摄像机等的平台上。

图2示出根据一个VIDD配置的在PTZ询问时所使用的规划处理。(在图4的步骤420，通过VIDD配置软件1033所指示的处理器1005所控制的摄像机140或者其它摄像机141)利用低变焦拍摄包含候选对象205的场景的第一图像200。基于第一图像200，(根据VIDD配置，在使用图4的步骤420、425、430、440、450和460处理第一图像200之后，在图4的步骤420，通过VIDD配置软件1033所指示的处理器1005所控制的摄像机140或者其它摄像机141)拍摄用于以高分辨率示出候选对象的区域的第二图像(210或者220)，以提高特有属性的可检测性。从多个临时摄像机设置中，选择用于第二图像(210或者220)的摄像机设置。可以基于诸如观察目标的“头部”、“躯干”和“腿部”等的规则，预先确定如使用图9的步骤910所确定的“临时摄像机设置”，或者“临时摄像机设置”可以包括摄像机的用于拍摄第二图像的所有可能PTZ设置。

与原始场景的图像200中的区域230相对应的一个可能视图210，允许以中等可检测性针对整个对象205来检测属性。与原始场景的图像200中的区域240相对应的另一可能视图220，允许以高的可检测性来检测头部222的属性。一定程度地基于(在图8的步骤820，通过VIDD配置软件1033所指示的处理器1005所确定的)与视图210或者视图220相关联的特有属性的可检测性的预期增大，选择对于拍摄视图210或者视图220所选择的摄像机设置。例如，如果“留胡须”是关注对象的单个最特有属性，则选择视图220以使胡须225的可检测性最大化。可选地，如果“长裤子”和“短发”两者都是特有属性，则可以选择视图210以做出用于观察两个特有属性，即，头发212和裤子214两者的次优可检测性。

图3描述在对于使用贝叶斯推断的对象识别的本说明中所使用的信念网络300。假定x表示候选对象是否是以节点350所表示的关注对象的二元判定。在下面的说明中，x＝1表示判定为候选对象是关注对象，并且x＝0表示相反意思。假定a＝{a_i},i＝1、……、N表示关注对象的N个属性a_i的集合(其中，属性a_i可以是例如“头发长度”或者“面部毛发风格”等)。根据属性a_i的L_i个可能类标签，属性a_i具有类标签l_i∈{1,…,L_i}(其中，类标签l_i可以例如对于属性“头发长度”有“短”或者“长”，或者对于属性“面部毛发风格”有“留胡须”或者“胡子被刮光”等)。假定Let d＝{d_i}，i＝1、…，N表示应用于拍摄图像的N个属性检测器的输出d_i(其中，属性检测器输出d_i例如可以表示对于候选目标的属性“头发长度”或者“留胡须”的观察)。根据属性a_i的L_i个可能类标签，检测器输出d_i同样具有类标签l_i∈{1,…,L_i}(其中，如上所述，类标签l_i例如对于属性“头发长度”的检测器输出可以是“短”或者“长”、或者对于属性“面部毛发风格”的检测器输出可以是“留胡须”或者“胡子被刮光”等)。最后，假定v表示通过节点380所表示的观察条件(其中，观察条件v例如可以是摄像机的平摇、俯仰和缩放设置、以及目标相对于摄像机的相对定向)。

图3中的网络300捕获候选对象的属性(例如，“面部毛发风格”、“裤子长度”和“头发长度”)依赖于所考虑的候选对象的身份(即，候选对象是否是关注对象)这一概念。网络300还捕获有噪声的属性检测器的输出依赖于观察条件和对象的属性这两者的概念。图3示出用于两个属性的信念网络300，其中，通过节点360表示a₁，并且通过节点370表示a₂，而且通过节点365和节点375分别表示它们相应的属性检测器的输出d₁和d₂。在相关技术中，从两个属性向N个属性的图形结构的推广很简单。

在贝叶斯统计中，随机事件的后验概率或者不确定命题是在考虑相关证据之后所分配的条件概率。相反，在贝叶斯统计推断中，不确定量的先验概率表示在考虑某一证据之前的不确定性。在下面的说明中，可以互换使用术语“概率”、“似然”、“置信度”和“不确定性”来描述命题的可信度，除非另有说明除外。

基于图3，通过根据下面的公式(1)的“后验概率公式”，定义在根据利用观察条件v拍摄的候选对象的图像的一组属性检测d＝{d_i}的情况下、候选对象是关注对象的后验概率p(x|d,v)(即，置信度)：

公式(1)将与目标识别有关的先前的置信度(即，先验p(x))与观察(即，检测器输出d_i)和与这些观察的可靠性有关的知识(即，观察条件v下属性a_i的可检测性)结合来计算与目标识别有关的新的置信度(即，后验p(x|d,v))。在上述公式(1)中，项p(x)表示与图8的步骤810的输出811相对应的、候选对象是关注对象的先验概率。项p(a_i|x)表示在对象的身份x的情况下具有属性a_i的对象的概率。例如，p(a₁|x＝1)是关注对象具有属性a₁的概率，而p(a₁|x＝0)是来自种群的随机对象具有属性a₁的概率。概率1203、1206(参考图12)分别对应于作为图4的步骤410的输出411的、公式(1)中的项p(a_i|x＝1)和p(a_i|x＝0)。项p(d_i|a_i,v)是在对象的属性a_i和观察条件v的情况下观察属性检测器输出d_i的概率。该量表示与图8的步骤820的输出821相对应的、在观察条件v下观察时的属性a_i的可检测性。例如，如果a₁是二值属性类标签，那么p(d₁＝1|a₁＝0,v)是在观察条件v下错误检测属性a₁的概率(还称为“假阳性”检测)，而p(d₁＝1|a₁＝1,v)是在观察条件v下正确检测属性a₁的概率(还称为“真阳性”检测)。

其中，t＝1、…、T。然后，根据d_i中每一类标签l_i的频率，可以对训练图像中的对象的检测器输出的边缘分布p(d_i|x＝j)(其中，j＝0或者1)进行近似。最后，构建通过根据公式(2)的“属性推断约束”所定义的约束线性***：

上述公式(2)将对于关注对象或者来自种群的对象的图像的检测器输出中的类标签的观察频率(即，边缘分布p(d_i|x＝j))与对象具有相应属性的似然(即，未知概率p(a_i＝l_i|x＝j))相关。在公式(2)中，项p(a_i＝l_i|x＝j)表示对象对于属性a_i具有类标签l_i的似然，例如，对于与类标签“眼镜”相对应的l_i，通过图12中针对p(a_i＝l_i|x＝1)的概率1203或者针对p(a_i＝l_i|x＝0)的概率1206来表示该似然。这些概率还对应于图4的步骤410的输出411。项p(d_i|a_i＝l_i,v)是在观察条件v下属性a_i的可检测性。在一个配置中，如以下更加详细所述，基于用于某一属性的属性分类器针对在观察条件v下所捕获的测试集展现出的性能，确定该属性的可检测性。项p(v)是在观察条件v下拍摄图像的先验概率。在一个例子中，通过假定以均匀频率在每一可能观察条件下拍摄图像来确定p(v)。公式(2)中的不等式0≤p(a_i＝l_i|x＝j)≤1表示概率始终表现为从0到1的范围(包含0和1)内的量的约束。公式(2)提供L_i约束，约束之一被标准化约束

替换。使用在先技术中的已知方法，对于p(a_i＝l_i|x＝j)(对于j＝0或者1)的L_i个未知值，可以求解上述***。

基于图3所示的信念网络，使用信息论原理制定PTZ询问。如上所述，PTZ询问的目的是为了选择使与候选对象的身份x有关的不确定性的降低最大化的摄像机设置。假定v^*表示与所选择的摄像机设置相对应的最佳观察条件。用于降低不确定性的信息论方法选择v^*，从而使得在观察条件v^*下检测属性d之后与对象身份x有关的互信息I(x；d|v^*)(即，预期信息增益)最大化。基于图3，通过根据下面的公式(3)的“互信息目标函数”定义互信息I(x；d|v)：

公式(3)表示通过在预测观察条件v下观察对象的属性d所获得的、与候选对象的身份x有关的不确定性的预期降低。预测观察条件v对应于图9的步骤915的输出916。针对元组(v,I(x；d|v))k，使用公式(3)所计算出的互信息I(x；d|v)和相关联的观察条件v，其表示对于第k个预测观察条件的图9的步骤930的输出931。项p(x＝j)表示等于在图4的步骤440所输出的后验概率p(x|d,v)411的、候选对象的身份的先验概率。对于情况x＝1，项p(d|x,v)表示在预测观察条件v下针对关注对象观察到特定组的属性检测d的概率，以及对于情况x＝0，项p(d|x,v)表示在观察条件v下针对一般种群中的对象观察到相同属性检测d的概率。项p(d|v)表示在观察条件v下观察到特定组的属性检测d的概率(即，不管对象的身份如何)。根据下面的公式(4)和(5)定义项p(d|x,v)和p(d|v)：

公式(4)中的项p(a_i＝l_i|x)和公式(5)中的项p(a_i＝l_i|x＝j)表示在对象的身份x的情况下，对于属性a_i具有类标签l_i的对象的概率。这些值例如对应于图12中的概率1203、1206，并且是图4的步骤410的输出411。公式(4)和(5)中的项p(d_i|a_i＝l_i,v)表示与图9的步骤920的输出921相对应的、观察条件v下的属性a_i的可检测性。项p(x＝j)表示等于在图4的步骤440所输出的后验概率p(x|d,v)411的、候选对象的身份的先验概率。通过根据下面的公式(6)对公式(3)中的互信息目标函数进行最大化，获得最佳观察条件v^*：

公式(6)选择提供与候选对象的身份有关的不确定性的最大降低的观察条件。与通过公式(6)所计算出的最佳观察条件v^*相对应的摄像机设置，对应于图4的步骤460的新摄像机设置输出461。

实施例(实例和替代例)

图4示出用于利用摄像机识别场景中的对象的方法400。方法400的目的是确定摄像机设置的序列461，以利用最小数量的观察来识别关注对象100。作为例子，参考用于拍摄如图1B所示的、包含候选对象130的场景的图像120以判断候选对象是否是图1A所示的关注对象100的PTZ摄像机140来说明方法400。通过使用下述方法所确定的、预定的多个属性来描述关注对象。除候选对象130共享与关注对象100相同类型的属性以外，方法400不进行与候选对象130有关的任何先验假设。例如，在一个VIDD配置中，候选对象130和关注对象100两者都是具有包含类“长发”或者“短发”的“头发长度”属性的行人。在另一VIDD配置中，候选对象和关注对象两者都是具有包含类“圆形”或者“矩形”的“前照灯形状”属性的车辆。下面的说明是对于整个方法400的概述。稍后进一步详细说明步骤410、420、425、430、440、450和460的实例和替代实施方案。

图4是示出用于根据一个VIDD配置，利用摄像机识别场景中的对象的方法400的示意性流程图。在通过VIDD软件1033所指示的处理器1005所进行的开始步骤405，开始方法400，其中，作为输入，接收可以用于确定关注对象100的属性的信息。在VIDD配置的一个应用中，该信息是以关注对象的一个以上的图像的形式的。例如，选择并拍摄正在进行异常或者可疑动作的对象作为提供至步骤405的图像，以更详细地分析关注对象100的行为。在VIDD配置的另一应用中，提供至步骤405的信息是以诸如目击者描述等的、针对关注对象的语义描述的形式的。例如，向步骤405提供针对诸如走失儿童等的对象的语义描述以定位并寻找回该对象。

控制然后从步骤405进入通过VIDD软件1033所指示的处理器1005所进行的步骤410，其中，步骤410确定关注对象的多个属性中的每一个的特有性，如以下参考图12更加详细地所述。如上所述，可以通过处理器1005进行方法步骤410，并且/或者可选地，可以作为用于确定关注对象的属性的特有性的软件、硬件或者混合硬件/软件模块来实现。相同论述适用于本说明书中所述的其它方法步骤。

图12描述用于示出在一个VIDD配置中，如何通过包含特定属性标签(还称为类标签)针对关注对象的概率和该属性标签针对一些其它对象的概率的元组来表示该属性标签的特有性的例子1200。因此，通过构建包含关注对象的属性标签的概率和该属性标签在种群中的频率的元组，来表示属性的特有性。在例子1200中，人1201是关注对象，并且关注对象的一个属性标签是“戴眼镜”1202。例子1200中属性标签1202的概率1203是95％，这表示关注对象1201戴着眼镜的可能性是95％。在例子1200中，人的集合1204是候选关注对象的种群，并且例子1200中的相应属性标签1205的概率1206是60％，这表示种群1204中候选关注对象戴着眼镜的可能性是60％。在例子1200中，用于表示给定属性标签“戴眼镜”的特有性的元组为(1203,1206)。

概率1203、1206(参考图4中的411)分别对应于公式(1)中的项p(a_i|x＝1)和p(a_i|x＝0)，它们是不依赖于特定摄像机的视角的、针对关注对象对于属性a_i的特有性的度量。

在一个VIDD配置中，根据语义(书面或者口头)描述，确定关注对象的属性标签a_i的概率p(a_i|x＝1)。在一个例子中，通过三个属性，即，“眼镜”、“衣袖长度”和“面部毛发风格”来指定关注对象，并且目击者将关注对象描述为“穿着T恤衫、并且戴着眼镜”。基于目击者的信任度(或者可信度)，将属性“衣袖长度”的“短袖”的概率分配为0.9，并且将属性“眼镜”的“戴眼镜”的概率分配为0.95。此外，由于目击者没有提及是否留着胡子，因而将属性“面部毛发风格”的“胡子被刮光”的概率分配为0.7。由于目击者还有可能没有表述留着胡子，因而该属性标签与“短袖”或者“戴眼镜”相比，被分配以较低置信度。在可选的VIDD配置中，通过保安员或者其它操作者人工检查关注对象的一个以上的图像，来确定关注对象的属性标签的概率。在又一VIDD配置中，通过关注对象的一个以上的图像的自动标注，来确定关注对象的属性标签的概率。通过首先使用图7A中的方法430的例子检测属性、然后对于用于类标签的概率分布p(a_i＝l_i|x＝1)的公式(2)中的属性推断约束进行求解，实现自动标注。

为了在处理400的步骤410确定属性标签的特有性，还必须确定一些其它对象(也就是说，除关注对象以外的对象)的属性标签的概率p(a_i|x＝0)。在一个VIDD配置中，与从共享属性的所有其它对象的种群所随机选择的对象相对应，根据诸如通过调查和市场调研所推论出的知识等的专业知识，确定属性标签的概率。在另一VIDD配置中，与从通过用于拍摄所讨论的场景的图像120的任一摄像机先前所观察到的对象的种群所随机选择的对象相对应，根据先前观察对象中的属性的频率，确定属性标签的概率。在又一VIDD配置中，针对每日的不同时间和每年的不同季节，保持独立属性统计，以应对对象的属性的周期性变化(例如，与夜间相比，行人通常更多在白天期间戴太阳镜)。然后在通过选择与拍摄候选对象的图像时的时间相对应的属性统计，在方法400的步骤420检测到候选对象时，确定属性标签的特有性。

方法400然后从步骤410进入通过VIDD软件1033所指示的处理器1005所进行的步骤420，其中，通过PTZ摄像机140拍摄一个以上的帧，并且检测和追踪候选对象130。如上所述，步骤420使用使用与在拍摄候选对象的图像时的时间相对应的属性统计所确定的属性标签的特有性。在一个VIDD配置中，通过使用诸如高斯混合(MoG)等的统计背景像素建模方法进行前景分离，在步骤420检测候选对象，其中，在具有固定摄像机设置的多个帧上，保持背景模型。在另一VIDD配置中，对于离散余弦变换块进行前景分离方法。在另一VIDD配置中，例如使用超像素对帧的非监督片段进行前景分离。在又一VIDD配置中，使用诸如行人检测器等监督机学***面120上包含候选对象130的关注区域的矩形边界框135(参考图1)。在另一VIDD配置中，步骤420的输出是表示属于候选对象的像素的区域和属于背景的像素的区域的二值图像映射图。

在一些场景中，在步骤420检测到一个以上的候选对象。在步骤420的一个实施方案中，在对象检测之后，进行对所检测到的候选对象的目标追踪，以将多个帧上的相同候选对象的观察相关联。在一个VIDD配置中，通过假定布朗运动、并且将一个帧中的候选对象与先前帧中最近的像素位置处的候选对象相关联来进行追踪。在另一VIDD配置中，通过使用诸如卡尔曼滤波器或者粒子滤波器等的递归贝叶斯滤波器估计对象的运动来进行追踪。在又一VIDD配置中，除位置和速度信息以外，还使用与对象有关的外观信息来进行追踪。

方法400然后从步骤420进入下面参考图5更加详细说明的、通过VIDD软件1033所指示的处理器1005所进行的步骤425，步骤425确定候选对象130相对于摄像机140的视角的相对定向。在一个VIDD配置中，使用机器学习方法来确定相对定向以将候选对象的图像分类成一组离散定向类(例如，“正视图”、“侧视图”和“后视图”)。通过来自每一类的一组样例来训练分类器。在另一VIDD配置中，使用基于模型的姿态估计来确定相对定向，以基于诸如边缘等的所提取的特征，使得候选对象的模型与候选对象的图像拟合。在另一VIDD配置中，基于通过公式(7)中的方位角θ所表示的候选对象的运动方向来确定相对定向。下面参考图5、6A和6B更详细地说明VIDD配置例子。

方法400然后从步骤425进入下面参考图7A和7B更加详细地说明的、通过VIDD软件1033所指示的处理器1005所进行的步骤430，步骤430对在步骤420所检测到的候选对象的属性进行分类。在一个VIDD配置中，通过计算所检测到的候选者和每一属性类的一个以上的模板图像的特征之间的匹配得分，对属性进行分类。在另一VIDD配置中，通过对于从所检测到的候选者的区域所提取的特征应用预定阈值，对属性进行分类。例如，通过向躯体区域中的像素的平均灰度应用预定阈值，对包含类“浅色”和“深色”的属性“衬衣颜色深浅”进行分类。在又一VIDD配置中，使用监督学习对属性进行分类，其中，通过每一类的一组标记训练图像来学习分类器。

方法400然后从步骤430进入下面参考图8更加详细地说明的、通过VIDD软件1033所指示的处理器1005所进行的步骤440，步骤440基于在步骤410所确定的关注对象的属性、在步骤430所确定的候选对象的属性和在步骤425所确定的候选对象的相对定向，确定候选对象是关注对象的置信度(根据公式(1)的(p(x|d,v))。在一个VIDD配置中，步骤440计算公式(1)中的后验概率。控制然后从步骤440进入通过VIDD软件1033所指示的处理器1005所进行的判断步骤450，步骤450判断是否可以基于所计算出的后验概率441来确定候选对象的身份。在一个VIDD配置中，将在步骤440所确定的后验概率与上阈值和下阈值(例如，0.95和0.05)进行比较。如果后验概率高于上阈值或者低于下阈值，那么候选对象的身份的置信度高，否则，候选对象的身份的置信度低。如果候选对象的身份的置信度低，则控制按照“否”箭头，并且从步骤450进入以下参考图9更加详细所述的步骤460。通过VIDD软件1033所指示的处理器1005进行步骤460，并且规划新的摄像机设置。如果候选对象的身份的置信度高，则控制按照“是”箭头，并且从步骤450进入步骤499。

步骤460确定摄像机设置以通过提高最特有可观察属性的可检测性来提高候选对象的身份的估计的置信度。在一个VIDD配置中，基于预定规则生成一组固定的摄像机设置，并且选择使与候选对象的身份有关的信息的增加最大化的设置。例如，这些规则可以基于诸如行人情况下的“头部”、“躯体”和“腿部”等的、候选对象的特定区域的放大图，生成摄像机设置。在另一VIDD配置中，进行诸如迭代下降搜索等的数值优化，以确定使与候选对象的身份有关的信息的增加最大化的摄像机设置。在步骤460规划了新的摄像机设置之后，控制循环回至步骤420，其中，使用新的摄像机设置拍摄候选对象的新图像，以更新候选对象是关注对象的置信度。

在结束步骤499，根据使用公式(1)所确定的最终后验概率，确定候选对象的最终身份。在一个VIDD配置中，将候选对象的最终后验概率与预定上阈值和预定下阈值(例如，0.95和0.05)进行比较。如果后验概率高于上阈值，则候选对象被分类为是关注对象。如果后验概率低于下阈值，则候选对象被分类为不是关注对象。

图4示出用于实现VIDD配置的一个例子400，其中，规划一系列观察以判断单个候选对象是否是关注对象。还可以相同地进行该方法的变形例。在一个可选VIDD变形例中，规划一系列观察以确定一个以上的候选对象的身份。在该变形例的一个实施方案中，步骤420检测并追踪多个候选对象，并且步骤425确定每一候选对象的相对定向。独立于其它候选对象，步骤430对每一候选对象的属性进行分类。类似地，独立于其它候选对象，步骤440确定每一候选对象是否是关注对象的后验概率。在一个VIDD配置中，步骤450判断是否至少一个候选对象具有作为关注对象的高置信度。如果是，控制进入结束步骤499，在步骤499，将具有最高后验概率的对象分类为关注对象。如果不是，则控制进入步骤460，步骤460规划新的摄像机设置，以使所有候选对象的身份的置信度最大化。

在方法400的另一可选变形例中，用户(例如，保安员)监视方法400，并且在已经识别出关注对象时终止该处理。在该变形例的一个实施方案中，步骤440计算每一候选对象的后验概率，并然后从最大置信度到最小置信度，对作为关注对象的所有候选对象进行排序。在判断步骤450的一个实施方案中，向用户呈现顶部排序对象(例如，具有最高后验概率的三个对象)。如果用户判断为这些对象中的一个是关注对象，则控制进入结束步骤499。如果用户判断为这些对象没有一个是关注对象，则控制进入步骤460，步骤460规划如以上VIDD配置所述的新的摄像机设置。

图5示出用于基于运动方向来确定候选对象的相对定向541的、图4的方法400的步骤425的示例性实现方案。作为例子，参考如图6A和6B所述的、场景的图像600中的候选对象620来说明方法425。方法425基于在两个不同时间所拍摄的一对帧中所观察到的、针对候选对象的位置变化的一阶有限差分近似，确定运动方向。在方法440的步骤820(参考图8)和方法460的步骤920(参考图9)中，使用通过该方法所确定的相对定向541，以确定每一属性在给定摄像机设置下的可检测性。

在通过VIDD软件1033所指示的处理器1005所进行的开始步骤505，开始图5中的方法425，其中，作为输入，接收场景的当前帧600和在先前时间所拍摄的帧。当前帧和先前帧两者都包含候选对象。控制然后从步骤505进入通过VIDD软件1033所指示的处理器1005所进行的步骤510，步骤510确定表示候选对象的位置的当前帧中的点。可以相对于如在方法400的步骤420的一个实施方案中所检测到的、包含候选对象的边界框来确定该点。例如，在步骤510的一个实施方案中，将边界框的最下边缘的中心(即，“脚印”)作为候选对象的位置。在步骤510的替代实施方案中，将边界框的形心作为候选对象的位置，这样对于噪声具有更强的稳健性。步骤510的另一实施方案可以使用特定部位的位置来定位候选对象。例如，针对行人的步骤510的另一替代实施方案，使用如使用“Ω形状”检测器所检测到的、候选对象的头部位置。该位置的优点是在不同帧上具有高精度的特有性和可检测性。又一可选VIDD配置，使用候选对象的前景掩模上的最低点(如在方法400的步骤420的一个实施方案中所检测到的)作为候选对象的位置。

控制然后从步骤510进入通过VIDD软件1033所指示的处理器1005所进行的步骤520，步骤520确定表示候选对象的位置的、先前帧中的点。步骤520的实施方案与上述步骤510的替代实施方案(应用于先前帧)相同，其中，对于步骤510和520两者，使用相同实施方案。这样确保当前帧和先前帧之间的点的相对位置表示运动方向，而不是该点相对于候选对象的位置的移位。

方法425然后从步骤520进入通过VIDD软件1033所指示的处理器1005所进行的步骤530，步骤530基于在步骤510和520所确定的位置，确定候选对象的运动方向。在一个VIDD配置中，步骤530计算表示候选对象的位置从先前帧到当前帧的相对变化的矢量。

图6A作为例子示出步骤510、520和530的一个实施方案。首先，在步骤510，确定当前帧中候选对象620上的最低点640。然后，在步骤520，确定先前帧中候选对象610上的最低点630。最后，计算从先前位置630到当前位置640的矢量650，作为对于运动方向的一阶有限差分近似。将该矢量分解成被表示为Δx的、在图6A中以654所表示的图像在水平方向上的位置变化和表示为Δy的、在图6A中以652所表示的垂直方向上的位置变化。

控制然后从步骤530进入通过VIDD软件1033所指示的处理器1005所进行的步骤540，步骤540基于在步骤530所确定的运动方向，确定候选对象的定向。在步骤540的一个实施方案中，如图6B所示，通过场景中地平面上的方位角θ，表示候选对象的相对定向。在该VIDD配置中，0°的方位角θ表示面对着摄像机的对象，如通过图6B中的方向660所示，并且180°的方位角表示面部背着摄像机的对象，如通过图6B中的方向665所示。假定

表示摄像机的俯仰角，其中，0°俯仰对应于水平摄像机，并且90°俯仰对应于面向下朝着摄像机。然后，可以根据公式(7)定义“地平面定向公式”，以如下根据通过Δx和Δy所表示的运动方向来近似计算地平面上的候选对象的方位角θ：

在步骤540的一个实施方案中，将使用公式(7)所计算出的方位角作为候选对象的相对定向。在步骤540的另一实施方案中，将使用公式(7)所计算出的方位角进一步量化成一组离散角中的最近角。这样使得能够按照小数量的可能观察条件来描绘在处理440的步骤820(参考图8)所确定的属性的可检测性的特征。作为例子，参考图6B说明量化，其中图6B示出以固定间隔45°量化为8个离散定向。在图6A所示的运动方向650的例子中，量化导致如图6A中的方向670所示的225°的对象定向。方法425然后从步骤540进入结束步骤599，结束步骤599输出所确定的候选对象的相对定向541。

图5中的方法425示出图4中的方法400的步骤425的一个实施方案，其中，根据运动方向确定候选对象的定向。可以相同地进行该方法的变形例。在一个可选VIDD配置中，基于对候选对象的位置变化的二阶或者更高阶有限差分近似，根据当前帧和包含候选对象的两个以上的先前帧来估计运动方向。在另一可选VIDD配置中，基于对候选对象的所有先前观察，通过诸如卡尔曼滤波器或者粒子滤波器等的递归贝叶斯滤波器来估计运动方向。不基于运动方向的、方法400的步骤425的其它实施方案也是可行的。例如，一个可选VIDD配置使用机器学习方法对离散定向类进行分类，并且另一可选VIDD配置使用基于模型的姿态估计。之前已经说明了这两个可选VIDD配置。

图7A示出用于检测候选对象的属性的有噪观察的方法430(参考图4)的例子。使用在该步骤所检测到的有噪观察来在方法400的步骤440确定候选对象是关注对象的置信度。在图3所示作为例子的贝叶斯模型中，在该步骤所检测到的有噪观察，分别对应于节点365和375处的变量d₁和d₂。这些检测是对节点360和370处的属性a₁和a₂的有噪观察。参考图7B中的候选对象760，说明方法430的例子。在通过VIDD软件1033所指示的处理器1005所进行的开始步骤705，开始方法430，其中，作为输入，接收在方法400的步骤420所检测到的候选对象的图像。方法430然后从开始步骤705进入通过VIDD软件1033所指示的处理器1005所进行的步骤710，步骤710从一组中的所有属性选择未经处理属性。

控制然后从步骤710进入通过VIDD软件1033所指示的处理器1005所进行的步骤720，步骤720确定所要处理的关注区域以对所选择的属性进行分类。例如，在一个VIDD配置中，使用图7B中的关注区域780和785来分别分类属性“面部毛发风格”和“裤子长度”。确定关注区域以对齐输入数据，这是提高属性分类器的精度的重要步骤。在一个VIDD配置中，根据与在方法400的检测步骤420所确定的候选对象的边界框770的固定关系，确定关注区域。在另一VIDD配置中，通过检测候选对象的特定部位来确定针对属性的关注区域。在一个例子中，使用“Ω形状”头部检测器来确定与行人有关的关注区域。

方法430然后从步骤720进入通过VIDD软件1033所指示的处理器1005所进行的步骤730，步骤730根据用于所选择的属性的关注区域中的像素值，构建特征矢量。该步骤将高维图像数据约简成可以更有效进行分类的低维特征矢量，并且提高分类器对于照明、视角和其它噪声源的变化的稳健性。例如，可以将来自RGB图像的20×20像素区域中的1200个颜色值，在维度上约简成仅具有27个值的3×3×3RGB直方图。RGB直方图丢弃了像素的空间布局，与原始像素区域相比，这样对于视角提供更大的不变性。在一个VIDD配置中，特征是用于图像内容的颜色、形状和纹理的低级图像描述符。低级基于颜色的描述符的例子有基于关注区域所计算出的灰度颜色直方图、RGB颜色直方图、HSV颜色直方图和颜色相关图。低级基于形状的描述符的例子有方向梯度直方图(HOG)、尺度不变特征变换(SIFT)和shapelet。低级基于纹理的描述符的例子有局部二值模式(LBP)和Gabor滤波器直方图。在另一VIDD配置中，通过属性类的一组标记训练图像来学习特征。在一个例子中，应用Fisher判别分析来学习使属性类之间的分离最大化的子空间投影。

控制然后从步骤730进入通过VIDD软件1033所指示的处理器1005所进行的步骤740，步骤740使用在步骤730所提取的特征向候选对象的所选择的属性分配类标签。在一个例子中，对于属性“裤子长度”的情况，步骤740基于在区域785所提取的特征，判断候选对象是否应被分类为“长裤”还是“短裤”。基于用于每一类标签的一组示例性图像，使用监督机器学习方法来训练属性分类器。在一个VIDD配置中，在执行方法400之前，在离线训练阶段期间训练属性分类器。在可选VIDD配置中，例如，基于来自用户的、对于是否已经正确识别了关注对象的反馈，在执行方法400的同时，在线更新属性分类器。可以使用许多分类技术中的一个来检测属性。在一个VIDD配置中，属性分类器使用支持向量机(SVM)在不同属性类标签之间进行判别。在另一VIDD配置中，属性分类器使用决策树在属性类标签之间进行判别。在又一VIDD配置中，属性分类器使用人工神经网络(ANN)在属性类标签之间进行判别。在还一VIDD配置中，使用k最近邻(k-NN)匹配来实现属性分类器。

在向候选对象的所选择的属性分配了类标签之后，方法430然后从步骤740进入通过VIDD软件1033所指示的处理器1005所进行的判断步骤750，步骤750判断是否存在任一未经处理属性。如果存在未经处理属性，则控制按照“是”箭头，并且从判断步骤750返回至属性选择步骤710。如果已经处理了所有属性，则控制按照“否”箭头，并且从判断步骤750进入结束步骤799。当方法430的例子到达结束步骤799时，基于在开始步骤705所接收到的候选对象的图像，向来自一组中所有属性的每一属性都分配了类标签。这通过公式(1)所给出的后验概率公式右边的有噪观察d_i431来表示，并且等效地通过公式(1)左边的一组检测d(其中，d＝{d_i})来集体表示。

图8示出在方法400的一个实施方案中所使用的、用于确定候选对象是关注对象的置信度的方法440(参考图4)的例子。在开始步骤805，开始方法440，其中，作为输入，接收在方法400的步骤425所确定的候选对象的相对定向541、在方法400的步骤430所检测到的属性类标签集431和在方法400的步骤410所确定的关注对象的每一属性的特有性411。

控制然后从步骤805进入通过VIDD软件1033所指示的处理器1005所进行的步骤810，步骤810确定候选对象是关注对象的先验概率811。在该步骤所确定的先验概率用作为用于使用公式(1)计算后验概率时的项p(x)。在一个VIDD配置中，如果在先前帧中观察到了候选对象，则先验概率取在方法400的步骤440基于所述先前帧所确定的后验概率的值。如果先前没有观察到候选对象，则将先验概率设置成预定值。在一个VIDD配置中，使用预定值0.5表示候选对象的识别中的最大不确定性。在另一VIDD配置中，通过操作者基于对候选对象的人工检查来设置预定值。在又一VIDD配置中，预定值是基于在先前已知关注对象的位置的情况下在图像中可能观察到关注对象的似然性的。

方法440然后从步骤810进入通过VIDD软件1033所指示的处理器1005所进行的步骤815，步骤815确定拍摄候选对象的图像的观察条件816。在通过公式(1)所给出的后验概率的表达式中，以v表示观察条件。观察条件包括在图4的方法400的步骤425所确定的、候选对象的相对定向。在一个VIDD配置中，观察条件还包括照明条件(例如，室内或者户外照明)。在另一VIDD配置中，观察条件还包括根据在方法400的步骤420所检测到的候选对象的大小所确定的、与候选对象的图像的空间分辨率有关的信息。在又一VIDD配置中，观察条件还包括与诸如焦距等的摄像机的内部参数有关的信息。

方法440然后从步骤815进入通过VIDD软件1033所指示的处理器1005所进行的步骤820，步骤820基于包括在方法400的步骤425所确定的候选对象的相对定向(例如，公式(7)中的方位角θ541)的观察条件，确定候选对象的图像120中的每一属性的可检测性821。在该步骤所确定的可检测性821用作为在使用公式(1)计算后验概率时的项p(d_i|a_i,v)。在一个VIDD配置中，可检测性是基于在用于检测候选对象的属性的方法430的例子的步骤740所使用的分类器的性能。通过利用在特定观察条件v下所拍摄的、具有所述属性的不同对象的一组标记测试图像对分类器进行测试，来确定属性分类器的性能。因此，可以基于针对某一属性的属性分类器对于在特定所述观察条件下所拍摄的测试集的性能，确定在该观察条件下的该属性的可检测性。然后根据如下测试结果来确定可检测性：p(d＝1|a＝1,v)取属性检测器的真阳性率的值，p(d＝0|a＝1,v)取属性检测器的假阴性率的值，p(d＝1|a＝0,v)取属性检测器的假阳性率的值，并且最后，p(d＝0|a＝0,v)取属性检测器的真阴性率的值。使用在所有关注观察条件v下所拍摄的测试图像集，重复上述测试以充分表现每一属性的可检测性的特征。在一个VIDD配置中，在执行方法400之前，在离线训练阶段期间，预先计算每一属性的可检测性。在另一VIDD配置中，在执行方法400期间，在线更新每一属性的可检测性。在一个例子中，基于来自用户的对于是否已经正确识别了关注对象的反馈，在线更新可检测性。

方法440然后从步骤820进入通过VIDD软件1033所指示的处理器1005所进行的步骤830，步骤830计算候选对象是关注对象的后验概率441。在一个VIDD配置中，基于在方法440的步骤810所确定的先验概率p(x)(即，811)、在方法400的步骤410所确定的每一属性的特有性p(a_i|x)411、在方法400的步骤430所检测到的属性标签d(即，431)和在方法440的步骤820所确定的每一属性的可检测性p(d_i|a_i,v)821，使用公式(1)来计算后验概率441(即，p(x|d,v))。

在一些情况下，PTZ摄像机放大候选对象上的小区域，在这种情况下，可能不能观察对象的所有属性。例如，如果PTZ放大头部，则不能观察裤子长度。步骤830的一个实施方案基于摄像机设置和对象的相对定向，判断哪一属性未被观察，并且通过仅针对观察属性而计算公式(1)的分子和分母中的积项来确定后验概率。然而，由于在使用较少属性时，属性可能具有较低判别力，因而这可以导致后验概率的乐观估计。按照先前例子，考虑具有与关注对象相同的发色(观察属性)、不同的裤子长度(未观察属性)的候选者。那么，仅使用发色所计算出的后验概率可能会乐观地高。为了克服该问题，步骤830的替代实施方案通过针对在当前帧中可见的属性在当前帧中的检测来计算分子和分母中的积项、并且针对当前帧中不可观察到的属性而代入来自先前帧的最新检测，来计算公式(1)中的后验概率。

在计算后验概率之后，方法440然后从步骤830进入通过VIDD软件1033所指示的处理器1005所进行的结束步骤899，结束步骤899输出所计算出的、表示候选对象是否是关注对象的当前知识的后验概率441。

图8中的方法440示出图4的方法400的步骤440的一个实施方案。同样可以进行该方法的变形例。上述VIDD配置假定可以独立再识别每一候选对象。实际上，由于至多只有一个候选对象可以是标记目标(即，关注对象)，因而出现在同一视野内的多个候选对象可能不是独立的。在方法440的替代实施方案中，通过利用多类变量y∈{0,1,2,…}替换二值识别变量x∈{0,1}来解决该局限性，其中，y＝0表示没有候选对象是关注对象，并且y＝j表示候选者j是关注对象。方法440的步骤810、815和820同时针对当前图像中的所有候选对象确定先验概率、观察条件和属性可检测性。然后，步骤830计算后验概率p(y|d₁,v₁,d₂,v₂,…)，其中，d_j和v_j分别是针对候选者j的所检测到的属性和观察条件。

图9示出在图4的方法400中所使用的、用于确定新的摄像机设置的方法460的例子。方法460(参考图9)的目的是用于一定程度地基于关注对象的至少一个属性的特有性，确定用于观察候选对象的最佳摄像机设置，以通过增加至少一个属性的可检测性来提高候选对象的识别时的置信度。因此，确定用于观察候选对象的摄像机设置，是可以基于所确定的至少一个属性的特有性的，从而提高该至少一个属性的可检测性。在图1B所示的示例性VIDD配置中，摄像机设置对应于PTZ摄像机140的平摇、俯仰和缩放设置。在另一VIDD配置中，摄像机设置对应于高分辨率视频流内的关注区域。图9所示的方法460的实施方案是在摄像机设置的空间上的数值搜索，其中，重复选择并测试临时摄像机设置，直到识别出最佳摄像机设置为止。

在通过VIDD软件1033所指示的处理器1005所进行的开始步骤905，开始方法460(参考图9)，其中，作为输入，接收在方法400的步骤410所确定的关注对象的属性的特有性p(a_i|x)411、在方法400的步骤425所确定的候选对象的相对定向541(即，方位角θ)和在方法400的步骤440所确定的候选对象的识别的后验概率p(x|d,v)441。

控制然后从开始步骤905进入通过VIDD软件1033所指示的处理器1005所进行的步骤910，其中，选择临时摄像机设置。假定φ911表示临时摄像机设置。在步骤910的一个实施方案中，基于一组预定定义的规则，选择临时摄像机设置。在VIDD配置的一个变形例中，这些规则定义诸如头部、上身和腿部等的候选对象的一组关注区域。选择临时摄像机设置以高分辨率观察关注区域中的一个。在步骤910的至少一个实施方案中，使得所选择的临时摄像机设置生效以确保至少可以观察候选对象的至少一个属性，否则丢弃临时摄像机设置，并且选择不同设置。

方法460(参考图9)然后从步骤910进入通过VIDD软件1033所指示的处理器1005所进行的步骤915，步骤915预测在使用临时摄像机设置进行拍摄的情况下可以观察候选对象的观察条件916。在公式(3)中的互信息目标函数中，以v表示观察条件916，并且包括候选对象的所预测的相对定向。在步骤915的一个实施方案中，使用(在方法400的步骤425，即，在图5的步骤540所确定的)候选对象的当前相对定向541作为预测的相对定向。然而，许多实际的摄像机要求短时间(“动作时间”)来应用新的摄像机设置，并且获取候选对象的新的帧。例如，PTZ摄像机可能要求数秒钟来改变方向、并且拍摄新的帧。在该期间，候选对象可能也改变了其相对定向。为了应付该变化，步骤915的一个实施方案基于对象追踪和所估计的动作时间，预测在拍摄下一帧时候选对象的未来定向。在预测观察条件中，代替当前定向，使用该预测相对定向。除使用基于临时摄像机设置而不是当前摄像机设置的观察条件以外，步骤915的其它实施方案与方法440的步骤815的实施方案相同。

控制然后从步骤915进入通过VIDD软件1033所指示的处理器1005所进行的步骤920，步骤920基于在步骤915所确定的预测观察条件，预测临时摄像机设置下候选对象的每一属性的可检测性。因此，确定多个属性中每一个的可检测性，是可以基于场景中的候选对象的定向的。步骤920的实施方案与方法440的步骤820的实施方案相同，其中，利用临时摄像机设置中的预测观察条件921，代替当前图像中的观察条件。在步骤920的至少一个实施方案中，输出921是用于指定预定观察条件v下每一属性检测器的真阳性率p(d_i＝1|a_i＝1,v)、假阳性率p(d_i＝1|a_i＝0,v)、真阴性率p(d_i＝0|a_i＝0,v)和假阴性率p(d_i＝0|a_i＝1,v)的一组概率。

方法460(参考图9)然后从步骤920进入通过VIDD软件1033所指示的处理器1005所进行的步骤930，步骤930确定在使用临时摄像机设置来观察候选对象的情况下与候选对象的识别有关的信息的增加。在一个VIDD配置中，根据公式(3)中的互信息目标函数来测量信息的增加。因此，可以通过使所述摄像机设置中的观察属性和候选对象的识别之间的互信息最大化，来确定用于观察候选对象的摄像机设置。该公式(还参考公式(4)和(5))中的项，是在步骤920所确定的每一属性的可检测性p(d_i|a_i,v)、在方法400的步骤410所确定的关注对象的属性的特有性p(a_i|x)和通过先验概率项p(x)所表示的、候选对象是关注对象的置信度。先验概率项取在方法400的步骤440所确定的、候选对象的识别的后验概率p(x|d,v)的值。因此，还可以基于候选对象是关注对象的置信度来确定用于观察候选对象的摄像机设置。在步骤910所选择的临时摄像机设置以及针对第k个临时摄像机设置的在步骤930所确定的信息的相应增加，包含被存储在计算机存储器中的元组(φ,I(x；d|v))_k。

方法460(参考图9)然后从步骤930进入通过VIDD软件1033所指示的处理器1005所进行的判断步骤940，步骤940判断是否还要处理另外的临时摄像机设置。在基于候选对象上的关注区域生成临时摄像机设置的一个VIDD配置中，顺序通过步骤940处理另外的临时摄像机设置，直到对所有所述关注区域都确定了信息的增加为止。如果还要处理另外的临时摄像机设置，则控制按照“是”箭头，并且从步骤940循环回至步骤910。如果不存在另外的临时摄像机设置，则控制按照“否”箭头，并且从步骤940进入通过VIDD软件1033所指示的处理器1005所进行的步骤950，步骤950选择新的摄像机设置。在步骤950的一个实施方案中，将所存储的、用于记录在方法460(参考图9)的每一迭代中在步骤910所选择的临时摄像机设置与在步骤930所确定的相应的互信息的元组(φ,I(x；d|v))_k931(k＝1、……、K，其中，K是临时摄像机设置的数量)进行比较。选择所存储的元组(φ,I(x；d|v))_k中与具有最大互信息的元组相对应的元组(φ^*,I^*(x；d|v))，并且在图9的步骤450，输出来自所选择的元组的摄像机设置φ^*作为新的摄像机设置461。

图9的方法460示出图4所述的方法400的步骤460的一个实施方案。同样可以进行该方法的变形例。上述VIDD配置对应于基于候选对象的关注区域的、基于规则的临时摄像机设置生成。在可选VIDD配置中，对应于摄像机设置的空间上的迭代下降搜索，基于先前迭代中的临时摄像机设置(或者用于第一次迭代的当前摄像机设置)，在步骤910确定新的临时摄像机设置。步骤940然后测试迭代下降是否收敛，并且步骤950在收敛时输出最终摄像机设置。在该VIDD配置的一个例子中，步骤910基于公式(3)中的互信息目标函数的梯度，计算摄像机设置的增量，并且步骤940测试互信息的变化在连续的迭代之间是否在阈值以下。

方法460(参考图9)的其它变形例旨在进一步减少判断候选对象是否是关注对象所需的观察的数量。公式(3)中的互信息目标函数中的一个假设是在不同时间的相同属性的观察是独立的。然而，现实属性检测器很可能对于附近帧产生相关检测，也就是说，在短时间内对相同属性的重复观察，生成很少与对象的识别有关的新信息。为了避免对相同属性的重复观察，方法460(参考图9)的一个实施方案在选择步骤910设置了滤波器，以丢弃导致在阈值时间段，例如，5秒内再次观察属性的摄像机设置。因此，确定用于观察候选对象的摄像机设置，可以排除导致在阈值时间段内观察先前观察过的属性的任何摄像机设置。

公式(3)中的另一假设是：用于确认候选对象是关注对象的信息，与用于确认候选对象不是关注对象的信息同等重要。然而，实际***通过优先搜索确认候选对象是关注对象的信息，尤其对于包含许多候选对象的场景，从而可能更高效率地工作。例如，关注穿着短裤且戴着眼镜的关注的人、以及具有两个候选人物的场景。在场景的最初图像中，观察到第一个人穿着长裤、并且观察到第二个人穿着短裤。即使对于针对第一个人观察眼镜来说，信息增益可能类似，该***也应该优先针对第二个人来放大观察眼镜，这是因为这样可以直接导致发现关注的人。在步骤930的一个替代实施方案中，利用根据如下的公式(8)所定义的“加权互信息目标函数”代替公式(3)中的互信息目标函数：

公式(3)确定不确定性的加权降低，其中，与不大可能是关注对象的对象相比，优先分配给很可能是关注对象的候选对象以更大的值。因此，基于候选对象是关注对象的置信度，可以对互信息进行加权。公式(8)中的项I(x；d|v)是使用公式(3)所计算出的互信息，并且I_W(x；d|v)是加权互信息。项p(x＝1)是候选者是关注对象的概率，向其分配在方法400的步骤440所确定的后验概率p(x|d,v)441的值。项P_h和P_l是用于测试候选者的识别具有低不确定性的、人工预先定义的概率阈值(例如，分别为0.8和0.1)。最后，w_h和w_l是用于分别可能是或者不可能是关注对象的候选者的、人工预先定义的权重系数(例如分别为2.0和0.0)。使用公式(8)所计算出的加权互信息和第k个临时摄像机设置的摄像机设置包含被存储在计算机存储器中的元组(φ,I_W(x；d|v))_k。在步骤950的一个替代实施方案中，选择与所存储的元组(φ,I_W(x；d|v))_k中具有最大加权互信息的元组相对应的元组(φ^*,I_W*(x；d|v))，并且在图9的步骤450，输出来自所选择的元组的摄像机设置φ^*作为新的摄像机设置461。使用公式(8)中所定义的加权互信息、而不是公式(3)中的互信息，这导致对于更有可能的候选者的更多观察。这样通过优先于其它对象向这些对象分配更多的观察，提高相似候选对象之间的判别。

产业上的可用性

所述配置可应用于计算机和数据处理行业，尤其适用于监视和安保领域。

以上仅说明了本发明的某些实施例，并且在不脱离本发明的范围和精神的情况下，可用做出修改和/或者改变，并且这些实施例仅是说明性的，而并非是限制性的。

本申请要求2014年9月30日提交的澳大利亚专利申请2014240213的优先权，其全部内容通过引用包含于此。

Claims

1.一种用于利用摄像机识别场景的图像中的对象的方法，所述方法的特征在于包括以下步骤：

获得候选对象相对于摄像机的相对定向；

根据所获得的候选对象的相对定向，选择所述候选对象的多个属性中的至少一个属性；

确定整个身体、头部、上身和腿部其中之一作为关注区域，其中所确定的关注区域包括所选择的属性；

操作步骤，用于操作与所确定的关注区域相对应的平摇、俯仰和缩放其中至少之一的设置以观察所选择的属性；以及

基于所选择的属性的观察结果来识别对象，

其中，对象的属性是在所述图像中能够观察的所述对象的分类特征。

2.根据权利要求1所述的方法，其中，还包括：

第一确定步骤，用于独立于摄像机视角，确定关注对象的多个属性中的各个属性的特有性；以及

第二确定步骤，用于基于所获得的相对定向，确定场景的图像中的候选对象的所述多个属性中的各个属性的可检测性，

其中，所述操作步骤基于所选择的属性的所确定的特有性来操作平摇、俯仰和缩放其中至少之一的设置，以增加所选择的属性的可检测性。

3.根据权利要求2所述的方法，其中，所述操作步骤还包括：

第三确定步骤，用于基于所选择的属性的所确定的特有性来确定用于平摇、俯仰和缩放其中至少之一的设置的摄像机设置，以增加所选择的属性的可检测性。

4.根据权利要求3所述的方法，其中，所述摄像机设置依赖于所述候选对象是所述关注对象的置信度。

5.根据权利要求3所述的方法，其中，所述多个属性是软生物特征。

6.根据权利要求5所述的方法，其中，所述软生物特征是对所述关注对象的书面或口头描述。

7.根据权利要求3所述的方法，其中，用于确定属性的特有性的步骤包括用于构建元组的步骤，所述元组包括所述关注对象的属性标签的概率以及所述属性标签在所述候选对象的种群中的频率。

8.根据权利要求3所述的方法，其中，用于确定属性的可检测性的步骤包括以下步骤：

确定所述候选对象是所述关注对象的先验概率；

确定用于拍摄所述候选对象的图像的观察条件；以及

针对在所述观察条件下所拍摄的、具有所述属性的不同对象的一组测试图像，来测试属性分类器。

9.根据权利要求3所述的方法，其中，用于确定用于观察所述候选对象的摄像机设置的步骤包括以下步骤：

选择临时摄像机设置；

使用所述临时摄像机设置，预测所述候选对象的各个属性的可检测性；

确定与使用所述临时摄像机设置所观察的候选对象的识别有关的信息的增加；以及

根据使所述信息的增加最大化，确定用于观察所述候选对象的摄像机设置。

10.根据权利要求9所述的方法，其中，所述信息的增加依赖于所述摄像机设置中的观察属性和所述候选对象的识别之间的互信息，并且基于所述候选对象是所述关注对象的置信度来对所述互信息进行加权。

11.根据权利要求3所述的方法，其中，用于确定用于观察所述候选对象的摄像机设置的步骤排除导致在阈值时间段内观察先前观察过的属性的任何摄像机设置。

12.根据权利要求1所述的方法，其中，所述多个属性包括头发长度、面部毛发风格、留胡须、裤子长度和戴眼镜。

13.根据权利要求1所述的方法，其中，所获得的相对定向是基于动作时间的预测相对定向。

14.一种用于对象再识别的***，其包括：

摄像机，用于拍摄关注对象的图像和场景中候选对象的图像；

处理器；以及

存储器，用于存储计算机可执行软件程序，其中，所述计算机可执行软件程序用于指示所述处理器进行用于利用所述摄像机来识别所述场景的图像中的对象的方法，

其特征在于，所述方法包括以下步骤：

获得候选对象相对于所述摄像机的相对定向；

操作与所确定的关注区域相对应的平摇、俯仰和缩放其中至少之一的设置以观察所选择的属性；以及

基于所选择的属性的观察结果来识别对象，

15.一种用于利用摄像机识别场景的图像中的对象的设备，所述设备的特征在于包括：

定向确定模块，用于获得候选对象相对于所述摄像机的相对定向；

属性选择模块，用于根据所获得的候选对象的相对定向，选择所述候选对象的多个属性中的至少一个属性；

区域确定模块，用于确定整个身体、头部、上身和腿部其中之一作为关注区域，其中所确定的关注区域包括所选择的属性；

定向模块，用于操作与所确定的关注区域相对应的平摇、俯仰和缩放其中至少之一的设置以观察所选择的属性；以及

对象识别模块，用于基于所选择的属性的观察结果来识别对象，

16.一种存储计算机可执行软件程序的计算机可读非暂时性存储器，其中，所述计算机可执行软件程序用于指示处理器进行用于利用摄像机识别场景的图像中的对象的方法，

其特征在于，所述方法包括以下步骤：

获得候选对象相对于所述摄像机的相对定向；

基于所选择的属性的观察结果来识别对象，