CN101213539B

CN101213539B - 使用无标签样本的交叉描述符学习***及方法

Info

Publication number: CN101213539B
Application number: CN2006800170453A
Authority: CN
Inventors: 米林德·R·纳费德; 颜嵘
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-05-18
Filing date: 2006-01-06
Publication date: 2011-06-15
Anticipated expiration: 2026-01-06
Also published as: EP1891543A4; US8214310B2; TWI396980B; TW200710677A; CN101213539A; WO2006124077A3; EP1891543A2; US20070005529A1; WO2006124077A2

Abstract

一种交叉描述符学习***、方法及其程序产品。该***从无标签样本中提取描述符。对于每个无标签样本，交叉预测器使用每个描述符来为其他描述符生成标签。自动标签生成器也为该相同的无标签样本或者可选地为有标签的样本生成标签。标签预测器通过将来自交叉预测器的标签和来自自动标签生成器的标签进行组合而产生每个描述符。

Description

使用无标签样本的交叉描述符学习***及方法

政府权利

本发明在政府支持下，依照由DST/ATP/合同授予的合同号：2004*H839800*000完成。政府对此发明享有一定权利。

技术领域

本发明一般涉及信息管理并且更具体地，涉及松散(unstructured)信息管理和自动元数据丰富(enrichment)。

背景技术

管理松散的数据内容和信息已经日益要求某些类型的语义检测和索引能力。结果，典型的最新技术水平的内容管理***日益依赖机器学***的机器学习和分类技术不同程度地依赖于人的介入以便在使用前和有时在使用期间构造检测器(即，教***如何分类)。同样，可以将机器学习和分类技术分类为监督的、半监督的或无监督的。例如，监督的机器学习和分类从迭代地分类已知的例子或有标签的样本开始。半监督的机器学习和分类使用有标签的样本和无标签样本这二者。无监督的机器学习和分类使用无标签样本。然而，无论监督的还是无监督的，此种典型的技术依赖于人的介入或反馈来训练该分类器以达到可按受的结果。

无论监督的还是无监督的，学***的媒体索引和检索，减少人的介入已经日益变得重要。

因而，为了减少人的介入时间，在注释期间消除二义性(disambiguation)已经被广泛地应用。此外，利用在注释期间选择采样中扮演很积极的角色的***的积极学习已经最大化消除二义性并减少了必须被注释的采样的数目的量级。例如见M.Naphade et al.，″Learning to Annotate Video Databases，″Proc.IS&T/SPIE Syrnp.on Electronic Imaging.：Science and Technology-Storage&Retrieval for Image and Video Databases X，San Jose，CA，Jan.，2002)。被称为多实例学习的用于具有区域支持的概念的正交办法接受粗糙粒度的注释。例如，用户可通过在对应于区域标签的图像中选择区域而建立区域概念(如天空)的模型。一旦已经选择区域概念，则***就从几个可能肯定的和否定的已注释例子中学习如何使用区域特征表示该概念。见A.L.Ratan，O.Maron，W.E.L.Grimson，和T.Lozano Prez.A framework for learning query concepts in imagec/assification.In CVPR，pp.423-429，1999。

其他有用的工具包括利用多模(multimodal)语义概念检测的交叉描述符学习。见Naphade et al，″Probabilistic Multimedia Objects(Multijects)：ANovel approach to Indexing and Retrieval in Multimedia Systems，″Proceedingsof IEEE International Conference on Image Processing，vol.3，pp 536-540，Oct.1998，Chicago，IL。对于半监督的例子，其中无标签样本与有标签的样本一起被用于分类，见Naphade et al，″Classification using a Set of Labeled andUnlabeled Images，″SPIE Photonics East，Internet Multimedia ManagementSystems，vol.4210，pp 13-24，Boston，MA，Nov 2000。同样，具有多个描述符的无标签样本已经与被称为单视图充分性(single view sufficiency)中的有标签的样本一起被使用。当每个描述符自身足够用于学习和表示该元数据模型时，单视图充分性是有用的。见Blum et al，″Combining labeled and unlabeled datawith co-training，″Proceedings of Conference on Computational Learning Theory，pp 92-100，1998。不幸的是，单视图充分性要求作出过于简单化和不实际的假设，即，每个描述符自身足够表示元数据且所有描述符在元数据特征方面彼此一致。用于松散的数据(如用于支持例如视频、文字、图像等的多个描述符的基于事实的样本)的描述符很少满足单视图充分性要求。因此，由于单视图充分性强加的限制，其对于松散的数据和信息并不特别有用。由此，即便对可使用多个描述符来描述的无标签样本，在丰富无标签样本中的元数据时这些办法中没有一个全部要求某种人工介入。

因此，需要一种***和方法，其不受单视图充分性的限制并且独立于用于在无标签样本上生成初始标签的装置，并且另外，需要一种用于产生(develop)对无标签样本的交叉特征学习的***和方法。

发明内容

本发明的目的是有助于松散数据内容和信息的管理；

本发明的另一目的是释放内容管理***中的单描述符视图充分性要求；

本发明的再一目的是自动地标记无标签描述符而不必人工注释任何松散数据；

本发明的再一目的是自动地特性描述和标记松散的数据；

本发明的再一目的是提供关于无标签样本的交叉特征学习，其不受单视图充分性的限制并且独立于用于生成初始标签和无标签样本二者的装置。

本发明涉及一种交叉描述符学习***、方法以及用于此的程序产品。该***从无标签样本提取描述符。对于每个无标签样本，交叉预测器(predictor)使用每个描述符来为其他描述符生成标签。自动标签生成器也为相同的无标签样本或者(可选地)对有标签的样本生成标签。标签预测器通过将来自交叉预测器的标签和来自自动标签生成器的标签相组合而得到每个描述符。

附图说明

参照附图，从下面本发明的优选实施例的详细描述中将更好地理解前述和其他目的、方面和优点，其中：

图1示出根据本发明的优选实施例的交叉描述符学习步骤的流程图示例；

图2示出用于根据本发明描述无标签样本特征的优选实施例交叉描述符学习***的示例；

图3示出用于从无标签样本中提取描述符的描述符提取单元的示例；

图4示出具有一排N个标签生成器的标签生成单元的示例；

图5示出从无标签样本中产生持久预测器的示例；

图6示出自动标签生成器的示例；

图7示出使用标签生成服务从无标签样本中生成一组有标签的样本的示例；

图8示出用于在优选实施例交叉描述符预测单元中自动生成标签的交叉描述符构建数据流的示例；

图9示出优选的交叉描述符预测器产生单元的示例，该单元接收由交叉描述符预测器生成的预测器。

具体实施方式

现在回到附图，且更具体地，图1示出根据本发明的优选实施例的在一组(U)无标签样本102上的交叉描述符学习步骤100的流程图示例。交叉描述符学习步骤100的应用有助于无标签的松散数据的自动元数据生成以及基于在无标签的松散数据中的样本和通过多个描述符的样本的表现(representation)来改进元数据。另外，根据本发明的交叉描述符学习具有用途：管理在包括搜索、联合遍及(federation across)多搜索引擎、不同形态的松散数据的自动元数据丰富的多种应用中遇到的松散信息。这种松散数据可包括(仅仅是示例)文本、音频、图像、视频、传感器等。

交叉描述符学习始于步骤104，其通过为每个无标签样本提取等于N个的描述符(Xj)来为无标签样本102创建表现，其中N至少是2并且i的范围从1到N。对于每个无标签样本，在步骤106中，每个描述符与其他描述符被一起使用，以为其他N-1个描述符中的一些或全部自动地生成标签预测器。最后，在步骤108中，组合为描述符产生的预测器，以便为全部无标签样本102生成标签和相应的置信度(confidence)。因此，使用其他样本的描述符的标签更加鲁棒地改进了所得到的预测器。

因此，从松散的信息102中选择无标签样本并且为该无标签样本确定描述符104。每个描述符被用来为其他无标签样本自动地生成106标签。如此，通过使用一些或全部其它描述符为每个描述符有效地生成标签，无标签样本102充当N组直到N-1个的描述符的源。从N组之一自动地生成每个标签并且从每个标签中生成预测器。标签可以自动地生成，例如，通过标签生成单元使用用于生成一些或全部其它描述符的标签的每个描述符。如此，例如对N＝4，音频描述符、图像描述符和文本描述符可以被组合用于一个无标签样本，以自动生成视频描述符预测器；对于无标签样本，相同的音频描述符和文本描述符可以与视频描述符进行组合，以自动地生成图像描述符预测器；可以将音频描述符和图像描述符与视频描述符组合，以自动地生成文本描述符预测器；以及文本描述符和图像描述符可以与视频描述符组合，以自动地生成音频描述符预测器。因此，利用基于不包括该描述符本身的任何其它描述符或描述符的组合的置信度，为任何描述符生成自动生成的标签预测器。这调节了在描述符中可用的元数据中的信息，否则该描述符可能不足以描述该样本。根据这些自动生成的标签而为每个描述符产生预测器。

在另一个例子中，可以向预测器或预测器服务，例如Yahoo

Search和Google^TMSearch，提供无标签样本，以自动生成该标签。可替换地，可以提供单独一组有标签的样本，并且使用其来为无标签样本自动地生成标签和预测器。不管标签是如何自动地生成的，使用每个描述符的标签来为其它描述符产生预测器。一旦已经对于每个可用的描述符生成了预测器，则为每个描述符108组合预测器，以便为无标签样本生成新的一组预测器。

图2示出用于根据本发明(即根据图1中交叉描述符学习步骤100)生成和组合描述符的优选实施例交叉描述符学习***110的示例。在此例中，不同的无标签样本组112、114被提供至***110，例如，本地高速缓存在本地存储装置中。***110使用一组112来为其它组114建立预测器，并自动标记从第二组114得到的描述符。描述符提取单元116、118为每个无标签样本组112、114提取对应于描述符的一致的组。标签生成单元120自动地为每个无标签样本的全部N个提取的描述符生成标签。标签生成单元120使用来自描述符提取单元118的每个描述符自动地为每个无标签样本的N个生成的描述符中的其它描述符生成标签。因此，为一个样本的描述符生成的标签是部分独立于其它描述符的标签而生成的。交叉描述符预测器产生(或生成)单元122根据标签生成每个描述符的预测器。交叉描述符预测单元124基于来自交叉描述符预测器产生单元122的预测器而对每个描述符分配标签。预测器组合单元126组合所分配的标签，以获得更好的结果。

图3示出用于从样本132，例如从无标签样本组112、114中提取描述符的描述符提取单元130的示例，例如图2中的单元116、118。描述符提取单元130包括平行操作以从每个单独的无标签样本132中提取描述符136-1、...、136-N的一排描述符提取器134-1、...、134-N。优选地，生成的描述符136-1、...、136-N包括图像描述符、音频描述符、文本描述符和例如颜色、纹理、形状、频率等的视频特征描述符。

图4示出自动地生成交叉描述符标签的标签生成单元120的示例。在此例中，标签生成单元120包括一排N个标签生成器140-1、...、140-N，N个描述符的每个对应一个。每个无标签样本142被传递到标签生成器140-1、...、140-N。每个标签生成器140-1、...、140-N基于N-1个其他描述符(即，除了特定标签生成器正标记的当前描述符之外的N-1个描述符)的描述符分析，自动地为每个描述符生成相应的标签144-1、...、144-N。应当注意，主要地，至少在生成期间，每个标签生成器140-1、...、140-N自动地生成标签，而无须任何人的介入。

因此，例如，可以从无标签样本中提取音频描述符和视频描述符。标签生成单元120基于视觉描述符的分析为音频描述符生成标签，反之亦然。例如，每个标签可包括字符串和数值量度。该数值量度可以在数量上代表由视觉样本中存在的字符串表示的目标的似然性。例如，“ 飞机”标签可以分别与来自视觉描述符和音频描述符的检测置信度0.1和0.9相关联。

图5示出从基本如图2所述的具有一致标记的相似元素的无标签样本114产生持久预测器150的示例。在此示例中，单个无标签样本组112被传递至单个描述符提取单元118，其对在组114中的每个无标签样本提取一组N个描述符。再次，标签生成单元120自动地根据其余N-1个描述符而为N个描述符的每个生成标签。交叉描述符预测器产生(或生成)单元122使用该N个描述符来对每个生成预测器。将所得到的N个预测器存储150为持久预测器(其随后被用于预测，比如对无标签样本的当前组114或其它组)。

图6示出自动标签生成器140(例如，图4中140-1、...、140-N中的一个)的示例。在此示例中，标签生成器140包括一组L个人工标记的样本1402。基本与图3中的描述符提取器134-1，...，134-N一致的描述符提取单元1404从全部有标签的样本1402中提取合适的描述符。标签预测器产生单元1406基于由描述符提取单元1404提供的描述符而生成标签预测单元1408。标签预测单元1408对从另一个描述符提取单元1410(例如，基本类似于描述符提取器134-1，...，134-N中的一个)接收的描述符进行操作。因而，来自组142的特定的无标签样本被传递至描述符提取单元1410。描述符提取单元1410提取描述符并将所提取的描述符传递至标签预测单元1408，其自动地为描述符生成标签144。优选地，描述符提取单元1410提取与被用于产生标签预测单元1406的描述符完全相同的描述符。所提取的描述符被提供给标签预测单元1408，其生成标签144，该标签144可包括观察无标签样本142中的标签(由文字表示)的似然性的文字串和数值量度。

图7示出自动标签生成器140`的示例，在此示例中是接受无标签样本142并自动地生成标签144的服务。适当的标记服务包括任何典型的最新技术水平的搜索引擎，例如Google^TMSearch。当***向标签提供者服务140`提供无标签样本时，该服务140`为无标签样本提供标签的列表和分级。可通过服务提供者将这样的标签直接提供给图2中的交叉描述符预测器产生单元122。

图8示出在使用优选实施例的交叉描述符预测单元(例如图2中的122)，对于N＝2自动生成标签的数据流的示例。通过一对描述符提取器，比如图3中的134-1，...，134-N，从无标签样本142中提取成对的描述符136-1、136-2。同时，一对自动标签生成器140-1、140-2(比如图4中的144-1、...、144-N)根据无标签样本142的子集而生成标签。所提取的描述符136-1、136-2和相应的自动生成的标签每个都被传递至比如图2中的交叉描述符预测器产生器122中的预测器产生器122-1、122-2。每个预测器产生器122-1、122-2将正被平行(如批处理子任务)或顺序地创建的全部预测器150-1、150-2提供给特定的描述符136-1、136-2的经交叉训练的标签预测器150-1、150-2(比如图5中的预测器150)。

图9示出在由交叉描述符预测器(如图5中的122)生成的一对预测器(本例中的150-1、150-2)上的优选交叉描述符预测器产生数据流的最小描述符大小的示例(再次，N＝2)。再次，在一对描述符提取器中，比如图3中的134-1，...，134-N，从无标签样本142中提取成对描述符136-1、136-2。同样在本例中，一对标签生成器140-1、140-2对于全部无标签样本142自动地生成标签(比如图4中的144-1、...、144-N)。所提取的描述符136-1、136-2和预测器150-1、150-2每个都被传递至例如图2中的交叉描述符预测单元124中的相应的标签预测器124-1、124-2。预测器组合单元126将来自标签预测器124-1、124-2的标签与来自标签生成器140-1、140-2的自动生成的标签进行组合，以改进预测结果。应当注意，虽然在本例及以上例子中示出了标记具有2个描述符的样本，但这只是最小示例并且不意图是限制。本示例容易被扩展为应用于具有任何数目的描述符的样本。

继续本例，当将无标签样本142提供给交叉描述符预测器产生单元124 时，从每个无标签样本142中提取描述符(例如，134-1、...、134-N)。该描述符被传递至标签预测器124-1、124-2，其基于相应的预测器150-1、150-2来标记该描述符。同时，标签生成器140-1、140-2根据除了对应于特定的所提取的描述符136-1、136-2的样本之外的其余无标签样本142，自动地生成标签(比如，144-1、...、144-N)。预测器组合单元126将来自标签预测器124-1、124-2的标签与来自标签生成器140-1、140-2的自动生成的标签进行组合，以改进预测结果。

有利地，优选的实施例***提供交叉描述符学习以使用多描述符来调节无标签样本，其中每个单独的描述符自身可能不足以描述任何一个无标签样本的元数据。另外，对于仅无标签样本可用于优选实施例***的松散信息管理，仍可以自动地标记样本。同样，本发明不受关于单描述符视图的严格限制的妨碍，并且，还支持多描述符视图。因而，即便没有松散数据的先前的人工注释，根据本发明的优选实施例构建的***也自动地根据有关多个描述符的松散信息来创建元数据。

此外，优选实施例***在单个***中提供伪联合搜索，以根据无标签样本自动地生成一组有标签的样本。可选地，可以使用任何公知的搜索引擎，如YahooSearch和Google^TMSearch，来生成标签以对具有文字和超链接的搜索结果进行分级。此后，***可以对于由伪联合搜索的搜索结果指引的相同的无标签描述符来构建描述符。因而，可以根据无标签样本、根据单独的有标签的样本组、或根据为无标签样本生成的标签，来构建根据本发明的自动地标记无标签样本的注释器。因此，不同于需要有标签的样本组来对无标签样本进行任何改进的现有技术，优选实施例的机器学习***能够只单单根据无标签样本来生成改进的标签。

虽然已经按照优选实施例描述本发明，但本领域的技术人员将认识到本发明能够通过在所附权利要求的精神和范围内的修改来实践。希望所有这样的变化和修改落入所附权利要求的范围内。

Claims

1.一种使用无标签样本的交叉描述符学习方法，所述方法包括步骤：

a)对于多个无标签样本中的每个提取描述符，每个提取的描述符作为所述多个无标签样本中的相应一个的代表；

b)根据所述每个提取的描述符自动地生成标签，所述每个提取的描述符被用于为所述描述符中的其他描述符自动地生成标签；

c)从生成的所述标签中对于所述的每个提取的描述符产生预测器；以及

d)组合预测器上的预测，根据所组合的预测为每个所述无标签样本生成标签。

2.如权利要求1所述的方法，其中自动地生成标签的步骤(b)包括向标签提供者服务提供所述无标签样本。

3.如权利要求2所述的方法，其中所述交叉描述符学习被执行为搜索，并且其中该标签提供者服务提供多个搜索引擎中的一个。

4.如权利要求1所述的方法，其中在组合预测的步骤(d)中，自动地组合预测。

5.如权利要求1所述的方法，其中在步骤(d)中响应于统计学习而组合预测。

6.如权利要求5所述的方法，其中统计学习包括判别式学习。

7.如权利要求6所述的方法，其中所述统计学习包括支持矢量机学习。

8.如权利要求1所述的方法，其中无标签样本是包括图像、音频、文本和视频的松散信息。

9.如权利要求1所述的方法，其中每个所述标签包括相应的置信度，该置信度在数量上指示由在相应的无标签样本中呈现的标签所代表的对象的似然性并对相应的所述无标签样本进行分类。

10.如权利要求9所述的方法，其中所述标签和相应的置信度对所述无标签样本进行分级。

11.如权利要求9所述的方法，其中各个所述置信度是指示每个标签在相应的样本中的存在或不存在的二进制指示符。

12.如权利要求9所述的方法，其中各个所述置信度是真实值，每个真实值指示每个标签在相应的样本中的存在或不存在。

13.一种交叉描述符学习***，包括：

存储器，存储多个无标签样本；

描述符提取单元，从所述无标签样本中提取描述符；

自动描述符标签机，为每个提取的描述符、根据其他的提取的所述描述符来生成标签；

交叉描述符预测器，根据所述每个提取的描述符和为每个提取的描述符生成的标签来预测用于所述每个提取的描述符的标签；以及

标签组合单元，组合来自所述交叉描述符预测器的用于所述每个提取的描述符的标签和来自所述自动描述符标签机的标签，所组合的所述标签中的每个被施加到相应的无标签样本。

14.如权利要求13所述的交叉描述符学习***，其中所述描述符提取单元包括多个描述符提取器。

15.如权利要求14所述的交叉描述符学习***，其中所述多个描述符提取器包括图像描述符提取器、音频描述符提取器、文本描述符提取器和至少一个视频特征描述符提取器。

16.如权利要求15所述的交叉描述符学习***，其中至少一个视频特征描述符提取器包括颜色提取器、纹理、形状提取器和频率提取器。

17.如权利要求14所述的交叉描述符学习***，其中所述自动描述符标签机是多个自动描述符标签机中的一个，每个所述多个自动描述符标签机为从所述多个描述符提取器中的相应一个提取的描述符生成标签。

18.如权利要求17所述的交叉描述符学习***，其中所述交叉描述符预测器包括多个描述符标签预测器。

19.如权利要求13所述的交叉描述符学习***，其中所述自动描述符标签机包括描述符标记服务。

20.如权利要求13所述的交叉描述符学习***，其中所述自动描述符标签机包括：

存储多个有标签的样本的存储器；

从所述有标签的样本中提取描述符的提取器；以及

标签预测器产生器，根据从所述多个有标签的样本中提取的所述描述符来产生标签预测器，由一个所述标签预测器自动地标记从无标签样本的描述符中提取的所述描述符。