CN1777916A

CN1777916A - 识别视频图像对象的设备和方法、应用视频图像注释的设备和方法及识别视频图像对象的程序

Info

Publication number: CN1777916A
Application number: CNA2004800107785A
Authority: CN
Inventors: 高桥祐介; 平田恭二
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2003-04-21
Filing date: 2004-04-15
Publication date: 2006-05-24
Anticipated expiration: 2024-04-15
Also published as: WO2004095374A1; KR20060004678A; JP4488233B2; EP1622081A1; KR100743485B1; CN100371952C; JPWO2004095374A1

Abstract

彼此相关联地存储可视特征信息和附加信息，所述可视特征信息是表示对象的可视特征的数字值的信息，以及所述附加信息是添加到对象上的信息。提取出作为视频图像的局部区域的图像数据的局部图像数据。产生所提取出的局部图像数据的可视特征信息。相互比较所提取出的局部图像数据的可视特征信息和所存储的对象的可视特征信息，以计算二者之间的相似性。根据所计算出的相似性，标识包含在视频图像数据中的对象。在显示装置上，按照与视频图像重叠的关系，显示由已标识对象的附加信息构成的注释。

Description

识别视频图像对象的设备和方法、应用视频图像注释的设备和方法及识别视频图像对象的程序

技术领域

本发明涉及一种用于将视频主题和主题信息彼此相关联的视频图像识别设备、一种视频图像注释应用设备和一种车辆制导***。

背景技术

近年来，通过使用GPS(全球定位***)向用户提供有关其当前位置的信息的导航***已经得到了广泛地应用，并被安装在汽车上等。这些导航***具有向用户提供与其当前位置周围的环境有关的信息的功能。导航***的用户终端在监视器等上、通过CG(计算机绘图)绘制的数字地图上显示所提供的信息。

按照向用户提供与其当前位置周围的环境有关的信息的另一种处理，根据增广现实技术，作为重叠在实际视频图像上的信息来显示此信息。

以下提及的非专利文献1公开了一种***，利用捕获实际图像的图像捕获位置、图像捕获方向和包括作为视频主题的对象(如建筑物等对象)的纬度和经度在内的位置信息，显示与图像捕获方向上、位于距图像捕获位置预定距离内的对象有关的信息(对象的名称)，将其重叠在对象的实际图像上。

(非专利文献1)

Tomohiro Terada等人，“Construction of vehicle-mountedannotation system using augmented reality”，Technical Report ofIEICE，The Institute of Electronics，Information，andCommunication Engineers，Feb.2002，CQ2001-103，MVE2001-136.p.55-60。

但是，非专利文献1所公开的***显示与图像捕获方向上、位于距图像捕获位置预定距离内的对象有关的信息，而与对象是否被作为视频图像捕获无关。因此，即使对象实际上并未作为视频图像被捕获(例如，因为位于树木等的后面)，该***仍然显示该图像的信息。

发明内容

本发明的目的是提供一种视频图像识别设备、一种视频图像注释应用设备和一种车辆制导***，如果对象实际上并未作为视频图像被捕获，则不显示该对象的信息。

根据本发明的一种视频图像对象识别设备包括：输入装置，用于输入视频图像数据和图像捕获信息，所述图像捕获信息是用于确定将要捕获图像的区域的信息；存储装置，用于存储彼此相关的位置信息和可视特征信息，所述位置信息是表示对象的位置的信息，以及所述可视特征信息是表示对象的可视特征的数字值的信息；以及对象识别装置，用于识别包含在基于所述输入视频图像数据的视频图像中的对象，其中所述对象识别装置包括：图像捕获空间估计装置，用于根据所述图像捕获信息，估计将要捕获图像的区域；匹配装置，用于匹配将要捕获图像的区域与由存储在所述存储装置中的对象的位置信息所表示的位置；局部视频图像提取装置，用于从所述输入视频图像中提取出或者是基于所述视频图像数据的所述视频图像的局部区域的视频图像数据或者是整幅视频图像的视频图像数据的局部视频图像数据；可视特征信息设置装置，用于产生所述局部视频图像数据的可视特征信息；相似性计算装置，用于相互比较所述局部视频图像数据的可视特征信息和存储在所述存储装置中的对象的可视特征信息，以计算出二者之间的相似性；以及判定装置，用于根据所述匹配装置的匹配结果和所计算出的相似性的结果，确定对象是否出现在基于所述输入视频图像数据的所述视频图像中。

根据本发明的一种视频图像注释应用设备包括：输入装置，用于输入视频图像数据和图像捕获信息，所述图像捕获信息是用于确定将要捕获图像的区域的信息；存储装置，用于存储彼此相关的位置信息、可视特征信息和附加信息，所述位置信息是表示对象的位置的信息，所述可视特征信息是表示对象的可视特征的数字值的信息，以及所述附加信息是添加到对象上的信息；以及对象识别装置，用于将包含在基于所述输入视频图像数据的视频图像中的对象与所述附加信息相关联，其中所述对象识别装置包括：图像捕获空间估计装置，用于根据所述图像捕获信息，估计将要捕获图像的区域；匹配装置，用于匹配将要捕获图像的区域与由存储在所述存储装置中的对象的位置信息所表示的位置；局部视频图像提取装置，用于从所述输入视频图像中提取出或者是基于所述视频图像数据的所述视频图像的局部区域的视频图像数据或者是整幅视频图像的视频图像数据的局部视频图像数据；可视特征信息设置装置，用于产生所述局部视频图像数据的可视特征信息；相似性计算装置，用于相互比较所述局部视频图像数据的可视特征信息和存储在所述存储装置中的对象的可视特征信息，以计算出二者之间的相似性；以及判定装置，用于根据所述匹配装置的匹配结果和所计算出的相似性，标识包含在基于所述输入视频图像数据的所述视频图像中的对象，并将所标识出的对象与存储在所述存储装置中的附加信息彼此相关联。

所述对象识别装置可以包括：出现概率计算装置，用于根据将要捕获图像的区域和存储在所述存储装置中的对象的位置信息，计算作为所述视频图像中包含对象的概率的出现概率，以及所述判定装置可以根据所计算出的出现概率和相似性，标识包含在所述视频图像中的对象，并将所标识出的对象与存储在所述存储装置中的附加信息彼此相关联。利用此结构，未将出现在将要捕获图像的区域中、但作为视频图像被捕获的概率较低的对象与附加信息相关联。因此，当按照与视频图像重叠的关系显示注释时，并不显示并未作为视频图像被捕获的对象的注释。

所述局部视频图像提取装置可以根据存储在所述存储装置中的对象的位置信息，标识对象被定位于所述视频图像内的范围，并从所标识的范围中提取局部视频图像数据。利用此结构，可以限制从中提取局部视频图像数据的范围，从而降低了由局部视频图像提取装置执行的数据处理量。

所述对象识别装置可以包括：候选对象搜索装置，用于根据将要捕获图像的区域和位置信息，提取出作为出现在将要捕获图像的区域中的对象的候选对象，以及所述相似性计算装置可以相互比较局部视频图像数据的可视特征信息和存储在所述存储装置中的候选对象的可视特征信息，以计算二者之间的相似性。利用此结构，可以减少与局部视频图像数据的可视特征信息进行比较以计算相似性的对象的数量，从而降低了由相似性计算装置执行的数据处理量。

所述局部视频图像提取装置可以根据存储在所述存储装置中的候选对象的位置信息，标识对象被定位于所述视频图像内的范围，并从所标识的范围中提取局部视频图像数据。利用此结构，能够限制从中提取局部视频图像数据的范围，从而降低了由局部视频图像提取装置执行的数据处理量。

所述视频图像注释应用设备还可以包括：显示装置，用于视频图像；以及显示位置确定装置，用于指定显示与包含在所述视频图像中的对象相关联的附加信息的位置，并用于显示重叠在所述视频图像上的附加信息。利用此结构，可以彼此相关联地显示视频图像和作为附加信息的注释。

所述视频图像注释应用设备还可以包括：注释结果存储装置，用于彼此相关联地存储附加信息和包含在所述视频图像中的对象。利用此结构，可以根据已存储附加信息与包含在视频图像数据中的对象之间的关联关系来搜索视频图像数据。

所述局部视频图像提取装置可以具有根据所提取出的局部视频图像数据、任意改变视频图像区域的形状和尺寸的功能。利用此结构，能够提取出包含对象的局部视频图像数据，而与包含在所述视频图像数据中的对象的形状无关。

所述局部视频图像提取装置可以在匹配以下条件之一或其组合的视频图像区域中提取局部视频图像：亮度信息、颜色信息、形状信息、纹理信息和尺寸信息。利用此结构，可以根据存储在存储装置中的对象的可视特征信息来提取局部图像数据。

如果所述局部视频图像提取装置从匹配每个条件的组合的视频图像中提取局部视频图像数据，则所述局部视频图像提取装置可以确定所述条件的重要性，并根据所述匹配装置的匹配结果和存储在所述存储装置中的对象的可视特征信息来提取局部视频图像数据。利用此结构，可以根据存储在存储装置中的对象的可视特征来提取局部图像数据。

存储在所述存储装置中的对象的可视特征信息可以包括作为具有与所述对象相似的可视特征的视频图像的模板视频图像。利用此结构，可以减少为了将对象的可视特征信息存储在存储装置中而执行的工作量。

存储在所述存储装置中的对象的可视特征信息可以包括以下一项或多项：颜色信息、形状信息、纹理信息和尺寸信息，以及由所述可视特征信息设置装置产生的局部视频图像数据的可视特征信息可以包括以下一项或多项：颜色信息、形状信息、纹理信息和尺寸信息。利用此结构，可视特征信息设置装置可以定量地计算相似性。

存储在所述存储装置中的对象的位置信息可以包括用于识别近似于与所述对象相类似的、包括圆锥、圆柱、立方体等在内的三维立体几何形状的顶点之一、中心点或重心的位置的信息。利用此结构，可以减少位置信息的数据量。

存储在所述存储装置中的对象的位置信息可以包括用于识别近似于具有多边形表面的对象的三维形状的至少一个顶点的位置的信息。利用此结构，可以减少位置信息的数据量。

存储在所述存储装置中的对象的位置信息可以包括用于标识对象的所有顶点中最高的顶点的位置的信息。利用此结构，可以减少位置信息的数据量。

存储在所述存储装置中的对象的位置信息可以包括用于按照纬度、经度和海拔高度来标识对象的位置的信息。利用此结构，可以采用以GPS来捕获其位置信息的位置数据。

所述存储装置可以针对作为多个对象的集合的对象集合的附加信息及其可视特征信息，按照分级模式，来存储对象的附加信息及其可视特征信息，以及所述判定装置可以根据存储在所述存储装置中的对象集合的可视特征信息，确定捕获其图像的多个对象是否为对象集合，以及如果捕获其图像的多个对象是对象集合，则可以将对象集合的附加信息与对象集合彼此相关联。利用此结构，可以将注释与对象集合相关联。

所述图像捕获信息可以包括捕获数据和作为用于标识捕获日期和时间的信息的时间信息，所述存储装置可以存储依赖于所述捕获日期和时间的可视特征信息，以及所述相似性计算装置可以相互比较局部视频图像数据的可视特征信息与依赖于由捕获日期和时间信息标识的所述捕获日期和时间的可视特征信息，以计算二者之间的相似性。利用此结构，对象的可视特征量可以表示白天的亮色或夜间的暗色。颜色随日期(如季节)发生变化的对象(如山峰)可以具有能够在冬天表示白色、在春天和夏天表示绿色或者在秋天表示红色或黄色的可视特征量。因此，对象的可视特征信息可以随着日期的变化而变化。因此，对象识别装置能够根据对象的可视特征随着捕获日期和时间的变化来识别对象。

所述局部视频图像提取装置可以将所述输入视频图像分割为区域，并提取分割后的区域，作为所述局部视频图像数据。

所述局部视频图像提取装置可以将分割后的区域组合为所述局部视频图像数据。

所述局部视频图像提取装置可以通过分级评估分割后的区域的组合来产生所述局部视频图像。

所述局部视频图像提取装置可以在分级评估分割后的区域的组合时，在区域的组合中，只使用其相似性较高的多个区域来进行随后的组合。

可以将局部或整体、沿一个方向或多个方向观察到的对象的多项可视信息保存为存储在所述存储装置中的对象的可视特征信息。

根据本发明的一种车辆制导***是一种适合于安装在车辆上、用于根据GPS、在由显示设备显示的地图上显示其自身位置的车辆制导***，所述车辆制导***包括上述视频图像注释应用设备。

根据本发明的一种识别视频图像对象的方法包括以下步骤：输入视频图像数据和图像捕获信息，所述图像捕获信息是用于确定将要捕获图像的区域的信息；存储彼此相关的位置信息和可视特征信息，所述位置信息是表示对象的位置的信息，以及所述可视特征信息是表示对象的可视特征的数字值的信息；根据所述图像捕获信息，估计将要捕获图像的区域；匹配将要捕获图像的区域与由所存储的对象的位置信息所表示的位置；从所述输入视频图像中提取出或者是基于所述视频图像数据的所述视频图像的局部区域的视频图像数据或者是整幅视频图像的视频图像数据的局部视频图像数据；产生所述局部视频图像数据的可视特征信息；比较所述局部视频图像数据的可视特征信息和所存储的对象的可视特征信息，以计算出二者之间的相似性；以及根据匹配的结果和所计算出的相似性，确定是否捕获到对象的图像。

根据本发明的一种应用视频图像注释的方法包括以下步骤：输入视频图像数据和图像捕获信息，所述图像捕获信息是用于确定将要捕获图像的区域的信息；存储彼此相关的位置信息、可视特征信息和附加信息，所述位置信息是表示对象的位置的信息，所述可视特征信息是表示对象的可视特征的数字值的信息，以及所述附加信息是添加到对象上的信息；根据所述图像捕获信息，估计将要捕获图像的区域；匹配将要捕获图像的区域与由所存储的对象的位置信息所表示的位置；从所述输入视频图像中提取出或者是基于所述视频图像数据的所述视频图像的局部区域的视频图像数据或者是整幅视频图像的视频图像数据的局部视频图像数据；产生所述局部视频图像数据的可视特征信息；比较所述局部视频图像数据的可视特征信息和所存储的对象的可视特征信息，以计算出二者之间的相似性；以及根据匹配的结果和所计算出的相似性，标识包含在所述视频图像中的对象，并将所标识出的对象与所存储的附加信息彼此相关联。

根据本发明的一种视频图像对象识别程序适合于安装在视频图像对象识别设备中，用于确定所存储的对象是否被作为主题包含在视频图像中，所述视频图像对象识别程序使计算机能够执行包括以下步骤的处理：在存储装置中存储彼此相关的位置信息和可视特征信息，所述位置信息是表示对象的位置的信息，以及所述可视特征信息是表示对象的可视特征的数字值的信息；根据作为用于确定将要捕获图像的区域的信息的图像捕获信息，估计将要捕获图像的区域；匹配将要捕获图像的区域与由存储在所述存储装置中的对象的位置信息所表示的位置；从所述输入视频图像中提取出或者是基于所述视频图像数据的所述视频图像的局部区域的视频图像数据或者是整幅视频图像的视频图像数据的局部视频图像数据；产生所述局部视频图像数据的可视特征信息；相互比较所述局部视频图像数据的可视特征信息和所存储的对象的可视特征信息，以计算出二者之间的相似性；以及根据匹配的结果和所计算出的相似性，确定是否捕获到对象的图像。

根据本发明的一种视频图像注释应用程序适合于安装在视频图像注释应用设备中，用于将对象和所存储的对象的信息彼此相关联，所述视频图像注释应用程序使计算机能够执行包括以下步骤的处理：在存储装置中存储彼此相关的位置信息、可视特征信息和附加信息，所述位置信息是表示对象的位置的信息，所述可视特征信息是表示对象的可视特征的数字值的信息，以及所述附加信息是添加到对象上的信息；根据作为用于确定将要捕获图像的区域的信息的图像捕获信息，估计将要捕获图像的区域；匹配将要捕获图像的区域与由存储在所述存储装置中的对象的位置信息所表示的位置；从所述输入视频图像中提取出或者是基于所述视频图像数据的所述视频图像的局部区域的视频图像数据或者是整幅视频图像的视频图像数据的局部视频图像数据；产生所述局部视频图像数据的可视特征信息；比较所述局部视频图像数据的可视特征信息和所存储的对象的可视特征信息，以计算出二者之间的相似性；以及根据匹配的结果和所计算出的相似性，标识包含在所述视频图像中的对象，并将所标识出的对象与所存储的附加信息彼此相关联。

根据本发明，能够通过相互比较对象的可视特征信息与局部视频图像数据的可视特征信息来确定对象是否作为视频图像被捕获。如果确定对象作为视频图像被捕获，则将对象与附加信息彼此相关联。如果对象实际上并未作为视频图像被捕获，则可以不显示对象的信息。

根据本发明的车辆制导***具有根据本发明的视频图像注释应用设备的功能。因此，如果对象实际上并未作为视频图像被捕获，所述车辆制导***可以不显示所述对象的信息。

附图说明

图1是根据本发明实施例的结构方框图；

图2是示出了含义信息、位置信息和可视特征量的示例的示意图；

图3是根据本发明第一实施例的结构方框图；

图4是根据本发明第一实施例的可视特征量比较装置的方框图；

图5是本发明第一实施例的操作流程图；

图6是示出了以侧视图表示的将要捕获图像的区域的视图；

图7是示出了以信息表示的将要捕获图像的区域的视图；

图8是示出了将要捕获图像的区域的视图；

图9是示出了图像捕获位置与候选对象上的代表点之间的关系的示例的视图；

图10是示出了模板图像的视图；

图11是示出了通过整体光栅扫描进行处理的图像的视图；

图12是示出了位于将要捕获图像的区域的右侧的候选对象的视图；

图13是示出了通过整体光栅扫描对其右半部进行处理的图像的视图；

图14是示出了将视频图像分割为区域的方式的视图；

图15是示出了分割后的区域和联合区域的视图；

图16是示出了被分割为区域的图像的视图；

图17是示出了减少其区域数量的图像的视图；

图18是示出了相互比较局部图像和候选对象的方式的视图；

图19是示出了地理对象集合的视图；

图20是示出了分级含义信息的示意图；

图21是按照平面图和透视图示出了地理对象的视图；

图22是示出了被分割为部分的地理对象的视图；

图23是根据本发明第二实施例的结构方框图；

图24是根据本发明第一实施例的可视特征量比较装置的方框图；

图25是根据本发明第三实施例的结构方框图；

图26是示出了对其应用了注释的视频图像的示例的视图；

图27是根据本发明第四实施例的结构方框图；

图28是根据本发明第五实施例的可视特征量比较装置的方框图；

图29是本发明第五实施例的操作流程图；以及

图30是示出了分级组合评估处理的示意图。

具体实施方式

(本发明的第一实施例)

图1是根据本发明第一实施例的方框图。下面将描述第一实施例的结构。本发明的第一实施例包括：输入装置1，用于输入视频图像数据和图像捕获信息，所述图像捕获信息是捕获图像的场所的信息；存储装置2，用于存储作为视频图像主题的对象的信息；以及对象识别设备3，用于确定对象是否作为视频图像被捕获。

输入装置1输入从用于捕获视频图像的视频输入单元(未示出)输出的视频图像，例如，所述视频输入单元为CCD数字摄像设备、视频摄像设备等。输入装置1输入表示捕获视频图像时从视频输入单元输出的视角的视角信息。如果不能改变视频输入单元的变焦比，则通过事先根据镜头的焦距和CCD的尺寸计算视角来产生视角信息。如果可以通过变焦动作改变视频输入单元的变焦比，则通过事先获得表示变焦动作量与视角之间的关系的信息并根据捕获视频图像时所产生的变焦动作量计算视角，产生视角信息。

输入装置1与用于测量输入装置1的纬度、经度和海拔高度的GPS装置相连，并标识出图像捕获位置和运动速度。输入装置1可以与加速度传感器装置相连，并可以通过相对于时间积分来自加速度传感器装置的输出，标识出运动速度。输入装置1还与用于标识视频输入单元捕获视频图像的方向的磁罗盘装置、电子罗盘装置或陀螺罗盘装置相连。

如果视频输入单元具有平转(panning)和倾斜功能，则输入装置1测量平转或倾斜动作量，并校正由磁罗盘装置、电子罗盘装置或陀螺罗盘装置标识出的图像捕获方向。当在捕获视频图像的同时，视频输入单元运动时，输入装置1利用GPS装置的路径数据和来自磁罗盘装置、电子罗盘装置或陀螺罗盘装置的输出，标识视频输入单元运动的方向。图像捕获信息包括视角信息、作为用于标识捕获视频图像的日期和时间的信息的捕获日期和时间信息、图像捕获位置信息、图像捕获方向信息、运动方向信息和运动速度信息。

存储装置2存储对象的附加信息(如含义信息)和可视特征信息(如可视特征量)。含义信息是有关对象的信息，如对象的名称、历史、使用费用、营业时间、地址、电话号码、URL等。将含义信息应用于视频图像中的对象被称为应用注释。具体地，将注释图像添加到视频图像中的对象附近。

可视特征量是表示用于可视地识别对象的特征的数字量，所述特征如形状、尺寸、纹理、边缘、颜色等。例如，可视特征是利用由MPEG-7/Visual定义的可视描述符所涵盖的颜色、纹理和形状的特征组合之一所定义的可视特征矢量，如Akio Yamada，“Contentsdescription based on visual tools”，the journal of The Instituteof Image Information and Television Engineers，The Institute ofImage Information and Television Engineers，Nov.1，2002，Vol.56，No.11，p.1711-1714(此后称为文献A)中所公开。颜色特征由主色和颜色布局表示。纹理特征由边缘直方图表示。形状特征由基于区域的形状描述符等表示。

主色是出现最为频繁的颜色的RGB表示。颜色布局是颜色在频率轴上的空间分布。边缘直方图以直方图的形式表示垂直、水平、倾斜和其他边缘中的每一种出现了多少次。基于区域的形状描述符是二进制形状数据的35个二维ART(角辐射变换)系数的描述符。

将对象Oci的可视特征量FOi描述为矢量表示FOi＝(主色、颜色布局、边缘直方图、基于区域的形状描述符、…)。

存储装置2可以根据捕获对象的视频图像的日期和时间存储一幅图像的多个可视特征量。例如，对象的可视特征量可以表示白天的亮色或夜间的暗色。颜色随日期(如季节)发生变化的对象(如山峰)可以具有能够在冬天表示白色、在春天和夏天表示绿色或者在秋天表示红色或黄色的可视特征量。

如果可以通过表示纬度、经度等的位置信息来标识对象，如建筑物或人工结构(如桥梁、塔等)或自然风景(如山峰、湖泊等)，则存储装置2存储对象的位置信息。此后，将能够通过位置信息来标识的对象称为地理对象。如火车等随着时间运动的对象不能仅通过位置信息来识别。但是，如果这种对象的位置每次可以通过图表等来标识，则可以通过表示时间和位置信息的组合的组合集合来标识该对象。

用作位置信息的位置的信息可以由地理对象的中心或重心的纬度和经度、或表示利用多边形表面代表地理对象的三维形状的每个顶点的位置的一组纬度、经度和海拔高度数据来表示。如果使用这样一组表示三维形状的每个顶点的位置的数据，则所涉及的数据量较大。因此，可以提取并使用三维形状的一个或多个顶点的位置信息。或者，可以将地理对象的形状近似为圆锥形、圆柱形、立方体形等，并可以使用近似形状的中心、重心或顶点的位置信息，或者可以提取并使用一个顶点的位置信息。例如，可以将东京大厦近似为金字塔形，并可以将五个顶点的位置信息用作地理对象的位置信息。可以将对象的最高点(海拔高度最高的顶点)的位置信息用作地理对象的位置信息。由于与其他顶点相比，认为在捕获对象的视频图像时，最高点不太容易被其他对象的出现而遮挡，优选地使用对象的最高点作为地理对象的位置信息。

含义信息、由最高点的纬度和经度表示的位置信息以及可视特征的示例如图2所示。尽管可视特征量实际可用作数字值，为了简洁，以图形形状和字符表示。

存储装置2将信息作为多个分离的片段或一整块存储在如CD-ROM、DVR-R、硬盘、存储器等记录介质中。由读取装置从单一的介质或多个介质中读取所存储的信息。存储装置2可以通过如因特网等计算机网络获取信息。

对象识别设备3由计算机实现，并计算由输入装置1捕获的视频图像(局部或整体)的可视特征量和存储在存储装置2中的地理对象的可视特征量之间的相似性。

图3示出了根据本发明第一实施例的对象识别设备3的结构。下面将描述对象识别设备3的结构。图3和图4所示的装置由程序实现。

对象识别设备3包括：图像捕获区域估计装置；匹配装置；和候选对象搜索装置(例如，将其中之一实现为候选对象搜索装置30)，用于根据地理对象的图像捕获信息和位置信息，提取出作为可能已经捕获到其图像的地理对象的候选对象；相似性计算装置(例如，将其实现为可视特征量比较装置31)，用于计算由候选对象搜索装置30提取出的候选对象的可视特征量与由输入装置1捕获的视频图像(局部或整体)的可视特征量之间的相似性；以及判定装置32，用于将所计算出的相似性与预定阈值进行比较，以确定是否捕获到对象的图像。

图4示出了可视特征量比较装置31的结构。下面将描述可视特征量比较装置31的结构。可视特征量比较装置31包括：局部图像提取装置310，用于提取作为由输入设备1捕获的视频图像(局部或整体)的局部视频图像；可视特征量设置装置311，用于设置所提取出的局部视频图像的可视特征量；以及特征量比较装置312，用于计算存储在存储装置2中的候选对象的可视特征量与局部视频图像的可视特征量之间的相似性。可视特征信息设置装置由可视特征量设置装置311实现。

下面，将参照图5所示的流程图，对操作进行描述。首先，视频输入单元捕获视频图像，并将表示视频图像的视频图像数据输入输入装置1。输入装置1将输入视频图像数据记录在视频图像记录介质上(步骤A1)。输入装置1输入与图像捕获位置、图像捕获方向、运动方向和运动速度有关的信息以及视角信息，组合输入信息以产生图像捕获信息(步骤A2)，并将所产生的图像捕获信息记录在其上记录有视频图像数据的视频图像记录介质上。如果按照JPEG压缩视频图像数据的每一帧，则将图像捕获信息记录在图像数据的报头中，或者将图像数据和图像捕获信息与时间相关联，从而使图像数据和图像捕获信息一一对应地彼此相关联。

如视频摄像设备等普通图像捕获设备每秒记录30帧图像数据。但是，利用GPS功能获取的、表示纬度和经度的位置信息每秒获得一次。因此，优选地，利用包含在图像捕获信息中的运动方向和运动速度的信息，校正最终获得的、表示纬度和经度的位置信息，并将校正后的位置信息和视频图像数据一一对应地彼此相关联。

根据由输入装置1产生的图像捕获信息，候选对象搜索装置30计算表示视频输入单元能够在其中捕获图像的范围的、将要捕获图像的区域(步骤A3)。

下面，将在图像捕获位置由C表示，图像捕获方向由θ表示，地理对象的代表点由O表示，以及地理对象的纬度、经度和海拔高度分别由Oi1、Oi2、Oi3表示的假设下，对将要捕获图像的区域进行描述。如图6和7所示，将要捕获图像的区域是从图像捕获位置开始、沿图像捕获方向延伸、并由视角和地平面围绕的空间。

如图8所示，假设图像捕获位置由C表示，成像设备具有右上、左上、右下和左下端点UR、UL、DR、DL，包括C、UR、UL的平面Su、包括C、UR、DR的平面Sr、包括C、DR、DL的平面Sd、包括C、UL、DL的平面S1和地平面Se。这些平面由以下所示的公式(1)表示。如果图像捕获方向θ是指向北方且与地平面平行的方向，则图像捕获方向θ是0。公式(1)表示其原点位于地平面上的给定位置的正交坐标***中的平面Su、Sd、Sr、Sl、Se。

\{\begin{matrix} S_{u} : f_{su} (x, y, z) = 0 \\ S_{d} : f_{sd} (x, y, z) = 0 \\ S_{r} : f_{sr} (x, y, z) = 0 \\ S_{l} : f_{sl} (x, y, z) = 0 \\ S_{e} : f_{se} (x, y, z) = 0 \end{matrix} . . . (1)

为了简洁，下面将描述将要以等于或小于180度的视角捕获图像的区域。将要捕获图像的区域由夹在Su、Sd、Sr、Sl之间、位于地平面Se上方、且与图像捕获方向θ保持在90度或更小以内的空间来限定。因此，将要捕获图像的区域可以表示为满足公式(2)的空间。在公式(2)中，Cx、Cy、Cz表示将其纬度C1、经度C2和海拔高度C3转换为正交坐标***中的数值的、图像捕获位置C的位置信息，θx是形成在θ和纬线之间的夹角，θy是形成在θ和经线之间的夹角，以及θz是形成在θ和与地面正交的直线之间的夹角。

\{\begin{matrix} f_{su} (x, y, z) f_{sd} (x, y, z) \leq 0 \\ f_{sr} (x, y, z) f_{sl} (x, y, z) \leq 0 \\ f_{se} (x, y, z) &GreaterEqual; 0 \\ (\begin{matrix} θ_{x} \\ θ_{y} \\ θ_{z} \end{matrix}) \cdot (\begin{matrix} x - Cx \\ y - Cy \\ z - Cz \end{matrix}) > 0 \end{matrix} . . . (2)

然后，对象识别设备3的候选对象搜索装置30读取存储在存储装置2中的地理对象的位置信息(步骤A4)。利用所读取的地理对象的位置信息，候选对象搜索装置30搜索可能被视频输入单元成像的地理对象。可能被视频输入单元成像的地理对象是具有满足公式(2)的位置信息的地理对象。候选对象搜索装置30提取出具有满足公式(2)的位置信息的地理对象，作为候选对象。即，候选对象搜索装置30进行将要捕获图像的区域与由存储在存储装置2中的地理对象的位置信息表示的位置之间的匹配。

满足公式(2)但距离图像捕获位置很远的那些地理对象的图像很难被捕获。因此，如果图像捕获位置和地理对象之间的距离(根据图像捕获位置的信息和地理对象的位置信息进行计算)大于预定阈值Th1，则候选对象搜索装置30可以不提取该地理对象。但是，即使地理对象和图像捕获位置之间的距离较大，仍然可能捕获从远处可以看到的地理对象(如山峰等)的图像。因此，如图9所示，可以确定从图像捕获位置看到地理对象的顶端的仰角，如果所确定的仰角超出预定阈值Th2，则候选对象搜索装置30可以提取该地理对象。

此外，如果图像捕获方向θ与从图像捕获位置朝向地理对象的方向之间的差较大，地理对象的图像也很难被捕获。因此，如果在从图像捕获位置C到地理对象的水平距离Dist等于或小于阈值Th1、从图像捕获位置看到地理对象的顶端的仰角等于或小于阈值Th2、且由图像捕获方向θ和从图像捕获位置朝向地理对象的方向之间的差表示的水平角误差等于或小于阈值Th3的条件下，提取候选对象，则能够减少候选对象的数量。利用Th1、Th2、Th3，候选对象要满足的条件由下面的公式(3)表示。在公式(3)中，Oix、Oiy、Oiz表示将其纬度Oi1、经度Oi2和海拔高度Oi3转换为正交坐标***中的数值的、地理对象的代表点O的位置信息。在本实施例中，进一步根据公式(3)缩减候选对象(步骤A5)。

\{\begin{matrix} Dist = \sqrt{{(Cx - Oix)}^{2} + {(Cy - Oiy)}^{2}} \leq Th 1 \\ | θ - \tan^{- 1} (\frac{Cx - Oix}{Cy - Oiy}) | \leq Th 2 \\ | \tan^{- 1} (\frac{Oiz - Cz}{Dist}) | &GreaterEqual; Th 3 \end{matrix} . . . (3)

将满足由公式(2)和(3)所表示的条件的M个候选对象描述为候选对象Oci(i＝1到M)。当候选对象搜索装置30提取出候选对象Oci时，候选对象搜索装置30向可视特征量比较装置31输出指定了所提取出的候选对象Oci的信息。

可视特征量比较装置31读取已经被存储在存储装置2中的候选对象Oci的可视特征量FOi(步骤A6)。存储装置2将候选对象Oci的可视特征量FOi存储为矢量表示FOi＝(主色、颜色布局、边缘直方图、基于区域的形状描述符、…)。

或者，可以将具有类似于对象的可视特征的模板图像用作可视特征量。模板图像是事先准备的、具有一般形状的对象的视频图像，例如，如图10所示。存储装置2可以存储这种模板图像作为可视特征量。

局部图像提取装置310提取表示从由输入装置1所捕获的视频图像(局部或整体)中提取出的视频图像的局部视频图像数据(此后称为局部视频图像)(步骤A7)。按照提取局部视频图像的一种处理，如图11所示，在光栅扫描下，从左上角到右下角，对拉长矩形框进行处理，以提取出此框中的视频图像。如果根据候选对象的可视特征量或用户的指令改变框的尺寸，则可以提取出具有多种尺寸的局部视频图像。所述框并不局限于拉长矩形形状，也可以是正方形、圆形、椭圆形等。

局部图像提取装置310可以读取候选对象的位置信息和包含在图像捕获信息中的图像捕获方向信息，并可以估计每个候选图像Oci的位置是位于图像捕获方向的右侧、左侧还是中心。为了提取出局部视频图像而进行光栅扫描处理的范围可以并不覆盖整幅视频图像，而可以将其限定在视频图像的右半部、左半部、右侧四分之一、左侧四分之一或中心区域，从而减少由用于提取局部视频图像的局部图像提取装置310执行的处理量。

图12示出了位于将要捕获图像的区域的右侧的候选对象。将候选对象可能位于视频图像中的范围限定为视频图像的右侧。因此，如图13所示，可以将用于提取局部视频图像的范围限定为视频图像的右侧。类似地，可以将候选对象可能位于视频图像中的范围限定为视频图像的上侧或下侧，并将用于提取局部视频图像的范围限定为视频图像的上侧或下侧。此外，可以根据候选对象和图像捕获位置之间的距离、候选对象的尺寸等来限定要提取的局部视频图像的范围。

可以采用利用分割来提取局部视频图像的处理。所述分割表示根据对像素和范围的颜色、边缘、边界复杂性等的分析，将视频图像分割为几个区域的处理。

按照“On segmentation for object image retrieval”，Hirata，K.；Kasutani，E.；Hara，Y.，Pattern Recognition，2002，Proceedings，16^th International Conference，on Volume 3，p.1031-1034中所描述的处理来进行分割。

根据分割，产生每一个均由具有相同颜色的一簇相邻像素构成的区域。然后，联合彼此在复杂边界两端相邻且具有类似颜色的区域。

联合彼此靠近且具有相似颜色和纹理的区域。然后，联合具有复杂边界、彼此靠近且具有相似颜色和纹理的区域。最后，将零星散布在较大区域周围的较小区域联合成较大的区域。

图14示出了将视频图像分割为区域的方式。下面，将详细描述将视频图像分割为区域并提取出区域的处理。在图14中，假设要提取的区域是位于视频图像右侧的B大厦。

首先，按照分割处理、根据颜色和边缘，将视频图像分割为区域。被分割为区域的B大厦如图15左侧所示。分割后的区域由Ri(i＝1到p)来表示。可以看到，B大厦被分割为区域R4到R7。然后，按照分割处理，联合分割后的区域。B大厦的联合区域如图15右侧所示。如果通过联合区域Ri、Rj而产生的区域由Ri-j表示，则B大厦的联合区域由R4-5-6-7来表示，指示出联合了B大厦的各个区域。

重复通过联合区域Ri、Rj的区域Ri-j的产生。通过联合多个组合后的区域并提取出联合区域来产生局部视频图像。

为了有效地分割和联合区域，可以逐个候选图像地改变分割区域的处理和联合区域的处理。下面，将参照图16所示的视频图像，描述利用候选对象的可视特征量来改变分割区域的处理和联合区域的处理。如图2中B大厦一列所示，B大厦的可视特征量的边缘直方图指出倾斜元素较多，且“红色”和“白色”较强，是主色。

通过改变局部图像提取装置310的参数，增加对倾斜边缘边界线、红色区域和白色区域的灵敏度，来分割区域。现在，如图17所示地对区域进行了分割。在图17中，实线表示分割后的区域的边界线。通过这样分割和联合区域，可以减少区域的数量，并且可以减少所提取出的局部视频图像的数量。局部图像提取装置310可以根据候选对象的可视特征量，在匹配亮度信息、颜色信息、形状信息、纹理信息、尺寸信息等之一或其组合的视频图像区域中提取局部视频图像。

局部图像提取装置310向可视特征量设置装置311输出所提取出的局部视频图像。可视特征量设置装置311按照多种已知处理中的任意一种，计算由局部图像提取装置310提取出的局部视频图像的可视特征量，例如，文献A中所描述的处理，并设置计算出的可视特征量(步骤A8)。然后，可视特征量设置装置311向特征量比较装置312输出所设置的可视特征量。

特征量比较装置312计算候选对象的可视特征量FOi和局部视频图像的可视特征量Fr之间的相似性MSi。图18示出了局部视频图像和候选对象之间的比较示例。将候选对象Oci的可视特征量FOi表示为FOi＝(主色、颜色布局、边缘直方图、基于区域的形状描述符、…)。将局部视频图像的可视特征量Fr表示为Fr＝(主色、颜色布局、边缘直方图、基于区域的形状描述符、…)。将相似性矢量Si表示为Si＝(主色的相似性、颜色布局的相似性、边缘直方图的相似性、基于区域的形状描述符的相似性、…)。

考虑到候选对象的代表颜色和局部视频图像的代表颜色之间的相关性来计算主色的相似性。颜色布局的相似性是通过引入将每个颜色分量和每个频率分量的可视特征反映为亮度分量系数和色差分量系数的加权而计算出的L2标准和。例如，边缘直方图的相似性是候选对象的直方图和局部视频图像的直方图中的五个边缘元素的差分绝对值和。基于区域的形状描述符的相似性是针对构成描述符的每个元素计算出的、局部视频图像和候选对象的差分绝对值和。

按照公式(4)表示和计算相似性(步骤A9)。

MSi＝|Si| …(4)

应当对作为相似性矢量Si的分量的每个相似性进行归一化，从而使其小于等于1且大于等于0。

下面，将描述可视特征量比较装置31利用模板视频图像作为可视特征量时、计算相似性的处理。如果假设模板视频图像由Toi(x，y)表示，视频图像由F(x，y)表示，以及模板视频图像的面积由SF表示，则按照公式(5)表示和计算相似性MSi(x，y)。

(X, Y) = Σ_{x, y} \frac{| F (X + x, Y + y) - Toi (x, y) |}{SF} . . . (5)

例如，如果模板视频图像的范围由O≤x≤29且0≤y≤49表示，则公式(5)表示从视频图像上的特定点(X，Y)开始、模板视频图像范围内的视频图像与模板视频图像之间的相似性。

针对整幅视频图像或由局部图像提取装置310提取出的所有局部视频图像，计算上述相似性，并将计算出的相似性输出给判定装置32。整幅视频图像和局部视频图像彼此相关，从而当所计算出的相似性的数字值较小时，其可视相关性较大。此后，将所计算出的相似性的最小数字值称为最大相关性。

判定装置32提取出针对候选对象的最大相似性MSmaxi，并确定最大相似性MSmaxi是否小于预定阈值Thi(步骤A11)。

如果最大相似性MSmaxi小于阈值Thi，则判定装置32判断候选对象出现在视频图像中，从存储装置2中读取包含作为候选对象的地理对象的局部图像和候选对象的含义信息，并将其彼此相关联地输出(步骤A12)。即，判定装置32将注释应用于视频图像。判定装置32将注释视频图像输出到如液晶显示设备等显示设备或如硬盘驱动器、存储器等存储设备。

如果地理对象包括多个建筑物，如在寺庙等中，如图19所示，则整个寺庙的可视特征量可能会根据观察寺庙的位置而发生很大的变化。因此，优选的是，将作为地理对象的各个建筑物(如大殿和五层宝塔等)的含义信息按照分级的模式(如类似树的模式)存储在存储装置2中。例如，如果存在多项含义信息所共有的概念(共有概念)，则将这些含义信息作为与从树的一个节点延伸出去的多个分支相对应的含义信息存储在存储装置2中。优选地，应当将与树的节点相对应的共有含义信息(表示每个含义信息的共有概念的含义信息)存储在存储装置2中。如果存在多项共有含义信息所共有的概念，则将这些共有含义信息作为与从树的一个节点延伸出去的多个分支相对应的高层共有含义信息存储在存储装置2中。优选地，应当将与共有含义信息的节点相对应的高层共有含义信息存储在存储装置2中。具体地，如图20所示，事先产生一组地理对象(如大殿和五层宝塔等)的高级概念的含义信息(如D寺庙等)。当判定装置32识别出与对应于共有含义信息的底层概念的含义信息(如大殿和五层宝塔等)相对应的地理对象时，判定装置32应用作为此组地理对象的高层概念的注释“D寺庙”。

类似地，如图21所示，如C建筑等地理对象的轮廓可能会根据捕获地理对象的图像的方向而发生很大的变化。如图22所示，可以将这种地理对象分割为多个地理对象，并将分割后的地理对象的可视特征量存储在存储装置2中。在这种情况下，如图20所示，将与分割后的地理对象的含义信息的高层概念相对应的共有含义信息(如C建筑等)存储在存储装置2中，并且如果存在与共有含义信息的高层概念相对应的共有含义信息(如新宿高层建筑群等)，则将该共有含义信息存储在存储装置2中。如果局部图像提取装置310提取出按照各个地理对象分割后的地理对象的各个部分，则判定装置32确定存储装置2中是否存储有与含义信息的高层概念相对应的共有含义信息(如C建筑右侧)。如果在存储装置2中存储有这种共有含义信息，则判定装置32应用作为此组地理对象的高层概念的注释“C建筑”。

可能会将其中并未完整成像地理对象的视频图像输入输入装置1，例如当地理对象的一部分被如树木、人等障碍物所遮挡时，或者当具有复杂形状的地理对象的一部分遮挡住其他主要部分时。在这种情况下，如果将地理对象的一部分分割为地理对象，并将分割后的地理对象的可视特征量存储在存储装置2中，则局部图像提取装置310可以根据所成像的部分识别出地理对象，并提取出局部视频图像。因此，与未分割地理对象地提取出局部视频图像相比，可以更能禁受建筑物的方向变化地应用注释。

不仅可以将整个地理对象，而且可以将部分被遮挡的地理对象的多个特征量额外地或代替地存储在存储设备中。不仅可以将沿一个方向成像的地理对象，而且可以将沿多个方向或从多个位置成像的地理对象的多个特征量额外地或代替地存储在存储设备中。利用从接近于输入视频图像的图像捕获位置或图像捕获方向的方向上捕获的特征量，能够处理其可视特征根据观察方向发生很大变化的地理对象。

针对所有候选对象，重复执行上述步骤A6到A12(步骤A13)。根据本发明的视频注释应用设备针对输入到输入装置1中的每帧视频图像进行步骤A6到A13的处理。但是，如果由视频输入单元捕获的视频图像为每秒30帧，而输入到输入装置1中的视频图像为每秒3帧，则将注释应用于由视频输入单元捕获的视频图像的十帧中的一帧。在这种情况下，可以将注释的输出保持1/3秒，从而不受干扰地将注释应用于由视频输入单元捕获的视频图像。

根据本实施例，相互比较局部视频图像的可视特征量和存储在存储装置2中的对象的可视特征量，以确定对象是否作为视频图像被捕获。如果判断出对象作为视频图像被捕获，则将对象与注释彼此相关联。因此，可以防止实际上并未作为视频图像被捕获的对象的注释与视频图像相关联。此外，将要计算其与局部视频图像的相似性的地理对象缩减为存储在存储装置2中、且满足其是否出现在将要捕获图像的区域中的条件的那些地理对象。因此，降低了可视特征量比较装置31上的数据处理负担。

(本发明的第二实施例)

图23是本发明第二实施例的方框图。下面将描述第二实施例的结构。本发明的第二实施例包括：输入装置1，用于输入视频图像数据和图像捕获信息，所述图像捕获信息是捕获图像的场所的信息；存储装置2，用于存储作为视频图像主题的对象的信息；以及对象识别设备4，用于确定对象是否作为视频图像被捕获。

输入装置1和存储装置2与第一实施例相同，以下将不再对其进行描述。对象识别设备4包括：图像捕获区域估计装置；匹配装置；和出现概率计算装置(例如，出现概率计算装置40)，用于根据图像捕获信息的位置信息和地理对象的位置信息，计算作为捕获地理对象的图像的概率的出现概率；相似性计算装置(例如，可视特征量比较装置41)，用于计算存储在存储装置2中的地理对象的可视特征量与由输入装置1输入的视频图像(局部或整体)的可视特征量之间的相似性；以及判定装置42，用于总体评估出现概率和相似性，以确定是否捕获到地理对象的图像。

图24示出了可视特征量比较装置41的结构。下面将描述可视特征量比较装置41的结构。可视特征量比较装置41包括：局部图像提取装置410，用于从由输入设备1输入的视频图像中提取局部视频图像；可视特征量设置装置411，用于设置所提取出的局部视频图像的可视特征量；以及特征量比较装置412，用于计算存储在存储装置2中的地理对象的可视特征量与局部视频图像的可视特征量之间的相似性。

下面，将描述本实施例的操作。本实施例的操作与第一实施例的操作的不同之处在于图5所示的流程图中的步骤A5和步骤A11。以下将不再对操作的其他细节进行描述。

根据第一实施例，在图5所示的流程图中的步骤A5中，候选对象搜索装置30提取候选对象。根据本实施例，并不提取候选对象。因此，特征量比较装置412将存储在存储装置2中的所有地理对象的可视特征量与局部视频图像的可视特征量进行比较。

根据第一实施例，在图5所示的流程图中的步骤A11中，相对于预定阈值Thi，确定最大相似性MSmaxi。根据本实施例，出现概率计算装置40计算作为捕获存储在存储装置2中的每个地理对象的图像的概率的出现概率Pi。判定装置42将出现概率Pi与由特征量比较装置412计算出的最大相似性MSmaxi的倒数相乘，从而计算出综合得分。如果综合得分的数字值大于预定阈值，则判定装置42判断地理对象出现在视频图像中，并从存储装置2中读取地理对象的含义信息。然后，判定装置42彼此相关联地输出包含地理对象的局部图像和从存储装置2中读取出的地理对象的含义信息。

为了确定出现概率Pi，按照公式(3)，针对水平距离、水平角误差和仰角，事先产生表示捕获地理对象的图像的概率分布的概率密度分布。根据概率密度分布，计算出现概率。在水平轴表示像素数、垂直轴表示概率的曲线图中，概率密度分布是高斯分布。由于能够根据GPS的测量精度、图像捕获方向的角度精度和从图像捕获位置到地理对象的距离，估计出视频图像上的地理对象的位置误差，通过设置高斯分布的□值的误差来确定概率密度分布。

根据本实施例，根据通过比较捕获地理对象的图像的概率、局部视频图像的可视特征量和存储在存储装置2中的对象的可视特征量而产生的结果，确定对象是否作为视频图像被捕获。因此，防止了出现在将要捕获图像的区域中、但其作为视频图像被捕获的概率较低的对象的注释与视频图像相关联。

(本发明的第三实施例)

图25是本发明第三实施例的方框图。下面将描述第三实施例的结构。除了添加了布局装置51和显示装置52以外，本发明的第三实施例具有类似于第一实施例的结构。第三实施例与第一实施例等同的那些装置以与图1所示相同的参考符号来表示，并且不再对其进行描述。显示位置确定装置由布局装置51实现。

当按照重叠关系显示视频图像和应用于从视频图像中提取出的局部视频图像的注释时，布局装置51确定注释的显示位置，并将所确定的显示位置输出到显示装置52。显示装置52将注释重叠在视频图像上，并在由布局装置51确定的显示位置处显示注释。

图26示出了由显示装置51利用重叠在视频图像上的注释、显示的视图图像的示例。布局装置51将注释的显示位置确定为位于局部视频图像下方、上方、右侧或左侧、但不与另一局部视频图像重叠的位置。如果26所示，如果因为另一局部图像的出现，在距离局部视频图像超过预定距离的位置处显示注释，则可以通过箭头相互连接局部图像和注释。

根据本实施例，确定了视频图像上要显示注释的位置。因此，可以通过视频图像来表示对象和注释之间的关联性。

(本发明的第四实施例)

图27是本发明第四实施例的方框图。下面将描述第四实施例的结构。除了添加了注释结果存储装置61以外，本发明的第四实施例具有类似于第一实施例的结构。第四实施例与第一实施例等同的那些装置以与图1所示相同的参考符号来表示，并且不再对其进行描述。

注释结果存储装置61在保持其关联的同时，存储局部视频图像和与该局部视频图像相关联的地理对象的含义信息的集合。注释结果存储装置61采用如存储器、硬盘驱动器、CD-ROM或DVD-RAM等存储介质。注释结果存储装置61可以存储局部视频图像在视频图像上的位置的信息，并且可以输出与所输入的关键字匹配的视频图像。例如，如果局部视频图像在视频图像上的位置可以通过x和y坐标的数字值来标识，并且注释结果存储装置61存储了在右侧具有B大厦的视频图像、含义信息(B大厦)和局部视频图像在视频图像上的位置的信息((x，y)＝(120，240))，则在输入关键字“对象＝B大厦”且“区域＝x＜320”时，如下所述地显示视频图像。假设整幅视频图像的x的最大值为640。

首先，搜索并标识匹配局部视频图像在视频图像上的位置为“x＜320”的条件的含义信息“B大厦”的集合。然后，可以提取出与所标识出的集合相关联的“右侧具有B大厦的视频图像”。用户可以利用注释结果存储装置61的键盘等输入关键字，或者可以通过麦克风等通过语音输入关键字。用户可以事先使注释结果存储装置61存储其自身的爱好，并且注释结果存储装置61可以根据存储在其中的用户爱好来产生关键字。

本实施例具有用于彼此相关联地存储注释和包含在视频图像数据中的对象的注释结果存储装置。因此，可以根据所存储的注释和包含在视频图像数据中的对象之间的关联性来搜索视频图像数据。

(本发明的第五实施例)

图28是根据本发明第五实施例的可视特征量比较装置的方框图。下面将描述第五实施例的结构。

除了添加了结果保存装置513以外，本发明的第五实施例的结构类似于第一实施例的可视特征量比较装置的如图4所示的结构。保存装置513记录由特征量比较装置512计算出的相似性，并且只提取具有较高相似性的局部视频图像。

下面，将描述本实施例的操作。本实施例的操作与第一实施例的操作的不同之处在于图29所示的流程图中的步骤A101和步骤A106。以下将不再对操作的其他细节进行描述。

在如图29所示的流程图中的步骤A101中，通过分割将输入视频图像分割为区域。将分割后的区域的组合联合为区域。但是，由于组合的数量由(2的区域个数次幂-1)表示，简单组合的数量随着区域数量b的增加成指数增加。因此，引进了分级评估组合和缩减组合的处理。例如，如图30所示，在第一级中计算一个区域与所关心的陆标之间的相似性，并且只将m个较高等级的区域传送给下一级，随后不再对(m+1)和更低级的区域的组合进行评估。在第n级，组合通过将一个新区域添加到在第(n-1)级中提取出的(n-1)个区域的组合中而产生的n个区域(步骤A102)，提取特征量(步骤A103)，计算与所关心的陆标之间的相似性(步骤A104)，并提取出m个较高等级的区域的组合(步骤A107)。执行上述处理，直到第L(＜b)级(步骤A106)，输出具有最大相似性的组合区域。按照这种方式，可以与a(b(1+m)-m)的最大值成比例地减少组合的数量。通过这样组合可视分割区域，能够提取出排除了具有与所关心的陆标不同的可视特征的遮挡对象的陆标区域。

在计算相似性矢量Si时，可以根据组合级数，对特征量进行不同的加权。例如，如果组合级数较小，则由于组合区域被看作所关心的陆标的一部分，以较小的系数加权与形状有关的特征量(基于区域的形状描述符)的相似性，以计算相似性矢量Si，从而降低形状相似性的作用。如果组合级数较大，则以较大的系数对相似性进行加权，以增加形状的作用，从而有效地缩减组合。

可以在车辆制导***(车辆导航***)上实现本发明上述实施例中的每一个的结构。

本发明上述实施例中的每一个的结构并未测量图像捕获位置和对象之间的距离，但将其图像被捕获的对象与存储在存储装置中的对象彼此相关联。存在一种根据图像捕获位置和对象之间的距离、将其图像被捕获的对象与存储在存储装置中的对象彼此相关联的处理。通过利用多台摄像机的立体景深处理或利用激光束的光学距离测量处理等来测量图像捕获位置和对象之间的距离。这些距离测量处理需要多台摄像机或光学距离测量设备，并且测量距离需要一段时间。此外，这些处理的问题在于难以根据距离区分对象附近的树木、标志牌和对象等。

Claims

1、一种视频图像对象识别设备，包括：

输入装置，用于输入视频图像数据和图像捕获信息，所述图像捕获信息是用于确定将要捕获图像的区域的信息；

存储装置，用于存储彼此相关的位置信息和可视特征信息，所述位置信息是表示对象的位置的信息，以及所述可视特征信息是表示对象的可视特征的数字值的信息；以及

对象识别装置，用于识别包含在基于所述输入视频图像数据的视频图像中的对象，

其中所述对象识别装置包括：

估计装置，用于根据所述图像捕获信息，估计将要捕获图像的区域；

匹配装置，用于匹配将要捕获图像的区域与由存储在所述存储装置中的对象的位置信息所表示的位置；

局部视频图像提取装置，用于从所述输入视频图像中提取出或者是基于所述视频图像数据的所述视频图像的局部区域的视频图像数据或者是整幅视频图像的视频图像数据的局部视频图像数据；

可视特征信息设置装置，用于产生所述局部视频图像数据的可视特征信息；

相似性计算装置，用于相互比较所述局部视频图像数据的可视特征信息和存储在所述存储装置中的对象的可视特征信息，以计算出二者之间的相似性；以及

判定装置，用于根据所述匹配装置的匹配结果和所计算出的相似性的结果，确定对象是否出现在基于所述输入视频图像数据的所述视频图像中。

2、一种视频图像注释应用设备，包括：

存储装置，用于存储彼此相关的位置信息、可视特征信息和附加信息，所述位置信息是表示对象的位置的信息，所述可视特征信息是表示对象的可视特征的数字值的信息，以及所述附加信息是添加到对象上的信息；以及

对象识别装置，用于将包含在基于所述输入视频图像数据的视频图像中的对象与所述附加信息相关联，

其中所述对象识别装置包括：

判定装置，用于根据所述匹配装置的匹配结果和所计算出的相似性，标识包含在基于所述输入视频图像数据的所述视频图像中的对象，并将所标识出的对象与存储在所述存储装置中的附加信息彼此相关联。

3、根据权利要求2所述的视频图像注释应用设备，其特征在于所述对象识别装置包括：

出现概率计算装置，用于根据将要捕获图像的区域和存储在所述存储装置中的对象的位置信息，计算作为所述视频图像中包含对象的概率的出现概率，以及

所述判定装置根据所计算出的出现概率和相似性，标识包含在所述视频图像中的对象，并将所标识出的对象与存储在所述存储装置中的附加信息彼此相关联。

4、根据权利要求3所述的视频图像注释应用设备，其特征在于所述局部视频图像提取装置根据存储在所述存储装置中的对象的位置信息，标识对象被定位于所述视频图像内的范围，并从所标识的范围中提取局部视频图像数据。

5、根据权利要求2所述的视频图像注释应用设备，其特征在于所述对象识别装置包括：

候选对象搜索装置，用于根据将要捕获图像的区域和位置信息，提取出作为出现在将要捕获图像的区域中的对象的候选对象，以及

所述相似性计算装置相互比较局部视频图像数据的可视特征信息和存储在所述存储装置中的候选对象的可视特征信息，以计算二者之间的相似性。

6、根据权利要求5所述的视频图像注释应用设备，其特征在于所述局部视频图像提取装置根据存储在所述存储装置中的候选对象的位置信息，标识对象被定位于所述视频图像内的范围，并从所标识的范围中提取局部视频图像数据。

7、根据权利要求2所述的视频图像注释应用设备，其特征在于还包括：

显示装置，用于显示视频图像；以及

显示位置确定装置，用于指定显示与包含在所述视频图像中的对象相关联的附加信息的位置，并用于显示重叠在所述视频图像上的附加信息。

8、根据权利要求2所述的视频图像注释应用设备，其特征在于还包括：

注释结果存储装置，用于彼此相关联地存储附加信息和包含在所述视频图像中的对象。

9、根据权利要求2所述的视频图像注释应用设备，其特征在于所述局部视频图像提取装置具有根据所提取出的局部视频图像数据任意改变视频图像区域的形状和尺寸的功能。

10、根据权利要求2所述的视频图像注释应用设备，其特征在于所述局部视频图像提取装置在匹配以下条件之一或其组合的视频图像区域中提取局部视频图像：亮度信息、颜色信息、形状信息、纹理信息和尺寸信息。

11、根据权利要求10所述的视频图像注释应用设备，其特征在于如果所述局部视频图像提取装置从匹配每个条件的组合的视频图像中提取局部视频图像数据，则所述局部视频图像提取装置确定所述条件的重要性，并根据所述匹配装置的匹配结果和存储在所述存储装置中的对象的可视特征信息来提取局部视频图像数据。

12、根据权利要求2所述的视频图像注释应用设备，其特征在于存储在所述存储装置中的对象的可视特征信息包括作为具有与所述对象相似的可视特征的视频图像的模板视频图像。

13、根据权利要求2所述的视频图像注释应用设备，其特征在于存储在所述存储装置中的对象的可视特征信息包括以下一项或多项：颜色信息、形状信息、纹理信息和尺寸信息，以及由所述可视特征信息设置装置产生的局部视频图像数据的可视特征信息包括以下一项或多项：颜色信息、形状信息、纹理信息和尺寸信息。

14、根据权利要求2所述的视频图像注释应用设备，其特征在于存储在所述存储装置中的对象的位置信息包括用于标识近似于与所述对象相类似的、包括圆锥、圆柱、立方体等在内的三维立体几何形状的顶点之一、中心点或重心的位置的信息。

15、根据权利要求2所述的视频图像注释应用设备，其特征在于存储在所述存储装置中的对象的位置信息包括用于标识近似于具有多边形表面的对象的三维形状的至少一个顶点的位置的信息。

16、根据权利要求2所述的视频图像注释应用设备，其特征在于存储在所述存储装置中的对象的位置信息包括用于标识对象的所有顶点中最高的顶点的位置的信息。

17、根据权利要求2所述的视频图像注释应用设备，其特征在于存储在所述存储装置中的对象的位置信息包括用于按照纬度、经度和海拔高度来标识对象的位置的信息。

18、根据权利要求2所述的视频图像注释应用设备，其特征在于所述存储装置根据分别与多个对象相关联的附加信息所共有的概念，按照分级模式来存储共有附加信息，或者根据多项共有附加信息所共有的概念，存储共有附加信息，以及所述判定装置确定是否存在与捕获其图像的对象的附加信息或共有附加信息相对应的共有附加信息，以及如果存在这种共有附加信息，将对象与共有附加信息相关联。

19、根据权利要求2所述的视频图像注释应用设备，其特征在于所述图像捕获信息包括作为用于标识捕获日期和时间的信息的捕获日期和时间信息，所述存储装置存储依赖于所述捕获日期和时间的可视特征信息，以及所述相似性计算装置相互比较局部视频图像数据的可视特征信息与依赖于由捕获日期和时间信息标识的所述捕获日期和时间的可视特征信息，以计算二者之间的相似性。

20、根据权利要求10所述的视频图像注释应用设备，其特征在于所述局部视频图像提取装置将所述输入视频图像分割为区域，并提取分割后的区域，作为所述局部视频图像数据。

21、根据权利要求20所述的视频图像注释应用设备，其特征在于所述局部视频图像提取装置将分割后的区域组合为所述局部视频图像数据。

22、根据权利要求21所述的视频图像注释应用设备，其特征在于所述局部视频图像提取装置通过分级评估分割后的区域的组合来产生所述局部视频图像。

23、根据权利要求22所述的视频图像注释应用设备，其特征在于所述局部视频图像提取装置在分级评估所述分割后的区域的组合时，在区域的组合中，只使用其相似性较高的多个区域来进行随后的组合。

24、根据权利要求2所述的视频图像注释应用设备，其特征在于将局部或整体、沿一个方向或多个方向观察到的对象的多项可视信息保存为存储在所述存储装置中的对象的可视特征信息。

25、一种车辆制导***，适合于安装在车辆上，用于根据GPS、在由显示设备显示的地图上显示其自身位置，所述车辆制导***包括根据权利要求2所述的视频图像注释应用设备。

26、一种识别视频图像对象的方法，包括以下步骤：

输入视频图像数据和图像捕获信息，所述图像捕获信息是用于确定将要捕获图像的区域的信息；

存储彼此相关的位置信息和可视特征信息，所述位置信息是表示对象的位置的信息，以及所述可视特征信息是表示对象的可视特征的数字值的信息；

根据所述图像捕获信息，估计将要捕获图像的区域；

匹配将要捕获图像的区域与由所存储的对象的位置信息所表示的位置；

从所述输入视频图像中提取出或者是基于所述视频图像数据的所述视频图像的局部区域的视频图像数据或者是整幅视频图像的视频图像数据的局部视频图像数据；

产生所述局部视频图像数据的可视特征信息；

比较所述局部视频图像数据的可视特征信息和所存储的对象的可视特征信息，以计算出二者之间的相似性；以及

根据匹配的结果和所计算出的相似性，确定是否捕获到对象的图像。

27、一种应用视频图像注释的方法，包括以下步骤：

存储彼此相关的位置信息、可视特征信息和附加信息，所述位置信息是表示对象的位置的信息，所述可视特征信息是表示对象的可视特征的数字值的信息，以及所述附加信息是添加到对象上的信息；

根据所述图像捕获信息，估计将要捕获图像的区域；

产生所述局部视频图像数据的可视特征信息；

根据匹配的结果和所计算出的相似性，标识包含在所述视频图像中的对象，并将所标识出的对象与所存储的附加信息彼此相关联。

28、一种视频图像对象识别程序，适合于安装在视频图像对象识别设备中，用于确定所存储的对象是否被作为主题包含在视频图像中，所述视频图像对象识别程序使计算机能够执行包括以下步骤的处理：

在存储装置中存储彼此相关的位置信息和可视特征信息，所述位置信息是表示对象的位置的信息，以及所述可视特征信息是表示对象的可视特征的数字值的信息；

根据作为用于确定将要捕获图像的区域的信息的图像捕获信息，估计将要捕获图像的区域；

匹配将要捕获图像的区域与由存储在所述存储装置中的对象的位置信息所表示的位置；

产生所述局部视频图像数据的可视特征信息；

相互比较所述局部视频图像数据的可视特征信息和所存储的对象的可视特征信息，以计算出二者之间的相似性；以及

29、一种视频图像注释应用程序，适合于安装在视频图像注释应用设备中，用于将对象和所存储的对象的信息彼此相关联，所述视频图像注释应用程序使计算机能够执行包括以下步骤的处理：

在存储装置中存储彼此相关的位置信息、可视特征信息和附加信息，所述位置信息是表示对象的位置的信息，所述可视特征信息是表示对象的可视特征的数字值的信息，以及所述附加信息是添加到对象上的信息；

产生所述局部视频图像数据的可视特征信息；