CN105027162B

CN105027162B - 图像解析装置、图像解析***、图像解析方法

Info

Publication number: CN105027162B
Application number: CN201380073966.1A
Authority: CN
Inventors: 渡边裕树; 广池敦
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-02-27
Filing date: 2013-02-27
Publication date: 2018-02-02
Anticipated expiration: 2033-02-27
Also published as: JPWO2014132349A1; SG11201506229RA; US20160005171A1; JP6005837B2; WO2014132349A1; CN105027162A; US10438050B2

Abstract

目的是提供一种可从图像中检测出任意目标的图像解析技术。本发明的图像解析装置具备：图像存储部，其存储图像和所述图像中包含的已检测目标的信息；图像输入部，其接收成为对目标进行检测的对象的对象图像；类似图像检索部，其从图像存储部检索具有与从对象图像提取的特征量类似的特征量的类似图像和类似图像中包含的目标的信息；参数决定部，其根据类似图像中包含的目标的信息，决定针对对象图像进行的检测处理中所使用的参数；检测部，其按照决定的参数，从对象图像检测目标；图像登录部，其在图像存储部积蓄对象图像；以及数据输出部，其输出检测出的目标的信息。

Description

图像解析装置、图像解析***、图像解析方法

技术领域

本发明涉及一种检测图像数据中包含的任意的目标领域的技术。

背景技术

随着IT基础设施的发展，大量的多媒体数据(文本、影像/图像、语音、各种日志数据等)积蓄在大规模的存储装置中。为了从积蓄的大量的数据中高效地取出信息，关于各个媒体数据，考虑各种信息提取/检索技术并将其实用化。

作为针对多媒体数据的信息提取的例子，考虑对图像内包含的目标(表示想要提取的对象物或其部分等)、特定的领域进行检测。图像中的目标检测和领域确定相当于文本解析中的形态解析(将文本划分为单词，并判定词性的单元)，是在解析图像的含义方面重要的要素技术。

作为图像中的目标检测方法，众所周知非专利文献1的方法，作为数码照相机或监视***中的脸部领域检测功能而被广泛地用于制造产品。在非专利文献1的方法中，大量收集检测对象的目标的样本图像，通过机械学习，生成多个基于图像亮度的弱识别器。使用将该弱识别器联结后的鲁棒的识别器，仔细搜索图像中的部分领域来确定目标领域。

作为成为检测对象的目标类型，最一般的是当前位置的人物的脸部正面。但是，在以存储装置中积蓄的广大的内容为对象时，例如期望将车辆、动物、建筑物、图形、各种物品等多样的类型作为检测对象。此外，为了处理大规模的数据，需要提高解析处理效率。

关于解析处理效率的提高，在以下的专利文献1中公开了利用目标的存在概率来限定用于执行目标领域检测的图像处理的领域的方法。专利文献1的方法利用焦点距离、分辨率等拍摄***的静态信息来决定执行图像处理的领域，认为其在如车载摄像头那样限定拍摄环境和拍摄设备，并管理构造化的数据的环境下有效。

现有技术文献

专利文献

专利文献1：日本特开2010－003254号

非专利文献

非专利文献1：P.Viola and M.Jones，“Robust real-time object detection”，IJCV 2001，Vol.57，No.2，pp.137—154，2002.

发明内容

发明要解决的问题

专利文献1所记载的技术以某种程度确定拍摄环境，将成为图像处理对象的数据结构化为前提。但是，一般拍摄环境和被拍摄体的位置并不一定能够事先预测。此外，在临时产生成为图像处理对象的数据的环境中，没有将该数据结构化。在该环境下，认为专利文献1所记载的方法对于缩短检测目标的时间并非有效。

非专利文献1所记载的技术例如在如检测脸部那样预先决定了检测对象物的情况下是有效的，但在用于逐次指定检测对象物的用途中，需要每次实施样本的收集和机械学习，因此从处理时间的观点出发是不现实的。

本发明是鉴于上述课题而提出的，其目的在于提供一种能够从图像数据中高速地检测出检测对象物的图像解析技术。

用于解决课题的手段

为了解决上述课题，例如采用权利要求所记载的结构。本申请包括多个用于解决上述课题的方法，举其中的一例，图像解析装置的特征在于，具备：图像存储部，其存储图像和图像中包含的已检测目标的信息；图像输入部，其取得成为对目标进行检测的对象的对象图像；类似图像检索部，其从图像存储部检索具有与从对象图像提取的特征量类似的特征量的类似图像和类似图像中包含的已检测目标的信息；参数决定部，其根据类似图像中包含的已检测目标的信息，决定对对象图像进行的检测处理中所使用的参数；任意目标检测部，其按照决定的参数，从对象图像检测目标；图像登录部，其在图像存储部积蓄检测出的目标和对象图像；以及数据输出部，其输出检测出的目标的信息。

或者，一种从输入的对象图像中检测目标的图像解析方法，该图像解析方法具有：提取步骤，其提取对象图像的特征量；检索步骤，其从图像存储部检索具有与提取的对象图像的特征量类似的特征量的类似图像；决定步骤，其根据检索出的类似图像中包含的已检测目标的信息，决定在针对对象图像的检测处理中所使用的参数；检测步骤，其根据决定的参数，对对象图像进行检测处理来检测目标；输出步骤，其输出从对象图像检测出的目标；以及存储步骤，其将对象图像和检测出的目标存储在图像存储部中。

发明效果

根据本发明的图像解析装置，可以从图像中高速地提取任意的目标。通过以下的实施方式的说明，上述以外的问题、结构以及效果更加明确。

附图说明

图1是实施方式1的图像解析***100的结构图。

图2是表示图像数据库108的结构和数据例的图。

图3是用于说明类似图像检索部109中的图像特征量的提取处理和类似图像检索的图。

图4是说明任意目标检测部111检测图像中的目标的方法的图。

图5是说明任意目标检测部111检测图像中的目标的处理顺序的流程图。

图6是用于说明检测参数决定部110使用场景判别来决定目标检测处理中使用的参数的方法的图。

图7是用于说明图像解析装置105进行基于场景判别的对目标检测的处理的流程图。

图8是用于说明检测参数决定部110使用场景判别来决定目标检测处理中使用的模板的方法的图。

图9是用于说明检测参数决定部110使用场景判别来决定目标检测处理中使用的模板的处理的流程图。

图10是用于说明图像解析***100使用场景判别来检测图像中的目标的处理中的各功能部之间的处理顺序的图。

图11是表示用于登录任意目标检测部111使用的模板的操作画面的结构例的图。

图12是表示用于对使用场景判别的目标检测处理进行控制的操作画面的结构例的图。

图13是用于说明图像解析装置105对解析对象的图像集合进行分组来批量处理的方法的图。

图14是用于说明图像解析装置105对解析对象的图像集合进行分组来批量处理的顺序的流程图。

图15是实施方式3的内容云***1500的概要图。

具体实施方式

实施例1

＜***结构＞

图1是本发明的实施方式1的图像解析***100的结构图。图像解析***100的目的在于，从积蓄的大量图像中检测出与用户登录的模板图像类似的目标领域。图像解析***100具备图像/影像存储装置101、输入装置102、显示装置103、数据存储装置104以及图像解析装置105。此外，在图1中未进行图示，但也可以具备摄像头从而能够直接解析来自监视摄像头的影像。

图像/影像存储装置101是用于保存图像数据、影像(动态图像)数据的存储介质，可以使用与计算机直接连接的硬盘驱动器、NAS(Network Attached Storage，网络附加存储)或通过SAN(Storage Area Network，存储区域网)等网络连接的存储***而构成。此外，例如也可以是暂时保存从摄像头持续输入的影像数据的高速缓冲存储器。例如，图像解析***100将处理对象的规模假定为如果是图像则数十万件以上，如果是影像则数千小时以上的大规模数据。

输入装置102是鼠标、键盘、触摸设备等用于将用户操作传达给图像解析装置105的输入接口。显示装置103是液晶显示器等输出接口，用于显示图像解析装置105的图像解析结果以及用于与用户的对话操作等。数据存储装置104是用于记录图像解析装置106的解析结果的存储装置，用于由上位的应用程序使用解析结果。

图像解析装置105是检测输入图像中的目标领域的装置，通过使用了类似图像检索的场景判别来决定检测时的参数。关于类似图像检索的方法在后面进行叙述。场景是说明映入到图像中的场面的单词，例如有“室内”、“风景”、“街上”等。本实施例中的场景判别是指从数据库中检索具有与输入图像的图像特征量类似的图像特征量的图像。在本实施例中，根据从检索结果得到的图像本身决定检测时的参数，因此不需要将场景单词化。关于检测对象，用户通过登录模板图像可自由地进行变更。模板图像是检测对象的典型的图像，在检测处理中检测出与模板图像类似的目标。图像解析装置105具备：图像输入部106、用户操作输入部107、图像数据库108、类似图像检索部109、检测参数决定部110、任意目标检测部111、图像登录部112以及数据输出部113。

图像输入部106从图像/影像存储装置101读出图像/影像数据，并转换成在图像解析装置105内部使用的数据形式。此时，将影像数据分解成多个帧图像数据。读入的数据在用户登录模板时被发送到图像登录部112，在进行解析处理时被发送给类似图像检索部109。

用户操作输入部107检测用户对输入装置102的操作，并将其信号传递给类似图像检索部109、检测参数决定部110、图像登录部112，控制各部的处理的执行或变更在处理中使用的参数。

图像数据库108是保存图像数据及其特征量、目标的信息和特征量的数据库。图像数据库108可以由类似图像检索部109、任意目标检测部111、图像登录部112进行访问，进行针对已登录数据的检索/读出和新数据的登录操作。对于图像数据库的结构，将在后面通过图2进行详细说明。

类似图像检索部109从图像数据库108取得外观与输入图像类似的图像。作为检索查询，使用从输入图像提取的图像特征量。图像特征量例如通过固定长度的向量来表示，在检索处理中搜索向量之间的欧几里德距离近的图像。通常，类似图像检索是返回类似图像的ID和类似度的列表的操作，但在类似图像检索部108中，从数据库还读出类似图像所包含的目标的信息。关于类似图像检索，将在后面通过图3进行详细说明。

检测参数决定部110根据从类似图像检索部109得到的类似图像所包含的目标的信息，决定在任意目标检测部111的图像识别处理中所使用的参数。参数例如是想要检测的目标的尺寸、图像中的位置、种类、特征量。关于使用类似图像的参数的决定，将在后面使用图6和图8进行详细说明。图像解析装置105可以直接使用通过检测参数决定部110决定的参数，也可以经由数据输出部113将推定的参数的候补传达给用户，经由用户操作输入部107接受用户所使用的参数。

任意目标检测部111通过图像识别处理，从图像中确定目标所在的领域的坐标。关于任意目标的检测方法，将在后面通过图4进行详细说明。在图4的方法中，通过更换模板图像可柔性地变更检测对象。此外，通过使用多个模板图像，可以同时将多个类型(例如，人的脸部、车、星号等)设为检测对象。将检测结果作为目标的外接矩形的坐标(例如，“矩形的左上角的水平坐标、矩形的左上角的垂直坐标、矩形的右下角的水平坐标、矩形的右下角的垂直坐标”)以及表示“物体相似性”的可靠度发送给图像登录部112和数据输出部113。

图像解析装置105也可以根据来自用户的指示，使场景判别无效。在从用户操作输入部107输出了使场景判别无效的指示的情况下，跳过类似图像检索部109和检测参数决定部110中的处理，执行任意目标检测部111的处理。

图像登录部112提取输入图像和通过任意目标检测部111检测出的目标的图像特征量，并登录到图像数据库108中。关于输入图像的图像特征量，如果由类似图像检索部109完成提取，则不需要重新提取。此外，并不一定必须登录通过任意目标检测110输出的所有的目标，可以仅登录可靠度在一定以上的目标，也可以通过与用户的对话操作来决定登录对象。在以后解析输入的图像时，在类似图像检索部109、任意目标检测部111中使用登录的图像。

数据输出部113根据需要对于从检测参数决定部110得到的参数、通过任意目标检测部111检测出的目标的信息进行整形/数据变换，并输出到显示装置103和数据存储装置104。

图2是表示图像数据库108的结构和数据例的图。在此，表示了表形式的结构例，但数据形式可以是任意的。图像数据库108由图像表200和目标表210构成，并将图像与图像中的目标的信息关联起来进行记录。

图像表200具有：图像ID区域201、图像数据区域202、图像特征量区域203以及图像尺寸区域204。根据需要，也可以追加用于保存目录信息(类型分类、日期时间、场所等)的区域。

图像ID区域201保存各图像数据的识别号。图像数据区域202是以二进制形式保存图像数据的区域，在用户确认解析结果时使用。图像特征量区域203保存图像特征量数据。图像特征量是将图像本身所具有的颜色、形状等特征数值化的固定长度的数值向量数据。准备多个图像特征量区域，例如可以在不同区域管理形状特征量和颜色特征。图像尺寸区域204保存图像尺寸。图像尺寸例如通过二维向量“水平方向的像素数、垂直方向的像素数”来表现。在图2中作为一例表示了全部相同尺寸的情况，但也可以是尺寸不同的图像。在为尺寸不同的图像的情况下，进行后述的标准化处理。

对象表210具有：目标ID区域211、图像ID区域212、领域坐标区域213以及图像特征量区域214。根据需要，也可以追加用于保存目标的类型(表示人、标记、车等抽象概念的标签)的区域。

目标ID区域211保存各图像数据的识别号。图像ID区域212保存映入有该目标的图像的ID。图像ID使用在图像表200中管理的ID。领域坐标区域213保存目标的外接矩形的信息。外接矩形的信息例如通过四维向量“矩形的左上角的水平坐标、矩形的左上角的垂直坐标、矩形的右下角的水平坐标、矩形的右下角的垂直坐标”来表现。图像特征量区域214保存目标领域的图像特征量数据。目标领域的图像特征量并不一定必须通过与图像整体的特征量相同的算法来进行计算。

为了高速地读出图像所包含的目标信息，也可以在图像表200中追加用于保存目标ID的列表的区域。

＜各部的动作＞

以上，对图像解析***100的整体结构进行了说明。以下，简略说明图像解析***100的动作原理，然后对各功能部的详细动作进行说明。

(类似图像检索的说明)

图3表示在图像解析***100中使用的图像特征量的提取顺序的一例。在该方法中，首先从输入画面生成多个分辨率的图像。接着，对各分辨率的图像进行领域分割。通过对各领域中包含的特征性边缘图案的数量进行合计来生成柱状图，并将它们作为多维的向量。进行用于修正每个图案的分布的偏向的标准化，并通过主成分分析等将得到的数千维度的向量进行维度压缩，保存为***容易处理的数百维度程度的固定长度向量数据。这样得到的向量数据在外观近似的图像间成为接近的值，因此可以在类似图像检索中使用。另外，如果是表示图像的外观的特征的向量数据，则一般可以使用广泛所知的通过MPEG-7规定的边缘柱状图特征等其他的特征量。

类似图像检索是通过评价图像特征量的向量间的类似度来检索相似数据的处理。2个n维向量X与Y的非类似度d，例如式1所示，可以通过欧几里德距离的平方来计算。Xi和Yi分别是向量X和向量Y的第i个要素。

[式1]

…式1

为了得到类似图像，基本上，对数据库内的所有图像使用式1来求出与查询图像的特征量的非类似度，并按照非类似度从小到大的顺序进行排序后输出即可。但是，根据数据量处理时间线性增加，因此难以检索大规模的数据库。因此，事先进行了预先生成汇集了近似数据的组的聚类处理。作为聚类的方法，已知例如有K-means法。K-means法使用聚类的平均值，将数据集合自动分割成所赋予的聚类数K个的聚类。检索时，首先，求出与聚类的平均向量的距离，仅对属于距离近的聚类的图像评价类似度。通过使用已进行聚类的数据库，可以实现针对大规模数据库的高速类似图像检索。例如，使用200维度的特征量，从400万件的图像数据库中检索1000张类似图像的处理即使在使用一般的PC服务器的情况下，也可以在10毫秒程度内执行。

当遵照以上所述的顺序时，如果是表示图像的外观特征的固定长度向量的特征量表现，则无论使用哪个特征量都能够实现类似图像检索，但需要通过相同的算法来提取数据库图像和查询图像的特征量。

(任意目标检测的说明)

图4是说明任意目标检测部111的目标领域的检测方法的一例的图。在该方法中，准备多张想要检测的目标的典型的图像(模板图像)，通过检索外观与某个模板类似的领域，来检测在图像内存在目标的领域。

首先，提取想要检测的目标的模板图像的图像特征量，并预先保存在模板数据库404中。模板数据库404例如在想要检测多个目标的情况下，可以保存与这些各目标对应的多个模板(检测对象物的图像)。在图像解析***100中，模板特征量是指在图像数据库108中积蓄的目标的特征量本身。在执行解析处理时为了高效，预先从图像数据库108读出目标的特征量，并将其作为模板数据库存储在计算机的存储器中。

任意目标检测部111在被赋予了输入图像401时，使扫描窗402的位置、尺寸发生变动，提取目标的候补领域403。在对图像的拍摄条件没有制约的情况下，图像中的目标的相对尺寸是不恒定的，因此如图4所示那样需要使用各种尺寸的操作窗来提取大量的候补领域。

接着，对所有的候补领域403，从模板数据库404内的多个模板中搜索特征量向量与候补领域403的特征量向量最接近的模板(最近旁模板)。如果最近旁模板的距离在预定阈值以下，则判定为在候补领域403中包含该模板的目标，并将该候补领域403加到检测结果中。通过目标领域的坐标和与最近旁模板的距离的列表来输出检测结果407。此时，可以使用与最近旁模板的距离来作为检测结果的可靠度。

最近旁模板的搜索处理根据在模板数据库404中登录的模板数量而变慢。如在类似图像检索的说明中所述那样，如果预先实施特征量向量的聚类处理，则能够以某种程度抑制与模板数量增加相伴的速度恶化，但为了高速化期望极力减少进行比较的模板数量。

图5是说明任意目标检测部111检测目标的处理的流程图。以下，对图5的各步骤进行说明。

(图5：步骤S500)

任意目标检测部111从图像数据库108读出由用户指定为模板的目标的特征量，并将其作为模板数据库保存在存储器中。在对于多个输入图像，以相同的条件进行检测处理的情况下，该步骤仅实施最初的一次即可。

(图5：步骤S501)

任意目标检测部111提取输入图像401内的候补领域403。通过在每个步骤移动扫描窗或变更尺寸，机械地提取候补领域403。

(图5：步骤S502～S506)

任意目标检测部111对所有的候补领域403实施步骤S502～步骤S506。

(图5：步骤S503)

任意目标检测部111计算候补领域403的可靠度。作为可靠度的计算方法，例如如图4所示，可以使用最近旁模板的特征量与候补领域403的特征量之间的距离。

(图5：步骤S504～S505)

如果在步骤S503求出的候补领域403的可靠度在预定阈值以下，则向步骤S505移动，除此以外跳过步骤S505(S504)。任意目标检测部111将可靠度为预定阈值的候补领域403追加到检测结果列表中(S505)。

(图5：步骤S507)

任意目标检测部111输出检测结果列表，并结束该处理流程。将检测结果作为输入图像401内的坐标信息(例如，[矩形的左上角的水平坐标、矩形的右上角的垂直坐标、矩形的右下角的水平坐标、矩形的右下角的垂直坐标])以及可靠度的组合进行输出。

在图4的方法中，在没有成为针对输入画面的事先知识的信息(例如，拍摄了特定地点的固定摄像头影像等)的情况下，需要对所有尺寸的候补领域进行将所有的模板作为对象的最近旁模板搜索，因此计算成本非常高。

例如，使用10000张模板，从横宽640、纵宽480的图像中检索出横宽32、纵宽32以上的目标的条件下的处理时间，在使用一般的PC服务器的情况下，平均为600毫秒左右。如监视影像的解析等那样，在需要实时响应的情况下或者将存储装置中持续积蓄的大量的图像数据作为对象的情况下，成为应用上的问题。

此外，在精度方面，因为进行使用了图像的外观特征的判定，所以尺寸小、特征不稳定的领域容易成为误检测的原因。

因此，在本***中，使用积蓄的图像和目标信息来自动判定输入图像的场景，推定与场景相适应的检测参数，由此实现高效的检测处理。

图6是说明使用了场景判定的检测参数的决定方法的图。在该方法中，首先，进行将输入图像601作为查询的类似图像检索，从图像数据库108取得图像整体的外观相类似的图像602。特征量提取和类似图像检索的方法与图3的说明相同。

在通常的类似图像检索中，输出类似图像和其类似度，但在本实施例的图像解析***100中，通过在图像数据库108中积蓄了过去已检测目标的图像，能够一同取得类似图像602以及在其中包含的目标的位置和尺寸。在图6中，类似图像602的虚线矩形表示目标的位置。

当得到类似图像602时，在检测参数决定部110中，根据类似图像602中包含的目标的信息进行成为检测处理的对象的领域的掩盖处理603以及扫描窗的种类的决定处理604。

在领域的掩盖处理603中，通过在二维坐标上投影各类似图像所包含的目标的领域，来进行领域的相加处理。此时，在图像间尺寸不同，因此进行坐标的标准化。当在图像数据库108中积蓄了充分数量的图像，且得到了多张类似图像602时，简单地求出领域的重叠，并将在类似图像中存在目标的场所设为检测处理对象的领域即可。在类似图像的数量少的情况下，例如可以通过高斯分布对各目标领域进行近似，将检测对象领域扩大为比目标领域大。

在扫描窗的决定处理604中，针对目标的每个矩形合计出现次数，使用出现次数在预定阈值以上的大小的矩形作为扫描窗。此时，将类似的矩形作为相同的矩形来进行合计。例如，将32×32像素的矩形和32×30像素的矩形认为是相同的矩形。

如此，在类似图像602中以目标的信息为基础，以某种程度限定输入图像中的进行目标检测的检测对象领域以及扫描窗的大小，由此能够降低目标检测的处理负荷。

图7是表示图像解析装置105进行使用了场景判定的目标检测的处理顺序的流程图。以下，对图7的各步骤进行说明。

(图7：步骤S701)

图像输入部106从图像/影像存储装置101读出图像数据，并将其转换成可在装置内使用的数据形式。在为影像数据的情况下，分割成多个帧图像，并在以下的步骤中对其分别进行处理。

(图7：步骤S702)

用户操作输入部107从用户接受是否进行场景判别处理的判断，在进行场景判别处理的情况下向步骤S703转移，在不进行时，跳过步骤S703～S705，向步骤S706转移。

(图7：步骤S703)

类似图像检索部109以在步骤S701读入的输入图像为查询，对图像数据库108进行类似图像检索，得到类似图像ID和类似度的列表。

(图7：步骤S704)

类似图像检索部109根据类似图像ID从图像数据库108读出类似图像中包含的目标的信息(目标在图像中所占的位置、尺寸)。

(图7：步骤S705)

检测参数决定部110使用类似图像中包含的目标的信息，来决定在目标检测中所使用的参数。参数的决定方法如通过图6所述那样，决定成为解析对象的领域和扫描窗的种类。

(图7：步骤S706)

任意目标检测部111按照决定的检测参数，从输入图像中检测出任意的目标领域。检测方法的一例和顺序分别如作为图4和图5的说明所记载的那样。在不进行场景判别的情况下，不缩小参数而全面地进行搜索。

(图7：步骤S707)

图像登录部112从用户操作输入部107接受是否将检测结果积蓄在数据库中的指示，在积蓄的情况下实施步骤S708，在不进行积蓄的情况下跳过S708。

(图7：步骤S708)

图像登录部112将输入图像与检测出的目标关联起来登录到图像数据库108中。关于输入图像，通过类似图像检索部109提取用于在类似图像检索处理中使用的特征量，关于目标领域通过任意目标检测部111提取用于在目标检测处理中使用的特征量。

(图7：步骤S709)

数据输出部113向外部装置进行输出后结束该处理流程。根据应用程序可以在显示装置103上显示，也可以输出到数据存储装置104。

图8是用于说明使用了场景判定的检测对象的缩小处理的图。在该方法中，与图6同样地，进行将输入图像601作为查询的类似图像检索，从图像数据库108取得图像整体的外观类似的图像602。

当取得了类似图像602时，在检测参数决定部110中取得类似图像602中包含的目标的ID，并将目标ID列表转交给任意目标检测部111。

如通过图4说明的那样，任意目标检测部111从输入图像提取候补领域，针对各候补领域进行与模板数据库内的各图像的距离计算，求出最近旁模板。在此使用的模板完全是在图像数据库108中登录的目标的特征量。因此，通过指定目标的ID能够限定要使用的模板。

因此，在该方法中，使用从检测参数决定部110发送来的目标ID的列表，将列表中包含的目标设为模板，计算与类似图像602中的目标的距离。概念上，如图8所示，从模板数据库全体的特征量空间604切出与场景相适应的部分特征量空间801来在候补领域403的判定中使用。

此时，不仅取得在类似图像602中包含的目标，还可以取得与各目标类似的目标，增加模板。此外，当在图像数据库108的目标表210中包含了目标类型的信息的情况下，可以向模板增加同一类型的目标。

在图4的方法中，为了求出最近旁模板，需要计算与所有模板的距离，因此根据模板的数量处理速度恶化。另一方面吗，在图8的方法中，可以根据场景限定模板的数量，因此可进行高速的处理。此外，还可以期待该方法能够实现防止目标的误检测的效果。例如，在输入了航空照片的情况下，有可能误认为使用脸部的模板而检测出与脸部图案近似的地形的领域。通过场景判定，隐含地赋予“航空照片中不可能存在脸部”的信息，由此能够预先去除不适于场景的模板。

图9是表示图像解析装置105进行使用了场景判定的检测对象的缩小的处理顺序的流程图。该处理是向图7的步骤S705的检测参数的决定处理追加的处理，使用了类似图像检索的场景判别处理与图7的步骤S703～S704相同。

以下对图9的各步骤进行说明。

(图9：开始(图7的步骤S703～S704))

类似图像检索部109从图像数据库108取得与输入图像类似的图像，根据各类似图像的ID取得类似图像中包含的目标的ID。

(图9：步骤S901)

检测参数决定部110生成类似图像中包含目标的ID的列表。

(图9：步骤S902)

用户操作输入部107从用户接受是否使用类似模板的判断，在使用时实施步骤S902～S906的处理，在不使用时向S907转移。

(图9：步骤S903～S906)

检测参数决定部110对在步骤S901生成的列表所包含的所有目标ID实施步骤S903～S906。

(图9：步骤S904)

检测参数决定部110指定目标ID，从图像数据库108取得类似目标。类似目标的检索与将输入图像作为查询的类似图像检索同样地，是类似特征量向量的检索处理。因为已在图像数据库108中登录了目标领域的特征量，所以不需要重新提取特征量，仅实施特征量的比较处理。

(图9：步骤S905)

检测参数决定部110根据检索结果向列表增加类似度收敛在预定范围内的目标。

如果在图像数据库108的目标表210中包含目标的类型的信息，则S904～S905可以置换为检索同一类型的目标，并向列表进行增加的处理。

(图9：步骤S907)

任意目标检测部111从图像数据库读出列表所包含的目标的特征量，将其作为模板数据库。步骤S907是置换图5的步骤S500的处理。

图10是说明图像解析***100确定图像中的物体领域的处理中的用户1001、计算机1002、图像数据库108的处理顺序的图。以下，对图10的各步骤进行说明。

[场景判定处理](图10：步骤S1003～S1005)

用户1001从存储在图像/影像存储装置101中的图像中选择进行目标检测的图像，并经由输入装置102向计算机1002输入场景判定的有无(S1003)。计算机1002在类似图像检索部109中，从输入的图像提取特征量(S703)，以该特征量向量作为查询对图像数据库108请求执行类似图像检索(S1004)。图像数据库108返回类似图像的ID和类似度的列表(S1005)。

[参数决定处理](图10：步骤S1006～S1009)

计算机1002对图像数据库108请求以类似图像的ID为查询的目录信息检索(S1006)。图像数据库108将各目标的信息作为列表返回(S1007)。计算机1002在检测参数决定部110中决定在目标检测中使用的参数和模板(S705)。计算机1002经由显示装置103向用户1001传达参数(S1008)。用户1001确认从计算机提示的参数，如果需要经由输入装置102向计算机1002传达参数的调整指示(S1009)。

[目标检测处理](图10：步骤S1010～S1012)

计算机1002在任意目标检测部111中指定目标的ID列表，向图像数据库108请求作为模板使用的目标的特征量(S1010)。图像数据库108向计算机1002返回列表中包含的目标的特征量(S1011)。计算机1002在任意目标检测部111中使用取得的模板的数据库，从输入图像检测目标的领域(S706)。经由显示装置103向用户1001提示检测结果(S1012)。

[登录处理](图10：步骤S1013～S1016)

用户1001确认显示的检索结果，并向计算机1002传达登录指示(S1013)。计算机1002在图像登录部112中提取输入图像的目标领域中的图像特征量(S708)。图像登录部112将输入图像、输入图像的特征量、目标的信息、目标的特征量关联起来登录到图像数据库108中(S1014)。图像数据库108向计算机1002传达登录成功与否，计算机1002经由显示装置103向用户提示该结果(S1016)。

如上所述，图像解析装置105通过向图像数据库108登录检测出的目标，可以扩充模板，提高识别精度。但是，在初始状态下在图像数据库108中没有登录图像的情况下，无法检测出目标。因此，在***导入时，需要手动登录模板。此外，在运用时想要检测新类型的目标的情况下，也需要进行模板的追加处理。

图11是表示在向图像数据库108新追加数据时使用的操作画面的结构例的图。可以在显示装置103上提供该画面。用户使用输入装置102操作在画面上显示的光标1107，由此向用户操作输入部107发送操作信息。

图11的操作画面具有：文件路径输入领域1101、图像读入按钮1102、图像显示领域1103、图像登录按钮1104、已登录目标显示领域1105以及检测测试按钮1106。

首先，用户向文件路径输入领域1101输入在图像/影像存储装置101中保存的图像的文件路径，点击图像读入按钮1102。输入方法例如可以使用用于指定文件***的文件路径的对话，也可以是基于拖拽的直观的输入操作。将读入的图像在图像显示领域1103中进行显示。

接着，操作光标1107，从在图像显示领域1103中显示的图像中指定目标的外接矩形。在图像中包括多个目标的情况下，重复进行该操作。在图11中，用虚线矩形表示已选择的目标，用粗框的矩形表示选择中的目标。

在选择了图像中包含的所有目标后，点击图像登录按钮1104。结果，将输入图像和目标领域的矩形信息发送给图像解析装置105。通过图像登录部112，将发送的数据登录在图像数据库108中。

将登录的数据在已登录目标显示领域1105中进行显示。也可以增加选择已登录的目标进行删除或显示与目标相关联的场景的图像的功能。此外，通过点击检测测试按钮110，可以尝试进行将已登录的目标作为模板的目标检测。

当在图像数据库108中登录了足够的目标时，图像解析装置105可从给予的图像中自动地检测与登录数据类似的目标。

图12是为了执行目标检测而使用的操作画面的结构例的图。可以在显示装置103上提供该画面。用户使用输入装置102操作在画面上显示的光标1107，由此向用户操作输入部107发送操作信息。

图12的操作画面具有文件路径输入领域1201、图像读入按钮1202、场景判定按钮1203、目标检测按钮1204、检测结果登录按钮1205、场景判定的设定区域1206、目标检测的设定区域1207、检测参数显示区域1208以及图像显示领域1209。

首先，用户将保存在图像/影像存储装置101中的图像的文件路径输入到文件路径输入领域1201，点击图像读入按钮1202。关于输入方法，例如可以使用用于指定文件***的文件路径的对话，也可以是基于拖拽的直观的输入操作。将读入的图像在图像显示领域1209中显示。

接着，使用场景判定的设定区域1206向***输入与场景判定处理相关的参数。场景判定的设定区域1206例如具有指定是否进行场景判定处理的单选按钮、指定在场景判定中所使用的类似图像的距离的阈值的区域、指定是否在画面上显示推定结果的复选框。类似度s是特征量空间内的距离越小则越大的值。例如，当通过(式2)进行计算时，类似度s是0～1值域的实数值，可以解释为s越大模板与目标越相似。在此，e是自然对数的底数。

[式2]

s＝e^-d…式2

当用户点击场景判定按钮1203时，将输入的设定经由用户操作输入部107传达给类似图像检索部109和检测参数决定部110，执行基于场景判定的检测参数的推定处理。将推定出的参数在检测参数表示部1208和图像显示领域1209中进行显示。例如，在画面中对于扫描窗的种类、检测对象的种类，用灰色显示不使用的参数/模板。此外，在图像显示领域1209中用灰色显示检测处理的对象外领域。用户可以确认提示的参数，并调整参数。此外，在目标检测的设定区域1207，输入与最近旁模板的距离的阈值。

当用户点击目标检测按钮1204时，使用推定出的参数，任意目标检测部111检测图像中的目标。在图像显示领域1209中作为目标的外接矩形重叠显示检测结果。除了矩形外，可以显示非可靠度的数值。

当用户点击检测结果登录按钮1205时，将通过以上的操作检测出的目标登录在图像数据库108中。

图12的画面例是一边确认图像解析装置105的各处理的过程，一边依次执行的画面，在处理大量的图像时，省略各按键的点击操作而使用批量执行的画面。

根据以上所述，本实施例所记载的图像解析装置的特征在于，具备：图像存储部，其存储图像和图像中包含的已检测目标的信息；图像输入部，其取得成为对目标进行检测的对象的对象图像；类似图像检索部，其从图像存储部检索具有与从对象图像提取的特征量类似的特征量的类似图像和类似图像中包含的已检测目标的信息；参数决定部，其根据类似图像中包含的已检测目标的信息，决定对对象图像进行的检测处理中所使用的参数；检测部，其按照决定的参数，从对象图像检测目标；图像登录部，其在图像存储部积蓄检测出的目标和对象图像；以及数据输出部，其输出检测出的目标的信息。

此外，本实施例所记载的图像解析方法是从输入的对象图像检测目标的图像解析方法，其特征在于，具备：提取步骤，其提取对象图像的特征量；检索步骤，其从图像存储部检索具有与提取的对象图像的特征量类似的特征量的类似图像；决定步骤，其根据检索出的类似图像中包含的已检测目标的信息，决定在针对对象图像的检测处理中所使用的参数；检测步骤，其根据决定的参数，对对象图像进行检测处理来检测目标；输出从对象图像检测出的目标的步骤；以及存储步骤，其将对象图像和检测出的目标存储在图像存储部中。

根据该特征，使用进行目标检测的输入图像进行类似图像检索，根据积蓄的已检测目标的类似图像决定目标检测的参数，由此能够降低处理负荷和处理时间。

实施例2

在实施例1中说明了向图像解析装置105输入了一张图像的情况的动作。另一方面，在本发明的图像解析***100中，以解析在图像/影像存储装置101积蓄的大量图像为目的，批量处理大量的图像，由此能够实现高效的处理。以下，在本实施例中，说明以大量的输入图像为解析对象时的处理顺序。

图13是用于说明使用了解析对象的分组化的批量处理的图。

在给予了解析对象的图像集合1301时，图像解析装置105使用图像特征量将图像集合分割成多个组(1302)。作为组的分割方法，可以使用在图3的类似图像检索的说明中叙述的K-means法。

当形成了组时，在类似图像检索部109和检测参数决定部110进行用于解析各组的图像的检测参数的推定处理。此时，作为类似图像检索的查询，使用组的平均特征量向量、组内的代表性的图像的特征量(1303)。此外，也可以选择多张代表图像，综合使用类似图像检索的结果。结果，对各组推定一个检测参数(1304)。

任意目标检测部111对属于各组的所有图像，使用为该组推定出的参数来进行检测处理(1305)。在该方法中，不需要对每个图像进行参数推定和模板的读出，因此可以对大量的图像进行高效的处理。

图14是表示图像解析装置105使用输入图像的分组来进行批量处理的顺序的流程图。

以下，对图14的各步骤进行说明。[解析对象的图像集合的读出]

(图14：步骤S1401)

图像输入部106从图像/影像存储装置101读出多张图像。在解析对象是影像(动态图像)的情况下，分解成多个帧图像。

[图像集合的分组]

(图14：步骤S1402)

类似图像检索部109从读入的多个图像中分别提取图像特征量。

(图14：步骤S1403)

类似图像检索部109关于图像特征量将图像集合分割为多个组。

(图14：步骤S1404～S1412)

图像解析装置105对在步骤S1403生成的各组实施步骤S1404～S1412。

[计算代表图像或特征量的平均值]

(图14：步骤S1405)

类似图像检索部109计算组的平均特征量。在通过固定长度向量表现特征量的情况下，计算向量的每个要素的平均值，因此能够得到平均特征量向量。

[决定每个组的检测参数](图14：步骤S1406)

类似图像检索部109以平均特征量向量为查询，从图像数据库108取得类似图像。

(图14：步骤S1407)

类似图像检索部109根据类似图像的ID从图像数据库108读出在类似图像中所包含的目标的信息(图像中的位置、尺寸)。

(图14：步骤S1408)

检测参数决定部110使用在类似图像中包含的目标的信息来决定在目标检测中使用的参数。参数的决定方法与图6相同，决定成为解析对象的领域、扫描窗的种类。此外，如在图8中所述那样，决定在目标检测处理中使用的模板。

[针对组内的所有图像的检测处理]

(图14：步骤S1409～S1411)

图像解析装置105使用在步骤S1408决定的参数和模板，对组内的所有图像进行目标检测处理，输出结果/登录在数据库中。详细的处理顺序与图7相同。

实施例3

在本发明的实施方式3中，说明将图像解析***100组合到内容云***中的结构例。以下，首先说明内容云***的概要，之后说明将图像解析***100作为解析模块组合到内容云***中的方法。图像解析***100的结构与实施方式1～2相同。

图15是本实施方式3的内容云***1500的概要图。内容云***1500具有提取转换加载(Extract Transform Load，ETL)模块1503、内容存储装置1504、检索引擎1505、元数据服务器1506以及多媒体服务器1507。内容云***在具备一个以上的CPU、存储器、存储装置的一般的计算机上运行，***本身由各种模块构成。此外，有时各个模块通过独立的计算机执行，该情况下，各存储装置与模块之间通过网络等连接，通过经由它们进行数据通信的分散处理来实现。

应用程序1508经由网络等对内容云***1500发送请求，内容云***1500将与请求对应的信息发送给应用程序1508。

内容云***1500接收影像数据、图像数据、文本数据、语音数据等任意形式的数据1501来作为输入。数据1501例如是图形商标及其广告文本、网站的图像和HTML文本、隐藏字幕或带语音的影像数据等，可以是结构化的数据也可以是非结构化的数据。把向内容云***1500输入的数据暂时存储在存储装置1502中。

ETL1503监视存储装置1502，在向存储装置1502存储数据1501时，将从文件***得到的信息(元数据)存档保存在内容存储装置1504中。

内容存储装置1504保存ETL1503提取的信息以及在存储装置1502中暂时存储的前处理的数据1501。

检索引擎1505在具有来自应用程序1508的请求时，例如如果是文本检索，则根据ETL1503生成的索引实施文本检索，并将检索结果发送给应用程序1508。关于检索引擎1505的算法，可以使用公知的技术。检索引擎1505还可搭载不仅检索文本，还检索图像、语音等数据的模块。

元数据服务器1506管理存储在RDB(Relational DataBase，关系数据库)中的元数据。例如，假定将ETL1503提取出的数据的文件名、数据登录年月日、元数据的种类、元数据文本信息等登录在RDB中。当具有来自应用程序1508的请求时，元数据服务器1506按照该请求，将RDB内的信息发送给应用程序1508。

多媒体服务器1507对在内容存储装置1504中存档的数据，使与该数据适合的信息提取处理模块1509动作，提取与数据内容相关的元数据。

信息提取处理模块1509例如由文本的索引模块、图像识别模块等构成。作为元数据的例子，时刻、N-gram索引、图像识别结果(物体名、图像中的领域坐标)、图像特征量及其关联语、语音识别结果等相当于元数据。作为信息提取处理模块1509，可使用进行任何信息(元数据)的提取的所有程序，可采用公知的技术，因此在此省略信息提取处理模块1509的说明。

将从各多媒体数据提取出的元数据相互关联起来积蓄在以图表形式构成的图表DB1511中。作为关联的一例，对于存储在内容存储装置1504中的“苹果”的语音识别结果，可以以网络形式表现原本的语音文件、图像数据、关联语等的对应关系。多媒体服务器1507在具有来自应用程序1508的请求时，将与该请求对应的元信息发送给应用程序1508。例如，在有“苹果”的请求时，根据构筑的图表结构，提供包含苹果的图像、平均行情、艺人的歌曲名等在网络图表上关联起来的元信息。

在上述的内容云***1500中，图像解析***100作为多媒体服务器1507中的信息提取处理模块1509发挥功能。图1的图像/影像存储装置101、数据存储装置104在图15中分别与内容存储装置1504、图表DB1511对应。此外，图像解析装置105相当于信息提取处理模块1509。当在多媒体服务器1507中嵌入了多个信息提取处理模块1509时，既可以分享一台计算机的资源，也可以对每个模块使用独立的计算机。图1的图像数据库108相当于多媒体服务器1507提取信息时所需要的词典数据1510。

＜实施方式3：总结＞

如以上所述，本发明的图像解析***100可以作为内容云***1500的构成要素来使用。内容云***1500生成各多媒体数据可共同使用的元数据，由此可以跨媒体整合信息。由此，期待向用户提供附加值更高的信息。

本发明并不局限于上述的实施方式，可以包括各种变形例。上述实施方式是为了便于理解本发明而进行了详细的说明，并不一定必须具备所说明的所有结构。此外，也可以将某实施方式的结构的一部分置换成其他实施方式的结构。此外，也可以向某实施方式的结构增加其他实施方式的结构。此外，对于各实施方式的结构的一部分，也可以进行其他结构的追加/删除/置换。

上述各结构、功能、处理部、处理单元等的一部分或全部例如可以通过集成电路进行设计等通过硬件来实现。此外，上述的各机构、功能等也可以通过处理器解析并执行用于实现各个功能的程序而通过软件来实现。可以将实现各功能的程序、表、文件等信息存储在存储器、硬盘、SSD(Solid State Drive，固态驱动器)等记录装置、IC卡、SD卡、DVD等记录介质中。

符号说明

100 图像解析***

101 图像/影像存储装置

102 输入装置

103 显示装置

104 数据存储装置

105 图像解析装置

106 图像输入部

107 用户操作输入部

108 图像数据库

109 类似图像检索部

110 检测参数决定部

111 任意目标检测部

112 图像登录部

113 数据输出部

1500 内容云***

Claims

1.一种图像解析装置，其特征在于，具备：

图像存储部，其存储图像和所述图像中包含的已检测目标的信息；

图像输入部，其取得成为对目标进行检测的对象的对象图像；

类似图像检索部，其从所述图像存储部检索具有与从所述对象图像提取的特征量类似的特征量的类似图像和所述类似图像中包含的所述已检测目标的信息；

参数决定部，其根据所述类似图像中包含的所述已检测目标的信息，决定对所述对象图像进行的检测处理中所使用的参数；

检测部，其按照决定的参数，从所述对象图像检测目标；

图像登录部，其在所述图像存储部积蓄检测出的目标和所述对象图像；以及

数据输出部，其输出检测出的目标的信息，

所述参数决定部生成在所述类似图像中包含的所述已检测目标的ID的列表并将其交给所述检测部，

所述检测部将所述列表中包含的所述已检测目标作为模板，针对从所述对象图像提取出的各个候补区域，从所述模板中搜索特征量向量与候补区域的特征量向量最接近的最近旁模板，将与所述最近旁模板的距离在预定值以下的所述候补区域作为在所述对象图像中包含的目标。

2.根据权利要求1所述的图像解析装置，其特征在于，

存储在所述图像存储部中的信息是从所述图像提取的特征量、所述已检测目标的位置信息以及从所述已检测目标提取出的特征量。

3.根据权利要求2所述的图像解析装置，其特征在于，

所述参数决定部进行根据所述类似图像中包含的所述已检测目标的位置信息，决定在所述检测处理中所使用的扫描窗的尺寸和扫描范围的参数推定处理。

4.根据权利要求3所述的图像解析装置，其特征在于，

所述参数决定部按照来自用户的输入进行所述参数推定处理。

5.根据权利要求2所述的图像解析装置，其特征在于，

所述检测部检测具有与所述类似图像所包含的所述已检测目标的特征量类似的特征量的领域来作为所述对象图像中包含的目标。

6.根据权利要求2所述的图像解析装置，其特征在于，

所述图像输入部在输入了多个所述对象图像时，进行根据所述对象图像的特征量对多个所述对象图像进行分组的处理，

所述参数决定部对在所述图像输入部进行分组后的组决定1个参数，

所述检测部对所述组使用所述1个参数进行检测。

7.一种图像解析***，其特征在于，具备：

摄像头，其拍摄图像；

类似图像检索部，其从所述图像存储部检索具有与从所述对象图像提取出的特征量类似的特征量的类似图像和所述类似图像中包含的所述已检测目标的信息；

检测部，其按照决定的参数，从所述对象图像检测目标；

显示部，其显示检测出的目标的信息，

8.根据权利要求7所述的图像解析***，其特征在于，

存储在所述图像存储部中的信息是从所述图像提取出的特征量、所述已检测目标的位置信息以及从所述已检测目标提取出的特征量。

9.根据权利要求8所述的图像解析***，其特征在于，

10.根据权利要求9所述的图像解析***，其特征在于，

还具备外部输入部，其接收来自用户的输入，

所述参数决定部按照来自外部输入部的输入进行所述参数推定处理。

11.根据权利要求8所述的图像解析***，其特征在于，

所述检测部检测具有与所述类似图像中包含的所述已检测目标的特征量类似的特征量的领域来作为所述对象图像中包含的目标。

12.根据权利要求8所述的图像解析***，其特征在于，

所述检测部对所述组使用所述1个参数进行检测。

13.一种图像解析方法，其从输入的对象图像检测目标，其特征在于，具备：

提取步骤，其提取所述对象图像的特征量；

检索步骤，其从图像存储部检索具有与提取的所述对象图像的特征量类似的特征量的类似图像；

决定步骤，其根据检索出的所述类似图像中包含的已检测目标的信息，决定在针对所述对象图像的检测处理中所使用的参数；

检测步骤，其根据决定的所述参数，对所述对象图像进行检测处理来检测目标；

输出从所述对象图像检测出的目标的步骤；以及

存储步骤，其将所述对象图像和检测出的目标存储在所述图像存储部中，

在所述参数的决定步骤中，生成在所述类似图像中包含的所述已检测目标的ID的列表并将其交给所述检测步骤，

在所述检测步骤中，将所述列表中包含的所述已检测目标作为模板，针对从所述对象图像提取出的各个候补区域，从所述模板中搜索特征量向量与候补区域的特征量向量最接近的最近旁模板，将与所述最近旁模板的距离在预定值以下的所述候补区域作为在所述对象图像中包含的目标。