CN104573669A

CN104573669A - 图像物体检测方法

Info

Publication number: CN104573669A
Application number: CN201510041017.6A
Authority: CN
Inventors: 黄凯奇; 任伟强; 王冲
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-01-27
Filing date: 2015-01-27
Publication date: 2015-04-29
Anticipated expiration: 2035-01-27
Also published as: CN104573669B

Abstract

本发明提供一种能够在大图像数据集上获得较好检测性能的图像物体检测方法，包括：对多个样图像按照信息量级别分别进行标注，获得对应的标注图像；提取所述标注图像中包含物体的区域或包含物体概率最大的区域并生成候选窗口；在卷积神经网络上提取所述候选窗口的特征表达并组成候选集，通过半监督学习对所述候选集进行拟合，获得图像检测模型目标函数；提取待检测图像中包含目标物体的区域或包含目标物体概率最大的区域并生成待检测窗口，提取所述待检测窗口的特征表达并进行检测，获得包含所述目标物体概率最大的所述候选窗口。发明所述方法能够在大数据集上较快速准确的对目标物体进行检测。

Description

图像物体检测方法

技术领域

本发明涉及图像识别或图像处理技术领域，特别涉及一种图像物体检测方法。

背景技术

在图像识别或图像处理技术中，图像物体检测应用广泛，例如犯罪追踪、大型体育赛事或博览会的人流统计及分析、智能城市、智能交通、智能家居、网购检索、以图搜图、图像或视频语义的实时理解等。是否能够较好的完成对输入图像如人脸等的识别并找到相关度高的匹配图像，一方面取决于图像数据库是否足够完备，海量图像、视频数据将有利于提升检索性能；另一方面与所使用的图像检测方法是否合适有关，这就需要计算机对图像数据集合理建模，以便后续快速准确的从图像数据库中为输入图像找到最为相似的搜索结果，图像检测建模过程也称图像检测算法学习，图像检测即是通过这种学习过程找到图像检测的目标函数并将其用于检测图像中的物体。

现有技术中，图像检测算法学习按照图像数据集中的图像数据是否包含先验信息可以分为三种类型：全部图像数据均包含先验信息、例如物体的种类或位置标签等的有监督学习，一部分图像数据包含先验信息另一部分图像数据不包含先验信息的半监督学习和全部图像数据不包含先验信息的无监督学习方法。

无监督学习方法基于无先验信息标签的数据集实现，不利于在有限计算能力下获得较快的计算速度，较难获得良好的检测性能；有卷积神经监督学习方法基于先验信息标签完备的数据集实现，有助于提高图像检测性能，但受到标签标注人工成本和硬件存储容量等的限制，对于样本容量大的图像数据集并不适用。

半监督学习方法基于部分图像贴住标签的数据集，对于人员和硬件资源的消耗适中，但随着图像数据的增加，现有图像检测模型中数据集模糊性增加，通过半监督学习得到的目标函数对大数据集的拟合性下降，因此现有半监督学习得到的图像物体检测方法在大图像数据集上对图像的检测性能不佳。

发明内容

本发明提供一种图像物体检测方法，以实现在大图像数据集上获得较好检测性能。

本发明图像物体检测方法，包括：

对多个样本图像按照信息量级别分别进行标注，获得对应的标注图像；

根据窗口提取方法提取所述标注图像中包含物体的区域或包含物体概率最大的区域并生成候选窗口；

在卷积神经网络上提取所述候选窗口的特征表达并组成候选集，通过半监督学习对所述候选集进行拟合，获得图像检测模型目标函数；

根据所述窗口提取方法提取待检测图像中包含目标物体的区域或包含目标物体概率最大的区域并生成待检测窗口，在所述卷积神经网络上提取所述待检测窗口的特征表达并在所述图像检测模型目标函数上进行检测，获得所述候选集中的特征表达所对应的包含所述目标物体概率最大的所述候选窗口。

本发明的有益效果为：

本发明通过在更加灵活的卷积神经网络上提取候选窗口的特征表达，并基于卷积神经网络进行半监督学习，将图像先验信息量程度不同的图像数据统一个框架，能够表达更复杂的非线性变换关系，更好的处理候选集以及待检测窗口等输入图像的非线性和复杂性，从而能够在大量图像所组成数据集上快速高效的检测出目标物体，解决了如何在大图像数据集上获得较好检测性能的技术问题。

附图说明

图1是本发明图像物体检测方法实施例一的流程图；

图2是本发明图像物体检测方法实施例一的框架图；

图3是本发明图像物体检测方法实施例一在Pascal VOC 2007测试集上前10类物体的检测性能对比图；

图4是本发明图像物体检测方法实施例一在Pascal VOC 2007测试集上进行测试的效果图；

图5是本发明图像物体检测方法实施例二的流程图；

图6是本发明图像物体检测方法实施例二的平均检测精度示意图；

图7是本发明图像物体检测方法实施例三的流程图；

图8是本发明图像物体检测方法实施例四的流程图。

具体实施方式

图1为本发明图像物体检测方法实施例一的流程图，图2是本发明图像物体检测方法实施例一的框架图，如图1所示，本发明图像物体检测方法，包括：

S101、对多个样本图像按照信息量级别分别进行标注，获得对应的标注图像；

优选的，所述信息量级别包括强标注和弱标注，所述对多个样本图像按照信息量级别分别进行标注，获得对应的标注图像包括：

对样本图像添加所包含物体的类别标注和位置标注，获得强标注图像；强标注图像指的是知道图像中所包含物体的类别及其位置的图像；

或者，

对样本图像仅添加所包含物体的类别标注，获得弱标注图像；弱标注图像指的是知道所包含的物体类别的图像，比如“人”、“椅子”，但是“人”和“椅子”在图像中的什么位置，以及其数目，都是不知道的；

S102、根据窗口提取方法提取所述标注图像中包含物体的区域或包含物体概率最大的区域并生成候选窗口；需要说明的是，对任意所述标注图像，若能提取到包含物体的区域则提取所述标注图像中包含物体的区域，若不能提取到包含物体的区域则提取所述标注图像中最可能包含物体的区域，也即对于任意一张所述标注图像，在完成第一步骤之后即能够确定无疑的对提取方式二选其一而不存在无法确定唯一提取方式的情形；

优选的，所述根据窗口提取方法提取所述标注图像中包含物体的区域或包含物体概率最大的区域并生成候选窗口包括：

根据所述类别标注和所述位置标注，提取所述强标注图像中包含物体的区域并生成强标注候选窗口；

或者，

根据所述类别标注和选择性搜索算法，提取所述弱标注图像中包含物体概率最大的区域并生成弱标注候选窗口，具体包括：

S1021、将输入图像从RGB空间转化到不同的颜色空间，如HSV,Lab,RGI,I等；

S1022、利用基于图的过分割算法，对转换了颜色空间的图像进行分割；

S1023、利用层次化组织思想，采用贪婪算法进行区块合并，得到层次化的图像分块；

S1024、将不同参数下得到的图像分块整合到一起并进行去重处理，得到弱标注图像的候选窗口；

由此可见，所述选择性搜索算法，是一种基于过分割，采用多种参数配置得到图像的多个过分割，利用层次化组织合并算法实现图像块层级合并，得到层次化的图像分块的方法，而所述分块中很可能包含有完整的物体；而对于强标注图像，由于图像中物体的位置是给定的，因而可以直接根据物体的位置标注提取出相关的物体区域。

S103、在卷积神经网络上提取所述候选窗口的特征表达并组成候选集，通过半监督学习对所述候选集进行拟合，获得图像检测模型目标函数；

优选的，所述卷积神经网络为预先在图像分类数据集ImageNet2013上训练并获取的卷积神经网络，图像分类数据集ImageNet2013是一个很大的图像分类数据集，预先在该数据集上训练得到的卷积神经网络能够从候选窗口中提取得到包含更强的高层语义信息的丰富特征表达；

在获取到可能包含感兴趣的物体的候选区域之后，要通过计算机视觉和模式识别算法确定某个候选窗口是否是某种物体，就需要首先对该候选窗口进行特征表达，从而可以在之后使用分类器进行分类判断；在图像分类与识别技术中，常用的特征表达包括SIFT、LBP、HOG等底层特征表达，词包模型等中层特征表达，以及卷积神经网络、深度信念网络等近年非常流行的层次化特征表达；所述半监督学习，要解决的是物体层次的识别问题，要通过消除半监督学习中数据集的模糊性来回答什么物体在什么地方这个语义层次的问题，这种高层语义问题不是底层特征描述和中层特征描述能够很好处理的，需要非常抽象的高层特征表达，卷积神经网络在物体识别领域取得了一系列的重大突破，其层次化的特征表达，实现了特征由底层到高层的逐层抽象，其前面的特征层通常是边缘，角点检测子，随着层数增多，后面的特征逐渐开始描述物体部件、整个物体。通过提取卷积神经网络后面特征层的特征，能够得到对图像较高层次，例如物体级别的描述与表达，卷积神经网络还有一个重要的特性就是其模型容量非常大，层数越多，神经元数目越大，模型复杂度越多，能够编码存储的信息量越大，而在一个非常大的图像的数据集ImageNet 2013上训练，将得到一个大规模的卷积神经网络，其中所述ImageNet 2013包含1000类约120万张图像，将丰富的一般物体表观信息编码存储于该网络中，使用的卷积神经网络包含5个卷积层，2个全连接层，并且第1、2、5个卷积层后面连了最大值汇聚层，整个网络包含约65万神经元，就像人类大脑中存储的知识有助于分辨物体一样，这个包含了大量一般视觉先验信息的卷积神经网络，能够有效地用于对物体进行一般化的特征表达。

优选的，所述通过半监督学习对所述候选集进行拟合，获得图像检测模型目标函数包括：

判断所述强标注候选窗口是否属于正的样本图像；所述正的样本图像指的是该图像类别标注与相同的图像；

若判断为是，则根据公式(1)确定所述正样本图像强标注候选窗口的负对数似然函数：

L_{p} = - \frac{1}{N_{p}} \overset{Np}{\underset{i = 1}{Σ}} \log (σ (f (X_{p}^{i}))) - - - (1)

或者，

根据公式(2)确定所述正样本图像弱标注候选窗口的负对数似然函数：

L_{wp} = - \frac{1}{N_{wp}} Σ_{i = 1}^{Nwp} \log (σ (f ({| X}_{wp}^{i} (k_{i})))) - - - (2)

若判断为否，则根据公式(3)确定负样本图像候选窗口、所述候选窗口可以为强标注候选窗口或弱标注候选窗口的负对数似然函数：

L_{n} = - \frac{1}{N_{n}} Σ_{i = 1}^{Nn} \log (σ (- f (X_{n}^{i}))) - - - (3)

并根据公式(4)确定所述图像检测模型目标函数：

L = C_{1} L_{p} + C_{2} L_{n} + C_{3} L_{np} + {λ | | w | |}_{2}^{2} - - - (4)

其中，用于将卷积神经网络的输出函数f(x)转换成概率，所述σ(x)为sigmoid函数，所述argmax为求函数最大值时变量取值的函数，表示第i个正样本图像强标注候选窗口的特征表达，表示第i个正样本图像第j个弱标注候选窗口的特征表达，k_i表示第i个正样本图像中响应最大的弱标注候选窗口的索引，表示第i个正样本图像响应最大的弱标注候选窗口的特征表达，表示第i个负样本图像候选窗口的特征表达，N_p、N_wp、N_n分别表示正样本图像强标注窗口的个数、正样本图像弱标注窗口的个数和随机选取的负样本图像候选窗口的个数，C₁、C₂、C₃为加权参数，用于调整不同类型数据集的损失惩罚，λ为权重衰减系数，用于加在卷积神经网络的权重上，以控制权重的取值范围，防止出现模型的过拟合现象，w为所述卷积神经网络的输出函数的二范数。

在所有的候选窗口都已经使用预训练的卷积神经网络进行特征表达时，接下来就是训练一个分类模型，将部分标注的正样本和负样本图像区分开来，正样本图像强标注候选窗口的特征表达记作X_p∈R^Np×d 其中d是卷积神经网络特征表达的维度，N_p是标注的正样本图像的个数；第i张弱标注的正样本图像包含所有提取的候选窗口的特征表达，这里使用包的形式来表达，记为其中代表正样本弱标注图像的数目；对于负样本图像，我们也是使用候选窗口算法提取一定数目的候选窗口出来进行特征表达，但是由于负样本中所有的候选窗口都是负样例，因而可以直接从中随机抽取出一部分负示例构成负样本集合其中N_n就是随机选取的负样本图像的个数；整个候选集记作{X_p,X_wp,X_n}，由于类别标签已经隐含在其中，我们不再明确写出数据对应的类别标注y，相比线性预测模型，采用更加灵活的深度神经网络进行特征表达，能够表达更加复杂的非线性变换关系，因而能够更好地处理输入数据的非线性和复杂性；比较特殊的是弱标注正样本数据，由于我们是以正包的形式对其进行表示，因而我们没法确定其中哪个示例是正样本，哪个示例是负样本，唯一明确的是其中至少有一个是正样本，因此使用max函数来确定是概率最大的示例，max操作使得图像物体检测模型输出函数是非凸的，然而，在实际应用中，我们仍然可以使用基于梯度的方法对卷积神经网络的参数进行训练。

S104、根据所述窗口提取方法提取待检测图像中包含目标物体的区域或包含目标物体概率最大的区域并生成待检测窗口，在所述卷积神经网络上提取所述待检测窗口的特征表达并在所述图像检测模型目标函数上进行检测，获得所述候选集中的特征表达所对应的包含所述目标物体概率最大的候选窗口；需要强调的是，这里使用与S103中相同的窗口提取算法提取所述待检测图像的候选窗口并使用相同的卷积神经网络进行特征表达。

图3是本发明图像物体检测方法实施例一在Pascal VOC 2007测试集上前10类物体的检测性能对比图，如图3所示，第一、三列是采用5％窗口标注进行半监督学习的结果，第二、四列是采用30％窗口标注进行半监督学习的结果，最后一列展示了采用30％窗口标注进行半监督学习时的典型误检情况；图4是本发明图像物体检测方法实施例一在Pascal VOC 2007测试集上进行测试的效果图，如图4所示，本发明图像物体检测方法实施例一在只使用部分弱标注图像和部分强标注图像，未使用任何分割标注信息的情况下，获得了较佳物体分割效果。

本发明图像物体检测方法实施例一，通过在更加灵活的卷积神经网络上提取候选窗口的特征表达，并基于卷积神经网络进行半监督学习，采用加权逻辑Logistic回归函数、也就是二类加权Softmax回归函数作为所述图像检测模型的目标函数，将强标注图像数据与弱标注图像数据统一个框架，相比线性预测模型，能够表达更复杂的非线性变换关系，因而能够更好的处理候选集以及待检测窗口等输入图像的非线性和复杂性，从而能获得对于标注程度不完备的大量图像所组成数据集的良好检测性能。

图5为本发明图像物体检测方法实施例二的流程图，如图5所示，本发明图像物体检测方法实施例二中S202～S205分别与实施例一中S101～S104对应相同，不同之处在于，还包括：

S201、根据性能需求和各信息量等级对应的资源成本确定每种信息量等级所对应的标注图像的数目；

优选的，所述信息量级别包括强标注和弱标注，所述强标注指的是详细标注出了每个物体在图像中的位置的标注，所述弱标注指的是标注了图像中包含的物体类别，而没有给出物体在图像中的位置的标注；所述根据性能需求和各信息量等级对应的资源成本确定每种信息量等级所包含的标注图像的数目包括：

根据性能需求和各信息量等级对应的资源成本确定所述强标注图像数目a和弱标注图像数目b，且所述a小于b；

所述信息量级别指的是根据图像先验信息的数量人为划分的标注等级，所述先验信息可以是所述物体类别标注或位置标注等，因此所述信息量级别反映了标注一个图像所需的人工成本与存储成本之和也即该信息量级别对应的单位标注成本，则根据各信息量等级对应的资源成本、性能需求和单位标注成本，可以合理预估所述a和b的值，以实现利用最少的人力成本进行数据标注，通常情况下，弱标注数据标注代价也相对较低、较容易获得，因而在我们的数据中占据主要部分，而强标注数据标注成本虽然比较高，但明确给出了物体的位置，因此对确定图像检测模型目标函数能够给出较强的指导信号，从而提高检测性能。

图6是本发明图像物体检测方法实施例二的平均检测精度示意图，如图6所示，当使用不同数目的强标注图像进行半监督学***均检测精度逐渐增加，但是提高的幅度在逐渐减少。

本发明图像物体检测方法实施例二以包含两种标注程度不同的信息量等级为例，预先确定强标注图像和弱标注图像的数目，并同时处理包含弱标注图像和强标注图像，实现了标注成本和图像物体标注性能的最佳平衡，在有限资源下存储大量图像数据时仍然能够获得较好的检测性能，也即提供了一种有限标注代价的图像物体检测方法；同时，因为需要标注图像中物体的类别，以及很少部分的图像中的物***置，所以非常适合大规模图像数据下的图像物体自动检测任务，从而为海量图像数据的组织整理问题提供了可行的解决方法。

图7为本发明图像物体检测方法实施例三的流程图，如图7所示，本发明图像物体检测方法实施例三中S301～S302分别与实施例一中S101～S102对应相同，S304～S305分别与实施例一中S103～S104对应相同，不同之处在于，在所述根据类别标注和所述位置标注，提取所述强标注图像中包含物体的区域并生成强标注候选窗口之后，还包括：

S303、对所述强标注候选窗口进行翻转处理。

优选的，所述翻转处理为水平180度翻转。

本发明图像物体检测方法实施例三在完成提取强标注候选窗口后对其作翻转处理，则包含物***置信息的强标注数据变为原来的两倍，在不增加人工标注成本的基础上降低了候选集的图像数据模糊性，增大检测的准确性，提高了所述图像物体检测方法的检测性能。

图8为本发明图像物体检测方法实施例四的流程图，如图8所示，本发明图像物体检测方法实施例四中S401～S402分别与实施例一中S101～S102对应相同，S404与实施例一中S104对应相同，不同之处在于，所述通过半监督学习对所述候选集进行拟合，获得图像检测模型目标函数包括：根据有限存储大规模优化重建算法(Limited-memory-Broyden–Fletcher–Goldfarb–Shanno algorithm，简称L-BFGS算法)，获得图像检测模型目标函数。

本发明图像物体检测方法实施例四中所述L-BFGS算法速度更快，因此模型的训练速度更快。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像物体检测方法，其特征在于，包括：

2.根据权利要求1所述的图像物体检测方法，其特征在于，所述信息量级别包括强标注和弱标注，所述对多个样本图像按照信息量级别分别进行标注，获得对应的标注图像包括：

对样本图像添加所包含物体的类别标注和位置标注，获得强标注图像；

或者，

对样本图像仅添加所包含物体的类别标注，获得弱标注图像；

相应的，所述根据窗口提取方法提取所述标注图像中包含物体的区域或包含物体概率最大的区域并生成候选窗口包括：

或者，

根据所述类别标注和选择性搜索算法，提取所述弱标注图像中包含物体概率最大的区域并生成弱标注候选窗口。

3.根据权利要求2所述的图像物体检测方法，其特征在于，在所述根据所述类别标注和所述位置标注，提取所述强标注图像中包含物体的区域并生成强标注候选窗口之后，还包括：

对所述强标注候选窗口进行翻转处理。

4.根据权利要求2～3所述的图像物体检测方法，其特征在于，所述通过半监督学习对所述候选集进行拟合，获得图像检测模型目标函数包括：

判断所述强标注候选窗口是否属于正的样本图像；

L_{p} = - \frac{1}{N_{p}} Σ_{i = 1}^{N_{p}} \log (σ (f (X_{p}^{i}))) - - - (1)

或者，

L_{wp} = - \frac{1}{N_{wp}} Σ_{i = 1}^{N_{wp}} \log (σ (f (X_{wp}^{i} (k_{i})))) - - - (2)

若判断为否，则根据公式(3)确定负样本图像候选窗口的负对数似然函数：

L_{n} = - \frac{1}{N_{n}} Σ_{i = 1}^{N_{n}} \log (σ (- f (X_{n}^{i}))) - - - (3)

并根据公式(4)确定所述图像检测模型目标函数：

L = C_{1} L_{p} + C_{2} L_{n} + C_{3} L_{np} + λ {| | w | |}_{2}^{2} - - - (4)

其中，

σ (x) = \frac{1}{1 + e^{- x}},

k_{i} = {\arg \max}_{j} f (X_{wp}^{i} (j)),

所述σ(x)为sigmoid函数，所述argmax为求函数最大值时变量取值的函数，表示第i个正样本图像强标注候选窗口的特征表达，表示第i个正样本图像第j个弱标注候选窗口的特征表达，k_i表示第i个正样本图像中响应最大的弱标注候选窗口的索引，表示第i个正样本图像响应最大的弱标注候选窗口的特征表达，表示第i个负样本图像候选窗口的特征表达，N_p、N_wp、N_n分别表示正样本图像强标注窗口的个数、正样本图像弱标注窗口的个数和随机选取的负样本图像候选窗口的个数，C₁、C₂、C₃分别为正样本强标注权重参数C₁、负样本权重参数C₂和正样本弱标注权重参数C₃，λ为权重衰减系数，w为所述卷积神经网络的输出函数的二范数。

5.根据权利要求1～3所述的图像物体自动检测方法，其特征在于，所述通过半监督学习对所述候选集进行拟合，获得图像检测模型目标函数包括：

根据有限存储大规模优化重建L-BFGS算法，获得图像检测模型目标函数。

6.根据权利要求1所述的图像物体自动检测方法，其特征在于，在所述对多个样本图像按照信息量级别分别进行标注，获得对应的标注图像之前，还包括：

根据性能需求和各信息量等级对应的资源成本确定每种信息量等级所对应的标注图像的数目。

7.根据权利要求2或6所述的图像物体自动检测方法，其特征在于，所述根据性能需求和各信息量等级对应的资源成本确定每种信息量等级所对应的标注图像的数目包括：

根据性能需求和各信息量等级对应的资源成本确定所述强标注图像数目a和弱标注图像数目b，且所述a小于b。

8.根据权利要求1所述的图像物体检测方法，其特征在于，在所述在卷积神经网络上提取所述候选窗口的特征表达并组成候选集之前，还包括：

在图像分类数据集ImageNet2013上训练，获取所述卷积神经网络。

9.根据权利要求4所述的图像物体检测方法，其特征在于，在所述根据所述窗口提取方法提取待检测图像中包含目标物体的区域或包含目标物体概率最大的区域并生成待检测窗口之前，还包括：

获取测试集中多个待测试图像并进行测试，所述测试包括：

根据所述窗口提取方法提取待测试图像中包含目标物体的区域或包含目标物体概率最大的区域并生成待测试窗口，在所述卷积神经网络上提取所述待测试窗口的特征表达并在所述图像测试模型目标函数上进行检测，获得所述候选集中的特征表达所对应的包含所述目标物体概率最大的所述候选窗口；

比较所述获得的包含所述目标物体概率最大的所述候选窗口与待测试图像是否相同，若判断为是则计为一次正示例；

将所述测试进行K次，计算正示例个数Q与所述K之比，得到平均精度Q/K；

根据所述平均精度Q/K，调整所述正样本强标注权重参数C₁、负样本权重参数C₂和正样本弱标注权重参数C₃，以修正所述图像检测模型目标函数。4 -->