CN104217225A

CN104217225A - 一种视觉目标检测与标注方法

Info

Publication number: CN104217225A
Application number: CN201410442817.4A
Authority: CN
Inventors: 黄凯奇; 任伟强; 王冲; 张俊格
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-09-02
Filing date: 2014-09-02
Publication date: 2014-12-17
Anticipated expiration: 2034-09-02
Also published as: CN104217225B

Abstract

本发明公开了一种视觉目标检测与标注方法，包括：图像输入步骤，输入待检测图像；候选区域提取步骤，使用选择性搜索算法从所述待检测图像中提取候选窗口作为候选区域；特征描述提取步骤，使用预先训练的大规模卷积神经网络对候选区域进行特征描述并输出该候选区域的特征描述；视觉目标预测步骤，基于所述候选区域的特征描述，利用预先训练的物体检测模型对候选区域进行预测，估计存在所述视觉目标的区域；位置标注步骤，根据所述估计结果对所述视觉目标的位置进行标注。实验表明本发明与主流弱监督视觉目标检测与标注方法相比，具有更强的正样本挖掘能力和更一般的应用前景，适合于在大规模数据集上的视觉目标检测与自动标注任务。

Description

一种视觉目标检测与标注方法

技术领域

本发明涉及计算机视觉中物体检测技术领域，特别涉及一种基于弱监督学习的视觉目标检测与标注方法。

背景技术

图像中物体检测与自动位置标注是计算机视觉领域一个基本问题，也是该领域要研究的核心问题之一。图像中物体检测就是给定测试图像，回答什么东西在什么地方这一问题。物体检测在很多其他视觉研究问题中有着广泛的应用，如物体识别、行人检测、人脸检测、监控场景下的前景检测、运动跟踪、行为识别与分析等。

一般的物体检测需要给定标注好物体外接矩形的数据库，以便使用基于梯度方向直方图(HOG)、形变部件模型(DPM)等纯有监督的物体检测模型进行模型训练。数字媒体技术的高速发展，使得图像、视频等数据出现***式增长，互联网的普及则使得人们能够更加容易地获取到海量的图像、视频数据。面对这样海量的图像数据，目前的物体检测与标准算法需要面对的一个严峻的问题是大量的数据并没有可用的物***置标注信息。对海量图像数据进行位置标注，是一个劳动强度非常高、代价非常高的任务。

相对来说，对整张图像进行类别标注则要容易得多，采用无监督聚类等方法进行预先过滤也可以实现短时间内构建出较大规模的分类数据库。因而，利用只有分类标注的图像数据库，实现自动进行物体类别学习与定位，即通过弱监督学习实现视觉目标检测与标注，有着重要的理论价值和现实意义。

传统的弱监督学习算法中，对于候选区域的选择，一般基于密集采集的候选窗口算法，窗口数目非常庞大，召回率和重合度都不是很理想。同时，对候选窗口通常采用词包模型进行描述，词包模型的特征变换层次通常不多，得到的特征可以认为是中层表达，缺少更高层的信息让模型能够自动从图像中发掘出物体表观模型。

目前弱监督物体检测与标注方面主流的方法包括多示例学习、主题模型、条件随机场等。传统的很多多示例学习算法由于很大程度上依赖于核学习或基于距离度量的学习框架，并且使用启发式算法、二次规划、整数规划等复杂度很高的优化算法，很难在大规模数据集上得到高效应用。

因此，如何改进和优化弱监督学习算法来高效实现海量图像的物体检测与自动位置标注，是现有技术中的急需解决的一个重要问题。

发明内容

有鉴于此，本发明的主要目的是提供弱监督场景下的视觉目标检测与标注方法，可以在只给定图像类别标签的情况下，自动从图像集合中定位感兴趣的目标，也可以对图像进行物***置自动标注。

为了达到上述目的，本发明提供了以下技术方案：

一种视觉目标检测与标注方法，其特征在于，包括：

图像输入步骤，输入待检测图像；

候选区域提取步骤，使用选择性搜索算法从所述待检测图像中提取候选窗口作为候选区域；

特征描述提取步骤，使用预先训练的大规模卷积神经网络对候选区域进行特征描述并输出该候选区域的特征描述；

视觉目标预测步骤，基于所述候选区域的特征描述，利用预先训练的物体检测模型对候选区域进行预测，估计存在所述视觉目标的区域；

位置标注步骤，根据所述估计结果对所述视觉目标的位置进行标注。

优选的，所述候选区域提取步骤中的选择性搜索算法进一步包括：

将待检测图像的颜色空间转换为预定空间，利用基于Graph的过分割算法对所述图像进行分割，不断合并相似度最高的两块区域，得到图像的层次化分割结果，将多个颜色空间以及多层次的分割区域集合合并以及去重处理后，获得该图像的候选区域集合。

优选的，所述预定颜色空间包括：HSV，RGI，I，Lab。

优选的，所述预先训练的卷积神经网络为：基于物体分类数据库ImageNet 2013训练的卷积神经网络。

优选的，还包括物体检测模型训练步骤，具体包括：

输入带有图像类别标签的训练集图像；

采用选择性搜索算法从训练集图像中提取候选窗口作为候选区域；

使用预先训练的大规模卷积神经网络对候选区域进行特征描述并输出该候选区域的特征描述；

基于所述候选区域的特征描述，利用多示例线性支持向量机训练物体表观模型。

优选的，所述使用多示例线性支持向量机训练物体检测模型，包括：

采用MILinear无约束大间隔多示例学习算法对物体检测模型进行训练，其目标函数为：

\min_{w} \frac{1}{2} {| | w | |}^{2} + \frac{C}{| B |} Σ_{i = 1}^{| B |} {(\max (0,1 - y^{i} w^{T} B_{I_{i}}^{i}))}^{2},

其中，一张图像Iⁱ通过一个包含nⁱ个d维示例的包Bⁱ来描述，其中第j个示例记为若一个包中至少包含有一个示例为正样本，那么该包的标签yⁱ为+1，若所有的示例都是负样本，那么该包的标签yⁱ为-1，训练集为B＝{(Bⁱ,yⁱ)|i＝1,2,…,N}，|B|＝N是训练集样本数目，w是分类器系数，C是正则项用于控制对错误分类的惩罚，是包Bⁱ中预测分数最高的示例的索引值。

优选的，采用可信域牛顿法对MILinear算法进行求解，包括：

确定MILinear的优化目标函数是无约束的可导目标函数，其一阶导数为：

g (w) = w + 2 \frac{C}{| B |} \underset{i &Element; I_{B}}{Σ} (w^{T} B_{I_{i}}^{i} B_{I_{i}}^{iT} - y^{i} B_{I_{i}}^{iT}),

其中，

I_{B} = {i | 1 - y^{i} w^{T} B_{I_{i}}^{i}, i = 1,2, . . ., | B | > 0}

是间隔小于1的示例的集合；

通过下面公式计算广义Hessian矩阵

其中，I是单位矩阵；

以迭代的方式对目标函数进行优化，计算

\begin{matrix} s^{k} = \min q_{k} (s) = \min_{s} &dtri; f {(w^{k})}^{T} s + \frac{1}{2} s^{T} {&dtri;}^{2} f (w^{k}) s \\ = \min_{s} g {(w^{k})}^{T} s + \frac{1}{2} s^{T} H (w^{k}) s, s . t . | | s | | \leq Δ_{k} \end{matrix},

其中，s^k是更新步长，Δ_k是可信域，g(w^k)和H(w^k)分别是MILinear目标函数的一阶导数和二阶导数。

在求解得到更新步长s^k后，如果实际目标函数下降足够大，那么就对w^k进行更新，否则保持w^k不变，公式如下：

w^{k + 1} = \{\begin{matrix} w^{k} + s^{k} & if \frac{f (w^{k} + s^{k}) - f (w^{k})}{q_{k} (s^{k})} > η_{0}, \\ w^{k} & otherwise . \end{matrix},

其中，η₀是一个预先定义的控制最小可接受实际函数下降的正数。优选的，还包括利用训练好的物体检测模型运行包分解算法，采用迭代方式逐步减少正包的模糊度，包括：

通过MILinear训练得到的物体检测模型在训练集图像上得到对所有候选窗口的预测概率，根据此预测概率将正包分解成一个正包和一个负包，在分解后得到的数据集上训练一个新的MILinear物体检测模型，所述分解过程可能迭代数次。

本发明提供的视觉目标检测与标注方法，具有几个明显优点：

1)、采用选择性搜索的方式，基于大量过分割的结果，获取目标最可能出现的候选窗口，这种方式得到的窗口能够很好的保持物体的边界，与真实物体重合率很高，同时在几百到几千个候选窗口的情况下保持极高的召回率。

2)、采用预先在一个很大的图像分类数据集上训练得到的卷积神经网络从候选窗口中提取特征表达，能够获得包含更强的高层语义信息的丰富特征表达，让模型能够自动从图像中发掘出物体表观模型。

3)、采用了一种新的多实例线性支持向量机模型，同时采用一种基于可信域牛顿法的优化算法进行优化，能够高效地在大规模数据集上进行弱监督检测模型的学习。

4)、采用了新的一种包分解算法，通过将正样本包分解成一个正样本包和一个负样本包，大大降低正样本包中的模糊性，能够有效提高弱监督检测模型的性能。

附图说明

图1是依照本发明实施例基于弱监督学习的视觉目标检测与标注方法模型训练与测试流程图；

图2是依照本发明实施例MILinear与带包分解的MILinear示意图；

图3是依照本发明实施例采用可信域牛顿法进行优化与其他优化方法结果对比示意图；

图4是依照本发明实施例训练得到的物体检测模型预测分数与样本重合度关系示意图；

图5是依照本发明实施例采用包分解算法迭代过程中若干物体类别性能改进示意图；

图6是依照本发明实施例训练得到的物体检测模型在Pascal VOC2007数据库上的检测结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的思想要点是：1)采用选择性搜索的方式，基于大量过分割的结果,能够在较少的候选窗口情况下获得较高的目标召回率和重合度；2)本发明采用预先在一个很大的图像分类数据集上训练得到的卷积神经网络从候选窗口中提取特征表达，能够得到包含更强的高层语义信息的丰富特征表达；3)采用了一种新的多实例线性支持向量机模型，采用一种基于可信域牛顿法的优化算法进行优化，能够高效地在大规模数据集上进行弱监督检测模型的学习；4)本发明采用了新的一种包分解算法，通过将正样本包分解成一个正样本包和一个负样本包，大大降低正样本包中的模糊性，能够有效提高弱监督检测模型的性能。

如图1所示，图1上半部分是依照本发明实施例基于弱监督学习的视觉目标检测与标注方法模型训练流程图。首先，是输入图像；其次，通过采用选择性搜索算法对输入的图像进行候选窗口提取，获得提取的候选区域；然后，将候选区域，即候选窗口样本顺序送入卷积神经网络，获得每个候选区域的特征描述，即区域表达；最后，基于特征描述，使用本发明提出的基于弱监督学习的算法进行物体表观模型的自动学习，即正样本挖掘。图1下半部分阐述了该方法的测试过程。对于测试图像，采用与训练过程一样的方式提取候选窗口，然后使用深度卷积神经网络对窗口区域进行特征描述，最后使用前面训练好的物体表观模型对窗口区域进行分类，实现目标检测或者标注任务。该方法包括以下步骤：

S1、候选区域提取，使用选择性搜索算法从训练集图像中提取候选窗口作为候选区域。

在只给定图像类别标签的情况下，只能知道图像中包含某些类别的物体，比如“汽车”、“人”，但是对于“汽车”和“人”的位置，是不知道的，这就需要通过算法来确定物体的外接矩形。如果从图像中提取所有可能的矩形框，那所有可能的矩形框的数目是非常庞大的，处理起来也是不现实的。候选区域提取算法就是要通过提取有限数目的可能物体矩形框，使得其中尽可能地包含有要定位的物体。这里有三个指标至关重要：一是候选窗口的数目，数目越少，算法效率越高；二是召回率，也即候选窗口中包含真实物体的数目与所有物体数目的比例；三是候选窗口与真实物体外接矩形框的重合度。基于密集采集的候选窗口算法，窗口数目非常庞大，召回率和重合度都不是很理想。

本发明采用的选择性搜索算法是一种基于过分割的候选窗口提取算法，它通过采用不同的参数对图像进行过分割，得到不同的图像分块，再采用层次化组织的思想对分块进行合并，从而找到最有可能包含物体的外接矩形。具体步骤如下：首先，将原始图像从RGB颜色空间转换到其他颜色空间，包括HSV，RGI，I，Lab等；然后，分别使用基于Graph的过分割算法对相应图像分别进行分割，再通过层次化组织的思想不断合并相似度最高的两块区域，得到图像的层次化分割结果。将多个颜色空间，多层次的分割区域集合合并起来，进行去重处理之后，就得到该图的候选区域集合。

选择性搜索算法运行效率较高，在数百至数千个候选窗口的情况下，能够获得非常高的召回率和重合度。

S2、使用预先训练的大规模卷积神经网络对每个候选区域进行特征描述并输出该特征描述。

在获取到可能包含感兴趣物体的候选区域之后，要通过计算机视觉和模式识别算法确定某个候选窗口是否是某种物体，需要首先对该候选区域进行特征描述，从而可以在之后使用分类器进行分类判断。在图像分类与识别领域，常用的图像描述方法包括SIFT、LBP、HOG等底层特征描述，词包模型等中层特征描述，卷积神经网络、深度信念网络等近年非常流行的层次化特征表达。弱监督物体检测与标注问题，要解决的是物体层次的识别问题，要通过消除弱监督的模糊性来回答什么物体在什么地方这个语义层次的问题。这种高层语义问题不是底层特征描述和中层特征描述能够很好处理的，需要非常抽象的高层特征表达。卷积神经网络在物体识别领域取得了一系列的重大突破，其层次化的特征表达，实现了特征由底层到高层的逐层抽象，其前面的特征层通常是边缘，角点检测子，随着层数增多，后面的特征逐渐开始描述物体部件、整个物体。通过提取卷积神经网络后面特征层的特征，能够得到对图像较高层次(比如物体级别)的描述与表达。卷积神经网络还有一个重要的特性就是其模型容量非常大，层数越多，神经元数目越大，模型复杂度越多，能够编码存储的信息量越大。

基于此，本发明在一个非常大的图像的数据集ImageNet 2013上训练了一个大规模的卷积神经网络，将大量的一般物体信息存储于该网络中。优选的，使用一个大规模的一般物体分类数据库ImageNet 2013来进行卷积神经网络的训练，训练数据包含1000类约120万张图像，使用的卷积神经网络包含5个卷积层，2个全连接层，并且第1、2、5个卷积层后面连了最大值汇聚层，整个网络包含约65万神经元。就像人类存在大量中的知识有助于分辨物体一样，这个包含了大量一般视觉先验信息的卷积神经网络，能够有效地用于对物体进行一般化的描述。

S3、在只给定图像类别标签的基础上，使用多示例线性支持向量机MI-SVM在候选区域特征表达上训练物体检测模型。

本发明已经通过采用选择性搜索算法从图像中获取到候选窗口集合，并使用一个预先训练好的大规模卷积神经网络对这些候选窗口进行特征描述，接下来要做的就是在这些候选窗口特征描述上自动学习物体检测模型，-利用训练好的物体检测模型，就可以对候选区域进行预测，找到最可能存在物体的区域。

弱监督物体检测与标注问题通常可以建模成一个多示例学习问题。一张图像Iⁱ通过一个包含nⁱ个d维示例的包Bⁱ来描述，其中第j个示例记为如果一个包中至少包含有一个示例为正样本，那么该包的标签yⁱ为+1，如果所有的示例都是负样本，那么该包的标签yⁱ为-1。为了避免后面显式地处理偏移量，本发明在每一个示例特征的末尾添加了一个额外的1。记

\min_{w} \frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{| B |} ξ_{i} - - - (1)

s . t . \max (w^{T} B_{j}^{i}) &GreaterEqual; + 1 - ξ_{i}, y^{i} = + 1

\max (w^{T} B_{j}^{i}) \leq - 1 + ξ_{i}, y^{i} = - 1

ξ_i≥0

训练集为B＝{(Bⁱ,yⁱ)|i＝1,2,…,N}，|B|＝N是训练集样本数目，w是分类器系数，C是正则项用于控制对错误分类的惩罚，ξ_i是松弛变量。

在多示例学***面是由每个包的分数最高的示例决定的，其优化公式是一个混合整数规划问题，只能通过启发式算法进行求解，速度非常慢。

S3.1 MILinear算法

不同于传统的多示例学习问题处理的小数据集，本发明主要考虑包含5000个包以上并且每个包含有数以百计到千计高维示例的大数据问题。为更好地对大数据规模下的弱监督问题进行高效求解，本发明提出了一种新的无约束大间隔多示例线性支持向量机算法，称为MILinear。其公式如下式所示：

\min_{w} \frac{1}{2} {| | w | |}^{2} + \frac{C}{| B |} Σ_{i = 1}^{| B |} {(\max (0,1 - y^{i} w^{T} B_{I_{i}}^{i}))}^{2} - - - (2)

其中是第i个包中第j个实例的特征向量，yⁱ是第i个包的类别标注。上式第二项采用了平方Hinge损失函数，max(a,b)取a,b的最大值。

I_{i} = \arg \max_{j} w^{T} B_{j}^{i} - - - (3)

是包Bⁱ中预测分数最高的示例的索引值。

基于梯度的优化方法在大规模优化问题上得到广泛应用，本发明使用了可导的Hinge Loss损失函数。正如2(a)所示，MI-SVM和MILinear通过选择分数最大的示例来对此大尺度多示例学习问题进行求解。

S3.2包分解算法

在MILinear的实验中，本发明发现，在一个正包中，正样本通常集中在分数最大的前30％。注意到这个问题后，本发明提出了一种新的包分解算法，通过将正包分解成一个正包和一个负包，有效减少正包的模糊性。优选的，通过MILinear训练得到的模型在训练图像上得到对所有候选窗口的预测概率，根据此预测概率将正包分解成一个正包和一个负包，具体为概率最大的30％为新的正包，其余样本成为一个新的负包。接下来，在分解后得到的数据集上训练一个新的MILinear模型，如图2(b)所示。通过包分解算法，减少了正包中样本的模糊性，从而提高模型分类性能。这个分解过程可能迭代数次，直到模型性能不再改进为止。

S3.3梯度优化算法

前面已经给出了MILinear算法的定义，下面将讨论在大尺度数据集下，如何能够高效地进行模型学习。MILinear的优化目标函数是无约束的可导形式，其一阶导数是

g (w) = w + 2 \frac{C}{| B |} \underset{i &Element; I_{B}}{Σ} (w^{T} B_{I_{i}}^{i} B_{I_{i}}^{iT} - y^{i} B_{I_{i}}^{iT}) - - - (4)

其中

I_{B} = {i | 1 - y^{i} w^{T} B_{I_{i}}^{i}, i = 1,2, . . ., | B | > 0} - - - (5)

是间隔小于1的示例的集合。

在获得了目标函数的梯度解析表达之后，就有很多方法可以进行目标函数优化了，包括随机梯度下降(SGD)，L-BFGS，非线性共轭梯度法(CG)等。随机梯度下降法对数据集逐个进行处理，并迭代地对模型进行更新。L-BFGS是一种拟牛顿优化方法，它通过一种Hessian矩阵的近似低秩求解方法来避免存储整个Hessian矩阵。一般说来，随机梯度下降每步的代价较低但迭代时间较长，而L-BFGS等二阶优化方法每步耗时较长，但整体收敛速度较快。

为了更高效的进行物体表观模型学习，本发明提出了一种比L-BFGS更加高效的基于可信域牛顿法的多示例线性支持向量机优化算法。可信域牛顿法是一种非常高效的大尺度无约束问题求解方法，并且在一般大尺度logistic回归和支持向量机训练上得到了应用。为应用可信域牛顿法求解MILinear问题，使用下面公式计算广义Hessian矩阵

其中I是单位矩阵。

可信域牛顿法以迭代的方式对目标函数进行优化，每次优化试图求解下面的包含可信域的子问题

\begin{matrix} s^{k} = \min q_{k} (s) = \min_{s} &dtri; f {(w^{k})}^{T} s + \frac{1}{2} s^{T} {&dtri;}^{2} f (w^{k}) s \\ = \min_{s} g {(w^{k})}^{T} s + \frac{1}{2} s^{T} H (w^{k}) s, s . t . | | s | | \leq Δ_{k} \end{matrix} - - - (7)

其中s^k是更新步长，Δ_k是可信域，g(w^k)核H(w^k)分别是MILinear目标函数(公式2)的一阶导数和二阶导数。

这个子问题可以采用考虑了可信域的共轭梯度法进行高效求解。

在求解得到更新步长s^k后，如果实际目标函数下降足够大，那么就对w^k进行更新，否则保持w^k不变。

w^{k + 1} = \{\begin{matrix} w^{k} + s^{k} & if \frac{f (w^{k} + s^{k}) - f (w^{k})}{q_{k} (s^{k})} > η_{0}, \\ w^{k} & otherwise . \end{matrix} - - - (8)

其中η₀是一个预先定义的控制最小可接受实际函数下降的正数，实际函数下降大于该值则更新方向被接受，在本发明一实施例中，优选设置其为1e-4。

严格说，MILinear的目标函数由于引入了max函数，因而是非凸的。同时该目标函数也不是二阶可导的。尽管不能保证全局最优解，但在实际情况下，该算法可以有效地从大规模数据集上学习到物体表观模型。

S4、在测试图像上提取候选区域，并使用同样的方式进行特征描述，使用前面训练得到的物体检测模型定位感兴趣的物体。在测试阶段，首先使用选择性搜索算法获取一定数量的候选区域，然后采用与训练阶段一样的卷积神经网络进行特征描述。之后使用前面训练得到的物体表观模型对窗口特征进行分类，从而判断出每个候选窗口是否是感兴趣的物体，得出什么物体在什么位置的结论。这样就完成了只利用图像标签信息实现感兴趣物体的自动检测与标注。

图3是依照本发明实施例采用可信域牛顿法进行优化与其他优化方法结果对比示意图，图4是依照本发明实施例训练得到的物体检测模型预测分数与样本重合度关系示意图，图5是依照本发明实施例采用包分解算法迭代过程中若干物体类别性能改进示意图，图6是依照本发明实施例训练得到的物体检测模型在Pascal VOC2007数据库上的检测结果示意图。

总之，本发明提出了一种新的基于弱监督学习的视觉目标检测与标注方法，使用选择性搜索算法进行候选窗口提取，使用在大量数据上预训练的深层卷积神经网络作为候选窗口特征表达模型和一般先验，并使用一种基于多示例线性支持向量机的算法进行正样本挖掘。通过采用可信域牛顿方法进行模型优化，并利用一种新颖的包分解算法逐步减小正包的模糊性，本方法实现了弱监督场景下的视觉目标检测与自动标注。实验表明该发明与主流弱监督视觉目标检测与标注方法相比，具有更强的正样本挖掘能力和更一般的应用前景，适合于在大规模数据集上的视觉目标检测与自动标注任务。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视觉目标检测与标注方法，其特征在于，包括：

图像输入步骤，输入待检测图像；

2.根据权利要求1所述的方法，其特征在于，所述候选区域提取步骤中的选择性搜索算法进一步包括：

将待检测图像的颜色空间转换为预定颜色空间，利用基于Graph的过分割算法对所述图像进行分割，不断合并相似度最高的两块区域，得到图像的层次化分割结果，将多个颜色空间以及多层次的分割区域集合合并以及去重处理后，获得该图像的候选区域集合。

3.根据权利要求2所述的方法，其特征在于，所述预定颜色空间包括：HSV，RGI，I，Lab。

4.根据权利要求1所述的方法，其特征在于，所述预先训练的卷积神经网络为：基于物体分类数据库ImageNet 2013训练的卷积神经网络。

5.根据权利要求1所述的方法，其特征在于，还包括物体检测模型训练步骤，具体包括：

输入带有图像类别标签的训练集图像；

6.根据权利要求5所述的方法，其特征在于，所述使用多示例线性支持向量机训练物体检测模型，包括：

采用MILinear无约束大间隔多示例学习算法对物体检测模型进行训练，其目标函数为

\min_{w} \frac{1}{2} {| | w | |}^{2} + \frac{C}{| B |} Σ_{i = 1}^{| B |} {(\max (0,1 - y^{i} w^{T} B_{I_{i}}^{i}))}^{2},

7.根据权利要求6所述的方法，其特征在于，采用可信域牛顿法对MILinear算法进行求解，包括：

确定MILinear的优化目标函数是无约束的可导目标函数，其一阶导数是

g (w) = w + 2 \frac{C}{| B |} \underset{i &Element; I_{B}}{Σ} (w^{T} B_{I_{i}}^{i} B_{I_{i}}^{iT} - y^{i} B_{I_{i}}^{iT}),

其中，

I_{B} = {i | 1 - y^{i} w^{T} B_{I_{i}}^{i}, i = 1,2, . . ., | B | > 0}

是间隔小于1的示例的集合；

通过下面公式计算广义Hessian矩阵

其中，I是单位矩阵；

以迭代的方式对目标函数进行优化，计算

\begin{matrix} s^{k} = \min q_{k} (s) = \min_{s} &dtri; f {(w^{k})}^{T} s + \frac{1}{2} s^{T} {&dtri;}^{2} f (w^{k}) s \\ = \min_{s} g {(w^{k})}^{T} s + \frac{1}{2} s^{T} H (w^{k}) s, s . t . | | s | | \leq Δ_{k} \end{matrix},

其中，k是迭代次数，s^k是更新步长，w^k是迭代第k次的权值，Δ_k是可信域，▽f(w^k)＝g(w^k)和▽2f(w^k)(w^k)＝H(w^k)分别是MILinear目标函数的一阶导数和二阶导数；

w^{k + 1} = \{\begin{matrix} w^{k} + s^{k} & if \frac{f (w^{k} + s^{k}) - f (w^{k})}{q_{k} (s^{k})} > η_{0}, \\ w^{k} & otherwise . \end{matrix},

其中η₀是一个预先定义的控制最小可接受实际函数下降的正数。

8.根据权利要求7所述的方法，其特征在于，还包括利用训练好的物体检测模型运行包分解算法，采用迭代方式逐步减少正包的模糊度，具体包括：

通过MILinear训练得到的物体检测模型在训练集图像上得到对所有候选窗口的预测概率，根据此预测概率将正包分解成一个正包和一个负包，在分解后得到的数据集上训练一个新的MILinear物体检测模型，所述分解过程需迭代数次。