CN107730553A

CN107730553A - 一种基于伪真值搜寻法的弱监督物体检测方法

Info

Publication number: CN107730553A
Application number: CN201711065776.1A
Authority: CN
Inventors: 张永强; 丁明理; 李贤�; 杨光磊; 董娜
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2018-02-23
Anticipated expiration: 2037-11-02
Also published as: CN107730553B

Abstract

本发明涉及一种基于伪真值搜寻法的弱监督物体检测方法，是为了解决现有的全监督物体检测器需要依靠大量的有标注信息的数据库，以及当图片中含有多个物体且物体相互遮挡时物***置检测不准确而提出的，包括：将训练样本中的图片输入到弱监督物体检测器中；将弱监督物体检测器的输出结果进行非极大抑制处理(NMS)，将超过预定的得分阈值的边界框保留；在保留下来的边界框中，删除被完全包含在其他边界框中的边界框；计算该边界框与其他边界框的重合面积，将重合面积大于一定阈值的边界框进行融合；将融合后的边界框的信息作为伪真值信息输入给全监督物体检测器，得到检测结果。本发明适用于物体检测技术，尤其是真实场景中的一般物体检测技术。

Description

一种基于伪真值搜寻法的弱监督物体检测方法

技术领域

本发明涉及机器视觉领域，具体涉及一种基于伪真值搜寻法的弱监督物体检测方法。

背景技术

物体检测是机器视觉领域中一个非常重要的研究课题，它是图像分割、物体追踪、行为动作分析识别等高级任务的基础技术。此外，随着移动互联网技术的发展图像和视频的数量呈***式的方式增长，急需一种可以快速准确的识别、定位图像和视频中物体的技术，以便后续图像视频的智能分类和关键信息的获取。现在物体检测技术被广泛应用到现代社会中，如安防领域中的人脸检测、行人检测，智能交通中的交通标志识别、车辆检测追踪，自动导航驾驶、机器人路径规划等。

由于物体检测技术具有重要的理论研究价值和迫切的实际应用需求，针对物体检测的相应技术也在不断发展跟新，本发明将其大致分为两类：基于滑动窗口的传统方法和基于深度学习的现代方法。

传统的方法是给定一张被检测图片，利用滑动窗口的方法对整个图像进行一次遍历。由于被检定图像可能出现在图像中的任何位置，而且目标的尺寸、宽高比都是不确定的，所以需要设计不同尺度的、不同宽高比的窗口多次在被检测图像上滑动。这种传统的穷举的方法总会找到物体出现的位置(称为候选区域)，但是却有着明显的缺点：如果滑动窗口尺度和宽高比较少、步长太大，则不能检测到所有的物体；如果滑动窗口尺度和宽高比较多且步长小，则导致冗余窗口太多、耗时太长，不能满足实际应用中实时性的需求。通过滑动窗口选定每一个候选区域后，传统方法采用手动的方式提取这些候选区域的特征(称为浅层特征)，常见的方法有尺度不变特征转换提取分析法(Scale-invariant featuretransform,SIFT)、哈尔特征法(Haar-like features)、方向梯度直方图特征提取法(Histogram of Oriented Gradient,HOG)、局部二值特征提取法(Local Binary Pattern,LBP)等。为了提高识别定位精度，通常会融合上述多种特征提取法产生的特征作为候选区域的特征。最后，设计一个分类器来识别各个候选区域中物体的类别，常见的分类器有：支持向量机(Support Vector Machine,SVM)，自适应增强法(Adaptive Boosting,AdaBoost)等，基于传统方法物体检测的流程图如图1所示。传统的“滑动窗口+人工提取特征+浅层分类器”的框架，由于过多的冗余窗口和特征表达能力较弱(浅层特征)导致计算速度和检测精度都不能满足实际需求。

2012年之后，深度学***衡了检测时间和检测精度之间相互矛盾的问题，并在较快的检测时间下可以得到较高的检测精度。

然而，不管是基于滑动窗口的传统技术还是基于深度学习的现代技术，现阶段的研究都是在固定的数据库(PASCAL VOC,Microsoft COCO等，详见表1)上进行，且需要对数据集中的每一张图片中包含哪些物体及物体出现的具***置进行标注。而基于深度学习的方法又依赖于大量的训练数据(几万到几十万张图片)，构建如此大型的有标注的数据库是一个耗时耗力的巨型工程。此外，这些标记的数据库有以下缺点：第一，数据库中的物体类别有限，实际应用中的真实场景下的物体类别可能与数据库的物体类别不相符或者远远超过这些数据库中的类别；第二，在人工标注物体在图像中的位置时具有一定的主观性，尤其是在图片中含有多个物体且物体相互遮挡的情况下，这会导致标注具有一定的偏差，这些标注偏差在训练模型的时候很可能使模型收敛于某个局部最优解，最终结果就是物***置检测不准确。

发明内容

本发明的目的是为了解决现有的全监督物体检测器需要依靠大量的有标注信息的数据库，同时解决当图片中含有多个物体且物体相互遮挡时标注误差使得物***置检测不准确，以及实际应用中需要检测的物体可能与数据库的物体类别不相符或者远远超过这些数据库中的类别的缺点，而提出一种基于伪真值搜寻法的弱监督物体检测方法，包括：

步骤1)、构建训练样本。

步骤2)、将训练样本中的图片输入到基于多事例学习方法(Multiple-InstanceLearning)的弱监督物体检测器中。

步骤3)、将弱监督物体检测器的输出结果进行非极大抑制处理，将处理结果中超过预定的得分阈值的边界框保留，去除低于得分阈值的边界框。

步骤4)、在步骤3)保留下来的边界框中，删除被完全包含在其他边界框中的边界框；

步骤5)、对于步骤4)中得到的每一个边界框，计算该边界框与其他边界框的重合面积，将重合面积大于一定阈值的边界框进行融合。

步骤6)、将步骤5)中得到的边界框的信息作为伪真值输入给全监督物体检测器,得到检测结果。其中伪真值并是真正人工标记的真值信息，是通过本实施方式的方法找到一个真值的近似值来充当真值。

本发明的有益效果为：1、本发明使得基于深度学习的物体检测技术不受训练数据稀缺和人为标注数据偏差等问题的限制，促进了基于深度学习在真实场景下物体检测的应用；2、当图片中含有多个物体且物体相互遮挡时也能达到较为准确的检测结果；3、本发明实验结果中的mAP数据为51.7％，明显高于现有技术的41.6％以及45.8％；本发明实验结果中的Corloc数据为69.4％，明显高于现有技术的61.4％以及65.0％。

附图说明

图1为基于传统方法的物体检测流程图；

图2为基于候选区域深度学习的物体检测流程图；

图3为弱监督物体检测器检测结果示例图；图3(a)至图3(e)表示对不同图像的检测结果；

图4为弱监督物体检测器检测结果得分示例图；

图5为一般方法与伪真值搜寻法示意图；其中图5(a)表示现有技术的一般方法；图5(b)表示本发明的方法；

图6为基于伪真值搜寻法的弱监督物体检测方法流程图；

图7为基于多事例学习的弱监督检测器示意图；

图8实验结果图；图8(a)至图8(o)为针对不同图像的实验结果。

具体实施方式

具体实施方式一：本实施方式的基于伪真值搜寻法的弱监督物体检测方法，包括：

步骤1)、构建训练样本；

步骤2)、将训练样本中的图片输入到基于多事例学习方法(Multiple-InstanceLearning)的弱监督物体检测器中；

步骤3)、将弱监督物体检测器的输出结果进行非极大抑制处理，将处理结果中超过预定的得分阈值的边界框保留，去除低于得分阈值的边界框；

步骤5)、对于步骤4)中得到的每一个边界框，计算该边界框与其他边界框的重合面积，将重合面积大于一定阈值的边界框进行融合；

步骤6)、将步骤5)中得到的边界框的信息作为伪真值输入给全监督物体检测器,得到检测结果。

步骤3)至步骤5)的过程可以根据图5(b)做具体描述：图5(b)中从左数的第一幅图是输入的原图片，第二幅是通过步骤3)非极大抑制处理并且经过阈值过滤的边界框，第三幅图是将第二幅中包含在其他边界框中的边界框进行删除，第四幅图是将图四中具有一定重合面积的边界框进行了融合，可以看出，此处使用的融合方法是取需要融合的两个框构成的区域中，最高的高度作为新边界框的高度，最宽的宽度作为新边界框的宽度。可以将图5(b)与图5(a)进行比较，可以看出传统方法识别出人的边界框只包含头部，而本发明改进后的方法生成的边界框中，包含了人的整体信息，使得识别更加准确和全面。

具体而言，本发明以真实场景下的图像(视频帧)为研究对象，具体检测对象的类别可以根据自己的实际问题决定。由于现在互联网技术的发展，图片视频获取设备已经普及，据统计现在YouTube上的图片和视频正在以58张图片每秒及3.6个视频每秒的速度增长。使用者只要根据自己的检测类别以关键字的形式在搜索引擎上爬取图片，就可以建立和自己实际问题相符合的数据库，解决了现有固定数据库中物体类别少，物体类别与实际需要检测类别不相符的问题。同时，由于不需要位置信息的标注，不需要大量的人力物力去标注数据库，也避免了人为标注主观性引进的偏差。

建立训练数据库之后，就可以利用现有的弱监督物体检测技术训练一个弱监督物体检测器。所谓弱监督，指的是每一个训练样本都有对应的监督信息，但是这里的监督信息是简单的信息或者是不完全的信息，例如本发明中的弱监督是指每张图片都有物体类别信息(图片中包含哪些物体)，但是没有物***置信息(物体在哪)。现有的弱监督物体检测技术都是把在弱监督信息下的物体检测看成一个多事例学习(Multiple InstanceLearning,MIL)问题，这种方法有两个缺点：第一，模型对于初始化比较敏感；第二，它是一个非凸问题，模型会收敛于一个局部最优解。直观反映就是物体检测器只能检测到一个物体最有特点的部分，而不是物体的整个部分，例如检测行人的时候，只能检测到人脸的位置而非全部身体、检测动物的时候只能定位物体的头部而非整个身体，如图3所示。

其中多示例学习(Multiple Instance Learning简称MIL)是由监督型学习算法演变出的一种方法。具体来说，多示例学习中，定义“包”为多个示例的集合。与其他Classification方法不同，此方法仅对“包”作标签，“包”中的示例并无标签。定义“正包”：包中至少有一个正示例；反之，当且仅当“包”中所有示例为负示例时，该“包”为“负包”。对应到本发明中，将一张图片看成一个“包”，将所有的selective search(selective search是用于产生候选区域的算法)产生的候选区域看成许多示例。现在，多事例学习法已经是一种比较成熟的方法。

本发明对弱监督物体检测器展开研究，发现物体检测器绝大多数情况下是可以检测到整个物体，只是包含整个物体的检测框(bounding box)的得分较低，而强调物体最有特点部分的框的得分较高，如图4所示。同时，由于训练的时候没有位置标注信息，物体检测器不具有回归能力，这会导致部分检测结果确实只包含物体最有特点的部分或者包含整个物体的同时也包含太多的背景信息，这些结果是导致检测失败(识别率降低)的根本原因。为了解决弱监督检测器识别率低的问题，本发明提出一种从弱监督到全监督学习的框架：将弱监督检测器的输出结果作为物***置信息的真值，以这个伪真值去训练一个全监督物体检测器，因为全监督学习具有很强的回归能力。针对真值选取问题，一个最简单可行的方法就是选取弱监督检测器输出结果中得分最高的边界框作为真值。但是此方法存在两个问题：第一，针对一张图片中的每一类物体只能找到一个边界框，即使图片中包含多个物体；第二，被选出的伪真值值包含物体最有特点的部分，而不是物体全部，如图5(a)所示。针对以上问题及分析，本发明提出一种“基于伪真值搜寻法的弱监督物体检测方法”。具体来说，对弱监督检测器的输出结果首先进行非极大抑制(Non Maximum Suppression,NMS)处理，之后删除那些被完全包含在较大边界框里边的只包含部分物体的边界框，最后融合那些具有一定重叠面积比例(intersection-of-union,IoU)的边界框，流程图如图6所示。经过上述处理之后，每一个物体的伪真值(边界框)都被找到且更为准确，如图5(b)所示。以这些更为精确的边界框作为真值(ground truth)去训练一个全监督的物体检测器，利用全监督物体检测器的强回归能力(可以根据真值对物体的边界框进行调整)，可以解决弱监督物体检测器识别率低的问题。

本发明的“基于伪真值搜寻法的弱监督物体检测方法”可以利用全监督学习的方法来解决弱监督物体检测问题，在不需要标注信息的情况下得到较高的物体检测率。解决了物体检测技术在现实应用中标注数据库中的物体类别与现实应用中物体类别不相符问题，同时克服了标注数据库耗时费力的问题。对基于深度学习的物体检测技术从实验室到实际应用起到了一定的推动作用，促进了弱监督物体检测技术的发展。

具体实施方式二：本实施方式与具体实施方式一不同的是：步骤一具体包括：

步骤1.1)、接收用户输入的关键词；所述关键词用于表示物体的类别；

步骤1.2)、使用所述关键词在搜索引擎中进行检索，选取预设数量的检索结果并将所述关键词作为所述检索结果的标注信息。

即本发明只需知道图片中简单的物体类别信息，不需要复杂的物***置信息就可对模型进行训练。这里简单的物体类别信息可以通过许多种方法获取，例如以关键字(“行人”，“车辆”等等)的形式在搜索引擎中搜索图片，下载排在前面的几千张就可以作为训练样本，不需要进行人工标注。

可以理解为，在使用本发明的方法时，可以由用户自行构建训练集，可以不使用已有的图片数据库，构建训练集的过程是:由用户在图片搜索引擎里输入用于来表示物体的关键词，然后爬取搜索结果中一定数量的图片，这些图片一般是含有关键词所表示的物体的，也就是说相当于在搜索和爬取的过程中就自动做了标注，不再需要人工标注，这很好地解决了已有的数据库很难适应不断改变的新物体、新图片的情形。现有的其他物体检测方法需要依赖具有标记信息的大型数据库，无法根据用户自行构建的仅具有简单图片信息的数据库进行训练和检测。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：步骤1)中，训练样本集可以是PASCAL VOC 2007/2012、MC COCO、WIDER FACE以及FDDB数据库中的任意一个，或者是按照具体实施方式二的方法构建的数据库。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：步骤1)中，训练样本中的图片的尺寸满足：

图片的最短边为{480,576,688,864,1200}五个尺度中的随机一种；图片的最长边小于等于2000。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：步骤2)具体包括：

步骤2.1)使用选择性搜索算法在训练样本的图片中提取预设数量的候选区域；

步骤2.2)将所述候选区域输入至已在ImageNet数据集上训练过的VGG16网络模型得到用于表示细节信息的浅层特征以及用于表示语义信息的深层特征，再通过RoI池化方法获取每一个候选区域的特征，并将候选区域特征由二维矩阵表示形式转换为一位向量表示形式，得到每个候选区域的全连接特征；

步骤2.3)将所述全连接特征输入至基于多事例学习方法的弱监督物体检测器中，弱监督物体检测器中具有用于为候选区域中的物体类别打分的分类分支以及用于为候选区域的位置信息进行打分的检测分支；然后将分类分支和检测分支的得分相乘得到此候选区域的得分；

步骤2.4)将每个候选区域的得分作为监督信息输入至相互级联的3个优化网络中，对优化网络进行后项传播计算，得到优化后的结果。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：步骤5)中，融合的过程为：

对于重合面积大于一定阈值的两个边界框所形成的区域，取该区域水平方向最宽的宽度作为融合后边界框的宽度，取该区域垂直方向最高的高度作为融合后边界框的高度，根据所述宽度和高度生成融合后的矩形框。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是：步骤4)具体为：

步骤4.1)、在步骤3)保留下来的边界框中，选取面积最大的边界框；

步骤4.2)、删除被该边界框完全包含的所有边界框；步骤4.3)、在未选取过的边界框中，选取面积最大的边界框，并返回执行步骤4.2)；

步骤4.4)、重复执行步骤4.3)，直至所有边界框处理完成。

即在步骤3)保留下来的边界框中，每次选出未处理过的边界框中面积最大的，删除被它完全包含在内的小边界框，以此类推，直至所有边界框处理完成。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是：步骤6)中，全监督物体检测器为Fast-RCNN、Faster-RCNN、YOLO、SSD中的任意一种。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：

本实施方式提供一个具体的实施过程：

如图6所示，首先根据自己的实际需求准备训练样本，然后依据多事例学习(MIL)方法训练一个弱监督物体检测器。之后，利用伪真值搜寻法对弱监督物体检测器的输出结果进行处理，得到训练样本中每个物体的位置信息(伪真值)。最后以这个位置信息作为真值去训练一个全监督的物体检测器，全监督的物体检测器将给出一个更为准确的检测结果。下面对每部分进行详细描述：

首先准备训练样本。训练样本可以根据实际需求以关键字的型式从搜索引擎上获取，如果是一般物体的检测也可以利用现有的物体检测数据库，如PASCAL VOC,MC COCO等，如果是特定物体的检测如人脸检测，可以选用WIDER FACE,FDDB等数据库。本发明中，为了不失一般性选取PASCAL VOC 2007数据库中的trainval部分作为训练样本，以test部分作为测试测数据。需要说明的是，本发明在训练样本中只使用了类别信息，没有使用物体的位置信息。在训练阶段，为了进一步增加训练样本、增强训练模型的通用性、增加模型的鲁棒性，将所有样本进行了左右翻转，并将翻转后的图像加入到训练数据集中。此外，为了适应真实场景中物体的多尺度变化，本发明在保持数据集图片的长宽比的基础上，从{480,576,688,864,1200}五个尺度中随机选取一个尺度作为训练样本的最短边，同时考虑到GPU的内存问题设定训练样本的最长边不大于2000。

训练弱监督检测器(weakly-supervised detector,WSD)。本发明利用多事例学***行的优化网络，如图7所示。对于一个输入样本，首先利用selective search提取大约2000个候选区域(proposals)，接着使用现有的在ImageNet上训练好的VGG16网络模型提取特征，提取的特征包括浅层特征(细节信息)，深层特征(语义信息)。这个特征是整张图片的特征。

最后利用RoI池化的方法获取每一个候选区域的特征(从整张图片的特征上面截取候选区域对应的部分作为候选区域的特征)，进而得到每个候选区域的全连接特征。在多事例学习网络中，输入为每个候选区域的全连接特征，两个并列的分类和检测分支的作用分别为判断每个候选区域的类别和对每一个候选区域的位置信息进行打分，最后将分类分支和检测分支的得分相乘得到此候选区域的得分。在优化网络中，以多事例学习网络中的每个候选区域的得分作为监督信息，对网络进行后项传播计算，进一步提高识别率。考虑到训练时间与识别率间的关系(识别率与优化网路的个数呈非线性增长关系，但是训练时间与识别率呈线性关系增长关系)，本发明将优化网络的个数设定为3。

伪真值搜寻法(Pseudo Ground-truth Excavation,PGE)。在弱监督检测器训练的过程中没有用到位置信息，所以弱监督检测器的识别率有限。具体表现为：只能检测到物体的一部分而不是整个物体(例如，人的脸部而不是人的身体)，或者是包含太多的背景信息，这些结果是导致识别率低的根本原因。为了进一步提高识别率，本发明将全监督的方法引用到弱监督物体检测中，但是全监督学习需要物体的位置信息作为监督信息来训练网络，一个最简单方法就是选取弱监督检测器输出结果中每一类物体得分最高的候选区域作为位置信息的真值，以这个伪真值去训练一个全监督物体检测器。利用全监督学习的回归能力来进一步提高物体检测率。但是，这种方法存在两个缺点：第一，针对每个训练样本，一类物体只能找到一个边界框，即使这个样本中含有相同类别的多个物体；第二，被找到的边界框不够准确，一般情况只能检测物体最有特点的一部分，如图5所(a)示。针对上述问题，本发明提出一种伪真值搜寻法，具体过程包括三部分：第一，对弱监督检测器的输出结果进行非极大抑制(NMS)处理，然后保留得分超过一定阈值的边界框，这样训练样本中每个物体都可以有若干边界框被保留下来，其中包括得分较高的只包含部分物体的边界框和得分较低但包含整个物体的边界框，如图5(b)中第二张图片所示；第二，本发明对经过NMS处理后的结果进行研究，发现那些得分较高的部分物体的边界框一般情况下都被完全包含在得分较低但包含真个物体的边界框里边，为了使选取的位置信息更准确，本发明删除了这些被包含的部分物体的边界框，如图5(b)中第三张图片所示；第三，经过第二步操作后，针对训练样本中的每一个物体，本发明计算与这个物体相关的所有边界框间的重合面积(intersection of union,IoU)，并将IoU大于一定阈值的框进行融合，如图5(b)中第四张图片所示。经过上述三步处理之后，训练样本中每个物体都有一个边界框与之相对应，同时这个边界框相比通过最高分法选取的结果更准确。

训练全监督检测器(fully-supervised detector,FSD)。经过伪真值搜索后，训练样本中每个物体都有一个较为准确的位置信息。利用这个位置信息作为真值，就可以训练一个全监督物体检测器。全监督物体检测器不是本发明的重点，它可以是现存的任何物体检测器，如Fast-RCNN,Faster-RCNN,YOLO,SSD等等。本发明选用Fast-RCNN作为全监督物体检测器，训练总迭代次数为70000次，前40000次迭代的学习率为0.01，后30000次迭代的学习率为0.001。

经上述步骤训练的物体检测网络，在不需要位置信息标注的情况下可以实现物体检测功能，可以根据实际需求应用到真实场景中的物体检测，不受现有物体检测数据库物体类别的限制，不需要花费人力物力去对每一个训练样本进行标注。实验证明本发明的“基于伪真值搜寻法的弱监督物体检测方法”定位精度准确，同时检测效率高，表二为实验结果对比数据，其中mAP是平均准确率(mean Average Precision)，是对测试样本进行评估的一个指标，Corloc是正确定位率(Correct Location)，是对训练过程中训练样本的定位效果进行评估的一个指标。从对比数据中可以看出，本发明提出的“弱监督物体检测器+伪真值搜寻法+全监督检测器”的框架比弱监督检测器的检测结果有一个巨大的提升，同时本发明的“伪真值搜寻法”和“得分最高法”相比，检测结果也有很大的提升。图8为实验结果图，其中较大的检测框为本发明中“基于伪真值搜寻法的弱监督物体检测方法”的检测结果，较小的检测框为“弱监督物体检测器+最高得分法+全监督检测器”的检测结果，从图中看出本发明的方法明显优于另一种方法。

表1物体检测常用数据库汇总

表2实验结果对比数据

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于伪真值搜寻法的弱监督物体检测方法，其特征在于，包括：

步骤1)、构建训练样本；

步骤2)、将训练样本中的图片输入到基于多事例学习法的弱监督物体检测器中；

步骤6)、将步骤5)中得到的边界框的信息输入给全监督物体检测器,得到检测结果。

2.根据权利要求1所述的基于伪真值搜寻法的弱监督物体检测方法，其特征在于，步骤1)具体包括：

3.根据权利要求1所述的基于伪真值搜寻法的弱监督物体检测方法，其特征在于，步骤1)中，训练样本为PASCAL VOC 2007/2012、MC COCO、WIDER FACE以及FDDB数据库中的任意一个。

4.根据权利要求1所述的基于伪真值搜寻法的弱监督物体检测方法，其特征在于，步骤1)中，训练样本中的图片的尺寸满足：

5.根据权利要求1所述的基于伪真值搜寻法的弱监督物体检测方法，其特征在于，步骤2)具体包括：

步骤2.2)将所述候选区域输入至已在ImageNet数据集上训练过的VGG16网络模型得到用于表示细节信息的浅层特征以及用于表示语义信息的深层特征，再通过RoI池化方法获取每一个候选区域的特征，并将候选区域特征由二维矩阵表示形式转换为一维向量表示形式，得到每个候选区域的全连接特征；

6.根据权利要求1所述的基于伪真值搜寻法的弱监督物体检测方法，其特征在于，步骤4)具体为：

步骤4.4)、重复执行步骤4.3)，直至所有边界框处理完成。

7.根据权利要求1所述的基于伪真值搜寻法的弱监督物体检测方法，其特征在于，步骤5)中，融合的过程为：

8.根据权利要求1所述的基于伪真值搜寻法的弱监督物体检测方法，其特征在于，步骤6)中，全监督物体检测器为Fast-RCNN、Faster-RCNN、YOLO、SSD中的任意一种。