CN112861917B

CN112861917B - 基于图像属性学习的弱监督目标检测方法

Info

Publication number: CN112861917B
Application number: CN202110046109.9A
Authority: CN
Inventors: 宋凌云; 李伟; 尚学群; 彭杨柳; 李建鳌; 俞梦真; 贺梦婷; 李战怀
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-12-28
Anticipated expiration: 2041-01-14
Also published as: CN112861917A

Abstract

本发明涉及一种基于图像属性表示学习的弱监督目标检测方法，属于图像处理技术领域。依次包括：标签文本描述数据处理、图像特征的提取及目标建议框的提取、标签文本的特征构建、基于文本和图像特征融合的伪ground‑truth挖掘、图像属性学习和预测模块、目标分类和目标建议框回归。本发明通过图像属性学习增加了目标分类的可解释性，通过利用文本特征和图像特征融合使得挖掘到的伪ground‑truth更加准确，提升了弱监督模型检测的能力。

Description

基于图像属性学习的弱监督目标检测方法

技术领域

本发明属于计算机应用领域、图像处理、文本处理、目标检测研究，特别涉及一种基于图像属性学习的弱监督的目标检测方法。

背景技术

目标检测(Object Detection)是目前计算机视觉领域非常重要的一个研究领域，其研究目标是让计算机能够对图像中的目标进行识别和分类预测。具体过程为向计算机输入一张图像，然后通过对图像特征的提取，从而进行目标的识别和分类。目标检测任务要求计算机能够深入理解图像的内容，提取相应的图像特征，部分问题的解答还要求计算机掌握相关的常识或者特定的知识，因此目标检测研究中涉及到多项的人工智能技术，其中包括目标分类、物体识别和自然语言处理等，这就使得目标检测方法的研究比图像分类在具体目标识别上有着更高的要求和更大的挑战。

在深度学习中，质量较高或者比较完整的数据集的收集还是比较困难的一个任务，对于目标检测方向研究也是如此，对于不太完整的数据集采取基于弱监督的目标检测方法去进行研究。在弱监督的目标检测方法中不仅在挖掘伪ground-truth的过程中使用到了文本的信息，同时也在分类的任务中使用到了图像的属性信息，增加了图像的分类任务的可解释性和目标框预测的准确率。

发明内容

要解决的技术问题

针对现有技术中的不足以及存在的问题，例如在伪ground-truth的挖掘过程中得到的伪ground-truth不是非常好，导致目标位置信息的预测也是不是很准确；对于目标检测中分类的问题，无法确定为什么可以准确的进行分类等问题，本发明提出了一种基于图像属性学习的弱监督目标检测方法，在伪ground-truth的挖掘过程中充分的利用了文本的信息和图像信息之间的关联关系，更准确的挖掘到伪ground-truth，提升了目标位置的识别；在目标分类的任务中使用到了图像属性的表示学习，让目标的分类增加了其可解释性。

技术方案

一种基于图像属性学习的弱监督目标检测方法，其特征在于包括以下步骤：

步骤1，标签文本描述数据处理；

步骤1.1，标签文本描述数据处理，首先将标签的描述文本进行分词，对分词结果建立字典，字典中每个单词与一个唯一的编号对应。

步骤2，图像特征的提取及目标建议框的提取；

步骤2.1，将输入的图像进行resize到800x800x3。

步骤2.2，以原始图像作为输入，采用预训练的VGG-16网络对原始的图像进行特征提取，我们取VGG-16网络最后一个卷积层的输出(尺寸为50x50x512)作为图像的特征。

步骤2.3，目标建议框的提取。利用RPN(Region Proposal Network)网络先进行3x3的卷积，然后分别进行1*1的卷积得到在原图上的22500(50x50x9)个目标建议框和22500建议框前景和背景的预测分数。

步骤2.4，目标建议框的筛选。通过NMS(Non-Maximum Suppression)和目标框是否在原图外对22500个目标建议框进行筛选，最终筛选出2000个属于前景的目标建议框。

步骤2.5，ROI投影。采用ROI(Region of Interset)投影的方法得到目标建议框在图像特征图上区域划分结果，在对特征图经过池化操作后得到2000个目标建议框的特征向量，其每个目标建议框的特征对应一个128000维的特征向量。

步骤3，标签文本的特征构建；

步骤3.1，词性标注。利用Stanford NLP工具包对标签的文本中的单词进行词性的标注，并识别出来句子的每个单词的词性，然后对词性的动词的权重设为1，其它词性的单词设置一个较小的随即权重，权重的范围[0,1]。

步骤3.2，利用Glove(Global Vectors for Word Representation)模型学习标签文本中单词的向量表示。

步骤3.3，采用基于文本注意力机制的双向长短期记忆神经网络对标签文本进行编码(Bidirectional Long Short Term Memory Network,BiLSTM)对标签文本进行编码，得到最后时刻的Bi-LSTM单元的隐状态(hidden state)向量特征，然后对该特征进行Attention机制的编码，将得到的特征向量作为文本表示的特征向量。

步骤4，基于文本和图像特征融合的伪ground-truth挖掘；

步骤4.1，对目标建议框的类别标注。在步骤3中得到文本的特征向量，步骤2中得到目标建议框的特征向量，然后将文本和图像的特征向量通过双线性池化模型(Multi-modal Factorized Bilinear Pooling，MFB)的特征融合方法，利用文本和图像特征计算出来一个融合的分数，然后再和目标建议框的分数做乘积操作，最终观察在哪个标签上的分数最大来确定目标建议框的类别。

步骤4.2，按类别挖掘伪ground-truth。在步骤4.1中已经得到了每个目标建议框的类别，接下来从每一个类别的建议框分别挖掘伪ground-truth。按照目标建议框和其余建议框的IoU值以及目标建议框的分数来挑选伪ground-truth。

步骤5，图像属性学习和预测模块；

步骤5.1，通过步骤4已经得到伪ground-truth，然后计算伪ground-truth和目标建议框的IoU，如果大于0.5打上前景的标签1，如果小于0.5打上背景的标签0，挑选出来128个前景和128个背景进行属性的表示学习。

步骤5.2，利用全连接层对每个目标建议框表示属性学习，将每个目标建议框表示成属性的特征向量。

步骤5.3，利用全卷积神经网络(FCN)捕获属性之间的关联关系，得到整张图像的属性特征向量。

步骤5.4，对FCN预测到的属性特征向量做max pooling操作，然后得到整张图像属性的预测，再利用交叉熵函数计算预测属性和真实属性的损失值。

步骤6，目标分类和目标建议框回归；

步骤6.1，通过步骤5.3已经预测到了每个目标建议框的属性向量f，然后构建一个分类器，将向量f输入到分类器中，利用输出结果就预测到该目标建议框的分类。得到每一个目标建议框的分类结果之后，然后在每个类别上进行max pooling，最终得到整个图像上的一个分类结果。分类器的构造一般为多层感知机(Multilayer Perceptron，MLP)后接Sigmoid函数，再接max函数，分类器的输出为：

α＝Max(Sigmoid(MLP(f)))

其中α是分类器的输出，可以用于对整个图像的分类结果进行预测。损失函数为交叉熵损失函数，公式为：

loss＝-(ylogα+(1-y)log(1-α)

其中y是图像中目标分类的真实标签值，范围为[0,1]分数值。

步骤6.2，对目标检测框进行边框回归。做边框回归是为了得到更准确的检测框，在边框回归中仅对前景建议框做回归，使用的是Smooth L1损失函数，其公式为：

其中t_i表示预测的4个参数变化坐标的向量，

表示前景检测框和ground-truth的4个参数变化坐标的向量。

优选地：步骤2.5中，ROI Pooling方法，具体在于：

(1)将目标建议框的坐标参数映射到50x50大小的特征图上。

(2)再将每个目标建议框对应的特征区域水平分为7*7的网格。

(3)对网格的每一部份都进行最大池化操作，然后得到每个目标建议框在图像特征图上的特征向量，且特征向量的维度都是相同的。

优选地：步骤4.1中所述的对目标建议框的类别标注方法，具体在于：

对于不同模态特征的融合采用基于MLB的融合方法，需要融合的特征包括类别的文本特征x、目标建议框的特征y。双线性池化模型MFB是基于Hadamard product和矩阵分解来对两个特征进行融合的。具体的实现过程中首先将两个不同模态的特征利用多层感知机映射到同一个维度，再利用Hadamard product对映射后的向量进行乘积操作，然后在进行池化操作，计算结果即为融合结果。

该发明中我们就可融合类别的文本特征x、目标建议框的特征y，对融合的特征向量做最大池化操作，然后得到融合的结果f，然后让f经过Sigmoid函数映射到[0,1]之间，该值作为融合的一个分数，该分数是目标建议框的一个新的分数score2，目标建议框原始分数是score1，将新的分数和原始的分数进行乘积操作可得到新的分数score3。一个图像上的每一个文本特征都和一个目标建议框的特征都执行上述操作，然后比较score3在哪个类别上的分数是最大就给哪个建议框打上对应的类别标签。MFBFusion(·)代表特征融合过程，其计算过程可以表示为：

f＝MFBFusion(x,y)

score2＝Sigmoid(f)

score3＝score1×score2

优选地：步骤4.2中按类别挖掘伪ground-truth，具体方法在于：

已经得到目标建议框的类别，接下来按照不同的分类挖掘伪ground-truth，首先对同一个类别的所有目标建建议框根据面积大小进行降序排序，选出当前类别面积最大的目标建议框，然后执行类别的挖掘算法，具体如下：计算最大的目标建议框和其余建议框的IoU(交占比)值，如果交占比大于0.7，然后比较最大建议框和其余建议框的分数，挑选分数交大的框放到伪ground-truth集合中；如果交占比小于0.7，但是目标建议框的分数是大于0.8，那么就将分数较大的框放到伪ground-truth集合中。

优选地：步骤5.2学习每个目标建议框的属性特征表示，具体在于：

在5.1中已经挑选出来256个目标建议框，每个建议框都有相对应的具体类别，然后将建议框的特征向量m、对应类别的文本向量n进行MFB融合。接下来利用全连接层FCN对融合之后的每一个向量进行属性的表示学习，将融合后的特征向量维度映射到属性向量的特征维度。接下来将学习到的每个属性特征连接成一个特征矩阵。

MFB(·)表示融合过程，FCN(·)表示属性学习过程，其计算过程可以表示为：

f＝MFB(m,n)

α＝FCN(f)

其中f表示融合后的特征向量，α表示学习的属性特征向量。

优选地：6.1基于属性的目标分类，具体在于：

通过属性的表示学习以及FCN模块来捕获属性之间的关联关系，最终得到了每个目标检测框的属性特征组成的矩阵f,将f作为预测分类的输入对每个目标建议框的类别进行预测。构建出一个多类别的分类器，将特征矩阵f输入到分类器中，输出向量的每一维的数值就是目标检测框在该类别上是正确类别的概率，根据概率分布，就可以输出该检测框的预测答案。矩阵中的每一个行都是一个检测框在类别上的概率分类，对列作max pooling操作就可以得到整个图像上的分类结果概率预测。

分类器的构造采用多层感知机MLP后接Sigmoid函数的分类器和Max函数，分类器的输出为：

α＝Max(Sigmoid(MLP(f)))

损失函数采用交叉熵函数，公式为：

loss＝-(y logα+(1-y)log(1-α)

其中y是图像真实标签的标注信息，范围为[0,1]分数值。

有益效果

在进行伪ground-truth的挖掘过程中，和传统方法所使用的多示例学习相比，本发明提出的图像和文本融合的弱监督目标检测方法，能够得到图像和文本的关联关系，用这种关联关系可以更准确的挖掘出来更高质量的伪ground-truth。此外，在目标分类的任务中本发明使用了图像的属性表示学习方法，相比较于传统的分类任务，图像的属性分类更具有可解释性。相比之下，传统方法大多在目标检测的任务中仅是从图像本身出发，没有联系其它模态的数据去解决该问题。在标准数据集上的实验结果证明，本发明的模型取得了比现有方法目标检测更为准确。

附图说明

图1为本发明实例中所述方法的模型图。

图2为本发明实例中所述方法的目标建议框的提取模块图。

图3为本发明实例中所述方法的文本处理与特征提取模块图。

图4为本发明实例中所述方法的伪ground-truth挖掘模块图。

图5为本发明实例中所述方法的图像属性表示和预测模块图。

图6为本发明实例中所述方法的目标分类和检测框的边框回归模块图。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本方法基于图像属性表示的弱监督的目标检测方法，使用的模型由五个子模块构成：图像特征的提取及目标建议框的提取、文本处理与特征提取模块、伪ground-truth挖掘的模块、图像属性学习及分类模块、目标的分类和检测框的回归模块。

1、图像的特征提取及目标建议框的提取模块

首先利用卷积神经网络模块(VGG16或者ResNet)对原始的图像进行特征提取。提取的结果就是整张图像上的一个特征向量，然后把这个特征向量当作RPN(RegionProposal Network)网络的一个输入，通过RPN网络最终能提取到整张图像上目标建议框。

在图像的特征提取的处理中，首先将图像resize到800x800x3，本发明采用去除全连接层和Softmax层的VGG-16网络作为图像特征提取器，VGG-16网络参数利用ImageNet预训练好的权重进行初始化。将目标检测问题对应的原始图像输入到VGG-16网络进行前向传播，采用最后一个卷积层的输出作为提取到的图像特征，输出的特征图尺寸大小为50x50x512。

将卷积层提取到的特征输入到RPN(Region Proposal Network)网络中，为了生成区域建议框，在最后一个共享卷积层输出的卷积特征图上做滑动，使用3x3的卷积核，在每个滑动窗口位置，同时预测多个建议框，其中每个位置最大的建议框是K个，一般情况将K设为9，所以会产生4x9个建议框的输出，2x9个建议框的类别输出，其中4代表的是坐标的左上角和中心坐标，2代表的是建议框是属于背景还是属于前景的分数。假设输入的特征长和宽是W*H,那么经过RPN网络会输出9*W*H个建议框，对于的模型来说，会输出22500个建议框。然后筛选这些建议框，最终会取前2000个质量比较高的建议框，采用目标检测SPP-Net中将ROI(Region of Interest)映射到特征图中的方法，对图像特征提取器输出的特征图进行区域划分。对ROI映射的方法叙述如下：将建议框通过坐标变化的方式，得到从建议框到特征图上的映射，坐标变化的方法是像素横纵坐标均除以图像特征提取的卷积核步长，计算结果向上取整后即为原始图像上像素点在特征图上的对应坐标。通过ROI映射，就可以得到每个建议框在特征图上的区域，然后对这个区域进行划分并执行最大池化操作，就会得到建议框的特征向量，并且ROI可以将不同的特征图都池化成大小相同的特征图，利于输出到下一层的网络中。

2、文本处理与特征提取模块

在模型的输入中每个类别都有英文文本的描述，词性标注(POS tagging)可以用于确定英文单词的词性，使用Stanford NLP工具包对文本进行分词和词性的标记，通过词性标记，给名词、动词等词设置的权重比较大，对于其它的词给定一个比较小的随机权重，权重在[0,1]范围。

根据英语语言的特点，输入的类别描述用标点符号和空格进行分词。分词的结果会被转换成one-hot向量表示，单词对应的one-hot词向量在某一维的数值是1，其余维数的值均为0。然后利用词嵌入技术GloVe(Global Vectors for Word Representation)，将单词的one-hot词向量嵌入到词向量空间。最后采用基于文本注意力机制的双向长短期记忆神经网络对标签文本进行编码(Bidirectional Long Short Term Memory Network,BiLSTM)对文本进行编码，将最后一个时刻Bi-LSTM单元的隐状态向量作为整个文本的特征向量。

3、伪ground-truth挖掘模块

通过前两个步骤，不仅得到了图像的特征向量，也得到了文本的特征向量，接下来就可以执行伪ground-truth挖掘的算法了，挖掘出来真正的伪ground-truth，主要分为两个步骤：

3.1对目标建议框的类别标注

已经有2000个目标建议框和类别的文本描述，通过基于双线性池化模型(Multi-modal Factorized Bilinear Pooling，MFB)的特征融合方法，对每一个建议框打上一个类别标签，具体的做法如下：每个建议框都有一个前景类别的分数score1，通过让每一个建议框和一个图像中不同类别的文本特征进行融合，通过Sigmoid函数计算出一个分数score2，让该分数和建议框已有的分数做乘积运算，得到一个新的分数score3，该分数在哪个类别上最大就对该建议框打上该类别的标签，其中文本的特征是x、文本的特征是y。MFB是基于Hadamard product和矩阵分解来对两个特征向量进行融合。MFBFusion(·)代表特征融合的过程，Sigmoid(·)表示对融合的特征值进行0-1之间的映射函数，其计算过程可以表示为：

f＝MFBFusion(x,y)

score2＝Sigmoid(f)

score3＝score1×score2

其中score3就是最终计算出来每个建议框的一个新的分数，然后根据这个最大的分数是在哪个类别上出现就对这份建议框打上相应的标签信息，此时就完成了伪ground-truth的类别挖掘，然后接下来根据建议框的类被分别进行分类的挖掘。

3.2按照类别进行伪ground-truth挖掘

通过上一个步骤类别的确定，得了建议框的类别和新的分数，然后对不同的类别进行伪ground-truth的挖掘，具体的做法如下：将建议框不同的类别进行分类，然后根据建议框的坐标计算出来每一个建议框的面积，根据面积对同一个类别的建议框进行降序的排序操作，然后找出选出一个最大的建议框，让其余的建议框分别和最大的建议框进行交占比(Intersection over Union，IoU)的计算，IoU的具体计算是：两个建议框的重叠区域比两个建议框的总体区域。计算结果会得到[0,1]之间的一个分数。如果这个分数是大于0.7的比较最大的建议框和其余建议框的分数，如果最大框的分数大那就将最大框放入伪ground-truth集合中，否则就将其余的框放入伪ground-truth集合中；如果这个IoU的分数是小于0.7，但是其它框的分数取大于0.8那么就将该框放入到伪ground-truth的集合中。

分别对每个类别进行挖掘，将所有类别伪ground-truth集合中的ground-truth合并起来，如果伪ground-truth的数量是小于20，那么就选这些所有暂选区的伪ground-truth当作整张图像的伪ground-truth；如果合并起来的伪ground-truth的数量是大于20，那么按类别比例进行挑选，选出来20个伪ground-truth。

通过伪ground-truth的挖掘算法产上了监督信息，通过这个监督信息就可以训练前面的RPN网络，让这个网络产生的建议框更准确。通过伪ground-truth去计算和2000个目标建议框的IoU，如果大于0.5就认为是前景，如果小于0.5就认为是背景。挑选出128个前景和128个背景，用这256个目标建议框去训练后面的网络，因此在RPN网络这个模块可以计算一个回归和分类的的损失函数，分类的损失是L_cls,使用的交叉熵损失函数，回归的损失是L_reg，使用的是smooth L1 loss具体计算如下：

下标i是每个建议框的下标，p_i是每个目标框建议框预测前景的概率，

表示目标建议框的标签值，前景是1，背景是0。N_cls表示选出来多少个前景和背景，λ是一个超参数，N_reg表示经过筛选最终得到的那2000个目标建议框的数量，t_i表示每个目标建议框的坐标，

表示是前景的伪ground-truth的坐标。对于属于前景的目标建议框才要计算位置的损失函数，背景不计算位置的损失。

4、图像属性学习及分类模块

对已经选出来的256个目标建议框进行属性的表示学习及分类，对已经选出来的每个目标建议框不仅知道前景和背景，同时还知道每个建议框的类别，利用MLP对对应类别的文本向量x、建议框映射到特征图的向量y进行MFB的融合，得到一个特征向量f，然后对特征向量通过多层感知机(Multi-Layer Perceptron,MLP)进行目标建议框的属性学习得到特征向量m，对256个目标建议框都进行上述操作，完成属性的表示学习。因为图像的属性监督信息是1x64的向量，因此对256个目标建议框进行属性的表示学习，会得到256x64的属性特征向量。其计算过程为：

f＝MLBFusion(x,y)

m＝MLP(f)

因为属性之间都是有关联的，本发明通过全卷积神经网络(Fully ConvolutionalNetworks for Semantic Segmentation，FCN)捕获属性之间的关联关系，将学习到的属性特征矩阵向量，当作是一个图送入到FCN中，通过卷积和反卷积的操作会得到1*64*256*64的一个特征矩阵x，然后对第2个维度进行max pooling记作max1，得到1*256*64的特征矩阵y，然后对每一个属性维度进行max pooling记作max2，得到一个1*64的属性特征向量z。然后计算z和真实的属性向量t之间的损失函数，其中损失函数为交叉熵损失函数(CrossEntropyLoss)，通过这个损失函数可以去更新属性表示学习和捕获属性关联关系的参数，让属性的表示学习更丰富，可以捕捉到属性之间更好的关联关系。其计算过程为：

y＝max1(x)

z＝max2(y)

loss＝-(t logz+(1-t)log(1-z)

5、目标的分类和检测框的边框回归模块

通过属性表示学习和FCN网络已经得到了每个目标建议框的属性特征向量y，然后对属性的特征向量进行分类，直接预测每个目标建议框在类别上的概率分数，采用多层感知机对每个目标检测框进行类别预测，假设有20个类别，预测的结果就是256x21的score矩阵，表示每一个建议框在21(20个前景类别+1个背景)个类别上的概率分数，然后对每一个类别进行max pooling，最终会得到整张图像上的一个预测的类别标签，然后使用整张图像上的标签信息计算出来损失，在这个模块使用的是交叉熵损失函数；另一个分支对256个目标建议框做边框回归，其实实际上只对前景的检测框做边框回归，背景不做边框回归，这样做的目的是获得更准确的检测框，使用的是smooth L1损失函数。计算过程如下：

p＝max(MLP(matrix))

Loss_cls＝BCEloss(p,p^*)

其中matrix为属性特征矩阵，p是整张图像上的属性预测结果，p^*是整张图像上的真实标签信息，Loss_cls是分类的损失函数，Loss_loc是边框回归的损失函数，smooth_L1是边框回归中具体使用的损失函数。

整个模型的训练结束后，保存模型。然后加载该模型，给计算机输入一张图像就可以得到一个图像上目标的定位及分类，完成目标检测任务。

Claims

1.一种基于图像属性表示学习的弱监督目标检测方法，其特征在于步骤如下：

步骤1：标签文本描述数据处理

将标签的描述文本进行分词，对分词结果建立字典，字典中每个单词与一个唯一的编号对应；

步骤2：图像特征的提取及目标建议框的提取

步骤2.1：将输入的图像进行resize到800x800 x3；

步骤2.2：以原始图像作为输入，采用预训练的VGG-16网络对原始的图像进行特征提取，取VGG-16网络最后一个卷积层的输出作为图像的特征；

步骤2.3：目标建议框的提取，利用RPN网络先进行3x3的卷积，然后分别进行1*1的卷积得到在原图上的22500个目标建议框和22500个建议框前景和背景的预测分数；

步骤2.4：目标建议框的筛选，通过NMS和目标框是否在原图外对22500个目标建议框进行筛选，最终筛选出2000个属于前景的目标建议框；

步骤2.5：ROI投影，采用ROI投影的方法得到目标建议框在图像特征图上区域划分结果，在对特征图经过池化操作后得到2000个目标建议框的特征向量，其每个目标建议框的特征对应一个128000维的特征向量；

步骤3：标签文本的特征构建

步骤3.1：词性标注，利用Stanford NLP工具包对标签的文本中的单词进行词性的标注，并识别出来句子的每个单词的词性，然后对词性的动词的权重设为1，其它词性的单词设置一个范围[0,1]的随机权重；

步骤3.2：利用Glove模型学习标签文本中单词的向量表示；

步骤3.3：采用基于文本注意力机制的双向长短期记忆神经网络对标签文本进行编码，得到最后时刻的Bi-LSTM单元的隐状态向量特征，然后对该特征进行Attention机制的编码，将得到的特征向量作为文本表示的特征向量；

步骤4：基于文本和图像特征融合的伪ground-truth挖掘

步骤4.1：对目标建议框的类别标注，在步骤3中得到文本的特征向量，步骤2中得到目标建议框的特征向量，然后将文本和图像的特征向量通过双线性池化模型的特征融合方法，利用文本和图像特征计算出来一个融合的分数，然后再和目标建议框的分数做乘积操作，最终观察在哪个标签上的分数最大来确定目标建议框的类别；

步骤4.2：按类别挖掘伪ground-truth，在步骤4.1中已经得到了每个目标建议框的类别，接下来从每一个类别的建议框分别挖掘伪ground-truth，按照目标建议框和其余建议框的IoU值以及目标建议框的分数来挑选伪ground-truth；

步骤5：图像属性学习和预测模块

步骤5.1：通过步骤4已经得到伪ground-truth，然后计算伪ground-truth和目标建议框的IoU，如果大于0.5打上前景的标签1，如果小于0.5打上背景的标签0，挑选出来128个前景和128个背景进行属性的表示学习；

步骤5.2：利用全连接层对每个目标建议框表示属性学习，将每个目标建议框表示成属性的特征向量；

步骤5.3：利用全卷积神经网络捕获属性之间的关联关系，得到整张图像的属性特征向量；

步骤5.4：对FCN预测到的属性特征向量做max pooling操作，然后得到整张图像属性的预测，再利用交叉熵函数计算预测属性和真实属性的损失值；

步骤6：目标分类和目标建议框回归

步骤6.1：通过步骤5.3已经预测到了每个目标建议框的属性向量

，然后构建一个分类器，将向量f输入到分类器中，利用输出结果就预测到该目标建议框的分类；得到每一个目标建议框的分类结果之后，然后在每个类别上进行max pooling，最终得到整个图像上的一个分类结果；分类器的构造为多层感知机后接Sigmoid函数，再接max函数，分类器的输出为：

其中

是分类器的输出，可以用于对整个图像的分类结果进行预测；损失函数为交叉熵损失函数，公式为：

其中y是图像中目标分类的真实标签值，范围为[0,1]分数值；

步骤6.2：对目标检测框进行边框回归，做边框回归是为了得到更准确的检测框，在边框回归中仅对前景建议框做回归，使用的是

损失函数，其公式为：

其中

表示预测的4个参数变化坐标的向量，

表示前景检测框和ground-truth的4个参数变化坐标的向量。

2.根据权利要求1所述的一种基于图像属性表示学习的弱监督目标检测方法，其特征在于：步骤2.5中所述的ROI Pooling方法，具体在于：

（1）将目标建议框的坐标参数映射到50x50大小的特征图上；

（2）再将每个目标建议框对应的特征区域水平分为7*7的网格；

（3）对网格的每一部份都进行最大池化操作，然后得到每个目标建议框在图像特征图上的特征向量，且特征向量的维度都是相同的。

3.根据权利要求1所述的一种基于图像属性表示学习的弱监督目标检测方法，其特征在于：步骤4.1中所述的对目标建议框的类别标注方法，具体在于：

对于不同模态特征的融合采用基于MLB的融合方法，需要融合的特征包括类别的文本特征x、目标建议框的特征y；双线性池化模型MFB是基于Hadamard product和矩阵分解来对两个特征进行融合的；具体的实现过程中首先将两个不同模态的特征利用多层感知机映射到同一个维度，再利用Hadamard product对映射后的向量进行乘积操作，然后在进行池化操作，计算结果即为融合结果；

就可融合类别的文本特征x、目标建议框的特征y，对融合的特征向量做最大池化操作，然后得到融合的结果f，然后让f经过Sigmoid函数映射到[0,1]之间，该值作为融合的一个分数，该分数是目标建议框的一个新的分数score2，目标建议框原始分数是score1，将新的分数和原始的分数进行乘积操作可得到新的分数score3；一个图像上的每一个文本特征都和一个目标建议框的特征都执行上述操作，然后比较score3在哪个类别上的分数是最大就给哪个建议框打上对应的类别标签；MFBFusion(·)代表特征融合过程，其计算过程可以表示为：

。

4.根据权利要求1所述的一种基于图像属性表示学习的弱监督目标检测方法，其特征在于：步骤4.2中按类别挖掘伪ground-truth，具体方法在于：

已经得到目标建议框的类别，接下来按照不同的分类挖掘伪ground-truth，首先对同一个类别的所有目标建议框根据面积大小进行降序排序，选出当前类别面积最大的目标建议框，然后执行类别的挖掘算法，具体如下：计算最大的目标建议框和其余建议框的IoU交占比值，如果交占比大于0.7，然后比较最大建议框和其余建议框的分数，挑选分数交大的框放到伪ground-truth集合中；如果交占比小于0.7，但是目标建议框的分数是大于0.8，那么就将分数较大的框放到伪ground-truth集合中。

5.根据权利要求1所述的一种基于图像属性表示学习的弱监督目标检测方法，其特征在于：步骤5.2学习每个目标建议框的属性特征表示，具体在于：

在5.1中已经挑选出来256个目标建议框，每个建议框都有相对应的具体类别，然后将建议框的特征向量m、对应类别的文本向量n进行MFB融合；接下来利用全连接层FCN对融合之后的每一个向量进行属性的表示学习，将融合后的特征向量维度映射到属性向量的特征维度；接下来将学习到的每个属性特征连接成一个特征矩阵；MFB(·)表示融合过程，FCN(·)表示属性学习过程，其计算过程可以表示为：

其中f表示融合后的特征向量，

表示学习的属性特征向量。

6.根据权利要求1所述的一种基于图像属性表示学习的弱监督目标检测方法，其特征在于：步骤6.1基于属性的目标分类，具体在于：

通过属性的表示学习以及FCN模块来捕获属性之间的关联关系，最终得到了每个目标检测框的属性特征组成的矩阵f，将f作为预测分类的输入对每个目标建议框的类别进行预测；构建出一个多类别的分类器，将特征矩阵f输入到分类器中，输出向量的每一维的数值就是目标检测框在该类别上是正确类别的概率，根据概率分布，就可以输出该检测框的预测答案；矩阵中的每一个行都是一个检测框在类别上的概率分类，对列作max pooling操作就可以得到整个图像上的分类结果概率预测；

损失函数采用交叉熵函数，公式为：

其中y是图像真实标签的标注信息，范围为[0,1]分数值。