CN110084253A

CN110084253A - 一种生成物体检测模型的方法

Info

Publication number: CN110084253A
Application number: CN201910369466.1A
Authority: CN
Inventors: 齐子铭; 李启东; 陈裕潮; 张伟; 李志阳
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2019-08-02

Abstract

本发明公开了一种生成物体检测模型的方法，包括：获取包含标注数据的训练图像，标注数据为训练图像中目标物体的位置和类别；将训练图像输入预训练的物体检测模型中进行处理，所述物体检测模型包括相互耦接的特征提取模块和预测模块，其中，特征提取模块适于对训练图像进行卷积处理，以生成至少一个初始特征图；预测模块适于从至少一个特征图中预测出目标物体的类别和位置；基于标注数据与预测的物体类别和位置，对预训练的物体检测模型进行训练，以得到训练后的物体检测模型作为所生成的物体检测模型。

Description

一种生成物体检测模型的方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种生成物体检测模型的方法、物体检测方法、计算设备及存储介质。

背景技术

物体检测是很多计算机视觉任务的基础，适于定位并识别输入图像中已知的一个或多个目标，通常被应用于场景内容理解、视频监控、基于内容的图像检索、机器人导航和增强现实等领域。

传统的物体检测方法一般分三个阶段：首先，提取候选框区域，采用滑动窗口对整幅图像遍历得到物体可能出现的位置；然后，对这些提取的候选框区域提取特征，常用的方法有SIFT(尺度不变特征变换)、HOG(方向梯度直方图)等；最后，将特征输入分类器进行分类，常用的分类器有SVM(支持向量机)、Adaboost(迭代算法)等。传统的物体检测方法时间复杂度高，窗口冗余，需要手动设计特征，对物体多样性的变化鲁棒性低。

近年来基于深度学习的目标检测方法取得了重要的进展。主流方法主要分为两个类型：一类是基于区域提名的两段式算法，即将检测问题划分为两个阶段，首先，通过启发式方法产生一系列稀疏的候选框，然后对这些候选框进行分类和回归。典型的有R-CNN(基于区域的卷积神经网络)、SPPNet(空间金字塔池化网络)，以及各种改进的R-CNN系列算法等。这种方式检测准确度较高，但是计算速度较慢。一种是端到端的单段式算法，即不需要区域提取阶段，直接产生物体的类别概率和位置坐标。通过均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同的尺度和长宽比，然后利用卷积神经网络提取特征后直接进行分类和回归。典型的有YOLO、SSD等。这种方式检测速度快，但是准确率较低。

因此，需要一种物体检测方法，能够在减少模型大小的同时提高模型的计算速度和准确率。

发明内容

为此，本发明提供了一种生成物体检测模型的方法，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种生成物体检测模型的方法，该方法适于在计算设备中执行，包括：首先，获取包含标注数据的训练图像，标注数据为训练图像中目标物体的位置和类别。然后，将训练图像输入预训练的物体检测模型中进行处理，其中物体检测模型包括相互耦接的特征提取模块和预测模块。特征提取模块适于对训练图像进行卷积处理，以生成至少一个特征图；预测模块适于从至少一个特征图中预测出目标物体的类别和位置。最后，基于标注数据与预测的物体类别和位置，对预训练的物体检测模型进行训练，以得到训练后的物体检测模型作为所生成的物体检测模型。

可选地，在上述方法中，特征提取模块包括卷积处理单元、多个轻量化卷积单元和叠加单元，所述叠加单元适于将相互耦接的多个轻量化卷积单元的输出结果进行叠加。

可选地，在上述方法中，所述卷积处理单元的第一个卷积层的卷积核大小为7*7。

可选地，在上述方法中，轻量化卷积处理单元包括相互耦接的的卷积核大小为1*1的卷积层、卷积核大小为3*3的深度可分离卷积层以及卷积核大小为1*1的卷积层。

可选地，在上述方法中，预测模块包括类别预测单元和位置预测单元，类别预测单元适于输出图像中各个物体的类别置信度，位置预测单元适于输出图像中预测目标物体的位置。

可选地，在上述方法中，标注的目标物体的位置为目标物体的特征点坐标或真实物体框。

可选地，在上述方法中，预测模块还包括候选框生成单元和候选框匹配单元。候选框生成单元适于对特征提取模块输出的各个特征图按照不同的大小和长宽比生成对应的多个候选框，候选框匹配单元适于选取与真实物体框匹配的候选框，以便基于匹配的候选框进行预测。

可选地，在上述方法中，基于标注的真实物体框位置与预测物体框位置之间的定位损失值和标注的类别与预测类别置信度之间的类别置信度损失值，更新物体检测模型的参数，直到所述定位损失值和类别置信度损失值的加权和满足预定条件时，训练结束。

可选地，在上述方法中，基于下述公式计算定位损失值和类别置信度损失值的加权和：

其中，L_loc为定位损失值，L_conf为分类置信度损失值，N为匹配的候选框的数量，α为权重系数，g是真实物体框的位置，l为预测物体框的位置，x为标注的类别，c为类别置信度。

可选地，在上述方法中，基于下述公式计算定位损失值：

其中，i为预测物体框的序号，j为真实物体框的序号，cx，cy为候选框的中心，w，h为候选框的宽和高，m表示候选框的大小，为第i个预测物体框与第j个真实物体框之间的位置偏差，Pos表示训练图像中正样本候选框的数量，N表示匹配的候选框的数量，表示第i个预测物体框与第j个真实物体框关于类别k是否匹配。

可选地，在上述方法中，基于下述公式计算类别置信度损失值：

其中，i为预测物体框的序号，j为真实物体框的序号，N表示匹配的候选框的数量，Pos表示训练图像中的正样本候选框的数量，Neg表示训练图像中的负样本候选框的数量，c表示预测的类别置信度，表示第i个预测框对应类别p的预测置信度，表示第i个预测物体框与第j个真实物体框关于类别p是否匹配，为调制系数。

可选地，在上述方法中，当趋近于1时候，趋近于0；当趋近于0时候，趋近于1；当γ＝0的时候，为1。

可选地，在上述方法中，基于图像数据集生成预训练的物体检测模型，其中，图像数据集中至少包括训练图像中的各个物体类别的图像，训练图像中的物体类别包括猫脸、狗脸、人脸和背景。

可选地，在上述方法中，对训练图像进行数据增强处理和归一化处理。

可选地，在上述方法中，数据增强处理包括翻转、旋转、色彩抖动、随机裁剪、随机亮度调整、随机对比对调整、模糊处理中任意一项或多项。

根据本发明另一个方面，提供了一种物体检测方法，可以将待检测图像输入物体检测模型中，以得到图像中各个物体框的位置和类别，其中物体检测模型利用如上所述的方法生成。

根据本发明的又一方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行如上所述方法中的任一方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行如上所述的方法中的任一方法。

根据本发明方案，物体检测模型包括相互耦接的特征提取模块和预测模块，各模块中的卷积层采用较少的通道数，减少了模型的大小。进一步地，物体检测模型采用多个轻量化卷积网络单元，能够提高模型的计算速度；在网络的第一个卷积层采用卷积核较大的卷积，能够提高特征感受野；在构建损失函数时加入调制系数，能够提高模型训练的灵活性。因此，本方案所提供的物体检测模型既能够匹配移动端的计算效率和内存，又能够满足物体检测精度的要求。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的构造示意图；

图2示出了根据本发明的一个实施例的物体检测模型200的结构示意图；

图3示出了根据本发明的一个实施例的轻量化卷积处理单元的网络结构示意图；

图4示出了根据本发明的一个实施例的生成物体检测模型的方法400的示意性流程图；

图5示出了根据本发明一个实施例的包含标注数据的训练图像的示意图；

图6示出了根据本发明的一个实施例的图像数据增强处理的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

一般地，SSD物体检测模型包括VGG基础网络和金字塔网络，由于VGG具有较深的网络结构，有16层或19层，使模型的参数量较大，无法满足移动端的要求。为了实现实时物体检测，使模型满足移动端内存和计算速度的要求，本方案对SSD物体检测模型的网络结构进行改进，以减小模型的大小、提高检测精度并提高计算速度，能够满足在移动端的实时物体检测。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理器，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，***存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作***上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行生成物体检测模型的方法400，程序数据124中就包含了用于执行方法400的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。当然，计算设备100也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机，或者是具有上述配置的服务器。本发明的实施方式对此均不作限制。

首先在模型训练之前，需要对模型的网络结构和参数进行设置。图2示出了根据本发明的一个实施例的物体检测模型200的结构示意图。如图2所示，物体检测模型200包括相互耦接的特征提取模块210和预测模块220。其中，特征提取模块210包括多个深度残差网络单元和卷积处理单元，适于对输入图像进行卷积处理，以生成至少一个特征图。预测模块220包括候选框生成单元221和候选框匹配单元222、类别预测单元223和位置预测单元224。候选框生成单元221适于对特征提取模块210输出的各个特征图按照不同的大小和长宽比生成对应的多个候选框。候选框匹配单元222适于选取与真实物体框匹配的候选框，以便基于匹配的候选框进行预测。类别预测单元223适于输出图像中各个物体的类别置信度，位置预测单元224适于输出图像中预测物体框的位置。

其中，轻量化卷积单元具有较少的网络参数，一般是在已训练好的模型上进行压缩得到的。轻量化卷积单元可以采用SqueezeNet，MobileNet，ShuffleNet，Xception等任意一种轻量化模型实现，本方案对此不做限定。根据本发明的一个实施例，特征提取模块可以采用多个MobilenetV2单元作为轻量化卷积单元。表1示出了根据本发明的一个实施例的特征提取模块210的部分网络参数。其中，编号conv1、conv2、conv3以及Conv_1是卷积处理单元，编号conv_1到conv_13、layer_19_2_2、layer_19_2_3、layer_19_2_4、layer_19_2_5是轻量化卷积单元，conv_2_sum、conv_4_sum、conv_6_sum、conv_7_sum、conv_9_sum、conv_11_sum、conv_12_sum是叠加单元。

表1中，Conv表示卷积，Depthwise表示深度可分离卷积，BN表示批量归一化层，ReLU表示激活函数。MobilenetV2Block表示轻量化卷积单元。sum表示叠加单元。kh、kw分别表示卷积核的高和宽，padding为填充值，stride为卷积步长，num_output表示输出匹配的候选框的数量，group表示分组卷积，group＝1表示不分组。

表1特征提取模块的部分网络参数

如上表1所示，特征提取模块包括卷积处理单元、多个MobilenetV2轻量化卷积单元和sum叠加单元。其中，为了增加特征图的感受野，在模型的第一个卷积层(即，conv1)采用卷积核大小为7*7的卷积。在训练网络模型时，BN层能够加速网络收敛，并且能够控制过拟合现象的发生，一般放在卷积层之后，激活层之前。BN层将数据归一化后，能够有效解决梯度消失与梯度***问题。虽然BN层在训练时起到了积极作用，然而，在网络前向推断时多了一些层的运算，影响模型的性能，且占用较多的内存或者显存空间。因此，在根据本发明的一些实施例中，将批量归一化层合并到卷积层，这样能够提高模型的计算速度，以适用于移动端的实时物体检测。激活层采用了ReLU激活函数，也可以采用leakyReLU、tanh、sigmoid等任一类型的激活函数，在此不做限定。完成卷积处理之后，经过两个耦接的MobilenetV2单元，第一个卷积步长为2，第二个卷积步长为1。sum为叠加单元，可以将相互耦接的两个轻量化卷积单元的输出结果进行叠加。例如，conv_2_sum将conv_1和conv_2的输出结果相加，即将conv_1和conv_2输出的特征图对应的像素进行叠加。conv_7_sum将conv_6_sum和conv_7的输出结果相加，conv_12_sum将conv_11_sum和conv_12的输出结果相加。

如上文所述，特征提取模块210中每个处理层均可以输出相应的特征图，根据本发明的实施方式，从其中抽取出至少一个特征图。在一种实施例中，如表1所示，抽取出其中层编号为conv_13_1，Conv_1，layer_19_2_2，layer_19_2_3，layer_19_2_4，layer_19_2_5的6个处理层所输出的特征图，作为提取的特征图。

图3示出了根据本发明的一个实施例的轻量化卷积单元的网络结构图。如图3所示，左图为深度可分离卷积步长为1时的轻量化卷积单元的网络结构，右图为深度可分离卷积步长为2时的轻量化卷积单元的网络结构。针对步长为1和步长为2，在单元结构上有不同，主要是为了与短路连接的维度匹配，因此，当步长为2时，不采用短路连接。根据本发明的一个实现方式，轻量化卷积单元分为3层，第一层为卷积核为1x1的卷积层，第二层为卷积核为3x3的深度可分离卷积层，第三层为卷积核为1x1的卷积层。表2示出了根据本发明的一个实施例的轻量化卷积单元的网络参数。

表2轻量化卷积单元的网络参数

如表2所示，MobilenetV2单元使用深度可分离卷积Depthwise代替传统的卷积操作，实现空间和通道之间的解耦，达到模型加速的目的。由于深度可分离卷积层提取的特征受限于输入的通道数，为了提升通道数，先扩张再提取特征再压缩可以获取更多特征，即先在第一层使用1*1卷积对特征图的通道数进行扩张，在最后一层使用1*1卷积对特征图的通道数进行压缩。但是在压缩之后非线性激活函数可能会破坏特征，由于ReLU激活函数对于负的输入输出全为0，而本来特征就被压缩再经过激活后，又会损失一部分特征。为了避免ReLU激活函数对特征的破坏，最后一层1*1卷积不使用ReLU激活函数。

预测模块220可以包括类别预测单元223和位置预测单元224。表4和表5分别示出了根据本发明的一个实施例的位置预测单元和类别预测单元的网络参数。根据本发明的一个实施例，预测模块220还包括候选框生成单元221和候选框匹配单元222，其中候选框生成单元适于对特征提取模块210输出的各个特征图按照不同的大小和长宽比生成对应的多个候选框。候选框匹配单元适于选取与真实物体框匹配的候选框，以便基于匹配的候选框进行预测。

表4位置预测单元的网络参数

表5类别预测单元的网络参数

其中，mbox block为每一个融合后的特征图中与真实物体框匹配的候选框。Concat层的作用就是将两个及以上的特征图在通道维度上进行拼接，将同大小的特征图拼接起来。表6示出了根据本发明的一个实施例的候选框生成单元的网络参数。其中aspect_ratio表示生成候选框的长宽比，min_size为生成候选框的最小尺度，max_size为生成候选框的最大尺度。各个priorbox层输出Concat后的结果，相当于把所有候选框放到一起。

表6候选框生成单元的网络参数

在训练过程中，首先要确定训练图片中的真实物体框与哪个候选框来进行匹配，与之匹配的候选框负责预测真实框。表7示出了候选框匹配单元的网络参数。其中，Permute层可以将输入的维度按照给定模式进行重排。Flatten层可以将输入“压平”，即把多维的输入一维化。order表示匹配候选框的排序，axis：1表示使用1值沿着每一行或者列标签模向执行对应的方法。

表7候选框匹配单元的网络参数

在完成模型的网络结构和参数的设置之后，可以执行本方案的生成物体检测模型的方法。图4示出了根据本发明的一个实施例的生成物体检测模型的方法400的示意性流程图。其中物体检测模型可以包括特征提取模块、融合模块和预测模块(关于模型的结构可参考前文描述，此处不再赘述)。该方法可以在计算设备100中执行，如图4所示，该方法400始于步骤S410。

根据本发明的一些实施例，在执行步骤S410之前，可以先对所构建的物体检测模型进行预训练。根据本发明的一个实施例，可以首先基于图像数据集对模型进行预训练，以便初始化物体检测模型的参数，即生成预训练的物体检测模型。例如，图像数据集可以是VOC数据集，数据集中包括20个目录：人类；动物(鸟、猫、牛、狗、马、羊)；交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)；室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。在使用VOC数据集训练模型时还需要考虑背景，因此需要训练21个类别的模型。对于不同的层，可以取模型的对应的层中权重值较大的权重值初始化本发明4个类别(猫脸、狗脸、人脸、背景)的物体检测模型。通过这种预训练的方法，可以加快模型收敛速度，同时提高模型检测精度。还可以使用微软提供的COCO数据集进行模型的预训练，其中COCO数据集有3种标注类型：目标实例、目标关键点和图像描述，能够很好地应用于物体检测。本方案对图像数据集的使用不做限定。

在步骤S410中，获取包含标注数据的训练图像，标注数据为训练图像中目标物体的位置和类别。可以直接标注出真实物体框的位置，也可以通过标注的特征点计算物体框的位置。本方案对标注数据的标注方法不做限定。

图5示出了根据本发明一个实施例的包含标注数据的训练图像的示意图。如图5所示，为了检测图片中的猫、狗、人脸，首先标注图片中各个待检测物体的边框，然后对框中的物体标注出类别(在模型训练时还需要加上背景类别)。为了便于显示，在图5中在各个物体框旁边标注出了目标物体的类别：cat(猫脸)，dog(狗脸)、face(人脸)。还可以将猫脸类别标注为1，狗脸类别标注为2，人脸类别标注为3，背景类别标注为0。根据本发明的另一个实现方式，对于一张同时包含猫脸、狗脸、人脸的图像，可以首先标注猫脸特征点、狗脸特征点和人脸特征点，总共30个特征点(特征点标注的数量可以根据具体情况进行调整)并标注各物体的类别标签。例如，猫脸标注为1，狗脸标注为2，人脸标注为3，背景标注为0。可以基于标注的特征点坐标计算真实物体框的位置。例如，获取所有特征点坐标的最大值和最小值，分别为x_min，x_max，y_min，y_max。那么物体框的坐标为(x_min，y_min，w，h)，w＝x_max-x_min，h＝y_max-y_min。

根据本发明的一个实施例，在模型的输入层，还可以对训练图像进行预处理，可以包括数据增强处理和归一化处理。为了能够检测各种自然场景下的物体，保证模型的有效训练，可以对训练图像进行数据扩充或增强。通过对图片随机旋转，随机亮度、对比度调整以及模糊处理等，以模拟各种自然场景下的图像数据。图6示出了根据本发明的一个实施例的图像数据增强处理的示意图。如图6所示，从左到右依次为旋转、调暗、调亮、增强对比度、模糊处理。此外，还可以包括翻转(水平或垂直)、尺度变换(调整图像分辨率)、随机抠取(在原图像中随机抠取图像块)、色彩抖动(对原有像素值分布加入轻微噪声)等，复杂的数据扩充方法还有GAN生成对抗网络生成、主成分分析、监督式抠取(只抠取有明显语义信息的图像块)等。

需要注意的是，并不是所有的数据增强方法都可以随便使用，比如对于人脸图像进行垂直翻转就不合适了。在数据增强时，还需要将图像数据和标记数据进行同步扩充，例如图像翻转或旋转，对应的标注坐标要相应翻转或旋转。由于实际图像的大小是不固定的，如果改变了图像的大小，那么图像的标注信息就不正确了，所以对图像的大小修改同时，也要对标注信息做对应的变化。可以根据图像的原始大小和标注信息的比例，裁剪图像的标注信息对应的图像。

随后在步骤S420中，将训练图像输入预训练的物体检测模型中进行处理，其中物体检测模型包括相互耦接的特征提取模块和预测模块。首先，特征提取模块对训练图像进行卷积处理，以生成至少一个特征图；然后，预测模块从提取的至少一个特征图中预测出目标物体的类别和位置。

最后在步骤S430中，基于标注数据与预测的物体类别和位置，对预训练的物体检测模型进行训练，以得到训练后的物体检测模型作为所生成的物体检测模型。

根据本发明的一个实施例，可以基于标注的真实物体框位置与预测物体框位置之间的定位损失值和标注的类别与预测类别置信度之间的类别置信度损失值，更新物体检测模型的参数，直到定位损失值和类别置信度损失值的加权和满足预定条件时，训练结束。在本发明的一个实现方式中，对于位置误差，可以采用Smooth损失函数计算，对于置信度误差，可以采用softmax损失函数计算。

可以基于下述公式计算定位损失值和类别置信度损失值的加权和：

其中，L_loc为定位损失值，L_conf为分类置信度损失值，N为与真实物体框匹配的候选框的数量，α为权重系数，g是真实物体框的位置参数，l为预测物体框的位置参数，x为标注的类别，C为类别置信度。

可以基于下述公式计算所述定位损失值：

其中，i为预测物体框的序号，j为真实物体框的序号，cx，cy为候选框的中心，w，h为候选框的宽和高，m表示候选框的大小，为第i个预测物体框与第j个真实物体框之间的位置偏差，Pos表示训练图像中正样本候选框的数量，N表示匹配的候选框的数量，表示第i个预测物体框与第j个真实物体框关于类别k是否匹配，匹配为1，不匹配为0。

由于在深层神经网络中误差的梯度可在更新中累计相乘，如果网络层之间的梯度值大于1，则重复相乘会导致梯度呈指数增长，导致网络权重大幅度更新使网络变得不稳定。因此使用平滑损失函数，当预测值与真实值相差小于1时，使用均方差损失并添加0.5的平滑系数，当预测值与真实值相差大于等于1，则降低损失次幂，这时反向传播求导就不存在该项，从而可以解决梯度***的问题。

在训练过程中，首先要确定训练图片中的真实物体框与哪个候选框来进行匹配，与之匹配的候选框将负责预测它。候选框与真实框匹配原则主要有两点。第一个原则是：对于图片中每个真实框，找到与其交并比最大的候选框，则该候选框与其匹配。第二个原则是：对于剩余的未匹配的候选框，若交并比大于某个阈值(一般是0.5)，那么该候选框也与这个真实框相匹配。在候选框匹配步骤之后，大多数候选框都是负样本，这导致正样本和负样本之间的不平衡。为了保证正负样本尽量平衡，可以对负样本进行抽样，抽样时按照置信度误差(预测背景的置信度越小，误差越大)进行降序排列，选取误差的较大的若干数量的样本作为训练的负样本，以保证正负样本比例接近1：3。这样可以使模型得到稳定的训练，确保模型能够收敛。

对于类别置信度损失，需要考虑训练图像中正样本候选框和负样本候选框的选择，也就是说，只有交并比达到阈值的候选框为正样本。可以基于下述公式计算分类置信度损失值：

其中，i为预测物体框的序号，j为真实物体框的序号，N表示匹配的候选框的数量，Pos表示训练图像中的正样本候选框的数量，Neg表示训练图像中的负样本候选框的数量，c表示预测的类别置信度，表示第i个预测框对应类别p的预测置信度，表示第i个预测物体框与第j个真实物体框关于类别p是否匹配，为调制系数，p＝0表示背景，为负样本。其中公式中的第一部分比第二部分多了调制系数项，实际上是为了确定中p的取值，而第二部分p恒为0，则不需要当趋近于1时候，趋近于0；当趋近于0时候，趋近于1；当γ＝0的时候，为1。这样可以调整样本的权重，对于置信度低，也就是难分类的样本，调制系数值较大。对损失值的贡献更大，从而让网络重点去训练难分类的样本。

经多次反向迭代，当损失值的加权和满足预定条件，例如前后两次迭代的损失值加权和之差小于预定阈值，或者达到预定迭代次数时，训练结束。

在根据方法400得到训练好的物体检测模型后，就可以在移动终端中执行物体检测方法。根据一种实施例，将待检测图像(在根据本发明的实施例中，待检测图像中可能包含有猫脸、狗脸、人脸等目标对象)输入训练好的物体检测模型中，以得到图像中各物体框的位置和类别。具体地，特征提取模块对待检测图像进行卷积处理，生成至少一个特征图；预测模块从特征提取模块提取的至少一个特征图中预测出目标物体(即，各物体框)的类别和位置。经过在移动终端应用试验，与传统的SSD物体检测模型相比，本方案的计算速度提高了20％，能够实现物体的实时检测。

根据本发明的方案，通过对物体检测模型的网络结构进行改进，在特征提取模块中采用多个轻量化卷积网络单元，能够减少模型的大小，提高模型的计算速度；在网络的第一个卷积层采用卷积核较大的卷积，能够提高特征感受野；。通过在损失函数中加入调制系数，可以提高模型训练的灵活性。因此，本方案所提供的物体检测模型既能够匹配移动端的计算效率和内存，又能够满足物体检测精度的要求。

A5、如A1所述的方法，其中，所述预测模块包括类别预测单元和位置预测单元，所述类别预测单元适于输出图像中各个物体的类别置信度，所述位置预测单元适于输出图像中预测目标物体的位置。

A6、如A1所述的方法，其中，所述标注的目标物体的位置为目标物体的特征点坐标或真实物体框。

A9、如A8所述的方法，其中，基于下述公式计算定位损失值和类别置信度损失值的加权和：

A10、如A9所述的方法，其中，基于下述公式计算所述定位损失值：

A12、如A11所述的方法，其中，

当趋近于1时候，趋近于0；

当趋近于0时候，趋近于1；

当γ＝0的时候，为1。

A13、如A1所述的方法，其中，所述方法包括：

基于图像数据集生成预训练的物体检测模型，所述图像数据集中至少包括训练图像中的各个物体类别的图像，所述训练图像中的物体类别包括猫脸、狗脸、人脸和背景。

A14、如A1所述的方法，其中，所述方法还包括：

对训练图像进行数据增强处理和归一化处理。

A15、如A14所述的方法，其中，所述数据增强处理包括翻转、旋转、色彩抖动、随机裁剪、随机亮度调整、随机对比对调整、模糊处理中任意一项或多项。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明范围由所附权利要求书限定。

Claims

1.一种生成物体检测模型的方法，所述方法适于在计算设备中执行，包括：

获取包含标注数据的训练图像，所述标注数据为训练图像中目标物体的位置和类别；

将训练图像输入预训练的物体检测模型中进行处理，所述物体检测模型包括相互耦接的特征提取模块和预测模块，其中，

所述特征提取模块适于对所述训练图像进行卷积处理，以生成至少一个特征图；

所述预测模块适于从至少一个特征图中预测出目标物体的类别和位置；

基于标注数据与预测的物体类别和位置，对所述预训练的物体检测模型进行训练，以得到训练后的物体检测模型作为所生成的物体检测模型。

2.如权利要求1所述的方法，其中，所述特征提取模块包括卷积处理单元、多个轻量化卷积单元和叠加单元，所述叠加单元适于将相互耦接的多个轻量化卷积单元的输出结果进行叠加。

3.如权利要求2所述的方法，其中，所述卷积处理单元的第一个卷积层的卷积核大小为7*7，所述卷积处理单元将批量归一化层合并到卷积层。

4.如权利要求2所述的方法，其中，所述轻量化卷积单元包括相互耦接的卷积核大小为1*1的卷积层、卷积核大小为3*3的深度可分离卷积层以及卷积核大小为1*1的卷积层。

5.如权利要求1所述的方法，其中，所述预测模块还包括候选框生成单元和候选框匹配单元，所述候选框生成单元适于对所述特征提取模块输出的各个特征图按照不同的大小和长宽比生成对应的多个候选框，所述候选框匹配单元适于选取与真实物体框匹配的候选框，以便基于匹配的候选框进行预测。

6.如权利要求5所述的方法，其中，所述基于标注数据与预测的物体类别和位置，对所述预训练的物体检测模型进行训练的步骤包括：

基于标注的真实物体框位置与预测物体框位置之间的定位损失值和标注的类别与预测类别置信度之间的类别置信度损失值，更新物体检测模型的参数，直到所述定位损失值和类别置信度损失值的加权和满足预定条件时，训练结束。

7.如权利要求6所述的方法，其中，基于下述公式计算类别置信度损失值：

8.一种物体检测方法，该方法适于在计算设备中执行，包括：

将待检测图像输入物体检测模型中，以得到图像中各个物体框的位置和类别，

其中所述物体检测模型利用如权利要求1-7任意一项中所述的方法生成。

9.一种计算设备，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。