CN108520219B

CN108520219B - 一种卷积神经网络特征融合的多尺度快速人脸检测方法

Info

Publication number: CN108520219B
Application number: CN201810276795.7A
Authority: CN
Inventors: 钱学明; 韩振; 张宇奇; 邹屹洋; 侯兴松
Original assignee: Taizhou Zhibi'an Technology Co ltd
Current assignee: Taizhou Zhibi'an Technology Co ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2020-05-12
Anticipated expiration: 2038-03-30
Also published as: CN108520219A

Abstract

本发明公开一种卷积神经网络特征融合的多尺度快速人脸检测方法，包括以下步骤：步骤1：以SSD快速目标检测方法的模型结构为基础，改造SSD中的特征提取方法，加入特征融合方法，获得改造过的检测模型；步骤2：对步骤1中改造过的检测模型进行针对人脸检测的训练，获得训练好的深度神经网络模型；步骤3：使用步骤2训练好的深度神经网络模型对待检测图片进行计算，得到模型输出结果。本发明能快速对图像中的人脸进行识别并精确定位人脸的位置，从而将人脸从复杂背景分离出来。为图像中人的身份验证和跟踪提供基础。

Description

一种卷积神经网络特征融合的多尺度快速人脸检测方法

技术领域

本发明属于计算机数字图像处理与模式识别技术领域，特别涉及一种人脸检测方法。

背景技术

随着我国监控摄像头数目的增加，每天都会产生海量监控视频数据。在此背景下，计算机辅助的监控视频内容分析技术变得必要而且迫切。在监控视频中，我们监控的对象主要是人，而人脸特征是我们使用图像信息进行身份识别和验证的最重要信息。人脸检测能在图片中定位出所有人脸所在的位置，将人脸与背景分离，是之后的人脸表征和人脸识别的前提。所以，人脸检测是监控视频内容分析的第一步。

目前的目标检测的方法主要有传统方法和基于深度学习的方法两种。传统方法与基于深度学习的方法的基本流程是一样的，都是先对图像提取特征，然后在特征图上对图像各个部分进行前景背景分类。传统的目标检测方法使用的特征大多是凭人类经验设计的特征，如Harr，HOG和LBP等人工特征。这些特征基于人类的经验，并不能全面地描述图像的特征。另外传统方法的分类器主要采用的是SVM，Adaboost等分类器，这些分类器对于图像的分类精度不及使用卷积神经网络的分类方法。基于深度学习的检测方法是训练一个卷积神经网络(CNN)提取深度特征，在这种特征的基础上训练分类器。基于深度学习的检测方法大致可分为两种类型。一种是基于候选区域的检测方法，另一种是直接回归的检测方法。基于候选区域的检测方法的代表方法是Ross Girshick团队提出来的Faster R-CNN方法，详见文献：Shaoqing Ren,Kaiming He,Ross Girshick,Jian Sun:Faster R-CNN:TowardsReal-Time Object Detection with Region Proposal Networks.NIPS 2015:91-99.其基本思想是首先通过CNN对图像提取一个粗略的特征，然后通过这个特征提取可能存在物体的候选框，再将可能的候选框对应的特征图上的部分截取出来，送入最终的判决器分类和回归检测框。这种方法检测精度高，但是由于有两个阶段判断是否存在物体，导致检测速度很慢，无法达到实时。直接回归的检测方法的代表方法有SSD目标检测算法，详见文献：W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C.-Y.Fu,and A.C.Berg.SSD:Singleshot multibox detector.ECCV,pages 21–37,2016.其基本思想是抛弃Faster R-CNN的两个阶段的判断，直接在CNN提取的特征图上做分类和回归得到最终结果。这种单阶段的检测方法速度很快，也使它能够同时在CNN的不同深度的特征上同时做检测。虽然检测速度快，但是这种方法的缺点是性能较差，漏检和误检率较高，检测框的精准度也不够高。

使用人脸检测方法处理视频，对单帧检测速度有着较高要求。但是Faster R-CNN方法检测速度太慢，目前还无法做到实时。SSD方法虽然检测速度快，但是漏检率和误检率等检测精度指标都相对较差，检测框定位的精准度也不够高。

发明内容

本发明的目的在于提供一种深度特征融合的多尺度快速人脸检测方法，在图片中定位出所有人脸所在的位置，以克服SSD快速目标检测方法漏检率和误检率都较高，并且检测框定位的精准度较差的不足的问题。

为了实现上述目的，本发明采用如下技术方案：

一种卷积神经网络特征融合的多尺度快速人脸检测方法，包括以下步骤：

步骤1：以SSD快速目标检测方法的模型结构为基础，改造SSD中的特征提取方法，加入特征融合方法，获得改造过的检测模型；

步骤2：对步骤1中改造过的检测模型进行针对人脸检测的训练，获得训练好的深度神经网络模型；

步骤3：使用步骤2训练好的深度神经网络模型对待检测图片进行计算，得到模型输出结果。

进一步的，步骤1具体包括：

SSD512输入检测器的特征分别有VGG的conv4_3层特征，以及后续添加的fc7层、conv6_2层、conv7_2层、conv8_2层、conv9_2层和conv10_2层特征；特征融合从conv8_2层特征开始，上采样与conv7_2层特征融合；融合后的特征再上采样，与conv6_2层特征融合；以此类推，一直融合到conv4_3，分别依次融合得到fuse7_2、fuse6_2、fusefc7和fuse4_3；用融合得到的fuse4_3、fusefc7、fuse6_2和fuse7_2特征替代原来的conv4_3层、fc7层、conv6_2层、conv7_2层特征，并连同原来的conv8_2层与未参与融合的conv9_2层和conv10_2层特征一起送入与SSD模型相同的检测器，由多个卷积层组成的检测器在这7个特征的基础上进行检测框的回归和分类，，获得改造过的检测模型。

进一步的，步骤1对conv4_3层、fc7层、conv6_2层、conv7_2层和conv8_2层特征进行特征融合，将两层特征融合步骤如下：

1.1、首先通过最近邻插值的上采样方法将待融合深层特征f_d的长宽放大得到

此时，

的宽高与待融合浅层特征f_s的宽高相同；

1.2、将

与f_s通过拼接的方式在通道维度上连接成较长的特征，得到特征f_d+s；

1.3、特征f_d+s通过一层3×3卷积进行通道数降维，以去掉多余噪声，将f_d+s的c_d+c_s个通道，降低成统一的256维；再通过一层ReLU激活层，得到最终融合结束的特征f_fuse；

1.4、f_fuse作为深层特征与更浅层特征相融合，一直融合到conv4_3，分别依次融合得到fuse7_2、fuse6_2、fusefc7和fuse4_3。

进一步的，步骤2具体包括：

2.1、采用SSD给出的VGG预训练模型的参数对检测模型参数进行初始化；

2.2、数据集采用公开的Wider Face人脸检测数据集；从Wider Face中随机抽取若干张为一批图片，并对这一批图片进行数据增强和预处理；

2.3、将进行数据增强和预处理之后的若干张图片输入深度神经网络模型，经过深度神经网络模型的计算，分别得到该批次各图片的输出结果；深度神经网络模型模型结构包括SSD使用的用来提特征的卷积神经网络、特征融合部分、检测器部分；其中，特征融合部分如步骤1所述；提特征的卷积神经网络和检测器部分延续SSD的模型设置；

2.4、将深度神经网络模型的输出结果与数据集给出的标签相比较，并通过损失函数计算损失；

2.5、使用随机梯度下降方法更新深度神经网络模型参数；

2.6、判断深度神经网络模型是否达到收敛条件，如果不是，回到第2.2步；如果是，结束训练，获得训练好的深度神经网络模型。

进一步的，步骤2.1具体包括：数据增强做法如下：有0.5的概率进行亮度微调，微调范围是±32之间的均匀分布；有0.5的概率进行对比度微调，微调范围是0.5倍到1.5倍之间的均匀分布；有0.5的概率进行色调的微调，微调范围是±18之间的均匀分布；有0.5的概率进行饱和度的微调，微调范围是0.5倍到1.5倍之间的均匀分布；数据增强后进行图像的预处理，步骤如下：将通过之前增强处理过的图片的大小通过双线性插值的方法调整到固定的512×512的大小；将固定为512×512大小的图片的RGB三个通道分别减去事先计算好的Wider Face数据集所有像素的RGB平均值。

进一步的，步骤3具体包括：

3.1、将待检测图片进行预处理，与步骤2中的2.2中预处理方法一样，将待检测图片通过双线性插值的方法调整到固定的512×512的大小；将调整过大小的待检测图片的RGB三个通道分别减去事先计算好的Wider Face数据集所有像素的RGB通道的平均值；

3.2、将进行预处理之后的待检测图片输入步骤2训练好的深度神经网络模型，经过模型的计算，分别得到该图片的输出结果；

3.3、对步骤2训练好的深度神经网络模型的输出结果做统计的非极大值抑制，得到模型输出结果。

进一步的，步骤3.3具体包括：

(a)深度神经网络模型输出的检测框具有统一的格式，每个检测框由五个数字x₁,y₁,x₂,y₂和s表示；其中，x₁,y₁和x₂,y₂分别代表框的左上和右下的坐标值；s代表深度神经网络模型对该检测框的预测置信度，称为该检测框的得分，取值在0和1之间，得分越高说明网络模型对该检测框越有把握；所有深度神经网络模型输出的检测框，记做

找出

中得分最大的检测框b_max，b_max的坐标和得分分别为((x_m1,y_m1),(x_m2,y_m2))和s_m；

初始化x_sum1＝s_mx_m1,x_sum2＝s_mx_m2,y_sum1＝s_my_m1,y_sum2＝s_my_m2,s_sum＝s_m五个变量用来存储累加值；其中，x_sum1,x_sum2,y_sum1,y_sum2分别存储的是框坐标的加权累加值，s_sum存储的是得分累加值；

(b)找出

中所有与b_max框住的是同一物体的检测框，记做

计算b_max与

中其他检测框b_i的重叠程度IOU，如果IOU大于阈值θ，则认为b_i和b_max框住的是同一物体，将b_i加入

设b_i的左上右下坐标为((x₁,y₁),(x₂,y₂))，则b_i和b_max同时覆盖到的面积I定义如下：

I＝(min(x_m2,x₂)-max(x_m1,x₁))(min(y_m2,y₂)-max(y_m1,y₁))

b_i和b_max总体覆盖到的面积U定义如下：

U＝(x₂-x₁)(y₂-y₁)+(x_m2-x_m1)(y_m2-y_m1)-I

b_i与b_max的重叠程度IOU定义如下：

IOU反映了两个检测框的重叠比例大小，并且0≤IOU≤1；令θ＝0.3，当IOU>θ时，更新

x_sum1←x_sum1+s_ix_i1；

x_sum2←x_sum2+s_ix_i2；

y_sum1←y_sum1+s_iy_i1；

y_sum2←y_sum2+s_iy_i2；

s_sum←s_sum+s_m；

(c)将

中所有的检测框和b_max一起以检测框的得分为权重求坐标值的加权平均值，该加权平均之后的坐标值((x_mean1,y_mean1),(x_mean2,y_mean2))记做b_mean，b_mean坐标值的计算方法如下：

(d)在

中去掉b_max和

中的检测框；

(e)重复(a)(b)(c)(d)步，直到

为空；此时集合

中的所有检测框即为统计的非极大值抑制的输出结果。

本发明为保证较快的检测速度，整体上以SSD快速目标检测方法的网络结构为基础进行修改，并对修改后的网络进行针对人脸检测的训练；

为降低SSD本身存在的漏检和误检，本发明在SSD网络结构的基础上加入特征的融合方法：由于检测方法中要求特征既要包含局部特征用于定位，又要包含语义特征用于分类。一般而言，CNN深层特征的语义特征丰富而缺乏局部定位信息，浅层特征的局部特征丰富但受限于网络深度缺乏语义特征。为了减少分类错误造成的漏检和误检，本发明在提特征的卷积神经网络的不同深度的特征之间做特征融合，以求获得更为整体而全面的特征，既利于分类器的判断以降低漏检和误检，又有利于回归器的定位以提高定位精准度；

为进一步提高检测框定位的精准度，本发明在最终结果的合并过程中使用统计的非极大值抑制方法：在产生的最终结果的筛选中用基于统计的非极大值抑制算法，代替传统的非极大值抑制，以消除传统非极大值抑制算法带来的偶然性，提高检测框定位的精准度。

本发明中所述统计的非极大值抑制方法与普通的非极大值抑制方法的区别在第3.3步。普通的非极大值抑制将IOU>θ的检测框直接去掉，本发明取了这些检测框和得分最大的检测框的坐标的加权平均值。这样，用统计的信息替代单个框的信息，消除了得分最大的框偏离物体的偶然性。

相对于现有技术，本发明具有以下有益效果：本发明通过使用人脸检测的数据集训练SSD达到快速目标检测的目的；本发明通过融合卷积神经网络不同深度下的特征，增强特征的表达能力，在此基础上的分类和定位效果得到提升，一定程度上克服当前快速检测算法存在的漏检率和误检率都较高，并且检测框定位的精准度较差的不足；本发明通过在最终结果的合并过程中使用统计的非极大值抑制方法，消除偶然性，进一步提高检测框定位的精准度。

附图说明

下面结合附图对本发明进一步说明。

图1是本发明的神经网络模型示意图，包括深度卷积网络特征模型、深度特征融合分支；

图2是神经网络训练和检测流程图；

图3是统计的非极大值抑制算法流程图；

图4(a)和图4(b)均是在FDDB数据集上的部分人脸检测结果图；

图5(a)和图5(b)分别是SSD-512与本发明在智慧城市数据集以10帧为抽帧间隔的人脸检测部分结果对比。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，是本发明一种卷积神经网络特征融合的多尺度快速人脸检测方法，包括如下步骤：

步骤1，以SSD(Single Shot Multibox Detector)目标检测算法为基本框架，详见文献：W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C.-Y.Fu,and A.C.Berg.SSD:Single shot multibox detector.ECCV,pages 21–37,2016.改造SSD中的特征提取方法，加入特征融合方法：

如图2所示，SSD是一种多尺度目标检测方法，检测器以CNN不同深度下的特征也即不同尺度的特征为基础分别做分类和检测框回归。SSD512输入检测器的特征分别有VGG的conv4_3层特征，以及后续添加的fc7层、conv6_2层、conv7_2层、conv8_2层、conv9_2层和conv10_2层特征。详细模型结构见文献，本发明不再赘述。本发明发现conv9_2层和conv10_2层特征太过宏观，对于浅层小物体分类并无帮助。所以本发明的特征融合从conv8_2层特征开始，上采样与conv7_2层特征融合；融合后的特征再上采样，与conv6_2层特征融合；以此类推，一直融合到conv4_3。用融合得到的fuse4_3、fusefc7、fuse6_2和fuse7_2特征替代原来的conv4_3层、fc7层、conv6_2层、conv7_2层特征，并连同原来的conv8_2层与未参与融合的conv9_2层和conv10_2层特征一起送入检测器。

本发明对conv4_3层、fc7层、conv6_2层、conv7_2层和conv8_2层特征进行特征融合。将两层特征融合步骤如下：

此时，

的宽高与待融合浅层特征f_s的宽高相同。例如，当输入为3×512×512位的RGB彩色图像时，SSD的特征提取网络的conv8_2层特征大小为256×4×4；将conv8_2层特征采取最近邻插值法上采样，得到大小为256×8×8的特征，与conv7_2层长宽相同；

1.2、将

与f_s通过拼接的方式在通道维度上连接成较长的特征，得到特征f_d+s。例如将conv8_2层上采样之后的大小为256×8×8的特征与大小同样为256×8×8的conv7_2层特征在通道维度拼接，产生大小为512×8×8的特征；

1.3、特征f_d+s通过一层3×3卷积进行通道数降维，以去掉多余噪声，将f_d+s的c_d+c_s个通道，降低成统一的256维。再通过一层ReLU激活层，得到最终融合结束的特征f_fuse。例如conv8_2上采样与conv7_2拼接之后的特征送入一层卷积层和一层ReLU激活层的组合进行降维，将512×8×8的特征降维成256×8×8的特征；

1.4、f_fuse作为深层特征与更浅层特征相融合。例如conv8_2上采样与conv7_2拼接降维之后的特征继续上采样与conv6_2层特征进行融合，以此类推，一直融合到conv4_3；

最终送入检测器的特征分别是conv8_2层和未进行融合的conv9_2层、conv10_2层特征，和融合得到的fuse4_2、fuse4_3、fusefc7、fuse6_2、fuse7_2特征。这里使用与SSD模型相同的检测器，由多个卷积层组成的检测器将在这7个特征的基础上进行检测框的回归和分类。

步骤2，对步骤1中改造过的检测模型进行针对人脸检测的训练：

如图1所示，训练过程中用到Wider Face数据集，步骤如下：

2.2、数据集采用公开的Wider Face人脸检测数据集，详见文献：Shuo Yang,PingLuo,Chen Change Loy,Xiaoou Tang:WIDER FACE:A Face Detection Benchmark.CVPR2016:5525-5533.数据集规模太大，没有办法一次将所有图片送入模型训练，所以采取分批训练的方法。本发明从Wider Face中随机抽取16张为一批图片(具体一批使用多少张图片可根据机器性能调整)，并对这一批16张图片进行数据增强和预处理，数据增强主要做法如下：有0.5的概率进行亮度微调，微调范围是±32之间的均匀分布；有0.5的概率进行对比度微调，微调范围是0.5倍到1.5倍之间的均匀分布；有0.5的概率进行色调的微调，微调范围是±18之间的均匀分布；有0.5的概率进行饱和度的微调，微调范围是0.5倍到1.5倍之间的均匀分布。然后进行图像的预处理，主要步骤如下：将通过之前增强处理过的图片的大小通过双线性插值的方法调整到固定的512×512的大小；将固定为512×512大小的图片的RGB三个通道分别减去事先计算好的Wider Face数据集所有像素的RGB平均值，以保证送入模型的所有数据均值为零；

2.3、将进行数据增强和预处理之后的16张图片输入深度神经网络模型，经过深度神经网络模型的计算，分别得到该批次各图片的输出结果；深度神经网络模型模型结构包括SSD使用的用来提特征的卷积神经网络、特征融合部分、检测器部分。其中，特征融合部分如步骤一所述；提特征的卷积神经网络和检测器部分延续SSD的模型设置。

2.5、使用随机梯度下降(SGD)方法更新深度神经网络模型参数；

步骤3，使用步骤2训练好的深度神经网络模型对图片进行计算，得到模型输出结果：

如图1所示，检测过程中使用的模型是步骤2中训练结束后的深度神经网络模型，步骤如下：

3.2、将进行预处理之后的待检测图片输入步骤2训练好的深度神经网络模型，经过模型的计算，分别得到该图片的输出结果。

3.3、如图3所示，对步骤2训练好的深度神经网络模型的输出结果做统计的非极大值抑制，步骤如下：

(a)深度神经网络模型输出的检测框具有统一的格式，每个检测框由五个数字x₁,y₁,x₂,y₂和s表示。其中，x₁,y₁和x₂,y₂分别代表框的左上和右下的坐标值；s代表深度神经网络模型对该检测框的预测置信度，称为该检测框的得分，取值在0和1之间，得分越高说明网络模型对该检测框越有把握。所有深度神经网络模型输出的检测框，记做

找出

初始化x_sum1＝s_mx_m1,x_sum2＝s_mx_m2,y_sum1＝s_my_m1,y_sum2＝s_my_m2,s_sum＝s_m五个变量用来存储累加值；其中，x_sum1,x_sum2,y_sum1,y_sum2分别存储的是框坐标的加权累加值，s_sum存储的是得分累加值。

(b)找出

中所有与b_max框住的是同一物体的检测框，记做

计算b_max与

I＝(min(x_m2,x₂)-max(x_m1,x₁))(min(y_m2,y₂)-max(y_m1,y₁))

b_i和b_max总体覆盖到的面积U定义如下：

U＝(x₂-x₁)(y₂-y₁)+(x_m2-x_m1)(y_m2-y_m1)-I

b_i与b_max的重叠程度IOU定义如下：

IOU反映了两个检测框的重叠比例大小，并且0≤IOU≤1。令θ＝0.3，当IOU>θ时，更新

x_sum1←x_sum1+s_ix_i1；

x_sum2←x_sum2+s_ix_i2；

y_sum1←y_sum1+s_iy_i1；

y_sum2←y_sum2+s_iy_i2；

s_sum←s_sum+s_m.

(c)将

(d)在

中去掉b_max和

中的检测框；

(e)重复(a)(b)(c)(d)步，直到

为空。此时集合

中的所有检测框即为统计的非极大值抑制的输出结果。

实验结果表明，通过本技术方案，可以对复杂背景下的人脸作出精确的捕获和定位，达到大于15帧每秒的检测速度。如图4中列出使用FDDB人脸检测数据集作为测试集的部分检测结果。FDDB人脸检测数据集包含2845张图片，5171张人脸，在保证误检不超过10％，即误检数500的时候，正确率达到95.10％，相比SSD-512有1.02％的提升。如图5(a)和图5(b)所示，本发明相比于SSD512误检有明显减少。本发明不但具有较高的检出率和较低的误检率，同时增强了检测框的精准度，实现了人脸的快速检测。

Claims

1.一种卷积神经网络特征融合的多尺度快速人脸检测方法，其特征在于，包括以下步骤：

步骤3：使用步骤2训练好的深度神经网络模型对待检测图片进行计算，得到模型输出结果；

步骤1具体包括：

SSD512输入检测器的特征分别有VGG的conv4_3层特征，以及后续添加的fc7层、conv6_2层、conv7_2层、conv8_2层、conv9_2层和conv10_2层特征；特征融合从conv8_2层特征开始，上采样与conv7_2层特征融合；融合后的特征再上采样，与conv6_2层特征融合；以此类推，一直融合到conv4_3，分别依次融合得到fuse7_2、fuse6_2、fusefc7和fuse4_3；用融合得到的fuse4_3、fusefc7、fuse6_2和fuse7_2特征替代原来的conv4_3层、fc7层、conv6_2层、conv7_2层特征，并连同原来的conv8_2层与未参与融合的conv9_2层和conv10_2层特征一起送入与SSD模型相同的检测器，由多个卷积层组成的检测器分别在这7个特征的基础上进行检测框的回归和分类，获得改造过的检测模型。

2.根据权利要求1所述的一种卷积神经网络特征融合的多尺度快速人脸检测方法，其特征在于，步骤1对conv4_3层、fc7层、conv6_2层、conv7_2层和conv8_2层特征进行特征融合，将两层特征融合步骤如下：

此时，

的宽高与待融合浅层特征f_s的宽高相同；

1.2、将

3.根据权利要求1所述的一种卷积神经网络特征融合的多尺度快速人脸检测方法，其特征在于，步骤2具体包括：

2.3、将进行数据增强和预处理之后的若干张图片输入深度神经网络模型，经过深度神经网络模型的计算，分别得到输入深度神经网络模型的若干张图片的输出结果；深度神经网络模型的模型结构包括SSD使用的用来提特征的卷积神经网络、特征融合部分、检测器部分；其中，特征融合部分如步骤1所述；提特征的卷积神经网络和检测器部分延续SSD的模型设置；

2.5、使用随机梯度下降方法更新深度神经网络模型参数；

4.根据权利要求3所述的一种卷积神经网络特征融合的多尺度快速人脸检测方法，其特征在于，步骤2.1具体包括：数据增强做法如下：有0.5的概率进行亮度微调，微调范围是±32之间的均匀分布；有0.5的概率进行对比度微调，微调范围是0.5倍到1.5倍之间的均匀分布；有0.5的概率进行色调的微调，微调范围是±18之间的均匀分布；有0.5的概率进行饱和度的微调，微调范围是0.5倍到1.5倍之间的均匀分布；数据增强后进行图像的预处理，步骤如下：将通过之前增强处理过的图片的大小通过双线性插值的方法调整到固定的512×512的大小；将固定为512×512大小的图片的RGB三个通道分别减去事先计算好的WiderFace数据集所有像素的RGB平均值。

5.根据权利要求3所述的一种卷积神经网络特征融合的多尺度快速人脸检测方法，其特征在于，步骤3具体包括：

6.根据权利要求5所述的一种卷积神经网络特征融合的多尺度快速人脸检测方法，其特征在于，步骤3.3具体包括：

(a)深度神经网络模型输出的检测框具有统一的格式，每个检测框由五个数字x₁，y₁，x₂，y₂和s表示；其中，x₁，y₁和x₂，y₂分别代表框的左上和右下的坐标值；s代表深度神经网络模型对该检测框的预测置信度，称为该检测框的得分，取值在0和1之间，得分越高说明网络模型对该检测框越有把握；所有深度神经网络模型输出的检测框，记做