CN111950515B

CN111950515B - 一种基于语义特征金字塔网络的小人脸检测方法

Info

Publication number: CN111950515B
Application number: CN202010870140.XA
Authority: CN
Inventors: 周丽芳; 李连琼; 李伟生; 熊超
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2022-10-18
Anticipated expiration: 2040-08-26
Also published as: CN111950515A

Abstract

本发明请求保护一种基于语义特征金字塔网络的小人脸检测方法，属于人脸检测技术领域。其中，所述方法包括以下步骤：步骤1.以SFD人脸检测方法为基础模型，为了增强预测特征的语义信息，本发明设计了一个语义特征金字塔网络。步骤2.为了提高小人脸的召回率，减少固定分类阈值造成的错误分类样本数量，本发明提出了一个尺度自适应匹配算法，进行anchor匹配和样本分类。步骤3.为了缓解网络中正负样本不平衡问题，本发明采用focal loss计算网络的分类损失，通过迭代训练、更新参数得到最终的网络模型。在增加少量计算量的情况下，本发明有效的提取了小人脸检测所必需的语义信息，增强了网络的特征表达能力，提高了小人脸的召回率，缓解了检测器的样本不平衡问题。

Description

一种基于语义特征金字塔网络的小人脸检测方法

技术领域

本发明属于图像处理技术领域，特别涉及基于特征金字塔的小人脸检测方法。

背景技术

近几年来，深度学习的兴起促使人脸检测快速发展，越来越多的人脸智能检测仪器走进人们的日常生活中。尽管人脸检测借助深度卷积神经网络在一些挑战性环境下取得突破性进展，比如：光照、姿态、遮挡、旋转等无约束环境。但是对于多尺度问题仍然没有很好的解决，尤其是小人脸。这极大程度的降低了人脸检测器能在公共场所发挥的作用，限制了人脸检测器在实际生活中的部署应用。一款高性能的人脸(尤其是小人脸)检测器对于维护公众安全、预防不法分子扰乱公共秩序至关重要。因此小人脸检测器具有极大的实用价值和迫切的社会需求。

目前，基于深度学***衡，损害了检测器的性能。为了解决以上问题，本发明提供了一种基于语义特征金字塔的单阶段小人脸检测器。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于语义特征金字塔的小人脸检测方法。本发明的技术方案如下：

一种基于语义特征金字塔的小人脸检测方法，其包括以下步骤：

步骤1：将目标图像输入到SFD网络得到用于构建语义特征金字塔网络的输入特征；在特征融合之前，将设计的语义聚集模块***特征金字塔顶层用来增强其语义信息；在特征融合过程，为了减少FPN特征融合中降维操作带来的信息损失，对增强了语义信息的顶层特征以及后续的融合特征进行全局平均池化处理，然后以FPN横向连接方式和自上而下路径进行特征融合，得到语义特征金字塔网络的浅层特征。最后以自下而上路径，在增强了语义信息的顶层特征上增加额外的卷积层，得到语义特征金字塔网络的深层特征，从而得到了含有丰富语义信息的语义特征金字塔网络。

步骤2：使用步骤1中构建的语义特征金字塔网络，如图2所示，进行训练得到网络输出anchor(锚框)。为了减少主干网络采用固定阈值进行anchor匹配产生的错误分类样本数量并提高小人脸的召回率，本发明采用尺度自适应匹配算法进行anchor匹配从而得到样本分类标签。首先将网络输出的anchor与 ground truth中心点距离和iou结合作为候选样本分类指标,按尺度为每个人脸分类候选样本，然后计算候选样本iou的均值和方差之和作为动态阈值，得到 anchor匹配的分类结果；最后根据anchor匹配的分类结果得到网络输出的分类标签；

步骤3：使用步骤1的网络输出和步骤2得到的分类标签，采用focal loss 替换SFD分类任务的标准交叉熵cross entropy loss，用于缓解网络的样本不平衡问题，通过迭代训练得到最终的网络模型。

进一步的，所述步骤1具体包括以下步骤：

1.1将目标图像输入到SFD网络，如图1所示，SFD以VGG16作为基础框架，保留conv1_1到pool5的网络层，将全连接层fc6、fc7转换为卷积层，并在其后增加四个卷积层。网络将选择尺度不同的六个特征层conv3_3、conv4_3、 conv5_3、fc_7、conv6_2和conv7_2作为检测层，其中浅层特征用于检测小尺度人脸，深层特征用于检测大尺度人脸。

1.2考虑到过大的感受野会引入噪声，本发明从特征fc_7开始构造特征金字塔。为了增强特征金字塔的语义信息，本发明设计了一个语义聚集模块。在特征融合之前，先将fc_7输入到语义聚集模块中进行运算，得到语义特征 context_fc7；具体包括：

1)将输入特征fc_7进行1×1卷积运算减少通道数，得到通道特征；

2)将通道特征进行1×n和n×1的卷积运算减少特征参数，得到精简特征；

3)将精简特征进行空洞卷积运算，扩大特征感受野，得到语义信息特征；

4)将语义信息特征进行拼接操作，得到和输入特征fc_7相同维度的语义权重特征；

5)将语义权重特征和输入特征conv_fc_7进行n×n的卷积运算，确保特征的判别性，得到上下分支权重特征；

1)将上下分支权重特征以点积方式融合从而增强了输入特征的语义信息，得到了语义特征context_fc7。

1.3特征金字塔原有融合方式是对深层特征进行降维、然后上采样和浅层特征基于元素相加。但在降维过程中会造成信息信息损失，为了缓解这个问题，本发明在相邻特征融合之前，对含有丰富语义信息的特征进行全局平均池化处理来减少融合过程中的语义信息损失，如图3所示。

1.4将语义特征context_fc7和浅层特征(conv3_3,conv4_3和conv5_3)按照特征金字塔的特征融合方式，以自上而下的路径(top-down way)和横向连接(lateralconnection)进行融合，增强了输出特征的语义信息，得到了语义特征金字塔网络的浅层输出特征。然后以自下而上方式，在context_fc7上增加额外的四个卷积层得到语义特征金字塔网络的深层特征conv6_2、conv7_2，从而构建出语义特征金字塔网络。

进一步的，所述步骤2具体包括：

2.1使用步骤1中构建的网络进行训练，得到网络输出；

2.2将网络输出的anchor与ground truth中心点距离和iou结合作为候选样本分类指标，用score_iou∪dis来表示；

2.3按尺度为每个anchor分类，同一尺度中与对应人脸score_iou∪dis的最大n 个anchor作为候选样本；

2.4计算所有候选样本的iou均值和方差之和作为动态阈值；候选样本的iou 大于阈值的分类为正样本，其余网络输出样本均分类为负样本。

进一步的，所述步骤2.2结合网络输出的anchor与目标图像中人脸的中心点距离，改进通用的度量指标iou得到度量指标score_iou∪dis，具体包括：

1)网络输出的anchor具有统一格式，由anchor的中心点坐标(cx,cy)和 anchor宽度和长度(w,h)构成,表示为(cx_anchor，cy_anchor，w_anchor，h_anchor)，而目标图像中的人脸的表达形式为人脸框的左上角(x1_gt，y1_gt)和右下角(x2_gt，y2_gt)坐标，将目标图像中anchor的表达形式转换为人脸框的格式，其计算方式如下：

x1_anchor＝cx_anchor-w_anchor/2

y1_anchor＝cy_anchor-h_anchor/2

x2_anchor＝cx_anchor+w_anchor/2

y2_anchor＝cy_anchor+h_anchor/2

2)计算目标图像中人脸和锚框的交并比iou(IntersectionoverUnion)，其计算方式如下：

U＝(x2_gt-x1_gt)*(y2_gt-y1_gt)+(x2_anchor-x1_anchor)*(y2_anchor-y1_anchor)-I

I＝(min(x2_gt-x2_anchor)-max(x1_gt-x1_anchor))*(min(y2_gt-y2_anchor)-max(y1_gt-y1_anchor))

Iou＝I/U

3)计算目标图像中人脸和锚框的中心点距离，用dis表示，其计算方式如下：为了便于计算，首先将人脸框转换为锚框的格式，由中心点和长宽表示，(cx_gt,， cy_gt，w_gt，h_gt)，其中：

cx_gt＝(x1_anchor+x2_anchor)/2

cy_gt＝(y1_anchor+y2_anchor)/2

w_gt＝x2_anchor-x1_anchor

h_gt＝y2_anchor-y1_anchor

然后计算人脸框和锚框的中心点距离：

4)计算dis在anchor中占有的比例，然后iou减去该比例得到score_iou∪dis：

score_iou∪dis＝iou-dis/w_anchor

2)计算dis在anchor中占有的比例，然后iou减去该比例得到score_iou∪dis。

进一步的，所述步骤3具体包括：

3.1根据步骤1和步骤2得到网络输出的分类和回归正负样本；

3.2对分类样本使用focal loss得到分类任务损失，对回归任务使用SmoothL1 得到回归损失；

3.3使用随机梯度下降方法更新深度神经网络模型参数，得到训练好的模型；

3.4判断深度神经网络模型是否达到收敛条件，如果不是，回到第2.1步；如果是，结束训练，获得训练好的深度神经网络模型。

本发明的优点及有益效果如下：

1.大量研究成果表明语义信息对检测小人脸至关重要。不同于现阶段性能比较好的人脸检测器Pyramid Box、DSFD、SRN等，通过为每个尺度特征增加额外的特征提取模块来增强输出特征的语义信息，极大的增加了训练成本以及网络复杂性。本发明提出了一个语义特征金字塔，通过增强深层特征的语义信息，再以特征金字塔的特征融合方式来增加浅层特征的语义信息。同时为了减少特征融合过程中降维带来的信息损失，本发明采用全局平均池化操作处理含有丰富语义信息的特征，减少了融合过程中的信息损失，提高了融合特征的表达能力。

2.anchor的分配方式影响着检测器的性能。最新研究HAMBox:Delving intoOnline High-quality Anchors Mining for Detecting OuterFaces表明一些低于iou阈值的anchor在网络学习过程中也能习得较高的回归能力。因此本发明提出了一个尺度自适应匹配算法。不同于其他基于anchor的方法，基于固定iou阈值分类，导致iou得分较低但在网络回归中能习得很强回归能力的anchor被错误分类，以及通过降低固定iou阈值来提高小人脸召回率，引入了大量的低质量 anchor。本发明采用动态阈值进行尺度自适应匹配，有效的提高了anchor匹配分类的质量，并显著提升了小人脸的召回率。

3.为了提高小人脸检测性能，现有单阶段检测器通过铺设大量anchor来匹配人脸，造成了极度的正负样本不平衡。本发明的主干网络通过标准交叉熵、进行分类损失计算，忽略了样本不平衡问题。本发明采用Focal loss替换基础网络分类损失函数标准交叉熵,通过对大量负样本以及易分类样本施以权重惩罚，降低其对网络的影响，达到样本平衡的目的，最终提升了检测器的性能。

附图说明

图1是本发明提供优选实施例的基础框架SFD网络模型结构示意图。

图2为本发明的深度学习人脸检测模型结构示意图。

图3为本发明的语义特征金字塔网络融合特征方式。

图4为本发明的尺度自适应匹配算法。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明实施例基于SFD人脸检测框架为基本框架，详见文献Zhang S, Zhu X,LeiZ,et al.S3FD:Single Shot Scale-invariant Face Detector[C]// InternationalConference on Computer Vision(ICCV).2017。首先通过SFD网络和语义聚集模块构建出语义特征金字塔网络，然后对网络输出进行动态尺度匹配，最后替换分类任务的标准交叉熵损失采用平衡交叉熵focal loss 用于样本平衡。

图1是本发明实施例提供的语义特征金字塔网络结构图，包括如下步骤：

步骤1.将目标图像输入到SFD网络得到用于构建特征金字塔的输入特征；将设计的语义聚集模块***特征金字塔顶层来增强特征金字塔的语义信息；然后融合相邻尺度的特征，构造语义特征金字塔。

如图2所示，SFD是一种多尺度人脸检测方法，不同深度下的特征具有不同尺度。SFD输入检测器用于分类和检测框回归任务的特征分别有：conv3_3、 conv4_3、conv5_3层和额外添加的fc_7、conv6_2、conv7_2层。由于深层特征的过大感受野会引入噪声，所以本发明构建语义特征金字塔从fc_7开始。首先将其输入到语义聚集模块得到语义特征context_fc_7，与相邻特征融合后得到含有语义信息的融合特征fuse_conv5_3、fuse_conv4_3、fuse_conv3_3作为浅层输出特征，然后以自下而上路径在context_fc_7后增加额外的四个卷积层提取 conv6_2、conv7_2作为深层输出特征。

本发明构建语义特征金字塔从fc_7开始，将其输入到语义聚集模块，具体步骤如下：

1.1将输入特征fc_7进行1×1卷积运算减少通道数，得到通道特征；

1.2将通道特征进行1×n，n×1的卷积运算减少特征参数，得到精简特征；

1.3将精简特征进行空洞卷积运算，扩大特征感受野，得到语义特征；

1.4将语义特征通过拼接操作，得到与输入特征fc_7相同维度的语义权重特征；

1.5将语义权重特征和输入特征fc_7进行n×n卷积运算，确保特征的判别性，得到语义聚集模块的上下分支权重特征。

1.6将上下分支权重特征以点积方式融合从而增强了输入特征的语义信息，得到了语义特征context_fc7。

在语义特征context_fc7与conv5_3、conv4_3、conv3_3特征层融合过程中，为了减少特征融合中降维操作带来的信息损失，对增强了语义信息的顶层特征以及后续的融合特征进行全局平均池化处理。然后以构造LFPN(Tang X,Du D K,He Z,et al.PyramidBox:AContext-assisted Single Shot Face Detector[J].2018.) 的融合方式得到融合特征fuse_conv5_3、fuse_conv4_3、fuse_conv3_3。详细融合方式见文献，本发明不再赘述文献。

步骤2.使用步骤1中构建的网络进行训练，得到网络输出。为了减少主干网络采用固定阈值进行anchor匹配产生的错误分类样本数量并提高小人脸的召回率，本发明采用尺度自适应匹配算法进行anchor匹配从而得到样本分类标签。首先将网络输出的anchor与ground truth的中心点距离和iou结合作为候选样本分类指标，按尺度为每张人脸挑选候选样本，扩大候选样本的范围。然后计算候选样本iou的均值和方差之和作为动态阈值，得到anchor匹配的分类结果。最后根据anchor匹配的分类结果得到网络输出的分类标签。具体步骤如下：

2.1人脸检测网络输入的ground truth和输出的anchor具有固定格式；每个人脸的ground truth由x1，y1，x2和y2表示，其中(x1_gt，y1_gt)和(x2_gt，y2_gt)分别表示框的左上角和右下角坐标；anchor由cx，cy，w和h表示，其中(cx_anchor， cy_anchor)和(w_anchor，h_anchor)分别表示anchor的中心点坐标和anchor宽度和长度。

将anchor通过计算转换为和预测框统一的格式，其计算方式如下：

x1_anchor＝cx_anchor-w_anchor/2

y1_anchor＝cy_anchor-h_anchor/2

x2_anchor＝cx_anchor+w_anchor/2

y2_anchor＝cy_anchor+h_anchor/2

将转换的anchor(x1_anchor，y1_anchor，x2_anchor，y2_anchor)和每个人脸的ground truth进行重合度计算。重复度Iou计算公式为：

U＝(x2_gt-x1_gt)*(y2_gt-y1_gt)+(x2_anchor-x1_anchor)*(y2_anchor-y1_anchor)-I

Iou＝I/U

将ground truth通过计算转换为和anchor的统一格式，其计算方式如下：

cx_gt＝(x1_anchor+x2_anchor)/2

cy_gt＝(y1_anchor+y2_anchor)/2

w_gt＝x2_anchor-x1_anchor

h_gt＝y2_anchor-y1_anchor

将转换的groundtruth(cx_gt,，cy_gt，w_gt，h_gt)和anchor(cx_anchor，cy_anchor，w_anchor，h_anchor)进行iou∪dis分数计算。score_iou∪dis计算公式为：

2.2因为anchor和预测框中心点距离与他们的重合度成负相关，所以候选样本分类度量指标设为：

score_iou∪dis＝Iou-dis/w_anchor

2.3S3FD预测的anchor具有六个尺度，分别为{16，32，64，128，256， 512}。根据步骤2.2中计算的score_iou∪dis取每个尺度前n个score_iou∪dis最大的值作为候选样本(proposal-positive)，其余框均分类为负样本。

2.4计算这6×n个候选样本的iou均值和方差之和作为动态阈值threshold， 6×n个候选样本中iou≧threshold分类为正样本，其余分类为负样本，从而得到分类标签。

步骤3：使用步骤1的网络输出和步骤2得到的分类标签，采用focalloss 用于分类任务进行样本平衡，通过迭代训练得到训练好的模型。具体如下：

3.1网络除了输出预测框，同时还会输出每个预测框的分类置信分数classification-confidence，取值在0～1之间。得分越高表明网络对该检测框的预测结果越准确。使用步骤2.3中所有anchor的分类标签label对 classification-confidence进行分类，label>0为正样本，其余为负样本。使用focal loss对置信分数正负样本进行样本平衡的分类损失L_c计算，计算公式如下：

L_c＝-α(1-y_p)^βlog y_p，其中α＝0.25，β＝2

3.2使用SmoothLL1作为回归损失L_l，计算公式如下:

L_l＝F.smooth_l1_loss(ground truth,predict box)

其中ground truth和predict box分别为人脸真实坐标(x1 gt,，y1gt，x2gt，y2gt)和预测坐标(x1 pt，y1pt，x2 pt，y2pt)。

3.3在训练过程中根据分类损失和预测损失使用随机梯度下降方法更新网络参数，最终得到训练好的模型。

本发明通过一种语义特征金字塔的网络提取特征，增强了小人脸检测所需的语义信息，然后在网络预测之后采用尺度自适应匹配算法进行anchor匹配和样本分类，减少了错误分类样本，提高了小人脸的召回率，并在网络损失计算中采用focal loss替换主干网络的标准交叉熵损失，有效的缓解了检测器的样本不平衡问题。和其他深度学习的人脸检测方法相比，本发明在增加少量计算量的情况下，有效的提高了小人脸检测的性能，节约了网络计算成本和内存消耗。

Claims

1.一种基于语义特征金字塔的小人脸检测方法，其特征在于，包括以下步骤：

步骤1：将目标图像输入到单目尺度不变人脸检测器SFD网络得到用于构建语义特征金字塔网络的输入特征；在特征融合之前，将设计的语义聚集模块***特征金字塔顶层增强其语义信息；在特征融合过程，为了减少特征金字塔网络FPN特征融合中降维操作带来的信息损失，先对增强了语义信息的顶层特征以及后续的融合特征进行全局平均池化处理，并以FPN横向连接方式和自上而下路径进行特征融合，从而得到语义特征金字塔网络的浅层特征；然后通过自下而上路径，在增强语义信息的顶层特征上增加额外的卷积层，得到语义特征金字塔网络的深层特征，最终得到了含有丰富语义信息的语义特征金字塔网络；

步骤2：使用步骤1中构建的语义特征金字塔网络进行训练，得到网络预测输出；网络预测输出包括回归的锚框anchor和分类置信分数；为了减少主干网络采用固定阈值进行anchor匹配产生的错误分类样本数量并提高小人脸的召回率，采用尺度自适应匹配算法进行anchor匹配从而得到样本分类标签；首先将网络输出的锚框与真实框中心点距离和交并比iou结合作为候选样本分类指标，按尺度为每个人脸分类候选样本，然后计算候选样本iou的均值和方差之和作为阈值，得到anchor匹配的分类结果；最后根据anchor匹配的分类结果得到网络输出的分类标签；

步骤3：使用步骤1的网络输出和步骤2得到的分类标签，采用平衡交叉熵损失focalloss替换SFD分类任务的标准交叉熵，用于缓解网络中样本不平衡问题，通过迭代训练得到最终的网络模型；

所述步骤1具体包括以下步骤：

1.1将目标图像输入到SFD网络，SFD以VGG16作为基础框架，保留conv1_1到pool5的网络层，将全连接层fc6、fc7转换为卷积层，并在其后增加四个卷积层；网络将选择尺度不同的六个特征层conv3_3、conv4_3、conv5_3、fc_7、conv6_2和conv7_2作为检测层，其中浅层特征用于检测小尺度人脸，深层特征用于检测大尺度人脸；

1.2考虑到过大的感受野会引入噪声，从特征fc_7开始自上而下融合构造特征金字塔网络；为了增强特征金字塔的语义信息，设计了一个语义聚集模块；在特征融合之前，先将fc_7输入到语义聚集模块中进行运算，得到语义特征context_fc7，然后进行特征融合；

1.3特征金字塔原有融合方式是对深层特征进行降维、然后上采样和浅层特征基于元素相加；但在降维过程中会造成信息损失；为了缓解这个问题，在相邻特征融合过程中，对context_fc7以及后续的融合特征进行全局平均池化处理来减少融合过程中的语义信息损失；

1.4将语义特征context_fc7和浅层特征conv3_3、conv4_3和conv5_3以自上而下的路径和横向连接进行融合，增强了输出特征的语义信息，从而得到语义特征金字塔网络的浅层特征；然后以自下而上方式，在context_fc7上增加额外的四个卷积层得到语义特征金字塔网络的深层特征conv6_2、conv7_2，从而构建出语义特征金字塔网络；

所述步骤1.2将深层最大尺度特征fc_7输入到所述的语义聚集模块中进行运算，具体包括：

2)将通道特征进行1×n,n×1的卷积运算减少特征参数，得到精简特征；

5)将语义权重特征和输入特征fc_7进行n×n的卷积运算，确保特征的判别性，得到上下分支权重特征；

将上下分支权重特征以点积方式融合从而增强了输入特征的语义信息，得到了语义特征context_fc7。

2.根据权利要求1所述的一种基于语义特征金字塔的小人脸检测方法，其特征在于，所述步骤2具体包括：

2.1使用步骤1中构建的网络进行训练，得到网络输出；

2.3按尺度为每个人脸挑选候选样本，为对应人脸从每个尺度中挑选前n个score_iou∪dis最大的anchor作为候选样本；

2.4计算所有候选样本的iou均值和方差之和作为动态阈值；候选样本的iou大于阈值分类为正样本，其余网络输出样本均分类为负样本。

3.根据权利要求2所述的一种基于语义特征金字塔的小人脸检测方法，其特征在于，所述步骤2.2将网络输出的anchor与ground truth中心点距离和iou结合作为候选样本分类指标，用score_iou∪dis表示，具体包括：

1)网络输出的anchor具有统一格式，由anchor的中心点坐标(cx,cy)和anchor宽度和长度(w,h)构成，表示为(cx_anchor，cy_anchor，w_anchor，h_anchor)，而目标图像中的人脸的表达形式为人脸框的左上角(x1_gt，y1_gt)和右下角(x2_gt，y2_gt)坐标，将目标图像中anchor的表达形式转换为人脸框的格式，其计算方式如下：

x1_anchor＝cx_anchor-w_anchor/2

y1_anchor＝cy_anchor-h_anchor/2

x2_anchor＝cx_anchor+w_anchor/2

y2_anchor＝cy_anchor+h_anchor/2

2)计算目标图像中人脸和锚框的交并比iou，根据计算得到的x1_anchor、y1_anchor、x2_anchor、y2_anchor以及(cx_anchor，cy_anchor，w_anchor，h_anchor)计算得到人脸和锚框的交并比iou；

3)计算目标图像中人脸和锚框的中心点距离，用dis表示，其计算方式如下：为了便于计算，首先将人脸框转换为锚框的格式，由中心点和长宽表示，(cx_gt，cy_gt，w_gt，h_gt)，其中：

cx_gt＝(x1_anchor+x2_anchor)/2

cy_gt＝(y1_anchor+y2_anchor)/2

w_gt＝x2_anchor-x1_anchor

h_gt＝y2_anchor-y1_anchor

然后计算人脸框和锚框的中心点距离：

4)计算dis在anchor中占有的比例，然后iou减去该比例得到score_iou∪dis:

score_iou∪dis＝iou-dis/w_anchor。

4.根据权利要求3所述的一种基于语义特征金字塔的小人脸检测方法，其特征在于，所述步骤3具体包括：

3.1根据步骤1和步骤2得到网络输出的分类和回归正负样本；

3.2对分类样本使用平衡交叉熵损失focal loss得到分类任务损失，对回归任务使用SmoothL1损失得到回归损失；