CN111126577A

CN111126577A - 一种针对不均衡样本的损失函数设计方法

Info

Publication number: CN111126577A
Application number: CN202010233575.3A
Authority: CN
Inventors: 代笃伟; 赵威; 申建虎; 王博; 张伟
Original assignee: Beijing Precision Diagnosis Medical Technology Co Ltd
Current assignee: Beijing Precision Diagnosis Medical Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-05-08

Abstract

本发明公开了一种针对不均衡样本的损失函数设计方法，具体包括以下步骤：设定深度学习对应的神经网络、训练数据和损失函数；从训练数据中获取样本，统计样本中各个类别包含个体的数量；根据个体的数量调整各个类别的归一化特征映射至超球面的半径数值，样本数量越高，半径数值越大；循环迭代步骤2和3，根据超球面的半径数值计算每批次样本对应的损失函数。本发明可以根据类别中样本的多少，自适应的调整该类别所分布的超球面的半径，能够有效的解决样本分布不均匀问题。

Description

一种针对不均衡样本的损失函数设计方法

技术领域

本发明涉及深度学习技术领域，特别是指一种针对不均衡样本的损失函数设计方法。

背景技术

在深度学习中，最重要的几个要素是：数据，算力，网络结构，损失函数。损失函数可以用来评判预测的结果和真实结果之间的差异，引导网络做出更准确的预测。对于不同的深度学习任务，使用一个恰当的损失函数是很有必要的。

分类问题是深度学***方和越小越好，也就是类内距离要越小越好。

研究发现Softmax_loss学习到的特征分辨性不够强，Center_loss考虑到了使得类内紧凑，却不能使类间可分，而Triplet_loss增加了时间上的消耗，于是有学者提出了A-softmax_Loss。在Softmax_Loss中，由WTx = ||W||*||x||*cosθ知，特征向量相乘包含角度信息，即Softmax使得学习到的特征具有角度上的分布特性，为了让特征学习到更加可分的角度特征，有学者对Softmax_Loss进行了一些改进。其中约束了||w||=1，增加了在角度空间中对损失函数的约束cos(t*θ1)>cos(θ2)，通过这样的损失函数学习，可以使得学习到的特征具有更明显的角分布，因为此时决策边界只和角相关。

后续的F-Norm SphereFace对A-softmax_Loss做了更新，仅注重从数据中得到的角度信息，而不考虑特征向量的值，不仅对权重W进行了归一化，对特征x亦进行了归一化，采用了s = 64作为特征归一化参数替代了||x||，这样损失函数更易收敛并且相对于距离信息更加关注角度信息。

与F-Norm SphereFace相比，CosinFace最明显的变化就是将cos(t*θ1)中的t提出来变成cos(θ1) – t，与之前相比，训练过程变得简洁同时也更容易收敛，模型性能也有了明显的改善。

尽管在余弦范围到角度范围的映射具有一对一得关系，但仍有不同之处，事实上，实现角度空间内最大化分类界限相对于余弦空间而言具有更加清晰的几何解释性，角度空间中的边缘距离差距也相当于超球面上的弧距。于是，有学者提出Angular Margin Loss，将角度边缘t置于cos(θ)函数内部，使得cos(θ+ t)在θ∈[0, π- t]范围内要小于cos(θ)，这一策略使得整个分类任务的要求变得更加严格。对于cos(θ+ t)可以得到cos(θ+ t) =cosθ*cost – sinθ*sint，对比CosinFace的cos(θ) – t，ArcFace的cos(θ+ t)不仅形式简单，并且还动态依赖sinθ，使得网络能够学习到更多的角度特征。

损失函数Loss对神经网络最直观的影响就是，通过计算Loss反传梯度来实现对模型参数的更新，不同的Loss可以使模型更加侧重于学习到数据某一方面的特征，并在之后能够更好地提取到这一独有的特征，因此Loss对于网络优化有导向性的作用。深度学习在分类任务中，优化Loss对于最终结果的提升有很大的帮助，从Softmax_Loss到Center_loss，SphereFace，CosineFace，Arcface等都有在损失函数这一环节提出新的解决方案，它们的出现对于深度学习中的分类问题的发展做出了很大的贡献，然而这些损失函数均未对训练样本不均衡问题进行特殊的处理。

ArcFace是现阶段最常使用的分类损失函数，将归一化后的特征映射到半径为S的超球面上，并在角度空间中加上约束条件t，这样可以对样本进行较好的分类，增加了类间距离，减少了类内距离。然而上述的一系列损失函数并未针对样本不均衡的问题做特殊的处理。现实中需要处理的样本更多是分布不均衡的，因此针对这种情况有必要设计一种针对分布不平衡样本的损失函数。

发明内容

本发明提出一种针对不均衡样本的损失函数设计方法，可以根据类别中样本的多少，自适应的调整该类别所分布的超球面的半径，能够有效的解决样本分布不均匀问题。

本发明的技术方案是这样实现的：

一种针对不均衡样本的损失函数设计方法，具体包括以下步骤：

步骤1，设定深度学习对应的神经网络、训练数据和损失函数；

步骤2，从训练数据中获取样本，统计样本中各个类别包含个体的数量；

步骤3，根据个体的数量调整各个类别的归一化特征映射至超球面的半径数值，样本数量越高，半径数值越大；

步骤4，循环迭代步骤2和3，根据超球面的半径数值计算每批次样本对应的损失函数。

作为本发明的一个优选实施例，步骤1设定深度学习对应的神经网络、训练数据和损失函数；具体指的是设定深度学习对应的神经网络为ResNet50，图像数据集为imagenet，训练数据为MS1M，损失函数为ArcFace。

作为本发明的一个优选实施例，步骤2中统计样本中各个类别包含个体的数量；具体指的是统计样本中每一个类别包含的个体的数量class1_num，class2_num， class3_num，……，classN_num，样本中一共包含N个类别。

作为本发明的一个优选实施例，步骤3具体包括以下步骤：

步骤301，定义映射系数λ，其计算方式为classi_num的立方根保留小数点后1位，i表示第i个类别，公式如下：

λi = round(math.pow(classi_num, 1.0/3)，1)

假设λk是映射系数λ中最小的一个映射系数，该类别需要映射到的超球面的半径为S；

步骤302，计算剩余的类别需要映射到的超球面的半径Si

Si = (λi/λk)*S

λi为第i个类别对应的映射系数。

作为本发明的一个优选实施例，每批次样本对应的损失函数为

m表示每一个batch中样本的数量，n表示整个样本中的类别总数，t表示类别之间的margin，R_j为第j个样本所属于的类别的超球面半径，θ_yj表示第j个样本的特征向量和其对应的权重向量之间的夹角，θ_i表示第i个样本的特征向量和其对应的类别中心的夹角。

本发明的有益效果在于：可以根据类别中样本的多少，自适应的调整该类别所分布的超球面的半径，能够有效的解决样本分布不均匀问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种针对不均衡样本的损失函数设计方法一个实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提出了一种针对不均衡样本的损失函数设计方法，可以根据类别中样本的多少，自适应的调整该类别所分布的超球面的半径，让包含样本多的类别，分布在更大的超球面上，具体包括以下步骤：

步骤1，设定深度学习对应的神经网络、训练数据和损失函数；可通过键盘、触摸显示屏等人机交互设备输入设定指令。

本发明设定深度学习对应的神经网络为ResNet50，图像数据集为imagenet，训练数据为MS1M，损失函数为ArcFace。Iamgenet图像数据集始于2009年，目前总共有14197122幅图像，总共分为21841个类别，是深度学习中被引用最多的一个数据集。本发明选择使用imageNet2012，其一共包含1000个类别。深度残差网络(deep residual network,ResNet)是何凯明等人提出的一种深度学习网络，它的出现极大的促进了深度学习的发展。考虑到硬件条件，在本发明中选择resnet50。

步骤2中统计样本中各个类别包含个体的数量；具体指的是统计样本中每一个类别包含的个体的数量class1_num，class2_num， class3_num，……，classN_num，样本中一共包含N个类别。

步骤3具体包括以下步骤：

λi = round(math.pow(classi_num, 1.0/3)，1)

步骤302，计算剩余的类别需要映射到的超球面的半径Si

Si = (λi/λk)*S

λi为第i个类别对应的映射系数。

每批次样本对应的损失函数为

本发明是基于arcface进行改进的，在ImageNet validation上测试模型并比较模型的准确率（%）。测试结果如下：

由测试结果可知，在分类问题上优于arcface，在ImageNet上准确率有约1%的提升。

本发明可以根据类别中样本的多少，自适应的调整该类别所分布的超球面的半径，能够有效的解决样本分布不均匀问题。本发明可应用于人脸识别领域，可使得人脸识别模型进一步调整优化，提高了人脸识别的精确度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对不均衡样本的损失函数设计方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种针对不均衡样本的损失函数设计方法，其特征在于，步骤1设定深度学习对应的神经网络、训练数据和损失函数；具体指的是设定深度学习对应的神经网络为ResNet50，图像数据集为imagenet，训练数据为MS1M，损失函数为ArcFace。

3.根据权利要求1所述的一种针对不均衡样本的损失函数设计方法，其特征在于，步骤2中统计样本中各个类别包含个体的数量；具体指的是统计样本中每一个类别包含的个体的数量class1_num，class2_num， class3_num，……，classN_num，样本中一共包含N个类别。

4.根据权利要求3所述的一种针对不均衡样本的损失函数设计方法，其特征在于，步骤3具体包括以下步骤：

λi = round(math.pow(classi_num, 1.0/3)，1)

步骤302，计算剩余的类别需要映射到的超球面的半径Si

Si = (λi/λk)*S

λi为第i个类别对应的映射系数。

5.根据权利要求4所述的一种针对不均衡样本的损失函数设计方法，其特征在于，每批次样本对应的损失函数为