CN111126577A - 一种针对不均衡样本的损失函数设计方法 - Google Patents
一种针对不均衡样本的损失函数设计方法 Download PDFInfo
- Publication number
- CN111126577A CN111126577A CN202010233575.3A CN202010233575A CN111126577A CN 111126577 A CN111126577 A CN 111126577A CN 202010233575 A CN202010233575 A CN 202010233575A CN 111126577 A CN111126577 A CN 111126577A
- Authority
- CN
- China
- Prior art keywords
- samples
- loss function
- sample
- radius
- hypersphere
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对不均衡样本的损失函数设计方法,具体包括以下步骤:设定深度学习对应的神经网络、训练数据和损失函数;从训练数据中获取样本,统计样本中各个类别包含个体的数量;根据个体的数量调整各个类别的归一化特征映射至超球面的半径数值,样本数量越高,半径数值越大;循环迭代步骤2和3,根据超球面的半径数值计算每批次样本对应的损失函数。本发明可以根据类别中样本的多少,自适应的调整该类别所分布的超球面的半径,能够有效的解决样本分布不均匀问题。
Description
技术领域
本发明涉及深度学习技术领域,特别是指一种针对不均衡样本的损失函数设计方法。
背景技术
在深度学习中,最重要的几个要素是:数据,算力,网络结构,损失函数。损失函数可以用来评判预测的结果和真实结果之间的差异,引导网络做出更准确的预测。对于不同的深度学习任务,使用一个恰当的损失函数是很有必要的。
分类问题是深度学***方和越小越好,也就是类内距离要越小越好。
研究发现Softmax_loss学习到的特征分辨性不够强,Center_loss考虑到了使得类内紧凑,却不能使类间可分,而Triplet_loss增加了时间上的消耗,于是有学者提出了A-softmax_Loss。在Softmax_Loss中,由WTx = ||W||*||x||*cosθ知,特征向量相乘包含角度信息,即Softmax使得学习到的特征具有角度上的分布特性,为了让特征学习到更加可分的角度特征,有学者对Softmax_Loss进行了一些改进。其中约束了||w||=1,增加了在角度空间中对损失函数的约束cos(t*θ1)>cos(θ2),通过这样的损失函数学习,可以使得学习到的特征具有更明显的角分布,因为此时决策边界只和角相关。
后续的F-Norm SphereFace对A-softmax_Loss做了更新,仅注重从数据中得到的角度信息,而不考虑特征向量的值,不仅对权重W进行了归一化,对特征x亦进行了归一化,采用了s = 64作为特征归一化参数替代了||x||,这样损失函数更易收敛并且相对于距离信息更加关注角度信息。
与F-Norm SphereFace相比,CosinFace最明显的变化就是将cos(t*θ1)中的t提出来变成cos(θ1) – t,与之前相比,训练过程变得简洁同时也更容易收敛,模型性能也有了明显的改善。
尽管在余弦范围到角度范围的映射具有一对一得关系,但仍有不同之处,事实上,实现角度空间内最大化分类界限相对于余弦空间而言具有更加清晰的几何解释性,角度空间中的边缘距离差距也相当于超球面上的弧距。于是,有学者提出Angular Margin Loss,将角度边缘t置于cos(θ)函数内部,使得cos(θ+ t)在θ∈[0, π- t]范围内要小于cos(θ),这一策略使得整个分类任务的要求变得更加严格。对于cos(θ+ t)可以得到cos(θ+ t) =cosθ*cost – sinθ*sint,对比CosinFace的cos(θ) – t,ArcFace的cos(θ+ t)不仅形式简单,并且还动态依赖sinθ,使得网络能够学习到更多的角度特征。
损失函数Loss对神经网络最直观的影响就是,通过计算Loss反传梯度来实现对模型参数的更新,不同的Loss可以使模型更加侧重于学习到数据某一方面的特征,并在之后能够更好地提取到这一独有的特征,因此Loss对于网络优化有导向性的作用。深度学习在分类任务中,优化Loss对于最终结果的提升有很大的帮助,从Softmax_Loss到Center_loss,SphereFace,CosineFace,Arcface等都有在损失函数这一环节提出新的解决方案,它们的出现对于深度学习中的分类问题的发展做出了很大的贡献,然而这些损失函数均未对训练样本不均衡问题进行特殊的处理。
ArcFace是现阶段最常使用的分类损失函数,将归一化后的特征映射到半径为S的超球面上,并在角度空间中加上约束条件t,这样可以对样本进行较好的分类,增加了类间距离,减少了类内距离。然而上述的一系列损失函数并未针对样本不均衡的问题做特殊的处理。现实中需要处理的样本更多是分布不均衡的,因此针对这种情况有必要设计一种针对分布不平衡样本的损失函数。
发明内容
本发明提出一种针对不均衡样本的损失函数设计方法,可以根据类别中样本的多少,自适应的调整该类别所分布的超球面的半径,能够有效的解决样本分布不均匀问题。
本发明的技术方案是这样实现的:
一种针对不均衡样本的损失函数设计方法,具体包括以下步骤:
步骤1,设定深度学习对应的神经网络、训练数据和损失函数;
步骤2,从训练数据中获取样本,统计样本中各个类别包含个体的数量;
步骤3,根据个体的数量调整各个类别的归一化特征映射至超球面的半径数值,样本数量越高,半径数值越大;
步骤4,循环迭代步骤2和3,根据超球面的半径数值计算每批次样本对应的损失函数。
作为本发明的一个优选实施例,步骤1设定深度学习对应的神经网络、训练数据和损失函数;具体指的是设定深度学习对应的神经网络为ResNet50,图像数据集为imagenet,训练数据为MS1M,损失函数为ArcFace。
作为本发明的一个优选实施例,步骤2中统计样本中各个类别包含个体的数量;具体指的是统计样本中每一个类别包含的个体的数量class1_num,class2_num, class3_num,……,classN_num,样本中一共包含N个类别。
作为本发明的一个优选实施例,步骤3具体包括以下步骤:
步骤301,定义映射系数λ,其计算方式为classi_num的立方根保留小数点后1位,i表示第i个类别,公式如下:
λi = round(math.pow(classi_num, 1.0/3),1)
假设λk是映射系数λ中最小的一个映射系数,该类别需要映射到的超球面的半径为S;
步骤302,计算剩余的类别需要映射到的超球面的半径Si
Si = (λi/λk)*S
λi为第i个类别对应的映射系数。
作为本发明的一个优选实施例,每批次样本对应的损失函数为
m表示每一个batch中样本的数量,n表示整个样本中的类别总数,t表示类别之间的margin,Rj为第j个样本所属于的类别的超球面半径,θyj表示第j个样本的特征向量和其对应的权重向量之间的夹角,θi表示第i个样本的特征向量和其对应的类别中心的夹角。
本发明的有益效果在于:可以根据类别中样本的多少,自适应的调整该类别所分布的超球面的半径,能够有效的解决样本分布不均匀问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种针对不均衡样本的损失函数设计方法一个实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提出了一种针对不均衡样本的损失函数设计方法,可以根据类别中样本的多少,自适应的调整该类别所分布的超球面的半径,让包含样本多的类别,分布在更大的超球面上,具体包括以下步骤:
步骤1,设定深度学习对应的神经网络、训练数据和损失函数;可通过键盘、触摸显示屏等人机交互设备输入设定指令。
本发明设定深度学习对应的神经网络为ResNet50,图像数据集为imagenet,训练数据为MS1M,损失函数为ArcFace。Iamgenet图像数据集始于2009年,目前总共有14197122幅图像,总共分为21841个类别,是深度学习中被引用最多的一个数据集。本发明选择使用imageNet2012,其一共包含1000个类别。深度残差网络(deep residual network,ResNet)是何凯明等人提出的一种深度学习网络,它的出现极大的促进了深度学习的发展。考虑到硬件条件,在本发明中选择resnet50。
步骤2,从训练数据中获取样本,统计样本中各个类别包含个体的数量;
步骤2中统计样本中各个类别包含个体的数量;具体指的是统计样本中每一个类别包含的个体的数量class1_num,class2_num, class3_num,……,classN_num,样本中一共包含N个类别。
步骤3,根据个体的数量调整各个类别的归一化特征映射至超球面的半径数值,样本数量越高,半径数值越大;
步骤3具体包括以下步骤:
步骤301,定义映射系数λ,其计算方式为classi_num的立方根保留小数点后1位,i表示第i个类别,公式如下:
λi = round(math.pow(classi_num, 1.0/3),1)
假设λk是映射系数λ中最小的一个映射系数,该类别需要映射到的超球面的半径为S;
步骤302,计算剩余的类别需要映射到的超球面的半径Si
Si = (λi/λk)*S
λi为第i个类别对应的映射系数。
步骤4,循环迭代步骤2和3,根据超球面的半径数值计算每批次样本对应的损失函数。
每批次样本对应的损失函数为
m表示每一个batch中样本的数量,n表示整个样本中的类别总数,t表示类别之间的margin,Rj为第j个样本所属于的类别的超球面半径,θyj表示第j个样本的特征向量和其对应的权重向量之间的夹角,θi表示第i个样本的特征向量和其对应的类别中心的夹角。
本发明是基于arcface进行改进的,在ImageNet validation上测试模型并比较模型的准确率(%)。测试结果如下:
由测试结果可知,在分类问题上优于arcface,在ImageNet上准确率有约1%的提升。
本发明可以根据类别中样本的多少,自适应的调整该类别所分布的超球面的半径,能够有效的解决样本分布不均匀问题。本发明可应用于人脸识别领域,可使得人脸识别模型进一步调整优化,提高了人脸识别的精确度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种针对不均衡样本的损失函数设计方法,其特征在于,具体包括以下步骤:
步骤1,设定深度学习对应的神经网络、训练数据和损失函数;
步骤2,从训练数据中获取样本,统计样本中各个类别包含个体的数量;
步骤3,根据个体的数量调整各个类别的归一化特征映射至超球面的半径数值,样本数量越高,半径数值越大;
步骤4,循环迭代步骤2和3,根据超球面的半径数值计算每批次样本对应的损失函数。
2.根据权利要求1所述的一种针对不均衡样本的损失函数设计方法,其特征在于,步骤1设定深度学习对应的神经网络、训练数据和损失函数;具体指的是设定深度学习对应的神经网络为ResNet50,图像数据集为imagenet,训练数据为MS1M,损失函数为ArcFace。
3.根据权利要求1所述的一种针对不均衡样本的损失函数设计方法,其特征在于,步骤2中统计样本中各个类别包含个体的数量;具体指的是统计样本中每一个类别包含的个体的数量class1_num,class2_num, class3_num,……,classN_num,样本中一共包含N个类别。
4.根据权利要求3所述的一种针对不均衡样本的损失函数设计方法,其特征在于,步骤3具体包括以下步骤:
步骤301,定义映射系数λ,其计算方式为classi_num的立方根保留小数点后1位,i表示第i个类别,公式如下:
λi = round(math.pow(classi_num, 1.0/3),1)
假设λk是映射系数λ中最小的一个映射系数,该类别需要映射到的超球面的半径为S;
步骤302,计算剩余的类别需要映射到的超球面的半径Si
Si = (λi/λk)*S
λi为第i个类别对应的映射系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010233575.3A CN111126577A (zh) | 2020-03-30 | 2020-03-30 | 一种针对不均衡样本的损失函数设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010233575.3A CN111126577A (zh) | 2020-03-30 | 2020-03-30 | 一种针对不均衡样本的损失函数设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111126577A true CN111126577A (zh) | 2020-05-08 |
Family
ID=70494039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010233575.3A Pending CN111126577A (zh) | 2020-03-30 | 2020-03-30 | 一种针对不均衡样本的损失函数设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126577A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113935482A (zh) * | 2021-10-13 | 2022-01-14 | 北京百度网讯科技有限公司 | 一种行人再识别网络的训练方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679860A (zh) * | 2015-02-27 | 2015-06-03 | 北京航空航天大学 | 一种不平衡数据的分类方法 |
CN107391569A (zh) * | 2017-06-16 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 数据类型的识别、模型训练、风险识别方法、装置及设备 |
CN108846340A (zh) * | 2018-06-05 | 2018-11-20 | 腾讯科技(深圳)有限公司 | 人脸识别方法、装置及分类模型训练方法、装置、存储介质和计算机设备 |
DE102018009315A1 (de) * | 2017-11-27 | 2019-05-29 | Nvidia Corporation | Verfahren tiefgehenden Lernens zum Trennen von Reflexions- und Übertragungsbildern, die an einer halbreflektierenden Oberfläche in einem Computerbild einer Realweltszene sichtbar sind |
US10429486B1 (en) * | 2017-08-18 | 2019-10-01 | DeepSig Inc. | Method and system for learned communications signal shaping |
-
2020
- 2020-03-30 CN CN202010233575.3A patent/CN111126577A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679860A (zh) * | 2015-02-27 | 2015-06-03 | 北京航空航天大学 | 一种不平衡数据的分类方法 |
CN107391569A (zh) * | 2017-06-16 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 数据类型的识别、模型训练、风险识别方法、装置及设备 |
US10429486B1 (en) * | 2017-08-18 | 2019-10-01 | DeepSig Inc. | Method and system for learned communications signal shaping |
DE102018009315A1 (de) * | 2017-11-27 | 2019-05-29 | Nvidia Corporation | Verfahren tiefgehenden Lernens zum Trennen von Reflexions- und Übertragungsbildern, die an einer halbreflektierenden Oberfläche in einem Computerbild einer Realweltszene sichtbar sind |
CN108846340A (zh) * | 2018-06-05 | 2018-11-20 | 腾讯科技(深圳)有限公司 | 人脸识别方法、装置及分类模型训练方法、装置、存储介质和计算机设备 |
Non-Patent Citations (1)
Title |
---|
黄国宏 等: "一种新的RBF神经元网络分类算法", 《计算机仿真》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113935482A (zh) * | 2021-10-13 | 2022-01-14 | 北京百度网讯科技有限公司 | 一种行人再识别网络的训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376864A (zh) | 一种基于堆叠神经网络的知识图谱关系推理算法 | |
CN106503873A (zh) | 一种预测用户守约概率的方法、装置和计算设备 | |
TW202119288A (zh) | 圖像分類模型訓練方法、影像處理方法、資料分類模型訓練方法、資料處理方法、電腦設備、儲存媒介 | |
CN113140019B (zh) | 一种基于融合弥补生成对抗网络的文本生成图像的方法 | |
CN111401156B (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
CN112885468A (zh) | 一种基于随机响应差分隐私技术的教师共识聚集学习方法 | |
WO2019089990A1 (en) | Entity segmentation for analysis of sensitivities to potential disruptions | |
CN110175689A (zh) | 一种概率预测的方法、模型训练的方法及装置 | |
CN109829481A (zh) | 一种图像分类方法、装置、电子设备及可读存储介质 | |
CN111160538A (zh) | 一种损失函数中margin参数值的更新方法和*** | |
CN106021402A (zh) | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 | |
CN109670927A (zh) | 信用额度的调整方法及其装置、设备、存储介质 | |
Hu | Tolerance rough sets for pattern classification using multiple grey single-layer perceptrons | |
CN111126577A (zh) | 一种针对不均衡样本的损失函数设计方法 | |
CN116229170A (zh) | 基于任务迁移的联邦无监督图像分类模型训练方法、分类方法及设备 | |
CN114757854A (zh) | 基于多光谱分析的夜视图像质量提升方法、装置、设备 | |
CN110033165A (zh) | 逾期借款催收方式的推荐方法、装置、介质、电子设备 | |
CN114140645A (zh) | 基于改进自监督特征学习的摄影图像美学风格分类方法 | |
Wang et al. | K-expectiles clustering | |
CN108629381A (zh) | 基于大数据的人群筛选方法及终端设备 | |
CN111178897A (zh) | 在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法 | |
CN116363461A (zh) | 多视图儿童肿瘤病理图像分类的深度网络增量学习方法 | |
CN110008974A (zh) | 行为数据预测方法、装置、电子设备及计算机存储介质 | |
CN114463646A (zh) | 一种基于多头自注意力卷积神经网络的遥感场景分类方法 | |
CN114095268A (zh) | 用于网络入侵检测的方法、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200508 |