CN114863193A - 基于混合批归一化的长尾学习图像分类、训练方法及装置 - Google Patents
基于混合批归一化的长尾学习图像分类、训练方法及装置 Download PDFInfo
- Publication number
- CN114863193A CN114863193A CN202210794485.0A CN202210794485A CN114863193A CN 114863193 A CN114863193 A CN 114863193A CN 202210794485 A CN202210794485 A CN 202210794485A CN 114863193 A CN114863193 A CN 114863193A
- Authority
- CN
- China
- Prior art keywords
- gaussian distribution
- mixed
- parameters
- standardized
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000010606 normalization Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 title claims abstract description 41
- 238000009826 distribution Methods 0.000 claims abstract description 134
- 239000013598 vector Substances 0.000 claims description 38
- 238000010586 diagram Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000007796 conventional method Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- UUUHXMGGBIUAPW-UHFFFAOYSA-N 1-[1-[2-[[5-amino-2-[[1-[5-(diaminomethylideneamino)-2-[[1-[3-(1h-indol-3-yl)-2-[(5-oxopyrrolidine-2-carbonyl)amino]propanoyl]pyrrolidine-2-carbonyl]amino]pentanoyl]pyrrolidine-2-carbonyl]amino]-5-oxopentanoyl]amino]-3-methylpentanoyl]pyrrolidine-2-carbon Chemical compound C1CCC(C(=O)N2C(CCC2)C(O)=O)N1C(=O)C(C(C)CC)NC(=O)C(CCC(N)=O)NC(=O)C1CCCN1C(=O)C(CCCN=C(N)N)NC(=O)C1CCCN1C(=O)C(CC=1C2=CC=CC=C2NC=1)NC(=O)C1CCC(=O)N1 UUUHXMGGBIUAPW-UHFFFAOYSA-N 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 102000004270 Peptidyl-Dipeptidase A Human genes 0.000 description 2
- 108090000882 Peptidyl-Dipeptidase A Proteins 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000004821 distillation Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 241000276489 Merlangius merlangus Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于混合批归一化的长尾学***衡交叉熵损失来计算分类损失,优化双分支框架对应的网络参数。混合标准化分支能够更全面地对特征空间进行建模,减轻头部类的主导地位,***标准化分支能够多样化估计的高斯分布,使高斯分布更全面地拟合尾部类别的训练样,图像分类方法及装置则是利用训练好的混合标准化分支进行图像分类。
Description
技术领域
本发明涉及图像分类领域,尤其是涉及基于混合批归一化的长尾学习图像分类、训练方法及装置。
背景技术
近年来,不平衡学***衡问题的传统解决方案是使优化过程偏向于较不频繁的类。批量标准化是在CNNs的前馈计算过程中,减少内部协变量偏移的一个关键组成部分。它可以加快网络参数的优化速度,提高泛化能力。但是,在图像数据分类识别中,在头部类样本(图像数据中经常出现的通用类别)和尾部类样本(图像数据中较少出现的稀有类别)不平衡的情况下,如图1a所示,利用单模态高斯概率函数不能完全对特征空间进行建模,容易忽略尾部类的样本。因此,传统的批标准化只能消除全局协变量偏移,而忽略了尾部类的内部协变量偏移。这损害了尾部类的学习效率和泛化能力。如图1b所示,采用混合高斯分布来拟合特征,可以缓解这种问题。
然而在长尾分布的图像数据集中,由于训练数据为头部类别所主导,交叉熵损失难以分辨尾部类别的正确与错误样本。目前的大多工作,试图通过集成在不同采样策略下学***衡对特征表示学习的影响仍不能有效减轻,因为它们仍然依赖于数据重采样或重加权算法来管理多个分类器。基于上述分析,现有的深度神经网络CNN针对具有长尾特征的图像数据集进行分类识别的上述问题,仍然没有有效的解决方法。
发明内容
为解决现有技术的不足,在通过具有长尾特征的图像数据,进行分类识别训练后,提升模型分类识别效果的目的,本发明采用如下的技术方案:
一种基于混合批归一化的长尾学习图像分类训练方法,包括如下步骤:
步骤S1:构建混合标准化分支,利用混合批归一化(compound batchnormalization),采用M个高斯分布,标准化输入的当前批次样本图像的特征向量,通过学习单独的比例系数和偏差系数,重新分配不同的归一化分支的批次特征向量,采用期望最大化(expectation maximization)算法,更新M个高斯分布的参数;
步骤S2:构建***标准化分支,采用***特征标准化(split featurenormalization),将作为训练数据的样本图像的特征向量,分成M个独立的组,利用不同组的特征,计算***阶段当前批次高斯分布的参数,并结合混合批归一化更新的高斯分布的参数,累计更新M个组高斯分布的参数,通过单独的比例系数和偏差系数,重新分配不同的高斯分布标准化分支的特征向量;对于采用期望最大化算法学习混合的高斯分布很容易陷入局部最优的问题,采用***特征标准化能够克服这一问题;
步骤S3:构建双分支学***衡Softmax交叉熵(Balanced Softmax Cross-Entropy)分类损失来计算分类损失,优化双分支对应的图像分类神经网络参数。
进一步地,所述步骤S1包括如下步骤:
步骤S1.1:对当前批次样本图像的特征图进行标准化,得到混合阶段标准化特征图;
步骤S1.2:采用期望最大化算法,对当前批次样本图像的特征图和M组高斯分布的参数,计算混合阶段当前批次M组高斯分布的参数;
步骤S1.3:采用期望最大化算法,混合阶段各组的高斯分布的参数,累计更新M个高斯分布的参数,采用单独的比例系数和偏差系数,重新分配不同的高斯分布标准化分支的特征向量。
进一步地,所述高斯分布的参数包括高斯分布的先验概率、均值和方差;
步骤S1.1中,通过高斯分布的均值和方差,对当前批次样本图像的特征图进行标准化;
步骤S1.2中,高斯分布的参数包括先验概率、均值和方差,首先对当前批次样本图像的特征图、均值和方差,通过期望最大化算法,得到高斯概率密度,然后通过高斯概率密度和先验概率,计算当前批次样本图像的特征图属于某一组高斯分布的概率值,最后通过概率值和批归一化的大小,计算混合阶段的先验概率,通过概率值、批归一化的大小和当前批次样本图像的特征图,计算混合阶段的均值,通过概率值、批归一化的大小、当前批次样本图像的特征图和混合阶段的均值,计算混合阶段的方差;
其中,表示样本图像对应的特征图,,,分别表示第j组高斯分布的先验概率、均值、方差,j≠k,T表示矩阵转置,exp(·)表示期望函数,表示高斯概率密度函数,表示属于第组高斯分布的概率值,N表示批归一化的大小,,,分别表示混合(Compound)阶段得到的当前批次的第j组高斯分布的先验概率、均值以及方差;
步骤S1.3中,高斯分布的先验概率、均值和方差,结合对应的混合阶段高斯分布的先验概率、均值和方差,通过比例系数进行更新,得到混合阶段更新后的高斯分布先验概率、均值和方差;混合阶段标准化特征图,经其对应的偏差系数调整后,结合相应的所述概率值,通过累加得到混合阶段高斯分布标准化分支的特征向量。
进一步地,所述步骤S2中,将训练数据分成相互独立的M组,输入的特征向量也相应的划分为M组,包括如下步骤:
步骤S2.1:通过混合阶段更新后的高斯分布参数,对相应组的样本图像的特征图进行标准化,得到***阶段标准化特征图;
步骤S2.2:利用不同组的特征,计算***阶段当前批次的高斯分布参数;
步骤S2.3:利用混合阶段更新后的高斯分布参数,以及***(Split)阶段的高斯分布参数,累计更新每个组的高斯分布参数,采用单独的比例系数和偏差系数来重新分配不同的***阶段高斯分布标准化分支的特征向量。
进一步地,所述高斯分布的参数包括高斯分布的先验概率、均值和方差;
步骤S2.1中,通过更新后的高斯分布均值和方差,对相应组的样本图像的特征图进行标准化;
步骤S2.2中,通过样本图像的特征图及其所在组的特征数量,计算***阶段的高斯分布均值;通过样本图像的特征图及其所在组的特征数量、对应的***阶段高斯分布均值,计算***阶段高斯分布的方差;
步骤S2.3中,利用混合阶段更新后的高斯分布均值和方差,以及***阶段当前批次的高斯分布均值和方差,通过比例系数,累计更新每个组高斯分布的参数,得到***阶段更新后的高斯分布均值和方差,***阶段标准化特征图经其对应的偏差系数、调整后,通过累加得到***阶段高斯分布标准化分支的特征向量。
即可表示为:
进一步地,所述步骤S3中,对输入图像,通过弱增强和弱增强方法,分别得到强增强图像和弱增强图像,3表示输入图像的RGB3个通道,将强增强图像和弱增强图像通过混合标准化分支得到的特征向量,进行图像分类识别,分别得到图像类别的混合标准化分支强增强预测结果和弱增强预测结果;同样的,将强增强图像和弱增强图像通过***标准化分支得到的特征向量,进行图像分类识别,分别得到图像类别的***标准化分支强增强预测结果和弱增强预测结果;采用两个分支预测结果之间的相似性最大化方法以及分类损失,优化网络参数,并使用随机梯度下降法(SGD)更新网络参数。
进一步地,所述相似性最大化方法,是采用相似性损失,分别对混合标准化分支强增强预测结果和停止梯度的***标准化分支弱预测结果,***标准化分支强预测结果和停止梯度的混合标准化分支弱预测结果,计算最大相似性指标。
其中K表示样本总类别数,y表示样本的真实标签,exp(·)表示期望函数,n y 表示类别为y的样本数量。
一种基于混合批归一化的长尾学习图像分类方法,将待分类图像输入到所述基于混合批归一化的长尾学习图像分类训练方法训练好的混合标准化分支得到预测结果。
一种基于混合批归一化的长尾学习图像分类装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述的图像分类方法。
本发明的优势和有益效果在于:
本发明的基于混合批归一化的长尾学习图像分类、训练方法及装置,基于混合批归一化的双分支学习框架,通过基于高斯分布混合的混合批归一化,更全面地对特征空间进行建模,减轻头部类的主导地位,通过***特征标准化来多样化估计的高斯分布,使高斯分布更全面地拟合尾部类别的训练样本图像。本发明实现方法简便,手段灵活,在实时获取类拟合度方面具有优势,因此在具有长尾特征的图像训练数据上,取得了分类效果的显著提升。
附图说明
图1a是传统的图像特征归一化忽略尾部类样本的效果示意图。
图1b是采用多个高斯分布来拟合特征的效果示意图。
图2是本发明实施例中基于混合批归一化的长尾学习进行图像分类训练的原理图。
图3是本发明实施例中基于混合批归一化的长尾学习进行图像分类训练方法流程图。
图4是本发明实施例中基于混合批归一化的长尾学习进行图像分类方法流程图。
图5是本发明实施例中基于混合批归一化的长尾学习图像分类装置的结构图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明主要解决当前基于深度神经网络的图像分类任务中,对具有长尾特征的图像数据进行分类的问题。采用混合高斯分布建模特征空间来推广特征标准化。为了更全面地拟合特征,采用了一个均值和方差参数的混合集来实现特征标准化过程。利用每一组均值和方差参数对局部子空间内的一组特征进行白化(whitening),并利用独立的仿射参数重建分布统计量。这种混合特征归一化有助于消除局部协变量的偏移,减轻头部类的优势。在混合特征归一化的基础上,建立了分类模型的主流分支,并设计了一种基于移动平均的期望最大化算法来评估统计参数。多模态高斯概率函数的统计参数估计很容易陷入局部极小值,其中多个高斯分布仍然集中于头部类,而忽略尾部类。因此,设计了一个双路径学习框架,以多样化这些高斯分布之间的所有类。通过***标准化化建立了一个辅助分支,将总的训练样本类别分成不同的子集,并使用独立的统计参数和仿射参数对它们进行处理。这有利于分散不同高斯分布的统计参数。此外,主流分支和辅助分支通过基于停止梯度的一致性约束相互作用,以增强表示学习。
如图2、图3所示,基于混合批归一化的长尾学习进行图像分类训练方法,主要解决图像分类任务中,对同时具有长尾特征与噪声标签的图像数据进行分类的问题,使用Pytorch框架进行实验,使用SGD作为优化器,其学习率为0.05,随余弦退火计划而衰减;训练期数设置为400,批量大小设置为128;,和均设置为0.1,主干是ResNet32,所有模型都默认从头开始训练;具体包括如下步骤:
步骤S1:构建混合标准化分支,利用混合批归一化(compound batchnormalization),采用M个高斯分布,标准化输入的当前批次样本图像的特征向量,通过学习单独的比例系数和偏差系数,重新分配不同的归一化分支的批次特征向量,采用期望最大化(expectation maximization)算法,更新M个高斯分布的参数。
给定有L个样本图像和K个样本图像类别的训练数据集,表示样本图像,表示样本图像对应的类别标签,定义输入的特征图为,经过扁平化处理后(N=B×H×W),其中分别代表批次大小(batch size)、通道的数量、图像的高度以及图像的宽度;
步骤S1.1:对当前批次样本图像的特征图进行标准化,得到混合阶段标准化特征图;通过高斯分布的均值和方差,对当前批次样本图像的特征图进行标准化;
即标准化的特征图可表示为:
步骤S1.2:采用期望最大化(expectation maximization)算法,对当前批次样本图像的特征图和M组高斯分布的参数,计算混合阶段当前批次M组高斯分布的参数;
首先对当前批次样本图像的特征图、均值和方差,通过期望最大化算法,得到高斯概率密度,然后通过高斯概率密度和先验概率,计算当前批次样本图像的特征图属于某一组高斯分布的概率值,最后通过概率值和批归一化的大小,计算混合阶段的先验概率,通过概率值、批归一化的大小和当前批次样本图像的特征图,计算混合阶段的均值,通过概率值、批归一化的大小、当前批次样本图像的特征图和混合阶段的均值,计算混合阶段的方差;
其中,表示样本图像对应的特征图,,,分别表示第j组高斯分布的先验概率、均值、方差,j≠k,T表示矩阵转置,exp(·)表示期望函数,表示高斯概率密度函数,表示属于第组高斯分布的概率值,N表示批归一化的大小,,,分别表示混合(Compound)阶段得到的当前批次的第j组高斯分布的先验概率、均值以及方差。
步骤S1.3:采用期望最大化(expectation maximization)算法,混合阶段各组的高斯分布的参数,累计更新M个高斯分布的参数,采用单独的比例系数和偏差系数,重新分配不同的高斯分布标准化分支的特征向量;
高斯分布的先验概率、均值和方差,结合对应的混合阶段高斯分布的先验概率、均值和方差,通过比例系数进行更新,得到混合阶段更新后的高斯分布先验概率、均值和方差;混合阶段标准化特征图,经其对应的偏差系数调整后,结合相应的所述概率值,通过累加得到混合阶段高斯分布标准化分支的特征向量;
步骤S2:构建***标准化分支,采用***特征标准化(split featurenormalization),将作为训练数据的样本图像的特征向量,分成M个独立的组,利用不同组的特征,计算***阶段当前批次高斯分布的参数,并结合混合批归一化更新的高斯分布的参数,累计更新M个组高斯分布的参数,通过单独的比例系数和偏差系数,重新分配不同的高斯分布标准化分支的特征向量;对于采用期望最大化算法学习混合的高斯分布很容易陷入局部最优的问题,采用***特征标准化能够克服这一问题;
将训练数据分成相互独立的M组,输入的特征向量也相应的划分为M组,包括如下步骤:
步骤S2.1:通过混合阶段更新后的高斯分布参数,对相应组的样本图像的特征图进行标准化,得到***阶段标准化特征图;
标准化的特征图可表示为:
步骤S2.2:利用不同组的特征,计算***阶段当前批次的高斯分布参数;
通过样本图像的特征图及其所在组的特征数量,计算***阶段的高斯分布均值;通过样本图像的特征图及其所在组的特征数量、对应的***阶段高斯分布均值,计算***阶段高斯分布的方差;
步骤S2.3:利用混合阶段更新后的高斯分布参数,以及***(Split)阶段的高斯分布参数,累计更新每个组的高斯分布参数,采用单独的比例系数和偏差系数来重新分配不同的***阶段高斯分布标准化分支的特征向量;
利用混合阶段更新后的高斯分布均值和方差,以及***阶段当前批次的高斯分布均值和方差,通过比例系数,累计更新每个组高斯分布的参数,得到***阶段更新后的高斯分布均值和方差,***阶段标准化特征图经其对应的偏差系数、调整后,通过累加得到***阶段高斯分布标准化分支的特征向量。
即可表示为:
步骤S3:构建双分支学***衡Softmax交叉熵(Balanced Softmax Cross-Entropy)分类损失来计算分类损失,优化双分支对应的图像分类神经网络参数。
定义输入图像,对输入图像,通过强增强(strong augmentation)和弱增强(weak augmentation)方法,分别得到强增强图像和弱增强图像,3表示输入图像的RGB3个通道,将强增强图像和弱增强图像通过混合标准化分支得到的特征向量,进行图像分类识别,分别得到图像类别的混合标准化分支强增强预测结果和弱增强预测结果;同样的,将强增强图像和弱增强图像通过***标准化分支得到的特征向量,进行图像分类识别,分别得到图像类别的***标准化分支强增强预测结果和弱增强预测结果;采用两个分支预测结果之间的相似性最大化方法以及分类损失,优化网络参数,并使用随机梯度下降法(SGD)更新网络参数。
本发明实施例中,弱数据增强的实施方式为简单的随机翻转(random flip)和裁剪(crop),而强数据增强则使用了自动数据增强(AutoAugment)的实施方式,采用在ImageNet上利用搜索算法自动选取的数据增强策略。
相似性最大化方法,是采用相似性损失,分别对混合标准化分支强增强预测结果和停止梯度的***标准化分支弱预测结果,***标准化分支强预测结果和停止梯度的混合标准化分支弱预测结果,计算最大相似性指标。
其中K表示样本总类别数,y表示样本的真实标签,exp(·)表示期望函数,n y 表示类别为y的样本数量。
如图4所示,基于混合批归一化的长尾学习图像分类方法,在基于混合批归一化的长尾学习图像分类训练方法训练完成后,将待分类图像输入到所述基于混合批归一化的长尾学习图像分类训练方法训练好的混合标准化分支得到预测结果。
对于长尾分布数据的设定,将总样本数为L的训练数据中每个类别k的训练样本数量定义为L k ,满足。本发明定义样本数最多类别与样本数最少类别之间的样本数比例为不平衡因子(imbalance factor),即。
表1 基于CIFAR-10-LT,CIFAR-100-LT数据集,ResNet-32网络的测试准确率变化表
其中,MiSLAS为混合偏移标签感知平滑法,LADE为标签分布解耦法,ACE为专家互补联合法,DRO-LT为分布鲁棒性损失法,PaCo为参数化对比学***衡法,VS为过参数化方法,TCM为先验模型矫正法。
本发明的方法及其他传统方法在ImageNet-LT数据集上,使用ResNet-50网络进行长尾分布的样本学习的测试准确率变化如表2所示。
表2 基于ImageNet-LT数据集,ResNet-50网络的测试准确率变化表
其中,DisAlign为分布对齐法。
本发明的方法及其他传统方法在Place-LT数据集上使用ResNet-152网络进行长尾分布的样本学习的测试准确率变化如表3所示。
表3 基于Place-LT数据集,ResNet-152网络的测试准确率变化表
其中,GistNet为几何结构迁移法。
本发明的方法及其他传统方法在iNaturalist2018数据集上使用ResNet-50网络进行长尾分布的样本学习的测试准确率变化如表4所示。
表4 基于iNaturalist2018数据集数据集,ResNet-50网络的测试准确率变化表
通过测试准确率的比较能够得出,在相同测试集和神经网络下,本发明的训练方法得到的图像分类准确率高于其他传统的方法。
与前述基于混合批归一化的长尾学习图像分类方法的实施例相对应,本发明还提供了基于混合批归一化的长尾学习图像分类装置的实施例。
参见图5,本发明实施例提供的基于混合批归一化的长尾学习图像分类装置,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于混合批归一化的长尾学习图像分类方法。
本发明基于混合批归一化的长尾学习图像分类装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明基于混合批归一化的长尾学习图像分类装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于混合批归一化的长尾学习图像分类方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.一种基于混合批归一化的长尾学习图像分类训练方法,其特征在于包括如下步骤:
步骤S1:构建混合标准化分支,利用混合批归一化,采用M个高斯分布,标准化输入的当前批次样本图像的特征向量,通过学习单独的比例系数和偏差系数,重新分配不同的归一化分支的批次特征向量,采用期望最大化算法,更新M个高斯分布的参数;
步骤S2:构建***标准化分支,采用***特征标准化,将作为训练数据的样本图像的特征向量,分成M个独立的组,利用不同组的特征,计算***阶段当前批次高斯分布的参数,并结合混合批归一化更新的高斯分布的参数,累计更新M个组高斯分布的参数,通过单独的比例系数和偏差系数,重新分配不同的高斯分布标准化分支的特征向量;
步骤S3:构建双分支学习框架,对混合标准化分支和***标准化分支的输入样本图像,均进行强增强和弱增强,通过得到的特征向量进行图像分类,计算两个分支分类预测的相似性最大化损失以及分类损失,优化双分支对应的图像分类神经网络参数。
2.根据权利要求1所述的基于混合批归一化的长尾学习图像分类训练方法,其特征在于:所述步骤S1包括如下步骤:
步骤S1.1:对当前批次样本图像的特征图进行标准化,得到混合阶段标准化特征图;
步骤S1.2:采用期望最大化算法,对当前批次样本图像的特征图和M组高斯分布的参数,计算混合阶段当前批次M组高斯分布的参数;
步骤S1.3:采用期望最大化算法,混合阶段各组的高斯分布的参数,累计更新M个高斯分布的参数,采用单独的比例系数和偏差系数,重新分配不同的高斯分布标准化分支的特征向量。
3.根据权利要求2所述的基于混合批归一化的长尾学习图像分类训练方法,其特征在于:所述高斯分布的参数包括高斯分布的先验概率、均值和方差;
步骤S1.1中,通过高斯分布的均值和方差,对当前批次样本图像的特征图进行标准化;
步骤S1.2中,高斯分布的参数包括先验概率、均值和方差,首先对当前批次样本图像的特征图、均值和方差,通过期望最大化算法,得到高斯概率密度,然后通过高斯概率密度和先验概率,计算当前批次样本图像的特征图属于某一组高斯分布的概率值,最后通过概率值和批归一化的大小,计算混合阶段的先验概率,通过概率值、批归一化的大小和当前批次样本图像的特征图,计算混合阶段的均值,通过概率值、批归一化的大小、当前批次样本图像的特征图和混合阶段的均值,计算混合阶段的方差;
步骤S1.3中,高斯分布的先验概率、均值和方差,结合对应的混合阶段高斯分布的先验概率、均值和方差,通过比例系数进行更新,得到混合阶段更新后的高斯分布先验概率、均值和方差;混合阶段标准化特征图,经其对应的偏差系数调整后,结合相应的所述概率值,通过累加得到混合阶段高斯分布标准化分支的特征向量。
4.根据权利要求1所述的基于混合批归一化的长尾学习图像分类训练方法,其特征在于:所述步骤S2中,将训练数据分成相互独立的M组,输入的特征向量也相应的划分为M组,包括如下步骤:
步骤S2.1:通过混合阶段更新后的高斯分布参数,对相应组的样本图像的特征图进行标准化,得到***阶段标准化特征图;
步骤S2.2:利用不同组的特征,计算***阶段当前批次的高斯分布参数;
步骤S2.3:利用混合阶段更新后的高斯分布参数,以及***阶段的高斯分布参数,累计更新每个组的高斯分布参数,采用单独的比例系数和偏差系数来重新分配不同的***阶段高斯分布标准化分支的特征向量。
5.根据权利要求4所述的基于混合批归一化的长尾学习图像分类训练方法,其特征在于:所述高斯分布的参数包括高斯分布的先验概率、均值和方差;
步骤S2.1中,通过更新后的高斯分布均值和方差,对相应组的样本图像的特征图进行标准化;
步骤S2.2中,通过样本图像的特征图及其所在组的特征数量,计算***阶段的高斯分布均值;通过样本图像的特征图及其所在组的特征数量、对应的***阶段高斯分布均值,计算***阶段高斯分布的方差;
步骤S2.3中,利用混合阶段更新后的高斯分布均值和方差,以及***阶段当前批次的高斯分布均值和方差,通过比例系数,累计更新每个组高斯分布的参数,得到***阶段更新后的高斯分布均值和方差,***阶段标准化特征图经其对应的偏差系数调整后,通过累加得到***阶段高斯分布标准化分支的特征向量。
6.根据权利要求1所述的基于混合批归一化的长尾学习图像分类训练方法,其特征在于:所述步骤S3中,对输入图像,通过弱增强和弱增强方法,分别得到强增强图像和弱增强图像,将强增强图像和弱增强图像通过混合标准化分支得到的特征向量,进行图像分类识别,分别得到图像类别的混合标准化分支强增强预测结果和弱增强预测结果;同样的,将强增强图像和弱增强图像通过***标准化分支得到的特征向量,进行图像分类识别,分别得到图像类别的***标准化分支强增强预测结果和弱增强预测结果;采用两个分支预测结果之间的相似性最大化方法以及分类损失,优化网络参数,并使用随机梯度下降法更新网络参数。
7.根据权利要求6所述的基于混合批归一化的长尾学习图像分类训练方法,其特征在于:所述相似性最大化方法,是采用相似性损失,分别对混合标准化分支强增强预测结果和停止梯度的***标准化分支弱预测结果,***标准化分支强预测结果和停止梯度的混合标准化分支弱预测结果,计算最大相似性指标。
9.一种根据权利要求1-8之一所述基于混合批归一化的长尾学习图像分类训练方法的图像分类方法,其特征在于:将待分类图像输入到所述基于混合批归一化的长尾学习图像分类训练方法训练好的混合标准化分支得到预测结果。
10.一种基于混合批归一化的长尾学习图像分类装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求9所述的图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210794485.0A CN114863193B (zh) | 2022-07-07 | 2022-07-07 | 基于混合批归一化的长尾学习图像分类、训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210794485.0A CN114863193B (zh) | 2022-07-07 | 2022-07-07 | 基于混合批归一化的长尾学习图像分类、训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114863193A true CN114863193A (zh) | 2022-08-05 |
CN114863193B CN114863193B (zh) | 2022-12-02 |
Family
ID=82625918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210794485.0A Active CN114863193B (zh) | 2022-07-07 | 2022-07-07 | 基于混合批归一化的长尾学习图像分类、训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863193B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118071623A (zh) * | 2024-04-25 | 2024-05-24 | 北京邮电大学 | 图像美学评估的长尾数据增强方法、装置、设备及介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105469105A (zh) * | 2015-11-13 | 2016-04-06 | 燕山大学 | 一种基于视频监控的香烟烟雾检测方法 |
US20190095699A1 (en) * | 2017-09-28 | 2019-03-28 | Nec Laboratories America, Inc. | Long-tail large scale face recognition by non-linear feature level domain adaption |
CN111738301A (zh) * | 2020-05-28 | 2020-10-02 | 华南理工大学 | 一种基于双通道学习的长尾分布图像数据识别方法 |
CN111768285A (zh) * | 2019-04-01 | 2020-10-13 | 杭州金智塔科技有限公司 | 信贷风控模型构建***、方法、风控***及存储介质 |
CN111860573A (zh) * | 2020-06-04 | 2020-10-30 | 北京迈格威科技有限公司 | 模型训练方法、图像类别检测方法、装置和电子设备 |
CN112966767A (zh) * | 2021-03-19 | 2021-06-15 | 焦点科技股份有限公司 | 一种特征提取和分类任务分离的数据不均衡处理方法 |
CN113052263A (zh) * | 2021-04-23 | 2021-06-29 | 东南大学 | 一种基于流形学习和高阶图神经网络的小样本图像分类方法 |
CN113255832A (zh) * | 2021-06-23 | 2021-08-13 | 成都考拉悠然科技有限公司 | 双分支多中心的长尾分布识别的方法 |
CN113449613A (zh) * | 2021-06-15 | 2021-09-28 | 北京华创智芯科技有限公司 | 多任务长尾分布图像识别方法、***、电子设备及介质 |
CN113516207A (zh) * | 2021-09-10 | 2021-10-19 | 之江实验室 | 一种带噪声标签的长尾分布图像分类方法 |
CN113608223A (zh) * | 2021-08-13 | 2021-11-05 | 国家气象信息中心(中国气象局气象数据中心) | 基于双分支双阶段深度模型的单站多普勒天气雷达强降水估算方法 |
CN113837238A (zh) * | 2021-09-02 | 2021-12-24 | 南京大学 | 一种基于自监督和自蒸馏的长尾图像识别方法 |
CN113869463A (zh) * | 2021-12-02 | 2021-12-31 | 之江实验室 | 一种基于交叉增强匹配的长尾噪声学习方法 |
CN114169393A (zh) * | 2021-11-03 | 2022-03-11 | 华为技术有限公司 | 一种图像分类方法及其相关设备 |
CN114187293A (zh) * | 2022-02-15 | 2022-03-15 | 四川大学 | 基于注意力机制和集成配准的口腔腭部软硬组织分割方法 |
CN114332539A (zh) * | 2021-12-31 | 2022-04-12 | 深圳友一生物科技有限公司 | 针对类别不均衡数据集的网络训练方法 |
CN114596590A (zh) * | 2022-03-15 | 2022-06-07 | 北京信智文科技有限公司 | 一种用于具有长尾分布特性的单猴视频动作分类方法 |
-
2022
- 2022-07-07 CN CN202210794485.0A patent/CN114863193B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105469105A (zh) * | 2015-11-13 | 2016-04-06 | 燕山大学 | 一种基于视频监控的香烟烟雾检测方法 |
US20190095699A1 (en) * | 2017-09-28 | 2019-03-28 | Nec Laboratories America, Inc. | Long-tail large scale face recognition by non-linear feature level domain adaption |
CN111768285A (zh) * | 2019-04-01 | 2020-10-13 | 杭州金智塔科技有限公司 | 信贷风控模型构建***、方法、风控***及存储介质 |
CN111738301A (zh) * | 2020-05-28 | 2020-10-02 | 华南理工大学 | 一种基于双通道学习的长尾分布图像数据识别方法 |
CN111860573A (zh) * | 2020-06-04 | 2020-10-30 | 北京迈格威科技有限公司 | 模型训练方法、图像类别检测方法、装置和电子设备 |
CN112966767A (zh) * | 2021-03-19 | 2021-06-15 | 焦点科技股份有限公司 | 一种特征提取和分类任务分离的数据不均衡处理方法 |
CN113052263A (zh) * | 2021-04-23 | 2021-06-29 | 东南大学 | 一种基于流形学习和高阶图神经网络的小样本图像分类方法 |
CN113449613A (zh) * | 2021-06-15 | 2021-09-28 | 北京华创智芯科技有限公司 | 多任务长尾分布图像识别方法、***、电子设备及介质 |
CN113255832A (zh) * | 2021-06-23 | 2021-08-13 | 成都考拉悠然科技有限公司 | 双分支多中心的长尾分布识别的方法 |
CN113608223A (zh) * | 2021-08-13 | 2021-11-05 | 国家气象信息中心(中国气象局气象数据中心) | 基于双分支双阶段深度模型的单站多普勒天气雷达强降水估算方法 |
CN113837238A (zh) * | 2021-09-02 | 2021-12-24 | 南京大学 | 一种基于自监督和自蒸馏的长尾图像识别方法 |
CN113516207A (zh) * | 2021-09-10 | 2021-10-19 | 之江实验室 | 一种带噪声标签的长尾分布图像分类方法 |
CN114169393A (zh) * | 2021-11-03 | 2022-03-11 | 华为技术有限公司 | 一种图像分类方法及其相关设备 |
CN113869463A (zh) * | 2021-12-02 | 2021-12-31 | 之江实验室 | 一种基于交叉增强匹配的长尾噪声学习方法 |
CN114332539A (zh) * | 2021-12-31 | 2022-04-12 | 深圳友一生物科技有限公司 | 针对类别不均衡数据集的网络训练方法 |
CN114187293A (zh) * | 2022-02-15 | 2022-03-15 | 四川大学 | 基于注意力机制和集成配准的口腔腭部软硬组织分割方法 |
CN114596590A (zh) * | 2022-03-15 | 2022-06-07 | 北京信智文科技有限公司 | 一种用于具有长尾分布特性的单猴视频动作分类方法 |
Non-Patent Citations (4)
Title |
---|
GABRIELA CSURKA 等: "Unsupervised Domain Adaptation for Semantic Image Segmentation: a Comprehensive Survey", 《ARXIV:2112.03241V1》 * |
JAE SOON BAIK 等: "DBN-Mix: Training Dual Branch Network Using Bilateral Mixup Augmentation for Long-Tailed Visual Recognition", 《ARXIV:2207.02173V1》 * |
王中洲 等: "基于深度学习的长尾数据集分类精度提高的研究", 《沈阳理工大学学报》 * |
蔺智鹏 等: "双分支遥感影像多标签重平衡权重分类方法", 《计算机应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118071623A (zh) * | 2024-04-25 | 2024-05-24 | 北京邮电大学 | 图像美学评估的长尾数据增强方法、装置、设备及介质 |
CN118071623B (zh) * | 2024-04-25 | 2024-07-16 | 北京邮电大学 | 图像美学评估的长尾数据增强方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114863193B (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112184508B (zh) | 一种用于图像处理的学生模型的训练方法及装置 | |
CN109271958B (zh) | 人脸年龄识别方法及装置 | |
CN112668579A (zh) | 基于自适应亲和力和类别分配的弱监督语义分割方法 | |
AU2014218444A1 (en) | Dynamic feature selection for joint probabilistic recognition | |
CN109740656A (zh) | 一种基于卷积神经网络的矿石分选方法 | |
CN115578248B (zh) | 一种基于风格引导的泛化增强图像分类算法 | |
CN117611932B (zh) | 基于双重伪标签细化和样本重加权的图像分类方法及*** | |
CN114863193B (zh) | 基于混合批归一化的长尾学习图像分类、训练方法及装置 | |
CN109214444B (zh) | 基于孪生神经网络和gmm的游戏防沉迷判定***及方法 | |
CN113869463B (zh) | 一种基于交叉增强匹配的长尾噪声学习方法 | |
CN113344079B (zh) | 一种图像标签半自动标注方法、***、终端及介质 | |
CN111144462A (zh) | 一种雷达信号的未知个体识别方法及装置 | |
CN117173494B (zh) | 基于类别平衡样本选择的含噪声标签图像识别方法及*** | |
CN112597979B (zh) | 一种实时更新余弦夹角损失函数参数的人脸识别方法 | |
CN112766134B (zh) | 一种强化类间区分的表情识别方法 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN113177965A (zh) | 基于改进U-net网络的煤岩全组分提取方法及其应用 | |
CN116541704A (zh) | 一种多类噪声分离的偏标记学习方法 | |
CN104112147B (zh) | 一种基于最近特征线的人脸特征提取方法 | |
Lim et al. | More powerful selective kernel tests for feature selection | |
CN110348479A (zh) | 一种基于近邻传播的股票预测方法、***、装置和介质 | |
CN115457337A (zh) | 一种基于标签分布学习的含细粒度噪图像分类方法 | |
CN115880723A (zh) | 一种基于样本加权的无监督多源域适应的行人重识别方法 | |
Raximov et al. | The importance of loss function in artificial intelligence | |
CN114445649A (zh) | 用多尺度超像素融合检测rgb-d单幅图像阴影的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |