CN115953624A - 动态图像的分类方法、装置、车辆及存储介质 - Google Patents

动态图像的分类方法、装置、车辆及存储介质 Download PDF

Info

Publication number
CN115953624A
CN115953624A CN202211604261.5A CN202211604261A CN115953624A CN 115953624 A CN115953624 A CN 115953624A CN 202211604261 A CN202211604261 A CN 202211604261A CN 115953624 A CN115953624 A CN 115953624A
Authority
CN
China
Prior art keywords
grained
fine
coarse
dynamic image
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211604261.5A
Other languages
English (en)
Inventor
张琪
胡小琼
廖刚
单玉梅
罗咏刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Changan Automobile Co Ltd
Original Assignee
Chongqing Changan Automobile Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Changan Automobile Co Ltd filed Critical Chongqing Changan Automobile Co Ltd
Priority to CN202211604261.5A priority Critical patent/CN115953624A/zh
Publication of CN115953624A publication Critical patent/CN115953624A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请涉及细粒度动图分类技术领域,特别涉及一种动态图像的分类方法、装置、车辆及存储介质,其中,包括:获取待分类的动态图像;识别动态图像中每帧图像的特征图,将每帧图像的特征图输入预先训练得到的分类模型,输出动态图像的实际分类类别,其中,分类模型包括第一分支网络,且第一分支网络包括细粒度分类器和粗粒度分类器,利用细粒度分类器和粗粒度分类器分别生成动态图像的细粒度预测分数和粗粒度预测分数,并根据细粒度预测分数和/或粗粒度预测分数匹配动态图像的实际分类类别。由此,解决了相关技术中细粒度分类任务的方法,无法提升细粒度图像分类模型的性能,导致图像分类模型的泛化性和健壮性较低等问题。

Description

动态图像的分类方法、装置、车辆及存储介质
技术领域
本申请涉及细粒度动图分类技术领域,特别涉及一种动态图像的分类方法、装置、车辆及存储介质。
背景技术
作为一种理想的信息传输媒介,动图已被广泛应用于各种社交媒体、广告宣传、数字论坛和在线教育,甚至在电子邮件中被作为表情符号的增强版使用,不知不觉地成为了人们日常网络生活的一部分。高效利用海量低质量的互联网动图,低成本地实现基于深度学习的动图内容分类具有重要的研究价值。而从互联网数据学习细粒度动图分类最大的挑战在于互联网动图的语义标签间存在粗、细粒度的“从属”关系,细粒度标注的动图数据非常有限。
相关技术中,处理相同问题设置下的细粒度分类任务的方法主要针对静态图像数据,基于CNN(Convolutional Neural Network,卷积神经网络)的双分类分支网络结构实现了利用粗粒度标注图像帮助训练细粒度图像分类模型的目的,使用的基于Minpooling的粗粒度分类方法受限于层次结构完美的数据集,而对于细粒度类别跨度较大、类别间公共特征不明显的层次结构不完美数据集而言,通过Minpooling操作提取到的很有可能是背景特征,不具有通用性。而且细粒度图像分类比图像识别等普通的粗粒度图像分类困难的多,仅使用粗粒度标签作监督训练只能提升模型的通用特征提取能力,对细粒度图像分类模型的性能提升十分有限。
发明内容
本申请提供一种动态图像的分类方法、装置、车辆及存储介质,以解决相关技术中细粒度分类任务的方法,无法提升细粒度图像分类模型的性能,导致图像分类模型的泛化性和健壮性较低等问题。
本申请第一方面实施例提供一种动态图像的分类方法,包括以下步骤:获取待分类的动态图像;识别所述动态图像中每帧图像的特征图,将所述每帧图像的特征图输入预先训练得到的分类模型,输出所述动态图像的实际分类类别,其中,所述分类模型包括第一分支网络,且所述第一分支网络包括细粒度分类器和粗粒度分类器,利用所述细粒度分类器和所述粗粒度分类器分别生成所述动态图像的细粒度预测分数和粗粒度预测分数,并根据所述细粒度预测分数和/或所述粗粒度预测分数匹配所述动态图像的实际分类类别,便于更精确的识别动态图像的实际类别。
根据上述技术手段,本申请实施例获取待分类的动态图像并识别其中每帧图像的特征图,将其输入至事先训练得到的分类模型中进行分类匹配,输出动态图像对应的实际分类类别,利用可学习的神经网络结构代替了先前基于Minpooling规则的粗粒度分类方法帮助细粒度模型训练,提升了模型的泛化性和健壮性。
进一步地,所述第一分支网络还包括注意力模块,所述将所述每帧图像的特征图输入预先训练得到的分类模型,输出所述动态图像的实际分类类别,包括:将所述每帧图像的特征图分别输入所述细粒度分类器、所述粗粒度分类器和所述注意力模块,输出所述每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重;基于所述每帧图像的细粒度帧预测分和所述权重进行加权求和,得到所述动态图像的细粒度预测分数,并基于所述粗粒度帧预测分数和所述权重进行加权求和,得到所述动态图像的粗粒度预测分数;若处于网络前向传播计算时,则根据所述细粒度预测分数匹配所述动态图像的实际分类类别,否则,根据所述细粒度预测分数和所述粗粒度预测分数匹配所述动态图像的实际分类类别。
根据上述技术手段,本申请实施例将动态图像中的每帧图像分别输入至细粒度分类器、粗粒度分类器和注意力模块中,分别输出每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重,得到动态图像的粗粒度预测分数,当处于网络前向传播计算时,根据细颗粒预测分数匹配实际分类类别,否则根据细颗粒以及粗颗粒的预测分数匹配动态图像的实际分类类别,采用粗粒度分类和细粒度分类均可学习的双分支网络结构同时进行粗粒度分类预测和细粒度分类预测,以提高模型的泛化性和鲁棒性。
进一步地,在将所述每帧图像的特征图输入预先训练得到的分类模型之前,包括:对所述每帧图像的特征图进行空间池化,得到所述每帧图像的降维特征。
根据上述技术手段,本申请实施例对每帧图像的特征图进行空间池化,用于对动图做细粒度分类和粗粒度分类,并得到每帧图像的降维特征,以降低特征图的纬度,为了避免后续网络中神经元数量过多导致网络结构过于复杂从而造成分类模型过拟合。
进一步地,所述分类模型还包括第二分支网络,其中,所述第一分支网络与所述第二分支网络结构相同,所述分类模型训练过程包括:获取训练数据集,其中,所述训练数据集包括粗粒度标注的动态图像;对所述粗粒度标注的动态图像进行数据扰动,得到第一动态图像和第二动态图像,其中,所述第一动态图像的扰动程度小于所述第二动态图像的扰动程度;将所述第一动态图像输入所述第一分支网络,输出所述第一动态图像的细粒度预测分数,基于所述第一动态图像的细粒度预测分数生成细粒度伪标签,并将所述细粒度伪标签作为所述第二动态图像的真实细粒度标签;将所述第二动态图像输入所述第二分支网络,输出所述第二动态图像的细粒度预测分数和粗粒度预测分数,基于所述第二动态图像的细粒度预测分数和所述真实细粒度标签计算细粒度交叉熵分类损失,并基于所述粗粒度预测分数和所述粗粒度标注的动态图像计算粗粒度交叉熵分类损失;根据所述粒度交叉熵分类损失和所述粗粒度交叉熵分类损失计算训练总损失,若所述总损失大于预设阈值,则继续基于所训练数据集对所述第二分支网络进行训练,并同步更新所述第二分支网络和第一分支网络的网络参数,直到所述总损失小于或等于预设阈值,停止训练,并得到所述分类模型。
根据上述技术手段,本申请实施例获取训练数据集,并对粗粒度标注的动态图像进行数据扰动,得到第一动态图像和第二动态图像;并将第一动态图像输入第一分支网络得到细粒度预测分数,并生成细粒度伪标签,将其作为第二动态图像的真实细粒度标签;将第二动态图像输入第二分支网络,输出细粒度和粗粒度预测分数,分别计算出细粒度交叉熵分类损失和粗粒度交叉熵分类损失,然后计算出训练总损失,当总损失大于阈值时,继续训练并同步网络参数,若小于阈值则停止训练得到分类模型,粗粒度辅助的细粒度自学习实现了对粗粒度标注中动图的高效利用,提升了模型的泛化性和健壮性。
进一步地,所述基于所述第一动态图像的细粒度预测分数生成细粒度伪标签,包括:归一化所述第一动态图像的细粒度预测分数,得到细粒度预测概率矩阵;将所述细粒度预测概率矩阵转换为独热编码的概率分布矩阵,将所述概率分布矩阵中的最大类概率对应的细粒度类别映射为相应的粗粒度类别,并转换为独热编码的粗粒度标签;判断所述概率分布矩阵中的最大类概率是否高于预设置信度阈值,且所述独热编码的粗粒度标签是否与所述粗粒度标注的动态图像的真实粗粒度标签一致;若所述最大类概率高于所述预设置信度阈值,且所述独热编码的粗粒度标签与所述真实粗粒度标签一致,则将所述概率分布矩阵作为所述细粒度伪标签,否则不采用所述概率分布矩阵作为所述细粒度伪标签。
根据上述技术手段,本申请实施例通过归一化第一动态图像的细粒度预测分数得到细粒度预测概率矩阵,并将其转换为独热编码的概率分布矩阵,将其中最大类概率对应的细粒度类别映射为相应的粗粒度类别,并转换为独热编码的粗粒度标签,判断概率分布矩阵中最大类概率是否高于置信度阈值且粗粒度标签是否与粗粒度标注的动态图像真实粗粒度标签一致,若最大类概率高于置信度阈值且标签一致,则概率分布矩阵作为细粒度伪标签,使用其粗粒度标签来进一步过滤模型生成的错误的细粒度伪标签,避免细粒度动图分类模型被不正确的伪标签误导,避免模型将一个细粒度类别错误地标注为另一个粗类中与其极为相似的细粒度类别,提升模型的精确性。
本申请第二方面实施例提供一种动态图像的分类装置,包括:获取模块,用于获取待分类的动态图像;处理模块,用于识别所述动态图像中每帧图像的特征图,将所述每帧图像的特征图输入预先训练得到的分类模型,输出所述动态图像的实际分类类别,其中,所述分类模型包括第一分支网络,且所述第一分支网络包括细粒度分类器和粗粒度分类器,利用所述细粒度分类器和所述粗粒度分类器分别生成所述动态图像的细粒度预测分数和粗粒度预测分数,并根据所述细粒度预测分数和/或所述粗粒度预测分数匹配所述动态图像的实际分类类别。
进一步地,所述处理模块进一步用于:所述处理模块用于:将所述每帧图像的特征图分别输入所述细粒度分类器、所述粗粒度分类器和所述注意力模块,输出所述每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重;基于所述每帧图像的细粒度帧预测分和所述权重进行加权求和,得到所述动态图像的细粒度预测分数,并基于所述粗粒度帧预测分数和所述权重进行加权求和,得到所述动态图像的粗粒度预测分数;若处于网络前向传播计算时,则根据所述细粒度预测分数匹配所述动态图像的实际分类类别,否则,根据所述细粒度预测分数和所述粗粒度预测分数匹配所述动态图像的实际分类类别。
进一步地,所述处理模块进一步用于:对所述每帧图像的特征图进行空间池化,得到所述每帧图像的降维特征。
进一步地,所述处理模块进一步用于:获取训练数据集,其中,所述训练数据集包括粗粒度标注的动态图像;对所述粗粒度标注的动态图像进行数据扰动,得到第一动态图像和第二动态图像,其中,所述第一动态图像的扰动程度小于所述第二动态图像的扰动程度;将所述第一动态图像输入所述第一分支网络,输出所述第一动态图像的细粒度预测分数,基于所述第一动态图像的细粒度预测分数生成细粒度伪标签,并将所述细粒度伪标签作为所述第二动态图像的真实细粒度标签;将所述第二动态图像输入所述第二分支网络,输出所述第二动态图像的细粒度预测分数和粗粒度预测分数,基于所述第二动态图像的细粒度预测分数和所述真实细粒度标签计算细粒度交叉熵分类损失,并基于所述粗粒度预测分数和所述粗粒度标注的动态图像计算粗粒度交叉熵分类损失;根据所述粒度交叉熵分类损失和所述粗粒度交叉熵分类损失计算训练总损失,若所述总损失大于预设阈值,则继续基于所训练数据集对所述第二分支网络进行训练,并同步更新所述第二分支网络和第一分支网络的网络参数,直到所述总损失小于或等于预设阈值,停止训练,并得到所述分类模型。
进一步地,所述处理模块进一步用于:归一化所述第一动态图像的细粒度预测分数,得到细粒度预测概率矩阵;将所述细粒度预测概率矩阵转换为独热编码的概率分布矩阵,将所述概率分布矩阵中的最大类概率对应的细粒度类别映射为相应的粗粒度类别,并转换为独热编码的粗粒度标签;判断所述概率分布矩阵中的最大类概率是否高于预设置信度阈值,且所述独热编码的粗粒度标签是否与所述粗粒度标注的动态图像的真实粗粒度标签一致;若所述最大类概率高于所述预设置信度阈值,且所述独热编码的粗粒度标签与所述真实粗粒度标签一致,则将所述概率分布矩阵作为所述细粒度伪标签,否则不采用所述概率分布矩阵作为所述细粒度伪标签。
本申请第三方面实施例提供一种车辆,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的动态图像的分类方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的动态图像的分类方法。
由此,本申请至少具有如下有益效果:
(1)本申请实施例获取待分类的动态图像并识别其中每帧图像的特征图,将其输入至事先训练得到的分类模型中进行分类匹配,输出动态图像对应的实际分类类别,利用可学习的神经网络结构代替了先前基于Minpooling规则的粗粒度分类方法帮助细粒度模型训练,提升了模型的泛化性和健壮性,便于更精确的识别动态图像的实际类别。
(2)本申请实施例将动态图像中的每帧图像分别输入至细粒度分类器、粗粒度分类器和注意力模块中,分别输出每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重,得到动态图像的粗粒度预测分数,当处于网络前向传播计算时,根据细颗粒预测分数匹配实际分类类别,否则根据细颗粒以及粗颗粒的预测分数匹配动态图像的实际分类类别,采用粗粒度分类和细粒度分类均可学习的双分支网络结构同时进行粗粒度分类预测和细粒度分类预测,以提高模型的泛化性和鲁棒性。
(3)本申请实施例对每帧图像的特征图进行空间池化,用于对动图做细粒度分类和粗粒度分类,并得到每帧图像的降维特征,以降低特征图的纬度,为了避免后续网络中神经元数量过多导致网络结构过于复杂从而造成分类模型过拟合。
(4)本申请实施例获取训练数据集,并对粗粒度标注的动态图像进行数据扰动,得到第一动态图像和第二动态图像;并将第一动态图像输入第一分支网络得到细粒度预测分数,并生成细粒度伪标签,将其作为第二动态图像的真实细粒度标签;将第二动态图像输入第二分支网络,输出细粒度和粗粒度预测分数,分别计算出细粒度交叉熵分类损失和粗粒度交叉熵分类损失,然后计算出训练总损失,当总损失大于阈值时,继续训练并同步网络参数,若小于阈值则停止训练得到分类模型,粗粒度辅助的细粒度自学习实现了对粗粒度标注中动图的高效利用,提升了模型的泛化性和健壮性。
(5)本申请实施例通过归一化第一动态图像的细粒度预测分数得到细粒度预测概率矩阵,并将其转换为独热编码的概率分布矩阵,将其中最大类概率对应的细粒度类别映射为相应的粗粒度类别,并转换为独热编码的粗粒度标签,判断概率分布矩阵中最大类概率是否高于置信度阈值且粗粒度标签是否与粗粒度标注的动态图像真实粗粒度标签一致,若最大类概率高于置信度阈值且标签一致,则概率分布矩阵作为细粒度伪标签,使用其粗粒度标签来进一步过滤模型生成的错误的细粒度伪标签,避免细粒度动图分类模型被不正确的伪标签误导,避免模型将一个细粒度类别错误地标注为另一个粗类中与其极为相似的细粒度类别,提升模型的精确性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例的动态图像的分类方法的流程图;
图2为根据本申请实施例的动态图像分类方法的整体框架图;
图3为根据本申请实施例的自适应多粒度动图分类网络结构图;
图4为根据本申请实施例的WGIF数据集上不同置信度阈值对模型细粒度动图分类性能的影响示意图;
图5为根据本申请实施例的WGIF数据集上CRAFT方法与对比方法细粒度分类准确率比较示意图;
图6为根据本申请实施例的WGIF数据集上CRAFT方法与对比方法的细粒度分类性能比较示意图;
图7为根据本申请实施例的WGIF数据集上CRAFT方法不同组成模块的消融研究示意图;
图8为根据本申请实施例的WGIF数据集上不同规模的细粒度标注数据的分类性能示意图;
图9为根据本申请实施例的动态图像的分类装置的方框结构示意图;
图10为根据本申请实施例的车辆的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
作为一种理想的信息传输媒介,动图已被广泛应用于各种社交媒体、广告宣传、数字论坛和在线教育,甚至在电子邮件中被作为表情符号的增强版使用,不知不觉地成为了人们日常网络生活的一部分。高效利用海量低质量的互联网动图,低成本地实现基于深度学习的动图内容分类具有重要的研究价值。而从互联网数据学习细粒度动图分类最大的挑战在于互联网动图的语义标签间存在粗、细粒度的“从属”关系,细粒度标注的动图数据非常有限。
为了充分利用互联网上大规模粗粒度标注的动图提升细粒度动图分类模型的性能,研究方向主要为:动图训练集的一个子集有细粒度标注(例如狗的品种、球类运动的种类),其余动图都只有粗粒度标签(例如狗、球类运动),且动图的粗、细粒度类别标签间存在“任何一种细粒度类别属于且仅属于其中的一种粗粒度类别”的从属关系,任务目标是对测试集中的动图进行细粒度分类。
现有的处理相同问题设置下的细粒度分类任务的方法主要针对静态图像数据,使用基于CNN的双分类分支网络结构实现了利用粗粒度标注图像帮助训练细粒度图像分类模型的目的。但使用的基于Minpooling的粗粒度分类方法受限于层次结构完美的数据集,对于细粒度类别跨度较大、类别间公共特征不明显的层次结构不完美数据集而言,通过Min-pooling操作提取到的很有可能是背景特征,所以不具有通用性,而且细粒度图像分类比图像识别等普通的粗粒度图像分类困难的多,仅使用粗粒度标签作监督训练只能提升模型的通用特征提取能力,对细粒度图像分类模型的性能提升十分有限。
粗粒度辅助的细粒度自学习的核心思想是自动为粗粒度标注动图生成有粗标签约束的细粒度伪标签监督细粒度模型训练。先前用于解决相同问题设置下的细粒度图像分类方法使用粗粒度标注的数据只增强了模型的通用特征提取能力,对细粒度分类任务带来的帮助非常有限。
针对这种情况,一种可行的方案就是为训练集中粗粒度标注的动图样本自动标注细粒度的伪标签,以最大程度地利用粗标注数据,尽管伪标签技术已经被广泛使用和研究,但是目前它主要用于为未标注的数据生成标签,处理的是不完全监督的学习任务。本申请实施例提出了一种新的粗粒度辅助的细粒度自学习方法,将伪标签技术扩展到了不精确监督的弱监督学习任务上,用于为粗粒度标注的动图生成细粒度伪标签,并且对于粗粒度标注的动图,还使用其粗粒度标签来进一步过滤模型生成的错误的细粒度伪标签,避免细粒度动图分类模型被不正确的伪标签误导。
下面参考附图描述本申请实施例的动态图像的分类方法、装置、车辆及存储介质。
具体而言,图1为本申请实施例所提供的动态图像的分类方法的流程示意图。
如图1所示,该动态图像的分类方法包括以下步骤:
在步骤S101中,获取待分类的动态图像。
可以理解的是,本申请实施例获取待分类的动态图像,便于后续根据动态图像的实际类型进行分类。
在步骤S102中,识别动态图像中每帧图像的特征图,将每帧图像的特征图输入预先训练得到的分类模型,输出动态图像的实际分类类别,其中,分类模型包括第一分支网络,且第一分支网络包括细粒度分类器和粗粒度分类器,利用细粒度分类器和粗粒度分类器分别生成动态图像的细粒度预测分数和粗粒度预测分数,并根据细粒度预测分数和/或粗粒度预测分数匹配动态图像的实际分类类别。
其中,预先训练得到的分类模型可以是粗粒度辅助的细粒度自学习的细粒度动图分类模型,在此不做具体限定。
其中,第一分支网络可以是细粒度伪标签生成分支网络,用于对细粒度进行分类,在此不做具体限定。
其中,细粒度分类器可以对同类型图像下细微的差异进行分类,例如:对“狗”该类类别下细粒度的子类,即分别为“哈士奇”和“爱斯基摩犬”的图像分辨开来,通过耳朵形状、毛色等细微处差异对其进行分类,在此不做具体限定。
其中,粗粒度分类器可以对动态图像的大类进行分类,例如:动物这类类别中利用粗粒度分类器可以分为家禽、昆虫、食肉动物等等,在此不做具体限定。
可以理解的是,本申请实施例获取待分类的动态图像并识别其中每帧图像的特征图,将其输入至事先训练得到的分类模型中进行分类匹配,输出动态图像对应的实际分类类别,利用可学习的神经网络结构代替了先前基于Minpooling规则的粗粒度分类方法帮助细粒度模型训练,提升了模型的泛化性和健壮性,便于更精确的识别动态图像的实际类别。
在本申请实施例中,第一分支网络还包括注意力模块,将每帧图像的特征图输入预先训练得到的分类模型,输出动态图像的实际分类类别,包括:将每帧图像的特征图分别输入细粒度分类器、粗粒度分类器和注意力模块,输出每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重;基于每帧图像的细粒度帧预测分数和权重进行加权求和,得到动态图像的细粒度预测分数,并基于粗粒度帧预测分数和权重进行加权求和,得到动态图像的粗粒度预测分数;若处于网络前向传播计算时,则根据细粒度预测分数匹配动态图像的实际分类类别,否则,根据细粒度预测分数和粗粒度预测分数匹配动态图像的实际分类类别。
其中,注意力模块用于接收特征图的特征输入,并生成动图的每帧图像的注意力权重,用于鉴别与动图真实类别标签之间的相关性,在此不做具体限定。
其中,权重是指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性,在此不做具体限定。
其中,网络前向传播计算可以是指前一层的输出作为下一层的输入,例如:根据动态图像输入至粗粒度分类器得知类型为动物,然后将动物的动态图像输入至细粒度分类器得知此动物为犬类,并根据注意力模块判断具体为“哈士奇”,一层层递进的关系,在此不做具体限定。
可以理解的是,本申请实施例将动态图像中的每帧图像分别输入至细粒度分类器、粗粒度分类器和注意力模块中,分别输出每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重,得到动态图像的粗粒度预测分数,当处于网络前向传播计算时,根据细颗粒预测分数匹配实际分类类别,否则根据细颗粒以及粗颗粒的预测分数匹配动态图像的实际分类类别,采用粗粒度分类和细粒度分类均可学习的双分支网络结构同时进行粗粒度分类预测和细粒度分类预测,以提高模型的泛化性和鲁棒性。
在本申请实施例中,在将每帧图像的特征图输入预先训练得到的分类模型之前,包括:对每帧图像的特征图进行空间池化,得到每帧图像的降维特征。
其中,空间池化可以是通过计算中心像素以及相邻像素点的加权求和来构成特征图实现空间特征的提取,通过对不同特征进行聚合统计处理以获得相对更低的维度,同时避免出现过拟合现象,在此不做具体限定。
可以理解的是,本申请实施例对每帧图像的特征图进行空间池化,用于对动图做细粒度分类和粗粒度分类,并得到每帧图像的降维特征,以降低特征图的纬度,为了避免后续网络中神经元数量过多导致网络结构过于复杂从而造成分类模型过拟合。
在本申请实施例中,分类模型还包括第二分支网络,其中,第一分支网络与第二分支网络结构相同,分类模型训练过程包括:获取训练数据集,其中,训练数据集包括粗粒度标注的动态图像;对粗粒度标注的动态图像进行数据扰动,得到第一动态图像和第二动态图像,其中,第一动态图像的扰动程度小于第二动态图像的扰动程度;将第一动态图像输入第一分支网络,输出第一动态图像的细粒度预测分数,基于第一动态图像的细粒度预测分数生成细粒度伪标签,并将细粒度伪标签作为第二动态图像的真实细粒度标签;将第二动态图像输入第二分支网络,输出第二动态图像的细粒度预测分数和粗粒度预测分数,基于第二动态图像的细粒度预测分数和真实细粒度标签计算细粒度交叉熵分类损失,并基于粗粒度预测分数和粗粒度标注的动态图像计算粗粒度交叉熵分类损失;根据粒度交叉熵分类损失和粗粒度交叉熵分类损失计算训练总损失,若总损失大于预设阈值,则继续基于所训练数据集对第二分支网络进行训练,并同步更新第二分支网络和第一分支网络的网络参数,直到总损失小于或等于预设阈值,停止训练,并得到分类模型。
其中,第二分支网络可以是细粒度伪标签生成主干分支,用作分类模型的训练,在此不做具体限定。
其中,数据扰动可以在测试时进行,用于评估已训练模型的鲁棒程度,在此不做具体限定。
其中,第一动态图像可以是对粗粒度标注的动态图像进行轻微数据扰动下得到的,在此不做具体限定。
其中,第二动态图像可以是对粗粒度标注的动态图像进行剧烈数据扰动下得到的,在此不做具体限定。
其中,细粒度伪标签可以是利用已标注数据所训练的模型在未标注的数据上进行预测,根据预测结果对样本进行筛选,为未标注的数据生成标签,在此不做具体限定。
其中,交叉熵是对由于实际输出的可能性与所认知的可能性之间区别而产生不匹配,从而产生的输出不确定性的一个指标,在此不做具体限定。
其中,预设阈值可以是用户事先设置的阈值,例如:默认损失的阈值为0.5,可以根据实际情况进行调整或设定,在此不做具体限定。
可以理解的是,本申请实施例获取训练数据集,并对粗粒度标注的动态图像进行数据扰动,得到第一动态图像和第二动态图像;并将第一动态图像输入第一分支网络得到细粒度预测分数,并生成细粒度伪标签,将其作为第二动态图像的真实细粒度标签;将第二动态图像输入第二分支网络,输出细粒度和粗粒度预测分数,分别计算出细粒度交叉熵分类损失和粗粒度交叉熵分类损失,然后计算出训练总损失,当总损失大于阈值时,继续训练并同步网络参数,若小于阈值则停止训练得到分类模型,粗粒度辅助的细粒度自学习实现了对粗粒度标注中动图的高效利用,提升了模型的泛化性和健壮性。
在本申请实施例中,基于第一动态图像的细粒度预测分数生成细粒度伪标签,包括:归一化第一动态图像的细粒度预测分数,得到细粒度预测概率矩阵;将细粒度预测概率矩阵转换为独热编码的概率分布矩阵,将概率分布矩阵中的最大类概率对应的细粒度类别映射为相应的粗粒度类别,并转换为独热编码的粗粒度标签;判断概率分布矩阵中的最大类概率是否高于预设置信度阈值,且独热编码的粗粒度标签是否与粗粒度标注的动态图像的真实粗粒度标签一致;若最大类概率高于预设置信度阈值,且独热编码的粗粒度标签与真实粗粒度标签一致,则将概率分布矩阵作为细粒度伪标签,否则不采用概率分布矩阵作为细粒度伪标签。
其中,独热编码是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效,即只有一位是1,其余都是零值。
其中,预设置信度阈值可以是用户事先设置的置信度阈值,例如:预定义的置信度阈值为0.7,在此不做具体限定。
可以理解的是,本申请实施例通过归一化第一动态图像的细粒度预测分数得到细粒度预测概率矩阵,并将其转换为独热编码的概率分布矩阵,将其中最大类概率对应的细粒度类别映射为相应的粗粒度类别,并转换为独热编码的粗粒度标签,判断概率分布矩阵中最大类概率是否高于置信度阈值且粗粒度标签是否与粗粒度标注的动态图像真实粗粒度标签一致,若最大类概率高于置信度阈值且标签一致,则概率分布矩阵作为细粒度伪标签,避免模型将一个细粒度类别错误地标注为另一个粗类中与其极为相似的细粒度类别,提升模型的精确性。
根据本申请实施例提出的动态图像的分类方法,获取待分类的动态图像并识别其中每帧图像的特征图,将其输入至事先训练得到的分类模型中进行分类匹配,输出动态图像对应的实际分类类别,利用可学习的神经网络结构代替了先前基于Minpooling规则的粗粒度分类方法帮助细粒度模型训练,提升了模型的泛化性和健壮性。由此,解决了相关技术中细粒度分类任务的方法,无法提升细粒度图像分类模型的性能,导致图像分类模型的泛化性和健壮性较低等问题。
下面将结合图2对动态图像的分类方法进行详细阐述,具体流程如下:
1、确定数据集:
本申请实施例除了在动图数据集WGIF上开展大量的实验验证CRAFT方法在基于粗监督信息的细粒度动图分类任务上的强大性能外,还进一步在相同问题设置下的细粒度图像分类基准数据集CIFAR-100上进行了泛化实验,来测试所提出的粗粒度辅助的细粒度自学习框架的通用性和有效性。
其中,WGIF数据集内容覆盖全面且风格多样,由来自于73个类别的8千多个动图组成,而73个类别归属于14个粗类,其中有10个粗类包含2-5个细类,3个粗类包含7-8个细类,1个粗类有12个细类,每个细类属于且仅属于其中的一个粗类,CIFAR-100数据集具有类别标签间的从属关系,由来自20个粗粒度类别的60000张彩色图像组成,每张图像的大小为32x32像素。这20个粗粒度类别进一步被分为100个细粒度类别,恰好每5个细粒度类别对应于一个粗粒度类别,每个细粒度类别包括500张训练图像和100张测试图像。
2、采用两种类型的数据扰动获取同一输入的不同扰动版本
(1)轻微扰动:以50%的概率随机水平翻转输入数据,然后将输入数据在垂直和水平方向上填充至原来的9/8,接着按照224x224像素的固定尺寸进行随机裁剪;
(2)剧烈扰动:除了执行轻微扰动的所有操作外,受UDA(Unsupervised DataAugmentation,无监督数据增强)和Fixmatch(半监督学习方法)的启发,还继续利用RandAugment(数据增强策略)和Cutout(数据剪切策略)对输入数据进行扰动,以产生给定输入的严重扭曲版本。
3、模型设计
上述的CRAFT框架是由上下两个并行的分支组成,分别命名为细粒度伪标签生成分支和主干分支;两个分支使用相同的网络:自适应多粒度动图分类网络,对动图同时做细粒度分类预测和粗粒度分类预测,其中主干分支用作分类模型的训练,伪标签生成分支直接共享主干分支的网络参数并不参与训练。
本申请实施例主要是通过自适应多粒度动图分类网络以及粗粒度辅助方法两种结合形成的新的粗粒度辅助的细粒度自学习方法,将伪标签技术扩展到了不精确监督的弱监督学习任务上,用于为粗粒度标注的动图生成细粒度伪标签,使得细粒度分类模型可以联合使用粗粒度标注的子集和细粒度标注的子集以强监督(即细粒度标签作监督)的方式进行训练,提升模型性能。
具体地,将对模型中的自适应多粒度动图分类网络原理以及粗粒度辅助的细粒度自学习原理进行详细介绍,具体如下:
(1)对自适应多粒度动图分类网络原理进行介绍,如图3所示,具体地:
对于细粒度标注的动图,自适应多粒度动图分类网络只使用细粒度分类分支对其做细粒度的分类;而对于只有粗粒度标签标注的动图,为了最大限度地利用其提高细粒度分类模型的性能,自适应多粒度动图分类网络同时使用细粒度分类分支和粗粒度分类分支预测其细粒度标签和粗粒度标签。
接下来,以主干分支为例,对自适应多粒度动图分类网络进行详细阐述,具体如下:
给定一个剧烈扰动版本的粗粒度标注动图Xs,首先使用常见的2D卷积神经网络作为主干网络提取剧烈扰动版本的动图Xs的特征图Fs∈RT×C×H×W。其中,T是从动图中Xs中抽取的图像帧的数量,C、H和W分别是每帧图像的特征图的通道数、高度和宽度。为了避免后续网络中神经元数量过多导致网络结构过于复杂从而造成分类模型过拟合,接着自适应多粒度动图分类网络采用GAP操作对生成的特征图进行空间池化,以降低特征图的维度,动图Xs降维后的特征表示为
Figure BDA0003996783010000121
针对现有的用于解决相同问题设置下的细粒度图像分类方法中存在的基于Min-pooling规则进行粗粒度分类只适用于层次结构完美的数据集的问题,本申请实施例采用粗粒度分类和细粒度分类均可学习的双分支网络结构同时进行粗粒度分类预测和细粒度分类预测,以提高模型的泛化性和鲁棒性。同时自适应多粒度动图分类网络采用关键帧注意力机制解决互联网动图内容分类任务中语义相关的关键帧稀疏的问题。
具体地,细粒度分类器、注意力模块和粗粒度分类器三个并行的模块紧随空间池化操作之后,用于对动图做细粒度分类和粗粒度分类:设Nf表示细粒度类别的数量,Nc表示粗粒度类别的数量,将剧烈扰动版本的动图Xs的特征
Figure BDA0003996783010000122
输入到两个分类器后分别获得细粒度的T帧预测分数
Figure BDA0003996783010000131
以及粗粒度的T帧预测分数
Figure BDA0003996783010000132
与此同时,注意力模块也接收特征
Figure BDA0003996783010000133
作为输入,生成剧烈扰动版本的动图Xs的T帧图像的注意力权重
Figure BDA0003996783010000134
其中
Figure BDA0003996783010000135
表示是动图Xs中第t帧图像与动图的真实类别标签之间的相关性大小,取值越接近1,图像帧对分类越重要。由于细粒度分类器和粗粒度分类器均是单层的线性分类器,注意力模块的网络结构与其大致相同,最后,使用as分别对T帧图像的细粒度帧预测分数Ssf和粗粒度帧预测分数Ssc进行加权求和,获得剧烈扰动版本的动图Xs的细粒度预测分数
Figure BDA0003996783010000136
和粗粒度预测分数
Figure BDA0003996783010000137
gsf形式化为:
Figure BDA0003996783010000138
同理,gsc表示为:
Figure BDA0003996783010000139
其中
Figure BDA00039967830100001310
分别表示动图Xs中第t帧图像的细粒度预测分数和粗粒度预测分数。
需要注意的是,虽然细粒度伪标签生成分支和主干分支使用相同的网络结构,但由于细粒度伪标签生成分支仅用于根据其生成的细粒度动图预测分数产生细粒度伪标签,所以在网络前向传播计算时细粒度伪标签生成分支的自适应多粒度动图分类网络输出的粗粒度动图预测分数被直接丢弃。
(2)对粗粒度辅助的细粒度自学习原理进行介绍,具体如下:
粗粒度辅助的细粒度自学习的核心思想是自动为粗粒度标注动图生成有粗标签约束的细粒度伪标签监督细粒度模型训练。如前文,先前用于解决相同问题设置下的细粒度图像分类方法使用粗粒度标注的数据只增强了模型的通用特征提取能力,对细粒度分类任务带来的帮助非常有限,然后针对这种情况,为训练集中粗粒度标注的动图样本自动标注细粒度的伪标签,以最大程度地利用粗标注数据。其中伪标签技术主要用于为未标注的数据生成标签,处理的是不完全监督的学习任务。
本申请实施例将伪标签技术扩展到了不精确监督的弱监督学习任务上,用于为粗粒度标注的动图生成细粒度伪标签,进而监督细粒度模型训练;不仅如此,对于粗粒度标注的动图,还使用其粗粒度标签来进一步过滤模型生成的错误的细粒度伪标签,避免细粒度动图分类模型被不正确的伪标签误导,而粗粒度辅助的细粒度自学习实现了对粗粒度标注子集Scoarse中的动图的高效利用,它基于网络结构相同的细粒度伪标签生成分支和主干分支这两个并行的分支实现,具体地:给定一个粗粒度标注的动图x∈Scoarse,其粗粒度标签是一个Nc维的独热编码的向量,记为yc
首先对动图x做两种不同程度的数据扰动得到轻微扰动版本的动图Xw和剧烈扰动版本的动图Xs,然后动图Xs被送入到主干分支的自适应多粒度动图分类网络同时做细粒度分类预测和粗粒度分类预测,得到细粒度预测分数gsf和粗粒度预测分数gsc,动图Xw则同时被送入到细粒度伪标签生成分支的自适应多粒度动图分类网络做细粒度分类预测和粗粒度分类预测,但是不同于主干分支,细粒度伪标签生成分支会直接丢弃轻微扰动版本的动图Xw的粗粒度预测分数,只保留其细粒度预测分数
Figure BDA0003996783010000141
用其为粗粒度标注的动图x生成细粒度的伪标签
Figure BDA0003996783010000142
此伪标签被用作剧烈扰动版本的动图Xs的真实的细粒度标签并协同人工标注的粗粒度标签共同监督主干分支的自适应多粒度动图分类网络训练。出于为粗粒度标注的动图生成更为准确的细粒度伪标签的目的,每次主干分支的网络参数更新后,细粒度伪标签生成分支就会自动同步主干分支的网络参数,以重新计算细粒度伪标签。
接下来,重点介绍如何利用轻微扰动版本的动图Xw的细粒度预测分数gwf为粗粒度标注动图x生成可靠的细粒度伪标签:
首先对
Figure BDA0003996783010000143
做softmax归一化处理,得到细粒度预测概率
Figure BDA0003996783010000144
属于某个细粒度类别的概率
Figure BDA0003996783010000145
形式化表示为:
Figure BDA0003996783010000146
其中τ∈(0,1]是温度参数。
然后将pwf转为独热编码的概率分布
Figure BDA0003996783010000147
即得到了粗粒度标注动图x的细粒度伪标签,但此伪标签不能直接投入使用,需要经过两个条件的筛选确保细粒度伪标签生成分支产生的细粒度伪标签是正确的。
条件一,为了保证生成的细粒度伪标签有足够高的置信度,模型设置了一个置信度阈值H(超参数),要求细粒度预测概率pwf中最大类概率要高于预定义阈值H。
条件二,为了避免模型将一个细粒度类别错误地标注为另一个粗类中与其极为相似的细粒度类别(例如:把啮齿类动物中的一个细粒度类别——龙猫,错误地标注为粗粒度类别是其他动物的兔子),CRAFT方法还根据数据集中粗、细粒度标签间的从属关系使用真实的粗粒度标签辅助生成可靠的细粒度伪标签,具体地:先根据粗粒度标签和细粒度标签之间一对多的从属关系,将细粒度预测概率pwf中最大值对应的细粒度类别映射为相应的粗粒度类别,并把它转为独热编码的粗粒度标签向量,记为pwc(例如:将最大概率值是哈士奇的细粒度类别映射为粗粒度类别——狗);然后要求pwc与粗粒度标注动图x真实的粗粒度标签yc是一致的。
只有当上述两个条件同时满足时,伪标签生成分支生成的细粒度伪标签
Figure BDA0003996783010000151
才可以被采用作为剧烈扰动版本的动图Xs的真实细粒度标签,形式化表示为:
Figure BDA0003996783010000152
Figure BDA0003996783010000153
其中,I(pwc)是指示函数,当由细粒度预测概率pwf计算得到的粗粒度预测标签pwc与真实的粗粒度标签yc相同时,此指示函数取值为1,否则取值为0。
其中公式表示为:
Figure BDA0003996783010000154
I(max(pwf)>H)也是指示函数,当细粒度预测概率pwf中最大类概率大于预定义的置信度阈值H时,此指示函数取值为1,否则取值为0。
其中公式表示为:
Figure BDA0003996783010000155
只有当pwc=yc和max(pwf)>同时成立时,细粒度伪标签生成分支生成的细粒度伪标签
Figure BDA0003996783010000156
才能被采用。
4、模型训练
让Scoarse={(xb,ybc),b=1,...,B},Sfine={(xd,ydf,ydc),d=1,...,D},其中B是粗粒度标注子集的动图样本数量,D是细粒度标注子集的动图数量,B+D=N,ybc是粗粒度标注动图xb的粗粒度标签,ydf,ydc分别是细粒度标注动图xd的细粒度标签和粗粒度标签,标签均使用独热编码的向量表示。
CRAFT的关键思想是在粗粒度标注的子集上,使用轻微扰动的动图生成独热编码的细粒度伪标签作监督,使用剧烈扰动的动图生成细粒度分类预测和粗粒度分类预测。
其中训练集中粗粒度标注动图的损失计算公式为:
Figure BDA0003996783010000157
其中,λf和λc是平衡粗粒度标注动图的细粒度分类损失和粗粒度分类损失的超参数。
训练集中细粒度标注的动图做正常的细粒度分类,交叉熵分类损失形式化为:
Figure BDA0003996783010000158
最终,用于模型训练的总损失函数为:
L=Lcoarse+Lfine
5实验结果分析
(1)对于实验过程中的模型细节进行介绍:
在所有关于动图数据集WGIF的实验中均使用在ImageNet(用于视觉对象识别软件研究的大型可视化数据库)上预训练的ResNet50模型作为主干网络。为了公平对比,在CIFAR-100数据集上CRAFT方法采用和对比方法相同的VGG、ResNet网络作为主干网络。
对于WGIF上的所有实验,为了能够批量训练,本申请实施例对WGIF训练集中的每个动图样本抽取8帧,其中实验默认使用损失系数λf=λc=0.5,由于WGIF数据集上不同置信度阈值对模型细粒度动图分类性能的影响不同,根据以往实验数据所预定义的置信度阈值设定为H=0.7,温度参数τ=0.5。其中对于WGIF数据集,训练迭代总次数设置为51200,批量的大小固定为12,而CRAFT采用权重衰减为0.001、动量参数为0.9的批量SGD作为优化器,初始学***起见,使用和对比方法相同的超参设置。
其中,对比方法包括:(1)由粗到细的多阶段学习方法。该方法的核心基于课程学习的思想,利用类别标签间的从属关系信息构建由简单到复杂的训练课程。具体地:第一阶段学习简单的粗粒度预测模型作为预训练模型,第二阶段使用细粒度标注微调模型。(2)基于Min-pooling的方法。Min-pooling利用类别标签间的从属关系,将细粒度的分类输出转换为粗粒度输出,从而同时利用两种类型的标注信息。(3)多尺度多层级特征融合方法。在Min-pooling方法的基础上,通过引入卷积块注意力模块(Convolutional BlockAttention Module,CBAM)、多尺度卷积核(Multi-scale Convolution Kernel FeatureFusion,MCKFF)特征融合和级联多层级特征(Concatenating the Features fromDifferent Levels,CFDL)生成了更有效的特征,更好地利用了粗、细粒度标签间的从属关系。
下面将通过一个具体实施例,通过在WGIF动图数据集上进行了比较实验来验证本章提出的粗粒度辅助的细粒度自学习的细粒度动图分类方法在动图分类任务上的有效性,具体如下:
选取ResNet50架构作为所有对比方法及本章提出的CRAFT方法的主干网络,依次在20%、30%和50%的训练集细粒度标注比例上开展实验评估。以Top-1分类准确率作为评价指标,在WGIF测试集上的实验结果如图4所示。
显而易见,CRAFT方法的分类性能在三种不同规模细粒度标注数据的实验设置下均优于所有对比方法,具体地:以50%的细粒度动图标注比例的实验设置为例,CRAFT模型的Top-1分类准确率取得了最大值72.20%。
与多阶段学习方法相比,CRAFT方法极大地简化了训练过程而且在分类效果上也取得了明显的改进(+2.56%)。
对比使用Min-pooling固定规则进行粗粒度分类的双分支分类方法,基于自适应多粒度动图分类网络实现的CRAFT方法将分类性能提升了1.28%,这表明对于层次结构不完美的动图数据集,本申请实施例提供的方法具有更好的兼容性和更强的健壮性。
基于Min-pooling方法改进的更复杂的多尺度多层级特征融合方法仅比Min-pooling方法高了0.16个百分点,与CRAFT方法相比仍有1.12%的差距。
上述结果有力地表明了所提出的CRAFT方法在基于粗监督信息的细粒度动图分类任务上的强大性能。
下面将通过另一个具体实施例,通过在常用的细粒度图像分类的基准数据集CIFAR-100上进行了实验来验证粗粒度辅助的细粒度自学习框架在其他基于粗监督信息的细粒度识别任务上是否具有通用性和普适性。具体如下:
在具体实现中去掉了针对动图数据设计的关键帧注意力池化模块。该实验基于50%的训练集细粒度标注比例开展,CIFAR-100测试集上细粒度分类的Top-1准确率如图5所示,很显然基于VGG和ResNet两种主干网络实现的CRAFT方法在分类性能上都胜过了对应的竞争方法,取得了最好的细粒度分类效果(VGG:74.43%,ResNet:82.80%)。
这个实验结果表明CRAFT方法的思想同样适用于细粒度监督不足的细粒度图像分类任务,粗粒度辅助的细粒度自学习框架具有一定的通用性。
6、消融实验
下面将通过不同模块的消融研究、不同规模的细粒度标注数据研究和不同的置信度阈值研究从不同的角度去分析模型的性能是否会被影响,具体如下:
(1)为了验证CRAFT方法中每个模块的有效性,本申请实施例在WGIF数据集上开展了不同模块的的消融实验,以确定其在整个模型中发挥的作用,其中,如图6所示,展示了CRAFT方法中不同组件的消融实验。
而实验结果表明:
1)当移除自适应多粒度动图分类网络中的粗粒度分类分支时,CRAFT在动图分类数据集上的细粒度分类性能明显下降(-1.92%),说明粗粒度标签信息对于模型训练是有帮助的,本章提出的自适应多粒度动图分类网络能有效地利用粗粒度监督提升细粒度分类性能。
2)更重要的是,相较于移除粗粒度分支的情形,当使用Min-pooling作为粗粒度分类方法时,性能下降得更为显著(-2.8%),在Min-pooling粗粒度预测中,虽然网络训练受到了更多的监督,然而由于WGIF动图数据集层次结构不完美,细粒度类别间的公共特征不明显,这种基于规则的粗粒度预测和监督引入了不必要的噪声,导致模型性能严重退化,甚至不如不使用粗粒度监督。自适应多粒度分类网络通过简单的多分支设计避免了这一问题,能够有效地利用粗粒度监督。
3)在为粗粒度标注数据生成细粒度伪标签时,移除真实的粗粒度标签辅助,只使用基于固定阈值的伪标签生成方法时,细粒度分类性能同样出现了较为明显的下降(-1.96%)。这证明了引入粗粒度辅助可以大大减少不同粗类中极为相似的细类被错误标注的情况。
(2)本申请实施例评估了随着WGIF训练集中细粒度标注数据规模的变化,CRAFT方法的性能变化情况。
以Top1分类准确率作为评价指标,结果如图7所示,训练集中细粒度标注的数据占比越大,CRAFT模型的细粒度分类性能越好。具体而言,当依次使用10%50%的训练数据作为细粒度标注数据时,细粒度动图分类的Top-1准确率依次递增。而以100%细粒度标注的设定作为上限(74.31%)时,当CRAFT方法仅使用20%的细粒度标注动图,分类性能就达到了上限性能的91%;当细粒度标注数据比例增大至50%时,性能达到了上限的97%。
这清楚地说明了CRAFT方法能够高效利用训练集中粗粒度标注的动图数据,极大地降低分类模型对细粒度监督的依赖,帮助提升细粒度监督不足的细粒度动图分类的性能。
(3)由于置信度阈值τ会直接影响可用的细粒度伪标签的数量,所以本申请实施例研究了τ的不同设定对分类模型性能的影响。
在WGIF动图数据集上使用50%的细粒度动图标注比例进行实验,尝试了τ∈{0.5,0.6,0.7,0.8,0.9}的五种不同取值,对应的实验结果如图8所示,从图中可以看出,随着置信度阈值的不断增大,测试集上的Top-1分类准确率先增大后减少,在置信度阈值取0.7时,分类性能最好达到了72.20%。推测产生这种现象的原因是:当置信度阈值较小时,会引入很多错误的细粒度伪标签误导分类模型,导致训练集中的粗粒度标注数据带来的分类效果提升不明显;随着置信度阈值的增大,越来越多的错误伪标签被过滤,细粒度分类性能逐渐提升;但当置信度阈值过大时,则会过滤掉模型生成的几乎所有的细粒度伪标签(包括正确的),导致粗粒度辅助的细粒度自学习方法失效,模型性能显著下降。
综上所述,本申请实施例通过为训练集中粗粒度标注的动图生成有粗粒度标签约束的细粒度伪标签,直接解决了细粒度标注动图不足的问题,使用可学习的神经网络结构替代先前基于Minpooling规则的粗粒度分类方法帮助细粒度模型训练,提升了模型的泛化性和健壮性,从在多个数据集上的大量实验表明与现有的方法相比,本申请实施例所提供的方法取得了优异的性能。
其次参照附图描述根据本申请实施例提出的动态图像的分类装置。
图9是本申请实施例的动态图像的分类装置的方框示意图。
如图9所示,该动态图像的分类装置10包括:获取模块100和处理模块200。
其中,获取模块100用于获取待分类的动态图像;处理模块200用于识别动态图像中每帧图像的特征图,将每帧图像的特征图输入预先训练得到的分类模型,输出动态图像的实际分类类别,其中,分类模型包括第一分支网络,且第一分支网络包括细粒度分类器和粗粒度分类器,利用细粒度分类器和粗粒度分类器分别生成动态图像的细粒度预测分数和粗粒度预测分数,并根据细粒度预测分数和/或粗粒度预测分数匹配动态图像的实际分类类别。
在本申请实施例中,处理模块200进一步用于:处理模块用于:将每帧图像的特征图分别输入细粒度分类器、粗粒度分类器和注意力模块,输出每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重;基于每帧图像的细粒度帧预测分和权重进行加权求和,得到动态图像的细粒度预测分数,并基于粗粒度帧预测分数和权重进行加权求和,得到动态图像的粗粒度预测分数;若处于网络前向传播计算时,则根据细粒度预测分数匹配动态图像的实际分类类别,否则,根据细粒度预测分数和粗粒度预测分数匹配动态图像的实际分类类别。
在本申请实施例中,处理模块200进一步用于:对每帧图像的特征图进行空间池化,得到每帧图像的降维特征。
在本申请实施例中,处理模块200进一步用于:获取训练数据集,其中,训练数据集包括粗粒度标注的动态图像;对粗粒度标注的动态图像进行数据扰动,得到第一动态图像和第二动态图像,其中,第一动态图像的扰动程度小于第二动态图像的扰动程度;将第一动态图像输入第一分支网络,输出第一动态图像的细粒度预测分数,基于第一动态图像的细粒度预测分数生成细粒度伪标签,并将细粒度伪标签作为第二动态图像的真实细粒度标签;将第二动态图像输入第二分支网络,输出第二动态图像的细粒度预测分数和粗粒度预测分数,基于第二动态图像的细粒度预测分数和真实细粒度标签计算细粒度交叉熵分类损失,并基于粗粒度预测分数和粗粒度标注的动态图像计算粗粒度交叉熵分类损失;根据粒度交叉熵分类损失和粗粒度交叉熵分类损失计算训练总损失,若总损失大于预设阈值,则继续基于所训练数据集对第二分支网络进行训练,并同步更新第二分支网络和第一分支网络的网络参数,直到总损失小于或等于预设阈值,停止训练,并得到分类模型。
在本申请实施例中,处理模块200进一步用于:归一化第一动态图像的细粒度预测分数,得到细粒度预测概率矩阵;将细粒度预测概率矩阵转换为独热编码的概率分布矩阵,将概率分布矩阵中的最大类概率对应的细粒度类别映射为相应的粗粒度类别,并转换为独热编码的粗粒度标签;判断概率分布矩阵中的最大类概率是否高于预设置信度阈值,且独热编码的粗粒度标签是否与粗粒度标注的动态图像的真实粗粒度标签一致;若最大类概率高于预设置信度阈值,且独热编码的粗粒度标签与真实粗粒度标签一致,则将概率分布矩阵作为细粒度伪标签,否则不采用概率分布矩阵作为细粒度伪标签。
需要说明的是,前述对动态图像的分类方法实施例的解释说明也适用于该实施例的动态图像的分类装置,此处不再赘述。
根据本申请实施例提出的动态图像的分类装置,获取待分类的动态图像并识别其中每帧图像的特征图,将其输入至事先训练得到的分类模型中进行分类匹配,输出动态图像对应的实际分类类别,利用可学习的神经网络结构代替了先前基于Minpooling规则的粗粒度分类方法帮助细粒度模型训练,提升了模型的泛化性和健壮性。由此,解决了相关技术中细粒度分类任务的方法,无法提升细粒度图像分类模型的性能,导致图像分类模型的泛化性和健壮性较低等问题。
图10为本申请实施例提供的车辆的结构示意图。该车辆可以包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行程序时实现上述实施例中提供的动态图像的分类方法。
进一步地,车辆还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM(Random Access Memory,随机存取存储器)存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral Component,外部设备互连)总线或EISA(Extended Industry Standard Architecture,扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个CPU(Central Processing Unit,中央处理器),或者是ASIC(Application Specific Integrated Circuit,特定集成电路),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的动态图像的分类方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列,现场可编程门阵列等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种动态图像的分类方法,其特征在于,包括以下步骤:
获取待分类的动态图像;
识别所述动态图像中每帧图像的特征图,将所述每帧图像的特征图输入预先训练得到的分类模型,输出所述动态图像的实际分类类别,其中,所述分类模型包括第一分支网络,且所述第一分支网络包括细粒度分类器和粗粒度分类器,利用所述细粒度分类器和所述粗粒度分类器分别生成所述动态图像的细粒度预测分数和粗粒度预测分数,并根据所述细粒度预测分数和/或所述粗粒度预测分数匹配所述动态图像的实际分类类别。
2.根据权利要求1所述的方法,其特征在于,所述第一分支网络还包括注意力模块,所述将所述每帧图像的特征图输入预先训练得到的分类模型,输出所述动态图像的实际分类类别,包括:
将所述每帧图像的特征图分别输入所述细粒度分类器、所述粗粒度分类器和所述注意力模块,输出所述每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重;
基于所述每帧图像的细粒度帧预测分和所述权重进行加权求和,得到所述动态图像的细粒度预测分数,并基于所述粗粒度帧预测分数和所述权重进行加权求和,得到所述动态图像的粗粒度预测分数;
若处于网络前向传播计算时,则根据所述细粒度预测分数匹配所述动态图像的实际分类类别,否则,根据所述细粒度预测分数和所述粗粒度预测分数匹配所述动态图像的实际分类类别。
3.根据权利要求1所述的方法,其特征在于,在将所述每帧图像的特征图输入预先训练得到的分类模型之前,包括:
对所述每帧图像的特征图进行空间池化,得到所述每帧图像的降维特征。
4.根据权利要求1所述的方法,其特征在于,所述分类模型还包括第二分支网络,其中,所述第一分支网络与所述第二分支网络结构相同,所述分类模型训练过程包括:
获取训练数据集,其中,所述训练数据集包括粗粒度标注的动态图像;
对所述粗粒度标注的动态图像进行数据扰动,得到第一动态图像和第二动态图像,其中,所述第一动态图像的扰动程度小于所述第二动态图像的扰动程度;
将所述第一动态图像输入所述第一分支网络,输出所述第一动态图像的细粒度预测分数,基于所述第一动态图像的细粒度预测分数生成细粒度伪标签,并将所述细粒度伪标签作为所述第二动态图像的真实细粒度标签;
将所述第二动态图像输入所述第二分支网络,输出所述第二动态图像的细粒度预测分数和粗粒度预测分数,基于所述第二动态图像的细粒度预测分数和所述真实细粒度标签计算细粒度交叉熵分类损失,并基于所述粗粒度预测分数和所述粗粒度标注的动态图像计算粗粒度交叉熵分类损失;
根据所述粒度交叉熵分类损失和所述粗粒度交叉熵分类损失计算训练总损失,若所述总损失大于预设阈值,则继续基于所训练数据集对所述第二分支网络进行训练,并同步更新所述第二分支网络和第一分支网络的网络参数,直到所述总损失小于或等于预设阈值,停止训练,并得到所述分类模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一动态图像的细粒度预测分数生成细粒度伪标签,包括:
归一化所述第一动态图像的细粒度预测分数,得到细粒度预测概率矩阵;
将所述细粒度预测概率矩阵转换为独热编码的概率分布矩阵,将所述概率分布矩阵中的最大类概率对应的细粒度类别映射为相应的粗粒度类别,并转换为独热编码的粗粒度标签;
判断所述概率分布矩阵中的最大类概率是否高于预设置信度阈值,且所述独热编码的粗粒度标签是否与所述粗粒度标注的动态图像的真实粗粒度标签一致;
若所述最大类概率高于所述预设置信度阈值,且所述独热编码的粗粒度标签与所述真实粗粒度标签一致,则将所述概率分布矩阵作为所述细粒度伪标签,否则不采用所述概率分布矩阵作为所述细粒度伪标签。
6.一种动态图像的分类装置,其特征在于,包括:
获取模块,用于获取待分类的动态图像;
处理模块,用于识别所述动态图像中每帧图像的特征图,将所述每帧图像的特征图输入预先训练得到的分类模型,输出所述动态图像的实际分类类别,其中,所述分类模型包括第一分支网络,且所述第一分支网络包括细粒度分类器和粗粒度分类器,利用所述细粒度分类器和所述粗粒度分类器分别生成所述动态图像的细粒度预测分数和粗粒度预测分数,并根据所述细粒度预测分数和/或所述粗粒度预测分数匹配所述动态图像的实际分类类别。
7.根据权利要求6所述的装置,其特征在于,所述处理模块用于:
将所述每帧图像的特征图分别输入所述细粒度分类器、所述粗粒度分类器和注意力模块,输出所述每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重;
基于所述每帧图像的细粒度帧预测分数和所述权重进行加权求和,得到所述动态图像的细粒度预测分数,并基于所述粗粒度帧预测分数和所述权重进行加权求和,得到所述动态图像的粗粒度预测分数;
若处于网络前向传播计算时,则根据所述细粒度预测分数匹配所述动态图像的实际分类类别,否则,根据所述细粒度预测分数和所述粗粒度预测分数匹配所述动态图像的实际分类类别。
8.根据权利要求6所述的装置,其特征在于,所述处理模块进一步用于:
对所述每帧图像的特征图进行空间池化,得到所述每帧图像的降维特征。
9.一种车辆,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5任一项所述的动态图像的分类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的动态图像的分类方法。
CN202211604261.5A 2022-12-13 2022-12-13 动态图像的分类方法、装置、车辆及存储介质 Pending CN115953624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211604261.5A CN115953624A (zh) 2022-12-13 2022-12-13 动态图像的分类方法、装置、车辆及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211604261.5A CN115953624A (zh) 2022-12-13 2022-12-13 动态图像的分类方法、装置、车辆及存储介质

Publications (1)

Publication Number Publication Date
CN115953624A true CN115953624A (zh) 2023-04-11

Family

ID=87288781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211604261.5A Pending CN115953624A (zh) 2022-12-13 2022-12-13 动态图像的分类方法、装置、车辆及存储介质

Country Status (1)

Country Link
CN (1) CN115953624A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218396A (zh) * 2023-10-08 2023-12-12 深圳海角兰科技有限公司 基于大模型的视觉样本数据自动标注方法及***
CN118015522A (zh) * 2024-03-22 2024-05-10 广东工业大学 用于视频场景图生成的时间过渡正则化方法和***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218396A (zh) * 2023-10-08 2023-12-12 深圳海角兰科技有限公司 基于大模型的视觉样本数据自动标注方法及***
CN118015522A (zh) * 2024-03-22 2024-05-10 广东工业大学 用于视频场景图生成的时间过渡正则化方法和***

Similar Documents

Publication Publication Date Title
CN112990432B (zh) 目标识别模型训练方法、装置及电子设备
US10678847B2 (en) Method and device for searching a target in an image
EP3767536A1 (en) Latent code for unsupervised domain adaptation
CN115953624A (zh) 动态图像的分类方法、装置、车辆及存储介质
US20170083623A1 (en) Semantic multisensory embeddings for video search by text
CN113657425B (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
CN113553906A (zh) 基于类中心域对齐的判别无监督跨域行人重识别方法
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
TWI780567B (zh) 對象再識別方法、儲存介質及電腦設備
KR20200071865A (ko) 차원 축소에 기반한 영상 객체 인식 시스템 및 방법
CN117557886A (zh) 融合偏标签和消极学习的含噪声标签图像识别方法及***
CN111898704A (zh) 对内容样本进行聚类的方法和装置
CN111858999B (zh) 一种基于分段困难样本生成的检索方法及装置
Gong et al. Erroneous pixel prediction for semantic image segmentation
CN117710738A (zh) 一种基于原型对比学习的开放集识别方法及***
CN114973107B (zh) 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法
Tran et al. Triple-sigmoid activation function for deep open-set recognition
CN112750128A (zh) 图像语义分割方法、装置、终端及可读存储介质
CN113592045B (zh) 从印刷体到手写体的模型自适应文本识别方法和***
CN115797701A (zh) 目标分类方法、装置、电子设备及存储介质
CN112257765B (zh) 基于未知类相似类别集的零样本图像分类方法及***
US20240135708A1 (en) Permutation invariant convolution (pic) for recognizing long-range activities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination