CN115359295A - 一种解耦知识蒸馏金具目标检测方法及*** - Google Patents

一种解耦知识蒸馏金具目标检测方法及*** Download PDF

Info

Publication number
CN115359295A
CN115359295A CN202211012822.2A CN202211012822A CN115359295A CN 115359295 A CN115359295 A CN 115359295A CN 202211012822 A CN202211012822 A CN 202211012822A CN 115359295 A CN115359295 A CN 115359295A
Authority
CN
China
Prior art keywords
model
feature
hardware
loss function
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211012822.2A
Other languages
English (en)
Inventor
赵振兵
吕雪纯
翟永杰
赵文清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN202211012822.2A priority Critical patent/CN115359295A/zh
Publication of CN115359295A publication Critical patent/CN115359295A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种解耦知识蒸馏金具目标检测方法及***,方法包括:分别根据数据集标注框在第一模型和第二模型对标注数据集进行解耦,得到前景目标区域和背景区域,以确定金具的目标种类概率,并根据目标种类概率确定共有特征评分掩码;根据共有特征评分掩码和特征图分类得分图确定第一蒸馏损失函数;基于全局上下文模块,根据确定特征图构建第二蒸馏损失函数;根据各蒸馏损失函数确定总损失函数,并根据总损失函数对第二模型进行训练,以对待测金具图像进行目标检测。本发明利用不同种类金具的共有形状特征,采用解耦知识蒸馏方法,针对前景目标区域,将属于金具之间独特的共有特征用于目标分类的信息整合起来迁移到小模型,提升了金具检测精度。

Description

一种解耦知识蒸馏金具目标检测方法及***
技术领域
本发明涉及目标检测与识别技术领域,特别是涉及一种解耦知识蒸馏金具目标检测方法及***。
背景技术
金具是输电线路广泛使用的金属附件,用于支持、固定、接续导线、导体及绝缘子等。输电线路上的金具由于长期处于户外环境,极易发生破损、锈蚀、变形等故障,对电力安全稳定的传输有不利的影响,准确检测金具目标是金具缺陷检测的基础,对电力***便利巡检具有重大意义。
目前关于金具目标检测的发明大多为了提高检测精度而构建复杂且深的网络,这样模型参数量增加,对计算设备算力要求较高,不利于部署到前端设备快速准确的进行金具目标检测。将性能优良的模型轻量化后部署到可移动的检测设备便于电力***巡检,目前已成为研究热点。
发明内容
为了克服现有技术的不足,本发明的目的是提供一种解耦知识蒸馏金具目标检测方法及***。
为实现上述目的,本发明提供了如下方案:
一种解耦知识蒸馏金具目标检测方法,包括:
分别根据数据集标注框在第一模型和第二模型对标注数据集中每张图像进行解耦,对应得到第一前景目标区域、第一背景区域、第二前景目标区域和第二背景区域;所述标注数据集包括多张已标注的金具航拍图像;所述第一模型的参数量和性能均大于所述第二模型;
根据所述第一前景目标区域确定金具的目标种类概率,并根据所述目标种类概率确定共有特征评分掩码;
根据所述共有特征评分掩码、所述第一模型和所述第二模型在特征图金字塔网络的特征图分类得分图和预设卷积函数确定第一蒸馏损失函数;
基于全局上下文模块,根据所述第一前景目标区域和所述第一背景区域确定的第一特征图以及所述第二前景目标区域和所述第二背景区域确定的第二特征图构建第二蒸馏损失函数;
根据所述第一蒸馏损失函数和所述第二蒸馏损失函数确定总损失函数,并根据所述总损失函数对所述第二模型进行训练,得到训练好的第二模型;所述训练好的第二模型用于对待测金具图像进行目标检测。
优选地,所述分别根据第一模型和第二模型对获取到的标注数据集进行解耦,对应得到第一前景目标区域、第一背景区域、第二前景目标区域和第二背景区域,包括:
构建标注数据集;所述标注数据集中包括带有ground-truth框的所述金具航拍图像以及标注信息;
基于所述标注数据集,将金具目标以所述ground-truth框为边界进行图像解耦;
设计二进制掩码,并根据所述二进制掩码控制特征图是否属于前景目标区域或背景区域。
优选地,所述二进制掩码的公式为:
Figure BDA0003811255270000021
其中,M(i,j)为所述二进制掩码,i为第一模型或第二模型的特征金字塔网络生成的特征图的水平方向的坐标,j为第一模型或第二模型的特征金字塔网络生成的特征图的垂直方向的坐标,G为所述ground-truth框。
优选地,根据所述第一前景目标区域确定金具的目标种类概率,并根据所述目标种类概率确定共有特征评分掩码,包括:
基于所述第一前景目标区域,在水平和垂直方向分别为i和j的特征图内随机抽选特征;
根据第一公式确定所述目标种类概率;所述第一公式为:YS=M(i,j)P(S|f);其中,S代表金具的目标种类的类别数,f为所述特征;YS表示所述特征f是所述目标种类S的概率,M(i,j)用所述二进制掩码;
利用深度神经网络对所述目标种类概率进行建模,得到第二公式;所述第二公式为YS=M(i,j)P(S|f,θ);其中,θ表示为生成参数的模型;
基于所述第二公式,聚合所有类别的所述目标种类概率,得到共有特征评分;所述共有特征评分的公式为
Figure BDA0003811255270000031
其中,F′为所述共有特征评分;
根据所述共有特征评分确定共有特征评分掩码;所述共有特征评分掩码的公式为:
Figure BDA0003811255270000032
其中,F为所述共有特征评分掩码;s'作为样本来表示所有的金具对象S,s'∈[1,s]。
优选地,根据所述共有特征评分掩码、所述第一模型和所述第二模型在特征图金字塔网络的特征图分类得分图和预设卷积函数确定第一蒸馏损失函数,包括:
根据所述共有特征评分掩码确定评分标准掩码;所述评分标准掩码的公式为:
Figure BDA0003811255270000033
其中,FT为所述评分标准掩码,Ys' T为所述第一模型的分类得分图,θT为所述第一模型分类头对金具的分类结果,,fT为输入到所述第一模型分类头的特征;
利用所述特征金字塔网络每一层的聚合分类得分图作为共有特征评分掩码;所述共有特征评分掩码的公式为:
Figure BDA0003811255270000034
其中,Fk为所述第一模型的第k层特征图金字塔网络在通道C上的共有特征评分掩码,YkC T为所述第一模型在第k层,通道数为C特征金字塔网络的分类得分图;
根据所述预设卷积函数、所述共有特征评分掩码和所述评分标准掩码确定所述第一蒸馏损失函数;所述第一蒸馏损失函数的公式为:
Figure BDA0003811255270000035
其中,Lfront为所述第一蒸馏损失函数,n表示特征图金字塔网络总的层数,k代表特征图金字塔的第k层,(i,j)表示特征图的位置,宽度为W,高度为H,l表示通道的总数,C表示相应的通道,
Figure BDA0003811255270000036
为在位置为(i,j)的共有特征评分掩码,Nk为所有特征图共有特征评分掩码的总和,fadap函数为使所述第一模型和所述第二模型通道相适应的所述预设卷积函数,FT kC(i,j)和FS kC(i,j)分别为所述第一模型和所述第二模型在特征图金字塔网络相应层,相应通道,同一位置特征图分类得分图。
优选地,所述第二蒸馏损失函数的公式为:
Lrela=μ∑(R(FT)-R(FS))2
其中,Lrela为所述第二蒸馏损失函数,μ为平衡损失函数的超参数,FT,FS分别为所述第一模型和所述第二模型生成的特征图,R为不同模型对某一金具目标捕获的金具目标和背景区域的关系信息,R的公式为:
Figure BDA0003811255270000041
其中Wv1,Wv2,Wk分别为第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵,Fi为输入实例的特征图,
Figure BDA0003811255270000042
是全局注意力池化的权重,LN表示归一化处理,Np为特征层的位置数目,Np=H·W,e为自然常数,FM是为所述第一前景目标区域的生成的特征图;Fj为图像中任意提取特征,δ(·)=Wv2Relu(LN(Wv1)(·))表示捕获通道依赖关系的特征变换。
优选地,所述总损失函数的公式为:
L=αLfront+βLrela
其中,L为所述总损失函数,α和β分别为不同的平衡参数。
一种解耦知识蒸馏金具目标检测***,包括:
解耦模块,用于分别根据数据集标注框在第一模型和第二模型对标注数据集进行解耦,对应得到第一前景目标区域、第一背景区域、第二前景目标区域和第二背景区域;所述标注数据集包括多张已标注的金具航拍图像;所述第一模型的参数量和性能均大于所述第二模型;
评分模块,用于根据所述第一前景目标区域和所述第一背景区域确定金具的目标种类概率,并根据所述目标种类概率确定共有特征评分掩码;
第一蒸馏模块,用于根据所述共有特征评分掩码、所述第一模型和所述第二模型在特征图金字塔网络的特征图分类得分图和预设卷积函数确定第一蒸馏损失函数;
第二蒸馏模块,用于基于全局上下文模块,根据所述第一前景目标区域和所述第一背景区域确定的第一特征图以及所述第二前景目标区域和所述第二背景区域确定的第二特征图构建第二蒸馏损失函数;
总损失函数确定模块,用于根据所述第一蒸馏损失函数和所述第二蒸馏损失函数确定总损失函数,并根据所述总损失函数对所述第二模型进行训练,得到训练好的第二模型;所述训练好的第二模型用于对待测金具图像进行目标检测。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种解耦知识蒸馏金具目标检测方法及***,所述方法包括:分别根据数据集标注框在第一模型和第二模型对标注数据集进行解耦,对应得到第一前景目标区域、第一背景区域、第二前景目标区域和第二背景区域;所述标注数据集包括多张已标注的金具航拍图像;所述第一模型的参数量和性能均大于所述第二模型;根据所述第一前景目标区域和所述第一背景区域确定金具的目标种类概率,并根据所述目标种类概率确定共有特征评分掩码;根据所述共有特征评分掩码、所述第一模型和所述第二模型在特征图金字塔网络的特征图分类得分图和预设卷积函数确定第一蒸馏损失函数;基于全局上下文模块,根据所述第一前景目标区域和所述第一背景区域确定的第一特征图以及所述第二前景目标区域和所述第二背景区域确定的第二特征图构建第二蒸馏损失函数;根据所述第一蒸馏损失函数和所述第二蒸馏损失函数确定总损失函数,并根据所述总损失函数对所述第二模型进行训练,得到训练好的第二模型;所述训练好的第二模型用于对待测金具图像进行目标检测。本发明充分利用了不同种类金具的共有形状特征,采用解耦知识蒸馏方法,针对前景目标区域,将属于金具之间独特的共有特征用于目标分类的信息整合起来迁移到小模型,提升了轻量化网络对复杂背景航拍图像中金具检测精度下降的问题;该发明切实可行,并取得了较好的精度提升效果,且所需训练时间缩短,无需人工参与,对相关问题的方案设计有一定的借鉴意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的实施例中的解耦知识蒸馏金具目标检测方法的流程图;
图2为本发明提供的实施例中的整体训练框图;
图3为本发明提供的实施例中的按照标准标注的数据集示意图;
图4为本发明提供的实施例中的解耦流程示意图;
图5为本发明提供的实施例中的前景目标区域共有特征评分示意图;
图6为本发明提供的实施例中的小模型单独训练结果示意图;
图7为本发明提供的实施例中的大模型单独训练结果示意图;
图8为本发明提供的实施例中的大模型使用本蒸馏方法指导小模型训练结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤、过程、方法等没有限定于已列出的步骤,而是可选地还包括没有列出的步骤,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤元。
本发明的目的是提供一种解耦知识蒸馏金具目标检测方法及***,能够显著地提高金具检测精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本实施例所述方法整体上是基于知识蒸馏技术,其中知识蒸馏技术是轻量化网络的有效算法之一,参数量大,性能优越的模型称为大模型(即本实施例中的第一模型),参数量小,性能较差的模型称为小模型(即本实施例中的第二模型)。知识蒸馏技术将大模型中有利知识迁移到小模型中可给小模型带来性能提升。由于金具航拍图像包含大量复杂背景,金具目标在完整的航拍图像中占比较小,且不同图像中占比也不同。将图像中前景目标和背景特征信息无差别的从大模型到小模型之间迁移并不会提高小模型的性能。
图1为本发明提供的实施例中的解耦知识蒸馏金具目标检测方法的流程图,如图1所示,本发明提供了一种解耦知识蒸馏金具目标检测方法,包括:
步骤100:分别根据数据集标注框在第一模型和第二模型对标注数据集进行解耦,对应得到第一前景目标区域、第一背景区域、第二前景目标区域和第二背景区域;所述标注数据集包括多张已标注的金具航拍图像;所述第一模型的参数量和性能均大于所述第二模型;
步骤200:根据所述第一前景目标区域确定金具的目标种类概率,并根据所述目标种类概率确定共有特征评分掩码;
步骤300:根据所述共有特征评分掩码、所述第一模型和所述第二模型在特征图金字塔网络的特征图分类得分图和预设卷积函数确定第一蒸馏损失函数;
步骤400:基于全局上下文模块,根据所述第一前景目标区域和所述第一背景区域确定的第一特征图以及所述第二前景目标区域和所述第二背景区域确定的第二特征图构建第二蒸馏损失函数;
步骤500:根据所述第一蒸馏损失函数和所述第二蒸馏损失函数确定总损失函数,并根据所述总损失函数对所述第二模型进行训练,得到训练好的第二模型;所述训练好的第二模型用于对待测金具图像进行目标检测。
图2为本发明提供的实施例中的整体训练框图,如图2所示,具体步骤如下:
步骤1,按照标准构建金具数据集,以此得到带有ground-truth框图像以及标注信息储存到xml文件中(如图3为数据集示例,其中图中的边界框为手动标注的ground-truth框,边界框包含的区域内为金具目标前景区域,其他区域为背景信息区域)。
步骤2,将金具目标以ground-truth框为边界解耦整幅图像,解耦出的金具前景目标区域和背景信息区域(如图4所示),图4的最右上角是解耦出的前景目标区域,将每个ground-truth框中的区域用于聚合金具之间的共有特征,将金具的特有特征信息迁移到小模型提升其目标检测的分类精度,右下角是背景信息区域,先分区域解耦蒸馏为了避免迁移冗余的背景信息。
步骤3,针对前景目标区域,大模型和小模型在特征图金字塔网络的每一层都对随机特征进行评分处理,在蒸馏过程中把大模型对金具的共有特征分类概率作为评分标准,即为大模型对特征的分类得分图(如图5所示,在前景目标区域,大模型小模型对随机特征进行评分,将大模型对金具共有特征用于分类的特征信息用于指导到模型。此为针对前景目标区域采用的主要蒸馏方法),以此提取分类特征知识用于指导小模型训练。
步骤4,金具安装位置特殊,背景区域中的输电线路特征信息是金具检测的有利提示之一,金具之间的位置信息、外观特征信息都对检测准确率有显著性的提示性作用。为了加强金具目标和背景信息的关联故采取GcBlock模块捕获某一金具目标和其他金具目标以及背景环境的之间的关系,有利于大模型将完整的信息用于指导小模型的训练,以提升小模型的精度。在语义上下文建模部分,采用1x1的卷积和softmax函数来获取注意力权重,然后通过矩阵相乘操作使注意力权重与原始输入尺寸为CxHxW的特征图产生影响,从而获得全局特征,本操作为了降低计算时的参数量。
步骤5,首先训练大网络,让训练好的大网络以本蒸馏方法指导小网络训练,提升性能可视化如图6、7、8所示。图6为小模型在没有经过指导时单独训练测试的结果,可以看出其对金具目标定位以及分类能力较差,图7为大模型单独训练测试结果,大模型的检测能力较好。图8为小模型经过大模型使用本发明方法指导后的检测结果,可以看出小模型的检测性能有了显著提升,甚至超过了大模型的性能。其中,图中检测目标名称分别为:shockproof hammer防震锤;bag-type suspension提包线夹clamp;hanging board挂板;adjusting board调整板;weight重锤。
优选地,所述步骤100具体包括:
构建标注数据集;所述标注数据集中包括带有ground-truth框的所述金具航拍图像以及标注信息;
基于所述标注数据集,将金具目标以所述ground-truth框为边界进行图像解耦;
设计二进制掩码,并根据所述二进制掩码控制特征图是否属于前景目标区域或背景区域。
具体的,本实施例首先将金具目标和背景解耦处理:
巡检时无人机拍摄角度多变,输电线路处于多变复杂的环境,为了安全起见,无人机拍摄要有一定的安全距离,导致拍摄图像中金具目标渺小,背景占比大。为了减少背景信息过多对目标定位和分类的不利影响,将金具目标和背景解耦区域蒸馏。以ground-truth框为边界来解耦成前景目标区域和背景区域,设计二进制掩码M来控制特征图属于前景目标区域或背景信息区域,设(i,j)表示模型的特征金字塔网络生成特征图的水平和垂直方向的坐标。若(i,j)处于ground-truth边界框内,便认定这个特征属于前景目标区域,设置掩码M(i,j)=1;若(i,j)不处于ground-truth边界框内,则判定为背景区域的特征图,令M(i,j)=0,式中G代表ground-truth框,如公式(1)所示:
Figure BDA0003811255270000091
优选地,所述二进制掩码的公式为:
Figure BDA0003811255270000101
其中,M(i,j)为所述二进制掩码,i为第一模型或第二模型的特征金字塔网络生成的特征图的水平方向的坐标,j为第一模型或第二模型的特征金字塔网络生成的特征图的垂直方向的坐标,G为所述ground-truth框。
优选地,所述步骤200具体包括:
基于所述第一前景目标区域,在水平和垂直方向分别为i和j的特征图内随机抽选特征;
根据第一公式确定所述目标种类概率;所述第一公式为:YS=M(i,j)P(S|f);其中,S代表金具的目标种类的类别数,f为所述特征;YS表示所述特征f是所述目标种类S的概率,M(i,j)用所述二进制掩码;
利用深度神经网络对所述目标种类概率进行建模,得到第二公式;所述第二公式为YS=M(i,j)P(S|f,θ);其中,θ表示为生成参数的模型;
基于所述第二公式,聚合所有类别的所述目标种类概率,得到共有特征评分;所述共有特征评分的公式为
Figure BDA0003811255270000102
其中,F′为所述共有特征评分;
根据所述共有特征评分确定共有特征评分掩码;所述共有特征评分掩码的公式为:
Figure BDA0003811255270000103
其中,F为所述共有特征评分掩码;s'作为样本来表示所有的金具对象S,s'∈[1,s]。
本实施例其次是对前景目标区域根据共有特征评分来蒸馏:
在水平和垂直方向分别为i,j的特征图内随机抽选特征f,这些特征是某个金具目标的可能性可以描述如公式(2)所示:
YS=M(i,j)P(S|f) (2)
S代表一个目标种类,YS表示特征f是目标种类S的概率,M(i,j)用来控制是否为前景目标区域。这样的条件概率可以由深度神经网络建模得到,θ表示为生成参数的模型如公式(3):
YS=M(i,j)P(S|f,θ) (3)
提出的共有特征评分概念定义为这些特征属于某个金具目标的概率,为了对所有类别的金具种类进行汇总,本方法聚合所有类别的概率来获得共有特征评分,在这里使用最大值来聚合,如公式(4)所示。
Figure BDA0003811255270000111
由于存在多种种类的金具对象,本发明以s代表数据集中金具的所有种类的类别数,令s'∈[1,s],s'作为样本来表示所有的金具对象S。故所有金具种类的共有特征评分用F作为掩码表示,如公式(5)所示:
Figure BDA0003811255270000112
在蒸馏过程中把大模型对金具的分类概率Ys' T作为共有特征评分标准,即为大模型对特征的分类得分图,认为已经训练过大模型的分类结果是指导小模型训练的分类标准。同时把已经训练过的大模型分类头对金具的分类结果θT来作为θ的具体生成参数的模型实例,fT是输入到大模型分类头的特征。以此来用大模型对特征的评分标准以掩码FT的形式指导小模型提取特征,如公式(6)所示。
Figure BDA0003811255270000113
金具目标尺度变化差异大,特征图金字塔网络被提出用来处理多尺度目标检测问题。浅层网络特征图具有高分辨率更适合检测小尺度目标,而深层网络特征图具有低分辨率更适合检测大尺度目标。为了完整的将大网络对金具目标分类知识用于指导小模型,应对特征图金字塔网络的每一层生成共有特征评分掩码来表示不同尺度和不同分辨率的对象的概率。本发明使用特征金字塔网络每一层的聚合分类得分图作为共有特征评分掩码,如公式(7)所示:
Figure BDA0003811255270000114
Fk是大模型的第k层特征图金字塔网络在通道C上的共有特征评分掩码,YkC T是大模型在第k层,通道数为C特征金字塔网络的分类得分图。故在前景目标区域大模型在特征图金字塔网络使用共有特征评分掩码指导小模型提取特征的蒸馏损失如公式(8)所示:
Figure BDA0003811255270000115
其中n表示特征图金字塔网络总的层数,k代表特征图金字塔的第k层,(i,j)表示特征图的位置,宽度为W,高度为H,l表示通道的总数,C表示相应的通道,
Figure BDA0003811255270000121
Fk(i,j)是在位置为(i,j)的共有特征评分掩码,fadap函数是使大模型和小模型通道相适应的卷积函数,FT kC(i,j)和FS kC(i,j)分别为大模型和小模型在特征图金字塔网络相应层,相应通道,同一位置特征图分类得分图。以此损失函数来使小模型学习大模型的分类能力。
优选地,所述步骤300具体包括:
根据所述共有特征评分掩码确定评分标准掩码;所述评分标准掩码的公式为:
Figure BDA0003811255270000122
其中,FT为所述评分标准掩码,Ys' T为所述第一模型的分类得分图,θT为所述第一模型分类头对金具的分类结果,,fT为输入到所述第一模型分类头的特征;
利用所述特征金字塔网络每一层的聚合分类得分图作为共有特征评分掩码;所述共有特征评分掩码的公式为:
Figure BDA0003811255270000123
其中,Fk为所述第一模型的第k层特征图金字塔网络在通道C上的共有特征评分掩码,YkC T为所述第一模型在第k层,通道数为C特征金字塔网络的分类得分图;
根据所述预设卷积函数、所述共有特征评分掩码和所述评分标准掩码确定所述第一蒸馏损失函数;所述第一蒸馏损失函数的公式为:
Figure BDA0003811255270000124
其中,Lfront为所述第一蒸馏损失函数,n表示特征图金字塔网络总的层数,k代表特征图金字塔的第k层,(i,j)表示特征图的位置,宽度为W,高度为H,l表示通道的总数,C表示相应的通道,
Figure BDA0003811255270000125
为在位置为(i,j)的共有特征评分掩码,Nk为所有特征图共有特征评分掩码的总和,fadap函数为使所述第一模型和所述第二模型通道相适应的所述预设卷积函数,FT kC(i,j)和FS kC(i,j)分别为所述第一模型和所述第二模型在特征图金字塔网络相应层,相应通道,同一位置特征图分类得分图。
优选地,所述第二蒸馏损失函数的公式为:
Lrela=μ∑(R(FT)-R(FS))2
其中,Lrela为所述第二蒸馏损失函数,μ为平衡损失函数的超参数,FT,FS分别为所述第一模型和所述第二模型生成的特征图,R为不同模型对某一金具目标捕获的金具目标和背景区域的关系信息,R的公式为:
Figure BDA0003811255270000131
其中Wv1,Wv2,Wk分别为第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵,Fi为输入实例的特征图,
Figure BDA0003811255270000132
是全局注意力池化的权重,LN表示归一化处理,Np为特征层的位置数目,Np=H·W,e为自然常数,FM是为所述第一前景目标区域的生成的特征图;Fj为图像中任意提取特征,δ(·)=Wv2Relu(LN(Wv1)(·))表示捕获通道依赖关系的特征变换。
优选地,所述总损失函数的公式为:
L=αLfront+βLrela
其中,L为所述总损失函数,α为第一系数,β为第二系数。
本实施例最后加强整幅图像的联系,蒸馏目标和背景之间的关系:
本实施例把目光集中到金具目标检测的最主要区域。但是输电线路上的金具安装位置固定,周围环境信息对提高金具安装位置的了解具有显著性的作用。不同像素、目标之间具有重要的关系,如果只是迁移前景目标区域的特征知识,便割裂了金具目标和背景之间的关系。大模型用于指导得知识不够完整,使得小模型丧失对整幅图像的感知能力,只将前景目标特征知识迁移的指导方法没有把整幅图像知识充分的迁移到小模型,小模型由于学习不到***性完整性的知识,使得性能达不到最优。采用GcBlock(GlobalContextBlock)全局语义建模模块捕获图像金具于金具之间、金具与背景信息之间的关系。促使小模型学习大模型对关系信息的感知能力。整体图像关系蒸馏损失的表示如公式(10)所示:
Lrela=μ∑(R(FT)-R(FS))2 (9)
式中的μ为平衡损失函数的超参数,FT,FS分别为大模型和小模型生成的特征图,R函数为不同模型对某一金具目标捕获的金具目标和背景区域的关系信息,具体如公式(11)所示:
Figure BDA0003811255270000141
其中Wv1,Wv2,Wk表示不同的线性变换矩阵,Fi作为一个输入实例的特征图,
Figure BDA0003811255270000142
是全局注意力池化的权重,LN表示归一化处理,Np为特征层的位置数目,对图像来说Np=H·W,e为自然常数,FM是前景区域的生成的特征图;Fj是图像中任意提取特征,δ(·)=Wv2Relu(LN(Wv1)(·))表示捕获通道依赖关系的特征变换。GcBlock模块包括用于上下文建模的全局注意力池化操作和瓶颈转换以捕获通道的相关性。
故基于共有特征评分的解耦知识蒸馏金具目标检测方法采用公式(12)总的损失函数对小模型进行知识蒸馏:
L=αLfront+βLrela (11)
大模型只在特征图上对小模型进行知识蒸馏,故可以应用于多种目标检测网络,将多种用于金具目标检测的模型轻量化。
对应上述方法,本实施例还提供了一种解耦知识蒸馏金具目标检测***,包括:
解耦模块,用于分别根据数据集标注框在第一模型和第二模型对标注数据集进行解耦,对应得到第一前景目标区域、第一背景区域、第二前景目标区域和第二背景区域;所述标注数据集包括多张已标注的金具航拍图像;所述第一模型的参数量和性能均大于所述第二模型;
评分模块,用于根据所述第一前景目标区域和所述第一背景区域确定金具的目标种类概率,并根据所述目标种类概率确定共有特征评分掩码;
第一蒸馏模块,用于根据所述共有特征评分掩码、所述第一模型和所述第二模型在特征图金字塔网络的特征图分类得分图和预设卷积函数确定第一蒸馏损失函数;
第二蒸馏模块,用于基于全局上下文模块,根据所述第一前景目标区域和所述第一背景区域确定的第一特征图以及所述第二前景目标区域和所述第二背景区域确定的第二特征图构建第二蒸馏损失函数;
总损失函数确定模块,用于根据所述第一蒸馏损失函数和所述第二蒸馏损失函数确定总损失函数,并根据所述总损失函数对所述第二模型进行训练,得到训练好的第二模型;所述训练好的第二模型用于对待测金具图像进行目标检测。
本发明的有益效果如下:
本发明首先根据标注数据集时标注的ground-truth(真实的有效值)框为边界解耦金具前景目标区域和背景区域;针对前景目标区域,对特征图金字塔网络每一层的特征信息进行分类评分,聚合所有类别的分类分数作为共有特征评分掩码,掩码代表的特征信息是大模型指导小模型的主要迁移知识;单纯只在前景目标区域进行知识蒸馏割裂了图像的整体性,对背景信息采取关系模块来捕捉目标与其他目标,以及和背景之前关系来获得利于目标检测的提示性信息,以此达到对每幅图像完整信息迁移的目的,提高小模型的检测精度。本发明充分利用了不同种类金具的共有形状特征,采用解耦知识蒸馏方法,针对前景目标区域,将属于金具之间独特的共有特征用于目标分类的信息整合起来迁移到小模型,提升了轻量化网络对复杂背景航拍图像中金具检测精度下降的问题;本发明切实可行,并取得了较好的精度提升效果,且所需训练时间缩短,无需人工参与,对相关问题的方案设计有一定的借鉴意义。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种解耦知识蒸馏金具目标检测方法,其特征在于,包括:
分别根据数据集标注框在第一模型和第二模型对标注数据集进行解耦,对应得到第一前景目标区域、第一背景区域、第二前景目标区域和第二背景区域;所述标注数据集包括多张已标注的金具航拍图像;所述第一模型的参数量和性能均大于所述第二模型;
根据所述第一前景目标区域和所述第一背景区域确定金具的目标种类概率,并根据所述目标种类概率确定共有特征评分掩码;
根据所述共有特征评分掩码、所述第一模型和所述第二模型在特征图金字塔网络的特征图分类得分图和预设卷积函数确定第一蒸馏损失函数;
基于全局上下文模块,根据所述第一前景目标区域和所述第一背景区域确定的第一特征图以及所述第二前景目标区域和所述第二背景区域确定的第二特征图构建第二蒸馏损失函数;
根据所述第一蒸馏损失函数和所述第二蒸馏损失函数确定总损失函数,并根据所述总损失函数对所述第二模型进行训练,得到训练好的第二模型;所述训练好的第二模型用于对待测金具图像进行目标检测。
2.根据权利要求1所述的解耦知识蒸馏金具目标检测方法,其特征在于,所述分别根据第一模型和第二模型对获取到的标注数据集进行解耦,对应得到第一前景目标区域、第一背景区域、第二前景目标区域和第二背景区域,包括:
构建标注数据集;所述标注数据集中包括带有ground-truth框的所述金具航拍图像以及标注信息;
基于所述标注数据集,将金具目标以所述ground-truth框为边界进行图像解耦;
设计二进制掩码,并根据所述二进制掩码控制特征图是否属于前景目标区域或背景区域。
3.根据权利要求2所述的解耦知识蒸馏金具目标检测方法,其特征在于,所述二进制掩码的公式为:
Figure FDA0003811255260000021
其中,M(i,j)为所述二进制掩码,i为第一模型或第二模型的特征金字塔网络生成的特征图的水平方向的坐标,j为第一模型或第二模型的特征金字塔网络生成的特征图的垂直方向的坐标,G为所述ground-truth框。
4.根据权利要求3所述的解耦知识蒸馏金具目标检测方法,其特征在于,根据所述第一前景目标区域和所述第一背景区域确定金具的目标种类概率,并根据所述目标种类概率确定共有特征评分掩码,包括:
基于所述第一前景目标区域,在水平和垂直方向分别为i和j的特征图内随机抽选特征;
根据第一公式确定所述目标种类概率;所述第一公式为:YS=M(i,j)P(S|f);其中,S代表金具的目标种类的类别数,f为所述特征;YS表示所述特征f是所述目标种类S的概率,M(i,j)用所述二进制掩码;
利用深度神经网络对所述目标种类概率进行建模,得到第二公式;所述第二公式为YS=M(i,j)P(S|f,θ);其中,θ表示为生成参数的模型;
基于所述第二公式,聚合所有类别的所述目标种类概率,得到共有特征评分;所述共有特征评分的公式为
Figure FDA0003811255260000022
其中,F′为所述共有特征评分;
根据所述共有特征评分确定共有特征评分掩码;所述共有特征评分掩码的公式为:
Figure FDA0003811255260000023
其中,F为所述共有特征评分掩码;s'作为样本来表示所有的金具对象S,s'∈[1,s]。
5.根据权利要求4所述的解耦知识蒸馏金具目标检测方法,其特征在于,所述根据所述共有特征评分掩码、所述第一模型和所述第二模型在特征图金字塔网络的特征图分类得分图和预设卷积函数确定第一蒸馏损失函数,包括:
根据所述共有特征评分掩码确定评分标准掩码;所述评分标准掩码的公式为:
Figure FDA0003811255260000024
其中,FT为所述评分标准掩码,Ys' T为所述第一模型的分类得分图,θT为所述第一模型分类头对金具的分类结果,,fT为输入到所述第一模型分类头的特征;
利用所述特征金字塔网络每一层的聚合分类得分图作为共有特征评分掩码;所述共有特征评分掩码的公式为:
Figure FDA0003811255260000031
其中,Fk为所述第一模型的第k层特征图金字塔网络在通道C上的共有特征评分掩码,YkC T为所述第一模型在第k层,通道数为C特征金字塔网络的分类得分图;
根据所述预设卷积函数、所述共有特征评分掩码和所述评分标准掩码确定所述第一蒸馏损失函数;所述第一蒸馏损失函数的公式为:
Figure FDA0003811255260000032
其中,Lfront为所述第一蒸馏损失函数,n表示特征图金字塔网络总的层数,k代表特征图金字塔的第k层,(i,j)表示特征图的位置,宽度为W,高度为H,l表示通道的总数,C表示相应的通道,
Figure FDA0003811255260000033
Fk(i,j)为在位置为(i,j)的共有特征评分掩码,Nk为所有特征图共有特征评分掩码的总和,fadap函数为使所述第一模型和所述第二模型通道相适应的所述预设卷积函数,FT kC(i,j)和FS kC(i,j)分别为所述第一模型和所述第二模型在特征图金字塔网络相应层,相应通道,同一位置特征图分类得分图。
6.根据权利要求5所述的解耦知识蒸馏金具目标检测方法,其特征在于,所述第二蒸馏损失函数的公式为:
Lrela=μ∑(R(FT)-R(FS))2
其中,Lrela为所述第二蒸馏损失函数,μ为平衡损失函数的超参数,FT,FS分别为所述第一模型和所述第二模型生成的特征图,R为不同模型对某一金具目标捕获的金具目标和背景区域的关系信息,R的公式为:
Figure FDA0003811255260000034
其中Wv1,Wv2,Wk分别为第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵,Fi为输入实例的特征图,
Figure FDA0003811255260000035
是全局注意力池化的权重,LN表示归一化处理,Np为特征层的位置数目,Np=H·W,e为自然常数,FM是为所述第一前景目标区域的生成的特征图;Fj为图像中任意提取特征,δ(·)=Wv2Relu(LN(Wv1)(·))表示捕获通道依赖关系的特征变换。
7.根据权利要求6所述的解耦知识蒸馏金具目标检测方法,其特征在于,所述总损失函数的公式为:
L=αLfront+βLrela
其中,L为所述总损失函数,α为第一系数,β为第二系数。
8.一种解耦知识蒸馏金具目标检测***,其特征在于,包括:
解耦模块,用于分别根据数据集标注框在第一模型和第二模型对标注数据集进行解耦,对应得到第一前景目标区域、第一背景区域、第二前景目标区域和第二背景区域;所述标注数据集包括多张已标注的金具航拍图像;所述第一模型的参数量和性能均大于所述第二模型;
评分模块,用于根据所述第一前景目标区域和所述第一背景区域确定金具的目标种类概率,并根据所述目标种类概率确定共有特征评分掩码;
第一蒸馏模块,用于根据所述共有特征评分掩码、所述第一模型和所述第二模型在特征图金字塔网络的特征图分类得分图和预设卷积函数确定第一蒸馏损失函数;
第二蒸馏模块,用于基于全局上下文模块,根据所述第一前景目标区域和所述第一背景区域确定的第一特征图以及所述第二前景目标区域和所述第二背景区域确定的第二特征图构建第二蒸馏损失函数;
总损失函数确定模块,用于根据所述第一蒸馏损失函数和所述第二蒸馏损失函数确定总损失函数,并根据所述总损失函数对所述第二模型进行训练,得到训练好的第二模型;所述训练好的第二模型用于对待测金具图像进行目标检测。
CN202211012822.2A 2022-08-23 2022-08-23 一种解耦知识蒸馏金具目标检测方法及*** Pending CN115359295A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211012822.2A CN115359295A (zh) 2022-08-23 2022-08-23 一种解耦知识蒸馏金具目标检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211012822.2A CN115359295A (zh) 2022-08-23 2022-08-23 一种解耦知识蒸馏金具目标检测方法及***

Publications (1)

Publication Number Publication Date
CN115359295A true CN115359295A (zh) 2022-11-18

Family

ID=84001698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211012822.2A Pending CN115359295A (zh) 2022-08-23 2022-08-23 一种解耦知识蒸馏金具目标检测方法及***

Country Status (1)

Country Link
CN (1) CN115359295A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965609A (zh) * 2023-01-03 2023-04-14 江南大学 利用知识蒸馏的陶瓷基板瑕疵智能检测方法
CN116778277A (zh) * 2023-07-20 2023-09-19 湖南大学无锡智能控制研究院 基于渐进式信息解耦的跨域模型训练方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965609A (zh) * 2023-01-03 2023-04-14 江南大学 利用知识蒸馏的陶瓷基板瑕疵智能检测方法
CN115965609B (zh) * 2023-01-03 2023-08-04 江南大学 利用知识蒸馏的陶瓷基板瑕疵智能检测方法
CN116778277A (zh) * 2023-07-20 2023-09-19 湖南大学无锡智能控制研究院 基于渐进式信息解耦的跨域模型训练方法
CN116778277B (zh) * 2023-07-20 2024-03-01 湖南大学无锡智能控制研究院 基于渐进式信息解耦的跨域模型训练方法

Similar Documents

Publication Publication Date Title
CN112199993B (zh) 基于人工智能识别任意方向变电站绝缘子红外图像检测模型的方法
CN109118479B (zh) 基于胶囊网络的绝缘子缺陷识别定位装置及方法
CN115359295A (zh) 一种解耦知识蒸馏金具目标检测方法及***
CN107423760A (zh) 基于预分割和回归的深度学习目标检测方法
CN114693661A (zh) 一种基于深度学习的快速分拣方法
CN111914642A (zh) 一种行人重识别方法、装置、设备及介质
CN113313703A (zh) 基于深度学习图像识别的无人机输电线巡检方法
CN110472652A (zh) 基于语义引导的少量样本分类方法
CN108133235A (zh) 一种基于神经网络多尺度特征图的行人检测方法
CN116206112A (zh) 基于多尺度特征融合和sam的遥感图像语义分割方法
CN113205507A (zh) 一种视觉问答方法、***及服务器
CN111882554A (zh) 一种基于SK-YOLOv3的电力线故障智能检测方法
CN112084860A (zh) 目标对象检测、火力发电厂检测方法和装置
CN115546553A (zh) 一种基于动态特征抽取和属性修正的零样本分类方法
CN111241905A (zh) 基于改进ssd算法的输电线路鸟窝检测方法
CN109919215B (zh) 基于聚类算法改进特征金字塔网络的目标检测方法
CN111539456A (zh) 一种目标识别方法及设备
CN112329830B (zh) 一种基于卷积神经网络和迁移学习的无源定位轨迹数据识别方法及***
CN114037895A (zh) 一种无人机杆塔巡检图像识别方法
CN116843691A (zh) 光伏板热斑检测方法及存储介质、电子设备
CN116580326A (zh) 一种航空环境安全风险防控检测及预警***
CN117058476A (zh) 一种基于随机不确定性的目标检测方法
CN115953371A (zh) 一种绝缘子缺陷检测方法、装置、设备和存储介质
CN114111647A (zh) 一种基于人工智能的绝缘子伞裙破损面积测量方法及测量***
CN115170970B (zh) 一种用于检测城市街道景观破损的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination