CN116912290B - 一种记忆增强的难易视频运动小目标检测方法 - Google Patents

一种记忆增强的难易视频运动小目标检测方法 Download PDF

Info

Publication number
CN116912290B
CN116912290B CN202311160411.2A CN202311160411A CN116912290B CN 116912290 B CN116912290 B CN 116912290B CN 202311160411 A CN202311160411 A CN 202311160411A CN 116912290 B CN116912290 B CN 116912290B
Authority
CN
China
Prior art keywords
video
target
feature
global
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311160411.2A
Other languages
English (en)
Other versions
CN116912290A (zh
Inventor
华泽玺
孙自伟
庞艳杰
张利生
刘柏麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Durui Sensing Technology Co ltd
Original Assignee
Sichuan Durui Sensing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Durui Sensing Technology Co ltd filed Critical Sichuan Durui Sensing Technology Co ltd
Priority to CN202311160411.2A priority Critical patent/CN116912290B/zh
Publication of CN116912290A publication Critical patent/CN116912290A/zh
Application granted granted Critical
Publication of CN116912290B publication Critical patent/CN116912290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种记忆增强的难易视频运动小目标检测方法,包括步骤:构建难易视频运动小目标检测模型,包括局部邻域特征聚合模块、全局记忆增强特征聚合模块、特征检测模块;提取视频中连续数帧图像输入局部邻域特征聚合模块,对难易视频运动小目标检测模型进行提取局部特征的训练;将相同连续数帧图像输入全局记忆增强特征聚合模块,对难易视频运动小目标检测模型进行感知全局信息的训练;顺序提取视频中连续数帧图像,重复对局部邻域特征聚合模块、全局记忆增强特征聚合模块进行交叉迭代训练,直到多个视频中所有帧图像都被提取完,得到训练好的难易视频运动小目标检测模型。本发明利用运动小目标的局部特征和全局信息,来提升模型的检测性能。

Description

一种记忆增强的难易视频运动小目标检测方法
技术领域
本发明涉及图像处理技术领域,特别涉及一种记忆增强的难易视频运动小目标检测方法。
背景技术
人类观察视频图像中的运动小目标时,比如视频图像中的飞鸟,距离摄像机较近且飞行缓慢时,较为清晰,容易识别;距离摄像机较远、或背景复杂、或飞行较快时,不容易识别。目前识别运动小目标的方法主要有三种类型:第一类,聚合局部相邻帧的特征来检测运动小目标,此类方法无法检测较长时间困难的目标;第二类,聚合全局信息来检测运动小目标,此类方法没有充分利用局部相邻帧的信息;第三类,同时利用局部相邻帧的特征和全局信息来检测运动小目标,此类方法忽略了目标的难易程度,统一将目标作为困难目标处理,不符合实际情况。
发明内容
本发明的目的在于充分利用运动小目标的局部特征和全局信息,同时引入全局信息来改变运动小目标的难度等级,以此来提升局部相邻特征的聚合能力、提升全局信息的获取能力,从而促进模型的检测性能,提供一种记忆增强的难易视频运动小目标检测方法。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种记忆增强的难易视频运动小目标检测方法,包括以下步骤:
步骤1,构建难易视频运动小目标检测模型,所述难易视频运动小目标检测模型包括局部邻域特征聚合模块、全局记忆增强特征聚合模块、特征检测模块,所述局部邻域特征聚合模块的输出端、全局记忆增强特征聚合模块的输出端分别与特征检测模块的输入端连接;
步骤2,提取视频中连续数帧图像输入局部邻域特征聚合模块,对难易视频运动小目标检测模型进行提取局部特征的训练;
步骤3,将步骤2中相同连续数帧图像输入全局记忆增强特征聚合模块,对难易视频运动小目标检测模型进行感知全局信息的训练;
步骤4,顺序提取视频中连续数帧图像,重复步骤2-步骤3,直到多个视频中所有帧图像都被提取完,得到训练好的难易视频运动小目标检测模型;
步骤5,将实时获取的视频图像输入训练好的难易视频运动小目标检测模型,经过难易视频运动小目标检测模型的全局记忆增强特征聚合模块进行特征聚合后,检测出视频图像中的目标。
在上述方案中,特征聚合方式由局部邻域特征聚合模块和全局记忆增强特征聚合模块交叉迭代进行;当聚合方式采用局部邻域特征聚合模块执行时,目标的难度等级不变,当聚合方式采用全局记忆增强特征聚合模块执行时,目标的难度等级相应减小,以此来提高局部特征和全局特征的聚合能力,提高对运动小目标的检测性能。
所述全局记忆增强特征聚合模块中包括全局特征存储队列,所述全局特征存储队列用于存储并更新每轮迭代全局记忆增强特征聚合模块生成的全局聚合特征。
在上述方案中,增加全局特征存储队列存入全局聚合特征,在下一次迭代时,全局记忆增强特征聚合模块不仅要输入与局部邻域特征聚合模块相同帧的图像,还要输入全局特征存储队列中的特征图,以此来实现全局记忆增强特征聚合模块能够聚合所有历史视频帧特征的能力。
在所述步骤2之前,还包括步骤:将目标的难度等级分为n+1个难度等级,分别为难度等级0、难度等级1、...、难度等级n,其中难度等级0为最容易识别的难度等级,难度等级n为最难识别的难度等级。
在上述方案中,对目标划分难度等级,将难度等级作为目标的标签,使得在训练模型时,让模型具备感知目标难易程度的能力。
所述步骤2具体包括以下步骤:
随机从数据集中选取一个视频片段,对每帧图像中目标的分数进行标注,形成每帧图像对应的标签,依据标签中目标的分数,对目标进行难度等级的划分,一共有n+1个难度等级;
顺序地从该视频片段中取出m帧图像,将取出的m帧图像和对应的标签输入局部邻域特征聚合模块,得到局部聚合特征;将局部聚合特征输入特征提取网络,经过前向推理,再经检测头预测,输出难易视频运动小目标检测模型的输出结果;
在训练过程中,利用置信度损失函数、类别分类损失函数以及定位回归损失函数计算视频运动小目标难易感知模型与对应标签之间的损失;使用目标的分数对每个目标所对应的损失进行加权,损失反向传播更新视频运动小目标难易感知模型的权重。
所述步骤3具体包括以下步骤:
对步骤2中所使用的m帧图像中目标的分数进行调整,使得除了难度等级为0的目标外,目标对应的难度等级减1;
将m帧图像和全局特征存储队列中的多帧特征图输入全局记忆增强特征聚合模块,得到全局聚合特征;将全局聚合特征输入特征提取网络,经过前向推理,再经检测头预测,输出难易视频运动小目标检测模型的输出结果;
将全局聚合特征存入全局特征存储队列,使得全局特征存储队列中的特征图更新,但特征图的帧数不变;
在训练过程中,利用置信度损失函数、类别分类损失函数以及定位回归损失函数计算视频运动小目标难易感知模型与对应标签之间的损失;使用目标的分数对每个目标所对应的损失进行加权,损失反向传播更新视频运动小目标难易感知模型的权重。
所述步骤4具体包括以下步骤:
顺序提取视频片段中m帧图像,返回步骤2先对局部邻域特征聚合模块进行训练,步骤3再对全局记忆增强特征聚合模块进行训练,直到提取了视频片段中最后m帧图像;
提取了多个视频片段中的图像进行训练后,完成对难易视频运动小目标检测模型的训练;或者是,待训练一定步长或损失收敛到期望值后,固定权重得到训练好的难易视频运动小目标检测模型。
在上述方案中,比如第1次迭代输入局部邻域特征聚合模块的图像为第1帧到第m帧,则第2次迭代输入局部邻域特征聚合模块的图像即为第2帧到第m帧,以此类推,顺序地提取视频片段中m帧图像对模型进行训练。
与现有技术相比,本发明的有益效果:
本发明难易视频运动小目标检测模型设计了两种特征聚合模块,分别为局部邻域特征聚合模块、全局记忆增强特征聚合模块,其中局部邻域特征聚合模块聚合连续多帧图像的特征,全局记忆增强特征聚合模块可以聚合所有历史视频图像帧的特征,获取全局信息;经过训练后,难易视频运动小目标检测模型能够检测难易程度不同的运动小目标。
本发明开发了增强记忆的模型训练方法,使用含有目标分数标签的数据集对模型进行训练,训练时,特征聚合方式由局部邻域特征聚合模块和全局记忆增强特征聚合模块交叉迭代进行;当聚合方式采用局部邻域特征聚合模块执行时,目标的难度等级不变,当聚合方式采用全局记忆增强特征聚合模块执行时,目标的难度等级相应减小,以此来提高局部特征和全局特征的聚合能力,提高对运动小目标的检测性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明难易视频运动小目标检测模型的训练示意图;
图2为本发明实施例局部邻域特征聚合模块的概要示意图;
图3为本发明实施例全局记忆增强特征聚合模块的概要示意图;
图4为本发明实施例特征聚合模块的特征聚合方式示意图;
图5为本发明实施例难易视频运动小目标检测模型的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性,或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。另外,术语“相连”、“连接”等可以是元件之间直接相连,也可以是经由其他元件的间接相连。
实施例1:
本发明通过下述技术方案实现,如图1所示,一种记忆增强的难易视频运动小目标检测方法,包括以下步骤:
步骤1,构建难易视频运动小目标检测模型,所述难易视频运动小目标检测模型包括局部邻域特征聚合模块、全局记忆增强特征聚合模块、特征检测模块,所述局部邻域特征聚合模块的输出端、全局记忆增强特征聚合模块的输出端分别与特征检测模块的输入端连接。
请参见图1,所述特征检测模块包括特征提取网络、检测头,所述局部邻域特征聚合模块的输出端、全局记忆增强特征聚合模块的输出端分别与特征提取网络的输入端连接,特征提取网络的输出端与检测头的输入端连接。
所述局部邻域特征聚合模块用于对连续多帧图像的局部特征进行聚合。所述全局记忆增强特征聚合模块在局部邻域特征聚合模块的基础上,增加全局特征存储队列L来存储全局特征信息,全局特征信息参与特征的聚合,聚合后的特征用于难易程度不同的目标的检测,同时更新全局特征存储队列L,因此全局记忆增强特征聚合模块用于综合局部特征和全局信息。
所述特征提取网络用于对特征聚合后的目标进行高级抽象特征提取,特征聚合模块(包括局部邻域特征聚合模块、全局记忆增强特征聚合模块)在特征提取网络之前,用于对连续多帧图像进行特征聚合。由于存在某些运动小目标在单帧图像上的特征不明显,如果先进行特征提取,再进行特征聚合,可能会导致特征丢失的问题,因此本方案提出使用特征聚合模块在特征提取之前,对连续多帧图像进行特征聚合,能够避免运动小目标因特征不明显而被丢失的问题。请参见图4,特征聚合模块基于自注意力的特征聚合方式,对输入的连续多帧图像进行拼接。
所述检测头使用目标的高级抽象特征预测目标的类别和位置信息。
步骤2,提取视频中连续数帧图像输入局部邻域特征聚合模块,对难易视频运动小目标检测模型进行提取局部特征的训练。
确定目标的难度等级级数为n+1,依次为难度等级0、难度等级1、...、难度等级n。其中,难度等级为0的目标是最易识别的目标,难度等级为n的目标是最难识别的目标。确定视频图像中目标的分数,形成图像的标签,标签中应具有目标的分数、由分数划分的难度等级、目标的类别、位置。
由分数划分目标的难度等级的原理为,如分数位于的目标难度等级为0,以此类推,分数位于/>的目标难度等级为n-1,分数为0的目标难度等级为n,可理解为目标与背景完全相似而不可见。
随机从数据集中选取一个视频片段,假设该视频片段有M帧图像,顺序地从该视频片段中取出m帧图像及其对应的标签输入所述局部邻域特征聚合模块,对难易视频运动小目标检测模型进行训练。其中m小于M,首次取出第1帧到第m帧输入局部邻域特征聚合模块,使得难易视频运动小目标检测模型学习连续帧图像中目标的局部特征,从而具备感知目标难易程度的能力。
在训练时,将难度等级为n的目标视为负样本,将连续m帧图像输入局部邻域特征聚合模块,得到局部聚合特征;将局部聚合特征输入特征提取网络,经过前向推理,再经检测头预测,输出难易视频运动小目标检测模型的输出结果。训练过程中,利用置信度损失函数、类别分类损失函数、定位回归损失函数计算难易视频运动小目标检测模型的输出结果与标签之间的损失;同时使用目标的分数对目标对应的损失进行加权,防止较为困难的目标对训练过程造成影响;最后利用梯度下降优化算法使损失反向传播更新难易视频运动小目标检测模型的权重。至此完成第1帧到第m帧图像对难易视频运动小目标检测模型获取局部信息的训练。
步骤3,将步骤2中相同连续数帧图像输入全局记忆增强特征聚合模块,对难易视频运动小目标检测模型进行感知全局信息的训练。
对步骤2中所使用的第1帧到第m帧图像中目标的分数进行调整,使得除了难度等级为0的目标外,目标对应的难度等级减1,即,原本难度等级为0的目标,其难度等级还是为0;原本难度等级为1的目标,其难度等级调整为0;原本难度等级为2的目标,其难度等级调整为1;以此类推,原本难度等级为n的目标,其难度等级调整为n-1,且在本步骤中视为正样本。
将第1帧到第m帧的图像,以及全局特征存储队列L中的多帧(比如3帧)图像一同输入全局记忆增强特征聚合模块,经过拼接后再聚合得到全局聚合特征;将全局聚合特征输入特征提取网络,经过前向推理,再经检测头预测,输出难易视频运动小目标检测模型的输出结果,使难易视频运动小目标检测模型学习连续帧图像中目标的局部信息,从而具备感知目标难易程度的能力。
在训练过程中,利用置信度损失函数、类别分类损失函数、定位回归损失函数计算难易视频运动小目标检测模型的输出结果与标签之间的损失;同时使用目标的分数对目标对应的损失进行加权,防止较为困难的目标对训练过程造成影响;最后利用梯度下降优化算法使损失反向传播更新难易视频运动小目标检测模型的权重。至此完成第1帧到第m帧图像以及3帧全局特征存储队列L中的图像对难易视频运动小目标检测模型获取全局信息的训练。
最后,第1帧到第m帧图像经过特征聚合后,再经卷积层处理生成的聚合特征存入所述全局特征存储队列L中,以更新全局特征存储队列L中的特征图。
步骤4,顺序提取视频中连续数帧图像,重复步骤2-步骤3,直到多个视频中所有帧图像都被提取完,得到训练好的难易视频运动小目标检测模型。
在第1轮训练时,前述步骤2、步骤3提取的是视频中第1帧到第m帧的图像作为特征聚合模块的输入,先对局部邻域特征聚合模块进行训练,再对全局记忆增强特征聚合模块进行训练。此时全局特征存储队列L中的特征是3帧初始特征,如F1、F2、F3,将第1帧到第m帧的图像以及初始特征F1、F2、F3输入全局记忆增强特征聚合模块后,再经卷积层生成的聚合特征F4,将聚合特征F4存入全局特征存储队列L中,使得全局特征存储队列L中的3帧特征由F1、F2、F3更新为F2、F3、F4。
接着,进行第2轮训练,返回步骤2提取视频中第2帧到第m+1帧的图像作为特征聚合模块的输入,先对局部邻域特征聚合模块进行训练,步骤3再对全局记忆增强特征聚合模块进行训练。将第2帧到第m+1帧的图像以及F2、F3、F4输入全局记忆增强特征聚合模块后,再经卷积层生成的聚合特征F5,将聚合特征F5存入全局特征存储队列L中,使得全局特征存储队列L中的3帧特征由F2、F3、F4更新为F3、F4、F5。
接着,再进行第3轮训练,返回步骤2提取视频中第3帧到第m+2帧的图像作为特征聚合模块的输入,先对局部邻域特征聚合模块进行训练,步骤3再对全局记忆增强特征聚合模块进行训练。将第3帧到第m+2帧的图像以及F3、F4、F5输入全局记忆增强特征聚合模块后,再经卷积层生成的聚合特征F6,将聚合特征F6存入全局特征存储队列L中,使得全局特征存储队列L中的3帧特征由F3、F4、F5更新为F4、F5、F6。
容易理解地,以此类推,直到返回步骤2提取了视频中第M-m+1帧到第M帧的图像作为特征聚合模块的输入,执行完步骤2、步骤3后,可以使用数据集中的多个视频片段,完成对难易视频运动小目标检测模型的训练。或者是,待训练一定步长或损失收敛到期望值后,固定权重得到训练好的难易视频运动小目标检测模型。可见,在交替对局部邻域特征聚合模块、全局记忆增强特征聚合模块进行训练时,两者的权重在特征检测模块中共享。
需要说明的是,所述全局特征存储队列L中存储的帧数不一定为3,仅是本实施例为便于理解,假设全局特征存储队列L中存储了3帧特征图。M可以尽可能的大于m,这样能使难易视频运动小目标检测模型感知目标难易程度的能力更强。
步骤5,将实时获取的视频图像输入训练好的难易视频运动小目标检测模型,经过难易视频运动小目标检测模型的全局记忆增强特征聚合模块进行特征聚合后,检测出视频图像中的目标。
步骤2、步骤3为对难易视频运动小目标检测模型的训练阶段,本步骤为检测阶段,将实时获取的视频图像(包含连续多帧图像)输入训练好的难易视频运动小目标检测模型,经由全局记忆增强特征聚合模块进行特征聚合,再经特征提取网络提取特征,以及检测头预测,输出视频图像中的目标,以及目标的类别和位置。
综上所述,本发明使用相同连续数帧的图像分别作为局部邻域特征聚合模块、全局记忆增强特征聚合模块的输入,对难易视频运动小目标检测模型进行训练,使得难易视频运动小目标检测模型基于局部特征和全局特征聚合相结合的方式,加强模型对目标的局部特征和全局信息的获取能力,提高模型的检测性能以及目标的检出率,降低误检率。
实施例2:
本实施例在上述实施例1的基础上给出可实施的参数具体化,在本实施例中,难度等级级数n+1取4(即n=3),连续帧数m取5,视频片段总帧数M取20,全局特征存储队列L中存入的特征图帧数取3。局部邻域特征聚合模块的结构示意图如图2所示,全局记忆增强特征聚合模块的结构示意图如图3所示。
构建的难易视频运动小目标检测模型包括特征聚合模块、特征检测模块,所述特征聚合模块包括局部邻域特征聚合模块、全局记忆增强特征聚合模块,所述特征检测模块包括特征提取网络、检测头,所述局部邻域特征聚合模块的输出端、全局记忆增强特征聚合模块的输出端分别与特征提取网络的输入端连接,特征提取网络的输出端与检测头的输入端连接。
请参见图5,特征提取网络采用主流的特征提取网络,如DarkNet53连接U型网络的结构,在上采样时,卷积特征层与同尺度下采样特征层在通道维度进行拼接操作,以充分融合浅层定位信息和高层语义信息。检测头预测目标的置信度、类别、位置。
为实施训练方法,数据集标签需要有类别、位置和客观反应目标难度等级的分数(目标的分数越低,难度等级越高,难度越难),如何确定目标的具体分数,不在本发明范围内。
难易视频运动小目标检测模型的训练阶段包括以下步骤:
步骤1-1,已经确定难度等级级数n+1=4,依据标签中目标的分数,对标签中的目标进行难度等级的划分。划分规则为,分数位于(0.667,1]的目标难度等级为0;分数位于(0.334,0.667]的目标难度等级为1;分数位于(0,0.334]的目标难度等级为2;分数为0的目标难度等级为3。
步骤1-2,随机从数据集中选择一个视频片段,选取视频片段中第1帧到第5帧图像,将难度等级为3的目标视为负样本,将选取的连续5帧图像{x}输入局部邻域特征聚合模块LocalAggModule进行局部特征聚合,得到局部聚合特征flocal=LocalAggModule({x})。
步骤1-3,将局部聚合特征flocal输入特征检测模块HardEasyDetModelE+H,得到难易视频运动小目标检测模型输出的输出结果outlocal=HardEasyDetModelE+H(flocal)。
步骤1-4,利用置信度损失函数、类别分类损失函数以及定位回归损失函数计算目标损失函数:
其中,lo表示目标o的损失函数;lconf(·,·)表示置信度损失函数,lcls(·,·)表示类别分类损失函数,lloc(·,·)表示定位回归损失函数;outconf表示置信度损失函数对应的输出,outcls表示类别分类损失函数对应的输出,outloc表示定位回归损失函数对应的输出;表示置信度损失函数中目标o的标签,/>表示类别分类损失函数中目标o的标签,/>表示定位回归损失函数中目标o的标签。
步骤1-5,使用目标分数对目标的损失进行加权,得到正样本损失:
其中,lpos为正样本损失;O为此次训练中的所有目标。
步骤1-6,计算总损失:
其中,l为总损失;lneg为负样本损失;count(·)表示目标总数。
步骤1-7,使用目标的分数对目标对应的损失进行加权,利用梯度下降优化算法使损失反向传播更新难易视频运动小目标检测模型的权重。
步骤2-1,调整第1帧到第5帧图像中目标的分数,使得除了难度等级为0的目标外,目标对应的难度等级减1,即,难度等级为0的目标,其难度等级还是为0;难度等级为1的目标,其难度等级调整为0;难度等级为2的目标,其难度等级调整为1;难度等级为3的目标,其难度等级调整为2。
步骤2-2,将连续5帧图像{x}和3帧初始特征图输入全局记忆增强特征聚合模块GlobalAggModule进行全局特征聚合,得到全局聚合特征fglobal=GlobalAggModule({x},fglobal_m1,fglobal_m2,fglobal_m3),fglobal_m1、fglobal_m2、fglobal_m3为全局特征存储队列L中的初始特征图。
步骤2-3,将全局聚合特征fglobal输入特征检测模块HardEasyDetModelE+H,得到难易视频运动小目标检测模型输出的输出结果outglobal=HardEasyDetModelE+H(flocal)。
步骤2-4,利用置信度损失函数、类别分类损失函数以及定位回归损失函数计算目标损失函数:
其中,lo表示目标o的损失函数;lconf(·,·)表示置信度损失函数,lcls(·,·)表示类别分类损失函数,lloc(·,·)表示定位回归损失函数;outconf表示置信度损失函数对应的输出,outcls表示类别分类损失函数对应的输出,outloc表示定位回归损失函数对应的输出;表示置信度损失函数中目标o的标签,/>表示类别分类损失函数中目标o的标签,/>表示定位回归损失函数中目标o的标签。
步骤2-5,使用目标分数对目标的损失进行加权,得到正样本损失:
其中,lpos为正样本损失;O为此次训练中的所有目标。
步骤2-6,计算总损失:
其中,l为总损失;lneg为负样本损失;count(·)表示目标总数。
步骤2-7,使用目标的分数对目标对应的损失进行加权,利用梯度下降优化算法使损失反向传播更新难易视频运动小目标检测模型的权重。
步骤2-8,全局聚合特征fglobal经过卷积层得到特征图fglobal_m4,将全局特征存储队列L中的特征图由fglobal_m1、fglobal_m2、fglobal_m3更新为fglobal_m2、fglobal_m3、fglobal_m4
步骤3,选取视频片段中第2帧到第6帧图像,重复步骤1-2到步骤2-8,直到选取视频片段中第16帧到第20帧图像作为模型输入进行训练,再使用多个视频片段对模型进行训练,固定权重完成对难易视频运动小目标检测模型的训练。或者是,待训练一定步长t或损失l收敛到期望值后,固定权重得到训练好的难易视频运动小目标检测模型。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (3)

1.一种记忆增强的难易视频运动小目标检测方法,其特征在于:包括以下步骤:
步骤1,构建难易视频运动小目标检测模型,所述难易视频运动小目标检测模型包括局部邻域特征聚合模块、全局记忆增强特征聚合模块、特征检测模块,所述局部邻域特征聚合模块的输出端、全局记忆增强特征聚合模块的输出端分别与特征检测模块的输入端连接;
步骤2,提取视频中连续数帧图像输入局部邻域特征聚合模块,对难易视频运动小目标检测模型进行提取局部特征的训练;
在所述步骤2之前,还包括步骤:将目标的难度等级分为n+1个难度等级,分别为难度等级0、难度等级1、...、难度等级n,其中难度等级0为最容易识别的难度等级,难度等级n为最难识别的难度等级;
所述步骤2具体包括以下步骤:
随机从数据集中选取一个视频片段,对每帧图像中目标的分数进行标注,形成每帧图像对应的标签,依据标签中目标的分数,对目标进行难度等级的划分,一共有n+1个难度等级;
在训练时,将难度等级为n的目标视为负样本,顺序地从该视频片段中取出m帧图像,将取出的m帧图像和对应的标签输入局部邻域特征聚合模块,得到局部聚合特征;将局部聚合特征输入特征提取网络,经过前向推理,再经检测头预测,输出难易视频运动小目标检测模型的输出结果;
在训练过程中,利用置信度损失函数、类别分类损失函数以及定位回归损失函数计算视频运动小目标难易感知模型与对应标签之间的损失;使用目标的分数对每个目标所对应的损失进行加权,损失反向传播更新视频运动小目标难易感知模型的权重;
步骤3,将步骤2中相同连续数帧图像输入全局记忆增强特征聚合模块,对难易视频运动小目标检测模型进行感知全局信息的训练;
所述步骤3具体包括以下步骤:
对步骤2中所使用的m帧图像中目标的分数进行调整,使得除了难度等级为0的目标外,目标对应的难度等级减1;原本难度等级为n的目标,其难度等级调整为n-1,且在本步骤中视为正样本;
将m帧图像和全局特征存储队列中的多帧特征图输入全局记忆增强特征聚合模块,得到全局聚合特征;将全局聚合特征输入特征提取网络,经过前向推理,再经检测头预测,输出难易视频运动小目标检测模型的输出结果;
将全局聚合特征存入全局特征存储队列,使得全局特征存储队列中的特征图更新,但特征图的帧数不变;
在训练过程中,利用置信度损失函数、类别分类损失函数以及定位回归损失函数计算视频运动小目标难易感知模型与对应标签之间的损失;使用目标的分数对每个目标所对应的损失进行加权,损失反向传播更新视频运动小目标难易感知模型的权重;
步骤4,顺序提取视频中连续数帧图像,重复步骤2-步骤3,直到多个视频中所有帧图像都被提取完,得到训练好的难易视频运动小目标检测模型;
步骤5,将实时获取的视频图像输入训练好的难易视频运动小目标检测模型,经过难易视频运动小目标检测模型的全局记忆增强特征聚合模块进行特征聚合后,检测出视频图像中的目标。
2.根据权利要求1所述的一种记忆增强的难易视频运动小目标检测方法,其特征在于:所述全局记忆增强特征聚合模块中包括全局特征存储队列,所述全局特征存储队列用于存储并更新每轮迭代全局记忆增强特征聚合模块生成的全局聚合特征。
3.根据权利要求1所述的一种记忆增强的难易视频运动小目标检测方法,其特征在于:所述步骤4具体包括以下步骤:
顺序提取视频片段中m帧图像,返回步骤2先对局部邻域特征聚合模块进行训练,步骤3再对全局记忆增强特征聚合模块进行训练,直到提取了视频片段中最后m帧图像;
提取了多个视频片段中的图像进行训练后,完成对难易视频运动小目标检测模型的训练;或者是,待训练一定步长或损失收敛到期望值后,固定权重得到训练好的难易视频运动小目标检测模型。
CN202311160411.2A 2023-09-11 2023-09-11 一种记忆增强的难易视频运动小目标检测方法 Active CN116912290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311160411.2A CN116912290B (zh) 2023-09-11 2023-09-11 一种记忆增强的难易视频运动小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311160411.2A CN116912290B (zh) 2023-09-11 2023-09-11 一种记忆增强的难易视频运动小目标检测方法

Publications (2)

Publication Number Publication Date
CN116912290A CN116912290A (zh) 2023-10-20
CN116912290B true CN116912290B (zh) 2023-12-15

Family

ID=88360521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311160411.2A Active CN116912290B (zh) 2023-09-11 2023-09-11 一种记忆增强的难易视频运动小目标检测方法

Country Status (1)

Country Link
CN (1) CN116912290B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109727271A (zh) * 2017-10-27 2019-05-07 三星电子株式会社 用于跟踪对象的方法和设备
CN112070729A (zh) * 2020-08-26 2020-12-11 西安交通大学 一种基于场景增强的anchor-free遥感图像目标检测方法及***
CN114419520A (zh) * 2022-03-28 2022-04-29 南京智谱科技有限公司 视频级目标检测模型的训练方法及装置、设备、存储介质
WO2022121543A1 (zh) * 2020-12-09 2022-06-16 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN115035172A (zh) * 2022-06-08 2022-09-09 山东大学 基于置信度分级及级间融合增强的深度估计方法及***
CN115937254A (zh) * 2022-11-25 2023-04-07 中国人民解放军国防科技大学 一种基于半监督学习的多空中飞行目标跟踪方法和***
CN115995042A (zh) * 2023-02-09 2023-04-21 上海理工大学 一种视频sar运动目标检测方法及装置
CN116229333A (zh) * 2023-05-08 2023-06-06 西南交通大学 基于难易等级自适应动态调整的难易目标解耦检测方法
CN116612157A (zh) * 2023-07-21 2023-08-18 云南大学 视频单目标跟踪方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11526808B2 (en) * 2019-05-29 2022-12-13 The Board Of Trustees Of The Leland Stanford Junior University Machine learning based generation of ontology for structural and functional mapping

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109727271A (zh) * 2017-10-27 2019-05-07 三星电子株式会社 用于跟踪对象的方法和设备
CN112070729A (zh) * 2020-08-26 2020-12-11 西安交通大学 一种基于场景增强的anchor-free遥感图像目标检测方法及***
WO2022121543A1 (zh) * 2020-12-09 2022-06-16 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN114419520A (zh) * 2022-03-28 2022-04-29 南京智谱科技有限公司 视频级目标检测模型的训练方法及装置、设备、存储介质
CN115035172A (zh) * 2022-06-08 2022-09-09 山东大学 基于置信度分级及级间融合增强的深度估计方法及***
CN115937254A (zh) * 2022-11-25 2023-04-07 中国人民解放军国防科技大学 一种基于半监督学习的多空中飞行目标跟踪方法和***
CN115995042A (zh) * 2023-02-09 2023-04-21 上海理工大学 一种视频sar运动目标检测方法及装置
CN116229333A (zh) * 2023-05-08 2023-06-06 西南交通大学 基于难易等级自适应动态调整的难易目标解耦检测方法
CN116612157A (zh) * 2023-07-21 2023-08-18 云南大学 视频单目标跟踪方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dense and Small Object Detection in UAV-Vision Based on a Global-Local Feature Enhanced Network;Tao Ye等;《IEEE Transactions on Instrumentation and Measurement》;第71卷;2515513 *
Flying Bird Object Detection Algorithm in Surveillance Video Based on Motion Information;Ziwei Sun等;《arXiv》;1-13 *
基于双融合框架的多模态3D目标检测算法;葛同澳等;《电子学报》;1-11 *

Also Published As

Publication number Publication date
CN116912290A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN112396002B (zh) 一种基于SE-YOLOv3的轻量级遥感目标检测方法
CN112560999B (zh) 一种目标检测模型训练方法、装置、电子设备及存储介质
KR102280414B1 (ko) 고 정밀도로 이미지를 분석하기 위한 딥 러닝 네트워크를 사용하기 위해 트레이닝 이미지를 오토 라벨링하는 오토 라벨링 장치의 하이퍼파라미터를 최적화하는 방법 및 이를 이용한 최적화 장치
WO2023207163A1 (zh) 用于消防通道占用目标检测的目标检测模型、方法及应用
WO2019100723A1 (zh) 训练多标签分类模型的方法和装置
Ren et al. Unsupervised change detection in satellite images with generative adversarial network
CN109657697B (zh) 基于半监督学习和细粒度特征学习的分类优化方法
KR102328734B1 (ko) 이미지를 분석하기 위해, 딥러닝 네트워크에 이용하기 위한 트레이닝 이미지에 대한 라벨링 신뢰도를 자동으로 평가하기 위한 방법 및 이를 이용한 신뢰도 평가 장치
WO2016037300A1 (en) Method and system for multi-class object detection
CN112384948A (zh) 用于图像分割的生成对抗网络
KR20200047307A (ko) 유용한 학습 데이터를 취사 선별하기 위한 cnn 기반 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
US20210326638A1 (en) Video panoptic segmentation
CN111767962B (zh) 基于生成对抗式网络的一阶段目标检测方法、***及装置
CN110322509B (zh) 基于层级类激活图的目标定位方法、***及计算机设备
CN113628244B (zh) 基于无标注视频训练的目标跟踪方法、***、终端及介质
CN112257758A (zh) 细粒度图像识别方法、卷积神经网络及其训练方法
Li et al. Robust deep neural networks for road extraction from remote sensing images
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN113052108A (zh) 基于深度神经网络的多尺度级联航拍目标检测方法和***
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN110008899A (zh) 一种可见光遥感图像候选目标提取与分类方法
CN114078197A (zh) 一种基于支撑样本特征增强的小样本目标检测方法及装置
CN116912796A (zh) 一种基于新型动态级联YOLOv8的自动驾驶目标识别方法及装置
Wang et al. Cross-domain learning using optimized pseudo labels: toward adaptive car detection in different weather conditions and urban cities
CN117315752A (zh) 人脸情绪识别网络模型的训练方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant