CN113449662A - 一种基于多帧特征聚合的动态目标检测方法及装置 - Google Patents

一种基于多帧特征聚合的动态目标检测方法及装置 Download PDF

Info

Publication number
CN113449662A
CN113449662A CN202110758306.3A CN202110758306A CN113449662A CN 113449662 A CN113449662 A CN 113449662A CN 202110758306 A CN202110758306 A CN 202110758306A CN 113449662 A CN113449662 A CN 113449662A
Authority
CN
China
Prior art keywords
frame
local
features
enhanced
key frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110758306.3A
Other languages
English (en)
Inventor
许海涛
时月红
林福宏
周贤伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202110758306.3A priority Critical patent/CN113449662A/zh
Publication of CN113449662A publication Critical patent/CN113449662A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多帧特征聚合的动态目标检测方法及装置,该方法包括:在Faster RCNN的全连接层后添加关系模块;通过全局关系模块将全局帧的语义特征聚合到局部帧和关键帧,得到增强局部帧和第一增强关键帧;通过局部关系模块将增强局部帧的语义特征和位置特征聚合到第一增强关键帧,得到第二增强关键帧;通过局部关系模块将第二增强关键帧其他候选区域的语义特征和位置特征聚合到某一候选区域,得到第三增强关键帧;基于第三增强关键帧得到动态目标检测结果。本发明在动态目标检测的过程中充分利用了视频中的上下文信息来辅助当前关键帧目标的检测和定位,提高了检测的精确度。

Description

一种基于多帧特征聚合的动态目标检测方法及装置
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于多帧特征聚合的动态目标检测方法及装置。
背景技术
在动态目标检测的研究中,人们尝试将静态图像的目标检测直接应用于视频的每一帧中,但这种方法没有利用好视频是一个空间与时间信息集合体的特征,因此容易受到遮挡、模糊以及光照条件等变化带来的准确性降低等问题。
发明内容
本发明提供了一种基于多帧特征聚合的动态目标检测方法及装置,以解决现有的动态目标检测方法容易受到遮挡、模糊以及光照条件等变化带来的准确性降低的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种基于多帧特征聚合的动态目标检测方法,包括:
在Faster RCNN的全连接层后添加关系模块;其中,所述关系模块包括全局关系模块和局部关系模块;
从视频中与关键帧相邻的帧中随机选取多帧作为局部帧;从视频中随机选取多帧作为全局帧;其中,所述关键帧中包含待检测的动态目标;
通过所述全局关系模块将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,得到增强局部帧和第一增强关键帧;通过所述局部关系模块将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,得到第二增强关键帧;通过所述局部关系模块将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,得到第三增强关键帧;
基于所述第三增强关键帧,得到当前动态目标的检测结果。
进一步地,将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,包括:
使用广义余弦相似度来度量两个候选区域之间的语义相似度,从而判断两个候选区域是否同属一个类别,表达式为:
Figure BDA0003148088730000021
其中,φ(.)和ψ(.)代表变换函数,
Figure BDA0003148088730000022
表示第k帧第i个候选区域,
Figure BDA0003148088730000023
表示第f帧第j个候选区域;
Figure BDA0003148088730000024
表示
Figure BDA0003148088730000025
Figure BDA0003148088730000026
之间的语义相似度,T表示转置;
使用softmax函数对所有候选区域进行相似性归一化处理,将各个输出节点的输出值范围映射到[0,1],并且约束各个输出节点的输出值和为1,表达式为:
Figure BDA0003148088730000027
其中,
Figure BDA0003148088730000028
表示语义相似度
Figure BDA0003148088730000029
的归一化处理结果;
将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,表达式为:
Figure BDA00031480887300000210
其中,
Figure BDA00031480887300000211
表示第k帧第i个候选区域
Figure BDA00031480887300000212
的语义特征聚合结果,Ω是为聚合全局帧的语义特征随机选择的帧索引集,N为每帧中的候选区域个数。
进一步地,将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,包括:
构造关系函数,将B中候选区域对象集的语义特征和位置特征聚合到P帧中第n个候选区域,即关系特征fR(n)表示为:
Figure BDA00031480887300000213
其中,
Figure BDA00031480887300000214
表示B中第l个对象的语义特征,Wv是线性变换矩阵;ωln为关系权重因子,表示来自其他对象的影响,表示为:
Figure BDA00031480887300000215
其中,
Figure BDA00031480887300000216
Figure BDA00031480887300000217
分别表示B中第l个候选框和P帧中第n个候选框之间的位置特征权重和语义特征权重;
Figure BDA00031480887300000218
表示B中的对象集和P帧中第n个对象之间的位置特征权重和语义特征权重之和;
所述局部关系模块通过r个关系特征模块来进一步增强每个候选区域的语义特征信息和位置特征信息,表示为:
Figure BDA00031480887300000219
其中,
Figure BDA00031480887300000220
表示P帧中第n个候选区域的语义特征,
Figure BDA00031480887300000221
表示经过第r个关系特征模块后得到的关系特征,fra(pn,B)表示P帧中的第n个候选区域特征通过连接r个关系特征和原始语义特征后得到的增强特征;
使用fra(P,B)表示所有增强的候选区域特征的集合,即P中的所有候选区域都是通过B中的候选区域的特征来增强的;
将增强局部帧的语义特征和位置特征聚合到第一增强关键帧,表达式为:
KL=fra(K′,L′)
其中,K′,L′分别表示第一增强关键帧的候选区域和增强局部帧的候选区域,KL表示第一增强关键帧的所有候选区域经过局部帧增强后的集合,即第二增强关键帧所有候选区域的集合。
进一步地,将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,表达式为:
KLK=fra(KL,KL)
其中,KLK表示第二增强关键帧所有候选区域经过自增强后的集合,即第三增强关键帧所有候选区域的集合。
进一步地,
Figure BDA0003148088730000031
的表达式为:
Figure BDA0003148088730000032
其中,WK和WQ都是矩阵,表示将原始语义特征
Figure BDA0003148088730000033
Figure BDA0003148088730000034
投影到子空间,从而衡量匹配度,dk表示特征维数。
进一步地,
Figure BDA0003148088730000035
的表达式为:
Figure BDA0003148088730000036
其中,WG是一个矩阵,用于将嵌入的特征转化为标量权值;εG(.)表示一个变换函数,作用是将两个候选框的几何特征映射到一个高维表示中;dim(.)表示一个变换坐标公式,作用是将位置特征映射成一个4维的相对几何特征,以保证不变性;
Figure BDA0003148088730000037
表示B中第l个候选框的位置特征,
Figure BDA0003148088730000038
表示P帧中第n个候选框的位置特征,两个位置特征均使用4维的几何特征。
进一步地,基于所述第三增强关键帧得到当前动态目标的检测结果,包括:
将所述第三增强关键帧特征进行分类、回归处理,最后经过非极大抑制得到当前动态目标的检测结果。
另一方面,本发明还提供了一种基于多帧特征聚合的动态目标检测装置,该基于多帧特征聚合的动态目标检测装置包括:
动态目标检测框架构建模块,用于在Faster RCNN的全连接层后添加关系模块;其中,所述关系模块包括全局关系模块和局部关系模块;
全局帧与局部帧获取模块,用于从视频中与关键帧相邻的帧中随机选取多帧作为局部帧;从视频中随机选取多帧作为全局帧;其中,所述关键帧中包含待检测的动态目标;
多帧特征聚合模块,用于通过所述全局关系模块将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,得到增强局部帧和第一增强关键帧;通过所述局部关系模块将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,得到第二增强关键帧;通过所述局部关系模块将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,得到第三增强关键帧;
目标检测模块,用于基于第三增强关键帧,得到当前动态目标的检测结果。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明通过在基于Faster RCNN的目标检测框架中引入关系模块,提出了一种基于Faster RCNN的动态目标检测框架,利用全局关系模块实现在语义邻域内聚合全局语义特征,利用局部关系模块实现在时间邻域内同时聚合局部的语义和位置特征。从而有效利用视频中的上下文信息进行动态目标检测,实现了通过上下文信息来增强当前帧语义特征和检测框精准定位的目标。利用视频中其他帧的语义信息和位置信息提高了关键帧类别检测的准确度和检测框定位的精确度。通过本发明的技术方案能够实现视频中动态目标的准确检测。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的基于多帧特征聚合的动态目标检测方法的执行流程示意图;
图2为本发明第二实施例提供的基于Faster RCNN的动态目标检测框架的网络结构示意图;
图3为本发明第二实施例提供的基于多帧特征聚合的动态目标检测方法的执行流程示意图;
图4为本发明第二实施例提供的全局关系模块构建流程示意图;
图5为本发明第二实施例提供的局部关系模块构建流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种基于多帧特征聚合的动态目标检测方法,该方法可以由电子设备实现,该电子设备可以是终端或者服务器。该基于多帧特征聚合的动态目标检测方法的执行流程如图1所示,包括以下步骤:
S1,在Faster RCNN的全连接层后添加关系模块;其中,所述关系模块包括全局关系模块和局部关系模块;
S2,从视频中与关键帧相邻的帧中随机选取多帧作为局部帧;从视频中随机选取多帧作为全局帧;其中,所述关键帧中包含待检测的动态目标;
S3,通过所述全局关系模块将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,得到增强局部帧和第一增强关键帧;通过所述局部关系模块将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,得到第二增强关键帧;通过局部关系模块将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,得到第三增强关键帧;
S4,基于所述第三增强关键帧,得到当前动态目标的检测结果。
综上,本实施例通过在基于Faster RCNN的目标检测框架中引入关系模块,提出了一种基于Faster RCNN的动态目标检测框架,利用全局关系模块实现在语义邻域内聚合全局语义特征,利用局部关系模块实现在时间邻域内同时聚合局部的语义和位置特征。从而有效利用视频中的上下文信息进行动态目标检测,实现了通过上下文信息来增强当前帧语义特征和检测框精准定位的目标。利用视频中其他帧的语义信息和位置信息提高了关键帧类别检测的准确度和检测框定位的精确度。通过本发明的技术方案能够实现视频中动态目标的准确检测。
第二实施例
本实施例提供了一种基于多帧特征聚合的动态目标检测方法,该方法提出了一种如图2所示的基于Faster RCNN的动态目标检测框架,该检测框架以Faster RCNN为基础框架进行改进,改进方式为:在Faster RCNN中引入关系模块;其中,基于Faster RCNN的动态目标检测框架由特征提取网络、RPN网络、ROI Pooling和分类、回归子网组成,关系模块嵌入ROI Pooling后的全连接层之后;其中,关系模块包括全局关系模块和局部关系模块,用来实现特征聚合。
在构建出基于Faster RCNN的动态目标检测框架后,本实施例从与关键帧相邻的帧中随机选取M帧作为局部帧;从视频中随机选取F帧作为全局帧,将F帧的全局语义特征通过全局关系模块在语义邻域内聚集到局部帧和关键帧;然后再通过局部关系模块将增强后局部帧的语义和位置特征聚合到关键帧;最后通过局部关系模块实现增强后的关键帧的自增强,并将聚合后关键帧特征进行分类、回归,最后经过非极大抑制(NMS)得到当前关键帧的检测结果。
其中,需要说明的是,如果物体在当前帧中难以定位,我们可以通过相邻帧之中的类似物体或帧的差异来辅助定位,我们称之为局部定位信息。如果我们难以判断这一帧的物体的类别,我们可以通过从任意其他帧中找出与当前的模糊物体具有高度相似性的物体来辅助定位,此类信息被定义为全局语义信息。
具体的,该框架包括NG个全局关系模块,负责将全局帧的语义信息在语义邻域内聚集到局部帧和关键帧。局部帧特征聚合到关键帧需要NL个局部关系模块,负责将局部帧的语义和位置信息在时间邻域内聚集到关键帧。关键帧自增强需要NK个局部关系模块,负责将关键帧其他候选区域的语义和位置信息聚合到关键帧的某一候选区域。实际数量可以根据实验需要进行调整。
基于上述,本实施例的基于多帧特征聚合的动态目标检测方法的执行流程如图3所示,包括以下步骤:
步骤101,聚合全局语义信息。
具体的,聚合全局帧语义信息到局部帧和关键帧的实现过程如下:
假设在视频中随机选取F帧作为全局帧,F帧经过ROI后产生的候选区域组合形成全局池G。随机选取M帧作为局部帧,M帧经过ROI后产生的候选区域组合形成局部池L。关键帧经过ROI后产生的候选区域组合形成关键池K。
全局池的候选区域通过全局关系模块,将语义信息在语义邻域内聚集到局部池和关键池,进而增强关键帧和局部帧的语义特征。
其中,全局关系模块的构建流程如图4所示,包括以下步骤:
步骤201,度量语义相似度。
需要说明的是,第l帧对应的候选区域可以表示为
Figure BDA0003148088730000071
对于一对候选区域
Figure BDA0003148088730000072
可以使用广义余弦相似度来度量它们之间的语义相似度,从而判断两个候选区域是否同属一个类别.可以表达为.
Figure BDA0003148088730000073
其中,φ(.)和ψ(.)代表变换函数。相似性越高,表示候选区域属于同一类别的可能性越大。
Figure BDA0003148088730000074
表示第k帧第i个候选区域,
Figure BDA0003148088730000075
表示第f帧第j个候选区域;
Figure BDA0003148088730000076
表示
Figure BDA0003148088730000077
Figure BDA0003148088730000078
之间的语义相似度,T表示转置;
步骤202,相似度归一化处理。
需要说明的是,为了在聚合后保持特征的大小,我们使用softmax函数对所有候选区域进行相似性归一化处理,将各个输出节点的输出值范围映射到[0,1],并且约束各个输出节点的输出值和为1,表达为,
Figure BDA0003148088730000079
其中,
Figure BDA00031480887300000710
表示语义相似度
Figure BDA00031480887300000711
的归一化处理结果;
步骤203,全局语义特征聚合。
具体的,每帧中产生N个候选区域,k帧第i个候选区域
Figure BDA00031480887300000712
聚合特征定义为:
Figure BDA00031480887300000713
其中,Ω是为聚合全局语义信息随机选择的帧索引集。可以将k拓展为局部帧和关键帧的索引,即假设k帧是关键帧,则k∈(k-τ,k+τ),当只考虑上文信息时,k∈(k-τ,k)。
步骤102,聚合局部语义和位置信息。
具体的,上述步骤为聚合增强后局部帧语义和位置信息到关键帧,局部池的候选区域通过局部关系模块,将语义信息和位置信息聚集到关键池,进而增强关键帧语义特征和定位信息。
步骤103,自增强关键帧语义和位置信息。
具体的,对于关键池的某一候选区域,通过局部关系模块将其他候选区域的语义和位置信息聚合到这一候选区域,进而增强关键帧语义特征和定位信息。
其中,局部关系模块的构建流程如图5所示,包括以下步骤:
步骤301,构造关系函数。
需要说明的是,假设
Figure BDA0003148088730000081
分别表示第n个候选区域的语义信息和位置信息,则将B中候选区域对象集的语义特征和位置特征聚合到P中第n个候选区域,即关系特征fR(n)可以表示为,
Figure BDA0003148088730000082
其中,
Figure BDA0003148088730000083
表示B中第l个对象的语义特征,Wv是线性变换矩阵。
关系权重因子ωln表示来自其他对象的影响,可以表示为,
Figure BDA0003148088730000084
其中,
Figure BDA0003148088730000085
Figure BDA0003148088730000086
分别表示B中第l个候选框和P帧中第n个候选框之间的位置特征权重和语义特征权重;
Figure BDA0003148088730000087
表示B中的对象集和P帧中第n个对象之间的位置特征权重和语义特征权重之和;
局部关系模块可以通过r个关系特征模块,来进一步增强每个候选区域的语义和位置特征信息,可以表示为,
Figure BDA0003148088730000088
其中,
Figure BDA0003148088730000089
表示P帧中第n个候选区域的语义特征,
Figure BDA00031480887300000810
表示经过第r个关系特征模块后得到的关系特征,fra(pn,B)表示P帧中的第n个候选区域特征通过连接r个关系特征和原始语义特征后得到的增强特征;
使用fra(P,B)表示所有增强的候选区域特征的集合,即P中的所有候选区域都是通过B中的候选区域的特征来增强的。
具体来说,将来自局部池的特征聚合到关键池,更新函数可以表述为:
KL=fra(K′,L′) (7)
其中,K′,L′分别表示第一增强关键帧的候选区域和增强局部帧的候选区域,KL表示第一增强关键帧的所有候选区域经过局部帧增强后的集合,即第二增强关键帧所有候选区域的集合。另外KL可能经历多次增强,此时输入K′应该及时更新。
关键池特征自增强,更新函数可以表述为,
KLK=fra(KL,KL) (8)
其中,KLK表示第二增强关键帧所有候选区域经过自增强后的集合,即第三增强关键帧所有候选区域的集合。KLK可能经历多次增强,此时输入KL应做到及时更新。
步骤302,构造语义权重函数。
具体的,公式(5)中的语义特征权重可以表示为点积运算,
Figure BDA0003148088730000091
其中,WK和WQ都是矩阵,表示将原始语义特征
Figure BDA0003148088730000092
Figure BDA0003148088730000093
投影到子空间,从而衡量匹配度,dk表示特征维数。
步骤303,构造位置权重函数。
具体的,公式(5)中的位置特征权重可以表示为,
Figure BDA0003148088730000094
其中,WG是一个矩阵,为了将嵌入的特征转化为标量权值。εG(.)表示一个变换函数,作用是将两个候选框的几何特征映射到一个高维表示中;
Figure BDA0003148088730000095
表示B中第l个候选框的位置特征,
Figure BDA0003148088730000096
表示P帧中第n个候选框的位置特征,两个位置特征均使用4维的几何特征。
求解公式(10)中的位置特征权重前先对位置特征做坐标变换,dim(.)表示一个变换坐标公式,作用是将位置特征映射成一个4维的相对几何特征,以保证不变性;然后再将两个对象的相对几何特征嵌入到一个表示为εG的高维表示中,dim(.)可以表示为,
Figure BDA0003148088730000097
坐标变换的主要目的是进行尺度归一化以增加尺度不变性,进行log操作,避免因数值变化范围过大引起的训练发散。
综上,本实施例通过在基于Faster RCNN的目标检测框架中引入关系模块,提出了一种基于Faster RCNN的动态目标检测框架,利用全局关系模块实现在语义邻域内聚合全局语义特征,利用局部关系模块实现在时间邻域内同时聚合局部的语义和位置特征。从而有效利用视频中的上下文信息进行动态目标检测,实现了通过上下文信息来增强当前帧语义特征和检测框精准定位的目标。利用视频中其他帧的语义信息和位置信息提高了关键帧类别检测的准确度和检测框定位的精确度。通过本发明的技术方案能够实现视频中动态目标的准确检测。
第三实施例
本实施例提供了一种基于多帧特征聚合的动态目标检测装置,该基于多帧特征聚合的动态目标检测装置包括以下模块:
动态目标检测框架构建模块,用于在Faster RCNN的全连接层后添加关系模块;其中,所述关系模块包括全局关系模块和局部关系模块;
全局帧与局部帧获取模块,用于从视频中与关键帧相邻的帧中随机选取多帧作为局部帧;从视频中随机选取多帧作为全局帧;其中,所述关键帧中包含待检测的动态目标;
多帧特征聚合模块,用于通过所述全局关系模块将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,得到增强局部帧和第一增强关键帧;通过所述局部关系模块将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,得到第二增强关键帧;通过所述局部关系模块将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,得到第三增强关键帧;
目标检测模块,用于基于第三增强关键帧,得到当前动态目标的检测结果。
本实施例的基于多帧特征聚合的动态目标检测装置与上述第一实施例的基于多帧特征聚合的动态目标检测方法相对应;其中,本实施例的基于多帧特征聚合的动态目标检测装置中的各功能模块所实现的功能与第一实施例的基于多帧特征聚合的动态目标检测方法中的各流程步骤一一对应;故,在此不再赘述。
第四实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行上述方法。
第五实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述第一实施例的方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (8)

1.一种基于多帧特征聚合的动态目标检测方法,其特征在于,包括:
在Faster RCNN的全连接层后添加关系模块;其中,所述关系模块包括全局关系模块和局部关系模块;
从视频中与关键帧相邻的帧中随机选取多帧作为局部帧;从视频中随机选取多帧作为全局帧;其中,所述关键帧中包含待检测的动态目标;
通过所述全局关系模块将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,得到增强局部帧和第一增强关键帧;通过所述局部关系模块将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,得到第二增强关键帧;通过所述局部关系模块将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,得到第三增强关键帧;
基于所述第三增强关键帧,得到当前动态目标的检测结果。
2.如权利要求1所述的基于多帧特征聚合的动态目标检测方法,其特征在于,将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,包括:
使用广义余弦相似度来度量两个候选区域之间的语义相似度,从而判断两个候选区域是否同属一个类别,表达式为:
Figure FDA0003148088720000011
其中,φ(.)和ψ(.)代表变换函数,
Figure FDA0003148088720000012
表示第k帧第i个候选区域,
Figure FDA0003148088720000013
表示第f帧第j个候选区域;
Figure FDA0003148088720000014
表示
Figure FDA0003148088720000015
Figure FDA0003148088720000016
之间的语义相似度,T表示转置;
使用softmax函数对所有候选区域进行相似性归一化处理,将各个输出节点的输出值范围映射到[0,1],并且约束各个输出节点的输出值和为1,表达式为:
Figure FDA0003148088720000017
其中,
Figure FDA0003148088720000018
表示语义相似度
Figure FDA0003148088720000019
的归一化处理结果;
将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,表达式为:
Figure FDA00031480887200000110
其中,
Figure FDA00031480887200000111
表示第k帧第i个候选区域
Figure FDA00031480887200000112
的语义特征聚合结果,Ω是为聚合全局帧的语义特征随机选择的帧索引集,N为每帧中的候选区域个数。
3.如权利要求1所述的基于多帧特征聚合的动态目标检测方法,其特征在于,将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,包括:
构造关系函数,将B中候选区域对象集的语义特征和位置特征聚合到P帧中第n个候选区域,即关系特征fR(n)表示为:
Figure FDA0003148088720000021
其中,
Figure FDA0003148088720000022
表示B中第l个对象的语义特征,Wv是线性变换矩阵;ωln为关系权重因子,表示来自其他对象的影响,表示为:
Figure FDA0003148088720000023
其中,
Figure FDA0003148088720000024
Figure FDA0003148088720000025
分别表示B中第l个候选框和P帧中第n个候选框之间的位置特征权重和语义特征权重;
Figure FDA0003148088720000026
表示B中的对象集和P帧中第n个对象之间的位置特征权重和语义特征权重之和;
所述局部关系模块通过r个关系特征模块来进一步增强每个候选区域的语义特征信息和位置特征信息,表示为:
Figure FDA0003148088720000027
其中,
Figure FDA0003148088720000028
表示P帧中第n个候选区域的语义特征,
Figure FDA0003148088720000029
表示经过第r个关系特征模块后得到的关系特征,fra(pn,B)表示P帧中的第n个候选区域特征通过连接r个关系特征和原始语义特征后得到的增强特征;
使用fra(P,B)表示所有增强的候选区域特征的集合,即P中的所有候选区域都是通过B中的候选区域的特征来增强的;
将增强局部帧的语义特征和位置特征聚合到第一增强关键帧,表达式为:
KL=fra(K′,L′)
其中,K′,L′分别表示第一增强关键帧候选区域和增强局部帧候选区域,KL表示第一增强关键帧的所有候选区域经过局部帧增强后的集合,即第二增强关键帧所有候选区域的集合。
4.如权利要求3所述的基于多帧特征聚合的动态目标检测方法,其特征在于,将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,表达式为:
KLK=fra(KL,KL)
其中,KLK表示第二增强关键帧所有候选区域经过自增强后的集合,即第三增强关键帧所有候选区域的集合。
5.如权利要求4所述的基于多帧特征聚合的动态目标检测方法,其特征在于,
Figure FDA00031480887200000210
的表达式为:
Figure FDA0003148088720000031
其中,WK和WQ都是矩阵,表示将原始语义特征
Figure FDA0003148088720000032
Figure FDA0003148088720000033
投影到子空间,从而衡量匹配度,dk表示特征维数。
6.如权利要求5所述的基于多帧特征聚合的动态目标检测方法,其特征在于,
Figure FDA0003148088720000034
的表达式为:
Figure FDA0003148088720000035
其中,WG是一个矩阵,用于将嵌入的特征转化为标量权值;εG(.)表示一个变换函数,作用是将两个候选框的几何特征映射到一个高维表示中;dim(.)表示一个变换坐标公式,作用是将位置特征映射成一个4维的相对几何特征,以保证不变性;
Figure FDA0003148088720000036
表示B中第l个候选框的位置特征,
Figure FDA0003148088720000037
表示P帧中第n个候选框的位置特征,两个位置特征均使用4维的几何特征。
7.如权利要求1所述的基于多帧特征聚合的动态目标检测方法,其特征在于,基于所述第三增强关键帧,得到当前动态目标的检测结果,包括:
将所述第三增强关键帧特征进行分类、回归处理,最后经过非极大抑制得到当前动态目标的检测结果。
8.一种基于多帧特征聚合的动态目标检测装置,其特征在于,包括:
动态目标检测框架构建模块,用于在Faster RCNN的全连接层后添加关系模块;其中,所述关系模块包括全局关系模块和局部关系模块;
全局帧与局部帧获取模块,用于从视频中与关键帧相邻的帧中随机选取多帧作为局部帧;从视频中随机选取多帧作为全局帧;其中,所述关键帧中包含待检测的动态目标;
多帧特征聚合模块,用于通过所述全局关系模块将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,得到增强局部帧和第一增强关键帧;通过所述局部关系模块将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,得到第二增强关键帧;通过所述局部关系模块将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,得到第三增强关键帧;
目标检测模块,用于基于第三增强关键帧,得到当前动态目标的检测结果。
CN202110758306.3A 2021-07-05 2021-07-05 一种基于多帧特征聚合的动态目标检测方法及装置 Pending CN113449662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110758306.3A CN113449662A (zh) 2021-07-05 2021-07-05 一种基于多帧特征聚合的动态目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110758306.3A CN113449662A (zh) 2021-07-05 2021-07-05 一种基于多帧特征聚合的动态目标检测方法及装置

Publications (1)

Publication Number Publication Date
CN113449662A true CN113449662A (zh) 2021-09-28

Family

ID=77815064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110758306.3A Pending CN113449662A (zh) 2021-07-05 2021-07-05 一种基于多帧特征聚合的动态目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN113449662A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999005865A1 (en) * 1997-07-22 1999-02-04 The Board Of Trustees Of The University Of Illinois Content-based video access
US20160275642A1 (en) * 2015-03-18 2016-09-22 Hitachi, Ltd. Video analysis and post processing of multiple video streams
CN107886120A (zh) * 2017-11-03 2018-04-06 北京清瑞维航技术发展有限公司 用于目标检测跟踪的方法和装置
CN108875456A (zh) * 2017-05-12 2018-11-23 北京旷视科技有限公司 目标检测方法、目标检测装置和计算机可读存储介质
CN111260661A (zh) * 2020-01-15 2020-06-09 江苏大学 一种基于神经网络技术的视觉语义slam***及方法
CN111832393A (zh) * 2020-05-29 2020-10-27 东南大学 一种基于深度学习的视频目标检测方法与装置
CN111860622A (zh) * 2020-07-03 2020-10-30 北京科技大学 一种应用于编程现场大数据的聚类方法及***
CN112136140A (zh) * 2018-05-14 2020-12-25 诺基亚技术有限公司 用于图像识别的方法和装置
CN112949779A (zh) * 2021-04-20 2021-06-11 中国人民解放军国防科技大学 全局特征增强的小目标特征提取方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999005865A1 (en) * 1997-07-22 1999-02-04 The Board Of Trustees Of The University Of Illinois Content-based video access
US20160275642A1 (en) * 2015-03-18 2016-09-22 Hitachi, Ltd. Video analysis and post processing of multiple video streams
CN108875456A (zh) * 2017-05-12 2018-11-23 北京旷视科技有限公司 目标检测方法、目标检测装置和计算机可读存储介质
CN107886120A (zh) * 2017-11-03 2018-04-06 北京清瑞维航技术发展有限公司 用于目标检测跟踪的方法和装置
CN112136140A (zh) * 2018-05-14 2020-12-25 诺基亚技术有限公司 用于图像识别的方法和装置
CN111260661A (zh) * 2020-01-15 2020-06-09 江苏大学 一种基于神经网络技术的视觉语义slam***及方法
CN111832393A (zh) * 2020-05-29 2020-10-27 东南大学 一种基于深度学习的视频目标检测方法与装置
CN111860622A (zh) * 2020-07-03 2020-10-30 北京科技大学 一种应用于编程现场大数据的聚类方法及***
CN112949779A (zh) * 2021-04-20 2021-06-11 中国人民解放军国防科技大学 全局特征增强的小目标特征提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QING TANG等: "Integrated Feature Pyramid Network With Feature Aggregation for Traffic Sign Detection", IEEE, 20 August 2021 (2021-08-20) *
王龙;: "基于分层社区的社交网络异常事件检测模型研究", 电脑知识与技术, no. 04, 5 February 2020 (2020-02-05), pages 23 - 25 *

Similar Documents

Publication Publication Date Title
CN108038474B (zh) 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
CN109726658B (zh) 人群计数及定位方法、***、电子终端及存储介质
US11501162B2 (en) Device for classifying data
EP4053718A1 (en) Watermark information embedding method and apparatus
CN109359725B (zh) 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质
CN110348437B (zh) 一种基于弱监督学习与遮挡感知的目标检测方法
CN111368634B (zh) 基于神经网络的人头检测方法、***及存储介质
CN111626311B (zh) 一种异构图数据处理方法和装置
CN116503399B (zh) 基于yolo-afps的绝缘子污闪检测方法
CN108564083A (zh) 一种遥感图像变化检测方法及装置
CN111291760A (zh) 图像的语义分割方法、装置及电子设备
CN112966553A (zh) 基于孪生网络的强耦合目标跟踪方法、装置、介质及设备
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
Panda et al. Kernel density estimation and correntropy based background modeling and camera model parameter estimation for underwater video object detection
CN116805387B (zh) 基于知识蒸馏的模型训练方法、质检方法和相关设备
CN111027551B (zh) 图像处理方法、设备和介质
Su et al. Change detection in synthetic aperture radar images based on non-local means with ratio similarity measurement
CN113449662A (zh) 一种基于多帧特征聚合的动态目标检测方法及装置
Zhou et al. Self-supervised saliency estimation for pixel embedding in road detection
CN115953584A (zh) 一种具有可学习稀疏性的端到端目标检测方法及***
CN111984812B (zh) 一种特征提取模型生成方法、图像检索方法、装置及设备
CN111242187B (zh) 一种图像相似度处理方法、装置、介质和电子设备
CN113361656A (zh) 一种特征模型的生成方法、***、设备及存储介质
CN110263196B (zh) 图像检索方法、装置、电子设备及存储介质
CN116129226B (zh) 一种基于多原型混合模块的少样本目标检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination