CN115063717B - 一种基于重点区域实景建模的视频目标检测与跟踪方法 - Google Patents

一种基于重点区域实景建模的视频目标检测与跟踪方法 Download PDF

Info

Publication number
CN115063717B
CN115063717B CN202210644386.4A CN202210644386A CN115063717B CN 115063717 B CN115063717 B CN 115063717B CN 202210644386 A CN202210644386 A CN 202210644386A CN 115063717 B CN115063717 B CN 115063717B
Authority
CN
China
Prior art keywords
tracking
key
frame
frames
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210644386.4A
Other languages
English (en)
Other versions
CN115063717A (zh
Inventor
陈亮
李琦
张婧
剧立伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute Of Information Technology
Original Assignee
Nanjing Institute Of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute Of Information Technology filed Critical Nanjing Institute Of Information Technology
Priority to CN202210644386.4A priority Critical patent/CN115063717B/zh
Publication of CN115063717A publication Critical patent/CN115063717A/zh
Application granted granted Critical
Publication of CN115063717B publication Critical patent/CN115063717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30181Earth observation
    • G06T2207/30192Weather; Meteorology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于重点区域实景建模的视频目标检测与跟踪方法,将重点区域卫星定位信息转化成三维全景地图;对三维全景地图提取高层特征,根据重点区域天气信息对对应视频流进行处理得到清晰的重点区域实景建模视频帧,将一系列帧输入骨干网络提取高级特征再通过空洞残差网络,将目标检测任务化大为小,使用跨模态注意力模块进行多模态信息融合,通过叠加连续帧的特征图得到特征融合图,进而获得连续的目标时空特征,同时结合之前画面帧获得的跟踪边界框,最后匹配目标框和跟踪框实现检测与跟踪任务。本发明对重点区域进行实时实景建模,有效解决重点区域的复杂人流车流造成的目标遮挡与错误跟踪问题,使得算法具有更好的鲁棒性。

Description

一种基于重点区域实景建模的视频目标检测与跟踪方法
技术领域
本发明属于视觉目标检测技术,具体涉及一种基于重点区域实景建模的视频目标检测与跟踪方法,涉及基于空洞残差编码的目标检测算法与实景建模视频跟踪方法属于图像处理领域。
背景技术
目标检测一直以来都是计算机视觉任务中的经典问题,其广泛应用于人脸识别,自动驾驶,智能视频监控等领域,因此成为了近年来的研究热门方向。对于当前的计算机视觉***,基于视频的场景理解的研究是计算机理解人类行为必不可少的组成。为了估计视频中感兴趣对象的轨迹,目标跟踪是一项重要任务,其应用于许多实际场景中,例如视觉监视,公共安全,体育视频分析和人机交互,因此视频目标检测与跟踪成为了近年来的一个研究重点。
目前的目标检测算法大多运用了特征金字塔结构,该结构一方面可以进行多尺度融合大大提高了特征的丰富程度,另一方面可以将目标检测任务分为若干个子检测任务,达到化繁为简的目的。但是,由于特征金字塔的复杂结构也增加了模型的计算量,提高了计算机的硬件需求。最近,基于注意力机制的Transformer模型被广泛应用于计算机视觉领域,由于该模型具有很强大的关系建模能力,可以建立视频样本的时空依赖关系,也很适合应用在目标跟踪领域。
然而,现有的基于注意力机制的模型在初始化阶段的注意力权重几乎是均匀分配的,但是训练好的模型得到的注意力权重又是稀疏的,也就是说该模型在训练过程中难以收敛。同时,对于一些小目标或是在复杂密集场景中的目标,模型需要的输入图像数据具有较高分辨率,这也增加计算复杂度,限制了该模型在目标检测与跟踪中的应用。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于重点区域实景建模的视频目标检测与跟踪方法,本发明使用单一特征以及分治法构建一个拥有良好性能的目标检测器,可以避免使用比较复杂的特征金字塔模块,只保留高层的特征进行输入,网络也可以保持良好的性能,并且降低计算负担。
本发明为了解决现有技术中存在的问题,提供一种基于重点区域实景建模的视频目标检测与跟踪方法。利用空洞残差编码器来捕获不同感受野特征信息,以此实现将大的检测任务分解为若干小的目标坚持任务,实现各种尺度物体的鲁棒性检测;利用基于稀疏空间采样注意力的方法加速模型收敛并降低运算复杂度。为了达到上述目的,本发明提出的技术方案为。
技术方案:本发明的一种基于重点区域实景建模的视频目标检测与跟踪方法,包括以下步骤:
步骤一、输入重点区域的卫星定位信息L,通过逆地理编码函数得到重点区域的3维全景地图BMAP,然后对重点区域的3维全景地图进行稀疏点采样,得到重点区域的实景建模数据集b=Ω(BMAP);接着,将获取到的实景建模数据输入到刚性不变特征提取器,以获取实景建模数据的高层特征S;
步骤二、将步骤一所得重点区域的卫星定位信息L(即经纬度信息)输入天气查询函数γ(.)中,得到天气信息W_dic后输入雨雾判断器,其作用是解析获得的字典数据,从而判断重点区域是否为良好天气;若非良好天气,则将重点区域的视频流输入到多阶段渐进式图像恢复模块,利用多阶段渐进式图像恢复模块进行图像去雾及去雨等预处理来获取纯净的视频数据;
步骤三、将进行预处理之后的视频数据转换为图片并输入到骨干网络ResNet50中得到高层语义特征C5;接着,利用空洞残差编码器对骨干网络输出的高层语义特征C5进行编码,并将空洞残差编码器输出的特征输入到空洞残差模块中,以此来捕获不同感受野特征,最终得到不同感受野的融合特征P5
步骤四、将步骤三所得融合特征P5与步骤一所得实景建模数据的高层特征S进行融合,即:使用跨模态注意模块获取两种模态的注意力;然后再使用多层感知机网络进行非线性拟合,接着,利用得到的当前帧特征图叠加前一帧的特征图,得到连续两帧的特征融合图
步骤五、将步骤四特征融合图拉伸后得到一系列的特征点向量/>C为特征融合图/>的通道数,结合参考特征点与其偏移量得到最终的采样点向量;利用查询向量与得到的最终关键值采样点向量,得到当前帧的特征图的Transformer编码器输出,然后利用目标查询与关键值采样点向量获得当前帧解码器输出的目标特征,同时利用前一帧的目标特征作为当前帧的跟踪查询向量vqt,同样经过解码器后获得跟踪特征D为跟踪解码器;
步骤六、将步骤五中目标特征和跟踪特征通过前馈神经网络分别得到检测框以及跟踪框,利用匈牙利匹配方法将检测框与跟踪框建立匹配关系,得到最终跟踪结果。
进一步地,所述步骤一重点区域实景建模数据处理包括:
输入重点区域的卫星定位信息,然后利用逆地理编码函数获取重点区域的3维全景地图BMAP,BMAP=T(L),其中,L代表重点区域的经纬度信息且经度在前纬度在后,BMAP代表获取到的3维全景地图数据;
接着,利用点采样函数对3维全景地图数据进行稀疏点采样:b=Ω(BMAP);其中,代表抽取到的点云数据,N表示点的数目且每一个点的坐标为(x,y,z);
将获取到的点云数据输入到刚性不变特征提取器,获取点云的高层特征S:
S=MAXPOOL(MLPs(b));
其中,MLPs表示一系列多层感知机,MAXPOOL代表的是矩阵的取最大数操作,S代表的是点云的高层特征,其具有刚性不变的性质。
进一步地,所述步骤二的具体过程为:
先对重点区域的视频流进行处理:
利用卫星定位获取的重点区域的经纬度信息,通过使用天气查询函数γ(.),得到重点区域的天气信息W_dic,此处的天气信息为字典数据,若是良好天气则其值为1,否则为0,即:W_dic=γ(L),其中,L代表重点区域的经纬度信息,经度在前纬度在后,W_dic代表得到的该区域的天气信息;若天气字典数据为0则传入多阶段渐进式图像恢复模块进行去雾去雨处理。进一步地,所述步骤三的具体过程为:
首先,将预处理后的视频数据逐帧输入到ResNet50网络中,并且取最高层的语义特征作为后面的输入:
C5=ResNet50(x),
其中,ResNet50网络的网络结构为残差结构,表示为:X=E(x)+G(x),表示预处理后的图片,X代表得到的输出,/>代表获取到的高层语义特征,B表示批量处理的大小,H,W分别表示图片的高和宽,C表示图片的通道数,则E(·)表示为conv1×1(conv3×3(conv1×1(·)))(以及相关批归一化处理BN和非线性激活函数RELU),G(·)表示conv1×1(·),conv1×1(·)表示1×1的卷积神经网络,conv3×3(·)表示3×3的卷积神经网络,本发明中ResNet50使用在ImageNet数据集中预训练的参数;
然后,利用空洞残差编码器将高层语义特征C5编码转化为多种感受野融合特征,即将ResNet50网络的第四层得到的高层语义特征作为空洞残差模块的输入,并且输出一个融合多种感受野的特征,从而降低网络设计的复杂度,并且提示网络推理速度,空洞残差编码器编码器为MC=conv3×3(conv1×1(C5));
接着,利用空洞残差模块捕获不同感受野的融合特征P5,残差模块表示为:
P5=Φ(Φ(Φ(Φ(MC,rate1),rate2),rate3),rate4)
其中,Φ(MC,ratei),i∈{1,2,3,4}代表空洞残差网络模块,di表示第i层的空洞残差模块的膨胀卷积率,空洞残差网络模块的计算方式为:
Φ(MC,ratei)=E(MC,ratei)+MC,
进一步地,所述步骤四中跨模态注意力模块设计过程为:
首先,使用跨模态注意力模块将得到的多种感受野的融合特征P5与步骤一所得点云的高层特征S进行多模态融合,具体方法为:
其中,MLP代表一个多层感知机,S_query,q_key,q_value代表注意力模块中的query,key,value,F代表得到的多模态融合特征;
其次,通过几个多层感知机进行非线性拟合得到当前帧特征图,具体方法:
Ft=MLPs(F);
其中,MLPs表示一系列的多层感知机;
然后,利用得到的当前帧特征图叠加前一帧的特征图,得到连续两帧的特征融合图
其中,Ft表示视频第t帧的特征图,Ft-1是在前一帧运算后就保存下来的特征图,并没有进行重复运算。
进一步地,所述步骤五的编码器结构为:
使q∈Ωq表示查询向量的索引,表示查询向量,k∈Ωk、/>分别表示关键值下标与关键值向量,其中C是特征图的通道数;
多头稀疏采样注意力计算公式如下:
其中,h是不同注意力头的索引,是可学习的权重(默认Cv=C/H),Rhqk是与第h个注意头的采样点vk的注意力权重,且/>
pq是查询向量vq的一个二维参考点,而表示采样集合点相对于pq的偏移量,由于下标pq+Δphqk可能为非整数,因此使用双线性差值来计算。
进一步地,所述步骤六中将检测框与跟踪进行匹配的方法为:
使Dt={d1,d2,...,dn}表示检测框集合,Tt={d′1,d′2,...,d′m}表示跟踪框集合,其中n和m分别是当前帧的检测目标数量和当前帧的跟踪目标数量;
首先,从检测框集合Dt={d1,d2,...,dn}的未匹配点d1开始在跟踪框集合,Tt={d′1,d′2,...,d′m}中寻找与之相匹配的跟踪框dj′(j∈[1,m])即找到增广路d1→dj′,匹配边为d1-dj′;
接着,从未匹配的检测框d2开始找增广路,若增广路为d2→dk′(k,j∈[1,m]且k≠j),则匹配边为d1-dj′与d2-dk′;若增广路为d2→dj′→d1→dk′(k,j∈[1,m]且k≠j)即d2与dj′匹配且此时d1与dk′也匹配,故匹配边改为d1-dk′与d2-dj′;
以此类推可以为检测框di(i∈[1,n])匹配对应的跟踪框,直至没有未匹配的检测框则匹配结束,若出现未匹配检测框di的增广路中均为已匹配的检测框与跟踪框,例如di→dk′→d1→dj′且d1与dj′,d2与dk′已匹配,即无法给di分配未匹配的跟踪框时,匹配也结束;
最终,可以通过匈牙利算法得到检测框与跟踪框的匹配边集合A,即实现对连续帧中目标检测框的关联跟踪。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明有效的将检测任务由大批量拆分为多个小批量,从而以较少运算量精简特征。
(2)本发明的加速模型收敛性能并降低运算复杂度,并具有强大的关系建模能力,有效地结合天气信息和地理信息,通过特征融合显著提高视频目标检测与跟踪算法的鲁棒性和准确度。
(3)本发明采用可变形的Transformer模型作为目标跟踪模块,只需要通过可学习的偏移向量,并添加到关键值参考点,得到稀疏的关键值,而查询向量则只需要计算对这些关键值的注意力,大大减少了计算量,并且利用可学习的偏移量能够根据不同场景自适应地调整关键值,使得模型对复杂场景更加鲁棒。
(4)本发明只需对重点区域进行实时实景建模,有效解决重点区域的复杂人流车流造成的目标遮挡与错误跟踪问题,使得算法具有更好的鲁棒性。
附图说明
图1为本发明的整体结构示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1所示,本实施例的基于重点区域实景建模的视频目标检测与跟踪方法,具体包括以下环节:
步骤一
输入重点区域的卫星定位信息L(即重点区域的经纬度信息且经度在前纬度在后),然后利用逆地理编码函数获取重点区域的3维全景地图,具体可以描写为:
BMAP=T(L),BMAP代表获取到的3维全景地图数据;
然后,利用点采样函数对3维全景地图数据进行稀疏点采样,得到重点区域的实景建模数据集b=Ω(BMAP),
b∈N×3代表抽取到的点云数据,N表示点的数目,其每一个点的坐标为(x,y,z);
接着,将获取到的实景建模数据输入到刚性不变特征提取器中,以获取实景建模数据的高层特征S=MAXPOOL(MLPs(b)),
其中,MLPs表示一系列多层感知机,MAXPOOL代表的是矩阵的取最大数操作,S代表的是点云的高层特征,其具有刚性不变的性质。
步骤二
首先,利用卫星定位获取的重点区域的经纬度信息,通过使用天气查询函数γ(.),得到重点区域的天气信息(字典数据)W_dic=Υ(L),若良好天气则其值为1,否则为0;
然后将重点区域的视频流输入到多阶段渐进式图像恢复模块,利用多阶段渐进式图像恢复模块进行图像去雾去雨等预处理以获取纯净的视频数据。
步骤三
首先,对获取的纯净视频数据进行预处理,并将进行预处理之后的视频帧输入到骨干网络ResNet50中,得到高层语义特征C5。其过程为:使表示预处理后的图片/>代表获取到的高层语义特征,B表示batch的大小,H,W分别表示图片的高和宽,C表示图片的通道数,骨干网络ResNet50具体表现为:
C5=ResNet50(x),
本实施例的网络结构为残差结构表示为:
X=E(x)+G(x),
其中,E(·)表示conv1×1(conv3×3(conv1×1(·))),G(·)代表conv1×1(·),conv1×1(·)表示1×1的卷积神经网络,同样的conv3×3(·)表示3×3的卷积神经网络;
接着,利用空洞残差编码器对骨干网络输出的高层语义特征进行编码,并将编码器输出的特征输入到空洞残差模块中,以此来捕获不同感受野特征,最后得到多种感受野的融合特征。
此处空洞残差编码器设计为:
MC=conv3×3(conv1×1(C5)),
这里表示特征C5经过1×1卷积减少通道数目,再经过3×3卷积进行非线性变化,得到进一步精炼后的特征MC;
然后利用空洞残差模块捕获不同感受野特征P5,空洞残差模块表示为:
P5=Φ(Φ(Φ(Φ(MC,rate1),rate2),rate3),rate4)
其中,Φ(MC,ratei),i∈{1,2,3,4}代表空洞残差网络模块,Φ(MC,ratei)=F(MC,ratei)+MC,,E(·)表示三个卷积块(包括BN和ReLU),ratei表示第i层的空洞残差模块的膨胀卷积率。
步骤四
首先,使用跨模态注意力模块将得到的多种感受野的融合特征P5与步骤一输出点云的高层特征S进行多模态融合,具体表示为:
其中,MLP代表一个多层感知机,S_query,q_key,q_value代表注意力模块中的query、key和value,F代表得到的多模态融合特征;
其次,通过几个多层感知机进行非线性拟合得到当前帧特征图Ft=MLPs(F),MLPs表示一系列的多层感知机;
接着,为利用Transformer模型来获得检测与跟踪结果,需要先获得输入特征图,即利用得到的当前帧特征图叠加前一帧的特征图,得到连续两帧的特征融合图,则融合特征表示为:/>
其中,Ft表示视频第i帧的特征图,Ft-1是在前一帧运算后就保存下来的特征图,并没有进行重复运算。
步骤五
将融合特征图按照宽高拉伸展平得到编码器的输入/>其中C是特征图的通道数,然后通过对输入参考点进行偏移采样获得采样集合点,注意力机制的运算仅在查询向量与采样点上进行,最终得到当前帧的特征图的编码器输出。
具体的做法是:使q∈Ωq表示查询向量的索引,表示查询向量,同样地,k∈Ωk、/>分别表示关键值下标与关键值向量。
那么,多头稀疏采样注意力计算公式如下:
其中,h是不同注意力头的索引,是可学习的权重(默认Cv=C/H),Rhqk是vq与第h个注意头的采样点vk的注意力权重,且/>pq是查询向量vq的一个二维参考点,而/>表示采样集合点相对于pq的偏移量,由于下标pq+Δphqk可能为非整数,因此使用双线性差值来计算/>
对目标查询向量和跟踪查询向量分别进行解码,首先进行自注意力的计算,即v′q、v′k和均由查询向量本身经过线性变换得到,再与编码器输出线性变换后得到的vq、vk进行交叉注意力计算,两种计算均如上式(多头稀疏采样注意力计算公式)所示,
步骤六
解码器的输出经过前馈神经网络(FFN)后得到两个边框集合,一个是检测框集合Dt={d1,d2,...,dn}={[x1,y1,w1,h1],[x2,y2,w2,h2],...,[xn,yn,wn,hn]},另一个为跟踪框集合Tt={d′1,d′2,...,d′m}={[x′1,y′1,w′1,h′1],[x′2,y′2,w′2,h′2],...,[x′m,y′m,w′m,h′m]},n和m分别是当前帧的检测目标数量和当前帧的跟踪目标数量。
将Dt和Tt视为二部图G=(u,v)两个非空子集u与v,这样就把跟踪关联问题转化为二部图G的最大匹配问题,使用匈牙利匹配算法即可得到u,v边组成的集合A,算法流程如下:
首先,从检测框集合Dt={d1,d2,...,dn}的未匹配点d1开始在跟踪框集合Tt={d′1,d′2,...,d′m}中寻找与之相匹配的跟踪框dj′(j∈[1,m])即找到增广路d1→dj′,匹配边为d1-dj′。
接着,从未匹配的检测框d2开始找增广路,若增广路为d2→dk′(k,j∈[1,m]且k≠j),则匹配边为d1-dj′与d2-dk′;若增广路为d2→dj′→d1→dkv(k,j∈[1,m]且k≠j)即d2与dj′匹配且此时d2与dk′也匹配,故匹配边改为d1-dk′与d2-dj′。以此类推可以为检测框di(i∈[1,n])匹配对应的跟踪框,直至没有未匹配的检测框则匹配结束,若出现未匹配检测框di的增广路中均为已匹配的检测框与跟踪框,例如di→dk′→d1→dj′且d1与dj′,d2与dk′已匹配,即无法给di分配未匹配的跟踪框时,匹配也结束;即最终通过匈牙利匹配方法得到检测框与跟踪框的匹配边集合A,即完成了对连续帧中目标检测框的关联跟踪,最终可以得到重点区域的目标追踪视频。

Claims (7)

1.一种基于重点区域实景建模的视频目标检测与跟踪方法,其特征在于:包括以下步骤:
步骤一、输入重点区域的卫星定位信息L,通过逆地理编码函数得到重点区域的3维全景地图BMAP,然后对重点区域的3维全景地图进行稀疏点采样,得到重点区域的实景建模数据集b=Ω(BMAP);接着,将获取到的实景建模数据输入到刚性不变特征提取器来获取实景建模数据的高层特征S;
步骤二、将步骤一所得重点区域的卫星定位信息L输入天气查询函数Υ(.)中,得到天气信息W_dic后输入雨雾判断器来判断重点区域是否为良好天气;若非良好天气,则将重点区域的视频流输入到多阶段渐进式图像恢复模块,来进行图像预处理来获取纯净的视频数据;
步骤三、将进行预处理之后的视频数据转换为图片并输入到骨干网络ResNet50中得到高层语义特征C5;接着,利用空洞残差编码器对骨干网络输出的高层语义特征C5进行编码,并将空洞残差编码器输出的特征输入到空洞残差模块中,以此来捕获不同感受野特征,最终得到多种感受野的融合特征P5
步骤四、将步骤三所得融合特征P5与步骤一所得实景建模数据的高层特征S进行融合,即:使用跨模态注意模块获取两种模态的注意力;然后再使用多层感知机网络进行非线性拟合,接着,利用得到的当前帧特征图叠加前一帧的特征图,得到连续两帧的特征融合图
步骤五、将步骤四特征融合图拉伸后得到编码器的输入特征点向量/>C为特征融合图/>的通道数,结合参考特征点与其偏移量得到最终的采样点向量;利用查询向量与得到的最终关键值采样点向量,得到当前帧的特征图的Transformer编码器输出,然后利用目标查询与关键值采样点向量获得当前帧解码器输出的目标特征,同时利用前一帧的目标特征作为当前帧的跟踪查询向量vqt,同样经过解码器后获得跟踪特征D为跟踪解码器;
步骤六、将步骤五中目标特征和跟踪特征通过前馈神经网络分别得到检测框以及跟踪框,利用匈牙利匹配方法将检测框与跟踪框建立匹配关系,得到最终跟踪结果。
2.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法,其特征在于:所述步骤一重点区域实景建模数据处理包括:
输入重点区域的卫星定位信息,然后利用逆地理编码函数获取重点区域的3维全景地图BMAP,BMAP=T(L),其中,L代表重点区域的经纬度信息且经度在前纬度在后,BMAP代表获取到的3维全景地图数据;
接着,利用点采样函数对3维全景地图数据进行稀疏点采样:b=Ω(BMAP);其中,代表抽取到的点云数据,N表示点的数目且每一个点的坐标为(x,y,z);
将获取到的点云数据输入到刚性不变特征提取器以此获取点云的高层特征S:
S=MAXPOOL(MLPs(b));
其中,MLPs表示一系列多层感知机,MAXPOOL代表的是矩阵的取最大数操作,S代表的是点云的高层特征。
3.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法,其特征在于:所述步骤二的具体过程为:
先对重点区域的视频流进行处理:
利用卫星定位获取的重点区域的经纬度信息,通过使用天气查询函数Υ(.),得到重点区域的天气信息W_dic,若是良好天气则其值为1,否则为0,即:W_dic=Υ(L),其中,L代表重点区域的经纬度信息且经度在前纬度在后,W_dic代表得到的该区域的天气信息;若天气字典数据为0则传入多阶段渐进式图像恢复模块进行去雾去雨处理。
4.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法,其特征在于:所述步骤三的具体过程为:
首先,将预处理后的视频数据逐帧输入到ResNet50网络中,并且取最高层语义特征作为后面的输入:
C5=ResNet50(x),
其中,ResNet50网络的网络结构为残差结构,表示为:X=E(x)+G(x);表示预处理后的图片,X代表得到的输出,/>代表获取到的高层语义特征,B表示批量处理的大小,H,W分别表示图片的高和宽,C表示图片的通道数,E(·)表示conv1×1(conv3×3(conv1×1(·))),G(·)表示conv1×1(·),conv1×1(·)表示1×1的卷积神经网络,conv3×3(·)表示3×3的卷积神经网络;
然后,利用空洞残差编码器将高层语义特征C5编码转化为多种感受野融合特征,即将ResNet50网络第四层得到的高层语义特征作为空洞残差模块的输入,并且输出一个融合多种感受野的特征MC=conv3×3(conv1×1(C5));接着,利用空洞残差模块捕获不同感受野得到融合特征P5,残差模块表示为:
P5=Φ(Φ(Φ(Φ(MC,rate1),rate2),rate3),rate4)
其中,Φ(MC,ratei),i∈{1,2,3,4}代表空洞残差网络模块,ratei表示第i层的空洞残差模块的膨胀卷积率,空洞残差网络模块的计算方式为:
Φ(MC,ratei)=E(MC,ratei)+MC,
其中,E(·)表示conv1×1(conv3×3(conv1×1(·)))。
5.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法,其特征在于:所述步骤四中跨模态注意力模块设计过程为:
首先,使用跨模态注意力模块将所得多种感受野的融合特征P5与步骤一所得点云的高层特征S进行多模态融合,具体方法为:
其中,MLP代表多层感知机,S_query,q_key,q_value分别代表注意力模块中的query、key和value,F代表得到的多模态融合特征;
其次,通过多层感知机进行非线性拟合得到当前帧特征图,具体方法:
Ft=MLPs(F);
其中,MLPs表示一系列的多层感知机;
然后,利用得到的当前帧特征图叠加前一帧的特征图,得到连续两帧的特征融合图
其中,Ft表示视频第t帧的特征图,Ft-1是在前一帧运算后就保存下来的特征图,并没有进行重复运算。
6.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法,其特征在于:所述步骤五的编码器结构为:
使q∈Ωq作为查询向量的索引,表示查询向量,k∈Ωk、/>分别表示关键值下标与关键值向量,此处C是特征图的通道数;
多头稀疏采样注意力计算公式如下:
其中,h是不同注意力头的索引,是可学习的权重,Rhqk是与第h个注意头的采样点vk的注意力权重,且/>pq是查询向量vq的一个二维参考点,而表示采样集合点相对于pq的偏移量。
7.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法,其特征在于:所述步骤六中将检测框与跟踪进行匹配的方法为:
设定Dt={d1,d2,...,dn}为检测框集合,Tt={d′1,d′2,...,d′m}为跟踪框集合,其中n和m分别是当前帧的检测目标数量和当前帧的跟踪目标数量;
首先,从检测框集合Dt={d1,d2,...,dn}的未匹配点d1开始在跟踪框集合,Tt={d′1,d′2,...,d′m}中寻找与之相匹配的跟踪框dj′即找到增广路d1→dj′,匹配边为d1-dj′;j∈[1,m];
接着,从未匹配的检测框d2开始找增广路,若增广路为d2→dk′,k,j∈[1,m]且k≠j,则匹配边为d1-dj′与d2-dk′;若增广路为d2→dj′→d1→dk′即d2与dj′匹配且此时d1与dk′也匹配,故匹配边改为d1-dk′与d2-dj′;
以此类推可以为检测框di匹配对应的跟踪框,直至没有未匹配的检测框则匹配结束,若出现未匹配检测框di的增广路中均为已匹配的检测框与跟踪框,当di→dk′→d1→dj′且d1与dj′,d2与dk′已匹配,即无法给di分配未匹配的跟踪框时,匹配也结束;i∈[1,n];
最终,通过匈牙利算法得到检测框与跟踪框的匹配边集合A,即实现对连续帧中目标检测框的关联跟踪。
CN202210644386.4A 2022-06-08 2022-06-08 一种基于重点区域实景建模的视频目标检测与跟踪方法 Active CN115063717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210644386.4A CN115063717B (zh) 2022-06-08 2022-06-08 一种基于重点区域实景建模的视频目标检测与跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210644386.4A CN115063717B (zh) 2022-06-08 2022-06-08 一种基于重点区域实景建模的视频目标检测与跟踪方法

Publications (2)

Publication Number Publication Date
CN115063717A CN115063717A (zh) 2022-09-16
CN115063717B true CN115063717B (zh) 2024-04-23

Family

ID=83199634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210644386.4A Active CN115063717B (zh) 2022-06-08 2022-06-08 一种基于重点区域实景建模的视频目标检测与跟踪方法

Country Status (1)

Country Link
CN (1) CN115063717B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116469059A (zh) * 2023-06-20 2023-07-21 松立控股集团股份有限公司 一种基于detr的停车场出入口车辆积压检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460926A (zh) * 2020-03-16 2020-07-28 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法
CN113807187A (zh) * 2021-08-20 2021-12-17 北京工业大学 基于注意力特征融合的无人机视频多目标跟踪方法
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN114332620A (zh) * 2021-12-30 2022-04-12 杭州电子科技大学 基于特征融合和注意力机制的机载图像车辆目标识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460926A (zh) * 2020-03-16 2020-07-28 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN113807187A (zh) * 2021-08-20 2021-12-17 北京工业大学 基于注意力特征融合的无人机视频多目标跟踪方法
CN114332620A (zh) * 2021-12-30 2022-04-12 杭州电子科技大学 基于特征融合和注意力机制的机载图像车辆目标识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
On-Road Object Detection and Tracking Based on Radar and Vision Fusion: A Review;Xiaolin Tang et al.;《 IEEE Intelligent Transportation Systems Magazine》;20210804;第14卷(第5期);第103-128页 *
基于动态感受野的航拍图像目标检测算法;谢学立;李传祥;杨小冈;席建祥;陈彤;;光学学报;20200229;第40卷(第04期);第0415001-1-13页 *
基于场景切变检测的视频去隔行方法;王晓琦等;《计算机与现代化》;20170901(第08期);第51-55页 *

Also Published As

Publication number Publication date
CN115063717A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN110084156B (zh) 一种步态特征提取方法及基于步态特征的行人身份识别方法
CN110135249B (zh) 基于时间注意力机制和lstm的人体行为识别方法
CN113313736B (zh) 统一目标运动感知和重识别网络的在线多目标跟踪方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN112288627B (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN111814661A (zh) 基于残差-循环神经网络的人体行为识别方法
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN112750198B (zh) 一种基于非刚性点云的稠密对应预测方法
CN111639580B (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
CN111695523B (zh) 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法
CN116758104B (zh) 一种基于改进GCNet的多实例人像抠图方法
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN111444488A (zh) 一种基于动态手势的身份认证方法
CN114038059B (zh) 一种基于双帧速率分治行为识别网络的动态手势识别方法
CN115239765B (zh) 基于多尺度可形变注意力的红外图像目标跟踪***及方法
CN115063717B (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
CN113139489A (zh) 基于背景提取和多尺度融合网络的人群计数方法及***
CN115188066A (zh) 基于协同注意力和多尺度融合的运动目标检测***及方法
CN110826500A (zh) 基于运动链接空间的对抗性网络估计3d人体姿态的方法
CN117058456A (zh) 一种基于多相注意力机制的视觉目标跟踪方法
CN112307892A (zh) 一种基于第一视角rgb-d数据的手部动作识别方法
CN112446253B (zh) 一种骨架行为识别方法及装置
CN113255429A (zh) 一种视频中人体姿态估计与跟踪方法及***
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116895007A (zh) 一种基于改进YOLOv8n的小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant