CN113298136B - 一种基于alpha散度的孪生网络跟踪方法 - Google Patents

一种基于alpha散度的孪生网络跟踪方法 Download PDF

Info

Publication number
CN113298136B
CN113298136B CN202110556609.7A CN202110556609A CN113298136B CN 113298136 B CN113298136 B CN 113298136B CN 202110556609 A CN202110556609 A CN 202110556609A CN 113298136 B CN113298136 B CN 113298136B
Authority
CN
China
Prior art keywords
target
training
regression branch
alpha
twin network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110556609.7A
Other languages
English (en)
Other versions
CN113298136A (zh
Inventor
胡旷伋
朱虎
邓丽珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110556609.7A priority Critical patent/CN113298136B/zh
Publication of CN113298136A publication Critical patent/CN113298136A/zh
Application granted granted Critical
Publication of CN113298136B publication Critical patent/CN113298136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于alpha散度的孪生网络跟踪方法,旨在解决现有技术难以实现高鲁棒性和准确性的视觉跟踪的技术问题。其包括:获取待跟踪图像和训练好的孪生网络,所述孪生网络基于alpha散度进行训练;利用ResNet50提取待跟踪图像的深度特征;利用目标中心回归分支处理待跟踪图像的深度特征,获得待跟踪图像的预测目标位置;利用目标框回归分支分别处理待跟踪图像的深度特征,获得待跟踪图像的预测目标框。本发明能够从概率角度解释了人工标注带来的噪声、不确定度,具有更高的准确性和鲁棒性。

Description

一种基于alpha散度的孪生网络跟踪方法
技术领域
本发明涉及一种基于alpha散度的孪生网络跟踪方法,属于图像视觉技术领域。
背景技术
随着通信、计算机等领域的发展,人工智能已然成为当前人类的研究热点。计算机视觉,让摄像头作为计算机的“眼睛”,观看这个世界,希望计算机能够像大脑一样处理这些海量的高维图像数据,并在工业探伤,医学图像处理,道路安全以及监控防护中应用广泛。目标跟踪是计算机视觉中一个非常重要且基础的方向,在给定初始状态的情况下,估计出视频序列中目标的运动轨迹,看似简单的流程却融合了图像处理、模式识别、概率论和优化理论等多个领域的知识,在军民生活中有着广泛的应用,如体育赛事转播、无人车、智能监控,人机交互***。
近年来,基于判别式相关滤波器的跟踪算法取得卓越的成绩,对于高维图像数据,维持其结构稳定的张量特征表示也逐渐被引入到DCF中。随着计算机的计算能力的不断提升,以及深度神经网络强大的特征提取能力,大量的研究者和科技公司都在基于深度学习进行计算机视觉研究并且取得了巨大成功。最近几年,视觉目标跟踪竞赛的展开,OTB、TrackingNet、COCO等大量人工标注的数据集的出现为基于深度学习的目标跟踪提供了数据训练基础,极大的激励了深度学习在目标跟踪算法的发展,研究者们越发地将传统跟踪算法融入深度网络,减轻了传统方法特征提取和参数优化的压力,提高了目标与背景的分类性能。然而深度学习是数据驱动的,存在着训练时间长、样本需求多、硬件配置需求高的缺点,依然存在着局限性。
此外,***会受到来自两个方面的干扰:目标自身运动造成的旋转、形变、快速运动造成的模糊、尺度变化;外在环境造成的遮挡、背景杂斑。这些干扰给跟踪算法带来了很多的挑战。实现高鲁棒性和准确性的视觉跟踪仍然是一个难点。
目标跟踪与人类的生活息息相关,有着十分宽广的应用前景,虽然技术方法随着科技进步不断更新来克服各种干扰,但是设计一个具有鲁棒性和实时性的***仍然是一项艰巨的任务,对其的研究具有重要意义。
发明内容
为了解决现有技术难以实现高鲁棒性和准确性的视觉跟踪的问题,本发明提出了一种基于alpha散度的孪生网络跟踪方法,在孪生网络框架上使用最小化网络输出的条件概率和真实标注分布之间的alpha散度,从概率角度解释了人工标注带来的噪声、不确定度,具有更高的准确性和鲁棒性。
为解决上述技术问题,本发明采用了如下技术手段:
本发明提出了一种基于alpha散度的孪生网络跟踪方法,包括如下步骤:
获取待跟踪图像和训练好的孪生网络,所述孪生网络基于alpha散度进行训练;
利用训练好的孪生网络中的ResNet50提取待跟踪图像的深度特征;
利用训练好的孪生网络中的目标中心回归分支处理待跟踪图像的深度特征,获得待跟踪图像的预测目标位置;
利用训练好的孪生网络中的目标框回归分支分别处理待跟踪图像的深度特征,获得待跟踪图像的预测目标框。
进一步的,所述孪生网络的训练过程如下:
构建孪生网络的基本框架,所述孪生网络包括采用ResNet50的主干网络、目标中心回归分支和目标框回归分支;
获得孪生网络的训练集和测试集,所述训练集或测试集中包括多幅含有目标的训练图像或测试图像;
利用ResNet50提取训练集中训练图像的深度特征,并将深度特征分别传输到目标中心回归分支和目标框回归分支;
利用目标中心回归分支处理训练图像的深度特征,获得训练图像的预测目标位置,并利用网格采样训练目标中心回归分支的alpha散度;
利用目标框回归分支处理训练图像的深度特征,获得训练图像的预测目标框,并利用蒙特卡洛采样训练目标框回归分支的alpha散度;
通过alpha散度训练确定孪生网络的网络参数,获得训练好的孪生网络;
利用测试集对训练好的孪生网络进行测试。
进一步的,孪生网络训练过程中,选择包含当前帧的前三帧图像作为一组训练图像输入孪生网络,选择包含当前帧的后三帧图像作为一组测试图像测试输入孪生网络。
进一步的,所述目标中心回归分支中采用一个初始化层初始化卷积核,采用优化层更新滤波器;所述目标框回归分支基于IoUnet,对训练图像或测试图像的深度特征使用全连接层得到调制向量,进而回归出各个候选窗与真实目标框之间的重叠度。
进一步的,目标中心回归分支或目标框回归分支的alpha散度的计算公式如下:
Figure BDA0003077394740000041
其中,p(y|xi,θ)表示目标中心回归分支或目标框回归分支输出的条件概率分布,p(y|yi)表示训练图像中真实标注的条件概率分布,Dα[p(y|yi)||p(y|xi,θ)]表示p(y|yi)和p(y|xi,θ)之间的alpha散度,y表示真实目标位置或真实目标框,xi表示第i个训练图像,θ为目标中心回归分支或目标框回归分支的参数,α为alpha散度的控制系数,yi表示第i个训练图像中人工标注的标注目标位置或标注目标框,sθ(y,xi)表示以xi和y为一个样本时目标中心回归分支或目标框回归分支输出的得分,i=1,2,…,n,n为训练集中训练图像的数量。
进一步的,利用网格采样训练目标中心回归分支的alpha散度的方法包括:
将目标中心回归分支输出的置信度得分图划分为K个网格,令
Figure BDA0003077394740000042
其中,y(k)表示第k个网格点的采样目标位置,
Figure BDA0003077394740000043
表示K个网格点的采样目标位置的集合;
利用网格采样方法表示alpha散度并作为目标中心回归分支的损失函数,则第i个训练图像在目标中心回归分支中对应的损失函数的表达式为:
Figure BDA0003077394740000051
其中,Li表示第i个训练图像在目标中心回归分支中对应的损失函数,C=1/α(1-α),α为alpha散度的控制系数,A为网格采样法的放缩因子,p(y(k)|yi)表示第k个网格点中真实标注的条件概率分布,sθ(y(k),xi)表示以xi和y(k)为一个样本时目标中心回归分支输出的置信得分,xi表示第i个训练图像,θ为目标中心回归分支的参数,i=1,2,…,n,n为训练集中训练图像的数量;
利用损失函数Li训练目标中心回归分支的网络参数,获得用于判断目标位置的滤波器。
进一步的,利用蒙特卡洛采样训练目标框回归分支的alpha散度的方法包括:
利用蒙特卡洛采样表示alpha散度并作为目标框回归分支的损失函数,则第i个训练图像在目标框回归分支中对应的损失函数的表达式为:
Figure BDA0003077394740000052
其中,L'i表示第i个训练图像在目标框回归分支中对应的损失函数,C=1/α(1-α),α为alpha散度的控制系数,H为蒙特卡洛采样的采样次数,
Figure BDA0003077394740000053
表示第h次采样中在给定标注目标框yi的条件下的真实概率分布,
Figure BDA0003077394740000054
表示第h次采样中的真实目标框,
Figure BDA0003077394740000055
表示第h次采样中在给定标注目标框yi的条件下的抽样概率分布,
Figure BDA0003077394740000061
表示以xi
Figure BDA0003077394740000062
为一个样本时目标框回归分支输出的重叠度,xi表示第i个训练图像,θ为目标框回归分支的参数,i=1,2,…,n,n为训练集中训练图像的数量;
利用损失函数L'i训练目标框回归分支的网络参数。
进一步的,所述方法还包括如下步骤:
当训练好的孪生网络对预设帧数的待跟踪图像进行跟踪处理后,利用在线更新样本更新孪生网络中目标中心回归分支的网络参数,获得新的训练好的孪生网络。
进一步的,所述预设帧数的取值范围为5~20。
采用以上技术手段后可以获得以下优势:
本发明提出了一种基于alpha散度的孪生网络跟踪方法,利用ResNet提取输入图像的深层特征,并分别利用目标中心回归分支和目标框回归分支获得输入图像中目标的预测目标位置和预测目标框,能够给出视频序列中目标的运动轨迹。本发明从概率角度出发,使用条件概率分布作为孪生网络的输出,以alpha散度作为网络的损失函数,通过大量数据集进行孪生网络训练,能够拟合网络输出分布与真实标注的分布,进而消除人工标注的目标区域存在的不确定性以及人工标注的引入的噪声,减少跟踪干扰,提高目标跟踪的鲁棒性和准确性。
在孪生网络结构中,本发明分别使用网格采样法和蒙特卡洛采样法对目标中心回归分支和目标框回归分支的alpha散度进行求解,孪生网络无需收到loss选择的干扰,直接使用alpha散度即可。此外,本发明方法在实际应用中还会进行网络参数更新,进一步确保孪生网络的跟踪效果。
本发明方法的目标跟踪效果高于现有的***,目标跟踪的精确度、成功率和速度都较高,具有更高的准确性和鲁棒性,有着十分宽广的应用前景。
附图说明
图1为本发明一种基于alpha散度的孪生网络跟踪方法的步骤流程图;
图2为本发明实施例中孪生网络的网络结构图;
图3为本发明实施例中孪生网络的训练步骤流程图;
图4为本发明实施例中本发明方法及对比***在OTB100数据集上的精确度图;
图5为本发明实施例中本发明方法及对比***在OTB100数据集上的成功率图;
图6为本发明实施例中本发明方法及对比***在UAV123数据集上的精确度图;
图7为本发明实施例中本发明方法及对比***在UAV123数据集上的成功率图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明:
本发明提出了一种基于alpha散度的孪生网络跟踪方法,如图1所示,具体包括如下步骤:
步骤1、获取待跟踪图像和训练好的孪生网络,本发明中的孪生网络基于alpha散度进行训练。当需要对一个视频中的某一个或多个目标进行跟踪识别时,可以按照时间顺序提取视频中的图像,将每一帧图像作为一幅待跟踪图像,输入到训练好的孪生网络中,进行目标跟踪识别。
在本发明实施例中,孪生网络的网络结构如图2所示,孪生网络主要包括1个主干网络和2个分支网络,其中,主干网络采用ResNet50,分支网络分别为目标中心回归分支和目标框回归分支,分支网络可以看做卷积神经网络。
步骤2、利用训练好的孪生网络中的ResNet50提取待跟踪图像的深度特征。每一帧待跟踪图像输入ResNet50后,将ResNet50的第三、四层输出的特征经过池化后得到待跟踪图像的深度特征,该深度特征是目标中心回归分支和目标框回归分支的输入。
步骤3、利用训练好的孪生网络中的目标中心回归分支处理待跟踪图像的深度特征,目标中心回归分支相当于一个用于目标粗略定位的滤波器,将待跟踪图像的深度特征与该滤波器进行卷积操作可以得到置信得分,置信得分最大值点对应的位置即为待跟踪图像的预测目标位置。
步骤4、利用训练好的孪生网络中的目标框回归分支分别处理待跟踪图像的深度特征,目标框回归分支基于IoUnet,在待跟踪图像中的目标位置处生产多个候选目标框,使用调制网络得到调制向量,并回归出每个候选目标框的IoU得分(重叠度),其中最大的IoU得分对应的候选目标框即为待跟踪图像的预测目标框。
步骤5、当训练好的孪生网络对预设帧数的待跟踪图像进行跟踪处理后,利用在线更新样本更新孪生网络中目标中心回归分支的网络参数,获得新的训练好的孪生网络。
为了进一步提高本发明方法的目标跟踪效果,本发明在是实际应用中需要对网络参数进行更新,本发明对每一帧输入孪生网络的待跟踪图像进行存储,以最近存储的50帧图像作为在线更新样本,当孪生网络连续对预设帧数的待跟踪图像进行跟踪处理后,利用在线更新样本再次训练孪生网络中目标中心回归分支,更新滤波器的网络参数,并在后续应用中,使用更新后的孪生网络进行目标跟踪处理。其中,预设帧数的取值范围为5~20。
为了避免深度学习中因为损失函数的选择问题而导致跟踪效果的偏差,本发明利用alpha散度作为两个分支网络的损失函数进行孪生网络训练,其原理为最小化网络输出的条件概率分布和真实标注分布之间的alpha散度,使得预测分布近似于真实分布。目标中心回归分支或目标框回归分支的alpha散度的计算公式如下:
Figure BDA0003077394740000091
其中,Dα[p(y|yi)||p(y|xi,θ)]表示p(y|yi)和p(y|xi,θ)之间的alpha散度,p(y|xi,θ)表示目标中心回归分支或目标框回归分支输出的条件概率分布,p(y|yi)表示训练图像中真实标注的条件概率分布,y表示样本真实值,在目标中心回归分支中y表示真实目标位置,在目标框回归分支中y表示真实目标框,xi表示第i个训练图像,θ为目标中心回归分支或目标框回归分支的参数,α为alpha散度的控制系数,本发明可以通过人工调节α使得预测分布和真实分布更加拟合,yi表示第i个训练图像中的人工标注值,在目标中心回归分支中yi表示人工标注的标注目标位置,在目标框回归分支中yi表示人工标注的标注目标框,sθ(y,xi)表示以xi和y为一个样本时目标中心回归分支或目标框回归分支输出的得分,即分支网络在图像xi的位置y上的输出,在目标中心回归分支中sθ(y,xi)表示置信得分,在目标框回归分支中sθ(y,xi)表示重叠度,也可以称为IoU得分,i=1,2,…,n,n为训练集中训练图像的数量。
p(y|xi,θ)的计算公式如下:
Figure BDA0003077394740000101
Zθ(xi)=∫exp(sθ(y,xi))dy (6)
给定网络fθ(·),二维图像的平移不变性可以高效地参数化网络的输出sθ(y,xi)=fθ(xi)(y)。
如图3所示,孪生网络的训练过程如下:
步骤A、构建孪生网络的基本框架,具体框架如图2所示。
步骤B、获得孪生网络的训练集和测试集,训练集中包括多幅含有目标的训练图像,每幅训练图像中含有人工标注的标注目标位置和标注目标框;测试集中包括多幅含有目标的测试图像。
在进行后续的训练和测试操作时,本发明方法选择包含当前帧的前三帧图像作为一组训练图像输入孪生网络,选择包含当前帧的后三帧图像作为一组测试图像测试输入孪生网络。
步骤C、利用ResNet50提取训练集中训练图像的深度特征,并将深度特征分别传输到目标中心回归分支和目标框回归分支。利用ResNet50提取输入的训练图像的特征,具体的,分别使用ResNet的第三层和第四层的特征,该特征将经过池化层prPooling,进行池化,然后再输入分支网络。
步骤D、利用目标中心回归分支处理训练图像的深度特征,获得训练图像的预测目标位置,并利用网格采样训练目标中心回归分支的alpha散度。
目标中心回归分支用于目标中心回归,其中使用了一个初始化层初始化卷积核(即滤波器参数),使用优化层更新滤波器。
步骤D01、利用目标中心回归分支对训练图像的深度特征进行卷积操作,可以得到置信得分,选取置信得分的最大值点对应的位置作为训练图像的预测目标位置。
步骤D02、根据预测目标位置和人工标注的标注目标位置可以对目标中心回归分支进行损失计算。
本发明使用网格采样法对alpha散度的积分求解,设目标中心回归分支输出的置信度得分图可以划分为K个网格,,令
Figure BDA0003077394740000111
其中,y(k)表示第k个网格点的采样目标位置,
Figure BDA0003077394740000112
表示K个网格点的真实目标位置集合。
利用网格采样方法表示公式(4)中的alpha散度并作为目标中心回归分支的损失函数,则第i个训练图像在目标中心回归分支中对应的损失函数的表达式为:
Figure BDA0003077394740000113
其中,Li表示第i个训练图像在目标中心回归分支中对应的损失函数,C=1/α(1-α),A为网格采样法的放缩因子,p(y(k)|yi)表示第k个网格点中真实标注的条件概率分布,sθ(y(k),xi)表示以xi和y(k)为一个样本时目标中心回归分支输出的置信得分。最终的损失函数为小批量样本上的平均损失。
步骤D03、利用损失函数Li训练目标中心回归分支的网络参数,获得用于判断目标位置的滤波器。
步骤E、利用目标框回归分支处理训练图像的深度特征,获得训练图像的预测目标框,并利用蒙特卡洛采样训练目标框回归分支的alpha散度。
步骤E01、利用目标框回归分支处理训练图像的深度特征,在训练图像的目标位置生产多个候选目标框,并计算各个候选目标窗与真实目标框之间的重叠度,根据重叠度选择最优候选目标窗作为训练图像对应的预测目标框。
步骤E02、根据预测目标框和人工标注的标注目标框对目标框回归分支进行损失计算。
将目标框回归分支输出的重叠度表示为
Figure BDA0003077394740000121
其中,ybb表示目标的真实边框,x表示训练图像,本发明不会用负对数似然损失-logp(yi|xi,θ)=log(∫exp(sθ(y,xi))dy)-sθ(yi,xi),而是采用公式(4)中的alpha散度作为损失函数,并利用蒙特卡洛采样对alpha散度进行求解,此处不使用网格采样的原因是:网格采样在目标框回归中会导致计算量变大,很难推广到高维且存在采样偏差。通常目标框的不确定度由人工标注边框时产生,尤其对于小目标,人工标注时会由标注者的不同产生不同的标注而引入噪声,本发明假设在给定标注目标框yi的条件下,用于抽样的真实目标框的概率分布为:
Figure BDA0003077394740000131
利用蒙特卡洛采样表示alpha散度并作为目标框回归分支的损失函数,则第i个训练图像在目标框回归分支中对应的损失函数的表达式为:
Figure BDA0003077394740000132
其中,L'i表示第i个训练图像在目标框回归分支中对应的损失函数,H为蒙特卡洛采样的采样次数,
Figure BDA0003077394740000133
表示第h次采样中在给定标注目标框yi的条件下的真实概率分布,
Figure BDA0003077394740000134
表示第h次采样中的真实目标框,
Figure BDA0003077394740000135
Figure BDA0003077394740000136
表示第h次采样中在给定标注目标框yi的条件下的抽样概率分布,
Figure BDA0003077394740000137
表示以xi
Figure BDA0003077394740000138
为一个样本时目标框回归分支输出的重叠度。
当候选目标框的分布能够覆盖样本真实条件概率分布以及预测输出的条件概率分布中高的区域,而以标注目标框为中心使用混合高斯模型可以满足回归边框的任务。
步骤E03、利用损失函数L'i训练目标框回归分支的网络参数。
步骤F、通过alpha散度训练确定孪生网络的网络参数,获得训练好的孪生网络。
步骤G、利用测试集对训练好的孪生网络进行测试。
为了验证本发明方法的效果,下面给出一组对比实验:
对比实验的硬件采用两块RTX 2080Ti的显卡,一个12核,每个核两个进程的CPU,64G运行内存的服务器进行训练和实验。
首先在COCO、GOT10K、LaSot、TrackingNet数据集上对本发明方法中的孪生网络进行了50代训练,每一代上训练1000次,得到孪生网络最终的网络参数;然后利用本发明方法与STRCF、LADCF、ECO-HC、GFSDCF、ARCF-H、ARCF-HC、AutoTrackC、SAMF、KCF、DSST、HOG-LR、BACF、Staple+CA、SRDCF、SAMF+AT等***分别在数据集OTB100、数据集UAV123上进行对比实验,本发明方法及对比***在2个数据集上的精确度和成功率如图4~7所示。
根据图4、5可知,本发明方法(alphaTK)在OTB100数据集上的跟踪效果明显高于其他对比***,在精确度曲线中比第二名STRCF高了0.3%,在成功率曲线中比第二名LADCF高了2%。根据图6、7可知,本发明方法在UAV123数据集上精确度和成功率也都高于其他对比***,在精确度曲线中比第二名AutoTrackC高了4.4%,在成功率曲线中比第二名高了14.1%。通过对比实验可以看出本发明方法在OTB100和UAV123数据集上都可以取得良好的目标跟踪效果,在UAV123中的表现更加突出。
本发明方法从概率角度出发,使用条件概率分布作为孪生网络的输出,以alpha散度作为网络的损失函数,通过大量数据集进行孪生网络训练,能够拟合网络输出分布与真实标注的分布,进而消除人工标注的目标区域存在的不确定性以及人工标注的引入的噪声,减少跟踪干扰,提高目标跟踪的鲁棒性和准确性。在孪生网络结构中,本发明分别使用网格采样法和蒙特卡洛采样法对目标中心回归分支和目标框回归分支的alpha散度进行求解,孪生网络无需收到loss选择的干扰,直接使用alpha散度即可。本发明方法的目标跟踪效果高于现有的***,有着十分宽广的应用前景。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种基于alpha散度的孪生网络跟踪方法,其特征在于,包括如下步骤:
获取待跟踪图像和训练好的孪生网络,所述孪生网络基于alpha散度进行训练;
利用训练好的孪生网络中的ResNet50提取待跟踪图像的深度特征;
利用训练好的孪生网络中的目标中心回归分支处理待跟踪图像的深度特征,获得待跟踪图像的预测目标位置;
利用训练好的孪生网络中的目标框回归分支分别处理待跟踪图像的深度特征,获得待跟踪图像的预测目标框;
所述孪生网络的训练过程如下:
构建孪生网络的基本框架,所述孪生网络包括采用ResNet50的主干网络、目标中心回归分支和目标框回归分支;
获得孪生网络的训练集和测试集,所述训练集或测试集中包括多幅含有目标的训练图像或测试图像;
利用ResNet50提取训练集中训练图像的深度特征,并将深度特征分别传输到目标中心回归分支和目标框回归分支;
利用目标中心回归分支处理训练图像的深度特征,获得训练图像的预测目标位置,并利用网格采样训练目标中心回归分支的alpha散度;
利用目标框回归分支处理训练图像的深度特征,获得训练图像的预测目标框,并利用蒙特卡洛采样训练目标框回归分支的alpha散度;
通过alpha散度训练确定孪生网络的网络参数,获得训练好的孪生网络;
利用测试集对训练好的孪生网络进行测试。
2.根据权利要求1所述的一种基于alpha散度的孪生网络跟踪方法,其特征在于,孪生网络训练过程中,选择包含当前帧的前三帧图像作为一组训练图像输入孪生网络,选择包含当前帧的后三帧图像作为一组测试图像测试输入孪生网络。
3.根据权利要求1所述的一种基于alpha散度的孪生网络跟踪方法,其特征在于,所述目标中心回归分支中采用一个初始化层初始化卷积核,采用优化层更新滤波器;所述目标框回归分支基于IoUnet,对训练图像或测试图像的深度特征使用全连接层得到调制向量,进而回归出各个候选窗与真实目标框之间的重叠度。
4.根据权利要求1所述的一种基于alpha散度的孪生网络跟踪方法,其特征在于,目标中心回归分支或目标框回归分支的alpha散度的计算公式如下:
Figure FDA0003687188760000021
其中,p(y|xi,θ)表示目标中心回归分支或目标框回归分支输出的条件概率分布,p(y|yi)表示训练图像中真实标注的条件概率分布,Dα[p(y|yi)||p(y|xi,θ)]表示p(y|yi)和p(y|xi,θ)之间的alpha散度,y表示真实目标位置或真实目标框,xi表示第i个训练图像,θ为目标中心回归分支或目标框回归分支的参数,α为alpha散度的控制系数,yi表示第i个训练图像中人工标注的标注目标位置或标注目标框,sθ(y,xi)表示以xi和y为一个样本时目标中心回归分支或目标框回归分支输出的得分,i=1,2,…,n,n为训练集中训练图像的数量。
5.根据权利要求1所述的一种基于alpha散度的孪生网络跟踪方法,其特征在于,利用网格采样训练目标中心回归分支的alpha散度的方法包括:
将目标中心回归分支输出的置信度得分图划分为K个网格,令
Figure FDA0003687188760000031
其中,y(k)表示第k个网格点的采样目标位置,
Figure FDA0003687188760000032
表示K个网格点的采样目标位置的集合;
利用网格采样方法表示alpha散度并作为目标中心回归分支的损失函数,则第i个训练图像在目标中心回归分支中对应的损失函数的表达式为:
Figure FDA0003687188760000033
其中,Li表示第i个训练图像在目标中心回归分支中对应的损失函数,C=1/α(1-α),α为alpha散度的控制系数,A为网格采样法的放缩因子,p(y(k)|yi)表示第k个网格点中真实标注的条件概率分布,sθ(y(k),xi)表示以xi和y(k)为一个样本时目标中心回归分支输出的置信得分,xi表示第i个训练图像,θ为目标中心回归分支的参数,i=1,2,…,n,n为训练集中训练图像的数量;
利用损失函数Li训练目标中心回归分支的网络参数,获得用于判断目标位置的滤波器。
6.根据权利要求1所述的一种基于alpha散度的孪生网络跟踪方法,其特征在于,利用蒙特卡洛采样训练目标框回归分支的alpha散度的方法包括:
利用蒙特卡洛采样表示alpha散度并作为目标框回归分支的损失函数,则第i个训练图像在目标框回归分支中对应的损失函数的表达式为:
Figure FDA0003687188760000041
其中,L'i表示第i个训练图像在目标框回归分支中对应的损失函数,C=1/α(1-α),α为alpha散度的控制系数,H为蒙特卡洛采样的采样次数,
Figure FDA0003687188760000042
表示第h次采样中在给定标注目标框yi的条件下的真实概率分布,
Figure FDA0003687188760000043
表示第h次采样中的真实目标框,
Figure FDA0003687188760000044
表示第h次采样中在给定标注目标框yi的条件下的抽样概率分布,
Figure FDA0003687188760000045
表示以xi
Figure FDA0003687188760000046
为一个样本时目标框回归分支输出的重叠度,xi表示第i个训练图像,θ为目标框回归分支的参数,i=1,2,…,n,n为训练集中训练图像的数量;
利用损失函数L'i训练目标框回归分支的网络参数。
7.根据权利要求1所述的一种基于alpha散度的孪生网络跟踪方法,其特征在于,所述方法还包括如下步骤:
当训练好的孪生网络对预设帧数的待跟踪图像进行跟踪处理后,利用在线更新样本更新孪生网络中目标中心回归分支的网络参数,获得新的训练好的孪生网络。
8.根据权利要求7所述的一种基于alpha散度的孪生网络跟踪方法,其特征在于,所述预设帧数的取值范围为5~20。
CN202110556609.7A 2021-05-21 2021-05-21 一种基于alpha散度的孪生网络跟踪方法 Active CN113298136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110556609.7A CN113298136B (zh) 2021-05-21 2021-05-21 一种基于alpha散度的孪生网络跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110556609.7A CN113298136B (zh) 2021-05-21 2021-05-21 一种基于alpha散度的孪生网络跟踪方法

Publications (2)

Publication Number Publication Date
CN113298136A CN113298136A (zh) 2021-08-24
CN113298136B true CN113298136B (zh) 2022-08-05

Family

ID=77323619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110556609.7A Active CN113298136B (zh) 2021-05-21 2021-05-21 一种基于alpha散度的孪生网络跟踪方法

Country Status (1)

Country Link
CN (1) CN113298136B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229052B (zh) * 2023-05-09 2023-07-25 浩鲸云计算科技股份有限公司 一种基于孪生网络的变电站设备状态变化检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN112712546A (zh) * 2020-12-21 2021-04-27 吉林大学 一种基于孪生神经网络的目标跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN112712546A (zh) * 2020-12-21 2021-04-27 吉林大学 一种基于孪生神经网络的目标跟踪方法

Also Published As

Publication number Publication date
CN113298136A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN113610126B (zh) 基于多目标检测模型无标签的知识蒸馏方法及存储介质
Lim et al. Isolated sign language recognition using convolutional neural network hand modelling and hand energy image
Yuan et al. Robust visual tracking with correlation filters and metric learning
CN108256421A (zh) 一种动态手势序列实时识别方法、***及装置
CN109859241B (zh) 自适应特征选择和时间一致性鲁棒相关滤波视觉跟踪方法
CN104484890B (zh) 基于复合稀疏模型的视频目标跟踪方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN104463191A (zh) 一种基于注意机制的机器人视觉处理方法
CN112307995A (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN109508686B (zh) 一种基于层次化特征子空间学习的人体行为识别方法
CN113298136B (zh) 一种基于alpha散度的孪生网络跟踪方法
CN110084834B (zh) 一种基于快速张量奇异值分解特征降维的目标跟踪方法
Tang et al. Transound: Hyper-head attention transformer for birds sound recognition
Yao RETRACTED ARTICLE: Deep learning analysis of human behaviour recognition based on convolutional neural network analysis
Huang et al. BSCF: Learning background suppressed correlation filter tracker for wireless multimedia sensor networks
CN103996207A (zh) 一种物体跟踪方法
CN114038011A (zh) 一种室内场景下人体异常行为的检测方法
Liu et al. Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model
Ikram et al. Real time hand gesture recognition using leap motion controller based on CNN-SVM architechture
Guo et al. An adaptive kernelized correlation filters with multiple features in the tracking application
Zhang et al. Robust correlation tracking in unmanned aerial vehicle videos via deep target-specific rectification networks
CN116343335A (zh) 一种基于动作识别的运动姿态矫正方法
Zhou et al. Hybrid generative-discriminative learning for online tracking of sperm cell
CN110659576A (zh) 一种基于联合判断与生成学习的行人搜索方法及装置
CN109492530A (zh) 基于深度多尺度时空特征的健壮性视觉物体跟踪算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant