CN110472679A - 一种基于Siamese网络的无人机跟踪方法及装置 - Google Patents

一种基于Siamese网络的无人机跟踪方法及装置 Download PDF

Info

Publication number
CN110472679A
CN110472679A CN201910728575.8A CN201910728575A CN110472679A CN 110472679 A CN110472679 A CN 110472679A CN 201910728575 A CN201910728575 A CN 201910728575A CN 110472679 A CN110472679 A CN 110472679A
Authority
CN
China
Prior art keywords
low
unmanned plane
dimensional
eigenmatrix
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910728575.8A
Other languages
English (en)
Inventor
纪元法
何传骥
孙希延
付文涛
严素清
符强
王守华
黄建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201910728575.8A priority Critical patent/CN110472679A/zh
Publication of CN110472679A publication Critical patent/CN110472679A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于Siamese网络的无人机跟踪方法及装置,该方法包括采集无人机图像样本;对采集的所述无人机图像样本进行数据扩充,生成第一样本;利用第一样本对Siamese网络进行预训练;利用训练好的Siamese网络对实时采集的无人机图像进行特征提取,生成第一低维特征矩阵;在实时采集的无人机图像中选取无人机的位置;利用训练好的Siamese网络对跟踪目标进行特征提取,生成第二低维特征矩阵;在第一低维特征矩阵中进行滑动操作,生成若干第三低维特征矩阵;计算第二低维特征矩阵与第三低维特征矩阵的相似度,其中与第二低维特征矩阵相似度最高的第三低维特征矩阵即为跟踪目标的下一帧区域;将相似性最高的区域的二进制掩膜作为输出,得到无人机在视频中的位置。

Description

一种基于Siamese网络的无人机跟踪方法及装置
技术领域
本发明属于图像处理领域,具体涉及一种基于Siamese网络的无人机跟踪方法及装置。
背景技术
无人机通常是指一种有动力、可控制、可执行多种任务,并能重复使用的无人驾驶飞行 器。与有人驾驶飞机相比,无人机具有重量轻、雷达反射截面小、运行成本低、灵活性高且 不存在机组人员安全问题等优点,可广泛用于侦察、攻击等军事任务;在民用方面,可用于 气象探测、灾害监测、地质勘探、地图测绘等诸多领域,因此受到越来越多国家的重视,发 展迅猛。无人机的飞行速度较快,且一般具有独特的几何形状,表现为缺乏完整的结构信息, 针对无人机的目标跟踪算法一直是一个具有挑战性的难题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于Siamese网络的无人机 跟踪方法及装置,以解决解决了无人机飞行时跟踪困难的问题。
为实现上述目的及其他相关目的,本发明提供一种基于Siamese网络的无人机跟踪方法, 该跟踪方法包括:
采集无人机图像样本;
对采集的所述无人机图像样本进行数据扩充,生成第一样本;
利用所述第一样本对Siamese网络进行预训练;
利用训练好的Siamese网络对实时采集的无人机图像进行特征提取,生成第一低维特征 矩阵;
在实时采集的无人机图像中选取无人机的位置,将该位置作为跟踪目标;
利用训练好的Siamese网络对所述跟踪目标进行特征提取,生成第二低维特征矩阵,所 述第二低维特征矩阵表示跟踪目标区域;
以所述跟踪目标区域为模版,在第一低维特征矩阵中进行滑动操作,生成若干第三低维 特征矩阵;
计算所述第二低维特征矩阵与所述第三低维特征矩阵的相似度,其中与第二低维特征矩 阵相似度最高的第三低维特征矩阵即为跟踪目标的下一帧区域;
将所述相似性最高的区域的二进制掩膜作为输出,得到无人机在视频中的位置。
可选地,所述Siamese网络包括:
第一ResNet-50网络,用于对所述实时采集的无人机图像进行特征提取,生成第一低维 特征矩阵;
第二ResNet-50网络,用于对所述跟踪目标进行特征提取,生成第二低维特征矩阵。
可选地,利用CycleGAN网络对采集的所述无人机图像样本进行数据扩充。
可选地,所述CycleGAN网络包括:
生成器,用于接收一个随机的噪声,生成图片;
判别器,用于对所述生成器生成的图片进行判别,输出真实图片的概率。
可选地,计算计算所述第二低维特征矩阵与所述第三低维特征矩阵的相似度,即计算所 述第二低维特征矩阵与所述第三低维特征矩阵之间的距离,包括:
定义所述距离的最低阈值min_threshold、中间阈值mid_threshold和最高阈值max_threshold
根据所述最低阈值min_threshold、中间阈值mid_threshold和最高阈值max_threshold 对特征点进行分类,包括噪声点、关键特征点、边缘特征点和普通特征点;
根据所述特征点的类型,分别进行加权求值,最后计算出特征矩阵之间的距离。
可选地,若特征点的特征强度低于最小阈值min_threshold,则定义为噪声点;
若特征点的特征强度大于最大阈值max_threshold,则定义为关键特征点;
若特征点的特征强度大于最小阈值min_threshold且小于中间阈值mid_threshold,则 定义为边缘特征点;
若特征强度大于中间阈值mid_threshold且小于最大阈值max_threshold,则定义为普 通特征点。
可选地,计算特征矩阵之间的距离,包括:
设第二低维特征矩阵和第三低维特征矩阵其中Na, Nb分别为矩阵A和矩阵B的特征点总数,则矩阵A和矩阵B之间的Hausdorff距离定义为:
H(A,B)=max(h(A,B),h(B,A))
式中H(A,B)称为双向Hausdorff距离,是单向距离h(A,B)和h(B,A)两者中的较大者, 表示两个矩阵间的最大不匹配程度,h(A,B)和h(B,A)分别称为从矩阵A到矩阵B,从矩阵B 到矩阵A的单向Hausdorff距离,为:
其中,||·||为两个点之间的距离,a是属于矩阵A的一个特征点,b是属于矩阵B的一个 特征点,d(a,B)是矩阵A上特征点a到矩阵B的距离,ωa表示距离(Na-k)的一个权重,Na是矩阵A的特征点总数,则矩阵A到矩阵B的有向距离h(A,B)表示为:
为实现上述目的及其他相关目的,本发明还提供一种基于Siamese网络的无人机跟踪装 置,该跟踪装置包括:
图像采集模块,用于采集无人机图像样本;
数据扩充模块,用于对采集的所述无人机图像样本进行数据扩充,生成第一样本;
训练模块,用于利用所述第一样本对Siamese网络进行预训练;
第一特征提取模块,用于利用训练好的Siamese网络对实时采集的无人机图像进行特征 提取,生成第一低维特征矩阵;
位置选择模块,用于在实时采集的无人机图像中选取无人机的位置,将该位置作为跟踪 目标;
第二特征提取模块,用于利用训练好的Siamese网络对所述跟踪目标进行特征提取,生 成第二低维特征矩阵,所述第二低维特征矩阵表示跟踪目标区域;
滑动模块,用于以所述跟踪目标区域为模版,在第一低维特征矩阵中进行滑动操作,生 成若干第三低维特征矩阵;
相似度计算模块,用于计算所述第二低维特征矩阵与所述第三低维特征矩阵的相似度, 其中与第二低维特征矩阵相似度最高的第三低维特征矩阵即为跟踪目标的下一帧区域;
输出模块,用于将所述相似度最高的区域的二进制掩膜作为输出,得到无人机在视频中 的位置。
为实现上述目的及其他相关目的,本发明还提供一种电子终端,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器存储的计算机程序,以使所述设备执行所述的方法。
为实现上述目的及其他相关目的,本发明还提供一种计算机可读存储介质,存储计算机 程序,所述计算机程序被处理器运行时执行所述的方法。
如上所述,本发明的一种基于Siamese网络的无人机跟踪方法及装置,具有以下有益效 果:
本发明使用基于Siamese网络的无人机跟踪方法能够在训练数据集较小的情况下,实现 对无人机的准确视觉跟踪,同时以二进制掩膜的形式将无人机在视频中的位置标示出来,方 便无人机使用者和监测者能够更加清楚地观察无人机的位置。
附图说明
为了进一步阐述本发明所描述的内容,下面结合附图对本发明的具体实施方式作进一步 详细的说明。应当理解,这些附图仅作为典型示例,而不应看作是对本发明的范围的限定。
图1为本发明一实施例中一种基于Siamese网络的无人机跟踪方法的流程图;
图2为本发明一实施例中一种基于Siamese网络的无人机跟踪装置的原理框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露 的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加 以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精 神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征 可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图 式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实 际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复 杂。
如图1所示,本实施例提出一种基于Siamese网络的无人机跟踪方法,以Siamese网络 为结构主体,构建无人机跟踪网络基本框架。
S1.采集无人机图像样本;
S2.对采集的所述无人机图像样本进行数据扩充,生成第一样本;
S3.利用所述第一样本对Siamese网络进行预训练;
S4.利用训练好的Siamese网络对实时采集的无人机图像进行特征提取,生成第一低维特 征矩阵;
S5.在实时采集的无人机图像中选取无人机的位置,将该位置作为跟踪目标;
S6.利用训练好的Siamese网络对所述跟踪目标进行特征提取,生成第二低维特征矩阵, 所述第二低维特征矩阵表示跟踪目标区域;
S7.以所述跟踪目标区域为模版,在第一低维特征矩阵中进行滑动操作,生成若干第三低 维特征矩阵;
S8.计算所述第二低维特征矩阵与所述第三低维特征矩阵的相似度,其中与第二低维特征 矩阵相似度最高的第三低维特征矩阵即为跟踪目标的下一帧区域;
S9.将所述相似性最高的区域的二进制掩膜作为输出,得到无人机在视频中的位置。
在步骤S2中,对采集的所述无人机图像样本进行数据扩充,生成第一样本。
具体地,在步骤S2中,采用CycleGAN网络用于数据增强,对无人机图像样本进行数据 扩充。CycleGAN网络具有一定的灵活性,能够不需要提供从原始域到目标域的配对转换例子 就可以训练。使用CycleGAN网络能够从有限的原始图片里派生出大量的且具有类似结构信息 的图片,从而丰富训练数据集,使用这些训练集来对Siamese网络进行预训练,可以得到泛 化能力更强的网络,能够更好的适应应用场景。
在获取无人机图像样本时,采用CycleGAN网络用于数据增强。CycleGAN网络能够将一 类图片转换为另一类图片,其结构主要由生成器(generator)和判别器(discriminator)构 成,生成器G是生成图片的网络,接收一个随机的噪声z,生成图片G(z),其目标是尽量生成 真实的图片去欺骗判别器D。判别器D能够判别一张图片是否为真实的。输入一张图片x,输 出D(x)为x为真实图片的概率,目的是尽量把生成器生成的图片和真实的图片区别出来。假 定有2个样本空间X和Y,要把X空间中的样本转换成Y空间中的样本,需要学习从X到Y 的映射(设这个映射为F),F就对应着GAN中的生成器G,F可以将X中的图片x转换为Y中 的图片F(x)。算法流程如下:
将两个输入分别传递到对应的鉴别器,一个对应于该域的原始图像,另一个是通过生成 器产生的图像,使用鉴别器进行区分,识别出生成器输出的生成图像,并拒绝此生成图像。
生成器为了确保生成的图片能被鉴别器所接受,会不断自我改进,生成更接近于原始图 像的新图像,鉴别器和生成器之间达成某种平衡。
对于生成的图片,还需要GAN中的判别器来判别它是否为真实图片,由此构成对抗生成 网络。设这个判别器为DY,根据生成器和判别器,可以构造一个GAN损失,表达式为
LGAN(F,DY,X,Y)=Ey~Pdata(y)[logDY(y)]+Ex~Pdata(x)[log(1-DY(F(x)))] (1)
E(*)表示分布函数的期望值,Pdata(x)表示x样本的分布,Pdata(y)表示y样本的分布。
单纯使用这一GAN损失无法进行训练,需要采用循环一致性损失(cycleconsistency loss),再假设一个映射G,它可以将Y空间中的图片y转换为X中的图片G(y),CycleGAN 同时学习F和G两个映射,并要求F(G(y))≈y,G(F(x))≈x,循环一致性损失可定义为:
Lcyc(F,G,X,Y)=Ex~Pdata(x)[||G(F(x))-x||1]+Ey~Pdata(y)[||F(G(y))-y||1] (2)
||·||表示范数。
同时,为G也引入一个判别器Dx,由此可以同样定义一个GAN的损失LGAN(G,Dx,X,Y)。最终的损失就由三部分组成:
L=LGAN(F,DY,X,Y)+LGAN(G,Dx,X,Y)+λLcyc(F,G,X,Y) (3)
在步骤S3中,利用所述第一样本对Siamese网络进行预训练;对Siamese网络进行预训 练,可以得到泛化能力更强的网络,能够更好的适应应用场景。
在步骤S4中,利用训练好的Siamese网络对实时采集的无人机图像进行特征提取,生成 第一低维特征矩阵。
在步骤S6中,利用训练好的Siamese网络对所述跟踪目标进行特征提取,生成第二低维 特征矩阵,所述第二低维特征矩阵表示跟踪目标区域。
具体地,Siamese网络由2个ResNet-50分支构成,第一ResNet-50网络和第二ResNet-50 网络。其中,第一ResNet-50网络用于提取实时采集的无人机图像的特征生成第一低维特征 矩阵;第二ResNet-50网络用于利用训练好的Siamese网络对所述跟踪目标进行特征提取, 生成第二低维特征矩阵。ResNet-50网络由4个依次叠层设置的卷积层构成。在本实施例中, 采用ResNet-50网络进行特征提取,能够保留有效低维特征。
在步骤S8中,计算所述第二低维特征矩阵与所述第三低维特征矩阵的相似度,其中与第 二低维特征矩阵相似度最高的第三低维特征矩阵即为跟踪目标的下一帧区域。
具体地,在Siamese网络中,将输入视频流和无人机图像样本分别送入Siamese网络的 两个分支中,通过ResNet-50卷积神经网络处理得到2组低维特征矩阵,再对特征矩阵进行 相似性计算。
将实时采集的图像视频流通过siamese网络中的ResNet-50转化为第一低维特征矩阵, 即一个大的低维特征矩阵,以这个矩阵作为背景。
在实时采集图像中临时选取的一个位置(本发明中为无人机的位置,通过画框标注),即 跟踪目标。
用另一个ResNet-50对该选取位置进行特征提取,生成第二低维特征矩阵,即为跟踪目 标区域。
以该跟踪区域为模板,通过滑动该模板的形式,在实时采集的第一低维特征矩阵中进行 滑动模板操作,生成若干个第三低维特征矩阵,那么第三低维特征矩阵与第二低维特征矩阵 大小相等,计算第二低维特征矩阵与第三低维特征矩阵的相似度,在实时采集图像中相似度 最高的一块特征矩阵,即第三低维特征矩阵,则第三低维特征矩阵为跟踪目标的下一帧区域。
Hausdorff是一种距离度量算法,常用于景象匹配,这类方法计算快捷、不需点对点精 确匹配,但匹配结果易受孤立噪声点、尺度和旋转变化等因素的干扰。无人机一般具有独特 的几何形状,表现为缺乏完整的结构信息,将无人机图像输入卷积神经网络后,能够去除无 用的图像信息,只保留低维特征矩阵。无人机的低维特征矩阵仍然包含无人机的结构信息, 低维特征矩阵点的特征强弱代表了相应位置无人机的结构信息的强弱。为了凸显无人机的结 构信息,在低维特征矩阵的基础之上,优化Hausdorff算法,对矩阵特征点进行加权处理, 得出一种基于低维特征的加权Hausdorff相似性度量算法。该算法将矩阵特征点分为普通特 征点、边缘特征点、关键特征点和噪声点四大类,算法的具体步骤如下:
输入:通过Siamese网络处理得到的2组低维特征矩阵,即第一低维特征矩阵和第二低 维特征矩阵,其中第二低维特征矩阵经过处理后生成了若干第三低维特征矩阵。
输出:第二低维特征矩阵与第三低维特征矩阵之间的相似度(最近距离)。
Step1.Hausdorff距离度量的是第二低维特征矩阵与第三低维特征矩阵之间的最不匹配 的点的距离,对噪声点非常敏感,因此定义最低阈值min_threshold,如果矩阵特征点的特 征强度低于阈值threshold,则定义为噪声点,进行排除。
Step2.特征矩阵中特征强度高的点代表着最重要的结构信息,因此定义高阈值max_threshold,若特征点的特征强度高于max_threshold,则定义为关键特征点,进行加权放大处理,突出无人机的结构信息。
Step3.定义中间阈值mid_threshold,若特征强度大于min_threshold且小于mid_threshold,则定义为边缘特征点;若特征强度大于mid_threshold且小于 max_threshold,则定义为普通特征点。
Step4.根据特征点的类型,分别进行加权求值,最后计算出特征矩阵之间的距离。
设两组特征点的集合其中Na,Nb分别为矩阵A 和B的特征点总数,则这两个矩阵合之间的Hausdorff距离定义为:
H(A,B)=max(h(A,B),h(B,A)) (4)
式中H(A,B)称为称为双向Hausdorff距离,是单向距离h(A,B)和h(B,A)两者中的较大 者,它度量了两个矩阵间的最大不匹配程度,其中h(A,B)和h(B,A)分别称为从集合A到集合 B,从集合B到集合A的单向Hausdorff距离,定义形式为:
其中,||·||为某种定义在两个点之间的距离。设a是属于矩阵A的一个特征点,b是属于 矩阵B的一个特征点,d(a,B)是矩阵A上特征点a到矩阵B的距离,ωa表示此距离的一个权 重,Na是矩阵A的特征点总数,则矩阵A到矩阵B的有向距离h(A,B)可表示为:
令ω1,ω2,ω3,ω4分别为普通特征点、边缘特征点、关键特征点和噪声点的权值。ω3作 为关键特征点,包含了丰富的无人机结构信息,权重系数应该较大。ω4作为噪声点,应该被 去除,因此令ω4=0。余下的为普通特征点和边缘特征点,两者由中间阈值mid_threshold进 行区分,令普通特征点的权值ω1=1,边缘特征点具有较弱的结构信息,且易被噪声干扰,令 边缘特征点的权值ω2=0.25。
将矩阵A到矩阵B的所有距离从小到大排序,排除距离较大的噪声点,设di(A,B)是经过 排序之后的第i个距离,通过调整i的大小可以可以将矩阵A与矩阵B进行匹配,即i=f×Na, 0≤f≤1,由此可以避免由于噪声点引起的误差匹配。在矩阵A中,共排除了(Na-i)个点, 且ω1=1,ω2=0.25,ω4=0,设No为关键特征点总数,可得关键特征点的权重求解公式如下:
本发明在考虑了无人机的低维特征矩阵包含的结构信息的情况下,对矩阵特征点进行分 类、加权处理,提出了一种基于低维特征的加权Hausdorff相似性度量算法。该算法能够在 有效度量矩阵相似度的同时,保留无人机结构信息,有效提升无人机跟踪算法的精度。
传统RPN网络中,通常使用box分支产生边界框(bounding box),将跟踪目标位置使用 边界框标识出来。这种方式虽然能够对跟踪目标进行标识,但视觉效果不够明显。本发明在原 有RPN网络的基础上,使用分割分支代替box分支,使用对跟踪目标位置产生二进制掩膜 (Mask)的方式,代替对跟踪目标位置生成边界框的标识方式,能够更加显著地标识出跟踪 目标的具***置。
Step1.分割分支根据送入Siamese网络中的无人机图像样本的大小生成相应的全图二进 制掩膜。
Step2.通过相似性计算的得出特征矩阵之间的最近距离,选出具有最近距离的特征矩阵 作为跟踪目标的下一帧区域。。
Step3.对全图二进制掩膜进行分割,保留跟踪目标区域的二进制掩膜,并进行输出。
在分割分支里,设第n个特征矩阵对应生成的二进制掩膜(Mask)为mn,则mn可表示为:
gθ(z,x)=fθ(z)*fθ(x) (8)
其中z和x分别代表模板和待搜索区域,gθ为候选窗口的响应,hφ为一个两层的神经网 络,则最后生成的二进制掩膜是待分割图像x和目标图像z的一个函数,可以看做是用z去 指导完成x上的分割。
本发明提出一种基于Siamese网络的无人机跟踪方法,该算法以Siamese网络为结构主 体,结合CycleGAN数据增强模块,构建无人机跟踪网络基本框架。在Siamese网络内部,本 发明优化了RPN网络,提出了一种新的基于低维特征的加权Hausdorff相似性度量算法,针 对无人机具有独特形状,缺乏完整结构信息的特点,通过卷积神经网络提取无人机的有效低 维特征,在低维特征的基础上优化Hausdorff算法,能够有效计算候选区域建议与跟踪目标 的距离,结合二进制分割掩膜,对无人机位置进行图像分割,能够更加准确地表示无人机的 位置。
如图2所示,本发明还提供一种基于Siamese网络的无人机跟踪装置,该跟踪装置包括:
图像采集模块,用于采集无人机图像样本;
数据扩充模块,用于对采集的所述无人机图像样本进行数据扩充,生成第一样本;
训练模块,用于利用所述第一样本对Siamese网络进行预训练;
第一特征提取模块,用于利用训练好的Siamese网络对实时采集的无人机图像进行特征 提取,生成第一低维特征矩阵;
位置选择模块,用于在实时采集的无人机图像中选取无人机的位置,将该位置作为跟踪 目标;
第二特征提取模块,用于利用训练好的Siamese网络对所述跟踪目标进行特征提取,生 成第二低维特征矩阵,所述第二低维特征矩阵表示跟踪目标区域;
滑动模块,用于以所述跟踪目标区域为模版,在第一低维特征矩阵中进行滑动操作,生 成若干第三低维特征矩阵;
相似度计算模块,用于计算所述第二低维特征矩阵与所述第三低维特征矩阵的相似度, 其中与第二低维特征矩阵相似度最高的第三低维特征矩阵即为跟踪目标的下一帧区域;
输出模块,用于将所述相似度最高的区域的二进制掩膜作为输出,得到无人机在视频中 的位置。
需要说明的是,由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的 实施例的内容请参见方法部分的实施例的描述,这里暂不赘述。
本发明还提供一种存储介质,存储计算机程序,所述计算机程序被处理器运行时执行前 述的推荐方法。
本发明还提供一种电子终端,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器存储的计算机程序,以使所述设备执行前述的推荐方法。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代 码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机 程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只 读存储器(ROM,Read-Only Memory)、随机存取存储器((RAM,Random AccessMemory)、电载 波信号、电信信号以及软件分发介质等。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处 理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用 处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可以是内部存储单元或外部存储设备,例如插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字卡(Secure Digital,SD),闪存卡(Flash Card)等。进一步地, 所述存储器还可以既包括内部存储单元,也包括外部存储设备。所述存储器用于存储所述计 算机程序以及其他程序和数据。所述存储器还可以用于暂时地存储己经输出或者将要输出的 数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、 模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、 模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部 或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单 元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采 用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体 名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的 具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部 分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算 法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件 还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每 个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范 围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其 它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块 或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单 元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点, 所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的 间接耦合或通讯连接,可以是电性,机械或其它的形式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技 术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡 所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等 效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于Siamese网络的无人机跟踪方法,其特征在于,该跟踪方法包括:
采集无人机图像样本;
对采集的所述无人机图像样本进行数据扩充,生成第一样本;
利用所述第一样本对Siamese网络进行预训练;
利用训练好的Siamese网络对实时采集的无人机图像进行特征提取,生成第一低维特征矩阵;
在实时采集的无人机图像中选取无人机的位置,将该位置作为跟踪目标;
利用训练好的Siamese网络对所述跟踪目标进行特征提取,生成第二低维特征矩阵,所述第二低维特征矩阵表示跟踪目标区域;
以所述跟踪目标区域为模版,在第一低维特征矩阵中进行滑动操作,生成若干第三低维特征矩阵;
计算所述第二低维特征矩阵与所述第三低维特征矩阵的相似度,其中与第二低维特征矩阵相似度最高的第三低维特征矩阵即为跟踪目标的下一帧区域;
将所述相似性最高的区域的二进制掩膜作为输出,得到无人机在视频中的位置。
2.根据权利要求1所述的基于Siamese网络的无人机跟踪方法,其特征在于,所述Siamese网络包括:
第一ResNet-50网络,用于对所述实时采集的无人机图像进行特征提取,生成第一低维特征矩阵;
第二ResNet-50网络,用于对所述跟踪目标进行特征提取,生成第二低维特征矩阵。
3.根据权利要求1所述的基于Siamese网络的无人机跟踪方法,其特征在于,利用CycleGAN网络对采集的所述无人机图像样本进行数据扩充。
4.根据权利要求3所述的基于Siamese网络的无人机跟踪方法,其特征在于,所述CycleGAN网络包括:
生成器,用于接收一个随机的噪声,生成图片;
判别器,用于对所述生成器生成的图片进行判别,输出真实图片的概率。
5.根据权利要求1所述的基于Siamese网络的无人机跟踪方法,其特征在于,计算所述第二低维特征矩阵与所述第三低维特征矩阵的相似度,即计算所述第二低维特征矩阵与所述第三低维特征矩阵之间的距离,包括:
定义所述距离的最低阈值min_threshold、中间阈值mid_threshold和最高阈值max_threshold
根据所述最低阈值min_threshold、中间阈值mid_threshold和最高阈值max_threshold对特征点进行分类,包括噪声点、关键特征点、边缘特征点和普通特征点;
根据所述特征点的类型,分别进行加权求值,最后计算出特征矩阵之间的距离。
6.根据权利要求5所述的基于Siamese网络的无人机跟踪方法,其特征在于,
若特征点的特征强度低于最小阈值min_threshold,则定义为噪声点;
若特征点的特征强度大于最大阈值max_threshold,则定义为关键特征点;
若特征点的特征强度大于最小阈值min_threshold且小于中间阈值mid_threshold,则定义为边缘特征点;
若特征强度大于中间阈值mid_threshold且小于最大阈值max_threshold,则定义为普通特征点。
7.根据权利要求5所述的基于Siamese网络的无人机跟踪方法,其特征在于,计算特征矩阵之间的距离,包括:
设第二低维特征矩阵和第三低维特征矩阵其中Na,Nb分别为矩阵A和矩阵B的特征点总数,则矩阵A和矩阵B之间的Hausdorff距离定义为:
H(A,B)=max(h(A,B),h(B,A))
式中H(A,B)称为双向Hausdorff距离,是单向距离h(A,B)和h(B,A)两者中的较大者,表示两个矩阵间的最大不匹配程度,h(A,B)和h(B,A)分别称为从矩阵A到矩阵B,从矩阵B到矩阵A的单向Hausdorff距离,为:
其中,||·||为两个点之间的距离,a是属于矩阵A的一个特征点,b是属于矩阵B的一个特征点,d(a,B)是矩阵A上特征点a到矩阵B的距离,ωa表示距离(Na-k)的一个权重,Na是矩阵A的特征点总数,则矩阵A到矩阵B的有向距离h(A,B)表示为:
8.一种基于Siamese网络的无人机跟踪装置,其特征在于,该跟踪装置包括:
图像采集模块,用于采集无人机图像样本;
数据扩充模块,用于对采集的所述无人机图像样本进行数据扩充,生成第一样本;
训练模块,用于利用所述第一样本对Siamese网络进行预训练;
第一特征提取模块,用于利用训练好的Siamese网络对实时采集的无人机图像进行特征提取,生成第一低维特征矩阵;
位置选择模块,用于在实时采集的无人机图像中选取无人机的位置,将该位置作为跟踪目标;
第二特征提取模块,用于利用训练好的Siamese网络对所述跟踪目标进行特征提取,生成第二低维特征矩阵,所述第二低维特征矩阵表示跟踪目标区域;
滑动模块,用于以所述跟踪目标区域为模版,在第一低维特征矩阵中进行滑动操作,生成若干第三低维特征矩阵;
相似度计算模块,用于计算所述第二低维特征矩阵与所述第三低维特征矩阵的相似度,其中与第二低维特征矩阵相似度最高的第三低维特征矩阵即为跟踪目标的下一帧区域;
输出模块,用于将所述相似度最高的区域的二进制掩膜作为输出,得到无人机在视频中的位置。
9.一种电子终端,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器存储的计算机程序,以使所述设备执行权利要求1~7任意一项所述的方法。
10.一种计算机可读存储介质,存储计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1~7任意一项所述的方法。
CN201910728575.8A 2019-08-08 2019-08-08 一种基于Siamese网络的无人机跟踪方法及装置 Pending CN110472679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910728575.8A CN110472679A (zh) 2019-08-08 2019-08-08 一种基于Siamese网络的无人机跟踪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910728575.8A CN110472679A (zh) 2019-08-08 2019-08-08 一种基于Siamese网络的无人机跟踪方法及装置

Publications (1)

Publication Number Publication Date
CN110472679A true CN110472679A (zh) 2019-11-19

Family

ID=68511473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910728575.8A Pending CN110472679A (zh) 2019-08-08 2019-08-08 一种基于Siamese网络的无人机跟踪方法及装置

Country Status (1)

Country Link
CN (1) CN110472679A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310631A (zh) * 2020-02-10 2020-06-19 湖南大学 一种旋翼作业飞行机器人目标跟踪方法及***
CN111460999A (zh) * 2020-03-31 2020-07-28 北京工业大学 一种基于fpga的低空航拍影像目标跟踪的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132472A1 (en) * 2015-11-05 2017-05-11 Qualcomm Incorporated Generic mapping for tracking target object in video sequence
CN108090918A (zh) * 2018-02-12 2018-05-29 天津天地伟业信息***集成有限公司 一种基于深度全卷积孪生网络的实时人脸跟踪方法
CN109816695A (zh) * 2019-01-31 2019-05-28 中国人民解放军国防科技大学 一种复杂背景下的红外小型无人机目标检测与跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132472A1 (en) * 2015-11-05 2017-05-11 Qualcomm Incorporated Generic mapping for tracking target object in video sequence
CN108090918A (zh) * 2018-02-12 2018-05-29 天津天地伟业信息***集成有限公司 一种基于深度全卷积孪生网络的实时人脸跟踪方法
CN109816695A (zh) * 2019-01-31 2019-05-28 中国人民解放军国防科技大学 一种复杂背景下的红外小型无人机目标检测与跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
(美)斯华龄(HAROLD SZU): "《智能视觉图像处理 多通道图像的无监督学习方法及其他方法》", 31 October 2002, 上海科技教育出版社 *
JIFENG DAI,KAIMING HE,JIAN SUN: "Instance-aware Semantic Segmentation via Multi-task Network Cascades", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
蒋新土,吕岳: "基于改进的加权Hausdorff距离的图像匹配", 《计算机应用研究》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310631A (zh) * 2020-02-10 2020-06-19 湖南大学 一种旋翼作业飞行机器人目标跟踪方法及***
CN111310631B (zh) * 2020-02-10 2021-05-07 湖南大学 一种旋翼作业飞行机器人目标跟踪方法及***
CN111460999A (zh) * 2020-03-31 2020-07-28 北京工业大学 一种基于fpga的低空航拍影像目标跟踪的方法

Similar Documents

Publication Publication Date Title
Li et al. Coupled GAN with relativistic discriminators for infrared and visible images fusion
CN103679151B (zh) 一种融合LBP、Gabor特征的人脸聚类方法
CN103177458B (zh) 一种基于频域分析的可见光遥感图像感兴趣区域检测方法
CN110163258A (zh) 一种基于语义属性注意力重分配机制的零样本学习方法及***
CN109064502A (zh) 基于深度学习和人工设计特征相结合的多源图像配准方法
CN107240122A (zh) 基于时空连续相关滤波的视频目标跟踪方法
CN100595782C (zh) 一种融合光谱信息和多点模拟空间信息的分类方法
CN104866829A (zh) 一种基于特征学习的跨年龄人脸验证方法
CN109271895A (zh) 基于多尺度特征学习和特征分割的行人重识别方法
CN110309861A (zh) 一种基于生成对抗网络的多模态人类活动识别方法
CN106446754A (zh) 图像识别方法、度量学习方法、图像来源识别方法及装置
CN105354555B (zh) 一种基于概率图模型的三维人脸识别方法
CN110472495B (zh) 一种基于图形推理全局特征的深度学习人脸识别方法
Bu Human motion gesture recognition algorithm in video based on convolutional neural features of training images
CN114998934B (zh) 基于多模态智能感知和融合的换衣行人重识别和检索方法
CN111259814B (zh) 一种活体检测方法及***
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN110968734A (zh) 一种基于深度度量学习的行人重识别方法及装置
Wang et al. Study on the method of transmission line foreign body detection based on deep learning
Zhang et al. Few-shot learning for fine-grained signal modulation recognition based on foreground segmentation
Huang et al. A parallel architecture of age adversarial convolutional neural network for cross-age face recognition
CN110472679A (zh) 一种基于Siamese网络的无人机跟踪方法及装置
CN116824485A (zh) 一种基于深度学习的开放场景伪装人员小目标检测方法
Yu et al. Exemplar-based recursive instance segmentation with application to plant image analysis
CN103942545A (zh) 一种基于双向压缩数据空间维度缩减的人脸识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination