CN113298142B - 一种基于深度时空孪生网络的目标跟踪方法 - Google Patents

一种基于深度时空孪生网络的目标跟踪方法 Download PDF

Info

Publication number
CN113298142B
CN113298142B CN202110563641.8A CN202110563641A CN113298142B CN 113298142 B CN113298142 B CN 113298142B CN 202110563641 A CN202110563641 A CN 202110563641A CN 113298142 B CN113298142 B CN 113298142B
Authority
CN
China
Prior art keywords
frame
network
candidate
target
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110563641.8A
Other languages
English (en)
Other versions
CN113298142A (zh
Inventor
韩光
王福祥
肖峣
刘旭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110563641.8A priority Critical patent/CN113298142B/zh
Publication of CN113298142A publication Critical patent/CN113298142A/zh
Application granted granted Critical
Publication of CN113298142B publication Critical patent/CN113298142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度时空孪生网络的目标跟踪方法,所述方法包括获取预先生成的候选框,所述候选框通过将模板帧与搜索帧输入孪生网络模块获得特征图并根据特征图进行分类和回归生成;将获取的候选框输入ST‑LSTM和预测网络模块进行置信度计算,选取置信度得分最高的候选框;将置信度得分最高的候选框输入细化回归网络模块,通过相关滤波细化目标位置,获得跟踪结果。本发明一方面通过孪生网络获得视频帧中目标的表观信息,另一方面通过ST‑LSTM获得目标的时序信息,将其融合并通过相关滤波进行细化回归,三者共同确定跟踪结果,提升了目标跟踪的准确性和鲁棒性。

Description

一种基于深度时空孪生网络的目标跟踪方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于深度时空孪生网络的目标跟踪方法。
背景技术
目标跟踪是计算机视觉中的重要研究课题,并且在过去的几十年中引起了极大的关注。尽管已经付出了很多努力并且最近取得了一些进展,但是由于内在因素(例如目标变形和快速运动)和外在因素(例如遮挡和背景杂波),它仍然是一项艰巨的任务。强大的视觉跟踪算法在视觉监视、人机交互、安全和防御、视频编辑等方面具有巨大的潜在应用。
不同于检测、识别等视觉领域深度学习一统天下的趋势,深度学习在目标跟踪领域的应用并非一帆风顺。其主要问题在于训练数据的缺失:深度模型的魔力之一来自于对大量标注训练数据的有效学习,而目标跟踪仅仅提供第一帧的bounding-box作为训练数据。这种情况下,在跟踪开始针对当前目标从头训练一个深度模型困难重重。
发明内容
本发明的目的是提供一种基于深度时空孪生网络的目标跟踪方法,提升了目标跟踪的准确性和鲁棒性。
本发明为实现上述发明目的采用如下技术方案:
本发明提供了一种基于深度时空孪生网络的目标跟踪方法,包括:
获取预先生成的候选框,所述候选框通过将模板帧与搜索帧输入孪生网络模块获得特征图并根据特征图进行分类和回归生成;
将获取的候选框输入ST-LSTM和预测网络模块进行置信度计算,选取置信度得分最高的候选框;
将置信度得分最高的候选框输入细化回归网络模块,通过相关滤波细化目标位置,获得跟踪结果。
进一步地,所述孪生网络模块包括:
上支路模块,用于使用卷积神经网络提取模板帧的特征,获得模板帧特征图;
下支路模块,用于使用卷积神经网络提取搜索帧的特征,获得搜索帧特征图;
处理模块,对获得的模板帧特征图、搜索帧特征图进行互卷积获得响应图,根据响应图生成候选框。
进一步地,所述卷积神经网络包括5个卷积层和3个最大池化层,5个卷积层卷积核的大小依次为11×11、5×5、3×3、3×3和3×3,最大池化层池化核为2×2。
进一步地,所述ST-LSTM和预测网络模块包括预训练的ST-LSTM网络与预测网络;
所述ST-LSTM网络用于对孪生网络模块中的目标信息进行收集,将历史信息与当前信息进行融合,获得具有历史感知的目标信息;
所述预测网络用于根据目标信息预生成多个区域提案中的候选者排名,输出候选框的得分。
进一步地,所述预测网络包括三个全连接层,其中两个全连接层包括512个节点,剩余一个全连接层的输出为候选框的得分。
进一步地,所述细化回归网络模块包括相关滤波层,所述相关滤波层用于处理根据候选框得分对其进行筛选后的候选框获得响应图,通过响应图细化搜索帧上的估计位置,回归跟踪结果。
进一步地,所述相关滤波层包括两个分别带有ReLU和LRN的卷积层。
本发明的有益效果如下:
本发明的目标跟踪方法将孪生网络、ST-LSTM和相关滤波结合起来,形成了基于深度时空孪生网络的目标跟踪模型。将模板帧与搜索帧输入孪生网络获得的候选框送入ST-LSTM和预测网络进行置信度计算,再将置信度得分最高的候选框输入细化回归网络,通过相关滤波细化目标位置,获得跟踪结果。该方法一方面通过孪生网络获得视频帧中目标的表观信息,另一方面通过ST-LSTM获得目标的时序信息,将其融合并通过相关滤波进行细化回归,三者共同确定跟踪结果,提升了目标跟踪的准确性和鲁棒性。
附图说明
图1为根据本发明实施例提供的一种基于深度时空孪生网络的目标跟踪方法的流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,本发明提供一种基于深度时空孪生网络的目标跟踪方法,包括以下步骤:
步骤1,构建深度时空孪生网络的目标跟踪模型,具体步骤如下:
深度时空孪生网络模型主要包括孪生网络,ST-LSTM和预测网络和细化回归网络,孪生网络模块用于提取特征获得候选框,ST-LSTM和预测网络模块用于对目标信息进行记忆并根据记忆的目标信息对候选框计算得分并进行排名,细化回归网络用于根据得分对候选框进行筛选并将筛选后的候选框输入相关滤波获得得响应图回归跟踪结果。所述步骤1包括如下步骤:
步骤1-1:构建孪生网络,使用卷积神经网络提取视频帧全局特征,孪生网络模块中的上支路、下支路的卷积神经网络均包含5个卷积层和3个最大池化层,5个卷积层卷积核的大小依次为11×11、5×5、3×3、3×3和3×3,最大池化层池化核为2×2。上支路模块用于使用卷积神经网络提取模板帧的特征,获得模板帧特征图。下支路模块用于使用卷积神经网络提取搜索帧的特征,获得搜索帧特征图。最后通过处理模块对获得的模板帧特征图、搜索帧特征图进行互卷积获得响应图,根据响应图生成候选框。
步骤1-2:将候选框送入ST-LSTM与预测网络,ST-LSTM网络用于从孪生网络中对信息进行收集,将历史信息与当前信息进行融合,获得具有历史感知的目标信息。随后的预测网由三个全连接组成,并且在每个全连接层之间,我们使用了Dropout和非线性ReLU来防止过拟合。前两个全连接层设计为包含512个节点,而最后一个全连接层的输出为候选框的得分。最终,通过预测网来预测多个区域提案中的候选者排名。
步骤1-3:将筛选后的候选框送入细化回归网络模块,设计两个分别带有线性整流函数(ReLU)和局部响应归一化(LRN)的卷积层作为相关滤波层,根据ST-LSTM与预测网络输出的候选框得分对候选框进行筛选并将筛选后的候选框输入相关滤波获得得响应图,通过响应图细化搜索帧上的估计位置,回归最终位置。
步骤2,训练孪生网络,具体步骤如下:
根据目标尺寸和位置,对数据集中的每一段目标视频帧序列中的每一帧图像进行裁剪,获得所有帧图像的目标区域图像和搜索区域图像,将其作为训练集,然后,我们使用ImageNet预训练特征提取层,将其中前三个卷积层的参数固定,并且仅在孪生网络中微调后两个卷积层,这些参数采用随机梯度下降的训练方法通过优化方程中的损失函数获得。
步骤3,训练ST-LSTM和预测网络,具体步骤如下:
对ST-LSTM网络进行离线训练,时间LSTM和空间LSTM中LSTM单元的深度分别设置为20和3,隐藏单元数分别设置为100和50。对于第一帧,裁剪一个包含20个排序样本(重叠大于0.8)的训练元组。当将新处理帧上的目标加入到训练元组中,对元组中的样本进行移位,剔除最前面的样本。对预测网络进行在线训练,在第一帧上提取500个阳性样本(重叠>=0.7)和5000个阴性样本(重叠<0.5)以用随机梯度下降的方法训练预测网络,预测网络每十帧进行一次微调。
步骤4,训练细化回归网络,具体步骤如下:
对细化回归网络进行离线训练,我们选取ILSVRC2015 VID数据集作为训练集,采用动量为0.9的随机梯度下降的训练方法从头开始训练网络。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (3)

1.一种基于深度时空孪生网络的目标跟踪方法,其特征在于,所述方法包括:
获取预先生成的候选框,所述候选框通过将模板帧与搜索帧输入孪生网络模块获得特征图并根据特征图进行分类和回归生成;
将获取的候选框输入ST-LSTM和预测网络模块进行置信度计算,选取置信度得分最高的候选框;
将置信度得分最高的候选框输入细化回归网络模块,通过相关滤波细化目标位置,获得跟踪结果;
所述孪生网络模块包括:
上支路模块,用于使用卷积神经网络提取模板帧的特征,获得模板帧特征图;
下支路模块,用于使用卷积神经网络提取搜索帧的特征,获得搜索帧特征图;
处理模块,对获得的模板帧特征图、搜索帧特征图进行互卷积获得响应图,根据响应图生成候选框;
所述ST-LSTM和预测网络模块包括预训练的ST-LSTM网络与预测网络;
所述ST-LSTM网络用于对孪生网络模块中的目标信息进行收集,将历史信息与当前信息进行融合,获得具有历史感知的目标信息;
所述预测网络用于根据目标信息预生成多个区域提案中的候选者排名,输出候选框的得分;
所述预测网络包括三个全连接层,其中两个全连接层包括512个节点,剩余一个全连接层的输出为候选框的得分;
所述细化回归网络模块包括相关滤波层,所述相关滤波层用于处理根据候选框得分对其进行筛选后的候选框获得响应图,通过响应图细化搜索帧上的估计位置,回归跟踪结果。
2.根据权利要求1所述的一种基于深度时空孪生网络的目标跟踪方法,其特征在于,所述卷积神经网络包括5个卷积层和3个最大池化层,5个卷积层卷积核的大小依次为11×11、5×5、3×3、3×3和3×3,最大池化层池化核为2×2。
3.根据权利要求1所述的一种基于深度时空孪生网络的目标跟踪方法,其特征在于,所述相关滤波层包括两个分别带有ReLU和LRN的卷积层。
CN202110563641.8A 2021-05-24 2021-05-24 一种基于深度时空孪生网络的目标跟踪方法 Active CN113298142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110563641.8A CN113298142B (zh) 2021-05-24 2021-05-24 一种基于深度时空孪生网络的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110563641.8A CN113298142B (zh) 2021-05-24 2021-05-24 一种基于深度时空孪生网络的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN113298142A CN113298142A (zh) 2021-08-24
CN113298142B true CN113298142B (zh) 2023-11-17

Family

ID=77324307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110563641.8A Active CN113298142B (zh) 2021-05-24 2021-05-24 一种基于深度时空孪生网络的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN113298142B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596338B (zh) * 2022-05-09 2022-08-16 四川大学 一种考虑时序关系的孪生网络目标跟踪方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101971278B1 (ko) * 2018-12-13 2019-04-26 주식회사 알고리고 인공신경망을 이용한 비정상 데이터 구분 장치
CN110120065A (zh) * 2019-05-17 2019-08-13 南京邮电大学 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及***
CN110223324A (zh) * 2019-06-05 2019-09-10 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法
CN110298404A (zh) * 2019-07-02 2019-10-01 西南交通大学 一种基于三重孪生哈希网络学习的目标跟踪方法
CN110458864A (zh) * 2019-07-02 2019-11-15 南京邮电大学 基于整合语义知识和实例特征的目标跟踪方法与目标***
CN110490906A (zh) * 2019-08-20 2019-11-22 南京邮电大学 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
EP3686772A1 (en) * 2019-01-25 2020-07-29 Tata Consultancy Services Limited On-device classification of fingertip motion patterns into gestures in real-time
CN111898504A (zh) * 2020-07-20 2020-11-06 南京邮电大学 一种基于孪生循环神经网络的目标跟踪方法及***
CN112634330A (zh) * 2020-12-28 2021-04-09 南京邮电大学 一种基于raft光流的全卷积孪生网络目标跟踪算法
CN112734803A (zh) * 2020-12-31 2021-04-30 山东大学 基于文字描述的单目标跟踪方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101971278B1 (ko) * 2018-12-13 2019-04-26 주식회사 알고리고 인공신경망을 이용한 비정상 데이터 구분 장치
EP3686772A1 (en) * 2019-01-25 2020-07-29 Tata Consultancy Services Limited On-device classification of fingertip motion patterns into gestures in real-time
CN110120065A (zh) * 2019-05-17 2019-08-13 南京邮电大学 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及***
CN110223324A (zh) * 2019-06-05 2019-09-10 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法
CN110298404A (zh) * 2019-07-02 2019-10-01 西南交通大学 一种基于三重孪生哈希网络学习的目标跟踪方法
CN110458864A (zh) * 2019-07-02 2019-11-15 南京邮电大学 基于整合语义知识和实例特征的目标跟踪方法与目标***
CN110490906A (zh) * 2019-08-20 2019-11-22 南京邮电大学 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN111898504A (zh) * 2020-07-20 2020-11-06 南京邮电大学 一种基于孪生循环神经网络的目标跟踪方法及***
CN112634330A (zh) * 2020-12-28 2021-04-09 南京邮电大学 一种基于raft光流的全卷积孪生网络目标跟踪算法
CN112734803A (zh) * 2020-12-31 2021-04-30 山东大学 基于文字描述的单目标跟踪方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113298142A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
Liu et al. Motion-driven visual tempo learning for video-based action recognition
CN112818931A (zh) 基于多粒度深度特征融合的多尺度行人重识别方法
Huang et al. A visual–textual fused approach to automated tagging of flood-related tweets during a flood event
CN109993100B (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN111259786A (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
Kim et al. Fast pedestrian detection in surveillance video based on soft target training of shallow random forest
CN103886585A (zh) 一种基于排序学习的视频跟踪方法
CN111967433A (zh) 一种基于自监督学习网络的动作识别办法
CN113298142B (zh) 一种基于深度时空孪生网络的目标跟踪方法
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及***
McIntosh et al. Movement tracks for the automatic detection of fish behavior in videos
Li A deep learning-based text detection and recognition approach for natural scenes
Bhardwaj et al. Analytical review on human activity recognition in video
Deotale et al. Optimized hybrid RNN model for human activity recognition in untrimmed video
Ben-Ahmed et al. Eurecom@ mediaeval 2017: Media genre inference for predicting media interestingnes
CN115439645A (zh) 基于目标建议框增量的小样本目标检测方法
Kosambia et al. Video synopsis for accident detection using deep learning technique
Guermal et al. Thorn: Temporal human-object relation network for action recognition
Bai et al. Continuous action recognition and segmentation in untrimmed videos
Gupta et al. A review work: human action recognition in video surveillance using deep learning techniques
JP6090927B2 (ja) 映像区間設定装置及びプログラム
EP3401843A1 (en) A method, an apparatus and a computer program product for modifying media content
Pan et al. Violence detection based on attention mechanism
Cao et al. Recognizing characters and relationships from videos via spatial-temporal and multimodal cues
Natesan et al. Prediction of Healthy and Unhealthy Food Items using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210012 No.9 Wenyuan Road, Qixia District, Nanjing City, Jiangsu Province

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: No.28, ningshuang Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant