CN112734803B - 基于文字描述的单目标跟踪方法、装置、设备及存储介质 - Google Patents

基于文字描述的单目标跟踪方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112734803B
CN112734803B CN202011642602.9A CN202011642602A CN112734803B CN 112734803 B CN112734803 B CN 112734803B CN 202011642602 A CN202011642602 A CN 202011642602A CN 112734803 B CN112734803 B CN 112734803B
Authority
CN
China
Prior art keywords
feature
visual
character
updated
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011642602.9A
Other languages
English (en)
Other versions
CN112734803A (zh
Inventor
张伟
吴爽
陈佳铭
宋然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202011642602.9A priority Critical patent/CN112734803B/zh
Publication of CN112734803A publication Critical patent/CN112734803A/zh
Application granted granted Critical
Publication of CN112734803B publication Critical patent/CN112734803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于文字描述的单目标跟踪方法、装置、设备及存储介质:对待跟踪视频按照设定帧数平均划分为若干个视频包;对文字描述提取出第一、二和三文字特征;对每个视频包的第n个采样帧分别提取第一、二和三视觉特征;基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;对待跟踪目标的样板图像,分别提取第四、第五和第六视觉特征;对搜索区域图像,分别提取第七,第八和第九视觉特征;将更新后的第一、第二和第三文字特征向量,分别与第四到第九视觉特征进行融合,得到融合特征;根据融合特征,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果。

Description

基于文字描述的单目标跟踪方法、装置、设备及存储介质
技术领域
本申请涉及机器视觉及自然语言处理技术领域,特别是涉及基于文字描述的单目标跟踪方法、装置、设备及存储介质。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
单目标跟踪是机器视觉领域的一个经典且长期研究的课题。传统的单目标跟踪方法通常在视频的帧中手工标注出需要跟踪的目标的方框。近年来,结合了机器视觉以及自然语言处理技术的相关课题,比如说图像/视频标注,视觉问答等课题取得了巨大的进步,基于文字描述的单目标跟踪课题也越来越收到重视。给定一段文字标注,跟踪视频中用文字标注出来的目标可以使算法能够更好地处理很多复杂场景,比如遮挡,边框偏移,目标变形,模糊等。因为自然语言描述提供地语义信息能够帮助目标跟踪算法减轻这些复杂场景地影响。
然而,基于文字描述的单目标跟踪课题有一个特殊的问题。自然语言可以描述目标在第一帧的外观和运动状态,或者描述目标在整段视频中的运动过程,给视频的每一帧标注文字是不可行的。对于常用的带有自然语言标注的单目标跟踪数据集,文字标注通常描述了视频的整体内容,没有任何数据集对所有的帧进行标注。然而,目标的位置和外观在视频中是不断变化的,因而自然语言标注在大多数场景下是不能准确的描述目标的位置或者运动。尽管过去的相关工作取得了不错的表现,但是它们仅仅将文字标注看作是一个全局的约束。
发明内容
为了解决现有技术的不足,本申请提供了基于文字描述的单目标跟踪方法、装置、设备及存储介质;
第一方面,本申请提供了基于文字描述的单目标视觉跟踪方法;
基于文字描述的单目标视觉跟踪方法,包括:
获取待跟踪目标的样板图像;获取待跟踪视频和与待跟踪目标相关的文字描述;对待跟踪视频按照设定帧数平均划分为若干个视频包;
对所述文字描述提取出第一、第二和第三文字特征;
对每个视频包的第n个采样帧分别提取第一、第二和第三视觉特征;n为正整数,n的上限为指定值;基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;对待跟踪目标的样板图像,分别提取第四、第五和第六视觉特征;所述待跟踪目标的样板图像是指待跟踪视频的首帧图像;对搜索区域图像,分别提取第七,第八和第九视觉特征;所述搜索区域图像,是指当前视频包中的所有图像;
将更新后的第一、第二和第三文字特征向量,分别与第四、第五、第六、第七、第八和第九视觉特征进行融合,得到六个融合特征;
根据六个融合特征,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果。
第二方面,本申请提供了基于文字描述的单目标视觉跟踪装置;
基于文字描述的单目标视觉跟踪装置,包括:
视频包划分模块,其被配置为:获取待跟踪目标的样板图像;获取待跟踪视频和与待跟踪目标相关的文字描述;对待跟踪视频按照设定帧数平均划分为若干个视频包;
文字特征提取模块,其被配置为:对所述文字描述提取出第一、第二和第三文字特征;
视觉特征提取模块,其被配置为:对每个视频包的第n个采样帧分别提取第一、第二和第三视觉特征;n为正整数,n的上限为指定值;基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;对待跟踪目标的样板图像,分别提取第四、第五和第六视觉特征;所述待跟踪目标的样板图像是指待跟踪视频的首帧图像;对搜索区域图像,分别提取第七,第八和第九视觉特征;所述搜索区域图像,是指当前视频包中的所有图像;
特征融合模块,其被配置为:将更新后的第一、第二和第三文字特征向量,分别与第四、第五、第六、第七、第八和第九视觉特征进行融合,得到六个融合特征;
输出模块,其被配置为:根据六个融合特征,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果。
第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本申请的有益效果是:
提出了利用跟踪过程中生成的搜索区域的深度视觉特征更新文字描述的深度特征,以期望深度的文字特征可以随着视频中目标的变化而变化,提升单目标跟踪算法的精度。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为第一个实施例的方法流程图;
图2为第一个实施例的方法流程图;
图3(a)-图3(g)为第一个实施例的效果示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本申请使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了基于文字描述的单目标视觉跟踪方法;
基于文字描述的单目标视觉跟踪方法,包括:
S101:获取待跟踪目标的样板图像;获取待跟踪视频和与待跟踪目标相关的文字描述;对待跟踪视频按照设定帧数平均划分为若干个视频包;
S102:对所述文字描述提取出第一、第二和第三文字特征;
S103:对每个视频包的第n个采样帧分别提取第一、第二和第三视觉特征;n为正整数,n的上限为指定值;
基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;
对待跟踪目标的样板图像,分别提取第四、第五和第六视觉特征;所述待跟踪目标的样板图像是指待跟踪视频的首帧图像;
对搜索区域图像,分别提取第七,第八和第九视觉特征;所述搜索区域图像,是指当前视频包中的所有图像;
S104:将更新后的第一、第二和第三文字特征向量,分别与第四、第五、第六、第七、第八和第九视觉特征进行融合,得到六个融合特征;
S105:根据六个融合特征,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果。
示例性的,所述对待跟踪视频按照设定帧数平均划分为若干个视频包;例如对待跟踪的1000帧视频按照100帧为单位,平均划分为10个视频包;再例如,对待跟踪的100帧视频按照10帧为单位,平均划分为10个视频包。
作为一个或多个实施例,所述S102:对所述文字描述提取出第一、第二和第三文字特征;具体步骤包括:
采用BERT方法,对所述文字描述提取出第一、第二和第三文字特征。
作为一个或多个实施例,所述S103:对每个视频包的第n个采样帧分别提取第一、第二和第三视觉特征;n为正整数,n的上限为指定值;具体步骤包括:
采用RestNet-50,对每个视频包的第n个采样帧进行视觉特征提取;
卷积层Conv2_3输出第一视觉特征;
卷积层Conv3_4输出第二视觉特征;
卷积层Conv5_3输出第三视觉特征。
作为一个或多个实施例,所述S103:基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;具体步骤包括:
第一视觉特征经过全局平均池化(Global Average pooling,GAP)处理,得到第一子视觉特征;将第一文字特征作为第一LSTM模型的初始隐状态;在设定的t时刻,将第一子视觉特征输入到第一LSTM模型中,第一LSTM模型输出更新后的第一文字特征;第一LSTM模型中,遗忘门用于决定当前时刻的隐状态是否应该被舍弃;输入门用于决定输入的视觉特征的值是否应该被写入;
第二视觉特征经过全局平均池化处理,得到第二子视觉子特征;将第二文字特征作为第二LSTM模型的初始隐状态;在设定的t时刻,将第二子视觉特征输入到第二LSTM模型中,第二LSTM模型输出更新后的第二文字特征;
第三视觉特征经过全局平均池化处理,得到第三子视觉特征;将第三文字特征作为第三LSTM模型的初始隐状态;在设定的t时刻,将第三子视觉特征输入到第三LSTM模型中,第三LSTM模型输出更新后的第三文字特征。
作为一个或多个实施例,所述S103:对待跟踪目标的样板图像,分别提取第四、第五和第六视觉特征;所述待跟踪目标的样板图像是指待跟踪视频的首帧图像;对搜索区域图像,分别提取第七,第八和第九视觉特征;所述搜索区域图像,是指当前视频包中的所有图像;具体步骤包括:
采用RestNet-50,对待跟踪目标的样板图像进行视觉特征提取;
RestNet-50的卷积层Conv2_3输出第四视觉特征;
RestNet-50的卷积层Conv3_4输出第五视觉特征;
RestNet-50的卷积层Conv5_3输出第六视觉特征。
采用RestNet-50,对待跟踪目标的搜索区域图像进行视觉特征提取;
RestNet-50的卷积层Conv2_3输出第七视觉特征;
RestNet-50的卷积层Conv3_4输出第八视觉特征;
RestNet-50的卷积层Conv5_3输出第九视觉特征。
作为一个或多个实施例,所述S104:将更新后的第一、第二和第三文字特征向量,分别与第四、第五、第六、第七、第八和第九视觉特征进行融合,得到六个融合特征;具体步骤包括:
将更新后的第一文字特征向量与第四视觉特征进行拼接,得到第一融合特征;
将更新后的第二文字特征向量与第五视觉特征进行拼接,得到第二融合特征;
将更新后的第三文字特征向量与第六视觉特征进行拼接,得到第三融合特征;
将更新后的第一文字特征向量与第七视觉特征进行拼接,得到第四融合特征;
将更新后的第二文字特征向量与第八视觉特征进行拼接,得到第五融合特征;
将更新后的第三文字特征向量与第九视觉特征进行拼接,得到第六融合特征。
作为一个或多个实施例,所述S105:根据六个融合特征,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果;具体步骤包括:
将第一融合特征输入到第一卷积神经网络CNN中,将第一卷积神经网络的输出值和第四卷积神经网络的输出值均输入到第一分类网络中;得到第一分类结果;
将第四融合特征输入到第四卷积神经网络CNN中,将第四卷积神经网络的输出值和第一卷积神经网络的输出值均输入到第一回归网络中;得到第一回归结果;
将第二融合特征输入到第二卷积神经网络CNN中,将第二卷积神经网络的输出值和第五卷积神经网络的输出值均输入到第二分类网络中;得到第二分类结果;
将第五融合特征输入到第五卷积神经网络CNN中,将第五卷积神经网络的输出值和第二卷积神经网络的输出值均输入到第二回归网络中;得到第二回归结果;
将第三融合特征输入到第三卷积神经网络CNN中,将第三卷积神经网络的输出值和第六卷积神经网络的输出值均输入到第三分类网络中;得到第三分类结果;
将第六融合特征输入到第六卷积神经网络CNN中,将第六卷积神经网络的输出值和第三卷积神经网络的输出值均输入到第三回归网络中;得到第三回归结果;
将第一分类结果、第二分类结果和第三分类结果进行融合得到最终的分类结果;
将第一回归结果、第二回归结果和第三回归结果进行融合得到最终的回归结果;
根据最终的分类结果和最终的回归结果,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果。
本申请提出的方法的核心是基于长短期记忆网络(Long-Short Term Memory,LSTM)的文字特征更新模块,文字特征更新模块使用最初的文字描述的深度特征作为初始隐状态,并且每隔设定帧数输入当前帧的深度特征用于更新作为隐状态的文字特征,以期望在视频中目标运动或者外观改变的时候深度文字特征也相应的改变。然后,更新后的深度文字特征与接下来的设定帧数的深度视觉特征融合。本申请使用SiamRPN方法,基于融合特征检测出每一帧的目标。
过去的跟踪算法通常采用检测或者匹配的方式,它们在训练过程中随机地从数据集中选取一些正负样本。而为了更新深度文字特征,时间序列地问题必须被考虑在内。因此,本申请使用序列化的训练方法训练特征更新模块,将每一段视频分割成数量相同的片段,每个片段中的帧数可以不同。
本申请的主要贡献如下:提出了文字特征更新模块以减小文字表达与目标的位置与外观等视觉信息的隔阂。提出了序列化的的训练方法训练文字特征更新模块以达到更新深度文字特征的期望。
使用手工标注目标框的单目标跟踪是一个机器视觉领域长期的挑战,研究者提出了很多单目标跟踪算法,其中具有代表性的便是基于相关滤波(Correlation Filter,CF)的算法和基于循环神经网络(Recurrent Neural Network,RNN)的算法。近年来,基于匹配网络的孪生结构因其准确性和效率性引起了越来越多的注意。SiamFC,SiamRPN,SiamRPN++,SiamMask等基于孪生网络的算法。
近年来,基于文字描述的单目标跟踪算法研究受到了越来越多的重视,但是大部分算法将文字描述视为单目标跟踪课题的全局约束,而忽略了文字描述的局限性。
给定一段视频和一段与跟踪目标相关的文字标注,本申请的目的是在视频中跟踪当前目标。在大多数场景下的主要挑战是,文字标注并不能精确的描述不同帧中跟踪目标的位置以及外观的变化。为了解决这个问题,本申请提出了包含两个模块的跟踪算法:特征更新模块和跟踪模块,接下来会分别描述两个模块的细节。
特征更新模块:特征更新模块目的是减少文字描述在单目标跟踪课题中的限制并且使更新后的深度文字特征能更好的反应跟踪目标的状态。本申请提出的特征更新模块通过使用一组LSTM网络实现特征更新的任务。
特征更新模块包含三个平行的LSTM单元。首先使用BERT(BidirectionalEncoding Representations from Transformers)方法,将文字编码成768维度的特征向量,然后使用全连接网络将文字特征向量全连接到512维度,然后将文字的特征作为LSTM单元初始时刻的初始隐状态,在特定的时刻t,LSTM更新隐状态的方式如下所示:
ft=σ(ωf[lt-1,vt]+bf)
it=σ(ωi[lt-1,vt]+bi)
lt=ftΘlt-1+itΘtanh(ωlvt+bl)
其中,lt和vt分别表示使用文字特征初始化的LSTM的隐状态和输入LSTM的视觉特征。ft和it分别表示LSTM单元的遗忘门和输入门。遗忘门决定当前时刻的隐状态的值是否应该被舍弃,输入门决定了当前时刻输入的深度视觉特征的值是否应该被写入。ω和b表示可训练的门运算的权重和偏执参数。σ和Θ表示sigmoid激活函数和哈密尔顿运算。
在t时刻,LSTM输入深度视觉特征以处理隐状态lt-1。通过使用文字特征初始化LSTM隐状态,并通过输入门和遗忘门运算更新隐状态,深度文字特征能够随着跟踪目标的位置和外观变化的时候变化。
本申请提出的三个平行的LSTM网络输入序列化的深度视觉特征更新使用文字特征初始化的隐状态,以更新文字特征并使文字特征随着跟踪目标的位置和外观变化而变化。视频的视觉信息可以高效的扩展和丰富深度文字特征。
在孪生网络的结构中,目标的样板图像,和当前帧的搜索区域图像都通过ResNet50网络提取并输出三个不同深度的视觉特征,然后三个不同深度的视觉特征使用全局池化后输入到三个平行的LSTM网络中,通过LSTM网络更新后的深度文字特征将会随着视觉特征变化。
跟踪模块:本申请提出的跟踪模块通过输入包含目标的样板图像和搜索区域图像在搜索区域图像中找到和样板图像相似度高的区域,作为跟踪算法的结果。不同于传统的孪生网络将搜索区域图像作预先切割和填充工作,本申请不会对原图像进行切割但会将原图填充到标准输入的大小。在大多数场景下,保持原图的大小可以保持目标的位置信息与文字标注之间的关联。训练过程中使用的样板图像来自数据集的手工标注,测试阶段使用Visual Grounding方法获得样板图像。
如图1所示,与更新模块相似,样板图像和搜索区域图像的深度视觉特征由同一个ResNet50网络提取,然后将样板图像和搜索区域图像的深度特征与更新后的文字特征融合。更新后的文字特征全连接为256为的特征向量,然后将1×1×256的一维特征向量堆叠为7×7×256维度和31×31×256维度(7×7的维度和样板图像特征的维度相同,31×31的维度和搜索区域图像特征的维度相同),再将文字特征和视觉特征连接在一起进行融合。融合特征利用视觉信息进一步减少语言描述中的模糊性,能提高视觉特征的目标感知能力。接下来,使用卷积神经网络(Convolutional Neural Network,CNN)处理融合特征。最终,融合后的特征输入到孪生网络结构中的候选区域网络以检测跟踪目标。候选区域网络的分类分支和回归分支的输出为检测框的前景背景分类以及目标框的回归。和传统的孪生网络相似,我们使用二分类交叉熵损失和smooth L1损失。
分类损失如下:
Figure BDA0002880563740000121
其中yi表示第N个候选区域的前景背景预测。
Ax,Ay,Aw,Ah分别表示候选框的中心点的x,y轴坐标,宽度和高度,Tx,Ty,Tw,Th表示真实的跟踪目标边框的坐标以及宽高,四维的标准距离如下
Figure BDA0002880563740000131
则回归损失如下:
Figure BDA0002880563740000132
Figure BDA0002880563740000133
总损失为Ltotal=Lcls+λLreg,其中λ表示平衡分类和回归损失的超参数。
应用细节:在训练过程中,将视频分割为50个片段以及包含自然语言标注的包,每个包中的帧调整大小为255×255用于更新模块以及孪生网络的搜索区域图像,与传统的孪生网络裁剪搜索区域图像操作相比,使用原图更好的保持了图像中目标和自然语言标注的一致性。同时,包含跟踪目标的样板图像作为一个样例输入孪生网络。
通过BERT和全连接网络将文字标注编码成特征向量,并用于初始化LSTM网络的隐状态。然后,更新模块根据深度视觉特征更新作为隐状态的文字特征,以提高其再搜索图像序列中的目标感知能力。更新后的深度文字特征与样板图像和搜索区域图像融合,最终融合后的特征用于孪生网络预测跟踪目标的位置。
本申请使用修改后的ResNet50网络,并在ImageNet数据集上预训练。此模型使用Momentum优化器,衰减率为1×10-4且momentum设为0.9,初始学习率为5×10-3且每一轮训练减小1×10-4,训练的批大小为32。每一段视频切割为50个视频片段即每一段视频作50次深度文字特征的更新。此模型分别训练5,10,15,20轮并进行测试。
在应用过程中,本申请使用visual grounding方法产生样板图像。Visualgrounding通过文字标注在图像中预测一个方框对应文字内容。当跟踪目标的方框可以获得时,就可以通过该方框从视频第一帧中切出样板图像。同时,visual grounding方法也用作跟踪算法跟丢目标之后恢复跟踪结果。
实验结果:接下来展示和分析实验结果。首先将展示实验用的数据集及评价标准,以及应用的一些细节。然后展示与传统方法的对比结果。本申请也分析了不同设置下的模型并试图解释模型表现及工作原理。本申请的实验在Inter Xeon CPU E5-2687W v33.10GHz和NVIDIA Tesla V100 GPU上运行。
实验采用的数据集是LaSOT数据集和Lingual OTB99数据集,因为这两个数据集中每一段视频都有文字标注。LaSOT数据集是单目标跟踪的大型基准数据集,包含1400个视频序列,每段视频都有一段自然语言标注且每一帧都有目标框。该数据集有1120段视频用于训练,280段视频用于测试。因为LaSOT数据集的文字标注的主要目的是为了辅助跟踪过程,文字标注对于目标的描述也不够精准,所以本申请修改了部分文字标注以减少文字的歧义。Lingual OTB99数据集是OTB100数据集的一个扩展版本,对每一段视频进标注了一段文字。该数据集包含51段训练视频和48段测试视频。
和传统的跟踪算法相同,本申请使用精度和成功率作为跟踪算法的评价标准。精度表示预测的目标框和真实的目标框重合度超过给定阈值的帧数所占的百分比。成功率表示预测目标框和真实目标框的交并比高于一定阈值的帧数的百分比。
与带有文字描述的单目标跟踪算法相比,本申请与这些算法在两个初始化条件下对比,一个是只用给定的文字标注进行单目标跟踪,另一个是同时使用第一帧的目标框和文字标注进行初始化。如表中所示,本申请的算法在两种初始化方法下在LaSOT和LingualOTB99的表现都优于传统的算法。
部分跟踪结果如图2所示,在跟踪模块的辅助下,此模型的表现比很多使用文字标注初始化和使用第一帧的目标框初始化的算法好,此模型在遮挡、方框偏移等干扰下的表现是鲁棒的,并且能在目标超出视野和跟踪错误目标后恢复到跟踪正确目标。本申请也将此模型与其他只用第一帧的目标框初始化的跟踪算法作比较。如表1所示,此模型只使用文字标注初始化的结果与使用第一帧的目标框初始化的算法相比结果有竞争力,此模型使用目标框初始化以及文字标注初始化的时候表现比使用目标框初始化的跟踪算法好。结论:在单目标跟踪课题中,通常对一段视频的简洁的文字标注可以描述目标在视频第一帧中的状态或者目标在整段视频中的运动而不是它在每一帧中的准确位置和外观,因为目标的这些属性可能会在不同帧中不断变化。本申请提出了全新的特征更新模块用于基于文字描述的单目标视觉跟踪算法,使用LSTM网络更新深度文字特征,并用更新后的深度文字特征与深度视觉特征融合以提升单目标跟踪算法的表现。实验结果表明文字描述可以辅助地提升单目标跟踪算法并达到较好的单目标跟踪表现。图3(a)-图3(g)为第一个实施例的效果示意图。
表1实验结果数据对比表
Figure BDA0002880563740000161
实施例二
本实施例提供了基于文字描述的单目标视觉跟踪装置;
基于文字描述的单目标视觉跟踪装置,包括:
视频包划分模块,其被配置为:获取待跟踪目标的样板图像;获取待跟踪视频和与待跟踪目标相关的文字描述;对待跟踪视频按照设定帧数平均划分为若干个视频包;
文字特征提取模块,其被配置为:对所述文字描述提取出第一、第二和第三文字特征;
视觉特征提取模块,其被配置为:对每个视频包的第n个采样帧分别提取第一、第二和第三视觉特征;n为正整数,n的上限为指定值;基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;对待跟踪目标的样板图像,分别提取第四、第五和第六视觉特征;所述待跟踪目标的样板图像是指待跟踪视频的首帧图像;对搜索区域图像,分别提取第七,第八和第九视觉特征;所述搜索区域图像,是指当前视频包中的所有图像;
特征融合模块,其被配置为:将更新后的第一、第二和第三文字特征向量,分别与第四、第五、第六、第七、第八和第九视觉特征进行融合,得到六个融合特征;
输出模块,其被配置为:根据六个融合特征,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果。
此处需要说明的是,上述视频包划分模块、文字特征提取模块、视觉特征提取模块、特征融合模块和输出模块对应于实施例一中的步骤S101至S105,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的***,可以通过其他的方式实现。例如以上所描述的***实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个***,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.基于文字描述的单目标视觉跟踪方法,其特征是,包括:
获取待跟踪目标的样板图像;获取待跟踪视频和与待跟踪目标相关的文字描述;对待跟踪视频按照设定帧数平均划分为若干个视频包;
对所述文字描述提取出第一、第二和第三文字特征;
对每个视频包的第n个采样帧分别提取第一、第二和第三视觉特征;n为正整数,n的上限为指定值;基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;对待跟踪目标的样板图像,分别提取第四、第五和第六视觉特征;所述待跟踪目标的样板图像是指待跟踪视频的首帧图像;对搜索区域图像,分别提取第七,第八和第九视觉特征;所述搜索区域图像,是指当前视频包中的所有图像;
其中,基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;具体步骤包括:
第一视觉特征经过全局平均池化处理,得到第一子视觉特征;将第一文字特征作为第一LSTM模型的初始隐状态;在设定的t时刻,将第一子视觉特征输入到第一LSTM模型中,第一LSTM模型输出更新后的第一文字特征;第一LSTM模型中,遗忘门用于决定当前时刻的隐状态是否应该被舍弃;输入门用于决定输入的视觉特征的值是否应该被写入;
第二视觉特征经过全局平均池化处理,得到第二子视觉子特征;将第二文字特征作为第二LSTM模型的初始隐状态;在设定的t时刻,将第二子视觉特征输入到第二LSTM模型中,第二LSTM模型输出更新后的第二文字特征;
第三视觉特征经过全局平均池化处理,得到第三子视觉特征;将第三文字特征作为第三LSTM模型的初始隐状态;在设定的t时刻,将第三子视觉特征输入到第三LSTM模型中,第三LSTM模型输出更新后的第三文字特征;
将更新后的第一、第二和第三文字特征向量,分别与第四、第五、第六、第七、第八和第九视觉特征进行融合,得到六个融合特征;
其中,将更新后的第一、第二和第三文字特征向量,分别与第四、第五、第六、第七、第八和第九视觉特征进行融合,得到六个融合特征;具体步骤包括:
将更新后的第一文字特征向量与第四视觉特征进行拼接,得到第一融合特征;将更新后的第二文字特征向量与第五视觉特征进行拼接,得到第二融合特征;将更新后的第三文字特征向量与第六视觉特征进行拼接,得到第三融合特征;将更新后的第一文字特征向量与第七视觉特征进行拼接,得到第四融合特征;将更新后的第二文字特征向量与第八视觉特征进行拼接,得到第五融合特征;将更新后的第三文字特征向量与第九视觉特征进行拼接,得到第六融合特征;
根据六个融合特征,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果。
2.如权利要求1所述的基于文字描述的单目标视觉跟踪方法,其特征是,对所述文字描述提取出第一、第二和第三文字特征;具体步骤包括:
采用BERT方法,对所述文字描述提取出第一、第二和第三文字特征。
3.如权利要求1所述的基于文字描述的单目标视觉跟踪方法,其特征是,对每个视频包的第n个采样帧分别提取第一、第二和第三视觉特征;n为正整数,n的上限为指定值;具体步骤包括:
采用RestNet-50,对每个视频包的第n个采样帧进行视觉特征提取;卷积层Conv2_3输出第一视觉特征;卷积层Conv3_4输出第二视觉特征;卷积层Conv5_3输出第三视觉特征。
4.如权利要求1所述的基于文字描述的单目标视觉跟踪方法,其特征是,对待跟踪目标的样板图像,分别提取第四、第五和第六视觉特征;所述待跟踪目标的样板图像是指待跟踪视频的首帧图像;对搜索区域图像,分别提取第七,第八和第九视觉特征;所述搜索区域图像,是指当前视频包中的所有图像;具体步骤包括:
采用RestNet-50,对待跟踪目标的样板图像进行视觉特征提取;RestNet-50的卷积层Conv2_3输出第四视觉特征;RestNet-50的卷积层Conv3_4输出第五视觉特征;RestNet-50的卷积层Conv5_3输出第六视觉特征;
采用RestNet-50,对待跟踪目标的搜索区域图像进行视觉特征提取;RestNet-50的卷积层Conv2_3输出第七视觉特征;RestNet-50的卷积层Conv3_4输出第八视觉特征;RestNet-50的卷积层Conv5_3输出第九视觉特征。
5.如权利要求1所述的基于文字描述的单目标视觉跟踪方法,其特征是,
根据六个融合特征,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果;具体步骤包括:
将第一融合特征输入到第一卷积神经网络CNN中,将第一卷积神经网络的输出值和第四卷积神经网络的输出值均输入到第一分类网络中;得到第一分类结果;
将第四融合特征输入到第四卷积神经网络CNN中,将第四卷积神经网络的输出值和第一卷积神经网络的输出值均输入到第一回归网络中;得到第一回归结果;
将第二融合特征输入到第二卷积神经网络CNN中,将第二卷积神经网络的输出值和第五卷积神经网络的输出值均输入到第二分类网络中;得到第二分类结果;
将第五融合特征输入到第五卷积神经网络CNN中,将第五卷积神经网络的输出值和第二卷积神经网络的输出值均输入到第二回归网络中;得到第二回归结果;
将第三融合特征输入到第三卷积神经网络CNN中,将第三卷积神经网络的输出值和第六卷积神经网络的输出值均输入到第三分类网络中;得到第三分类结果;
将第六融合特征输入到第六卷积神经网络CNN中,将第六卷积神经网络的输出值和第三卷积神经网络的输出值均输入到第三回归网络中;得到第三回归结果;
将第一分类结果、第二分类结果和第三分类结果进行融合得到最终的分类结果;
将第一回归结果、第二回归结果和第三回归结果进行融合得到最终的回归结果;
根据最终的分类结果和最终的回归结果,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果。
6.基于文字描述的单目标视觉跟踪装置,其特征是,包括:
视频包划分模块,其被配置为:获取待跟踪目标的样板图像;获取待跟踪视频和与待跟踪目标相关的文字描述;对待跟踪视频按照设定帧数平均划分为若干个视频包;
文字特征提取模块,其被配置为:对所述文字描述提取出第一、第二和第三文字特征;
视觉特征提取模块,其被配置为:对每个视频包的第n个采样帧分别提取第一、第二和第三视觉特征;n为正整数,n的上限为指定值;基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;对待跟踪目标的样板图像,分别提取第四、第五和第六视觉特征;所述待跟踪目标的样板图像是指待跟踪视频的首帧图像;对搜索区域图像,分别提取第七,第八和第九视觉特征;所述搜索区域图像,是指当前视频包中的所有图像;
其中,基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;具体步骤包括:
第一视觉特征经过全局平均池化处理,得到第一子视觉特征;将第一文字特征作为第一LSTM模型的初始隐状态;在设定的t时刻,将第一子视觉特征输入到第一LSTM模型中,第一LSTM模型输出更新后的第一文字特征;第一LSTM模型中,遗忘门用于决定当前时刻的隐状态是否应该被舍弃;输入门用于决定输入的视觉特征的值是否应该被写入;
第二视觉特征经过全局平均池化处理,得到第二子视觉子特征;将第二文字特征作为第二LSTM模型的初始隐状态;在设定的t时刻,将第二子视觉特征输入到第二LSTM模型中,第二LSTM模型输出更新后的第二文字特征;
第三视觉特征经过全局平均池化处理,得到第三子视觉特征;将第三文字特征作为第三LSTM模型的初始隐状态;在设定的t时刻,将第三子视觉特征输入到第三LSTM模型中,第三LSTM模型输出更新后的第三文字特征;
特征融合模块,其被配置为:将更新后的第一、第二和第三文字特征向量,分别与第四、第五、第六、第七、第八和第九视觉特征进行融合,得到六个融合特征;
其中,将更新后的第一、第二和第三文字特征向量,分别与第四、第五、第六、第七、第八和第九视觉特征进行融合,得到六个融合特征;具体步骤包括:
将更新后的第一文字特征向量与第四视觉特征进行拼接,得到第一融合特征;将更新后的第二文字特征向量与第五视觉特征进行拼接,得到第二融合特征;将更新后的第三文字特征向量与第六视觉特征进行拼接,得到第三融合特征;将更新后的第一文字特征向量与第七视觉特征进行拼接,得到第四融合特征;将更新后的第二文字特征向量与第八视觉特征进行拼接,得到第五融合特征;将更新后的第三文字特征向量与第九视觉特征进行拼接,得到第六融合特征;
输出模块,其被配置为:根据六个融合特征,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果。
7.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项所述的方法。
CN202011642602.9A 2020-12-31 2020-12-31 基于文字描述的单目标跟踪方法、装置、设备及存储介质 Active CN112734803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011642602.9A CN112734803B (zh) 2020-12-31 2020-12-31 基于文字描述的单目标跟踪方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011642602.9A CN112734803B (zh) 2020-12-31 2020-12-31 基于文字描述的单目标跟踪方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112734803A CN112734803A (zh) 2021-04-30
CN112734803B true CN112734803B (zh) 2023-03-24

Family

ID=75609164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011642602.9A Active CN112734803B (zh) 2020-12-31 2020-12-31 基于文字描述的单目标跟踪方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112734803B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298142B (zh) * 2021-05-24 2023-11-17 南京邮电大学 一种基于深度时空孪生网络的目标跟踪方法
CN114241586B (zh) * 2022-02-21 2022-05-27 飞狐信息技术(天津)有限公司 一种人脸检测方法及装置、存储介质及电子设备
CN115496975B (zh) * 2022-08-29 2023-08-18 锋睿领创(珠海)科技有限公司 辅助加权数据融合方法、装置、设备及存储介质
CN116128926A (zh) * 2023-02-15 2023-05-16 中国人民解放军战略支援部队航天工程大学 一种卫星视频单目标追踪方法、***、设备及存储介质
CN116091551B (zh) * 2023-03-14 2023-06-20 中南大学 一种基于多模态融合的目标检索跟踪方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781951A (zh) * 2019-10-23 2020-02-11 中国科学院自动化研究所 基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060276B (zh) * 2019-04-18 2023-05-16 腾讯科技(深圳)有限公司 对象追踪方法、追踪处理方法、相应的装置、电子设备
CN110569723A (zh) * 2019-08-02 2019-12-13 西安工业大学 一种结合特征融合与模型更新的目标跟踪方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781951A (zh) * 2019-10-23 2020-02-11 中国科学院自动化研究所 基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法

Also Published As

Publication number Publication date
CN112734803A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112734803B (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
Fan et al. Multi-level contextual rnns with attention model for scene labeling
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
CN112508975A (zh) 一种图像识别方法、装置、设备及存储介质
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
Liu et al. Visual attention in deep learning: a review
CN112766170B (zh) 基于簇类无人机图像的自适应分割检测方法及装置
CN114998601B (zh) 基于Transformer的在线更新目标跟踪方法及***
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN110390294A (zh) 一种基于双向长短期记忆神经网络的目标跟踪方法
Viraktamath et al. Comparison of YOLOv3 and SSD algorithms
Wang et al. Detection and tracking based tubelet generation for video object detection
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
Aliakbarian et al. Deep action-and context-aware sequence learning for activity recognition and anticipation
CN114743130A (zh) 多目标行人跟踪方法及***
Liu Real-Time Object Detection for Autonomous Driving Based on Deep Learning
Li A deep learning-based text detection and recognition approach for natural scenes
Wang et al. Summary of object detection based on convolutional neural network
CN116977859A (zh) 基于多尺度图像切割和实例困难度的弱监督目标检测方法
Rakowski et al. Hand shape recognition using very deep convolutional neural networks
CN111242114A (zh) 文字识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant