CN112307883A - 训练方法、装置、电子设备以及计算机可读存储介质 - Google Patents

训练方法、装置、电子设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN112307883A
CN112307883A CN202010763380.XA CN202010763380A CN112307883A CN 112307883 A CN112307883 A CN 112307883A CN 202010763380 A CN202010763380 A CN 202010763380A CN 112307883 A CN112307883 A CN 112307883A
Authority
CN
China
Prior art keywords
query
code
key value
video
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010763380.XA
Other languages
English (en)
Other versions
CN112307883B (zh
Inventor
潘滢炜
姚霆
梅涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010763380.XA priority Critical patent/CN112307883B/zh
Publication of CN112307883A publication Critical patent/CN112307883A/zh
Application granted granted Critical
Publication of CN112307883B publication Critical patent/CN112307883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种训练方法、装置、电子设备以及计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:针对每个样本视频,选取该样本视频的多帧图像,并从多帧图像分别提取图像块,将提取的图像块中的一个图像块作为查询图像块;将各个图像块输入视觉特征提取模型,得到各个图像块对应的编码,其中,查询图像块对应的编码作为查询编码;根据各个样本视频的查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及各个样本视频的查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数,根据视觉特征提取模型的损失函数调整视觉特征提取模型的参数,其中,视觉特征提取模型的损失函数包括第一对比损失函数。

Description

训练方法、装置、电子设备以及计算机可读存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种训练方法、装置、电子设备以及计算机可读存储介质。
背景技术
近年来,人工智能技术迅速发展。计算机视觉是人工智能领域的一个重要分支,目前已经取得了一定成果。计算机视觉包括计算机对于图像、视频等的理解和处理。其中,视频的理解和处理复杂度更高一些。
视频的理解中提取视频的视觉特征是非常关键的部分,视觉特征提取的准确性直接关系视频的理解以及下游任务(例如,动作识别、对象跟踪)的结果的准确性。视觉特征的提取可以采用深度学习方法。深度学习包括有监督学习、无监督学习等。目前,监督学习已取得重大进展,并且在视频的视觉特征学习中占主导地位。
发明内容
发明人发现:有监督学习的结果在很大程度上取决于需要大量的专业标注来训练深度神经网络。标注的过程是复杂繁琐的。此外,针对非常具体的任务进行有监督的学习,得到的视觉特征提取模型难以适用于其他任务,存在泛化问题。
本公开所要解决的一个技术问题是:提出一种新的无监督的视觉特征提取模型的训练方法。
根据本公开的一些实施例,提供的一种训练方法,包括:针对每个样本视频,选取该样本视频的多帧图像,并从多帧图像分别提取图像块,将提取的图像块中的一个图像块作为查询图像块;将各个图像块输入视觉特征提取模型,得到各个图像块对应的编码,其中,查询图像块对应的编码作为查询编码;根据各个样本视频的查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及各个样本视频的查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数,其中,查询编码与同一样本视频中其他图像块对应的编码之间的相似度越高,查询编码与不同样本视频中图像块对应的编码之间的相似度越低,第一对比函数的值越小;根据视觉特征提取模型的损失函数调整视觉特征提取模型的参数,对视觉特征提取模型进行训练,其中,视觉特征提取模型的损失函数包括第一对比损失函数。
在一些实施例中,查询图像块所在的帧作为锚定帧,提取的图像块中还包括从锚定帧中提取的与查询图像块不同的另一图像块,作为第一键值图像块,方法还包括:根据各个样本视频的查询编码与第一键值图像块对应的编码之间的相似度,以及查询编码与同一样本视频中其他帧提取的图像块对应的编码之间的相似度,确定第二对比损失函数,其中,查询编码与第一键值图像块对应的编码之间的相似度越高,查询编码与同一样本视频中其他帧提取的图像块对应的编码之间的相似度越低,第二对比损失函数的值越小;其中,视觉特征提取模型的损失函数还包括第二对比损失函数。
在一些实施例中,查询图像块所在的帧作为锚定帧,锚定帧为多帧图像中按时间顺序排列的第一帧或最后一帧,方法还包括:针对每个样本视频,按照预设顺序将查询编码与同一样本视频中其他帧提取的图像块对应的编码组合成序列编码;将序列编码输入分类模型,得到查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中的预测时间顺序;根据各个样本视频对应的预测时间顺序,以及查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中真实时间顺序,确定第三损失函数;其中,视觉特征提取模型的损失函数还包括第三对比损失函数。
在一些实施例中,视觉特征提取模型包括查询编码器和键值编码器,查询编码器用于获得查询编码,键值编码器用于获得查询图像块之外的其他图像块对应的编码;根据视觉特征提取模型的损失函数调整视觉特征提取模型的参数包括:每次迭代中,根据视觉特征提取模型的损失函数调整查询编码器的本次迭代的参数,根据查询编码器的上一次迭代的参数和键值编码器上一次迭代的参数调整键值编码器本次迭代的参数。
在一些实施例中,查询图像块所在的帧作为锚定帧,提取的图像块中还包括从锚定帧中提取的与查询图像块不同的另一图像块,作为第一键值图像块,从同一样本视频的两个其他帧中分别提取一个图像块,作为第二键值图像块和第三键值图像块;根据各个样本视频的查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及各个样本视频的查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数包括:针对每个样本视频,根据查询编码分别与第一键值图像块对应第一键值编码、第二键值图像块对应的第二键值编码和第三键值图像块对应的第三键值编码的相似度,以及查询编码分别与各个负键值编码的相似度,确定该样本视频对应的帧间损失函数,其中,各个负键值编码包括其他样本视频对应的第一键值编码、第二键值编码和第三键值编码;根据各个样本视频对应的帧间损失函数,确定第一对比损失函数。
在一些实施例中,同一样本视频中其他帧提取的图像块包括从同一样本视频的两个其他帧中分别提取一个图像块,作为样本视频对应的第二键值图像块和第三键值图像块;根据各个样本视频的查询编码与第一键值图像块对应的编码之间的相似度,以及查询编码与同一样本视频中其他帧提取的图像块对应的编码之间的相似度,确定第二对比损失函数包括:针对每个样本视频,根据查询编码与第一键值图像块对应第一键值编码的相似度,以及查询编码分别与第二键值图像块对应的第二键值编码和第三键值图像块对应的第三键值编码的相似度,确定该样本视频对应的帧内损失函数;根据各个样本视频对应的帧内损失函数,确定第二对比损失函数。
在一些实施例中,提取的图像块中还包括从锚定帧中提取的与查询图像块不同的另一图像块,作为第一键值图像块,从同一样本视频的两个其他帧中分别提取一个图像块,作为第二键值图像块和第三键值图像块,按照预设顺序将查询编码与同一样本视频中其他帧提取的图像块对应的编码组合成序列编码包括:按照查询编码,第二键值图像块对应的第二键值编码,第三键值图像块对应的第三键值编码的顺序,生成序列编码;将序列编码输入分类模型,得到查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中的预测时间顺序包括:将序列编码输入二分类模型,得到查询图像块在第二键值图像块和第三键值图像块之前或之后的结果,作为预测时间顺序;根据各个样本视频对应的预测时间顺序,以及查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中真实时间顺序,确定第三损失函数包括:根据预测时间顺序,以及查询图像块、第二键值图像块和第三键值图像块在该样本视频中的真实时间顺序,确定各个样本视频对应的交叉熵损失函数,根据各样本视频对应的交叉熵损失函数确定第三损失函数。
在一些实施例中,该方法还包括:分别根据查询编码与第一键值编码、第二键值编码和第三键值编码的点积确定查询编码与第一键值编码、第二键值编码和第三键值编码的相似度;根据查询编码与各个负键值编码的点积确定查询编码与各个负键值编码的相似度。
在一些实施例中,每个样本视频对应的帧间损失函数采用以下公式确定:
Figure BDA0002613701080000041
其中,sq为查询编码,1≤i≤3,i为正整数,
Figure BDA0002613701080000042
为第一键值编码,
Figure BDA0002613701080000043
为第二键值编码,
Figure BDA0002613701080000044
为第三键值编码,1≤j≤K,j为正整数,K为负键值编码的总数,
Figure BDA0002613701080000045
为第j个负键值编码,τ为超参数。
在一些实施例中,每个样本视频对应的帧内损失函数采用以下公式确定:
Figure BDA0002613701080000051
其中,sq为查询编码,
Figure BDA0002613701080000052
为第一键值编码,
Figure BDA0002613701080000053
为第二键值编码,
Figure BDA0002613701080000054
为第三键值编码,τ为超参数。
在一些实施例中,每个样本视频对应的交叉熵损失函数采用以下公式确定:
Figure BDA0002613701080000055
其中,sq为查询编码,
Figure BDA0002613701080000056
为第二键值编码,
Figure BDA0002613701080000057
为第三键值编码,y∈{0,1}表示按照在该样本视频中的真实时间顺序,查询sq是在第二键值编码和第三键值编码
Figure BDA0002613701080000058
之前或之后。
在一些实施例中,视觉特征提取模型的损失函数为第一对比损失函数、第二对比损失函数和第三损失函数的加权结果。
根据本公开的另一些实施例,提供的一种动作识别方法,包括:将待识别视频提取第一预设数量的帧;利用前述任意实施例的训练方法得到的视觉特征提取模型确定各帧图像的编码;将各帧图像的编码,输入动作分类模型,得到待识别视频中的动作类型。
根据本公开的又一些实施例,提供的一种行为识别方法,包括:将待识别视频提取第二预设数量的帧;利用前述任意实施例的训练方法得到的视觉特征提取模型确定各帧图像的编码;将各帧图像的编码,输入行为分类模型,得到待识别视频中的行为类型。
根据本公开的再一些实施例,提供的一种对象跟踪方法,包括:利用前述任意实施例的训练方法得到的视觉特征提取模型确定待识别视频的各帧图像的编码,其中,待识别视频的第一帧图像中标注对象的位置信息;将各帧图像的编码,输入对象跟踪模型,得到各帧图像中对象的位置信息。
根据本公开的又一些实施例,提供的一种视频的特征提取方法,包括:将视频提取第三预设数量的帧;利用前述任意实施例的训练方法得到的视觉特征提取模型确定各帧图像的编码。
根据本公开的又一些实施例,提供的一种训练装置,包括:提取模块,被配置为针对每个样本视频,选取该样本视频的多帧图像,并从多帧图像分别提取图像块,将提取的图像块中的一个图像块作为查询图像块;编码模块,被配置为将各个图像块输入视觉特征提取模型,得到各个图像块对应的编码,其中,查询图像块对应的编码作为查询编码;损失函数确定模块,被配置为根据各个样本视频的查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及各个样本视频的查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数,其中,查询编码与同一样本视频中其他图像块对应的编码之间的相似度越高,查询编码与不同样本视频中图像块对应的编码之间的相似度越低,第一对比函数的值越小;参数调整模块,被配置为根据视觉特征提取模型的损失函数调整视觉特征提取模型的参数,对视觉特征提取模型进行训练,其中,视觉特征提取模型的损失函数包括第一对比损失函数。
根据本公开的再一些实施例,提供的一种动作识别装置,包括:提取模块,被配置为将待识别视频提取第一预设数量的帧;编码模块,被配置为利用前述任意实施例的训练方法得到的视觉特征提取模型确定各帧图像的编码;动作分类模块,被配置为将各帧图像的编码,输入动作分类模型,得到待识别视频中的动作类型。
根据本公开的又一些实施例,提供的一种行为识别装置,包括:提取模块,被配置为将待识别视频提取第二预设数量的帧;编码模块,被配置为利用前述任意实施例的训练方法得到的视觉特征提取模型确定各帧图像的编码;行为分类模块,被配置为将各帧图像的编码,输入行为分类模型,得到待识别视频中的行为类型。
根据本公开的再一些实施例,提供的一种对象跟踪装置,包括:编码模块,被配置为利用前述任意实施例的训练方法得到的视觉特征提取模型确定待识别视频的各帧图像的编码,其中,待识别视频的第一帧图像中标注目标的位置信息;对象跟踪模块,被配置为将各帧图像的编码,输入对象跟踪模型,得到各帧图像中目标的位置信息。
根据本公开的又一些实施例,提供的一种视频的特征提取装置,包括:提取模块,被配置为将视频提取第三预设数量的帧;编码模块,被配置为利用前述任意实施例的训练方法得到的视觉特征提取模型确定各帧图像的编码。
根据本公开的又一些实施例,提供的一种电子设备,包括:处理器;以及耦接至处理器的存储器,用于存储指令,指令被处理器执行时,使处理器执行如前述任意实施例的训练方法,或者前述任意实施例的动作识别方法,或者前述任意实施例的行为识别方法,或者前述任意实施例的对象跟踪方法,或者前述任意实施例的视频的特征提取方法。
根据本公开的再一些实施例,提供的一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的训练方法,或者前述任意实施例的动作识别方法,或者前述任意实施例的行为识别方法,或者前述任意实施例的对象跟踪方法,或者前述任意实施例的视频的特征提取方法。
本公开的方法针对每个样本视频不需要进行标注,从多帧图像提取图像块,利用视觉特征提取模型对各个图像块进行编码,其中一个图像块对应的编码作为查询编码,通过查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数,进而根据第一对比损失函数调整视觉特征提取模型的参数,对视觉特征提取模型进行训练。本公开的方法省去了标注过程,提高训练效率仅完全利用数据的固有结构和相关性来进行无监督训练,使得视觉提取模型可以具有很好的泛化能力。并且本公开的方法根据视频的时空连贯性,基于同一样本视频中多帧图像的关联性和不同视频中图像的无关性,构建损失函数对视觉特征提取模型进行训练,使得视觉特征提取模型能够很好的学习视频的特征,训练后的视觉特征提取模型能够更加准确的提取视频的特征。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的训练方法的流程示意图。
图2示出本公开的另一些实施例的训练方法的流程示意图。
图3示出本公开的一些实施例的动作识别方法的流程示意图。
图4示出本公开的一些实施例的行为识别方法的流程示意图。
图5示出本公开的一些实施例的对象跟踪方法的流程示意图。
图6示出本公开的一些实施例的训练装置的结构示意图。
图7示出本公开的一些实施例的动作识别装置的结构示意图。
图8示出本公开的一些实施例的行为识别装置的结构示意图。
图9示出本公开的一些实施例的对象跟踪装置的结构示意图。
图10示出本公开的一些实施例的电子设备的结构示意图。
图11示出本公开的另一些实施例的电子设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提出一种用于提取视频特征的视觉特征提取模型的无监督的训练方法,下面结合图1~2进行描述。
图1为本公开训练方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S108。
在步骤S102中,针对每个样本视频,选取该样本视频的多帧图像,并从多帧图像分别提取图像块,将提取的图像块中的一个图像块作为查询图像块。
大量的样本视频构成训练样本集合
Figure BDA0002613701080000092
针对每个样本视频可以随机选取多帧图像,即两帧以上的图像。对各帧图像进行数据增强(Data Augmentation)提取图像块。提取的图像块中一个图像块作为查询(Query)图像块,用于作为后续对比损失中对比基准。该查询图像块所在的一帧图像可以作为锚定帧。针对锚定帧之外的每帧图像可以只提取一个图像块足以用于训练,当然也可以提取多个图像块。针对锚定帧可以额外提取一个图像块。除去查询图像块之外的其他图像块可以作为键值(Key)图像块。
在一些实施例中,可以针对每个样本视频v提取三帧图像(s1,s2,s3),从锚定帧中提取的与查询图像块xq不同的另一图像块,作为第一键值图像块x1,从同一样本视频的两个其他帧中分别提取一个图像块,作为第二键值图像块x2和第三键值图像块x3
通过随机数据增强方法提取每个图像块即按照随机比例随机剪裁出每个图像块,并进行随机颜色抖动,随机灰度,随机模糊处理和随机镜像处理等。一帧图像中如果提取了多个图像块,则多个图像块采用不同的增强方式提取。不同的增强方式是指增强时采用的随机参数不同,例如随机剪裁时采用了不同的裁剪位置和尺寸、颜色抖动时随机到了不同的抖动幅度等。
在步骤S104中,将各个图像块输入视觉特征提取模型,得到各个图像块对应的编码。
视觉特征提取模型可以包括查询编码器和键值编码器,将每个样本视频对应的查询图像块xq输入查询编码器,将每个样本视频对应的键值图像块(例如,x1,x2,x3)输入键值编码器。查询编码器用于获得查询图像块对应的编码,作为查询编码sq,键值编码器用于获得查询图像块之外的其他图像块对应的编码,即其他键值图像块的键值编码(例如,
Figure BDA0002613701080000091
)。
在步骤S106中,根据各个样本视频的查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及各个样本视频的查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数。
查询编码与同一样本视频中其他图像块对应的编码之间的相似度越高,查询编码与不同样本视频中图像块对应的编码之间的相似度越低,第一对比函数的值越小。
基于视频的时空连贯特征,设置了帧间实例判别任务,该任务在视频级别检查查询编码与键值编码的匹配性。从时空的角度来看,查询编码sq与同一视频中的所有键值编码(例如,
Figure BDA0002613701080000101
)相似,并且与其他视频中采样的键值编码(例如,表示为
Figure BDA0002613701080000102
)不同。基于该帧间实例判别任务设计了第一对比损失函数的确定方法。
在一些实施例中,针对每个样本视频获得查询编码,第一键值编码,第二键值编码和第三键值编码的情况下,针对每个样本视频,根据查询编码分别与第一键值图像块对应第一键值编码、第二键值图像块对应的第二键值编码和第三键值图像块对应的第三键值编码的相似度,以及查询编码分别与各个负键值编码的相似度,确定该样本视频对应的帧间损失函数,其中,各个负键值编码包括其他样本视频对应的第一键值编码、第二键值编码和第三键值编码;根据各个样本视频对应的帧间损失函数,确定第一对比损失函数。
也可以针对每个样本视频,从一帧中提取一个查询图像块,进一步获得查询编码,从另一帧中提取一个键值图像块,获得键值编码。针对每个样本视频,根据查询编码与键值编码的相似度,以及查询编码分别与各个负键值编码的相似度,确定该样本视频对应的帧间损失函数。各个负键值编码包括其他样本视频对应的键值编码。样本视频中提取的帧的个数和图像块的个数可以根据实际需求设置,对于帧间实例判别任务参考上述实施例中第一对比损失函数的构建原理构建损失函数即可。
在一些实施例中,两个编码之间的相似度可以通过点积的方式测量,不限于所举示例。例如,分别根据查询编码与第一键值编码、第二键值编码和第三键值编码的点积确定查询编码与第一键值编码、第二键值编码和第三键值编码的相似度;根据查询编码与各个负键值编码的点积确定查询编码与各个负键值编码的相似度。
例如,同一帧对应的查询编码为sq和键值编码为
Figure BDA0002613701080000111
以及来自同一视频中其他帧的两个键键值编码为
Figure BDA0002613701080000112
在帧间实例区分任务中,目标是确定两个图像块是否来自同一视频。可以将同一视频中的所有键值编码
Figure BDA0002613701080000113
作为正键值编码,并将其他视频中采样的图像块作为负样本,对应负键值编码
Figure BDA0002613701080000114
如果训练过程将样本视频划分了多个批次(Batch),每个批次包含预设数量的样本视频,通过多个批次迭代进行训练,那么可以将相邻批次中其他视频中采样的图像块作为负样本,对应负键值编码
Figure BDA0002613701080000115
不限于所举示例。
查询编码sq需要匹配到多个键值编码
Figure BDA0002613701080000116
可以将此任务中的每个样本视频对应的帧间损失函数定义为所有查询编码和正键值编码对(sq
Figure BDA0002613701080000117
)的对比损失的平均和,例如采用以下公式表示。
Figure BDA0002613701080000118
sq为查询编码,1≤i≤3,i为正整数,
Figure BDA0002613701080000119
为第一键值编码,
Figure BDA00026137010800001110
为第二键值编码,
Figure BDA00026137010800001111
为第三键值编码,1≤j≤K,j为正整数,K为负键值编码的总数,
Figure BDA00026137010800001112
为第j个负键值编码,τ为超参数。将各个样本视频对应的帧间损失函数进行加权或加和可以确定第一对比损失函数。可以通过最小化第一对比损失函数值,使视觉特征提取模型可以区别同一视频中所有正键值编码
Figure BDA00026137010800001113
和查询编码sq与其他视频的所有负键值编码
Figure BDA00026137010800001114
每个样本视频对应的帧间损失函数还可以定义为各个查询编码和正键值编码对(sq
Figure BDA00026137010800001115
)的对比损失的加权结果,不限于所举示例。
在步骤S108中,根据视觉特征提取模型的损失函数调整视觉特征提取模型的参数,对视觉特征提取模型进行训练。
视觉特征提取模型的损失函数包括第一对比损失函数。在一些实施例中,视觉特征提取模型包括查询编码器和键值编码器。查询编码器和键值编码器可以采用不同的参数调整策略。例如,每次迭代中,根据视觉特征提取模型的损失函数调整查询编码器的本次迭代的参数,根据查询编码器的上一次迭代的参数和键值编码器上一次迭代的参数调整键值编码器本次迭代的参数。
进一步,可以通过使得视觉特征提取模型的损失函数的值最小,采用SGD(随机梯度下降)对查询编码器的参数(权重)进行调整和更新。对于键值编码器则可以通过动量更新(Momentum Update)策略以查询编码器的参数为条件进行调整和更新。动量更新策略可以减少键值编码器的剧烈变化导致不同的键值编码的特征一致性的丢失,还能使键值编码器一直处于更新中。可以根据以下公式更新键值编码器的参数。
Figure BDA0002613701080000121
t为迭代次数,
Figure BDA0002613701080000122
为第t次迭代键值编码器的参数,fk表示键值编码器,
Figure BDA0002613701080000123
为第t-1次迭代键值编码器的参数,
Figure BDA0002613701080000124
为第t-1次迭代查询编码器的参数,fq表示查询编码器,α为动量系数。
帧间实例判别任务旨在学习视频级查询图像块和键值图像块的兼容性。在此任务中,训练的视觉特征提取模型不仅可以区分视频中同一帧的查询图像块与其他视频中的图像块(作为负样本或不匹配样本),还可以将视频中其他帧中的图像块识别为正样本或相匹配的样本。这样的设计超越了传统的静态图像监控,并且在同一视频中获取了更多的正样本图像块。通过对比学习,为具有时间演变的对象(例如对象的新视图/姿态)的学习提供了新思路。这种方式很好的利用了视频中时空结构的优势,从而加强了对视频理解的无监督视觉特征学习。
上述实施例的方法针对每个样本视频不需要进行标注,从多帧图像提取图像块,利用视觉特征提取模型对各个图像块进行编码,其中一个图像块对应的编码作为查询编码,通过查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数,进而根据第一对比损失函数调整视觉特征提取模型的参数,对视觉特征提取模型进行训练。上述实施例的方法省去了标注过程,提高训练效率仅完全利用数据的固有结构和相关性来进行无监督训练,使得视觉提取模型可以具有很好的泛化能力。并且上述实施例的方法根据视频的时空连贯性,基于同一样本视频中多帧图像的关联性和不同视频中图像的无关性,构建损失函数对视觉特征提取模型进行训练,使得视觉特征提取模型能够很好的学习视频的特征,训练后的视觉特征提取模型能够更加准确的提取视频的特征。
视频除了具有时空连贯性的之外,还具有跨帧变化和帧的顺序固定等特性,为了进一步提升视觉特征提取模型的学习准确度,本公开还提供了前述训练方法的进一步改进方案,下面结合图2进行描述。
图2为本公开训练方法另一些实施例的流程图。如图2所示,该实施例的方法包括:步骤S202~S220。
在步骤S202中,针对每个样本视频,选取该样本视频的多帧图像,并从多帧图像分别提取图像块,将提取的图像块中的一个图像块作为查询图像块。
在步骤S204中,将各个图像块输入视觉特征提取模型,得到各个图像块对应的编码。
在步骤S206中,根据各个样本视频的查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及各个样本视频的查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数。
在步骤S208中,根据各个样本视频的查询编码与第一键值图像块对应的编码之间的相似度,以及查询编码与同一样本视频中其他帧提取的图像块对应的编码之间的相似度,确定第二对比损失函数。
查询编码与第一键值图像块对应的编码之间的相似度越高,查询编码与同一样本视频中其他帧提取的图像块对应的编码之间的相似度越低,第二对比损失函数的值越小。
基于视频的跨帧变化特性,设计了帧内实例判别任务,该任务从空间角度确定是否从同一帧中派生了两个图像块。查询编码sq与同一帧对应的键值编码(例如,
Figure BDA0002613701080000141
)相似,与其他帧对应的键值编码
Figure BDA0002613701080000142
Figure BDA0002613701080000143
不匹配。
在一些实施例中,针对每个样本视频获得查询编码,第一键值编码,第二键值编码和第三键值编码的情况下,针对每个样本视频,根据查询编码与第一键值图像块对应第一键值编码的相似度,以及查询编码分别与第二键值图像块对应的第二键值编码和第三键值图像块对应的第三键值编码的相似度,确定该样本视频对应的帧内损失函数;根据各个样本视频对应的帧内损失函数,确定第二对比损失函数。
也可以针对每个样本视频,从一帧中提取一个查询图像块和一个键值图像块作为第一键值图像块,进一步获得查询编码和第一键值编码,从另一帧中提取一个键值图像块作为第二键值图像块,获得第二键值编码。针对每个样本视频,根据查询编码与第一键值编码的相似度,以及查询编码与第二键值编码的相似度,确定该样本视频对应的帧间损失函数。帧内实例判别任务需要在查询图像块所在帧中提取额外的至少一个图像块进行对比。还需要在同一视频至少一个其他帧提取至少一个图像块。除此之外,并不限定在同一视频中提取的帧的个数,以及查询图像块之外同一帧中提取的图像块的个数和其他帧提取的图像块的个数。对于帧内实例判别任务参考上述实施例中第二对比损失函数的构建原理构建损失函数即可。
在一些实施例中,两个编码之间的相似度可以通过点积的方式测量,不限于所举示例。例如,针对从一个视频中采样的四个图像块对应的编码中(同一帧对应的查询编码sq和第一键值编码
Figure BDA0002613701080000144
另外两个帧对应的两个键值编码
Figure BDA0002613701080000145
),将
Figure BDA0002613701080000146
作为正键值编码,将
Figure BDA0002613701080000147
作为负键值编码。由于帧间实例判别任务已经利用了从其他视频派生的键值编码,因此为了简便起见,在本任务中对已经应用的其他视频的键值编码排除在对比学习之外。具体的,各个样本视频对应的帧内损失函数可以采用以下公式确定。
Figure BDA0002613701080000151
sq为查询编码,
Figure BDA0002613701080000152
为第一键值编码,
Figure BDA0002613701080000153
为第二键值编码,
Figure BDA0002613701080000154
为第三键值编码,τ为超参数。将各个样本视频对应的帧内损失函数进行加权或加和可以确定第二对比损失函数。第二对比损失函数的设计可以使查询编码sq类似于从同一帧扩展的正键值编码
Figure BDA0002613701080000155
并且与其他帧的负键值编码
Figure BDA0002613701080000156
保持不同,获得时间上具有区别的视觉表示。
在帧间实例判别任务中,在视频级别采样的所有图像块被整体分组为一个通用类,而未利用同一个视频内的帧之间的固有空间变化。为了缓解该问题,提出了上述帧内实例判别任务,以区分同一帧的图像块与视频中的其他帧的图像块,从空间角度明确显示变化。这样,通过帧间的空间监督进一步引导无监督特征学习,期望学习到的视觉表示在视频中的帧之间是有区别的。
在步骤S210中,针对每个样本视频,按照预设顺序将查询编码与同一样本视频中其他帧提取的图像块对应的编码组合成序列编码。
查询图像块所在帧可以作为锚定帧,为了更加容易确定各个图像块的顺序,可以选取从视频中提取的多帧图像中按时间顺序排列的第一帧或最后一帧作为锚定帧。在一些实施例中,按照查询编码,第二键值图像块对应的第二键值编码,第三键值图像块对应的第三键值编码的顺序,生成序列编码。可以将查询编码、第二键值编码、第三键值编码进行拼接,当然顺序也可以反过来,不限于所举示例。
基于视频的多帧之间顺序,设计时间顺序验证任务,通过预测图像块序列的正确时间顺序来学习视频的固有顺序结构。具体而言,给定由查询编码sq和两个键值编码
Figure BDA0002613701080000157
组成序列编码。这里可以不再使用第一键值编码,这是由于查询编码和第一键值编码属于同一帧,无法区分顺序。
在步骤S212中,将序列编码输入分类模型,得到查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中的预测时间顺序。
在一些实施例中,将序列编码输入二分类模型,得到查询图像块在第二键值图像块和第三键值图像块之前或之后的结果,作为预测时间顺序。二分类模型输出的情况有两种,一种是查询图像块在第二键值图像块和第三键值图像块之前,另一种则是查询图像块在第二键值图像块和第三键值图像块之后。
在步骤S214中,根据各个样本视频对应的预测时间顺序,以及查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中真实时间顺序,确定第三损失函数。
在一些实施例中,根据预测时间顺序,以及查询图像块、第二键值图像块和第三键值图像块在该样本视频中的真实时间顺序,确定各个样本视频对应的交叉熵损失函数,根据个样本视频对应的交叉熵损失函数确定第三损失函数。
从视频帧间的顺序的角度设计时间顺序验证任务,旨在验证一系列图像块是否处于正确的时间顺序。背后的基本原理是鼓励视觉特征提取模型对图像块的时间顺序进行推理,从而利用视频的顺序结构进行无监督的特征学习。
例如,从一个未标注的视频中随机采样了三个帧,并以时间顺序中的第一帧或最后一帧作为锚定帧,给定由查询编码sq和两个键值编码
Figure BDA0002613701080000161
连接为整体序列表示形式即序列编码,并将其输入到二分类器g()中,该分类器可预测查询编码在键值编码的前面或后面。每个样本视频对应的交叉熵损失函数可以采用以下公式确定:
Figure BDA0002613701080000162
sq为查询编码,
Figure BDA0002613701080000163
为第二键值编码,
Figure BDA0002613701080000164
为第三键值编码,y∈{0,1}表示按照在该样本视频中的真实时间顺序,查询sq是在第二键值编码和第三键值编码
Figure BDA0002613701080000165
之前或之后。将各个样本视频对应的交叉熵损失函数进行加权或加和可以确定第三损失函数。可以通过最小化第三损失函数值,使视觉特征提取模型可以区别不同帧的顺序。
上述步骤S206、S208、S210~S214可以并列执行,S208、S210~S214为可选步骤。
在步骤S216中,根据第一对比损失函数和第二对比损失函数调整视觉特征提取模型的参数,对视觉特征提取模型进行训练。
例如,视觉特征提取模型的损失函数为第一对比损失函数和第二对比损失函数的加权结果。
在步骤S218中,根据第一对比损失函数和第三损失函数调整视觉特征提取模型的参数,对视觉特征提取模型进行训练。
例如,视觉特征提取模型的损失函数为第一对比损失函数和第三损失函数的加权结果。
在步骤S220中,根据第一对比损失函数、第二对比损失函数和第三损失函数调整视觉特征提取模型的参数,对视觉特征提取模型进行训练。
例如,视觉特征提取模型的损失函数为第一对比损失函数、第二对比损失函数和第三损失函数的加权结果。例如,视觉特征提取模型的损失函数可以采用以下公式确定。
Figure BDA0002613701080000171
视觉特征提取模型的参数如何更新在前述实施例已描述,在此不再赘述。帧间实例判别任务、帧内实例判别任务、时间顺序验证任务可以进行组合对视觉特征提取模型进行训练,三种任务都实施的情况下,视觉特征提取模型的准确度最高,效果最好,这是由于全面利用了视频的时空连贯性、跨帧变化性以及帧间顺序性的多种特性,使得视觉特征提取模型全面学习了视频的特征。并且训练过程利用视频固有的特性,视觉特征提取模型具有很好的泛化能力。
通过上述实施例可以看出帧间实例判别任务、帧内实例判别任务、时间顺序验证任务中采样方法可能不同,如果各个任务需要组合应用,则需要将不同任务的采样方式统一,例如,上述实施例中针对每个视频采样三帧、将第一帧或最后一帧作为锚定帧、锚定帧提取查询图像块和第一键值图像块,其他两帧分别提取第二键值图像块和第三键值图像块。但是并不限于所举示例,采样方式只要满足各个损失函数的确定策略即可。
训练后的视觉特征提取模型可以用于提取视频的特征。在一些实施例中,将视频提取第三预设数量的帧;利用前述任意实施例的训练方法得到的视觉特征提取模型确定各帧图像的编码。
可选的,还可以进一步包括,根据各帧图像的编码确定所述视频的特征。例如,可以将各帧图像编码的平均值作为视频的特征,或者直接将各帧图像编码作为视频的特征,不限于所举示例。
上述实施例中,设计了帧间实例判别任务、帧内实例判别任务、时间顺序验证任务,基于的时空连贯性、跨帧变化性以及帧间顺序性的至少一种特性对视觉特征提取模型进行训练,使得视觉特征提取模型能够学习到视频中最具表征性的特征。例如,根据帧间实例判别任务,同一视频中不同帧的图像块相似度接近,不同视频中各帧的图像块不相似,则可以使视觉特征提取模型能够学习到每个视频中的主体(目标)的主要特征,例如,针对一个人骑车的视频和其他视频(一个人走路或者滑滑板等),视觉特征提取模型则可以通过训练区分不同视频中内容,从而提取表达该视频的最主要特征。
又例如,根据帧内实例判别任务,同一帧中图像块相似度接近,不同帧的图像块不相似,则可以使视觉特征提取模型能够学习到每帧中的主体(目标)的细节变化特征,这些细节特征可以进一步在帧间实例判别任务的基础上提高视觉特征提取模型提取的特征的精确度。又例如,根据时间顺序验证任务,各帧之间的顺序需要保持准确,则使视觉特征提取模型能够学习到每帧中的主体(目标)的特征变化规律,进一步在前述两个任务的基础上丰富了视觉特征提取模型学习到特征,使得提取的特征更加精确。三个任务的应用,可以是视觉特征提取模型无论针对任意内容的视频,都可以非常准确的学习到整个视频想要表达的内容。在视觉特征提取模型准确的理解了视频的内容的基础上,与任何下游任务(例如,动作识别、行为识别、目标跟踪等)进行结合都可以给出非常好的表现。
下面结合图3~图5描述根据前述实施例训练后的视觉特征提取模型如何应用的一些实施例。
图3为本公开动作识别(Action Recognition)方法的一些实施例的流程图。如图3所示,该实施例的方法包括:步骤S302~S306。
在步骤S302中,将待识别视频提取第一预设数量的帧。
例如,待识别视频提取30或50帧,也可以针对每帧图像提取图像块,这里提取图像块可以采用固定的方式,例如将每个帧调整为预设大小,并从中心剪裁预设长度和宽度的图像块。
在步骤S304中,利用预训练的视觉特征提取模型确定各帧图像的编码。
视觉特征提取模型包括查询编码器和键值编码器,训练过程中需要两个编码器的输出结果进行对比,使用时由于不需要进行对比,可以只应用查询编码器对各帧图像(或各个图像块)进行编码。
在步骤S306中,将各帧图像的编码,输入动作分类模型,得到待识别视频中的动作类型。
各帧图像的编码可以进行平均后再输入动作分类模型。动作识别模型可以由视觉特征提取模型和动作分类模型组合而成,动作分类模型可以是简单的线性模型,不限于所举示例。
由于视觉特征提取模型经过前述实施例的方法的训练,可以很准确的提取视频的特征,因此,提高了最终的动作识别的准确性。
图4为本公开行为识别(Activity Recognition)方法的一些实施例的流程图。如图4所示,该实施例的方法包括:步骤S402~S406。
在步骤S402中,将待识别视频提取第二预设数量的帧。
例如,待识别视频提取30或50帧,也可以针对每帧图像提取图像块,这里提取图像块可以采用固定的方式,例如将每个帧调整为预设大小,并从中心剪裁预设长度和宽度的图像块。
在步骤S404中,利用预训练的视觉特征提取模型确定各帧图像的编码。
视觉特征提取模型包括查询编码器和键值编码器,训练过程中需要两个编码器的输出结果进行对比,使用时由于不需要进行对比,可以只应用查询编码器对各帧图像(或各个图像块)进行编码。
在步骤S406中,将各帧图像的编码,输入行为分类模型,得到待识别视频中的行为类型。
各帧图像的编码可以进行平均后再输入行为分类模型。行为识别模型可以由视觉特征提取模型和行为分类模型组合而成,行为分类模型可以是简单的线性模型,不限于所举示例。
由于视觉特征提取模型经过前述实施例的方法的训练,可以很准确的提取视频的特征,因此,提高了最终的行为识别的准确性。
由于动作识别和行为识别的方法和模型都比较相似,下面以同一应用例来描述两种方法。
首先对视觉特征提取模型的一些实施方式进行描述。视觉特征提取模型包括查询编码器和键值编码器,两个编码器可以采用相似的结构,都可以采用神经网络结构。例如,两个编码器采用ResNet50(残差网络50)+MLP(多层感知器)的结构。进一步,ResNet50和MLP之间可以加入全局池化层。MLP可以只影响训练过程,不参与下游任务。在训练过程中,MLP之后还加入前述实施例中帧间实例判别任务、帧内实例判别任务、时间顺序验证任务三个任务的判别网络结构。当视觉特征提取模型作为动作识别模型和行为识别模型中的特征提取部分时,可以只应用ResNet50+MLP的结构。视觉特征提取模型可以首先采用包含各种类型的样本视频的训练集进行预训练,使视频特征提取模型可以学习到各种类型的视频的特征,而训练过程不需要进行标注。
进一步,动作识别模型和行为识别模型中分类部分即动作分类模型和行为分类模型可以采用线性模型,例如可以采用SVM(支持向量机)。动作识别模型和行为识别模型的整体结构可为ResNet50+MLP+SVM。视觉特征提取模型可以根据前述实施例的方法进行预训练,之后与其他线性模型组合,得到动作识别模型和行为识别模型。
动作分类模型和行为分类模型需要利用训练集进行训练,以使整个模型可以完成动作识别或行为识别。动作分类模型可以采用动作类训练集进行训练,例如为Kinetics400数据集,行为分类模型可以采用行为类训练集进行训练,例如ActivityNet数据集等,不限于所举示例。这个过程,视觉特征提取模型不需要再训练,而对动作分类模型和行为分类模型的训练集的样本数量可以远小于视频特征提取模型的训练集的样本数量,大大减少标注的量,提高效率。以动作分类模型为例,动作分类模型训练过程中可以针对每个样本视频提取预设数量的帧,并根据预设方式提取图像块(可以是整个帧的图像作为图像块,根据具体动作分类模型的训练需求确定),输入视觉特征提取模型,得到各个图像块的编码,将各个图像块的编码取平均值输入动作分类模型,得到分类结果,根据分类结果与标注的动作类型,确定损失函数,根据损失函数对动作分类模型的参数进行调整,直至达到收敛条件完成训练。具体损失函数确定方法和参数的调整方法可以采用现有技术,在此不再赘述。
动作分类模型和行为分类模型部分的训练相对简单,视觉特征提取模型一次训练之后可以与各种下游任务相结合,不需要再针对不同下游任务进行训练,在多种应用的情况下,提高效率。
图5为本公开对象跟踪(Object Tracking)方法的一些实施例的流程图。如图5所示,该实施例的方法包括:步骤S502~S504。
在步骤S502中,利用预训练的视觉特征提取模型确定待识别视频的各帧图像的编码。
对象跟踪可以对第一帧图像中标注对象的位置信息,例如,标注对象的边界框的位置。可以对各帧图像进行预处理之后再输入视觉特征提取模型,例如将空间分辨率调整为预设分辨率等。
在步骤S504中,将各帧图像的编码,输入对象跟踪模型,得到各帧图像中对象的位置信息。
对象跟踪可以基于SiamFC(基于全卷积孪生网络的目标跟踪算法)。如前述实施例中ResNet50+MLP可以作为视觉特征提取模型的编码器,利用查询编码器确定各帧图像的编码,为了适应SiamFC算法以及更加准确的评估视觉特征提取模型的效果。在视觉特征提取模型的查询编码器之后增加1x1卷积,在训练过程中,仅通过优化1x1卷积的参数来完成跟踪特征的学习。查询编码器之后增加1x1卷积的结构可以作为SiamFC算法中的特征提取部分。同时,ResNet50的配置可以进行修改更适合SiamFC算法,对于ResNet50的{res4,res5}中步长为2的卷积更改为步长为1,res4和res5中的3x 3卷积的膨胀率由1分别修改为2和4.在此修改过程中,ResNet50中各层的权重保持不变。查询编码器和1x1卷积部分可用于对第一帧图像和其他各帧图像进行变换,再将第一帧图像变换后的编码和其他各帧图像变换后的编码输入SiamFC算法的对象跟踪部分(即对象跟踪模型)。具体的SiamFC算法和该算法中对象跟踪部分模型的训练方法可以参考现有技术,在此不再赘述。
由于视觉特征提取模型经过前述实施例的方法的训练,可以很准确的提取视频的特征,因此,提高了最终的对象跟踪的准确性。
发明人将利用本公开中的训练方法训练的视觉特征提取模型,与现有多种训练方法训练的视觉特征提取模型进行对比实验,在各种下游任务的场景中,准确率均有较高的提升,证明本公开的训练方法既能够减少标注的繁琐过程,又能够使模型的准确性有所提升。
本公开还提供一种训练装置,下面结合图6进行描述。
图6为本公开训练装置的一些实施例的结构图。如图6所示,该实施例的装置60包括:提取模块610,编码模块620,损失函数确定模块630,参数调整模块640。
提取模块610被配置为针对每个样本视频,选取该样本视频的多帧图像,并从多帧图像分别提取图像块,将提取的图像块中的一个图像块作为查询图像块。
编码模块620被配置为将各个图像块输入视觉特征提取模型,得到各个图像块对应的编码,其中,查询图像块对应的编码作为查询编码。
损失函数确定模块630被配置为根据各个样本视频的查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及各个样本视频的查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数,其中,查询编码与同一样本视频中其他图像块对应的编码之间的相似度越高,查询编码与不同样本视频中图像块对应的编码之间的相似度越低,第一对比函数的值越小。
在一些实施例中,查询图像块所在的帧作为锚定帧,提取的图像块中还包括从锚定帧中提取的与查询图像块不同的另一图像块,作为第一键值图像块,从同一样本视频的两个其他帧中分别提取一个图像块,作为第二键值图像块和第三键值图像块。损失函数确定模块630被配置为针对每个样本视频,根据查询编码分别与第一键值图像块对应第一键值编码、第二键值图像块对应的第二键值编码和第三键值图像块对应的第三键值编码的相似度,以及查询编码分别与各个负键值编码的相似度,确定该样本视频对应的帧间损失函数,其中,各个负键值编码包括其他样本视频对应的第一键值编码、第二键值编码和第三键值编码;根据各个样本视频对应的帧间损失函数,确定第一对比损失函数。
在一些实施例中,分别根据查询编码与第一键值编码、第二键值编码和第三键值编码的点积确定查询编码与第一键值编码、第二键值编码和第三键值编码的相似度;根据查询编码与各个负键值编码的点积确定查询编码与各个负键值编码的相似度。
在一些实施例中,每个样本视频对应的帧间损失函数采用以下公式确定:
Figure BDA0002613701080000231
其中,sq为查询编码,1≤i≤3,i为正整数,
Figure BDA0002613701080000232
为第一键值编码,
Figure BDA0002613701080000233
为第二键值编码,
Figure BDA0002613701080000234
为第三键值编码,1≤j≤K,j为正整数,K为负键值编码的总数,
Figure BDA0002613701080000235
为第j个负键值编码,τ为超参数。
在一些实施例中,查询图像块所在的帧作为锚定帧,提取的图像块中还包括从锚定帧中提取的与查询图像块不同的另一图像块,作为第一键值图像块。损失函数确定模块630还被配置为根据各个样本视频的查询编码与第一键值图像块对应的编码之间的相似度,以及查询编码与同一样本视频中其他帧提取的图像块对应的编码之间的相似度,确定第二对比损失函数,其中,查询编码与第一键值图像块对应的编码之间的相似度越高,查询编码与同一样本视频中其他帧提取的图像块对应的编码之间的相似度越低,第二对比损失函数的值越小。视觉特征提取模型的损失函数还包括第二对比损失函数。
在一些实施例中,同一样本视频中其他帧提取的图像块包括从同一样本视频的两个其他帧中分别提取一个图像块,作为样本视频对应的第二键值图像块和第三键值图像块。损失函数确定模块630被配置为针对每个样本视频,根据查询编码与第一键值图像块对应第一键值编码的相似度,以及查询编码分别与第二键值图像块对应的第二键值编码和第三键值图像块对应的第三键值编码的相似度,确定该样本视频对应的帧内损失函数;根据各个样本视频对应的帧内损失函数,确定第二对比损失函数。
在一些实施例中,每个样本视频对应的帧内损失函数采用以下公式确定:
Figure BDA0002613701080000241
其中,sq为查询编码,
Figure BDA0002613701080000242
为第一键值编码,
Figure BDA0002613701080000243
为第二键值编码,
Figure BDA0002613701080000244
为第三键值编码,τ为超参数。
在一些实施例中,锚定帧为多帧图像中按时间顺序排列的第一帧或最后一帧。损失函数确定模块630还被配置为针对每个样本视频,按照预设顺序将查询编码与同一样本视频中其他帧提取的图像块对应的编码组合成序列编码;将序列编码输入分类模型,得到查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中的预测时间顺序;根据各个样本视频对应的预测时间顺序,以及查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中真实时间顺序,确定第三损失函数;视觉特征提取模型的损失函数还包括第三对比损失函数。
在一些实施例中,提取的图像块中还包括从锚定帧中提取的与查询图像块不同的另一图像块,作为第一键值图像块,从同一样本视频的两个其他帧中分别提取一个图像块,作为第二键值图像块和第三键值图像块。损失函数确定模块630被配置为按照查询编码,第二键值图像块对应的第二键值编码,第三键值图像块对应的第三键值编码的顺序,生成序列编码;将序列编码输入二分类模型,得到查询图像块在第二键值图像块和第三键值图像块之前或之后的结果,作为预测时间顺序;根据预测时间顺序,以及查询图像块、第二键值图像块和第三键值图像块在该样本视频中的真实时间顺序,确定各个样本视频对应的交叉熵损失函数,根据个样本视频对应的交叉熵损失函数确定第三损失函数。
在一些实施例中,每个样本视频对应的交叉熵损失函数采用以下公式确定:
Figure BDA0002613701080000251
其中,sq为查询编码,
Figure BDA0002613701080000252
为第二键值编码,
Figure BDA0002613701080000253
为第三键值编码,y∈{0,1}表示按照在该样本视频中的真实时间顺序,查询sq是在第二键值编码和第三键值编码
Figure BDA0002613701080000254
之前或之后。
在一些实施例中,视觉特征提取模型的损失函数为第一对比损失函数、第二对比损失函数和第三损失函数的加权结果。
参数调整模块640被配置为根据视觉特征提取模型的损失函数调整视觉特征提取模型的参数,对视觉特征提取模型进行训练,其中,视觉特征提取模型的损失函数包括第一对比损失函数。
在一些实施例中,视觉特征提取模型包括查询编码器和键值编码器,查询编码器用于获得查询编码,键值编码器用于获得查询图像块之外的其他图像块对应的编码。参数调整模块640被配置为每次迭代中,根据视觉特征提取模型的损失函数调整查询编码器的本次迭代的参数,根据查询编码器的上一次迭代的参数和键值编码器上一次迭代的参数调整键值编码器本次迭代的参数。
本公开还提供一种动作识别装置,下面结合图7进行描述。
图7为本公开动作识别装置的一些实施例的结构图。如图7所示,该实施例的装置70包括:提取模块710,编码模块720,动作分类模块730。
提取模块710被配置为将待识别视频提取第一预设数量的帧。
编码模块720被配置为利用前述任意实施例的训练方法得到的视觉特征提取模型确定各帧图像的编码。
动作分类模块730被配置为将各帧图像的编码,输入动作分类模型,得到待识别视频中的动作类型。
本公开还提供一种行为识别装置,下面结合图8进行描述。
图8为本公开行为识别装置的一些实施例的结构图。如图8所示,该实施例的装置80包括:提取模块810,编码模块820,行为分类模块830。
提取模块810被配置为将待识别视频提取第二预设数量的帧。
编码模块820被配置为利用前述任意实施例的训练方法得到的视觉特征提取模型确定各帧图像的编码
行为分类模块830被配置为将各帧图像的编码,输入行为分类模型,得到待识别视频中的行为类型。
本公开还提供一种对象跟踪装置,下面结合图9进行描述。
图9为本公开对象跟踪装置的一些实施例的结构图。如图9所示,该实施例的装置90包括:编码模块910,对象跟踪模块920。
编码模块910被配置为利用前述任意实施例的训练方法得到的视觉特征提取模型确定待识别视频的各帧图像的编码,其中,待识别视频的第一帧图像中标注目标的位置信息。
对象跟踪模块920被配置为将各帧图像的编码,输入对象跟踪模型,得到各帧图像中目标的位置信息。
本公开还提供一种视频的特征提取装置,包括:提取模块,被配置为将视频提取第三预设数量的帧;编码模块,被配置为利用前述任意实施例的训练方法得到的视觉特征提取模型确定各帧图像的编码。可选的,该装置还可以进一步包括,特征确定模块,被配置为根据各帧图像的编码确定所述视频的特征。
本公开的实施例中的电子设备可各由各种计算设备或计算机***来实现,下面结合图10以及图11进行描述。
图10为本公开电子设备的一些实施例的结构图。如图10所示,该实施例的电子设备100包括:存储器1010以及耦接至该存储器1010的处理器1020,处理器1020被配置为基于存储在存储器1010中的指令,执行本公开中任意一些实施例中的训练方法、动作识别方法、行为识别方法、对象跟踪方法、视频的特征提取方法。
其中,存储器1010例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图11为本公开电子设备的另一些实施例的结构图。如图11所示,该实施例的电子设备110包括:存储器1110以及处理器1120,分别与存储器1010以及处理器1020类似。还可以包括输入输出接口1130、网络接口1140、存储接口1150等。这些接口1130,1140,1150以及存储器1110和处理器1120之间例如可以通过总线1160连接。其中,输入输出接口1130为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口1140为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口1150为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (23)

1.一种训练方法,包括:
针对每个样本视频,选取该样本视频的多帧图像,并从所述多帧图像分别提取图像块,将提取的图像块中的一个图像块作为查询图像块;
将各个图像块输入视觉特征提取模型,得到各个图像块对应的编码,其中,所述查询图像块对应的编码作为查询编码;
根据各个样本视频的所述查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及各个样本视频的所述查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数,其中,所述查询编码与同一样本视频中其他图像块对应的编码之间的相似度越高,所述查询编码与不同样本视频中图像块对应的编码之间的相似度越低,所述第一对比函数的值越小;
根据所述视觉特征提取模型的损失函数调整所述视觉特征提取模型的参数,对所述视觉特征提取模型进行训练,其中,所述视觉特征提取模型的损失函数包括所述第一对比损失函数。
2.根据权利要求1所述的训练方法,其中,所述查询图像块所在的帧作为锚定帧,所述提取的图像块中还包括从所述锚定帧中提取的与所述查询图像块不同的另一图像块,作为第一键值图像块,所述方法还包括:
根据各个样本视频的所述查询编码与所述第一键值图像块对应的编码之间的相似度,以及所述查询编码与同一样本视频中其他帧提取的图像块对应的编码之间的相似度,确定第二对比损失函数,其中,所述查询编码与所述第一键值图像块对应的编码之间的相似度越高,所述查询编码与同一样本视频中其他帧提取的图像块对应的编码之间的相似度越低,所述第二对比损失函数的值越小;
其中,所述视觉特征提取模型的损失函数还包括第二对比损失函数。
3.根据权利要求1或2所述的训练方法,其中,所述查询图像块所在的帧作为锚定帧,所述锚定帧为所述多帧图像中按时间顺序排列的第一帧或最后一帧,所述方法还包括:
针对每个样本视频,按照预设顺序将所述查询编码与同一样本视频中其他帧提取的图像块对应的编码组合成序列编码;
将所述序列编码输入分类模型,得到所述查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中的预测时间顺序;
根据各个样本视频对应的所述预测时间顺序,以及所述查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中真实时间顺序,确定第三损失函数;
其中,所述视觉特征提取模型的损失函数还包括第三对比损失函数。
4.根据权利要求1所述的训练方法,其中,所述视觉特征提取模型包括查询编码器和键值编码器,所述查询编码器用于获得所述查询编码,所述键值编码器用于获得所述查询图像块之外的其他图像块对应的编码;
所述根据所述视觉特征提取模型的损失函数调整所述视觉特征提取模型的参数包括:
每次迭代中,根据所述视觉特征提取模型的损失函数调整所述查询编码器的本次迭代的参数,根据所述查询编码器的上一次迭代的参数和所述键值编码器上一次迭代的参数调整所述键值编码器本次迭代的参数。
5.根据权利要求1所述的训练方法,其中,所述查询图像块所在的帧作为锚定帧,所述提取的图像块中还包括从所述锚定帧中提取的与所述查询图像块不同的另一图像块,作为第一键值图像块,从同一样本视频的两个其他帧中分别提取一个图像块,作为第二键值图像块和第三键值图像块;
所述根据各个样本视频的所述查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及各个样本视频的所述查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数包括:
针对每个样本视频,根据所述查询编码分别与第一键值图像块对应第一键值编码、第二键值图像块对应的第二键值编码和第三键值图像块对应的第三键值编码的相似度,以及所述查询编码分别与各个负键值编码的相似度,确定该样本视频对应的帧间损失函数,其中,所述各个负键值编码包括其他样本视频对应的第一键值编码、第二键值编码和第三键值编码;
根据各个样本视频对应的帧间损失函数,确定第一对比损失函数。
6.根据权利要求2所述的训练方法,其中,所述同一样本视频中其他帧提取的图像块包括从同一样本视频的两个其他帧中分别提取一个图像块,作为所述样本视频对应的第二键值图像块和第三键值图像块;
所述根据各个样本视频的所述查询编码与所述第一键值图像块对应的编码之间的相似度,以及所述查询编码与同一样本视频中其他帧提取的图像块对应的编码之间的相似度,确定第二对比损失函数包括:
针对每个样本视频,根据所述查询编码与第一键值图像块对应第一键值编码的相似度,以及所述查询编码分别与第二键值图像块对应的第二键值编码和第三键值图像块对应的第三键值编码的相似度,确定该样本视频对应的帧内损失函数;
根据各个样本视频对应的帧内损失函数,确定所述第二对比损失函数。
7.根据权利要求3所述的训练方法,其中,所述提取的图像块中还包括从所述锚定帧中提取的与所述查询图像块不同的另一图像块,作为第一键值图像块,从同一样本视频的两个其他帧中分别提取一个图像块,作为第二键值图像块和第三键值图像块;
所述按照预设顺序将所述查询编码与同一样本视频中其他帧提取的图像块对应的编码组合成序列编码包括:
按照所述查询编码,所述第二键值图像块对应的第二键值编码,所述第三键值图像块对应的第三键值编码的顺序,生成序列编码;
所述将所述序列编码输入分类模型,得到所述查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中的预测时间顺序包括:
将所述序列编码输入二分类模型,得到所述查询图像块在所述第二键值图像块和第三键值图像块之前或之后的结果,作为所述预测时间顺序;
所述根据各个样本视频对应的所述预测时间顺序,以及所述查询图像块与同一样本视频中其他帧提取的图像块在该样本视频中真实时间顺序,确定第三损失函数包括:
根据所述预测时间顺序,以及所述查询图像块、第二键值图像块和第三键值图像块在该样本视频中的真实时间顺序,确定各个样本视频对应的交叉熵损失函数,根据个样本视频对应的交叉熵损失函数确定第三损失函数。
8.根据权利要求5或6所述的训练方法,还包括:
分别根据所述查询编码与所述第一键值编码、所述第二键值编码和所述第三键值编码的点积确定所述查询编码与所述第一键值编码、所述第二键值编码和所述第三键值编码的相似度;
根据所述查询编码与各个负键值编码的点积确定所述查询编码与各个负键值编码的相似度。
9.根据权利要求8所述的训练方法,其中,每个样本视频对应的帧间损失函数采用以下公式确定:
Figure FDA0002613701070000051
其中,sq为查询编码,1≤i≤3,i为正整数,
Figure FDA0002613701070000052
为第一键值编码,
Figure FDA0002613701070000053
为第二键值编码,
Figure FDA0002613701070000054
为第三键值编码,1≤j≤K,j为正整数,K为负键值编码的总数,
Figure FDA0002613701070000055
为第j个负键值编码,τ为超参数。
10.根据权利要求8所述的训练方法,其中,每个样本视频对应的帧内损失函数采用以下公式确定:
Figure FDA0002613701070000056
其中,sq为查询编码,
Figure FDA0002613701070000057
为第一键值编码,
Figure FDA0002613701070000058
为第二键值编码,
Figure FDA0002613701070000059
为第三键值编码,τ为超参数。
11.根据权利要求7所述的训练方法,其中,所述每个样本视频对应的交叉熵损失函数采用以下公式确定:
Figure FDA00026137010700000510
其中,sq为查询编码,
Figure FDA00026137010700000511
为第二键值编码,
Figure FDA00026137010700000512
为第三键值编码,y∈{0,1}表示按照在该样本视频中的真实时间顺序,查询sq是在第二键值编码和第三键值编码
Figure FDA00026137010700000513
之前或之后。
12.根据权利要求3所述的训练方法,其中,
所述视觉特征提取模型的损失函数为所述第一对比损失函数、第二对比损失函数和第三损失函数的加权结果。
13.一种动作识别方法,包括:
将待识别视频提取第一预设数量的帧;
利用权利要求1-12任一项所述的训练方法得到的视觉特征提取模型确定各帧图像的编码;
将各帧图像的编码,输入动作分类模型,得到所述待识别视频中的动作类型。
14.一种行为识别方法,包括:
将待识别视频提取第二预设数量的帧;
利用权利要求1-12任一项所述的训练方法得到的视觉特征提取模型确定各帧图像的编码;
将各帧图像的编码,输入行为分类模型,得到所述待识别视频中的行为类型。
15.一种对象跟踪方法,包括:
利用权利要求1-12任一项所述的训练方法得到的视觉特征提取模型确定待识别视频的各帧图像的编码,其中,所述待识别视频的第一帧图像中标注对象的位置信息;
将各帧图像的编码,输入对象跟踪模型,得到各帧图像中所述对象的位置信息。
16.一种视频的特征提取方法,包括:
将视频提取第三预设数量的帧;
利用权利要求1-12任一项所述的训练方法得到的视觉特征提取模型确定各帧图像的编码。
17.一种训练装置,包括:
提取模块,被配置为针对每个样本视频,选取该样本视频的多帧图像,并从所述多帧图像分别提取图像块,将提取的图像块中的一个图像块作为查询图像块;
编码模块,被配置为将各个图像块输入视觉特征提取模型,得到各个图像块对应的编码,其中,所述查询图像块对应的编码作为查询编码;
损失函数确定模块,被配置为根据各个样本视频的所述查询编码与同一样本视频中其他图像块对应的编码之间的相似度,以及各个样本视频的所述查询编码与不同样本视频中图像块对应的编码之间的相似度,确定第一对比损失函数,其中,所述查询编码与同一样本视频中其他图像块对应的编码之间的相似度越高,所述查询编码与不同样本视频中图像块对应的编码之间的相似度越低,所述第一对比函数的值越小;
参数调整模块,被配置为根据所述视觉特征提取模型的损失函数调整所述视觉特征提取模型的参数,对所述视觉特征提取模型进行训练,其中,所述视觉特征提取模型的损失函数包括所述第一对比损失函数。
18.一种动作识别装置,包括:
提取模块,被配置为将待识别视频提取第一预设数量的帧;
编码模块,被配置为利用权利要求1-12任一项所述的训练方法得到的视觉特征提取模型确定各帧图像的编码;
动作分类模块,被配置为将各帧图像的编码,输入动作分类模型,得到所述待识别视频中的动作类型。
19.一种行为识别装置,包括:
提取模块,被配置为将待识别视频提取第二预设数量的帧;
编码模块,被配置为利用权利要求1-12任一项所述的训练方法得到的视觉特征提取模型确定各帧图像的编码;
行为分类模块,被配置为将各帧图像的编码,输入所述行为分类模型,得到所述待识别视频中的行为类型。
20.一种对象跟踪装置,包括:
编码模块,被配置为利用权利要求1-12任一项所述的训练方法得到的视觉特征提取模型确定待识别视频的各帧图像的编码,其中,所述待识别视频的第一帧图像中标注目标的位置信息;
对象跟踪模块,被配置为将各帧图像的编码,输入对象跟踪模型,得到各帧图像中所述目标的位置信息。
21.一种视频的特征提取装置,包括:
提取模块,被配置为将视频提取第三预设数量的帧;
编码模块,被配置为利用权利要求1-12任一项所述的训练方法得到的视觉特征提取模型确定各帧图像的编码。
22.一种电子设备,包括:
处理器;以及
耦接至所述处理器的存储器,用于存储指令,所述指令被所述处理器执行时,使所述处理器执行如权利要求1-12任一项所述的训练方法,或者权利要求13所述的动作识别方法,或者权利要求14所述的行为识别方法,或者权利要求15所述的对象跟踪方法,或者权利要求16所述的视频的特征提取方法。
23.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-12任一项所述的训练方法,或者权利要求13所述的动作识别方法,或者权利要求14所述的行为识别方法,或者权利要求15所述的对象跟踪方法,或者权利要求16所述的视频的特征提取方法。
CN202010763380.XA 2020-07-31 2020-07-31 训练方法、装置、电子设备以及计算机可读存储介质 Active CN112307883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010763380.XA CN112307883B (zh) 2020-07-31 2020-07-31 训练方法、装置、电子设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010763380.XA CN112307883B (zh) 2020-07-31 2020-07-31 训练方法、装置、电子设备以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112307883A true CN112307883A (zh) 2021-02-02
CN112307883B CN112307883B (zh) 2023-11-07

Family

ID=74483267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010763380.XA Active CN112307883B (zh) 2020-07-31 2020-07-31 训练方法、装置、电子设备以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112307883B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239855A (zh) * 2021-05-27 2021-08-10 北京字节跳动网络技术有限公司 一种视频检测方法、装置、电子设备以及存储介质
CN113673201A (zh) * 2021-07-15 2021-11-19 北京三快在线科技有限公司 一种文本表示向量生成方法、装置、存储介质及电子设备
CN113837260A (zh) * 2021-09-17 2021-12-24 北京百度网讯科技有限公司 模型训练方法、对象匹配方法、装置及电子设备
CN114020950A (zh) * 2021-11-03 2022-02-08 北京百度网讯科技有限公司 图像检索模型的训练方法、装置、设备以及存储介质
CN114283350A (zh) * 2021-09-17 2022-04-05 腾讯科技(深圳)有限公司 视觉模型训练和视频处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2109047A1 (en) * 2008-04-07 2009-10-14 Global Digital Technologies SA Video characterization, identification and search system
US20090259653A1 (en) * 2008-04-15 2009-10-15 Sony Corporation Information processing apparatus, method, and program
WO2010011344A1 (en) * 2008-07-23 2010-01-28 Ltu Technologies S.A.S. Frame based video matching
CN104166685A (zh) * 2014-07-24 2014-11-26 北京捷成世纪科技股份有限公司 一种检测视频片段的方法和装置
JP2016014990A (ja) * 2014-07-01 2016-01-28 学校法人早稲田大学 動画像検索方法、動画像検索装置及びそのプログラム
CN111026915A (zh) * 2019-11-25 2020-04-17 Oppo广东移动通信有限公司 视频分类方法、视频分类装置、存储介质与电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2109047A1 (en) * 2008-04-07 2009-10-14 Global Digital Technologies SA Video characterization, identification and search system
US20090259653A1 (en) * 2008-04-15 2009-10-15 Sony Corporation Information processing apparatus, method, and program
WO2010011344A1 (en) * 2008-07-23 2010-01-28 Ltu Technologies S.A.S. Frame based video matching
JP2016014990A (ja) * 2014-07-01 2016-01-28 学校法人早稲田大学 動画像検索方法、動画像検索装置及びそのプログラム
CN104166685A (zh) * 2014-07-24 2014-11-26 北京捷成世纪科技股份有限公司 一种检测视频片段的方法和装置
CN111026915A (zh) * 2019-11-25 2020-04-17 Oppo广东移动通信有限公司 视频分类方法、视频分类装置、存储介质与电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HE 等: "Momentum Contrast for Unsupervised Visual Representation Learning", ARXIV *
OORD 等: "Representation learning with contrastive predictive coding", ARXIV *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239855A (zh) * 2021-05-27 2021-08-10 北京字节跳动网络技术有限公司 一种视频检测方法、装置、电子设备以及存储介质
CN113673201A (zh) * 2021-07-15 2021-11-19 北京三快在线科技有限公司 一种文本表示向量生成方法、装置、存储介质及电子设备
CN113837260A (zh) * 2021-09-17 2021-12-24 北京百度网讯科技有限公司 模型训练方法、对象匹配方法、装置及电子设备
CN114283350A (zh) * 2021-09-17 2022-04-05 腾讯科技(深圳)有限公司 视觉模型训练和视频处理方法、装置、设备及存储介质
CN113837260B (zh) * 2021-09-17 2024-05-28 北京百度网讯科技有限公司 模型训练方法、对象匹配方法、装置及电子设备
CN114283350B (zh) * 2021-09-17 2024-06-07 腾讯科技(深圳)有限公司 视觉模型训练和视频处理方法、装置、设备及存储介质
CN114020950A (zh) * 2021-11-03 2022-02-08 北京百度网讯科技有限公司 图像检索模型的训练方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN112307883B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN112307883A (zh) 训练方法、装置、电子设备以及计算机可读存储介质
CN109891897B (zh) 用于分析媒体内容的方法
CN110309732B (zh) 基于骨架视频的行为识别方法
CN110929622A (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
Sun et al. Supervised deep sparse coding networks for image classification
Yang et al. An improving faster-RCNN with multi-attention ResNet for small target detection in intelligent autonomous transport with 6G
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN114492992A (zh) 一种基于Transformer的自适应时空图神经网络交通流预测方法及***
US20220391611A1 (en) Non-linear latent to latent model for multi-attribute face editing
CN114926770A (zh) 视频动作识别方法、装置、设备和计算机可读存储介质
Wei et al. Compact MQDF classifiers using sparse coding for handwritten Chinese character recognition
CN114266897A (zh) 痘痘类别的预测方法、装置、电子设备及存储介质
CN116090504A (zh) 图神经网络模型训练方法及装置、分类方法、计算设备
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
Wang et al. Trajectory forecasting with neural networks: An empirical evaluation and a new hybrid model
CN117690178B (zh) 一种基于计算机视觉的人脸图像识别方法与***
CN113343020B (zh) 基于人工智能的图像处理方法、装置及电子设备
CN113076963B (zh) 一种图像识别方法、装置和计算机可读存储介质
CN115705706A (zh) 视频处理方法、装置、计算机设备和存储介质
Rao et al. Multi-level graph encoding with structural-collaborative relation learning for skeleton-based person re-identification
Zheng et al. Edge-labeling based modified gated graph network for few-shot learning
CN113297964A (zh) 基于深度迁移学习的视频目标识别模型及方法
CN110135253B (zh) 一种基于长期递归卷积神经网络的手指静脉认证方法
CN114882288B (zh) 基于分层图增强堆叠自编码器的多视图图像分类方法
CN113361510B (zh) 超分网络模型训练方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant