CN108875610B - 一种基于边界查找的用于视频中动作时间轴定位的方法 - Google Patents

一种基于边界查找的用于视频中动作时间轴定位的方法 Download PDF

Info

Publication number
CN108875610B
CN108875610B CN201810569922.2A CN201810569922A CN108875610B CN 108875610 B CN108875610 B CN 108875610B CN 201810569922 A CN201810569922 A CN 201810569922A CN 108875610 B CN108875610 B CN 108875610B
Authority
CN
China
Prior art keywords
boundary
action
probability
probabilities
iteration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810569922.2A
Other languages
English (en)
Other versions
CN108875610A (zh
Inventor
李革
孔伟杰
李楠楠
钟家兴
张涛
李宏
王荣刚
王文敏
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201810569922.2A priority Critical patent/CN108875610B/zh
Publication of CN108875610A publication Critical patent/CN108875610A/zh
Application granted granted Critical
Publication of CN108875610B publication Critical patent/CN108875610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种基于边界查找的用于视频中动作时间轴定位的方法,采用时间轴边界似然的组件来改进第三阶段的定位问题。该组件通过三个步骤来执行更精确的视频动作定位:给定一段由第一和第二阶段产生的类别可知的动作提议,第一步将其左右边界扩充得到一个更大的搜索间隔片段,同时将这个时间间隔均匀等分成多个单元,每个单元包含同样数目的帧数;第二步对每一个单元计算内外概率或者边界概率,分别表示该单元位于真实标注之内或之外以及是该动作发生的开始边界或结束边界的概率;第三步基于每个单元计算出的概率,利用最大似然估计来估计出最优的动作时间轴边界,从而达到定位的效果。

Description

一种基于边界查找的用于视频中动作时间轴定位的方法
技术领域
本发明涉及视频分析技术领域,尤其涉及一种基于边界查找的用于视频中动作时间轴定位的方法,该方法是基于视频深度三维特征并利用最大似然法进行动作边界查找来实现视频中动作时间轴精确定位。
背景技术
视频动作时间轴定位技术是指给定一段包含一个或多个动作的未修剪长视频,让计算机结合视频处理与相关的机器学习算法,通过对该视频内容进行分析,能够对其中是否发生某类动作做出判断,同时还需要定位动作发生和结束的位置。由于在当今这个数据***的时代,每天多会产生海量的视频数据,这些数据中包含丰富有价值的信息,如何从原始视频数据中提取出有用信息是视频分析技术最主要的目的。近些年,作为视频分析中的一个新的任务,视频动作时间轴定位技术被广泛研究,然而由于视频背景复杂,动作长度不一,动作发生的时刻任意等因素,也使得该任务具有很大的挑战性。
对于给定的一段视频帧序列,现有的大部分算法通常采用“提议+分类+定位(微调)”的三阶段策略来解决这个问题。第一阶段提议:产生一系列行为不可知的动作提议,这些提议是大量有可能包含某类动作的候选视频段,其通常通过多尺度滑动窗口或者其他高效的动作提议算法对原视频进行二分类得到;第二阶段分类:利用预先训练的行为可知的分类器对每一个提议进行分类,识别出该提议所属的动作类别;第三阶段定位:利用时间轴边界框回归对每个提议框的边界进行定位微调得到最终更精准的检测结果。在现有的许多方法中,提议和分类的性能已经能达到较高的水平,然而如何实现精准的边界定位微调依旧是一个开放的问题。虽然大部分方法采用了回归网络来达到这一目的,但是,直接利用边界坐标进行回归是一个较难学习的任务,而且仅仅利用提议的起止时间坐标回归是无法产生足够准确的动作时间轴边界,因此如何精确地对动作时间轴边界进行定位是目前很多方法性能的瓶颈所在,也是一个目前亟待解决的问题。
发明内容
为了解决上述时间轴边界回归所存在的问题,并产生更精准的动作时间轴边界,本发明提出了一个称为时间轴边界似然(Temporal Boundary Likelihood,TBL)的组件来改进第三阶段的定位问题。该组件通过三个步骤来执行更精确视频动作定位:给定一段由第一和第二阶段产生的类别可知的动作提议,第一步将其左右边界扩充得到一个更大的搜索间隔片段,同时将这个时间间隔均匀等分成多个单元,每个单元包含同样数目的帧数;第二步对每一个单元计算内外(In-Out)概率或者边界(Boundary)概率,分别表示该单元位于真实标注(Ground Truth)之内或之外以及是该动作发生的开始边界或结束边界的概率;第三步基于每个单元计算出的概率,利用最大似然估计来估计出最优的动作时间轴边界,从而达到定位的效果。由于内外概率和边界概率能提供更细节更有用的用于定位的信息,因此边界寻找模型能够产生比边界回归模型仅仅利用两个边界坐标值去回归更精确的动作时间轴边界。通过在THUMOS’14和ActivityNet 1.3数据集上大量的实验,验证了本定位算法的优越性,并且检测效果优越于目前所存在的算法。
本发明提出一种名为时间轴边界似然网络(Temporal Boundary LikelihoodNetwork,TBL-Net)的算法框架进行视频动作时间轴定位,同样采用“提议+分类+定位”的三阶段检测框架,相对应的整个框架包括了3个主要组件:动作提议网络、动作分类网络和动作定位网络。
输入一段视频序列,首先利用共享的C3D深度网络对其提取丰富的深度时空特征,在C3D最后一层特征图Fconv5b上利用动作提议网络(Action Proposal Network)结合类似于Faster R-CNN目标检测框架中锚点(Anchor)机制来提取大量可能包含动作的高质量提议片段。对于每一个动作提议,本发明设计了一种多次迭代的方法对其进行分类和定位:在每一次迭代中,首先利用分类网络对该动作提议进行分类,得到其属于每一类的概率值;然后利用定位网络查找每一段提议所对应搜索间隔片段中存在动作的左右边界,得到检测后的动作片段,该片段经过定位网络定位调整之后,会具有更加靠近真是标注的时间轴边界,在下一次迭代中对该片段进行同样的操作。达到迭代终止条件后,将各次迭代产生的检测结果进行利用极大值抑制进行融合,得到最终的检测结果。具体包括如下步骤:
1)输入:一段待检测的视频帧序列,维度为3×L×H×W,其中L为序列的长度,H和W表示3通道帧图像的长和宽;
2)特征提取:利用C3D深度卷积网络模型对输入的视频帧序列进行特征提取,每一个卷积层都会产生一个特征图;最后一层特征图为Fconv5b,维度为
Figure GDA0003268306290000031
3)动作提议网络:利用一个卷积层和一个最大值池化层将最后一层特征图Fconv5b压缩到仅保留时间维度的特征图Ftpn,其维度为
Figure GDA0003268306290000032
利用一个滑动空间窗口在Ftpn上以步长为1的速度沿着时间轴维度滑动,每滑到一个位置,同时预测产生K个不同尺度的锚点,并根据这些锚点产生相应的动作提议;每个动作提议都根据其中包含目标的可能性预测一个分数,根据分数从高到低排序,保留前N个(如前2000个)最有可能包含动作提议,生成候选动作提议集B0
4)开始迭代:设置迭代次数为T,在每次迭代给定一个候选动作提议集
Figure GDA0003268306290000033
里面包含上一次迭代得到的检测结果,在这一次迭代中本发明利用分类和定位网络执行如下的操作对其进行进一步定位微调,将每次迭代之后得到的新的动作提议集重新送入到进行进一步迭代,迭代结束后,将每次迭代之后的结果进行融合得到最终的检测结果;
5)动作分类网络:对候选动作提议集Bt中的每一个动作片段
Figure GDA0003268306290000034
首先利用3D RoI池化层将其池化到固定维度512×1×4×4的特征,从而可以将其送入两个全连接层和一个Softmax层去预测一组分数值
Figure GDA0003268306290000035
表示该提议属于每一类的概率;
6)动作定位网络:动作定位网络由一个时间轴边界似然组件构成,其输入是一个动作片段,输出是一组条件概率矩阵,表示该片段中动作边界的某种位置信息。对候选动作提议集Bt中的每一个动作片段
Figure GDA0003268306290000036
首先将其扩充γ倍来生成一个更大的搜索间隔片段,同时将I均匀等分成M个单元,每个单元包含同样数目的帧数;然后同样利用3D RoI池化层池化后的固定维度特征送入三个全连接层产生一个尺寸为N×M×C的一维特征向量,将该特征向量送入到一个Sigmoid层产生最终维度为N×M×C的条件概率矩阵,这里本发明定义了如下两种概率:
·内外(In-Out)概率:本发明定义内外概率
Figure GDA0003268306290000037
来表示该单元位于真实标注边界内部的概率;理想情况下,给定一个真实标注,其中
Figure GDA0003268306290000038
Figure GDA0003268306290000039
分别表示其开始和结束边界,则内外概率pio应该与如下目标概率T={Tio}相等。
Figure GDA00032683062900000310
·边界(Boundary)概率:本发明定义边界概率
Figure GDA00032683062900000311
Figure GDA00032683062900000312
分别表示该单元是该动作的开始边界以及结束边界的概率;理想情况下,给定一个真实标注,其中
Figure GDA00032683062900000313
Figure GDA0003268306290000041
分别表示其开始和结束边界,则边界概率pl应该与如下目标概率T={Ts,Te}相等,其中l∈{s,e}。
Figure GDA0003268306290000042
在检测阶段,基于上述的两种条件概率,给定一个搜索间隔片段I,本发明设计了如下三种模型,利用极大似然估计(Maximum Likelihood Estimation,MLE)来确定该搜索间隔片段中存在动作的时间轴边界B=(Bs,Be)。
·内外(In-Out)模型:基于时间轴边界B中每一个内外概率,最大化如下似然函数:
Figure GDA0003268306290000043
其中
Figure GDA0003268306290000044
上式右式第一项表示B中每一个单元在真实标注之内的概率值相乘,第二项表示不在B的每一个单元在真实标注之内的概率值相乘。
·边界(Boundary)模型:基于B中每一个边界概率,最大化如下似然函数:
Lboundary(B)=ps(Bs)·pe(Be)
·组合(Combined)模型:同时基于B中每一个内外和边界概率,最大化如下似然函数:
Lcombined(B)=Lin-out(B)·Lboundary(B)
因此,上述定位网络输出的N×M×C的条件概率矩阵中的N={1,2,3}分别对应于内外概率、边界概率以及组合概率,M表示单元数,C表示动作类别数。
7)检测结果输出:通过上述对候选动作提议进行多次迭代,在迭代结束后对每次迭代结果利用阈值为0.3的极大值抑制进行融合,得到最终的检测结果。
与现有技术相比,本发明的有益效果是:
1)本发明将动作时间轴边界定位问题转化为边界寻找问题,即对一个搜索间隔片段中每一个均分的单元分配某种概率,并在概率的基础上进行最大似然估计来得到最终的定位结果,所得到的结果比边界回归模型更准确。
2)本发明提出了一个新颖的动作时间轴定位深度模型,可以端到端训练并产生准确的定位结果。
3)本发明所描述的算法已经在THUMOS’14和ActivityNet v1.3数据集上进行了测试。结果表明在THUMOS’14数据集上算法的检测效果优越于目前所存在的算法,在tIoU=0.5的mAP(Mean Average Precision)达到了31.1%,达到了目前最好效果;在ActivityNetv1.3数据集上算法同样取得了有竞争力的结果,验证了本发明模型的有效性。
下面结合附图,通过实例对本发明作进一步描述,但不以任何方式限制本发明的权利要求范围。
附图说明
图1:本发明所提出的时间轴边界似然组件进行动作边界查找示意图。
图2:本发明所提出的时间轴边界似然网络算法网络框架图。
图3:依据本发明进行视频动作时间轴检测流程图。
具体实施方式
图1是本发明的时间轴边界似然组件进行动作边界查找示意图,整个操作流程称作边界寻找(Boundary Seeking)。
图2是本发明提供的行人检测方法的整体框架图,其中:1-输入长度为L的视频帧序列;2-利用C3D网络对视频帧序列进行特征提取;3-利用动作提议网络在C3D网络得到的最后一层特征图Fconv5b上提取可能包含动作的动作提议片段;4-C3D网络得到的最后一层特征图Fconv5b,维度为
Figure GDA0003268306290000051
5-利用一个卷积层和一个最大值池化层将最后一层特征图Fconv5b压缩到仅保留时间维度的特征图Ftpn,维度为
Figure GDA0003268306290000052
6-提取出的长短不一的动作提议片段;7-对每一个动作提议利用扩展并3D RoI池化后的固定维度特征;8-动作分类网络:对每一个动作提议输出其属于每一个动作类别的概率;9-动作定位网络:对每一个动作提议输出每一类的M个边界条件概率或者内外条件概率用于训练和检测。
图3是本发明提供的行人检测方法的方法流程图,整体流程为:输入视频帧序列S1;利用C3D网络提取特征S2;利用动作提议网络提取提议片段集合S3;利用分类网络对提议集合中的每个提议进行分类获得类别分数S4;利用定位网络获得提议集合中每个提议的内外或边界概率S5;对所得概率利用最大似然估计对时间边界进行定位S6;生成新的提议集合S7;迭代次数加1S8;判断是否满足迭代停止条件S9;如果满足,将新的提议集重新送回网络进行进一步的分类和定位S10;如果不满足,合并前n词的迭代结果,得到最终的检测结果S11。
为了验证本发明算法的有效性,在两个极具挑战性的公开数据集上进行了测试,分别是THUMOS’14和ActivityNet。THUMOS’14数据集包含20个小时来自20个不同动作类别的视频,其中共有413段视频,200段用来做验证集,213个用来做测试集。在检测阶段,两个被错误标注的视频:第270号和第1496号被排除在外。在评估阶段,本发明报道了当目前窗口与真实值的交并比tIoU={0.1,0.2,0.3,0.4,0.5,0.6,0.7}时每一类别动作的mAP,并且将mAP@tIoU=0.5时的值与其他方法作为比较,来衡量本发明模型的性能。ActivityNet有两个版本:v1.2和v1.3,本发明选择了后者来进行实验,该版本包括了19994段视频,200个动作类别,其中10024段用来训练,4926段用来验证,5044段用来测试。在评估阶段,本发明报道了tIoU={0.5,0.75,0.95}时每一类别动作的mAP,并将tIoU=[0.5:0.05:0.95]时mAP的平均值作为与其他方法的比较。
在训练整个网络时,本发明利用如下损失函数同时优化动作分类网络和动作定位网络:
Figure GDA0003268306290000061
其中Ncls和Nloc分别表示Batch Size和动作提议段的数目,λ表示损失权重调整参数,当在THUMOS’14数据及上训练时λ=20,当在ActivityNet数据及上训练时λ=250。下标i和j表示索引,θ1和θ2分别表示分类网络和定位网络的参数。对于分类网络,Lcls表示标准的多类别交叉熵损失函数,其中的ai
Figure GDA0003268306290000062
表示预测后的类别概率值和真实标注;对于定位网络,p(·)j={p(io)j,p(bd)j}表示对于每一个提议片段所对应搜索间隔的内外或边界概率值,T(·)j={T(io)j,T(bd)j}表示对于每一个提议片段所对应的目标概率值。对于Lloc采用了二元逻辑回归损失函数,对于内外模型,Lloc具体由如下式子给出:
Figure GDA0003268306290000063
对于边界模型,Lloc具体由如下式子给出:
Figure GDA0003268306290000064
对于上面两个式子,其中
Figure GDA0003268306290000065
对于边界模型,本发明采用类似于R-C3D(Xu H,Das A,Saenko K.R-c3d:Region convolutional 3d network fortemporal activity detection[C]//The IEEE International Conference on ComputerVision(ICCV).2017,6:8.)的权重参数
Figure GDA0003268306290000071
来平衡属于边界的单元和非边界单元之间的权重。
本发明以THUMOS’14数据集为例,来说明本发明的算法如何在实际中使用。本发明的TBL-Net模型基于R-C3D的公开代码并在Caffe深度学习框架上实现,网络首先输入是512帧的视频帧序列,帧率为25帧/s;然后本发明利用在Sport-1M数据集上预训练并在UCF101数据集上微调后的C3D权值来初始化网络,进行特征提取;在动作提议网络中,本发明设计了28个不同尺度的锚点来提取动作提议片段,这28个锚点[2,4,6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56],本发明利用以10-4的学习率训练5万次后的模型来进行模型的验证,其余的实现细节和R-C3D相同。
在本发明中有三个重要的超参数,分别是划分单元数M、动作提议扩充因子γ和检测迭代次数T,通过多组消融实验,本发明获得的最佳超参数设置为M=32,γ=2.0,T=3,利用该最佳超参数,将本发明的三个模型:内外模型、边界模型和组合模型与目前现有的方法在THUMOS’14数据集上做如下对比,如下:
表1在THUMOS’14数据集上进行动作时间轴检测结果对比
Figure GDA0003268306290000072
从表1中可以看出,本发明的三个TBL-Net模型检测mAP在不同tIoU阈值的情况下都超过了基线模型R-C3D,并且超过了所有的目前的基于C3D特征的模型,同时本发明的边界模型达到了目前现存算法中最好的性能。Two-Stream特征由于利用到了光流信息,其识别效率本身就比C3D特征性能更好,但是本发明基于C3D特征的三个模型和目前的基于Two-Stream特征的算法达到了很有竞争力的结果,说明了本发明算法的有效性。
在ActivityNet v1.3测试集上,本发明进行了同样的检测结果对比,网络首先输入是768帧的视频帧序列,帧率为3帧/s;然后本发明利用在Sport-1M数据集上预训练并在ActivityNet数据集上微调后的C3D权值来初始化网络,进行特征提取;在动作提议网络中,本发明设计了20个不同尺度的锚点来提取动作提议片段,这20个锚点[1,2,3,4,5,6,7,8,10,12,14,16,20,24,28,32,40,48,56,64],本发明利用以10-4的学习率训练10万次并以10-5的学习率训练5万次后的模型来进行模型的验证,其余的实现细节和R-C3D相同,超参数设置同样为M=32,γ=2.0,T=3,对比结果如下。
表2在ActivityNet v1.3测试集上进行动作时间轴检测结果对比
tIoU 0.5 0.75 0.95 Average
UPC[7] 22.30 - - -
R-C3D(基线)[6] 26.45 11.47 1.69 13.33
TBL-Net(In-Out) 26.65 14.12 2.50 15.00
TBL-Net(Boundary) 27.82 15.00 2.82 15.68
从表2中可以看出,本发明的两个时间轴边界似然网络模型(TBL-Net)检测mAP在不同tIoU阈值的情况下都超过了基线模型R-C3D,并且超过了远远超过了UPC,一个同样利用C3D特征的算法,证明了本发明算法的有效性和优越性。
表1和表2中用于对比的现有方法分别记载在以下相应文献中:
[1]Dai X,Singh B,Zhang G,et al.Temporal Context Network for ActivityLocalization in Videos[C]//2017 IEEE International Conference on ComputerVision(ICCV).IEEE,2017:5727-5736.
[2]Yue Zhao,Yuanjun Xiong,Limin Wang,Zhirong Wu,Xiaoou Tang,and DahuaLin.Temporal action detection with structured segment networks.In The IEEEInternational Conference on Computer Vision(ICCV),volume 8,2017.
[3]Jiyang Gao,Zhenheng Yang,and Ram Nevatia.Cascaded boundaryregression for temporal action detection.In Proceedings of the BritishMachine Vision Conference(BMVC),2017.
[4]Zheng Shou,Jonathan Chan,Alireza Zareian,Kazuyuki Miyazawa,andShih-Fu Chang.Cdc:convolutional-de-convolutional networks for precisetemporal action localization in untrimmed videos.In 2017 IEEE Conference onComputer Vision and Pattern Recognition(CVPR),pages 1417–1426.IEEE,2017.
[5]S Buch,V Escorcia,B Ghanem,L Fei-Fei,and JC Niebles.End-to-end,single-stream temporal action detection in untrimmed videos.In Proceedings ofthe British Machine Vision Conference(BMVC),2017.
[6]Huijuan Xu,Abir Das,and Kate Saenko.R-c3d:Region convolutional 3dnetwork for temporal activity detection.In The IEEE International Conferenceon Computer Vision(ICCV),volume 6,page 8,2017.
[7]Alberto Montes,Amaia Salvador,Santiago Pascual,and Xavier Giro-iNieto.Temporal activity detection in untrimmed videos with recurrent neuralnetworks.arXiv preprint arXiv:1608.08128,2016.
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (2)

1.一种基于边界查找的用于视频中动作时间轴定位的方法,其特征在于:该方法包括如下步骤:
1)输入:一段待检测的视频帧序列,维度为3×L×H×W,其中L为序列的长度,H和W表示3通道帧图像的长和宽;
2)特征提取:利用C3D深度卷积网络模型对输入的视频帧序列进行特征提取,每一个卷积层都会产生一个特征图;最后一层特征图为Fconv5b,维度为
Figure FDA0003518675930000011
3)动作提议网络:利用一个卷积层和一个最大值池化层将最后一层特征图Fconv5b压缩到仅保留时间维度的特征图Ftpn,其维度为
Figure FDA0003518675930000012
利用一个滑动空间窗口在Ftpn上以步长为1的速度沿着时间轴维度滑动,每滑到一个位置,同时预测产生K个不同尺度的锚点,并根据这些锚点产生相应的动作提议;每个动作提议都根据其中包含目标的可能性预测一个分数,根据分数从高到低排序,保留前N个最有可能包含动作提议,生成候选动作提议集B0
4)开始迭代:设置迭代次数为T,在每次迭代给定一个候选动作提议集Bt,里面包含上一次迭代得到的检测结果,在本步骤次迭代中,利用分类和定位网络执行如下的操作对其进行进一步定位微调,将迭代之后得到的新的动作提议集重新送入到下一步骤进行迭代,迭代结束后,将各个步骤迭代之后的结果进行融合得到最终的检测结果;
5)动作分类网络:对候选动作提议集Bt中的每一个动作片段
Figure FDA0003518675930000013
首先利用3D RoI池化层将其池化到固定维度512×1×4×4的特征,从而可以将该固定维度的特征送入两个全连接层和一个Softmax层去预测一组分数值,表示该动作提议集Bt属于每一类的概率;
6)动作定位网络:动作定位网络由一个时间轴边界似然组件构成,其输入是一个动作片段,输出是一组条件概率矩阵,表示该片段中动作边界的某种位置信息;
对候选动作提议集Bt中的每一个动作片段
Figure FDA0003518675930000014
首先将其扩充γ倍来生成一个更大的搜索间隔片段I,同时将间隔片段I均匀等分成M个单元,每个单元包含同样数目的帧数;然后同样利用3D RoI池化层池化后的固定维度特征送入三个全连接层产生一个尺寸为N×M×C的一维特征向量,将该特征向量送入到一个Sigmoid层产生最终维度为N×M×C的条件概率矩阵;所述的概率为内外概率和边界概率,其中:
该内外概率:内外概率
Figure FDA0003518675930000015
来表示该单元位于真实标注边界内部的概率;理想情况下,给定一个真实标注,其中
Figure FDA0003518675930000016
Figure FDA0003518675930000017
分别表示其开始和结束边界,则内外概率pio与如下目标概率T相等,T={Tio};计算公式如下:
Figure FDA0003518675930000021
该边界概率:边界概率
Figure FDA0003518675930000022
Figure FDA0003518675930000023
分别表示该单元是该动作的开始边界以及结束边界的概率;理想情况下,给定一个真实标注,其中
Figure FDA0003518675930000024
Figure FDA0003518675930000025
分别表示其开始和结束边界,则边界概率pl与如下目标概率T相等,T={Ts,Te},其中l∈{s,e},计算公式如下:
Figure FDA0003518675930000026
基于该内外概率和边界概率,给定一个搜索间隔片段I,设计如下三种模型,利用极大似然估计来确定该搜索间隔片段中存在动作的时间轴边界B=(Bs,Be);内外(In-Out)模型:基于时间轴边界B中每一个内外概率,最大化如下似然函数:
Figure FDA0003518675930000027
其中
Figure FDA0003518675930000028
上式右式第一项表示B中每一个单元在真实标注之内的概率值相乘,第二项表示不在B的每一个单元在真实标注之内的概率值相乘;
边界模型:基于B中每一个边界概率,最大化如下似然函数:
Lboundary(B)=ps(Bs)·pe(Be)
组合模型:同时基于B中每一个内外和边界概率,最大化如下似然函数:
Lcombined(B)=Lin-out(B)·Lboundary(B)
上述动作定位网络输出的N×M×C的条件概率矩阵中的N={1,2,3}分别对应于内外概率、边界概率以及组合概率,M表示单元数,C表示动作类别数。
2.根据权利要求1所述的基于边界查找的用于视频中动作时间轴定位的方法,其特征在于:步骤6)后还有步骤7)检测结果输出:通过上述对候选动作提议进行多次迭代,在迭代结束后对每次迭代结果利用阈值为0.3的极大值抑制进行融合,得到最终的检测结果。
CN201810569922.2A 2018-06-05 2018-06-05 一种基于边界查找的用于视频中动作时间轴定位的方法 Active CN108875610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810569922.2A CN108875610B (zh) 2018-06-05 2018-06-05 一种基于边界查找的用于视频中动作时间轴定位的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810569922.2A CN108875610B (zh) 2018-06-05 2018-06-05 一种基于边界查找的用于视频中动作时间轴定位的方法

Publications (2)

Publication Number Publication Date
CN108875610A CN108875610A (zh) 2018-11-23
CN108875610B true CN108875610B (zh) 2022-04-05

Family

ID=64336848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810569922.2A Active CN108875610B (zh) 2018-06-05 2018-06-05 一种基于边界查找的用于视频中动作时间轴定位的方法

Country Status (1)

Country Link
CN (1) CN108875610B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7126549B2 (ja) * 2018-12-05 2022-08-26 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ビデオにおいてターゲットビデオクリップを特定する方法及び装置
CN111382306B (zh) * 2018-12-28 2023-12-01 杭州海康威视数字技术股份有限公司 查询视频帧的方法和装置
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN109905772B (zh) * 2019-03-12 2022-07-22 腾讯科技(深圳)有限公司 视频片段查询方法、装置、计算机设备及存储介质
US11232308B2 (en) * 2019-03-22 2022-01-25 Salesforce.Com, Inc. Two-stage online detection of action start in untrimmed videos
CN110197136B (zh) * 2019-05-13 2021-01-12 华中科技大学 一种基于动作边界概率的级联动作候选框生成方法与***
CN110263733B (zh) * 2019-06-24 2021-07-23 上海商汤智能科技有限公司 图像处理方法、提名评估方法及相关装置
CN110502995B (zh) * 2019-07-19 2023-03-14 南昌大学 基于细微面部动作识别的驾驶员打哈欠检测方法
CN112348102B (zh) * 2020-11-16 2024-03-19 浙江大学 一种基于查询的自底向上视频定位方法和***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400120B (zh) * 2013-08-02 2015-04-15 上海泓申科技发展有限公司 基于视频分析的银行自助服务区域推入行为检测方法
US10121254B2 (en) * 2013-08-29 2018-11-06 Disney Enterprises, Inc. Methods and systems of detecting object boundaries
CN107016357B (zh) * 2017-03-23 2020-06-16 北京工业大学 一种基于时间域卷积神经网络的视频行人检测方法
CN106897714B (zh) * 2017-03-23 2020-01-14 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法

Also Published As

Publication number Publication date
CN108875610A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108875610B (zh) 一种基于边界查找的用于视频中动作时间轴定位的方法
CN113516012B (zh) 一种基于多层级特征融合的行人重识别方法及***
Hou et al. Cross attention network for few-shot classification
Lin et al. Bsn: Boundary sensitive network for temporal action proposal generation
CN108805083B (zh) 单阶段的视频行为检测方法
CN112101430B (zh) 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法
CN112507996B (zh) 一种主样本注意力机制的人脸检测方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
Ni et al. Flipreid: closing the gap between training and inference in person re-identification
KR102280414B1 (ko) 고 정밀도로 이미지를 분석하기 위한 딥 러닝 네트워크를 사용하기 위해 트레이닝 이미지를 오토 라벨링하는 오토 라벨링 장치의 하이퍼파라미터를 최적화하는 방법 및 이를 이용한 최적화 장치
CN110852168A (zh) 基于神经架构搜索的行人重识别模型构建方法及装置
CN112767997A (zh) 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法
US20220122343A1 (en) Image feature extraction and network training method, apparatus, and device
CN112131944B (zh) 一种视频行为识别方法及***
CN110751027A (zh) 一种基于深度多示例学习的行人重识别方法
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及***
US20150086118A1 (en) Method for recognizing a visual context of an image and corresponding device
CN115812210A (zh) 用于增强机器学习分类任务的性能的方法和设备
CN113569758B (zh) 基于动作三元组引导的时序动作定位方法、***、设备及介质
CN109272036B (zh) 一种基于深度残差网络的随机蕨目标跟踪方法
Tian et al. TSRN: two-stage refinement network for temporal action segmentation
KR101704736B1 (ko) 다단계의 부분 분류기를 이용한 서포트 벡터 머신 기반 데이터 분류 장치 및 그 방법
Pillai et al. Fine-Tuned EfficientNetB4 Transfer Learning Model for Weather Classification
CN109165586A (zh) 用于ai芯片的智能图像处理方法
CN113032612B (zh) 一种多目标图像检索模型的构建方法及检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant