CN117292307B - 一种基于粗时间粒度的时序动作提名生成方法及*** - Google Patents
一种基于粗时间粒度的时序动作提名生成方法及*** Download PDFInfo
- Publication number
- CN117292307B CN117292307B CN202311588589.7A CN202311588589A CN117292307B CN 117292307 B CN117292307 B CN 117292307B CN 202311588589 A CN202311588589 A CN 202311588589A CN 117292307 B CN117292307 B CN 117292307B
- Authority
- CN
- China
- Prior art keywords
- nomination
- feature extraction
- confidence
- action
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 114
- 230000004927 fusion Effects 0.000 claims abstract description 61
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 156
- 238000010586 diagram Methods 0.000 claims description 74
- 230000006870 function Effects 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 36
- 238000005070 sampling Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 15
- 238000007670 refining Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 6
- 238000007306 functionalization reaction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 13
- 230000005764 inhibitory process Effects 0.000 abstract description 2
- 239000008187 granular material Substances 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004503 fine granule Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于粗时间粒度的时序动作提名生成方法及***,属于计算机视觉领域。该方法包含如下步骤:1.采用双流网络对视频进行特征提取。2.局部全局编码器生成融合特征。3.利用粗粒度提名评估模块评估提名置信度得分。4.多路特征融合模块生成时序动作提名及动作边界得分。5.进行分数融合及提名抑制。本发明提高视频中时序动作检测的稳定性。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于粗时间粒度的时序动作提名生成方法及***。
背景技术
时序动作检测是视频理解算法中重要的研究课题,它旨在检测出未剪辑长视频中的动作片段。时序动作检测任务由时序动作提名生成和动作分类两个子任务组成。其中提名生成任务比动作分类任务对检测结果影响更大。因此时序动作提名生成任务受到了越来越多的关注。为了评估提名的置信度,现有的工作通常会预测提名的分数,并且这些分数由提名和动作实例标签的时序交并比进行监督。现有的提名生成方法分为两大类。一类是自上而下的方法:基于滑动窗口或者预先定义的多尺度锚生成提名,然后将生成的提名送入分类器评估其置信度。由于这种方式产生的提名,采用预定义的时序长度和时间间隔,因此在持续时间维度上缺乏灵活性,很难覆盖多尺度的动作实例,产生不精确的动作边界。另一类是自下而上的方法。其中,边界匹配网络(Boundary Matching Network, BMN)是这类方法中最流行的方法,该方法引入边界匹配机制,并提出一种端到端的边界匹配网络。该方法可以同时生成具有精确时间边界和可靠置信度的提名。
作为当前主流方法,自下而上的方法在生成边界概率的同时,大多借鉴BMN的边界匹配机制来获得密集提名,并评估每个提名的置信度得分。但在这个过程中都是采用最细的时间粒度来生成提名,然而在大多数动作持续时间大于某个固定值的情况下,采用最细的时间粒度来生成候选提名并不是一种好的方法。更好的方法是采用适当的时间粒度,在此情况下生成的候选对象仍然可以覆盖大多数真实的动作片段,并且可以避免重复性信息。
发明内容
本发明针对现有技术中的不足,提供一种基于粗时间粒度的时序动作提名生成方法及***。使用粗时间粒度来代替最细时间粒度仍然可以覆盖大多数真实的动作片段,并提高提名置信度的准确性。
为实现上述目的,本发明采用以下技术方案:
一种基于粗时间粒度的时序动作提名生成方法,包括以下步骤:
步骤1、采用双流网络对原始未剪辑视频进行特征提取得到视频特征序列;
步骤2、采用局部编码器从视频特征序列中提取局部特征,采用全局编码器从视频特征序列中提取全局特征,融合局部特征和全局特征生成融合特征;
步骤3、采用边界匹配网络构造原始最细时间粒度匹配图,基于原始最细时间粒度匹配图,采用分组采样策略对融合特征采样得到组特征;利用组特征生成粗粒度匹配图,对粗粒度匹配图进行线性变换得到粗粒度组图,用细化网络将粗粒度组图细化为细粒度匹配图,对细粒度匹配图卷积得到分类置信度图与回归置信度图;
步骤4、对融合特征进行多路径特征提取,预测开始位置动作发生的概率和结束位置动作结束的概率,得到动作开始概率序列和动作结束概率序列;
步骤5、从动作开始概率序列和动作结束概率序列中筛选时序动作的开始位置与结束位置;将开始位置与结束位置配对;从分类置信度图与回归置信度图中获得分类置信度和回归置信度;由配对的开始位置与结束位置及分类置信度和回归置信度组成候选提名;
步骤6、融合候选提名的概率分数和置信度分数得到融合置信度,所述概率分数包括开始位置动作发生的概率和结束位置动作结束的概率,所述置信度分数包括分类置信度和回归置信度;根据融合置信度抑制冗余的提名,得到最终的提名集。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤1具体为:
对原始未剪辑视频以/>为间隔采样得到/>个片段/>;其中/>为未剪辑视频的长度,/>为原始未剪辑视频的第t帧图像,利用每个片段/>的中心单帧RGB图像/>和以单帧RGB图像/>为中心的附近视频帧计算堆叠光流;将堆叠光流送入双流网络提取视频特征序列/>,其中H是时序长度,C是特征维度,/>表示/>维的实数域。
进一步地,步骤2具体为:
对于输入的视频特征序列,其中H是时序长度,C是特征维度,/>表示维的实数域,采用两个堆叠的一维卷积作为局部编码器来融合邻域内时序位置的信息,计算过程如下式所示:
;
式中,表示一维卷积,/>表示局部编码器输出的局部特征,/>表示/>激活函数;
采用全局编码器从视频特征序列中提取全局特征,所述全局编码器包括自注意力层和前馈网络层;
所述自注意力层执行多头注意力计算输入的视频特征序列F的加权和;具体为:对于每一个注意力头,将视频特征序列F投影到三个可学习的线性变换上,获得查询、键/>和值/>,用以下公式计算得到注意力图:
;
式中,是产生的注意力图,d是特征图查询/>和键/>的维度,键/>的上标T表示转置,/>表示自注意力层,/> 表示softmax层;将注意力图A与视频特征序列F的另一个线性变换值/>进行矩阵相乘得到多头注意力提取的特征,将多头注意力提取的特征送入前馈网络层,得到最终编码的全局特征/>;所述前馈网络层包括两个均带有Relu激活函数的线性层、每层所述线性层后的残差连接、归一化层和dropout层;将局部特征/>和全局特征/>进行concat拼接,最后再进行卷积核为1的卷积操作,得到编码的融合特征/>,用公式表达如下:
;
式中,表示一维卷积,/>表示concat拼接。
进一步地,步骤3具体为:
采用边界匹配网络,定义一个大小为D×H的矩阵作为原始最细时间粒度匹配图,其中H是时序长度,D表示预先设置好的提名的最大持续时间,矩阵中的每一个位置代表一个提名;
用G×G大小的框对原始最细时间粒度匹配图进行无重叠分割,将原始最细时间粒度匹配图中的提名分成组,G为用于设置组大小的超参数;对于每组G×G范围内的提名,取提名的时间区间的并集得到对融合特征/>采样的起始位置/>和结束位置/>;起始位置/>和结束位置/>的计算公式如下:
;
式中,i和j为组映射的索引,i用于表示粗粒度匹配图中每组组特征的行号,j用于表示粗粒度匹配图中每组组特征的列号;使用超参数G来设置组大小,获得组映射的索引i和j,如下式所示:
;
从融合特征的起始位置/>到结束位置/>对融合特征/>进行均匀采样,用表示,得到组特征/>,公式表示如下:
;
遵循边界匹配网络,引入边界匹配机制,由组特征生成粗粒度匹配图,式中,128是组特征的维数,/>表示在时间维度上采样的位置数量;/>表示/>维的实数域;
对粗粒度匹配图进行线性变换,得到粗粒度组图/>,用细化网络将粗粒度组图/>细化为细粒度匹配图/>,其中,/>表示线性变换后的组特征的维数,细化过程包括以下两个步骤:
(1)通过反卷积层对粗粒度组图进行动作开始时间和持续时间两个维度的上采样,将每组组特征/>细化为G×G个匹配特征;
(2)通过卷积核大小为3的卷积来恢复匹配特征之间的关系,得到细粒度匹配图;
细化过程之后,对细粒度匹配图卷积得到分类置信度图/>与回归置信度图。
进一步地,步骤4具体为:
用多路径特征提取模块对融合特征进行多路径特征提取,所述多路径特征提取模块包括/>个大感受野的多路径特征提取模块MPF-A和/>个小感受野的多路径特征提取模块MPF-B;所述大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B均包括长距离路径、短距离路径和残差路径;大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B的输出均为长距离路径、短距离路径和残差路径这三条路径提取的特征的元素级的并行相加;
所述大感受野的多路径特征提取模块MPF-A的长距离路径包括卷积核为3、膨胀系数r为2k的膨胀卷积层;k是调整感受野扩张规模的指数;所述小感受野的多路径特征提取模块MPF-B的长距离路径包括固定膨胀系数的膨胀卷积层;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B的短距离路径均包括卷积核为3的普通卷积;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B交替串联;用多路径特征提取模块对融合特征进行多路径特征提取的过程用公式表示为:
;
;
;
;
式中,为第一个大感受野的多路径特征提取模块MPF-A的输出,/>表示用大感受野的多路径特征提取模块MPF-A进行多路径特征提取,/>和/>分别是非线性激活函数和归一化操作,/>是长距离路径,/>是短距离路径;/>表示用小感受野的多路径特征提取模块MPF-B进行多路径特征提取,/>为第m个大感受野的多路径特征提取模块MPF-A的输出,/>为第m个小感受野的多路径特征提取模块MPF-B的输出,/>为第m-1个小感受野的多路径特征提取模块MPF-B的输出;
用第个小感受野的多路径特征提取模块MPF-B的输出/>作为多路径特征提取模块整体的输出;再通过两条均含有两层1维卷积的分支分别预测开始和结束概率,产生动作开始概率序列/>和动作结束概率序列/>。
进一步地,步骤5具体为:
从动作开始概率序列和动作结束概率序列/>中挑选出满足如下条件的位置:
保留大于最大概率的50%和处于概率峰值处的位置,得到开始位置集合与结束位置集合,将开始位置集合中的开始位置与结束位置集合中的结束位置配对,如果满足动作持续时间小于预先设置好的提名的最大持续时间D,则生成一个候选提名;/>和/>分别表示挑选出的动作开始位置的时间与结束位置的时间,/>和/>分别表示开始位置动作发生的概率和结束位置动作结束的概率,和/>分别表示候选提名的分类置信度和回归置信度,分类置信度/>从分类置信度图/>中获得,回归置信度/>从回归置信度图/>中获得;得到候选提名集,其中/>是候选提名集/>中候选提名的个数。
进一步地,步骤6具体为:
融合候选提名集中各候选提名/>的概率分数和置信度分数,计算过程如下式所示:
;
式中,表示融合置信度,/>和/>分别表示开始位置动作发生的概率和结束位置动作结束的概率,/>和/>分别表示候选提名的分类置信度和回归置信度;
候选提名集重新表示为融合概率分数和置信度分数后的提名集;/>表示融合概率分数和置信度分数后的提名集中的第n个提名;/>是融合概率分数和置信度分数后的提名集中提名的个数;
应用Soft-NMS算法来抑制融合概率分数和置信度分数后的提名集中冗余的提名,具体为:
按照融合置信度对融合概率分数和置信度分数后的提名集/>中的提名进行排序,递归地将融合置信度/>最大的提名与排名在其后面的提名进行比较,如果提名之间的重叠度大于设定的阈值,则降低排名靠后的提名的融合置信度/>;得到最终的提名集;其中/>是最终的提名集/>中的提名/>的衰减后的置信度分数。
本发明还提出一种基于粗时间粒度的时序动作提名生成***,包括:双流网络、局部-全局编码器、粗粒度提名评估模块、多路径特征提取模块、训练模块、候选提名生成模块和冗余抑制模块;
所述双流网络对原始未剪辑视频进行特征提取得到视频特征序列;
所述局部-全局编码器包括局部编码器和全局编码器,所述局部编码器从视频特征序列中提取局部特征,所述全局编码器从视频特征序列中提取全局特征,融合局部特征和全局特征生成融合特征;
所述粗粒度提名评估模块采用边界匹配网络构造原始最细时间粒度匹配图,基于原始最细时间粒度匹配图,采用分组采样策略对融合特征采样得到组特征;利用组特征生成粗粒度匹配图,对粗粒度匹配图进行线性变换得到粗粒度组图,用细化网络将粗粒度组图细化为细粒度匹配图,对细粒度匹配图卷积得到分类置信度图与回归置信度图;
所述多路径特征提取模块对融合特征进行多路径特征提取,预测开始位置动作发生的概率和结束位置动作结束的概率,得到动作开始概率序列和动作结束概率序列;
所述训练模块用于定义多任务损失函数,训练粗粒度提名评估模块和多路径特征提取模块,使得多任务损失函数的损失值低于设定标准;所述多任务损失函数由训练粗粒度提名评估模块的损失函数和多路径特征提取模块的损失函数组成;
所述候选提名生成模块从动作开始概率序列和动作结束概率序列中筛选时序动作的开始位置与结束位置;将开始位置与结束位置配对;从分类置信度图与回归置信度图中获得分类置信度和回归置信度;由配对的开始位置与结束位置及分类置信度和回归置信度组成候选提名;
所述冗余抑制模块融合候选提名的概率分数和置信度分数得到融合置信度,所述概率分数包括开始位置动作发生的概率和结束位置动作结束的概率,所述置信度分数包括分类置信度和回归置信度;根据融合置信度抑制冗余的提名,得到最终的提名集。
为优化上述技术方案,采取的具体措施还包括:
进一步地,所述多路径特征提取模块包括个大感受野的多路径特征提取模块MPF-A和/>个小感受野的多路径特征提取模块MPF-B;所述大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B均包括长距离路径、短距离路径和残差路径;大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B的输出均为长距离路径、短距离路径和残差路径这三条路径提取的特征的元素级的并行相加;
所述大感受野的多路径特征提取模块MPF-A的长距离路径包括卷积核为3、膨胀系数r为2k的膨胀卷积层;k是调整感受野扩张规模的指数;所述小感受野的多路径特征提取模块MPF-B的长距离路径包括固定膨胀系数的膨胀卷积层;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B的短距离路径均包括卷积核为3的普通卷积;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B交替串联。
进一步地,所述多任务损失函数的表达式如下所示:
;
式中,L表示多任务损失函数,为多路径特征提取模块的损失函数,/>为粗粒度提名评估模块的损失函数;
多路径特征提取模块的损失函数的表达式如下:
;
式中,是动作开始概率序列/>的标签,/>是动作结束概率序列/>的标签,/>是二分类损失函数;
粗粒度提名评估模块的损失函数的表达式如下:
;
式中,为去掉不合法的提名后的二分类损失;/>为密集分布提名的标签,/>为分类置信度图,/>为回归置信度图,/>为smooth L1损失函数,/>为权重项。
本发明的有益效果是:
本发明提出的一种基于粗时间粒度的时序动作提名生成方法及***,可以提高视频中时序动作检测的稳定性。采用粗时间粒度生成的候选提名仍然可以覆盖大多数真实的动作片段,并且可以避免重复性信息。
附图说明
图1为本发明提出的方法的整体框架图;
图2为粗时间粒度方法示意图;
图3为多路径特征提取示意图;
图4为本发明检测结果示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
在一实施例中,本发明提出一种基于粗时间粒度的时序动作提名生成方法,该方法的整体流程如图1所示,包括以下步骤:
步骤1、采用双流网络对原始未剪辑视频进行特征提取得到视频特征序列;具体为:
对原始未剪辑视频以/>为间隔采样得到/>个片段/>;其中/>为未剪辑视频的长度,/>为原始未剪辑视频的第t帧图像,利用每个片段/>的中心单帧RGB图像/>和以单帧RGB图像/>为中心的附近视频帧计算堆叠光流;将堆叠光流送入双流网络提取视频特征序列/>,其中H是时序长度,C是特征维度,/>表示/>维的实数域。双流网络在视频分类任务中实现了很高的动作检测精度,同时在时序检测任务中也取得优秀的检测效果。双流网络包含空间流和时间流两个分支,空间流学习视频中RGB图像帧的空间信息,时间流从光流图像中学习运动信息。在ActivityNet-1.3数据集中,每个视频以16为间隔进行采样,即将视频以16帧为间隔划分成不同的部分,使用每个部分的中间帧作为/>,使用中间帧附近的连续6帧计算堆叠光流,而在THUMOS-14数据集中,以/>为间隔采样输入的未剪辑视频。
步骤2、采用局部编码器(Local Encoder)从视频特征序列中提取局部特征,采用全局编码器(Global Encoder)从视频特征序列中提取全局特征,融合局部特征和全局特征生成融合特征;该部分对应图1中的LGE,Local Encoder表示局部编码器,Global Encoder表示全局编码器。具体为:
对于输入的视频特征序列,其中H是时序长度,C是特征维度,/>表示维的实数域,采用两个堆叠的一维卷积作为局部编码器来融合邻域内时序位置的信息,计算过程如下式所示:
;
式中,表示一维卷积,/>表示局部编码器输出的局部特征,/>表示/>激活函数;
采用全局编码器从视频特征序列中提取全局特征,全局编码器目的是捕捉视频特征序列中长距离依赖关系,该编码器通过引入自注意力机制学习帧间关系并增强特征表示。所述全局编码器包括自注意力层和前馈网络层(FFN);
所述自注意力层执行多头注意力计算输入的视频特征序列F的加权和;具体为:对于每一个注意力头,将视频特征序列F投影到三个可学习的线性变换上,获得查询、键/>和值/>,用以下公式计算得到注意力图:
;
式中,是产生的注意力图,注意力图表示特征图/>和特征图/>之间的相似度,d是特征图查询/>和键/>的维度,键/>的上标T表示转置,/>表示自注意力层, 表示softmax层;将注意力图A与视频特征序列F的另一个线性变换值/>进行矩阵相乘得到多头注意力提取的特征,将多头注意力提取的特征送入前馈网络层,得到最终编码的全局特征/>;所述前馈网络层包括两个均带有Relu激活函数的线性层、每层所述线性层后的残差连接、归一化层和dropout层;将局部特征/>和全局特征/>进行concat拼接,最后再进行卷积核为1的卷积操作,得到编码的融合特征/>,用公式表达如下:
;
式中,表示一维卷积,/>表示concat拼接。
步骤3、采用边界匹配网络(Boundary-Matching Network for Temporal ActionProposal Generation,BMN)构造原始最细时间粒度匹配图,基于原始最细时间粒度匹配图,采用分组采样策略对融合特征采样得到组特征;利用组特征生成粗粒度匹配图,对粗粒度匹配图进行线性变换得到粗粒度组图(Coarse Group Map),用细化网络(RefinementNetwork)将粗粒度组图细化为细粒度匹配图(Fine Matching map),对细粒度匹配图卷积得到分类置信度图与回归置信度图;粗时间粒度方法的网络结构如图1下半部分所示,图中Coarse Granule Proposal Evaluation Module表示提出的粗粒度提名评估模块。CoarseGranule Sampler表示粗粒度匹配图的特征采样方法,Refinement Network表示细化网络,Proposal Confidence表示输出的提名置信度(分类置信度与回归置信度)。Fine GranuleSampler表示原始方法BMN中的细粒度匹配图的特征采样方法,其直接生成Fine MatchingMap细粒度匹配图。图2展示了细时间粒度图到粗时间粒度图的转化,Fine time granule表示细时间粒度,Coarse time granule表示粗时间粒度,Tdur表示动作的持续时间,Tstart表示动作的开始时间。
步骤3具体为:
采用边界匹配网络,定义一个大小为D×H的矩阵作为原始最细时间粒度匹配图,其中H是时序长度,D表示预先设置好的提名的最大持续时间,矩阵中的每一个位置代表一个提名;整体上涵盖了所有可能的提名情况。
接着使用分组采样策略来构造粗粒度匹配图。
具体来说,整个原始最细时间粒度匹配图可以无重叠分割,用G×G大小的框对原始最细时间粒度匹配图进行无重叠分割,将原始最细时间粒度匹配图中的提名分成组,G为用于设置组大小的超参数;对于每组G×G范围内的提名,取提名的时间区间的并集得到对融合特征/>采样的起始位置/>和结束位置/>;起始位置/>和结束位置/>的计算公式如下:
;
式中,i和j为组映射的索引,i用于表示粗粒度匹配图中每组组特征的行号,j用于表示粗粒度匹配图中每组组特征的列号;使用超参数G来设置组大小,获得组映射的索引i和j,如下式所示:
;
从融合特征的起始位置/>到结束位置/>对融合特征/>进行均匀采样,用表示,得到组特征/>,公式表示如下:
;
遵循边界匹配网络,引入边界匹配机制,由组特征生成粗粒度匹配图,式中,128是组特征的维数,/>表示在时间维度上采样的位置数量;/>表示/>维的实数域;
对粗粒度匹配图进行线性变换,得到粗粒度组图/>,用细化网络将粗粒度组图/>细化为细粒度匹配图/>,其中,/>表示线性变换后的组特征的维数,细化过程包括以下两个步骤:
(1)通过反卷积层对粗粒度组图进行动作开始时间和持续时间两个维度的上采样,将每组组特征/>细化为G×G个匹配特征;
(2)通过卷积核大小为3的卷积来恢复匹配特征之间的关系,得到细粒度匹配图;
细化过程之后,最终使用与BMN相同的卷积操作,对细粒度匹配图卷积得到分类置信度图/>与回归置信度图/>。
步骤4、对融合特征进行多路径特征提取,预测开始位置动作发生的概率和结束位置动作结束的概率,得到动作开始概率序列和动作结束概率序列;动作开始概率序列和动作结束概率序列统称为边界概率(Boundary Confidence)序列。
膨胀卷积在图像检测和分割任务中的应用证明,感受野的快速扩张可能会导致特征序列丢失细节信息。具体而言,简单地叠加膨胀卷积将导致某些位置的特征不能参与计算,为了缓解这一现象,我们设计两种不同结构的多路径特征提取模块(MPF)。第一种MPF-A包括膨胀系数为2k的膨胀卷积层用于快速扩张感受野。其中k是调整感受野扩张规模的指数。第二种MPF-B是一种含有固定膨胀系数的膨胀卷积用来减轻网格伪影。多路径特征提取示意图如图3所示,identify表示恒等映射不做任何变化,Regular Conv表示常规卷积操作,Dilated Conv表示空洞卷积操作,Element-Wise Addition表示逐元素相加操作,Normalization表示归一化操作,Activation Function表示激活函数。在图1最上方我们显示了原方法BMN中使用的Convolution Block卷积模块。
步骤4具体为:
用多路径特征提取模块(MPF)对融合特征进行多路径特征提取,所述多路径特征提取模块包括/>个大感受野的多路径特征提取模块MPF-A和/>个小感受野的多路径特征提取模块MPF-B;所述大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B均包括长距离路径、短距离路径和残差路径;大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B的输出均为长距离路径、短距离路径和残差路径这三条路径提取的特征的元素级的并行相加;为了增强特征的表达能力,同时解决网格退化问题,引入一种融合不同层次特征的残差路径。
所述大感受野的多路径特征提取模块MPF-A的长距离路径包括卷积核为3、膨胀系数r为2k的膨胀卷积层;k是调整感受野扩张规模的指数;所述小感受野的多路径特征提取模块MPF-B的长距离路径包括固定膨胀系数的膨胀卷积层;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B的短距离路径均包括卷积核为3的普通卷积;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B交替串联;这样MPF的顶层可以访问来自整个视频特征序列的信息,同时在每个时间位置处的信息聚合是平滑和均匀的。
用多路径特征提取模块对融合特征进行多路径特征提取的过程用公式表示为:
;
;
;
;
式中,为第一个大感受野的多路径特征提取模块MPF-A的输出,/>表示用大感受野的多路径特征提取模块MPF-A进行多路径特征提取,/>和/>分别是非线性激活函数和归一化操作,/>是长距离路径,/>是短距离路径;/>表示用小感受野的多路径特征提取模块MPF-B进行多路径特征提取,/>为第m个大感受野的多路径特征提取模块MPF-A的输出,/>为第m个小感受野的多路径特征提取模块MPF-B的输出,为第m-1个小感受野的多路径特征提取模块MPF-B的输出;/>
用第个小感受野的多路径特征提取模块MPF-B的输出/>作为多路径特征提取模块整体的输出;再通过两条均含有两层1维卷积的分支分别预测开始和结束概率,产生动作开始概率序列/>和动作结束概率序列/>。
步骤5、从动作开始概率序列和动作结束概率序列中筛选时序动作的开始位置与结束位置;将开始位置与结束位置配对;从分类置信度图与回归置信度图中获得分类置信度和回归置信度;由配对的开始位置与结束位置及分类置信度和回归置信度组成候选提名;具体为:
从动作开始概率序列和动作结束概率序列/>中挑选出满足如下条件的位置:
保留大于最大概率的50%和处于概率峰值处的位置,得到开始位置集合与结束位置集合,将开始位置集合中的开始位置与结束位置集合中的结束位置配对,如果满足动作持续时间小于预先设置好的提名的最大持续时间D,则生成一个候选提名;/>和/>分别表示挑选出的动作开始位置的时间与结束位置的时间,/>和/>分别表示开始位置动作发生的概率和结束位置动作结束的概率,和/>分别表示候选提名的分类置信度和回归置信度,分类置信度/>从分类置信度图/>中获得,回归置信度/>从回归置信度图/>中获得;得到候选提名集,其中/>是候选提名集/>中候选提名的个数。
步骤6、为了充分利用预测提名的各种分数,融合候选提名的概率分数和置信度分数得到融合置信度,所述概率分数包括开始位置动作发生的概率和结束位置动作结束的概率,所述置信度分数包括分类置信度和回归置信度;根据融合置信度抑制冗余的提名,得到最终的提名集。具体为:
融合候选提名集中各候选提名/>的概率分数和置信度分数,计算过程如下式所示:
;
式中,表示融合置信度,/>和/>分别表示开始位置动作发生的概率和结束位置动作结束的概率,/>和/>分别表示候选提名的分类置信度和回归置信度;
候选提名集重新表示为融合概率分数和置信度分数后的提名集;/>表示融合概率分数和置信度分数后的提名集中的第n个提名;/>是融合概率分数和置信度分数后的提名集中提名的个数;
由于网络生成大量彼此重叠度高的提名,因此应用Soft-NMS算法来抑制融合概率分数和置信度分数后的提名集中冗余的提名,具体为:/>
按照融合置信度对融合概率分数和置信度分数后的提名集/>中的提名进行排序,递归地将融合置信度/>最大的提名与排名在其后面的提名进行比较,如果提名之间的重叠度大于设定的阈值,则降低排名靠后的提名的融合置信度/>;得到最终的提名集;其中/>是最终的提名集/>中的提名/>的衰减后的置信度分数。
在另一实施例中,本发明提出一种基于粗时间粒度的时序动作提名生成***,该***与实施例一的方法相对应,包括:双流网络、局部-全局编码器(LGE)、粗粒度提名评估模块(CPE)、多路径特征提取模块(MPF)、训练模块、候选提名生成模块和冗余抑制模块。
所述双流网络对原始未剪辑视频进行特征提取得到视频特征序列;
所述局部-全局编码器包括局部编码器和全局编码器,所述局部编码器从视频特征序列中提取局部特征,所述全局编码器从视频特征序列中提取全局特征,融合局部特征和全局特征生成融合特征;
所述粗粒度提名评估模块采用边界匹配网络构造原始最细时间粒度匹配图,基于原始最细时间粒度匹配图,采用分组采样策略对融合特征采样得到组特征;利用组特征生成粗粒度匹配图,对粗粒度匹配图进行线性变换得到粗粒度组图,用细化网络将粗粒度组图细化为细粒度匹配图,对细粒度匹配图卷积得到分类置信度图与回归置信度图;
所述多路径特征提取模块对融合特征进行多路径特征提取,预测开始位置动作发生的概率和结束位置动作结束的概率,得到动作开始概率序列和动作结束概率序列。
所述多路径特征提取模块包括个大感受野的多路径特征提取模块MPF-A和/>个小感受野的多路径特征提取模块MPF-B;所述大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B均包括长距离路径、短距离路径和残差路径;大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B的输出均为长距离路径、短距离路径和残差路径这三条路径提取的特征的元素级的并行相加。
所述大感受野的多路径特征提取模块MPF-A的长距离路径包括卷积核为3、膨胀系数r为2k的膨胀卷积层;k是调整感受野扩张规模的指数;所述小感受野的多路径特征提取模块MPF-B的长距离路径包括固定膨胀系数的膨胀卷积层;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B的短距离路径均包括卷积核为3的普通卷积;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B交替串联。
所述训练模块用于定义多任务损失函数,训练粗粒度提名评估模块和多路径特征提取模块,使得多任务损失函数的损失值低于设定标准;所述多任务损失函数由训练粗粒度提名评估模块的损失函数和多路径特征提取模块的损失函数组成;所述多任务损失函数的表达式如下所示:
;
式中,L表示多任务损失函数,为多路径特征提取模块的损失函数,/>为粗粒度提名评估模块的损失函数;
多路径特征提取模块的损失函数的表达式如下:
;
式中,是动作开始概率序列/>的标签,/>是动作结束概率序列/>的标签,/>是二分类损失函数;
粗粒度提名评估模块的损失函数的表达式如下:
;
式中,为去掉不合法的提名后的二分类损失;与前面/>不同的是,因为存在着一些不合法的提名(结束时间小于开始时间)。这一部分我们需要将其用0掩藏掉,后续不参与损失计算。/>为密集分布提名的标签,/>为分类置信度图,/>为回归置信度图,/>为smooth L1损失函数,/>为权重项,设置为10。为了平衡/>中正负样本的比例,对于密集分布提名的标签/>中的每一个值/>,/>是每一个提名的标签,大于0.7的所有样本作为正样本,小于0.3的作为负样本,确保正样本和负样本之间的比例接近于1:1。
所述候选提名生成模块从动作开始概率序列和动作结束概率序列中筛选时序动作的开始位置与结束位置;将开始位置与结束位置配对;从分类置信度图与回归置信度图中获得分类置信度和回归置信度;由配对的开始位置与结束位置及分类置信度和回归置信度组成候选提名;
所述冗余抑制模块融合候选提名的概率分数和置信度分数得到融合置信度,所述概率分数包括开始位置动作发生的概率和结束位置动作结束的概率,所述置信度分数包括分类置信度和回归置信度;根据融合置信度抑制冗余的提名,得到最终的提名集。
***中各模块以及模块中的执行功能和具体流程与实施例一的基于粗时间粒度的时序动作提名生成方法一致,故此处不再重复。
本发明在实际实施过程中,以英伟达GPU显卡作为计算平台,采用Pytorch作为网络模型框架。
1、数据集获取
登录网站:从http://activity-net .org/download .html下载ActivityNet 1.3数据集,其中包含19994个未剪辑的视频,共标记200个类别的人类动作,平均每段视频发生1.54个动作实例。
2、模型训练
在训练阶段,我们将训练批次大小设置为16个,网络共训练12轮,前8轮的学习率为0.0001,后4轮为原来的0.1倍,G的大小设置为2。
3、模型测试
用上述模型训练生成的参数来进行测试,采用非极大值抑制来剔除高度重叠的时序候选框,降低误检。后处理阈值设置为8,分数阈值设置为0.005。
4、模型评估
根据上述处理后的预测结果,计算时序重叠度(tIOU),当tIOU>0.5,认为是预测正确的结果。
本发明检测结果如图4所示,图4展示了ABC三段视频的检测结果对比,GT代表动作在视频中实际所在的位置,从图中可以看出,本发明设计的方法相较于原方法BMN有着更加精确的边界定位结果。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (10)
1.一种基于粗时间粒度的时序动作提名生成方法,其特征在于,包括以下步骤:
步骤1、采用双流网络对原始未剪辑视频进行特征提取得到视频特征序列;
步骤2、采用局部编码器从视频特征序列中提取局部特征,采用全局编码器从视频特征序列中提取全局特征,融合局部特征和全局特征生成融合特征;
步骤3、采用边界匹配网络构造原始最细时间粒度匹配图,基于原始最细时间粒度匹配图,采用分组采样策略对融合特征采样得到组特征;利用组特征生成粗粒度匹配图,对粗粒度匹配图进行线性变换得到粗粒度组图,用细化网络将粗粒度组图细化为细粒度匹配图,对细粒度匹配图卷积得到分类置信度图与回归置信度图;
步骤4、对融合特征进行多路径特征提取,预测开始位置动作发生的概率和结束位置动作结束的概率,得到动作开始概率序列和动作结束概率序列;
步骤5、从动作开始概率序列和动作结束概率序列中筛选时序动作的开始位置与结束位置;将开始位置与结束位置配对;从分类置信度图与回归置信度图中获得分类置信度和回归置信度;由配对的开始位置与结束位置及分类置信度和回归置信度组成候选提名;
步骤6、融合候选提名的概率分数和置信度分数得到融合置信度,所述概率分数包括开始位置动作发生的概率和结束位置动作结束的概率,所述置信度分数包括分类置信度和回归置信度;根据融合置信度抑制冗余的提名,得到最终的提名集。
2.如权利要求1所述的基于粗时间粒度的时序动作提名生成方法,其特征在于,步骤1具体为:
对原始未剪辑视频以/>为间隔采样得到/>个片段/>;其中/>为未剪辑视频的长度,/>为原始未剪辑视频的第t帧图像,利用每个片段/>的中心单帧RGB图像和以单帧RGB图像/>为中心的附近视频帧计算堆叠光流;将堆叠光流送入双流网络提取视频特征序列/>,其中H是时序长度,C是特征维度,/>表示/>维的实数域。
3.如权利要求1所述的基于粗时间粒度的时序动作提名生成方法,其特征在于,步骤2具体为:
对于输入的视频特征序列,其中H是时序长度,C是特征维度,/>表示/>维的实数域,采用两个堆叠的一维卷积作为局部编码器来融合邻域内时序位置的信息,计算过程如下式所示:
;
式中,conv1d(·)表示一维卷积,表示局部编码器输出的局部特征,Relu(·)表示激活函数;
采用全局编码器从视频特征序列中提取全局特征,所述全局编码器包括自注意力层和前馈网络层;
所述自注意力层执行多头注意力计算输入的视频特征序列F的加权和;具体为:对于每一个注意力头,将视频特征序列F投影到三个可学习的线性变换上,获得查询、键/>和值,用以下公式计算得到注意力图:
;
式中,是产生的注意力图,d是特征图查询/>和键/>的维度,键/>的上标T表示转置,表示自注意力层,/> 表示softmax层;将注意力图A与视频特征序列F的另一个线性变换值/>进行矩阵相乘得到多头注意力提取的特征,将多头注意力提取的特征送入前馈网络层,得到最终编码的全局特征/>;所述前馈网络层包括两个均带有Relu激活函数的线性层、每层所述线性层后的残差连接、归一化层和dropout层;将局部特征/>和全局特征/>进行concat拼接,最后再进行卷积核为1的卷积操作,得到编码的融合特征/>,用公式表达如下:
;
式中,conv1d(·)表示一维卷积,concat{·}表示concat拼接。
4.如权利要求1所述的基于粗时间粒度的时序动作提名生成方法,其特征在于,步骤3具体为:
采用边界匹配网络,定义一个大小为D×H的矩阵作为原始最细时间粒度匹配图,其中H是时序长度,D表示预先设置好的提名的最大持续时间,矩阵中的每一个位置代表一个提名;
用G×G大小的框对原始最细时间粒度匹配图进行无重叠分割,将原始最细时间粒度匹配图中的提名分成组,G为用于设置组大小的超参数;对于每组G×G范围内的提名,取提名的时间区间的并集得到对融合特征/>采样的起始位置/>和结束位置/>;起始位置和结束位置/>的计算公式如下:
;
式中,i和j为组映射的索引,i用于表示粗粒度匹配图中每组组特征的行号,j用于表示粗粒度匹配图中每组组特征的列号;使用超参数G来设置组大小,获得组映射的索引i和j,如下式所示:
;
从融合特征的起始位置/>到结束位置/>对融合特征/>进行均匀采样,用GroupSample(·)表示,得到组特征/>,公式表示如下:
;
遵循边界匹配网络,引入边界匹配机制,由组特征生成粗粒度匹配图,式中,128是组特征的维数,/>表示在时间维度上采样的位置数量;/>表示/>维的实数域;
对粗粒度匹配图进行线性变换,得到粗粒度组图/>,用细化网络将粗粒度组图/>细化为细粒度匹配图/>,其中,/>表示线性变换后的组特征的维数,细化过程包括以下两个步骤:
(1)通过反卷积层对粗粒度组图进行动作开始时间和持续时间两个维度的上采样,将每组组特征/>细化为G×G个匹配特征;
(2)通过卷积核大小为3的卷积来恢复匹配特征之间的关系,得到细粒度匹配图;
细化过程之后,对细粒度匹配图卷积得到分类置信度图/>与回归置信度图/>。
5.如权利要求1所述的基于粗时间粒度的时序动作提名生成方法,其特征在于,步骤4具体为:
用多路径特征提取模块对融合特征进行多路径特征提取,所述多路径特征提取模块包括/>个大感受野的多路径特征提取模块MPF-A和/>个小感受野的多路径特征提取模块MPF-B;所述大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B均包括长距离路径、短距离路径和残差路径;大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B的输出均为长距离路径、短距离路径和残差路径这三条路径提取的特征的元素级的并行相加;
所述大感受野的多路径特征提取模块MPF-A的长距离路径包括卷积核为3、膨胀系数r为2k的膨胀卷积层;k是调整感受野扩张规模的指数;所述小感受野的多路径特征提取模块MPF-B的长距离路径包括固定膨胀系数的膨胀卷积层;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B的短距离路径均包括卷积核为3的普通卷积;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B交替串联;用多路径特征提取模块对融合特征进行多路径特征提取的过程用公式表示为:
;
;
;
;
式中,为第一个大感受野的多路径特征提取模块MPF-A的输出,/>表示用大感受野的多路径特征提取模块MPF-A进行多路径特征提取,/>和/>分别是非线性激活函数和归一化操作,/>是长距离路径,/>是短距离路径;/>表示用小感受野的多路径特征提取模块MPF-B进行多路径特征提取,/>为第m个大感受野的多路径特征提取模块MPF-A的输出,/>为第m个小感受野的多路径特征提取模块MPF-B的输出,/>为第m-1个小感受野的多路径特征提取模块MPF-B的输出;
用第个小感受野的多路径特征提取模块MPF-B的输出/>作为多路径特征提取模块整体的输出;再通过两条均含有两层1维卷积的分支分别预测开始和结束概率,产生动作开始概率序列/>和动作结束概率序列/>。
6.如权利要求1所述的基于粗时间粒度的时序动作提名生成方法,其特征在于,步骤5具体为:
从动作开始概率序列和动作结束概率序列/>中挑选出满足如下条件的位置:
保留大于最大概率的50%和处于概率峰值处的位置,得到开始位置集合与结束位置集合,将开始位置集合中的开始位置与结束位置集合中的结束位置配对,如果满足动作持续时间小于预先设置好的提名的最大持续时间D,则生成一个候选提名;/>和/>分别表示挑选出的动作开始位置的时间与结束位置的时间,/>和/>分别表示开始位置动作发生的概率和结束位置动作结束的概率,和/>分别表示候选提名的分类置信度和回归置信度,分类置信度/>从分类置信度图/>中获得,回归置信度/>从回归置信度图/>中获得;得到候选提名集,其中/>是候选提名集/>中候选提名/>的个数。
7.如权利要求1所述的基于粗时间粒度的时序动作提名生成方法,其特征在于,步骤6具体为:
融合候选提名集中各候选提名/>的概率分数和置信度分数,计算过程如下式所示:
;
式中,表示融合置信度,/>和/>分别表示开始位置动作发生的概率和结束位置动作结束的概率,/>和/>分别表示候选提名的分类置信度和回归置信度;
候选提名集重新表示为融合概率分数和置信度分数后的提名集;/>表示融合概率分数和置信度分数后的提名集中的第n个提名;/>是融合概率分数和置信度分数后的提名集中提名的个数;
应用Soft-NMS算法来抑制融合概率分数和置信度分数后的提名集中冗余的提名,具体为:
按照融合置信度对融合概率分数和置信度分数后的提名集/>中的提名进行排序,递归地将融合置信度/>最大的提名与排名在其后面的提名进行比较,如果提名之间的重叠度大于设定的阈值,则降低排名靠后的提名的融合置信度/>;得到最终的提名集;其中/>是最终的提名集/>中的提名/>的衰减后的置信度分数。
8.一种基于粗时间粒度的时序动作提名生成***,其特征在于,包括:双流网络、局部-全局编码器、粗粒度提名评估模块、多路径特征提取模块、训练模块、候选提名生成模块和冗余抑制模块;
所述双流网络对原始未剪辑视频进行特征提取得到视频特征序列;
所述局部-全局编码器包括局部编码器和全局编码器,所述局部编码器从视频特征序列中提取局部特征,所述全局编码器从视频特征序列中提取全局特征,融合局部特征和全局特征生成融合特征;
所述粗粒度提名评估模块采用边界匹配网络构造原始最细时间粒度匹配图,基于原始最细时间粒度匹配图,采用分组采样策略对融合特征采样得到组特征;利用组特征生成粗粒度匹配图,对粗粒度匹配图进行线性变换得到粗粒度组图,用细化网络将粗粒度组图细化为细粒度匹配图,对细粒度匹配图卷积得到分类置信度图与回归置信度图;
所述多路径特征提取模块对融合特征进行多路径特征提取,预测开始位置动作发生的概率和结束位置动作结束的概率,得到动作开始概率序列和动作结束概率序列;
所述训练模块用于定义多任务损失函数,训练粗粒度提名评估模块和多路径特征提取模块,使得多任务损失函数的损失值低于设定标准;所述多任务损失函数由训练粗粒度提名评估模块的损失函数和多路径特征提取模块的损失函数组成;
所述候选提名生成模块从动作开始概率序列和动作结束概率序列中筛选时序动作的开始位置与结束位置;将开始位置与结束位置配对;从分类置信度图与回归置信度图中获得分类置信度和回归置信度;由配对的开始位置与结束位置及分类置信度和回归置信度组成候选提名;
所述冗余抑制模块融合候选提名的概率分数和置信度分数得到融合置信度,所述概率分数包括开始位置动作发生的概率和结束位置动作结束的概率,所述置信度分数包括分类置信度和回归置信度;根据融合置信度抑制冗余的提名,得到最终的提名集。
9.如权利要求8所述的基于粗时间粒度的时序动作提名生成***,其特征在于,所述多路径特征提取模块包括个大感受野的多路径特征提取模块MPF-A和/>个小感受野的多路径特征提取模块MPF-B;所述大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B均包括长距离路径、短距离路径和残差路径;大感受野的多路径特征提取模块MPF-A和小感受野的多路径特征提取模块MPF-B的输出均为长距离路径、短距离路径和残差路径这三条路径提取的特征的元素级的并行相加;
所述大感受野的多路径特征提取模块MPF-A的长距离路径包括卷积核为3、膨胀系数r为2k的膨胀卷积层;k是调整感受野扩张规模的指数;所述小感受野的多路径特征提取模块MPF-B的长距离路径包括固定膨胀系数的膨胀卷积层;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B的短距离路径均包括卷积核为3的普通卷积;大感受野的多路径特征提取模块MPF-A与小感受野的多路径特征提取模块MPF-B交替串联。
10.如权利要求8所述的基于粗时间粒度的时序动作提名生成***,其特征在于,所述多任务损失函数的表达式如下所示:
;
式中,L表示多任务损失函数,为多路径特征提取模块的损失函数,/>为粗粒度提名评估模块的损失函数;
多路径特征提取模块的损失函数的表达式如下:
;
式中,是动作开始概率序列/>的标签,/>是动作结束概率序列/>的标签,/>是二分类损失函数;
粗粒度提名评估模块的损失函数的表达式如下:
;
式中,为去掉不合法的提名后的二分类损失;/>为密集分布提名的标签,/>为分类置信度图,/>为回归置信度图,/>为smooth L1损失函数,/>为权重项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311588589.7A CN117292307B (zh) | 2023-11-27 | 2023-11-27 | 一种基于粗时间粒度的时序动作提名生成方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311588589.7A CN117292307B (zh) | 2023-11-27 | 2023-11-27 | 一种基于粗时间粒度的时序动作提名生成方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117292307A CN117292307A (zh) | 2023-12-26 |
CN117292307B true CN117292307B (zh) | 2024-01-30 |
Family
ID=89244895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311588589.7A Active CN117292307B (zh) | 2023-11-27 | 2023-11-27 | 一种基于粗时间粒度的时序动作提名生成方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117292307B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115588230A (zh) * | 2022-08-31 | 2023-01-10 | 中国地质大学(武汉) | 基于高精度边界预测的时序动作检测方法及计算机设备 |
CN115797818A (zh) * | 2021-09-08 | 2023-03-14 | 香港大学 | 视频时序动作提名生成方法及*** |
CN116229315A (zh) * | 2023-02-08 | 2023-06-06 | 中国人民解放军海军军医大学第一附属医院 | 基于由粗到细粒度信息捕捉的时序动作检测方法及装置 |
CN117115906A (zh) * | 2023-08-10 | 2023-11-24 | 西安邮电大学 | 一种基于上下文聚合和边界生成的时序行为检测方法 |
-
2023
- 2023-11-27 CN CN202311588589.7A patent/CN117292307B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797818A (zh) * | 2021-09-08 | 2023-03-14 | 香港大学 | 视频时序动作提名生成方法及*** |
CN115588230A (zh) * | 2022-08-31 | 2023-01-10 | 中国地质大学(武汉) | 基于高精度边界预测的时序动作检测方法及计算机设备 |
CN116229315A (zh) * | 2023-02-08 | 2023-06-06 | 中国人民解放军海军军医大学第一附属医院 | 基于由粗到细粒度信息捕捉的时序动作检测方法及装置 |
CN117115906A (zh) * | 2023-08-10 | 2023-11-24 | 西安邮电大学 | 一种基于上下文聚合和边界生成的时序行为检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117292307A (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kümmerer et al. | DeepGaze II: Reading fixations from deep features trained on object recognition | |
CN110175580B (zh) | 一种基于时序因果卷积网络的视频行为识别方法 | |
US10242289B2 (en) | Method for analysing media content | |
US11270124B1 (en) | Temporal bottleneck attention architecture for video action recognition | |
CN111372123B (zh) | 基于从局部到全局的视频时序片段提取方法 | |
WO2020197853A1 (en) | Efficient and fine-grained video retrieval | |
Tang et al. | A fast inference networks for SAR target few-shot learning based on improved siamese networks | |
CN114663798B (zh) | 一种基于强化学习的单步视频内容识别方法 | |
Li et al. | Streamer action recognition in live video with spatial-temporal attention and deep dictionary learning | |
Xiong et al. | Contextual Sa-attention convolutional LSTM for precipitation nowcasting: A spatiotemporal sequence forecasting view | |
CN117237733A (zh) | 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及*** | |
CN114842553A (zh) | 基于残差收缩结构和非局部注意力的行为检测方法 | |
Vijayan et al. | A fully residual convolutional neural network for background subtraction | |
Zhang et al. | A deep learning method for video‐based action recognition | |
Chen et al. | Cass: A channel-aware self-supervised representation learning framework for multivariate time series classification | |
Xu et al. | LSTM neural network for solar radio spectrum classification | |
CN116704609A (zh) | 基于时序注意力的在线手卫生评估方法及*** | |
CN117292307B (zh) | 一种基于粗时间粒度的时序动作提名生成方法及*** | |
CN116704433A (zh) | 基于上下文感知关系预测编码的自监督群体行为识别方法 | |
CN114298290A (zh) | 一种基于自监督学习的神经网络编码方法及编码器 | |
Xu et al. | Violent Physical Behavior Detection using 3D Spatio-Temporal Convolutional Neural Networks | |
Kaur et al. | An ensemble based approach for violence detection in videos using deep transfer learning | |
CN117197725B (zh) | 一种基于多位置协作的时序动作提名生成方法及*** | |
CN118038451B (zh) | 开放世界果实检测模型构建方法、检测方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |