CN116895038A - 视频动作识别方法、装置、电子设备及可读存储介质 - Google Patents
视频动作识别方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116895038A CN116895038A CN202311162287.3A CN202311162287A CN116895038A CN 116895038 A CN116895038 A CN 116895038A CN 202311162287 A CN202311162287 A CN 202311162287A CN 116895038 A CN116895038 A CN 116895038A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- video
- frames
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 77
- 230000009471 action Effects 0.000 claims abstract description 53
- 230000004927 fusion Effects 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 49
- 238000003062 neural network model Methods 0.000 claims description 24
- 230000002123 temporal effect Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 abstract description 8
- 238000004590 computer program Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种视频动作识别方法、装置、电子设备及可读存储介质,属于数据处理技术领域,方法包括:从目标视频序列中间隔提取多个第一帧,以及从多个第一帧中提取一个第二帧;将多个第一帧输入TPEM进行特征提取,得到时序特征;将第二帧输入SPEM进行特征提取,得到空间特征;将时序特征和空间特征融合,得到融合特征;根据融合特征,确定视频动作;TPEM中包含resnet网络结构和transformer网络结构,SPEM中包含resnet网络结构。采用时间空间双分支结构,分别提取空间信息与时间信息,比对时空信息进行融合信息,避免了相关信息的丢失;采用resnet网络结构对视频帧的特征进行多尺度融合,transformer网络结构中的注意力机制拓宽了感受野,使视频动作识别更为准确。
Description
技术领域
本申请属于数据处理技术领域,具体涉及一种视频动作识别方法、装置、电子设备及可读存储介质。
背景技术
视频动作识别的目标是识别出视频中出现的动作,可以看作是由一组图像帧按时间顺序排列而成的数据结构,比图像多了一个时间维度,动作识别不仅要分析视频中每帧图像的内容,还需要从视频帧之间的时序信息中挖掘线索。
动作识别本身来说,一个很重要的信息维度就是“时序”。若是没有时序,仅看一帧图像,很容易陷入“动作歧义”,例如:对于一个躬身的人,我们无法识别出此人是要坐下还是要站起来,因此必须借助此人过去的几帧当中所做出的动作来判断这一帧究竟是坐还是站。
现有视频动作识别主要有以下几种方法,但缺点明显,主要如下:
1、使用2D 卷积神经网络(Convolutional Neural Networks,CNN)进行每一帧表帧,再进行融合,该方法忽略了时序的充分表达。
2、采用3D CNN的方式进行建模,这种方式计算量巨大。
3、用光流等方式表达弥补时序上的动作表达不足,但光流等特征获取难度大,资源消耗高,适用性低。
发明内容
本申请实施例提供一种视频动作识别方法、装置、电子设备及可读存储介质,能够解决目前缺少高效准确的视频动作识别方法的问题。
第一方面,提供了一种视频动作识别方法,包括:
从目标视频序列中间隔提取多个第一帧,以及从所述多个第一帧中提取一个第二帧;
将所述多个第一帧输入时序特征提取模块TPEM进行特征提取,得到时序特征;
将所述第二帧输入空间特征提取模块SPEM进行特征提取,得到空间特征;
将所述时序特征和所述空间特征融合,得到融合特征;
根据所述融合特征,确定视频动作;
其中,所述TPEM中包含具有resnet 网络结构的神经网络模型和具有transformer网络结构的神经网络模型,所述SPEM中包含具有resnet网络结构的神经网络模型。
可选地,所述TPEM中包含具有resnet 网络结构的第一卷积神经网络CNN模型和具有transformer 网络结构的第二CNN模型;
所述将所述多个第一帧输入TPEM 进行特征提取,得到时序特征,包括:
将所述多个第一帧输入所述第一CNN模型进行特征提取,得到具有多个特征编码的第一特征数据;
通过第一编码处理,对所述第一特征数据增加类别编码,得到第二特征数据;
通过第二编码处理,对所述第二特征数据增加位置编码,得到第三特征数据;
将所述第三特征数据输入所述第二CNN模型进行特征提取,得到所述时序特征;
其中,所述类别编码与所述视频动作的类别相关联,且所述类别编码采用随机初始化,所述位置编码与每个所述第一帧在所述目标视频序列中的时间位置相关联。
可选地,所述通过第二编码处理,对所述第二特征数据增加位置编码,包括:
通过以下公式计算所述位置编码:
;
;
其中,为所述特征编码在视频序列中的实际时间位置,为所述多个特征编码
中第t个特征编码的位置向量,为所述位置向量中的第i个元素的值,d为特征编码的
维度,表示第i个元素为第偶数个元素,表示第i个元素为第奇数个元素。
可选地,所述SPEM中包含具有resnet 网络结构的第三CNN模型;
将所述第二帧输入空间特征提取模块SPEM 进行特征提取,得到空间特征,包括:
将所述第二帧输入所述第三CNN模型进行特征提取,得到空间特征。
可选地,所述将所述时序特征和所述空间特征融合,得到融合特征,包括:
对所述时序特征和所述空间特征进行通道拼接,得到所述融合特征。
可选地,所述根据所述融合特征,确定视频动作,包括:
根据所述融合特征和预设对应关系,确定所述视频动作;
其中,所述预设对应关系为所述融合特征与所述视频动作之间的对应关系。
第二方面,提供了一种视频动作识别装置,包括:
提取模块,用于从目标视频序列中间隔提取多个第一帧,以及从所述多个第一帧中提取一个第二帧;
第一特征提取模块,用于将所述多个第一帧输入TPEM进行特征提取,得到时序特征;
第二特征提取模块,用于将所述第二帧输入SPEM进行特征提取,得到空间特征;
融合模块,用于将所述时序特征和所述空间特征融合,得到融合特征;
确定模块,用于根据所述融合特征,确定视频动作;
其中,所述TPEM中包含具有resnet 网络结构的神经网络模型和具有transformer网络结构的神经网络模型,所述SPEM中包含具有resnet网络结构的神经网络模型。
可选地,所述TPEM中包含具有resnet 网络结构的第一卷积神经网络CNN模型和具有transformer 网络结构的第二CNN模型;
所述第一特征提取模块,具体用于:
将所述多个第一帧输入所述第一CNN模型进行特征提取,得到具有多个特征编码的第一特征数据;
通过第一编码处理,对所述第一特征数据增加类别编码,得到第二特征数据;
通过第二编码处理,对所述第二特征数据增加位置编码,得到第三特征数据;
将所述第三特征数据输入所述第二CNN模型进行特征提取,得到所述时序特征;
其中,所述类别编码与所述视频动作的类别相关联,且所述类别编码采用随机初始化,所述位置编码与每个所述第一帧在所述目标视频序列中的时间位置相关联。
可选地,所述第一特征提取模块,具体用于:
通过以下公式计算所述位置编码:
通过以下公式计算所述位置编码:
;
;
其中,为所述特征编码在视频序列中的实际时间位置,为所述多个特征编码
中第t个特征编码的位置向量,为所述位置向量中的第i个元素的值,d为特征编码的
维度,表示第i个元素为第偶数个元素,表示第i个元素为第奇数个元素。
可选地,所述SPEM中包含具有resnet 网络结构的第三CNN模型;
第二特征提取模块,具体用于:
将所述第二帧输入所述第三CNN模型进行特征提取,得到空间特征。
可选地,所述融合模块,具体用于:
对所述时序特征和所述空间特征进行通道拼接,得到所述融合特征。
可选地,所述确定模块,具体用于:
根据所述融合特征和预设对应关系,确定所述视频动作;
其中,所述预设对应关系为所述融合特征与所述视频动作之间的对应关系。
第三方面,提供了一种电子设备,该终端包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第六方面,提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
第七方面,提供了一种计算机程序/程序产品,所述计算机程序/程序产品被存储在存储介质中,所述程序/程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本申请实施例中,从目标视频序列提取多个第一帧,以及在多个第一帧中提取一个第二帧,对多个第一帧进行时序特征提取,对第二帧进行空间特征提取,并将提取得到的时序特征和空间特征融合,最后根据融合特征确定视频动作,其中, TPEM中包含具有resnet 网络结构的神经网络模型和具有transformer 网络结构的神经网络模型, SPEM中包含具有resnet 网络结构的神经网络模型。本申请实施例,采用时间空间双分支结构,分别提取空间信息与时间信息,比对时空信息进行融合信息,避免了相关信息的丢失;采用resnet 网络结构对视频帧的特征进行多尺度融合,兼顾低层次高分辨率的信息和高层次强语义的信息,使视频动作识别更为高效,transformer 网络结构中的注意力机制拓宽了感受野,能够一定程度上帮助提升视频动作识别的性能,使视频动作识别更为准确。
附图说明
图1是本申请实施例提供的视频动作识别方法的流程示意图;
图2是本申请实施例提供的视频动作识别方法应用的模块架构示意图;
图3是本申请实施例提供的视频动作识别装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
本申请的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,本申请中的“和/或”表示所连接对象的至少其中之一。例如“A或B”涵盖三种方案,即,方案一:包括A且不包括B;方案二:包括B且不包括A;方案三:既包括A又包括B。字符“/”一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过一些实施例及其应用场景对本申请实施例提供的视频动作识别方法进行详细地说明。
参见图1,本申请实施例提供一种视频动作识别方法,包括:
步骤101:从目标视频序列中间隔提取多个第一帧,以及从多个第一帧中提取一个第二帧。
步骤102:将多个第一帧输入TPEM进行特征提取,得到时序特征。
步骤103:将第二帧输入SPEM进行特征提取,得到空间特征。
步骤104:将时序特征和空间特征融合,得到融合特征。
步骤105:根据融合特征,确定视频动作。
其中,时序特征提取模块(Temporal Embedding,TPEM)中包含具有残差(resnet)网络结构的神经网络模型和具有变换(transformer)网络结构的神经网络模型,空间特征提取模块(Spatial Embedding,SPEM)中包含具有resnet网络结构的神经网络模型。
需要说明的是,上述步骤101中提取帧的处理,提取多个第一帧,用于进行时序特征提取,考虑到相邻帧的内容比较接近,为了提高识别准确性,采用间隔抽取的方法,具体地可以采用间隔1帧的方式提取第一帧,该第一帧也可以称之为关键帧;相应地,第二帧是从提取的多个第一帧中提取,用于进行空间特征提取,通常可以将多个第一帧的中间帧作为第二帧;本申请实施例对于上述第一帧和第二帧选取的具体设置不做限定,例如对多个第一帧也可以采用间隔2帧或3帧等进行提取,第二帧也可以从多个第一帧的前半部分或后半部分选择,可依据实际需求灵活设置。
在本申请实施例中,从目标视频序列提取多个第一帧,以及在多个第一帧中提取一个第二帧,对多个第一帧进行时序特征提取,对第二帧进行空间特征提取,并将提取得到的时序特征和空间特征融合,最后根据融合特征确定视频动作,其中, TPEM中包含具有resnet 网络结构的神经网络模型和具有transformer 网络结构的神经网络模型, SPEM中包含具有resnet 网络结构的神经网络模型。本申请实施例,采用时间空间双分支结构,分别提取空间信息与时间信息,比对时空信息进行融合信息,避免了相关信息的丢失;采用resnet 网络结构对视频帧的特征进行多尺度融合,兼顾低层次高分辨率的信息和高层次强语义的信息,使视频动作识别更为高效,transformer 网络结构中的注意力机制拓宽了感受野,能够一定程度上帮助提升视频动作识别的性能,使视频动作识别更为准确。
可选地,TPEM中包含具有resnet 网络结构的第一卷积神经网络CNN模型和具有transformer 网络结构的第二CNN模型。
将多个第一帧输入TPEM 进行特征提取,得到时序特征,包括:
(1)将多个第一帧输入第一CNN模型进行特征提取,得到具有多个特征编码的第一特征数据。
将多个第一帧输入具有resnet 网络结构的CNN模型,resnet 网络结构的残差结构能够很好解决网络退化,将低层次高分辨率的信息和高层次强语义的信息结合起来。经过第一CNN模型的特征提取后,得到第一特征数据,也可称为特征图。
(2)通过第一编码处理,对第一特征数据增加类别编码,得到第二特征数据。
对第一CNN模型输出的特征图进行编码,在其中增加类别编码(class token),即即增加一个数据维度,类别编码与视频动作的类别相关联,该class token用于视频动作分类,类别编码采用随机初始化,class token随机初始化,使其本身不基于图像内容,因此可以避免对某个特定token的偏向性,提高视频动作识别的准确性。
(3)通过第二编码处理,对第二特征数据增加位置编码,得到第三特征数据。
考虑到transformer 网络结构中attention结构丢失了位置信息,因此在送入transformer网络之前进行空间位置编码,位置编码与每个第一帧在目标视频序列中的时间位置相关联。
(4)将第三特征数据输入第二CNN模型进行特征提取,得到时序特征。
利用transformer 网络结构的注意力机制,加强动作在时间维度上变化的特征表达,具体可以引用多头注意力机制,然后通过多层感知机块(Multilayer PerceptronBlock,MLP Block)将维度放大再缩小回去,以保证输入输出维度与SPEM提取的空间特征保持一致。该MLP Block可以包含在transformer 网络结构之中,或者也可以再transformer网络结构之外独立设置,本申请实施例对此不做具体限定。
可选地,通过第二编码处理,对第二特征数据增加位置编码,包括:
通过以下公式计算位置编码:
;
;
其中,为特征编码在视频序列中的实际时间位置,为多个特征编码中第t个
特征编码的位置向量,为位置向量中的第i个元素的值,d为特征编码的维度,
表示第i个元素为第偶数个元素,表示第i个元素为第奇数个元素。
可选地,SPEM中包含具有resnet 网络结构的第三CNN模型。
将第二帧输入空间特征提取模块SPEM 进行特征提取,得到空间特征,包括:
将第二帧输入第三CNN模型进行特征提取,得到空间特征。
考虑视频整体外观变换比较缓慢和稳定,故可以直接将第二帧输入CNN模型,进行特征提取,其中采用有resnet 网络结构的CNN模型,利用resnet 网络结构的残差结构能够很好解决网络退化,将低层次高分辨率的信息和高层次强语义的信息结合起来。
可选地,将时序特征和空间特征融合,得到融合特征,包括:
对时序特征和空间特征进行通道拼接,得到融合特征。
在本申请实施例中,可以创建融合模块(Concat Embedding,CAEM)模块进行特征融合,这里并不是进行简单的通道上的堆叠,具体可以通过卷积层将SPEM模块与TPEM模块转换成相同形状,然后进行通道拼接,为了使空间和时间上的特征更好的融合,可以在通道拼接后新增注意力模块,在通道维度上做自注意力,更好的融合了时间与空间维度的信息。
可选地,根据融合特征,确定视频动作,包括:
根据融合特征和预设对应关系,确定视频动作。
其中,预设对应关系为融合特征与视频动作之间的对应关系。
在本申请实施例中,可以通过卷积层和线性映射输出分类结果,具体融合特征与视频动作之间的对应关系可以预先设定,在通过上述过程得到融合特征后,即可直接获知对应的视频动作。
下面结合图2对本申请实施例的方案进行描述,需要说明的是,下面实施例中所采用的具体参数均为举例,并不构成对本申请技术方案的参数限定。
参见图2,图中示出本申请实施例提供的视频动作识别方法所采用的双分支结构的,该架构兼顾视频特征的空间与时间特征表达,具体方案流程如下:
步骤一:数据准备。
针对动作视频,选取连续的32帧,并间隔1帧提取关键帧,将提取后的16帧进行预处理后输入时序特征提取模块TPEM,将16帧的中间帧作为关键帧,输入到空间特征提取模块SPEM。
步骤二:空间特征提取。
视频整体外观变换比较缓慢和稳定的,因此提取这16帧的中间帧作为视频的空间特征表达,考虑到随着网络深度的不断叠加,可能出现梯度消失的问题,本提案采用resnet34作为提取特征的主干网络,resnet网络的残差结构能够很好解决网络退化。同时,考虑到视频动作范围不易,存在大幅度动作与细微动作,因此,对resnet不同尺度卷积层cov2、cov3、cov4、cov5的输出进行融合,P2、P3、P4、P5分别为不同卷积层融合的结果,然后将低层次高分辨率的信息和高层次强语义的信息结合起来,自顶向下,将最后一层作为输出,最后通过卷积层进行降维。
步骤三:视频时序特征提取。
已经处理好了关键帧,但如果只看关键帧,会存在动作歧义的问题。为了消除这一问题,考虑时序是必要的。因此,除了关键帧,我们还要考虑过去帧。因此,输入除了关键帧,还需要一个包含关键帧在内的一段视频片段。为了处理这段视频,从中提取时序特征,创建时序特征提取模块TPEM,主要经历以下几步。
1、视频帧信息抽取。
将提取的16帧关键帧送入卷积网络进行特征提取,此处提取的网络结构与关键帧网络结构相同。
2、token embedding。
将步骤二提取的特征图分为固定大小的部分,每个部分的大小为7*7,则每张特征图生成64个相同大小的部分,即token序列长度为64,这里还需要加入一个class token,主要用于视频动作分类,class token随机初始化,并随着网络的训练不断更新,所有其他token上的信息做汇聚(全局特征聚合),并且由于它本身不基于图像内容,因此可以避免对某个特定token的偏向性,token使用固定的位置编码能够避免输出受到位置编码的干扰,最终的形成image embedding。
3、时间位置编码。
视频帧按时间顺序播放,考虑到每个token处于视频帧的不同位置,而transformer中attention结构丢失了位置信息,因此在送入transformer网络之前对视频帧进行空间位置编码,位置编码与token embedding相加,spatial position embedding具体计算公式如下:
;
;
其中,为特征编码在视频序列中的实际时间位置,为多个特征编码中第t个
特征编码的位置向量,为位置向量中的第i个元素的值,d为特征编码的维度,
表示第i个元素为第偶数个元素,表示第i个元素为第奇数个元素。
4、时间注意力机制。
引入时间注意力机制,加强动作在时间维度上变化的特征表达,将步骤三的结果作为输入映射到q、k、v中,这里引用多头注意力机制,然后通过Mlp Block 将维度放大再缩小回去,保证输入输出维度保持一致,可以选的,结构中共堆叠6个,最后输出为时间模块TPEM的特征表达。
步骤四:特征融合。
创建CAEM模块进行特征融合,这里并不是进行简单的通道上的堆叠,通过卷积层将SPEM模块与TPEM模块转换成相同形状,然后进行通道拼接 ,为了使空间和时间上的特征更好的融合,提案在通道拼接后新增注意力模块,在通道维度上做自注意力,更好的融合了时间与空间维度的信息。
步骤五: 输出结果。
最后通过卷积层和线性映射输出分类结果。
本申请实施例提供的视频动作识别方法,执行主体可以为视频动作识别装置。本申请实施例中以视频动作识别装置执行视频动作识别方法为例,说明本申请实施例提供的视频动作识别装置。
参见图3,本申请实施例提供了一种视频动作识别装置,包括:
提取模块301,用于从目标视频序列中间隔提取多个第一帧,以及从多个第一帧中提取一个第二帧;
第一特征提取模块302,用于将多个第一帧输入TPEM进行特征提取,得到时序特征;
第二特征提取模块303,用于将第二帧输入SPEM进行特征提取,得到空间特征;
融合模块304,用于将时序特征和空间特征融合,得到融合特征;
确定模块305,用于根据融合特征,确定视频动作;
其中,TPEM中包含具有resnet 网络结构的神经网络模型和具有transformer网络结构的神经网络模型,SPEM中包含具有resnet网络结构的神经网络模型。
可选地,TPEM中包含具有resnet 网络结构的第一卷积神经网络CNN模型和具有transformer 网络结构的第二CNN模型;
第一特征提取模块,具体用于:
将多个第一帧输入第一CNN模型进行特征提取,得到具有多个特征编码的第一特征数据;
通过第一编码处理,对第一特征数据增加类别编码,得到第二特征数据;
通过第二编码处理,对第二特征数据增加位置编码,得到第三特征数据;
将第三特征数据输入第二CNN模型进行特征提取,得到时序特征;
其中,类别编码与视频动作的类别相关联,且类别编码采用随机初始化,位置编码与每个第一帧在目标视频序列中的时间位置相关联。
可选地,第一特征提取模块,具体用于:
通过以下公式计算位置编码:
;
;
其中,为特征编码在视频序列中的实际时间位置,为多个特征编码中第t个
特征编码的位置向量,为位置向量中的第i个元素的值,d为特征编码的维度,
表示第i个元素为第偶数个元素,表示第i个元素为第奇数个元素。
可选地,SPEM中包含具有resnet 网络结构的第三CNN模型;
第二特征提取模块,具体用于:
将第二帧输入第三CNN模型进行特征提取,得到空间特征。
可选地,融合模块,具体用于:
对时序特征和空间特征进行通道拼接,得到融合特征。
可选地,确定模块,具体用于:
根据融合特征和预设对应关系,确定视频动作;
其中,预设对应关系为融合特征与视频动作之间的对应关系。
本申请实施例中的视频动作识别装置可以是电子设备,例如具有操作***的电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,其他设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)等,本申请实施例不作具体限定。
本申请实施例提供的视频动作识别装置能够实现上述的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
参见图4,本发明实施例提供一种电子设备400,包括:至少一个处理器401、存储器402、用户接口403和至少一个网络接口404。电子设备400中的各个组件通过总线***405耦合在一起。
可以理解的是,总线***405用于实现这些组件之间的连接通信。总线***405除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线***405。
其中,用户接口403可以包括显示器、键盘或者点击设备(例如,鼠标, 轨迹球、触感板或者触摸屏等)。
可以理解的是,本发明实施例中的存储器402可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器 (Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器 (Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleData Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本发明实施例描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器402存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作***4021和应用程序4022。
其中,操作***4021,包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序4022,包含各种应用程序,例如媒体播放器、浏览器等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序4022中。
在本发明实施例中,电子设备400还可以包括:存储在存储器402上并可在处理器401上运行的程序,该程序被处理器401执行时实现本发明实施例提供的方法的步骤。
上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器 401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程 存储器、寄存器等本领域成熟的计算机可读存储介质中。该计算机可读存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成上述方法的步骤。具体地,该计算机可读存储介质上存储有计算机程序。
可以理解的是,本发明实施例描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个ASIC、DSP、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable Logic Device,PLD)、FPGA、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述视频动作识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的终端中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。在一些示例中,可读存储介质可以是非瞬态的可读存储介质。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述视频动作识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为***级芯片,***芯片,芯片***或片上***芯片等。
本申请实施例另提供了一种计算机程序/程序产品,所述计算机程序/程序产品被存储在存储介质中,所述计算机程序/程序产品被至少一个处理器执行以实现上述视频动作识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助计算机软件产品加必需的通用硬件平台的方式来实现,当然也可以通过硬件。该计算机软件产品存储在存储介质(如ROM、RAM、磁碟、光盘等)中,包括若干指令,用以使得终端或者网络侧设备执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式的实施方式,这些实施方式均属于本申请的保护之内。
Claims (14)
1.一种视频动作识别方法,其特征在于,包括:
从目标视频序列中间隔提取多个第一帧,以及从所述多个第一帧中提取一个第二帧;
将所述多个第一帧输入时序特征提取模块TPEM进行特征提取,得到时序特征;
将所述第二帧输入空间特征提取模块SPEM进行特征提取,得到空间特征;
将所述时序特征和所述空间特征融合,得到融合特征;
根据所述融合特征,确定视频动作;
其中,所述TPEM中包含具有残差resnet网络结构的神经网络模型和具有变换transformer网络结构的神经网络模型,所述SPEM中包含具有resnet网络结构的神经网络模型。
2. 根据权利要求1所述的方法,其特征在于,所述TPEM中包含具有resnet 网络结构的第一CNN模型和具有transformer 网络结构的第二CNN模型;
所述将所述多个第一帧输入TPEM 进行特征提取,得到时序特征,包括:
将所述多个第一帧输入所述第一CNN模型进行特征提取,得到具有多个特征编码的第一特征数据;
通过第一编码处理,对所述第一特征数据增加类别编码,得到第二特征数据;
通过第二编码处理,对所述第二特征数据增加位置编码,得到第三特征数据;
将所述第三特征数据输入所述第二CNN模型进行特征提取,得到所述时序特征;
其中,所述类别编码与所述视频动作的类别相关联,且所述类别编码采用随机初始化,所述位置编码与每个所述第一帧在所述目标视频序列中的时间位置相关联。
3.根据权利要求2所述的方法,其特征在于,所述通过第二编码处理,对所述第二特征数据增加位置编码,包括:
通过以下公式计算所述位置编码:
;
;
其中,为所述特征编码在视频序列中的实际时间位置,/>为所述多个特征编码中第t个特征编码的位置向量,/>为所述位置向量中的第i个元素的值,d为特征编码的维度,表示第i个元素为第偶数个元素,/>表示第i个元素为第奇数个元素。
4. 根据权利要求1所述的方法,其特征在于,所述SPEM中包含具有resnet 网络结构的第三CNN模型;
将所述第二帧输入空间特征提取模块SPEM 进行特征提取,得到空间特征,包括:
将所述第二帧输入所述第三CNN模型进行特征提取,得到空间特征。
5.根据权利要求1所述的方法,其特征在于,所述将所述时序特征和所述空间特征融合,得到融合特征,包括:
对所述时序特征和所述空间特征进行通道拼接,得到所述融合特征。
6.根据权利要求1所述的方法,其特征在于,所述根据所述融合特征,确定视频动作,包括:
根据所述融合特征和预设对应关系,确定所述视频动作;
其中,所述预设对应关系为所述融合特征与所述视频动作之间的对应关系。
7.一种视频动作识别装置,其特征在于,包括:
提取模块,用于从目标视频序列中间隔提取多个第一帧,以及从所述多个第一帧中提取一个第二帧;
第一特征提取模块,用于将所述多个第一帧输入TPEM进行特征提取,得到时序特征;
第二特征提取模块,用于将所述第二帧输入SPEM进行特征提取,得到空间特征;
融合模块,用于将所述时序特征和所述空间特征融合,得到融合特征;
确定模块,用于根据所述融合特征,确定视频动作;
其中,所述TPEM中包含具有resnet网络结构的神经网络模型和具有transformer网络结构的神经网络模型,所述SPEM中包含具有resnet网络结构的神经网络模型。
8. 根据权利要求7所述的装置,其特征在于,所述TPEM中包含具有resnet 网络结构的第一CNN模型和具有transformer 网络结构的第二CNN模型;
所述第一特征提取模块,具体用于:
将所述多个第一帧输入所述第一CNN模型进行特征提取,得到具有多个特征编码的第一特征数据;
通过第一编码处理,对所述第一特征数据增加类别编码,得到第二特征数据;
通过第二编码处理,对所述第二特征数据增加位置编码,得到第三特征数据;
将所述第三特征数据输入所述第二CNN模型进行特征提取,得到所述时序特征;
其中,所述类别编码与所述视频动作的类别相关联,且所述类别编码采用随机初始化,所述位置编码与每个所述第一帧在所述目标视频序列中的时间位置相关联。
9.根据权利要求8所述的装置,其特征在于,所述第一特征提取模块,具体用于:
通过以下公式计算所述位置编码:
;
;
其中,为所述特征编码在视频序列中的实际时间位置,/>为所述多个特征编码中第t个特征编码的位置向量,/>为所述位置向量中的第i个元素的值,d为特征编码的维度,表示第i个元素为第偶数个元素,/>表示第i个元素为第奇数个元素。
10. 根据权利要求7所述的装置,其特征在于,所述SPEM中包含具有resnet 网络结构的第三CNN模型;
第二特征提取模块,具体用于:
将所述第二帧输入所述第三CNN模型进行特征提取,得到空间特征。
11.根据权利要求7所述的装置,其特征在于,所述融合模块,具体用于:
对所述时序特征和所述空间特征进行通道拼接,得到所述融合特征。
12.根据权利要求7所述的装置,其特征在于,所述确定模块,具体用于:
根据所述融合特征和预设对应关系,确定所述视频动作;
其中,所述预设对应关系为所述融合特征与所述视频动作之间的对应关系。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6任一项所述的视频动作识别方法的步骤。
14.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6任一项所述的视频动作识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311162287.3A CN116895038B (zh) | 2023-09-11 | 2023-09-11 | 视频动作识别方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311162287.3A CN116895038B (zh) | 2023-09-11 | 2023-09-11 | 视频动作识别方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116895038A true CN116895038A (zh) | 2023-10-17 |
CN116895038B CN116895038B (zh) | 2024-01-26 |
Family
ID=88311127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311162287.3A Active CN116895038B (zh) | 2023-09-11 | 2023-09-11 | 视频动作识别方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116895038B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN115019239A (zh) * | 2022-07-04 | 2022-09-06 | 福州大学 | 一种基于时空交叉注意力的实时动作定位方法 |
CN116453025A (zh) * | 2023-05-11 | 2023-07-18 | 南京邮电大学 | 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法 |
CN116580453A (zh) * | 2023-04-26 | 2023-08-11 | 哈尔滨工程大学 | 一种基于空间和时序双通道融合模型的人体行为识别方法 |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与*** |
-
2023
- 2023-09-11 CN CN202311162287.3A patent/CN116895038B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN115019239A (zh) * | 2022-07-04 | 2022-09-06 | 福州大学 | 一种基于时空交叉注意力的实时动作定位方法 |
CN116580453A (zh) * | 2023-04-26 | 2023-08-11 | 哈尔滨工程大学 | 一种基于空间和时序双通道融合模型的人体行为识别方法 |
CN116453025A (zh) * | 2023-05-11 | 2023-07-18 | 南京邮电大学 | 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法 |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与*** |
Non-Patent Citations (2)
Title |
---|
A ARNAB 等: "ViViT: A Video Vision Transformer", 《IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION》, pages 6816 - 6826 * |
EDWARD FISH 等: "Two-Stream Transformer Architecture for Long Form Video Understanding", 《ARXIV》, pages 1 - 14 * |
Also Published As
Publication number | Publication date |
---|---|
CN116895038B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108615036B (zh) | 一种基于卷积注意力网络的自然场景文本识别方法 | |
Guo et al. | Eaten: Entity-aware attention for single shot visual text extraction | |
Wang et al. | Multi-granularity prediction for scene text recognition | |
JP2019008778A (ja) | 画像の領域のキャプション付加 | |
WO2021098689A1 (zh) | 自然场景的文本识别方法、存储装置和计算机设备 | |
JP2010250814A (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
WO2023202197A1 (zh) | 文本识别方法及相关装置 | |
US11562734B2 (en) | Systems and methods for automatic speech recognition based on graphics processing units | |
CN114462356A (zh) | 一种文本纠错方法、装置、电子设备和介质 | |
CN113157941B (zh) | 业务特征数据处理、文本生成方法、装置及电子设备 | |
CN111048065B (zh) | 文本纠错数据生成方法及相关装置 | |
CN116895038B (zh) | 视频动作识别方法、装置、电子设备及可读存储介质 | |
CN110502236B (zh) | 基于多尺度特征解码的前端代码生成方法、***及设备 | |
KR102559849B1 (ko) | 악플 필터 장치 및 방법 | |
CN116484874A (zh) | 视频生成方法、装置、存储介质及计算机设备 | |
CN115496134A (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 | |
CN111325016B (zh) | 一种文本处理方法、***、设备、介质 | |
CN111325068B (zh) | 基于卷积神经网络的视频描述方法及装置 | |
CN114064972A (zh) | 视频类型确定方法及相关装置 | |
CN112699882A (zh) | 图像文字识别方法、装置、电子设备 | |
CN113283241A (zh) | 文本识别方法、装置、电子设备及计算机可读存储介质 | |
US8386922B2 (en) | Information processing apparatus and information processing method | |
Beyer et al. | PaliGemma: A versatile 3B VLM for transfer | |
Xue et al. | PSNet: position-shift alignment network for image caption | |
CN114090928B (zh) | 嵌套html实体解码方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |