CN116665308B - 双人交互时空特征提取方法 - Google Patents

双人交互时空特征提取方法 Download PDF

Info

Publication number
CN116665308B
CN116665308B CN202310741806.5A CN202310741806A CN116665308B CN 116665308 B CN116665308 B CN 116665308B CN 202310741806 A CN202310741806 A CN 202310741806A CN 116665308 B CN116665308 B CN 116665308B
Authority
CN
China
Prior art keywords
time
space
feature
double interaction
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310741806.5A
Other languages
English (en)
Other versions
CN116665308A (zh
Inventor
王正友
张硕
高新月
韩学丛
庄珊娜
王辉
白晶
朱佩祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shijiazhuang Sanpang Technology Co ltd
Shijiazhuang Tiedao University
Original Assignee
Shijiazhuang Sanpang Technology Co ltd
Shijiazhuang Tiedao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijiazhuang Sanpang Technology Co ltd, Shijiazhuang Tiedao University filed Critical Shijiazhuang Sanpang Technology Co ltd
Priority to CN202310741806.5A priority Critical patent/CN116665308B/zh
Publication of CN116665308A publication Critical patent/CN116665308A/zh
Application granted granted Critical
Publication of CN116665308B publication Critical patent/CN116665308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种双人交互时空特征提取方法,涉及机器视觉技术领域。所述方法包括如下步骤:对数据集的骨架数据进行预处理,提取双人交互动作类别,得到动作张量;通过时空图卷积网络提取双人交互时空特征,捕获全局和局部信息;通过基于三分支池化的STCP对特征张量进行特征融合处理,获得细粒度的双人交互时空特征张量;将最终得到的特征张量通过全连接层和Softmax层帮助网络收敛从而输出双人交互动作类别,所述方法具有识别精度高的优点。

Description

双人交互时空特征提取方法
技术领域
本发明涉及机器视觉技术领域,尤其涉及一种基于Transformer和多尺度位置感知的双人交互时空特征提取方法。
背景技术
在以人为焦点的计算机视觉(Computer Vision, CV)研究领域中,人类动作识别(Human Action Recognition, HAR)任务因其在人机交互、智能家居、自动驾驶、虚拟现实等诸多领域中应用广泛,日益成为计算机视觉领域中一个重要的研究课题。目前基于视频的单人行为识别研究相对较多,基于双人的交互行为识别研究仍处于探索阶段。相对于单人的动作,双人交互行为识别不仅要应对光照变化、场景切换、相机视角转换等问题,还要考虑到双人交互过程中两个人之间相对关系的变化、肢体遮挡和时空关系变化等问题。因此双人交互行为识别仍然是计算机视觉领域中一个具有挑战性的问题,如何有效提取特征以及建立合理的动作识别模型一直是国内外相关研究者研究的重点。
传统的动作识别,主要是由特征提取和分类器两部分组成,人们手工设计特征,针对性地对图片进行特征提取。然而随着动作识别的发展,更多的动作数据表现形式从二维的平面图发展到了三维的骨架数据,除了单人动作的分类,更进一步增加了双人动作甚至群体动作的交互识别,动作识别的场景也越来越复杂。随着深度学习的发展,神经网络的模型,特别是深层网络在复杂的动作识别中取得广泛成功。为建立表示双人关系的骨架图,Liu Xing等人提出在一个坐标系中利用相对视图的方法分别表示单人骨架和交互关系骨架。裴晓敏等人提出使用摄像头为坐标中心,分别求单人和双人骨架自身及交互关节点的欧氏距离来表示双人骨架特征。Li Jianan等人提出构造知识给定图、知识学习图和自然连接图通过最少的先验知识来学习交互关系。Zhu L等人提出构建二元关系交互图生成关系邻接矩阵对双人交互建模。Yoshiki Ito等人提出构建体内图和体间图分别输入至多流网络来提取交互关系。但这些方法都没有考虑到长距离关节特征信息和长程依赖对识别精度的影响,以及细微局部关节信息被忽略的问题。
发明内容
本发明所要解决的技术问题是如何提供一种识别精度高的基于Transformer和多尺度位置感知的双人交互时空特征提取方法。
为解决上述技术问题,本发明所采取的技术方案是:一种双人交互时空特征提取方法,包括如下步骤:
S1:对数据集的骨架数据进行预处理,提取双人交互动作类别,得到动作张量;
S2:通过时空图卷积网络提取双人交互时空特征,捕获全局和局部信息;
S3:通过基于三分支池化的STCP对特征张量进行特征融合处理,获得细粒度的双人交互时空特征张量;
S4:将最终得到的特征张量通过全连接层和Softmax层帮助网络收敛从而输出双人交互动作类别。
进一步技术方案在于:构建Transformer与轻量型空间图卷积相结合的双人交互空间特征提取模块,用于提取双人交互空间特征;构建具有较大时间感受域且关注重要关节位置信息的多尺度位置感知时间图卷积模块,用于提取双人交互时间特征。
进一步技术方案在于:利用所述的基于三分支池化的STCP模块对特征张量进行特征融合处理;该模块包含空间、时间、通道三个分支对特征张量进行处理,通过三分支并行的方法和采用级联进行融合特征的方式来得到更准确的特征图。
采用上述技术方案所产生的有益效果在于:所述方法在时空特征提取过程中,实现局部信息和全局信息的结合以及捕获细微重要关节细节,提高了基准模型对双人交互动作进行识别的准确性,并且所提出的模块嵌入性高,能够很方便的嵌入其他网络模型当中。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例所述方法的流程图
图2为本发明实施例所述方法中基于Transformer空间特征提取模块的原理框图;
图3为本发明实施例所述方法中多尺度位置感知时间特征提取模块的原理框图;
图4为本发明实施例所述方法中STCP注意力模块的原理框图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
如图1所示,本发明实施例公开了一种双人交互时空特征提取方法,所述方法包括如下步骤:
S1:对数据集的骨架数据进行预处理,提取双人交互动作类别,从而得到动作张量;
S2:通过时空图卷积网络提取双人交互时空特征,捕获全局和局部信息;
其中,所述通过时空图卷积网络提取双人交互时空特征,包括基于Transformer空间图卷积提取双人交互空间特征和基于多尺度位置感知时间图卷积提取双人交互时间特征,实现时空特征的深层提取,保证局部信息与全局信息都被捕获到。
如图2所示,本发明实施例还公开了一种基于Transformer空间图卷积模块,其用于提取骨骼关节点的空间特征。首先对输入骨架图进行1× 1卷积,引入更多的非线性因素,利用轻量型空间图卷积对输入向量进行初步双人交互空间特征提取,然后经过批处理层Batch Normalization对特征向量进行规范化。该过程定义为:
(1)
(2)
式中用来对邻接矩阵/>进行规范化,/>和/>表示输入输出特征,/>表示图形距离度量函数,最大到2,/>表示批处理归一化层;
紧接着进入到Transformer的编码器TransformerEncoder,该编码器层数定义为2,其中该模块由多头注意力机制、前馈神经网络、归一化层以及残差连接组成,编码器部分最核心的就是多头注意力模块,可以将单个子注意力机制拆分为多个子空间,并在每个子空间上执行子注意力机制,从而更好地捕捉不同层次和不同角度地特征,还可以对空间特征进行全局建模,自适应地为特征图分配不同权重;前馈神经网络子层由两个线性变换和一个激活函数组成,其中第一个线性变换将输入向量转换为一个中间表示向量,第二个线性变换将中间表示向量转换为最终表示向量;而残差连接和归一化层用于加速模型地收敛和提高模型地表达能力,残差连接可以使模型更容易训练,避免了梯度消失和梯度***,归一化层可以加速模型地收敛,同时提高模型地鲁棒性和泛化能力。除此之外,对整个模块采用一个附加的残差连接防止模型过拟合减少网络参数量,降低时间复杂度。该过程定义为:
(3)
(4)
(5)
(6)
其中:为输入信息,/>为内容信息,/>为信息本身,/>是将注意力矩阵转化成标准状态分布,/>是实现归一化。/>将每一层神经元的输入转成均值方差,表示输入向量,/>表示输入向量/>表示经过编码器输出的最终特征,
如图3所示,本发明实施例还公开了一个基于多尺度位置感知图卷积模块用于提取骨骼关节点的时间特征。首先对提取的空间特征图进行4个并行的时间卷积分支,每个分支都以1×1的卷积开始;然后经过批处理层和ReLU激活函数对特征图进行归一化处理;前两个分支紧接着利用2个3×1的时间卷积并应用2个不同的dilation来融合不同通道之间的特征以此获得多尺度的时间感受域;而第三个分支通过3×1的最大池化层来提取连续帧中最显著的特征信息;最后一个分支包含一个残差连接,以在反向传播期间保持梯度;四个分支通过乘积操作进行多尺度特征融合;在多尺度卷积的外层也添加了残差连接帮助网络快速收敛,通过加权求和操作与多尺度特征进行结合;将多尺度时间特征作为输入,使用两个空间维度的池化卷积核或者/>,分别沿着水平坐标和垂直坐标对每个通道进行编码,生成一对具有方向感知能力的特征图。该过程定义为:
(7)
(8)
式中,和/>代表第/>个通道中高度为/>以及宽度为/>的输出,/>表示第/>通道的特征张量。
将生成的融合特征图进行连接并发送到一个共享的1×1卷积转换函数当中。该过程定义为:
(9)
式中表示沿空间维度进行串联,/>表示非线性激活函数,/>表示在水平方向和垂直方向上编码空间信息的中间特征图。
然后沿着空间维度将分成两个独立张量/>和/>,经过两个1×1卷积变换/>和/>变换为具有相同通道数的输入张量/>。该过程定义为:
(10)
(11)
式中,代表sigmoid激活函数。
将输出的和/>用作注意力权重,最后将坐标注意块/>进行输出。该过程定义为:
(12)
S3:通过基于三分支池化的STCP模块对特征张量进行特征融合处理,旨在从整个时间帧序列中区分特定框架中信息最丰富的关节,获得细粒度的双人交互时空特征张量。首先将输入特征分别在帧级和关节级上进行平均池化操作,对时间维度池化后的特征向量进行局部平均池化和局部分割得到对应双人交互动作不同重要性的关节点数据。该过程定义为:
(13)
(14)
(15)
式中表示的是相应维度的池化操作。
然后将时空维度特征向量作为输入经过通道维度的池化,紧接着将三分支特征向量进行合并并连接在一起,并通过全连接层来压缩信息。该过程定义为:
(16)
(17)
式中表示点乘,/>表示连接操作,/>表示HardSwish激活函数,/>表示可训练参数;
接下来利用三个独立的全连接层来获得时间帧维度、关节维度以及通道维度的注意力分数,最后将三者相乘得到时空通道局部注意力图作为整个动作序列的注意力分数。
(18)
式中表示sigmoid激活函数,/>表示Swish激活函数。
S4:将最终得到的特征张量通过全连接层和Softmax层帮助网络收敛从而输出双人交互动作类别。
本发明为了更有效的提取双人交互空间特征,将Transformer加入主干网络当中,在空间图卷积进行初步特征提取后,通过TransformerEncoder特征提取器对空间特征向量进行再次提取,捕捉丢失重要关节信息,从而使主干网络中空间图卷积部分能够充分保留细节信息,并且在内部添加了残差连接,大大减少了模型训练时间。因此模型在空间特征提取部分性能要优于其他网络。
所述方法为了增大时间维度的感受域以及解决长时间依赖问题,引入了多尺度卷积来获取多尺度信息,同时为了增强网络模型对信息通道的敏感性,提高位置感知能力,加入了位置感知注意力模块,在时间特征提取阶段,本发明将多尺度卷积与位置感知注意力模块结合形成多尺度位置感知时间图卷积,实现局部信息和全局信息的结合,提高了模型在时间特征上的提取能力,因此模型在时间特征提取能力要优于其他时间特征提取方法。
所述方法构建基于Transformer和多尺度位置感知的双人交互时空特征提取方法后,考虑到不同身体部位在整个动作序列中的重要性以及时间帧、通道对于加权骨骼关节在不同作用阶段的重要性,设计了STCP模块,该模块分为时间维度、空间维度以及通道维度三分支结构,分别在空间和时间上进行池化操作,在时间维度中,通过局部分割和局部池化得到对应双人交互动作不同重要性的关节点数据;然后将两者进行通过维度池化操作;得到的特征向量进行连接并经过三个全连接层获得空间局部关节、时间和通道上的注意力分数;最后将三者相乘得到时空通道局部注意力图。
综上,所述方法在时空特征提取过程中,实现局部信息和全局信息的结合以及捕获细微重要关节细节,提高了基准模型对双人交互动作进行识别的准确性,并且所提出的模块嵌入性高,能够很方便的嵌入其他网络模型当中。

Claims (1)

1.一种双人交互时空特征提取方法,其特征在于包括如下步骤:
S1:对数据集的骨架数据进行预处理,提取双人交互动作类别,得到动作张量;
S2:通过时空图卷积网络提取双人交互时空特征,捕获全局和局部信息;
S3:通过基于三分支池化的STCP对特征张量进行特征融合处理,获得细粒度的双人交互时空特征张量;
S4:将最终得到的特征张量通过全连接层和Softmax层帮助网络收敛从而输出双人交互动作类别;
所述通过时空图卷积网络提取双人交互时空特征包括:
基于Transformer空间图卷积提取双人交互空间特征和基于多尺度位置感知时间图卷积提取双人交互时间特征,实现时空特征的深层提取,保证局部信息与全局信息都被捕获到;
提取双人交互空间特征的方法包括如下步骤:
首先对输入骨架图进行1×1卷积,引入更多的非线性因素,利用轻量型空间图卷积对输入向量进行初步双人交互空间特征提取,然后经过批处理层Batch Normalization对特征向量进行规范化,该过程定义为:
Fout=BN(fout) (2)
式中Λd用来对邻接矩阵Αd进行规范化,fin和fout表示输入输出特征,d表示图形距离度量函数,最大到2,BN表示批处理归一化层;
紧接着进入到Transformer的编码器TransformerEncoder,该编码器层数定义为2,其中该编码器包括多头注意力机制、前馈神经网络、归一化层以及残差;
对整个编码器采用一个附加的残差连接防止模型过拟合减少网络参数量,降低时间复杂度,该过程定义为:
XAdd=LayerNorm(X+MultiHeadAttention(X)) (4)
FFN(Z)=max(0,ZW1+b1)W2+b2 (5)
Y=add(fin,ftran) (6)
其中:Q为输入信息,K为内容信息,V为信息本身,是将注意力矩阵转化成标准状态分布,softmax是实现归一化;LayerNorm将每一层神经元的输入转成均值方差,Z表示输入向量,fin表示输入向量ftran表示经过编码器输出的双人交互时空特征;
双人交互时间特征的提取方法包括如下步骤:
首先对提取的空间特征图进行4个并行的时间卷积分支,每个分支都以1×1的卷积开始;然后经过批处理层和ReLU激活函数对特征图进行归一化处理;前两个分支紧接着利用2个3×1的时间卷积并应用2个不同的dilation来融合不同通道之间的特征以此获得多尺度的时间感受域;而第三个分支通过3×1的最大池化层来提取连续帧中最显著的特征信息;最后一个分支包含一个残差连接,以在反向传播期间保持梯度;四个分支通过乘积操作进行多尺度特征融合;在多尺度卷积的外层也添加了残差连接帮助网络快速收敛,通过加权求和操作与多尺度特征进行结合;将多尺度时间特征作为输入,使用两个空间维度的池化卷积核(H,1)或者(1,W),分别沿着水平坐标和垂直坐标对每个通道进行编码,生成一对具有方向感知能力的特征图,该过程定义为:
式中,和/>代表第c个通道中高度为h以及宽度为w的输出,xc表示第c通道的特征张量;
将生成的融合特征图进行连接并发送到一个共享的1×1卷积转换函数F1当中,该过程定义为:
式中[·,·]表示沿空间维度进行串联,δ表示非线性激活函数,表示在水平方向和垂直方向上编码空间信息的中间特征图;
然后沿着空间维度将f分成两个独立张量和/>经过两个1×1卷积变换Fh和Fw变换为具有相同通道数的输入张量X,该过程定义为:
gh=σ(Fh(fh)) (10)
gw=σ(Fw(fw)) (11)
式中,σ代表sigmoid激活函数;
将输出的gh和gw用作注意力权重,最后将坐标注意块Y进行输出,该过程定义为:
所述步骤S3中:
首先将输入特征分别在帧级和关节级上进行平均池化操作,对时间维度池化后的特征向量进行局部平均池化和局部分割得到对应双人交互动作不同重要性的关节点数据,该过程定义为:
ft=poolt(fin) (13)
fv=poolv(fin) (14)
fp=poolp(ft) (15)
式中pool表示的是相应维度的池化操作;
然后将时空维度特征向量作为输入经过通道维度的池化,紧接着将三分支特征向量进行合并并连接在一起,并通过全连接层来压缩信息;该过程定义为:
fc=poolp(ft)⊙poolv(fin) (16)
式中⊙表示点乘,表示连接操作,θ表示HardSwish激活函数,W表示可训练参数;
利用三个独立的全连接层来获得时间帧维度、关节维度以及通道维度的注意力分数,最后将三者相乘得到时空通道局部注意力图作为整个动作序列的注意力分数;
式中σ表示sigmoid激活函数,φ表示Swish激活函数。
CN202310741806.5A 2023-06-21 2023-06-21 双人交互时空特征提取方法 Active CN116665308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310741806.5A CN116665308B (zh) 2023-06-21 2023-06-21 双人交互时空特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310741806.5A CN116665308B (zh) 2023-06-21 2023-06-21 双人交互时空特征提取方法

Publications (2)

Publication Number Publication Date
CN116665308A CN116665308A (zh) 2023-08-29
CN116665308B true CN116665308B (zh) 2024-01-23

Family

ID=87727903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310741806.5A Active CN116665308B (zh) 2023-06-21 2023-06-21 双人交互时空特征提取方法

Country Status (1)

Country Link
CN (1) CN116665308B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104011723A (zh) * 2011-12-15 2014-08-27 美光科技公司 状态机晶格中的布尔逻辑
CN111680606A (zh) * 2020-06-03 2020-09-18 淮河水利委员会水文局(信息中心) 基于人工智能云识别水尺的低功耗水位遥测***
CN111950540A (zh) * 2020-07-24 2020-11-17 浙江师范大学 一种基于深度学习的知识点提取方法、***、装置及介质
CN112560712A (zh) * 2020-12-18 2021-03-26 西安电子科技大学 基于时间增强图卷积网络的行为识别方法、装置及介质
CN112906545A (zh) * 2021-02-07 2021-06-04 广东省科学院智能制造研究所 一种针对多人场景的实时动作识别方法及***
CN113657349A (zh) * 2021-09-01 2021-11-16 重庆邮电大学 一种基于多尺度时空图卷积神经网络的人体行为识别方法
CN114694174A (zh) * 2022-03-02 2022-07-01 北京邮电大学 一种基于时空图卷积的人体交互行为识别方法
CN114882421A (zh) * 2022-06-01 2022-08-09 江南大学 一种基于时空特征增强图卷积网络的骨架行为识别方法
WO2023024438A1 (zh) * 2021-08-24 2023-03-02 上海商汤智能科技有限公司 一种行为识别方法及装置、电子设备和存储介质
CN115841697A (zh) * 2022-09-19 2023-03-24 上海大学 一种基于骨架和图像数据融合的动作识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104011723A (zh) * 2011-12-15 2014-08-27 美光科技公司 状态机晶格中的布尔逻辑
CN111680606A (zh) * 2020-06-03 2020-09-18 淮河水利委员会水文局(信息中心) 基于人工智能云识别水尺的低功耗水位遥测***
CN111950540A (zh) * 2020-07-24 2020-11-17 浙江师范大学 一种基于深度学习的知识点提取方法、***、装置及介质
CN112560712A (zh) * 2020-12-18 2021-03-26 西安电子科技大学 基于时间增强图卷积网络的行为识别方法、装置及介质
CN112906545A (zh) * 2021-02-07 2021-06-04 广东省科学院智能制造研究所 一种针对多人场景的实时动作识别方法及***
WO2023024438A1 (zh) * 2021-08-24 2023-03-02 上海商汤智能科技有限公司 一种行为识别方法及装置、电子设备和存储介质
CN113657349A (zh) * 2021-09-01 2021-11-16 重庆邮电大学 一种基于多尺度时空图卷积神经网络的人体行为识别方法
CN114694174A (zh) * 2022-03-02 2022-07-01 北京邮电大学 一种基于时空图卷积的人体交互行为识别方法
CN114882421A (zh) * 2022-06-01 2022-08-09 江南大学 一种基于时空特征增强图卷积网络的骨架行为识别方法
CN115841697A (zh) * 2022-09-19 2023-03-24 上海大学 一种基于骨架和图像数据融合的动作识别方法

Also Published As

Publication number Publication date
CN116665308A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN108520535B (zh) 基于深度恢复信息的物体分类方法
Liu et al. Two-stream 3d convolutional neural network for skeleton-based action recognition
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及***
CN108154194B (zh) 一种用基于张量的卷积网络提取高维特征的方法
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN110414432A (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN114596520A (zh) 一种第一视角视频动作识别方法及装置
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN111695523B (zh) 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及***
CN113221663A (zh) 一种实时手语智能识别方法、装置及***
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN115841697A (zh) 一种基于骨架和图像数据融合的动作识别方法
CN114333002A (zh) 基于图深度学习和人脸三维重建的微表情识别方法
Sun et al. 3-D facial feature reconstruction and learning network for facial expression recognition in the wild
CN115719510A (zh) 基于多模态融合及隐式交互关系学习的群组行为识别方法
CN114973418A (zh) 一种跨模态三维点云序列时空特征网络的行为识别方法
CN114694174A (zh) 一种基于时空图卷积的人体交互行为识别方法
Hsieh et al. Online human action recognition using deep learning for indoor smart mobile robots
CN113850182A (zh) 基于DAMR_3DNet的动作识别方法
Özbay et al. 3D Human Activity Classification with 3D Zernike Moment Based Convolutional, LSTM-Deep Neural Networks.
CN111767842B (zh) 基于迁移学习和自编码器数据增强的微表情种类判别方法
CN117333908A (zh) 基于姿态特征对齐的跨模态行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant