CN110321761A - 一种行为识别方法、终端设备及计算机可读存储介质 - Google Patents

一种行为识别方法、终端设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110321761A
CN110321761A CN201810272399.7A CN201810272399A CN110321761A CN 110321761 A CN110321761 A CN 110321761A CN 201810272399 A CN201810272399 A CN 201810272399A CN 110321761 A CN110321761 A CN 110321761A
Authority
CN
China
Prior art keywords
network
sub
layer
base net
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810272399.7A
Other languages
English (en)
Other versions
CN110321761B (zh
Inventor
徐洋洋
王磊
程俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201810272399.7A priority Critical patent/CN110321761B/zh
Publication of CN110321761A publication Critical patent/CN110321761A/zh
Application granted granted Critical
Publication of CN110321761B publication Critical patent/CN110321761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请适用于神经网络技术领域,提供了一种行为识别方法、终端设备及计算机可读存储介质,所述方法包括:构建包括至少两个子网络的识别模型,并对所述识别模型中的每个子网络分别进行训练,在训练结束后,通过每个子网络识别待识别的视频序列,获得与每个子网络对应的初始识别结果,将每个子网络对应的初始识别结果融合后获得行为识别结果,通过本申请可以提高行为识别方法的鲁棒性。

Description

一种行为识别方法、终端设备及计算机可读存储介质
技术领域
本申请属于神经网络技术领域,尤其涉及一种行为识别方法、终端设备及计算机可读存储介质。
背景技术
行为识别作为一个重要的研究领域,已经广泛应用于视频监控,人机交互,机器人学等方面。并且,随着低成本深度传感器的发展,也能够精确记录骨架关节的三维坐标点,这就为行为识别的发展提供了有利的帮助。
目前,基于3D视频序列的行为识别,主要采用基于递归神经网络的算法和基于2维卷积神经网络的算法。然而,这两种方法均无法从时间维度和空间维度同时精确的提取到特征。因此,目前的行为识别方法存在鲁棒性差的问题。
发明内容
有鉴于此,本申请实施例提供了一种行为识别方法、终端设备及计算机可读存储介质,以解决目前的行为识别方法存在鲁棒性差的问题。
本申请实施例的第一方面提供了一种行为识别方法,包括:
构建包括至少两个子网络的识别模型,并对所述识别模型中的每个子网络分别进行训练;
在训练结束后,通过每个子网络识别待识别的视频序列,获得与每个子网络对应的初始识别结果;
将每个子网络对应的初始识别结果融合后获得行为识别结果。
本申请实施例的第二方面提供了一种终端设备,包括:
构建训练模块,用于构建包括至少两个子网络的识别模型,并对所述识别模型中的每个子网络分别进行训练;
初始识别结果获得模块,用于在训练结束后,通过每个子网络识别待识别的视频序列,获得与每个子网络对应的初始识别结果;
行为识别结果获得模块,将每个子网络对应的初始识别结果融合后获得行为识别结果。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例第一方面提供的所述方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现本申请实施例第一方面提供的所述方法的步骤。
本申请实施例的第五方面提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被一个或多个处理器执行时实现本申请实施例第一方面提供的所述方法的步骤。
本申请实施例构建包括至少两个子网络的识别模型,并对所述识别模型中的每个子网络分别进行训练,在训练结束后,通过每个子网络识别待识别的视频序列,获得与每个子网络对应的初始识别结果,将每个子网络对应的初始识别结果融合后获得行为识别结果,由于通过不同子网络可以提取到每个子网络对应的行为特征,且最后将各个子网络的测试结果进行融合,能够提高行为识别方法的鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种行为识别方法的实现流程示意图;
图2是本申请一实施例提供的一种基网络的结构示意图;
图3是本申请一实施例提供的一种双流网络的结构示意图;
图4是本申请一实施例提供的一种肢体分离网络的结构示意图;
图5是本申请一实施例提供的一种注意力网络的结构示意图;
图6是本申请一实施例提供的终端设备的示意框图;
图7是本申请又一实施例提供的终端设备的示意框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
图1是本申请一实施例提供的行为识别方法的实现流程示意图,如图所示该方法可以包括以下步骤:
步骤S101,构建包括至少两个子网络的识别模型,并对所述识别模型中的每个子网络分别进行训练。
在本申请实施例中,用于行为识别的模型可以包括4个子网络,也可以包括比4个子网络更多的子网络,当然,还可以仅包括其中的一个或多个子网络。所述子网络包括:双流网络、肢体分离网络、注意力网络、帧差网络。所述双流网络、肢体分离网络、注意力网络、帧差网络都是由基网络组成的。
如图2所示,所述基网络包括:
依次连接的一维卷积层、至少两个基本块、均值池化层和全连接层;
相邻的两个基本块之间通过残差连接,所述残差通过以下公式表示:
xi+1=Flayer(xi)+xi
其中,xi是第i个基本块的输入,xi+1是第i个基本块的输出,xi+1也是第i+1 个基本块的输入。
在图2中,包括了三个基本块:Block1、Block2、Block3,Block1前面是一维卷积层、Block3后面的Avg pool是均值池化层、均值池化层后面的Fc是全连接层。
所述基本块包括:
至少两个卷积层,卷积层之间设置了批次归一化层、非线性激活函数和 dropout层,所述批次归一化层、非线性激活函数和dropout层通过以下公式表示:
Flayer(x)=Dropout(ReLU(BN(f(x*w))))
其中,w表示卷积核的权重,所述x表示卷积层的输入,所述f(x*w)表示上一个卷积层的输出,也表示批次归一化层的输入,所述BN(f(x*w))表示批次归一化层的输出,也表示非线性激活函数的输入;所述ReLU(BN(f(x*w)))表示非线性激活函数的输出,也表示dropout层的输入,Flayer(x)表示dropout层的输出,也表示下一个卷积层的输入,*表示卷积运算。
如图2所示,图中右侧部分是本申请实施例提供的一种基本块的结构,其中conv1D,表示卷积层,所述batch normalization表示批次归一化层,也可用 BN表示,ReLU表示非线性激活函数,最后是个dropout层,所述卷积层、批次归一化层、非线性激活函数、dropout层依次连接。
所述双流网络包括:
空间流上的基网络与该基网络对应的softmax层,时间流上的基网络与该基网络对应的softmax层。
在本申请实施例中,待识别的对象是视频序列,视频序列中的每一张图像中都具人体骨架的三维坐标,这样,就会出现两个维度:时间维度和空间维度。时间维度记录了人体的运动信息,同时空间维度记录了人体重要关节的交互信息。
如图3所示,是本申请一个实施例提供的双流网络,如图中所示的joints 表示关节点,time表示时间序列,其中spatial stream表示空间流,temporal stream 表示时间流,score fusion表示分数融合。
所述肢体分离网络包括:
五个基网络以及与所述五个基网络中每个基网络对应的softmax层,所述五个基网络分别对应人体的五个部分:躯干、左臂、右臂、左腿、右腿。
如图4所示,是本申请一实施例提供的肢体分离网络,j1到j20表示了标记的人体中的20个关节点的三维坐标,T表示视频序列中共有T个图像。
实际应用中,人们一些行为仅与部分肢体相关,以挥手为例,只有胳膊参与到了运动中,其他的部分都是静止的。所以可以将人体分为五个部分,实际应用中也可以进行其他的划分方式。肢体分离网络可以捕获到细微的肢体运动信息,同时还可以学习到对行为类别贡献度大的肢体,从这个角度来讲,可以看作是基于肢体的注意力机制。在此网络中,卷积核只在时间维度上滑动。
所述注意力网络包括:
融合了注意力机制的基网络,所述注意力机制包括:两个全连接层、softmax 层。
如图5所示,是本申请一实施例提供的注意力网络,一个包含行为的视频可以看作时间连续帧的集合,但并不是所有的帧有着相同的重要性,有的帧甚至会对类别造成误导信息,同时,网络中特征的不同通道对行为类别的贡献值也不同,因此我们需要设计一个注意力机制来学习重要的帧和特征通道。在图 5中可以看出,注意力机制设置在基网络的卷积层或基网络的基本块(layer或 Block)的后面,以设置在基本块的后面为例,基本块的输入可以通过基本块进行传输获得相应的特征值,同时基本块的输入还可以通过第一个全连接层(FC layer1)、激活函数(activation)、第二个全连接层(FC layer2)以及softmax 层进行传输获得归一化权重,归一化权重用于指出哪些帧或哪些特征通道比较重要,类似于数学公式中的权重,这样就可以获得两类传输结果(特征以及每个特征对应的权重),将获得两类传输结果通过相乘再相加的方式(将每一个特征乘以该特征对应的权重后再进行累加)计算获得下一层的输入。
所述帧差网络包括:
基网络以及与该基网络对应的softmax层。对于不同类别的行为来讲,最具有可区分性的特征就是运动信息了,但原始的骨架序列并不能直接表示运动信息。
步骤S102,在训练结束后,通过每个子网络识别待识别的视频序列,获得与每个子网络对应的初始识别结果。
在本申请实施例中,识别模型中的各个子网络是独立进行训练的,基于所述双流网络、肢体分离网络、注意力网络和帧差网络,训练时采用的损失函数均为交叉熵损失函数:
其中,yi表示真实类别标签,代表预测标签,n表示类别数目。
以下针对每个子网络进行训练过程中的说明。
基于所述双流网络,空间流上的卷积核在空间维度滑动,在与所述空间流上的基网络对应的softmax层获得空间流上的得分,时间流上的卷积核在时间维度上滑动,在与所述时间流上的基网络对应的softmax层获得时间流上的得分,将所述空间流上的得分和所述时间流上的得分相乘,以进行端到端的训练;
基于所述肢体分离网络,将人体的五部分特征分别送入对应的五个基网络,获得所述五个基网络分别对应的得分,将五个基网络分别对应的得分相乘,以进行训练;
基于所述注意力网络,所述注意力机制设置在卷积层或基本块的后面,所述注意力机制为:
yc1=Activation(W1xic+b1)
yc2=W2yc1+b2
xoc=F(xic)
其中,所述c表示注意力机制输入的第c个通道,xic表示所述注意力机制上一层的输出,所述W1表示第一个全连接层的权重,所述b1表示第一个全连接层的偏置,yc1表示第一个全连接层的输出,也表示第二个全连接层的输入,所述W2表示第二个全连接层的权重,所述b2表示第二个全连接层的偏置,yc2表示第二个全连接层的输出,也是softmax层的输入,Wα表示学习到的注意力权重,所述αc表示softmax层获得的归一化权重,xoc表示所述注意力机制上一层的输出,O表示所述注意力机制下一层的输入;
基于所述帧差网络,卷积核在时序上滑动,所述帧差网络的输入为:
Sm={M2,M3,…Mt,…MN},
其中,所述Sm表示所述帧差网络的输入,所述Mt=Ft-Ft-1,所述Ft={J1,J2, Ji,…Jt},所述Ji=(xi,yi,zi),N表示共有N帧视频序列;
也可以理解为,一个三维的关节点坐标J=(x,y,z),t帧处可表示Ft={J1,J2,Ji,…JN},同时,一个有N帧的视频可以表示为S={F1,F2,…Ft,…FN}。骨架的运动信息由如下公式计算:Mt=Ft-Ft-1,这样一条视频的运动信息可表示为:Sm= {M2,M3,…Mt,…MN}。
步骤S103,将每个子网络对应的初始识别结果融合后获得行为识别结果。
在本申请实施例中,可以通过以下方式进行融合,
通过公式将每个子网络对应的初始识别结果融合获得行为识别结果,
其中,所述ytest表示行为识别结果,所述yi表示第i个子网络,n表示所述识别模型共包括n个子网络。
所述表示相乘融合,将每个子网络获得的初始识别结果相乘,所述表示相加融合,将每个子网络获得的初始识别结果相加。
本申请实施例构建包括至少两个子网络的识别模型,并对所述识别模型中的每个子网络分别进行训练,在训练结束后,通过每个子网络识别待识别的视频序列,获得与每个子网络对应的初始识别结果,将每个子网络对应的初始识别结果融合后获得行为识别结果,由于通过不同子网络可以提取到每个子网络对应的行为特征,且最后将各个子网络的测试结果进行融合,能够提高行为识别方法的鲁棒性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图6是本申请一实施例提供的终端设备的示意框图,为了便于说明,仅示出与本申请实施例相关的部分。
该终端设备6可以是内置于现有的例如手机、笔记本、计算机等终端设备内的软件单元、硬件单元或者软硬结合的单元,也可以作为独立的挂件集成到所述现有的例如手机、笔记本、计算机等终端设备中,还可以作为独立的终端设备存在。
所述终端设备6包括:
构建训练模块61,用于构建包括至少两个子网络的识别模型,并对所述识别模型中的每个子网络分别进行训练;
初始识别结果获得模块62,用于在训练结束后,通过每个子网络识别待识别的视频序列,获得与每个子网络对应的初始识别结果;
行为识别结果获得模块63,将每个子网络对应的初始识别结果融合后获得行为识别结果。
可选的,所述子网络包括:双流网络、肢体分离网络、注意力网络、帧差网络。
可选的,所述双流网络包括:
空间流上的基网络与该基网络对应的softmax层,时间流上的基网络与该基网络对应的softmax层;
所述肢体分离网络包括:
五个基网络以及与所述五个基网络中每个基网络对应的softmax层,所述五个基网络分别对应人体的五个部分:躯干、左臂、右臂、左腿、右腿;
所述注意力网络包括:
融合了注意力机制的基网络,所述注意力机制包括:两个全连接层、softmax 层;
所述帧差网络包括:
基网络以及与该基网络对应的softmax层。
可选的,所述基网络包括:
依次连接的一维卷积层、至少两个基本块、均值池化层和全连接层;
相邻的两个基本块之间通过残差连接,所述残差通过以下公式表示:
xi+1=Flayer(xi)+xi
其中,xi是第i个基本块的输入,xi+1是第i个基本块的输出,xi+1也是第i+1 个基本块的输入。
可选的,所述基本块包括:
至少两个卷积层,卷积层之间设置了批次归一化层、非线性激活函数和 dropout层,所述批次归一化层、非线性激活函数和dropout层通过以下公式表示:
Flayer(x)=Dropout(ReLU(BN(f(x*w))))
其中,w表示卷积核的权重,所述x表示卷积层的输入,所述f(x*w)表示上一个卷积层的输出,也表示批次归一化层的输入,所述BN(f(x*w))表示批次归一化层的输出,也表示非线性激活函数的输入;所述ReLU(BN(f(x*w)))表示非线性激活函数的输出,也表示dropout层的输入,Flayer(x)表示dropout层的输出,也表示下一个卷积层的输入。
可选的,所述构建训练模块61包括:
双流网络训练单元,用于基于所述双流网络,空间流上的卷积核在空间维度滑动,在与所述空间流上的基网络对应的softmax层获得空间流上的得分,时间流上的卷积核在时间维度上滑动,在与所述时间流上的基网络对应的 softmax层获得时间流上的得分,将所述空间流上的得分和所述时间流上的得分相乘,以进行端到端的训练;
肢体分离网络训练单元,用于基于所述肢体分离网络,将人体的五部分特征分别送入对应的五个基网络,获得所述五个基网络分别对应的得分,将五个基网络分别对应的得分相乘,以进行训练;
注意力网络训练单元,用于基于所述注意力网络,所述注意力机制设置在卷积层或基本块的后面,所述注意力机制为:
yc1=Activation(W1xic+b1)
yc2=W2yc1+b2
xoc=F(xic)
其中,所述c表示注意力机制输入的第c个通道,xic表示所述注意力机制上一层的输出,所述W1表示第一个全连接层的权重,所述b1表示第一个全连接层的偏置,yc1表示第一个全连接层的输出,也表示第二个全连接层的输入,所述W2表示第二个全连接层的权重,所述b2表示第二个全连接层的偏置,yc2表示第二个全连接层的输出,也是softmax层的输入,Wα表示学习到的注意力权重,所述αc表示softmax层获得的归一化权重,xoc表示所述注意力机制上一层的输出,O表示所述注意力机制下一层的输入;
帧差网络训练单元,用于基于所述帧差网络,卷积核在时序上滑动,所述帧差网络的输入为:
Sm={M2,M3,…Mt,…MN},
其中,所述Sm表示所述帧差网络的输入,所述Mt=Ft-Ft-1,所述Ft={J1,J2, Ji,…Jt},所述Ji=(xi,yi,zi),N表示共有N帧视频序列;
基于所述双流网络、肢体分离网络、注意力网络和帧差网络,训练时采用的损失函数均为交叉熵损失函数:
其中,yi表示真实类别标签,代表预测标签,n表示类别数目。
可选的,所述行为识别结果获得模块63还用于:
通过公式将每个子网络对应的初始识别结果融合获得行为识别结果,
其中,所述ytest表示行为识别结果,所述yi表示第i个子网络,n表示所述识别模型共包括n个子网络。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述终端设备的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图7是本申请又一实施例提供的终端设备的示意框图。如图7所示,该实施例的终端设备7包括:一个或多个处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72。所述处理器70执行所述计算机程序72时实现上述各个行为识别方法实施例中的步骤,例如图1 所示的步骤S101至S103。或者,所述处理器70执行所述计算机程序72时实现上述终端设备实施例中各模块/单元的功能,例如图6所示模块61至63的功能。
示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如,所述计算机程序72可以被分割成构建训练模块、初始识别结果获得模块、行为识别结果获得模块。
所述构建训练模块,用于构建包括至少两个子网络的识别模型,并对所述识别模型中的每个子网络分别进行训练;
所述初始识别结果获得模块,用于在训练结束后,通过每个子网络识别待识别的视频序列,获得与每个子网络对应的初始识别结果;
所述行为识别结果获得模块,将每个子网络对应的初始识别结果融合后获得行为识别结果。
其它模块或者单元可参照图6所示的实施例中的描述,在此不再赘述。
所述终端设备包括但不仅限于处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的一个示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入设备、输出设备、网络接入设备、总线等。
所述处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7 的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种行为识别方法,其特征在于,包括:
构建包括至少两个子网络的识别模型,并对所述识别模型中的每个子网络分别进行训练;
在训练结束后,通过每个子网络识别待识别的视频序列,获得与每个子网络对应的初始识别结果;
将每个子网络对应的初始识别结果融合后获得行为识别结果。
2.如权利要求1所述的行为识别方法,其特征在于,所述子网络包括:双流网络、肢体分离网络、注意力网络、帧差网络。
3.如权利要求2所述的行为识别方法,其特征在于,所述双流网络包括:
空间流上的基网络与该基网络对应的softmax层,时间流上的基网络与该基网络对应的softmax层;
所述肢体分离网络包括:
五个基网络以及与所述五个基网络中每个基网络对应的softmax层,所述五个基网络分别对应人体的五个部分:躯干、左臂、右臂、左腿、右腿;
所述注意力网络包括:
融合了注意力机制的基网络,所述注意力机制包括:两个全连接层、softmax层;
所述帧差网络包括:
基网络以及与该基网络对应的softmax层。
4.如权利要求3所述的行为识别方法,其特征在于,所述基网络包括:
依次连接的一维卷积层、至少两个基本块、均值池化层和全连接层;
相邻的两个基本块之间通过残差连接,所述残差通过以下公式表示:
xi+1=Flayer(xi)+xi
其中,xi是第i个基本块的输入,xi+1是第i个基本块的输出,xi+1也是第i+1个基本块的输入。
5.如权利要求4所述的行为识别方法,其特征在于,所述基本块包括:
至少两个卷积层,卷积层之间设置了批次归一化层、非线性激活函数和dropout层,所述批次归一化层、非线性激活函数和dropout层通过以下公式表示:
Flayer(x)=Dropout(ReLU(BN(f(x*w))))
其中,w表示卷积核的权重,所述x表示卷积层的输入,所述f(x*w)表示上一个卷积层的输出,也表示批次归一化层的输入,所述BN(f(x*w))表示批次归一化层的输出,也表示非线性激活函数的输入;所述ReLU(BN(f(x*w)))表示非线性激活函数的输出,也表示dropout层的输入,Flayer(x)表示dropout层的输出,也表示下一个卷积层的输入。
6.如权利要求3所述的行为识别方法,其特征在于,所述对所述识别模型中的每个子网络分别进行训练包括:
基于所述双流网络,空间流上的卷积核在空间维度滑动,在与所述空间流上的基网络对应的softmax层获得空间流上的得分,时间流上的卷积核在时间维度上滑动,在与所述时间流上的基网络对应的softmax层获得时间流上的得分,将所述空间流上的得分和所述时间流上的得分相乘,以进行端到端的训练;
基于所述肢体分离网络,将人体的五部分特征分别送入对应的五个基网络,获得所述五个基网络分别对应的得分,将五个基网络分别对应的得分相乘,以进行训练;
基于所述注意力网络,所述注意力机制设置在卷积层或基本块的后面,所述注意力机制为:
yc1=Activation(W1xic+b1)
yc2=W2yc1+b2
xoc=F(xic)
其中,所述c表示注意力机制输入的第c个通道,xic表示所述注意力机制上一层的输出,所述W1表示第一个全连接层的权重,所述b1表示第一个全连接层的偏置,yc1表示第一个全连接层的输出,也表示第二个全连接层的输入,所述W2表示第二个全连接层的权重,所述b2表示第二个全连接层的偏置,yc2表示第二个全连接层的输出,也是softmax层的输入,Wα表示学习到的注意力权重,所述αc表示softmax层获得的归一化权重,xoc表示所述注意力机制上一层的输出,O表示所述注意力机制下一层的输入;
基于所述帧差网络,卷积核在时序上滑动,所述帧差网络的输入为:
Sm={M2,M3,…Mt,…MN},
其中,所述Sm表示所述帧差网络的输入,所述Mt=Ft-Ft-1,所述Ft={J1,J2,Ji,…Jt},所述Ji=(xi,yi,zi),N表示共有N帧视频序列;
基于所述双流网络、肢体分离网络、注意力网络和帧差网络,训练时采用的损失函数均为交叉熵损失函数:
其中,yi表示真实类别标签,代表预测标签,n表示类别数目。
7.如权利要求1至6任一项所述的行为识别方法,其特征在于,所述将每个子网络对应的初始识别结果融合后获得行为识别结果包括:
通过公式将每个子网络对应的初始识别结果融合获得行为识别结果,
其中,所述ytest表示行为识别结果,所述yi表示第i个子网络,n表示所述识别模型共包括n个子网络。
8.一种终端设备,其特征在于,包括:
构建训练模块,用于构建包括至少两个子网络的识别模型,并对所述识别模型中的每个子网络分别进行训练;
初始识别结果获得模块,用于在训练结束后,通过每个子网络识别待识别的视频序列,获得与每个子网络对应的初始识别结果;
行为识别结果获得模块,将每个子网络对应的初始识别结果融合后获得行为识别结果。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN201810272399.7A 2018-03-29 2018-03-29 一种行为识别方法、终端设备及计算机可读存储介质 Active CN110321761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810272399.7A CN110321761B (zh) 2018-03-29 2018-03-29 一种行为识别方法、终端设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810272399.7A CN110321761B (zh) 2018-03-29 2018-03-29 一种行为识别方法、终端设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110321761A true CN110321761A (zh) 2019-10-11
CN110321761B CN110321761B (zh) 2022-02-11

Family

ID=68110943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810272399.7A Active CN110321761B (zh) 2018-03-29 2018-03-29 一种行为识别方法、终端设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110321761B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN111161306A (zh) * 2019-12-31 2020-05-15 北京工业大学 一种基于运动注意力的视频目标分割方法
CN111310707A (zh) * 2020-02-28 2020-06-19 山东大学 基于骨骼的图注意力网络动作识别方法及***
CN111539290A (zh) * 2020-04-16 2020-08-14 咪咕文化科技有限公司 视频动作识别方法、装置、电子设备及存储介质
CN112597824A (zh) * 2020-12-07 2021-04-02 深延科技(北京)有限公司 行为识别方法、装置、电子设备和存储介质
CN112926453A (zh) * 2021-02-26 2021-06-08 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法
WO2023147778A1 (zh) * 2022-02-07 2023-08-10 北京字跳网络技术有限公司 动作识别方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8462996B2 (en) * 2008-05-19 2013-06-11 Videomining Corporation Method and system for measuring human response to visual stimulus based on changes in facial expression
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
CN107025420A (zh) * 2016-01-29 2017-08-08 中兴通讯股份有限公司 视频中人体行为识别的方法和装置
CN107679522A (zh) * 2017-10-31 2018-02-09 内江师范学院 基于多流lstm的动作识别方法
CN109522874A (zh) * 2018-12-11 2019-03-26 中国科学院深圳先进技术研究院 人体动作识别方法、装置、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8462996B2 (en) * 2008-05-19 2013-06-11 Videomining Corporation Method and system for measuring human response to visual stimulus based on changes in facial expression
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
CN107025420A (zh) * 2016-01-29 2017-08-08 中兴通讯股份有限公司 视频中人体行为识别的方法和装置
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN107679522A (zh) * 2017-10-31 2018-02-09 内江师范学院 基于多流lstm的动作识别方法
CN109522874A (zh) * 2018-12-11 2019-03-26 中国科学院深圳先进技术研究院 人体动作识别方法、装置、终端设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
INWOONG LEE ET AL.: "Ensemble Deep Learning for Skeleton-Based Action Recognition Using Temporal Sliding LSTM Networks", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
YANGYANG XU ET AL.: "NTU RGB+D: A large scale dataset for 3-D human activity analysis", 《2017 3RD IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS (ICCC)》 *
李艳荻 等: "基于空-时域特征决策级融合的人体行为识别算法", 《光学学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110222653B (zh) * 2019-06-11 2020-06-16 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN111161306A (zh) * 2019-12-31 2020-05-15 北京工业大学 一种基于运动注意力的视频目标分割方法
CN111161306B (zh) * 2019-12-31 2023-06-02 北京工业大学 一种基于运动注意力的视频目标分割方法
CN111310707A (zh) * 2020-02-28 2020-06-19 山东大学 基于骨骼的图注意力网络动作识别方法及***
CN111310707B (zh) * 2020-02-28 2023-06-20 山东大学 基于骨骼的图注意力网络动作识别方法及***
CN111539290A (zh) * 2020-04-16 2020-08-14 咪咕文化科技有限公司 视频动作识别方法、装置、电子设备及存储介质
CN111539290B (zh) * 2020-04-16 2023-10-20 咪咕文化科技有限公司 视频动作识别方法、装置、电子设备及存储介质
CN112597824A (zh) * 2020-12-07 2021-04-02 深延科技(北京)有限公司 行为识别方法、装置、电子设备和存储介质
CN112926453A (zh) * 2021-02-26 2021-06-08 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法
CN112926453B (zh) * 2021-02-26 2022-08-05 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法
WO2023147778A1 (zh) * 2022-02-07 2023-08-10 北京字跳网络技术有限公司 动作识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110321761B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN110321761A (zh) 一种行为识别方法、终端设备及计算机可读存储介质
CN110020620A (zh) 一种大姿态下的人脸识别方法、装置及设备
CN106709461B (zh) 基于视频的行为识别方法及装置
Sun et al. Lattice long short-term memory for human action recognition
CN109685819B (zh) 一种基于特征增强的三维医学图像分割方法
WO2021248859A1 (zh) 视频分类方法、装置、设备及计算机可读存储介质
WO2021057056A1 (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
WO2020253852A1 (zh) 图片识别方法、识别模型训练方法、装置及存储介质
CN110321910A (zh) 面向点云的特征提取方法、装置及设备
CN108830211A (zh) 基于深度学习的人脸识别方法及相关产品
CN109064428A (zh) 一种图像去噪处理方法、终端设备及计算机可读存储介质
CN108765278A (zh) 一种图像处理方法、移动终端及计算机可读存储介质
CN110263909A (zh) 图像识别方法及装置
CN110222718B (zh) 图像处理的方法及装置
CN109359539A (zh) 注意力评估方法、装置、终端设备及计算机可读存储介质
CN108510982A (zh) 音频事件检测方法、装置及计算机可读存储介质
CN109117773A (zh) 一种图像特征点检测方法、终端设备及存储介质
CN109584992A (zh) 交互方法、装置、服务器、存储介质及沙盘治疗***
CN114925320B (zh) 一种数据处理方法及相关装置
CN113408590B (zh) 场景识别方法、训练方法、装置、电子设备及程序产品
CN110633624A (zh) 一种基于多特征融合的机器视觉人体异常行为识别方法
CN113191479A (zh) 联合学习的方法、***、节点及存储介质
CN111047022A (zh) 一种计算装置及相关产品
CN109086871A (zh) 神经网络的训练方法、装置、电子设备和计算机可读介质
CN111353591A (zh) 一种计算装置及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant