CN110889335B - 基于多通道时空融合网络人体骨架双人交互行为识别方法 - Google Patents

基于多通道时空融合网络人体骨架双人交互行为识别方法 Download PDF

Info

Publication number
CN110889335B
CN110889335B CN201911084485.6A CN201911084485A CN110889335B CN 110889335 B CN110889335 B CN 110889335B CN 201911084485 A CN201911084485 A CN 201911084485A CN 110889335 B CN110889335 B CN 110889335B
Authority
CN
China
Prior art keywords
skeleton
sequence
double
network
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911084485.6A
Other languages
English (en)
Other versions
CN110889335A (zh
Inventor
裴晓敏
宋佳强
刘晓琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Shihua University
Original Assignee
Liaoning Shihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Shihua University filed Critical Liaoning Shihua University
Priority to CN201911084485.6A priority Critical patent/CN110889335B/zh
Publication of CN110889335A publication Critical patent/CN110889335A/zh
Application granted granted Critical
Publication of CN110889335B publication Critical patent/CN110889335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种基于多通道时空融合网络人体骨架双人交互行为识别方法,属于人工智能及深度学习领域,旨在解决人体骨架双人交互行为识别结果精度不高的问题。本发明构建双人交互行为骨架序列的视角不变性双人关联骨架描述方法;设计时空融合网络学习双人骨架的时空融合特征表示;采用多通道融合网络结构获取多组时空融合特征,利用融合特征分类,获得骨架序列的行为类别。本发明双人骨架描述方法可获得骨架的多组视角不变性双人关联特征表示;时空融合网络可以学习序列的时空关联特征,多通道融合网络结构可得到多组时空融合特征,提高双人交互行为识别准确率。该方法在基于人体骨架的双人交互行为识别获得较高的准确率。

Description

基于多通道时空融合网络人体骨架双人交互行为识别方法
技术领域
本发明属于计算机视觉及深度学习领域,特别涉及了一种基于多通道时空融合网络人体骨架双人交互行为识别方法。
背景技术
人体行为识别在视频大数据分析,公共安全,人机交互等领域具有重要意义。根据人体行为活动中执行动作的个体数量不同,可分为单个行为人的单人行为识别、两个行为人构成的交互行为识别、多个行为人构成的群体行为识别。双人交互行为包含的两个行为人之间相互关联,两人交互产生了有意义的行为,如“握手”“传球”“互相拍打”等。双人交互行为经常出现在我们的日常生活中,对于交互行为识别具有较高的实用价值和广阔的应用前景。
人体行为识别方法主要分为两类,一类是基于传统特征提取的方法,另一类是基于深度学习的方法。该领域存在的主要问题有:
(1)基于自然场景的人体行为识别受光照、物体遮挡等因素的影响;
(2)基于骨架的人体行为识别对双人行为识别关注较少,主要为单人行为识别;
(3)当前人体行为识别方法很少考虑摄像头位置变化对识别结果的影响。
上述三个原因造成当前双人交互人体行为识别准确率较低。
发明内容
为了解决现有技术中双人交互人体行为识别准确率不高的问题,本发明提出了基于多通道时空融合网络人体骨架双人交互行为识别方法。
本发明采用的技术方案如下:
一种基于多通道时空融合网络人体骨架双人交互行为识别方法,包括以下步骤:
步骤1,提出双人相关视角不变性骨架特征描述方法;
步骤2,设计一维卷积神经网络和双向长短时记忆网络的空间特征学习模型,获取待识别特征序列的空间关联信息;
步骤3,设计时域的长短时记忆网络学习交互序列的时间关联特征;
步骤4,设计权值共享四通道时空融合网络,分别学习各组交互特征。
进一步地,步骤1中对待识别骨架序列的每一帧图,根据人体解剖学结构,计算单人骨架距离特征和双人相关骨架距离特征得到视角不变性双人交互特征描述:
步骤1.1计算单人骨架特征,设行为参与人P1,P2骨架脊柱中心点为各自中心点O1,O2,参与人P1中心点O1到该人所有骨架点的距离形成骨架距离特征di1,参与人P2中心点O2到该人所有骨架点的距离形成骨架距离特征di2。采用欧式距离计算di1,di2,式(1)。
步骤1.2计算双人关联的骨架特征,以O1,O2中点为双人中心点Oc,分别计算单独两人P1,P2所有骨架点到双人中心点Oc的距离,式(2)。得到双人关联的距离特征dci1,dci2
步骤1.3计算整个行为序列的骨架特征,得到四组骨架距离特征序列D1,D2,Dc1,Dc2,式(3)。
步骤1.4对所述骨架序列的每一帧中的每种特征归一化处理,将所有序列通过补齐、截短设为定长T。设原始序列长度L,如果L>T时,采用随机抽样的方法去掉若干帧使序列长度为T。当L<T时,采用在首帧和尾帧补齐的方法***若干帧。使序列长度为T。
进一步地,步骤2具体步骤如下:
步骤2.1空间特征网络学习t,t∈(1,...T)时刻的骨架空间关系特征。为保持序列的时序性,采用空间域的一维卷积神经网络(1D CNN)对骨架序列滤波;采用M个一维滤波器ω对长度为T,维度为N的序列F滤波,一维最大池化层提取邻域内的最大特征,并将最初的维度降到(T,P)。经过滤波处理后,得到尺度为(T,P)的M个特征图fm,式(4)。
fm=σ(ω(1,l)*F+b),m=(1,2,...,M) (4)
步骤2.2采用双向长短时记忆网络(Bi-LSTM)学习特征图fm上空间各节点之间的关联性;Bi-LSTM网络是一种双向的LSTM网络,由前向LSTM和后向LSTM组合而成,式(5)、(6)。点i,i∈(1,...,P)在特征图(1,...,M)上的值构成特征向量维度为M。将/> 作为Bi-LSTM网络的输入,输出为t时刻节点关联性的空间特征表示fsr(t),式(6)。
进一步地,步骤4具体步骤如下:
步骤4.1设计四个相同的时空融合特征网络通道分别处理四组特征,将四组时间关联特征融合。将四组序列D1,D2,Dc1,Dc2分别输入到上述时空特征融合网络模型,设该模型实现的函数功能为FSPT,四个分支结构相同,权值共享,式(7)。将输出结果融合到一起形成多分支融合特征ffusion,式(8)。
ffusion=[fsrd1,fsrd2,fsrdc1,fsrdc2] (8)
步骤4.2进行神经网络的全连接操作,设置全连接的结点个数为要判定的行为类别数。利用全连接网络学习融合特征,分类交互行为,式(9)。
L=softmax(W*ffusion) (9)。
本发明具有如下有益效果及优点:
(1)本发明采用双人相关视角不变性骨架特征描述方法能够更准确地表示双人骨架关联特征和视角不变性特征,使总体算法具有视角不变性,进而提高交互行为识别准确率。
(2)本发明设计一维卷积神经网络和双向长短时记忆网络空间特征学习模型,能够提取特征序列的空间关联信息,使序列特征描述更全面、更详细,进而提高双人交互行为识别准确率。
(3)本发明采用多通道时空融合网络分别学习多组双人骨架特征得到多通道融合特征,各通道之间权值共享,利用融合特征识别交互行为,进而提高双人交互行为识别准确率。
本发明实现了双人交互行为的智能化识别,使双人交互行为识别准确率更高。该方法是一种智能的、具有视角不变性的、有效的双人交互行为识别方法,使得针对交互双人的行为识别更加准确,高效。
附图说明
图1是本发明中的双人关联骨架视角不变性特征提取方法示意图。
图2是本发明中的空间特征学习模型。
图3是本发明中的多通道时空融合网络模型。
具体实施方式
为了进一步说明本发明,下面结合附图及实施例对本发明进行详细地描述,但不能将它们理解为对本发明保护范围的限定。
实施例:如图1-图3;一种基于多通道时空融合网络人体骨架双人交互行为识别方法,实现步骤如下:
步骤1,提出双人相关视角不变性骨架特征描述方法,如图1双人关联骨架视角不变性特征表示;
(1.1)利用三组深度相机分别在三个固定角度采集多个参与人的多组双人交互骨架视频帧作为待识别骨架序列;将采集到的骨架序列按照3:1的比例分成测试样本和训练样本。
(1.2)对所有骨架序列中的每一帧图,计算单人骨架特征,设行为参与人P1,P2骨架脊柱中心点为各自中心点O1,O2,参与人P1中心点O1到该人所有骨架点的距离形成骨架距离特征di1,参与人P2中心点O2到该人所有骨架点的距离形成骨架距离特征di2,采用欧式距离计算di1,di2,式(1)。
(1.3)对所有骨架序列中的每一帧图,计算双人关联的骨架特征,以O1,O2中点为双人中心点Oc,分别计算单独两人P1,P2所有骨架点到双人中心点Oc的距离,式(2)。得到双人关联的距离特征dci1,dci2
(1.4)对于所有骨架序列,计算整个行为序列的骨架特征,得到四组骨架距离特征序列D1,D2,Dc1,Dc2,式(3)。
(1.5)对待识别骨架特征序列进行归一化处理。根据序列长度对其进行补齐、截短、等操作,得到长度为T帧的四组骨架序列,D1,D2,Dc1,Dc2。设原始序列长度L,如果L>T时,采用随机抽样的方法去掉若干帧使序列长度为T。当L<T时,在首帧和尾帧***若干帧,使序列长度为T。
步骤2,设计一维卷积神经网络和双向长短时记忆网络的空间特征学习模型,获取待识别特征序列的空间关联信息,如图2所示为空间特征学习模型;
(2.1)空间特征网络学习t,t∈(1,...T)时刻的骨架空间关系特征。为保持序列的时序性,采用空间域的一维卷积神经网络(1D CNN)对骨架序列滤波;采用M个一维滤波器ω对长度为T,维度为N的序列F滤波,一维最大池化层提取邻域内的最大特征,并将最初的维度降到(T,P)。经过滤波处理后,得到尺度为(T,P)的M个特征图fm,式(4)。
fm=σ(ω(1,l)*F+b),m=(1,2,...,M) (4)
(2.2)双向长短时记忆网络(Bi-LSTM)学习特征图fm上空间各节点之间的关联性;LSTM网络定义如式(5),包含输入门it、输出门ot、遗忘门ft和记忆门ct,式(6)前向LSTM和后向LSTM组成BiLSTM网络。设点i,i∈(1,...,P)在特征图(1,...,M)上的值组成特征向量维度为M。将/>作为Bi-LSTM网络的输入,输出为t时刻节点关联性的空间特征表示fsr(t),式(6)。
步骤3,设计时域的长短时记忆网络学习交互序列的时间关联特征;采用两层LSTM结构,隐含层参数分别为64,64。将学习得到空间关联性特征fsr(t)输入时域长短时记忆网络学习交互序列的时间关联特征fsr。
步骤4,设计权值共享四通道时空融合网络,分别学习各组交互特征,如图3所示。将四组序列D1,D2,Dc1,Dc2分别输入到上述时空特征融合网络模型,设该模型实现的函数功能为FSPT,四个分支结构相同,权值共享,式(7)。将输出结果融合到一起形成多分支融合特征ffusion,式(8)。
ffusion=[fsrd1,fsrd2,fsrdc1,fsrdc2] (8)
步骤5,进行神经网络的全连接操作,全连接的结点个数为待判定的行为类别数。利用全连接网络学习融合特征,分类交互行为,式(9)。
L=softmax(W*ffusion) (9)
步骤6,初始化网络参数,设置停止条件。输入训练样本和样本标签,调整训练参数,直到网络损失函数收敛于期望值,即可得到整个双人交互行为识别深度学习网络模型。
步骤7,固定网络结构及参数,将测试样本输入到网络中,得到双人交互行为分类标签Lpre。利用分类标签Lpre与已知标签LTrue计算交互行为识别的准确率Accuracy,式(10)。
本发明基于深度学习理论,提出了基于视角不变性的双人交互特征提取方法,提高了整体算法的视角不变性,增加更多双人关联信息,进而提高双人交互行为识别的准确率;提出了四通道权值共享网络结构,利用较少的参数学习序列间更多的时空关联性特征,使特征更丰富;能够通过该模型完整有效地提取人体骨架在时间、空间上的行为特征,充分表示双人的交互运动行为。本发明在双人交互人体行为识别上准确率明显提升。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.基于多通道时空融合网络人体骨架双人交互行为识别方法,其特征在于:包括以下步骤:
步骤1,提出双人相关视角不变性骨架特征描述方法;
步骤2,设计一维卷积神经网络和双向长短时记忆网络的空间特征学习模型,获取待识别特征序列的空间关联信息;
步骤3,设计时域的长短时记忆网络学习交互序列的时间关联特征;
步骤4,设计权值共享四通道时空融合网络,分别学习各组交互特征;
步骤1中对待识别骨架序列的每一帧图,根据人体解剖学结构,计算单人骨架距离特征和双人相关骨架距离特征得到视角不变性双人交互特征描述:
步骤1.1计算单人骨架特征,设行为参与人P1,P2骨架脊柱中心点为各自中心点O1,O2,参与人P1中心点O1到该人所有骨架点的距离形成骨架距离特征di1,参与人P2中心点O2到该人所有骨架点的距离形成骨架距离特征di2;采用欧式距离计算di1,di2,式(1);
步骤1.2计算双人关联的骨架特征,以O1,O2中点为双人中心点Oc,分别计算单独两人P1,P2所有骨架点到双人中心点Oc的距离,式(2);得到双人关联的距离特征dci1,dci2
步骤1.3计算整个行为序列的骨架特征,得到四组骨架距离特征序列D1,D2,Dc1,Dc2,式(3);
步骤1.4对所述骨架序列的每一帧中的每种特征归一化处理,将所有序列通过补齐、截短设为定长T;设原始序列长度L,如果L>T时,采用随机抽样的方法去掉若干帧使序列长度为T;当L<T时,采用在首帧和尾帧补齐的方法***若干帧;使序列长度为T;
步骤2具体步骤如下:
步骤2.1空间特征网络学习t,t∈(1,...T)时刻的骨架空间关系特征;为保持序列的时序性,采用空间域的一维卷积神经网络对骨架序列滤波;采用M个一维滤波器ω对长度为T,维度为N的序列F滤波,一维最大池化层提取邻域内的最大特征,并将最初的维度降到(T,P);经过滤波处理后,得到尺度为(T,P)的M个特征图fm,式(4);
fm=σ(ω(1,l)*F+b),m=(1,2,...,M) (4)
步骤2.2采用双向长短时记忆网络学习特征图fm上空间各节点之间的关联性;Bi-LSTM网络是一种双向的LSTM网络,由前向LSTM和后向LSTM组合而成,式(5)、(6);点i,i∈(1,...,P)在特征图(1,…,M)上的值构成特征向量维度为M;将/>作为Bi-LSTM网络的输入,输出为t时刻节点关联性的空间特征表示fsr(t),式(6);
步骤4具体步骤如下:
步骤4.1设计四个相同的时空融合特征网络通道分别处理四组特征,将四组时间关联特征融合;将四组序列D1,D2,Dc1,Dc2分别输入到所述时空融合特征的网络模型,设该模型实现的函数功能为FSPT,四个分支结构相同,权值共享,式(7);将输出结果融合到一起形成多分支融合特征ffusion,式(8);
ffusion=[fsrd1,fsrd2,fsrdc1,fsrdc2] (8)
步骤4.2进行神经网络的全连接操作,设置全连接的结点个数为要判定的行为类别数;利用全连接网络学习融合特征,分类交互行为,式(9);
L=softmax(W*ffusion)(9)。
CN201911084485.6A 2019-11-07 2019-11-07 基于多通道时空融合网络人体骨架双人交互行为识别方法 Active CN110889335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911084485.6A CN110889335B (zh) 2019-11-07 2019-11-07 基于多通道时空融合网络人体骨架双人交互行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911084485.6A CN110889335B (zh) 2019-11-07 2019-11-07 基于多通道时空融合网络人体骨架双人交互行为识别方法

Publications (2)

Publication Number Publication Date
CN110889335A CN110889335A (zh) 2020-03-17
CN110889335B true CN110889335B (zh) 2023-11-24

Family

ID=69747013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911084485.6A Active CN110889335B (zh) 2019-11-07 2019-11-07 基于多通道时空融合网络人体骨架双人交互行为识别方法

Country Status (1)

Country Link
CN (1) CN110889335B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446927B (zh) * 2018-10-11 2021-11-23 西安电子科技大学 基于先验知识的双人交互行为识别方法
CN111898576B (zh) * 2020-08-06 2022-06-24 电子科技大学 一种基于人体骨架时空关系的行为识别方法
CN112212861B (zh) * 2020-09-21 2022-05-06 哈尔滨工业大学(深圳) 一种基于单惯性传感器的轨迹还原方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018163555A1 (ja) * 2017-03-07 2018-09-13 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109376720A (zh) * 2018-12-19 2019-02-22 杭州电子科技大学 基于关节点时空简单循环网络和注意力机制的动作分类方法
CN109446927A (zh) * 2018-10-11 2019-03-08 西安电子科技大学 基于先验知识的双人交互行为识别方法
CN110222611A (zh) * 2019-05-27 2019-09-10 中国科学院自动化研究所 基于图卷积网络的人体骨架行为识别方法、***、装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018163555A1 (ja) * 2017-03-07 2018-09-13 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109446927A (zh) * 2018-10-11 2019-03-08 西安电子科技大学 基于先验知识的双人交互行为识别方法
CN109376720A (zh) * 2018-12-19 2019-02-22 杭州电子科技大学 基于关节点时空简单循环网络和注意力机制的动作分类方法
CN110222611A (zh) * 2019-05-27 2019-09-10 中国科学院自动化研究所 基于图卷积网络的人体骨架行为识别方法、***、装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
裴晓敏 ; 范慧杰 ; 唐延东 ; .时空特征融合深度学习网络人体行为识别方法.红外与激光工程.2018,(第02期),55-60页. *
金壮壮 ; 曹江涛 ; 姬晓飞 ; .多源信息融合的双人交互行为识别算法研究.计算机技术与发展.2018,(第10期),全文. *
黄菲菲 ; 曹江涛 ; 姬晓飞 ; .基于多通道信息融合的双人交互动作识别算法.计算机技术与发展.2016,(第03期),全文. *

Also Published As

Publication number Publication date
CN110889335A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
CN107273876B (zh) 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法
CN110069958B (zh) 一种密集深度卷积神经网络的脑电信号快速识别方法
CN107609460B (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
Shao et al. Feature learning for image classification via multiobjective genetic programming
CN110889335B (zh) 基于多通道时空融合网络人体骨架双人交互行为识别方法
CN111274921B (zh) 一种利用姿态掩模进行人体行为识别的方法
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
CN109815826A (zh) 人脸属性模型的生成方法及装置
CN110532900A (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN109344759A (zh) 一种基于角度损失神经网络的亲属识别方法
CN106599800A (zh) 一种基于深度学习的人脸微表情识别方法
CN113749657B (zh) 一种基于多任务胶囊的脑电情绪识别方法
CN111339847A (zh) 一种基于图卷积神经网络的人脸情绪识别方法
CN109977893A (zh) 基于层次显著性通道学习的深度多任务行人再识别方法
CN112036276A (zh) 一种人工智能视频问答方法
CN111028319A (zh) 一种基于面部运动单元的三维非真实感表情生成方法
CN110046544A (zh) 基于卷积神经网络的数字手势识别方法
CN108154156A (zh) 基于神经主题模型的图像集成分类方法及装置
CN113297936A (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN110598537A (zh) 一种基于深度卷积网络的视频显著性检测方法
CN112733764A (zh) 一种基于多模态识别视频情感信息的方法
Xu et al. Graphical modeling for multi-source domain adaptation
CN108446605A (zh) 复杂背景下双人交互行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant