CN107886061A

CN107886061A - 基于多模态深度玻尔兹曼机的人体行为识别方法及***

Info

Publication number: CN107886061A
Application number: CN201711061490.6A
Authority: CN
Inventors: 毕盛; 谢澈澈; 董敏
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2018-04-06
Anticipated expiration: 2037-11-02
Also published as: CN107886061B

Abstract

本发明公开了一种基于多模态深度玻尔兹曼机的人体行为识别方法及***，该方法包括步骤：1)获取视觉和可穿戴传感器的数据；2)建立视觉数据和可穿戴传感器多模态融合模型；3)利用深度神经网络进行异构迁移学习实现对缺失数据的重构；4)利用softmax回归模型分类器进行分类；5)根据用户个体特性对公共样本数据产生的深度网络模型进行自适应调整。本发明能提高在复杂场景及数据缺失情况下人体行为识别的准确率。

Description

基于多模态深度玻尔兹曼机的人体行为识别方法及***

技术领域

本发明涉及人工智能、行为识别技术领域，尤其是指一种基于多模态深度玻尔兹曼机的人体行为识别方法及***。

背景技术

近年来，机器人产业呈爆发式的增长，机器人“全应用”时代正在来临。一方面，机器人出现在家庭和日常生活中，另一方面，随着工业机器人的发展，机器人广泛地应用于汽车制造业、金属制造业等各个行业中，实现人机协作。人体行为识别被广泛地应用于人机交互、人机协作等领域，机器人需要从各个抽象层来理解和识别人类的行为，其识别的准确性将对机器人技术的应用发展起到重大的作用。机器人对人的行为识别是机器人对人以及外界环境感知的一个十分重要的环节，如何降低场景多样性、背景复杂等噪声因素对识别效果的影响，一直是人体行为识别研究的热点。

目前，人体行为识别技术研究方面主要采用基于视觉和基于可穿戴传感器两种思路进行，但目前还面临如下问题：

1、复杂场景下机器人对人体行为识别的准确率需要提高：目前人体行为识别主要通过基于单一视觉、基于单一可穿戴传感器、基于视觉与可穿戴传感器传统的数据融合方法来实现的，这些方式都不能有效解决在复杂场景下人体行为识别准确率低的问题。

2、多模态数据发生缺失时对人体行为识别准确率的挑战性：目前研究少有涉及此问题，而在实际生活中，由于人的隐私和遮挡等原因，常会发生缺失视觉信号的情况，这会对机器人识别人行为的准确性造成较大的影响。

3、机器人在对人的行为识别时所面临人的共性与个性问题：目前研究少有涉及如何把人的个性化信息加入到共性模型中从而使模型具有个性化的特点，这也会影响机器人对人体行为的识别。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一个识别准确率较高及可用性较强的基于多模态深度玻尔兹曼机的人体行为识别方法及***，旨在构建基于视觉和可穿戴传感器的多模态深度神经网络模型从而提高在复杂场景下行为识别的准确率；在多模态深度学习模型中采用深度玻尔兹曼机网络，从而减少缺失数据对行为识别准确度造成的影响；提出一种结合个性化特点调整网络结构建立自适应共性模型的方法，从而提高机器人对具体主人行为识别的准确率。

为实现上述目的，本发明所提出的技术方案如下：

基于多模态深度玻尔兹曼机的人体行为识别方法，包括以下步骤：

1)获取视觉和可穿戴传感器的数据；

2)建立视觉数据和可穿戴传感器多模态融合模型；

3)利用深度神经网络进行异构迁移学习实现对缺失数据的重构；

4)利用softmax回归模型分类器进行分类；

5)根据用户个体特性对公共样本数据产生的深度网络模型进行自适应调整。

在步骤1)中，获取视觉和可穿戴传感器数据，包括以下步骤：

1.1)使用视觉Kinect传感器最大的采集频率作为视觉和可穿戴传感器共同的采集频率；

1.2)采用Kinect视觉传感器作为视频输入特征，并安装于机器人上，通过USB接口把数据传送给笔记本电脑；

1.3)可穿戴传感器选择手腕的姿态和腰部的姿态数据作为输入特征，通过无线蓝牙通信把存储了一段时间的数据发送到笔记本电脑；

1.4)笔记本电脑对采集的数据进行预处理并把处理后的数据送到后台图形工作站进行深度学习。

在步骤2)中，建立视觉数据和可穿戴传感器多模态融合模型，包括以下步骤：

2.1)为视觉和可穿戴传感器每个采集窗口时间内的数据添加开始帧、结束帧和帧编号，然后根据帧编号提取数据作为深度神经网络输入；

2.2)采用一种动态可变采集窗口长度的方法，动态分割出每个动作周期作为滑动窗口的时间长度；

2.3)Kinect相机把一个采集时间窗口内所有像素点的颜色RGB和深度D信息构建成一个的视觉特征向量作为输入；

2.4)可穿戴传感器把一个采集时间窗口内的腕部和腰部6轴姿态传感器(3轴加速度及3轴角速度)数据共同构成可穿戴传感器特征向量作为输入；

2.5)深度学习直接对原始数据进行采集并通过训练得到特征。

在步骤3)中，利用深度神经网络进行异构迁移学习实现对缺失数据的重构，包括以下步骤：

3.1)分别构建视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机，传感器数据作为输入，采用深度为两层的深度玻尔兹曼机，可见层和隐藏层的神经元都是高斯单元，两层的深度玻尔兹曼机的能量函数为：

E(v,h⁽¹⁾,h⁽²⁾,θ)＝-v^TW⁽¹⁾h⁽¹⁾-h⁽¹⁾W⁽²⁾h⁽²⁾

其中，θ是RBM的参数{W,a,b}，v表示可见单元，h⁽ⁱ⁾表示第i层隐藏单元，W为可见单元和隐藏单元之间的边的权重；

3.2)构建多模态深度玻尔兹曼机，使用一个共同的隐藏层融合视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机，该网络的联合概率分布为：

其中，θ是联合概率分布参数，v_m表示视觉深度玻尔兹曼机可见层，v_t表示可穿戴传感器深度玻尔兹曼机可见层，表示视觉深度玻尔兹曼机第i个隐藏层，表示可穿戴传感器深度玻尔兹曼机第i个隐藏层；

在步骤4)中，利用softmax回归模型分类器进行分类，包括以下步骤：

4.1)构建训练数据集，利用多模态公开数据集包括Berkeley多模态人体动作数据集，以及获得的实际数据集结合起来构成训练数据集；

4.2)在深度学习模型的最后一层添加一个softmax分类器，把最后层的输出作为分类器的输入，通过训练分类器得到最终的分类模型；

4.3)使用步骤3)中融合深度玻尔兹曼机得到的共同特征作为输入，利用训练好的softmax分类器进行分类。

在步骤5)中，根据用户个体特性对公共样本数据产生的深度网络模型进行自适应调整，包括以下步骤：

5.1)在视觉输入特征层和可穿戴传感器输入特征层之前各加入一个隐藏层；

5.2)把个体用户利用公共数据网络模型进行行为识别得到的可信度高的数据作为有标注的样本数据；

5.3)通过有标注的样本数据并利用Mini-batch增量学习对公共数据产生的模型进行训练，选择所需Mini-batch的大小。

基于多模态深度玻尔兹曼机的人体行为识别***，包括：

数据采集模块，用于采集机器人对人行为识别平台的原始数据流，包括视觉数据流和可穿戴传感器数据流；

数据预处理模块，用于对采集的原始数据进行滤波降噪、平滑处理、以及加窗处理；

深度学习模块，用于将预处理后的数据加入深度神经网络进行学习和融合，提取视觉和姿态传感器数据的共同特征；

模型训练模块，通过对训练数据集的学习和建模，得到训练后的多模态融合深度玻尔兹曼机人体行为识别模型；

行为识别模块，利用多模态融合深度玻尔兹曼机人体行为识别模型进行人体行为的识别分类。

优选的，所述数据采集模块具体采用Kinect传感器采集视觉数据流，采用2个6轴姿态传感器分别采集腰部和腕部的数据，使用Kinect传感器最大的采集频率作为共同的采集频率。

优选的，所述数据预处理模块使用一种动态可变的加窗方法，分割出每个动作行为的周期。

优选的，所述深度学习模块具体采用多模态深度玻尔兹曼机，使用一个共同的隐藏层融合视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机。

优选的，所述模型训练模块使用Berkeley多模态人体动作数据集等多模态公开数据集，以及获得的实际数据集结合起来构成训练数据集。

优选的，所述行为识别模块具体采用softmax回归模型作为分类器，添加于深度神经网络的最后一层。

本发明与现有技术相比，具有如下优点与有益效果：

1、基于视觉和可穿戴传感器的多模态神经网络模型，使用基于全局特征的行为表征方法，把视觉传感器和可穿戴传感器的数据融合起来共同对人的行为特征进行识别，不仅不需要佩戴多个传感器，可以有效减少人体佩戴传感器对舒适度造成的影响，而且能够突破基于局部特征的行为表征方法不能识别复杂动作的局限性，可以有效提高在复杂场景下机器人对人的行为识别的准确率。

2、采用深度玻尔兹曼机，能够对缺失的数据进行重构，可以有效减少数据缺失对行为识别准确度造成的影响。在视觉拍摄视角受影响、物体受遮挡、可穿戴设备受到外界电磁干扰等因素造成的有数据缺失的情况下，可以有效提高机器人对人行为识别的准确率。

3、提出一种结合个性化特点自动调整共性模型的方法，能够有效解决机器人在对人体行为识别时的共性和个性问题，使机器人对公共数据模型进行自动调整从而满足个体的个性特点，从而更好地理解人体行为，提高机器人对具体主人行为识别的准确率。

附图说明

图1是本发明基于多模态深度玻尔兹曼机的人体行为识别方法流程图。

图2是本发明机器人识别人体行为***平台示意图。

图3是本发明基于视觉和可穿戴传感器的多模态深度神经网络模型示意图。

图4是多模态深度玻尔兹曼机示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

参见图1所示，本实施例所提供的基于多模态深度玻尔兹曼机的人体行为识别方法，包括以下步骤：

1)建立机器人识别人体行为***平台，获取视觉和可穿戴传感器的数据；

2)建立视觉数据和可穿戴传感器多模态融合模型，对视觉和可穿戴传感器信息进行融合；

4)利用softmax回归模型分类器进行人体行为分类；

参见图2所示，在步骤1)中，所述的机器人识别人体行为***平台，获取视觉和可穿戴传感器的数据，包括以下步骤：

1.1)机器人上安装的Kinect视觉传感器采集视频数据；

1.2)可穿戴传感器采用6轴姿态传感器(3轴加速度及3轴角速度)，分别安装于智能手环和智能腰带中，选择人体手腕的姿态和腰部的姿态数据作为输入特征；

1.3)在本实施方式中，采用视觉Kinect传感器最大的采集频率作为视觉和可穿戴传感器共同的采集频率；

1.4)采集视觉数据后，Kinect视觉传感器通过USB接口把数据传送给笔记本电脑；

1.5)采集姿态传感器数据后，可穿戴传感器通过无线蓝牙通信把存储了一段时间的数据发送到笔记本电脑。

参见图3所示，在步骤2)中，所述的基于视觉和可穿戴传感器的多模态深度神经网络模型，构建多模态深度神经网络，包括以下步骤：

2.1)在本实施方式中，为方便融合两种传感器数据，采用的同步方法为给视觉和可穿戴传感器每个采集窗口时间内的数据添加开始帧、结束帧和帧编号；

2.2)根据帧编号提取数据作为深度神经网络输入，保证可穿戴传感器和视觉Kinect传感器时间的一致性；

2.3)在本实施方式中，采用一种动态可变的加窗方法，分离出每个动作周期，滑动窗口的长度为每个动作周期的时间长度，滑动步长为半个窗口长度；

2.4)在采集特征数据的同时，对视觉数据和可穿戴传感器数据进行分析，找到动作变化的关键点并在此作为采集窗口的起点和终点；

2.5)为不影响特征的采集过程，采集过程和分析过程并行化进行；

2.6)在一个采集时间窗口内，Kinect相机把所有像素点的颜色RGB和深度D信息构建成一个的视觉特征向量作为输入；

2.7)在一个采集时间窗口内，可穿戴传感器把腕部6轴姿态传感器(3轴加速度及3轴角速度)数据和腰部6轴姿态传感器(3轴加速度及3轴角速度)数据共同构成可穿戴传感器特征向量作为输入；

2.8)深度学习直接对原始数据进行采集并通过训练得到特征。

参见图4所示，在步骤3)中，所述的多模态深度玻尔兹曼机，对缺失数据重构的神经网络结构，包括以下步骤：

3.1)在本实施方式中，采用两层的深度玻尔兹曼机，其能量函数为：

3.2)构建视觉深度玻尔兹曼机，Kinect视觉传感器作为输入，采用深度为两层的深度玻尔兹曼机，可见层和隐藏层的神经元都是高斯单元；

3.3)构建可穿戴传感器深度玻尔兹曼机可穿戴传感器的数据作为输入，也采用深度为两层的深度玻尔兹曼机，可见层和隐藏层的神经元都是高斯单元；

3.4)在本实施方式中，构建由两个深度玻尔兹曼机构成的多模态深度玻尔兹曼机，在此结构中有一个共同的隐藏层联合这两个深度网络。假设一个深度网络的可见层为v_m，另一个为v_t，则该网络的联合概率分布为：

3.5)构建基于视觉和可穿戴传感器的多模态深度神经网络模型，由两个深度玻尔兹曼机构成的多模态深度玻尔兹曼机，有一个共同的隐藏层(共同表示特征层)融合视觉和可穿戴传感器这两个深度网络。

在步骤4)中，所述的利用softmax回归模型分类器进行人体行为分类，包括以下步骤：

4.1)构建训练数据集，利用Berkeley多模态人体动作数据集等多模态公开数据集，和本研究团队通过各种渠道获得的实际数据集结合起来构成训练数据集；

4.3)使用步骤3)中融合视觉深度玻尔兹曼机和可穿戴传感器玻尔兹曼机得到的共同特征作为输入，利用训练好的softmax分类器进行分类。

在步骤5)中，所述的个体特征对公共数据产生的深度网络模型进行自动调整，其分为改进网络结构和标注新样本进行训练的增量学习两种方式，实施步骤如下：

5.1)改进网络结构，扩展原有的神经网络结构，其具体步骤包括：

5.1.1)在视觉输入特征层和可穿戴传感器输入特征层之前各加入一个隐藏层；

5.1.2)当用户和机器人在一起时，重新进行无监督学习的训练；

5.1.3)在新的网络结构中训练出具有个体用户行为的内容；

5.2)标注新样本进行训练的增量学习，把个体用户利用公共数据网络模型进行行为识别得到的可信度高的数据作为有标注的样本数据，其具体步骤包括：

5.2.1)根据传感器本身特性确定采集的数据是否正常；

5.2.2)结合输出结果的Softmax分类模型综合计算得到可信度；

5.2.3)通过有标注的样本数据并利用Mini-batch增量学习对公共数据产生的模型进行训练，具体过程是：将全部样本分成几份，每一份更新一次参数，每份的样本量越多，模型训练的精度越高，但花费的时间越多，在精度与时间的权衡问题，合理选择Mini-batch的大小。

以下为本实施例所提供的一种基于多模态深度玻尔兹曼机的人体行为识别***，包括：

数据采集模块：用于采集机器人对人行为识别平台的原始数据流，包括视觉数据流和可穿戴传感器数据流。在本实施方式中，采用Kinect传感器采集视频数据，采用2个6轴姿态传感器分别采集腰部和腕部的数据，使用Kinect传感器最大的采集频率作为共同的采集频率。

数据预处理模块：用于对采集的原始数据进行滤波降噪、平滑处理、以及加窗处理。在本实施方式中，采用一种动态的加窗方式，以每个人体行为的周期长度作为窗口长度，提取每个窗口内数据的特征矩阵作为输入。

深度学习模块：用于将预处理后的数据加入深度神经网络进行学习和融合，提取视觉和姿态传感器数据的共同特征。在本实施方式中，采用多模态深度玻尔兹曼机，使用一个共同的隐藏层融合视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机，从而对多传感器数据进行融合并训练提取共同特征。

模型训练模块：通过对训练数据集的学习和建模，得到训练后的多模态融合深度玻尔兹曼机人体行为识别模型。在本实施方式中，使用Berkeley多模态人体动作数据集等多模态公开数据集，和本研究团队通过各种渠道获得的实际数据集结合起来构成训练数据集。

行为识别模块：利用多模态融合深度玻尔兹曼机人体行为识别模型进行人体行为的识别分类。在本实施方式中，采用softmax回归模型作为分类器，添加于深度神经网络的最后一层。

在上述实施例中，所包括的各个模块只是按照本发明的功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可，并不用于限制本发明的保护范围。

综上所述，本发明所提供的基于多模态深度玻尔兹曼机的人体行为识别方法及***，构建基于视觉和可穿戴传感器的多模态神经网络模型，能够提高在复杂场景下机器人对人的行为识别的准确率；在多模态深度学习模型中采用合适的深度神经网络结构，能够减少由于缺失数据对行为识别准确度造成的影响；提出一种结合个性化特点自动调整共性模型的方法，能够提高机器人对具体主人行为识别的准确率。本发明可用于人与机器人的协作，从而提高人机协作的成功率。此外，本发明提供的技术方法还可拓展到人体异常监测、视频监控、智能家居、身份鉴定以及运动分析等众多领域，具有广泛的研究意义，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于多模态深度玻尔兹曼机的人体行为识别方法，其特征在于，包括以下步骤：

1)获取视觉和可穿戴传感器的数据；

2)建立视觉数据和可穿戴传感器多模态融合模型；

4)利用softmax回归模型分类器进行分类；

2.根据权利要求1所述的基于多模态深度玻尔兹曼机的人体行为识别方法，其特征在于，在步骤1)中，获取视觉和可穿戴传感器数据，包括以下步骤：

3.根据权利要求1所述的基于多模态深度玻尔兹曼机的人体行为识别方法，其特征在于，在步骤2)中，建立视觉数据和可穿戴传感器多模态融合模型，包括以下步骤：

2.4)可穿戴传感器把一个采集时间窗口内的腕部和腰部6轴姿态传感器数据共同构成可穿戴传感器特征向量作为输入；

2.5)深度学习直接对原始数据进行采集并通过训练得到特征。

4.根据权利要求1所述的基于多模态深度玻尔兹曼机的人体行为识别方法，其特征在于，在步骤3)中，利用深度神经网络进行异构迁移学习实现对缺失数据的重构，包括以下步骤：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>t</mi> </msub> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <msubsup> <mi>h</mi> <mi>m</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </msup> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>m</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>&lsqb;</mo> <munder> <mo>&Sigma;</mo> <msubsup> <mi>h</mi> <mi>m</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>m</mi> </msub> <mo>,</mo> <msubsup> <mi>h</mi> <mi>m</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>h</mi> <mi>m</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>&lsqb;</mo> <munder> <mo>&Sigma;</mo> <msubsup> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>t</mi> </msub> <mo>,</mo> <msubsup> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>

5.根据权利要求1所述的基于多模态深度玻尔兹曼机的人体行为识别方法，其特征在于，在步骤5)中，根据用户个体特性对公共样本数据产生的深度网络模型进行自适应调整，包括以下步骤：

6.基于多模态深度玻尔兹曼机的人体行为识别***，其特征在于，包括：

数据预处理模块，用于对采集的原始数据进行降噪、平滑以及加窗处理；

7.根据权利要求6所述的基于多模态深度玻尔兹曼机的人体行为识别***，其特征在于：所述数据采集模块采用Kinect传感器采集视觉数据流，采用2个6轴姿态传感器分别采集腰部和腕部的数据，使用Kinect传感器最大的采集频率作为共同的采集频率；所述数据预处理模块使用一种动态可变的加窗方法，分割出每个动作行为的周期；所述深度学习模块采用多模态深度玻尔兹曼机，使用一个共同的隐藏层融合视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机；所述模型训练模块使用多模态公开数据集包括Berkeley多模态人体动作数据集，及获得的实际数据集结合起来构成训练数据集；所述行为识别模块采用softmax回归模型作为分类器，添加于深度神经网络的最后一层。