CN111667005B

CN111667005B - 一种采用rgbd视觉传感的人体交互***

Info

Publication number: CN111667005B
Application number: CN202010507922.7A
Authority: CN
Inventors: 刘潇峰
Original assignee: Zhenjiang Aoyou Network Technology Co ltd
Current assignee: Zhenjiang Aoyou Network Technology Co ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2023-09-12
Anticipated expiration: 2040-06-05
Also published as: CN111667005A

Abstract

本发明涉及计算机技术领域，尤其涉及一种采用RGBD视觉传感的人体交互***，包括：输入模块，预处理模块，训练模块，骨架识别模块和输出模块，输入模块将采集的人体行为影像输入到***中，预处理模块识别并提取出人体区域深度图，通过训练模块得到一个应用到骨架识别模块的训练分类器，骨架识别模块对深度图提取特征，由训练分类器和聚类算法推理出人体骨架节点，输出模块匹配数据图像并输出到显示设备，通过增加多视角深度图降低训练开销，进行三维节点位置合并，使计算出的骨架节点位置更精确；在小规模的集群服务器上用消息传递接口技术对随机森林算法进行并行化加速，减少了分类器生成的成本，加快了训练速度，改进后的骨架识别算法误差更小。

Description

一种采用RGBD视觉传感的人体交互***

技术领域

本发明涉及计算机技术领域，尤其涉及一种采用RGBD视觉传感的人体交互***。

背景技术

虚拟现实是一种在虚拟环境中的交互式体验，利用电脑模拟产生一个三维空间的虚拟世界让使用者感受到身历其境的体验，同时能够自由的与该空间内的事物进行互动，一种有别于普通电脑操作***的的人机交互***成为有效地实现了人与计算机之间对话的技术。人体行为识别的研究在人机交互***中起到至关重要的作用，从简单的行为识别到复杂的多人行为识别方面难度也越来越高，但是也是不可避免的发展趋势。

针对人体行为识别技术的研发方向，首先要寻找合适的特征提取方法，也就是通过特征表达式来表示行为，其次根据特征表达之后寻找合适的动作分类方法。在对人体行为识别中，大多是基于RGB进行的这种方法的缺点是没办法完全利用现实三维空间的所有信息，最明显的就是深度信息丢失,这就导致了传统的行为识别的相关工作难度很大。在微软推出Kinect设备也同时提出了基于深度图的采用像素分类识别继而融合得到骨架节点信息的算法后，人们开始利用深度数据、骨架数据结合传统的RGB数据来实现对多模态数据的特征提取，从而实现对人体的行为识别。

现有技术中的针对人体行为特征提取的特征向量经由随机森林训练器所训练输出二得到的的分类器，资源消耗大、训练时间长，其中训练样本是基于单个像素，一张图片里就会对数千像素的每一个来提取特征，所以训练过程的数据量是其应用场景的成千上万倍，所需要处理的数据量是巨大的，普通PC就只能处理几百张图片数量级的训练，可是这个数量显然未能达到输出训练分类器的要求。

鉴于上述问题的存在，本设计人基于从事此类产品工程应用多年丰富的实务经验及专业知识，并配合学理的运用，积极加以研究创新，以期创设一种采用RGBD视觉传感的人体交互***，使其更具有实用性。

发明内容

本发明所要解决的技术问题是：提供一种采用RGBD视觉传感的人体交互***，解决训练分类器获取成本高和通过RGBD视频数据识别骨架节点的瑕疵。

为了达到上述目的，本发明所采用的技术方案是：一种采用RGBD视觉传感的人体交互***，包括：输入模块，预处理模块，训练模块，骨架识别模块和输出模块；

所述输入模块，通过深度传感设备从多视角采集人体行为影像并将每一帧图像输入到所述***中；

所述预处理模块，对RGBD视频数据中的每一帧图像进行人体检测和人体追踪，识别并提取出人体部分，并输出人体区域深度图；

所述训练模块，通过输入大量标记过的训练样本，对样本进行特征提取将提取出的特征向量输入到随机森林训练器，可以得到一个与***相适应的训练分类器，所述训练分类器应用到所述骨架识别模块中；

所述骨架识别模块，对所述人体区域深度图进行特征提取，并将提取出的特征向量输入到训练分类器，再由聚类算法将分类像素推理出人体基本骨架节点；

所述输出模块，接收所述人体骨架节点，与所述***包含的图像数据库匹配图像数据，将匹配好的***图像输出到显示设备。

进一步地，在采集GRBD视频数据时设置有至少一个视角采集深度信息，同时在人体身上绑定标记点。

进一步地，所述预处理模块对深度传感设备获取的深度图像进行去噪处理并且填补缺失的像素值；

其中，利用彩色图进行双边滤波处理，先根据初始深度图像，对假设的深度值计算得到一个损失立方体然后对损失立方体的每一面通过双边滤波进行平滑，再平滑以后，对每个像素点求最佳匹配的深度值，输出作为新的深度图像，然后迭代进行上述过程直到当前获得的深度图像和输入的深度图像基本没有变化，终止算法，在去噪处理前，先将彩色图像数据分割成区块，在对应深度图上的对应区块上面分别进行平滑去燥。

进一步地，所述训练模块使用消息传递接口技术，将训练改在集群服务器cluster上运行；

同时结合随机森林算法的具体情况进行进一步的优化处理，使用所述消息传递接口技术优化训练算法，每个核心负责一个并行化进程的处理，将M维特征均分到N个核，每个核心启动一个进程并负责M/N维的特征；核心的内存数据只涉及到它所负责的这些维特征，其他核心的内存数据不可见，在需要数据同步时再使用命令进行交换。

进一步地，对所述训练模块中的随机森林树的具体训练流程为：随机采取一定的像素样本作为一棵树的训练样本，则在N个进程中都拥有该样本集合，每个特征负责不同的M/N维特征；

在全局上从M维特征里随机选取少量r维的特征，对r的每一维里计算一个阈值t使得在此阀值下样本分割为两类时确保最优，这r维特征可能分散在不同的进程里并行计算，没有被选取的特征则不计算；

对选出的这r维数特征进行比较，选出所有特征里分类情况最优的那一维特征r0作为树t的根节点标号；

在根节点按特征阀值τ0把树的训练样本分成两个子集Q1和Qr，并把这时的样本集合分割情况同步到所有进程里；

在左右子树里进行同第b步的类似的构造树的递归训练，在每个节点样本数量少或达到最大树深时训练中止。

进一步地，在所述训练模块的训练样本挑选时，主要选取在人机交互中更具代表性的动作，剔除不常用的动作。

进一步地，，所述骨架识别模块通过训练模块得到的训练分类器，输出深度图中不同身体部位的像素，使用mean shift聚类算法根据人体区域分块信息综合计算出人体基本骨架节点。

进一步地，在骨架识别算法之后对部分节点进行后处理，根据人体模型来对预测的节点进行置信度估计，将置信度低的一些节点通过投影得到的多视角深度图提供的信息进行修正或对误差大的节点位置重新计算。

本发明的有益效果为：通过增加多视角深度图降低训练开销，再通过进行三维节点位置合并，使计算出的骨架节点位置更精确；在小规模的集群服务器上用消息传递接口技术对随机森林算法进行并行化加速，减少了分类器生成的成本，加快了训练速度，改进后的骨架识别算法误差更小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的逻辑框图；

图2为本发明实施例中双边滤波去噪逻辑图；

图3为本发明实施例中随机森林训练并行化逻辑图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本实施例中，采用RGBD视觉传感的人体交互***包括输入模块，预处理模块，训练模块，骨架识别模块和输出模块；在采集RGBD视频数据时设置有多个视角采集深度信息，同时在人体身上绑定标记点，通过多维度采集分析人体行为信息，使输出结果更精确；***的输入模块，通过Kinect设备从多视角采集人体行为的多模态数据；预处理模块，提取出RGBD视频数据中的每一帧图像并进行人体检测和人体追踪，识别并提取出人体部分，并输出人体区域深度图；训练模块，通过输入大量标记过的训练样本，对样本进行特征提取将提取出的特征向量输入到随机森林训练器，可以得到一个与***相适应的训练分类器，训练分类器应用到骨架识别模块中；骨架识别模块，对人体区域深度图进行特征提取，并将提取出的特征向量输入到训练分类器，再由mean shift聚类算法将分类像素推理出人体基本骨架节点；输出模块，接收人体骨架节点，与***包含的图像数据库匹配图像数据，将匹配好的***图像输出到显示设备。本发明所公开的的人机交互***使在虚拟现实中人机交互操作更加高效便捷。

作为本申请的一种优选实施例，预处理模块对深度传感设备获取的深度图像进行去噪处理并且填补缺失的像素值；其中，利用彩色图进行双边滤波处理，先根据初始深度图像，对假设的深度值计算得到一个损失立方体然后对损失立方体的每一面通过双边滤波进行平滑，再平滑以后，对每个像素点求最佳匹配的深度值，输出作为新的深度图像，然后迭代进行上述过程直到当前获得的深度图像和输入的深度图像基本没有变化，终止算法，在去噪处理前，先将彩色图像数据分割成区块，在对应深度图上的对应区块上面分别进行平滑去燥。通过双边滤波能够很好地实现保边去噪的目的，对于物体的边缘信息能够比较完整的保留，而经过处理后的深度图像可以直接应用于人体行为识别，提高人体行为识别的准确性。

作为本申请的一种优选实施例，训练模块使用消息传递接口技术，将训练改在集群服务器cluster上运行；同时结合随机森林算法的具体情况进行进一步的优化处理，使用消息传递接口技术优化训练算法，每个核心负责一个并行化进程的处理，将M维特征均分到N个核，每个核心启动一个进程并负责M/N维的特征；核心的内存数据只涉及到它所负责的这些维特征，其他核心的内存数据不可见，在需要数据同步时再使用命令进行交换。在小型集群服务器上训练能够极大地缩短训练时间，而不需要庞大的硬件设备支撑或是耗费漫长的时间，从而使得人机交互在使用上可以更为易于让人接受。

在具体实施过程中，对训练模块中的随机森林树的具体训练流程为：

随机采取一定的像素样本作为一棵树的训练样本，则在N个进程中都拥有该样本集合，每个特征负责不同的M/N维特征；

因为第1到第T棵树的训练样本都是随机选出而有所不同，这样训练组合而成的T棵树的随机森林分类器性能会更优且提高了训练性能，解决了内存消耗的问题的同时可以有效的完成所需的训练要求。在具体实施过程中，在训练模块的训练样本挑选时，主要选取在人机交互中更具代表性的动作，剔除不常用的动作，本发明通过增加多视角深度图降低训练开销的方法，再通过进行三维节点位置合并，不仅减少了训练消耗，还使计算出的骨架节点位置更精确。

在本实施例中，骨架识别模块通过训练模块得到的训练分类器，输出深度图中不同身体部位的像素，使用mean shift聚类算法根据人体区域分块信息综合计算出人体基本骨架节点，在骨架识别算法之后对部分节点进行后处理，根据人体模型来对预测的节点进行置信度估计，将置信度低的一些节点通过投影得到的多视角深度图提供的信息进行修正或对误差大的节点位置重新计算。在具体实施过程中，由于遮挡等原因而在x-y视图里计算不够准确，侧视图能够提供y-z角度的信息，顶视图能够提供x-z角度的信息，结合这些信息可以将某些在二维x-y视图里误差大的节点位置重新计算，这样将后处理得到的节点三维信息更新到原结果就可以有效提高骨架节点估计精度，使输出图像能够呈现更好的效果。

本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种采用RGBD视觉传感的人体交互***，其特征在于，包括输入模块，预处理模块，训练模块，骨架识别模块和输出模块；

所述骨架识别模块，对所述人体区域深度图进行特征提取，并将提取出的特征向量输入到训练分类器，再由聚类算法将分类像素推理出人体骨架节点；

所述输出模块，接收所述人体骨架节点，与所述***包含的图像数据库匹配图像数据，将匹配好的***图像输出到显示设备；

所述训练模块使用消息传递接口技术，将训练改在集群服务器cluster上运行；同时结合随机森林算法的具体情况进行进一步的优化处理，使用所述消息传递接口技术能够优化训练算法，每个核心负责一个并行化进程的处理，将M维特征均分到N个核，每个核心启动一个进程并负责M/N维的特征；核心的内存数据只涉及到它所负责的这些维特征，其他核心的内存数据不可见，在需要数据同步时再使用命令进行交换；

对所述训练模块中的随机森林树的具体训练流程为：

a).随机采取一定的像素样本作为一棵树的训练样本，则在N个进程中都拥有该样本集合，每个特征负责不同的M/N维特征；

b).在全局上从M维特征里随机选取少量r维的特征，对r的每一维里计算一个阈值t使得在此阀值下样本分割为两类时确保最优，这r维特征可能分散在不同的进程里并行计算，没有被选取的特征则不计算；

c).对选出的这r维数特征进行比较，选出所有特征里分类情况最优的那一维特征r0作为树t的根节点标号；

d).在根节点按特征阀值τ0把树的训练样本分成两个子集Q1和Qr，并把这时的样本集合分割情况同步到所有进程里；

e).在左右子树里进行同第b步的类似的构造树的递归训练，在每个节点样本少或达到最大树深时训练中止。

2.根据权利要求1所述一种采用RGBD视觉传感的人体交互***，其特征在于，在采集GRBD视频数据时设置有至少一个视角采集深度信息，同时在人体身上绑定标记点。

3.根据权利要求1所述一种采用RGBD视觉传感的人体交互***，其特征在于，所述预处理模块对深度传感设备获取的深度图像进行去噪处理并且填补缺失的像素值；

其中，利用彩色图进行双边滤波处理，先根据初始深度图像，对假设的深度值计算得到一个损失立方体，然后对损失立方体的每一面通过双边滤波进行平滑，再平滑以后，对每个像素点求最佳匹配的深度值，输出作为新的深度图像，然后迭代进行上述过程直到当前获得的深度图像和输入的深度图像基本没有变化，终止算法，在去噪处理前，先将彩色图像数据分割成区块，在对应深度图上的对应区块上面分别进行平滑去噪。

4.根据权利要求1所述一种采用RGBD视觉传感的人体交互***，其特征在于，在所述训练模块的训练样本挑选时，主要选取在人机交互中更具代表性的动作，剔除不常用的动作。

5.根据权利要求1所述一种采用RGBD视觉传感的人体交互***，其特征在于，所述骨架识别模块通过训练模块得到的训练分类器，输出深度图中不同身体部位的像素，使用meanshift聚类算法根据人体区域分块信息综合计算出人体基本骨架节点。

6.根据权利要求5所述一种采用RGBD视觉传感的人体交互***，其特征在于，在骨架识别算法之后对部分节点进行后处理，根据人体模型来对预测的节点进行置信度估计，将置信度低的一些节点通过投影得到的多视角深度图提供的信息进行修正或对误差大的节点位置重新计算。