CN116229507A

CN116229507A - 人体姿态检测方法及***

Info

Publication number: CN116229507A
Application number: CN202310123988.XA
Authority: CN
Inventors: 陈真贵; 张索非
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-06-06

Abstract

本发明提供了一种人体姿态检测方法及***，所述人体姿态检测方法包括：收集人体关键点数据集并进行标注，构建人体关键点检测网络模型；对人体关键点检测网络模型输出的骨骼序列进行标注；计算人体宽高比，作为摔倒检测的第一特征；构建时空图卷积网络模型，对标注完成的数据集进行模型训练，作为摔倒检测的第二特征；构建人体关键点检测与时空图卷积结构的混合网络模型；通过第一特征与第二特征的加权融合后的预测结果来判断是否发出警报。本发明能够在识别到人体处于摔倒状态时，第一时间发出报警，便于家庭成员及时的采取措施。

Description

人体姿态检测方法及***

技术领域

本发明涉及一种人体姿态检测方法及***，属于技术领域。

背景技术

老年人由于生理因素、疾病因素、环境因素等，容易导致跌倒事件的发生。特别是随着年龄的增长，由于视力下降、肌肉萎缩、骨骼老化等生理因素，跌倒发生的概率会更高。而老年人跌倒之后如果处理不及时，容易留下伤残，甚至会危及生命，也会给家庭和社会带来沉重的医疗负担。

目前，主流的摔倒检测方法主要分为两种，一种是基于外部传感器的摔倒检测方法，该方法通常是将传感器放置在室内墙壁、顶棚、地板等环境或手表、衣物等随身穿戴的物品中，以便采集到人体运动数据，继而通过机器学习等算法对采集到的数据进行训练、分析，以达到检测摔倒的目的。一种是基于计算机视觉的摔倒检测方法，该方法则是通过对视频或图像进行特征提取，机械学习、深度学习等算法训练分析的目标为提取到的特征。上述两种方法中，传感器的方法需要佩戴外部设备，存在适用范围窄、硬件成本高等问题，而现有的如RNN、CNN、LSTM等计算机视觉方法都是简单的将骨骼数据作为矢量序列输入，并没有考虑到骨骼原有的拓扑结构，也无法学习到人体各个关节点之间的依赖性。

有鉴于此，确有必要提出一种人体姿态检测方法及***，以解决上述问题。

发明内容

本发明的目的在于提供一种人体姿态检测方法及***，用于检测人体姿态，及时采取措施。

为实现上述目的，本发明提供了一种人体姿态检测方法，主要包括以下步骤：

S1、收集人体关键点数据集并进行标注，对标注完成的数据集进行组织与划分；

S2、构建人体关键点检测网络模型，对S1中标注完成的数据集进行模型训练；

S3、对人体关键点检测网络模型输出的骨骼序列进行标注，对标注完成的数据集进行组织与划分；

S4、计算人体宽高比，作为摔倒检测的第一特征；

S5、构建时空图卷积网络模型，对S3中标注完成的数据集进行模型训练，作为摔倒检测的第二特征；

S6、构建人体关键点检测与时空图卷积结构的混合网络模型，使用人体关键点检测网络模型以及时空图卷积网络模型的训练结果作为预训练权重，对S1中标注完成的数据集进行模型训练；

S7、将摄像头采集的视频流输入到S6中的混合网络模型中，通过第一特征与第二特征的加权融合后的预测结果来判断是否发出警报。

作为本发明的进一步改进，所述S1具体包括：

S11、通过对图片、视频流当中的图像进行捕获；

S12、通过摄像头进行拍摄并对拍摄中的图像进行采集；

S13、使用标注软件对数据集进行标注，针对每个数据集，需标注数据集中人体脖子、鼻子、左眼、右眼、左耳、右耳、右肩、左肩、右跨、左跨、右手关节、左手关节、右膝盖、左膝盖、右手腕、左手腕、右脚踝和左脚踝这18个关节点的位置坐标；

S14、将数据集进一步划分为训练集、验证集、测试集三部分。

作为本发明的进一步改进，所述S2具体包括：

S21、将一张三通道的RGB图像作为模型的输入，输入图片的形状为[B，C，H，W]，其中，B是每次处理的图片数量，C是图片的通道数，H和W是图片的宽高；

S22、经过人体关键点检测网络模型的骨干网络后，图片的形状变为[B，C，8/H，8/W]，特征图大小压缩到原始输入图的8倍，也就是降采样为原来的8倍，得到的输出Ⅰ；

S23、将输出Ⅰ通过两个分支，分别得到图片的关键点热力图以及关键点的二维坐标位置，从而获得输出Ⅱ和输出Ⅲ；

S24、将输出Ⅱ和输出Ⅲ与输出Ⅰ分别进行特征合并后，再通过相同的两个分支，再次得到图片的关键点热力图以及关键点的二维坐标位置，记为输出Ⅳ和输出Ⅴ；

S25、获取到人体关节点热力图和关联向量后，通过匈牙利算法进行骨骼匹配，最终得到人体的骨骼序列。

作为本发明的进一步改进，所述S3具体包括：

S31、将人体关键点检测网络模型的输出作为数据集进行保存；

S32、使用标注软件对数据集进行标注，针对每个数据集，需标注该数据集中人体所处的状态，状态分为两个类别，正常与摔倒；

S33、将数据集进一步划分为训练集、验证集、测试集三部分。

作为本发明的进一步改进，所述S4具体包括：

S41、将人体图片作为输入，经过人体关键点检测网络模型后得到了该人体的骨骼序列以及人体最小外接矩形；

S42、通过人体最小外接矩形可以得到W和H两个值，其中，W和H是矩阵的宽和高，则该人体在此刻的宽高比计算公式为

r＝w/h。

作为本发明的进一步改进，所述S5具体包括：

S51、将从人体关键点检测网络模型输出的连续的三个时间帧的骨骼序列作为时空图卷积模型的输入，分别对骨骼序列连续的三个时间帧进行建模；

S52、每个时间帧的分量包含：捕捉骨骼数据动态；以及使用图卷积捕捉空间模式，并使用通用标准卷积描述时间特征；

S53、对三个时间帧的分量的输出进行加权融合，最后通过分类激活函数将加权融合后的输出映射到两种状态的概率分类问题，一种为正常，另一种为摔倒，最终得到当前帧的体态信息。

作为本发明的进一步改进，所述S51、S52和S53具体包括：

S511、给定一个动作c，时空图卷积模型输出其动作类标签为

c∈{0,1,…,C}，

其中，C为分类的个数，且C＝2；

S512、动作c经过人体关键点检测网络模型后对应的骨骼序列为无权无向图G为

G＝(S,E)，

18个关节点位置坐标构成的坐标矩阵S为

S＝(x0,y0),(x1,y1),…,(xi,yi)|i∈D，

其中，D为当前人体骨骼中关节点的骨骼集合，x和y为关节点的横纵坐标，i是关节的类别，人体骨骼边集E为

E＝{[1,2],[1,5],...,[2,17],[5,16]}；

S521、根据相邻3帧的坐标矩阵St-1、St和St+1，将3个连续帧之间的位置特征和帧差异特征连接起来进行扩充特征，通过时空图卷积得到骨骼序列构造表现时空块，在每个时空块中通过空间注意力机制和时间注意力机制提取时间特征，通过图卷积和常规卷积提取空间特征；

S522、利用残差网络结构，将多个时空块进行叠加，提取更大范围的动态时空相关性；

S531、经过若干个时空块后连接一个全连接层使得输出维度与预测目标维度相同；

S532、对连续3帧的输出进行加权融合；

S533、使用损失函数对加权融合的结果进行优化，再通过分类激活函数将加权融合后的输出映射到两种状态的概率分类问题从而实现分类和损失监控。

作为本发明的进一步改进，所述S7具体包括：

S71、将人体图片作为输入，经过人体关键点检测网络模型后得到了该人体的骨骼序列，再经过时空图卷积网络模型后得到一个[0，1]范围内的概率值，设为predict；

S72、计算该人体在此帧的宽高比r；

S73、当前时间帧下人体状态信息的识别结果pose的摔倒识别公式为

pose＝predict*0.6+r*0.4；

S74、若识别结果pose大于等于预设的阈值，则判别状态为摔倒，否则判别状态为正常。

为实现上述目的，本发明还提供了一种人体姿态检测***，应用如上所述的人体姿态检测方法。

作为本发明的进一步改进，所述人体姿态检测***包括：

姿态识别监测***，用于对人体骨骼以及体态的识别；

设备状态监测***，用于对各硬件设备的实时监控，增强所述人体姿态检测***的鲁棒性；

远程访问管理模块，用于对数据的可视化展示以及对异常状态的处理。

本发明的有益效果是：本发明能够在识别到人体处于摔倒状态时，第一时间发出报警，便于家庭成员及时的采取措施。

附图说明

图1为本发明实施例的总体功能模块图。

图2为本发明COCO_person_keypoints数据集标注的关键点顺序示意图。

图3为本发明实施例中的标注数据集关键点顺序示意图。

图4为本发明实施例中基于LightWeight-OpenPose的人体关键点检测网络模型结构图。

图5为本发明实施例中的人体姿态估计算法流程图。

图6为本发明实施例中的时空图卷积网络模型的结构图。

图7为本发明实施例中的人体摔倒识别算法流程图。

图8为本发明实施例中的整体运行流程图。

图9为本发明实施例中的正常状态下的示意图。

图10为本发明实施例中的摔倒状态下的示意图。

图11为本发明实施例中捕获图像下发钉钉群的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

另外，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

如图1至图11所示，本发明揭示了一种人体姿态检测方法及***，所述人体姿态检测***包括：姿态识别监测***，设备状态监测***和远程访问管理模块。

如图1所示，展示了基于人体骨骼序列的独居老人姿态检测***的模块组成图。姿态识别监测***主要负责对老人骨骼以及体态的识别；设备状态监测***主要负责对各硬件设备的实时监控，增加***的鲁棒性；远程访问管理模块主要负责数据的可视化展示以及对异常状态的处理。三个子模块并行工作，形成了完整的独居老人姿态监测***。

所述人体姿态检测方法，主要包括以下步骤：

S4、计算人体宽高比，作为摔倒检测的第一特征；

以下将对步骤S1-S7进行详细说明。

在S1中，收集人体关键点数据集的渠道以及标注步骤包括：

S11、通过对图片、视频流当中的图像进行捕获；

S12、通过摄像头进行拍摄并对拍摄中的图像进行采集；

S13、使用标注软件对数据集进行标注。针对每个数据集，需标注数据集中人体脖子、鼻子、左眼、右眼、左耳、右耳、右肩、左肩、右跨、左跨、右手关节、左手关节、右膝盖、左膝盖、右手腕、左手腕、右脚踝和左脚踝这18个关节点的位置坐标；

如图2所示，图2展示了coco_person_keypoints数据集当中的标记顺序，对于已有的数据集的标注方式，如coco_person_keypoints数据集，0～16序号所对应的关键点如表1所示，其中第i个关键点的坐标为(xi，yi)：

标记顺序	关键点位置
		0	鼻子
1	左眼
		2	右眼
3	左耳
		4	右耳
5	左肩
		6	右肩
7	左臂关节
		8	右臂关节
9	左手腕
		10	右手腕
11	左胯
		12	右胯
13	左膝盖
		14	右膝盖
15	左脚踝
		16	右脚踝

在S2中，对所述人体关键点检测网络模型构建结果的试验步骤包括：

S21、将一张三通道的RGB图像作为模型的输入，输入图片的形状为[B，C，H，W]，B是每次处理的图片数量，C是图片的通道数，H和W是图片的宽高；

S23、将输出Ⅰ通过两个分支，分别得到图片的关键点热力图以及关键点的二维坐标位置，从而获得两个结果输出Ⅱ和输出Ⅲ，

S24、将输出Ⅱ和输出Ⅲ与输出Ⅰ进行特征合并后再通过相同的两个分支，再次得到图片的关键点热力图以及关键点的二维坐标位置，记为输出Ⅳ和输出Ⅴ。所以，整个模型的输出是一个列表，形状为[热力图，坐标位置，热力图2，坐标位置2]前两者是第一次通过两个分支得到的输出(Ⅱ、Ⅲ)，后两者是第二次通过分支得到的输出(Ⅳ、Ⅴ)；

在S3中，对于骨骼序列的标注包括：

S32、使用标注软件对数据集进行标注；针对每个数据集，需标注该数据集中人体所处的状态，状态分为两个类别，正常与摔倒；

如图3所示，对于本发明所用到的数据集，采用标注工具对人体骨骼关键点进行标注。图3展示了本发明中所采用的标记顺序，与coco_person_keypoints数据集不同的是，本发明将两侧肩膀的中心点位置生成了一个新的关键点代表脖子，0～17序号所对应的关键点信息如表2所示，其中第i个关键点的坐标为(xi，yi)：

表2

/>

在S4中，为了提高预测的准确性，使用了人体宽高比来作为预测结果的辅助判断条件，包括以下步骤：

S41、假设现有一张人体图片作为输入，经过人体关键点检测网络模型后得到了该人体的骨骼序列以及最小外接矩形；

S42、通过人体最小外接矩形可以得到W，H两个值，W，H是矩阵的宽和高，则该人体在此刻的宽高比计算公式为

r＝w/h。

如图4所示，图4展示了基于OpenPose的人体关键点检测网络模型结构：人体关键点检测网络模型按模块可分为骨干网络、初始化分支、优化分支三个模块。其中骨干网络主要负责对输入图像的特征提取；初始化分支主要负责将特征图生成两个分支，一个分支为长度19的人体关节点的热力图，另一个分支为长度38的人体关节点二维坐标位置；多个优化分支之间主要通过利用前一个优化分支(第一个优化分支利用初始化分支)所提取到的信息来进一步优化检测的结果。优化分支包含了5个优化分支块。这里将常规openpose所用到的7×7的卷积替换成1×1，3×3，3×3的卷积级联。为了让这个级联结构与7×7的卷积核有同样的感受野，在最后一个3×3的卷积中，使用了空洞卷积。另外，对与上图中的每个块，还使用了残差连接结构。

在S5中，对所述时空图卷积网络模型构建结果的试验步骤包括：

S52、具体而言，每帧的分量包含两个主要部分:(1)有效捕捉骨骼数据动态时空相关性的时空注意机制；(2)时空卷积，同时使用图卷积捕捉空间模式，同时使用通用标准卷积描述时间特征；

S53、对三个分量的输出进行加权融合，最后通过分类激活函数将加权融合后的输出映射到两种状态的概率分类问题，一种为正常，另一种为摔倒，最终得到当前帧的体态信息。

在S51、S52和S53中，具体步骤包括：

S511、给定一个动作c，时空图卷积模型输出其动作类标签为

c∈{0,1,…,C}，

其中，C为分类的个数，C＝2；

G＝(S,E)，

18个关节点位置坐标构成的坐标矩阵S为

S＝(x0,y0),(x1,y1),…,(xi,yi)|i∈D，

E＝{[1,2],[1,5],...,[2,17],[5,16]}；

S521、根据相邻3帧的坐标矩阵St-1、St和St+1，将3个连续帧之间的位置特征和帧差异特征连接起来进行扩充特征，通过时空图卷积得到骨骼序列构造表现时空关系，称之为时空块，在每个时空块中由空间注意力机制+时间注意力机制提取时间特征，图卷积+常规卷积提取空间特征；

S522、利用残差网络结构，将多个时空块进行叠加，进一步提取更大范围的动态时空相关性；

S532、对连续3帧的输出进行加权融合；

如图6所示，图6展示了时空图卷积网络模型结构图，该模型由3个部件组成，这三个部件分别各自关注t-1时刻、t时刻、t+1时刻的数据。每一个部件又由若干个时空块组成，每个时空块由2个部分组成。注意力机制是一种用于提升基于RNN(LSTM或GRU)的模型的效果的机制，一般称为Attention Mechanism。由于RNN本身所具有的梯度消失问题，对于较长的句子，我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息，所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降。而注意力机制则将注意力关注于与当前序列相关的前后序列中。注意力机制模型中，当我们在处理当前序列时，我们会寻找所有序列中相对应的几个序列，并结合之前的已经处理的部分作出相应的处理，这样，当我们解码的时候就可以看到编码的所有信息，而不仅局限于原来模型中定长的隐藏向量，并且不会丧失长距离的信息。本方案中，在时间维度上，不同时刻的人体骨骼序列之间存在相关性，空间注意力机制+时间注意力机制部分通过注意力机制获取到的各个关节点之间的动态相关性来抓取动态的时序相关性。图卷积的核心思想是消息传递，图中的每个节点通过卷积的形式将消息传递给邻居并接收从邻居传递过来的消息，而图卷积的操作可以看作处于空域的图信号变换到频域上后对频域属性进行滤波，然后再恢复到原来的图信号所在的空域中从而完成对图信号的降噪与特征提取功能。本方案中，人体关键点检测网络模型所输出的骨骼序列是一种图结构，骨骼序列上的各个关节点可以当作图上信号。

因此图神经网络的摔倒预测模型实际上就是利用谱图方法将卷积延伸到图结构数据上，而将关节点的相关数据作为图上的信号，进而在图上对这些图信号进行直接处理，从而获取到骨骼序列上有意义的姿态模式和特征。时空图卷积网络模型的图卷积+常规卷积部分包括了空间维度上的图卷积以及沿时间维度上的卷积，空间维度上的图卷积主要从邻近时间捕获空间相关性，时间维度上的卷积则利用邻近时间的时间相关性。经过若干个时空块后连接了一个全连接层层将所有部件的输出映射到与预测目标同一个维度，在对所有部件进行加权融合后通过分类激活函数来完成分类问题。

在S7中，对所述结果是否进行报警的判断，包括以下步骤：

S71、假设现有一张人体图片作为输入，经过人体关键点检测网络模型后得到了该人体的骨骼序列，再经过时空图卷积网络模型后得到一个[0，1]范围内的概率值，设为predict；

S72、计算该人体在此帧的宽高比r；

S73、则当前帧下人体状态信息pose的摔倒识别公式为

pose＝predict*0.6+r*0.4，

S74、若识别结果pose大于等于之前设定好的阈值，则判别状态为摔倒，否则判别状态为正常。从时空图卷积模型识别出摔倒的那一帧开始，若连续三帧的计算结果poset-1，poset，poset+1的值均为摔倒，则发出警报，此时设备将捕获当前帧的人体图像并发送给物联网平台，物联网平台再将该图像通过调用API的方式发送给家庭成员所在的钉钉群，家庭成员在收到图像后即可采取相应措施。

如图7至图11所示，图8为本发明的整体运行流程图，设备运行后，通过摄像头捕获视频流实现对独居老人的实时姿态监测，当老人处于摔倒状态时，摄像头将捕捉到的老人摔倒信息，触发语音播报通知室内的其他家庭成员，之后将报警信息发送到家属的钉钉群中，方便家人查看及时采取救援措施。同时，采集到的老人状态信息以及设备的硬件信息将会实时的上传到阿里云的物联网云平台中，再通过Iot Studio中的Web可视化，使得家庭成员可以通过管理员登录的方式在Web网页上查看当前家内老人的状态以及设备状态。此外，设备还可以实时的反馈当前设备的状态信息并将其信息上传至物联网平台，以可视化的形式呈现，当***检测到设备状态异常时，自动对异常做出相应的语音播报，并将报警信息发送到钉钉群中。

综上所述，时空图卷积网络模型大多运用在交通预测领域，时空图卷积网络模型的核心思想就是图卷积+注意力机制，基于上述观点，本专利将时空图卷积网络模型应用在与交通客流一样具有数据动态时空相关性的骨骼序列图中，并与轻量化的人体关键点检测网络模型进行结合，再加上计算人体最小外接矩形的宽高比来作为辅助判断，实现对人体骨骼序列以及人体状态的识别，实验结果表明该方案具有一定的可行性。当模型识别到人体处于摔倒状态时，***第一时间发出报警，对该状态下的帧进行抓拍，并将抓拍结果发送到家庭成员所在的钉钉群中，方便家庭成员及时的采取措施。

目前现有的大部分姿态估计的发明只能在本地或在局域网内才能进行数据通信传递信息，在局域网内的远程监控是不具有说服力的，而本发明实现了本地设备与物联网平台之间的数据通信，实现了真正意义上的远程监控。此外，本发明将PC设备、物联网平台以及钉钉群聊连接起来，实现了设备终端，移动终端以及云端的三端数据共享与控制，在发生异常信息时，能够在第一时间将报警信息发送至所有家庭成员手机、电脑、平板等终端上，大大提高了家庭成员应对紧急状况下的效率。

本发明提供了一个多平台多渠道的适用环境，不仅适用于捕获摄像头，还可以适用于图片与视频流，不仅可以部署在PC端，还可以通过移植的方式部署在小型嵌入式单片机中，具有较高的实用性。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种人体姿态检测方法，其特征在于，主要包括以下步骤：

S4、计算人体宽高比，作为摔倒检测的第一特征；

2.根据权利要求1所述的人体姿态检测方法，其特征在于：所述S1具体包括：

S11、通过对图片、视频流当中的图像进行捕获；

S12、通过摄像头进行拍摄并对拍摄中的图像进行采集；

3.根据权利要求1所述的人体姿态检测方法，其特征在于：所述S2具体包括：

4.根据权利要求1所述的人体姿态检测方法，其特征在于：所述S3具体包括：

5.根据权利要求1所述的人体姿态检测方法，其特征在于：所述S4具体包括：

S42、通过人体最小外接矩形得到W和H两个值，其中，W和H是矩阵的宽和高，则该人体在此刻的宽高比计算公式为

r＝w/h。

6.根据权利要求1所述的人体姿态检测方法，其特征在于：所述S5具体包括：

7.根据权利要求6所述的人体姿态检测方法，其特征在于：所述S51、S52和S53具体包括：

S511、给定一个动作c，时空图卷积模型输出其动作类标签为c∈{0,1,…,C}，

其中，C为分类的个数，且C＝2；

G＝(S,E)，

18个关节点位置坐标构成的坐标矩阵S为

S＝(x0,y0),(x1,y1),…,(xi,yi)|i∈D，

E＝{[1,2],[1,5],...,[2,17],[5,16]}；

S532、对连续3帧的输出进行加权融合；

8.根据权利要求5所述的人体姿态检测方法，其特征在于：所述S7具体包括：

S72、计算该人体在此帧的宽高比r；

pose＝predict*0.6+r*0.4；

9.一种人体姿态检测***，其特征在于，应用如权利要求1-8中任一项所述的人体姿态检测方法。

10.根据权利要求9所述的人体姿态检测***，其特征在于，所述人体姿态检测***包括：

姿态识别监测***，用于对人体骨骼以及体态的识别；