CN113392758A

CN113392758A - 一种面向救援培训的行为检测与效果评价的方法及装置

Info

Publication number: CN113392758A
Application number: CN202110656392.7A
Authority: CN
Inventors: 胡智; 石志国
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-14

Abstract

本发明涉及图像识别技术领域，特别是指一种面向救援培训的行为检测与效果评价的方法及装置。方法包括：获取待识别图像；将所述待识别图像输入到VGG‑19卷积神经网络，获取特征图像序列；将所述特征图像序列输入Open‑pose网络模型中，通过所述Open‑pose网络模型识别所述待识别图像15个骨骼点，将所述15个骨骼点的坐标转化为数字序列；将所述数字序列规范化处理，计算出肢体长度、角度参数，将所述肢体长度以及角度参数传入三层全连接层，获取预估计姿态类型；获取预先存储的预估计姿态类型对应的样本骨骼点坐标的数字序列，根据样本数字序列以及所述待识别图像对应的数字序列，判断所述待识别图像是否达标。采用本发明，造价低、效率高，可以大范围使用。

Description

一种面向救援培训的行为检测与效果评价的方法及装置

技术领域

本发明涉及图像识别技术领域，特别是指一种面向救援培训的行为检测与效果评价的方法及装置。

背景技术

应急救援指针对突发、具有破坏力的紧急事件采取预防、预备、响应和恢复的活动与计划。应急救援在灾难发生时起到了重要的作用，为人民生活财产安全保驾护航。地震、矿井塌陷、火灾、洪水等灾难一直威胁着人民生命财产安全，据应急管理部发布的2020年一季度全国自然灾害统计数据，包括火灾、洪水、地震等各种自然灾害已共造成504.8万人次受灾，42人死亡失踪，2.4万人紧急转移安置；1100余间房屋倒塌，13.3万间房屋损坏。因此应急救援在维护国家安全和人民生命财产安全上有着重大的责任，但是强大的应急救援能力需要强有力的预案和培训。目前我国的应急救援训练领域发展较为缓慢，相比较欧美等发达国家应急救援训练发展较早，但我国近几年来正在不断增加应急救援培训预算，积极开展重大研究项目提高我国应急救援并积极制定救援培训方案。

目前我国应急救援领域研究多为针对某一训练项目设计并制作人机交互式物联网设备，通过穿戴式传感器获取到特定的参数信息，如脉搏传感器、握力传感器、速度传感器等等，根据需求设定专门的方案。但是利用硬件设备的方式进行训练有很多弊端，繁重的传感器会影响到被训练人员的动作，限制训练人员的行动，且硬件设备的检测指标单一，训练过程中会需要多种不同的设备，造价较高而且有一定损耗。此外也有部分研究指出利用虚拟技术实现训练，如利用虚拟现实(VR)技术模拟真实灾难场景，让受训练成员身临其境，但是效果较好的VR效果造价很高，不适合大范围普遍使用。

发明内容

本发明实施例提供了一种面向救援培训的行为检测与效果评价的方法及装置。所述技术方案如下：

一方面，提供了一种面向救援培训的行为检测与效果评价的方法，该方法应用于电子设备，该方法包括：

获取待识别图像；

将所述待识别图像输入到VGG-19卷积神经网络，获取特征图像序列；

将所述特征图像序列输入Open-pose网络模型中，通过所述Open-pose网络模型识别所述待识别图像15个骨骼点，将所述15个骨骼点的坐标转化为数字序列；其中，所述15个骨骼点包括头部、颈部、左肩部、右肩部、左肘部、右肘部、左手部、右手部、腰中心部、左臀部、右臀部、左膝部、右膝部、左脚部、右脚部；

将所述数字序列规范化处理，计算出肢体长度、角度参数，将所述肢体长度以及角度参数传入三层全连接层，获取预估计姿态类型；

获取预先存储的预估计姿态类型对应的样本骨骼点坐标的数字序列，根据所述样本骨骼点坐标的数字序列以及所述待识别图像对应的骨骼点坐标的数字序列，判断所述待识别图像是否达标。

可选地，所述将所述待识别图像输入到VGG-19卷积神经网络之前，包括：

对所述待识别图像进行裁剪缩放；

对裁剪缩放后的待识别图像进行色彩突出。

可选地，所述对所述待识别图像进行裁剪缩放，包括：

获取摄像头采集的图像的像素数据，根据像素大小进行等比例缩放，缩放至224*224，若所述图像的长宽比小于1:1，则截掉上部；若所述图像的长宽比大于1:1，则左右同时截掉同等像素值，最终获得224*224*3的RGB图像，即为裁剪缩放后的待识别图像。

可选地，所述对裁剪缩放后的待识别图像进行色彩突出，包括：

将裁剪缩放后的待识别图像的色彩空间转换为HSV色彩空间，并根据红色的HSV值设定范围，设置掩膜。

可选地，所述获取待识别图像，包括：

获取待识别视频；

在所述待识别视频中，以每秒10帧的速度抽取视频中的图像序列，作为待识别图像。

可选地，所述Open-pose网络模型包括全连接层以及softmax层；

所述将所述待识别图像输入到VGG-19卷积神经网络，获取特征图像序列，包括：

通过卷积层对所述待识别图像提取图像特征，通过池化层降低所述图像特征的输入尺寸，提取所述图像特征关键点；

将所述肢体长度以及角度参数传入三层全连接层，获取预估计姿态类型，包括：

将所述15个骨骼点的横纵坐标S_x和S_y、13个躯体长度l_i、13个躯体角度θ_i、常数参数输入全连接层，通过全连接层得到预估计姿态类型；

通过下述公式(1)(2)计算躯体长度l_i以及躯体角度θ_i：

一方面，提供了一种面向救援培训的行为检测与效果评价的装置，该装置应用于电子设备，该装置包括：

获取单元，用于获取待识别图像；

输入单元，用于将所述待识别图像输入到VGG-19卷积神经网络，获取特征图像序列；

识别单元，用于将所述特征图像序列输入Open-pose网络模型中，通过所述Open-pose网络模型识别所述待识别图像15个骨骼点，将所述15个骨骼点的坐标转化为数字序列；其中，所述15个骨骼点包括头部、颈部、左肩部、右肩部、左肘部、右肘部、左手部、右手部、腰中心部、左臀部、右臀部、左膝部、右膝部、左脚部、右脚部；

预估单元，用于将所述数字序列规范化处理，计算出肢体长度、角度参数，将所述肢体长度以及角度参数传入三层全连接层，获取预估计姿态类型；

判断单元，用于获取预先存储的预估计姿态类型对应的样本骨骼点坐标的数字序列，根据所述样本骨骼点坐标的数字序列以及所述待识别图像对应的骨骼点坐标的数字序列，判断所述待识别图像是否达标。

可选地，所述预处理单元，用于：

将所述待识别图像输入到VGG-19卷积神经网络之前，对所述待识别图像进行裁剪缩放；

对裁剪缩放后的待识别图像进行色彩突出。

可选地，所述预处理单元，用于：

可选地，所述获取单元，用于：

获取待识别视频；

可选地，所述Open-pose网络模型包括全连接层以及softmax层；

所述识别单元，用于：

通过卷积层对所述待识别图像提取图像特征，通过池化层降低所述图像特征的输入尺寸，提取所述图像特征关键点，识别15个骨骼点，将所述15个骨骼点的坐标转化为数字序列；

所述识别单元，用于：

通过下述公式(1)(2)计算躯体长度l_i以及躯体角度θ_i：

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述面向救援培训的行为检测与效果评价的方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述面向救援培训的行为检测与效果评价的方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

上述方案中，通过将预处理后的图像输入VGG-19卷积神经网络与Open-pose模型，提取骨骼关键点坐标，识别人体姿态，并将识别出的人体姿态与样本人体姿态进行比对，判断人体姿态是否达标。本发明造价低、准确率高，可以实时检测并记录，便于用户使用，适合大范围普遍使用。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种面向救援培训的行为检测与效果评价的方法流程图；

图2是本发明实施例提供的一种面向救援培训的行为检测与效果评价的方法流程图；

图3是本发明实施例提供的一种卷积层的结构示意图；

图4是本发明实施例提供的一种关键骨骼点的结构示意图；

图5是本发明实施例提供的一种人体姿态的关键骨骼点示意图；

图6是本发明实施例提供的一种面向救援培训的行为检测与效果评价的装置框图；

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种面向救援培训的行为检测与效果评价的方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图1所示的面向救援培训的行为检测与效果评价的方法流程图，该方法的处理流程可以包括如下的步骤：

步骤101、获取待识别图像。

步骤102、将待识别图像输入到VGG-19卷积神经网络，获取特征图像序列。

步骤103、将特征图像序列输入Open-pose网络模型中，通过Open-pose网络模型识别待识别图像15个骨骼点，将15个骨骼点的坐标转化为数字序列。

其中，15个骨骼点包括头部、颈部、左肩部、右肩部、左肘部、右肘部、左手部、右手部、腰中心部、左臀部、右臀部、左膝部、右膝部、左脚部、右脚部。

步骤104、将数字序列规范化处理，计算出肢体长度、角度参数，将肢体长度以及角度参数传入三层全连接层，获取预估计姿态类型。

步骤105、获取预先存储的预估计姿态类型对应的样本骨骼点坐标的数字序列，根据样本骨骼点坐标的数字序列以及待识别图像对应的骨骼点坐标的数字序列，判断待识别图像是否达标。

可选地，将待识别图像输入到VGG-19卷积神经网络之前，包括：

对待识别图像进行裁剪缩放。

对裁剪缩放后的待识别图像进行色彩突出。

可选地，对待识别图像进行裁剪缩放，包括：

获取摄像头采集的图像的像素数据，根据像素大小进行等比例缩放，缩放至224*224，若图像的长宽比小于1:1，则截掉上部。若图像的长宽比大于1:1，则左右同时截掉同等像素值，最终获得224*224*3的RGB图像，即为裁剪缩放后的待识别图像。

可选地，对裁剪缩放后的待识别图像进行色彩突出，包括：

可选地，获取待识别图像，包括：

获取待识别视频。

在待识别视频中，以每秒10帧的速度抽取视频中的图像序列，作为待识别图像。

可选地，Open-pose网络模型包括全连接层以及softmax层。

将待识别图像输入到VGG-19卷积神经网络，获取特征图像序列，包括：

通过卷积层对待识别图像提取图像特征，通过池化层降低图像特征的输入尺寸，提取图像特征关键点。

将肢体长度以及角度参数传入三层全连接层，获取预估计姿态类型，包括：

将15个骨骼点的横纵坐标S_x和S_y、13个躯体长度l_i、13个躯体角度θ_i、常数参数输入全连接层，通过全连接层得到预估计姿态类型；

通过下述公式(1)(2)计算躯体长度l_i以及躯体角度θ_i：

本发明实施例提供了一种面向救援培训的行为检测与效果评价的方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。姿态识别分为“自顶而下”和“自底而上”两种思想。“自顶而下”指先使用图像检测方法检测出图像中的人体，并将检测出的图像分割出来传入下一层，再在小的图像中识别骨骼关键点。“自底而上”思想指直接在完整图像中检测出可能的人体骨骼关键点，第二步再将关键点根据一定的算法链接成人体。“自顶而下”思想更符合普通的思维方式，但是多次的检测计算量较大，尤其是图像中人数较多时，需进行多次的关键点检测。“自底而上”方法直接检测图像中全部的骨骼关键点，对于多人图像也有较高的计算效率。

如图2所示的面向救援培训的行为检测与效果评价的方法流程图，该方法的处理流程可以包括如下的步骤：

步骤201、获取待识别视频。

一种可行的实施方式中，本发明应用于应急救援训练实际场景中，在特定空间中，将摄像机摆放至空间前端，该摄像机位置应在距离地面一米左右，此高度能够使摄像机采集到的画面中，人体比例适中，适合进行姿态识别。

摄像机像素不必过高，由于卷积神经网络有固定的图片输入大小，过高像素的图片会通过抽值压缩统一后传入网络。

步骤202、在待识别视频中，以每秒10帧的速度抽取视频中的图像序列，作为待识别图像。

步骤203、对待识别图像进行裁剪缩放。

一种可行的实施方式中，获取摄像头采集的图像的像素数据，根据像素大小进行等比例缩放，缩放至224*224，若图像的长宽比小于1:1，则截掉上部。若图像的长宽比大于1:1，则左右同时截掉同等像素值，最终获得224*224*3的RGB图像，即为裁剪缩放后的待识别图像。

步骤204、对裁剪缩放后的待识别图像进行色彩突出。

一种可行的实施方式中，将裁剪缩放后的待识别图像的色彩空间转换为HSV色彩空间，并根据红色的HSV值设定范围，设置掩膜。

步骤205、通过卷积层对待识别图像提取图像特征，通过池化层降低图像特征的输入尺寸，提取图像特征关键点，得到特征图像序列。

一种可行的实施方式中，如图3所示，将裁剪缩放后的待识别图像输入VGG-19卷积神经网络，卷积神经网络能够利用大量不同的卷积层获取图像中的边缘，提取图像特征。最大池化层(maxpooling)能够在尽量维持图像特征不被破坏的情况下降低输入尺寸，从而减少参数数量，目的是提取到特征图像。

步骤206、将特征图像序列输入Open-pose网络模型中，通过卷积层对待识别图像提取图像特征，通过池化层降低图像特征的输入尺寸，提取图像特征关键点，识别15个骨骼点，将15个骨骼点的坐标转化为数字序列。

一种可行的实施方式中，Open-pose框架共分为两个分支、多个阶段，一个分支用于关键点置信图(骨骼定位)训练，一个分支用于局部亲和度(骨骼关键点连接为人体)训练。

同时由于部分关键点难以区分，如左肘部和右肘部、左臀部和右臀部等，通过多阶段不断迭代级联计算，得出最终结果。

传统网络识别方法多为18个关键点，本方法应用于应急救援培训的姿态识别，故选择其中主要的14个躯体关键点，并另外加入“腰中心部位”这一关键点，该关键点对于俯卧撑等关键动作有良好的判断价值。这样，本发明实施例中识别的15个骨骼点包括头部、颈部、左肩部、右肩部、左肘部、右肘部、左手部、右手部、腰中心部、左臀部、右臀部、左膝部、右膝部、左脚部、右脚部，如图4所示。

本方法效果评估部分针对俯卧撑、高抬腿、匍匐前进、下蹲、站立几个动作进行评估，部分已有方法会将骨骼关键点图重新放入卷积神经网络中判断动作类型，但是由于骨骼关键点已经提取了关键数据，本发明使用全连接层，后接softmax层作为输出，输入为动作预测结果，输出为各动作可行性的概率。

步骤207、将数字序列规范化处理，计算出肢体长度、角度参数，将肢体长度以及角度参数传入三层全连接层，获取预估计姿态类型。

一种可行的实施方式中，由于需要将图像中骨骼连线图(即代表单个人)的部分截取，本方法以颈部关键点为中心，其他坐标点依据中心点进行坐标变换，使坐标数值更能够代表各种姿态动作的骨骼坐标关系。

为了将更多输入参数加入网络，使得有更准确的预测结果，将15个骨骼点的横纵坐标S_x和S_y、13个躯体长度l_i、13个躯体角度θ_i、常数参数输入全连接层，通过全连接层得到预估计姿态类型。

其中，通过下述公式(1)(2)计算躯体长度l_i以及躯体角度θ_i：

举例来说，如图5，对于俯卧撑动作，设定效果判定条件如下：

①腰部关键点、左右臀部关键点、左右脚部关键点呈现角度小于20°。

②腰部关键点、左右臀部关键点低于肩部关键点。

③以脚部关键点和手部关键点的水平位置为水平线，判断其他关键点均不在水平线上，即身体其他部分不接触地面。

对于高抬腿动作，设定效果判断条件如下：

①脚部关键点高于膝盖关键点高度。

②膝部关键点高于腰部关键点高度。

对于匍匐前进动作，设定效果判定条件如下：

①身体相邻关键点所成角度小于10度。

步骤208、获取预先存储的预估计姿态类型对应的样本骨骼点坐标的数字序列，根据样本骨骼点坐标的数字序列以及待识别图像对应的骨骼点坐标的数字序列，判断待识别图像是否达标。

一种可能的实施方式中，确定待识别图像的预估计姿态类型后，将获取预先存储的该姿态类型的样本骨骼点坐标的数字序列，将样本数字序列与识别出的数字序列进行比对，如果相似度大于或等于预设阈值，则判断达标，如果相似度小于预设阈值，则判断不达标。

图6是根据一示例性实施例示出的一种面向救援培训的行为检测与效果评价的装置框图。参照图6，该装置包括：

获取单元610，用于获取待识别图像；

输入单元620，用于将所述待识别图像输入到VGG-19卷积神经网络，获取特征图像序列；

识别单元630，用于将所述特征图像序列输入Open-pose网络模型中，通过所述Open-pose网络模型识别所述待识别图像15个骨骼点，将所述15个骨骼点的坐标转化为数字序列；其中，所述15个骨骼点包括头部、颈部、左肩部、右肩部、左肘部、右肘部、左手部、右手部、腰中心部、左臀部、右臀部、左膝部、右膝部、左脚部、右脚部；

预估单元640，用于将所述数字序列规范化处理，计算出肢体长度、角度参数，将所述肢体长度以及角度参数传入三层全连接层，获取预估计姿态类型；

判断单元650，用于获取预先存储的预估计姿态类型对应的样本骨骼点坐标的数字序列，根据所述样本骨骼点坐标的数字序列以及所述待识别图像对应的骨骼点坐标的数字序列，判断所述待识别图像是否达标。

可选地，所述预处理单元，用于：

对裁剪缩放后的待识别图像进行色彩突出。

可选地，所述预处理单元，用于：

可选地，所述获取单元，用于：

获取待识别视频；

可选地，所述Open-pose网络模型包括全连接层以及softmax层；

所述识别单元，用于：

通过下述公式(1)(2)计算躯体长度l_i以及躯体角度θ_i：

图7是本发明实施例提供的一种电子设备700的结构示意图，该电子设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述面向救援培训的行为检测与效果评价的方法。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述面向救援培训的行为检测与效果评价的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向救援培训的行为检测与效果评价的方法，其特征在于，所述方法包括：

获取待识别图像；

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别图像输入到VGG-19卷积神经网络之前，包括：

对所述待识别图像进行裁剪缩放；

对裁剪缩放后的待识别图像进行色彩突出。

3.根据权利要求2所述的方法，其特征在于，所述对所述待识别图像进行裁剪缩放，包括：

4.根据权利要求2所述的方法，其特征在于，所述对裁剪缩放后的待识别图像进行色彩突出，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取待识别图像，包括：

获取待识别视频；

6.根据权利要求1所述的方法，其特征在于，所述Open-pose网络模型包括全连接层以及softmax层；

通过下述公式(1)(2)计算躯体长度l_i以及躯体角度θ_i：

7.一种面向救援培训的行为检测与效果评价的装置，其特征在于，所述装置包括：

获取单元，用于获取待识别图像；

8.根据权利要求7所述的装置，其特征在于，所述预处理单元，用于：

对裁剪缩放后的待识别图像进行色彩突出。

9.根据权利要求8所述的装置，其特征在于，所述预处理单元，用于：

10.根据权利要求8所述的装置，其特征在于，所述预处理单元，用于：