CN113158766A

CN113158766A - 面向无人驾驶的基于姿态估计的行人行为识别方法

Info

Publication number: CN113158766A
Application number: CN202110206460.XA
Authority: CN
Inventors: 孟宇; 王美军; 刘立; 顾青; 许焱; 高宇; 曲紫畅
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-07-23

Abstract

本发明提供一种面向无人驾驶的基于姿态估计的行人行为识别方法，属于人体姿态识别技术领域。该方法首先通过车载单目摄像头捕获交通场景下的行人视频流并解码为RGB序列图像帧，采用目标检测网络在序列图像中检测人体并根据检测目标框提取人体图像得到图像序列对应的人体序列，利用人体姿态估计网络对序列人体图像的关节点热图分布进行估计并回归得到图像序列的人体关节点2D数值坐标，利用人体3D姿态重构网络将图像序列的2D人体姿态重构为人体关节点3D数值坐标，最后利用GCN的网络模型从人体图关节点3D数值坐标序列中获取人体姿态的时空关系，以实现交通环境下人体动作的识别。本发明用于捕获行人意图，可有效识别复杂交通场景下行人动作。

Description

面向无人驾驶的基于姿态估计的行人行为识别方法

技术领域

本发明涉及人体姿态识别技术领域，特别是指一种面向无人驾驶的基于姿态估计的行人行为识别方法。

背景技术

随着计算机视觉在自动驾驶领域的发展，识别复杂交通场景下的物体，实现无人驾驶车辆的主动规避已是目前着重研究的问题。其中行人安全作为道路交通安全最重要的因素之一，识别行人动作意图，减少人车伤害成为研究问题的核心之一。

目前，道路交通场景下的行人识别通常用于重要交通路口的固定区域监控，视野区域固定，无法满足无人驾驶环境下的不同场景的行人识别；在行人动作识别中，3D人体骨骼关键点检测的行人动作数据集需要采用体感设备深度摄像头，虽然可以采集更多信息，但场景受限，价格昂贵，在交通行人动作数据集的采集中难以实现。因此，在面对无人驾驶的交通场景中，采用2D人体姿态关键点和3D重建的方法识别行人动作意图。

发明内容

本发明要解决的技术问题是提供一种面向无人驾驶的基于姿态估计的行人行为识别方法，在复杂交通场景下有效识别行人动作，捕获行人意图，为行人与无人驾驶车辆之间提供保障交通安全的途径。

该方法首先通过车载单目摄像头捕获交通场景下的行人视频流并解码为RGB序列图像帧；其次，采用目标检测网络在序列图像中检测人体并根据检测目标框提取人体图像得到图像序列对应的人体序列；然后，利用人体姿态估计网络对序列人体图像的关节点热图分布进行估计并回归得到图像序列的人体关节点2D数值坐标；利用人体3D姿态重构网络将图像序列的2D人体姿态重构为图像序列的人体关节点3D数值坐标；最后，利用GCN的网络模型从人体图关节点3D数值坐标序列中获取人体姿态的时空关系，以实现交通环境下人体动作的识别。

具体包括步骤如下：

(1)通过车载单目摄像头捕获交通场景下的行人视频流并解码为RGB序列图像帧；

(2)采用目标检测网络在步骤(1)得到的序列图像中检测人体并根据检测目标框提取人体图像得到图像序列对应的人体序列；

(3)利用人体姿态估计网络对人体序列图像的关节点热图分布进行估计并回归得到图像序列的人体关节点2D数值坐标，形成图像序列的2D人体姿态；

(4)利用人体3D姿态重构模型网络将图像序列的2D人体姿态重构为图像序列的人体关节点3D数值坐标；

(5)利用GCN网络模型从人体关节点3D数值坐标序列中获取人体姿态的时空关系，实现交通环境下人体动作的识别。

其中，步骤(1)中具体为：车载单目摄像头捕获交通场景下的行人视频流，并将视频流传输到车载计算平台上，基于OpenCV的解码算法将YUV格式的图像进行转换获得RGB格式的序列图像帧，同时得到图像帧的分辨率以定义图像帧的像素坐标系。

步骤(2)中选择行人数据集训练Yolov3目标检测网络以实现人体检测，图像帧经过Yolov3目标检测网络处理后，从中提取出特征图，根据特征图精准定位人体在输入图像帧像素坐标系下的位置，最后根据定位的人体框提取出人体图像；其中，行人数据集是基于实际交通场景自制的数据集，交通场景不少于5万张场景图，行人不少于15万人次。

步骤(3)中首先用coco-annotator标注工具自制交通场景下的人体姿态数据集，以训练Alphapose人体姿态估计网络，通过数据集训练，人体姿态估计网络学习到人体的关节点热图分布，通过热图的回归得到关节点在人体框中的数值坐标，并将数值坐标映射回输入图像帧，最后得到人体关节点在输入图像帧像素坐标系下中的坐标；其中，人体关节点包括鼻子、颈部、左肩部、左肘部、左手腕、右肩部、右肘部、右手腕、脊柱、左臀部、左膝盖、左脚踝、右臀部、右膝盖、右脚踝。

步骤(3)中形成2D人体姿态的方法包括STN、SDTN、p-PoseNMS、DeepPose。

步骤(4)中具体为：将开源数据集Human3.6M中2D人体姿态作为输入，对人体3D姿态重构模型3D-baseline进行训练，得到训练模型一，再将步骤(3)中得到的2D人体姿态坐标作为训练模型一的输入，输出3D数值坐标。

步骤(4)中人体3D姿态重构模型网络采用线性卷积、深度卷积神经网络的BN层、Relu激活函数、Dropout、空洞卷积方法中的一种来构造。

步骤(5)中首先基于3D人体姿态行为数据集Human3.6M，以人体3D姿态作为输入，对GCN网络模型进行训练，得到训练模型二；再将步骤(4)中得到的序列图像对应的3D数值坐标作为训练模型二的输入，最后GCN模型识别人体的动作类别。

步骤(5)中采用了空间卷积提取人体特征、时序卷积处理前后帧时序信息，图卷积建立关节点间联系的方法实现识别效果。

本发明的上述技术方案的有益效果如下：

(1)本发明可以有效识别不同角度和不同交通场景下的行人动作，满足无人驾驶场景下的行人动作意图捕捉；

(2)2D人体姿态关键点和3D重建的方法能够有效捕获行人意图，识别行人动作，为行人与无人驾驶车辆之间提供了保障交通安全的途径。

附图说明

图1为本发明方法的流程图；

图2为本发明的模型训练示意图；

图3为本发明的姿态识别效果图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明提供一种面向无人驾驶的基于姿态估计的行人行为识别方法。

如图1所示，本方法首先通过车载单目摄像头捕获交通场景下的行人视频流并解码为RGB序列图像帧；其次，采用目标检测网络在序列图像中检测人体并根据检测目标框提取人体图像得到图像序列对应的人体序列；然后，利用人体姿态估计网络对序列人体图像的关节点热图分布进行估计并回归得到图像序列的人体关节点2D数值坐标；利用人体3D姿态重构网络将图像序列的2D人体姿态重构为图像序列的人体关节点3D数值坐标；最后，利用GCN的网络模型从人体图关节点3D数值坐标序列中获取人体姿态的时空关系，以实现交通环境下人体动作的识别。

该方法具体包括以下步骤：

(1)通过车载单目摄像头捕获交通场景下复杂路口，如人行道的行人视频流并解码为RGB序列图像帧；

车载单目摄像头以30帧/秒捕获交通场景下不同环境中的行人视频流，并将视频流传输到车载计算平台上，为便于图像处理操作，使用基于OpenCV的解码算法将YUV格式的图像进行转换以获得RGB格式的序列图像帧，同时得到图像帧的分辨率以定义图像帧的像素坐标系。

(2)采用目标检测网络在序列图像中检测人体并根据检测目标框提取人体图像以得到图像序列对应的人体序列；

捕获并处理后的图像帧经过Yolov3人体检测模型，从中提取出特征图，根据特征图精准定位人体在输入图像帧像素坐标系下的位置(x,y,w,h)，其中(x,y)表示人体框中心点在输入图像帧像素坐标系下的坐标，(w,h)表示人体框的宽度和高度。最后根据定位的人体框提取出人体图像。

(3)利用人体姿态估计网络对序列人体图像的关节点热图分布进行估计并回归得到图像序列的人体关节点2D数值坐标；

制作交通场景下的人体姿态数据集，以训练Alphapose姿态估计网络，通过数据集训练，Alphapose姿态估计网络学习到人体的关节点热图分布，并通过热图的回归得到关节点在人体框中的数值坐标，并将其映射回输入图像帧，最后得到人体关节点在输入图像帧像素坐标系下中的坐标(x,y)。人体的关节点包括：鼻子、颈部、左肩部、左肘部、左手腕、右肩部、右肘部、右手腕、脊柱、左臀部、左膝盖、左脚踝、右臀部、右膝盖、右脚踝。如图3中识别到两种姿态下的人体2D姿态。

(4)利用人体3D姿态重构网络将图像序列的2D人体姿态重构为图像序列的人体关节点3D数值坐标；

基于3D人体姿态数据集Human3.6M和人体2D姿态作为输入，对人体3D姿态重构模型3D-baseline进行训练。将步骤(3)中得到的2D人***置坐标作为步骤(4)模型的输入，以输出3D人***置坐标。输入为步骤(3)中估计出的15个关节2D坐标(x,y)，输出为15个关节3D坐标(x,y,z)，如图3中识别到两种姿态下的3D人体姿态关节点。

(5)利用GCN网络模型从人体关节点3D数值坐标序列中获取人体姿态的时空关系，以实现交通环境下人体动作的识别；

基于3D人体姿态行为数据集Human3.6M，基于3D人体姿态作为输入，对人体的行为识别模型进行训练，再将步骤(4)中得到的序列图像对应的3D坐标作为模型的输入，最后模型识别人体的动作类别，如图3识别到行人“站立”和“行走或跑步”的状态。

如图2所示为步骤(2)(3)(4)的模型训练示意图。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向无人驾驶的基于姿态估计的行人行为识别方法，其特征在于：包括步骤如下：

2.根据权利要求1所述的面向无人驾驶的基于姿态估计的行人行为识别方法，其特征在于：所述步骤(1)中具体为：车载单目摄像头捕获交通场景下的行人视频流，并将视频流传输到车载计算平台上，基于OpenCV的解码算法将YUV格式的图像进行转换获得RGB格式的序列图像帧，同时得到图像帧的分辨率以定义图像帧的像素坐标系。

3.根据权利要求1所述的面向无人驾驶的基于姿态估计的行人行为识别方法，其特征在于：所述步骤(2)中选择行人数据集训练Yolov3目标检测网络以实现人体检测，图像帧经过Yolov3目标检测网络处理后，从中提取出特征图，根据特征图精准定位人体在输入图像帧像素坐标系下的位置，最后根据定位的人体框提取出人体图像；其中，行人数据集是基于实际交通场景自制的数据集，交通场景不少于5万张场景图，行人不少于15万人次。

4.根据权利要求1所述的面向无人驾驶的基于姿态估计的行人行为识别方法，其特征在于：所述步骤(3)中首先用coco-annotator标注工具自制交通场景下的人体姿态数据集，以训练Alphapose人体姿态估计网络，通过数据集训练，人体姿态估计网络学习到人体的关节点热图分布，通过热图的回归得到关节点在人体框中的数值坐标，并将数值坐标映射回输入图像帧，最后得到人体关节点在输入图像帧像素坐标系下的坐标；其中，人体关节点包括鼻子、颈部、左肩部、左肘部、左手腕、右肩部、右肘部、右手腕、脊柱、左臀部、左膝盖、左脚踝、右臀部、右膝盖、右脚踝。

5.根据权利要求1所述的面向无人驾驶的基于姿态估计的行人行为识别方法，其特征在于：所述步骤(3)中形成2D人体姿态的方法包括STN、SDTN、p-PoseNMS、DeepPose。

6.根据权利要求1所述的面向无人驾驶的基于姿态估计的行人行为识别方法，其特征在于：所述步骤(4)中具体为：将开源数据集Human3.6M中2D人体姿态作为输入，对人体3D姿态重构模型3D-baseline进行训练，得到训练模型一；再将步骤(3)中得到的2D人体姿态坐标作为训练模型一的输入，输出3D数值坐标。

7.根据权利要求1所述的面向无人驾驶的基于姿态估计的行人行为识别方法，其特征在于：所述步骤(4)中人体3D姿态重构模型网络采用线性卷积、深度卷积神经网络的BN层、Relu激活函数、Dropout、空洞卷积方法中的一种来构造。

8.根据权利要求1所述的面向无人驾驶的基于姿态估计的行人行为识别方法，其特征在于：所述步骤(5)中首先基于3D人体姿态行为数据集Human3.6M，以人体3D姿态作为输入，对GCN网络模型进行训练，得到训练模型二；再将步骤(4)中得到的序列图像对应的3D数值坐标作为训练模型二的输入，最后GCN模型识别人体的动作类别。

9.根据权利要求1所述的面向无人驾驶的基于姿态估计的行人行为识别方法，其特征在于：所述步骤(5)中采用空间卷积提取人体特征，时序卷积处理前后帧时序信息，图卷积建立关节点间联系的方法实现识别效果。