CN114724251A

CN114724251A - 一种在红外视频下基于骨架序列的老人行为识别方法

Info

Publication number: CN114724251A
Application number: CN202210434569.3A
Authority: CN
Inventors: 向敏; 黄维; 何军平; 张昌剑; 周星旺
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-07-08

Abstract

本发明涉及一种在红外视频下基于骨架序列的老人行为识别方法，属于计算机视觉领域。该方法包括：S1：获取室内场景下具有老人行为图像的红外视频，并进行目标检测；S2：将检测到的目标输入到人体姿态估计网络，提取出关节点的位置和置信度，获取到老人的骨架信息；S3：根据检测时间先后顺序组合得到老人的骨架序列，再对骨架序列进行归一化处理；S4：将处理后的骨架序列数据输入到融合了SlowFast与Shift‑GCN的SFS‑GCN网络中，结合空间注意力机制，利用移位图卷积获取到老人行为的时空特征，最后利用Softmax分类器对老人的室内行为进行分类。本发明解决了现有的面向老人的行为识别方法实用性低的问题。

Description

一种在红外视频下基于骨架序列的老人行为识别方法

技术领域

本发明属于计算机视觉领域，具体涉及一种在红外视频下基于骨架序列的老人行为识别方法。

背景技术

当前，居家养老阶段如何有效解决老人的安全问题是一个亟待解决的问题。目前基于计算机视觉的行为识别方法已经成为行为识别的主流方法，但是，近年来基于计算机视觉的行为识别方法的研究主要集中在可见光领域，目前主要采用的方法有C3D网络和双流网络等模型。传统的基于RGB视频由于受到光照、遮挡和背景复杂等因素的影响，导致鲁棒性较低，而在居家场景下，存在光照变化较大和人体部分遮挡的情况，因此传统的基于RGB视频方式的行为识别方式在居家场景下具有很大的局限性，不能针对居家场景下老人的行为是进行有效的识别与处理。

综上，亟需一种针对老人居家环境下的光照变化较大以及人体部分遮挡等问题的行为识别方法。

发明内容

有鉴于此，本发明的目的在于提供一种在红外视频下基于骨架序列的老人行为识别方法，以解决目前行为识别算法不能有效的对居家场景下老人的行为进行有效识别的问题。本发明适用于光照较复杂的室内环境，对老人行为进行全天候识别，为老人的安全提供保障。

为达到上述目的，本发明提供如下技术方案：

一种在红外视频下基于骨架序列的老人行为识别方法，具体包括以下步骤：

S1：获取室内场景下具有老人行为图像的红外视频，并对老人的行为图像进行目标检测；

S2：将检测到的目标输入到人体姿态估计网络，提取出关节点的位置和置信度，获取到老人的骨架信息；

S3：根据检测时间先后顺序组合获取的骨架信息，得到老人的骨架序列，再对骨架序列进行归一化处理；

S4：将处理后的骨架序列数据输入到融合了SlowFast与Shift-GCN的SFS-GCN网络中，结合空间注意力机制，利用移位图卷积获取到老人行为的时空特征，最后利用Softmax分类器对老人的室内行为进行分类。

进一步，步骤S1中，采用YOLOV4-Tiny模型进行目标检测。

进一步，步骤S2中，人体姿态估计网络是采用轻量级OpenPose姿态估计模型来提取人体的骨骼关节点，根据实时获取的骨骼关节点信息来进行后续的老人行为识别工作。

其中，轻量级OpenPose姿态估计模型的网络结构是：采集的图像经过VGG19网络的前10层的特征提取后得到特征图F，然后将F输入到双分支的人体姿态估计网络，双分支网络的第一分支用以预测关键点置信图S，其中S＝(S₁,S₂,...,S_J)，J表示要检测的关节数，双分支网络的第二分支用以预测关节点亲和域L，其中L＝(L₁,L₂,...,L_C)，C表示要检测的关节对数；每回归一次S和L即为完成一轮迭代预测，通过连续的t∈(1,...,t)轮迭代，就能形成整个预测网络体系结构；每一阶段统计一次反馈损失函数，并把S、L及F联接起来，进而得到下一阶段预测训练的输入，在进行了n轮迭代之后，最终得到整个网络的关节点和关节亲和域；其中从stage2开始，每一阶段的预测结果可表示为：

其中，T表示骨架帧的数目，ρ^t(·)表示第t阶段关键点置信度推理的CNN结构，

表示第t阶段关键点亲和度推理的CNN结构。

轻量级OpenPose姿态估计模型是通过利用MobileNet网络中深度可分离卷积的方法，将特征提取网络VGG19中7×7的卷积核替代为三个连续的3×3卷积核，通过此方式可以极大地减少网络模型的参数量，可以有效的加快运算速度，保证实时性。

进一步，步骤S3中，对骨架序列进行批量的归一化处理，具体包括以下步骤：

S31：对步骤S2获取的老人骨架信息，按照预设等时间间隔进行骨架数据的采样，并将预设帧数的骨架信息按照检测时间先后顺序组合得到待识别老人行为的骨架序列；

S32：将待识别老人的行为骨架序列中每一帧骨架数据进行视角归一化处理；

S33：对骨架序列不同帧的同一个关节点的位置特征(x,y)和置信度进行归一化处理。

进一步，步骤S4中，SFS-GCN网络由一个快速流分支、一个慢速流分支和侧向连接组成；其中快速流分支与慢速流分支都采用改进的Shift-GCN网络组成。改进的Shift-GCN网络由10个结合注意力机制的Shift-GCN单元连续叠加而成，其中结合注意力机制的Shift-GCN单元由基于空间注意力机制的空间移位模块和自适应时间移位模块组成。快速流分支用来提取动作的时间维度的动态特征，慢速流分支用来提取动作空间维度的静态特征，在两条分支的不同阶段使用侧向连接将慢速流分支的特征聚合到快速流分支，并将两条分支采集的特征输入到通道注意力模块进行处理，最后在Softmax层进行动作分类。

进一步，步骤S4中，空间移位模块由空间移位操作和空间点卷积组合而成；所述自适时间位移模块由时间移位操作和时间逐点卷积组合而成。

本发明的有益效果在于：本发明通过采用红外摄像头采集的目标人员的红外图像信息，减少了因为环境光照变化对图像包含的行为信息的影响，通过将在红外图像上采集的骨架信息输入到基于快慢图卷积网络和移位图卷积网络构建的轻量化行为识别神经网络中，得到老人的行为分类，解决了现有行为识别网络参数量较大、老人被物体部分遮挡识别准确率较低以及光照变化较大场景下老人行为识别准确率较低的问题。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的一种在红外视频下基于骨架序列的老人行为识别方法过程图；

图2为轻量级OpenPose网络框架图；

图3为SFS-GCN网络框架图；

图4为时间移位操作示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图4，本发明提供了一种在红外视频下基于骨架序列的老人行为识别方法，具体包括以下步骤：

为了更清晰地对本发明一种在红外视频下基于人体骨架的居家老人行为识别方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。如图1所示，该方法包括了红外视频数据的获取、目标检测、骨架提取、行为识别等四个步骤。下面将对每一部分进行详细阐述。

1、红外视频数据的获取：

由于红外图像受到光照的影响比较弱，所以通过采用红外视频的方式获取的老人的图像中含有更多详细的老人行为特征信息。通过采用分辨率为1080P的红外广角摄像头以合适的角度拍摄老人室内的活动区域，将获取的红外视频流进行解码和相应尺寸调整后，将红外视频数据输入到目标检测网络进行目标检测。

2、目标检测：

由于后续的时空图卷积网络的行为分类的准确率和姿态估计的性能相关，而姿态估计的性能又直接受到目标检测的影响。为了能够将红外视频中的老人目标快速、有效的提取出来，采用的目标检测算法是YOLOv4-Tiny目标检测算法。

该算法首先调整输入图像的大小，使所有输入图像具有相同的固定大小W×H。将W×H大小的图片分别用B1和B2两个尺度的网格进行预测。若真实标注框中某个目标的中心坐标落在其中一个网格中，就由该网格来预测目标。网络预测得到的输出有两个维度，一个是提取到的特征图的维度，还有一个维度大小为M×(5+N)，其中M表示每个网格预测的边界框的数量，YOLOv4-tiny中M为3；N表示检测的类别数，其中5表示4个坐标信息、边界框的中心坐标(x,y)、边界框的宽度与高度(w,h)以及1个置信度信息。模型会输出(B1×B1+B2×B2)×M个边界框，最后通过预测置信度和非极大值抑制算法来排除多余的边界框，得到模型的最终检测框。

3、骨架提取：

行为识别领域常用的数据模态主要分为原始RGB和人体姿态。原始RGB视频中不仅包含人体的动作信息，还有各种造成额外计算开销的复杂背景信息，而通过人体姿态得到的骨架信息能够更好的反映出目标人员的行为动作信息，且不会受到复杂的背景信息影响。通过采用轻量级OpenPose姿态估计模型能够准确、实时、稳定的提取出红外视频中的二维人体骨架序列信息。

图2为轻量级OpenPose的整体网络架构图，如图2所示，采集的图像经过VGG19网络的前10层的特征提取后得到特征图F，然后将F输入到双分支的人体姿态估计网络，双分支网络的第一分支用以预测关键点置信图S，其中S＝(S₁,S₂,...,S_J)，J表示要检测的关节数，双分支网络的第二分支用以预测关节点亲和域L，其中L＝(L₁,L₂,...,L_C)，C表示要检测的关节对数。每回归一次S和L即为完成一轮迭代预测，通过连续的t∈(1,...,t)轮迭代，就能形成整个预测网络体系结构。每一阶段统计一次反馈损失函数，并把S、L及F联接起来，进而得到下一阶段预测训练的输入，在进行了n轮迭代之后，最终得到整个网络的关节点和关节亲和域。其中从stage2开始，每一阶段的预测结果可表示为：

表示第t阶段关键点亲和度推理的CNN结构。

4、行为识别：

(1)骨架序列数据传入到SFS-GCN(SlowFast Shift-GCN)网络前还需要对骨架序列数据进行预处理。

首先按照预设等时间间隔进行骨架数据的采样，并将预设帧数的骨架信息按照检测时间先后顺序组合得到待识别老人行为的骨架序列。其次将待识别老人的行为骨架序列中每一帧骨架数据进行视角归一化处理。最后对骨架序列不同帧的同一个关节点的位置特征(x,y)和置信度进行归一化处理。

(2)提取骨架序列中的行为特征进行分类

将处理后的骨架序列数据输入到SFS-GCN(SlowFast Shift-GCN)网络的两条支路中，SFS-GCN(SlowFast Shift-GCN)网络由一条快速流分支、一个慢速流分支和侧向连接结构组成，其结构如图3所示。其中快速流与慢速流采用相同的结构，由10个改进的Shift-GCN单元组成，改进的Shift-GCN单元由结合注意力机制的空间移位模块和自适应时间移位模块组成。其中快速流路径用来提取动作的时间特征的，慢速流路径则用来提取动作的空间特征的，并在两条分支的不同阶段使用单向连接将慢速流分支的特征聚合到快速流分支，以此来加强时空特征的交互，最后将两条分支采集的特征拼接后输入到通道注意力层处理后输入到全连接层处理，然后输入到Softmax层进行动作分类。

基于注意力机制的空间移位模块使用的是空间注意力机制，空间注意力模块(Spatial Attention Module)表现在图像上的体现是指对特征图上不同位置的关注程度不同，在基于关节点的人体骨架数据中，空间注意力模块可以帮助模型对每个关节赋予不同程度的注意力权重，具体实现公式如下：

M_S(f_in)＝σ(g_s(Avgpool(f_in)))

其中，σ表示sigmoid激活函数操作，g_s为一维卷积操作，Avgpool是指平均池化操作，f_in为输入将征，最后生成基于空间注意力机制的特征图为M_S(f_in)∈R^1×1×N。

自适应时间移位模块是在ST-GCN的基础上进行的改进，设置骨架序列为F∈R^T ^×N×C，其中T为骨架帧的数目，N为关节点数，C为通道数。设{S_i|i＝1,2,...,C}为一个可学习的移位参数，通过参数S_i，本发明能够实现正向移入操作与反向移出操作，如图4所示。采用自适应的时序shift图卷积后，每个通道的时间偏移参数都能够自动调整。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种在红外视频下基于骨架序列的老人行为识别方法，该方法具体包括以下步骤：

2.根据权利要求1所述的老人行为识别方法，其特征在于，步骤S3中，对骨架序列进行归一化处理，具体包括以下步骤：

3.根据权利要求1所述的老人行为识别方法，其特征在于，步骤S4中，所述SFS-GCN网络由一个快速流分支、一个慢速流分支和侧向连接组成；其中快速流分支与慢速流分支都采用改进的Shift-GCN网络组成；改进的Shift-GCN网络由10个结合注意力机制的Shift-GCN单元连续叠加而成，其中改进的Shift-GCN单元由基于空间注意力机制的空间移位模块和自适应时间移位模块组成；快速流分支用来提取动作的时间维度的动态特征，慢速流分支用来提取动作空间维度的静态特征，在两条分支的不同阶段使用侧向连接将慢速流分支的特征聚合到快速流分支，并将两条分支采集的特征输入到通道注意力模块进行处理，最后在Softmax层进行动作分类。

4.根据权利要求3所述的老人行为识别方法，其特征在于，步骤S4中，所述空间移位模块由空间移位操作和空间逐点卷积组成；所述自适时间位移模块由时间移位操作和时间逐点卷积组成。