CN114724251A - 一种在红外视频下基于骨架序列的老人行为识别方法 - Google Patents
一种在红外视频下基于骨架序列的老人行为识别方法 Download PDFInfo
- Publication number
- CN114724251A CN114724251A CN202210434569.3A CN202210434569A CN114724251A CN 114724251 A CN114724251 A CN 114724251A CN 202210434569 A CN202210434569 A CN 202210434569A CN 114724251 A CN114724251 A CN 114724251A
- Authority
- CN
- China
- Prior art keywords
- skeleton
- behavior
- old
- shift
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种在红外视频下基于骨架序列的老人行为识别方法,属于计算机视觉领域。该方法包括:S1:获取室内场景下具有老人行为图像的红外视频,并进行目标检测;S2:将检测到的目标输入到人体姿态估计网络,提取出关节点的位置和置信度,获取到老人的骨架信息;S3:根据检测时间先后顺序组合得到老人的骨架序列,再对骨架序列进行归一化处理;S4:将处理后的骨架序列数据输入到融合了SlowFast与Shift‑GCN的SFS‑GCN网络中,结合空间注意力机制,利用移位图卷积获取到老人行为的时空特征,最后利用Softmax分类器对老人的室内行为进行分类。本发明解决了现有的面向老人的行为识别方法实用性低的问题。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种在红外视频下基于骨架序列的老人行为识别方法。
背景技术
当前,居家养老阶段如何有效解决老人的安全问题是一个亟待解决的问题。目前基于计算机视觉的行为识别方法已经成为行为识别的主流方法,但是,近年来基于计算机视觉的行为识别方法的研究主要集中在可见光领域,目前主要采用的方法有C3D网络和双流网络等模型。传统的基于RGB视频由于受到光照、遮挡和背景复杂等因素的影响,导致鲁棒性较低,而在居家场景下,存在光照变化较大和人体部分遮挡的情况,因此传统的基于RGB视频方式的行为识别方式在居家场景下具有很大的局限性,不能针对居家场景下老人的行为是进行有效的识别与处理。
综上,亟需一种针对老人居家环境下的光照变化较大以及人体部分遮挡等问题的行为识别方法。
发明内容
有鉴于此,本发明的目的在于提供一种在红外视频下基于骨架序列的老人行为识别方法,以解决目前行为识别算法不能有效的对居家场景下老人的行为进行有效识别的问题。本发明适用于光照较复杂的室内环境,对老人行为进行全天候识别,为老人的安全提供保障。
为达到上述目的,本发明提供如下技术方案:
一种在红外视频下基于骨架序列的老人行为识别方法,具体包括以下步骤:
S1:获取室内场景下具有老人行为图像的红外视频,并对老人的行为图像进行目标检测;
S2:将检测到的目标输入到人体姿态估计网络,提取出关节点的位置和置信度,获取到老人的骨架信息;
S3:根据检测时间先后顺序组合获取的骨架信息,得到老人的骨架序列,再对骨架序列进行归一化处理;
S4:将处理后的骨架序列数据输入到融合了SlowFast与Shift-GCN的SFS-GCN网络中,结合空间注意力机制,利用移位图卷积获取到老人行为的时空特征,最后利用Softmax分类器对老人的室内行为进行分类。
进一步,步骤S1中,采用YOLOV4-Tiny模型进行目标检测。
进一步,步骤S2中,人体姿态估计网络是采用轻量级OpenPose姿态估计模型来提取人体的骨骼关节点,根据实时获取的骨骼关节点信息来进行后续的老人行为识别工作。
其中,轻量级OpenPose姿态估计模型的网络结构是:采集的图像经过VGG19网络的前10层的特征提取后得到特征图F,然后将F输入到双分支的人体姿态估计网络,双分支网络的第一分支用以预测关键点置信图S,其中S=(S1,S2,...,SJ),J表示要检测的关节数,双分支网络的第二分支用以预测关节点亲和域L,其中L=(L1,L2,...,LC),C表示要检测的关节对数;每回归一次S和L即为完成一轮迭代预测,通过连续的t∈(1,...,t)轮迭代,就能形成整个预测网络体系结构;每一阶段统计一次反馈损失函数,并把S、L及F联接起来,进而得到下一阶段预测训练的输入,在进行了n轮迭代之后,最终得到整个网络的关节点和关节亲和域;其中从stage2开始,每一阶段的预测结果可表示为:
轻量级OpenPose姿态估计模型是通过利用MobileNet网络中深度可分离卷积的方法,将特征提取网络VGG19中7×7的卷积核替代为三个连续的3×3卷积核,通过此方式可以极大地减少网络模型的参数量,可以有效的加快运算速度,保证实时性。
进一步,步骤S3中,对骨架序列进行批量的归一化处理,具体包括以下步骤:
S31:对步骤S2获取的老人骨架信息,按照预设等时间间隔进行骨架数据的采样,并将预设帧数的骨架信息按照检测时间先后顺序组合得到待识别老人行为的骨架序列;
S32:将待识别老人的行为骨架序列中每一帧骨架数据进行视角归一化处理;
S33:对骨架序列不同帧的同一个关节点的位置特征(x,y)和置信度进行归一化处理。
进一步,步骤S4中,SFS-GCN网络由一个快速流分支、一个慢速流分支和侧向连接组成;其中快速流分支与慢速流分支都采用改进的Shift-GCN网络组成。改进的Shift-GCN网络由10个结合注意力机制的Shift-GCN单元连续叠加而成,其中结合注意力机制的Shift-GCN单元由基于空间注意力机制的空间移位模块和自适应时间移位模块组成。快速流分支用来提取动作的时间维度的动态特征,慢速流分支用来提取动作空间维度的静态特征,在两条分支的不同阶段使用侧向连接将慢速流分支的特征聚合到快速流分支,并将两条分支采集的特征输入到通道注意力模块进行处理,最后在Softmax层进行动作分类。
进一步,步骤S4中,空间移位模块由空间移位操作和空间点卷积组合而成;所述自适时间位移模块由时间移位操作和时间逐点卷积组合而成。
本发明的有益效果在于:本发明通过采用红外摄像头采集的目标人员的红外图像信息,减少了因为环境光照变化对图像包含的行为信息的影响,通过将在红外图像上采集的骨架信息输入到基于快慢图卷积网络和移位图卷积网络构建的轻量化行为识别神经网络中,得到老人的行为分类,解决了现有行为识别网络参数量较大、老人被物体部分遮挡识别准确率较低以及光照变化较大场景下老人行为识别准确率较低的问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明的一种在红外视频下基于骨架序列的老人行为识别方法过程图;
图2为轻量级OpenPose网络框架图;
图3为SFS-GCN网络框架图;
图4为时间移位操作示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图4,本发明提供了一种在红外视频下基于骨架序列的老人行为识别方法,具体包括以下步骤:
S1:获取室内场景下具有老人行为图像的红外视频,并对老人的行为图像进行目标检测;
S2:将检测到的目标输入到人体姿态估计网络,提取出关节点的位置和置信度,获取到老人的骨架信息;
S3:根据检测时间先后顺序组合获取的骨架信息,得到老人的骨架序列,再对骨架序列进行归一化处理;
S4:将处理后的骨架序列数据输入到融合了SlowFast与Shift-GCN的SFS-GCN网络中,结合空间注意力机制,利用移位图卷积获取到老人行为的时空特征,最后利用Softmax分类器对老人的室内行为进行分类。
为了更清晰地对本发明一种在红外视频下基于人体骨架的居家老人行为识别方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。如图1所示,该方法包括了红外视频数据的获取、目标检测、骨架提取、行为识别等四个步骤。下面将对每一部分进行详细阐述。
1、红外视频数据的获取:
由于红外图像受到光照的影响比较弱,所以通过采用红外视频的方式获取的老人的图像中含有更多详细的老人行为特征信息。通过采用分辨率为1080P的红外广角摄像头以合适的角度拍摄老人室内的活动区域,将获取的红外视频流进行解码和相应尺寸调整后,将红外视频数据输入到目标检测网络进行目标检测。
2、目标检测:
由于后续的时空图卷积网络的行为分类的准确率和姿态估计的性能相关,而姿态估计的性能又直接受到目标检测的影响。为了能够将红外视频中的老人目标快速、有效的提取出来,采用的目标检测算法是YOLOv4-Tiny目标检测算法。
该算法首先调整输入图像的大小,使所有输入图像具有相同的固定大小W×H。将W×H大小的图片分别用B1和B2两个尺度的网格进行预测。若真实标注框中某个目标的中心坐标落在其中一个网格中,就由该网格来预测目标。网络预测得到的输出有两个维度,一个是提取到的特征图的维度,还有一个维度大小为M×(5+N),其中M表示每个网格预测的边界框的数量,YOLOv4-tiny中M为3;N表示检测的类别数,其中5表示4个坐标信息、边界框的中心坐标(x,y)、边界框的宽度与高度(w,h)以及1个置信度信息。模型会输出(B1×B1+B2×B2)×M个边界框,最后通过预测置信度和非极大值抑制算法来排除多余的边界框,得到模型的最终检测框。
3、骨架提取:
行为识别领域常用的数据模态主要分为原始RGB和人体姿态。原始RGB视频中不仅包含人体的动作信息,还有各种造成额外计算开销的复杂背景信息,而通过人体姿态得到的骨架信息能够更好的反映出目标人员的行为动作信息,且不会受到复杂的背景信息影响。通过采用轻量级OpenPose姿态估计模型能够准确、实时、稳定的提取出红外视频中的二维人体骨架序列信息。
图2为轻量级OpenPose的整体网络架构图,如图2所示,采集的图像经过VGG19网络的前10层的特征提取后得到特征图F,然后将F输入到双分支的人体姿态估计网络,双分支网络的第一分支用以预测关键点置信图S,其中S=(S1,S2,...,SJ),J表示要检测的关节数,双分支网络的第二分支用以预测关节点亲和域L,其中L=(L1,L2,...,LC),C表示要检测的关节对数。每回归一次S和L即为完成一轮迭代预测,通过连续的t∈(1,...,t)轮迭代,就能形成整个预测网络体系结构。每一阶段统计一次反馈损失函数,并把S、L及F联接起来,进而得到下一阶段预测训练的输入,在进行了n轮迭代之后,最终得到整个网络的关节点和关节亲和域。其中从stage2开始,每一阶段的预测结果可表示为:
轻量级OpenPose姿态估计模型是通过利用MobileNet网络中深度可分离卷积的方法,将特征提取网络VGG19中7×7的卷积核替代为三个连续的3×3卷积核,通过此方式可以极大地减少网络模型的参数量,可以有效的加快运算速度,保证实时性。
4、行为识别:
(1)骨架序列数据传入到SFS-GCN(SlowFast Shift-GCN)网络前还需要对骨架序列数据进行预处理。
首先按照预设等时间间隔进行骨架数据的采样,并将预设帧数的骨架信息按照检测时间先后顺序组合得到待识别老人行为的骨架序列。其次将待识别老人的行为骨架序列中每一帧骨架数据进行视角归一化处理。最后对骨架序列不同帧的同一个关节点的位置特征(x,y)和置信度进行归一化处理。
(2)提取骨架序列中的行为特征进行分类
将处理后的骨架序列数据输入到SFS-GCN(SlowFast Shift-GCN)网络的两条支路中,SFS-GCN(SlowFast Shift-GCN)网络由一条快速流分支、一个慢速流分支和侧向连接结构组成,其结构如图3所示。其中快速流与慢速流采用相同的结构,由10个改进的Shift-GCN单元组成,改进的Shift-GCN单元由结合注意力机制的空间移位模块和自适应时间移位模块组成。其中快速流路径用来提取动作的时间特征的,慢速流路径则用来提取动作的空间特征的,并在两条分支的不同阶段使用单向连接将慢速流分支的特征聚合到快速流分支,以此来加强时空特征的交互,最后将两条分支采集的特征拼接后输入到通道注意力层处理后输入到全连接层处理,然后输入到Softmax层进行动作分类。
基于注意力机制的空间移位模块使用的是空间注意力机制,空间注意力模块(Spatial Attention Module)表现在图像上的体现是指对特征图上不同位置的关注程度不同,在基于关节点的人体骨架数据中,空间注意力模块可以帮助模型对每个关节赋予不同程度的注意力权重,具体实现公式如下:
MS(fin)=σ(gs(Avgpool(fin)))
其中,σ表示sigmoid激活函数操作,gs为一维卷积操作,Avgpool是指平均池化操作,fin为输入将征,最后生成基于空间注意力机制的特征图为MS(fin)∈R1×1×N。
自适应时间移位模块是在ST-GCN的基础上进行的改进,设置骨架序列为F∈RT ×N×C,其中T为骨架帧的数目,N为关节点数,C为通道数。设{Si|i=1,2,...,C}为一个可学习的移位参数,通过参数Si,本发明能够实现正向移入操作与反向移出操作,如图4所示。采用自适应的时序shift图卷积后,每个通道的时间偏移参数都能够自动调整。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种在红外视频下基于骨架序列的老人行为识别方法,该方法具体包括以下步骤:
S1:获取室内场景下具有老人行为图像的红外视频,并对老人的行为图像进行目标检测;
S2:将检测到的目标输入到人体姿态估计网络,提取出关节点的位置和置信度,获取到老人的骨架信息;
S3:根据检测时间先后顺序组合获取的骨架信息,得到老人的骨架序列,再对骨架序列进行归一化处理;
S4:将处理后的骨架序列数据输入到融合了SlowFast与Shift-GCN的SFS-GCN网络中,结合空间注意力机制,利用移位图卷积获取到老人行为的时空特征,最后利用Softmax分类器对老人的室内行为进行分类。
2.根据权利要求1所述的老人行为识别方法,其特征在于,步骤S3中,对骨架序列进行归一化处理,具体包括以下步骤:
S31:对步骤S2获取的老人骨架信息,按照预设等时间间隔进行骨架数据的采样,并将预设帧数的骨架信息按照检测时间先后顺序组合得到待识别老人行为的骨架序列;
S32:将待识别老人的行为骨架序列中每一帧骨架数据进行视角归一化处理;
S33:对骨架序列不同帧的同一个关节点的位置特征(x,y)和置信度进行归一化处理。
3.根据权利要求1所述的老人行为识别方法,其特征在于,步骤S4中,所述SFS-GCN网络由一个快速流分支、一个慢速流分支和侧向连接组成;其中快速流分支与慢速流分支都采用改进的Shift-GCN网络组成;改进的Shift-GCN网络由10个结合注意力机制的Shift-GCN单元连续叠加而成,其中改进的Shift-GCN单元由基于空间注意力机制的空间移位模块和自适应时间移位模块组成;快速流分支用来提取动作的时间维度的动态特征,慢速流分支用来提取动作空间维度的静态特征,在两条分支的不同阶段使用侧向连接将慢速流分支的特征聚合到快速流分支,并将两条分支采集的特征输入到通道注意力模块进行处理,最后在Softmax层进行动作分类。
4.根据权利要求3所述的老人行为识别方法,其特征在于,步骤S4中,所述空间移位模块由空间移位操作和空间逐点卷积组成;所述自适时间位移模块由时间移位操作和时间逐点卷积组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210434569.3A CN114724251A (zh) | 2022-04-24 | 2022-04-24 | 一种在红外视频下基于骨架序列的老人行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210434569.3A CN114724251A (zh) | 2022-04-24 | 2022-04-24 | 一种在红外视频下基于骨架序列的老人行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114724251A true CN114724251A (zh) | 2022-07-08 |
Family
ID=82245457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210434569.3A Pending CN114724251A (zh) | 2022-04-24 | 2022-04-24 | 一种在红外视频下基于骨架序列的老人行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724251A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115097946A (zh) * | 2022-08-15 | 2022-09-23 | 汉华智能科技(佛山)有限公司 | 基于物联网的远程祭拜方法、***及存储介质 |
CN116403162A (zh) * | 2023-04-11 | 2023-07-07 | 南京航空航天大学 | 一种机场场面目标行为识别方法、***及电子设备 |
CN118038550A (zh) * | 2024-02-05 | 2024-05-14 | 北京理工大学珠海学院 | 一种基于ViT和ST-GCN的红外人体行为识别方法 |
-
2022
- 2022-04-24 CN CN202210434569.3A patent/CN114724251A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115097946A (zh) * | 2022-08-15 | 2022-09-23 | 汉华智能科技(佛山)有限公司 | 基于物联网的远程祭拜方法、***及存储介质 |
CN116403162A (zh) * | 2023-04-11 | 2023-07-07 | 南京航空航天大学 | 一种机场场面目标行为识别方法、***及电子设备 |
CN116403162B (zh) * | 2023-04-11 | 2023-10-27 | 南京航空航天大学 | 一种机场场面目标行为识别方法、***及电子设备 |
CN118038550A (zh) * | 2024-02-05 | 2024-05-14 | 北京理工大学珠海学院 | 一种基于ViT和ST-GCN的红外人体行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932500B (zh) | 一种基于深度神经网络的动态手势识别方法及*** | |
CN110147743B (zh) | 一种复杂场景下的实时在线行人分析与计数***及方法 | |
WO2021043168A1 (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN106897670B (zh) | 一种基于计算机视觉的快递暴力分拣识别方法 | |
CN111709310B (zh) | 一种基于深度学习的手势跟踪与识别方法 | |
WO2021043112A1 (zh) | 图像分类方法以及装置 | |
WO2020107847A1 (zh) | 基于骨骼点的跌倒检测方法及其跌倒检测装置 | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
CN114724251A (zh) | 一种在红外视频下基于骨架序列的老人行为识别方法 | |
Chen et al. | Door recognition and deep learning algorithm for visual based robot navigation | |
CN110555481A (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
JP2022510417A (ja) | 関節のある身体姿勢を検出するシステムおよび方法 | |
Burić et al. | Adapting YOLO network for ball and player detection | |
WO2021073311A1 (zh) | 图像识别方法、装置、计算机可读存储介质及芯片 | |
CN111241963B (zh) | 基于交互建模的第一人称视角视频交互行为识别方法 | |
Liu et al. | Using unsupervised deep learning technique for monocular visual odometry | |
CN113011562A (zh) | 一种模型训练方法及装置 | |
Guo et al. | Research on optimization of static gesture recognition based on convolution neural network | |
CN115222896B (zh) | 三维重建方法、装置、电子设备及计算机可读存储介质 | |
Zhou et al. | A study on attention-based LSTM for abnormal behavior recognition with variable pooling | |
CN113781519A (zh) | 目标跟踪方法和目标跟踪装置 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Cai et al. | Robust human action recognition based on depth motion maps and improved convolutional neural network | |
CN116895098A (zh) | 基于深度学习和隐私保护的视频人体动作识别***与方法 | |
Ansar et al. | Robust hand gesture tracking and recognition for healthcare via Recurent neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |