CN111626211B

CN111626211B - 一种基于单目视频图像序列的坐姿识别方法

Info

Publication number: CN111626211B
Application number: CN202010462958.8A
Authority: CN
Inventors: 李灏为; 杨志
Original assignee: Dalian Chengzhe Cloud Software Co ltd
Current assignee: Dalian Chengzhe Cloud Software Co ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2023-09-26
Anticipated expiration: 2040-05-27
Also published as: CN111626211A; WO2021237913A1

Abstract

本发明提供一种基于单目视频图像序列的坐姿识别方法，首先从单目相机中获取视频帧；然后一方面将当前视频帧送入桌面检测模块检测桌面位姿，另一方面用当前帧更新视频帧序列，将视频帧序列送入人体姿态估计与行为识别模块，获取3维人体姿态和当前行为类别；判断当前行为类别是否为静态行为，若是，将人体姿态、当前行为类别和桌面位姿送入坐姿评价模块评价当前坐姿，否则直接进行下一帧。本发明提出的方法能够从单目图像中直接获取3维人体姿态，利用多帧图像序列，抗遮挡和光线变化，鲁棒性好，利用行为识别过滤非静态行为，结合桌面位姿信息，提高准确度。

Description

一种基于单目视频图像序列的坐姿识别方法

技术领域

本发明涉及视频图像处理、计算机视觉和人体姿态识别领域，具体而言，尤其涉及一种基于单目视频图像序列的坐姿识别方法。

背景技术

随着生活节奏的不断加快，人们每天的大部分的时间处于工作和学习之中。长时间的维持不规范的坐姿，容易养成驼背、身体歪扭等不良习惯，严重的会引发颈椎病、腰椎间盘突出和近视等疾病，对身体造成不可逆转的伤害，从而在极大程度上影响日常学习、工作和生活。坐姿识别算法通常利用传感器对识别对象的半身姿态进行提取，并依据坐姿标准程度的算法，帮助用户及时调整不正确的坐姿，保证人们的健康。

目前的坐姿识别算法基于的无接触传感器主要分为以下几种：

超声波传感器。超声波对测量面有一定要求。测量面密度较低，超声波穿透物体，会有多个回波；测量面凹凸不平，超声波被打散，同样会有多个回波；测量面倾斜，超声波没有正确反射；测量面过小，超声波反射回的量不够。所以超声波的测量效果较差。

双目视觉传感器。这种传感器制作工艺要求高，对环境光照非常敏感，对缺乏纹理场景表现差，计算复杂度高，相机基线限制了测量范围，使用中存在死角。

单目视觉传感器：硬件成本低，但是一般只能获取二维信息，坐姿识别效果不如双目相机；对于遮挡、光照突变等情况，坐姿识别鲁棒性较差；且需要使用小孔成像模型，并提供额外的先验知识，才能获取三维信息。

此外，大部分的坐姿识别方法仅考虑相对静态的打字、书写、阅读行为，但是实际应用场景中识别对象还可能存在舒展、摆头、喝水、接电话等动态行为。上述动态行为发生时，很容易被识别成错误的坐姿。现有的坐姿识别方法也没有结合具体场景下桌面位置信息，严重限制了坐姿识别准确性的提升。

发明内容

鉴于至少一个上述问题提出本发明。

本发明更多的关注在基于单目视觉传感器的坐姿识别方法，尤其是基于单目视频图像序列，本发明旨在提高基于单目视频图像序列坐姿识别方法的准确性，以及所述方法在遮挡、光照突变等异常使用情况下的鲁棒性。

本发明也基于行为识别。实际应用中已经证明本发明可以改善当识别对象存在动态行为时的识别精度，而不需要额外的外部检测结果。此外，本发明在识别时可以自适应匹配桌面位置信息。

本发明的目的是提供一种基于单目视频图像序列的坐姿识别方法，包括：

S1、从单目摄像头获取当前视频帧并更新视频帧序列，所述视频帧序列的容量固定；

S2、将所述视频帧序列送入人体姿态估计与行为识别模块，通过获取关键点的3维坐标进行人体姿态的估计和行为类型的识别，所述行为类型包括静态行为和动态行为，判断行为类型识别结果属于静态行为则执行S3，否则执行S1；

S3、坐姿评价模块同时接收所述人体姿态的估计结果和行为类型的识别结果，依据二者进行坐姿评估，并根据评估结果给出相应提示。

较现有技术相比，本发明具有以下优点：

1、本发明基于单目视频图像序列开发，利用多任务端到端网络结构实现了人体姿态估计与行为识别，通过精确的姿态估计结果辅助行为识别准确性。

2、本发明实现行为识别过程中利用低级特征图结果，能够获取和姿态相关的环境上下文信息，进一步提高在相似行为间的识别准确性。

3、本发明在获取3维姿态信息时加入了空间域上的注意力机制，通过空间域的上下文提高姿态关键点精度。

4、本发明结合实际场景下的桌面位置和姿态信息进行坐姿评价，提高坐姿识别精度。

基于上述理由本发明可在办公设备、教学设备中广泛应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明坐姿识别方法流程图。

图2为本发明人体姿态估计与行为识别模块结构示意图。

图3为实施例中低级特征提取子模块结构示意图。

图4为实施例中坐姿状态下11个关键点分布示意图。

图5为实施例中SACAM网络结构示意图。

图6为实施例中姿态估计热图解码流程图。

图7为实施例中行为识别部的视频序列的姿态估计结果输入示意图。

图8为实施例中SRLRTM网络结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1为本发明提供的一种基于单目视频图像序列的坐姿识别方法，其用于进行坐姿评价的流程包括以下步骤：

S1、从单目摄像头获取当前视频帧Frame_k并更新视频帧序列，所述视频帧序列为VideoClip＝{Frame_i|i∈k-T+1,...,k}，其能够存储T帧图像。

S2、将所述视频帧序列送入人体姿态估计与行为识别模块，通过获取关键点的3维坐标进行人体姿态的估计和行为类型的识别，所述行为类型包括静态行为和动态行为，判断行为类型识别结果属于静态行为则执行S3，否则执行S1。此外，该步骤还可以包括将当前帧Frame_k送入桌面检测模块进行桌面位姿检测。

S3、坐姿评价模块同时接收所述人体姿态的估计结果和行为类型的识别结果，依据二者进行坐姿评估，并根据评估结果给出相应提示。相应的该步骤还可以包括坐姿评价模块接收桌面位姿检测结果，辅助进行坐姿评估。行为识别结果表示被识别对象处于打字、书写、阅读等相对静态的状态时，对其坐姿进行评价。本发明中坐姿评价可以采用但不限于以下方式：1)提前录入标准坐姿，计算当前坐姿和标准坐姿下各关节向量的相似度；2)判断头部和桌面距离；3)看做分类任务，使用神经网络进行训练来判别。

在本发明中，优选采用一种针对人体姿态估计和行为识别的多任务端到端网络结构作为人体姿态估计与行为识别模块使用。其与常规使用的分阶段、多任务网络相比，能够更精确的利用姿态估计结果辅助提升行为识别精度，而由于坐姿识别精度很大程度上依赖于人体姿态估计的精度和行为的准确性，因此能够进一步提高坐姿识别精度。而以往使用的分段串联的识别算法，其输入只有人体姿态，而这样的输入特征，导致相近姿态的行为，在识别中互相混淆，比如喝水和抽烟这两种情形下的姿态非常类似。

为了解决上述问题，所述人体姿态估计与行为识别模块进一步包括低级特征提取子模块和至少一级估计与识别工作组。其中：低级特征提取子模块主要用以将所述视频帧序列中各帧图像处理为低级特征图。估计与识别工作组包括并行工作的三维姿态估计部和行为识别部。其中第一级估计与识别工作组的三维姿态估计部以所述低级特征图作为输入特征，并输出人体姿态估计结果，行为识别部以本级人体姿态估计结果和低级特征图作为输入特征，并输出行为识别结果；其他估计与识别工作组的三维姿态估计部均以所述低级特征图作和上一级人体姿态估计结果为输入特征，并输出人体姿态估计结果，行为识别部以本级人体姿态估计结果和上一级行为识别结果作为输入特征，并输出行为识别结果。作为本发明较佳的实施方式，人体姿态估计与行为识别模块以最后一级估计与识别工作组得到的人体姿态估计结果和行为识别结果作为输出。本发明通过各级估计与识别工作组间三维姿态估计部和行为识别部之间、以及估计与识别工作组内部三维姿态估计部和行为识别部之间之间引入重注入机制，显著提高了姿态估计和行为识别结果的准确性。

具体来说，低级特征提取子模块是网络输入部分，即网络的根茎(stem)，T帧视频帧序列resize到同一的尺寸，然后被送入此网络，此部分的输出是一个低级特征。本发明所基于的发明构思是尽可能使用很少的卷积层数将特征压缩成期望的形状。侧重于网络的效率，并非要求此时提取的特征就能够有很好的拟合能力。本发明为了提升该特征的有效性，在网络中引入了重注入机制(re-injection)对这一特征进行提炼调整(refine)，同时姿态估计部分和行为识别部分还专门设计了网络结构分别对空域和时间域进行建模，在后续内容中将详细阐述。本发明以残差网络Resnet瓶颈层为基础，对网络结构进行优化以提高网络的速度。如图3所示，优选地，将原网络1×1卷积替换为1×1分组卷积(1×1groupconv)+通道混叠(channelshuffle)的形式，它在实现1×1卷积的功能的同时减小了计算量；将3×3卷积替换为步长为2的3×3深度卷积(depthwise conv)，同样能够减小计算量。将最后的相加操作改为通道拼接(concate)操作，每个恒等映射都进行步长为2的最大池化操作。上述优化设计能保证原始图像能够通过很少的几个更改后的瓶颈层得到希望的特征图形状。

另外，本发明在实现功能时，同时对三维姿态估计和行为识别引入重注入机制(re-injection)构成整个人体姿态估计与行为识别模块的结构，如图2所示。每个三维姿态估计模块将低级特征和上一个三维姿态估计模块特征相加作为输入特征，行为识别模块将当前输入特征和上一个行为识别模块全局池化前的特征相加，作为新的输入特征。通过这种重注入机制，特征会不断的调整，网络的结果也会随之逐渐趋于精确。

在本发明的一种实施方式中，三维姿态估计部用于执行：热图提取步骤和热图解码步骤。其中热图提取步骤执行一次或者堆叠执行多次。

具体地，本发明将坐姿状态下的3维姿态估计定义为11个关键点的3维坐标，一旦确定这些坐标，就可以按照人体拓扑结构连接出人体姿态。11个关键点分别为左眼1、有眼2、鼻子3、左嘴角4、右嘴角5、左肩6、右肩7、左肘8、右肘9、左手腕10、右手腕11，如图4所示。

在热图提取步骤中，同样基于Resnet对3维姿态估计部分的结构进行优化，而提出了一种新的网络结构SACAM(sptial attention and channel attention module)。此结构中沿着通道进行最大池化，对池化后结果进行3x3卷积，得到空间域的注意力，即不同像素位置的权重，对特征精炼。然后引入SE layer学习不同通道的权重，即通道级的注意力，对不同通道特征重新精炼。SACAM结构如图5所示。由于前述低级特征提取部分已经快速的将特征图尺寸调整成需要的分辨率，SACAM块中不进行下采样，卷积步长均为1，池化操作也只是为了提取注意力，SACAM的输入和输出特征图的分辨率保持一致。

进一步地，在热图解码步骤中，姿态估计输入特征连续经过一个或多个SACAM堆叠的结构之后，生成关键点热图Heatmap，其尺寸为(hw,hh,hc)。通过reshape操作转换为(hx,hy,hz,hk)，hx和hy为二维姿态估计结果，hz为关键点深度值，hc为关键点类别数，本实施例中设置为11，hc＝hz*hk，hw＝hx，hh＝hy。

然后，对Heatmap的第三个维度做全局最大池化，得到热图Hxy，尺寸为(hx,hy,hk)；对Heatmap的前两个维度做全局最大池化，得到热图Hz，尺寸为(hz,hk)。本实施例中采用soft-argmax从两个热图中分别解析出二维关键点坐标和深度坐标，共同形成三维关键点坐标。传统算法从热图获取坐标值往往采用argmax，次运算结果不可导，使反向传播链遭到破坏。而本发明中使用soft-argmax，其本质上是把事件定义为最大值落在坐标(x,y)上，这样热图Hxy和Hz自然就成为了对应的概率质量函数，求取最大值坐标就转换为了求取期望，公式如下：

对于关键点的置信度，我们对热图Hxy前两个维度做全局最大池化得到Cxy，对热图Hz的第一个维度做全局池化得到Cz，二者按通道相加，得到置信度Conf。整个姿态估计热图解码的流程如图6所示。

在本发明进一步的实施方式中，行为识别部用于执行行为识别模型搭建步骤、识别输入特征构建步骤以及行为识别步骤和分类步骤。

行为识别模型搭建步骤

在设计模型时，主要利用所述行为识别输入特征对短时间信息和长时间信息分别进行建模，将两模型串联后形成识别模型。作为进一步优选的实施方案，针对输入特征的形状设计了SRLRTM块结构，采用普通的2维卷积就能对短时间信息和长时间信息进行建模。如图8所示，SRLRTM分为两个部分。SRLRTM的左半部分对短时间信息进行建模。它采用1×1卷积增强通道间信息的流动并降低通道数，hk×3卷积目的是对短时间的信息进行建模。因为特征的第二个维度代表时间T，所以卷积核第二维设置为3的目的是对相邻的3帧进行建模。然后进行通道最大池化，以获取到一个时空注意力，将它和恒等映射特征进行自相关，得到局部增强特征，同时为了保留信息的完整性，这里跳跃连接，将原有特征和局部增强特征进行相加。SRLRTM的右半部分对长时间信息进行建模。第一个1×1卷积也是为了增强通道间信息的流动并降低通道数，hk×T卷积是对T帧信息同时建模，用它和1×1卷积配合能获取到一个通道注意力，然后和恒等映射特征在通道维度上做乘法，获得一个全局增强特征，再和恒等映射特征相加，保留原有信息。通过左半部分和右半部分串联，构成一个SRLRTM块。将多个堆叠的SRLRTM块后，连接一个全局最大池化层，一个全连接，再接一个softmax，得到识别分类结果。

识别输入特征构建步骤

该步骤主要用于提取姿态估计特征和场景上下文特征，将二者拼接形成行为识别输入特征。行为识别部分的输入包括两个部分，一个是姿态估计的结果，另一个是低级特征提取子模块提取到的低级特征。在本实施方式中将人体表观和环境上下文结合起来进行行为识别，能够解决只通过姿态来对行为进行判断是不够准确的问题。

对于姿态估计的结果，需要对其格式进行转换，方便网络对其处理。本实施例中将时间维度作为水平轴，关键点类别作为垂直轴，3维关键点的x,y,z坐标对应3个通道，这样的特征可以直接利用2维普通卷积进行处理。特征如图7所示，其形状为(hk,T,3)。

对于人体表观和场景上下文特征，本实施例通过将低级特征和热图做外积来进行提取。具体地，提取热图Hxy为(hx,hy,hk)，即(hw,hh,hk)，而低级特征到热图Hxy的过程中没有进行下采样，记低级特征为F，其尺寸为(hw,hh,hd)，其中hd为通道数。对Hxy的每个通道和F的每个通道计算外积，得到的结果为(hx,hy,hk*hd)。由于两个向量的外积等于两个向量组成平行四边形的面积，外积的结果可以两个向量的相似度，也可以体现两个向量的长度值，而矩阵的外积本质就是矩阵中对应列的外积。本实施例中计算外积的目的是利用一个时刻的所有关键点位置在热图上提取人体表观信息和上下文信息。得到外积结果之后，对前两个轴进行全局平均池化，特征形状变为(hk*hd)，然后拼接T个视频帧的特征，得到人体表观和场景上下文特征Representf，其形状为(T,hk*hd)，将第二个通道拆分，调整顺序，特征形状最后变为(hk,T,hd)。由于姿态估计特征的形状为(hk,T,3)，人体表观和场景上下文特征的形状为(hk,T,hd)，二者前两个维度尺寸一致，按通道拼接，形成行为识别的输入特征(hk,T,3+hd)。

行为识别和分类步骤

在该步骤将所述识别输入特征输入到识别模型中，得到识别分类结果。在本实施方式中，将识别结果分为针对坐姿状态的静态行为和动态行为，其中动态行为包括但不限于：舒展、起立、坐下、伸手取物、摇头晃脑、转身、打电话以及与他人交谈等。静态行为包括但不限于：书写、打字及阅读等。

下面通过一个具体的应用实例，对本发明的方案做进一步说明。

1、从单目图像中不断获取512×512大小的视频帧，并做以下两方面处理：a)更新容量为T＝10的视频队列，将整个视频队列送入人体姿态估计与行为识别模块；b)将当前视频帧直接送入桌面检测模块。

2、人体姿态估计与行为识别模块开始工作，低级特征提取子模块采用如图3所示的瓶颈层结构，堆叠4次。输出低级特征分辨率为32×32，通道数从3扩增为576。其中，第一个瓶颈层通道扩增为12，第二个瓶颈层通道扩增为48，第三个瓶颈层通道扩增为192，第四个瓶颈层通道扩增为576。姿态评估部将T个视频帧中的每一帧送入SACAM结构进行三维姿态估计。SACAM块堆叠5次，其中所有的卷积步长均为1，得到姿态估计特征。然后，将姿态估计特征送入热图解码模块，得到Pxy，Pz和Conf，三者都是11通道，对应11个关键点的结果。由于对T个视频帧分别处理，所以这里会得到T帧的人体姿态结果。行为识别部首先构造行为识别输入特征，构造后的特征尺寸为(hk,T,3+hd)＝(11,10,579))，然后送入SRLRTM块结构。行为识别输入特征经过5个堆叠的SRLRTM块后，连接一个全局最大池化层，一个全连接，再接一个softmax，得到识别分类结果。

3、引入重注入机制，如图2所示，每个三维姿态估计模块将低级特征和上一个三维姿态估计模块特征相加作为输入特征，行为识别模块将当前输入特征和上一个行为识别模块全局池化前的特征相加，作为新的输入特征，以提高网络识别精度。

4、进行桌面检测，桌面检测本质是平面检测问题，目的是从图像中获得桌面的位置和姿态。桌面检测模块对单目图像进行3d平面检测，获取描述各个平面的深度图和法向量，作为平面的位置信息和姿态信息。然后根据相机的摆放位置，从图像下部向上搜索确定桌面范围。

5、进行坐姿评价及提示，行为识别部识别到被识别对象处于打字、书写、阅读等相对静态的状态时，对其坐姿进行评价，根据评价结果给出相应的提示。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于单目视频图像序列的坐姿识别方法，其特征在于，包括：

S2、将所述视频帧序列送入人体姿态估计与行为识别模块，通过获取关键点的3维坐标进行人体姿态的估计和行为类型的识别，所述行为类型包括静态行为和动态行为，判断行为类型识别结果属于静态行为则执行S3，否则执行S1；所述人体姿态估计与行为识别模块包括至少一级估计与识别工作组，所述估计与识别工作组包括并行工作的三维姿态估计部和行为识别部，所述三维姿态估计部用于执行：

热图提取步骤，提取三维姿态估计部的输入特征的空间域注意力和通道级注意力，并根据所述空间域注意力和通道级注意力生成关键点热图，所述空间域注意力为图像各像素位置的权重，所述通道级注意力为各输入通道的权重，

热图解码步骤，对所述关键点热图进行全局最大池化，从而获取二维坐标热图以及深度坐标热图，并由上述二维坐标热图以及深度坐标热图提取三维关键点坐标；

2.根据权利要求1所述的坐姿识别方法，其特征在于，所述人体姿态估计与行为识别模块还包括：低级特征提取子模块，将所述视频帧序列中各帧图像处理为低级特征图；

所述估计与识别工作组中：

第一级估计与识别工作组的三维姿态估计部以所述低级特征图作为输入特征，并输出人体姿态估计结果，

行为识别部以本级人体姿态估计结果和低级特征图作为输入特征，并输出行为识别结果；

其他估计与识别工作组的三维姿态估计部均以所述低级特征图作和上一级人体姿态估计结果为输入特征，并输出人体姿态估计结果，

行为识别部以本级人体姿态估计结果和上一级行为识别结果作为输入特征，并输出行为识别结果。

3.根据权利要求1或2所述的坐姿识别方法，其特征在于，所述人体姿态估计与行为识别模块以最后一级估计与识别工作组得到的人体姿态估计结果和行为识别结果作为输出。

4.根据权利要求2所述的坐姿识别方法，其特征在于，所述行为识别部用于执行：

识别输入特征构建步骤，提取姿态估计特征和场景上下文特征，将二者拼接形成行为识别输入特征；

行为识别步骤，将所述识别输入特征输入到行为识别模型中，得到识别分类结果。

5.根据权利要求4所述的坐姿识别方法，其特征在于，所述行为识别部还用于执行行为识别模型搭建步骤，具体包括：

对行为识别输入特征的短时间信息和长时间信息分别进行建模，分别得到短时间信息子模型和长时间信息子模型；

将所述短时间信息子模型和长时间信息子模型串联构成行为识别工作组；

对多个所述行为识别工作组进行堆叠操作得到行为识别模型。

6.根据权利要求5所述的坐姿识别方法，其特征在于，所述行为识别步骤包括：

将所述行为识别输入特征输入行为识别模型，得到行为识别中间特征；

对所述行为识别中间特征，利用最大池化、全连接层和softmax进行分类，从而得到行为识别分类结果。

7.根据权利要求1所述的坐姿识别方法，其特征在于，所述S2还包括：将当前帧送入桌面检测模块进行桌面位姿检测。

8.根据权利要求1所述的坐姿识别方法，其特征在于，所述S3还包括：所述坐姿评价模块接收桌面位姿检测结果，辅助进行坐姿评估。