CN111104816A

CN111104816A - 一种目标物的姿态识别方法、装置及摄像机

Info

Publication number: CN111104816A
Application number: CN201811247103.2A
Authority: CN
Inventors: 吕瑞
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2020-05-05
Anticipated expiration: 2038-10-25
Also published as: CN111104816B

Abstract

本申请公开了一种目标物的姿态识别方法，包括，获取当前视频帧；检测当前视频帧中目标物的预设关键点，获得当前帧中目标物的预设关键点信息；根据预设关键点信息，判断当前帧与前f帧中当前目标物的预设关键点的位置变化是否满足第一预设姿态条件，和/或，判断当前帧中当前目标物的预设关键点之间的位置关系是否满足第二预设姿态条件；如果满足预设的姿态条件，则识别当前目标物姿态为预设姿态，其中，f为预设的自然数，所述预设姿态条件根据目标物待识别姿态所具有的关键点之间的位置特征设置。本发明实施例能够准确地识别姿态的微小变化，适应面广，对于视频帧中的图像要求低，识别姿态的准确性高，姿态识别的误检和漏检小。

Description

一种目标物的姿态识别方法、装置及摄像机

技术领域

本发明涉及图像分析领域，特别涉及一种目标物的姿态识别方法、装置及摄像机。

背景技术

随着图像采集和分析技术的发展，基于视频或图像数据的分析得到越来越广泛的应用，例如，目标物的姿态检测或识别。

现有的通过视频或图像分析来实现目标物的姿态检测或识别方法，主要是：分析当前帧与上一帧的帧差图像，根据该帧差图像得到有移动动作的目标物像素点，将有移动动作的目标物像素点组成的图形作为轮廓，根据该轮廓的变化情况判断是否存在特定的姿态。

然而，上述方法采用帧差图像分析来提取目标物像素点，当目标动作变化较小时，相邻帧像素差异很小，此时，从帧差图像中可能无法得到有移动动作的目标物像素点，从而容易造成目标姿态漏检，导致识别准确率较低。

发明内容

本发明实施例的目的在于提供一种目标物的姿态识别方法、装置及摄像机，以提高对图像中目标物的姿态识别的准确性。

本发明提供一种目标物的姿态识别方法，包括，

获取当前视频帧；

检测当前视频帧中目标物的预设关键点，获得当前帧中目标物的预设关键点信息；

根据预设关键点信息，判断当前帧与前f帧中当前目标物的预设关键点的位置变化是否满足第一预设姿态条件，和/或，判断当前帧中当前目标物的预设关键点之间的位置关系是否满足第二预设姿态条件；

如果满足预设的姿态条件，则识别当前目标物姿态为预设姿态，

其中，f为预设的自然数，所述预设姿态条件根据目标物待识别姿态所具有的关键点之间的位置特征设置。

较佳地，该方法进一步包括，

将识别出当前目标物姿态的当前帧输入到训练后的机器学习模型，如果机器学习模型识别当前帧中目标物姿态为所述预设姿态，则将该预设姿态作为识别结果。

其中，所述将识别出当前目标物姿态的当前帧输入到训练后的机器学习模型，如果机器学习模型识别当前帧中目标物姿态为所述预设姿态，则将该预设姿态作为识别结果，包括，

收集包含目标物姿态的图片数据，

标定图片数据中所述目标物的第一目标框，提取图片数据中的第一目标框图像，制作识别姿态和非识别姿态的二分类样本，

将所述二分类样本输入至机器学习模型，对该模型进行训练，并保存当前训练后的模型；

基于预设关键点生成当前帧中所识别当前目标物的第二目标框，从当前帧中提取第二目标框图像，实时输入至训练后的模型进行分类，如果机器学习模型将其分类为所识别的姿态，则将该分类结果作为识别结果。

其中，所述获得当前帧中目标物的预设关键点信息之后进一步包括，

根据获得的预设关键点信息，判断当前帧中是否包括两个以上目标物，如果是，则根据预设关键点信息进行目标物跟踪，获得锁定目标物；否则，则将当前帧中的目标物作为锁定目标物；

该方法进一步包括，

遍历当前帧中的锁定目标物，根据当前锁定目标物的预设关键点信息进行姿态识别，直至当前帧的所有目标物姿态识别完毕。

较佳地，该方法进一步包括，

判断当前帧与前f帧中锁定目标物的预设关键点位置变化是否大于第一位移阈值，

如果是，执行所述判断当前帧与前f帧中当前目标物的预设关键点的位置变化是否满足第一预设姿态条件步骤，

否则，则执行所述判断当前帧中当前目标物的预设关键点之间的位置关系是否满足第二预设姿态条件步骤。

其中，所述第一预设姿态条件为起坐姿态条件，

所述判断当前帧与前f帧中当前目标物的预设关键点的位置变化是否满足第一预设姿态条件包括，

根据预设人体关键点信息，确定当前帧与前f帧同一预设人体关键点的纵向位置变化，并根据所述相对位置变化确定是否符合所述起坐姿态条件。

其中，所述根据预设人体关键点信息，确定当前帧与前f帧同一预设人体关键点的纵向位置变化，并根据所述相对位置变化确定是否符合所述起坐姿态条件，包括，

根据预设的左肩部、和右肩部人体关键点信息，确定当前帧与前f帧中左肩部、和右肩部人体关键点的纵向位置变化，并根据所述位置变化确定是否符合起坐姿态条件。

其中，所述根据预设的左肩部、和右肩部人体关键点信息，确定当前帧与前f帧中左肩部、和右肩部人体关键点的纵向位置变化，并根据所述位置变化确定是否符合起坐姿态条件，包括，

判断当前帧与前f帧中左肩部关键点位移、与当前帧与前f帧中右肩部关键点位移之和，是否大于人体关键点时序位置关系判断阈值；如果是，则识别为疑似起立姿态；如果小于所述判断阈值的负值，则识别为疑似落座姿态；如果等于所述判断阈值，则识别为无动作姿态；

其中，所述人体关键点时序位置关系判断阈值与当前帧中的左右肩部两人体关键点在当前帧的距离成比例关系。

收集包含目标人体起立姿态和/或落座姿态的图片数据，

标定图片数据中所述目标人体的第一目标框，提取图片数据中的第一目标框图像，制作人体起立姿态和人体落座姿态的二分类样本，

当前帧中疑似起立姿态和/或落座姿态，基于预设关键点生成第二目标框，从当前帧中提取所述第二目标框图像，实时输入至训练后的模型进行分类，如果机器学习模型将疑似起立姿态目标框图像分类为起立姿态，则识别为起立姿态，如果将疑似落座姿态目标框图像分类为落座姿态，则识别为落座姿态。

较佳地，该方法还包括，

判断当前帧所识别目标人体的落座姿态是否持续有M帧，如果是，则控制摄像机镜头捕获远景；

判断当前帧所识别目标人体的起立姿态是否持续有T帧，如果是，则统计当前帧中识别出的起立姿态目标人体的数量是否等于1，如果是，则控制摄像机镜头捕获到该目标人体的近景，否则，控制摄像机镜头捕获远景；

其中，M、T为预先设置的自然数。

较佳地，所述第二预设姿态条件为板书姿态条件，

所述判断当前帧中当前目标物的预设关键点之间的位置关系是否满足第二预设姿态条件包括，

根据预设人体关键点信息，确定预设人体关键点之间的相对位置关系，并根据所述相对位置关系确定是否符合所述板书姿态条件。

其中，所述根据预设人体关键点信息，确定预设人体关键点之间的相对位置关系，并根据所述相对位置关系确定是否符合所述板书姿态条件，包括，

根据预设的右手腕、右手肘、以及右肩膀人体关键点信息，确定右手腕关键点、右手肘关键点以及右肩膀关键点之间的相对位置关系，并根据所述相对位置关系确定是否符合板书姿态条件。

其中，

所述根据人体关键点信息，确定右手腕关键点、右手肘关键点以及右肩膀关键点之间的相对位置关系，并根据所述相对位置关系确定是否符合板书姿态条件，包括，

判断右手腕关键点位置是否高于右手肘关键点位置，且右手腕关键点与右手肘关键点的水平间距是否小于第一间距阈值，且右手肘关键点与右肩膀关键点的竖直间距是否小于第二间距阈值；

如果是，则识别该目标人体存在板书姿态，否则，则识别该目标人体为非板书姿态。

本发明实施例提供一种目标物的姿态识别装置，该装置包括，

图像获取模块，获取当前视频帧；

关键点检测模块，检测当前视频帧中目标物的预设关键点，获得当前帧中目标物的预设关键点信息；

识别模块，根据预设关键点信息，判断当前帧与前f帧中当前目标物的预设关键点的位置变化是否满足第一预设姿态条件，和/或，判断当前帧中当前目标物的预设关键点之间的位置关系是否满足第二预设姿态条件；

如果满足预设的姿态条件，则识别当前目标物姿态为预设姿态；

其中，f为自然数，所述预设姿态条件根据目标物待识别姿态所具有的关键点之间的位置特征设置。

较佳地，该装置还包括，

检测分类模块，将识别出当前目标物姿态的当前帧输入到训练后的机器学习模型，如果机器学习模型识别当前帧中目标物姿态为所述预设姿态，则将该预设姿态作为识别结果。

其中，所述检测分类模块包括，

样本制作单元，标定包含目标物姿态的图片数据中目标物的第一目标框，提取图片数据中的第一目标框图像，制作识别姿态和非识别姿态的二分类样本，将所述二分类样本输入至机器学习模型单元；

机器学习模型单元，基于输入的二分类样本进行训练，保存当前训练后的模型；将实时输入的第二目标框图像通过训练后的模型进行分类，其中，所述第二目标框图像为基于预设关键点生成的当前帧中所识别当前目标物的第二目标框、且从当前帧中提取的该目标框中的图像。

其中，该装置还包括，

目标跟踪模块，根据获得的预设关键点信息确定当前帧中所包括的目标物数量，当目标物数量大于等于2时，根据预设关键点信息进行目标物跟踪，获得锁定目标物，当目标物数量等于1时，将当前帧中的目标物作为锁定目标物。

较佳地，该装置还包括，

预设关键点帧间位置识别模块，判断当前帧与前f帧中锁定目标物的预设关键点位置变化是否大于第一位移阈值；当所述位置变化大于第一位移阈值时，则确定该位置变化是否满足第一预设姿态条件；当所述位置变化不大于第一位移阈值时，则确定当前目标物的预设关键点之间的位置关系是否满足第二预设姿态条件。

其中，所述第一预设姿态条件为起坐姿态条件，所述识别模块包括，

第一识别单元，根据预设人体关键点信息，确定当前帧与前f帧同一预设人体关键点的纵向位置变化，并根据所述相对位置变化确定是否符合所述起坐姿态条件。

其中，所述第一识别单元包括，

第一计算子单元，计算当前帧与前f帧中左肩部关键点位移、与当前帧与前f帧中右肩部关键点位移之和；计算人体关键点时序位置关系判断阈值与当前帧中的左右肩部两人体关键点在当前帧的距离的比例值，

第一比较子单元，比较当前帧与前f帧中左肩部关键点位移、与当前帧与前f帧中右肩部关键点位移之和，是否大于所述人体关键点时序位置关系判断阈值；如果是，则识别为疑似起立姿态；如果小于所述判断阈值的负值，则识别为疑似落座姿态；如果等于所述判断阈值，则识别为无动作姿态。

较佳地，该装置还包括，

摄像控制模块，当当前帧所识别目标人体的落座姿态持续有M帧时，控制摄像机镜头捕获远景；当当前帧所识别目标人体的起立姿态持续有T帧时，如果统计当前帧中识别出的起立姿态目标人体的数量等于1，则控制摄像机镜头捕获到该目标人体的近景，如果统计当前帧中识别出的起立姿态目标人体的数量大于1，则控制摄像机镜头捕获远景；其中，M、T为预先设置的自然数。

其中，所述第二预设姿态条件为板书姿态条件，所述识别模块包括，

第二识别单元，根据预设人体关键点信息，确定预设人体关键点之间的相对位置关系，并根据所述相对位置关系确定是否符合所述板书姿态条件。

其中，所述第二识别单元包括，

第二计算子单元，计算右手腕关键点与右手肘关键点的水平间距、以及右手肘关键点与右肩膀关键点的竖直间距；

第二比较子单元，比较右手腕关键点位置是否高于右手肘关键点位置，且所计算的水平间距是否小于第一间距阈值，且所计算的竖直间距是否小于第二间距阈值；如果是，则识别该目标人体存在板书姿态，否则，则识别该目标人体为非板书姿态。

本发明实施例提供了一种摄像装置，包括摄像头、存储器和处理器，其中，

所述摄像头，用于拍摄图像；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序，上述的目标物姿态识别方法。

本发明实施例提供的目标物的姿态识别方法，基于目标物待识别姿态所具有的关键点之间的位置特征，通过对目标物预设关键点的检测、预设关键点的位置变化和/或位置关系变化，来进行姿态的识别。本发明实施例能够准确地识别姿态的微小变化，对目标物、姿态没有特定要求，适应面广，对于视频帧中的图像要求低，识别姿态的准确性高，姿态识别的误检和漏检小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实现目标物的姿态识别的一种流程示意图。

图2为本发明对获取的视频帧中的目标物进行识别的一种流程示意图。

图3为实施例的人体关键点示意图。

图4为基于一个目标人体的起坐姿态识别方法的一种流程示意图。

图5为应用于课堂录制场景下基于多个目标人体的起坐姿态识别而控制录制设备的一种流程示意图。

图6为本发明实施例二中摄像机安装位置示意图。

图7为板书行为识别方法的一种流程示意图。

图8为视频中包含多目标人体的板书姿态识别方法的一种流程示意图。

图9为本发明实施例的一种装置示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

随着云计算、大数据、人工智能等领域的迅猛发展，智能产品已经在各行各业得到了广泛应用。智能视频分析作为智能产品之一，主要包括目标物关键点检测、目标跟踪、关键点姿态检测等，其中，关键点检测是利用图像帧的信息，检测出图像中所有关键点的位置，并给出每个关键点的坐标、以及每个关键点之间的连接关系；关键点跟踪是依据关键点检测的结果，生成目标检测框，并对检测框进行跟踪。关键点姿态检测是依据跟踪目标关键点的时空关系，进行姿态的识别。

利用目标物的关键点检测，结合待识别姿态的关键点之间的位置关系、和/或关键点不同时序上的位置关系，对检测到的预设目标物关键点按照预设的关键点之间的位置关系、和/或预设关键点中的同一关键点不同时序上的位置变化进行判决，识别出目标物待识别的姿态，进一步地，为避免误判和漏检，通过训练的深度学习算法模型对识别出的姿态进行检测和分类。

参见图1所示，图1是本发明实现目标物的姿态识别的一种流程示意图。该示意图示出了本发明技术方案的基本流程。

获取当前视频帧；

步骤101，检测当前视频帧中目标物的预设关键点，获得当前帧中目标物的预设关键点信息；

步骤102，根据预设关键点信息，判断当前帧与前f帧中当前目标物的预设关键点的位置变化是否满足第一预设姿态条件，和/或，判断当前帧中当前目标物的预设关键点之间的位置关系是否满足第二预设姿态条件；

如果满足预设的姿态条件，则识别当前目标物姿态为预设姿态，如果不满足预设的姿态条件，则识别当前目标物姿态为预设姿态。

其中，f为预设的自然数，所述预设姿态条件根据目标物待识别姿态所具有的关键点之间的位置特征设置，例如，基于对待识别姿态的关键点的运动轨迹规律来设置。

参见图2所示，图2是本发明对获取的视频帧中的目标物进行识别的一种流程示意图。

步骤201，获取当前视频帧后，记录当前帧号f；

步骤202，对当前视频帧按照固定的尺寸进行缩放，以得到大小一致的图幅；

步骤203，对目标物预设关键点进行检测，获得和保存当前帧中每个目标物的各预设关键点信息；

步骤204，根据获得的预设关键点信息判断当前帧中是否两个以上目标物，即，获取当前帧中所包含的目标物的数量；如果当前帧中包括了多个目标物，则执行步骤205，通过目标跟踪以获得锁定目标物，以使得当前视频帧对应的目标物中与上一视频帧对应的目标物为同一目标的目标物，如果当前帧中仅有一目标物，则执行步骤206，将当前帧中的目标物作为锁定目标物，或者，在该步骤中，较佳地，对当前帧的目标物也进行目标跟踪，以避免帧间目标物发生变更后的误判，例如，当上一帧或前f帧时第一目标物离开、当前帧时第二目标物进入视频时，采用目标跟踪则能够确保使得当前视频帧对应的目标人体物中与上一视频帧对应的目标人体物为同一目标的目标，有利于提高姿态识别的准确性；

步骤207，判断当前帧与前f帧中锁定目标物的预设关键点位置变化是否大于第一位移阈值，以确定预设关键点中的同一关键点不同时序(间)上的位置是否有变化，

如果位置有变化，则执行步骤208，说明待识别的姿态有帧间位置变化，可以视为以动态运动为主，在姿态识别时以帧间同一预设关键点的位移是否满足第一预设姿态条件来预判当前帧中锁定目标物的姿态；

如果当前帧与前f帧中锁定目标物的预设关键点位置变化小于或等于第一位移阈值，则执行步骤209，说明待识别的帧间位置变化不明显，可以视为以静态为主，则按照帧内预设关键点之间的位置关系是否满足第二预设姿态条件来预判当前帧中锁定目标物的姿态；

步骤210，为进一步提高姿态识别的准确度，将步骤208或步骤209预判的目标物疑似姿态通过训练的深度模型进行进一步检测和分类，得到当前帧中当前锁定目标的最终识别结果。

步骤211，判断当前帧中是否还有未识别的锁定目标物，如果有，则对下一锁定目标物进行识别，直至所有的锁定目标物的姿态都进行了识别；否则，则说明当前帧中的目标物处理完毕，继续处理下一帧。

通过上述步骤，解决了当前帧中包含多个目标物情形下的识别过程，并基于待识别姿态的特点对预设关键点采用不同判决策略来进行识别。

在实际的应用中，人体作为目标物的姿态识别有着广泛的应用需求。以下以人体的姿态识别为实施例来说明。

当目标物为人体、采集的图像为视频时，基于人体可以标注与姿态识别相关的人体部位作为关键点。如图3所示，图3是实施例的人体关键点示意图，其中，头部关键点索引为0，颈部关键点索引为1，….以此类推，图中的数字表示部位关键点索引。当待识别的姿态为起立和/或落坐姿态时，由于该姿态所涉及的主要变化部位为人体的上半身，则可设置头部、颈部、左右肩部、左右臀部、左右手肘、左右手腕、胸为关键点；又例如，待识别的姿态为板书姿态，由于板书通常通过右臂带动右手进行书写，则可设置、右腕、右臂、右肩为关键点；再例如，待识别的姿态为某运动姿势，比如仰卧起坐、平板支撑等，可结合运动姿势所涉及的人体部位来设置关键点。

实施例一：以下将以人体起坐姿态的识别为实施例。

参见图4，图4为基于一个目标人体的起坐姿态识别方法的一种流程示意图。

步骤401，从采集一帧图像开始，记录当前该帧的帧号f；

步骤402，对图像进行预处理：将所采集的图像按照固定尺寸w×h进行缩放，以得到大小一致的图幅，一则避免因摄像装置的差异而导致图像尺寸大小的差异，二则有利于提高后续步骤中图像的分析准确性。

步骤403，按照待识别姿态相关的人体部位所预设的人体关键点，进行人体关键点检测，并获取和保存该帧图像中每个预设人体关键点信息J_n，f，例如，人体关键点坐标信息，记为J_n，f·x,J_n，f·y,其中，n为人体关键点索引号，f为当前帧号，x表示为横坐标，y表示纵坐标，故而，J_n，f·x表示第f帧中的人体关键点n的横坐标，J_n，f·y表示第f帧中的人体关键点n的纵坐标。

在该步骤中，对所述当前视频帧用预设的机器学习算法进行分析，得到所述当前视频帧对应的多张预设人体关键点热度图；所述预设的机器学习算法是通过已标注人体关键点的样本视频帧，以及所述各样本视频帧对应的样本人体关键点热度图训练得到的；任一所述人体关键点热度图包括部位标识、以及与该部位标识对应的所述当前视频帧的各像素点的人体关键点热度值；根据所述多张人体关键点热度图确定所述当前视频帧对应的目标人体的人体关键点信息；其中，

所述人体关键点标注可以通过人工标注出图片中人体关键点的位置。本实施例中，为便于在其他姿态的识别中的需要，标注的人体关键点包括头、脖子、右肩膀、右手肘、右手腕、左肩膀、左手肘、左手腕、胸、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝等15个人体关键点。

在机器学习算法中，本实施例采用的是YPN(YOLO Pyramid Networks)模型，该模型是通过组合和优化开源目标检测网络框架YOLOv2和特征金字塔网络(FPN，FeaturePyramid Networks)的网络结构设计得到。YOLOv2网络结构用于在减少计算量的情况下，快速提取目标特征。相比于OpenPose采用的卷积神经网络结构，YPN计算量更小，且可以在不损失精度的情况下，实现人体关键点的实时检测。FPN网络结构有利于提升特征的多尺度适应性，保证网络模型的检测性能。

步骤404，鉴于在不同视频帧中，起坐姿态所涉及的预设人体关键点之间的位置关系没有变化，而同一目标的同一人体关键点在不同视频帧中位置有变化，也就是说，帧内人体关键点之间的位置关系保持相对不便，而帧间同一人体关键点位置不同，为了更好地捕获到目标人体，较佳地，用预设的跟踪算法，选择当前视频帧对应的目标人体中与上一视频帧对应的目标人体为同一目标的目标人体，作为捕获的动作目标人体；

上述预设的跟踪算法可以为多目标追踪算法CMOT(Robust Online Multi-objectTracking Based on Tracklet Confidence)，也可以是其他跟踪算法，本发明实施例不具体限定。

具体而言，用预设的跟踪算法，判断上述当前视频帧对应的目标人体中的预设人体关键点对应的第一预设图形，与上一视频帧对应的目标人体中的预设人体关键点对应的第二预设图形，是否满足预设的重叠条件。

上述预设人体关键点可以是能够组成辨识度较强的目标人体轮廓的多个人体关键点。例如，上述多个预设人体关键点可以包括人体上半身的所有关键点，也可以是标记有头部标识的人体关键点、标记有左肩标识的人体关键点以及标记有右肩标识的人体关键点。这三个关键点所组成的目标人体轮廓可以较好地将目标人体辨识出。本领域技术人员也可以根据实际情况选择其他人体关键点作为预设人体关键点，本发明实施例不作具体限定。

如果所述第一预设图形与所述第二预设图形满足预设的重叠条件，则将上述当前视频帧中与上一视频帧中满足预设的重叠条件的预设图形对应的人体关键点对应的目标人体，作为与上一视频帧对应的目标人体为同一目标的目标人体。

在实际的应用中，当人体关键点检测的精度足够时，该步骤必非必要。

步骤405，由于起坐姿态在图像上表现为帧内人体关键点之间的位置关系保持相对不便，而帧间同一人体关键点位置不同，基于此，需要将当前帧中目标人体的人体关键点信息与包括当前帧的前f帧中的同一人体关键点信息进行比较，从而，判断是否已存有当帧的前f帧的人体关键点信息，如果是，则可以执行步骤407，否则，说明所采集的帧量不够，将可能影响到姿态识别的准确性，则执行步骤406，采集下一帧图像；

步骤407，基于人体跟踪所得到的目标人体，预判该目标人体的起坐姿态：

通过人体跟踪锁定到目标人体之后，确定该目标人体当前视频帧中预设的人体关键点坐标，并与前f帧中同一目标人体的人体关键点坐标进行比对，以此预判其姿态。

基于人体起坐时肩部的位移变化与本体的肩部宽度有一定比例关系，具体体现在，在图像上起立姿态与落坐姿态所对应的肩部关键点的纵向坐标发生变化，在时序上，当前帧与前f帧同一人体关键点的纵向坐标发生变化，由此，较佳地，计算当前帧与前f帧左右肩部两人体关键点的纵向坐标的变化，以及左右肩部两人体关键点在当前帧的位置关系，并比较所述纵向坐标变化与所述位置关系，判断是否有疑似起坐姿态，具体公式如下：

d＝|J_2，1·x-J_5，1·x|×α

其中，结合图3的标示，J_2，1·x、J_2，1·y、J_5，1·x、J_5，1·y分别代表当前帧左肩部的横坐标、纵坐标和右肩部的横坐标、纵坐标。J_2，f·y、J_5，f·y分别代表目标学生前f帧左肩部、右肩部的纵坐标，d代表人体关键点时序位置关系判断阈值，取值为目标学生肩部宽度和比例系数α的乘积。

在图像领域的直角坐标中，通常默认坐标原点位于图像的左上角，x坐标轴从左到右为正向，y坐标轴从上到下为正向。按照上述公式：

如果左右肩部位移之和大于判断阈值，说明当前帧人体关键点相对于前f帧所对应得人体关键点位移方向是沿y坐标轴的正向，则令W＝1，记录为疑似出现落座姿态；

如果左右肩部位移之和小于负的判断阈值，说明当前帧人体关键点相对于前f帧所对应的人体关键点位移方向是y坐标轴的负向，则令w＝2时，则记录为疑似出现起立姿态；

如果左右肩部位移之和等于判断阈值，说明当前帧人体关键点相对于前f帧所对应的人体关键点位移方向非常有限，则令w＝0，记录为疑似未做动作。具体实施时，相关参数的取值为α＝0.8。

按照上述方式能够识别出起立和落坐姿态的概率为80-90％左右。

由于胸部前倾后坐立、坐立后仰等姿态时，肩部的移动轨迹与起立是的移动轨迹相似，从而对上述姿态产生误判，较佳地，结合分类网络算法对上述疑似的判决结果进行分类校准，以提高起坐姿态识别的准确性，具体为步骤408。

步骤408，对判决为疑似落坐和起立姿态的目标，采用机器学习算法进行起坐检测分类：

首先，收集包含有起坐姿态的图片数据，较佳地，可以从当前所采集的图像帧集合中筛选出包含有落坐姿态和起立姿态的图片数据作为训练用的样本数据，标定样本数据中所有落坐目标和起立目标的第一目标框，因落坐姿态和起立姿态主要涉及的是人体的上半身关键点，较佳地，可以标定所述落坐目标和起立目标的半身框；基于标定数据中的第一目标框进行外扩，将每张图片数据中的第一目标框图像提取出来，制作落坐姿态和起立姿态二分类样本。较佳地，所标定的目标框为规则图形，以方便灵活简化地设置外扩比例，例如，第一目标框为矩形，设置左右外扩目标框宽度的0.2，上外扩目标框高度的0.1，下外扩目标框高度的0.5。

将所述二分类样本输入至卷积神经网络CNN网络模型，对该模型进行训练，在训练结束后，保存当前的训练后的CNN网络模型。

上述样本数据的获取、以及CNN网络模型的训练独立于本流程之外，可以是与本流程并行处理的任务，或者是在具有样本数据的基础上预先进行的任务。

当识别出当前帧中的疑似落坐或起立姿态时，基于人体关键点生成第二目标框，将第二目标框外扩一定比例后，再对预判为疑似起坐的第二目标框进行抠图，即，将第二目标框图像从当前帧中提取出来，然后将提取的图像实时地送入CNN分类网络进行分类。如果疑似起立的目标框图像被分类为起立，则识别为起立姿态。若疑似落坐的目标框图像被分类为落坐，则识别为落坐姿态。

所述第一目标框和第二目标框的形状可以相同，也可以不同；第二目标框可以基于目标人体的全部关键点生成，也可以基于与待识别姿态相关的预设关键点生成。

本实施例所提供的基于图像识别出单个人体的起坐姿态的方法，通过人体关键点的跟踪、多帧之间人体关键点的轨迹变化以及通过疑似姿态的深度学习模型的训练来对疑似姿态进一步的识别，提高了姿态识别的准确性，减少了漏检或者误检。

实施例二：以下将以远程教育的课堂视频资源为基础、以课堂视频的录制为应用场景时对于学生的起坐姿态的识别为实施例。

在教育教学领域，远程教育、智慧课堂、课堂视频监控等的出现，使得现代教育更为便捷和高效。目前，远程教育中课程视频资源的获取方式有两种。一种是采用人工摄制的方式来录制，一种是采用基于传统图像处理的方法来控制摄制设备自动录制。然而，前一种方法虽然可靠，但是成本高；后一种方法虽然成本较低，但是不可靠。在以下实施例中，基于起坐姿态的识别结果，控制录制设备的远近景拍摄的切换和调整，同时实现了教室课堂的监控。

参见图5所示，图5为应用于课堂录制场景下基于多个目标人体的起坐姿态识别而控制录制设备的一种流程示意图。

步骤500，获取当前视频帧。

在录制视频前，可以在教室内安装摄像机，该摄像机可以安装在教室讲台侧的顶部，摄像视角至少覆盖教室所有课桌区域，例如，如图6所示，一全景摄像机安装于讲台侧的一可固定位上，摄像视角可覆盖讲桌以及所有课桌区域。在本发明实施例中，可以由人工开启摄像机，也可以由摄像机根据预设开启时间，自动开启摄像机。具体地，可以将教师讲课的预设讲课时间作为上述预设开启时间。

摄像机开启后，可以通过摄像机的摄像头拍摄图像，并从拍摄的图像中获取当前视频帧，来判断当前视频帧中的目标人体是否存在起坐姿态。

步骤501，记录当前帧号f；

步骤502，对图像进行预处理：将所采集的图像按照固定尺寸w×h进行缩放，以得到大小一致的图幅，一则避免因摄像装置的差异而导致图像尺寸大小的差异，二则有利于提高后续步骤中图像的分析准确性。

步骤503，人体关键点检测：

首先收集学生场景的数据集，然后标注出图片中每个目标人体(学生)的每个人体关键点的位置。为方便学生行为和姿态识别的其它应用，例如，监控是否有较长时间的低头姿态等，较佳地，标注的人体关键点包括头、脖子、右肩膀、右手肘、右手腕、左肩膀、左手肘、左手腕、胸、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝等15个人体关键点。如果为了减少标注的数据量，对于起坐姿态的识别，也可以仅标注上半身的关键点，即，头、脖子、右肩膀、右手肘、右手腕、左肩膀、左手肘、左手腕、胸、右臀部、左臀部。

实施方式之一可以是，获取人体关键点的标注数据后，将其作为YPN网络模型的训练样本，对YPN网络模型进行训练，并保存训练后的YPN网络模型；将采集的当前视频帧输入所述训练后的YPN网络模型，通过该模型从当前视频帧中提取出人体关键特征，从而实现了人体关键点信息的实时生成，得到该帧图像中每个人体(学生)目标的每个人体关键点信息J_k，n，f，例如，第f帧中目标人体(学生)k的人体关键点n的坐标信息，记为J_k，n，f·x,J_k，n，f·y,其中，n为人体关键点索引号，f为当前帧号，x表示为横坐标，y表示纵坐标，故而，J_k，n，f·x表示第f帧中学生k的人体关键点n的横坐标，J_k，n，f·y表示第f帧中学生k的人体关键点n的纵坐标。

步骤504，由于摄像机录制的视频帧中包括多个目标人体时，为使当前视频帧与上一视频帧对同一目标人体进行起坐姿态识别，从而使识别过程可以连续针对同一个人，本步骤重用预设的跟踪算法，选择当前视频帧对应的目标人体中与上一视频帧对应的目标人体为同一目标的目标人体，作为捕获的动作目标人体；

与实施例一仅有一个目标所不同的是，课堂视频中通常涉及到多个目标人体，从而在目标人体跟踪时，需要遍历当前视频帧中每个目标人体。

具体为，

步骤504a，用预设的跟踪算法，判断当前视频帧对应的目标人体中的多个预设人体关键点对应的第一预设图形，与上一视频帧对应的目标人体中的多个预设人体关键点对应的第二预设图形，是否满足预设的重叠条件。如果所述第一预设图形与所述第二预设图形满足预设的重叠条件，则将满足预设的重叠条件的第一预设图形对应的目标人体，作为与上一视频帧对应的目标人体为同一目标的目标人体，即，将满足预设的重叠条件的第一预设图形对应的目标人体作为锁定目标。

步骤504b，遍历每个目标人体的人体关键点坐标，计算得到每个目标的多个预设人体关键点所对应的预设图形，再然后返回执行步骤504a，直至完成当前视频帧中所有目标人体的跟踪。

上述多个预设人体关键点对应的预设图形，可以是连接多个预设人体关键点后形成的图形，也可以是多个预设人体关键点的外接多变形，如外接四边形、五边形等。本发明实施例不具体限定预设图形的具体形状。较佳地，预设图形为上半身外接框，所述预设算法可以为CMOT算法。

步骤505，判断是否已有包括当前帧的前f帧，如果是，则可以执行步骤506，否则，说明所采集的帧量不够，将影响到姿态识别的准确性，则执行步骤507，采集下一帧图像；

步骤506，遍历所有锁定目标的人体关键点坐标，预判各个锁定目标的起坐姿态：

在该步骤中，与实施例一所不同的是，课堂视频中通常包括有多个目标人体，从而在通过人体跟踪得到多个锁定目标之后，需要遍历每个锁定目标，得到锁定目标当前视频帧的人体关键点坐标，并与前f帧中同一目标人体的人体关键点坐标进行比对，以此预判其姿态。

具体为，

步骤506a，计算锁定目标k(例如，学生k)当前帧与前f帧左右肩部两人体关键点的纵向坐标的变化，以及该锁定目标k的左右肩部两人体关键点在当前F帧时序上的位置关系，并比较所述纵向坐标变化与所述位置关系，判断是否有疑似起坐姿态，具体公式如下：

d_k＝|J_k，2，1·-J_k，5，1·x|×α

式中，J_k，2，1·x、J_k，5，1·y、J_k，2，1·x、J_k，5，1·y分别代表锁定目标k当前帧右肩膀的横坐标、纵坐标和左肩膀的横坐标、纵坐标。J_k，2，f·y、J_k，５，f·y分别代表锁定目标k前f帧右肩膀、左肩膀的纵坐标，d_k代表锁定目标k的人体关键点时序位置关系判断阈值，取值为锁定目标k的肩膀宽度和比例系数α的乘积。

按照上述公式：

如果左右肩部位移之和大于判断阈值，说明当前帧人体关键点相对于前f帧所对应得人体关键点位移方向是沿y坐标轴的正向，则令W＝1，记录为该锁定目标k为疑似出现落座姿态；

如果左右肩部位移之和小于负的判断阈值，说明当前帧人体关键点相对于前f帧所对应的人体关键点位移方向是y坐标轴的负向，则令w＝2时，则记录该锁定目标k为为疑似出现起立姿态；

如果左右肩部位移之和等于判断阈值，说明当前帧人体关键点相对于前f帧所对应的人体关键点位移方向非常有限，则令w＝0，记录该锁定目标k为为疑似未做动作。具体实施时，相关参数的取值为α＝0.8。

步骤506b，遍历下一锁定目标，返回步骤506a，直至遍历的当前视频帧中所有锁定目标完成起坐姿态的预判。

步骤508，对判决为疑似落坐和起立姿态的多个目标，采用机器学习算法进行起坐检测分类：

首先收集具有学生场景的图片数据，较佳地，可以从当前所采集的视频帧集合中筛选出包含有多个目标(学生)的落坐姿态和/或起立姿态的图片数据作为训练用的样本数据，标定样本数据中所有学生的落坐目标和起立目标的第一目标框，因落坐姿态和起立姿态主要涉及的是人体的上半身关键点，较佳地，可以标定所述落坐目标和起立目标的半身框；基于标定数据中的第一目标框进行外扩，将每一视频帧中每个学生的第一目标框图像提取出来，制作落坐姿态和起立姿态二分类样本。

上述样本数据的获取、以及CNN网络模型的训练独立于本流程之外，可以是与本流程并行处理的进程，或者是在具有样本数据的基础上预先进行的进程。

当识别出当前帧中的多个疑似落坐或起立姿态目标时，基于其人体关键点为每个疑似姿态目标生成第二目标框，将第二目标框外扩一定比例后，再对每个疑似姿态目标分别进行抠图，即，将第二目标框图像从当前帧中提取出来，然后将提取的每个图像实时地送入CNN分类网络进行分类。如果疑似起立的目标框图像被分类为起立，则识别为起立姿态。若疑似落坐的目标框图像被分类为落坐，则识别为落坐姿态。如此反复，遍历当前帧中所有疑似姿态目标，直至所有疑似姿态目标均完成起坐检测分类。

步骤509，对于步骤508所识别出的落座姿态目标，遍历当前帧的前M帧中，是否都有该目标的落座姿态，即，判断该目标的落座姿态是否持续有M帧，如果是，则说明该目标的姿态当前没有变化，触发摄像机镜头还原，以控制摄像机镜头捕获远景，否则，则处理下一视频帧；

步骤510，对于步骤508所识别出的起立姿态目标，遍历当前帧的前T帧中，是否都有该目标的起立姿态，即，判断该目标的起立姿态是否持续有T帧，

如果是，说明该目标的姿态当前没有变化，则进一步统计当前帧中识别出的起立姿态目标的数量是否等于1，如果是，则说明当前帧中只有1人处于起立状态，则触发摄像机镜头拉伸，以控制摄像机镜头捕获到该目标的近景，否则，则说明当前帧中至少两人以上处于起立状态，则触发摄像机镜头还原，以控制摄像机镜头捕获远景，

如果该目标的起立姿态没有持续有T帧，则处理下一视频帧。

上述T、M为自然数，且可以根据需求设置。

在本实施例二中，通过人体关键点检测准确地定位到每个学生的头部和肩膀，可以有效地进行每个学生的起立姿态检测，同时能够区分举手、抬头、趴下后坐立、坐立后仰等容易造成误报的动作，最终完成更为精准的起立抓拍过程，进而跟踪拍摄学生的行为动作，自动对学生进行定位、跟踪、关键行为预判和识别，实现了当学生起立时，则摄像机聚焦在该学生的身上，清晰拍摄学生起立时的表情和肢体动作；当学生坐下时，则摄像机恢复全景拍摄，更真实地再现和记录课堂教学的过程。进一步的应用还可以是，当步骤506识别出疑似起立和落座姿态时，输出疑似姿态的报警目标，以输入智能视频分析***进行相应的分析或报警输出。

实施例三：以远程教育的课堂视频资源为基础、以课堂视频的录制为应用场景仅一位主讲人时对于板书姿态的识别为实施例。

在进行课程视频录制时，通常需要根据主讲人是否存在板书行为来调节摄像机摄像头的拉伸倍数，从而可以拍摄到主讲人的板书内容。

已知的一种黑板书写行为自动识别方法，包括：分析当前视频帧与上一视频帧的帧差图像，根据该帧差图像得到有运动动作的人体像素点，将有运动动作的人体像素点组成的图形作为轮廓，根据该轮廓的变化情况判断是否存在板书行为。

然而，上述方法采用帧差图像分析来提取目标人体像素点，当目标动作变化较小时，相邻帧像素差异很小，此时，从帧差图像中可能无法得到有运动动作的人体像素点，从而容易造成目标人体漏检，导致黑板书写行为的检测准确率较低。

通过对板书行为姿态的分析，板书姿态所涉及的人体关键点主要是右手腕、右手肘、以及右肩部，基于此，本实施例通过视频帧中上述人体关键点的检测、跟踪、位置关系的变化，来对板书的姿态进行识别。

参见图7所示，图7为板书行为识别方法的一种流程示意图。

步骤700，获取当前视频帧。

在录制视频前，可以在主讲人讲课的教室内安装摄像机，该摄像机可以安装在教室顶部，上述摄像机的摄像头可以对准黑板区域的位置，本领域技术人员也可以根据实际情况设置上述摄像机与黑板的垂直距离，该垂直具体的选择具体与摄像机的像素、视频录制质量要求等相关。例如，可以选择3米～6米中的任一距离作为上述摄像机与黑板的垂直距离。本发明实施例不具体限定上述垂直距离。在本发明实施例中，可以由人工开启摄像机，也可以由摄像机根据预设开启时间，自动开启摄像机。具体地，可以将预设讲课时间作为上述预设开启时间。

摄像机开启后，可以通过摄像机的摄像头拍摄图像，并从拍摄的图像中获取当前视频帧，来判断当前视频帧中的目标人体是否存在板书行为。

步骤701，对图像进行预处理：将所采集的图像按照固定尺寸w×h进行缩放，以得到大小一致的图幅，一则避免因摄像装置的差异而导致图像尺寸大小的差异，二则有利于提高后续步骤中图像的分析准确性。

步骤702，按照待识别姿态相关的人体部位所预设的人体关键点，进行人体关键点检测，并获取和保存当前帧中各人体关键点信息J_n，

与实施例一中的步骤403类似的是，在该步骤中，对所述当前视频帧用预设的机器学习算法进行分析，得到所述当前视频帧对应的多张人体关键点热度图；所述预设的机器学习算法是通过已标注人体关键点的样本视频帧，以及所述各样本视频帧对应的样本人体关键点热度图训练得到的；任一所述人体关键点热度图包括部位标识、以及与该部位标识对应的所述当前视频帧的各像素点的人体关键点热度值；根据所述多张人体关键点热度图确定所述当前视频帧对应的目标人体的人体关键点信息；其中，

所述人体关键点标注可以通过人工标注出图片中人体关键点的位置。本实施例中，标注的人体关键点为右手腕、右手肘、以及右肩部。

与实施例一中的步骤403略不同的是，在该步骤中，由于板书姿态涉及的人体关键点在于所预设的人体关键点之间的位置变化明显，而视频帧之间同一预设人体关键点的位置变化不明显，较佳地，检测当前帧中预设人体关键点的坐标。

步骤703，根据步骤702所获取并保存的预设人体关键点信息，确定预设人体关键点之间的相对位置关系，并根据上述相对位置关系预判是否存在板书行为：

在本发明实施例中，可以通过判断目标人体是否存在预设动作，来判断目标人体是否存在板书行为。而是否存在预设动作可以通过目标人体的预设关键点之间的相对位置关系来判断。因此，在本发明实施例中，摄像机可以根据上述目标人体的人体关键点信息，确定预设关键点之间的相对位置关系，并根据上述相对位置关系确定目标人体是否存在板书行为。

本发明实施例提供的方法通过属于同一目标人体的，且标记有预设部位标识的人体关键点的相对位置关系，来确定当前视频帧是否存在板书姿态，由于本发明实施例是根据当前视频帧来判断是否存在板书姿态，可以减小因相邻视频帧差异较小而导致的目标漏检，从而提高了黑板书写行为的检测准确率。

目标人体通常可以通过右臂带动右手在黑板上进行书写，因此，在本发明实施例的一种实施方式中，根据目标人体的人体关键点信息，确定该目标人体中标记有右手腕标识的关键点、标记有右手肘标识的关键点、以及标记有右肩膀标识的关键点之间的相对位置关系，并根据上述相对位置关系确定目标人体是否存在板书姿态。通过判断与右臂对应的人体关键点的相对位置关系，可以更准确地判断出目标人体是否存在板书姿态，且可通过较少的关键点信息，判断出目标人体是否存在板书姿态，判断的运算量更少，从而提高了判断速度。

具体为，判断该目标人体中，标记有右手腕标识的关键点位置是否高于标记有右手肘标识的关键点位置，且标记有右手腕标识的关键点与标记有右手肘标识的关键点的水平间距是否小于第一间距阈值，且标记有右手肘标识的关键点与标记有右肩膀标识的关键点的竖直间距是否小于第二间距阈值；如果是，确定该目标人体存在板书姿态。

上述第一间距阈值和上述第二间距阈值可以根据现实环境中在黑板上书写时的具体动作以及人体手臂的尺寸情况来确定，上述第一间距阈值和上述第二间距阈值可以相等，也可以不相等。例如，上述第一间距阈值和上述第二间距阈值均可以取18cm～22cm内的任一值。本领域技术人员可以根据实际情况设置上述第一间距阈值和上述第二间距阈值的具体值，本发明实施例不具体限定。

在一种实施方式中，摄像机可以将标记有右手腕标识的关键点坐标、标记有右手肘标识的关键点坐标、以及标记有右肩膀标识的关键点坐标作为板书姿态判断公式的参数，根据姿态判断公式得到的姿态判断值是否为预设值，确定目标人体是否存在板书姿态。

在一种具体实施方式中，上述姿态判断公式可以为以下公式：

式中，结合图3所示，J₄·x、J₃·x分别代表标记有右手腕标识的关键点、标记有右手肘标识的关键点的横坐标，J₄·y、J₃·y、J₂·y分别代表标记有右手腕标识的关键点、标记有右手肘标识的关键点、标记有右肩膀标识的关键点的纵坐标，d_j、d_i分别代表第一间距阈值和第二间距阈值。式中，令w＝1表示疑似出现板书姿态，令w＝0表示非板书姿态。

由于涉及右手臂肢体的动作较为丰富，上述预判存在误判、漏判的可能，较佳地，结合分类网络算法对上述疑似的判决结果进行分类校准，以提高板书姿态识别的准确性，具体为步骤704。

步骤704，对判决为疑似板书姿态的目标，采用机器学习算法进行起坐检测分类：

首先，收集包含有板书姿态的图片数据，较佳地，可以从当前所采集的图像帧集合中筛选出包含有板书姿态图片数据作为训练用的样本数据，标定样本数据中所有板书目标的第一目标框，因板书姿态主要涉及的是人体右上肢关键点，可以标定所述板书目标的右上肢体目标框；基于标定数据中的第一目标框进行外扩，将每张图片数据中的第一目标框图像提取出来，制作板书姿态和非板书姿态二分类样本。较佳地，所标定的第一目标框为规则图形，以方便灵活简化地设置外扩比例。

当识别出当前帧中的疑似板书姿态时，基于人体关键点生成第二目标框，将第二目标框外扩一定比例后，再对预判为疑似板书姿态的目标进行抠图，即，将第二目标框图像从当前帧中提取出来，然后将提取的图像实时地送入CNN分类网络进行分类。如果疑似板书的目标框图像被分类为板书，则识别为板书姿态。若疑似非板书姿态的目标框图像被分类为非板书，则识别为非板书姿态。

本发明实施例通过属于同一人体目标的，且标记有预设部位标识的人体关键点的相对位置关系，来确定当前视频帧是否存在黑板书写行为，由于本发明实施例是根据当前视频帧来判断是否存在黑板书写行为，可以减小因相邻视频帧差异较小而导致的目标漏检，从而提高了黑板书写行为的检测准确率。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

实施例四：以下以视频中包含多位主讲人的板书姿态的识别为实施例。

在实际的应用中，视频帧中可能不仅包括一位主讲人，还可能包括助教等其他人。

参见图8所示，图8为视频中包含多目标人体的板书姿态识别方法的一种流程示意图。

步骤801，记录当前帧号f；

步骤802，与实施例三中的图像预处理相同，

步骤803，人体关键点检测：

首先收集场景数据集，然后标注出图片中每个目标人体的各人体关键点的位置。为方便姿态识别的其它应用，较佳地，标注的人体关键点包括头、脖子、右肩膀、右手肘、右手腕、左肩膀、左手肘、左手腕、胸、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝等15个人体关键点。如果为了减少标注的数据量，对于板书姿态的识别，也可以仅标注右上肢的关键点，即，右肩膀、右手肘、右手腕。

实施方式之一可以是，获取人体关键点的标注数据后，将其作为YPN网络模型的训练样本，对YPN网络模型进行训练，并保存训练后的YPN网络模型；将采集的当前视频帧输入所述训练后的YPN网络模型，通过该模型从当前视频帧中提取出人体关键特征，从而实现了人体关键点信息的实时生成，得到该帧图像中每个人体目标的各人体关键点信息J_k，n，f，其中，J_k，n，f第f帧中目标人体k的人体关键点n的信息，以区分不同视频帧中不同目标人体的不同人体关键点信息。

步骤804，作为实施方式之一，为了从多个目标人体中捕获到同一目标人体的待识别姿态，需要获取帧间同一目标的同一人体关键点信息，至少大于1的帧量将有利于人体关键点信息的获取，因此，判断当前累计的帧数是否达到预设的阈值，如果是，则执行步骤805，否则，则执行步骤806，采集下一视频帧；

步骤805，在本发明实施例中，当摄像机录制的视频帧中包括多个目标人体时，为使当前视频帧与上一视频帧对同一目标人体进行板书姿态的识别，从而使识别过程可以连续针对同一个人，本步骤采用预设的跟踪算法，选择当前视频帧对应的目标人体中与上一视频帧对应的目标人体为同一目标的目标人体，作为锁定目标；并且遍历每个目标人体，直至完成当前视频帧中所有目标人体的跟踪。

步骤807，遍历所有锁定目标的预设人体关键点坐标，预判各个锁定目标的板书姿态，得到所锁定目标的疑似板书姿态。具体的预判方式可以是实施例三中步骤703的判决方式。由于板书姿态是帧内人体关键点之间的位置变化，因此，可以基于当前帧的预设人体关键点坐标关系来进行。

步骤808，遍历所有疑似板书目标人体，采用机器学习算法进行板书姿态和非板书姿态检测分类，将疑似板书的目标人体分类为板书姿态的，识别为板书姿态，将疑似板书的目标人体分类为非板书姿态的，识别为非板书姿态。

本实施例通过人体关键点检测、人体跟踪并结合板书姿态的人体关键点之间的位置关系来实现板书姿态的预判、基于预判的疑似板书姿态进行检测分类，识别出当前视频帧中多个目标人体的姿态，基于识别的板书姿态，进一步可以触发拍摄的控制。

图9为本发明实施例的一种装置示意图。该装置包括，

图像获取模块，获取当前视频帧；

其中，所述检测分类模块包括，

所述识别模块包括，

第一识别单元，根据预设人体关键点信息，确定当前帧与前f帧同一预设人体关键点的纵向位置变化，并根据所述相对位置变化确定是否符合所述起坐姿态条件；

第二识别单元，根据预设人体关键点信息，确定预设人体关键点之间的相对位置关系，并根据所述相对位置关系确定是否符合所述板书姿态条件。。

所述第一识别单元包括，

所述第二识别单元包括，

按照本发明实施例提供的一种摄像装置，包括摄像头、存储器和处理器，其中，

所述摄像头，用于拍摄图像；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序，实现所述的目标物姿态识别方法。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

获取当前视频帧；

本发明实施例提供的存储介质，能够准确地识别姿态的微小变化，对目标物、姿态没有特定要求，适应面广，对于视频帧中的图像要求低，识别姿态的准确性高，姿态识别的误检和漏检小。

对于装置/摄像机/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，本发明所提供的目标物的姿态识别实施例，可不限于上述实施方式，在其他目标物的姿态识别均可以应用本发明，例如，在健身过程中通过拍摄健身者的视频来进行姿势的识别及纠正，又例如，对于动物的行为追踪和拍摄等，所述预设姿态条件可以根据目标物待识别姿态所具有的关键点之间的位置特征和或运动特征来设置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种目标物的姿态识别方法，其特征在于，该方法包括，

获取当前视频帧；

2.如权利要求1所述的识别方法，其特征在于，该方法进一步包括，

3.如权利要求2所述的识别方法，其特征在于，所述将识别出当前目标物姿态的当前帧输入到训练后的机器学习模型，如果机器学习模型识别当前帧中目标物姿态为所述预设姿态，则将该预设姿态作为识别结果，包括，

收集包含目标物姿态的图片数据，

4.如权利要求1所述的识别方法，其特征在于，所述获得当前帧中目标物的预设关键点信息之后进一步包括，

该方法进一步包括，

5.如权利要求1至4任一所述的识别方法，其特征在于，该方法进一步包括，

6.如权利要求5所述的识别方法，其特征在于，所述第一预设姿态条件为起坐姿态条件，

7.如权利要求6所述的识别方法，其特征在于，所述根据预设人体关键点信息，确定当前帧与前f帧同一预设人体关键点的纵向位置变化，并根据所述相对位置变化确定是否符合所述起坐姿态条件，包括，

8.如权利要求7所述的识别方法，其特征在于，所述根据预设的左肩部、和右肩部人体关键点信息，确定当前帧与前f帧中左肩部、和右肩部人体关键点的纵向位置变化，并根据所述位置变化确定是否符合起坐姿态条件，包括，

9.如权利要求8所述的识别方法，其特征在于，所述将识别出当前目标物姿态的当前帧输入到训练后的机器学习模型，如果机器学习模型识别当前帧中目标物姿态为所述预设姿态，则将该预设姿态作为识别结果，包括，

收集包含目标人体起立姿态和/或落座姿态的图片数据，

10.如权利要求9所述的识别方法，其特征在于，该方法还包括，

其中，M、T为预先设置的自然数。

11.如权利要求5所述的识别方法，其特征在于，所述第二预设姿态条件为板书姿态条件，

12.如权利要求11所述的识别方法，其特征在于，所述根据预设人体关键点信息，确定预设人体关键点之间的相对位置关系，并根据所述相对位置关系确定是否符合所述板书姿态条件，包括，

13.如权利要求12所述的识别方法，其特征在于，

14.一种目标物的姿态识别装置，其特征在于，该装置包括，

图像获取模块，获取当前视频帧；

15.如权利要求14所述的装置，其特征在于，该装置还包括，

16.如权利要求15所述的装置，其特征在于，所述检测分类模块包括，

17.如权利要求14所述的装置，其特征在于，该装置还包括，

18.如权利要求14至17任一所述的装置，其特征在于，该装置还包括，

19.如权利要求18所述的装置，其特征在于，所述第一预设姿态条件为起坐姿态条件，所述识别模块包括，

20.如权利要求19所述的装置，其特征在于，所述第一识别单元包括，

21.如权利要求20所述的装置，其特征在于，该装置还包括，

22.如权利要求18所述的装置，其特征在于，所述第二预设姿态条件为板书姿态条件，所述识别模块包括，

23.如权利要求22所述的装置，其特征在于，所述第二识别单元包括，

24.一种摄像装置，其特征在于，包括摄像头、存储器和处理器，其中，

所述摄像头，用于拍摄图像；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序，实现权利要求1-13任一所述的目标物姿态识别方法。

25.一种存储介质，其特征在于，存储有实现权利要求1-13任一所述的目标物姿态识别方法的计算机程序。