CN113033252A

CN113033252A - 姿态检测方法、装置和计算机可读存储介质

Info

Publication number: CN113033252A
Application number: CN201911344827.3A
Authority: CN
Inventors: 赵薇; 廖可; 宫卫涛; 伊红; 王炜
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-06-25
Anticipated expiration: 2039-12-24
Also published as: CN113033252B

Abstract

本发明实施例提供姿态检测方法、装置和计算机可读存储介质。根据本发明实施例的姿态检测方法包括：从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像；对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象；结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行预测，以获取姿态预测结果；针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果；基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。

Description

姿态检测方法、装置和计算机可读存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种姿态检测方法、装置和计算机可读存储介质。

背景技术

随着计算机视觉和人体交互技术的发展，在交互***的应用过程中，可以通过识别人体或其他物体的姿态来获取指令并与***互动。目前的姿态检测方法一般会首先从图像或视频图像帧中获取目标对象的姿态，然后对所获取的姿态进行识别，并输出姿态识别的结果，此外，***还可以进一步针对姿态识别的结果做出相应的响应。

然而，这种姿态检测方式通常会消耗大量的***运算时间，如果***在识别出姿态之后才做出响应，则响应的时间点与目标对象做出姿态的实际时间点之间必然存在较大的时间误差，会导致***的用户体验大大降低。

因此，需要一种能够实时有效地检测姿态的姿态检测方法和装置，以在保证姿态检测的准确率的基础上减少***响应时间，改善用户体验。

发明内容

为解决上述技术问题，根据本发明的一个方面，提供了一种姿态检测方法，包括：从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像；对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象；结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行预测，以获取姿态预测结果；针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果；基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。

根据本发明的又一个方面，提供一种姿态检测装置，包括：获取单元，配置为从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像；确定单元，配置为对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象；预测单元，配置为结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行预测，以获取姿态预测结果；识别单元，配置为针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果；检测单元，配置为基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。

根据本发明的再一个方面，提供一种姿态检测装置，包括：处理器；和存储器，在所述存储器中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像；对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象；结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行预测，以获取姿态预测结果；针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果；基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。

根据本发明的又一个方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现以下步骤：从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像；对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象；结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行预测，以获取姿态预测结果；针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果；基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。

根据本发明的上述姿态检测方法、装置和计算机可读存储介质，能够结合视频图像的时间顺序，针对视频图像中所获取的目标对象分别进行姿态预测和姿态识别，并基于姿态预测和姿态识别的结果进行姿态检测。上述姿态检测方法、装置和计算机可读存储介质能够实时有效地检测姿态，在保证姿态检测的准确率的基础上减少***响应时间，改善用户体验。

附图说明

通过结合附图对本发明的实施例进行详细描述，本发明的上述和其它目的、特征、优点将会变得更加清楚。

图1示出根据本发明一个实施例的姿态检测方法的流程图；

图2示出根据本发明一个实施例的姿态检测方法的应用场景的一个示例；

图3示出根据本发明一个实施例的人体骨骼模型的示意图；

图4(a)示出针对本发明一个实施例的场景所识别的每个特征点识别对象中用于计算运动规律性参数的点；图4(b)示出针对每个选择的点，分别绘制运动规律性曲线的示意图。

图5示出根据本发明的一个实施例，针对肢体运动和姿态得到姿态轨迹的过程；

图6示出根据本发明一个实施例的姿态检测装置的框图；

图7示出根据本发明一个实施例的姿态检测装置的框图。

具体实施方式

下面将参照附图来描述根据本发明实施例的姿态检测方法、装置和计算机可读存储介质。在附图中，相同的参考标号自始至终表示相同的元件。应当理解：这里描述的实施例仅仅是说明性的，而不应被解释为限制本发明的范围。

在针对图像或视频图像帧的姿态检测方法中，一般会首先获取目标对象，然后针对所获取的目标对象的姿态进行检测，例如，可以将目标对象当前的姿态特征与姿态库中已知的姿态模型进行匹配，然后输出匹配得到的姿态检测结果。然而，这种姿态检测方法通常只能针对已经做出的姿态进行检测和匹配，一般会具有较大的滞后性，无法满足姿态识别***希望进行实时准确地姿态检测的需求。

下面将参照图1描述根据本发明实施例的姿态检测方法。本发明实施例的姿态检测方法可以应用于从视频图像流中获取的视频图像。可选地，本发明实施例中进行姿态检测的视频图像可以为通过普通平面相机或摄像头所获取的二维的平面视频图像，也可以为通过诸如广角镜头所获取的二维的广角视频图像，还可以为通过诸如

之类的全景相机获取的全景视频图像，在此不做限制。其中，当所述视频图像为全景视频图像时，可选地，可以首先对所述全景视频图像进行投影处理，然后再针对投影后的视频图像进行如下的相关操作，以提高姿态检测的准确率。

图1示出本发明实施例的姿态检测方法100的流程图。如图1所示，在步骤S101中，从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像。

根据本发明实施例，可以从视频图像流中，实时获取两帧或更多帧视频图像。在一个示例中，从视频图像流中所获取的视频图像可以为按时间顺序逐帧排列的视频图像；在另一个示例中，从视频图像流中所获取的视频图像也可以是中间有所间隔的非逐帧排列的视频图像。在获取视频图像的同时，为了进行后续的姿态检测操作，还可以同时获知视频图像的时间相关信息。此外，可选地，可以对需要获取的视频图像的时间范围进行设置，以有针对性地对此时间范围内的视频图像进行姿态检测。

在步骤S102中，对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象。

根据本发明实施例，可选地，可以直接利用对象特征识别或边缘检测等方式，对所述至少两帧视频图像的每帧视频图像进行目标对象识别。可选地，还可以对所述至少两帧视频图像中的每帧视频图像分别进行特征点识别，以从中获取一个或多个特征点识别对象，并可以获取所述特征点识别对象分别对应的特征点；随后，可以从所述至少一个特征点识别对象中确定需要进行姿态检测的至少一个目标对象，具体地，可以根据评估参数来针对每个所获取的特征点识别对象进行评估，以根据评估结果来确定所述至少一个目标对象。例如，所述评估参数可以包括所述特征点识别对象的位置参数、尺寸参数、运动规律性参数和偏移参数中的至少一个。

根据本发明的一个示例，所述评估参数中的位置参数可以用于指示所述特征点识别对象所在的位置。例如，所述位置参数可以为所述特征点识别对象所在的位置与视频图像中预设位置的距离。在一个示例中，视频图像中的预设位置可以为视频图像的中心位置，则所述位置参数可以指示所述特征点识别对象与视频图像的中心位置之间的距离。在另一个示例中，视频图像中的预设位置可以为应用场景中用于***交互的***设备在视频图像中的所在位置，则所述位置参数可以指示所述特征点识别对象与用于***交互的***设备之间的距离。当然，上述用于计算位置参数的方式仅为示例，所述位置参数也并不限于表示距离的参数，也可以为特征点识别对象的位置的其他表示方式，在此不做限制。

根据本发明的一个示例，所述评估参数中的尺寸参数可以用于指示所述特征点识别对象在所述视频图像中的尺寸大小。例如，所述尺寸参数可以指示所述特征点识别对象在所述视频图像中所占据的面积，也可以指示所述特征点识别对象所对应的对象识别框的尺寸范围(例如，所述特征点识别对象的对象识别框为矩形时，所述尺寸参数可以为矩形的长和宽；所述特征点识别对象的对象识别框为圆或椭圆时，所述尺寸参数可以为圆或椭圆的相关参数)。在本发明一个示例中，例如，所识别出的特征点为所述特征点识别对象的骨骼模型，则所述尺寸参数可以为所述特征点识别对象所对应的骨骼模型中，各个关节的长度之和。当然，上述用于计算尺寸参数的方式仅为示例，也可以采用其他尺寸参数的设定及相应计算方式，在此不做限制。

根据本发明的一个示例，所述评估参数中的运动规律性参数可以用于指示所述特征点识别对象在一定时间范围内运动的周期性和规律性。例如，可以通过首先计算某个特征点识别对象在之前一段时间范围内运动的状态(如运动幅度、运动时间周期等)，来拟合该特征点识别对象在当前一段时间范围内的运动与之前运动的拟合程度(如运动幅度是否相似，运动时间周期是否相同等)，并将所获取的拟合结果作为评估参数中的运动规律性参数。上述用于计算运动规律性参数的方式仅为示例，也可以采用其他运动规律性参数的设定及相应计算方式，在此不做限制。

根据本发明的一个示例，所述评估参数中的偏移参数可以用于在已经获取到一个或多个需要进行姿态检测的目标对象之后，通过计算之后获取的视频对象中特征点检测对象与已经获取的相应的目标对象之间的偏移获取的。例如，在已经获取到第一目标对象之后，可以计算视频图像中一个或多个特征点检测对象与所述第一目标对象之间的距离，以作为每个特征点检测对象与第一目标对象之间的偏移参数。当然，在当前已经获取到不止一个目标对象时，例如包括第一目标对象和第二目标对象时，也可以分别计算视频图像中一个或多个特征点检测对象与第一目标对象和第二目标对象之间的距离，作为分别针对第一目标对象和第二目标对象的偏移参数。上述针对偏移参数的计算方式仅为示例，在实际的应用过程中，还可以采用其他偏移参数的设定及计算方式，在此不再赘述。

根据本发明的一个实施例，可以通过所获取的上述包括例如位置参数、尺寸参数、运动规律性参数、偏移参数的评估参数，来针对每个特征点识别对象进行评估，并根据评估结果确定用于姿态检测的目标对象。可选地，可以针对评估参数中的各项参数进行计算和加权，并将考虑了各项参数加权结果的评估参数作为特征点识别对象的评估标准。例如，在某个应用场景中，希望将特征点识别对象与用于***交互的***设备之间的距离作为最主要的考虑因素，则可以将评估参数中的位置参数的权重设为最大，而将其余的尺寸参数、运动规律性参数、偏移参数等权重设得较小，或甚至仅考虑评估参数中的位置参数的因素。再例如，在某个应用场景中，希望将离摄像头最近的特征点识别对象作为最主要的考虑因素，则可以将评估参数中的尺寸参数的权重设为最大，而将其余的位置参数、运动规律性参数、偏移参数等权重设得较小，或甚至仅考虑评估参数中的尺寸参数的因素。又例如，在某个应用场景中，还未能够确定当前场景中用于姿态检测的目标对象，则可以仅考虑评估参数中的位置参数、尺寸参数和运动规律性参数及其权重，而暂不考虑偏移参数的相关因素。还例如，在某个应用场景中，已经存在确定的目标对象，并且考虑到运动规律性参数的检测结果耗时较长，并且较为繁琐，则可以仅考虑评估参数中的位置参数、尺寸参数和偏移参数及其权重，而暂不考虑运动规律性参数。

在获得每个特征点识别对象的评估参数的结果之后，可以从中选择评估参数的结果最符合预期的一个特征点识别对象作为用于姿态检测的目标对象；也可以通过设置一定的阈值，将评估参数的结果超出所设置的阈值的一个或多个特征点识别对象作为用于姿态检测的目标对象。上述关于评估参数的各项计算方法和目标对象的确定方式仅为示例，在实际应用中，可以采用任何评估参数的设置和计算方法，以及目标对象的确定方式，在此不做限制。

根据本发明实施例，从所述至少两帧视频图像的每帧视频图像中分别识别出的目标对象可能会彼此相同或不同，此外，所识别出的目标对象的个数也可以不做限制。例如，可能从所述至少两帧视频图像的每帧视频图像中分别识别出相同的一个或多个目标对象，并把所识别出的全部目标对象或其中的一部分目标对象确定为需要进行姿态检测的目标对象。再例如，也可能从所述至少两帧视频图像的每帧视频图像中分别识别出彼此不同的一个或多个目标对象，并从中选择出需要后续进行姿态检测的目标对象。可选地，当某些视频图像中不存在最终选定的需要进行姿态检测的目标对象时，可以在后续过程中不对这些视频图像进行处理，以尽量消除不必要的噪音，并节约***资源，提高姿态检测效率。以上仅是针对需要进行姿态检测的目标对象的确定方式的一些示例，在实际应用中，可以根据所需场景的不同，选择不同的目标对象确定方式，在此不做限制。

在步骤S103中，结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行预测，以获取姿态预测结果。

在获取到需要进行姿态检测的目标对象之后，可以根据时间顺序，获取待检测的至少一个目标对象的姿态轨迹，并与姿态轨迹模型进行匹配。可选地，所述目标对象的姿态轨迹可以为姿态特征与时间的变化关系曲线。例如，所述姿态特征可以包括目标对象的肢***置、肢体角度、肢体运动速度、关节点运动速度、关节角度等各项参数的一个或多个。在获取到某个时间点的视频图像的所述姿态特征之后，可以以时间为轴，绘制所述姿态特征随时间的变化轨迹，作为目标对象的姿态轨迹。

当获取所述目标对象的姿态轨迹之后，可以将目标对象的姿态轨迹与预存储的姿态轨迹模型进行匹配，以预测该目标对象在下一个时间点或时间段所将要做出的姿态，得到姿态预测结果。其中，预存储的姿态轨迹模型也可以为姿态特征随时间变化的规律，例如，针对每种姿态，均可以存储其相应的姿态特征随时间变化的模型，作为该姿态的姿态轨迹模型。在将目标对象的姿态轨迹与预存储的姿态轨迹模型进行匹配时，可以将目标对象随时间变化的姿态轨迹的趋势，与某姿态在一段时间内的姿态轨迹模型进行拟合，以判断是否符合这种姿态。在将目标对象的姿态轨迹与多种姿态的姿态轨迹模型拟合后，也可以根据拟合结果选择最为接近的姿态，作为该目标对象的姿态预测结果。

在步骤S104中，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果。

在如前所述，获取到需要进行姿态检测的目标对象之后，还可以将所获取的目标对象的姿态，与预先存储的静态姿态模型进行匹配。可选地，所述目标对象的姿态也可以包括某些姿态特征。例如，所述姿态特征可以包括目标对象的肢***置、肢体角度、关节角度、关节点坐标等各项参数的一个或多个。

当获取所述目标对象的姿态之后，可以将目标对象的姿态与预存储的静态姿态模型进行匹配，以识别目标对象当前的姿态，得到姿态识别结果。其中，预存储的静态姿态模型同样也可以包括前述姿态特征中的一种或多种。在将目标对象的姿态与预存储的静态姿态模型进行匹配时，可以将目标对象的姿态与多种姿态的静态姿态模型进行比较，然后可以根据拟合结果选择最为接近的姿态，作为该目标对象的姿态识别结果。

在步骤S105中，基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。

根据本发明一个实施例，前述姿态预测结果和姿态识别结果的获取顺序并不做限制。可选地，可以首先获取所述姿态预测结果，然后获取所述姿态识别结果；可选地，也可以首先获取所述姿态识别结果，然后获取所述姿态预测结果；当然，姿态预测结果和姿态识别结果的获取也可以同时进行。此外，在一个示例中，可以在没有得到姿态预测结果的情况下，仅得到姿态识别结果；当然，在另一个示例中，也可以仅预测出姿态预测结果，而没有获取姿态识别结果。上述各种结果的获取方式均为示例，在此不做限制。

针对已经获取到所述至少一个目标对象的所述姿态预测结果和姿态识别结果的情况下，可以分别根据所获取的姿态预测结果和姿态识别结果确定相应的置信度。可选地，所述姿态预测结果的置信度可以为目标对象的姿态轨迹与其相应的姿态轨迹模型之间的拟合程度，如肢体角度间的差异、肢体运动速度变化之间的差异等；所述姿态识别结果的置信度可以为所述目标对象的姿态与其相应的静态姿态模型之间的拟合程度，如肢体角度间的差异、肢体具***置间的差异等。当然，上述置信度的计算方式仅为示例，在此不做限制。

在确定所述至少一个目标对象的所述姿态预测结果和姿态识别结果的置信度之后，可以对所述目标对象的姿态预测结果和姿态识别结果的置信度之间进行比较。具体地，当所述姿态预测结果和所述姿态识别结果的置信度比较结果满足预设条件时，将所述姿态预测结果作为所述至少一个目标对象的姿态检测结果；当所述姿态预测结果和所述姿态识别结果的置信度比较结果不满足预设条件时，将所述姿态识别结果作为所述至少一个目标对象的姿态检测结果。上述预设条件可以根据本发明实施例的方法的应用场景而不同。例如，可以比较所述姿态预测结果和所述姿态识别结果的置信度的大小，当所述姿态预测结果置信度较大时，将所述姿态预测结果作为所述至少一个目标对象的姿态检测结果；当所述姿态识别结果的置信度较大时，将所述姿态识别结果作为所述至少一个目标对象的姿态检测结果。

可选地，根据本发明的一个实施例，考虑到目标对象的姿态在某个时间点上可能为中间姿态(处于某个姿态的中间过程中，还未完成该姿态)，在这种情况下，姿态识别结果的置信度可能比较低，因此可以在姿态识别结果置信度比较低(低于一个阈值)时，将姿态预测结果(如果有的话)作为所述至少一个目标对象的姿态检测结果。相反地，当目标对象的姿态已经处于某个姿态的完成姿态时，姿态识别结果的置信度相对较高，其对姿态的检测结果也较为精确，因此可以在姿态识别结果置信度比较高(高于一个阈值)时，将姿态识别结果作为所述至少一个目标对象的姿态检测结果。其中，当此时尚未得到姿态识别结果时，可以暂时以姿态预测结果作为目标对象的姿态检测结果，而一旦得到姿态识别结果后，则以所得到的姿态识别结果作为目标对象的姿态检测结果。进一步地，为了进一步提高姿态预测结果的精确性，此时还可以利用得到的姿态识别结果修正所述姿态预测结果的获取标准，例如可以优化姿态轨迹模型、修正用于姿态预测的相关参数或阈值范围等。

当然，上述根据姿态预测结果和所述姿态识别结果获取至少一个目标对象的姿态检测结果的获取方式仅为示例，在实际应用中，可以考虑任何结合姿态预测结果和姿态识别结果得到姿态检测结果的方式，在此不做限制。

以下将描述本发明实施例中用于姿态检测的姿态轨迹模型和静态姿态模型的获取方式，以下获取方式仅为示例，在实际应用中，可以采用任何姿态轨迹模型和静态姿态模型，用于针对目标对象进行姿态检测。

根据本发明实施例的姿态轨迹模型和静态姿态模型同样可以采用前述姿态检测方法的相似流程进行获取。在一个示例中，可以首先从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像；对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行模型获取的至少一个目标对象；结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象获取姿态轨迹模型；针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态，获取静态姿态模型。此外，在获取到静态姿态模型后，还可以利用所获取的静态姿态模型的结果，对姿态轨迹模型进行优化。如前所述，姿态轨迹模型和静态姿态模型可以同时获取，也可以分别先后获取，在此不做限制。在实际应用中，也可以针对某个视频图像流获取姿态轨迹模型，而针对另一视频图像流获取静态姿态模型。

根据本发明实施例的姿态检测方法，能够结合视频图像的时间顺序，针对视频图像中所获取的目标对象分别进行姿态预测和姿态识别，并基于姿态预测和姿态识别的结果进行姿态检测。上述姿态检测方法能够实时有效地检测姿态，在保证姿态检测的准确率的基础上减少***响应时间，改善用户体验。

图2示出了根据本发明实施例的姿态检测方法的应用场景的一个示例。在图2中，进行人机互动的设备为跑步机，跑步机通过其上所设置的摄像头获取随时间变化的视频图像流，并从中得到预设时间范围内按时间顺序排列的至少两帧视频图像。

当获取到所述至少两帧视频图像之后，可以针对其中的每帧图像分别进行特征点检测，构建如图3所示的人体骨骼模型。其中，人体骨骼模型示出人体骨骼中的多个关节点作为特征点，如图3中表示为0-17的18个关节点，分别代表了人体上的18个重要的关节。如图3中的点1可以用于指示人体骨骼中的颈点。在特征点检测后，在本公开的示例中，可以分别检测到相应的特征点检测对象及其骨骼模型上的各个特征点，随后，可以利用这些骨骼上的特征点及其随时间的变化规律，来对每个特征点识别对象利用评估参数进行评估。

如前所述，评估参数可以包括每个特征点识别对象的位置参数C1、尺寸参数C2、运动规律性参数C3和偏移参数C4中的至少一个。其中，在本发明实施例的示例中，位置参数C1可以表示为特征点识别对象上的某个特征点与视频图像中心的位置。例如，以特征点识别对象上的颈点Pe(x_e,y_e)为例，位置参数可以表示Pe(x_e,y_e)与视频图像中心P_c(x_c,y_c)之间的距离。在本发明实施例的示例中，评估参数中的尺寸参数C2可以为每个特征点识别对象上所有有效肢体长度l_x的和L{l₁,l₂,l₃,..}，所述有效肢体可以例如为特征点识别对象中所有肢体中运动相对稳定的肢体。

在本发明实施例的示例中，评估参数中的运动规律性参数C3可以用于指示所述特征点识别对象在一定时间范围内运动的周期性和规律性。如前所述，可以通过首先计算某个特征点识别对象在之前一段时间范围内运动的状态(如运动幅度、运动时间周期等)，来拟合该特征点识别对象在当前一段时间范围内与之前的拟合程度。图4(a)示出针对本发明实施例的场景所识别的每个特征点识别对象中用于计算运动规律性参数的点，也即每个特征点识别对象中用椭圆所框选的颈点Pe，包括Pe₁、Pe₂、Pe₃和Pe₄；图4(b)示出针对每个选择的颈点，分别绘制运动规律性曲线，并根据所绘制的曲线计算运动规律性的拟合结果，作为相应特征点识别对象的运动规律性参数。例如，在所绘制的曲线中，横轴可以为时间，纵轴可以为颈点运动的纵坐标y的变化，也可以为横坐标x的变化，当然还可以为如图4(b)所示的y/x的值。由图4(b)可知，颈点Pe₂和Pe₄运动不够规律，颈点Pe₃没有运动，而颈点Pe₁运动较为规律，其对应运动规律性参数取值可能会较高。

在本示例中，评估参数中的偏移参数C4可以在检测到例如对应颈点为Pe₁的目标对象之后，计算当前的视频图像中的特征点检测对象的颈点与前述颈点位置Pe₁之间的距离，以获知当前的某个特征点检测对象相对于之前的目标对象的偏移。

可选地，本示例中的各个评估参数：位置参数C1、尺寸参数C2、运动规律性参数C3和偏移参数C4，可以通过分别赋予相应的加权值W1、W2、W3和W4，来综合计算评估参数的值C＝W1×C1+W2×C2+W3×C3+W4×C4，并根据预设阈值或其他方式确定其中需要进行姿态检测的一个或多个目标对象。具体确定方式如前所述，在此不再赘述。

在确定需要进行姿态检测的目标对象之后，可选地，可以分别针对所述目标对象计算其姿态预测结果和姿态识别结果。具体地，在计算姿态预测结果时，可以首先得到目标对象某个肢体角度随时间变化的函数f(t)，并考虑噪音影响n₀(t)，得到该目标对象的该肢体的姿态轨迹：θ(t)＝f(t)+n₀(t)。其中，当运动中的肢体有多个时，可以构建针对不同肢体的多个姿态轨迹，并分别与姿态轨迹模型中相应的肢体的运动轨迹进行比较。图5示出了根据本发明实施例的一个示例，针对图5顶部一系列照片中的肢体运动和姿态得到姿态轨迹的过程。针对图5所示的双臂运动的姿态，可以分别考虑左臂和右臂的运动随时间变化的规律。其中，例如右臂的姿态轨迹可以如图5左下所示，表示为θ₁(t)＝f₁(t)+n₀(t)，而左臂的姿态轨迹可以如图5右下所示，表示为θ₂(t)＝f₂(t)+n₀(t)，其中，f₁(t)、f₂(t)分别为右臂和左臂角度随时间变化的函数，n₀(t)为噪音。相应绘制的肢体角度随时间变化的曲线也可以如图5所示，并可以将其分别与预存储的姿态轨迹模型中的相应姿态的相应肢体曲线进行比较，以得到比较结果。

可选地，在计算姿态识别结果时，也可以将其中至少一帧视频图像中的目标对象的姿态与静态姿态模型进行比较，如当目标对象的肢体角度的范围符合某个静态姿态的阈值范围时，则将目标对象的当前姿态与静态姿态模型中的姿态相对应，得到姿态识别结果。

在分别得到姿态预测结果和姿态识别结果后，可以基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。具体的检测方式如前所述，在此不再赘述。

下面，参照图6来描述根据本发明实施例的姿态检测装置。图6示出了根据本发明实施例的姿态检测装置600的框图。如图6所示，姿态检测装置600包括获取单元610、确定单元620、预测单元630、识别单元640和检测单元650。除了这些单元以外，姿态检测装置600还可以包括其他部件，然而，由于这些部件与本发明实施例的内容无关，因此在这里省略其图示和描述。此外，由于根据本发明实施例的姿态检测装置600执行的下述操作的具体细节与在上文中参照图1-图5描述的细节相同，因此在这里为了避免重复而省略对相同细节的重复描述。

获取单元610从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像。

根据本发明实施例，获取单元610可以从视频图像流中，实时获取两帧或更多帧视频图像。在一个示例中，从视频图像流中所获取的视频图像可以为按时间顺序逐帧排列的视频图像；在另一个示例中，从视频图像流中所获取的视频图像也可以是中间有所间隔的非逐帧排列的视频图像。在获取视频图像的同时，为了进行后续的姿态检测操作，还可以同时获知视频图像的时间相关信息。此外，可选地，可以对需要获取的视频图像的时间范围进行设置，以有针对性地对此时间范围内的视频图像进行姿态检测。

确定单元620对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象。

根据本发明实施例，可选地，确定单元620可以直接利用对象特征识别或边缘检测等方式，对所述至少两帧视频图像的每帧视频图像进行目标对象识别。可选地，确定单元620还可以对所述至少两帧视频图像中的每帧视频图像分别进行特征点识别，以从中获取一个或多个特征点识别对象，并可以获取所述特征点识别对象分别对应的特征点；随后，确定单元620可以从所述至少一个特征点识别对象中确定需要进行姿态检测的至少一个目标对象，具体地，可以根据评估参数来针对每个所获取的特征点识别对象进行评估，以根据评估结果来确定所述至少一个目标对象。例如，所述评估参数可以包括所述特征点识别对象的位置参数、尺寸参数、运动规律性参数和偏移参数中的至少一个。

根据本发明实施例，确定单元620从所述至少两帧视频图像的每帧视频图像中分别识别出的目标对象可能会彼此相同或不同，此外，所识别出的目标对象的个数也可以不做限制。例如，可能从所述至少两帧视频图像的每帧视频图像中分别识别出相同的一个或多个目标对象，并把所识别出的全部目标对象或其中的一部分目标对象确定为需要进行姿态检测的目标对象。再例如，也可能从所述至少两帧视频图像的每帧视频图像中分别识别出彼此不同的一个或多个目标对象，并从中选择出需要后续进行姿态检测的目标对象。可选地，当某些视频图像中不存在最终选定的需要进行姿态检测的目标对象时，可以在后续过程中不对这些视频图像进行处理，以尽量消除不必要的噪音，并节约***资源，提高姿态检测效率。以上仅是针对需要进行姿态检测的目标对象的确定方式的一些示例，在实际应用中，可以根据所需场景的不同，选择不同的目标对象确定方式，在此不做限制。

预测单元630结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行预测，以获取姿态预测结果。

在获取到需要进行姿态检测的目标对象之后，预测单元630可以根据时间顺序，获取待检测的至少一个目标对象的姿态轨迹，并与姿态轨迹模型进行匹配。可选地，所述目标对象的姿态轨迹可以为姿态特征与时间的变化关系曲线。例如，所述姿态特征可以包括目标对象的肢***置、肢体角度、肢体运动速度、关节点运动速度、关节角度等各项参数的一个或多个。在获取到某个时间点的视频图像的所述姿态特征之后，可以以时间为轴，绘制所述姿态特征随时间的变化轨迹，作为目标对象的姿态轨迹。

当获取所述目标对象的姿态轨迹之后，预测单元630可以将目标对象的姿态轨迹与预存储的姿态轨迹模型进行匹配，以预测该目标对象在下一个时间点或时间段所将要做出的姿态，得到姿态预测结果。其中，预存储的姿态轨迹模型也可以为姿态特征随时间变化的规律，例如，针对每种姿态，均可以存储其相应的姿态特征随时间变化的模型，作为该姿态的姿态轨迹模型。在将目标对象的姿态轨迹与预存储的姿态轨迹模型进行匹配时，可以将目标对象随时间变化的姿态轨迹的趋势，与某姿态在一段时间内的姿态轨迹模型进行拟合，以判断是否符合这种姿态。在将目标对象的姿态轨迹与多种姿态的姿态轨迹模型拟合后，也可以根据拟合结果选择最为接近的姿态，作为该目标对象的姿态预测结果。

识别单元640针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果。

在如前所述，通过确定单元620获取到需要进行姿态检测的目标对象之后，识别单元640可以将所获取的目标对象的姿态，与预先存储的静态姿态模型进行匹配。可选地，所述目标对象的姿态也可以包括某些姿态特征。例如，所述姿态特征可以包括目标对象的肢***置、肢体角度、关节角度、关节点坐标等各项参数的一个或多个。

当获取所述目标对象的姿态之后，识别单元640可以将目标对象的姿态与预存储的静态姿态模型进行匹配，以识别目标对象当前的姿态，得到姿态识别结果。其中，预存储的静态姿态模型同样也可以包括前述姿态特征中的一种或多种。在将目标对象的姿态与预存储的静态姿态模型进行匹配时，可以将目标对象的姿态与多种姿态的静态姿态模型进行比较，然后可以根据拟合结果选择最为接近的姿态，作为该目标对象的姿态识别结果。

检测单元650基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。

根据本发明一个实施例，前述预测单元630预测得到姿态预测结果和识别单元640识别姿态识别结果的获取顺序并不做限制。可选地，可以首先获取所述姿态预测结果，然后获取所述姿态识别结果；可选地，也可以首先获取所述姿态识别结果，然后获取所述姿态预测结果；当然，姿态预测结果和姿态识别结果的获取也可以同时进行。此外，在一个示例中，可以在没有得到姿态预测结果的情况下，仅得到姿态识别结果；当然，在另一个示例中，也可以仅预测出姿态预测结果，而没有获取姿态识别结果。上述各种结果的获取方式均为示例，在此不做限制。

针对已经获取到所述至少一个目标对象的所述姿态预测结果和姿态识别结果的情况下，检测单元650可以分别根据所获取的姿态预测结果和姿态识别结果确定相应的置信度。可选地，所述姿态预测结果的置信度可以为目标对象的姿态轨迹与其相应的姿态轨迹模型之间的拟合程度，如肢体角度间的差异、肢体运动速度变化之间的差异等；所述姿态识别结果的置信度可以为所述目标对象的姿态与其相应的静态姿态模型之间的拟合程度，如肢体角度间的差异、肢体具***置间的差异等。当然，上述置信度的计算方式仅为示例，在此不做限制。

在确定所述至少一个目标对象的所述姿态预测结果和姿态识别结果的置信度之后，检测单元650可以对所述目标对象的姿态预测结果和姿态识别结果的置信度之间进行比较。具体地，当所述姿态预测结果和所述姿态识别结果的置信度比较结果满足预设条件时，将所述姿态预测结果作为所述至少一个目标对象的姿态检测结果；当所述姿态预测结果和所述姿态识别结果的置信度比较结果不满足预设条件时，将所述姿态识别结果作为所述至少一个目标对象的姿态检测结果。上述预设条件可以根据本发明实施例的方法的应用场景而不同。例如，可以比较所述姿态预测结果和所述姿态识别结果的置信度的大小，当所述姿态预测结果置信度较大时，将所述姿态预测结果作为所述至少一个目标对象的姿态检测结果；当所述姿态识别结果的置信度较大时，将所述姿态识别结果作为所述至少一个目标对象的姿态检测结果。

根据本发明实施例的姿态检测装置，能够结合视频图像的时间顺序，针对视频图像中所获取的目标对象分别进行姿态预测和姿态识别，并基于姿态预测和姿态识别的结果进行姿态检测。上述姿态检测装置能够实时有效地检测姿态，在保证姿态检测的准确率的基础上减少***响应时间，改善用户体验。

下面，参照图7来描述根据本发明实施例的姿态检测装置。图7示出了根据本发明实施例的姿态检测装置700的框图。如图7所示，该装置700可以是计算机或服务器。

如图7所示，姿态检测装置700包括一个或多个处理器710以及存储器720，当然，除此之外，姿态检测装置700还可能包括输入装置、输出装置(未示出)等，这些组件可以通过总线***和/或其它形式的连接机构互连。应当注意，图7所示的姿态检测装置700的组件和结构只是示例性的，而非限制性的，根据需要，姿态检测装置700也可以具有其他组件和结构。

处理器710可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以利用存储器720中所存储的计算机程序指令以执行期望的功能，可以包括：从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像；对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象；结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行预测，以获取姿态预测结果；针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果；基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。

存储器720可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器710可以运行所述程序指令，以实现上文所述的本发明的实施例的姿态检测装置的功能以及/或者其它期望的功能，并且/或者可以执行根据本发明实施例的姿态检测方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据。

下面，描述根据本发明实施例的计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现以下步骤：从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像；对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象；结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行预测，以获取姿态预测结果；针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果；基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。

当然，上述的具体实施例仅是例子而非限制，且本领域技术人员可以根据本发明的构思从上述分开描述的各个实施例中合并和组合一些步骤和装置来实现本发明的效果，这种合并和组合而成的实施例也被包括在本发明中，在此不一一描述这种合并和组合。

注意，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述发明的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本发明中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本发明中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤。如本领域技术人员将认识到的，可以按任意顺序进行以上实施例中的步骤的顺序。诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。此外，例如使用“一个”、“一”或者“该”对于单数的要素的任何引用不被解释为将该要素限制为单数。

另外，本文中的各个实施例中的步骤和装置并非仅限定于某个实施例中实行，事实上，可以根据本发明的概念来结合本文中的各个实施例中相关的部分步骤和部分装置以构思新的实施例，而这些新的实施例也包括在本发明的范围内。

以上所述的方法的各个操作可以通过能够进行相应的功能的任何适当的手段而进行。该手段可以包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路(ASIC)或处理器。

可以利用被设计用于进行在此所述的功能的通用处理器、数字信号处理器(DSP)、ASIC、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合而实现或进行所述的各个例示的逻辑块、模块和电路。通用处理器可以是微处理器，但是作为替换，该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合，例如DSP和微处理器的组合，多个微处理器、与DSP核协作的一个或多个微处理器或任何其他这样的配置。

结合本发明描述的方法或算法的步骤可以直接嵌入在硬件中、处理器执行的软件模块中或者这两种的组合中。软件模块可以存在于任何形式的有形存储介质中。可以使用的存储介质的一些例子包括随机存取存储器(RAM)、只读存储器(ROM)、快闪存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM等。存储介质可以耦接到处理器以便该处理器可以从该存储介质读取信息以及向该存储介质写信息。在替换方式中，存储介质可以与处理器是整体的。软件模块可以是单个指令或者许多指令，并且可以分布在几个不同的代码段上、不同的程序之间以及跨过多个存储介质。

在此发明的方法包括用于实现所述的方法的一个或多个动作。方法和/或动作可以彼此互换而不脱离权利要求的范围。换句话说，除非指定了动作的具体顺序，否则可以修改具体动作的顺序和/或使用而不脱离权利要求的范围。

所述的功能可以按硬件、软件、固件或其任意组合而实现。如果以软件实现，功能可以作为一个或多个指令存储在切实的计算机可读介质上。存储介质可以是由计算机访问的任何可用的切实介质。通过例子而不是限制，这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其他切实介质。如在此使用的，盘(disc)包括紧凑盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘和蓝光盘。

因此，计算机程序产品可以进行在此给出的操作。例如，这样的计算机程序产品可以是具有有形存储(和/或编码)在其上的指令的计算机可读的有形介质，该指令可由一个或多个处理器执行以进行在此所述的操作。计算机程序产品可以包括包装的材料。

软件或指令也可以通过传输介质而传输。例如，可以使用诸如同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或诸如红外、无线电或微波的无线技术的传输介质从网站、服务器或者其他远程源传输软件。

此外，用于进行在此所述的方法和技术的模块和/或其他适当的手段可以在适当时由用户终端和/或基站下载和/或其他方式获得。例如，这样的设备可以耦接到服务器以促进用于进行在此所述的方法的手段的传送。或者，在此所述的各种方法可以经由存储部件(例如RAM、ROM、诸如CD或软盘等的物理存储介质)提供，以便用户终端和/或基站可以在耦接到该设备或者向该设备提供存储部件时获得各种方法。此外，可以利用用于将在此所述的方法和技术提供给设备的任何其他适当的技术。

其他例子和实现方式在本发明和所附权利要求的范围和精神内。例如，由于软件的本质，以上所述的功能可以使用由处理器、硬件、固件、硬连线或这些的任意的组合执行的软件实现。实现功能的特征也可以物理地位于各个位置，包括被分发以便功能的部分在不同的物理位置处实现。而且，如在此使用的，包括在权利要求中使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本发明的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所发明的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不希望被限制到在此示出的方面，而是按照与在此发明的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不希望将本发明的实施例限制到在此发明的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种姿态检测方法，包括：

从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像；

对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象；

结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行预测，以获取姿态预测结果；

针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果；

基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。

2.如权利要求1所述的方法，其中，对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象包括：

针对所述至少两帧视频图像中的每帧视频图像进行对象特征识别或边缘检测，以识别出所述至少一个目标对象。

3.如权利要求1所述的方法，其中，对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象包括：

针对所述至少两帧视频图像中的每帧视频图像进行特征点识别，获取至少一个特征点识别对象及其对应的特征点；

从所述至少一个特征点识别对象中确定需要进行姿态检测的至少一个目标对象。

4.如权利要求3所述的方法，其中，从所述至少一个特征点识别对象中确定需要进行姿态检测的至少一个目标对象包括：

根据评估参数对每个所述特征点识别对象进行评估，根据评估结果确定所述至少一个目标对象。

5.如权利要求4所述的方法，其中，

所述评估参数包括所述特征点识别对象的位置参数、尺寸参数、运动规律性参数和偏移参数中的至少一个。

6.如权利要求1所述的方法，其中，结合所述至少两帧视频图像的时间顺序，针对所述至少一个目标对象的姿态进行预测，以获取姿态预测结果包括：

根据时间顺序，获取所述至少一个目标对象的姿态轨迹，并与姿态轨迹模型进行匹配，根据匹配结果获取姿态预测结果。

7.如权利要求1所述的方法，其中，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果包括：

将所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态，与静态姿态模型进行匹配，根据匹配结果获取姿态识别结果。

8.如权利要求1所述的方法，其中，基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果包括：

分别确定所述至少一个目标对象的所述姿态预测结果和姿态识别结果的置信度；

当所述姿态预测结果和所述姿态识别结果的置信度比较结果满足预设条件时，将所述姿态预测结果作为所述至少一个目标对象的姿态检测结果；当所述姿态预测结果和所述姿态识别结果的置信度比较结果不满足预设条件时，将所述姿态识别结果作为所述至少一个目标对象的姿态检测结果。

9.如权利要求8所述的方法，其中，所述方法还包括：

当所述姿态预测结果和所述姿态识别结果的置信度比较结果不满足预设条件时，根据所述姿态识别结果修正所述姿态预测结果的获取标准。

10.一种姿态检测装置，包括：

获取单元，配置为从视频图像流中，获取预设时间范围内按时间顺序排列的至少两帧视频图像；

确定单元，配置为对所述至少两帧视频图像的每帧视频图像分别进行目标对象识别，并从中确定需要进行姿态检测的至少一个目标对象；

预测单元，配置为结合所述至少两帧视频图像的时间顺序，针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行预测，以获取姿态预测结果；

识别单元，配置为针对所述至少两帧视频图像的至少一帧视频图像中的目标对象的姿态进行识别，以获取姿态识别结果；

检测单元，配置为基于所述姿态预测结果和姿态识别结果，获取所述至少一个目标对象的姿态检测结果。

11.一种姿态检测装置，包括：

处理器；

和存储器，在所述存储器中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

12.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现以下步骤：