CN114724247A

CN114724247A - 面向特定场景下基于语义认知的姿态估计方法及***

Info

Publication number: CN114724247A
Application number: CN202210375811.4A
Authority: CN
Inventors: 谢雪梅; 要苏雨; 李博奥; 陈文婕
Original assignee: Guangzhou Institute of Technology of Xidian University
Current assignee: Guangzhou Institute of Technology of Xidian University
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-08
Anticipated expiration: 2042-04-11
Also published as: CN114724247B

Abstract

面向特定场景下基于语义认知的姿态估计方法及***，其方法包括：获取原始标准动作序列，对原始标准动作序列进行聚类后提取关键帧，根据关键帧构建知识库；使用卷积神经网络从多模态的输入数据中获取感知语义，以获取到的感知语义为索引，在知识库中进行认知查验，并得到查验结果；若查验结果符合人体语义结构，则直接输出，否则使用知识库中的语义信息对感知语义进行修正，得到认知语义；将认知语义作为输入，指导姿态估计网络完成姿态估计任务，得到姿态估计结果；本申请在小样本训练下也能有很好地性能，并且具有很好地可迁移能力，可应用于特定场景下的人体姿态估计任务。

Description

面向特定场景下基于语义认知的姿态估计方法及***

技术领域

本发明涉及人工智能领域，特别涉及面向特定场景下基于语义认知的姿态估计方法及***。

背景技术

人体姿态任务的研究目标是根据输入图像和视频等输入数据来定位人体各关键部位(例如头部，手臂，膝盖等)并建立人体表现形式(例如人体关键点)的任务，是计算机视觉任务中一项既基础又具有挑战性的任务，同时也人机交互、行人重识别、行为识别等计算机视觉应用中；现阶段的姿态估计方法大多基于深度神经网络完成，深度神经网络可以逐层提取输入图像中的视觉语义信息，通过扩大感受野、域变换等方式对感知到的信息进行归纳，获取多尺度的语义特征，该语义特征所表达的内容并不完全符合人类的认知，由于神经网络学习的随机性以及懒惰性，网络拟合的模型包含数据集噪声规律，导致提取到的视觉语义特征与人类认知的语义有偏差，无法精确分析错误原因，可解释性弱。

因此，如何提供一种性能好的姿态估计方法，是本领域技术人员亟待解决的问题。

发明内容

本申请实施例提供了面向特定场景下基于语义认知的姿态估计方法及***，旨在解决现有大数据驱动的姿态估计方法无法完全拟合人体语义信息、可解释性弱的问题。

第一方面，本申请提供了面向特定场景下基于语义认知的姿态估计方法，该方法包括：

获取原始标准动作序列，对原始标准动作序列进行聚类后提取关键帧，根据关键帧构建知识库；

使用卷积神经网络从多模态的输入数据中获取感知语义，以获取到的感知语义为索引，在知识库中进行认知查验，并得到查验结果；

若查验结果符合人体语义结构，则直接输出，否则使用知识库中的语义信息对感知语义进行修正，得到认知语义；

将认知语义作为输入，指导姿态估计网络完成姿态估计任务，得到姿态估计结果。

第二方面，本申请还提供了面向特定场景下基于语义认知的姿态估计方法***，该***包括：

知识库构建单元，用于获取原始标准动作序列，对原始标准动作序列进行聚类后提取关键帧，根据关键帧构建知识库；

语义感知单元，用于使用卷积神经网络从多模态的输入数据中获取感知语义，以获取到的感知语义为索引，在知识库中进行认知查验，并得到查验结果；

认知语义获取模块，若查验结果符合人体语义结构，则直接输出，否则使用知识库中的语义信息对原始感知语义进行修正，得到认知语义；

姿态估计模块，用于将认知语义作为输入，指导姿态估计网络完成姿态估计任务，得到姿态估计结果。

本申请提出的面向特定场景下基于语义认知的姿态估计方法及***，其相较于现有技术可以带来如下有益效果：

本申请利用高层的认知语义指导姿态估计网络，在小样本训练下也能有很好地性能，并且具有很好地可迁移能力，可应用于其他计算机视觉任务。

附图说明

为了更清楚的说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见的，下面的描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本申请实施例提供的面向特定场景下基于语义认知的姿态估计方法流程图；

图2为本申请实施例提供的知识库构建流程图；

图3为本申请实施例提供的姿态估计整体框架图；

图4为本申请实施例提供的offsetnet中Transformer部分网络结构图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

参见图1实施例所示面向特定场景下基于语义认知的姿态估计方法流程图，包括：

S101、获取原始标准动作序列，对原始标准动作序列进行聚类后提取关键帧，根据关键帧构建知识库。

具体聚类步骤为：a)在原始标准动作序列中随即选取k个点作为聚类中心；

b)计算每一帧的特征值到聚类中心的距离，并聚类到最近的聚类中心上；

c)计算每个聚类中所有帧的特征平均值，并以平均值作为新的聚类中心；

对于新的聚类中心，重复步骤b和c的操作，直到完成聚类。

参见图2实施例所示的知识库构建流程图；

以实心球运动姿态矫正任务为例，将原始标准动作序列通过聚类的方式，提取关键帧，原始动作序列不需要考虑背景、衣着、人体等干扰，关键帧数量可根据不同特定场景人为设定，以关键点(keypoint)的形式分层级(身体body，肢体part，骨骼bone)存储在知识库中，同时以文本的形式存有语义关键词，例如身体(body)层：“站”、“坐”，肢体层(body)：“弯”，“直”等。

S102、使用卷积神经网络从多模态的输入数据中获取感知语义，以获取到的感知语义为索引，在知识库中进行认知查验，并得到查验结果；

网络输入的待检测视频数据一般为一段视频序列，使用卷积神经网络提取感知语义信息。本申请将此处网络检测到的关键点称为感知语义。因为现有网络均是由大数据驱动，通过卷积操作提取局部context信息，并通过下采样操作不端扩大感受野，以获取更大范围的感知。但由于卷积操作的特性，在卷积过程中不可避免的提取背景的特征，所以需要通过大数据的训练，使网络更加关注前景(在此任务中前景即人)的特征而忽略背景，但由于数据的无穷性致使网络不可能学习到所有人体特征，即网络并没有完全理解人体结构并提取出人体的认知语义信息，而忽略背景、人体形体等干扰因素，故将此处获取的关键点信息称为感知语义，并需要使用知识库进行检验。

此处使用的网络为Blazepose。Blazepose是由谷歌团队开发的轻量级人体姿态估计网络，该网络可以运行在pixel2等边缘端设备上，具有良好的检测率与实时性能。但在面对复杂背景，环境遮挡，人体自遮挡，拥挤场景等场景时，仍会出现歧义、偏移等语义层级上的检测错误，例如检测结果中右膝盖的关键点在左膝盖上，右脚的点检测到了背景上等等。该一系列错误均为认知层级的错误，显然不符合人类认知。

针对其他特殊场景(例如穿防护服标准动作检测)时，由于存在大面积、长时间的遮挡现象，可考虑加入多模态输入，例如加入红外相机拍摄或提供文本的形式，以解决不同特殊场景下不同任务的需要。

S103、若查验结果符合人体语义结构，则直接输出，否则使用知识库中的语义信息对原始感知语义进行修正，得到认知语义。

对匹配结果进行认知检验，若没有认知错误，则直接输出结果，否则对感知语义中错误的部分进行修正。

参见图3实施例所示的姿态估计整体框架图；

以实心球运动姿态矫正任务为例，方法如下：

1)将感知到的关键点坐标信息转化为骨骼(bone)信息，并将转化后的骨骼信息与身体(body)层的标准化姿态进行相似性匹配与度量，并获取该标准姿态下的身体层(body)特征语义关键词，例如“站”、“坐”等。依据获取到的身体(body)层语义特征关键词，进行语义层级上的推理，每个关键词下有三个实例(以关键点的形式)存储在知识库中，筛选出相似性最强的实例进行下一层的推理。

2)依据上一层获取到的实例，各个肢体(part)分别进行语义层级上的推理，例如腿部“弯”、“直”，脊椎“仰”、“俯”等，并同步骤1)一样计算特征距离，完成相似性度量，直至完成骨骼(bone)层级的认知查验，并逐层滤除掉具有认知错误的部分，完成对感知语义的查验过程。

该过程不能保证很高的坐标位置的精准度，只能检测并修正提取到的感知语义信息中的认知错误的部分，精确地关键点定位问题由修正后的认知语义信息引导姿态估计网络完成。

最终修正后的认知语义信息转化为关键点并以以下三部分分别进行语义认知：

1)身体(body)：将各关键点连接并高斯模糊为热力图(heatmap)，存储为15*b*4096维的向量。

2)肢体(part)：将各肢体内的关键点相互连接，例如左臂(左手、左肘、左肩)，并分别存储为5张热力图(heatmap)—左臂、右臂、躯干、左腿、右腿。

3)关键点(point)：头部(head)、脖子(neck)、骨盆(pelvis)、左肩(lshoulder)、左肘(lelbow)、左手腕(lwrist)、右肩(rshoulder)、右肘(relbow)、右手腕(rwrist)、左胯(lhip)、左膝(lknee)、左脚踝(lankle)、右胯(rhip)、右膝(rknee)、右脚踝(rankle)共15个点的坐标位置。

S104、将认知语义作为输入，指导姿态估计网络完成姿态估计任务，得到姿态估计结果。

参见图4实施例所示的offsetnet中Transformer部分网络结构图；

姿态估计网络负责完成最终的关键点定位任务，本申请将其称为offsetnet，Offsetnet分为两个部分，卷积神经网络部分和Transformer部分，卷积神经网络用于提取图片特征，transformer用于关键点定位任务。

1)卷积神经网络部分：

卷积神经网络部分使用残差网络进行特征提取。该网络处理输入为【bs*3*1920*1080】维的图像，最终输出图片特征(image feature)为【bs*7*7*256】

2)Transformer部分：

Transformer是一种基于注意力的编码器(Encoder)-解码器(Decoder)结构，最初用于自然语言处理领域，与卷积神经网络不同，Transformer更关注全局的上下文信息，可以融合不同表达方式的语义并进行层级化推理。

Encoder的输入为卷积神经网络部分处理后的特征图，大小为【49*bs*256】。Encoder的内部将依次对特征图进行通道数压缩、序列化数据转换、位置编码操作，并将位置编码与原特征图相加。

Decoder主要有两个输入，分别为Encoder输出的添加过位置编码之后的特征图及Query。Query为知识库检索的输出，即认知语义，分为body，part和point三部分。BodyQuery为一个15*b*4096维的向量，数值类型为nn.Embedding()，是可以学习的。通过融合特征图与Body Query的信息，使网络学习到对人体整体结构表示的模糊理解。并按照PartQuery、Point Query的顺序逐层输入并进行相同的特征融合操作，使每一层输出的人体特征逐渐精细化，并最终回归出人体关键点坐标。

由于三层Query之间分别所属不同的特征域，每一层Decoder Layer的输出结果所属的特征域与该层输入Query有关，所以在每层Decoder Layer之间加入一层全连接层，用于完成不同特征域之间的转换，进而实现与下一层Query的融合。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.面向特定场景下基于语义认知的姿态估计方法，其特征在于，包括：

2.如权利要求1所述的面向特定场景下基于语义认知的姿态估计方法，其特征在于，所述根据关键帧构建知识库，包括：

将关键帧以关键点的形式分层级存储在知识库中进行知识库构建，所述层级为身体-肢体-骨骼。

3.如权利要求2所述的面向特定场景下基于语义认知的姿态估计方法，其特征在于，所述感知语义为卷积神经网络从输入数据中检测到的关键点信息。

4.如权利要求3所述的面向特定场景下基于语义认知的姿态估计方法，其特征在于，所述得到查验结果之前，包括：

将感知到的关键点坐标信息转化为骨骼信息，并将转化后的骨骼信息与身体层的标准化姿态进行相似性匹配与度量，并获取该标准姿态下的身体层特征语义关键词；

依据获取到的身体层语义特征关键词，进行语义层级上的推理，每个关键词下有三个实例以关键点的形式存储在知识库中，筛选出相似性最强的实例。

5.如权利要求4所述的面向特定场景下基于语义认知的姿态估计方法，其特征在于，所述得到查验结果，包括：

根据筛选出相似性最强的实例，分别进行语义层级上的推理，直至完成骨骼层级的认知查验，并逐层滤除掉具有认知错误的部分，得到查验结果。

6.如权利要求1所述的面向特定场景下基于语义认知的姿态估计方法，其特征在于，所述指导姿态估计网络完成姿态估计任务之前，包括：

将认知语义转化为关键点，并分为以下三部分对姿态估计网络进行指导：

1)身体：将各关键点连接并高斯模糊为热力图，存储为15*b*4096维的向量；

2)肢体：将各肢体内的关键点相互连接，并分别存储为5张热力图；

3)关键点：头部、脖子、骨盆、左肩、左肘、左手腕、右肩、右肘、右手腕、左胯、左膝、左脚踝、右胯、右膝、右脚踝共15个点的坐标位置。

7.如权利要求6所述的面向特定场景下基于语义认知的姿态估计方法，其特征在于，所述姿态估计网络包括：卷积神经网络和Transformer网络，Transformer网络为一种基于注意力的编码器-解码器结构，解码器的输入有两个，分别为：编码器输出的添加过位置编码之后的特征图和query。

8.如权利要求7所述的面向特定场景下基于语义认知的姿态估计方法，其特征在于，所述编码器输出的添加过位置编码之后的特征图，包括：

编码器的内部对卷积神经网络部分处理后的特征图，依次进行通道数压缩、序列化数据转换、位置编码操作，并将位置编码与原特征图相加，输出添加过位置编码之后的特征图。

9.如权利要求8所述的面向特定场景下基于语义认知的姿态估计方法，其特征在于，所述将认知语义作为输入，指导姿态估计网络完成姿态估计任务，得到姿态估计结果，包括：

将认知语义转化为关键点，并分为身体、肢体和关键点，然后与编码器输出的添加过位置编码之后的特征图融合，使Transformer网络学习到对人体整体结构表示的模糊理解，并按照肢体Query、关键点Query的顺序逐层输入并进行相同的特征融合操作，使每一层输出的人体特征逐渐精细化，并最终回归出人体关键点坐标，得到姿态估计结果。

10.面向特定场景下基于语义认知的姿态估计***，其特征在于，包括：