CN109858430A

CN109858430A - 一种基于强化学习优化的多人姿态检测方法

Info

Publication number: CN109858430A
Application number: CN201910080912.7A
Authority: CN
Inventors: 黄铎; 应娜; 郭春生; 朱宸都; 蔡哲栋; 刘兆森
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-06-07

Abstract

本发明提供一种基于强化学习优化的多人姿态检测方法。针对传统方法中目标检测器所定位的有些包围框不能很好地贴合人体，导致姿态检测器的检测精度下降，进而影响到整个多人姿态检测算法的精度，提出了基于强化学习的目标精细模型，针对不够精确的包围框进行调整。目标精细模型使得包围框能更加贴合人体，减少了包围框中图像的冗余信息，可以提高姿态检测器的检测精度。

Description

一种基于强化学习优化的多人姿态检测方法

技术领域

本发明属于图像处理的技术领域，具体涉及一种基于强化学习优化的多人姿态检测方法。

背景技术

强化学***的能力。强化学习的训练中做出错误的预测时会受到惩罚，反之则会受到奖励，强化学习便是在不断地受到奖励与惩罚后学习如何选择动作以使得奖励最大化的过程。

目前针对图像中人像姿态的判断，尤其是针对多人姿态的检测主要采用两步检测算法：以目标检测器定位目标，以姿态检测器对所有目标检测姿态。利用目标检测器检测图像中的人像，然后利用姿态检测器来检测判断人像的姿态，但是才用这种方式对人像进行判断，由于目标检测器所定位的有些包围框有时候不能很好地贴合人体，也就是其仅仅定位人体，人体有部分在包围框内，有一部分则在包围框外部，这样就使得人体姿势判断时的姿态检测器的检测精度下降，而且图像中存在多个人时更加不准确，影响了整个多人姿态检测算法的精度。

故而需要对现有的多人姿态检测做出改进，以便提高算法精度，准确判断图像中的多个人的人体姿态。

发明内容

本发明的目的是为了解决上述问题，提供一种基于强化学习优化的多人姿态检测方法。针对传统方法中目标检测器所定位的有些包围框不能很好地贴合人体，导致姿态检测器的检测精度下降，进而影响到整个多人姿态检测算法的精度，提出了基于强化学习的目标精细模型，针对不够精确的包围框进行调整。目标精细模型使得包围框能更加贴合人体，减少了包围框中图像的冗余信息，可以提高姿态检测器的检测精度。

为了达到上述发明目的，本发明采用以下技术方案：

一种基于强化学习优化的多人姿态检测方法，其特征在于，包括以下步骤：

S1.采集多张多人图片并进行处理，生成多人数据集及单人数据集，将所述单人与多人数据集按预设比例分别拆分为训练集与测试集，得到多人训练集、多人测试集、单人训练集、单人测试集；

S2.建立用于定位目标的目标检测器、用于调整包围框的目标精细模型、用于检测人体姿态的姿态检测器，三者形成多人姿态检测算法结构；

S3.利用单人训练集训练目标精细模型中的特征提取部分，作为目标精细模型的预训练参数，并使用单人测试集进行测试以防止模型过拟合；

S4.利用多人训练集训练目标检测器，利用单人训练集训练姿态检测器，并使用各自的测试集(即多人训练集、单人训练集)分别进行各自测试以防止模型过拟合；使用目标检测器和姿态检测器的训练精度生成正方形单人图片数据集训练目标精细模型，在训练中使用S3中所述预训练参数对目标精细模型进行初始化；

S5.输入需要检测的多人图片，利用目标检测器定位所述需要检测的多人图片中的多个人体目标，利用目标精细模型对多个人体目标的包围框进行调整，及利用姿态检测器分别检测多个人体目标的姿态。

本发明增加了目标精细模型，用于调整目标检测器定位的包围框，使得包围框更贴合多人图片中的人体，减少了包围框中图像的冗余信息，可以提高姿态检测器的检测精度。

进一步的，所述步骤S1中的多人数据集包括多人图片与人体包围框标签。

进一步的，所述步骤S1中的单人数据集包括利用包围框裁剪后的单人图片以及每个人体的关节点坐标。

进一步的，所述步骤S1具体包括以下过程：

S11.采集多人图片，使用包围框对多人图片中的多个人体目标进行定位，并保存多个人体目标的包围框坐标，包围框坐标由左上角点与右下角点组成，形成多人数据集；

S12.对多人图片中的每个人体目标的每个初始关节点坐标进行定位，与每个人体目标的包围框一一对应保存所述每个初始关节点坐标，所述初始关节点坐标由单个坐标点构成；S13.根据多人数据集中的包围框对人体目标进行裁切得到单人图片，将裁切后的单人图片通过周围补零的方式补成边长为单人图片长边的长度的正方形单人图片；将所述多人图片中的关节点坐标映射至所述正方形单人图片中，保存关节点坐标数据，形成单人数据集；

S14.对多人数据集和单人数据集进行总数量10％的随机抽取，作为多人测试集和单人测试集，其余的图片作为多人训练集和单人训练集。这里的10％可以根据实际自行设置。

进一步的，本发明中的周围补零是指图片为非正方形时，在图片周围补充RGB亮度为零的像素点，使其成为正方形图片。

进一步的，所述步骤S4具体包括以下过程：

S41.利用多人训练集训练目标检测器，并在训练之后用多人测试集对目标检测器进行测试以防止其过拟合；对多人训练集与测试集中的多人图片进行人体目标检测，对每张多人图片中的人体目标使用包围框进行定位并保存所有包围框坐标，所述包围框坐标与每张多人图片一一对应；

S42.利用经S41中目标检测器得到的多人训练集与测试集人体目标包围框对所述多人训练集与测试集中的多人图片进行裁切得到单人图片，根据单人图片的长边采用周围补零的方式补成正方形单人图片，所述多个正方形单人图片组成裁切后的正方形单人图片训练集与测试集，其图片来源与多人训练集和测试集相对应；

S43.利用单人训练集训练姿态检测器，并在训练之后对用单人测试集对目标检测器进行测试以防止其过拟合；使用训练好的姿态检测器对正方形单人图片训练集与测试集进行姿态检测并保存检测得到的检测关节点坐标，所述检测关节点坐标与正方形单人图片一一对应；

S44.逐一计算S43中正方形单人图片数据集(包括训练集和测试集)的检测关节点坐标与从单个多人图片裁切出的所有正方形单人图片的人体包围框坐标标签相应的精度，计算方法为统计一张正方形单人图片中检测关节点与初始关节点坐标相同的个数，除以所述正方形单人图片中的关节点个数；选取精度最高的标签为该多人图片所对应的人形目标，并保存为原始精度；

S45.利用S3所述预训练参数对目标精细模型的特征提取部分进行初始化后开始训练，目标精细模型读取所述目标检测器的包围框坐标并对其进行调整，形成调整后的人体包围框；

S46.使用姿态检测器对所述调整后的人体包围框中的人体目标进行姿态检测，并且与原始精度进行对比，获得强化学习智能体需要的奖励。

本发明的步骤s44中的人体包围框坐标标签相应的精度，是指目标检测器和姿态检测器的训练精度，具体是指数据集中的多人图片经过目标检测器的目标检测，再经过姿态检测器的姿态检测后的精度。

进一步的，所述步骤S5包括以下过程：

S51.利用目标检测器读取一张多人图片，进行识别并用包围框定位人体目标；

S52.利用目标精细模型对包围框的大小范围进行调整；

S53.利用姿态检测器对调整后的包围框中的人体目标进行姿态检测；

S54.将姿态检测的结果映射回所述多人图片。

进一步的，所述目标检测器，包括用于定位人体目标的提取特征网络和坐标回归网络；

或，所述目标精细模型，包括用于调整包围框提取特征网络和Q网络；

或，所述姿态检测器，包括用于姿态检测的提取特征网络和坐标回归网络。

进一步的，所述目标检测器的结构中包含卷积层，BN层，池化层以及全连接层；

或，所述目标精细模型的结构中包含卷积层，BN层，池化层以及全连接层；

或，所述调整包围框，指对包围框左上角与右下角的坐标进行上、下、左、右四个方向共八种调整

进一步的，所述目标精细模型对包围框的调整动作还包括终止调整的终止动作。

本发明中的包围框长边或单人图片长边中的长边是指代矩形中边长较长的边。

本发明利用目标精细模型对目标检测器的检测结果进行优化，实现一个强化学习，使得人体目标的包围框确定更加准确。

本发明与现有技术相比，有益效果是：传统的多人姿态检测的两步检测算法基于目标检测器与姿态检测器进行搭建，由于目标检测器所定位的包围框精度不够导致姿态检测精度下降；采用本发明的算法以后，使用基于强化学习的目标精细模型对多人姿态检测方法进行优化，使得包围框更加贴合人体以提升检测精度。

另外，本发明采用已经训练好的人体分类模型作为目标精细模型的预训练网络，相比于传统的以ImageNet为基础的分类模型，人体分类模型更专注于对人体特征的提取，更适合作为姿态检测的预训练模型。

附图说明

图1是本发明强化学习的示意图；

图2是目标精细模型工作流程示意图；

图3是目标精细模型结构示意图；

图4是目标精细模型训练流程图；

图5是采用本发明多人检测算法的优化结果示意图。

具体实施方式

下面通过具体实施例对本发明的技术方案作进一步描述说明，使得本技术方案更加清楚、明白。

本发明基于强化学习优化的多人姿态检测算法使用目标精细模型对目标检测器定位的包围框进行调整后，再进行姿态检测，有效提高了多人姿态检测的精度。

本实施例提供S1.采集多张多人图片并进行处理，生成多人数据集及单人数据集，将所述单人与多人数据集按预设比例分别拆分为训练集与测试集，得到多人训练集、多人测试集、单人训练集、单人测试集；

S4.利用多人训练集训练目标检测器，利用单人训练集集训练姿态检测器，并使用各自的测试集分别进行测试以防止模型过拟合；使用目标检测器和姿态检测器的训练精度生成正方形单人图片数据集训练目标精细模型，在训练中使用S3中所述预训练参数对目标精细模型进行初始化；

目标精细模型，是由提取特征网络OR₁和Q网络OR₂组成，目标精细模型(通过智能体实现)会与环境交互获取状态信息，建立马尔科夫决策过程，如图1所示。在每一次迭代中，模型需要获取信息来决定一次变形动作，在下一次的迭代中，模型会根据上一次变形之后的信息来决定再下一次迭代的变形动作，直到确定目标最优或者达到限制的迭代次数为止。每次动作执行后，算法计算出该状态下执行该动作的奖励。

目标精细模型的动作A和状态st，受到函数Q(st,A)控制，该函数可以通过Q学习函数进行估计。模型会通过函数选择可以获得奖励的动作。Q学习函数使用如下Bellman方程不断迭代更新模型参数：

Q(st,A)＝R+γmax_a'Q(st',A')

其中st和A是当前的相对应的动作和状态，R是当前的奖励，max_a'Q(st',A')表示未来的奖励，γ表示折扣因子。

目标精细模型通过由卷积神经网络提取得到的特征进行决策，选择当前状态下所应该选择的动作。目标精细模型由两种类型的动作：其一是调整动作，该类型的动作会调整包围框的形状；其二是终止动作，该类型的动作一旦被选择，调整过程即终止。其中的调整动作数量有八种，分别是包围框左上角坐标的四个方向平移，和包围框右下角坐标的四个方向平移。这样设计的理由是这八种动作涵盖包围框的所有动作可能，相比于一般的包围框缩放和平移的规则动作，这样设计可以使得包围框做出不规则的动作，更有利于使包围框贴近人体。在迭代过程中模型会不断根据当前的状态选择动作，每次调整包围框后会获得新的状态，再选择新的动作，直到选择为终止动作为止。模型流程如图2所示。

目标精细模型所选择的动作会产生新的包围框，姿态检测器PE会根据新的包围框产生新的精度acc₁；算法定义不加入强化学习的两步检测框架的精度acc₀作为真实值。对于当前的状态st，智能体选择的调整动作得到新状态st'，产生的新精度acc₁，如果大于真实值acc₀，则会获得一个奖励(1)，反之则会获得一个惩罚(-1)。对于终止动作而言，终止时最终的新精度acc₁若大于acc₀，会获得一个比较大的奖励，反之会获得一个大惩罚。而对于真实值大于τ的目标，算法选择直接让智能体选择终止动作，获得奖励。奖励公式如下：

R_a(st,st')＝sign(acc₁-acc₀)

本实施例提出了基于强化学习优化的多人姿态检测方法，其模型结构如图3所示，其结构包括：

1、特征提取网络OR₁，由多个卷积层组成，用于特征提取；

2、fc层，全连接层，用于将多维特征映射为一维特征向量；

3、Q网络，由两个512输出的全连接层组成，由于信息抽象映射；

4、动作向量，由一个9连接的全连接层组成，用于输出一个含有九个元素的动作向量，代表八个调整动作与一个终止动作。

本实施例的模型训练阶段运行流程如图4所示，其过程包括以下步骤：

1、将人体分类模型的特征提取部分OR_ori作为目标精细模型的特征提取网络OR₁的预训练模型；

2、输入原始图片Img_MP与原始包围框bbox到目标精细模型OR中，Q网络OR₂根据特征提取网络OR₁提取到的特征对包围框进行调整，得到新包围框bbox′；

3、利用新包围框切出小图，使用姿态检测器对其进行姿态检测，得到新精度acc₁；

4、使用奖励公式对新精度acc₁与原始精度acc₀进行奖励计算，并更新Q网络OR₂的参数。

方法实际使用流程，输入多人图片Img_MP经过目标检测器OD、目标精细模型OR、姿态检测器PE，即可得到多人姿态检测结果。得到的检测效果图如图5所示。

本实施例的目标精细模型，是针对人体贴合不足的包围框进行调整。模型设计了包围框左上角与右下角两个点各自进行上、下、左、右四个方向平移的八个调整动作，和一个用于停止调整的终止动作，通过马尔科夫决策过程对包围框进行迭代调整，最终使得包围框更贴合人体以提升检测精度。

本实施例的基于强化学习优化的多人姿态检测方法，进一步细化来说，主要是按如下步骤进行：

1.处理用于多人姿态检测的数据集，得到多人图片Img_MP与人体包围框标签Label_bbox的多人数据集D_MP，根据包围框对原图进行裁切得到单人图片，再根据图片长边的长度将裁切后的单人图片通过周围补零的方式补成正方形单人图片Img_P以及每个人体的关节点坐标Label_kp的单人数据集D_P；

2.建立目标检测器OD定位目标、目标精细模型OR调整包围框、姿态检测器PE检测姿态的多人姿态检测算法结构，其中目标检测器包括提取特征网络OD₁和坐标回归网络OD₂，目标精细模型包括提取特征网络OR₁和Q网络OR₂，姿态检测器包括提取特征网络PE₁和坐标回归网络PE₂；

3.特征提取网络OR₁是一个标准的卷积神经网络模型OR_ori的特征提取部分，使用单人数据集D_P将OR_ori训练成为一个目标分类模型，模型的最后一层全连接层的神经元个数为两个，代表两个类别，分别是背景类和人类；将训练完成后的目标分类模型OR_ori的全连接层删除，得到了一个用于提取人体特征的特征提取网络OR₁；

4.使用多人数据集D_MP对目标检测器OD进行训练和使用单人数据集D_P对姿态检测器PE进行训练，训练完成后使用目标检测器OD对多人数据集D_MP进行目标检测，将检测得到的包围框bbox进行裁切得到单人图片，并且按照长边将裁切后的单人图片通过周围补零的方式补成正方形单人图片，再将正方形单人图片用姿态检测器PE进行姿态检测；计算每张裁切过的小图中的姿态检测结果与原图中的所有标签相应的精度，选取精度最高的标签为该小图所对应的目标，并保存为原始精度acc₀；

5.将步骤4中目标检测器检测得到的包围框bbox使用目标精细模型OR进行调整。模型采用了强化学习进行设计，模型输出九种动作，分别为针对包围框bbox的左上角与右下角的坐标进行上、下、左、右四个方向共八种动作，以及终止调整的终止动作。模型对包围框进行调整后产生新的包围框bbox′，根据bbox′进行如步骤4的姿态检测，并得到新精度acc₁。根据如下公式定义强化学习的奖励值R：

R＝sign(acc₁-acc₀)

其中，如果acc₁大于acc₀时，则奖励值为1，反之为0；

模型的动作A和状态st，受到函数Q(st,A)控制，该函数可以通过Q学习函数进行估计。模型会通过函数选择可以获得奖励的动作。Q学习函数使用如下Bellman方程不断迭代更新模型参数：

Q(st,A)＝R+γmax_a'Q(st',A')

6.利用步骤1，2，3，4，5可训练得到基于强化学习优化的多人姿态检测算法，输入原始多人图片Img_MP，经过目标检测器OD定位多个人体目标，目标精细模型OR调整目标包围框bbox，姿态检测器PE分别检测目标姿态，达到多人姿态检测的目的。

本发明通过基于强化学习的目标精细模型OR对目标检测器OD所得到的包围框bbox进行调整，使其更加贴合人体，以达到提升多人姿态检测精度的目的。

通过上述基于强化学习的目标精细模型OR对目标检测器OD所得到的包围框bbox进行调整，使其更加贴合人体，以达到提升多人姿态检测精度的目的。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于强化学习优化的多人姿态检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于强化学习优化的多人姿态检测方法，其特征在于，所述步骤S1中的多人数据集包括多人图片与人体包围框坐标标签。

3.根据权利要求1所述的一种基于强化学习优化的多人姿态检测方法，其特征在于，所述步骤S1中的单人数据集包括利用包围框裁剪后的单人图片以及每个人体的初始关节点坐标。

4.根据权利要求1或2或3所述的一种基于强化学习优化的多人姿态检测方法，其特征在于，所述步骤S1具体包括以下过程：

S12.对多人图片中的每个人体目标的每个初始关节点坐标进行定位，与每个人体目标的包围框一一对应保存所述每个初始关节点坐标，所述初始关节点坐标由单个坐标点构成；

S13.根据多人数据集中的包围框对人体目标进行裁切得到单人图片，将裁切后的单人图片通过周围补零的方式补成边长为单人图片长边的长度的正方形单人图片；将所述多人图片中的关节点坐标映射至所述正方形单人图片中，保存关节点坐标数据，形成单人数据集；

S14.对多人数据集和单人数据集进行总数量10％的随机抽取，作为多人测试集和单人测试集，其余的图片作为多人训练集和单人训练集。

5.根据权利要求4所述的一种基于强化学习优化的多人姿态检测方法，其特征在于，所述周围补零是指图片为非正方形时，在图片周围补充RGB亮度为零的像素点，使其成为正方形图片。

6.根据权利要求1或2或3所述的一种基于强化学习优化的多人姿态检测方法，其特征在于，所述步骤S4具体包括以下过程：

7.根据权利要求6所述的一种基于强化学习优化的多人姿态检测方法，其特征在于，所述步骤S5包括以下过程：

S51.利用目标检测器读取需要检测的多人图片，进行识别并用包围框定位人体目标；

S52.利用目标精细模型对包围框的大小范围进行调整；

S54.将姿态检测的结果映射回所述多人图片。

8.根据权利要求1或2或3所述的一种基于强化学习优化的多人姿态检测方法，其特征在于，

所述目标检测器，包括用于定位人体目标的提取特征网络和坐标回归网络；

9.根据权利要求1或2或3所述的一种基于强化学习优化的多人姿态检测方法，其特征在于，

所述目标检测器的结构中包含卷积层，BN层，池化层以及全连接层；

或，所述目标精细模型的结构中包含卷积层，BN层，池化层以及全连接层；或，所述姿态检测器的结构中包含卷积层，BN层，池化层以及全连接层；

或，所述调整包围框，指对包围框左上角与右下角的坐标进行上、下、左、右四个方向共八种调整。

10.根据权利要求9所述的一种基于强化学习优化的多人姿态检测方法，其特征在于，所述目标精细模型对包围框的调整动作还包括终止调整的终止动作。