CN113221757B

CN113221757B - 一种改善行人属性识别准确率的方法、终端及介质

Info

Publication number: CN113221757B
Application number: CN202110528788.3A
Authority: CN
Inventors: 杨华; 孙铭君
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2022-09-02
Anticipated expiration: 2041-05-14
Also published as: CN113221757A

Abstract

本发明提供了一种改善行人属性识别准确率的方法、终端及介质，方法包括：利用卷积神经网络提取行人特征，进行区域提取；对于前景区域掩膜保留图像前景区域，通过生成器重建图像背景；对于背景区域掩膜保留图像背景区域，通过生成器重建图像前景；通过判别器判断重建图像的真伪，实现对抗学习；训练得到区域提取网络后可以作为前处理网络与属性识别网络进行连接，辅助行人属性识别过程。本发明通过基于生成对抗学习的方式训练了行人区域掩膜提取网络，可以辅助行人属性识别过程，提升了行人属性识别的性能。

Description

一种改善行人属性识别准确率的方法、终端及介质

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及一种改善行人属性识别准确率的方法、终端及介质，可以辅助改善行人属性识别效果。

背景技术

在基于深度学习的行人属性识别方法中，可以通过在网络中提供不同的约束条件改善行人属性识别性能。这些在网络中提供的各种先验约束的方法可以看作通过提升对行人内部不同特征间关系的学习，从而提升对目标特征的处理效果。实际监控中的输入图像中不仅包括行人信息，也包含有一些监控背景信息。同时，正常的掩膜提取网络在训练时需要提供较为复杂的像素级别的标注。

发明内容

本发明的目的在于克服现有技术的不足之处，提出了一种通过弱监督提取行人掩膜来改善行人属性识别准确率的方法。

本发明第一方面，提供一种改善行人属性识别准确率的方法，包括：

获取包含目标行人的图像I；

采用行人区域掩膜提取网络F，提取所述图像I中目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B，其中，所述目标行人区域掩膜T和背景区域掩膜B互补，即T+B＝1；

对于前景区域掩膜T保留图像前景区域，通过第一生成器G1重建图像背景；对于背景区域掩膜B保留图像背景区域，通过第二生成器G2重建图像前景；所述第一生成器G1、所述第二生成器G2具有相同的网络结构；

采用判别器D判断重建图像的真伪。

本发明通过先提取掩膜改善识别效果，同时，降低了标注工作量，减少监控背景噪声对属性识别过程的干扰，提升属性识别的效果，

可选地，所述采用行人区域掩膜提取网络F，提取所述图像I中目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B，包括：

将图像I输入行人区域掩膜提取网络F：首先通过卷积网络得到特征f∈R^w×h×c，其中w,h,c分别指代特征f的宽带，高度和通道数。然后所述特征f通过不同大小的池化模块，池化为大小为w/2×h/2×c,w/3×h/3×c,w/6×h/6×c的特征，经过参数为3×3的卷积对特征进行进一步提取得到特征f_c,然后对特征f_c进行上采样操作后和原有特征f进行拼接操作获得新的分割特征。将分割特征通过卷积网络可以获得通道数为1的目标行人区域掩膜即前景区域掩膜T,同时可以间接获得背景区域掩膜B＝1-T。

可选地，所述对于前景区域掩膜T保留图像前景区域，通过第一生成器G1重建图像背景，包括：

采用所述第一生成器G1对背景进行补全生成，基于自注意力的方式，对每个位置像素和其它位置进行关系建模，与原有区域叠加后得到重建图像I_gen1。

可选地，所述对于背景区域掩膜B保留图像背景区域，通过第二生成器G2重建图像前景，包括：

采用所述第二生成器G2对行人区域进行补全生成，基于自注意力的方式，对每个位置像素和其它位置进行关系建模，与原有区域叠加后得到重建图像I_gen2。

可选地，所述第一生成器G1、所述第二生成器G2根据掩膜覆盖区域的部分图像信息，计算还原出合理的全局图像，其中：

所述第一生成器G1的输入信息为T⊙I，生成背景信息为V1，最终重建图像I_gen1＝T⊙I+B⊙V1；

所述第二生成器G2的输入信息为B⊙I，生成前景信息为V2，最终重建图像I_gen2＝B⊙I+T⊙V2。

可选地，所述采用判别器D判断重建图像的真伪，其中：

在训练过程中为了对生成图像进行约束，判别器D训练采用图像真伪作为损失函数，所述第一生成器G1、所述第二生成器G2训练除了图像真伪作为损失函数外，同时采用了信息重建约束和属性保留约束作为生成过程的损失函数。

可选地，使用所述判别器D判定生成图像的真伪，整体优化目标是：

其中：

为在生成对抗过程中整体的优化目标；

E为对函数的期望，可以认为是对数据分布的估计；

D(I)为判别器对真实图像真实性的判别结果；I为真实图像；

G(I,z)为生成器根据真实图像和随机向量生成的图像；z为输入的随机向量；

D(G(I,z))为判别器对生成图像真实性的判别结果；

所述采用了信息重建约束和属性保留约束作为生成过程的损失函数为：

L_rec＝||R(I_gen)-z||₂

其中：

R(I_gen)为根据生成图像I_gen恢复出的信息向量；z为输入的随机向量。

可选地，上述方法还包括：对行人区域提取到的特征进行单独的约束，以区分提取得到的目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B；其中：

提取到的行人区域应该能够通过分类器得到预先标定的行人属性y＝y¹,y²,y³…，约束可以保证提取到的区域大于行人区域，同样的为了保证不提取到整张行人图像，避免T＝1，同时对像素进行了L1正则化约束，将网络的属性输出记作

此时损失函数为交叉熵损失函数：

公式中y^c代表对第c类属性的标注，

代表对第c类属性的预测结果，||T||₁代表对行人掩膜的L1正则化约束。

因此对于生成器G1和G2的整体损失函数为

L_G＝α₁L_gen+α₂L_rec+α₃L_att

其中α₁,α₂,α₃为可调节的超参数，L_gen为图像真伪损失约束，L_rec为信息重建损失约束，L_att为属性保留损失约束，具体计算均在上文提及。

基于生成对抗学***衡网络的作用。具体的，生成器G1,G2与判别器D交替优化的过程：在图像生成阶段针对原图和图像掩膜，对背景区域和行人区域分别进行图像重建，目标是欺骗判别器；在图像判别阶段，判别器对真实图像和生成图像进行判别，目标是鉴别出生成图像；通过交替优化提升网络性能。

本发明第二方面，提供一种电子终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行所述的改善行人属性识别准确率的方法。

本发明第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行所述的改善行人属性识别准确率的方法。

与现有技术相比，本发明具有如下的有益效果：

本发明上述改善行人属性识别准确率的方法，利用属性标签可以完成行人区域掩膜提取过程，对标注的要求较低。进一步的，为了减少标注工作量，仅利用已提供的属性标签作为监督信息训练掩膜提取网络，在实现方法上主要利用了生成对抗网络的方法，通过对抗式的生成仅需要图像级别的标签实现了对目标掩膜的提取。同时对行人属性识别问题施加空间约束和属性间关系约束。

本发明上述改善行人属性识别准确率的方法，通过对行人区域掩膜的提取，从而减少监控背景噪声对属性识别过程的干扰，辅助提升行人属性识别的准确率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中行人区域掩膜提取网络F的具体网络结构；

图2为本发明一实施例中生成器中自注意力网络的具体结构；

图3为本发明一优选实施例的方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例提供一种通过弱监督提取行人掩膜来改善行人属性识别准确率的方法，包括如下步骤：

S1,获取包含目标行人的图像I；

S2,采用行人区域掩膜提取网络F，提取所述图像I中目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B，其中，所述目标行人区域掩膜T和背景区域掩膜B互补，即T+B＝1；

S3,对于前景区域掩膜T保留图像前景区域，通过第一生成器G1重建图像背景；对于背景区域掩膜B保留图像背景区域，通过第二生成器G2重建图像前景；所述第一生成器G1、所述第二生成器G2具有相同的网络结构；

S4,采用判别器D判断重建图像的真伪。

本发明实施例利用属性标签可以完成行人区域掩膜提取过程，对标注的要求较低。仅利用已提供的属性标签作为监督信息训练掩膜提取网络，通过对抗式的生成仅需要图像级别的标签实现了对目标掩膜的提取，可以辅助提升行人属性识别效果。

图1为本发明实施例提供的行人区域掩膜提取网络F的具体网络结构，如图1所示，首先利用了不同的池化方式来获得不同的感受野，从而实现不同层次特征的聚合，同时利用了残差连接的结构，可以保留细节的信息，同时更有利于梯度的反向传播。

图2为本发明实施例提供的生成器G中自注意力网络的具体结构，利用矩阵乘法实现不同像素间信息的交互，从而生成注意力图，然后通过点乘的方式实现空间上的注意力机制。这种方式通过增加计算量实现了更好的全局信息融合，提高了生成器的生成性能。

图3为本发明一优选实施例的方法流程图。参照图3所示，本实施例提供的基于弱监督的行人属性识别方法，具体步骤包括：

S101、获取包含目标行人的图像I；

在本实施例中，目标行人图像为真实监控场景下经过裁剪，裁剪的仅包含目标行人的图像。

S102、根据目标行人图像I输入区域提取网络F，提取目标行人区域掩膜即前景区域掩膜T∈{0,1}^W×H和背景区域掩膜B∈{0,1}^W×H,其中W,H分别代表掩膜T的宽带和高度，可以认为行人区域掩膜即前景区域掩膜T和背景区域掩膜B是互补的，即T+B＝1；

具体的将图像I输入行人区域掩膜提取网络F,首先通过卷积网络得到特征f∈R^w ^×h×c，其中w,h,c分别指代特征f的宽带，高度和通道数。然后所述特征f通过不同大小的池化模块，池化为大小为w/2×h/2×c,w/3×h/3×c,w/6×h/6×c的特征，经过参数为3×3的卷积对特征进行进一步提取得到特征f_c,然后对特征f_c进行上采样操作后和原有特征f进行拼接操作获得新的分割特征。将分割特征通过卷积网络可以获得通道数为1的目标行人区域掩膜即前景区域掩膜T,同时可以间接获得背景区域掩膜B＝1-T。

S103、得到前景区域掩膜T和背景区域掩膜B后通过生成器G1,G2对图像进行补全生成，生成器G1,G2具有相同的网络结构，主要参照自注意力的方式，对每个位置像素和其它位置进行了关系建模，与原有区域叠加后可以得到重建图像，其中生成器G1对背景进行补全得到生成图像I_gen1,生成器G2对行人区域进行补全得到生成图像I_gen2；

生成器G1,G2能够根据掩膜覆盖区域的部分图像信息，计算还原出合理的全局图像，生成器G1的输入信息为T⊙I，生成背景信息为V1,最终重建图像I_gen1＝T⊙I+B⊙V1；生成器G2的输入信息为B⊙I，生成前景信息为V2,最终重建图像I_gen2＝B⊙I+T⊙V2。

S104、在训练过程中为了对生成图像进行约束，判别器D训练采用图像真伪作为损失函数，生成器G的训练出了图像真伪作为损失函数外，同时采用了信息重建约束和属性保留约束作为生成过程的损失函数。具体的损失函数包括：

对于生成图像I_gen1,I_gen2应当尽量趋近于真实图像，因此使用判别器D判定生成图像的真伪，整体优化目标是：

其中：

为在生成对抗过程中整体的优化目标；

E为对函数的期望，可以认为是对数据分布的估计；

D(I)为判别器对真实图像真实性的判别结果；I为真实图像；

D(G(I,z))为判别器对生成图像真实性的判别结果；

为了避免区域提取器产生严重的偏移倾向(提取目标区域T＝0),对生成器提供隐含的特征向量z,希望在重建图像中通过信息回复模块R可以恢复出这种特征z，通过重建损失来促进网络保留更多的输入信息，强迫网络进行信息替换。此时增加损失函数约束：

L_rec＝||R(I_gen)-z||₂

其中：

R(L_gen)为根据生成图像I_gen恢复出的信息向量；z为输入的随机向量。为了区分提取得到的前景区域掩膜T和背景区域掩膜B，我们对行人区域提取到的特征施加了单独的约束。首先提取到的行人区域应该能够通过分类器得到预先标定的行人属性y＝y¹,y²,y³…，约束可以保证提取到的区域大于行人区域，同样的为了保证不提取到整张行人图像，避免T＝1,同时对像素进行了L1正则化约束，将网络的属性输出记作

此时损失函数为交叉熵损失函数，

公式中y^c代表对第c类属性的标注，

因此对于生成器G1和G2的整体损失函数为

L_G＝α₁L_gen+m₂L_rec+m₃L_att

其中α₁,α₂,α₃为可调节的超参数，确定范围一般可以通过将对应约束缩放至同一数量级后进行网格搜索得到，不同场景下的图像需要进一步调整。L_gen为图像真伪损失约束，L_rec为信息重建损失约束，L_att为属性保留损失约束，具体计算均在上文提及。

整体优化目标确定后，具体的可以通过生成器与判别器交替优化实现。在本步骤中优化生成器G1,G2和掩膜提取网络F,保持网络的其它部分固定。在此阶段针对原图和图像掩膜，对背景区域和行人区域分别进行图像重建，目标是欺骗判别器。

S105、优化判别器D,保持网络的其它部分固定。在此阶段针对原图和图像掩膜，对背景区域和行人区域分别进行图像重建，目标是欺骗判别器。通过验证数据判断整体网络优化情况，如尚未收敛跳转至步骤S104,如已经收敛则进行步骤S106。

S106、整体网络训练收敛后得到区域提取网络后可以作为前处理网络与属性识别网络进行连接，辅助行人属性识别过程.具体的可以将行人区域掩膜T与输入图像I进行拼接后输入行人属性识别网络，从而辅助提升属性识别效果。

在另一实施例中，本发明还提供一种电子终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可用于执行上述任一项实施例的改善行人属性识别准确率的方法。

在另一实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行上述任一项实施例的改善行人属性识别准确率的方法。

本实施例采用的训练数据分别来自于RAP数据集和PETA数据集。其中RAP数据集包含了41585张目标行人图像，取33268张图像作为训练数据。PETA数据集包含了19000张目标行人图像，取9500张图像作为训练数据。

通过实验证明，本实施例方法能通过提取行人区域掩膜的方法辅助改善行人属性识别效果，从而提升属性识别准确率。表1和表2为本实施例在不同数据集上的表现效果和不同损失函数的效果对比。

表1

表2

可以看出由本实施例得到的结果较大程度了提升了行人属性识别的性能。此外，本实施例在训练过程中仅使用了图像级别的属性标注完成了训练，所需要的标注量较少。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种改善行人属性识别准确率的方法，其特征在于，包括：

获取包含目标行人的图像I；

采用判别器D判断重建图像的真伪；

所述对于前景区域掩膜T保留图像前景区域，通过第一生成器G1重建图像背景，包括：

采用所述第一生成器G1对背景进行补全生成，基于自注意力的方式，对每个位置像素和其它位置进行关系建模，与原有区域叠加后得到重建图像I_gen1；

所述对于背景区域掩膜B保留图像背景区域，通过第二生成器G2重建图像前景，包括：

2.根据权利要求1所述的改善行人属性识别准确率的方法，其特征在于，所述采用行人区域掩膜提取网络F，提取所述图像I中目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B，包括：

将图像I输入行人区域掩膜提取网络F：

首先通过行人区域掩膜提取网络F中的卷积网络得到特征f∈R^w×h×c，其中w,h,c分别指代特征f的宽带，高度和通道数；

然后所述特征f通过不同大小的池化模块，池化为大小为w/2×h/2×c,w/3×h/3×c,w/6×h/6×c的特征，经过参数为3×3的卷积对特征进行进一步提取得到特征f_c,然后对特征f_c进行上采样操作后和原有特征f进行拼接操作，获得新的分割特征；

将所述分割特征通过卷积网络获得通道数为1的目标行人区域掩膜即前景区域掩膜T,同时间接获得背景区域掩膜B＝1-T。

3.根据权利要求1所述的改善行人属性识别准确率的方法，其特征在于，所述第一生成器G1、所述第二生成器G2根据掩膜覆盖区域的部分图像信息，计算还原出合理的全局图像，其中：

4.根据权利要求1所述的改善行人属性识别准确率的方法，其特征在于，所述采用判别器D判断重建图像的真伪，其中：

5.根据权利要求4所述的改善行人属性识别准确率的方法，其特征在于，使用所述判别器D判定生成图像的真伪，整体优化目标是：

其中：

为在生成对抗过程中整体的优化目标；

E为对函数的期望，可以认为是对数据分布的估计；

D(I)为判别器对真实图像真实性的判别结果；I为真实图像；

D(G(I,z))为判别器对生成图像真实性的判别结果；

所述生成过程的损失函数采用了信息重建约束和属性保留约束，其中信息重建损失约束函数为：

L_rec＝||R(I_gen)-z||₂

其中：L_rec为信息重建损失约束；R(I_gen)为根据生成图像I_gen恢复出的信息向量；z为输入的随机向量。

6.根据权利要求5所述的改善行人属性识别准确率的方法，其特征在于，还包括：对行人区域提取到的特征进行单独的约束，以区分提取得到的目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B；其中：

提取到的行人区域应该能够通过分类器得到预先标定的行人属性y＝y¹,y²,y³…，约束可以保证提取到的区域大于行人区域，同样的，为了保证不提取到整张行人图像，避免T＝1，同时对像素进行了L1正则化约束，将网络的属性输出记作

此时损失函数为交叉熵损失函数：

公式中y^c代表对第c类属性的标注，

代表对第c类属性的预测结果，||T||₁代表对行人掩膜的L1正则化约束；

因此对于生成器G1和G2的整体损失函数为

L_G＝α₁L_gen+α₂L_rec+α₃L_att

其中α₁,α₂,α₃为可调节的超参数，L_gen为图像真伪损失约束，L_rec为信息重建损失约束，L_att为属性保留损失约束。

7.根据权利要求1所述的改善行人属性识别准确率的方法，其特征在于，基于生成对抗学***衡网络的作用。

8.一种电子终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-7任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时用于执行权利要求1-7任一所述的方法。