CN111860250B

CN111860250B - 基于人物细粒度特征的图像识别方法及装置

Info

Publication number: CN111860250B
Application number: CN202010655258.0A
Authority: CN
Inventors: 覃俊; 罗一凡; 帖军; 李子茂; 徐胜舟; 叶正; 马天宇
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2024-04-26
Anticipated expiration: 2040-07-14
Also published as: CN111860250A

Abstract

本发明涉及图像处理技术领域，公开了一种基于人物细粒度特征的图像识别方法及装置，该方法包括：获取待识别人物图像；对待识别人物图像进行特征提取，获得人物特征图层；将人物特征图层输入至预设超列特征识别模型中，获得对应的图像识别结果；根据图像识别结果获取图像识别准确率；在图像识别准确率大于或等于预设标准阈值时，将所述图像识别结果作为基于人物细粒度特征的图像识别结果。相较于现有技术，利用注意力机制网络进行图像处理会导致不能准确获取关键区域信息，从而更不能精准识别图像类别，而本发明将人物特征图层输入至预设超列特征识别模型中，可以精准定位图像的关键区域，以实现快速、准确地获取人物图像对应的图像识别结果。

Description

基于人物细粒度特征的图像识别方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于人物细粒度特征的图像识别方法及装置。

背景技术

在日常生活中，用户会有对拍摄的图像进行识别的需求，现有技术中，在针对图像识别的处理过程中，利用特征提取大量的类别语义特征，这仅适用于粗粒度的图像分类任务，还会丢失图像大量底层的位置、纹理及轮廓等空间特征，导致用于细粒度图像特征定位任务的注意力机制网络不能高效准确地获取关键区域的信息，不能对人物图像进行精准识别。因此，如何高效准确地获取图像关键区域的信息，从而对人物图像进行精准识别是亟待解决的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种基于人物细粒度特征的图像识别方法及装置，旨在解决如何高效准确地获取图像关键区域的信息，从而对人物图像进行精准识别的技术问题。

为实现上述目的，本发明提供一种基于人物细粒度特征的图像识别方法，所述基于人物细粒度特征的图像识别方法包括以下步骤：

获取待识别人物图像；

对所述待识别人物图像进行特征提取，获得人物特征图层；

将所述人物特征图层输入至预设超列特征识别模型中，获得对应的图像识别结果；

根据所述图像识别结果获取图像识别准确率；

在所述图像识别准确率大于或等于预设标准阈值时，将所述图像识别结果作为基于人物细粒度特征的图像识别结果。

优选地，所述获取人物的待识别图像的步骤之前，还包括：

获取不同人物对应的图像训练集，对所述图像训练集进行遍历，获得遍历到的当前训练图像；

根据所述当前训练图像获取对应的样本卷积图层；

从所述样本卷积图层中提取样本特征图层；

获取所述样本特征图层对应的图层像素点集；

通过预设上采样法对所述图层像素点集进行叠加处理，获得样本超列集；

在遍历结束时，根据获得的所有样本超列集构建样本超列集集合；

分别对所述样本超列集集合中的每个样本超列集进行预处理，获得样本目标图像集合；

获取所述样本目标图像集合包含的各样本目标图像对应的样本人物识别结果；

根据所述训练图像集和所述样本人物识别结果构建预设超列特征识别模型。

优选地，所述分别对所述样本超列集集合中的每个样本超列集进行预处理，获得样本目标图像集合的步骤，包括：

对所述样本超列集集合进行遍历，获得遍历到的当前样本超列集；

通过预设下采样法对所述当前样本超列集进行预处理，获得目标超列集；

对所述目标超列集进行扁平化处理，获得目标区域；

根据所述目标区域确定注意区域定位参数；

在遍历结束时，根据获得的所有注意区域定位参数构建注意区域定位参数集合；

根据所述注意区域定位参数集合中的每个注意区域定位参数，分别对所述样本目标图像集合包含的各样本目标图像进行处理获得样本目标图像集合。

优选地，所述根据所述注意区域定位参数集合中的每个注意区域定位参数，分别对所述样本目标图像集合包含的各样本目标图像进行处理获得样本目标图像集合的步骤，包括：

对所述注意区域定位参数集合进行遍历，获得遍历到的当前注意区域定位参数；

根据所述当前注意区域定位参数确定目标区域位置；

根据所述目标区域位置对所述当前训练图像进行区域裁剪，获得目标区域图像；

通过预设双线性插值法对所述目标区域图像进行放大处理，获得样本目标图像；

在遍历结束时，根据获得的所有样本目标图像构建样本目标图像集合。

优选地，所述获取所述样本目标图像集合包含的各样本目标图像对应的样本人物识别结果的步骤之后，还包括：

将所述样本特征图层输入至预设残差模型中获得样本高维特征图层；

根据所述样本高维特征图层确定样本类别概率损失值；

判断所述样本类别概率损失值是否大于预设概率阈值；

在所述样本类别概率损失值大于所述预设概率阈值时，执行所述根据所述训练图像集和所述样本人物识别结果构建预设超列特征识别模型的步骤。

优选地，所述判断所述样本类别概率损失值是否大于预设概率阈值的步骤之后，还包括：

在所述样本类别概率损失值小于或等于所述预设概率阈值时，返回所述从所述样本卷积图层中提取样本特征图层的步骤。

优选地，所述对所述待识别人物图像进行特征提取，获得人物特征图层的步骤，包括：

将所述待识别人物图像输入至预设卷积神经网络模型中获得初始特征图层；

对初始特征图层进行池化处理，获得注意力图像；

根据所述注意力图像和所述初始特征图层得到人物特征图层。

此外，为实现上述目的，本发明还提出一种基于人物细粒度特征的图像识别装置，所述基于人物细粒度特征的图像识别装置包括：

获取模块，用于获取待识别人物图像；

提取模块，用于对所述待识别人物图像进行特征提取，获得人物特征图层；

识别模块，用于将所述人物特征图层输入至预设超列特征识别模型中，获得对应的图像识别结果；

所述获取模块，还用于根据所述图像识别结果获取图像识别准确率；

判定模块，用于在所述图像识别准确率大于或等于预设标准阈值时，将所述图像识别结果作为基于人物细粒度特征的图像识别结果。

此外，为实现上述目的，本发明还提出一种基于人物细粒度特征的图像识别设备，所述基于人物细粒度特征的图像识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于人物细粒度特征的图像识别程序，所述基于人物细粒度特征的图像识别程序被所述处理器执行时实现如上文所述的基于人物细粒度特征的图像识别方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于人物细粒度特征的图像识别程序，所述基于人物细粒度特征的图像识别程序被处理器执行时实现如上文所述的基于人物细粒度特征的图像识别方法的步骤。

本发明中，首先获取待识别人物图像，并对所述待识别人物图像进行特征提取，以获得人物特征图层，然后将所述人物特征图层输入至预设超列特征识别模型中，可以精准定位图像的关键区域，以实现快速、准确地获取人物图像对应的图像识别结果，最后根据所述图像识别结果获取图像识别准确率，在所述图像识别准确率大于或等于预设标准阈值时，将所述图像识别结果作为基于人物细粒度特征的图像识别结果，使得在保证人物识别结果精准的同时，提高人物图像识别效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的基于人物细粒度特征的图像识别设备的结构示意图；

图2为本发明基于人物细粒度特征的图像识别方法第一实施例的流程示意图；

图3为本发明基于人物细粒度特征的图像识别方法第二实施例的流程示意图；

图4为本发明基于人物细粒度特征的图像识别装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于人物细粒度特征的图像识别设备结构示意图。

如图1所示，该基于人物细粒度特征的图像识别设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的存储器(Non-volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于人物细粒度特征的图像识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，认定为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及基于人物细粒度特征的图像识别程序。

在图1所示的基于人物细粒度特征的图像识别设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接用户设备；所述基于人物细粒度特征的图像识别设备通过处理器1001调用存储器1005中存储的基于人物细粒度特征的图像识别程序，并执行本发明实施例提供的基于人物细粒度特征的图像识别方法。

基于上述硬件结构，提出本发明基于人物细粒度特征的图像识别方法的实施例。

参照图2，图2为本发明基于人物细粒度特征的图像识别方法第一实施例的流程示意图，提出本发明基于人物细粒度特征的图像识别方法第一实施例。

在第一实施例中，所述基于人物细粒度特征的图像识别方法包括以下步骤：

步骤S10：获取待识别人物图像。

需要说明的是，本实施例的执行主体是基于人物细粒度特征的图像识别设备，其中，该设备是具有图像处理，数据通信及程序运行等功能的基于人物细粒度特征的图像识别设备，也可为其他设备，本实施例对此不做限制。

在所述获取待识别人物图像的步骤之前，还需要建立预设超列特征识别模型，所述预设超列特征识别模型(HyperColumn Attention Convolutional Neural Network，HCA-CNN)是基于图像分割和细粒度定位的超列特征思想建立的卷积神经网络模型。

获取不同人物对应的图像训练集，对所述图像训练集进行遍历，获得遍历到的当前训练图像，根据所述当前训练图像获取对应的样本卷积图层，从所述样本卷积图层中提取样本特征图层，获取所述样本特征图层对应的图层像素点集，通过预设上采样法对所述图层像素点集进行叠加处理，获得样本超列集，在遍历结束时，根据获得的所有样本超列集构建样本超列集集合，分别对所述样本超列集集合中的每个样本超列集进行预处理，获得样本目标图像集合，获取所述样本目标图像集合包含的各样本目标图像对应的样本人物识别结果，根据所述训练图像集和所述样本人物识别结果构建预设超列特征识别模型。

其中，上述所提到的，从所述样本卷积图层中提取样本特征图层可以是将当前训练图像输入至卷积神经网络中以获取对应的样本卷积图层，还可以是将所述样本特征图层输入至预设残差模型即深度残差网络模型中获得样本高维特征图层，特征提取阶段可以是通过不断地模拟特征区分、卷积的权值共享及池化操作，来降低网络参数的数量级，最后将特征输入至传统神经网络结构中，以完成分类任务。

分别对所述样本超列集集合中的每个样本超列集进行预处理，获得样本目标图像集合的步骤，可以理解为对所述样本超列集集合进行遍历，获得遍历到的当前样本超列集，通过预设下采样法对所述当前样本超列集进行预处理，获得目标超列集，对所述目标超列集进行扁平化处理，获得目标区域，根据所述目标区域确定注意区域定位参数，在遍历结束时，根据获得的所有注意区域定位参数构建注意区域定位参数集合，根据所述注意区域定位参数集合中的每个注意区域定位参数，分别对所述样本目标图像集合包含的各样本目标图像进行处理获得样本目标图像集合。

所述根据所述注意区域定位参数集合中的每个注意区域定位参数，分别对所述样本目标图像集合包含的各样本目标图像进行处理获得样本目标图像集合的步骤，可以理解为对所述注意区域定位参数集合进行遍历，获得遍历到的当前注意区域定位参数，根据所述当前注意区域定位参数确定目标区域位置，根据所述目标区域位置对所述当前训练图像进行区域裁剪，获得目标区域图像，通过预设双线性插值法对所述目标区域图像进行放大处理，获得样本目标图像，在遍历结束时，根据获得的所有样本目标图像构建样本目标图像集合。

为了便于理解，以下为构建HCA-CNN网络模型的具体步骤可以为：

人物特征数据集可以为影视人物图像集，也可以为日常生活中人物图像集等，本实施例并不加以限制。

以下由京剧人物特征数据集进行举例说明：

根据京剧人物视觉特征的不同，制作了面向京剧人物识别任务的京剧角色(Beijing Opera Role，BJOR)数据集，通过对300多部经典剧目的京剧录像进行整理分类，通过控制变量法设定不同视频帧进行图像截取，共获得273100张图片；经过筛选得到用于图像分类任务的单目标图片40000张；分成8类，各类别5000张。

进一步地，将所述数据集输入至HCA-CNN进行图像识别。

HCA-CNN网络由三层无尺度scale网络迭代而成，各层scale网络结构相同。输入图片到HCA-CNN网络中首先会经过轻量化网络(MobileNetV2分类网络)，在经过一系列的特征提取操作后得到各个特征层的feature map。一方面将最后一层feature map输入到分类器中用做当前scale的分类任务；另一方面将部分选定阶段feature map进行叠加形成超列集HyperColumn Set输入至基于超列的注意力机制网络(HyperColumn Attention ProposalSub-Network，HC-APN)中，HC-APN网络会对得到的HyperColumn Set特征进行下采样、全连接操作，然后通过提取到的关键区域参数进行关键区域图像放大。放大得到的图像将作为下一层scale的输入值，如此反复迭代，提升关键区域的比重，最终实现对细粒度图像的精细分类。

在循环注意力卷积神经网络(Recurrent Attention Convolutional NeuralNetwork，RA-CNN)中提到，空间特征有助于细粒度图像的识别，因此京剧图像特征提取阶段存在的大量空间特征值得本文深入研究。特征提取阶段通过不断地模拟特征区分以及卷积的权值共享及池化，来降低网络参数的数量级，最终将特征输入至传统神经网络结构中，以完成分类任务。之后通过可视化特征提取的中间层feature map信息来展示京剧人物图像特征。以MobileNetV2网络为例，通过红蓝色图可以展示不同特征提取阶段的feature map强弱信息，红色代表特征越强，蓝色代表特征越弱。可以观察到越接近输入层(ImageInput)的底层类别信息(Category characteristics)越弱，空间特征(Spatialcharacteristics)越强；越接近输出层(classifier)的高层类别信息越强，空间特征越弱。

由于RA-CNN的子网络APN只采用主网络深度模型(Visual Geometry Group，VGG)的最后一层feature map作输入特征，不需要对空间特征做过多处理。本文根据输入特征变化情况，在子网络APN基础上进行了相应改进，提出了新的注意力机制子网络HC-APN。

HC-APN子网络首先将大小为224*224*2024的输入特征通过下采样为7*7*2024大小，接着执行两次全连接操作，第一次将特征扁平化为1*1*16192大小，第二次变为1*1*3大小(通道数3代表了用于注意区域定位的三个参数tx,ty,tl)。

进一步地，通过注意力网络用于确定目标区域位置，定义好坐标关系后，通过Maskm函数和输入图像X做元素相乘的方法得到裁剪后的注意力区域。接着我们采用双线性插值的方法通过以下公式对确定的目标区域进行区域放大，通过上述步骤，根据区域放大后的图像获取对应的图像识别结果，之后根据所述训练图像集和所述样本人物识别结果构建预设超列特征识别模型。

对构建成功的预设超列特征识别模型进行联合损失函数公式计算，以验证预设超列特征识别模型是否符合要求，在所述预设超列特征识别模型不符合要求时，需要调整预设超列特征识别模型中的参数进行调整，以得到准确率较高的预设超列特征识别模型。

步骤S20：对所述待识别人物图像进行特征提取，获得人物特征图层。

从所述待识别人物图像中提取特征图层可以是将所述待识别人物图像输入至预设卷积神经网络模型中获得初始特征图层，对初始特征图层进行池化处理，获得注意力图像，根据所述注意力图像和所述初始特征图层得到人物特征图层，还可以是将所述特征图层输入至预设残差模型即深度残差网络模型中获得样本高维特征图层等，本实施例并不加以限制。

步骤S30：将所述人物特征图层输入至预设超列特征识别模型中，获得对应的图像识别结果。

在轻量化分类模型的结构示意图中将对提取的feature map(即人物特征图层)进行多任务学习，Task1表示学习用于HC-APN的超列集(HyperColumn Set)，Task2表示学习用于分类任务的特征图。

在Task1中，各feature map大小与原始图像大小不同，将各层feature map与原始图像进行基于像素单位的叠加，需要先通过上采样(upsampling)。

对各层feature map进行上采样后，展示了不同位置像素点的不同层特征图的特征，并对k个feature map进行了累加运算，表示将不同feature map的通道叠加在一起，而非数值上的相加。f值并非整个特征图，而是仅针对于某一像素位置i，输入图像尺寸取224x224，所以hyperColumn Set由224x224个fi组成，也就是说，对各层feature map进行上采样后，即可进行叠加。由于输入图像尺寸固定设置为224*224大小，所以超列集是由224*224个像素点i的超列组成。

由于RA-CNN的子网络APN只采用主网络VGG的最后一层feature map作输入特征，不需要对空间特征做过多处理。本文根据输入特征变化情况，在子网络APN基础上进行了相应改进，提出了新的注意力机制子网络HC-APN。

进一步地，通过注意力网络用于确定目标区域位置，并定义好坐标关系后，通过Mask m函数和输入图像X做元素相乘的方法得到裁剪后的注意力区域。

Mask m函数可以挑选出正向传播中最重要的区域，接着采用双线性插值的方法对确定的目标区域进行区域放大，最后根据放大后的图片进行图像识别，以获取对应的图像识别结果。

步骤S40：根据所述图像识别结果获取图像识别准确率。

步骤S50：在所述图像识别准确率大于或等于预设标准阈值时，将所述图像识别结果作为基于人物细粒度特征的图像识别结果。

可以理解的是，在预设超列特征识别模型中还可以输出图像识别结果对应的图像识别准确率，所述图像识别准确率可以为50％，也可以为60％，或90％等。

假设当前图像识别结果对应的图像识别准确率为80％，预设标准阈值为70％，其中，所述预设标准阈值为用户自定义设置，并实施例并不加以限制，可知80％大于70％，则将所述图像识别结果作为基于人物细粒度特征的图像识别结果。

在本实施例中，首先获取待识别人物图像，并对所述待识别人物图像进行特征提取，以获得人物特征图层，然后将所述人物特征图层输入至预设超列特征识别模型中，可以精准定位图像的关键区域，以实现快速、准确地获取人物图像对应的图像识别结果，最后根据所述图像识别结果获取图像识别准确率，在所述图像识别准确率大于或等于预设标准阈值时，将所述图像识别结果作为基于人物细粒度特征的图像识别结果，使得在保证人物识别结果精准的同时，提高了人物图像识别效率。

此外，参照图3，图3为基于上述基于人物细粒度特征的图像识别方法第一实施例，提出本发明基于人物细粒度特征的图像识别方法第二实施例。

在第二实施例中，基于人物细粒度特征的图像识别方法中所述步骤S10之前，还包括：

步骤S001：获取不同人物对应的图像训练集，对所述图像训练集进行遍历，获得遍历到的当前训练图像。

以下由日常生活中的人物特征数据集和京剧人物特征数据集进行举例说明：

1.数据集分类

日常生活中的人物特征集的分类，可以根据人物的年龄、性别、职业等特征进行的划分。其中，可设定8种类别标签，包括：“Zhongnian_Nanxing_Bailing”、“Qingnian_Nanxing_Junren”、“Qingnian_Nanxing_Xuesheng”、“Zhongnian_Nvxing_Getihu”、“Qingnian_Nvxing_Xuesheng”、“Laonian_Nvxing_Zhufu”。

采用头部(Headwear)、脸部(Face)、胡子(Beard)、服饰(Clothes)等部位对行当(Type)进行特征区分。

以下选取其中部分特征进行介绍：

(1)中年男性白领(Zhongnian_Nanxing_Bailing)：头部特征为无帽子、发型整齐；服饰特征多为黑色西装、白色衬衫、负有领带；

(2)青年男性军人(Qingnian_Nanxing_Junren)：头部特征为服饰特征多为佩戴军帽、平头发型；服饰的颜色特征为军绿色；

(3)青年男性学生(Qingnian_Nanxing_Xuesheng)：头部特征多为平头；服饰多为深蓝色、白色校服；

(4)中年女性教师(Zhongnian_Nvxing_Getihu)：脸部特征多为佩戴眼镜；服饰特征多为携带课本；

(5)青年女性学生(Qingnian_Nvxing_Xuesheng)：头部特征多为长发或学生发型；服饰多为深蓝色、白色校服；

(6)老年女性家庭主妇(Laonian_Nvxing_Zhufu)：头部特征多为灰白发色；服饰特征多为穿戴围裙。

根据日常生活中的人物视觉特征的不同，制作了面向人物识别任务的日常人物角色(Beijing Opera Role，BJOR)数据集，通过获取1200张的摄影图像进行整理分类，并分成6类，各类别200张。其中将获取的图像进行整理以获取对应的图像训练集。

根据京剧人物视觉特征的不同，制作了面向京剧人物识别任务的京剧角色(Beijing Opera Role，BJOR)数据集，通过对300多部经典剧目的京剧录像进行整理分类，通过控制变量法设定不同视频帧进行图像截取，共获得273100张图片，经过筛选得到用于图像分类任务的单目标图片40000张，分成8类，各类别5000张。其中将获取的图像进行整理以获取对应的图像训练集。

另外，还可以根据京剧人物视觉特征的不同，制作了面向京剧人物识别任务的京剧角色(Beijing Opera Role，BJOR)数据集，通过对300多部经典剧目的京剧录像进行整理分类，通过控制变量法设定不同视频帧进行图像截取，共获得273100张图片，经过筛选得到用于图像分类任务的单目标图片40000张，分成8类，各类别5000张。其中将获取的图像进行整理以获取对应的图像训练集。

京剧人物的分类根据人物的年龄、性别、性格等特征进行的划分。我们选取其中具有代表性的8种行当作为类别标签，设定基本类别标签包括：“LaoSheng”、“WuSheng”、“XiaoSheng”、“ZhengDan”、“HuaDan”、“LaoDan”、“JingJue”、“ChouJue”。

通过参考京剧服装图谱等相关资料，采用头饰(Headwear)、脸谱(Face)、髯口(Beard)、服饰(Clothes)、袖子(Sleeve)、腰带(Belt)等部位对行当(Type)进行特征区分。

选取其中一部分特征进行举例介绍：中年男子、青年男子、青年女子

老生(LaoSheng)：髯口特征呈多样化，颜色黑、苍、白色，形状三髯、满髯；脸谱特征表现整体妆容浅淡；

小生(XiaoSheng)：髯口特征为无髯口，可观察到嘴形；脸谱特征表现为妆容浓厚、唇部呈深红色；

武生(WuSheng)：髯口特征表现为无髯口，可观察到嘴形；脸谱特征表现为唇部红色较深；服饰特征多表现为白色长靠；

正旦(ZhengDan)：脸谱特征表现为妆容浓厚；头饰特征多表现为穿戴银泡；袖子特征表现为有水袖；

花旦(HuaDan)：服饰特征多表现为着饭单和袄裙；头饰特征多表现为穿戴亮头面、水钻；袖子特征表现为无水袖；除此之外“手绢”也是其特别标识特征；

老旦(LaoDan)：脸谱特征表现为妆容较浅；服饰特征多表现为着黄色、灰白色、深绿色褶子(一种便服)；除此之外“拐杖”也是其特别标识特征；

净角(JingJue)：髯口特征常表现为满髯；脸谱特征表现为浓厚的脸谱妆，包括了特有的“整脸”、“三块瓦脸”、“花三块瓦脸”和“碎脸”等多种类别；

丑角(ChouJue)：脸谱特征表现为鼻梁处抹有一块白粉；文丑髯口特征表现为“丑三髯”、袖子特征为有水袖，武丑髯口特征表现为无髯口、袖子特征为无水袖。

步骤S002：根据所述当前训练图像获取对应的样本卷积图层。

从所述当前训练集中选取当前训练图像提取样本卷积图层，可以是将所述当前训练图像输入至预设卷积神经网络模型中获得初始特征图层，对初始特征图层进行池化处理，获得注意力图像，根据所述注意力图像和所述初始特征图层得到样本卷积图层等，本实施例并不加以限制。

步骤S003：从所述样本卷积图层中提取样本特征图层。

从所述样本卷积图层中选取图像轮廓较为清晰的部分样本特征图层，所述样本卷积图层存在多张，其中会根据图像的清晰程度进行排列，假设一张图片有三张图层，上层到中层到下层的图像轮廓清晰程度逐渐下降，故根据用户需求，可选下层对应的图层作为样本特征图层。

步骤S004：获取所述样本特征图层对应的图层像素点集。

步骤S005：通过预设上采样法对所述图层像素点集进行叠加处理，获得样本超列集。

本发明中对MobileNetV2分类网络的中间层feature map进行了展示，其中，(a)代表最底层的feature map，可以看出有明显的轮廓特征；(b)、(c)代表了中间阶段的featuremap，轮廓特征效果减弱；(d)代表了较高层的feature map，轮廓等特征已消失。

在特征提取的过程中，为了满足分类任务，京剧行当类别的语义信息会不断增强，而空间特征会被减弱(包括人物姿态、肢体的关节，舞台灯光强弱和所在舞台位置等)。

在卷积神经网络特征提取过程中，由于空间特征的逐渐弱化、类别语义特征的不断增强，不同阶段的feature map呈现出较大的特征差异。通过借鉴用于特征融合的门控网络结构以及尺度依赖池化SDP算法的思路，通过以下公式将用于图像分割的超列特征运用在了融合不同阶段feature map京剧人物空间特征和类别特征的任务中，其中，该公式为：

f_i＝∑_ka_ikF_k (1)

式中i为输入京剧图像的某一像素点，fi为各层feature map中对应的位置串联起来的一个特征向量即超列，∑_k为k个feature map进行累加运算(非数值上的相加)，aik为像素点和feature map的位置。

进一步地，针对京剧人物图像研究提出的HCA-CNN网络，由三层层级结构迭代而成，各层网络结构相同，每一层的部分特征会作为下一层的输入信息。图像输入至HCA-CNN网络中首先将经过MobileNetV2分类网络，进行一系列的特征提取操作后得到各个中间层的feature map。一方面将最后一层feature map输入至分类器中用于当前scale的分类任务；另一方面将部分中间层的feature map进行基于像素点的叠加形成超列集并输入至HC-APN子网络中，HC-APN网络会对得到的HyperColumn Set特征进行下采样、全连接操作，然后通过提取到的关键区域参数进行关键区域图像放大，放大后得到的图像作为下一层的输入。

考虑到京剧人物识别任务的端到端应用场景及实时识别的需求，本专利提出了将拥有较少参数量和较高运算效率的MobileNetV2网络作为主干网络，MobileNetV2有利于端对端的实时场景。它的组成类似于VGG的结构，由不同的conv2d、bottleneck结构堆叠而成。

在轻量化分类模型的结构示意图中将对提取的feature map进行多任务学习，Task1表示学习用于HC-APN的超列集(hyperColumn Set)，Task2表示学习用于分类任务的特征图。

在Task1中，各feature map大小与原始图像大小不同，将各层feature map与原始图像进行基于像素单位的叠加，需要先通过上采样(upsampling)。想要得到P点的函数f值，需要在x方向先进行线性插值，所述上采样公式为：

接着在y方向进行线性插值，得到：

式中，P＝(x,y)为代表上采样***的点，Q₁₁＝(x₁,y₁)、Q₁₂＝(x₁,y₂)、Q₂₁＝(x₂,y₁)、Q₁₂＝(x₂,y₂)为原图像中存在的四个像素点的值，其中R₁＝(x,y₁)、R₂＝(x,y₂)为像素点值。

步骤S006：在遍历结束时，根据获得的所有样本超列集构建样本超列集集合。

步骤S007：分别对所述样本超列集集合中的每个样本超列集进行预处理，获得样本目标图像集合。

HC-APN子网络首先将大小为224*224*2024的输入特征通过下采样为7*7*2024大小，接着执行两次全连接操作，第一次将特征扁平化为1*1*16192大小，第二次变为1*1*3大小(通道数3代表了用于注意区域定位的三个参数tx,ty,tl)，之后通过以下公式注意力网络用于确定目标区域位置，可得目标区域的左上角及右下角坐标，所述公式为：

式中，(tx，ty)为区域的中心坐标点，tl为正方形区域边长的一半，(tx(tl)，ty(tl))为目标区域左上角坐标，(tx(br)，ty(br))为目标区域的右下角坐标。

进一步地，定义好坐标关系后，通过Mask m函数和输入图像X做元素相乘的方法得到裁剪后的注意力区域：

X^att＝X·M(t_x,t_y,t_l) (5)

式中X为输入图像，X^att为通过Mask m函数和输入图像X做元素相乘的方法得到裁剪后的区域。

Mask m函数可以挑选出正向传播中最重要的区域，由于连续函数的特性，易于在反向传播中进行优化：

M(.)＝[h(x-t_x(tl)-h(x-t_x(br))]·[h(y-t_y(tl)-h(y-t_y(br)] (6)

Mask m函数中的h(x)为阶跃函数：

式中，k为设定的正整数，h(x)为阶跃函数，exp是以自然常数e为底的指数函数。

当-kx趋于正无穷时，分母同样趋于正无穷，此时h(x)趋于0；当-kx趋于负无穷，分母的后一半趋于0，这样整个分母趋于1，h(x)趋于1。t_x(tl)≤x≤t_x(br)，h(x-t_x(tl))-h(x-t_x(br))趋于1，y轴同理。所以只有当x介于tx(tl)和tx(br)之间，y介于ty(tl)和ty(br)之间时，M(.)趋于1，其他情况均趋于0。

进一步地，接着我们采用双线性插值的方法通过以下公式对确定的目标区域进行区域放大，其中，所述公式为：

性插值因子，(i，j)为图像放大后加入点的坐标。

步骤S008：获取所述样本目标图像集合包含的各样本目标图像对应的样本人物识别结果。

步骤S009：根据所述训练图像集和所述样本人物识别结果构建预设超列特征识别模型。

通过上述步骤，对构建成功的预设超列特征识别模型进行联合损失函数公式计算，以验证预设超列特征识别模型是否符合要求，在所述预设超列特征识别模型不符合要求时，需要调整预设超列特征识别模型中的参数进行调整，所述联合损失函数公式为：

式中，Lclx为类别损失，包括三层分类网络的预测京剧人物类别相比于真实行当标签产生的损失，Lrank为前后两层中高层识别率低于低层情况时产生的损失，X为输入的图像，Y(s)为预测的类别概率，Y*为真实类别，P_t ^(s)为s层真实标签类别的概率，P_t ^(s)-P_t ^(s+1)为s层网络类别概率高于s+1层产生的损失，margin为填充值，可以为0.05，Max{}为产生的损失，可以理解为在小于0，则取0，大于0，取差值所得的损失。

最后，根据Top1、Top5指标即模型准确率，通过检测公式检测模型识别效果，取概率向量里面最大作为预测结果，若预测结果中概率最大的分类正确，则预测正确。否则预测错误。所述检测公式为：

式中，Topl_accuracy为预测概率向量里面最大的预测结果，TP为负类预测的负类的数量，FP为负类预测的正类的数量，可为误报率，FN为正类预测的负类的数量，可为漏报率，TN为正类预测的正类的数量

也可以理解为，概率向量最大的前五名中，若出现正确概率即为预测正确，否则预测错误。

此外，本专利还采用一系列指标来评估网络的复杂度，其中时间复杂度评估指标包括：FLOPs，空间复杂度评估指标包括：Memory Usage、Million Params、Million Muti-Adds。

时间复杂度决定了模型的训练和预测时间，空间复杂度决定了模型的参数量以及访存量，其中参数量表示模型所有带参数的权重参数总量。因此卷积神经网络的复杂度与卷积核输出的feature map大小M息息相关。整体时间复杂度计算公式为：

整体空间复杂度计算公式为：

其中，feature map大小M为(X-K+2*Padding)/Stride+1，X为输入矩阵尺寸，K为卷积核大小，Padding为填充值，Stride为步长。

针对自制的BJOR数据集，通过不同弱监督网络、递归网络的不同层(scale)之间进行组合，进行对比消融实验，选定组合如下所示：

(1)VGG16

(2)RA-CNN(VGG16+APN)

(3)MobileNetV2

(4)MobileNetV2+APN

(5)MobileNetV2+HCAPN+HC(scale 2)

(6)MobileNetV2+HCAPN+HC(scale 3)

(7)MobileNetV2+HCAPN+HC(scale 1+2)

(8)MobileNetV2+HCAPN+HC(scale 1+2+3)

本文选定BJOR数据集(80％)作为网络训练集，数据集(20％)作为网络验证集，由模型训练结果可以得到模型准确率，其中，参考表1可知，表1为消融实验准确率对比表。

表1

由表1可知，MobileNetV2网络相较于VGG16而言，小幅降低了接近1.8％，同样，用于组合APN注意力网络三层递归网络中，MobileNetV2稍逊1.7％。接着本文加入HC(HyperColumn)特征，对递归网络的不同层级(scale)进行了消融实验，可以观察到层级结合相较于单层有一定的提升。本次研究融合三层scale的(MobileNetV2+HCAPN+HC)网络即预设超列特征识别模型，准确率达到91.58％，在准确率方面相较于基于循环软性注意力机制的RA-CNN模型的VGG16+APN网络组合提高了0.63％，有效解决了注意力机制的定位不够高效和准确问题。

在本实施例中，首先获取不同人物对应的图像训练集，对所述图像训练集进行遍历，获得遍历到的当前训练图像，并根据所述当前训练图像获取对应的样本卷积图层，然后从所述样本卷积图层中提取样本特征图层，之后获取所述样本特征图层对应的图层像素点集，通过预设上采样法对所述图层像素点集进行叠加处理，获得样本超列集，在遍历结束时，根据获得的所有样本超列集构建样本超列集集合，分别对所述样本超列集集合中的每个样本超列集进行预处理，获得样本目标图像集合，获取所述样本目标图像集合包含的各样本目标图像对应的样本人物识别结果，根据所述训练图像集和所述样本人物识别结果构建预设超列特征识别模型，相较于现有技术，利用特征提取大量的类别语义特征，使得图像处理过程复杂繁琐，还无法精准定位图像的关键区域，而本发明通过人物特征图层获取对应的样本超列集，之后对样本超列集进行预处理，以获取精准的关键区域信息，并根据关键区域信息得到对应的样本人物识别结果，最后根据所述训练图像集和所述样本人物识别结果构建预设超列特征识别模型，从而有效解决了注意力机制的定位不够高效和准确率较低的技术问题。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于人物细粒度特征的图像识别程序，所述基于人物细粒度特征的图像识别程序被处理器执行时实现如上文所述的基于人物细粒度特征的图像识别方法的步骤。

此外，参照图4，本发明实施例还提出一种基于人物细粒度特征的图像识别装置，所述基于人物细粒度特征的图像识别装置包括：

获取模块4001，用于获取待识别人物图像；

提取模块4002，用于对所述待识别人物图像进行特征提取，获得人物特征图层；

识别模块4003，用于将所述人物特征图层输入至预设超列特征识别模型中，获得对应的图像识别结果；

所述获取模块4001，还用于根据所述图像识别结果获取图像识别准确率；

判定模块4004，用于在所述图像识别准确率大于或等于预设标准阈值时，将所述图像识别结果作为基于人物细粒度特征的图像识别结果。

本发明基于人物细粒度特征的图像识别装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为名称。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image，ROM)/随机存取存储器(Random AccessMemory，RAM)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于人物细粒度特征的图像识别方法，其特征在于，所述方法包括以下步骤：

获取待识别人物图像；

对所述待识别人物图像进行特征提取，获得人物特征图层；

根据所述图像识别结果获取图像识别准确率；

在所述图像识别准确率大于或等于预设标准阈值时，将所述图像识别结果作为基于人物细粒度特征的图像识别结果；

所述获取待识别人物图像的步骤之前，还包括：

根据所述当前训练图像获取对应的样本卷积图层；

从所述样本卷积图层中提取样本特征图层；

获取所述样本特征图层对应的图层像素点集；

根据所述图像训练集和所述样本人物识别结果构建预设超列特征识别模型；

所述分别对所述样本超列集集合中的每个样本超列集进行预处理，获得样本目标图像集合的步骤，包括：

对所述目标超列集进行扁平化处理，获得目标区域；

根据所述目标区域确定注意区域定位参数；

2.如权利要求1所述的方法，其特征在于，所述根据所述注意区域定位参数集合中的每个注意区域定位参数，分别对所述样本目标图像集合包含的各样本目标图像进行处理获得样本目标图像集合的步骤，包括：

根据所述当前注意区域定位参数确定目标区域位置；

3.如权利要求1所述的方法，其特征在于，所述获取所述样本目标图像集合包含的各样本目标图像对应的样本人物识别结果的步骤之后，还包括：

根据所述样本高维特征图层确定样本类别概率损失值；

判断所述样本类别概率损失值是否大于预设概率阈值；

在所述样本类别概率损失值大于所述预设概率阈值时，执行所述根据所述图像训练集和所述样本人物识别结果构建预设超列特征识别模型的步骤。

4.如权利要求3所述的方法，其特征在于，所述判断所述样本类别概率损失值是否大于预设概率阈值的步骤之后，还包括：

5.如权利要求1所述的方法，其特征在于，所述对所述待识别人物图像进行特征提取，获得人物特征图层的步骤，包括：

对初始特征图层进行池化处理，获得注意力图像；

6.一种基于人物细粒度特征的图像识别装置，其特征在于，所述基于人物细粒度特征的图像识别装置包括：

获取模块，用于获取待识别人物图像；

判定模块，用于在所述图像识别准确率大于或等于预设标准阈值时，将所述图像识别结果作为基于人物细粒度特征的图像识别结果；

所述获取模块，还用于获取不同人物对应的图像训练集，对所述图像训练集进行遍历，获得遍历到的当前训练图像；根据所述当前训练图像获取对应的样本卷积图层；从所述样本卷积图层中提取样本特征图层；获取所述样本特征图层对应的图层像素点集；通过预设上采样法对所述图层像素点集进行叠加处理，获得样本超列集；

所述获取模块，还用于在遍历结束时，根据获得的所有样本超列集构建样本超列集集合；分别对所述样本超列集集合中的每个样本超列集进行预处理，获得样本目标图像集合；获取所述样本目标图像集合包含的各样本目标图像对应的样本人物识别结果；根据所述图像训练集和所述样本人物识别结果构建预设超列特征识别模型；

所述获取模块，还用于对所述样本超列集集合进行遍历，获得遍历到的当前样本超列集；通过预设下采样法对所述当前样本超列集进行预处理，获得目标超列集；对所述目标超列集进行扁平化处理，获得目标区域；根据所述目标区域确定注意区域定位参数；

所述获取模块，还用于在遍历结束时，根据获得的所有注意区域定位参数构建注意区域定位参数集合；根据所述注意区域定位参数集合中的每个注意区域定位参数，分别对所述样本目标图像集合包含的各样本目标图像进行处理获得样本目标图像集合。

7.一种基于人物细粒度特征的图像识别设备，其特征在于，所述基于人物细粒度特征的图像识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于人物细粒度特征的图像识别程序，所述基于人物细粒度特征的图像识别程序被所述处理器执行时实现如权利要求1至5中任一项所述的基于人物细粒度特征的图像识别方法的步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有基于人物细粒度特征的图像识别程序，所述基于人物细粒度特征的图像识别程序被处理器执行时实现如权利要求1至5中任一项所述的基于人物细粒度特征的图像识别方法的步骤。