CN110414344A

CN110414344A - 一种基于视频的人物分类方法、智能终端及存储介质

Info

Publication number: CN110414344A
Application number: CN201910553048.8A
Authority: CN
Inventors: 张邦文; 姚荣国; 周飞; 刘博智; 邱国平
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-11-05
Anticipated expiration: 2039-06-25
Also published as: CN110414344B

Abstract

本发明提供了一种基于视频的人物分类方法、智能终端及存储介质，所述方法包括：获取待检测的视频帧图像，提取所述视频帧图像中包含目标人物的图像块；将所述图像块输入所述分类网络模型中，获得所述图像块中目标人物的初始分类结果和注意力权重；根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果，根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类。本发明所提供的方法通过区域提取模块和分类网络模型分别提取待检测目标人物的图像块和对目标人物进行分类，将网络学习得到注意力权重与初始预测结果相结合，提高了特征性部分对最终分类结果的贡献，使得视频人物分类结果更加准确。

Description

一种基于视频的人物分类方法、智能终端及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及的是一种基于视频的人物分类方法、智能终端及存储介质。

背景技术

近年来，随着互联网和娱乐产业的发展，视频数量急速增长。基于视频内容的视频理解和检索的需求也在不断提高。在视频理解领域，人物检测是其中一个重要研究课题。

由于摄影角度的不同，光照条件复杂，脸部表情的变化以及遮挡等，视频中的人物检测极具挑战性。目前相关的技术包括目标检测技术和行人重识别技术。目标检测的人物是给定一副图像，预测图像中属于待检测类别的物体或人的坐标以及类别信息。而行人重识别的目标是对图像中的人物进行分类和检索。虽然上述方法在各自的领域上都取得了不错的效果。但是在视频中的人物检测领域，由于人物之间的相识度高，目标检测经常会出现分类错误，导致人物分类准确率低。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于提供一种基于视频的人物检测方法、智能终端及存储介质，克服现有视频人物检测领域中由于人物之间的相识度高，人物分类准确率低的缺陷。

本发明所公开的第一实施例为一种基于视频的人物分类方法，其中，包括以下步骤：

获取待检测的视频帧图像，提取所述视频帧图像中包含目标人物的图像块；

将所述图像块输入所述分类网络模型中，获得所述图像块中目标人物的初始分类结果和注意力权重；所述分类网络模型是基于所述目标人物的图像块与所述图像块中目标人物的初始分类结果和注意力权重的对应关系训练而成的；

根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果，根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类。

所述基于视频的人物分类方法，其中，提取所述视频帧图像中包含目标人物的图像块的步骤，具体包括：

将所述视频帧图像输入区域提取网络模型中，提取所述视频帧图像中包含目标人物的图像块；所述区域提取网络模型是基于输入视频帧图像与所述输入视频帧图像中目标人物图像块的对应关系训练而成的。

所述基于视频的人物分类方法，其中，所述分类网络模型包括：第一卷积层、池化层和含有多个子卷积层的第二卷积层；

所述将所述图像块输入所述分类网络模型中，获得所述图像块中目标人物的初始分类结果和注意力权重的步骤，具体包括：

将所述图像块输入第一卷积层中，提取所述图像块的特征图；

将所述特征图输入池化层，获得所述特征图的多个特征向量；

将各个所述特征向量分别输入到各个子卷积层中，获得所述图像块中目标人物的初始分类结果和注意力权重。

所述基于视频的人物分类方法，其中，所述第二卷积层包括：第一子卷积层、第二卷积层、分类器和回归网络；

将各个所述特征向量分别输入到各个子卷积层中，得到各个所述特征向量所对应的初始分类结果和注意力权重的步骤，具体包括：

将各个所述特征向量依次输入第一子卷积层和第二子卷积层中，输出各个所述特征向量所对应的第一维度特征和第二维度特征；

将所述第一维度特征输入分类器，获得所述图像块中目标人物的初始分类结果；

将所述第二维度特征输入回归网络，获得所述图像块中目标人物的注意力权重。

所述基于视频的人物分类方法，其中，所述根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果，根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类的步骤，具体包括：

将所述图像块中目标人物的初始分类结果和注意力权重相乘获得所述目标人物的最终分类结果；

选取所述目标人物的最终分类结果值最大的一类作为所述视频帧图像中所包含的目标人物的分类标签。

所述基于视频的人物分类方法，其中，所述区域提取网络模型包括：第一提取层和第二提取层；

所述将所述视频帧图像输入区域提取网络模型中，提取所述视频帧图像中包含目标人物的图像块的步骤，具体包括：

将所述视频帧图像输入所述第一提取层中，获取包含目标人物检测框对应的特征图；

将所述包含目标人物检测框对应的特征图输入所述第二提取层中，提取所述视频帧图像中包含目标人物的图像块。

所述基于视频的人物分类方法，其中，所述将所述视频帧图像输入区域提取网络模型中，提取所述视频帧图像中包含目标人物的图像块的步骤之前，还包括：

获取包含目标人物的待训练图像集，对所述待训练图像集中目标人物的真实类别和真实坐标进行标注；

将所述待训练图像集输入区域提取网络模型中，通过前向传播算法获得网络预测的目标人物的类别和坐标；

通过损失函数对标注的目标人物的真实类别和真实坐标及网络预测的目标人物的类别和坐标进行比较，获得预测误差；

将所述预测误差通过反向传播算法对所述区域提取网络模型进行训练。

所述基于视频的人物分类方法，其中，所述损失函数为：

其中，i为训练过程中检测框的序号，为第i个检测框中目标人物的真实类别，为第i个检测框中目标人物的真实坐标，p_i为第i个检测框中目标人物的网络预测类别，x_i为第i个检测框中目标人物的网络预测坐标，N_arm和N_odm分别为区域提取网络模型中所检测到包含待检测人物的框的总数，L_b为一个交叉损失函数，L_r是一个回归损失函数。

一种智能终端，其中，包括：处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现上述任一项所述的基于视频的人物分类方法的步骤。

一种存储介质，其中，所述存储介质上存储有基于协同过滤的物品推荐方法的控制程序，所述基于协同过滤的物品推荐方法的控制程序被处理器执行时实现任一项所述的基于视频的人物分类方法的步骤。

有益效果，本发明提供了一种基于视频的人物分类方法、智能终端及存储介质，通过区域提取模块提取待检测目标人物的图像块，通过分类检测模块提取图像块的特征并对目标人物进行分类，目标人物的位置检测和分类过程分离，并且在分类过程中引入了注意力机制，通过网络学习得到注意力权重，将注意力权重与初始预测结果相结合，提高了特征性部分对最终分类结果的贡献，使得视频人物分类结果更加准确。

附图说明

图1是本发明所提供的基于视频的人物分类方法的较佳实施例的流程图；

图2是本发明的智能终端的功能原理图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的一种基于视频的人物分类方法，可以应用于终端中。其中，终端可以但不限于是各种个人计算机、笔记本电脑、手机、平板电脑、车载电脑和便携式可穿戴设备。本发明的终端采用多核处理器。其中，终端的处理器可以为中央处理器(CentralProcessing Unit，CPU)，图形处理器(Graphics Processing Unit，GPU)、视频处理单元(Video Processing Unit，VPU)等中的至少一种。

为了解决现有技术中对视频中目标人物进行分类时，由于人物之间的相识度高，目标人物检测经常会出现分类错误，导致目标人物分类准确率低的问题，本发明提供了一种基于视频的人物分类方法。

请参照图1，图1是本发明提供的一种基于视频的人物分类方法的较佳实施例的流程图。

在实施例一中，所述基于视频的人物检测方法有三个步骤：

S100、获取待检测的视频帧图像，提取所述视频帧图像中包含目标人物的图像块。

待检测视频是指需要基于视频的人物分类方法进行处理的视频。如待检测视频可以是某一监控器录制的视频，某一段电视视频等。待检测视频是由多帧图像连续放映而成，本实施例中在对人物进行分类时，需要预先从待检测视频中提取待检测视频的图像。本领域中从视频中提取图像的方法已经较为成熟，例如对待检测视频通过解码器或代码获得每帧图像，本发明申请在此不作赘述。

具体实施时，由于待检测视频是由多帧图像连续放映而成，部分图像包括有目标人物图像，部分图像不包括目标人物图像。为了对视频中的目标人物进行分类，本实施例中需要从获取的待检测视频图像中提取出包含目标人物的图像块。所述目标人物可以包括警方需要查找的犯罪嫌疑人，电视剧中某一角色人物等等。

具体实施时，需要预先建立一用于目标人物的图像块提取的区域提取网络模型。所述区域提取网络模型可以基于RefineDet、SSD或Faster RCNN等常用的目标检测网络框架进行构建。获取待检测的视频帧图像后，将所述视频帧图像输入区域提取网络模型中，提取所述视频帧图像中包含目标人物的图像块。

鉴于现有技术中，目标人物检测主要是基于深度学习来完成，而学习是一个渐进的过程，在目标人物检测的过程中，网络生成的背景框一般有成千上万个，而包含目标人物的检测框一般较少，在网络训练过程中，容易使得网络更加偏向输出背景框的判断。目前虽然有通过对背景框进行降采样，但由于网络无法同时专注于学习类别标签预测和坐标，现有方法还不能完美解决上述问题。因此，本实施例中的区域提取网络模型包含第一提取层和第二提取层，所述第一提取层用于对所述目标人物标签进行初步预测，所述第二提取层用于对所述目标人物坐标回归和对所述目标人物标签进行更精确的预测，所述区域提取网络模型对所述目标人物标签及所述目标人物坐标分步学习，提高检测的准确性。

具体实施时，所述将所述视频帧图像输入区域提取网络模型中，提取所述视频帧图像中包含人物的图像块的步骤之前，还包括：

S100a、获取包含目标人物的待训练图像集，对所述待训练图像集中目标人物的真实类别和真实坐标进行标注；

S100b、将所述待训练图像集输入区域提取网络模型中，通过前向传播算法获得网络预测的目标人物的类别和坐标；

S100c、通过损失函数对标注的目标人物的真实类别和真实坐标及网络预测的目标人物的类别和坐标进行比较，获得预测误差；

S100d、将所述预测误差通过反向传播算法对所述区域提取网络模型进行训练。

具体实施时，本实施例中需要预先准备用于训练所述区域提取网络模型的包含目标人物的待训练图像集，利用标注工具对所述待训练图像集中的目标人物的真实类别和真实坐标进行标注。标注完成后，将所述待训练图像集输入区域提取网络模型中，此时所述待训练图像集先经过所述第一提取层进行粗提取。具体地，通过所述第一提取层中的卷积层，在待训练图像集的每帧图像上标注包含目标人物位置的检测框，通过前向传播算法粗略地调整检测框的坐标、尺度和正负类别(正类表示包含目标人物，负类表示不包含目标人物)。然后将所有预测为正类别的检测框位置和类别信息传递给第二提取层，第二提取层在第一提取层的基础上做进一步地精确提取。具体地，将经过第一提取层粗略提取后得到的正类检测框和所述正类检测框对应的特征图输入第二提取层，所述第二提取层中的卷积层对输入的特征图进行特征转换，并对转换后的特征图添加正负类别和检测框类别的约束，最终输出网络预测的目标人物的类别和坐标。本实施例中区域提取网络模型包括第一提取层和第二提取层，第一提取层对目标人物标签进行初步预测，使得第二提取层能够更加专注于对目标人物坐标的回归，同时对目标人物标签进行更加准确的预测，两个提取层协同工作，共同提高提取目标人物图像块的准确性。

具体地，所述前向传播的过程为在所述第一提取层的所有卷积层中从前往后逐层进行，每一层的计算公式如下：

其中x_i-1表示当前层的输入，w_i-1表示当前层的网络参数，表示卷积运算,x_i表示当前层的输出，f表示ReLu函数，ReLu函数定义如下：

进一步地，前述步骤中提到获取待训练图像集后，会手动标注训练图像集中的目标人物的真实类别和真实坐标，获取网络预测的目标人物的类别和坐标后，将人为标注的目标人物的真实类别和真实坐标和网络预测的目标人物的类别和坐标通过损失函数进行比较。其中人为标注的目标人物的真实坐标是网络预测的目标人物的坐标的学习目标，随着训练的进行，网络预测的目标人物的坐标值会越来越接近人为标注的目标人物的真实坐标值。具体地，所述损失函数的公式具体为：

其中，i为训练过程中检测框的序号，为第i个检测框中目标人物的真实类别，为第i个检测框中目标人物的真实坐标，p_i为第i个检测框中目标人物的网络预测类别，x_i为第i个检测框中目标人物的网络预测坐标，N_arm和N_odm分别为区域提取网络模型中所检测到包含待检测人物的框的总数，L_b为一个交叉损失函数，L_r是一个回归损失函数。本实施例中的区域提取网络中的损失函数是一个前景与背景的二元分类损失函数，也可以用Softmax多分类损失函数训练网络的，本发明申请中对此不作限定。

具体实施时，L_b为一个交叉损失函数，函数具体定义为：

L_r是一个回归损失函数，此回归损失函数可以采用L1损失函数，也可以采用L2损失函数，优选地，本实施例中采用L1损失函数，函数定义如下：L1(x₁,x₂)＝|x₁-x₂|，当括号内条件成立时为1，否则为0。

进一步地，将人为标注的目标人物的真实类别和真实坐标和网络预测的目标人物的类别和坐标通过损失函数进行比较，获得网络预测误差，再将预测误差通过反向传播算法对所述区域提取网络模型进行训练，具体的反向传播的传播过程为由最后一层卷积层逐层向前传播，每一层的传播公式如下：

其中为损失函数对当前卷积层参数的偏导数，α是学习率，一般为0.0001，每训练50次，衰减为原来的0.1倍。

进一步地，所述区域提取网络模型包括：第一提取层和第二提取层。将所述视频帧图像输入区域提取网络模型中，提取所述视频帧图像中包含目标人物的图像块的步骤，具体包括：

S101、将所述视频帧图像输入所述第一提取层中，获取包含目标人物检测框对应的特征图；

S102、将所述包含目标人物检测框对应的特征图输入所述第二提取层中，提取所述视频帧图像中包含目标人物的图像块。

具体实施时，对所述区域提取网络模型训练完成后，就可以将待检测的视频帧图像输入已训练好的区域提取网络模型中。所述待检测的视频帧图像会经过第一提取层，将大部分的背景框滤除掉，得到包含目标人物检测框对应的特征图。然后将得到的包含目标人物检测框对应的特征图输入第二提取层中，进一步对所述包含目标人物检测框对应的特征图进行特征转换，获取所述视频帧图形中包含目标人物的图形块。通过上述的双提取层的处理，网络相较于目前的其他主流方法，可以更加准确得到包含目标人物的检测框。

继续回到图1，所述基于视频的人物分类方法还包括步骤：

S200、将所述图像块输入所述分类网络模型中，获得所述图像块中目标人物的初始分类结果和注意力权重。

步骤S100中只是提取出了待检测视频帧图像中可能包含目标人物的图像块，接下来需要对目标人物进行分类。本实施例中预先设置用于对所述目标人物的图像块进行分类的分类网络模型。所述分类网络模型采用ResNet50架构,并增加了三层卷积层，也可以用其他常规的分类网络代替，如VGG，ResNet，DenseNet等，本实施例中对此不作限定。

具体实施时，所述分类网络模型包括：第一卷积层、池化层和含有多个子卷积层的第二卷积层。所述将所述图像块输入所述分类网络模型中，获得所述图像块中目标人物的初始分类结果和注意力权重的步骤，具体步骤包括：

S201、将所述图像块输入第一卷积层中，提取所述图像块的特征图；

S202、将所述特征图输入池化层，获得所述特征图的多个特征向量；

S203、将各个所述特征向量分别输入到各个子卷积层中，获得所述图像块中目标人物的初始分类结果和注意力权重。

具体实施时，本实施例中将图像块输入分类网络模型中后，会先将所述图像块输入第一卷积层中，提取所述图像块的特征图。例如当所述分类网络模型采用ResNet50架构时，所述图像块输入第一卷积层中提取出图像的3维特征图。之后，经过池化层进行平均池化，所述3维特征图在水平方向被平均划分为6部分，每部分对应图片的一个特征向量。

鉴于实际应用中，用户在观察人物时，往往会关注某些特别的部分，例如脸部等。为了使最终的人物分类结果更加接近实际用户的分类结果，本实施例中所述分类网络模型中设置有含有多个子卷积层的第二卷积层，将经过池化层得到的各个所述特征向量分别输入到各个子卷积层中进行卷积后，获得所述图像块中目标人物的初始分类结果和注意力权重。

具体实施时，所述第二卷积层包括：第一子卷积层、第二卷积层、分类器和回归网络。所述将各个所述特征向量分别输入到各个子卷积层中，得到各个所述特征向量所对应的初始分类结果和注意力权重的步骤，具体包括：

S201、将各个所述特征向量依次输入第一子卷积层和第二子卷积层中，输出各个所述特征向量所对应的第一维度特征和第二维度特征；

S202、将所述第一维度特征输入分类器，获得所述图像块中目标人物的初始分类结果；

S203、将所述第二维度特征输入回归网络，获得所述图像块中目标人物的注意力权重。

具体实施时，本实施例中所述第二卷积层设置有两个不同的子卷积层，分别为第一子卷积层和第二子卷积层。首先将各个所述特征向量依次输入第一子卷积层中，输出各个所述特征向量所对应的第一维度特征的维度为：2048->256->6，将输出的第一维度特征的连接到分类器上，例如现有的支持向量机(SVM)，输出得到6x7的初始分类结果。将各个所述特征向量依次输入第二子卷积层中，输出各个所述特征向量所对应的第二维度特征的纬度为：2048->256->1，将输出的第二维度特征连接到回归网络，例如现有的logistics回归网络，输出得到一个6x1的注意力权重。

进一步地，在使用分类网络模型对得到的包含目标人物的图像块进行分类前，需要对所述分类网络模型进行训练。具体训练过程为，获取包含目标人物的待训练图片集，对所述待训练图片集中目标人物的真实类别进行标注。然后将所述待训练图片集输入第一卷积层中，提取所述待训练图片集中图像的特征图；然后将所述特征图输入池化层，获得每部分特征图对应的特征向量，将所述特征向量分别输入第一子卷积层和第二子卷积层中得到所述图像中目标人物对应的初始分类结果和注意力权重，根据所述初始分类结果和注意力权重输出分类网络模型预测的目标人物分类结果，将预测的目标人物分类结果与预先人为标注的目标人物真实类别做比较，将两者相减得到训练误差，再通过反向传播算法对所述分类网络模型进行训练。具体的反向传播算法与前述区域提取网络模型训练时使用的反向传播算法相同，在此不再赘述。

继续回到图1，所述基于视频的人物分类方法还包括步骤：

S300、根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果，根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类。

具体地，如前所述，第一子卷积层输出第一维度特征的维度为：2048->256->6，将所述第一维度特征输入现有的支持向量机上，输出得到6x7的初始分类结果，记初始分类结果为c_i，每个c_i代表一个分类结果，最终得到6种分类结果；第二子卷积层输出第二维度特征的维度为：2048->256->1，将所述第二维度特征输入现有的logistics回归网络，输出得到一个6x1的注意力权重，记注意力权重为w_i，根据公式：其中注意力权重值范围可以为[0,1]之间的任意值，也可以调节至[0,5]等更大范围。根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果。如6x7的初始分类结果，每个c_i代表一个分类结果，最终得到6种分类结果，将得到的6种分类结果通过注意力权重w_i加权得到最终分类结果，选取所述目标人物的最终分类结果值最大的一类作为所述视频帧图像中所含有的目标人物的分类标签，从而对目标人物进行分类。

实施例2

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图2所示。该智能终端包括通过***总线连接的处理器、存储器、网络接口、显示屏和温度传感器。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于视频的人物分类方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏，该智能终端的温度传感器是预先在智能终端内部设置，用于检测内部设备的当前运行温度。

本领域技术人员可以理解，图2中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所述***应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时至少可以实现以下步骤：

在其中的一个实施例中，该处理器执行计算机程序时还可以实现：将所述视频帧图像输入区域提取网络模型中，提取所述视频帧图像中包含目标人物的图像块；所述区域提取网络模型是基于输入视频帧图像与所述输入视频帧图像中目标人物图像块的对应关系训练而成的。

在其中的一个实施例中，该处理器执行计算机程序时还可以实现：所述将所述图像块输入所述分类网络模型中，获得所述图像块中目标人物的初始分类结果和注意力权重的步骤，具体包括：将所述图像块输入第一卷积层中，提取所述图像块的特征图；将所述特征图输入池化层，获得所述特征图的多个特征向量；将各个所述特征向量分别输入到各个子卷积层中，获得所述图像块中目标人物的初始分类结果和注意力权重。

在其中的一个实施例中，该处理器执行计算机程序时还可以实现：所述将各个所述特征向量分别输入到各个子卷积层中，得到各个所述特征向量所对应的初始分类结果和注意力权重的步骤，具体包括：将各个所述特征向量依次输入第一子卷积层和第二子卷积层中，输出各个所述特征向量所对应的第一维度特征和第二维度特征；将所述第一维度特征输入分类器，获得所述图像块中目标人物的初始分类结果；将所述第二维度特征输入回归网络，获得所述图像块中目标人物的注意力权重。

在其中的一个实施例中，该处理器执行计算机程序时还可以实现：将所述图像块中目标人物的初始分类结果和注意力权重相乘获得所述目标人物的最终分类结果；选取所述目标人物的最终分类结果值最大的一类作为所述视频帧图像中所包含的目标人物的分类标签。

在其中的一个实施例中，该处理器执行计算机程序时还可以实现：所述将所述视频帧图像输入区域提取网络模型中，提取所述视频帧图像中包含目标人物的图像块的步骤，具体包括：将所述视频帧图像输入所述第一提取层中，获取包含目标人物检测框对应的特征图；对所述包含目标人物检测框对应的特征图输入第二提取层中，获取所述视频帧图像中包含目标人物的图像块。

在其中的一个实施例中，该处理器执行计算机程序时还可以实现：获取包含目标人物的待训练图像集，对所述待训练图像集中目标人物的真实类别和真实坐标进行标注；将所述待训练图像集输入区域提取网络模型中，通过前向传播算法获得网络预测的目标人物的类别和坐标；通过损失函数对标注的目标人物的真实类别和真实坐标及网络预测的目标人物的类别和坐标进行比较，获得预测误差；将所述预测误差通过反向传播算法对所述区域提取网络模型进行训练。

在其中的一个实施例中，该处理器执行计算机程序时还可以实现：通过公式对标注的人物的真实类别和真实坐标及网络预测的人物类别标签和网络预测的人物坐标进行比较，获得预测误差，其中，i为训练过程中检测框的序号，为第i个检测框中目标人物的真实类别，为第i个检测框中目标人物的真实坐标，p_i为第i个检测框中目标人物的网络预测类别，x_i为第i个检测框中目标人物的网络预测坐标，N_arm和N_odm分别为区域提取网络模型中所检测到包含待检测人物的框的总数，L_b为一个交叉损失函数，L_r是一个回归损失函数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上所述，本发明提供了一种基于视频的人物分类方法、智能终端及存储介质，所述方法包括：获取待检测的视频帧图像，提取所述视频帧图像中包含目标人物的图像块；将所述图像块输入所述分类网络模型中提取特征向量，获得所述图像块中目标人物的初始分类结果和注意力权重；根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果，根据所述最终分类结果对所述视频帧图像中所含有的目标人物进行分类。本发明所提供的方法通过区域提取模块和分类网络模型分别提取待检测目标人物的图像块和对目标人物进行分类，将网络学习得到注意力权重与初始预测结果相结合，提高了特征性部分对最终分类结果的贡献，使得视频人物分类结果更加准确。

应当理解的是，本发明的***应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于视频的人物分类方法，其特征在于，其包括：

2.根据权利要求1所述基于视频的人物分类方法，其特征在于，提取所述视频帧图像中包含目标人物的图像块的步骤，具体包括：

3.根据权利要求1所述基于视频的人物分类方法，其特征在于，所述分类网络模型包括：第一卷积层、池化层和含有多个子卷积层的第二卷积层；

4.根据权利要求3所述基于视频的人物分类方法，其特征在于，所述第二卷积层包括：第一子卷积层、第二卷积层、分类器和回归网络；

所述将各个所述特征向量分别输入到各个子卷积层中，得到各个所述特征向量所对应的初始分类结果和注意力权重的步骤，具体包括：

5.根据权利要求1所述基于视频的人物分类方法，其特征在于，所述根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果，根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类的步骤，具体包括：

6.根据权利要求2所述基于视频的人物分类方法，其特征在于，所述区域提取网络模型包括：第一提取层和第二提取层；

7.根据权利要求6所述基于视频的人物分类方法，其特征在于，所述将所述视频帧图像输入区域提取网络模型中，提取所述视频帧图像中包含目标人物的图像块的步骤之前，还包括：

8.根据权利要求7所述基于视频的人物分类方法，其特征在于，所述损失函数为：

9.一种智能终端，其特征在于，包括：处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现上述权利要求1-8任一项所述的基于视频的人物分类方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有基于协同过滤的物品推荐方法的控制程序，所述基于协同过滤的物品推荐方法的控制程序被处理器执行时实现如权利要求1-8中任一项所述的基于视频的人物分类方法的步骤。