CN110414344A - 一种基于视频的人物分类方法、智能终端及存储介质 - Google Patents

一种基于视频的人物分类方法、智能终端及存储介质 Download PDF

Info

Publication number
CN110414344A
CN110414344A CN201910553048.8A CN201910553048A CN110414344A CN 110414344 A CN110414344 A CN 110414344A CN 201910553048 A CN201910553048 A CN 201910553048A CN 110414344 A CN110414344 A CN 110414344A
Authority
CN
China
Prior art keywords
target person
image block
classification
video
video frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910553048.8A
Other languages
English (en)
Other versions
CN110414344B (zh
Inventor
张邦文
姚荣国
周飞
刘博智
邱国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201910553048.8A priority Critical patent/CN110414344B/zh
Publication of CN110414344A publication Critical patent/CN110414344A/zh
Application granted granted Critical
Publication of CN110414344B publication Critical patent/CN110414344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于视频的人物分类方法、智能终端及存储介质,所述方法包括:获取待检测的视频帧图像,提取所述视频帧图像中包含目标人物的图像块;将所述图像块输入所述分类网络模型中,获得所述图像块中目标人物的初始分类结果和注意力权重;根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果,根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类。本发明所提供的方法通过区域提取模块和分类网络模型分别提取待检测目标人物的图像块和对目标人物进行分类,将网络学习得到注意力权重与初始预测结果相结合,提高了特征性部分对最终分类结果的贡献,使得视频人物分类结果更加准确。

Description

一种基于视频的人物分类方法、智能终端及存储介质
技术领域
本发明涉及图像识别技术领域,尤其涉及的是一种基于视频的人物分类方法、智能终端及存储介质。
背景技术
近年来,随着互联网和娱乐产业的发展,视频数量急速增长。基于视频内容的视频理解和检索的需求也在不断提高。在视频理解领域,人物检测是其中一个重要研究课题。
由于摄影角度的不同,光照条件复杂,脸部表情的变化以及遮挡等,视频中的人物检测极具挑战性。目前相关的技术包括目标检测技术和行人重识别技术。目标检测的人物是给定一副图像,预测图像中属于待检测类别的物体或人的坐标以及类别信息。而行人重识别的目标是对图像中的人物进行分类和检索。虽然上述方法在各自的领域上都取得了不错的效果。但是在视频中的人物检测领域,由于人物之间的相识度高,目标检测经常会出现分类错误,导致人物分类准确率低。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于提供一种基于视频的人物检测方法、智能终端及存储介质,克服现有视频人物检测领域中由于人物之间的相识度高,人物分类准确率低的缺陷。
本发明所公开的第一实施例为一种基于视频的人物分类方法,其中,包括以下步骤:
获取待检测的视频帧图像,提取所述视频帧图像中包含目标人物的图像块;
将所述图像块输入所述分类网络模型中,获得所述图像块中目标人物的初始分类结果和注意力权重;所述分类网络模型是基于所述目标人物的图像块与所述图像块中目标人物的初始分类结果和注意力权重的对应关系训练而成的;
根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果,根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类。
所述基于视频的人物分类方法,其中,提取所述视频帧图像中包含目标人物的图像块的步骤,具体包括:
将所述视频帧图像输入区域提取网络模型中,提取所述视频帧图像中包含目标人物的图像块;所述区域提取网络模型是基于输入视频帧图像与所述输入视频帧图像中目标人物图像块的对应关系训练而成的。
所述基于视频的人物分类方法,其中,所述分类网络模型包括:第一卷积层、池化层和含有多个子卷积层的第二卷积层;
所述将所述图像块输入所述分类网络模型中,获得所述图像块中目标人物的初始分类结果和注意力权重的步骤,具体包括:
将所述图像块输入第一卷积层中,提取所述图像块的特征图;
将所述特征图输入池化层,获得所述特征图的多个特征向量;
将各个所述特征向量分别输入到各个子卷积层中,获得所述图像块中目标人物的初始分类结果和注意力权重。
所述基于视频的人物分类方法,其中,所述第二卷积层包括:第一子卷积层、第二卷积层、分类器和回归网络;
将各个所述特征向量分别输入到各个子卷积层中,得到各个所述特征向量所对应的初始分类结果和注意力权重的步骤,具体包括:
将各个所述特征向量依次输入第一子卷积层和第二子卷积层中,输出各个所述特征向量所对应的第一维度特征和第二维度特征;
将所述第一维度特征输入分类器,获得所述图像块中目标人物的初始分类结果;
将所述第二维度特征输入回归网络,获得所述图像块中目标人物的注意力权重。
所述基于视频的人物分类方法,其中,所述根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果,根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类的步骤,具体包括:
将所述图像块中目标人物的初始分类结果和注意力权重相乘获得所述目标人物的最终分类结果;
选取所述目标人物的最终分类结果值最大的一类作为所述视频帧图像中所包含的目标人物的分类标签。
所述基于视频的人物分类方法,其中,所述区域提取网络模型包括:第一提取层和第二提取层;
所述将所述视频帧图像输入区域提取网络模型中,提取所述视频帧图像中包含目标人物的图像块的步骤,具体包括:
将所述视频帧图像输入所述第一提取层中,获取包含目标人物检测框对应的特征图;
将所述包含目标人物检测框对应的特征图输入所述第二提取层中,提取所述视频帧图像中包含目标人物的图像块。
所述基于视频的人物分类方法,其中,所述将所述视频帧图像输入区域提取网络模型中,提取所述视频帧图像中包含目标人物的图像块的步骤之前,还包括:
获取包含目标人物的待训练图像集,对所述待训练图像集中目标人物的真实类别和真实坐标进行标注;
将所述待训练图像集输入区域提取网络模型中,通过前向传播算法获得网络预测的目标人物的类别和坐标;
通过损失函数对标注的目标人物的真实类别和真实坐标及网络预测的目标人物的类别和坐标进行比较,获得预测误差;
将所述预测误差通过反向传播算法对所述区域提取网络模型进行训练。
所述基于视频的人物分类方法,其中,所述损失函数为:
其中,i为训练过程中检测框的序号,为第i个检测框中目标人物的真实类别,为第i个检测框中目标人物的真实坐标,pi为第i个检测框中目标人物的网络预测类别,xi为第i个检测框中目标人物的网络预测坐标,Narm和Nodm分别为区域提取网络模型中所检测到包含待检测人物的框的总数,Lb为一个交叉损失函数,Lr是一个回归损失函数。
一种智能终端,其中,包括:处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令;所述处理器适于调用所述存储介质中的指令,以执行实现上述任一项所述的基于视频的人物分类方法的步骤。
一种存储介质,其中,所述存储介质上存储有基于协同过滤的物品推荐方法的控制程序,所述基于协同过滤的物品推荐方法的控制程序被处理器执行时实现任一项所述的基于视频的人物分类方法的步骤。
有益效果,本发明提供了一种基于视频的人物分类方法、智能终端及存储介质,通过区域提取模块提取待检测目标人物的图像块,通过分类检测模块提取图像块的特征并对目标人物进行分类,目标人物的位置检测和分类过程分离,并且在分类过程中引入了注意力机制,通过网络学习得到注意力权重,将注意力权重与初始预测结果相结合,提高了特征性部分对最终分类结果的贡献,使得视频人物分类结果更加准确。
附图说明
图1是本发明所提供的基于视频的人物分类方法的较佳实施例的流程图;
图2是本发明的智能终端的功能原理图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供的一种基于视频的人物分类方法,可以应用于终端中。其中,终端可以但不限于是各种个人计算机、笔记本电脑、手机、平板电脑、车载电脑和便携式可穿戴设备。本发明的终端采用多核处理器。其中,终端的处理器可以为中央处理器(CentralProcessing Unit,CPU),图形处理器(Graphics Processing Unit,GPU)、视频处理单元(Video Processing Unit,VPU)等中的至少一种。
为了解决现有技术中对视频中目标人物进行分类时,由于人物之间的相识度高,目标人物检测经常会出现分类错误,导致目标人物分类准确率低的问题,本发明提供了一种基于视频的人物分类方法。
请参照图1,图1是本发明提供的一种基于视频的人物分类方法的较佳实施例的流程图。
在实施例一中,所述基于视频的人物检测方法有三个步骤:
S100、获取待检测的视频帧图像,提取所述视频帧图像中包含目标人物的图像块。
待检测视频是指需要基于视频的人物分类方法进行处理的视频。如待检测视频可以是某一监控器录制的视频,某一段电视视频等。待检测视频是由多帧图像连续放映而成,本实施例中在对人物进行分类时,需要预先从待检测视频中提取待检测视频的图像。本领域中从视频中提取图像的方法已经较为成熟,例如对待检测视频通过解码器或代码获得每帧图像,本发明申请在此不作赘述。
具体实施时,由于待检测视频是由多帧图像连续放映而成,部分图像包括有目标人物图像,部分图像不包括目标人物图像。为了对视频中的目标人物进行分类,本实施例中需要从获取的待检测视频图像中提取出包含目标人物的图像块。所述目标人物可以包括警方需要查找的犯罪嫌疑人,电视剧中某一角色人物等等。
具体实施时,需要预先建立一用于目标人物的图像块提取的区域提取网络模型。所述区域提取网络模型可以基于RefineDet、SSD或Faster RCNN等常用的目标检测网络框架进行构建。获取待检测的视频帧图像后,将所述视频帧图像输入区域提取网络模型中,提取所述视频帧图像中包含目标人物的图像块。
鉴于现有技术中,目标人物检测主要是基于深度学习来完成,而学习是一个渐进的过程,在目标人物检测的过程中,网络生成的背景框一般有成千上万个,而包含目标人物的检测框一般较少,在网络训练过程中,容易使得网络更加偏向输出背景框的判断。目前虽然有通过对背景框进行降采样,但由于网络无法同时专注于学习类别标签预测和坐标,现有方法还不能完美解决上述问题。因此,本实施例中的区域提取网络模型包含第一提取层和第二提取层,所述第一提取层用于对所述目标人物标签进行初步预测,所述第二提取层用于对所述目标人物坐标回归和对所述目标人物标签进行更精确的预测,所述区域提取网络模型对所述目标人物标签及所述目标人物坐标分步学习,提高检测的准确性。
具体实施时,所述将所述视频帧图像输入区域提取网络模型中,提取所述视频帧图像中包含人物的图像块的步骤之前,还包括:
S100a、获取包含目标人物的待训练图像集,对所述待训练图像集中目标人物的真实类别和真实坐标进行标注;
S100b、将所述待训练图像集输入区域提取网络模型中,通过前向传播算法获得网络预测的目标人物的类别和坐标;
S100c、通过损失函数对标注的目标人物的真实类别和真实坐标及网络预测的目标人物的类别和坐标进行比较,获得预测误差;
S100d、将所述预测误差通过反向传播算法对所述区域提取网络模型进行训练。
具体实施时,本实施例中需要预先准备用于训练所述区域提取网络模型的包含目标人物的待训练图像集,利用标注工具对所述待训练图像集中的目标人物的真实类别和真实坐标进行标注。标注完成后,将所述待训练图像集输入区域提取网络模型中,此时所述待训练图像集先经过所述第一提取层进行粗提取。具体地,通过所述第一提取层中的卷积层,在待训练图像集的每帧图像上标注包含目标人物位置的检测框,通过前向传播算法粗略地调整检测框的坐标、尺度和正负类别(正类表示包含目标人物,负类表示不包含目标人物)。然后将所有预测为正类别的检测框位置和类别信息传递给第二提取层,第二提取层在第一提取层的基础上做进一步地精确提取。具体地,将经过第一提取层粗略提取后得到的正类检测框和所述正类检测框对应的特征图输入第二提取层,所述第二提取层中的卷积层对输入的特征图进行特征转换,并对转换后的特征图添加正负类别和检测框类别的约束,最终输出网络预测的目标人物的类别和坐标。本实施例中区域提取网络模型包括第一提取层和第二提取层,第一提取层对目标人物标签进行初步预测,使得第二提取层能够更加专注于对目标人物坐标的回归,同时对目标人物标签进行更加准确的预测,两个提取层协同工作,共同提高提取目标人物图像块的准确性。
具体地,所述前向传播的过程为在所述第一提取层的所有卷积层中从前往后逐层进行,每一层的计算公式如下:
其中xi-1表示当前层的输入,wi-1表示当前层的网络参数,表示卷积运算,xi表示当前层的输出,f表示ReLu函数,ReLu函数定义如下:
进一步地,前述步骤中提到获取待训练图像集后,会手动标注训练图像集中的目标人物的真实类别和真实坐标,获取网络预测的目标人物的类别和坐标后,将人为标注的目标人物的真实类别和真实坐标和网络预测的目标人物的类别和坐标通过损失函数进行比较。其中人为标注的目标人物的真实坐标是网络预测的目标人物的坐标的学习目标,随着训练的进行,网络预测的目标人物的坐标值会越来越接近人为标注的目标人物的真实坐标值。具体地,所述损失函数的公式具体为:
其中,i为训练过程中检测框的序号,为第i个检测框中目标人物的真实类别,为第i个检测框中目标人物的真实坐标,pi为第i个检测框中目标人物的网络预测类别,xi为第i个检测框中目标人物的网络预测坐标,Narm和Nodm分别为区域提取网络模型中所检测到包含待检测人物的框的总数,Lb为一个交叉损失函数,Lr是一个回归损失函数。本实施例中的区域提取网络中的损失函数是一个前景与背景的二元分类损失函数,也可以用Softmax多分类损失函数训练网络的,本发明申请中对此不作限定。
具体实施时,Lb为一个交叉损失函数,函数具体定义为:
Lr是一个回归损失函数,此回归损失函数可以采用L1损失函数,也可以采用L2损失函数,优选地,本实施例中采用L1损失函数,函数定义如下:L1(x1,x2)=|x1-x2|,当括号内条件成立时为1,否则为0。
进一步地,将人为标注的目标人物的真实类别和真实坐标和网络预测的目标人物的类别和坐标通过损失函数进行比较,获得网络预测误差,再将预测误差通过反向传播算法对所述区域提取网络模型进行训练,具体的反向传播的传播过程为由最后一层卷积层逐层向前传播,每一层的传播公式如下:
其中为损失函数对当前卷积层参数的偏导数,α是学习率,一般为0.0001,每训练50次,衰减为原来的0.1倍。
进一步地,所述区域提取网络模型包括:第一提取层和第二提取层。将所述视频帧图像输入区域提取网络模型中,提取所述视频帧图像中包含目标人物的图像块的步骤,具体包括:
S101、将所述视频帧图像输入所述第一提取层中,获取包含目标人物检测框对应的特征图;
S102、将所述包含目标人物检测框对应的特征图输入所述第二提取层中,提取所述视频帧图像中包含目标人物的图像块。
具体实施时,对所述区域提取网络模型训练完成后,就可以将待检测的视频帧图像输入已训练好的区域提取网络模型中。所述待检测的视频帧图像会经过第一提取层,将大部分的背景框滤除掉,得到包含目标人物检测框对应的特征图。然后将得到的包含目标人物检测框对应的特征图输入第二提取层中,进一步对所述包含目标人物检测框对应的特征图进行特征转换,获取所述视频帧图形中包含目标人物的图形块。通过上述的双提取层的处理,网络相较于目前的其他主流方法,可以更加准确得到包含目标人物的检测框。
继续回到图1,所述基于视频的人物分类方法还包括步骤:
S200、将所述图像块输入所述分类网络模型中,获得所述图像块中目标人物的初始分类结果和注意力权重。
步骤S100中只是提取出了待检测视频帧图像中可能包含目标人物的图像块,接下来需要对目标人物进行分类。本实施例中预先设置用于对所述目标人物的图像块进行分类的分类网络模型。所述分类网络模型采用ResNet50架构,并增加了三层卷积层,也可以用其他常规的分类网络代替,如VGG,ResNet,DenseNet等,本实施例中对此不作限定。
具体实施时,所述分类网络模型包括:第一卷积层、池化层和含有多个子卷积层的第二卷积层。所述将所述图像块输入所述分类网络模型中,获得所述图像块中目标人物的初始分类结果和注意力权重的步骤,具体步骤包括:
S201、将所述图像块输入第一卷积层中,提取所述图像块的特征图;
S202、将所述特征图输入池化层,获得所述特征图的多个特征向量;
S203、将各个所述特征向量分别输入到各个子卷积层中,获得所述图像块中目标人物的初始分类结果和注意力权重。
具体实施时,本实施例中将图像块输入分类网络模型中后,会先将所述图像块输入第一卷积层中,提取所述图像块的特征图。例如当所述分类网络模型采用ResNet50架构时,所述图像块输入第一卷积层中提取出图像的3维特征图。之后,经过池化层进行平均池化,所述3维特征图在水平方向被平均划分为6部分,每部分对应图片的一个特征向量。
鉴于实际应用中,用户在观察人物时,往往会关注某些特别的部分,例如脸部等。为了使最终的人物分类结果更加接近实际用户的分类结果,本实施例中所述分类网络模型中设置有含有多个子卷积层的第二卷积层,将经过池化层得到的各个所述特征向量分别输入到各个子卷积层中进行卷积后,获得所述图像块中目标人物的初始分类结果和注意力权重。
具体实施时,所述第二卷积层包括:第一子卷积层、第二卷积层、分类器和回归网络。所述将各个所述特征向量分别输入到各个子卷积层中,得到各个所述特征向量所对应的初始分类结果和注意力权重的步骤,具体包括:
S201、将各个所述特征向量依次输入第一子卷积层和第二子卷积层中,输出各个所述特征向量所对应的第一维度特征和第二维度特征;
S202、将所述第一维度特征输入分类器,获得所述图像块中目标人物的初始分类结果;
S203、将所述第二维度特征输入回归网络,获得所述图像块中目标人物的注意力权重。
具体实施时,本实施例中所述第二卷积层设置有两个不同的子卷积层,分别为第一子卷积层和第二子卷积层。首先将各个所述特征向量依次输入第一子卷积层中,输出各个所述特征向量所对应的第一维度特征的维度为:2048->256->6,将输出的第一维度特征的连接到分类器上,例如现有的支持向量机(SVM),输出得到6x7的初始分类结果。将各个所述特征向量依次输入第二子卷积层中,输出各个所述特征向量所对应的第二维度特征的纬度为:2048->256->1,将输出的第二维度特征连接到回归网络,例如现有的logistics回归网络,输出得到一个6x1的注意力权重。
进一步地,在使用分类网络模型对得到的包含目标人物的图像块进行分类前,需要对所述分类网络模型进行训练。具体训练过程为,获取包含目标人物的待训练图片集,对所述待训练图片集中目标人物的真实类别进行标注。然后将所述待训练图片集输入第一卷积层中,提取所述待训练图片集中图像的特征图;然后将所述特征图输入池化层,获得每部分特征图对应的特征向量,将所述特征向量分别输入第一子卷积层和第二子卷积层中得到所述图像中目标人物对应的初始分类结果和注意力权重,根据所述初始分类结果和注意力权重输出分类网络模型预测的目标人物分类结果,将预测的目标人物分类结果与预先人为标注的目标人物真实类别做比较,将两者相减得到训练误差,再通过反向传播算法对所述分类网络模型进行训练。具体的反向传播算法与前述区域提取网络模型训练时使用的反向传播算法相同,在此不再赘述。
继续回到图1,所述基于视频的人物分类方法还包括步骤:
S300、根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果,根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类。
具体地,如前所述,第一子卷积层输出第一维度特征的维度为:2048->256->6,将所述第一维度特征输入现有的支持向量机上,输出得到6x7的初始分类结果,记初始分类结果为ci,每个ci代表一个分类结果,最终得到6种分类结果;第二子卷积层输出第二维度特征的维度为:2048->256->1,将所述第二维度特征输入现有的logistics回归网络,输出得到一个6x1的注意力权重,记注意力权重为wi,根据公式:其中注意力权重值范围可以为[0,1]之间的任意值,也可以调节至[0,5]等更大范围。根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果。如6x7的初始分类结果,每个ci代表一个分类结果,最终得到6种分类结果,将得到的6种分类结果通过注意力权重wi加权得到最终分类结果,选取所述目标人物的最终分类结果值最大的一类作为所述视频帧图像中所含有的目标人物的分类标签,从而对目标人物进行分类。
实施例2
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图2所示。该智能终端包括通过***总线连接的处理器、存储器、网络接口、显示屏和温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于视频的人物分类方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的当前运行温度。
本领域技术人员可以理解,图2中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所述***应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时至少可以实现以下步骤:
获取待检测的视频帧图像,提取所述视频帧图像中包含目标人物的图像块;
将所述图像块输入所述分类网络模型中,获得所述图像块中目标人物的初始分类结果和注意力权重;所述分类网络模型是基于所述目标人物的图像块与所述图像块中目标人物的初始分类结果和注意力权重的对应关系训练而成的;
根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果,根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类。
在其中的一个实施例中,该处理器执行计算机程序时还可以实现:将所述视频帧图像输入区域提取网络模型中,提取所述视频帧图像中包含目标人物的图像块;所述区域提取网络模型是基于输入视频帧图像与所述输入视频帧图像中目标人物图像块的对应关系训练而成的。
在其中的一个实施例中,该处理器执行计算机程序时还可以实现:所述将所述图像块输入所述分类网络模型中,获得所述图像块中目标人物的初始分类结果和注意力权重的步骤,具体包括:将所述图像块输入第一卷积层中,提取所述图像块的特征图;将所述特征图输入池化层,获得所述特征图的多个特征向量;将各个所述特征向量分别输入到各个子卷积层中,获得所述图像块中目标人物的初始分类结果和注意力权重。
在其中的一个实施例中,该处理器执行计算机程序时还可以实现:所述将各个所述特征向量分别输入到各个子卷积层中,得到各个所述特征向量所对应的初始分类结果和注意力权重的步骤,具体包括:将各个所述特征向量依次输入第一子卷积层和第二子卷积层中,输出各个所述特征向量所对应的第一维度特征和第二维度特征;将所述第一维度特征输入分类器,获得所述图像块中目标人物的初始分类结果;将所述第二维度特征输入回归网络,获得所述图像块中目标人物的注意力权重。
在其中的一个实施例中,该处理器执行计算机程序时还可以实现:将所述图像块中目标人物的初始分类结果和注意力权重相乘获得所述目标人物的最终分类结果;选取所述目标人物的最终分类结果值最大的一类作为所述视频帧图像中所包含的目标人物的分类标签。
在其中的一个实施例中,该处理器执行计算机程序时还可以实现:所述将所述视频帧图像输入区域提取网络模型中,提取所述视频帧图像中包含目标人物的图像块的步骤,具体包括:将所述视频帧图像输入所述第一提取层中,获取包含目标人物检测框对应的特征图;对所述包含目标人物检测框对应的特征图输入第二提取层中,获取所述视频帧图像中包含目标人物的图像块。
在其中的一个实施例中,该处理器执行计算机程序时还可以实现:获取包含目标人物的待训练图像集,对所述待训练图像集中目标人物的真实类别和真实坐标进行标注;将所述待训练图像集输入区域提取网络模型中,通过前向传播算法获得网络预测的目标人物的类别和坐标;通过损失函数对标注的目标人物的真实类别和真实坐标及网络预测的目标人物的类别和坐标进行比较,获得预测误差;将所述预测误差通过反向传播算法对所述区域提取网络模型进行训练。
在其中的一个实施例中,该处理器执行计算机程序时还可以实现:通过公式对标注的人物的真实类别和真实坐标及网络预测的人物类别标签和网络预测的人物坐标进行比较,获得预测误差,其中,i为训练过程中检测框的序号,为第i个检测框中目标人物的真实类别,为第i个检测框中目标人物的真实坐标,pi为第i个检测框中目标人物的网络预测类别,xi为第i个检测框中目标人物的网络预测坐标,Narm和Nodm分别为区域提取网络模型中所检测到包含待检测人物的框的总数,Lb为一个交叉损失函数,Lr是一个回归损失函数。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明提供了一种基于视频的人物分类方法、智能终端及存储介质,所述方法包括:获取待检测的视频帧图像,提取所述视频帧图像中包含目标人物的图像块;将所述图像块输入所述分类网络模型中提取特征向量,获得所述图像块中目标人物的初始分类结果和注意力权重;根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果,根据所述最终分类结果对所述视频帧图像中所含有的目标人物进行分类。本发明所提供的方法通过区域提取模块和分类网络模型分别提取待检测目标人物的图像块和对目标人物进行分类,将网络学习得到注意力权重与初始预测结果相结合,提高了特征性部分对最终分类结果的贡献,使得视频人物分类结果更加准确。
应当理解的是,本发明的***应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于视频的人物分类方法,其特征在于,其包括:
获取待检测的视频帧图像,提取所述视频帧图像中包含目标人物的图像块;
将所述图像块输入所述分类网络模型中,获得所述图像块中目标人物的初始分类结果和注意力权重;所述分类网络模型是基于所述目标人物的图像块与所述图像块中目标人物的初始分类结果和注意力权重的对应关系训练而成的;
根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果,根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类。
2.根据权利要求1所述基于视频的人物分类方法,其特征在于,提取所述视频帧图像中包含目标人物的图像块的步骤,具体包括:
将所述视频帧图像输入区域提取网络模型中,提取所述视频帧图像中包含目标人物的图像块;所述区域提取网络模型是基于输入视频帧图像与所述输入视频帧图像中目标人物图像块的对应关系训练而成的。
3.根据权利要求1所述基于视频的人物分类方法,其特征在于,所述分类网络模型包括:第一卷积层、池化层和含有多个子卷积层的第二卷积层;
所述将所述图像块输入所述分类网络模型中,获得所述图像块中目标人物的初始分类结果和注意力权重的步骤,具体包括:
将所述图像块输入第一卷积层中,提取所述图像块的特征图;
将所述特征图输入池化层,获得所述特征图的多个特征向量;
将各个所述特征向量分别输入到各个子卷积层中,获得所述图像块中目标人物的初始分类结果和注意力权重。
4.根据权利要求3所述基于视频的人物分类方法,其特征在于,所述第二卷积层包括:第一子卷积层、第二卷积层、分类器和回归网络;
所述将各个所述特征向量分别输入到各个子卷积层中,得到各个所述特征向量所对应的初始分类结果和注意力权重的步骤,具体包括:
将各个所述特征向量依次输入第一子卷积层和第二子卷积层中,输出各个所述特征向量所对应的第一维度特征和第二维度特征;
将所述第一维度特征输入分类器,获得所述图像块中目标人物的初始分类结果;
将所述第二维度特征输入回归网络,获得所述图像块中目标人物的注意力权重。
5.根据权利要求1所述基于视频的人物分类方法,其特征在于,所述根据所述图像块中目标人物的初始分类结果和注意力权重获得所述目标人物的最终分类结果,根据所述最终分类结果对所述视频帧图像中所包含的目标人物进行分类的步骤,具体包括:
将所述图像块中目标人物的初始分类结果和注意力权重相乘获得所述目标人物的最终分类结果;
选取所述目标人物的最终分类结果值最大的一类作为所述视频帧图像中所包含的目标人物的分类标签。
6.根据权利要求2所述基于视频的人物分类方法,其特征在于,所述区域提取网络模型包括:第一提取层和第二提取层;
所述将所述视频帧图像输入区域提取网络模型中,提取所述视频帧图像中包含目标人物的图像块的步骤,具体包括:
将所述视频帧图像输入所述第一提取层中,获取包含目标人物检测框对应的特征图;
将所述包含目标人物检测框对应的特征图输入所述第二提取层中,提取所述视频帧图像中包含目标人物的图像块。
7.根据权利要求6所述基于视频的人物分类方法,其特征在于,所述将所述视频帧图像输入区域提取网络模型中,提取所述视频帧图像中包含目标人物的图像块的步骤之前,还包括:
获取包含目标人物的待训练图像集,对所述待训练图像集中目标人物的真实类别和真实坐标进行标注;
将所述待训练图像集输入区域提取网络模型中,通过前向传播算法获得网络预测的目标人物的类别和坐标;
通过损失函数对标注的目标人物的真实类别和真实坐标及网络预测的目标人物的类别和坐标进行比较,获得预测误差;
将所述预测误差通过反向传播算法对所述区域提取网络模型进行训练。
8.根据权利要求7所述基于视频的人物分类方法,其特征在于,所述损失函数为:
其中,i为训练过程中检测框的序号,为第i个检测框中目标人物的真实类别,为第i个检测框中目标人物的真实坐标,pi为第i个检测框中目标人物的网络预测类别,xi为第i个检测框中目标人物的网络预测坐标,Narm和Nodm分别为区域提取网络模型中所检测到包含待检测人物的框的总数,Lb为一个交叉损失函数,Lr是一个回归损失函数。
9.一种智能终端,其特征在于,包括:处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令;所述处理器适于调用所述存储介质中的指令,以执行实现上述权利要求1-8任一项所述的基于视频的人物分类方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于协同过滤的物品推荐方法的控制程序,所述基于协同过滤的物品推荐方法的控制程序被处理器执行时实现如权利要求1-8中任一项所述的基于视频的人物分类方法的步骤。
CN201910553048.8A 2019-06-25 2019-06-25 一种基于视频的人物分类方法、智能终端及存储介质 Active CN110414344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910553048.8A CN110414344B (zh) 2019-06-25 2019-06-25 一种基于视频的人物分类方法、智能终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910553048.8A CN110414344B (zh) 2019-06-25 2019-06-25 一种基于视频的人物分类方法、智能终端及存储介质

Publications (2)

Publication Number Publication Date
CN110414344A true CN110414344A (zh) 2019-11-05
CN110414344B CN110414344B (zh) 2023-06-06

Family

ID=68359697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910553048.8A Active CN110414344B (zh) 2019-06-25 2019-06-25 一种基于视频的人物分类方法、智能终端及存储介质

Country Status (1)

Country Link
CN (1) CN110414344B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046974A (zh) * 2019-12-25 2020-04-21 珠海格力电器股份有限公司 一种物品分类方法、装置、存储介质及电子设备
CN111461246A (zh) * 2020-04-09 2020-07-28 北京爱笔科技有限公司 一种图像分类方法及装置
CN111814617A (zh) * 2020-06-28 2020-10-23 智慧眼科技股份有限公司 基于视频的火灾判定方法、装置、计算机设备及存储介质
CN111914107A (zh) * 2020-07-29 2020-11-10 厦门大学 一种基于多通道注意力区域扩展的实例检索方法
CN112101154A (zh) * 2020-09-02 2020-12-18 腾讯科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
CN112995666A (zh) * 2021-02-22 2021-06-18 天翼爱音乐文化科技有限公司 一种结合场景切换检测的视频横竖屏转换方法及装置
CN113191205A (zh) * 2021-04-03 2021-07-30 国家计算机网络与信息安全管理中心 一种识别视频中特殊场景、物体、人物和噪声因素的方法
CN113496231A (zh) * 2020-03-18 2021-10-12 北京京东乾石科技有限公司 分类模型训练方法、图像分类方法、装置、设备及介质
CN113673588A (zh) * 2021-08-12 2021-11-19 连尚(北京)网络科技有限公司 一种用于视频分类的方法、设备、介质及程序产品
CN113673576A (zh) * 2021-07-26 2021-11-19 浙江大华技术股份有限公司 图像检测方法、终端及其计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205388826U (zh) * 2016-03-09 2016-07-20 郑永春 车辆识别摄像头
CN106845361A (zh) * 2016-12-27 2017-06-13 深圳大学 一种行人头部识别方法及***
CN109034024A (zh) * 2018-07-16 2018-12-18 浙江工业大学 基于图像目标检测的物流车辆车型分类识别方法
CN109074472A (zh) * 2016-04-06 2018-12-21 北京市商汤科技开发有限公司 用于人物识别的方法和***
CN109359592A (zh) * 2018-10-16 2019-02-19 北京达佳互联信息技术有限公司 视频帧的处理方法、装置、电子设备及存储介质
CN109614517A (zh) * 2018-12-04 2019-04-12 广州市百果园信息技术有限公司 视频的分类方法、装置、设备及存储介质
CN109684990A (zh) * 2018-12-20 2019-04-26 天津天地伟业信息***集成有限公司 一种基于视频的打电话行为检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205388826U (zh) * 2016-03-09 2016-07-20 郑永春 车辆识别摄像头
CN109074472A (zh) * 2016-04-06 2018-12-21 北京市商汤科技开发有限公司 用于人物识别的方法和***
CN106845361A (zh) * 2016-12-27 2017-06-13 深圳大学 一种行人头部识别方法及***
CN109034024A (zh) * 2018-07-16 2018-12-18 浙江工业大学 基于图像目标检测的物流车辆车型分类识别方法
CN109359592A (zh) * 2018-10-16 2019-02-19 北京达佳互联信息技术有限公司 视频帧的处理方法、装置、电子设备及存储介质
CN109614517A (zh) * 2018-12-04 2019-04-12 广州市百果园信息技术有限公司 视频的分类方法、装置、设备及存储介质
CN109684990A (zh) * 2018-12-20 2019-04-26 天津天地伟业信息***集成有限公司 一种基于视频的打电话行为检测方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046974A (zh) * 2019-12-25 2020-04-21 珠海格力电器股份有限公司 一种物品分类方法、装置、存储介质及电子设备
CN113496231A (zh) * 2020-03-18 2021-10-12 北京京东乾石科技有限公司 分类模型训练方法、图像分类方法、装置、设备及介质
CN113496231B (zh) * 2020-03-18 2024-06-18 北京京东乾石科技有限公司 分类模型训练方法、图像分类方法、装置、设备及介质
CN111461246A (zh) * 2020-04-09 2020-07-28 北京爱笔科技有限公司 一种图像分类方法及装置
CN111814617B (zh) * 2020-06-28 2023-01-31 智慧眼科技股份有限公司 基于视频的火灾判定方法、装置、计算机设备及存储介质
CN111814617A (zh) * 2020-06-28 2020-10-23 智慧眼科技股份有限公司 基于视频的火灾判定方法、装置、计算机设备及存储介质
CN111914107A (zh) * 2020-07-29 2020-11-10 厦门大学 一种基于多通道注意力区域扩展的实例检索方法
CN111914107B (zh) * 2020-07-29 2022-06-14 厦门大学 一种基于多通道注意力区域扩展的实例检索方法
CN112101154A (zh) * 2020-09-02 2020-12-18 腾讯科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
CN112101154B (zh) * 2020-09-02 2023-12-15 腾讯科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
CN112995666A (zh) * 2021-02-22 2021-06-18 天翼爱音乐文化科技有限公司 一种结合场景切换检测的视频横竖屏转换方法及装置
CN112995666B (zh) * 2021-02-22 2022-04-22 天翼爱音乐文化科技有限公司 一种结合场景切换检测的视频横竖屏转换方法及装置
CN113191205A (zh) * 2021-04-03 2021-07-30 国家计算机网络与信息安全管理中心 一种识别视频中特殊场景、物体、人物和噪声因素的方法
CN113673576A (zh) * 2021-07-26 2021-11-19 浙江大华技术股份有限公司 图像检测方法、终端及其计算机可读存储介质
CN113673588A (zh) * 2021-08-12 2021-11-19 连尚(北京)网络科技有限公司 一种用于视频分类的方法、设备、介质及程序产品

Also Published As

Publication number Publication date
CN110414344B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN110414344A (zh) 一种基于视频的人物分类方法、智能终端及存储介质
Zhang et al. Cross-modality interactive attention network for multispectral pedestrian detection
US20180114071A1 (en) Method for analysing media content
Wang et al. FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection
CN109886066A (zh) 基于多尺度和多层特征融合的快速目标检测方法
Alshehri et al. Deep attention neural network for multi-label classification in unmanned aerial vehicle imagery
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN107239775A (zh) 地物分类方法及装置
CN111242144A (zh) 电网设备异常的检测方法和装置
CN108229432A (zh) 人脸标定方法及装置
Liu et al. A shadow detection algorithm based on multiscale spatial attention mechanism for aerial remote sensing images
CN114782798A (zh) 一种基于注意力融合的水下目标检测方法
CN115375781A (zh) 一种数据处理方法及其装置
CN115984226A (zh) 绝缘子缺陷检测方法、设备、介质及程序产品
CN115496971A (zh) 一种红外目标检测方法、装置、电子设备及存储介质
Wu et al. Improved YOLOX foreign object detection algorithm for transmission lines
Mohamed et al. Data augmentation for deep learning algorithms that perform driver drowsiness detection
Shi et al. Combined channel and spatial attention for YOLOv5 during target detection
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN116958615A (zh) 图片识别方法、装置、设备和介质
Bai et al. Countr: An end-to-end transformer approach for crowd counting and density estimation
CN114140524A (zh) 一种多尺度特征融合的闭环检测***及方法
Yue et al. A Novel Two-stream Architecture Fusing Static And Dynamic Features for Human Action Recognition
Li et al. A novel feature‐based network with sequential information for textile defect detection
Hu et al. Learning to detect saliency with deep structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant