CN106855944A - 行人标志物识别方法及装置 - Google Patents
行人标志物识别方法及装置 Download PDFInfo
- Publication number
- CN106855944A CN106855944A CN201611198541.5A CN201611198541A CN106855944A CN 106855944 A CN106855944 A CN 106855944A CN 201611198541 A CN201611198541 A CN 201611198541A CN 106855944 A CN106855944 A CN 106855944A
- Authority
- CN
- China
- Prior art keywords
- mark
- roi
- detected
- hidden layers
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种行人标志物识别方法及装置,所述方法包括:将图像分割获得的ROI区域和图像特征依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,并结合预设占比阈值,获得待检测标志物对应的区域标识;将当前RNN隐藏层输出的各ROI区域中待检测标志物的占比作为下一RNN隐藏层的一个输入,并对当前获得的区域标识分别进行粗粒度和细粒度合并,将各合并结果与图像特征结合作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及所述下一RNN隐藏层;将每一RNN隐藏层输出的区域标识输入至第三全连接层,获得比例值,结合预设比例阈值,判断是否存在待检测标志物。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种行人标志物识别方法及装置。
背景技术
行人识别是智能交通和智能监控***的重要组成部分,行人标志物识别则不仅是行人识别的一个子分支,还是行人识别非常重要的补充。行人标志物识别可以为行人识别提供更加丰富的特征,提高识别的准确率。
行人标志物识别主要包括行人所携带的箱包、帽子、眼镜、雨伞等标志物的识别,尤以箱包识别区分度最大。其中,行人所带行李包一般可以分为单肩包、双肩包和手包,箱子则认为是拉杆箱。部分行人标识识别还包括了衣服的颜色,款式等特征。
现有技术提供了一种基于CNN(Convolutional Neural Networks,卷积神经网络)架构的箱帽包识别方法,其是以矩形框(框住整个物体)为单位进行目标识别。对于拉杆箱、单肩包和双肩包,在行人较多的情况下,或者特定的走路方向(例如行人背着双肩包正面走来),可能只能看到拉杆、单肩带、双肩带或者其它箱体、包体被严重遮挡的状况,此时基于CNN架构的箱包识别方法就无法有效捕捉拉杆或者肩带等箱体、包体的部位,从而出现很大的漏检率或者误检率。而且,背带和拉杆都属于细长型的物体,直接作为目标检测难度很大。
发明内容
有鉴于此,本申请提供一种行人标志物识别方法及装置,以解决现有技术中存在的行人标志物识别不准确的问题。
具体地,本申请是通过如下技术方案实现的:
根据本申请的第一方面,提供一种行人标志物识别方法,所述方法包括:
对监控图像进行分割,获得若干ROI区域;
将监控图像输入Fast RCNN的ZF网络,获得所述监控图像的图像特征;
将所述ROI区域和图像特征作为输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,获得各ROI区域中待检测标志物的占比;
根据各ROI区域中所述待检测标志物的占比以及预设占比阈值,获得待检测标志物对应的区域标识;
将当前RNN隐藏层输出的各ROI区域中所述待检测标志物的占比作为下一RNN隐藏层的一个输入,并对当前获得的待检测标志物的区域标识分别进行粗粒度和细粒度合并,并将粗粒度合并后的区域标识与所述图像特征、细粒度合并后的区域标识与所述图像特征分别作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及所述下一RNN隐藏层;
将每一RNN隐藏层输出的所述待检测标志物对应的区域标识输入至第三全连接层,学习获得所述待检测标志物对应的比例值,若所述比例值大于等于预设比例阈值,则判断存在该待检测标志物。
可选地,所述将监控图像输入Fast RCNN的ZF网络,获得所述监控图像的图像特征,具体包括:
将所述监控图像依次经所述ZF网络的前四个卷积层,获得所述监控图像的图像特征。
可选地,所述RNN隐藏层包括代价函数,所述代价函数由当前RNN隐藏层的输出和标志物的真值比例而生成,且所述代价函数的输出用于反向传递给所述当前RNN隐藏层。
可选地,所述待检测标志物对应的区域标识的获取过程包括:
当ROI区域中所述待检测标志物的占比超过预设占比阈值,则认为该ROI区域存在所述待检测标志物,该ROI区域被设定为预设标识值,该ROI区域为目标区域;否则,该ROI区域不存在所述待检测标志物,该ROI区域被设定为非所述预设标识值的另一值,该ROI区域为非目标区域。
可选地,所述细粒度合并和粗粒度合并包括:对各标志物的区域标识进行扫描,所述扫描包括交替进行的行扫描和列扫描,且所述行扫描的行数以及列扫描的列数是逐渐递增的;
每次行扫描或列扫描后的区域标识与所述图像特征作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,并将当前RNN隐藏层的输出作为下一次扫描的RNN隐藏层的一个输入,将当前RNN隐藏层的输出与预设占比阈值比较所获得的待检测标志物的区域标识作为下一次扫描的对象,将当前扫描后的区域标识与所述图像特征作为下一次新的输入,直至所述行扫描或列扫描的次数均为预设次数。
可选地,对于细粒度合并,单行或单列扫描时,则在扫描方向上合并相邻两个目标区域;
多行扫描时,当多行ROI区域的同一列上的目标区域占比超过预设占比阈值,则合并该列;
多列扫描时,当多列ROI区域的同一行上的目标区域占比超过预设占比阈值,则合并该行;
对于粗粒度合并,在细粒度合并的基础上,将细粒度合并区域前后两个非目标区域也合并,若在将细粒度合并区域与前后两个非目标区域合并之后,发现新的相邻目标区域,则合并该新的相邻目标区域。
根据本申请的第二方面,提供一种行人标志物识别装置,所述装置包括:
分割模块,对监控图像进行分割,获得若干ROI区域;
特征提取模块,将监控图像输入Fast RCNN的ZF网络,获得所述监控图像的图像特征;
第一处理模块,将所述ROI区域和图像特征作为输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,获得各ROI区域中待检测标志物的占比;
第二处理模块,根据各ROI区域中所述待检测标志物的占比以及预设占比阈值,获得待检测标志物对应的区域标识
第三处理模块,将当前RNN隐藏层输出的各ROI区域中所述待检测标志物的占比作为下一RNN隐藏层的一个输入,并对当前获得的待检测标志物的区域标识分别进行粗粒度和细粒度合并,并将粗粒度合并后的区域标识与所述图像特征、细粒度合并后的区域标识与所述图像特征分别作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及所述下一RNN隐藏层;
学习模块,将每一RNN隐藏层输出的所述待检测标志物对应的区域标识输入至第三全连接层,学习获得所述待检测标志物对应的比例值,若所述比例值大于等于预设比例阈值,则判断存在该待检测标志物。
可选地,所述特征提取模块包括:将所述监控图像依次经所述ZF网络的前四个卷积层,获得所述监控图像的图像特征。
可选地,所述RNN隐藏层包括代价函数,所述代价函数由当前RNN隐藏层的输出和标志物的真值比例而生成,且所述代价函数的输出用于反向传递给所述当前RNN隐藏层。
可选地,所述第二处理模块包括:
当ROI区域中所述待检测标志物的占比超过预设占比阈值,则认为该ROI区域存在所述待检测标志物,该ROI区域被设定为预设标识值,该ROI区域为目标区域;否则,该ROI区域不存在所述待检测标志物,该ROI区域被设定为非所述预设标识值的另一值,该ROI区域为非目标区域。
可选地,所述细粒度合并和粗粒度合并包括:对各标志物的区域标识进行扫描,所述扫描包括交替进行的行扫描和列扫描,且所述行扫描的行数以及列扫描的列数是逐渐递增的;
每次行扫描或列扫描后的区域标识与所述图像特征作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,并将当前RNN隐藏层的输出作为下一次扫描的RNN隐藏层的一个输入,将当前RNN隐藏层的输出与预设占比阈值比较所获得的待检测标志物的区域标识作为下一次扫描的对象,将当前扫描后的区域标识与所述图像特征作为下一次新的输入,直至所述行扫描或列扫描的次数均为预设次数。
可选地,对于细粒度合并,单行或单列扫描时,则在扫描方向上合并相邻两个目标区域;
多行扫描时,当多行ROI区域的同一列上的目标区域占比超过预设占比阈值,则合并该列;
多列扫描时,当多列ROI区域的同一行上的目标区域占比超过预设占比阈值,则合并该行;
对于粗粒度合并,在细粒度合并的基础上,将细粒度合并区域前后两个非目标区域也合并,若在将细粒度合并区域与前后两个非目标区域合并之后,发现新的相邻目标区域,则合并该新的相邻目标区域。
本申请的有益效果:基于图像分割和粗、细粒度区域融合,通过RNN隐藏层逐级迭代的方式对行人标志物进行识别,充分考虑了监控图像上下文关系,只确认行人是否携带有标志物(例如箱、帽、包、伞等),有效解决了传统行人标志物识别过程中的漏检率、误检率和多检率较高的情况,尤其适用于不同的检测环境,对于标志物存在较大比率的遮挡情况(例如只显露单肩包带、双肩包带、箱子拉杆等)下,能够基于行人标志物特征准确的判别。
本申请的行人标志物识别方法及装置无需使用矩形框将标志物框住,可适用于任何形状的标志物检测,或者标志物被严重遮挡、分割等的情况,
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请实施例示出的一种行人标志物识别方法的流程图;
图2是本申请实施例示出的一种监控图像分割示意图;
图3是本申请实施例示出的又一种行人标志物识别方法的流程图;
图4是本申请实施例示出的一种ROI卷积层示意图;
图5是本申请实施例示出的一种8*8的bitmap结构示意图;
图6是本申请实施例示出的一种区域合并示意图;
图7是本申请实施例示出的一种行人标志物识别装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。另外,在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
如图1所示,本实施例提供的一种行人标志物识别方法的流程图,其中,所述行人标志物可以包括箱(拉杆箱)、帽、包(例如手提包、单肩包、双肩包等)、伞等。
参见图1,所述行人标志物识别方法可以包括以下步骤:
S101:对监控图像进行分割,获得若干ROI(region of interest,感兴趣区域)区域。
本实施例中,监控入口为智能交通电警或者园区等采集的监控图像,然后通过行人检测获取行人所在的区域(上下左右适当扩展一部分,确保箱包主要部分被包括在内),通过矩形框截取获得的最终监控图像作为步骤S101的监控图像。该部分使用现有技术,这里不予赘述。
其中,检测和训练的监控图像均被归一化为450*225(即长*宽)大小。
本实施例中,对监控图像中的行人进行像素级的分割,即将一张监控图像的所有像素通过相关算法按照对应的类别进行区分,标注该像素对应的类别,其中,ROI区域中各类别(即标志物)的像素占比为该类别在该ROI区域的真值比例。
例如,可将行人分为头部、上臂、下臂、手部、大腿、小腿、脚部、上半身正面、上半身侧面、手提包、单肩包、双肩包、拉杆箱、包带、拉杆、帽子、伞以及背景这18类行人标志物。当然,也可根据需要将行人的类别划分为其它数量的标志物。
由于像素级的分割直接手工完成工作量较大,可以结合当前的分割算法完成。分割完成之后,监控图像中每一个像素都有一个类别标识,例如上述18类行人标志物。
可按照预设规则对监控图像进行分割,例如,将监控图像在纵横方向上等分,或者,将监控图像在纵横方向上分别分割成不同的份数。
参见图2,对监控图像按照纵横各13*6的份数进行分割,获得78个ROI区域。
本实施例中,需要对监控图像进行纵横各15等份的初始划分,每个矩形块的长*宽大小为30*15(可以按照实际需求调整),获得225个ROI区域。
S102:将监控图像输入Fast RCNN(Fast Region with Convolutional NeuralNetwork,快速区域卷积神经网络)的ZF网络,获得所述监控图像的图像特征。
参见图3,考虑到本实施例对监控图像分割粒度较细,为防止监控图像经过ZF网络后细节过多丢失而导致目标(即待识别的行人标志物)特征丢失,所述监控图像依次经所述ZF网络的前四个卷积层,获得所述监控图像的图像特征。
S103:将所述ROI区域和图像特征作为输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN(Recurrent Neural Networks,循环神经网络)隐藏层,获得各ROI区域中待检测标志物的占比。
其中,ROI池化层(即ROI Pooling层)是Fast RCNN网络中的一层,其用于通过下采样操作获取固定长度的特征向量。
RNN隐藏层存在定向链接的神经网络,用于捕捉序列的上下文信息,较适合序列输入或者输出的任务。
本实施例中,待检测标志物可选择感兴趣的行人标志物,例如,待检测标志物可以为箱、帽、包、伞等中的一个或多个。
所述ROI区域和图像特征经ROI池化层、两个第一全连接层后,输出1024维特征。
ROI卷积层的作用是提取ROI区域的特征。具体地,需要考虑当前ROI区域和其周边区域的特征,共同确认当前区域各类别所占比例。
参见图4,本实施例中,采取5*5的卷积,将每个ROI区域的1024维特征作为1024个通道,分别卷积之后形成新的1024维特征作为该区域的特征。
而为了保证卷积前后ROI区域的特征数量一致,边缘部分的ROI区域卷积时,需要对图像外的相关区域进行添零处理。
本实施例中,定义各个类别的标志物对应的区域标识为一个bitmap,每个bitmap对应一个类别的标志物,一共18个bitmap(原始bitmap+17类标志物对应的bitmap)。
参见图4,图中的2代表目标区域,0代表卷积所涉及区域,如果位于边缘,则对应缺失区域使用全0代替,然后每个区域通过一个全连接层输出该区域对应的区域类别比例值(18维向量),作为后续RNN隐藏层(即ratio层)的一个输入。
S104:根据各ROI区域中所述待检测标志物的占比以及预设占比阈值,获得待检测标志物对应的区域标识。
本实施例中,所述待检测标志物对应的区域标识的获取过程包括:
当ROI区域中所述待检测标志物的占比超过预设占比阈值,则认为该ROI区域存在所述待检测标志物,该ROI区域被设定为预设标识值,该ROI区域为目标区域;否则,该ROI区域不存在所述待检测标志物,该ROI区域被设定为非所述预设标识值的另一值,该ROI区域为非目标区域。
在一实施例中,所述预设标识值为1,非所述预设标识值的另一值为0,预设占比阈值为0.1。
所有bitmap只针对原始监控图片划分的15*15个ROI区域进行标识,如果该类别的标志物在RNN隐藏层输出的区域占比超过0.1,则认为该ROI区域存在该类别的标志物,则该ROI区域置1;否则,该ROI区域置0,从而获得待检测标志物对应的区域标识。
在一实施例中,一共17个类别的标志物(背景除外),对应17个bitmap。
参见图5,bitmap为8*8的区域标识,该bitmap包括64个ROI区域,每个ROI区域均进行了标识,当ROI区域为1时,则表明该ROI区域存在该类别的标志物;当ROI区域为0时,则表明该ROI区域不存在该类别的标志物。
RNN隐藏层一共三个输出,分别记为h、b、f。
其中,h为RNN隐藏层自身的输出,表示各ROI区域中所述待检测标志物的占比,参见图3,该输出同时作为下一次迭代RNN隐藏层的输入。
b为bitmap(17类对应17个bitmap),本实施例中每个目标(即每个待识别的行人标志物)在对应ROI区域中的占比超过预设占比阈值(例如0.1),则在bitmap中,该ROI区域标识为1,否则,该ROI区域标识为0。
f代表全连接层,h的所有节点输入到一个全连接层,获得4096维向量,作为后续判断行人标志物的特征。
又请参见图3,第一次迭代的RNN隐藏层的输入为ROI卷积层加第二接全连接层的输出。
而从第二次迭代的RNN隐藏层开始至第预设次数迭代的RNN隐藏层,每一RNN隐藏层的输入为:ROI卷积层加第二全连接层的输出以及上一次迭代的RNN隐藏层的输出。
S105:将当前RNN隐藏层输出的各ROI区域中所述待检测标志物的占比作为下一RNN隐藏层的一个输入,并对当前获得的待检测标志物的区域标识分别进行粗粒度和细粒度合并,并将粗粒度合并后的区域标识与所述图像特征、细粒度合并后的区域标识与所述图像特征分别作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及所述下一RNN隐藏层。
其中,下一RNN隐藏层为当前RNN隐藏层的下一个RNN隐藏层,该下一RNN隐藏层将当前RNN隐藏层的输出作为一个输入,并将粗粒度或细粒度合并后得到的区域标识经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层的输出作为另一个输入。
需要说明的是,在步骤S105中,第二全连接层输出的是合并之后的区域的比例值向量,例如18维比例值向量,但输入给RNN隐藏层的是合并之前的18维比例值向量(保证RNN隐藏层的输入是一致的),故需要做一个转换,将合并之后的18维比例值向量直接复制到该合并之后的区域对应的各个ROI区域,即每个ROI区域都使用相同的18维比例值向量。本实施例中,所述细粒度合并和粗粒度合并包括:对各标志物的区域标识进行扫描,所述扫描包括交替进行的行扫描和列扫描,且所述行扫描的行数以及列扫描的列数是逐渐递增的;
每次行扫描或列扫描后的区域标识与所述图像特征作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,并将当前RNN隐藏层的输出作为下一次扫描的RNN隐藏层的一个输入,将当前RNN隐藏层的输出与预设占比阈值比较所获得的待检测标志物的区域标识作为下一次扫描的对象,将当前扫描后的区域标识与所述图像特征作为下一次新的输入,直至所述行扫描或列扫描的次数均为预设次数。
另外,对于细粒度合并:单行或单列扫描时,则在扫描方向上合并相邻两个目标区域;多行扫描时,当多行ROI区域的同一列上的目标区域占比超过预设占比阈值,则合并该列;多列扫描时,当多列ROI区域的同一行上的目标区域占比超过预设占比阈值,则合并该行;
对于粗粒度合并:在细粒度合并的基础上,将细粒度合并区域前后两个非目标区域也合并,若在将细粒度合并区域与前后两个非目标区域合并之后,发现新的相邻目标区域,则合并该新的相邻目标区域。
参见图3,本实施例中,所述扫描方向包括行扫描(即横向扫描)和列扫描(即纵向扫描),在粗粒度合并时,行扫描和列扫描是交替进行的,且扫描的行数或列数是逐渐增加的,即按照每次一行、每次两行…每次N行(或者每次一列、每次两列、…、每次N列)的顺序逐渐增加。
同样地,在粗粒度合并时,行扫描和列扫描也是交替进行的,且扫描的行数或列数是逐渐增加的,即按照每次一行、每次两行…每次N行(或者每次一列、每次两列、…、每次N列)的顺序逐渐增加。
需要说明的是,N(即预设次数)的取值与待检测标志物占整个监控图像的比例有关,当待检测标志物占整个监控图像的比例越大时,N的取值越大,即,N的取值与待检测标志物占整个监控图像的比例成正比。
本实施例中,N的取值范围为5~10,例如,5、6、7、8或10中的任一数值。
其中,行扫描和列扫描的次数是相等的,均为N次。
在要求更高的场合,为更进一步增加监控图像中上下文的关系,可以增加斜方向扫描(例如45°和135°两个斜向方向的扫描),斜方向上的扫描与行扫描、列扫描的采用的策略相同。
本实施例中,扫描的基本策略具体包括:在扫描方向上有相邻为1(有目标的区域)的即予以合并(成为一个ROI区域),如果是多行(多列)扫描,则对应行数(或列数)有超过60%的区域数量为1,则认为该列(行)有效,即合并该列(行)并标识为1。
参见图6,采用三行扫描,则同一列上有两个或三个ROI区域为1,则认为有效,该列被标识为1。
对于细粒度合并,则严格按照标识为1的相邻ROI区域合并。对于粗粒度合并,则在相邻为1的ROI区域合并基础上,增加前后两个非1的ROI区域合并进来,如果合并之后又发现新的相邻为1的ROI区域,则再次合并,直至不存在相邻为1的ROI区域。
S106:将每一RNN隐藏层输出的所述待检测标志物对应的区域标识输入至第三全连接层,学习获得所述待检测标志物对应的比例值,若所述比例值大于等于预设比例阈值,则判断存在该待检测标志物。
需要说明的是,本实施例还包括参数训练过程,预设比例阈值的大小可根据参数训练结果设定,本实施例中,预设比例阈值位于大于等于0.6且小于等于0.8。
参数训练过程与上述行人标志物识别方法的过程相类似,唯一的区别在于,在参数训练过程中,步骤S106在学习获得训练样本中各类别的标志物对应的比例值后,会根据获得的各类别的标志物对应的比例值来设定所述预设比例阈值,以在进行行人标志物识别时,可根据参数训练获得的预设比例阈值,来判断是否存在待检测的标志物。
本实施例中,对于端到端的训练或识别,最终的代价函数需要定义一个目标属性向量,该目标属性向量的维数可根据待检测的标志物的类别数量来决定。
例如,对于行人是否携带手提包,单肩包,双肩包,拉杆箱,帽子和伞六种情况,使用一个6维的布尔值向量来表示,携带了置为1,否则置为0。
对于每一个标志物,单独计算其二分类的交叉熵代价函数,然后6个代价函数的结果取平均作为最终的代价。需要注意,这里的6个类别是相互独立的,并非只有一个为1,所以不能采取多分类的交叉熵代价函数直接计算其代价。
另外,直接端到端的训练或识别耗时较长,为了加快训练或识别的速度,提高训练效率,所述RNN隐藏层包括代价函数,所述代价函数由当前RNN隐藏层的输出与待检测标志物的真值比例而生成,且所述代价函数的输出用于反向传递给所述当前RNN隐藏层。
RNN隐藏层的代价函数是通过RNN隐藏层的输出和真值比例的比较而生成的,代表有监督信号对当前RNN隐藏层输出的反馈,用于反向传递给当前RNN隐藏层,训练***参数,从而获得当前RNN隐藏层的输出更接近真值比例。
计算当前ROI区域的类别占比和真值(ground truth)比例之间的差异δr,其计算公式如下:
公式(1)中,k为监控图像中的ROI区域,由于本实施例中的监控图像被分割成225个ROI区域,1至225分别代表各ROI区域;
i为类别(即标志物),本实施例包括18个类别;
λki为各类别在相应ROI区域下的权值;
x为各ROI区域的类别占比;
h为真值比例。
如图7所示,为本申请提供的行人标志物识别装置的结构框图,与上行人标志物识别方法相对应,可参照上述行人标志物识别方法的实施例来理解或解释该行人标志物识别装置的内容。
参见图3,本申请提供的一种行人标志物识别装置,所述装置可包括分割模块100、特征提取模块200、第一处理模块300、第二处理模块400、第三处理模块500以及学习模块600。
其中,分割模块100,对监控图像进行分割,获得若干ROI区域;
特征提取模块200,将监控图像输入Fast RCNN的ZF网络,获得所述监控图像的图像特征;
第一处理模块300,将所述ROI区域和图像特征作为输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,获得各ROI区域中待检测标志物的占比;
第二处理模块400,根据各ROI区域中所述待检测标志物的占比以及预设占比阈值,获得待检测标志物对应的区域标识
第三处理模块500,将当前RNN隐藏层输出的各ROI区域中所述待检测标志物的占比作为下一RNN隐藏层的一个输入,并对当前获得的待检测标志物的区域标识分别进行粗粒度和细粒度合并,并将粗粒度合并后的区域标识与所述图像特征、细粒度合并后的区域标识与所述图像特征分别作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及所述下一RNN隐藏层;
学习模块600,将每一RNN隐藏层输出的所述待检测标志物对应的区域标识输入至第三全连接层,学习获得所述待检测标志物对应的比例值,若所述比例值大于等于预设比例阈值,则判断存在该待检测标志物。
进一步地,所述特征提取模块200可以包括:将所述监控图像依次经所述ZF网络的前四个卷积层,获得所述监控图像的图像特征。
进一步地,所述RNN隐藏层包括代价函数,所述代价函数由当前RNN隐藏层的输出和标志物的真值比例而生成,且所述代价函数的输出用于反向传递给所述当前RNN隐藏层。
进一步地,所述第二处理模块400可以包括:
当ROI区域中所述待检测标志物的占比超过预设占比阈值,则认为该ROI区域存在所述待检测标志物,该ROI区域被设定为预设标识值,该ROI区域为目标区域;否则,该ROI区域不存在所述待检测标志物,该ROI区域被设定为非所述预设标识值的另一值,该ROI区域为非目标区域。
进一步地,所述细粒度合并和粗粒度合并包括:对各标志物的区域标识进行扫描,所述扫描包括交替进行的行扫描和列扫描,且所述行扫描的行数以及列扫描的列数是逐渐递增的;
每次行扫描或列扫描后的区域标识与所述图像特征作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,并将当前RNN隐藏层的输出作为下一次扫描的RNN隐藏层的一个输入,将当前RNN隐藏层的输出与预设占比阈值比较所获得的待检测标志物的区域标识作为下一次扫描的对象,将当前扫描后的区域标识与所述图像特征作为下一次新的输入,直至所述行扫描或列扫描的次数均为预设次数。
进一步地,对于细粒度合并,单行或单列扫描时,则在扫描方向上合并相邻两个目标区域;
多行扫描时,当多行ROI区域的同一列上的目标区域占比超过预设占比阈值,则合并该列;
多列扫描时,当多列ROI区域的同一行上的目标区域占比超过预设占比阈值,则合并该行;
对于粗粒度合并,在细粒度合并的基础上,将细粒度合并区域前后两个非目标区域也合并,若在将细粒度合并区域与前后两个非目标区域合并之后,发现新的相邻目标区域,则合并该新的相邻目标区域。
综上所述,本申请的行人标志物识别方法及装置基于图像分割和粗、细粒度区域融合,通过RNN隐藏层逐级迭代的方式对行人标志物进行识别,充分考虑了监控图像上下文关系,只确认行人是否携带有标志物(例如箱、帽、包、伞等),有效解决了传统行人标志物识别过程中的漏检率、误检率和多检率较高的情况,尤其适用于不同的检测环境,对于标志物存在较大比率的遮挡情况(例如只显露单肩包带、双肩包带、箱子拉杆等)下,能够基于行人标志物特征准确的判别。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (12)
1.一种行人标志物识别方法,其特征在于,所述方法包括:
对监控图像进行分割,获得若干ROI区域;
将监控图像输入Fast RCNN的ZF网络,获得所述监控图像的图像特征;
将所述ROI区域和图像特征作为输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,获得各ROI区域中待检测标志物的占比;
根据各ROI区域中所述待检测标志物的占比以及预设占比阈值,获得待检测标志物对应的区域标识;
将当前RNN隐藏层输出的各ROI区域中所述待检测标志物的占比作为下一RNN隐藏层的一个输入,并对当前获得的待检测标志物的区域标识分别进行粗粒度和细粒度合并,并将粗粒度合并后的区域标识与所述图像特征、细粒度合并后的区域标识与所述图像特征分别作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及所述下一RNN隐藏层;
将每一RNN隐藏层输出的所述待检测标志物对应的区域标识输入至第三全连接层,学习获得所述待检测标志物对应的比例值,若所述比例值大于等于预设比例阈值,则判断存在该待检测标志物。
2.如权利要求1所述的行人标志物识别方法,其特征在于,所述将监控图像输入FastRCNN的ZF网络,获得所述监控图像的图像特征,具体包括:
将所述监控图像依次经所述ZF网络的前四个卷积层,获得所述监控图像的图像特征。
3.如权利要求1所述的行人标志物识别方法,其特征在于,所述RNN隐藏层包括代价函数,所述代价函数由当前RNN隐藏层的输出和标志物的真值比例而生成,且所述代价函数的输出用于反向传递给所述当前RNN隐藏层。
4.如权利要求1所述的行人标志物识别方法,其特征在于,所述待检测标志物对应的区域标识的获取过程包括:
当ROI区域中所述待检测标志物的占比超过预设占比阈值,则认为该ROI区域存在所述待检测标志物,该ROI区域被设定为预设标识值,该ROI区域为目标区域;否则,该ROI区域不存在所述待检测标志物,该ROI区域被设定为非所述预设标识值的另一值,该ROI区域为非目标区域。
5.如权利要求4所述的行人标志物识别方法,其特征在于,所述细粒度合并和粗粒度合并包括:对各标志物的区域标识进行扫描,所述扫描包括交替进行的行扫描和列扫描,且所述行扫描的行数以及列扫描的列数是逐渐递增的;
每次行扫描或列扫描后的区域标识与所述图像特征作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,并将当前RNN隐藏层的输出作为下一次扫描的RNN隐藏层的一个输入,将当前RNN隐藏层的输出与预设占比阈值比较所获得的待检测标志物的区域标识作为下一次扫描的对象,将当前扫描后的区域标识与所述图像特征作为下一次新的输入,直至所述行扫描或列扫描的次数均为预设次数。
6.如权利要求5所述的行人标志物识别方法,其特征在于,对于细粒度合并,单行或单列扫描时,则在扫描方向上合并相邻两个目标区域;
多行扫描时,当多行ROI区域的同一列上的目标区域占比超过预设占比阈值,则合并该列;
多列扫描时,当多列ROI区域的同一行上的目标区域占比超过预设占比阈值,则合并该行;
对于粗粒度合并,在细粒度合并的基础上,将细粒度合并区域前后两个非目标区域也合并,若在将细粒度合并区域与前后两个非目标区域合并之后,发现新的相邻目标区域,则合并该新的相邻目标区域。
7.一种行人标志物识别装置,其特征在于,所述装置包括:
分割模块,对监控图像进行分割,获得若干ROI区域;
特征提取模块,将监控图像输入Fast RCNN的ZF网络,获得所述监控图像的图像特征;
第一处理模块,将所述ROI区域和图像特征作为输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,获得各ROI区域中待检测标志物的占比;
第二处理模块,根据各ROI区域中所述待检测标志物的占比以及预设占比阈值,获得待检测标志物对应的区域标识
第三处理模块,将当前RNN隐藏层输出的各ROI区域中所述待检测标志物的占比作为下一RNN隐藏层的一个输入,并对当前获得的待检测标志物的区域标识分别进行粗粒度和细粒度合并,并将粗粒度合并后的区域标识与所述图像特征、细粒度合并后的区域标识与所述图像特征分别作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及所述下一RNN隐藏层;
学习模块,将每一RNN隐藏层输出的所述待检测标志物对应的区域标识输入至第三全连接层,学习获得所述待检测标志物对应的比例值,若所述比例值大于等于预设比例阈值,则判断存在该待检测标志物。
8.如权利要求7所述的行人标志物识别装置,其特征在于,所述特征提取模块包括:将所述监控图像依次经所述ZF网络的前四个卷积层,获得所述监控图像的图像特征。
9.如权利要求7所述的行人标志物识别装置,其特征在于,所述RNN隐藏层包括代价函数,所述代价函数由当前RNN隐藏层的输出和标志物的真值比例而生成,且所述代价函数的输出用于反向传递给所述当前RNN隐藏层。
10.如权利要求7所述的行人标志物识别装置,其特征在于,所述第二处理模块包括:
当ROI区域中所述待检测标志物的占比超过预设占比阈值,则认为该ROI区域存在所述待检测标志物,该ROI区域被设定为预设标识值,该ROI区域为目标区域;否则,该ROI区域不存在所述待检测标志物,该ROI区域被设定为非所述预设标识值的另一值,该ROI区域为非目标区域。
11.如权利要求10所述的行人标志物识别装置,其特征在于,所述细粒度合并和粗粒度合并包括:对各标志物的区域标识进行扫描,所述扫描包括交替进行的行扫描和列扫描,且所述行扫描的行数以及列扫描的列数是逐渐递增的;
每次行扫描或列扫描后的区域标识与所述图像特征作为新的输入,依次经ROI池化层、两个第一全连接层、ROI卷积层、第二全连接层以及RNN隐藏层,并将当前RNN隐藏层的输出作为下一次扫描的RNN隐藏层的一个输入,将当前RNN隐藏层的输出与预设占比阈值比较所获得的待检测标志物的区域标识作为下一次扫描的对象,将当前扫描后的区域标识与所述图像特征作为下一次新的输入,直至所述行扫描或列扫描的次数均为预设次数。
12.如权利要求11所述的行人标志物识别装置,其特征在于,对于细粒度合并,单行或单列扫描时,则在扫描方向上合并相邻两个目标区域;
多行扫描时,当多行ROI区域的同一列上的目标区域占比超过预设占比阈值,则合并该列;
多列扫描时,当多列ROI区域的同一行上的目标区域占比超过预设占比阈值,则合并该行;
对于粗粒度合并,在细粒度合并的基础上,将细粒度合并区域前后两个非目标区域也合并,若在将细粒度合并区域与前后两个非目标区域合并之后,发现新的相邻目标区域,则合并该新的相邻目标区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611198541.5A CN106855944B (zh) | 2016-12-22 | 2016-12-22 | 行人标志物识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611198541.5A CN106855944B (zh) | 2016-12-22 | 2016-12-22 | 行人标志物识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106855944A true CN106855944A (zh) | 2017-06-16 |
CN106855944B CN106855944B (zh) | 2020-01-14 |
Family
ID=59126996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611198541.5A Active CN106855944B (zh) | 2016-12-22 | 2016-12-22 | 行人标志物识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106855944B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171255A (zh) * | 2017-11-22 | 2018-06-15 | 广东数相智能科技有限公司 | 基于图像识别的图片联想强度评分方法及装置 |
CN109614925A (zh) * | 2017-12-07 | 2019-04-12 | 深圳市商汤科技有限公司 | 服饰属性识别方法和装置、电子设备、存储介质 |
CN110008927A (zh) * | 2019-04-15 | 2019-07-12 | 河南大华安防科技股份有限公司 | 一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法 |
CN110264444A (zh) * | 2019-05-27 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 基于弱分割的损伤检测方法及装置 |
CN110383330A (zh) * | 2018-05-30 | 2019-10-25 | 深圳市大疆创新科技有限公司 | 池化装置和池化方法 |
CN110598654A (zh) * | 2019-09-18 | 2019-12-20 | 合肥工业大学 | 多粒度交叉模态特征融合行人再识别方法和再识别*** |
US10783643B1 (en) | 2019-05-27 | 2020-09-22 | Alibaba Group Holding Limited | Segmentation-based damage detection |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104036323A (zh) * | 2014-06-26 | 2014-09-10 | 叶茂 | 一种基于卷积神经网络的车辆检测方法 |
CN105719499A (zh) * | 2016-04-21 | 2016-06-29 | 百度在线网络技术(北京)有限公司 | 交通标志识别测试方法和装置 |
CN105868785A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 基于卷积神经网络的图片鉴别方法及*** |
-
2016
- 2016-12-22 CN CN201611198541.5A patent/CN106855944B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104036323A (zh) * | 2014-06-26 | 2014-09-10 | 叶茂 | 一种基于卷积神经网络的车辆检测方法 |
CN105868785A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 基于卷积神经网络的图片鉴别方法及*** |
CN105719499A (zh) * | 2016-04-21 | 2016-06-29 | 百度在线网络技术(北京)有限公司 | 交通标志识别测试方法和装置 |
Non-Patent Citations (2)
Title |
---|
何东梅: "细粒度物体分类算法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
姚钦文: "基于卷积神经网络的车脸识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171255A (zh) * | 2017-11-22 | 2018-06-15 | 广东数相智能科技有限公司 | 基于图像识别的图片联想强度评分方法及装置 |
CN109614925A (zh) * | 2017-12-07 | 2019-04-12 | 深圳市商汤科技有限公司 | 服饰属性识别方法和装置、电子设备、存储介质 |
CN110383330A (zh) * | 2018-05-30 | 2019-10-25 | 深圳市大疆创新科技有限公司 | 池化装置和池化方法 |
WO2019227322A1 (zh) * | 2018-05-30 | 2019-12-05 | 深圳市大疆创新科技有限公司 | 池化装置和池化方法 |
CN110008927A (zh) * | 2019-04-15 | 2019-07-12 | 河南大华安防科技股份有限公司 | 一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法 |
CN110264444A (zh) * | 2019-05-27 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 基于弱分割的损伤检测方法及装置 |
CN110264444B (zh) * | 2019-05-27 | 2020-07-17 | 阿里巴巴集团控股有限公司 | 基于弱分割的损伤检测方法及装置 |
US10783643B1 (en) | 2019-05-27 | 2020-09-22 | Alibaba Group Holding Limited | Segmentation-based damage detection |
US11004204B2 (en) | 2019-05-27 | 2021-05-11 | Advanced New Technologies Co., Ltd. | Segmentation-based damage detection |
CN110598654A (zh) * | 2019-09-18 | 2019-12-20 | 合肥工业大学 | 多粒度交叉模态特征融合行人再识别方法和再识别*** |
CN110598654B (zh) * | 2019-09-18 | 2022-02-11 | 合肥工业大学 | 多粒度交叉模态特征融合行人再识别方法和再识别*** |
Also Published As
Publication number | Publication date |
---|---|
CN106855944B (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106855944A (zh) | 行人标志物识别方法及装置 | |
CN109543606B (zh) | 一种加入注意力机制的人脸识别方法 | |
CN107832672B (zh) | 一种利用姿态信息设计多损失函数的行人重识别方法 | |
CN107423701A (zh) | 基于生成式对抗网络的人脸非监督特征学习方法及装置 | |
CN102081734B (zh) | 对象检测装置及其学习装置 | |
CN107463920A (zh) | 一种消除局部遮挡物影响的人脸识别方法 | |
CN106529448A (zh) | 利用聚合通道特征进行多视角人脸检测的方法 | |
CN107657249A (zh) | 多尺度特征行人重识别的方法、装置、存储介质及处理器 | |
CN110287805A (zh) | 基于三流卷积神经网络的微表情识别方法及*** | |
CN105447529A (zh) | 一种服饰检测及其属性值识别的方法和*** | |
CN103714181B (zh) | 一种层级化的特定人物检索方法 | |
CN110210474A (zh) | 目标检测方法及装置、设备及存储介质 | |
CN107958255A (zh) | 一种基于图像的目标检测方法及装置 | |
CN109815867A (zh) | 一种人群密度估计和人流量统计方法 | |
CN107506786A (zh) | 一种基于深度学习的属性分类识别方法 | |
Mozaffari et al. | Gender classification using single frontal image per person: combination of appearance and geometric based features | |
CN103824059A (zh) | 一种基于视频图像序列的人脸表情识别方法 | |
CN107944399A (zh) | 一种基于卷积神经网络目标中心模型的行人重识别方法 | |
CN107545243A (zh) | 基于深度卷积模型的黄种人脸识别方法 | |
CN107025420A (zh) | 视频中人体行为识别的方法和装置 | |
CN107944416A (zh) | 一种通过视频进行真人验证的方法 | |
CN107066941A (zh) | 一种人脸识别方法和*** | |
JP7490359B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN109101915A (zh) | 基于深度学习的人脸与行人及属性识别网络结构设计方法 | |
CN112801015A (zh) | 一种基于注意力机制的多模态人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200602 Address after: 250001 whole floor, building 3, Aosheng building, 1166 Xinluo street, Jinan area, Jinan pilot Free Trade Zone, Shandong Province Patentee after: Jinan boguan Intelligent Technology Co., Ltd Address before: Hangzhou City, Zhejiang province 310051 Binjiang District West Street Jiangling Road No. 88 building 10 South Block 1-11 Patentee before: ZHEJIANG UNIVIEW TECHNOLOGIES Co.,Ltd. |