CN110807434A - 一种基于人体解析粗细粒度结合的行人重识别***及方法 - Google Patents
一种基于人体解析粗细粒度结合的行人重识别***及方法 Download PDFInfo
- Publication number
- CN110807434A CN110807434A CN201911078998.6A CN201911078998A CN110807434A CN 110807434 A CN110807434 A CN 110807434A CN 201911078998 A CN201911078998 A CN 201911078998A CN 110807434 A CN110807434 A CN 110807434A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- human body
- module
- image
- video data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种基于人体解析粗细粒度结合的行人重识别***,包括参数预训练初始化模块、监控视频数据读取模块、视频图像分析模块、行人特征提取模块、人体重识别模型加载模块、用户检索模块;所述参数预训练初始化模块用于在公开数据集中进行参数预训练初始化网络,得到行人重识别网络模型;监控视频数据读取模块用于上传和读取视频数据,并发送给视频图像分析模块;与现有技术相比,本发明的有益效果是:从人体解析方面考虑,本发明采用粗细粒度结合的方式设计神经网络模型,注重不同层次的人体语义,使得提取到更具判别力的行人特征,提高准确性;还有的是,结合知识蒸馏思想设计损失函数,优化网络的训练有效地降低行人重识别的识别时间,提高效率。
Description
技术领域
本发明涉及行人重识别领域,尤其涉及一种基于人体解析粗细粒度结合的行 人重识别***。
背景技术
面对海量的视频,传统依靠人工对录像进行分析是一件非常耗费人力的事情, 同时长时间观察容易使工作人员产生视觉疲劳而导致一定的错误。针对传统人工 搜索中存在的问题,人们开始重视如何依靠计算机视觉技术来准确、高效地从海 量视频中完成感兴趣行人的检索问题,因此,利用计算机视觉中的行人重识别 (Person Re-Identification)技术辅助甚至代替工作人员来对不同摄像头下的 视频中的行人进行分析。
行人重识别旨在从具有不同摄像机视角的给定图像集中检索相同的行人,与 需要待识别人的配合且要求高质量的图片的人脸识别技术不同,该技术不需要行 人的配合并且可以对复杂场景下低分辨率的行人图像进行识别,通过该技术能快 速地查询到感兴趣行人在监控摄像头网络中的出现情况,其在智能安防领域、人 机交互领域、新零售领域中都有广泛的应用前景。
目前的行人重识别研究工作主要在于如何对行人图片进行特征提取,得到能 够应对不同摄像头场景复杂变化的鲁棒特征,以实现对目标行人的准确匹配。传 统的行人重识别方法的研究主要分为两个方面:1)特征表示学习:通过设计对行 人身份具有一定不变性的特征表示来应对不同摄像头视角下行人的外观变化;2) 度量学习:通过学习将高维特征映射到新的特征空间,使在新的特征空间下相同 的人特征距离更近,不同人的特征距离更远。2014年,随着研究人员将深度学 习引入行人重识别领域,通过卷积神经网络可以将特征表示学习与度量学习以端 到端的方式进行联合优化,性能超越了传统方法,深度学习也逐渐成为了行人重 识别领域的主流方法。
在行人重识别的发展从传统方法的特征提取、度量学习两阶段到转向基于深 度学习的端到端学习过程中,基于深度学习下的行人重识别技术则采用数据驱动 以端到端的学习来提高行人图片在不同摄像头下变化特征的鲁棒性与判别能力。 目前基于深度学习的行人重识别方法已在大多公开数据集上取得了不错的结果, 但是由于这些数据集中的行人图片通常是通过人工裁剪与筛选得到,因此,目前 行人重识别技术在大型数据集ImageNet进行预训练过程中,会出现人体结构的 先验信息使用的模型往往与监控场景有较大的领域偏差,使用错误的预测结果划 分行人图片可能会增加行人重识别的错误率;另外,在待识别图像细节不同区域 特征的关注度上,行人重识别技术也往往会受光照不同、摄像头角度不同等造成 重识别缺陷问题。
发明内容
本发明所解决的问题是提供了一种基于人体解析粗细粒度结合的行人重识 别***及方法,能够有效地增强在不同的视角、姿态、光照变化下行人重识别的 准确性和效率性。
一种基于人体解析粗细粒度结合的行人重识别***,其特征在于,包括参数 预训练初始化模块、监控视频数据读取模块、视频图像分析模块、行人特征提取 模块、人体重识别模型加载模块、用户检索模块;
所述参数预训练初始化模块用于在公开数据集中进行参数预训练初始化网 络,得到行人重识别网络模型;
所述监控视频数据读取模块用于上传和读取视频数据,并发送给所述视频图 像分析模块;
所述用户检索模块用于上传待检索人体图像,并发送给所述视频图像分析模 块;
视频图像分析模块包括视频解码子模块和图像预处理子模块,所述视频解码 子模块用于对所述监控视频数据读取模块上传的视频数据进行解码并处理成可 处理的图像;所述图像预处理子模块用于提高视频解码后的图像和待检索人体图 像的视觉效果;
所述行人特征提取模块用于设计粗细粒度结合的神经网络,粗细粒度结合的 神经网络中的粗粒度分支和细粒度分支学习分别提取到视频解码后的图像和待 检索人体图像的行人特征,并储存;
所述人体重识别模型加载模块用于根据储存的行人特征和待检索人体图像 利用所述行人重识别网络模型进行检索匹配,并计算得到相似度。
上述技术方案中,更进一步的是,所述用户检索模块还用于设定相似度阈值。 设定相似度阈值可以识别到不同程度的相似度行人图片,使得识别标准更加灵活。
上述技术方案中,更进一步的是,所述人体重识别模型加载模块还用于将计 算得到的相似度反馈给所述用户检索模块。
一种如所述的行人重识别***的方法,包括以下几个步骤:
步骤A:在公开的数据集上进行参数预训练初始化网络,得到行人重识 别网络模型;
步骤B:在所述监控视频数据读取模块中上传、读取视频数据;所述视 频解码子模块将视频数据进行解码,处理成可采用的图片格式,对其进行图 像预处理,再利用设计的粗细粒度结合的神经网络模型,其包括粗粒度分支 和细粒度分支;对于粗粒度分支,采用知识蒸馏损失函数增强对全局特征的 提取,对于细粒度分支,采用知识蒸馏损失函数与三元组损失函数来增强对 细节特征的提取;学习到的特征进行拼接得到行人特征集合fi;再利用SE Block来学习一个特征向量重要性权值W选择性增强判别力强的特征、抑制 判别力弱的特征;
W=Sigmoid(FC(ReLU(FC(fi))))
其中,从内向外的两个FC层用来压缩和激活;
在得到行人特征向量重要性权值W后,输出行人特征f0;
f0=fi*W+fi
并储存;
步骤C:在所述检索模块中上传待检索人体图像,利用步骤B计算输出 待检索人体图像的行人特征;
步骤D:所述行人重识别网络模型根据所述待检索人体图像的行人特征, 在视频解码后的图像中以一定的帧隔间抽取检测、计算行人特征相似度,若 高于阀值,将其保存并以相似度大小排列返回。
上述技术方案中,更进一步的是,在步骤B中,所述图片格式可以为JPG、 PNG。支持多种格式的图片,提高适应广度。
上述技术方案中,更进一步的是,在步骤B中,所述视频数据来自监控 摄像头。
根上述技术方案中,更进一步的是,在步骤B中,所述图像预处理是指 对图像进行失真处理。使得图像提高品质,减少干扰信息影响行人特征的提 取。
上述技术方案中,更进一步的是,在步骤B中,所述行人特征f0以.mat 文件储存。便于以后查询。
上述技术方案中,更进一步的是,在步骤D中,使用FPN-Person对视频 解码后的图像进行检测。
上述技术方案中,更进一步的是,在步骤D中,若视频解码后的图像已 经进行行人特征提取,则使用CFNet对上传的待检索人体图像提取行人特征, 并读取对应的.mat文件中出现的行人特征。
与现有技术相比,本发明的有益效果是:从人体解析方面考虑,本发明采用 粗细粒度结合的方式设计神经网络模型,注重不同层次的人体语义,使得提取到 更具判别力的行人特征,提高准确性;还有的是,结合知识蒸馏思想设计损失函 数,优化网络的训练有效地降低行人重识别的识别时间,提高效率。
附图说明
图1为本发明所述行人重识别***的模块框架图。
图2为本发明所述行人重识别***的方法流程图。
图3为本发明所述行人重识别***的方法中人体语义注意图示意图。
图4为本发明所述行人重识别***的行人重识别网络模型示意图。
图5为本发明所述行人重识别***中相似性信息三分类示意图。
图6为本发明所述行人重识别***中的用户检索模块启动流程示意图。
具体实施方式
以下实施例结合附图对本发明进一步描述。
如图1—6所示,一种基于人体解析粗细粒度结合的行人重识别***,包括 参数预训练初始化模块、监控视频数据读取模块、视频图像分析模块、行人特征 提取模块、人体重识别模型加载模块、用户检索模块;
所述参数预训练初始化模块用于在公开数据集中进行参数预训练初始化网 络,得到行人重识别网络模型;
行人重识别网络模型用来检索上传的代检索行人图像和视频数据中的图像 特征相似度;
所述监控视频数据读取模块用于上传和读取视频数据,并发送给所述视频图 像分析模块;
所述监控视频数据读取模块负责对图像、视频数据的输入与输出进行管理, 包括读取用户上传的检索行人图片、指定时间段与摄像头编号下的监控视频数据。
所述用户检索模块用于上传待检索人体图像,并发送给所述视频图像分析模 块;在用户上传所需查询的行人图片以及指定好所需对比检索的视频后并点击查 询按钮后,该模块对用户上传的待检索行人图片进行读取并显示,接着对用户指 定时间段与摄像头编号下的视频数据进行读取,并在***处理结束后对处理的结 果保存于返回。
视频图像分析模块包括视频解码子模块和图像预处理子模块,所述视频解码 子模块用于对所述监控视频数据读取模块上传的视频数据进行解码并处理成可 处理的图像;所述图像预处理子模块用于提高视频解码后的图像和待检索人体图 像的视觉效果;
视频数据解码为成熟的现有技术,本实施例中不在赘述;
图像预处理的主要目的是消除图像中无关的信息,恢复有用的真实信息,增 强有关信息的可检测性、最大限度地简化数据,从而改进特征提取、图像分割、 匹配和识别的可靠性。
所述行人特征提取模块用于设计粗细粒度结合的神经网络,粗细粒度结合的 神经网络中的粗粒度分支和细粒度分支学习分别提取到视频解码后的图像和待 检索人体图像的行人特征,并储存;
所述人体重识别模型加载模块用于根据储存的行人特征和待检索人体图像 利用所述行人重识别网络模型进行检索匹配,并计算得到相似度。
本发明所述的行人重识别***的方法,具体如下:
首先,需要在ImageNet大型公开数据集上进行参数预训练初始化网络。神 经网络模型一般依靠随机梯度下降进行模型训练和参数更新,网络的最终性能与 收敛得到的最优解直接相关,而收敛结果实际上又很大程度取决于网络参数的最 开始的初始化。理想的网络参数初始化使模型训练事半功倍,相反,糟糕的初始 化方案不仅会影响网络收敛,甚至会导致梯度弥散或***,在参数预训练初始化 时,利用Batch Normalization将输入的数据分布变成高斯分布,这样可以保证 每一层神经网络的输入保持相同分布,其优点是随着网络层数的增加,分布逐渐 发生偏移,之所以收敛慢,是因为整体分布往非线性函数取值区间的上下限靠近。 这会导致反向传播时梯度消失。BN就是通过规范化的手段,把每层神经网络任 意神经元这个输入值的分布强行拉回到均值0方差1的标准正态分布,使得激活 输入值落入非线性函数中比较敏感的区域,可以让梯度变大,学习收敛速度快, 能大大加快收敛速度;
在得到行人重识别网络模型之后,在所述监控视频数据读取模块中上传、读 取视频数据;所述视频解码子模块将视频数据进行解码,处理成可采用的图片格 式,对其进行图像预处理,本实施例中,图像预处理可以是对图像的失真处理, 在图像预处理子模块对图像预处理操作时,使用图像增强操作,增强图像中的有 用信息,它是一个失真的过程,其目的是要改善图像的视觉效果,针对给定图像 的应用场合,有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清 晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴 趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足分 析的需要;
再设计一个粗细粒度结合的神经网络模型,为了让网络能够提取到不同粒度 的行人特征,设计粗细粒度结合的神经网络模型(Coarse Fine Net,CFNet),选 取ResNet-50作为骨干网络,Res Block2卷积模块后的部分被分为两个类型的 分支,其中一个为粗粒度分支(Coarse Branch),另一个为细粒度分支(Fine Branch),细粒度分支进一步分为两个子分支:上半身分支与下半身分支;如图3所示,进行人体解析注意力机制操作:通过获取的人体解析关键点来进行几何 变换计算两幅行人图像间的跨视角同一区域,目前比较流行的注意力图有一定的 相似性,因此我们将20个身体部位的概率图进行组合生成了7个人体部位的不 同层次的人体语义注意力图:M鞋子={Socks、LeftShoe、RightShoe},M头部= {Hat、Hair、Sunglasses、Face},M上体={Glove、UpperClothes、Coat、Scarf、 LeftArm、RightArm},M下体={Dress、Pants、Jumpsuits、Skirt、LeftLeg、 RightLeg},M上半部分=M上体+M头部,M下半部分=M下体+M鞋子,M全身= M上半部分+M下半部分,
通过这些语义注意图,我们可以对人体的不同部位进行定位,对于卷积神经 网络不同层输出具有不同的语义信息,本发明将人体语义注意力图采用类似注意 力机制在不同的阶段来与卷积网络不同层次的特征进行结合使网络对身体的局 部区域进行关注,在浅层提供更为宏观的语义图来捕获更多的细节特征,对于深 层逐渐提供更高级语义信息来增强抽象特征的捕获,形式定义如式所示:
Fattetnion=Fi*M+Fi
其中M∈{M全身、M上半身、M下半身、M上体、M下体、M头部、M鞋子}为不同层 次的语义注意力图,Fi为网络每层输出的特征图,Fattention为加强对局部区域关 注的特征图;
当分辨率十分低的时模型不能输出很好的分割结果时,M接近0,从而 Fattention接近Fi。通过这种方式,坏的分割结果不会产生负面影响,而好的分割 结果可以提供充分的信息提高识别的准确性,本发明生成的基于人体解析的语义 注意力图通过类似注意力机制的方式与网络结合,相比其他方法可以充分的利用 人体先验信息而不损害模型性能;
在行人重识别网络模型的训练过程中,很多工作将其看成一个分类任务使用 带有独热(One-Hot)编码标签的交叉熵函数作为损失函数进行训练。而独热编码 的标签通常没有包含类别之间的相似性信息。
对于行人重识别任务来说,目前比较常见的做法是在训练阶段将其看成一个 分类任务,使用带有独热编码标签的交叉熵损失函数来进行预测,在测试阶段舍 弃分类层,直接将全局池化层后的特征向量作为行人的特征表示进行相似性计算。 这种方式进行训练与测试二者的目的存在较大的差异,因为行人重识别的最终目 标是区分未知身份的不同行人图片的相似度而不是在训练集上简单的分类,独热 编码将数据属于的类别标记为1,其他类别标记为0,忽略了行人图片之间的相 似性信息且容易在训练集上发生过拟合,因此这种做法可能不是最优的。通过借 鉴知识蒸馏的思想,我们期望在训练阶段引入更多的相似性信息来优化网络训练 过程,进而降低训练与测试二者的差异,我们提出了知识蒸馏损失函数 (Knowledge Distillation Loss)来改进带有独热编码标签的交叉熵损失函数。
我们首先将CFNet作为老师模型在重识别数据集上进行分类训练来预测包 含行人图片相似信息的软标签,接着利用软标签和独热标编码签构成知识蒸馏损 失函数对模型重新进行训练,其数学表达式如式所示:
其中H(·)为交叉熵,pt为老师模型输出的软标签,ps为学生模型的标准 softmax函数输出,τ为温度参数控制概率分布的平滑程度,α为平衡因子平衡两 项的权重。
同时为了让网络能够学习到互补的特征,我们对不同的分支使用了不同的损 失函数进行学习以侧重不同方面的特征提取。对于粗粒度分支,采用了知识蒸馏 损失函数来注重对全局特征的提取;对于细粒度分支,采用了知识蒸馏损失函数 与三元组损失函数来增强对细节特征的提取。
行人特征提取的过程如下:首先将backbone网络(本实施例采取Resnet50 作为backbone骨干网络)在行人重识别数据集上进行训练,损失采用基于行人 ID的交叉熵损失;然后,将backbone网络与获取的行人部件区域预测结果的融 合获取行人部件特征图:即将Backbone网络的特征图与行人部件预测区域特征 图进行点乘;对backbone网络输出的特征图、行人部件特征图以及部件区域特 征图进行全局平均池化,获取全局特征、部件区域特征向量及部件可视概率;将 部件区域特征向量与部件可视概率通过1×1卷积获取部件特征权重,并与部件 区域特征向量进行点乘获取最终的部件局部特征;
不同分支学习到的行人特征拼接后通过特征选择(Feature Select Module,FSM)来突出更具判别力的特征并得到最终的行人特征表示;直接将不同分支的特 征向量拼接起来可能会忽视掉不同特征的重要性,受到Hu等人工作的启发,我 们认为学习到的行人特征向量的元素应具有不同的重要程度,本发明选用了SE Block来学习一个重要性权值W选择性地增强判别力强的特征,抑制判别力弱的 特征,该部分操作如下式所示:
W=Sigmoid(FC(ReLU(FC(fi))))
其中,从内向外的两个FC层用来压缩和激活操作。在得到特征向量重要性的 权值W后,输出特征fo计算方式如下式所示:
fo=fi*W+fi
其中*与+操作为元素间的操作,经过加强的特征与原特征向量相加进一步 增强特征的判别能力。
为了让这两个类型分支能够关注到人体不同粒度的信息,设计通过人体解析 模型来生成不同层次的人体语义注意力图(Semantic Attention Map,SAM),并 在不同的分支提供不同的语义信息引导网络的学习;另外,通过分析行人重识别 模型训练过程中常用的交叉熵损失函数存在的不足,采用知识蒸馏思想设计出知 识蒸馏损失函数(KnowledgeDistillation Loss,KD Loss)向网络提供包含行人 身份相似性信息的软标签来优化模型的训练,同时为了让两个类型分支学习的行 人特征尽可能互补,对于粗粒度分支我们仅使用知识蒸馏损失函数进行监督来侧 重全局特征的提取,而对于细粒度分支我们使用三元组损失函数(Triplet Loss) 与知识蒸馏损失函数联合监督来加强网络对细粒度特征的关注。图4为基于人体 解析粗细粒度结合的行人重识别网络模型示意图。
在所述检索模块中上传待检索人体图像,利用步骤B计算输出待检索人体图 像的行人特征;
所述行人重识别网络模型根据所述待检索人体图像的行人特征,使用 FPN-Person将根据一定的帧间隔对视频数据中出现的行人特征进行检测。
在检测完成后,对于首次查询的监控视频数据,需要利用CFNet同时对用户 上传的待检索行人图片以及检测得到的行人图片进行特征提取,并将提取到的特 征以.mat文件存储下来以便于以后的查询。
对于已经提取过特征的监控视频数据,仅需要使用CFNet对用户上传的待检 索行人图片提取特征后,直接读取对应的.mat文件视频中出现的行人特征。
计算待检索行人特征与检测行人图片的特征之间的相似性,并将相似度大于 给定阈值的行人图片按照相似度大小排序后返回给用户;
针对相似性计算,如图5所示,我们在训练一个模型进行汽车、马、斑马三 分类任务时,通常会有标签[1,0,0],[0,1,0],[0,0,1],而一个训练好 的网络预测值通常是由Softmax函数产生的概率分布,其基本形式如式所示:
其中z为网络最后一层输出的logits值,p为由softmax函数处理后对应类别的 概率值。
网络对于图5a)汽车预测的类别概率分布可能是[0.95,0.03,0.02],对 于图5b)马的预测概率分布可能是[0.06,0.73,0.21],而对于图5c)斑马的预 测概率分布可能是[0.09,0.19,0.72],从对图5b)的预测的概率分布可以看 到该图片有0.21可能性是斑马,0.06可能性是汽车,说明斑马比汽车更像马, 这个预测值包含了类别之间的相似性信息。而行人重识别任务的最终目的是比较 行人图片特征相似性信息来进行识别,由上面的分析可知使用独热编码进行训练 会忽视行人身份之间的相似信息,我们通过借鉴知识蒸馏的思想引入包含行人相 似性信息的标签来优化网络的训练与特征提取。
用户检索模块负责用户查询的交互,包括上传待检索行人图片、指定时间段 与摄像头编号以及检索结果显示与浏览的功能。用户可以选取自己需要检索的行 人图片进行上传,指定需要检索的时间段与摄像头编号,最后对***返回的检索 结果进行查看与浏览,该模块的实现流程图如图5所示;
用户首先通过Choose File按钮选取需要查询的行人图片之后由输入输出模 块读入并显示。
接着在摄像头列表中选取需要查询的摄像头编号,并在时间输入框中指定所 需查询的时间段。
在点击查询按钮后,监控视频读取模块会读取指定时间段与摄像头编号下的 视频数据,并送入视频图像分析模块、行人特征提取模块、人体重识别模型加载 模块;
最后将人体重识别模型加载模块返回的结果显示在检索结果显示界面上供 用户浏览,将用户指定摄像头编号下搜索库中相似度大于给定阈值并按照相似度 从大到小排列在前30位的行人图片作为检索结果显示。
本发明不局限于上述实施例,领域内的技术人员可在所具备的知识范围内, 在不脱离本发明宗旨的前提下做出各种变化。
Claims (10)
1.一种基于人体解析粗细粒度结合的行人重识别***,其特征在于,包括参数预训练初始化模块、监控视频数据读取模块、视频图像分析模块、行人特征提取模块、人体重识别模型加载模块、用户检索模块;
所述参数预训练初始化模块用于在公开数据集中进行参数预训练初始化网络,得到行人重识别网络模型;
所述监控视频数据读取模块用于上传和读取视频数据,并发送给所述视频图像分析模块;
所述用户检索模块用于上传待检索人体图像,并发送给所述视频图像分析模块;
视频图像分析模块包括视频解码子模块和图像预处理子模块,所述视频解码子模块用于对所述监控视频数据读取模块上传的视频数据进行解码并处理成可处理的图像;所述图像预处理子模块用于提高视频解码后的图像和待检索人体图像的视觉效果;
所述行人特征提取模块用于设计粗细粒度结合的神经网络,粗细粒度结合的神经网络中的粗粒度分支和细粒度分支学习分别提取到视频解码后的图像和待检索人体图像的行人特征,并储存;
所述人体重识别模型加载模块用于根据储存的行人特征和待检索人体图像利用所述行人重识别网络模型进行检索匹配,并计算得到相似度。
2.根据权利要求1所述的一种基于人体解析粗细粒度结合的行人重识别***,其特征在于,所述用户检索模块还用于设定相似度阈值。
3.根据权利要求1所述的一种基于人体解析粗细粒度结合的行人重识别***,其特征在于,所述人体重识别模型加载模块还用于将计算得到的相似度反馈给所述用户检索模块。
4.一种如权利要求1所述的行人重识别***的方法,其特征在于,包括以下几个步骤:
步骤A:在公开的数据集上进行参数预训练初始化网络,得到行人重识别网络模型;
步骤B:在所述监控视频数据读取模块中上传、读取视频数据;所述视频解码子模块将视频数据进行解码,处理成可采用的图片格式,对其进行图像预处理,再利用设计的粗细粒度结合的神经网络模型,其包括粗粒度分支和细粒度分支;对于粗粒度分支,采用知识蒸馏损失函数增强对全局特征的提取,对于细粒度分支,采用知识蒸馏损失函数与三元组损失函数来增强对细节特征的提取;学习到的特征进行拼接得到行人特征集合fi;再利用SEBlock来学习一个特征向量重要性权值W选择性增强判别力强的特征、抑制判别力弱的特征;
W=Sigmoid(FC(ReLU(FC(fi))))
其中,从内向外的两个FC层用来压缩和激活;
在得到行人特征向量重要性权值W后,输出行人特征f0;
f0=fi*W+fi
并储存;
步骤C:在所述检索模块中上传待检索人体图像,利用步骤B计算输出待检索人体图像的行人特征;
步骤D:所述行人重识别网络模型根据所述待检索人体图像的行人特征,在视频解码后的图像中以一定的帧隔间抽取检测、计算行人特征相似度,若高于阀值,将其保存并以相似度大小排列返回。
5.根据权利要求4中所述的行人重识别***的方法,其特征在于,在步骤B中,所述图片格式可以为JPG、PNG。
6.根据权利要求4中所述的行人重识别***的方法,其特征在于,在步骤B中,所述视频数据来自监控摄像头。
7.根据权利要求4中所述的行人重识别***的方法,其特征在于,在步骤B中,所述图像预处理是指对图像进行失真处理。
8.根据权利要求4中所述的行人重识别***的方法,其特征在于,在步骤B中,所述行人特征f0以.mat文件储存。
9.根据权利要求4中所述的行人重识别***的方法,其特征在于,在步骤D中,使用FPN-Person对视频解码后的图像进行检测。
10.根据权利要求8中所述的行人重识别***的方法,其特征在于,在步骤D中,若视频解码后的图像已经进行行人特征提取,则使用CFNet对上传的待检索人体图像提取行人特征,并读取对应的.mat文件中出现的行人特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911078998.6A CN110807434B (zh) | 2019-11-06 | 2019-11-06 | 一种基于人体解析粗细粒度结合的行人重识别***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911078998.6A CN110807434B (zh) | 2019-11-06 | 2019-11-06 | 一种基于人体解析粗细粒度结合的行人重识别***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110807434A true CN110807434A (zh) | 2020-02-18 |
CN110807434B CN110807434B (zh) | 2023-08-15 |
Family
ID=69501407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911078998.6A Active CN110807434B (zh) | 2019-11-06 | 2019-11-06 | 一种基于人体解析粗细粒度结合的行人重识别***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807434B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553205A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 无车牌信息车辆重识别方法、***、介质、视频监控*** |
CN111738362A (zh) * | 2020-08-03 | 2020-10-02 | 成都睿沿科技有限公司 | 对象识别方法及装置、存储介质及电子设备 |
CN111753092A (zh) * | 2020-06-30 | 2020-10-09 | 深圳创新奇智科技有限公司 | 一种数据处理方法、模型训练方法、装置及电子设备 |
CN111832514A (zh) * | 2020-07-21 | 2020-10-27 | 内蒙古科技大学 | 基于软多标签的无监督行人重识别方法及装置 |
CN111950411A (zh) * | 2020-07-31 | 2020-11-17 | 上海商汤智能科技有限公司 | 模型确定方法及相关装置 |
CN112233776A (zh) * | 2020-11-09 | 2021-01-15 | 江苏科技大学 | 基于视觉渐近式空洞网络的皮肤病自学习辅助判定*** |
CN113269117A (zh) * | 2021-06-04 | 2021-08-17 | 重庆大学 | 一种基于知识蒸馏的行人重识别方法 |
CN113277388A (zh) * | 2021-04-02 | 2021-08-20 | 东南大学 | 一种电动吊篮数据采集控制方法 |
CN114049609A (zh) * | 2021-11-24 | 2022-02-15 | 大连理工大学 | 基于神经架构搜索的多级聚合行人重识别方法 |
CN116052220A (zh) * | 2023-02-07 | 2023-05-02 | 北京多维视通技术有限公司 | 行人重识别方法、装置、设备及介质 |
CN116824695A (zh) * | 2023-06-07 | 2023-09-29 | 南通大学 | 一种基于特征去噪的行人再识别非局部防御方法 |
CN116935447A (zh) * | 2023-09-19 | 2023-10-24 | 华中科技大学 | 基于自适应师生结构的无监督域行人重识别方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354548A (zh) * | 2015-10-30 | 2016-02-24 | 武汉大学 | 一种基于ImageNet检索的监控视频行人重识别方法 |
CN109165738A (zh) * | 2018-09-19 | 2019-01-08 | 北京市商汤科技开发有限公司 | 神经网络模型的优化方法及装置、电子设备和存储介质 |
CN109271895A (zh) * | 2018-08-31 | 2019-01-25 | 西安电子科技大学 | 基于多尺度特征学习和特征分割的行人重识别方法 |
CN109871821A (zh) * | 2019-03-04 | 2019-06-11 | 中国科学院重庆绿色智能技术研究院 | 自适应网络的行人重识别方法、装置、设备及存储介质 |
CN109919246A (zh) * | 2019-03-18 | 2019-06-21 | 西安电子科技大学 | 基于自适应特征聚类和多重损失融合的行人重识别方法 |
CN110188611A (zh) * | 2019-04-26 | 2019-08-30 | 华中科技大学 | 一种引入视觉注意力机制的行人重识别方法及*** |
CN110245592A (zh) * | 2019-06-03 | 2019-09-17 | 上海眼控科技股份有限公司 | 一种用于提升监控场景的行人重识别率的方法 |
CN110414368A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于知识蒸馏的无监督行人重识别方法 |
-
2019
- 2019-11-06 CN CN201911078998.6A patent/CN110807434B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354548A (zh) * | 2015-10-30 | 2016-02-24 | 武汉大学 | 一种基于ImageNet检索的监控视频行人重识别方法 |
CN109271895A (zh) * | 2018-08-31 | 2019-01-25 | 西安电子科技大学 | 基于多尺度特征学习和特征分割的行人重识别方法 |
CN109165738A (zh) * | 2018-09-19 | 2019-01-08 | 北京市商汤科技开发有限公司 | 神经网络模型的优化方法及装置、电子设备和存储介质 |
CN109871821A (zh) * | 2019-03-04 | 2019-06-11 | 中国科学院重庆绿色智能技术研究院 | 自适应网络的行人重识别方法、装置、设备及存储介质 |
CN109919246A (zh) * | 2019-03-18 | 2019-06-21 | 西安电子科技大学 | 基于自适应特征聚类和多重损失融合的行人重识别方法 |
CN110188611A (zh) * | 2019-04-26 | 2019-08-30 | 华中科技大学 | 一种引入视觉注意力机制的行人重识别方法及*** |
CN110245592A (zh) * | 2019-06-03 | 2019-09-17 | 上海眼控科技股份有限公司 | 一种用于提升监控场景的行人重识别率的方法 |
CN110414368A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于知识蒸馏的无监督行人重识别方法 |
Non-Patent Citations (2)
Title |
---|
GEOFFREY HINTON ET AL.: "Distilling the Knowledge in a Neural Network" * |
ZHONG ZHANG ET AL.: "Coarse-Fine Convolutional Neural Network for Person Re-Identification in Camera Sensor Networks" * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553205A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 无车牌信息车辆重识别方法、***、介质、视频监控*** |
CN111553205B (zh) * | 2020-04-12 | 2022-11-15 | 西安电子科技大学 | 无车牌信息车辆重识别方法、***、介质、视频监控*** |
CN111753092B (zh) * | 2020-06-30 | 2024-01-26 | 青岛创新奇智科技集团股份有限公司 | 一种数据处理方法、模型训练方法、装置及电子设备 |
CN111753092A (zh) * | 2020-06-30 | 2020-10-09 | 深圳创新奇智科技有限公司 | 一种数据处理方法、模型训练方法、装置及电子设备 |
CN111832514A (zh) * | 2020-07-21 | 2020-10-27 | 内蒙古科技大学 | 基于软多标签的无监督行人重识别方法及装置 |
CN111832514B (zh) * | 2020-07-21 | 2023-02-28 | 内蒙古科技大学 | 基于软多标签的无监督行人重识别方法及装置 |
CN111950411A (zh) * | 2020-07-31 | 2020-11-17 | 上海商汤智能科技有限公司 | 模型确定方法及相关装置 |
CN111738362A (zh) * | 2020-08-03 | 2020-10-02 | 成都睿沿科技有限公司 | 对象识别方法及装置、存储介质及电子设备 |
CN112233776A (zh) * | 2020-11-09 | 2021-01-15 | 江苏科技大学 | 基于视觉渐近式空洞网络的皮肤病自学习辅助判定*** |
CN113277388A (zh) * | 2021-04-02 | 2021-08-20 | 东南大学 | 一种电动吊篮数据采集控制方法 |
CN113269117A (zh) * | 2021-06-04 | 2021-08-17 | 重庆大学 | 一种基于知识蒸馏的行人重识别方法 |
CN113269117B (zh) * | 2021-06-04 | 2022-12-13 | 重庆大学 | 一种基于知识蒸馏的行人重识别方法 |
CN114049609A (zh) * | 2021-11-24 | 2022-02-15 | 大连理工大学 | 基于神经架构搜索的多级聚合行人重识别方法 |
CN114049609B (zh) * | 2021-11-24 | 2024-05-31 | 大连理工大学 | 基于神经架构搜索的多级聚合行人重识别方法 |
CN116052220B (zh) * | 2023-02-07 | 2023-11-24 | 北京多维视通技术有限公司 | 行人重识别方法、装置、设备及介质 |
CN116052220A (zh) * | 2023-02-07 | 2023-05-02 | 北京多维视通技术有限公司 | 行人重识别方法、装置、设备及介质 |
CN116824695A (zh) * | 2023-06-07 | 2023-09-29 | 南通大学 | 一种基于特征去噪的行人再识别非局部防御方法 |
CN116935447A (zh) * | 2023-09-19 | 2023-10-24 | 华中科技大学 | 基于自适应师生结构的无监督域行人重识别方法及*** |
CN116935447B (zh) * | 2023-09-19 | 2023-12-26 | 华中科技大学 | 基于自适应师生结构的无监督域行人重识别方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN110807434B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807434A (zh) | 一种基于人体解析粗细粒度结合的行人重识别***及方法 | |
Leng et al. | A survey of open-world person re-identification | |
CN111368815B (zh) | 一种基于多部件自注意力机制的行人重识别方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN111783576B (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
CN104715023A (zh) | 基于视频内容的商品推荐方法和*** | |
CN110580460A (zh) | 基于行人身份和属性特征联合识别验证的行人再识别方法 | |
CN111563452A (zh) | 一种基于实例分割的多人体姿态检测及状态判别方法 | |
CN112069940A (zh) | 一种基于分阶段特征学习的跨域行人重识别方法 | |
CN111738048B (zh) | 一种行人再识别的方法 | |
CN110728216A (zh) | 一种基于行人属性自适应学习的无监督行人再识别方法 | |
CN110413825B (zh) | 面向时尚电商的街拍推荐*** | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
CN113221770B (zh) | 基于多特征混合学习的跨域行人重识别方法及*** | |
CN110858276A (zh) | 一种识别模型与验证模型相结合的行人重识别方法 | |
CN111815582B (zh) | 改进背景先验和前景先验的二维码区域检测方法 | |
Saqib et al. | Intelligent dynamic gesture recognition using CNN empowered by edit distance | |
CN111882000A (zh) | 一种应用于小样本细粒度学习的网络结构及方法 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及*** | |
CN113435329B (zh) | 一种基于视频轨迹特征关联学习的无监督行人重识别方法 | |
Yang et al. | Bottom-up foreground-aware feature fusion for practical person search | |
Matzen et al. | Bubblenet: Foveated imaging for visual discovery | |
CN110688512A (zh) | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 | |
CN113920470B (zh) | 一种基于自注意力机制的行人检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |