CN112949510A - 基于Faster R-CNN热红外影像人物探测方法 - Google Patents
基于Faster R-CNN热红外影像人物探测方法 Download PDFInfo
- Publication number
- CN112949510A CN112949510A CN202110251653.7A CN202110251653A CN112949510A CN 112949510 A CN112949510 A CN 112949510A CN 202110251653 A CN202110251653 A CN 202110251653A CN 112949510 A CN112949510 A CN 112949510A
- Authority
- CN
- China
- Prior art keywords
- thermal infrared
- infrared image
- training
- model
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Faster R‑CNN热红外影像人物探测方法,包括步骤:获取热红外影像;将所述热红外影像输入训练好的Faster R‑CNN深度目标检测网络,通过所述训练好的Faster R‑CNN深度目标检测网络得到所述热红外影像对应的目标标签;其中,所述目标标签包括:人物标签。通过采用Faster R‑CNN神经网络对热红外影像进行人物识别,由于热红外影像受光照强度、天气状况等因素影响较小,从而使得人物识别不受光照强度、天气状况等因素的影响,实现对人物的连续探测。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及的是一种基于Faster R-CNN热红外影像人物探测方法。
背景技术
人物探测是计算机视觉领域的一个核心问题,已经应用到了国民经济的各个方面,包括自动检测、自动驾驶、灾后救援、公共安全等方面。虽然人物探测已经吸引了许多研究者的注意力,并催生了一系列探测算法,但这些探测算法均基于可见光影像。目前流行的算法可以大致分成两类:传统方法和深度学习方法。现有技术中可见光影像受光照强度、天气状况等因素影响较大,无法夜间和恶劣天气条件下进行连续不断探测。
因此,现有技术还有待于改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于FasterR-CNN热红外影像人物探测方法,旨在解决现有技术中无法夜间和恶劣天气条件下进行连续不断探测的问题。
本发明解决技术问题所采用的技术方案如下:
一种基于Faster R-CNN热红外影像人物探测方法,其中,包括步骤:
获取热红外影像;
将所述热红外影像输入训练好的FasterR-CNN深度目标检测网络,通过所述训练好的FasterR-CNN深度目标检测网络得到所述热红外影像对应的目标标签;其中,所述目标标签包括:人物标签。
所述的基于Faster R-CNN热红外影像人物探测方法,其中,所述训练好的FasterR-CNN深度目标检测网络包括:卷积神经网络、区域候选网络、兴趣区域池化层以及分类器;所述将所述热红外影像输入训练好的Faster R-CNN深度目标检测网络,通过所述训练好的Faster R-CNN深度目标检测网络得到所述热红外影像对应的目标标签,包括:
将所述热红外影像输入所述卷积神经网络,通过所述卷积神经网络得到所述热红外影像对应的特征图谱;
将所述特征图谱输入所述区域候选网络,通过所述区域候选网络得到所述热红外影像对应的候选区域特征;
将所述特征图谱和所述候选区域特征输入所述兴趣区域池化层,通过所述兴趣区域池化层得到所述热红外图像对应的池化特征;
将所述池化特征输入所述分类器,通过所述分类器得到所述热红外影像对应的目标标签。
所述的基于Faster R-CNN热红外影像人物探测方法,其中,所述训练好的FasterR-CNN深度目标检测网络采用如下步骤得到:
获取训练数据和测试数据;
根据所述训练数据,确定训练集和验证集;
根据所述训练集对预训练模型进行训练,得到已训练的模型;其中,所述预训练模型包括:Inception网络模型或Resnet网络模型;所述预训练模型基于Coco数据集训练得到;
根据所述验证集对所述已训练的模型进行验证,得到验证结果;
当所述验证结果满足预设验证要求时,根据所述测试数据对所述已训练的模型进行测试,得到测试结果;
当所述测试结果满足预设测试要求时,将所述已训练的模型作为训练好的FasterR-CNN深度目标检测网络。
所述的基于Faster R-CNN热红外影像人物探测方法,其中,所述Inception网络模型包括:InceptionV2网络模型;所述Resnet网络模型包括:Resnet 50网络模型或Resnet101网络模型。
所述的基于Faster R-CNN热红外影像人物探测方法,其中,所述训练数据包括:原始热红外影像以及所述原始热红外影像对应的原始标注标签;所述根据所述训练集对预训练模型进行训练,得到已训练的模型,包括:
将所述原始热红外影像输入预训练模型,通过预训练模型得到所述原始热红外影像对应的生成标注标签;
根据所述生成标注标签和所述原始标注标签对所述预训练模型的模型参数进行修正,并继续执行将所述原始热红外影像输入预训练模型,通过预训练模型得到所述原始热红外影像对应的生成标注标签的步骤,直至满足预设训练条件,得到已训练的模型。
所述的基于Faster R-CNN热红外影像人物探测方法,其中,所述预设训练条件包括:损失函数值满足预设要求和/或训练次数达到预设训练次数。
所述的基于Faster R-CNN热红外影像人物探测方法,其中,所述原始热红外影像为OTCBVS benchmark数据库中的热红外影像,所述原始标注标签通过对所述原始热红外影像进行标注得到。
所述的基于Faster R-CNN热红外影像人物探测方法,其中,所述测试数据包括:测试热红外影像以及所述测试热红外影响对应的测试标注标签;所述测试热红外影像为热红外摄像机采集的影像数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现上述任一项所述探测方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项所述的探测方法的步骤。
有益效果:通过采用Faster R-CNN神经网络对热红外影像进行人物识别,由于热红外影像受光照强度、天气状况等因素影响较小,从而使得人物识别不受光照强度、天气状况等因素的影响,实现对人物的连续探测。
附图说明
图1是本发明实施例中基于Faster R-CNN热红外影像人物探测方法的流程图;
图2a是本发明实施例中基于InceptionV2的FasterR-CNN深度目标检测网络的框架图;
图2b是本发明实施例中基于Resnet 50的Faster R-CNN深度目标检测网络的框架图;
图2c是本发明实施例中基于Resnet 101的Faster R-CNN深度目标检测网络的框架图;
图3是本发明实施例中Faster R-CNN深度目标检测网络训练和验证流程图;
图4a是Inception原始模型的第一结构;
图4b是Inception原始模型的第二结构;
图5是本发明实施例中用两个3×3卷积核代替一个5×5卷积核后的InceptionV2模型结构;
图6是本发明实施例中用一个1×n卷积核和一个n×1卷积核代替一个n×n卷积核后的InceptionV2模型结构;
图7是本发明实施例中用一个3×1卷积核和一个1×3卷积核代替一个3×3卷积核后的InceptionV2模型结构;
图8是残差学习模块;
图9是传统的34层卷积神经网络结构;
图10是本发明实施例中34层残差卷积神经网络结构;
图11a是本发明实施例中34层残差网络中的2层残差学习模块;
图11b是本发明实施例中50层和101层残差网络中的3层残差学习模块;
图12是本发明实施例中Faster R-CNN深度目标检测网络的结构图;
图13是本发明实施例中Regionproposal networks结构图;
图14a是本发明实施例中FasterR-CNN InceptionV2模型训练过程中框分类器的分类损失;
图14b是本发明实施例中Faster R-CNN InceptionV2模型训练过程中框分类器的定位损失;
图15a是本发明实施例中Faster R-CNN Inception V2模型训练过程中RPN的定位损失;
图15b是本发明实施例中Faster R-CNN Inception V2模型训练过程中RPN的分类损失;
图16a是本发明实施例中FasterR-CNN InceptionV2模型训练过程中总损失;
图16b是本发明实施例中Faster R-CNN InceptionV2模型训练过程中克隆损失;
图17a是本发明实施例中FasterR-CNN InceptionV2模型验证过程中框分类器的分类损失;
图17b是本发明实施例中Faster R-CNN InceptionV2模型验证过程中框分类器的定位损失;
图18a是本发明实施例中Faster R-CNN Inception V2模型验证过程中RPN的分类损失;
图18b是本发明实施例中Faster R-CNN Inception V2模型验证过程中RPN的分类损失;
图19是本发明实施例中Faster R-CNN Inception V2模型的验证平均精度;
图20a是本发明实施例中FasterR-CNN Resnet 50模型训练过程中框分类器的分类损失;
图20b是本发明实施例中Faster R-CNN Resnet 50模型训练过程中框分类器的定位损失;
图21a是本发明实施例中Faster R-CNN Resnet 50模型训练过程中RPN的定位损失;
图21b是本发明实施例中Faster R-CNN Resnet 50模型训练过程中RPN的分类损失;
图22a是本发明实施例中Faster R-CNN Resnet 50模型训练过程中总损失;
图22b是本发明实施例中Faster R-CNN Resnet 50模型训练过程中克隆损失;
图23a是本发明实施例中Faster R-CNN Resnet 50模型验证过程中框分类器的分类损失;
图23b是本发明实施例中Faster R-CNN Resnet 50模型验证过程中框分类器的定位损失;
图24a是本发明实施例中Faster R-CNN Resnet 50模型验证过程中RPN的定位损失;
图24b是本发明实施例中Faster R-CNN Resnet 50模型验证过程中RPN的分类损失;
图25是本发明实施例中Faster R-CNN Resnet 50模型的验证平均精度;
图26a是本发明实施例中Faster R-CNN Resnet 101模型训练过程中框分类器的分类损失;
图26b是本发明实施例中Faster R-CNN Resnet 101模型训练过程中框分类器的定位损失;
图27a是本发明实施例中Faster R-CNN Resnet 101模型训练过程中RPN的定位损失;
图27b是本发明实施例中Faster R-CNN Resnet 101模型训练过程中RPN的分类损失;
图28a是本发明实施例中Faster R-CNN Resnet 101模型训练过程中总损失;
图28b是本发明实施例中Faster R-CNN Resnet 101模型训练过程中克隆损失;
图29a是本发明实施例中Faster R-CNN Resnet 101模型验证过程中框分类器的分类损失;
图29b是本发明实施例中Faster R-CNN Resnet 101模型验证过程中框分类器的定位损失;
图30a是本发明实施例中Faster R-CNN Resnet 101模型验证过程中RPN的定位损失;
图30b是本发明实施例中Faster R-CNN Resnet 101模型验证过程中RPN的分类损失;
图31是本发明实施例中Faster R-CNN Resnet 101模型的验证平均精度;
图32是本发明实施例中Faster R-CNN InceptionV2模型的测试结果;
图33是本发明实施例中Faster R-CNN Resnet 50模型的测试结果;
图34是本发明实施例中Faster R-CNN Resnet 101模型的测试结果。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请同时参阅图1-图34,本发明提供了一种基于FasterR-CNN热红外影像人物探测方法的一些实施例。
如图1所示,本发明的一种基于Faster R-CNN热红外影像人物探测方法,包括以下步骤:
步骤S100、获取热红外影像。
具体地,热红外影像是指反映目标的热红外辐射信息的影像,热红外影像可以通过热红外探测器(如,热红外摄像机)采集得到,例如,采用热红外摄像机FLIR SC660采集热红外影像。
需要说明的是,热红外影像受光照强度、天气状况等因素影响较小,也就是说,在夜间和恶劣天气条件(如下雨、下雪等)下可以得到热红外影像,从而使得探测不受光照强度、天气状况等因素的影响,拓宽了探测范围。
步骤S200、将所述热红外影像输入训练好的Faster R-CNN深度目标检测网络,通过所述训练好的Faster R-CNN深度目标检测网络得到所述热红外影像对应的目标标签;其中,所述目标标签包括:人物标签。
具体地,将热红外影像输入训练好的Faster R-CNN深度目标检测网络中,通过训练好的Faster R-CNN深度目标检测网络输出热红外影像对应的目标标签,通过训练好的Faster R-CNN深度目标检测网络对热红外影像中的目标进行识别,通过目标标签可以知道目标的分类类别。本申请中主要是对人物进行识别,因此,目标标签包括:人物标签,当然,还可以对动物进行识别,也就是说,目标标签还包括:动物标签。这里的动物是指会进行红外热辐射的动物。下面以人物探测为例进行说明。
具体地,所述训练好的Faster R-CNN深度目标检测网络包括:卷积神经网络(Convlayers)、区域候选网络(Regionproposal networks,RPN)、兴趣区域池化层(Roi pooling)以及分类器(Classification)。卷积神经网络用于提取图像特征并生成特征图谱,区域候选网络用于对特征图谱中的每一个像素点生成候选区域特征,兴趣区域池化层用于将图像特征与所选的候选区域相结合,最后通过边框回归法选择出最优的区域,进而完成目标识别与分类。
具体地,步骤S200、将所述热红外影像输入训练好的Faster R-CNN深度目标检测网络,通过所述训练好的Faster R-CNN深度目标检测网络得到所述热红外影像对应的目标标签,包括:
步骤S210、将所述热红外影像输入所述卷积神经网络,通过所述卷积神经网络得到所述热红外影像对应的特征图谱。
步骤S220、将所述特征图谱输入所述区域候选网络,通过所述区域候选网络得到所述热红外影像对应的候选区域特征。
步骤S230、将所述特征图谱和所述候选区域特征输入所述兴趣区域池化层,通过所述兴趣区域池化层得到所述热红外图像对应的池化特征。
步骤S240、将所述池化特征输入所述分类器,通过所述分类器得到所述热红外影像对应的目标标签。
卷积神经网络主要提取热红外影像中目标的特征图谱。区域候选网络主要用来生成检测框,这也是Faster R-CNN最大的优势,可以极大提高检测框的生成速度。区域候选网络的结构如图13,可以分成两条线,上面一条通过Softmax把检测框分成两类:Positive和Negative。下面一条用于计算检测框的偏移量,以便获得更为精确的检测框。最后的Proposal层则负责综合Positive检测框和偏移量获取最终的检测框,同时剔除太小或者超出边界的检测框。兴趣区域池化层用来收集输入的特征图谱和候选区域特征,综合这些信息后提取池化特征(proposal feature maps),送入后续分类器判别目标类别,从而输出目标标签。分类器利用池化特征,通过全连接(fullconnect)层与softmax激活函数计算每个池化特征的类别(如人,车,电视等),输出cls_prob概率向量;同时再次利用边框回归(bounding box regression)获得每个池化特征的位置偏移量bbox_pred,用于回归更加精确的目标检测框。
如图3所示,所述训练好的Faster R-CNN深度目标检测网络采用如下步骤得到:
A100、获取训练数据和测试数据。
具体地,所述训练数据包括:原始热红外影像以及所述原始热红外影像对应的原始标注标签。由于热红外摄像机价格昂贵以及热红外影像数据欠缺,针对热红外影像人物探测的研究较少。本申请中所述原始热红外影像为OTCBVS benchmark数据库中的热红外影像,所述原始标注标签通过对所述原始热红外影像进行标注得到。具体地,从网上下载OTCBVS benchmark数据库,该数据库从未用于热红外影像人物检测模型训练。对该数据库中热红外影像人物进行标注,得到原始标注标签,从而形成训练数据。
所述测试数据包括:测试热红外影像以及所述测试热红外影响对应的测试标注标签;所述测试热红外影像为热红外摄像机采集的影像数据。通过使用热红外摄像机FLIRSC660采集测试热红外影像,并对测试热红外影像进行标注,得到测试标注标签,用以测试检测模型的性能。
A200、根据所述训练数据,确定训练集和验证集。
具体地,对各原始热红外影像进行标注,形成训练数据后,对训练数据进行分割,得到训练集和验证集,例如,将训练数据的80%作为训练集,训练数据的20%作为验证集,训练集和测试集不重复。当然,还可以采用其它分割比例进行分割。
需要说明的是,也可以不对训练数据进行分割,直接采用训练数据进行训练,不进行验证。
A300、根据所述训练集对预训练模型进行训练,得到已训练的模型;其中,所述预训练模型包括:Inception网络模型或Resnet网络模型;所述预训练模型基于Coco数据集训练得到。
具体地,Inception网络模型或Resnet网络模型,这些预训练模型均是基于Coco数据集训练得到(如图3所示),可以直接下载预训练模型。本申请通过迁移学习的方式训练检测模型。迁移学习是指通过使用标注好的训练数据对基于公开数据的深度学习模型进行调整,从而得到目标探测模型,主要是用来解决深度学习中训练数据不足的问题的。本专利运用预训练模型方法来实施迁移学习,主要步骤包括:选择预训练模型,重复使用该预训练模型,运用训练数据微调该预训练模型。通过迁移学习的方式将训练集中的热红外影像输入预训练模型中,进行训练,同时用验证集中的数据对已训练的模型进行性能评价。
如图2a、图2b以及图2c所示,所述Inception网络模型包括:Inception V2网络模型;所述Resnet网络模型包括:Resnet 50网络模型或Resnet 101网络模型。InceptionV2是基于Inception模型建立起来的(图4)。Inception V2的原理是通过用小的卷积核分解大的卷积核,借以提高数据处理速度。用两个3×3的卷积核代替一个5×5的卷积核(图5),计算量下降28%,然后再用一个1×n卷积核和一个n×1卷积核代替一个n×n卷积核(图6),例如用一个3×1和一个1×3的卷积核代替一个3×3的卷积核(图7),计算量再次下降33%。基于此,InceptionV2结构如表1所示。
Resnet 50和Resnet 101都属于残差网络。残差网络是基于传统简单网络(图9)建立起来的。传统简单网络存在的主要问题是随着网络深度的增加,网络探测精度不增反减。为解决这一问题,采用残差学习模块(图8)。把该学习模块添加到传统简单网络中便可组建残差学习网络(图10)。用3层残差学习模块(图11b)代替34层残差网络中的2层残差学习模块(图11a)便可组建Resnet 50网络,其结构如表2所示。使用更多的3层残差学习模块可组建Resnet 101网络,其结构如表2所示。
表1:InceptionV2结构
表2:Resnet50和Resnet101结构
A400、根据所述验证集对所述已训练的模型进行验证,得到验证结果。
具体地,采用验证集对已训练的模型进行验证,得到验证结果。具体将验证集中的原始热红外影像输入已训练的模型,通过已训练的模型得到原始热红外影像对应的生成标注标签;并根据该生成标注标签以及验证集中的原始热红外影像对应的原始标注标签,得到验证结果。具体的,验证结果采用验证精度(当然,可以采用平均精度),若生成标注标签与原始标注标签一致,则表示探测正确;若生成标注标签与原始标注标签不一致,则表示探测错误。将验证集中所有原始热红外影像都输入到已训练的模型中,从而可以统计探测正确和探测错误的次数,得到验证精度。
需要说明的是,单个原始热红外影像中可以有多个目标,例如,原始热红外影像中有多个人物,每个目标都会得到一个生成标注标签,因此,可以对原始热红外影像中每个目标进行探测。
A500、当所述验证结果满足预设验证要求时,根据所述测试数据对所述已训练的模型进行测试,得到测试结果。
具体地,当验证结果满足预设验证要求时,则可进行测试,通过测试数据对已训练的模型进行测试,得到测试结果。
当验证结果不满足预设验证要求时,则仍然需要对已训练的模型进行训练,也就是说,继续采用训练集对已训练的模型进行训练,具体训练过程参见步骤A300。
验证结果采用验证精度,预设验证要求可以采用第一预设阈值,当验证精度大于第一预设阈值时,验证结果满足预设验证要求。当验证精度小于或等于第一预设阈值时,验证结果不满足预设验证要求。
在测试时,具体将测试数据中的测试热红外影像输入已训练的模型,通过已训练的模型得到测试热红外影像对应的生成标注标签;并根据该生成标注标签以及测试数据中的测试热红外影像对应的测试标注标签,得到测试结果。具体的,测试结果采用测试精度,若生成标注标签与测试标注标签一致,则表示探测正确;若生成标注标签与测试标注标签不一致,则表示探测错误。将测试数据中所有测试热红外影像都输入到已训练的模型中,从而可以统计探测正确和探测错误的次数,得到测试精度,各模型的测试结果具体如图32-图34所示。
A600、当所述测试结果满足预设测试要求时,将所述已训练的模型作为训练好的Faster R-CNN深度目标检测网络。
具体地,当测试结果满足预设测试要求时,则可将已训练的模型作为训练好的Faster R-CNN深度目标检测网络。
当测试结果不满足预设测试要求时,则仍然需要对已训练的模型进行训练,也就是说,继续采用训练集对已训练的模型进行训练,具体训练过程参见步骤A300。
测试结果采用测试精度,预设测试要求可以采用第二预设阈值,当测试精度大于第二预设阈值时,测试结果满足预设测试要求。当测试精度小于或等于第二预设阈值时,测试结果不满足预设测试要求。
本实施例的一个实现方式中,步骤A300、根据所述训练集对预训练模型进行训练,得到已训练的模型,包括:
步骤A310、将所述原始热红外影像输入预训练模型,通过预训练模型得到所述原始热红外影像对应的生成标注标签。
步骤A320、根据所述生成标注标签和所述原始标注标签对所述预训练模型的模型参数进行修正,并继续执行将所述原始热红外影像输入预训练模型,通过预训练模型得到所述原始热红外影像对应的生成标注标签的步骤,直至满足预设训练条件,得到已训练的模型。
具体地,训练参数设置如表3所示,Faster R-CNN Inception V2模型是指基于Inception V2的Faster R-CNN深度目标检测网络。Faster R-CNN Resnet 50模型是指基于Resnet 50的Faster R-CNN深度目标检测网络。Faster R-CNN Resnet 101模型是指基于Resnet 101的Faster R-CNN深度目标检测网络。各模型分为训练过程和验证过程,每个过程中均涉及分类器的损失函数和RPN的损失函数,每个损失函数均分为定位损失和分类损失,具体如图14a-图31所示。
表3:模型训练参数
具体的计算机配置信息:CPU:CPU [email protected] 2.50GHz;RAM:96.0GB;显卡:NVIDIA GeForce RTX 2080;操作***:Windows 10。
具体地,预训练模型包括:卷积神经网络、区域候选网络、兴趣区域池化层以及分类器。步骤A310、将所述原始热红外影像输入预训练模型,通过预训练模型得到所述原始热红外影像对应的生成标注标签,包括:
步骤A311、将所述原始热红外影像输入所述卷积神经网络,通过所述卷积神经网络得到所述原始热红外影像对应的特征图谱。
步骤A312、将所述特征图谱输入所述区域候选网络,通过所述区域候选网络得到所述原始热红外影像对应的候选区域特征。
步骤A313、将所述特征图谱和所述候选区域特征输入所述兴趣区域池化层,通过所述兴趣区域池化层得到所述热红外图像对应的池化特征。
步骤A314、将所述池化特征输入所述分类器,通过所述分类器得到所述原始热红外影像对应的生成标注标签。
所述预设训练条件包括:损失函数值满足预设要求和/或训练次数达到预设训练次数。
在步骤A312-步骤A314中会产生两类误差,分别为RPN Loss和Fast R-CNN Loss,每一类误差又包括分类误差和定位误差。分类误差使用交叉熵分类损失函数(CrossEntropy)来衡量,定位误差使用Smooth L1损失函数来衡量。交叉熵分类损失函数(CrossEntropy)定义:
其中,Lcls(y)表示交叉熵分类损失函数值,yi表示理想结果即正确标签向量,pj表示神经网络输出结果,∑表示求和符号,yi和pi都是一种概率分布,那么对于任意的j,应该属于[0,1],并且所有概率和为1,T表示所有j可能的取值情况。
SmoothL1函数定义:
其中,Lreg(x)表示SmoothL1损失函数值,x表示自变量,|·|表示取绝对值。
RPNLoss即为分类误差和定位误差之和,公式定义为:
式中:pi为锚点i为检测对象的预测概率,ti为锚点i的预测框坐标。Lcls为交叉熵分类损失函数,Lreg为Smooth L1损失函数。λ为参数,该参数可取10,为真值分类标志。为真值框的坐标。式中cls项由小批量大小归一化(即Ncls=256),reg项由锚点位置的数量归一化(即Nreg=2400)。
Fast R-CNN Loss即为分类误差和定位误差之和,公式定义为:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
式中:p为预测类别分数,u为真值类别分数。tu为真值框坐标,v为预测框坐标。Lcls为交叉熵分类损失函数,Lloc为Smooth L1损失函数。
本发明的创新点在于探测算法、特征提取器以及实验数据:
探测算法Faster R-CNN属于双步检测算法,该算法以其较高的检测精度而备受关注。但目前为止,Faster R-CNN主要用于可见光影像的对象提取,还未用于热红外影像人物检测上。本专利对这一算法进行了应用推广,把其应用到热红外影像的人物探测上。通过采用更为先进的卷积神经网络,提高目标物特征提取精度,进而提高模型的鲁棒性和检测精度。
随着人工智能技术的发展,新的卷积神经网络不断出现,这些卷积网络拥有更强大的对象特征提取功能,可以提取更为抽象的物体特征。与可见光影像对象相比,热红外影像中的物体信息较少,仅包含形状和亮度信息,这就需要更为强大的卷积神经网络来提取对象特征。在本发明中,三个卷积神经网络(Inception V2,Resnet50,Resnet101)用于对象特征提取,并与FasterR-CNN结合起来。
在实验数据选取上,OTCBVS benchmark数据库用于深度学习检测模型训练。这是该数据库首次用于热红外影像人物检测模型训练。
基于上述实施例中的基于Faster R-CNN热红外影像人物探测方法,本发明还提供了一种计算机设备的实施例。本发明的一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述探测方法的步骤。
基于上述实施例中的基于Faster R-CNN热红外影像人物探测方法,本发明还提供了一种计算机可读存储介质的实施例。本发明的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的探测方法的步骤。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种基于Faster R-CNN热红外影像人物探测方法,其特征在于,包括步骤:
获取热红外影像;
将所述热红外影像输入训练好的FasterR-CNN深度目标检测网络,通过所述训练好的FasterR-CNN深度目标检测网络得到所述热红外影像对应的目标标签;其中,所述目标标签包括:人物标签。
2.根据权利要求1所述的基于Faster R-CNN热红外影像人物探测方法,其特征在于,所述训练好的Faster R-CNN深度目标检测网络包括:卷积神经网络、区域候选网络、兴趣区域池化层以及分类器;所述将所述热红外影像输入训练好的Faster R-CNN深度目标检测网络,通过所述训练好的Faster R-CNN深度目标检测网络得到所述热红外影像对应的目标标签,包括:
将所述热红外影像输入所述卷积神经网络,通过所述卷积神经网络得到所述热红外影像对应的特征图谱;
将所述特征图谱输入所述区域候选网络,通过所述区域候选网络得到所述热红外影像对应的候选区域特征;
将所述特征图谱和所述候选区域特征输入所述兴趣区域池化层,通过所述兴趣区域池化层得到所述热红外图像对应的池化特征;
将所述池化特征输入所述分类器,通过所述分类器得到所述热红外影像对应的目标标签。
3.根据权利要求1所述的基于Faster R-CNN热红外影像人物探测方法,其特征在于,所述训练好的Faster R-CNN深度目标检测网络采用如下步骤得到:
获取训练数据和测试数据;
根据所述训练数据,确定训练集和验证集;
根据所述训练集对预训练模型进行训练,得到已训练的模型;其中,所述预训练模型包括:Inception网络模型或Resnet网络模型;所述预训练模型基于Coco数据集训练得到;
根据所述验证集对所述已训练的模型进行验证,得到验证结果;
当所述验证结果满足预设验证要求时,根据所述测试数据对所述已训练的模型进行测试,得到测试结果;
当所述测试结果满足预设测试要求时,将所述已训练的模型作为训练好的FasterR-CNN深度目标检测网络。
4.根据权利要求3所述的基于Faster R-CNN热红外影像人物探测方法,其特征在于,所述Inception网络模型包括:Inception V2网络模型;所述Resnet网络模型包括:Resnet 50网络模型或Resnet 101网络模型。
5.根据权利要求3所述的基于Faster R-CNN热红外影像人物探测方法,其特征在于,所述训练数据包括:原始热红外影像以及所述原始热红外影像对应的原始标注标签;所述根据所述训练集对预训练模型进行训练,得到已训练的模型,包括:
将所述原始热红外影像输入预训练模型,通过预训练模型得到所述原始热红外影像对应的生成标注标签;
根据所述生成标注标签和所述原始标注标签对所述预训练模型的模型参数进行修正,并继续执行将所述原始热红外影像输入预训练模型,通过预训练模型得到所述原始热红外影像对应的生成标注标签的步骤,直至满足预设训练条件,得到已训练的模型。
6.根据权利要求5所述的基于Faster R-CNN热红外影像人物探测方法,其特征在于,所述预设训练条件包括:损失函数值满足预设要求和/或训练次数达到预设训练次数。
7.根据权利要求5所述的基于Faster R-CNN热红外影像人物探测方法,其特征在于,所述原始热红外影像为OTCBVS benchmark数据库中的热红外影像,所述原始标注标签通过对所述原始热红外影像进行标注得到。
8.根据权利要求6所述的基于Faster R-CNN热红外影像人物探测方法,其特征在于,所述测试数据包括:测试热红外影像以及所述测试热红外影响对应的测试标注标签;所述测试热红外影像为热红外摄像机采集的影像数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述探测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的探测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251653.7A CN112949510A (zh) | 2021-03-08 | 2021-03-08 | 基于Faster R-CNN热红外影像人物探测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251653.7A CN112949510A (zh) | 2021-03-08 | 2021-03-08 | 基于Faster R-CNN热红外影像人物探测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112949510A true CN112949510A (zh) | 2021-06-11 |
Family
ID=76228731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110251653.7A Pending CN112949510A (zh) | 2021-03-08 | 2021-03-08 | 基于Faster R-CNN热红外影像人物探测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949510A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067186A (zh) * | 2021-09-26 | 2022-02-18 | 北京建筑大学 | 一种行人检测方法、装置、电子设备及存储介质 |
CN114187480A (zh) * | 2022-01-05 | 2022-03-15 | 北京瀚远医药科技有限公司 | 一种基于深度学习的骨髓象细胞影像图检测分类方法及其*** |
US11972613B1 (en) * | 2022-10-28 | 2024-04-30 | Zoox, Inc. | Apparatus and methods for atmospheric condition detection |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845430A (zh) * | 2017-02-06 | 2017-06-13 | 东华大学 | 基于加速区域卷积神经网络的行人检测与跟踪方法 |
CN108596030A (zh) * | 2018-03-20 | 2018-09-28 | 杭州电子科技大学 | 基于Faster R-CNN的声呐目标检测方法 |
CN108921083A (zh) * | 2018-06-28 | 2018-11-30 | 浙江工业大学 | 基于深度学习目标检测的非法流动摊贩识别方法 |
CN110009628A (zh) * | 2019-04-12 | 2019-07-12 | 南京大学 | 一种针对连续二维图像中多形态目标的自动检测方法 |
CN110503097A (zh) * | 2019-08-27 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置及存储介质 |
-
2021
- 2021-03-08 CN CN202110251653.7A patent/CN112949510A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845430A (zh) * | 2017-02-06 | 2017-06-13 | 东华大学 | 基于加速区域卷积神经网络的行人检测与跟踪方法 |
CN108596030A (zh) * | 2018-03-20 | 2018-09-28 | 杭州电子科技大学 | 基于Faster R-CNN的声呐目标检测方法 |
CN108921083A (zh) * | 2018-06-28 | 2018-11-30 | 浙江工业大学 | 基于深度学习目标检测的非法流动摊贩识别方法 |
CN110009628A (zh) * | 2019-04-12 | 2019-07-12 | 南京大学 | 一种针对连续二维图像中多形态目标的自动检测方法 |
CN110503097A (zh) * | 2019-08-27 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067186A (zh) * | 2021-09-26 | 2022-02-18 | 北京建筑大学 | 一种行人检测方法、装置、电子设备及存储介质 |
CN114067186B (zh) * | 2021-09-26 | 2024-04-16 | 北京建筑大学 | 一种行人检测方法、装置、电子设备及存储介质 |
CN114187480A (zh) * | 2022-01-05 | 2022-03-15 | 北京瀚远医药科技有限公司 | 一种基于深度学习的骨髓象细胞影像图检测分类方法及其*** |
US11972613B1 (en) * | 2022-10-28 | 2024-04-30 | Zoox, Inc. | Apparatus and methods for atmospheric condition detection |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444821B (zh) | 一种城市道路标志自动识别方法 | |
CN112380952B (zh) | 基于人工智能的电力设备红外图像实时检测及识别方法 | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN111079640B (zh) | 一种基于自动扩增样本的车型识别方法及*** | |
CN111553201B (zh) | 一种基于YOLOv3优化算法的交通灯检测方法 | |
CN112949510A (zh) | 基于Faster R-CNN热红外影像人物探测方法 | |
CN109902806A (zh) | 基于卷积神经网络的噪声图像目标边界框确定方法 | |
CN110163069B (zh) | 用于辅助驾驶的车道线检测方法 | |
CN110909690A (zh) | 一种基于区域生成的遮挡人脸图像检测方法 | |
CN111027493A (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测***及方法 | |
CN113920107A (zh) | 一种基于改进yolov5算法的绝缘子破损检测方法 | |
CN114821014B (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN111461036B (zh) | 一种利用背景建模增强数据的实时行人检测方法 | |
CN113326735B (zh) | 一种基于YOLOv5的多模态小目标检测方法 | |
CN113469950A (zh) | 一种基于深度学习的复合绝缘子异常发热缺陷的诊断方法 | |
CN116452937A (zh) | 基于动态卷积与注意力机制的多模态特征目标检测方法 | |
CN114332942A (zh) | 基于改进YOLOv3的夜间红外行人检测方法及*** | |
CN114998220A (zh) | 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 | |
CN116468935A (zh) | 一种基于多核卷积网络的交通标志阶梯式分类识别方法 | |
Wu et al. | Traffic sign detection based on SSD combined with receptive field module and path aggregation network | |
CN110751005B (zh) | 融合深度感知特征和核极限学习机的行人检测方法 | |
CN117333948A (zh) | 一种融合时空注意力机制的端到端多目标肉鸡行为识别方法 | |
CN112307894A (zh) | 一种社区监控场景下基于皱纹特征和姿态特征的行人年龄识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |