CN115439693A - 目标识别网络模型的训练方法、电子设备及程序产品 - Google Patents

目标识别网络模型的训练方法、电子设备及程序产品 Download PDF

Info

Publication number
CN115439693A
CN115439693A CN202211112982.4A CN202211112982A CN115439693A CN 115439693 A CN115439693 A CN 115439693A CN 202211112982 A CN202211112982 A CN 202211112982A CN 115439693 A CN115439693 A CN 115439693A
Authority
CN
China
Prior art keywords
target
network model
sample
sample image
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211112982.4A
Other languages
English (en)
Inventor
纪奕才
程璐
李超
刘小军
方广有
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Publication of CN115439693A publication Critical patent/CN115439693A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例公开了一种目标识别网络模型的训练方法、电子设备及程序产品,所述方法包括:获取样本数据集;样本数据集包括样本图像以及样本图像的标注信息;标注信息包括样本图像中样本目标的位置信息;将样本图像进行对比度增强预处理后,输入至目标识别网络模型中,获得预测结果;目标识别网络模型包括附加特征提取模块和分类回归模块;附加特征提取模块包括作为基础网络的ResNet‑50残差网络和多个第一卷积层,多个第一卷积层用于从基础网络提取的特征图获得不同尺度的特征图;分类回归模块用于从不同尺度的特征图中识别样本目标,并得到预测结果;基于预测结果以及样本图像的标注信息对目标识别网络模型进行训练。

Description

目标识别网络模型的训练方法、电子设备及程序产品
技术领域
本公开涉及图像处理技术领域,具体涉及一种目标识别网络模型的训练方法、电子设备及程序产品电子设备及程序产品。
背景技术
近年来,大量的流动人口为世界各国的经济社会发展做出了巨大贡献,人们的出行变得更加便捷,但与此同时也带来了复杂又严峻的公共安全问题。随着全球反恐形势日益严峻,机场、火车站、大型活动场所、政府要害部门以及一些其他公共场所的安全检查逐渐受到各国广泛重视。为了保证密集公共场所人员的生命和财产安全,除了对随行物品进行安全检测以外,对人员自身进行安全检查以发现人体携带隐匿物品也是十分重要的环节之一,必须严格执行人体安全检查,防止有一些不法分子携带违禁物品乘机、乘车或通关。
目前我国大部分安检场所采用的均是传统的安全检查手段,包括人工手持金属探测仪和X射线安检等,这些安检技术或多或少具有一些明显的缺点。其中,金属探测仪结构比较简单、使用起来比较方便,且价格相对实惠,但是无法对非金属探测物品产生有效响应,还可能对其他危险品造成漏检;而且金属探测仪需要工作人员手持该仪器对被检人员逐一检查,效率十分低下,非常容易侵犯个人隐私;另外金属探测仪只能够检测出被检人员是否携带金属制品,并不能有效区分该物品是否为违禁物品,从而造成检测结果的误报率过高。X射线检查设备穿透力很强,能够对隐匿物品进行有效探测,但对于人体存在一定的辐射伤害。在人流密集区域,人们对安检排爆的实时性和精确性提出了更高的要求,上述这些安检技术均无法进行高效安全的人体安全检查。因此,在人体安检领域发展快速又精准的安全检查技术具有重大意义。
基于常见的传统安检设备存在的不足,在以电磁波为技术手段的雷达成像***中,基于太赫兹技术的安检设备因具有独特的无损检测特性而在安检领域受到广泛关注。太赫兹波是指频率位于0.1THz-10THz,波长位于0.03mm-3mm的电磁波,其兼具有微波与红外光的相似特征,比微波具有更好的成像分辨力,同时又比红外光具有更好的穿透性。此外,太赫兹波具有非电离特性,发射功率不及手机电磁辐射的千分之一,不会对人体造成辐射伤害。太赫兹波可以穿透衣物、塑料、陶瓷等绝缘材料,实现对人员携带的隐匿物品进行穿透衣物探测和成像。太赫兹成像***分为主动和被动两种工作模式,在探测人体隐匿物体的应用中,被动太赫兹成像***占据了主要地位。被动太赫兹成像***不发射电磁波,不会对人体造成伤害。目前太赫兹成像***的运用仍处于起步阶段,存在很多待完善的地方,太赫兹图像色调单一、不具备光学图像那样好的立体感,并且清晰度和对比度较差,存在大量噪声和畸变的特点。此外,当前太赫兹成像***所产生的人体安检图像主要采用工作人员肉眼识别的方式,效率较低。研究快速准确的太赫兹雷达成像目标识别算法能够提高安检成像效率,有效促进太赫兹成像技术在人体安检领域的应用与发展。
目前已有一些学者针对被动太赫兹人体安检图像目标检测算法进行研究。Santiago Lopez Tapia等人提出了一种结合图像处理与统计机器学习技术的方法来解决太赫兹图像中的目标定位检测问题。NiuYijie等人提出了基于显著性和稀疏编码原理的太赫兹人体图像处理和识别方法,能够实现对人体隐匿物体的自动识别。这种传统的目标检测方式存在一定的缺陷,泛化能力较差,其性能往往受到图像背景的复杂程度影响,图像背景越简单,目标检测的效率也就越高,检测性能自然越好。相反,一旦图像背景变得复杂,目标检测的效率以及性能都会随之下降。为了解决上述缺陷,有学者在深度学习技术的基础上提出了卷积神经网络CNN(Convolutional Neural Network),CNN不但能够完成特征提取,并且具有较好的鲁棒性以及较强的特征表达能力,在简单和复杂的环境中都能精准定位到检测目标。Yao Jiaxiong等人采用CNN计算滑动窗口中存在危险物品的概率,最终生成概率图进行目标区域的确定与筛选,能够达到93.18%的准确率,但实时性较差。QiJingxiong等采用卷积神经网络对太赫兹图像进行目标检测和识别,可识别匕首、***、手机等人体携带物品。2018,Hong Xiao提出了R-PCNN算法,在前端加入传统的图像预处理方法,提高了太赫兹图像目标检测与识别的速度和准确率。
目前基于深度学习模型的目标检测算法主要分为两类:一类是基于R-CNN展开的各种两阶段算法,主要包括Fast R-CNN、Faster R-CNN、Mask R-CNN、RFCN等,这类算法大大提高了检测精度,但使用分段检测算法导致检测速度变慢,不能满足实时性要求;另一类则是以YOLO(You Only Look Once)和SSD(Single Shot MultiBox Detector)算法为代表的一阶段检测算法,YOLO算法利用回归的思想,大大提高了检测速度,但是其识别的目标位置精准性差,召回率低。
SSD网络模型结构如图1所示,SSD算法不再使用全连接层,因此计算效率得到提高;并且对输入图片的大小没有要求,图片输入后再统一修改尺寸,更加灵活;此外,SSD不再先提取候选框后对候选框进行预测,而是直接利用卷积一步计算出候选框和预测分类,简化流程。但SSD算法也存在以下一些缺点。首先,SSD算法用来预测的特征图Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2中最大尺寸的分辨率是38×38,如果输入图像中的小目标尺寸较小,经过池化层后会丢失低层网络中包含的细节信息,如边缘信息和像素信息。此外,由于附加特征提取网络的特征图不断减小,如第一个特征提取层Conv4_3所处深度较浅,特征提取和表达能力有限,而较深的特征输出层又主要负责尺寸较大的目标,这导致SSD对于小目标的检测性能较差。此外,SSD算法特征提取的卷积层不能兼顾相邻不同尺度特征层上的特征,导致在目标特征提取时对于复杂环境下的小目标特征提取能力不够,在复杂环境下进行太赫兹图像隐匿物检测时容易出现误检或漏检的情况。
本公开发明人发现上述现有技术存在如下技术缺陷:
被动太赫兹成像***所采集到的图像中的噪声和模糊现象比较严重,分辨率低,不能很好地反应目标场景的特性,图像达不到所要求的质量,藏匿于衣物下的物体形状模糊难以识别;
太赫兹安检图像中包含的隐匿物种类不同会表现在灰度图像中的灰度值有高有低,亮度有明有暗,会增加检测难度;
传统的目标检测方式存在一定的缺陷,泛化能力较差,其性能往往受到图像背景的复杂程度影响,图像背景变得复杂时目标检测的效率以及性能都会下降;
现有针对于被动太赫兹图像的目标检测算法精度和速度均有待提高。
发明内容
本公开实施例提供一种目标识别网络模型的训练方法、电子设备及程序产品。
第一方面,本公开实施例中提供了一种目标识别网络模型的训练方法,包括:
获取样本数据集;所述样本数据集包括样本图像以及所述样本图像的标注信息;所述标注信息包括所述样本图像中样本目标的位置信息;
将所述样本图像进行对比度增强预处理后,输入至目标识别网络模型中,获得预测结果;所述目标识别网络模型包括附加特征提取模块和分类回归模块;所述附加特征提取模块包括作为基础网络的ResNet-50残差网络和多个第一卷积层,所述多个第一卷积层用于从所述基础网络提取的特征图获得不同尺度的特征图;所述分类回归模块用于从所述不同尺度的特征图中识别所述样本目标,并得到所述预测结果;
基于所述预测结果以及所述样本图像的标注信息对所述目标识别网络模型进行训练。
进一步地,所述ResNet-50残差网络包括依次连接的多个第二卷积层;所述多个第二卷积层中靠后的多个目标卷积层采用上采样结构,上采样后的大小与所述多个目标卷积层的前一个卷积层的大小相同,所述多个目标卷积层以及所述前一个卷积层的输出送入特征融合模块进行融合;融合结果由所述多个第一卷积层进行处理,获得多个不同尺度的特征图。
进一步地,所述目标识别网络还包括位于所述附加特征提取模块和分类回归模块之间的双重注意力机制模块;所述方法还包括:
将所述多个第一卷积层输出的结果分别输入至双重注意力机制模块,获得经过注意力机制处理的所述多个不同尺度的特征图。
进一步地,所述方法还包括:
将所述多个第一卷积层输出的结果分别输入至双重注意力机制模块,获得经过注意力机制处理的所述多个不同尺度的特征图。
进一步地,所述双重注意力机制模块包括空间注意力子模块和通道间注意力子模块;将所述多个第一卷积层输出的结果分别输入至双重注意力机制模块,获得经过注意力机制处理的所述多个不同尺度的特征图,包括:
所述多个第一卷积层输出的结果先输入至所述通道间注意力子模块,所述通道间注意力子模块输出的结果输入至所述空间注意力子模块;所述空间注意力子模块的输出为所述多个不同尺度的特征图。在一些实施例中,基于所述预测结果以及所述样本图像的标注信息对所述目标识别网络模型进行训练,包括:
利用所述预测结果以及所述标注信息构建损失函数;所述损失函数包括分类任务的损失函数和回归任务的损失函数;
基于损失函数对所述目标识别网络模型的参数进行更新;其中,分类任务的损失函数如下表示:
Lconf=FL(pt)=-at(1-pt)γlog(pt)
其中,Lconf指分类任务的损失函数,pt是所述预测结果中不同类别的分类概率;γ是大于零的值,用于调节易分样本权重降低的速率;at为0到1之间的小数。
第二方面,本公开实施例中提供了一种目标识别网络模型的训练方法,包括:利用第一方面所述的方法得到的目标识别网络模型对图像进行目标识别与检测。
第三方面,本公开实施例中提供了一种目标识别网络模型的训练方法,包括:
获取样本数据集;所述样本数据集包括样本图像以及所述样本图像的标注信息;所述标注信息包括所述样本图像中样本目标的位置信息;
将所述样本图像输入至目标识别网络模型中,获得预测结果;所述目标识别网络模型包括特征提取网络、多个第一卷积层和检测类别模块;所述特征提取网络为ResNet-50残差网络,所述多个第一卷积层用于从所述特征提取网络提取的特征图获得不同尺度的特征图;所述检测类别模块用于从所述不同尺度的特征图中识别所述样本目标,并得到所述预测结果;
基于所述预测结果以及所述样本图像的标注信息对所述目标识别网络模型进行训练。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,上述装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口,用于上述装置与其他设备或通信网络通信。
第三方面,本公开实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器上的计算机程序,其中,所述处理器执行所述计算机程序以实现上述任一方面所述的方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储上述任一装置所用的计算机指令,该计算机指令被处理器执行时用于实现上述任一方面所述的方法。
第五方面,本公开实施例提供了一种计算机程序产品,其包含计算机指令,该计算机指令被处理器执行时用于实现上述任一方面所述的方法。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例在SSD算法的基础上,用表征能力更强的深度残差网络ResNet-50进行基准网络的替换,用残差学习降低网络训练难度,提高目标检测精度;针对SSD目标检测算法中存在的目标重复检测和小样本漏检问题,提出一种基于特征融合的太赫兹图像目标检测算法,算法抽取多级特征用于检测不同尺度的目标,融合后的特征具有更强的描述性,有利于对小目标的检测;此外,在SSD深层网络中引入空间-通道注意力机制,增强高层特征图语义信息,提高算法获取目标物体的细节与位置信息的能力,提高小物体检测准确度;最后,在损失函数中引入Focal Loss函数,通过提高难分样本在损失函数中的权重,提高算法的鲁棒性。实验结果表明,本方法能够对被动太赫兹人体安检图像中的隐藏目标进行实时精确定位和识别,在太赫兹智能安检***中具有重要的应用价值。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出原始SSD算法的网络结构图;
图2示出根据本公开一实施方式的目标识别网络模型的训练方法的流程图;
图3(a)-图3(b)示出图像预处理之前的太赫兹人体安检图像及其直方图分布情况;
图4(a)-图4(b)示出图像均衡化处理过后的太赫兹人体安检图像及其直方图分布情况;
图5示出根据本公开一实施方式的改进SSD算法网络结构示意图;
图6示出根据本公开一实施方式的特征融合过程的示意图;
图7示出根据本公开一实施方式的算法进行实验所得的检测结果图;
图8是适于用来实现根据本公开一实施方式的目标识别网络模型的训练方法和/或目标识别方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
下面通过具体实施例详细介绍本公开实施例的细节。
图2示出根据本公开一实施方式的目标识别网络模型的训练方法的流程图。如图2所示,该方法包括以下步骤:
在步骤S101中,获取样本数据集;所述样本数据集包括样本图像以及所述样本图像的标注信息;所述标注信息包括所述样本图像中样本目标的位置信息;
在步骤S102中,将所述样本图像输入至目标识别网络模型中,获得预测结果;所述目标识别网络模型包括特征提取网络、多个第一卷积层和检测类别模块;所述特征提取网络为ResNet-50残差网络,所述多个第一卷积层用于从所述特征提取网络提取的特征图获得不同尺度的特征图;所述检测类别模块用于从所述不同尺度的特征图中识别所述样本目标,并得到所述预测结果;
在步骤S103中,基于所述预测结果以及所述样本图像的标注信息对所述目标识别网络模型进行训练。
在一些实施例中,所述ResNet-50残差网络包括依次连接的多个第二卷积层;所述多个第二卷积层中靠后的多个目标卷积层采用上采样结构,上采样后的大小与所述多个目标卷积层的前一个卷积层的大小相同,所述多个目标卷积层以及所述前一个卷积层的输出送入特征融合模块进行融合;融合结果由所述多个第一卷积层进行处理,获得多个不同尺度的特征图。
在一些实施例中,所述方法还包括:
对所述多个目标卷积层和所述前一卷积层的输出分别进行批量归一化处理。
在一些实施例中,所述方法还包括:
将所述多个第一卷积层输出的结果分别输入至双重注意力机制模块,获得经过注意力机制处理的所述多个不同尺度的特征图。
在一些实施例中,所述双重注意力机制模块包括空间注意力子模块和通道间注意力子模块;将所述多个第一卷积层输出的结果分别输入至双重注意力机制模块,获得经过注意力机制处理的所述多个不同尺度的特征图,包括:
所述多个第一卷积层输出的结果先输入至所述通道间注意力子模块,所述通道间注意力子模块输出的结果输入至所述空间注意力子模块;所述空间注意力子模块的输出为所述多个不同尺度的特征图。在一些实施例中,基于所述预测结果以及所述样本图像的标注信息对所述目标识别网络模型进行训练,包括:
利用所述预测结果以及所述标注信息构建损失函数;所述损失函数包括分类任务的损失函数和回归任务的损失函数;
基于损失函数对所述目标识别网络模型的参数进行更新;其中,分类任务的损失函数如下表示:
Lconf=FL(pt)=-at(1-pt)γlog(pt)
其中,Lconf指分类任务的损失函数,pt是所述预测结果中不同类别的分类概率;γ是大于零的值,用于调节易分样本权重降低的速率;at为0到1之间的小数。
需要说明的是,损失函数可以是分类任务的损失函数和回归任务的损失函数的线性加权求和;分类任务的损失函数在本实施例中由传统的softmax loss更改为FocalLoss,以解决样本不平衡的问题。
回归任务的损失函数依然采用L1平滑损失函数进行计算,通过回归默认框中心坐标(cx,cy)及宽w和高h的偏移量,计算预测框和真实框之间的损失,其计算式如下所示:
Figure BDA0003844300600000071
Figure BDA0003844300600000081
其中,l为预测框,g为真实框,
Figure BDA0003844300600000082
用于判断对于类别k,第i个默认框和第j个真实框的结果是否匹配,若
Figure BDA0003844300600000083
则代表结果匹配,若
Figure BDA0003844300600000084
则代表不匹配。其中,L1平滑损失函数计算表达式如下所示:
Figure BDA0003844300600000085
下面通过一个具体的实现实例详细介绍本公开提出的上述目标识别网络模型的训练方法。
步骤A:样本数据采集以及数据集构建。
具体步骤如下:
(A1)由于目前在太赫兹隐匿目标检测领域中几乎没有公开可用的被动式图像数据集,为了研究被动太赫兹图像目标识别算法以及对提出的检测算法进行评估,通过0.2THz被动式成像设备采集了896幅图像,每幅图像的尺寸为160×392,数据集中包含“手机”和“***”两类隐蔽目标。
(A2)为了增加数据集样本的多样性,采取数据集增强的方式,对采集到的896幅图像进行水平翻转,将数据集扩充为1792幅图像。
(A3)图像预处理:由于采集到的被动式太赫兹原始图像信噪比较低,且隐蔽目标成像的边缘比较模糊,因此在进行后续特征提取及网络训练前,可以对原始图像进行预处理。采用图像滤波的方法对图像进行预处理,使用中值滤波器、高斯滤波器和双边滤波器,依次串行构成滤波器组。其中,中值滤波可以很好地消除脉冲噪声,高斯滤波器能够过滤图像中的高斯噪声,而双边滤波器在保留边缘信息的同时,能够达到平滑非边缘区域的效果。此外,由于在被动太赫兹人体安检图像中的隐藏目标与人体像素值差异较小,在学习和训练的过程中容易产生误差。为了增强模型的泛化能力,提高实际场景中的鲁棒性,在后续训练及测试之前采用对比度增强算法对原始图像及进行预处理。图3(a)-图3(b)为原始的被动太赫兹安检图像及其对应的直方图,由其直方图可知,被动太赫兹图像的对比度较低,从而导致前景和背景色差不大的目标检测效果较差。采用直方图均衡化对太赫兹图像进行对比度拉伸,公式如下:
Figure BDA0003844300600000091
其中,H和W是图片的长和宽,hist(k)是第k级灰度值的像素个数,P是原始像素点的灰度值,q是变换后的灰度值。直方图处理后图片及其直方图结果如图4(a)-图4(b)所示,结果表明直方图均衡化处理后的图像像素值均匀分布于0-255之间,能够极大地提高图像的对比度。
(A4)构建太赫兹人体安检图像数据集,选择PASCALVOC2007数据集作为训练与测试网络的数据集格式。按照PASCALVOC2007数据集的文件夹命名方式和文件夹之间的包含关系创建相互对应的文件目录。当用于目标分类和检测任务时,VOC2007格式数据集一般包含三个文件夹,分别是存放图像预处理后的JPEGImages文件夹、存放每张图像标注信息的Annotations文件夹以及存放数据集划分文件和类别标签的ImageSets文件夹。
首先将经过预处理过后的太赫兹人体安检图像存放到JPEGImages文件夹下,其中包含“***”和“手机”两类目标。放入文件夹后,把图片的名称按照如00001.jpg格式的命名规则批量修改,至此JPEGImages文件夹下的图片整理完成。
对JPEGImages文件夹下经过预处理的太赫兹图像中的目标位置信息进行标注,生成每张图片对应的xml格式的标注文件,将所有标注文件放入Annotations文件夹中,一张JPEGImages文件夹下的图片对应于Annotations文件夹下的一个同名的xml格式标注文件。
将xml文件内容按照9:1的比例生成训练验证集和测试集;将训练验证集的内容按照9:1的比例生成训练集和验证集。ImageSets文件夹下包含3个子文件夹:Layout、Main和Segmentation,分别对应于3类不同的任务。当用于分类和检测任务时,使用Main子文件夹即可。Main文件夹下的trainval.txt、train.txt、val.txt和test.txt分别用于保存训练验证集图片名称、训练集图片名称、验证集图片名称和测试集图片名称。将用于划分训练验证集、训练集、验证集和测试集的文档分别放入ImageSets文件夹下的Main子文件夹中的trainval.txt、train.txt、val.txt和test.txt中。此处可根据实际数据集调整各个集合的比例。
步骤B:设计用于实现太赫兹图像隐匿物检测的改进SSD网络模型,其整体架构如图5所示,具体包括:附加特征提取模块和分类回归模块;其中附加特征提取模块选取深度残差网络ResNet-50作为基础网络代替原有的VGGNet-16网络,删掉ResNet-50中顶层的归一化层、池化层和分类输出层。为了提高算法对小目标的检测效果,将Conv_4和Conv_5进行上采样操作,与Conv_3进行特征融合,特征融合后以Conv_3的尺度大小作为特征图大小。特征融合后得到尺寸大小为712×38×38的特征图,经过1×1卷积得到512×38×38的特征图Conv_6。在附加特征提取模块中,Conv_6经过1×1卷积得到128×38×38的特征图Conv_7。再额外增加5层卷积(也即Conv_8、Conv_9、Conv_10、Conv_11和Conv_12),使用步长为2的卷积层进行下采样,也即对Conv_7的输出进行下采样得到Conv_8,对Conv_8的输出进行下采样得到Conv_9,以此类推,分别输出尺度为19×19、10×10、5×5、3×3和1×1的特征图,并在该5层结构中加入批量归一化层结构以加快收敛速度。也就是说,本公开实施例中将VGGNet-16替换成ResNet-50后,对ResNet-50进行了改进。本公开实施例在ResNet-50网络中增加的卷积层能够提取更深层次和更多尺度的特征图,从而得到更加丰富的语义信息。附加特征提取模块中额外增加的卷积层使用步长为2的卷积层进行下采样,因而能够生成不同尺度的特征图。
添加的额外卷积层用来提取更深层次、更多尺度的特征图。在附加特征提取模块以及分类和回归模块之间引入混合注意力机制,通过调整其输入特征图和输出特征图大小,使得每一个特征图在经过混合注意力机制模块后,仍然保持和输入之前一致的大小。在Conv_7、Conv_8、Conv_9、Conv_10、Conv_11和Conv_12后均增加了混合注意力机制模块,进一步增强高层特征图的语义信息,降低目标漏检率。选择附加特征提取模块中的新增卷积层Conv_7、Conv_8、Conv_9、Conv_10、Conv_11和Conv_12作为检测所用的特征图,它们的大小分别为(38,38)、(19,19)、(10,10)、(5,5)、(3,3)、(1,1),随着网络加深,特征图的长宽尺寸缩小,其提取的特征越具有代表性,最后在分类和回归模块中通过非极大值抑制进行预测。具体步骤如下:
(B1)将原始SSD基础网络由VGGNet-16替换为残差网络ResNet-50:传统的SSD网络模型融合不同尺度的特征图进行特征提取,网络结构分为VGGNet-16特征提取网络和分类回归层两部分。VGGNet-16网络能够提取图片中目标的特征信息并得到特征图,同时能够提高网络对于目标的感知能力,分类回归层则对每个候选框进行分类和回归,从而检测出图像中的目标。由于VGGNet-16网络是传统的CNN结构的简单堆叠,参数数量大,且随着网络的加深会出现梯度消失和梯度弥散的问题,此外还可能出现网络退化问题。考虑到被动太赫兹图像中隐匿物的检测会受到复杂背景和相似干扰的影响,而VGGNet-16网络提取的特征中缺少抗干扰能力强的语义信息和细节信息,因此将特征提取网络替换为网络层数更深、语义信息更丰富的ResNet-50残差网络。以ResNet-50作为特征提取网络,删除掉后面的全连接层,再增添几层额外的卷积层提取特征以得到不同尺度的特征图。
(B2)引入特征融合模块:传统SSD算法的每个卷积层都对应后续分类网络的一个输入,每个层都对应一个目标的尺度,忽略了层与层之间的关联信息。使用ResNet-50残差网络代替原始的前置网络VGGNet-16能够在原始SSD算法的基础上提高精度,但实时性差,还存在误检和小目标漏检、重复检测的问题。低层的Conv4_3没有利用高层的语义信息,导致小目标的检测效果较差。利用特征融合技术对SSD网络模型进行改进。低层的特征层Conv_3的分辨率为38×38,相对于Conv_4特征层的分辨率19×19和Conv_5的特征层分辨率10×10较大,细节特征表达较丰富。为改善SSD算法低层特征层对小目标细节特征的充分表达能力,改善SSD算法对小目标的检测效果,本公开融合相邻底层高分辨细节特征明确的特征图和高层低分辨率丰富语义信息的特征图。
基础网络特征融合结构如图6所示,将特征图大小为1024×19×19的Conv_4以及大小为2048×10×10的Conv_5分别进行反卷积操作,与大小为512×38×38的Conv_3进行特征融合,采用横向连接增加通道数的方式融合Conv_4和Conv_5的高语义特征图,补充Conv_3卷积特征图的特征信息,特征融合后以Conv_3的尺度大小38×38作为特征图大小。特征融合后得到尺寸大小为712×38×38的特征图Conv_6。如图6所示,融合后的特征层比原始特征层的语义信息更丰富,更好地保留了原始特征图的边缘信息,且新的特征层维数不超过原始特征层维数。再经过1×1卷积得到512×38×38的特征图Conv_6。将融合后特征图Conv_6的信息向下传递。在附加特征提取模块中,Conv_6经过1×1卷积得到128×38×38的特征图Conv_7。额外增加5层卷积,使用步长为2的卷积层进行下采样,分别输出尺度为19×19、10×10、5×5、3×3和1×1的特征图。本实施例中,将深层的高语义信息(也即Conv_5和Conv_4)与浅层(也即Conv_3)的细节信息融合。采用多级不同尺度融合的方法结合特征金字塔网络思想自上而下的传递各级不同尺度特征图的特征信息。
由于前一级卷积层参数的更新将影响后一级输入层数据分布的变化,导致卷积特征层数据分布差异较大。如果直接进行特征融合通道维拼接操作,会造成特征图之间有较大的差异。某一网络层发生微小的变化,特征经过融合层将会被累积放大下去,导致算法收敛过慢。如图6所示,Conv_3层进行卷积操作后、以及Conv_4和Conv_5进行卷积和上采样后分别加入批量归一化(Batch Normalization,BN)操作做归一化处理。BN操作是在特征图的批量大小、长、高三个维度上进行归一化处理,其目的是通过规范化的手段将偏离的分布拉回到标准化,使梯度变大,加快学习收敛速度,避免梯度消失问题。
(B3)引入注意力机制:原始SSD算法中使用6个不同感受野的特征图对目标进行检测,人体太赫兹图像上的隐匿物目标与其他相似目标在特征图上被赋予相同的重要性,不利于复杂背景下的隐匿物检测。为了增加特征图对特定区域和特定通道的目标识别能力,减少复杂背景和相似目标对目标检测的影响,将注意力机制同时运用在通道和空间两个维度上。在附加特征提取模块的Conv_7、Conv_8、Conv_9、Conv_10、Conv_11和Conv_12后连接双重注意力机制模块CBAM(Convolutional Block Attention Module),提高网络对于隐匿目标的关注。通过CBAM模块后输出的特征图与输入的维度一致,不需要对网络结构进行较大改动。在分类和回归模块中,将经过CBAM模块获得的新特征图引入到原网络结构也即除注意力机制模块(CBAM)以外的其他所有网络结构中进行目标检测,获得在通道和空间上对关键信息有侧重的新特征图,能够使得目标检测任务的准确性得到提升。与只关注通道特征的SENet相比,CBAM是一种结合了空间和通道的注意力模块,能够增强特征图中的有用特征,抑制无用特征,在实际应用中可以取得很好的效果。在不显著增加计算量和参数量的前提下,CBAM能筛选网络提取的特征,抑制干扰特征信息的影响,将网络注意力放在待检测目标上。
(B4)原SSD算法直接在图2中的Conv4_3、Conv_7、Conv8_2、Conv9_2、Conv10_2和Conv11_2的不同层的特征图上的每个位置生成不同尺度的先验框进行正负样本匹配,由于算法生成的先验框数目较大,但是与真实目标匹配的先验框数目较少,也就是被判定为正样本的先验框数目较少,被判定为负样本的先验框数目过多,导致输入网络中的正负样本比例严重失调。为解决原SSD算法中正负样本和易分难分样本不均衡的问题,采用FocalLoss函数代替原有损失函数中的置信度损失函数,通过调节输入网络中的正负样本比例参数来解决算法中正负样本失衡的问题。
需要说明的是,原SSD算法一共有6个不同尺度的特征图(图2中的Conv4_3、Conv_7、Conv8_2、Conv9_2、Conv10_2和Conv11_2),不同特征图上设置的先验框数量、尺度和宽高比都不同,预测的边界框是以这些先验框为基准的,在一定程度上可以减少训练难度。
正负样本匹配步骤发生在训练过程中。
在训练过程中,首先需要确定训练图片中的真实框与哪一个先验框进行匹配,与之匹配的先验框所对应的边界框将负责预测。
首先,寻找与每一个真实框有最大交并比的先验框,这样能保证每一个真实框能与至少一个先验框对应起来。SSD之后又将剩余还没有配对的先验框与任意一个真实框尝试配对,只要两者之间的交并比大于阈值,就进行匹配。
某个真实框可以与多个先验框匹配,而每个先验框只能和一个真实框进行匹配。如果多个真实框和某一个先验框的交并比均大于阈值,那么先验框只与交并比最大的进行匹配。
原有SSD网络的损失函数由置信度损失和位置损失的加权和构成,具体表达形式如下式所示:
Figure BDA0003844300600000121
式中:Lconf表示置信度损失;Lloc表示定位损失;α表示定位损失的权重;x为先验框与不同类别的匹配结果,若匹配则x=1,否则x=0;c为预测框类别置信度;l为预测框位置偏移信息;g为真实边界框与匹配先验框的偏移量;N为匹配的先验框的数量。
对置信度损失进行改进,使用Focal Loss损失函数进行正负样本不平衡矫正,具体表达形式如下式所示:
FL(pt)=-at(1-pt)γlog(pt)
式中:pt是不同类别的分类概率;γ是大于零的值,用于调节易分样本权重降低的速率;at为0到1之间的小数,作为权重用于调节正负样本的比例。从式中可以看出,无论是目标还是背景,对于简单样本,pt会比较大,权重自然就比较小;针对难分样本,pt会比较小,则权重自然就比较大,让网络倾向于利用这样的样本来进行参数的更新。该权重是动态变化的,如果难分样本逐渐变得易分,那么它在损失函数中的影响会逐渐下降。Focal Loss能实现对正负样本和难分易分样本比例均衡,从而使参与训练的样本分布更加均匀,能够进一步提高检测算法的可靠性。
步骤C:使用所述的经过数据增强的被动太赫兹人体安检图像数据集训练集的图像数据和标签数据对上述改进SSD网络模型进行训练,生成图5所示的基于深度残差网络ResNet-50并融合多尺度特征及混合注意力机制的改进SSD目标检测模型,具体步骤如下:
(C1)将预处理过后的训练图片输入到预训练好的检测网络。
(C2)选取合适的batch_size、学习率、迭代次数等训练参数,引入动量的梯度下降法(momentum SGD)作为参数更新方法。
(C3)训练得到的模型的评价指标为检测平均精度均值(mean averageprecision,mAP),mAP用于评价算法的检测准确率,由准确率P(Precision)和召回率R(Recall)组成,表达式如下式所示:
Figure BDA0003844300600000131
Figure BDA0003844300600000132
其中:TP(True Positive)表示正确检测的目标个数;FP(False Positive)表示错误检测的目标个数;FN(False Negative)表示未检测的目标个数。准确率即查准率,衡量目标检测模型对待检测物体的分类能力,准确率越高,表示模型对于目标的分类能力越强。召回率即查全率,衡量模型对目标的检测能力,召回率越高,表示模型对目标的分辨能力越强。每个类别都可以得到准确率-召回率曲线(Precision-Recall曲线),曲线与横坐标轴围成的面积便是平均精度AP值(Average Precision),求出所有类别的AP的平均值即得到mAP值。在相同的置信度下,模型的mAP值越大表示模型的检测性能越好。
步骤D:使用所述保存的已训练的改进SSD网络最佳模型对待测的被动式太赫兹图像进行测试,得到包含目标类别及目标边界框的检测结果。使用步骤3所述的评价指标对模型进行评估。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开提出的改进SSD算法采用ResNet-50网络替换原有SSD算法中的VGGNet-16网络,能够克服VGG网络退化问题并提高检测精度;
本公开使深层特征Conv_4和Conv_5通过上采样与浅层特征Conv_3融合,重构卷积预测结构特征图上的物体特征信息,构建一个具有丰富语义信息的特征表示,使得融合后的特征更具有更强的描述性,有利于对小目标进行检测。获取附加特征提取模块中的Conv_7、Conv_8、Conv_9、Conv_10、Conv_11和Conv_12六个不同尺寸的特征图结果,随着网络加深,特征图的长宽尺寸缩小,其提取的特征越具有代表性。在分类和回归模块中,抽取多级特征用于检测不同尺度的目标,提升网络对被动太赫兹图像中目标的精确分类和定位的能力;
本公开在SSD深层网络中引入空间-通道注意力机制,增强高层特征图语义信息,提高算法获取目标物体的细节与位置信息的能力,从而降低漏检率及误检率,能提高小物体检测准确度;
本公开能够改进SSD算法中的正负样本和难分易分样本不平衡的问题,在损失函数中引入Focal Loss函数,通过提高难分样本在损失函数中的权重,提高算法的鲁棒性。
本公开是为准确高效识别出太赫兹人体安检图像中的隐匿物品的目标而设计,用本公开设计方法训练得到模型的mAP值可达99.9%,且对单张图片进行识别的时间在0.2s之内,能极大地提高检测速度和精度,满足实际安检需求。
根据本公开一实施方式,提出一种目标识别方法,该方法包括:利用上述目标识别网络模型的训练方法得到的目标识别网络模型对图像进行目标识别与检测。
下面根据一种实现方式详细阐述目标识别方法的细节。
本例中,通过所阐述的基于改进SSD算法的被动太赫兹图像目标识别方法,对采集到的被动太赫兹人体安检图像进行目标识别与检测。
步骤1:被动太赫兹图像采集。通过0.2THz被动式成像设备采集人体携带隐匿物品图像,共计采集896幅图像,每幅图像的尺寸为160×392,数据集中包含“手机”和“***”两类隐蔽目标。
步骤2:太赫兹图像预处理。
第一步,数据增强。对采集到的896幅图像进行水平翻转,将包含896幅图像的数据集扩充为包含1792幅图像的数据集。
第二步,图像预处理。由于采集到的被动式太赫兹原始图像信噪比较低,且隐蔽目标成像的边缘比较模糊,因此在进行后续特征提取及网络训练前对原始图像进行预处理。依次采用中值滤波器Mf、高斯滤波器Gf和双边滤波器Bf串行构成滤波器组F,将经过滤波器组的被动太赫兹安检图像作为后续训练网络的输入图像。
步骤3:数据集构建与划分。
第一步,创建PASCAL VOC2007格式太赫兹人体安检图像数据集。将经过预处理过后的1792张太赫兹人体安检图像全部存放到JPEGImages文件夹下,其中包含“***”和“手机”两类目标。放入文件夹后,把图片的名称按照如00001.jpg格式的命名规则批量修改,至此JPEGImages文件夹下的图片整理完成。
对JPEGImages文件夹下的太赫兹图像中的目标类别和位置信息进行标注,生成每张图片对应的xml格式的标注文件,xml格式的标注文件的文件名与图片名相对应。将所有标注文件放入Annotations文件夹中,一张JPEGImages文件夹下的图片对应于Annotations文件夹下的一个同名的xml格式标注文件。
第二步,数据集划分。将xml文件内容按照9:1的比例生成训练验证集和测试集;将训练验证集的内容按照9:1的比例生成训练集和验证集。将用于划分训练验证集、训练集、验证集和测试集的文档放入ImageSets文件夹下的Main子文件夹中,命名分别为trainval.txt、train.txt、val.txt和test.txt。其中训练集包含1450张图像,验证集包含162张图像,测试集包含180张图像。
步骤4:使用所述的经过数据增强的被动太赫兹人体安检图像数据集中的训练集图像数据和标签数据对改进SSD网络模型进行训练,生成改进SSD网络模型:
基于Pytorch框架,按照上文构建的基于改进SSD算法的被动太赫兹安检图像目标检测网络框架进行搭建,在数据集上进行预训练,选取合适的训练参数以得到改进后的网络模型,设置初始学习率、学习率的衰减因子等超参数以得到最佳网络模型。将制作的被动太赫兹安检图像数据集输入到该网络中进行训练。
步骤5,测试网络模型:训练结束后得到网络模型文件,这些文件分别存储着网络的图结构、参数名以及具体参数值信息。编写网络测试代码,使用最佳模型文件对测试集中的图像进行测试,在测试代码中输入网络模型文件所在路径以及待测试图片的路径,通过运行该程序进行模型测试,通过测试结果统计发现,在180张测试图片中,正确检测的图片有179张,隐匿物品检测正确率可到99%以上,图7为测试图像的检测识别结果,可以看出,本文提出的SSD算法检测效果很好。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
根据本公开一实施方式的目标识别网络模型的训练装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该目标识别网络模型的训练装置包括:
获取模块,被配置为获取样本数据集;所述样本数据集包括样本图像以及所述样本图像的标注信息;所述标注信息包括所述样本图像中样本目标的位置信息;
输入模块,被配置为将所述样本图像输入至目标识别网络模型中,获得预测结果;所述目标识别网络模型包括特征提取网络、多个第一卷积层和检测类别模块;所述特征提取网络为ResNet-50残差基础网络,所述多个第一卷积层用于从所述特征提取网络提取的特征图获得不同尺度的特征图;所述检测类别模块用于从所述不同尺度的特征图中识别所述样本目标,并得到所述预测结果;
训练模块,被配置为基于所述预测结果以及所述样本图像的标注信息对所述目标识别网络模型进行训练。
本实施例中的目标识别网络模型的训练装置与上述目标识别网络模型的训练方法对应一致,具体细节可参见上文中对目标识别网络模型的训练方法的描述,在此不再赘述。
图8是适于用来实现根据本公开一实施方式的目标识别网络模型的训练方法和/或目标识别方法的电子设备的结构示意图。
如图8所示,电子设备800包括处理单元801,其可实现为CPU、GPU、FPGA、NPU等处理单元。处理单元801可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行本公开上述任一方法的实施方式中的各种处理。在RAM803中,还存储有电子设备800操作所需的各种程序和数据。处理单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施方式,上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行本公开实施方式中任一方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种目标识别网络模型的训练方法,其特征在于,包括:
获取样本数据集;所述样本数据集包括样本图像以及所述样本图像的标注信息;所述标注信息包括所述样本图像中样本目标的位置信息;
将所述样本图像进行对比度增强预处理后,输入至目标识别网络模型中,获得预测结果;所述目标识别网络模型包括附加特征提取模块和分类回归模块;所述附加特征提取模块包括作为基础网络的ResNet-50残差网络和多个第一卷积层,所述多个第一卷积层用于从所述基础网络提取的特征图获得不同尺度的特征图;所述分类回归模块用于从所述不同尺度的特征图中识别所述样本目标,并得到所述预测结果;
基于所述预测结果以及所述样本图像的标注信息对所述目标识别网络模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述对比度增强预处理采用如下公式实现:
Figure FDA0003844300590000011
其中,H和W是样本图像的长和宽,hist(k)是第k级灰度值的像素个数,P是所述样本图像中原始像素点的灰度值,q是对比度增强预处理后的灰度值。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
对所述多个目标卷积层和所述前一卷积层的输出分别进行批量归一化处理。
4.根据权利要求1或2所述的方法,其特征在于,所述目标识别网络还包括位于所述附加特征提取模块和分类回归模块之间的双重注意力机制模块;所述方法还包括:
将所述多个第一卷积层输出的结果分别输入至双重注意力机制模块,获得经过注意力机制处理的所述多个不同尺度的特征图。
5.根据权利要求1或2所述的方法,其特征在于,所述双重注意力机制模块包括空间注意力子模块和通道间注意力子模块;将所述多个第一卷积层输出的结果分别输入至双重注意力机制模块,获得经过注意力机制处理的所述多个不同尺度的特征图,包括:
所述多个第一卷积层输出的结果先输入至所述通道间注意力子模块,所述通道间注意力子模块输出的结果输入至所述空间注意力子模块;所述空间注意力子模块的输出为所述多个不同尺度的特征图;
基于所述预测结果以及所述样本图像的标注信息对所述目标识别网络模型进行训练,包括:
利用所述预测结果以及所述标注信息构建损失函数;所述损失函数包括分类任务的损失函数和回归任务的损失函数;
基于损失函数对所述目标识别网络模型的参数进行更新;其中,分类任务的损失函数如下表示:
Lconf=FL(pt)=-at(1-pt)γlog(pt)
其中,Lconf指分类任务的损失函数,pt是所述预测结果中不同类别的分类概率;γ是大于零的值,用于调节易分样本权重降低的速率;at为0到1之间的小数。
6.一种目标识别网络模型的训练方法,其特征在于,包括:利用权利要求1-5任一项所述的方法得到的目标识别网络模型对图像进行目标识别与检测。
7.一种目标识别网络模型的训练装置,其特征在于,包括:
获取模块,被配置为获取样本数据集;所述样本数据集包括样本图像以及所述样本图像的标注信息;所述标注信息包括所述样本图像中样本目标的位置信息;
输入模块,被配置为将所述样本图像进行对比度增强预处理后,输入至目标识别网络模型中,获得预测结果;所述目标识别网络模型包括附加特征提取模块和分类回归模块;所述附加特征提取模块包括作为基础网络的ResNet-50残差网络和多个第一卷积层,所述多个第一卷积层用于从所述基础网络提取的特征图获得不同尺度的特征图;所述分类回归模块用于从所述不同尺度的特征图中识别所述样本目标,并得到所述预测结果;
训练模块,被配置为基于所述预测结果以及所述样本图像的标注信息对所述目标识别网络模型进行训练。
8.一种电子设备,其特征在于,包括存储器、处理器以及存储在存储器上的计算机程序,其中,所述处理器执行所述计算机程序以实现权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-6任一项所述的方法。
10.一种计算机程序产品,其包括计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-6任一项所述的方法。
CN202211112982.4A 2022-07-29 2022-09-14 目标识别网络模型的训练方法、电子设备及程序产品 Pending CN115439693A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022109045604 2022-07-29
CN202210904560 2022-07-29

Publications (1)

Publication Number Publication Date
CN115439693A true CN115439693A (zh) 2022-12-06

Family

ID=84247903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211112982.4A Pending CN115439693A (zh) 2022-07-29 2022-09-14 目标识别网络模型的训练方法、电子设备及程序产品

Country Status (1)

Country Link
CN (1) CN115439693A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311086A (zh) * 2023-05-23 2023-06-23 苏州浪潮智能科技有限公司 植物监测方法、植物监测模型的训练方法、装置及设备
CN117173503A (zh) * 2023-08-16 2023-12-05 安徽派睿太赫兹医疗器械技术开发有限公司 一种基于深度学习的模糊太赫兹图像识别方法、装置和电子设备
CN117671458A (zh) * 2023-12-20 2024-03-08 云南神火铝业有限公司 自动识别块状残极的块状残极检测模型构建方法及应用

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311086A (zh) * 2023-05-23 2023-06-23 苏州浪潮智能科技有限公司 植物监测方法、植物监测模型的训练方法、装置及设备
CN116311086B (zh) * 2023-05-23 2023-08-22 苏州浪潮智能科技有限公司 植物监测方法、植物监测模型的训练方法、装置及设备
CN117173503A (zh) * 2023-08-16 2023-12-05 安徽派睿太赫兹医疗器械技术开发有限公司 一种基于深度学习的模糊太赫兹图像识别方法、装置和电子设备
CN117173503B (zh) * 2023-08-16 2024-04-19 安徽派睿太赫兹医疗器械技术开发有限公司 一种基于深度学习的模糊太赫兹图像识别方法、装置和电子设备
CN117671458A (zh) * 2023-12-20 2024-03-08 云南神火铝业有限公司 自动识别块状残极的块状残极检测模型构建方法及应用

Similar Documents

Publication Publication Date Title
CN115439693A (zh) 目标识别网络模型的训练方法、电子设备及程序产品
EP3349048B1 (en) Inspection devices and methods for detecting a firearm in a luggage
US10013615B2 (en) Inspection methods and devices
CN109544563B (zh) 一种面向违禁物安检的被动毫米波图像人体目标分割方法
CN107563433B (zh) 一种基于卷积神经网络的红外小目标检测方法
EP3699579B1 (en) Inspection method and inspection device and computer-readable medium
CN108182454A (zh) 安检识别***及其控制方法
Gu et al. Automatic and robust object detection in x-ray baggage inspection using deep convolutional neural networks
CN109784283A (zh) 基于场景识别任务下的遥感图像目标提取方法
CN113159120A (zh) 一种基于多尺度跨图像弱监督学习的违禁物检测方法
Wan et al. AFSar: An anchor-free SAR target detection algorithm based on multiscale enhancement representation learning
CN109886147A (zh) 一种基于单网络多任务学习的车辆多属性检测方法
CN112613350A (zh) 一种基于深度神经网络的高分辨率光学遥感图像飞机目标检测方法
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及***
CN115719463A (zh) 一种基于超分辨率重构和自适应挤压激励的烟火检测方法
Steno et al. A novel enhanced region proposal network and modified loss function: threat object detection in secure screening using deep learning
CN110298410A (zh) 基于深度学习的低对比度图像中弱目标检测方法及装置
Qin et al. Reaserch and implementation of social distancing monitoring technology based on SSD
CN113807231B (zh) 基于unet下采样卷积神经网络的x光违禁物检测方法
CN115393698A (zh) 一种基于改进dpn网络的数字图像篡改检测方法
CN110992324B (zh) 一种基于x射线图像的智能危险品检测方法及***
CN113095404A (zh) 基于前后背景分卷积神经网络的x光违禁物品检测方法
CN117095158A (zh) 一种基于多尺度分解卷积的太赫兹图像危险品检测方法
CN116863271A (zh) 一种基于改进yolo v5的轻量级红外火焰检测方法
CN116385957A (zh) 一种x光图像违禁品检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination