CN112365497A - 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和*** - Google Patents

基于TridentNet和Cascade-RCNN结构的高速目标检测方法和*** Download PDF

Info

Publication number
CN112365497A
CN112365497A CN202011405295.2A CN202011405295A CN112365497A CN 112365497 A CN112365497 A CN 112365497A CN 202011405295 A CN202011405295 A CN 202011405295A CN 112365497 A CN112365497 A CN 112365497A
Authority
CN
China
Prior art keywords
network
target detection
training
data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011405295.2A
Other languages
English (en)
Inventor
刘凤余
张琦
张平平
张冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhuofan Information Technology Co ltd
Original Assignee
Shanghai Zhuofan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhuofan Information Technology Co ltd filed Critical Shanghai Zhuofan Information Technology Co ltd
Priority to CN202011405295.2A priority Critical patent/CN112365497A/zh
Publication of CN112365497A publication Critical patent/CN112365497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于TridentNet和Cascade‑RCNN结构的高速目标检测方法,所述方法包括获取目标检测图像的数据集,并对所述数据集中的图像进行增强处理;构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型;通过所述目标检测模型对待检测图像进行目标检测,所述***包括与所述方法步骤对应的模块。

Description

基于TridentNet和Cascade-RCNN结构的高速目标检测方法和 ***
技术领域
本发明涉及人工智能及机器学习领域,尤其涉及深度学习领域,是一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***。
背景技术
在目标检测的众多应用场景中,由于待检测目标与检测器(传感器)的距离不同,会导致同类目标的检测尺度不同,而使用同一尺度对不同大小的目标进行检测必然存在天然缺陷和低精准率,因而多尺度检测就被迫切需要。以往的检测模型虽然可以以多尺度的方式进行检测,但由于其预设模板而对不同尺寸目标的特征表达能力存在差异,比如对过大或过小尺寸的目标难以准确检测。为使模型对不同尺寸目标的“表达能力”近似,TridentNet引入了scale-aware并行结构,首次提出感受野对目标检测任务中不同尺度和大小的物体存在影响,采用了dilated convolution以得到不同感受野的特征图,并使用参数共享以保证较小的参数和计算量。
在目标检测任务中,交并比(IOU)的阈值选取对检测存在很大影响,阈值越高越容易得到高质量的样本。然而一味地追求高阈值会引发一定程度的问题:(1)样本减少引发的过拟合,(2)在训练和推理过程中使用不一样的阈值很容易导致误匹配。Cascade-RCNN是一种级联检测结构,核心就是利用不断升高的阈值以stage-by-state的方式在不同网络上训练正负样本,以让每一个stage的detector都专注于检测IOU在某一范围内的proposal,因为输出IOU普遍大于输入IOU从而不断提升检测效果。
结合TridentNet与Cascade-RCNN的优点,为获得更加准确的目标检测结果,本专利提出将两种模型结构进行结合的方法,充分利用两者的优势来解决目标检测中的多尺度问题和IOU阈值选择问题。
发明内容
为至少部分地解决上述问题,本发明提供了一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***,所述方法包括:所述方法包括:
获取目标检测图像的数据集,并对所述数据集中的图像进行增强处理;
构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;
通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型;
通过所述目标检测模型对待检测图像进行目标检测。
进一步地,所述从用户语音波形中提取出语音特征序列,包括:
所述获取目标检测图像的数据集,并对数据集中的图像进行增强处理,包括:
步骤A1,采用以下公式对所述数据集中图像的亮度分量进行全局亮度增强处理:
Figure BDA0002813892490000021
其中,Lγ(c,d)代表全局亮度调整后的亮度函数,γ代表Gamma变化系数,I(c,d)代表数据集中图像的原始亮度分量,q代表高斯函数的标准差值,π代表自然常数,exp代表指数函数,(c,d)代表数据集中图像像素点的坐标;
步骤A2,将数据集中图像的亮度分量进行全局亮度增强处理后,然后根据以下公式进行饱和度增强处理:
Figure BDA0002813892490000031
其中,H′代表增强后的饱和度分量,H代表数据集中图像的原始饱和度分量,ψ代表参数值,T代表光照信息的平均亮度。
进一步地,所述特征提取网络借鉴TridentNet中的scale-aware并行结构模式,结合特征金字塔网络及FPN网络的特点,分为三路学习目标的不同尺度特征,从而让目标检测模型的Trident部分对不同尺度的目标具有更好的检测效果。
进一步地,所述主干网网络为ResNet-18,所述双分支结构分别为FC-head和Conv-head,FC-head做分类网络,Conv-head做回归网络。
进一步地,所述通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型,包括:
获取增强后的数据集,并除掉冗余重复的数据;
利用现有的标注软件对数据进行准确位置和类别标注,并生成标注文件;
将标注文件与是数据集中的图片数据进行一一对应,然后将标注文件进行解析并生成txt格式的标签数据,随机将数据集切分为训练集、验证集和测试集;
使用训练集数据对目标检测模型中神经网络进行训练,在不断的迭代过程中使用验证集数据进行目标检测模型验证观察,然后将目标检测模型在测试集数据上进行测试,并分析目标检测模型的检测结果。
进一步地,所述使用训练集数据对目标检测模型中神经网络进行训练之前还包括:将训练集数据进行归一化处理,具体步骤如下:
步骤A1,根据以下公式计算训练集中样本均值和样本方差:
Figure BDA0002813892490000041
Figure BDA0002813892490000042
其中,μa代表训练集中样本数据的均值,
Figure BDA0002813892490000043
代表训练集中样本数据的方差,xi代表训练集中的第i个样本数据,i=1,2,…,N;
步骤A2,根据以下公式将训练集进行归一化处理:
Figure BDA0002813892490000044
其中,
Figure BDA0002813892490000045
代表归一化后的训练集中的第i个样本数据,ε代表为极小值。
进一步地,训练神经网络时根据损失函数Loss衡量神经网络的训练程度,包括:
根据以下公式获取损失函数Loss:
Loss=Rcls[h]+Rloc[f]
其中,Rcls[h]代表分类损失函数,Rloc[f]代表位置损失函数;
分类损失函数表示为:
Figure BDA0002813892490000046
其中,h(xi)代表类别后验分布的概率估计值,yi代表类别标签,Lcls代表交叉熵损失;
位置损失函数表示为:
Figure BDA0002813892490000047
其中,(f(xi,bi),gi)代表将图像区域xi的预测边框bi向标注的标签边框进行回归,Lloc代表边框回归损失。
进一步地,所述边框回归损失Lloc采用平滑的L1损失。
进一步地,所述通过所述目标检测模型对待检测图像进行目标检测,包括:
获取待检测的图像,采用scale-aware方式分为三路CNN进行特征提取,每一路CNN都使用Resnet18的网络支柱进行高速特征提取;
将提取的特征进行等尺寸的串联操作,获取串联后的特征;
将串联后的特征采用Resnet18的网络支柱以进行高速特征提取与处理,特征提取后分为三路子特征,对子特征设置不同的IOU值,并对三路边框回归的特征图进行级联操作,第三级级联后的分类结果和边框回归结果作为最终的目标检测结果。
进一步地,所述***包括:
数据增强模块,用于获取目标检测图像的数据集,并对所述数据集中的图像进行增强处理;
网络构建模块,用于构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;
模型获取模块,用于通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型;
目标检测模块,用于通过所述目标检测模型对待检测图像进行目标检测。
与现有技术相比,本发明的有益效果:本发明提供了一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法,所述方法包括获取目标检测图像的数据集,并对所述数据集中的图像进行增强处理;构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型;通过所述目标检测模型对待检测图像进行目标检测,设计合理且高速的多尺度检测模型,可以极大地提升目标检测的准确率与效率。
下文中将结合附图对实施本发明的最优实施例进行更详尽的描述,以便能容易地理解本发明的特征和优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下文中将对本发明实施例的附图进行简单介绍。其中,附图仅仅用于展示本发明的一些实施例,而非将本发明的全部实施例限制于此。
图1为本发明所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法的流程图;
图2为本发明所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测***框图;
图3为本发明的Trident-Cascaded-RCNN神经网络结构图;
图4为测试数据原图;
图5为本发明Trident-Cascaded-RCNN双结构网络的检测结果图;
图6为Cascade-RCNN网络的检测结果图;
图7为TridentNet网络的检测结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1~7所示,本发明解决的技术问题是,提供一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***,所述方法包括:
获取目标检测图像的数据集,并对所述数据集中的图像进行增强处理;
构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;
通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型;
通过所述目标检测模型对待检测图像进行目标检测。
上述技术方案的工作原理:首先获取目标检测图像的数据集,并对数据集中图像进行增强处理;然后,构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络借鉴TridentNet中的scale-aware并行结构模式,结合特征金字塔网络及FPN网络的特点,分为三路学习目标的不同尺度特征,从而让目标检测模型的Trident部分对不同尺度的目标具有更好的检测效果,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构,所述主干网网络为ResNet-18,所述双分支结构分别为FC-head和Conv-head,FC-head做分类网络,Conv-head做回归网络;其次,通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型;最后,通过所述目标检测模型对待检测图像进行目标检测。
上述技术方案的有益效果:通过以上技术方案设计合理且高速的多尺度目标检测模型,可以极大地提升目标检测的准确率与效率,其中,目标检测模型包括神经网络,通过神经网络通过借鉴Faster-RCNN,依次采用FPN(Feature Proposal Network)和RPN(RegionProposal Network)网络以获得候选框的特征映射,从而使得特征提取网络能够更好的进行提取特征,进而使得目标检测模型能够更好的训练,降低了过拟合的,大幅度提升了目标检测模型的准确性和鲁棒性。
本发明提供的一个实施例中,所述获取目标检测图像的数据集,并对数据集中的图像进行增强处理,包括:
步骤A1,采用以下公式对所述数据集中图像的亮度分量进行全局亮度增强处理:
Figure BDA0002813892490000081
其中,Lγ(c,d)代表全局亮度调整后的亮度函数,γ代表Gamma变化系数,I(c,d)代表数据集中图像的原始亮度分量,q代表高斯函数的标准差值,π代表自然常数,exp代表指数函数,(c,d)代表数据集中图像像素点的坐标;
步骤A2,将数据集中图像的亮度分量进行全局亮度增强处理后,然后根据以下公式进行饱和度增强处理:
Figure BDA0002813892490000082
其中,H′代表增强后的饱和度分量,H代表数据集中图像的原始饱和度分量,ψ代表参数值,T代表光照信息的平均亮度。
上述技术方案的有益效果:通过以上技术可以对图像特征信息进行增强,通过对提高图像的亮度和饱和度能够更好的区分图像中的不同的地方,使特征信息更加敏感,更加明显,以上算法通过采用高斯函数进行亮度的调整,由于亮度随着高斯函数的标准差值的增大,图像对比度也随之增大,但是亮度值减小,为了解决这一问题,对图像也进行饱和度分量的处理,从而使得对比度进行增强,进而数据库中图像的特征信息也更加明显,便于特征提取。
本发明提供的一个实施例中,所述通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型,包括:
获取增强后的数据集,并除掉冗余重复的数据;
利用现有的标注软件对数据进行准确位置和类别标注,并生成标注文件;
将标注文件与是数据集中的图片数据进行一一对应,然后将标注文件进行解析并生成txt格式的标签数据,随机将数据集切分为训练集、验证集和测试集;
使用训练集数据对目标检测模型中神经网络进行训练,在不断的迭代过程中使用验证集数据进行目标检测模型验证观察,然后将目标检测模型在测试集数据上进行测试,并分析目标检测模型的检测结果。
以上技术方案的工作原理:首先,获取增强后的数据集,并除掉冗余的数据,其中,利用PCA主成分分析进行去除;然后,利用现有的标注软件labelimg对数据进行准确位置和类别标注,并生成标注文件;其次,将标注文件与是数据集中的图片数据进行一一对应,然后将标注文件进行解析并生成txt格式的标签数据,随机将数据集切分为训练集、验证集和测试集;最后,使用训练集数据对目标检测模型中神经网络进行训练,所述使用训练集数据对目标检测模型中神经网络进行训练之前需要通过以下步骤进行数据的归一化:步骤A1,根据以下公式计算训练集中样本均值和样本方差:
Figure BDA0002813892490000091
Figure BDA0002813892490000092
其中,μa代表训练集中样本数据的均值,
Figure BDA0002813892490000093
代表训练集中样本数据的方差,xi代表训练集中的第i个样本数据,i=1,2,…,N;
步骤A2,根据以下公式将训练集进行归一化处理:
Figure BDA0002813892490000094
其中,
Figure BDA0002813892490000095
代表归一化后的训练集中的第i个样本数据,ε代表为极小值,防止分母为零时计算出错,其中,在反向梯度时还需要将归一化的数据进行重构,
Figure BDA0002813892490000101
其中,yi代表类别标签,ξ,β代表待学参数,为了不改变数据的分布特征,ξ,β应按照如下公式进行计算:
Figure BDA0002813892490000102
β=μa;训练神经网络时根据损失函数Loss衡量神经网络的训练程度,包括:
根据以下公式获取损失函数Loss:
Loss=Rcls[h]+Rloc[f]
其中,Rcls[h]代表分类损失函数,Rloc[f]代表位置损失函数;
分类损失函数表示为:
Figure BDA0002813892490000103
其中,h(xi)代表类别后验分布的概率估计值,yi代表类别标签,Lcls代表交叉熵损失;
位置损失函数表示为:
Figure BDA0002813892490000104
其中,(f(xi,bi),gi)代表将图像区域xi的预测边框bi向标注的标签边框进行回归,Lloc代表边框回归损失,边框回归损失Lloc采用平滑的L1损失;在不断的迭代过程中使用验证集数据进行目标检测模型验证观察,然后将目标检测模型在测试集数据上进行测试,并分析目标检测模型的检测结果,目标检测模型是基于TridentNet和Cascade-RCNN双结构网络实现的,这两部分分别记为Trident模块和Cascaded模块,Trident模块采用scale-aware并行结构模式,分为三路进行CNN特征提取,每一路CNN其backbone(骨干)都采用ResNet-18结构,以综合考虑特征提取的能力和效率问题。CNN结构采用不同卷积率的空洞卷积(dilated convolution)以得到不同感受野下的特征图。该三路分支共享权值参数,根据不同尺度的感受野对不同尺度特征进行提取,从而让模型的Trident部分对不同尺度的目标具有更好的特征提取效果。之后再进行concatenation操作,进行特征合并,以送入下一个网络模块;Cascaded模块直接对Trident模块输出的特征根据IOU阈值的不同而划分为三个子网络,第一个子网络回归后的检测框输入到第二个子网络进行框分类与回归,第二个子网络回归后的检测框输入到第三个子网络进行框分类与回归,最终第三个子网络分类和回归后的结果即为最终的网络输出结果。Cascaded模块中,三个子网络的IOU阈值根据实际尝试的情况分别设置为0.4,0.6和0.8,这样可以获得最优的平均分类与回归精度;将测试集数据也可以在TridentNet和Cascade-RCNN分别做检测,从而分析Cascade-RCNN网络、TridentNet网络以及TridentNet和Cascade-RCNN双结构的检测结果。
以上技术方案的有益效果:通过采用采用scale-aware并行结构模式,分为三路进行CNN特征提取,从而更好的高速提取有利特征,在训练网络之前对训练集数据进行归一化操作,使数据符合正太分布,从而使得损失函数能够更好的下降,从而防止过拟合,使得网络参数能够更好的拟合训练数据,从而大幅度提升目标检测模型的精度值和准确率,其中损失函数中边框回归损失采用L1损失,L1损失是基于图像比较差异,然后取绝对值,能够更好的防止在迭代过程中梯度***问题,当损失降低到一定值,验证集和测试集进行验证和测试,通过打印目标检测模型的mAP进行衡量模型的好坏,以上全部为计算机自动检测识别,不需要额外的增加人工维护,从而大幅度的提高了智能化水平。
一种基于TridentNet和Cascade-RCNN结构的高速目标检测***,所述***包括:
数据增强模块,用于获取目标检测图像的数据集,并对所述数据集中的图像进行增强处理;
网络构建模块,用于构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;
模型获取模块,用于通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型;
目标检测模块,用于通过所述目标检测模型对待检测图像进行目标检测。
上述技术方案的工作原理:首先数据增强模块获取目标检测图像的数据集,并对数据集中图像进行增强处理;然后,网络构建模块构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络借鉴TridentNet中的scale-aware并行结构模式,结合特征金字塔网络及FPN网络的特点,分为三路学习目标的不同尺度特征,从而让目标检测模型的Trident部分对不同尺度的目标具有更好的检测效果,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构,所述主干网网络为ResNet-18,所述双分支结构分别为FC-head和Conv-head,FC-head做分类网络,Conv-head做回归网络;其次,模型获取模块通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型;最后,目标检测模块通过所述目标检测模型对待检测图像进行目标检测。
上述技术方案的有益效果:通过以上技术方案设计合理且高速的多尺度目标检测模型,可以极大地提升目标检测的准确率与效率,其中,目标检测模型包括神经网络,通过神经网络通过借鉴Faster-RCNN,依次采用FPN(Feature Proposal Network)和RPN(RegionProposal Network)网络以获得候选框的特征映射,从而使得特征提取网络能够更好的进行提取特征,进而使得目标检测模型能够更好的训练,降低了过拟合的,大幅度提升了目标检测模型的准确性和鲁棒性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则范围之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法,其特征在于:所述方法包括:
获取目标检测图像的数据集,并对所述数据集中的图像进行增强处理;
构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;
通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型;
通过所述目标检测模型对待检测图像进行目标检测。
2.根据权利要求1所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法,其特征在于,所述获取目标检测图像的数据集,并对数据集中的图像进行增强处理,包括:
步骤A1,采用以下公式对所述数据集中图像的亮度分量进行全局亮度增强处理:
Figure FDA0002813892480000011
其中,Lγ(c,d)代表全局亮度调整后的亮度函数,γ代表Gamma变化系数,I(c,d)代表数据集中图像的原始亮度分量,q代表高斯函数的标准差值,π代表自然常数,exp代表指数函数,(c,d)代表数据集中图像像素点的坐标;
步骤A2,将数据集中图像的亮度分量进行全局亮度增强处理后,然后根据以下公式进行饱和度增强处理:
Figure FDA0002813892480000012
其中,H′代表增强后的饱和度分量,H代表数据集中图像的原始饱和度分量,ψ代表参数值,T代表光照信息的平均亮度。
3.据权利要求1所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法,其特征在于,所述特征提取网络借鉴TridentNet中的scale-aware并行结构模式,结合特征金字塔网络及FPN网络的特点,分为三路学习目标的不同尺度特征,从而让目标检测模型的Trident部分对不同尺度的目标具有更好的检测效果。
4.根据权利要求1所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法,其特征在于,所述主干网网络为ResNet-18,所述双分支结构分别为FC-head和Conv-head,FC-head做分类网络,Conv-head做回归网络。
5.根据权利要求1所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法,其特征在于,所述通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型,包括:
获取增强后的数据集,并除掉冗余重复的数据;
利用现有的标注软件对数据进行准确位置和类别标注,并生成标注文件;
将标注文件与是数据集中的图片数据进行一一对应,然后将标注文件进行解析并生成txt格式的标签数据,随机将数据集切分为训练集、验证集和测试集;
使用训练集数据对目标检测模型中神经网络进行训练,在不断的迭代过程中使用验证集数据进行目标检测模型验证观察,然后将目标检测模型在测试集数据上进行测试,并分析目标检测模型的检测结果。
6.根据权利要求5所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法,其特征在于,所述使用训练集数据对目标检测模型中神经网络进行训练之前还包括:将训练集数据进行归一化处理,具体步骤如下:
步骤A1,根据以下公式计算训练集中样本均值和样本方差:
Figure FDA0002813892480000031
Figure FDA0002813892480000032
其中,μa代表训练集中样本数据的均值,
Figure FDA0002813892480000033
代表训练集中样本数据的方差,xi代表训练集中的第i个样本数据,i=1,2,…,N;
步骤A2,根据以下公式将训练集进行归一化处理:
Figure FDA0002813892480000034
其中,
Figure FDA0002813892480000035
代表归一化后的训练集中的第i个样本数据,ε代表为极小值。
7.根据权利要求4所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法,其特征在于,训练神经网络时根据损失函数Loss衡量神经网络的训练程度,包括:
根据以下公式获取损失函数Loss:
Loss=Rcls[h]+Rloc[f]
其中,Rcls[h]代表分类损失函数,Rloc[f]代表位置损失函数;
分类损失函数表示为:
Figure FDA0002813892480000036
其中,h(xi)代表类别后验分布的概率估计值,yi代表类别标签,Lcls代表交叉熵损失;
位置损失函数表示为:
Figure FDA0002813892480000037
其中,(f(xi,bi),gi)代表将图像区域xi的预测边框bi向标注的标签边框进行回归,Lloc代表边框回归损失。
8.根据权利要求7所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法,其特征在于,所述边框回归损失Lloc采用平滑的L1损失。
9.根据权利要求1所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法,其特征在于,所述通过所述目标检测模型对待检测图像进行目标检测,包括:
获取待检测的图像,采用scale-aware方式分为三路CNN进行特征提取,每一路CNN都使用Resnet18的网络支柱进行高速特征提取;
将提取的特征进行等尺寸的串联操作,获取串联后的特征;
将串联后的特征采用Resnet18的网络支柱以进行高速特征提取与处理,特征提取后分为三路子特征,对子特征设置不同的IOU值,并对三路边框回归的特征图进行级联操作,第三级级联后的分类结果和边框回归结果作为最终的目标检测结果。
10.一种基于TridentNet和Cascade-RCNN结构的高速目标检测***,其特征在于,所述***包括:
数据增强模块,用于获取目标检测图像的数据集,并对所述数据集中的图像进行增强处理;
网络构建模块,用于构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;
模型获取模块,用于通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据IOU阈值对目标进行判断,得到目标检测模型;
目标检测模块,用于通过所述目标检测模型对待检测图像进行目标检测。
CN202011405295.2A 2020-12-02 2020-12-02 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和*** Pending CN112365497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011405295.2A CN112365497A (zh) 2020-12-02 2020-12-02 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011405295.2A CN112365497A (zh) 2020-12-02 2020-12-02 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***

Publications (1)

Publication Number Publication Date
CN112365497A true CN112365497A (zh) 2021-02-12

Family

ID=74535914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011405295.2A Pending CN112365497A (zh) 2020-12-02 2020-12-02 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***

Country Status (1)

Country Link
CN (1) CN112365497A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326924A (zh) * 2021-06-07 2021-08-31 太原理工大学 基于深度神经网络的稀疏图像内关键目标测光定位方法
CN113591617A (zh) * 2021-07-14 2021-11-02 武汉理工大学 基于深度学习的水面小目标检测与分类方法
CN113780193A (zh) * 2021-09-15 2021-12-10 易采天成(郑州)信息技术有限公司 基于rcnn的牛群目标检测方法及设备
CN113869361A (zh) * 2021-08-20 2021-12-31 深延科技(北京)有限公司 模型训练方法、目标检测方法及相关装置
CN115526874A (zh) * 2022-10-08 2022-12-27 哈尔滨市科佳通用机电股份有限公司 闸调器控制杆圆销和圆销开口销丢失检测方法
CN115527059A (zh) * 2022-08-16 2022-12-27 贵州博睿科讯科技发展有限公司 一种基于ai识别技术的涉路施工元素检测***及方法
CN115931359A (zh) * 2023-03-03 2023-04-07 西安航天动力研究所 一种涡轮泵轴承故障诊断方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779330A (zh) * 2012-06-13 2012-11-14 京东方科技集团股份有限公司 图像增强方法、图像增强装置和显示装置
US20190095795A1 (en) * 2017-03-15 2019-03-28 Samsung Electronics Co., Ltd. System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions
CN110852349A (zh) * 2019-10-21 2020-02-28 上海联影智能医疗科技有限公司 一种图像处理方法、检测方法、相关设备及存储介质
CN111814755A (zh) * 2020-08-18 2020-10-23 深延科技(北京)有限公司 面向夜间运动场景的多帧图像行人检测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779330A (zh) * 2012-06-13 2012-11-14 京东方科技集团股份有限公司 图像增强方法、图像增强装置和显示装置
US20190095795A1 (en) * 2017-03-15 2019-03-28 Samsung Electronics Co., Ltd. System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions
CN110852349A (zh) * 2019-10-21 2020-02-28 上海联影智能医疗科技有限公司 一种图像处理方法、检测方法、相关设备及存储介质
CN111814755A (zh) * 2020-08-18 2020-10-23 深延科技(北京)有限公司 面向夜间运动场景的多帧图像行人检测方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
司马海峰等: "《遥感图像分类中的智能计算方法》", 31 January 2018 *
杨东方等: "《数学模型在生态学的应用及研究》", 31 March 2019 *
雷帮军等: "《视频目标跟踪***分步详解》", 31 December 2015 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326924A (zh) * 2021-06-07 2021-08-31 太原理工大学 基于深度神经网络的稀疏图像内关键目标测光定位方法
CN113326924B (zh) * 2021-06-07 2022-06-14 太原理工大学 基于深度神经网络的稀疏图像内关键目标测光定位方法
CN113591617A (zh) * 2021-07-14 2021-11-02 武汉理工大学 基于深度学习的水面小目标检测与分类方法
CN113591617B (zh) * 2021-07-14 2023-11-28 武汉理工大学 基于深度学习的水面小目标检测与分类方法
CN113869361A (zh) * 2021-08-20 2021-12-31 深延科技(北京)有限公司 模型训练方法、目标检测方法及相关装置
CN113780193A (zh) * 2021-09-15 2021-12-10 易采天成(郑州)信息技术有限公司 基于rcnn的牛群目标检测方法及设备
CN115527059A (zh) * 2022-08-16 2022-12-27 贵州博睿科讯科技发展有限公司 一种基于ai识别技术的涉路施工元素检测***及方法
CN115527059B (zh) * 2022-08-16 2024-04-09 贵州博睿科讯科技发展有限公司 一种基于ai识别技术的涉路施工元素检测***及方法
CN115526874A (zh) * 2022-10-08 2022-12-27 哈尔滨市科佳通用机电股份有限公司 闸调器控制杆圆销和圆销开口销丢失检测方法
CN115526874B (zh) * 2022-10-08 2023-05-12 哈尔滨市科佳通用机电股份有限公司 闸调器控制杆圆销和圆销开口销丢失检测方法
CN115931359A (zh) * 2023-03-03 2023-04-07 西安航天动力研究所 一种涡轮泵轴承故障诊断方法及装置
CN115931359B (zh) * 2023-03-03 2023-07-14 西安航天动力研究所 一种涡轮泵轴承故障诊断方法及装置

Similar Documents

Publication Publication Date Title
CN112365497A (zh) 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***
CN108830188B (zh) 基于深度学习的车辆检测方法
CN111179251B (zh) 基于孪生神经网络利用模板比对的缺陷检测***及方法
CN106803247B (zh) 一种基于多级筛选卷积神经网络的微血管瘤图像识别方法
CN113160192B (zh) 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置
CN108830285B (zh) 一种基于Faster-RCNN的加强学习的目标检测方法
WO2022012110A1 (zh) 胚胎光镜图像中细胞的识别方法及***、设备及存储介质
CN109509187B (zh) 一种针对大分辨率布匹图像中的小瑕疵的高效检验算法
CN109285139A (zh) 一种基于深度学习的x射线成像焊缝检测方法
CN108564085B (zh) 一种自动读取指针式仪表读数的方法
CN111815564B (zh) 一种检测丝锭的方法、装置及丝锭分拣***
CN109840483B (zh) 一种滑坡裂缝检测与识别的方法及装置
CN106340016A (zh) 一种基于细胞显微镜图像的dna定量分析方法
CN111753692A (zh) 目标对象提取方法、产品检测方法、装置、计算机和介质
CN113435407B (zh) 一种输电***的小目标识别方法及装置
CN112613428B (zh) 基于平衡损失的Resnet-3D卷积牛视频目标检测方法
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
CN109189965A (zh) 图像文字检索方法及***
CN108664970A (zh) 一种快速目标检测方法、电子设备、存储介质及***
CN116012291A (zh) 工业零件图像缺陷检测方法及***、电子设备和存储介质
CN112381806A (zh) 基于多尺度融合方法的双着丝粒畸变染色体分析预测方法
CN111461121A (zh) 一种基于yolov3网络的电表示数识别方法
CN111127400A (zh) 一种乳腺病变检测方法和装置
CN115294377A (zh) 一种道路裂缝的识别***及方法
CN115147363A (zh) 一种基于深度学习算法的影像缺陷检测和分类方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212