CN112365497A

CN112365497A - 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***

Info

Publication number: CN112365497A
Application number: CN202011405295.2A
Authority: CN
Inventors: 刘凤余; 张琦; 张平平; 张冲
Original assignee: Shanghai Zhuofan Information Technology Co ltd
Current assignee: Shanghai Zhuofan Information Technology Co ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-02-12

Abstract

本发明提供了一种基于TridentNet和Cascade‑RCNN结构的高速目标检测方法，所述方法包括获取目标检测图像的数据集，并对所述数据集中的图像进行增强处理；构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，并包括特征金字塔网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据IOU阈值对目标进行判断，得到目标检测模型；通过所述目标检测模型对待检测图像进行目标检测，所述***包括与所述方法步骤对应的模块。

Description

基于TridentNet和Cascade-RCNN结构的高速目标检测方法和 ***

技术领域

本发明涉及人工智能及机器学习领域，尤其涉及深度学习领域，是一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***。

背景技术

在目标检测的众多应用场景中，由于待检测目标与检测器(传感器)的距离不同，会导致同类目标的检测尺度不同，而使用同一尺度对不同大小的目标进行检测必然存在天然缺陷和低精准率，因而多尺度检测就被迫切需要。以往的检测模型虽然可以以多尺度的方式进行检测，但由于其预设模板而对不同尺寸目标的特征表达能力存在差异，比如对过大或过小尺寸的目标难以准确检测。为使模型对不同尺寸目标的“表达能力”近似，TridentNet引入了scale-aware并行结构，首次提出感受野对目标检测任务中不同尺度和大小的物体存在影响，采用了dilated convolution以得到不同感受野的特征图，并使用参数共享以保证较小的参数和计算量。

在目标检测任务中，交并比(IOU)的阈值选取对检测存在很大影响，阈值越高越容易得到高质量的样本。然而一味地追求高阈值会引发一定程度的问题：(1)样本减少引发的过拟合，(2)在训练和推理过程中使用不一样的阈值很容易导致误匹配。Cascade-RCNN是一种级联检测结构，核心就是利用不断升高的阈值以stage-by-state的方式在不同网络上训练正负样本，以让每一个stage的detector都专注于检测IOU在某一范围内的proposal，因为输出IOU普遍大于输入IOU从而不断提升检测效果。

结合TridentNet与Cascade-RCNN的优点，为获得更加准确的目标检测结果，本专利提出将两种模型结构进行结合的方法，充分利用两者的优势来解决目标检测中的多尺度问题和IOU阈值选择问题。

发明内容

为至少部分地解决上述问题，本发明提供了一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***，所述方法包括：所述方法包括：

获取目标检测图像的数据集，并对所述数据集中的图像进行增强处理；

构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，并包括特征金字塔网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；

通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据IOU阈值对目标进行判断，得到目标检测模型；

通过所述目标检测模型对待检测图像进行目标检测。

进一步地，所述从用户语音波形中提取出语音特征序列，包括：

所述获取目标检测图像的数据集，并对数据集中的图像进行增强处理，包括：

步骤A1，采用以下公式对所述数据集中图像的亮度分量进行全局亮度增强处理：

其中，L_γ(c,d)代表全局亮度调整后的亮度函数，γ代表Gamma变化系数，I(c,d)代表数据集中图像的原始亮度分量，q代表高斯函数的标准差值，π代表自然常数，exp代表指数函数，(c,d)代表数据集中图像像素点的坐标；

步骤A2，将数据集中图像的亮度分量进行全局亮度增强处理后，然后根据以下公式进行饱和度增强处理：

其中，H′代表增强后的饱和度分量，H代表数据集中图像的原始饱和度分量，ψ代表参数值，T代表光照信息的平均亮度。

进一步地，所述特征提取网络借鉴TridentNet中的scale-aware并行结构模式，结合特征金字塔网络及FPN网络的特点，分为三路学习目标的不同尺度特征，从而让目标检测模型的Trident部分对不同尺度的目标具有更好的检测效果。

进一步地，所述主干网网络为ResNet-18，所述双分支结构分别为FC-head和Conv-head，FC-head做分类网络，Conv-head做回归网络。

进一步地，所述通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据IOU阈值对目标进行判断，得到目标检测模型，包括：

获取增强后的数据集，并除掉冗余重复的数据；

利用现有的标注软件对数据进行准确位置和类别标注，并生成标注文件；

将标注文件与是数据集中的图片数据进行一一对应，然后将标注文件进行解析并生成txt格式的标签数据，随机将数据集切分为训练集、验证集和测试集；

使用训练集数据对目标检测模型中神经网络进行训练，在不断的迭代过程中使用验证集数据进行目标检测模型验证观察，然后将目标检测模型在测试集数据上进行测试，并分析目标检测模型的检测结果。

进一步地，所述使用训练集数据对目标检测模型中神经网络进行训练之前还包括：将训练集数据进行归一化处理，具体步骤如下：

步骤A1,根据以下公式计算训练集中样本均值和样本方差：

其中，μ_a代表训练集中样本数据的均值，

代表训练集中样本数据的方差，x_i代表训练集中的第i个样本数据，i＝1,2,…,N；

步骤A2，根据以下公式将训练集进行归一化处理：

其中，

代表归一化后的训练集中的第i个样本数据，ε代表为极小值。

进一步地，训练神经网络时根据损失函数Loss衡量神经网络的训练程度，包括：

根据以下公式获取损失函数Loss：

Loss＝R_cls[h]+R_loc[f]

其中，R_cls[h]代表分类损失函数，R_loc[f]代表位置损失函数；

分类损失函数表示为：

其中，h(x_i)代表类别后验分布的概率估计值，y_i代表类别标签，L_cls代表交叉熵损失；

位置损失函数表示为：

其中，(f(x_i,b_i),g_i)代表将图像区域x_i的预测边框b_i向标注的标签边框进行回归，L_loc代表边框回归损失。

进一步地，所述边框回归损失L_loc采用平滑的L₁损失。

进一步地，所述通过所述目标检测模型对待检测图像进行目标检测，包括：

获取待检测的图像，采用scale-aware方式分为三路CNN进行特征提取，每一路CNN都使用Resnet18的网络支柱进行高速特征提取；

将提取的特征进行等尺寸的串联操作，获取串联后的特征；

将串联后的特征采用Resnet18的网络支柱以进行高速特征提取与处理，特征提取后分为三路子特征，对子特征设置不同的IOU值，并对三路边框回归的特征图进行级联操作，第三级级联后的分类结果和边框回归结果作为最终的目标检测结果。

进一步地，所述***包括：

数据增强模块，用于获取目标检测图像的数据集，并对所述数据集中的图像进行增强处理；

网络构建模块，用于构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，并包括特征金字塔网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；

模型获取模块，用于通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据IOU阈值对目标进行判断，得到目标检测模型；

目标检测模块，用于通过所述目标检测模型对待检测图像进行目标检测。

与现有技术相比，本发明的有益效果：本发明提供了一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法，所述方法包括获取目标检测图像的数据集，并对所述数据集中的图像进行增强处理；构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，并包括特征金字塔网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据IOU阈值对目标进行判断，得到目标检测模型；通过所述目标检测模型对待检测图像进行目标检测，设计合理且高速的多尺度检测模型，可以极大地提升目标检测的准确率与效率。

下文中将结合附图对实施本发明的最优实施例进行更详尽的描述，以便能容易地理解本发明的特征和优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下文中将对本发明实施例的附图进行简单介绍。其中，附图仅仅用于展示本发明的一些实施例，而非将本发明的全部实施例限制于此。

图1为本发明所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法的流程图；

图2为本发明所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测***框图；

图3为本发明的Trident-Cascaded-RCNN神经网络结构图；

图4为测试数据原图；

图5为本发明Trident-Cascaded-RCNN双结构网络的检测结果图；

图6为Cascade-RCNN网络的检测结果图；

图7为TridentNet网络的检测结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1～7所示，本发明解决的技术问题是，提供一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***，所述方法包括：

通过所述目标检测模型对待检测图像进行目标检测。

上述技术方案的工作原理：首先获取目标检测图像的数据集，并对数据集中图像进行增强处理；然后，构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络借鉴TridentNet中的scale-aware并行结构模式，结合特征金字塔网络及FPN网络的特点，分为三路学习目标的不同尺度特征，从而让目标检测模型的Trident部分对不同尺度的目标具有更好的检测效果，所述特征提取网络融合多个主干网络，并包括特征金字塔网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构，所述主干网网络为ResNet-18，所述双分支结构分别为FC-head和Conv-head，FC-head做分类网络，Conv-head做回归网络；其次，通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据IOU阈值对目标进行判断，得到目标检测模型；最后，通过所述目标检测模型对待检测图像进行目标检测。

上述技术方案的有益效果：通过以上技术方案设计合理且高速的多尺度目标检测模型，可以极大地提升目标检测的准确率与效率，其中，目标检测模型包括神经网络，通过神经网络通过借鉴Faster-RCNN，依次采用FPN(Feature Proposal Network)和RPN(RegionProposal Network)网络以获得候选框的特征映射，从而使得特征提取网络能够更好的进行提取特征，进而使得目标检测模型能够更好的训练，降低了过拟合的，大幅度提升了目标检测模型的准确性和鲁棒性。

本发明提供的一个实施例中，所述获取目标检测图像的数据集，并对数据集中的图像进行增强处理，包括：

上述技术方案的有益效果：通过以上技术可以对图像特征信息进行增强，通过对提高图像的亮度和饱和度能够更好的区分图像中的不同的地方，使特征信息更加敏感，更加明显，以上算法通过采用高斯函数进行亮度的调整，由于亮度随着高斯函数的标准差值的增大，图像对比度也随之增大，但是亮度值减小，为了解决这一问题，对图像也进行饱和度分量的处理，从而使得对比度进行增强，进而数据库中图像的特征信息也更加明显，便于特征提取。

本发明提供的一个实施例中，所述通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据IOU阈值对目标进行判断，得到目标检测模型，包括：

获取增强后的数据集，并除掉冗余重复的数据；

以上技术方案的工作原理：首先，获取增强后的数据集，并除掉冗余的数据，其中，利用PCA主成分分析进行去除；然后，利用现有的标注软件labelimg对数据进行准确位置和类别标注，并生成标注文件；其次，将标注文件与是数据集中的图片数据进行一一对应，然后将标注文件进行解析并生成txt格式的标签数据，随机将数据集切分为训练集、验证集和测试集；最后，使用训练集数据对目标检测模型中神经网络进行训练，所述使用训练集数据对目标检测模型中神经网络进行训练之前需要通过以下步骤进行数据的归一化：步骤A1,根据以下公式计算训练集中样本均值和样本方差：

其中，μ_a代表训练集中样本数据的均值，

步骤A2，根据以下公式将训练集进行归一化处理：

其中，

代表归一化后的训练集中的第i个样本数据，ε代表为极小值，防止分母为零时计算出错，其中，在反向梯度时还需要将归一化的数据进行重构，

其中，y_i代表类别标签，ξ,β代表待学参数，为了不改变数据的分布特征，ξ,β应按照如下公式进行计算：

β＝μ_a；训练神经网络时根据损失函数Loss衡量神经网络的训练程度，包括：

根据以下公式获取损失函数Loss：

Loss＝R_cls[h]+R_loc[f]

其中，R_cls[h]代表分类损失函数，R_loc[f]代表位置损失函数；

分类损失函数表示为：

位置损失函数表示为：

其中，(f(x_i,b_i),g_i)代表将图像区域x_i的预测边框b_i向标注的标签边框进行回归，L_loc代表边框回归损失，边框回归损失L_loc采用平滑的L₁损失；在不断的迭代过程中使用验证集数据进行目标检测模型验证观察，然后将目标检测模型在测试集数据上进行测试，并分析目标检测模型的检测结果，目标检测模型是基于TridentNet和Cascade-RCNN双结构网络实现的，这两部分分别记为Trident模块和Cascaded模块，Trident模块采用scale-aware并行结构模式，分为三路进行CNN特征提取，每一路CNN其backbone(骨干)都采用ResNet-18结构，以综合考虑特征提取的能力和效率问题。CNN结构采用不同卷积率的空洞卷积(dilated convolution)以得到不同感受野下的特征图。该三路分支共享权值参数，根据不同尺度的感受野对不同尺度特征进行提取，从而让模型的Trident部分对不同尺度的目标具有更好的特征提取效果。之后再进行concatenation操作，进行特征合并，以送入下一个网络模块；Cascaded模块直接对Trident模块输出的特征根据IOU阈值的不同而划分为三个子网络，第一个子网络回归后的检测框输入到第二个子网络进行框分类与回归，第二个子网络回归后的检测框输入到第三个子网络进行框分类与回归，最终第三个子网络分类和回归后的结果即为最终的网络输出结果。Cascaded模块中，三个子网络的IOU阈值根据实际尝试的情况分别设置为0.4，0.6和0.8，这样可以获得最优的平均分类与回归精度；将测试集数据也可以在TridentNet和Cascade-RCNN分别做检测，从而分析Cascade-RCNN网络、TridentNet网络以及TridentNet和Cascade-RCNN双结构的检测结果。

以上技术方案的有益效果：通过采用采用scale-aware并行结构模式，分为三路进行CNN特征提取，从而更好的高速提取有利特征，在训练网络之前对训练集数据进行归一化操作，使数据符合正太分布，从而使得损失函数能够更好的下降，从而防止过拟合，使得网络参数能够更好的拟合训练数据，从而大幅度提升目标检测模型的精度值和准确率，其中损失函数中边框回归损失采用L₁损失，L₁损失是基于图像比较差异，然后取绝对值，能够更好的防止在迭代过程中梯度***问题，当损失降低到一定值，验证集和测试集进行验证和测试，通过打印目标检测模型的mAP进行衡量模型的好坏，以上全部为计算机自动检测识别，不需要额外的增加人工维护，从而大幅度的提高了智能化水平。

一种基于TridentNet和Cascade-RCNN结构的高速目标检测***，所述***包括：

上述技术方案的工作原理：首先数据增强模块获取目标检测图像的数据集，并对数据集中图像进行增强处理；然后，网络构建模块构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络借鉴TridentNet中的scale-aware并行结构模式，结合特征金字塔网络及FPN网络的特点，分为三路学习目标的不同尺度特征，从而让目标检测模型的Trident部分对不同尺度的目标具有更好的检测效果，所述特征提取网络融合多个主干网络，并包括特征金字塔网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构，所述主干网网络为ResNet-18，所述双分支结构分别为FC-head和Conv-head，FC-head做分类网络，Conv-head做回归网络；其次，模型获取模块通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据IOU阈值对目标进行判断，得到目标检测模型；最后，目标检测模块通过所述目标检测模型对待检测图像进行目标检测。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则范围之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法，其特征在于：所述方法包括：

通过所述目标检测模型对待检测图像进行目标检测。

2.根据权利要求1所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法，其特征在于，所述获取目标检测图像的数据集，并对数据集中的图像进行增强处理，包括：

3.据权利要求1所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法，其特征在于，所述特征提取网络借鉴TridentNet中的scale-aware并行结构模式，结合特征金字塔网络及FPN网络的特点，分为三路学习目标的不同尺度特征，从而让目标检测模型的Trident部分对不同尺度的目标具有更好的检测效果。

4.根据权利要求1所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法，其特征在于，所述主干网网络为ResNet-18，所述双分支结构分别为FC-head和Conv-head，FC-head做分类网络，Conv-head做回归网络。

5.根据权利要求1所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法，其特征在于，所述通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据IOU阈值对目标进行判断，得到目标检测模型，包括：

获取增强后的数据集，并除掉冗余重复的数据；

6.根据权利要求5所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法，其特征在于，所述使用训练集数据对目标检测模型中神经网络进行训练之前还包括：将训练集数据进行归一化处理，具体步骤如下：

步骤A1,根据以下公式计算训练集中样本均值和样本方差：

其中，μ_a代表训练集中样本数据的均值，

步骤A2，根据以下公式将训练集进行归一化处理：

其中，

7.根据权利要求4所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法，其特征在于，训练神经网络时根据损失函数Loss衡量神经网络的训练程度，包括：

根据以下公式获取损失函数Loss：

Loss＝R_cls[h]+R_loc[f]

其中，R_cls[h]代表分类损失函数，R_loc[f]代表位置损失函数；

分类损失函数表示为：

位置损失函数表示为：

8.根据权利要求7所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法，其特征在于，所述边框回归损失L_loc采用平滑的L₁损失。

9.根据权利要求1所述的一种基于TridentNet和Cascade-RCNN结构的高速目标检测方法，其特征在于，所述通过所述目标检测模型对待检测图像进行目标检测，包括：

将提取的特征进行等尺寸的串联操作，获取串联后的特征；

10.一种基于TridentNet和Cascade-RCNN结构的高速目标检测***，其特征在于，所述***包括：