CN111524098A

CN111524098A - 一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法

Info

Publication number: CN111524098A
Application number: CN202010265447.7A
Authority: CN
Inventors: 郝梦茜; 张辉; 周斌; 杨柏胜; 倪少波; 靳松直; 丛龙剑; 刘严羊硕; 郑文娟; 韦海萍; 田爱国; 邵俊伟; 李建伟; 张孝赫; 张连杰; 张艺明
Original assignee: Beijing Aerospace Automatic Control Research Institute
Current assignee: Beijing Aerospace Automatic Control Research Institute
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-08-11
Anticipated expiration: 2040-04-07
Also published as: CN111524098B

Abstract

本发明涉及一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，属于卷积神经网络的目标检测识别技术领域，特别提供了一种针对SSD算法的网络输出层裁剪及模板框尺寸确定方法。使用自组织聚类可以在不确定目标尺寸分布的情况下获得更好的聚类结果，使用聚类结果计算目标上限面积，确定输出层层数，删掉感受野过大、层数过深的输出层，减少网络深度和参数数量，降低模型训练的难度，加快模型收敛，提高模型泛化能力，减少计算耗时，提高计算效率。

Description

一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法

技术领域

本发明涉及一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，属于卷积神经网络的目标检测识别技术领域，特别提供了一种针对SSD算法的网络输出层裁剪及模板框尺寸确定方法。

背景技术

近年来卷积神经网络在图像目标检测识别领域展示出了远超传统图像分析方法的性能，在民用、国防、工业等领域产生了良好的使用效果。目前在学术界，卷积神经网络的主要研究方向以可见光图像大目标场景为主，在此类问题中目标尺寸大、特征丰富、训练样本丰富，需要更深层的网络为目标检测识别提供更好的非线性特性。

然而，在遥感、军事等某些特殊应用场景中，多以SAR、红外图像为主，成像分辨率偏低、目标种类有限、目标像素尺寸普遍偏小、训练样本数量有限，使用更深的网络往往导致训练过程难以收敛，训练结果容易过拟合，导致模型泛化性能较差，实用效果不佳。

为解决这一问题，部分方案采取减少网络深度，减少网络待训练参数数量的方式降低模型训练难度，但是这种减少网络深度的方法基本依靠人为经验调整，调整效果难以保证。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提出一种基于自组织聚类的神经网络输出层裁剪及模板框确定方法，该方法针对目标种类有限、目标像素尺寸普遍偏小、训练样本数量有限的场景下，过深的SSD网络会导致训练收敛困难、模型泛化能力差的问题，对使用自组织聚类算法对训练样本数据中的目标尺寸进行聚类，得到聚类中心个数和聚类中心；根据相应准则确定SSD网络输出层数和模板框(又称：default box)尺寸，去掉不必要的输出层，减少网络深度，降低网络复杂度，降低模型训练收敛难度。本方案针对上述问题，针对SSD算法提出了基于自组织聚类的输出层裁剪及模板框尺寸确定方法，通过对训练样本数据进行分析，提取样本尺寸分布，进而确定合适的网络输出层数和合理的模板框尺寸，对原有模型输出层进行裁剪并合理确定模板框尺寸，减少网络深度，降低网络复杂度，降低模型训练收敛难度和计算耗时。

本发明的解决方案是：

一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，该方法的步骤包括：

(1)将训练数据上的每个目标均用二维特征向量(w,h)表示，其中，w为目标像素宽度，h为目标像素高度，二维特征向量(w,h)的个数用N表示，以下二维特征向量(w,h)简称样本，样本用x表示。

(2)设定步骤(1)得到的N个样本的初始聚类中心个数为K、聚类中最少的样本数目为θ_N、聚类中样本距离分布的标准差为θ_S、两聚类中心之间的最小距离为θ_C、最大迭代运算次数为I_max。

(3)在N个样本中随机选取K个作为初始聚类中心，并令N_C＝K，N_C表示当前聚类中心个数，每个聚类中心用Z_j表示，j＝1,2,…,N_C，各聚类中心对应的类别用S_j表示，j＝1,2,…,N_C，类别S_j中的样本数量用N_j表示，j＝1,2,…,N_C，迭代运算次数用I表示，令I＝1。

(4)遍历所有样本x，计算样本x与各聚类中心Z_j之间的距离D_j，将样本x划归到与样本x距离最小的聚类中心对应的类别中。

(5)如果某类别S_j中样本数量N_j<θ_N，则取消该类别，令当前聚类中心个数N_C减少1，并将该类别中的样本按照(4)中的最小距离准则划归到其他类别中；否则对类别S_j不做处理。

(6)对各类别S_j中的样本x取平均，得到的平均值即为修正后的聚类中心Z_j，j＝1,2,…,N_C。

(7)对各类别S_j计算各类别中的样本到聚类中心的平均距离

j＝1,2,…,N_C。

(8)计算全部类别样本与相应聚类中心的总平均距离

(9)判断类别S_j的***、合并及迭代运算。

1)如果迭代运算次数I≥I_max，即最后一次迭代，置θ_C＝0，跳到步骤(13)。

2)如果θ_N≤K/2，即聚类中心的数目等于或不到规定值的一半，则进入步骤(10)，将已有的聚类***。

3)如迭代运算的次数I是偶数，或N_C≥2K，则不进行***处理，跳到步骤(13)；如果I是奇数，且N_C<2K，则进入步骤(10)，进行***处理。

(10)计算每个类别S_j中各样本x到聚类中心Z_j的标准差向量σ_j，j＝1,2,…,N_C。

(11)对(10)中计算得到的标准差向量σ_j提取最大分量，用σ_jmax表示，j＝1,2,…,N_C。

(12)最大分量集{σ_jmax}，j＝1,2,…,N_C中，如有σ_jmax>θ_S，且满足如下两个条件中的任意一个：

(1)

且N_j>(θ_N+1)*2；

(2)N_C≤K/2；

则将Z_j***为两个新的聚类中心，且令聚类中心个数N_C加1。完成***运算后，跳回步骤(4)，且令迭代运算次数I加1；否则不对聚类中心Z_j进行操作，进入步骤(13)。

(13)计算N_C个聚类中心两两之间的距离D_ij＝||Z_i-Z_j||，i＝1,2,…,N_C-1，j＝i+1,2,…,N_C。

(14)若距离最近的两个聚类中心之间的距离D_ij<θ_C，则将这两个聚类中心合并为一个新的聚类中心，两个聚类中心对应的类别合并为一个类别，并令聚类中心个数N_C减1；否则则不做处理。

(15)如果迭代运算次数I≥I_max，聚类运算结束，进入步骤(16)，否则回到步骤(4)且令迭代运算次数I加1。

(16)对N_C个聚类中心Z_j＝(w_j,h_j)计算上限面积

对N_C个

进行从小到大排序，获得最大上限面积

(17)根据

判断输出层层数L_out：

若

则输出层数为L_out＝6；

若

则输出层数为L_out＝5；

若

则输出层数为L_out＝4；

若

则输出层数为L_out＝3；

若

则输出层数为L_out＝2。

(18)SSD算法中共有6个输出层，分别为conv4_3，fc7，conv8_2，conv9_2，conv10_2，conv11_2。

若L_out＝2则只保留conv4_3，fc7层，删掉fc7之后的卷积层；

若L_out＝3则只保留conv4_3，fc7，conv8_2，删掉conv8_2之后的卷积层；

若L_out＝4则只保留conv4_3，fc7，conv8_2，conv9_2，删掉conv9_2之后的卷积层；

若L_out＝5则只保留conv4_3，fc7，conv8_2，conv9_2，conv10_2，删掉conv10_2之后的卷积层；

若L_out＝6则不对SSD网络进行删减。

(19)对各聚类中心确定其相应的模板框所在输出层：

对N_C个聚类中心Z_j＝(w_j,h_j)计算面积A_j＝w_j×h_j，

若A_j>(300/3)²则在conv11_2层设计对应模板框；

若(300/5)²<A_j≤(300/3)²则在conv10_2层设计对应模板框；

若(300/10)²<A_j≤(300/5)²则在conv9_2层设计对应模板框；

若(300/19)²<A_j≤(300/10)²则在conv8_2层设计对应模板框；

若(300/38)²<A_j≤(300/19)²则在fc7层设计对应模板框；

若A_j≤(300/38)²则在conv4_3层设计对应模板框。

(20)对各聚类中心确定其相应的模板框尺寸：

N_C个聚类中心Z_j＝(w_j,h_j)对应的模板框尺寸分别为：

max_size＝max(w_j,h_j)

其中floor()为向下取整。

(21)若对所有聚类中心设计了对应的模板框之后仍有某输出层没有设计相应的模板框，则按照如下准则设计：

若某输出层没有设计相应的模板框，那么就采用距离它最近的层的min_size，max_size，aspect_ratio参数。若有两个输出层距离该层距离相同，浅层为Layer_B，深层为Layer_T，则该输出层参数

aspect_ratio采用的Layer_B的aspect_ratio_B和Layer_T的aspect_ratio_T的并集。

(22)对所有输出层都添加aspect_ratio＝1的模板框比例。

(23)对完成了输出层裁剪及模板框尺寸确定的卷积神经网络进行训练，得到层数更少，复杂度更低的，计算效率更高的神经网络模型。

上述方案在步骤(1)中，提取标注信息中的目标宽w、高h尺寸的具体方法为：读取xml中各<bndbox>节点中的<xmin>、<ymin>、<xmax>、<ymax>值，计算该目标的宽w＝xmax-xmin+1，高h＝ymax-ymin+1。

上述方案在步骤(3)中，随机选取K个样本的具体方法为：按照U(0,1)在0到1之间按均匀分布生成K一个随机数α₁,α₂,…,α_K，取第ceil(a_iN)个样本作为第i个初始聚类中心，其中ceil()为向上取整。

上述方案在步骤(4)中，样本x与聚类中心Z_j之间距离的计算方法为：D_j＝||x-Z_j||。

上述方案在步骤(4)中，样本x的归类方法为：若

则该样本x归于S_j类。

上述方案在步骤(5)中，取消某类别的具体方法为：取消该聚类中心，令聚类中心个数N_C减1，释放原本归属于该类别的样本，对释放出的样本计算其与其他聚类中心之间的距离，释放样本与哪个聚类中心之间的距离最近就将之归类于哪一个类别。

上述方案在步骤(6)中，修正各类别聚类中心Z_j的具体方法为：

上述方案在步骤(7)中，计算各类别S_j中的样本到聚类中心的平均距离

的具体方法为：

上述方案在步骤(8)中，计算全部类别样本与相应聚类中心的总平均距离

的具体方法为：

上述方案在步骤(10)中，计算每个类别S_j中各样本x＝(x_w,x_h)到聚类中心Z_j＝(w_j,h_j)的标准差向量σ_j＝(σ_w,j,σ_h,j)的具体方法为：

上述方案在步骤(11)中，提取各标准差向量中σ_j＝(σ_w,j,σ_h,j)的最大分量σ_jmax的具体方法为：

σ_jmax＝max(σ_w,j,σ_h,j)

上述方案在步骤(12)中，将Z_j***为两个新的聚类中心的具体方法为：聚类S_j中各样本x到聚类中心Z_j的标准差为σ_j＝(σ_w,j,σ_h,j)，若σ_w,j≥σ_h,j则令γ＝(σ_w,j,0)；若σ_w,j<σ_h,j则令γ＝(0,σ_h,j)。Z_j***出的两个新聚类中心分别为：Z_j+kγ和Z_j-kγ，其中0<k<1。

上述方案在步骤(14)中，聚类中心合并的具体方法为：若距离最近的两个聚类中心之间的距离D_ij<θ_C，则将两个聚类中心对应的类别合并为一个类别，取消两个聚类中心的聚类中心地位，对这两类释放出的样本重新计算聚类中心

并令聚类中心个数N_C减1。

上述方案在步骤(16)中，获得最大面积

的具体方法为：

其中，

附图说明

图1为本发明的方法流程示意图；

图2为模板框尺寸的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

实施例

(7)对各类别S_j计算各类别中的样本到聚类中心的平均距离

j＝1,2,…,N_C。

(8)计算全部类别样本与相应聚类中心的总平均距离

(9)判断类别S_j的***、合并及迭代运算。

(1)

且N_j>(θ_N+1)*2；

(2) N_C≤K/2；

(16)对N_C个聚类中心Z_j＝(w_j,h_j)计算上限面积

对N_C个

进行从小到大排序，获得最大上限面积

(17)根据

判断输出层层数L_out：

若

则输出层数为L_out＝6；

若

则输出层数为L_out＝5；

若

则输出层数为L_out＝4；

若

则输出层数为L_out＝3；

若

则输出层数为L_out＝2。

若L_out＝2则只保留conv4_3，fc7层，删掉fc7之后的卷积层；

若L_out＝6则不对SSD网络进行删减。

(19)对各聚类中心确定其相应的模板框所在输出层：

对N_C个聚类中心Z_j＝(w_j,h_j)计算面积A_j＝w_j×h_j，

若A_j>(300/3)²则在conv11_2层设计对应模板框；

若(300/5)²<A_j≤(300/3)²则在conv10_2层设计对应模板框；

若(300/10)²<A_j≤(300/5)²则在conv9_2层设计对应模板框；

若(300/19)²<A_j≤(300/10)²则在conv8_2层设计对应模板框；

若(300/38)²<A_j≤(300/19)²则在fc7层设计对应模板框；

若A_j≤(300/38)²则在conv4_3层设计对应模板框。

(20)对各聚类中心确定其相应的模板框尺寸：

N_C个聚类中心Z_j＝(w_j,h_j)对应的模板框尺寸分别为：

max_size＝max(w_j,h_j)

其中floor()为向下取整。

(22)对所有输出层都添加aspect_ratio＝1的模板框比例。

上述方案在步骤(4)中，样本x的归类方法为：若

则该样本x归于S_j类。

的具体方法为：

的具体方法为：

σ_jmax＝max(σ_w,j,σ_h,j)

并令聚类中心个数N_C减1。

上述方案在步骤(16)中，获得最大面积

的具体方法为：

其中，

如图1所示是本方案提出的一种基于自组织聚类的SSD网络输出层裁剪及模板框尺寸确定方法的具体实施过程。

图1中“提取训练数据中目标宽、高作为特征向量样本”对应步骤(1)：

全部训练数据共1000张图片，遍历全部图片中的所有目标，读取目标标注信息<bndbox>节点中的<xmin>、<ymin>、<xmax>、<ymax>值，计算该目标的宽w＝xmax-xmin+1，高h＝ymax-ymin+1，将(w,h)作为一个二维特征向量样本x记录下来，进入后续操作，本实施例中记录特征向量个数N＝1858。

图1中“参数初始化”对应步骤(2)：

本实施例中设定初始聚类中心个数K＝6，聚类中最少的样本数目θ_N＝80，聚类中样本距离分布的标准差θ_S＝5，两聚类中心之间的最小距离θ_C＝5，最大迭代运算次数I_max＝100。

图1中“随机选取初始聚类中心”对应步骤(3)：

在0到1之间按均匀分布生成K个随机数α₁,α₂,…,α_K，取第ceil(a_iN)个样本作为第i个初始聚类中心，其中ceil()为向上取整，令N_C＝K，迭代运算次数I＝1。

图1中“样本按最小距离准则归类”对应步骤(4)：

遍历所有样本x，计算其与聚类中心Z_j之间的距离D_j＝||x-Z_j||，将样本x划归到与样本x距离最小的聚类中心对应的类别中。

图1中“取消样本数量过小的类别”对应步骤(5)：

如果某类别S_j中样本数量N_j<θ_N，则取消该类别，令当前聚类中心个数N_C减少1，释放原本归属于该类别的样本，对释放的样本计算其与其他聚类中心之间的距离，释放的样本与哪个聚类中心之间的距离最近就将之归类于哪一个类别；否则对类别S_j不做处理。

图1中“修正聚类中心”对应步骤(6)：

对各类别S_j中的所有样本取平均，得到的平均值即为修正后的聚类中心

j＝1,2,…,N_c。

图1中“计算各类中样本到聚类中心的平均距离”对应步骤(7)：

计算各类别S_j中的样本到聚类中心Z_j的平均距离

图1中“计算全部类别样本与其相应聚类中心的总平均距离”对应步骤(8)：

计算全部类别样本与其相应聚类中心的总平均距离

图1中“判断类别的***、合并及迭代运算”对应步骤(9)：

判断类别的***、合并及迭代运算，判断当前状态是否需要进行***操作，若需要进行***操作则跳到步骤(10)，若不需要进行***操作则跳到步骤(13)，具体判断方法如下：

3)如迭代运算的次数I是偶次，或N_C≥2K，则不进行***处理，跳到步骤(13)；如果I是奇数，且N_C<2K，则进入步骤(10)，进行***处理。

图1中“计算各类别样本到聚类中心的标准差”对应步骤(10)：

计算每个类别S_j中各样本x＝(x_w,x_h)到聚类中心Z_j的标准差向量σ_j＝(σ_w,j,σ_h,j)，具体方法为：

图1中所述“获取标准差中的最大分量”对应步骤(11)：

提取各标准差向量中σ_j＝(σ_w,j,σ_h,j)的最大分量σ_jmax＝max(σ_w,j,σ_h,j)。

图1中所述“对满足***条件的类别进行类别***”对应步骤(12)：

若各类别S_j中有σ_jmax>θ_S，且满足如下两个条件中的任意一个：

(1)

且N_j>(θ_N+1)*2；

(2)N_C≤K/2；

则将Z_j***为两个新的聚类中心，类别S_j中各样本x到聚类中心Z_j的标准差为σ_j＝(σ_w,j,σ_h,j)，若σ_w,j≥σ_h,j则令γ＝(σ_w,j,0)；若σ_w,j<σ_h,j则令γ＝(0,σ_h,j)。Z_j***出的两个新聚类中心分别为Z_j+kγ和Z_j-kγ，其中0<k<1，本实施例中k＝0.5，并令聚类中心个数N_C加1；否则不对聚类中心Z_j进行操作，进入步骤(13)。

完成***运算后，令迭代运算次数I加1，并跳回步骤(4)。

图1中所述“计算各聚类中心两两之间的距离”对应步骤(13)：

计算N_C个聚类中心两两之间的距离D_ij＝||Z_i-Z_j||，i＝1,2,…,N_C-1，j＝i+1,2,…,N_C。

图1中所述“对满足合并条件的类别进行合并”对应步骤(14)：

若距离最近的两个聚类中心之间的距离D_ij<θ_C，则将两个聚类中心对应的类别合并为一个类别，将这两个聚类中心合并为一个新的聚类中心，取消两个聚类中心的聚类中心地位，对这两类释放出的样本重新计算聚类中心

并令聚类中心个数N_C减1。

图1中所述“判断迭代是否结束”对应步骤(15)：

如果迭代运算次数I≥I_max，聚类运算结束，进入步骤(16)，否则回到步骤(4)且迭代运算次数I加1。

图1中所述“计算聚类中心最大上限面积”对应步骤(16)：

对N_C个聚类中心向量(w_j,h_j)计算上限面积

对N_C个

进行从小到大排序，获得最大上限面积

本实施例中，聚类结束时共获得聚类中心7个，分别为(10.9,28.7)，(27.2,12.1)，(9.8,4.5)，(6.8,11.4)，(13.9,21.7)，(19.7,15.4)，(11.9,10.2)，计算可得各聚类中心上限面积

因此最大上限面积为

图1中所述“判断输出层层数”对应步骤(17)：

根据

判断输出层层数L_out

若

则输出层数为L_out＝6；

若

则输出层数为L_out＝5；

若

则输出层数为L_out＝4；

若

则输出层数为L_out＝3；

若

则输出层数为L_out＝2。

本实施例中

因此输出层数L_out＝3。

图1中所述“对SSD网络进行删减”对应步骤(18)：

SSD算法中共有6个输出层，分别为conv4_3，fc7，conv8_2，conv9_2，conv10_2，conv11_2。

若L_out＝2则只保留conv4_3，fc7层，删掉fc7之后的卷积层；

若L_out＝6则不对SSD网络进行删减。

本实施例中L_out＝3，因此只保留conv4_3，fc7，conv8_2输出层，删掉conv8_2之后的卷积层。

图1中所述“对各聚类中心确定其相应模板框所在输出层”对应步骤(19)：

对各聚类中心Z_j＝(w_j,h_j)计算面积A_j＝w_j×h_j，

若A_j>(300/3)²则在conv11_2层设计对应模板框；

若(300/5)²<A_j≤(300/3)²则在conv10_2层设计对应模板框；

若(300/10)²<A_j≤(300/5)²则在conv9_2层设计对应模板框；

若(300/19)²<A_j≤(300/10)²则在conv8_2层设计对应模板框；

若(300/38)²<A_j≤(300/19)²则在fc7层设计对应模板框；

若A_j≤(300/38)²则在conv4_3层设计对应模板框。

本实施例中各聚类中心为(10.9,28.7)，(27.2,12.1)，(9.8,4.5)，(6.8,11.4)，(13.9,21.7)，(19.7,15.4)，(11.9,10.2)；各聚类中心面积分别为A₁＝312.83，A₂＝329.12，A₃＝44.10，A₄＝77.52，A₅＝301.63，A₆＝303.38，A₇＝121.38，对应的模板框所在层分别为conv8_2层，conv8_2层，conv4_3层，fc7层，conv8_2层，conv8_2层，fc7层。

图1中所述“对各聚类中心确定其相应模板框尺寸”对应步骤(20)：

N_C个聚类中心Z_j＝(w_j,h_j)对应的模板框尺寸为：

max_size＝max(w_j,h_j)

其中floor()为向下取整。

本实用例中各聚类中心分别为(10.9,28.7)，(27.2,12.1)，(9.8,4.5)，(6.8,11.4)，(13.9,21.7)，(19.7,15.4)，(11.9,10.2)。计算得到各聚类中心对应的模板框尺寸分别为：

聚类中心1：min_size＝17.7；max_size＝28.7；aspect_ratio＝2

聚类中心2：min_size＝18.1；max_size＝27.2；aspect_ratio＝2

聚类中心3：min_size＝6.6；max_size＝9.8；aspect_ratio＝2

聚类中心4：min_size＝8.8；max_size＝11.4；aspect_ratio＝1

聚类中心5：min_size＝17.3；max_size＝21.7；aspect_ratio＝1

聚类中心6：min_size＝17.4；max_size＝19.7；aspect_ratio＝1

聚类中心7：min_size＝11.0；max_size＝11.9；aspect_ratio＝1

图1中所述“对尚未设计模板框的输出层涉及模板框”对应步骤(21)：

在本实用例中conv4_3层，fc7层，conv8_2层输出层均有响应的模板框，因此没有进行本步骤操作。

conv4_3层：min_size＝6.6；max_size＝9.8；aspect_ratio＝2

fc7层：min_size＝8.8；max_size＝11.4；aspect_ratio＝1

min_size＝11.0；max_size＝11.9；aspect_ratio＝1

conv8_2层：min_size＝17.7；max_size＝28.7；aspect_ratio＝2

min_size＝18.1；max_size＝27.2；aspect_ratio＝2

min_size＝17.3；max_size＝21.7；aspect_ratio＝1

min_size＝17.4；max_size＝19.7；aspect_ratio＝1

图1中所述“对所有输出层都添加aspect_ratio＝1的模板框比例”对应步骤(22)：

本实用例中conv4_3层没有aspect_ratio＝1的模板框比例，因此添加aspect_ratio＝1；fc7层和conv8_2层均有aspect_ratio＝1的模板框比例因此不需要添加。

本方案结束时确定的网络结构为SSD网络保留conv4_3，fc7，conv8_2输出层，删掉conv8_2之后的卷积层，各输出层的模板框设计如下所示：

conv4_3层：

min_size＝6.6

max_size＝9.8

aspect_ratio＝1,2

fc7层：

min_size＝8.8,11.0

max_size＝11.4,11.9

aspect_ratio＝1

conv8_2层：

min_size＝17.7,18.1,17.3,17.4

max_size＝28.7,27.2,21.7,19.7

aspect_ratio＝1,2

图2中所示为模板框尺寸的示意图。

对SSD网络进行改造前，网络收敛到MAP＝0.9的需要迭代35000次，对SSD网络进行改造后网络收敛到MAP＝0.9仅需要23000次，表明本方案能够去掉不必要的输出层，减少网络深度，降低网络复杂度，降低模型训练收敛难度。对SSD网络进行改造前，网络计算耗时为29ms，SSD网络改造后，网络计算耗时为20ms，提高了计算效率。

本发明使用自组织聚类算法对训练样本尺寸进行聚类分析，通过聚类结果确定SSD网络输出层个数，对网络进行裁剪。

使用自组织聚类可以在不确定目标尺寸分布的情况下获得更好的聚类结果，使用聚类结果计算目标上限面积，确定输出层层数，删掉感受野过大、层数过深的输出层，减少网络深度和参数数量，降低模型训练的难度，加快模型收敛，提高模型泛化能力，减少计算耗时，提高计算效率。

本发明使用自组织聚类算法对训练样本尺寸进行聚类分析，通过聚类结果确定模板框尺寸。

使用自组织聚类结果设计模板框尺寸，使模板框尺寸更接近目标真实尺寸，降低网络对目标位置偏差的回归难度，提高目标检测的准确率。

Claims

1.一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，其特征在于该方法的步骤包括：

(3)在N个样本中随机选取K个作为初始聚类中心，并令N_C＝K，N_C表示当前聚类中心个数，每个聚类中心用Z_j表示，j＝1,2,…,N_C，各聚类中心对应的类别用S_j表示，j＝1,2,…,N_C，类别S_j中的样本数量用N_j表示，j＝1,2,…,N_C，迭代运算次数用I表示；

(4)遍历所有样本x，计算样本x与各聚类中心Z_j之间的距离D_j，将样本x划归到与样本x距离最小的聚类中心对应的类别中；

(5)如果某类别S_j中样本数量N_j<θ_N，则取消该类别，令当前聚类中心个数N_C减少1，并将该类别中的样本按照(4)中的最小距离准则划归到其他类别中；否则不对类别S_j做处理；

(6)对各类别S_j中的样本x取平均，得到的平均值即为修正后的聚类中心Z_j，j＝1,2,…,N_C；

(7)对各类别S_j计算各类别中的样本到聚类中心的平均距离

j＝1,2,…,N_C；

(8)计算全部类别样本与相应聚类中心的总平均距离

(9)判断类别S_j的***、合并及迭代运算；

1)如果迭代运算次数I≥I_max，即最后一次迭代，置θ_C＝0，跳到步骤(13)；

2)如果θ_N≤K/2，即聚类中心的数目等于或不到规定值的一半，则进入步骤(10)，将已有的聚类***；

3)如迭代运算的次数I是偶数，或N_C≥2K，则不进行***处理，跳到步骤(13)；如果I是奇数，且N_C<2K，则进入步骤(10)，进行***处理；

(10)计算每个类别S_j中各样本x到聚类中心Z_j的标准差向量σ_j，j＝1,2,…,N_C；

(11)对(10)中计算得到的标准差向量σ_j提取最大分量，用σ_jmax表示，j＝1,2,…,N_C；

(12)最大分量集{σ_jmax}中，j＝1,2,…,N_C，如有σ_jmax>θ_S，且满足如下两个条件中的任意一个：

(a)

且N_j>(θ_N+1)*2；

(b)N_C≤K/2；

则将Z_j***为两个新的聚类中心，且令聚类中心个数N_C加1，完成***运算后，跳回步骤(4)，且令迭代运算次数I加1；否则不对聚类中心Z_j进行操作，进入步骤(13)；

(13)计算N_C个聚类中心两两之间的距离D_ij＝||Z_i-Z_j||，i＝1,2,…,N_C-1，j＝i+1,2,…,N_C；

(14)若距离最近的两个聚类中心之间的距离D_ij<θ_C，则将这两个聚类中心合并为一个新的聚类中心，两个聚类中心对应的类别合并为一个类别，并令聚类中心个数N_C减1；否则不做处理；

(15)如果迭代运算次数I≥I_max，聚类运算结束，进入步骤(16)，否则回到步骤(4)且令迭代运算次数I加1；

(16)对N_C个聚类中心Z_j＝(w_j,h_j)计算上限面积

对N_C个

进行从小到大排序，获得最大上限面积

(17)根据

判断输出层层数L_out：

若

则输出层数为L_out＝6；

若

则输出层数为L_out＝5；

若

则输出层数为L_out＝4；

若

则输出层数为L_out＝3；

若

则输出层数为L_out＝2。

若L_out＝2则只保留conv4_3，fc7层，删掉fc7之后的卷积层；

若L_out＝6则不对SSD网络进行删减；

(19)对各聚类中心确定其相应的模板框所在输出层：

对N_C个聚类中心Z_j＝(w_j,h_j)计算面积A_j＝w_j×h_j，

若A_j>(300/3)²则在conv11_2层设计对应模板框；

若(300/5)²<A_j≤(300/3)²则在conv10_2层设计对应模板框；

若(300/10)²<A_j≤(300/5)²则在conv9_2层设计对应模板框；

若(300/19)²<A_j≤(300/10)²则在conv8_2层设计对应模板框；

若(300/38)²<A_j≤(300/19)²则在fc7层设计对应模板框；

若A_j≤(300/38)²则在conv4_3层设计对应模板框。

(20)对各聚类中心确定其相应的模板框尺寸：

N_C个聚类中心Z_j＝(w_j,h_j)对应的模板框尺寸分别为：

max_size＝max(w_j,h_j)

其中floor()为向下取整；

若某输出层没有设计相应的模板框，那么就采用距离它最近的层的min_size，max_size，aspect_ratio参数，若有两个输出层距离该层距离相同，浅层为Layer_B，深层为Layer_T，则该输出层参数

aspect_ratio采用的Layer_B的aspect_ratio_B和Layer_T的aspect_ratio_T的并集；

(22)对所有输出层都添加aspect_ratio＝1的模板框比例；

(23)对完成了输出层裁剪及模板框尺寸确定的卷积神经网络进行训练，得到神经网络模型。

2.根据权利要求1所述的一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，其特征在于：步骤(1)中，提取标注信息中的目标宽w、高h尺寸的具体方法为：读取xml中各<bndbox>节点中的<xmin>、<ymin>、<xmax>、<ymax>值，计算该目标的宽w＝xmax-xmin+1，高h＝ymax-ymin+1。

3.根据权利要求1所述的一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，其特征在于：步骤(3)中，随机选取K个样本的具体方法为：按照U(0,1)在0到1之间按均匀分布生成K一个随机数α₁,α₂,…,α_K，取第ceil(a_iN)个样本作为第i个初始聚类中心，其中ceil()为向上取整。

4.根据权利要求1所述的一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，其特征在于：步骤(4)中，样本x与聚类中心Z_j之间距离的计算方法为：D_j＝||x-Z_j||，样本x的归类方法为：若

则该样本x归于S_j类。

5.根据权利要求1所述的一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，其特征在于：步骤(5)中，取消某类别的具体方法为：取消该聚类中心，令聚类中心个数N_C减1，释放原本归属于该类别的样本，对释放出的样本计算其与其他聚类中心之间的距离，释放样本与哪个聚类中心之间的距离最近就将之归类于那一个类别。

6.根据权利要求1所述的一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，其特征在于：步骤(6)中，修正各类别聚类中心Z_j的具体方法为：

步骤(7)中，计算各类别S_j中的样本到聚类中心的平均距离

的具体方法为：

步骤(8)中，计算全部类别样本与相应聚类中心的总平均距离

的具体方法为：

7.根据权利要求1所述的一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，其特征在于：步骤(10)中，计算每个类别S_j中各样本x＝(x_w,x_h)到聚类中心Z_j＝(w_j,h_j)的标准差向量σ_j＝(σ_w,j,σ_h,j)的具体方法为：

8.根据权利要求1所述的一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，其特征在于：步骤(11)中，提取各标准差向量中σ_j＝(σ_w,j,σ_h,j)的最大分量σ_jmax的具体方法为：

σ_jmax＝max(σ_w,j,σ_h,j)。

9.根据权利要求1所述的一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，其特征在于：步骤(12)中，将Z_j***为两个新的聚类中心的具体方法为：聚类S_j中各样本x到聚类中心Z_j的标准差为σ_j＝(σ_w,j,σ_h,j)，若σ_w,j≥σ_h,j则令γ＝(σ_w,j,0)；若σ_w,j<σ_h,j则令γ＝(0,σ_h,j)。Z_j***出的两个新聚类中心分别为：Z_j+kγ和Z_j-kγ，其中0<k<1。

10.根据权利要求1所述的一种基于自组织聚类的神经网络输出层裁剪及模板框尺寸确定方法，其特征在于：步骤(14)中，聚类中心合并的具体方法为：若距离最近的两个聚类中心之间的距离D_ij<θ_C，则将两个聚类中心对应的类别合并为一个类别，取消两个聚类中心的聚类中心地位，对这两类释放出的样本重新计算聚类中心

并令聚类中心个数N_C减1；

步骤(16)中，获得最大面积

的具体方法为：

其中，