CN110110845B

CN110110845B - 一种基于并行多级宽度神经网络的学习方法

Info

Publication number: CN110110845B
Application number: CN201910331708.8A
Authority: CN
Inventors: 席江波; 房建武; 吴田军; 康梦华
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2020-09-22
Anticipated expiration: 2039-04-24
Also published as: CN110110845A

Abstract

本发明公开了一种基于并行多级宽度神经网络的学习方法，包括以下步骤：获取验证集，构建基分类器；对并行M级宽度神经网络的每级进行训练和验证，得到训练后的并行M级宽度神经网络和每级宽度神经网络对应的验证输出；通过统计计算得到每级宽度神经网络的决策阈值；通过测试集对验证后的并行多级宽度神经网络进行测试。本发明的神经网络具有多级结构，每级针对数据的不同部分进行学习，且可实现并行化训练和测试。每一级采用一种宽度神经网络在宽度方向进行特征学习；通过多个宽度神经网络作为基分类器在宽度方向的再次连接，实现两个宽度方向上的分类器集成；通过增加新一级的宽度神经网络实现网络的增量学习；且可实现并行化测试。

Description

一种基于并行多级宽度神经网络的学习方法

技术领域

本发明属于人工智能及机器学习技术领域，具体涉及一种基于并行多级宽度神经网络的学习方法。

背景技术

随着以深度学***衡分布、异常获取样本、以及接近分类边界或者线性不可分的样本等。

在现有的深度学习模型里，简单样本和复杂样本均用相同的方式处理，降低了计算资源的使用效率。同时，现有深度学习网络比如卷积神经网络往往具有很多层，所有样本都要经过所有的网络层，在对网络进行泛化或者测试的时候会非常耗时。而早期的并行多级自组织网络在每一级只接收被上一级拒绝的经过非线性变换的样本，这些样本被变换到易于分类的其它空间，从而再一次进行分类。但是，如何实现高维数据针对不同难度的数据样本进行计算资源的调整和分配以提高学习分类的速度和效率这一问题并没有得到很好的解决。

发明内容

针对上述缺陷，本发明提供了一种基于并行多级宽度神经网络的学习方法，本发明的神经网络具有多级结构，每一级针对数据中的不同部分进行学习，且可实现并行化训练和测试。每一级采用一种宽度神经网络在宽度方向进行特征学习；通过多个宽度神经网络作为基分类器在宽度方向的再次连接，实现两个宽度方向上的分类器集成；通过增加新一级的宽度神经网络实现网络的增量学习；且可实现并行化测试，大大缩短了复杂样本的学习分类时间，提高网络运行效率。

为了达到上述目的，本发明采用以下技术方案予以解决。

(二)一种基于并行多级宽度神经网络的学习方法，并行多级宽度神经网络包括多级宽度神经网络，其中，每级宽度神经网络包含依次连接的输入层、隐藏层、决策层和输出层，所述决策层用于确定每个测试样本是否由当前级输出，所述学习方法包括以下步骤：

步骤1，获取原始训练样本集，构建并行M级宽度神经网络 Net₁，…Net_m，…，Net_M(m＝1，2…，M)，每级宽度神经网络作为对应级的基分类器；通过对原始训练样本集进行M次数据变换，对应得到M个验证集 x_{v_1}，…x_{v_m}，…x_{v_M}；

其中，原始训练样本集的样本总数为N_tr。

步骤2，采用原始训练样本集和M个验证集x_{v_1}，…x_{v_m}，…x_{v_M}分别对并行M 级宽度神经网络的每级进行训练和验证，得到训练后的并行M级宽度神经网络和每级宽度神经网络对应的验证输出y_{v_m}(m＝1，2…，M)；采用最小误差法得到每个验证输出y_{v_m}对应的标签y_{v_ind_m}，进而得到训练后的并行M级宽度神经网络的每级宽度神经网络的验证集的正确分类样本集y_{vc_m}和错误分类样本集 y_{vw_m}；

步骤3，对训练后的并行M级宽度神经网络的每级宽度神经网络的验证集的正确分类样本集y_{vc_m}和错误分类样本集y_{vw_m}分别进行统计计算，对应得到训练后的每级宽度神经网络的决策阈值T_m；将每级宽度神经网络的决策阈值 T_m作为对应级宽度神经网络的决策依据，得到决策阈值确定的并行M级宽度神经网络；

步骤4，获取测试集，将测试集作为决策阈值确定的并行M级宽度神经网络的输入数据并行输入给决策阈值确定的每级宽度神经网络进行测试，得到决策阈值确定的每级宽度神经网络的输出；获取每级宽度神经网络的误差向量，对决策阈值确定的每级宽度神经网络的输出进行判断，从而得到决策阈值确定的每级宽度神经网络的测试输出对应的标签y_{test_ind_m}。

本发明技术方案的特点和进一步的改进为：

(1)步骤1中，所述数据变换为通过弹性变换(Elastic)对原始样本集中的样本进行压缩或变形；或所述数据变换为通过仿射变换(Affine)对原始样本集中的样本进行旋转、翻转、放大或缩小。

(2)步骤2中，所述采用原始训练样本集和M个验证集x_{v_1}，…x_{v_m}，…x_{v_M}分别对并行M级宽度神经网络的每级进行训练和验证，其包含以下子步骤：

子步骤2.1，将原始训练样本集作为第1级宽度神经网络Net₁的输入样本，对第1级宽度神经网络Net₁进行训练，得到训练后的第一级宽度神经网络。

子步骤2.2，采用第一验证集x_{v_1}对训练后的第1级宽度神经网络进行验证，得到第1级宽度神经网络的验证集的错误分类样本集y_{vw_1}。

子步骤2.3，将第一级宽度神经网络的错误分类样本集y_{vw_1}作为第2级宽度神经网络的输入样本A_{v_1}；再从原始训练样本集中随机抽取训练样本集A_{v_2}，使总输入样本集{A_{v_1}+A_{v_2}}中的样本数等于原始训练样本集中的样本数，并将总输入样本集{A_{v_1}+A_{v_2}}作为第2级宽度神经网络的输入样本。

子步骤2.4，采用总输入样本集{A_{v_1}+A_{v_2}}对第2级宽度神经网络进行训练，得到训练后的第2级宽度神经网络；采用第二验证集x_{v_2}对训练后的第2 级宽度神经网络进行验证，得到第2级宽度神经网络的验证集的错误分类样本集y_{vw_2}。

依次类推，对第3级到第M级宽度神经网络分别进行训练，得到训练后的并行M级宽度神经网络和每级宽度神经网络的对应验证输出 y_{v_m}(m＝1，2…，M)。

(3)步骤2中，所述最小误差法为：

首先，设定原始训练样本集的总类别数为C，构建参考矩阵R_j(1≤j≤C)。

其中，参考矩阵R_j的第j行的元素都为1，其余元素都为0，每个参考矩阵R_j的维数为C×N_tr。

其次，根据训练后的每级宽度神经网络的验证输出y_{v_m}，获取验证输出 y_{v_m}与对应级的参考矩阵R_j之间的误差向量：

J_{v_mj}＝||softmax(y_{v_m})-R_j||₂，1≤j≤C；

其中，J_{v_mj}的维数为1×N_tr；y_{v_m}的维数为C×N_tr。

最后，对验证输出y_{v_m}与对应级的参考矩阵R_j之间的误差向量J_{v_mj}求最小值，得到训练后的每级宽度神经网络对应的类别标签y_{v_ind_m}：

其中，y_{v_ind_m}的维数为1×N_tr。

(4)步骤3中，所述统计计算包含以下子步骤：

子步骤3.1，设定训练后的并行M级宽度神经网络的第m级宽度神经网络的正确分类样本集和错误分类样本集分别为：y_{vc_m}和y_{vw_m}，正确分类样本集和错误分类样本集中的样本总数分别为：N_{vc_m}和N_{vw_m}，且N_{vc_m}+N_{vw_m}＝N_tr，则正确分类样本集和错误分类样本集的误差分别为：

e_{vc_m}＝||softmax(y_{vc_m})-t_{vc_m}||₂；

e_{vw_m}＝||softmax(y_{vw_m})-t_{vw_m}||₂；

其中，t_{vc_m}是m级宽度神经网络中正确分类样本y_{vc_m}对应的真实标签， t_{vw_m}是m级宽度神经网络中错误分类样本y_{vw_m}对应的真实标签。

子步骤3.2，根据正确分类样本集y_{vc_m}和错误分类样本集y_{vw_m}，分别计算出正确分类样本集y_{vc_m}的均值和方差分别为μ_c和σ_c；错误分类样本集y_{vw_m}的均值和方差分别是：u_w和σ_w；则正确分类样本集y_{vc_m}和错误分类样本集y_{vw_m}对应的高斯分布分别是：

正确分类样本集y_{vc_m}和错误分类样本集y_{vw_m}对应的高斯概率密度函数分别是：

子步骤3.3，根据错误分类样本集y_{vw_m}的误差e_{vw_m}和方差σ_w，获得m级宽度神经网络的决策阈值T_m＝min(e_{vw_m})-ασ_w。

其中，α是一个常数，用来给出裕量，以使所有错误分类样本y_{vw_m}在当前级被拒绝。

(5)步骤4中，所述获取测试集为：获取原始测试样本集x_test；通过M 次数据扩充，对应获取M组测试样本集x_{test_1}，...，x_{test_m}，...，x_{test_M}，即为测试集。

进一步地，所述数据扩充为：对所述原始测试样本集x_test中的每个样本分别进行N_testD次所述数据变换，对应得到N_testD个测试样本集，作为决策阈值确定的并行M级宽度神经网络的第m级宽度神经网络的测试集x_{test_m}。

其中，原始测试样本集X_test中测试样本总数为N_{test_saples}。

(6)步骤4中，所述获取每级宽度神经网络的误差向量包含以下子步骤：

子步骤4.1，将M组测试样本集x_{test_1}，x_{test_2}，...，x_{test_M}分别并行输入给决策阈值确定的并行M级宽度神经网络，对应得到决策阈值确定的每级宽度神经网络的N_testD个输出y_{test_m_d}，(d＝1，2…N_testD)。

子步骤4.2，对决策阈值确定的每级宽度神经网络的N_testD个输出 y_{test_m_d}，(d＝1，2…N_testD)计算平均值，得到决策阈值确定的每级宽度神经网络的测试输出

子步骤4.3，设定测试集的总类别数为C，构建参考矩阵R_j(1≤j≤C)；获取验证输出y_{v_m}与对应级的参考矩阵R_j之间的误差向量：

J_{test_mj}＝||softmax(y_{test_m})-R_j||₂，1≤j≤C；

其中，参考矩阵R_j的第j行的元素都为1，其余元素都为0，每个参考矩阵R_j的维数为C×N_{test_samples}；J_{test_mj}的维数为1×N_{test_samples}，y_{v_m}的维数为 C×N_{test_samples}。

(7)所述对决策阈值确定的每级宽度神经网络的输出进行判断为：

当前级宽度神经网络的最小误差小于等于当前级决策阈值时，则判断为当前级为该输出的正确分类输出级：

min(J_{test_mj})≤T_m。

当前级宽度神经网络的最小误差大于当前级决策阈值时，则判断为当前级无法对该输出进行正确分类，将该输出转入下一级宽度神经网络进行测试，如此循环，直到该输出找到正确分类输出级：

min(J_{test_mj})＞T_m。

(8)步骤4中，所述得到决策阈值确定的每级宽度神经网络的测试输出对应的标签y_{test_ind_m}为：

其中，y_{test_ind_m}的维数为1×N_{test_samples}。

与现有技术相比，本发明的有益效果为：

(1)本发明的神经网络具有多级基分类器，每一级用来学习数据集的不同部分样本，能够根据问题及数据集的复杂程度，自适应地确定神经网络的结构，实现计算资源的优化。

(2)本发明的神经网络具有增量学习的优点，在新的训练数据可用时，实现对当前神经网络的判断，根据判断结果，确定是否能对新增训练数据进行正确分类，若不能进行正确分离，则通过增加新的宽度径向基函数作为神经网络新的一级来学习新的样本，而无需重新训练整个网络。

(3)本发明的神经网络在测试的时候可以进行并行测试，也就是把测试数据同时给网络的所有级，由训练过程中得到的每一级的决策阈值来决定每个测试样本最终由哪一级的神经网络输出，并行测试过程大大减少了实际使用网络时候的等待时间。

(4)本发明的神经网络可作为一种通用的学习框架，具有很强的灵活性，其每一级可根据实际需要使用BP神经网络、卷积神经网络或者其他类型的分类器。

附图说明

下面结合附图和具体实施例对本发明做进一步详细说明。

图1是本发明的并行多级神经网络的原理图及其训练测试过程原理图；其中，图1(a)是本发明的并行多级宽度神经网络原理图；图1(b)是本发明的并行多级宽度神经网络的训练和验证过程原理图；图1(c)是本发明的并行多级宽度神经网络的测试过程原理图。

图2是本发明的并行多级宽度神经网络的结构图。

图3(a)是本发明的并行多级宽度神经网络的验证集在其中一级上的误差分布图；图3(b)是图3(a)中的统计参数的高斯概率密度函数。

图4是本发明实施例中的并行26级宽度神经网络在MNIST数据集上的测试结果与现有学习模型的分类结果对比图。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域的技术人员将会理解，以下实施例仅用于说明本发明，而不应视为限制本发明的范围。

采用MNIST手写数据集，该数据集每幅图像为8位灰度手写数字0～9的图像，图像大小为28×28，总共10类，有60000张原始训练样本集，10000 张图像作为测试集，是新学习模型训练测试的重要通用图像数据集之一。针对该数据集，参考图1和图2，本实施例采用宽度径向基函数网络作为基分类器，即并行多级宽度神经网络的每级均采用宽度径向基函数网络，选取并行的宽度神经网络的级数为26。

(1)获取验证集，构建基分类器。

首先，对N_tr＝60000张原始训练样本集中的图像样本分别进行26次弹性变换，得到M＝26个验证集x_{v_1}，x_{v_2}，...，x_{v_26}，本实施例中为了保证有足够多的验证集的错分样本，每个验证集中包括N_val＝10个由原始训练集变换得到的数据集。其中，每个验证集的样本数为原始训练样本集的N_val＝10倍。

其次，采用宽度径向基函数网络作为基分类器来设计并行多级宽度神经网络；M＝26个宽度径向基函数网络连接在一起，形成并行多级宽度神经网络 Net₁，Net₂，...Net_M；每一个基分类器作为一级，专注于数据集中的不同部分。

最后，构建宽度径向基函数网络。具体过程如下：

构建包括N_0k＝1000个高斯基函数为

的径向基函数网络，该径向基函数网络的中心为随机取自原始训练样本集的一个子集，标准差取值为常数。采用滑动窗口获取原始训练样本集中每个图像样本的多组局部特征图像，从而获得多组局部特征矩阵，将多组局部特征矩阵作为高斯基函数的输入数据，得到多个径向基函数网络即为宽度径向基函数网络。

2)对并行M级宽度神经网络的每级进行训练和验证，得到训练后的并行 M级宽度神经网络和每级宽度神经网络对应的验证输出y_{v_m}(m＝1，2…，M)。

第1级宽度径向基函数网络使用原始训练样本集来训练，在训练之后，错分的训练样本送到第2级的宽度径向基函数网络，作为第二个训练集的一部分，来训练第2级的网络。采用步骤(1)获得的验证集，对当前级的训练网络验证，同时提供更多的错分样本，作为下一级训练集的一部分。如图1 (a)、(b)所示，具体地，包含以下子步骤：

子步骤2.1，将原始训练样本集作为第1级宽度神经网络Net₁的输入样本，对第1级宽度神经网络Net₁进行训练，得到训练后的第1级宽度神经网络。

子步骤2.2，采用第一验证集x_{v_1}对训练后的第1级宽度神经网络进行验证，得到第1级宽度神经网络的错误分类样本集y_{vw_1}。

子步骤2.3，将第1级宽度神经网络的错误分类样本集y_{vw_1}作为第2级宽度神经网络的输入样本A_{v_1}；再从原始训练样本集中随机抽取训练样本集A_{v_2}，使总输入样本集{A_{v_1}+A_{v_2}}中的样本数等于原始训练样本集中的样本数，并将总输入样本集{A_{v_1}+A_{v_2}}作为第2级宽度神经网络的输入样本。

子步骤2.4，采用总输入样本集{A_{v_1}+A_{v_2}}对第2级宽度神经网络进行训练，得到训练后的第2级宽度神经网络；采用第二验证集x_{v_2}对训练后的第2 级宽度神经网络进行验证，得到第2级宽度神经网络的错误分类样本集y_{vw_2}。

重复子步骤2.3和2.4，对第3级到第M级宽度神经网络分别进行训练，得到训练后的并行M级宽度神经网络和每级宽度神经网络的对应验证输出 y_{v_m}(m＝1，2…，M)。

上述的宽度径向基函数网络的具体训练和验证过程如下：

将原始训练样本集中的图像样本作为输入数据，图像大小为 M₁×M₂＝28×28。滑动窗口大小为r＝13×13，滑动窗口的初始位置设在每个图像样本的左上角，选择滑动步长为1个像元，滑动窗口从左到右，从上到下依次滑动，把滑动窗口中的60000个图像样本的3维图像块拉伸成为矩阵 x_k∈R^r×N，即将每个局部特征图像分别按像元组成对应的原始矩阵，将每个原始矩阵的第2至最后一列依次顺序排列至第1列后形成一个列向量；将N个列向量顺序排列组成一组训练图像样本的局部特征矩阵x_k(1≤k≤K)，局部特征矩阵x_k的每一列代表一个样本。再把局部特征矩阵x_k输入给包括N_0k＝1000个高斯基函数为

的径向基函数网络，输出记为：

其中，

为包含N＝60000个元素的列向量。

滑动窗口每次滑动对应一个径向基函数网络，最终滑动结束后，可得到 K＝(M₁-m+1)(M₂-m+1)＝(28-13+1)×(28-13+1)＝256个径向基函数网络。

针对每一个径向基函数网络，对其经过高斯基函数的输出引入排序和下采样。针对每一个径向基函数网络，对其经过非线性变换的高斯基函数输出数据Φ_k引入排序和下采样。对宽度径向基函数网络的输出数据Φ_k的每一列进行求和，得到一个行向量，行向量的每个元素为每个待处理图像的局部特定位置的像元之和，对每个待处理图像的局部特定位置的像元之和进行降序排列，得到降序向量

采用索引s_k将降序向量a_k中每个待处理图像的局部特定位置对应的原始位置进行标记，得到排序的输出数据Φ′_k＝sort(Φ_k，s_k)。

对排序的输出数据进行下采样，设定下采样间隔N_kS＝20，经过采样的输出个数为：

则总的宽度径向基函数网络的输出个数为

采样输出为Φ_ks＝subsample(Φ′_k，N_kS)，则高斯基函数的输出为Φ＝[Φ_1S，Φ_2S，…，Φ_KS]。

设定期望的输出为D＝[D₁，D₂，…，D_C]；对宽度径向基函数网络的高斯基函数的输出进行线性层连接，则线性层的权重为：W＝[W₁，W₂，…，W_C]；

其中，C＝10是原始样本的类别总数。

得到宽度径向基函数网络的类别输出Y＝[Y₁，Y₂，…，Y_C]＝ΦW；具体地，通过最小化平方误差计算线性层的权重的最小均方估计

具体公式为：

通过宽度径向基函数网络的高斯基函数输出Φ的伪逆矩阵计算线性层的权重的最小均方估计

其中，Φ⁺为宽度径向基函数网络的高斯基函数输出Φ的伪逆矩阵。

最终，计算得到宽度径向基函数网络的类别输出为：

进而获得训练后的宽度径向基函数网络，对每级训练后的宽度径向基函数网络采用对应验证集进行验证，获得训练后的每级宽度径向基函数网络对应的验证输出y_{v_m}(m＝1，2…，M)。

通过获得的验证输出y_{v_m}(m＝1，2…，M)，进一步获得每个验证输出y_{v_m}对应的类别标签y_{v_ind_m}，具体步骤如下：

J_{v_mj}＝||softmax(y_{v_m})-R_j||₂，1≤j≤C；

其中，J_{v_mj}的维数为1×N_tr；y_{v_m}的维数为C×N_tr。

其中，y_{v_ind_m}的维数为1×N_tr。

将训练后的每级宽度神经网络对应的类别标签y_{v_ind_m}与每级的验证输出 y_{v_m}进行比对，即可获得每级宽度神经网络的正确分类样本集y_{vc_m}和错误分类样本集y_{vw_m}。

(3)通过统计计算得到每级宽度神经网络的决策阈值T_m

本网络比较困难的部分是每一级决策阈值的确定，它用来确定在测试的时候，每一个样本应该由哪一级的网络输出。在训练和测试之后，对正确分类样本集和错误分类的样本集分别进行统计计算。假设在m级宽度神经网络，正确分类样本集和错误分类样本集分别为：y_{vc_m}和y_{vw_m}，正确分类样本集和错误分类样本集的样本总数分别为：N_{vc_m}和N_{vw_m}，且N_{vc_m}+N_{vw_m}＝N_tr。

以上验证过程中，为了保证最终样本有足够多的错分样本集，每个验证集可以是包含有N_val个将原始训练样本集经过数据变换得到的验证样本集，即每个验证集可以包含N_val组验证样本集，也就是说每个验证集的样本数为原始训练样本的N_val倍。

两类样本集的误差通过下式计算：

e_{vc_m}＝||softmax(y_{vc_m})-t_{vc_m}||₂；

e_{vw_m}＝||softmax(y_{vw_m})-t_{vw_m}||₂；

其中，t_{vc_m}和t_{vw_m}是m级中正确分类样本y_{vc_m}和错误分类样本y_{vw_m}对应的真实标签。假设正确分类和错误分类这两类样本统计的均值和方差分别是：μ_c，u_w，σ_c，σ_w，与之对应的两个高斯分布分别是：

其高斯概率密度函数分别是：

在并行多级宽度神经网络的一级上，其验证集误差分布及其概率密度函数如图3(a)和(b)所示，则m级宽度神经网络的决策阈值为：

T_m＝min(e_{vw_m})-ασ_w；

(4)通过测试集对决策阈值确定的并行多级宽度神经网络进行测试

如图1(c)所示，具体的测试过程为：

首先，获取测试集，具体过程为：获取原始测试样本集X_test；通过M次数据扩充，对应获取M组测试样本集x_{test_1}，...，x_{test_m}，...，x_{test_M}，即为测试集；其中，原始测试样本集x_test中测试样本总数为N_{test_samples}。

上述的数据扩充为：对所述原始测试样本集X_test中的每个样本分别进行 N_testD次数据变换，对应得到N_testD个测试样本集，作为决策阈值确定的并行M级宽度神经网络的第m级宽度神经网络的测试集x_{test_m}。

上述的测试集获取方法能够在后续的测试过程中得到测试的稳定性。

其次，将M组测试样本集x_{test_1}，...，x_{test_m}，...，x_{test_M}并行输入给决策阈值确定的并行M级宽度神经网络，对测试集进行测试，即将每组测试集对应输入给决策阈值确定的每级宽度神经网络进行测试，对应得到决策阈值确定的每级宽度神经网络的N_testD个测试样本集输出；对N_testD个测试样本集的输出取平均值，得到决策阈值确定的每级宽度神经网络的测试输出

再次，设定测试集的总类别数为C，构建参考矩阵R_j(1≤j≤C)；获取验证输出y_{v_m}与对应级的参考矩阵R_j之间的误差向量：

J_{test_mj}＝||softmax(y_{test_m})-R_j||₂，1≤j≤C；

最后，对决策阈值确定的每级宽度神经网络的输出进行判断，具体地：当前级宽度神经网络的最小误差小于等于当前级决策阈值时，即 min(J_{test_m}j)≤T_m，则判断为当前级为该输出的正确分类输出级。

当前级宽度神经网络的最小误差大于当前级决策阈值时，即 min(J_{test_mj})＞T_m，则判断为当前级无法对该输出进行正确分类，将该输出转入下一级宽度神经网络进行测试，如此循环，直到该输出找到正确分类输出级。进而得到决策阈值确定的每级宽度神经网络的测试输出对应的标签

其中，y_{test_ind_m}的维数为1×N_{test_samples}。

如果测试样本在前面25级均不能输出，则在最后的第26级直接输出。

最终可得到测试集在整个网络的输出L_test；其中，正确分类样本和错误分类样本都可以统计算出，进而可以得到本发明并行多级宽度神经网络的样本分类的精度。

对比例

采用与上述实施例相同的原始训练样本集、验证集和测试集，分别采用随机森林(RF)，多层感知器(MP)，传统径向基函数网络(RBF)，支持向量机(SVM)，广度学习***(BLS)、条件深度学习模型(CDL)，深度信念网络(DBL)，卷积神经网络LeNet-5，深度玻尔兹曼机(DBM)以及深度随机深林(gc)作为基分类器，进行学习分类，最终得到的各种学习方法对数据分类的精度如图4所示。

从图4可以看出，相比于目前主流的学习模型：随机森林(RF)，多层感知器(MP)，传统径向基函数网络(RBF)，支持向量机(SVM)，广度学习***(BLS)、条件深度学习模型(CDL)，深度信念网络(DBL)，卷积神经网络LeNet-5，深度玻尔兹曼机(DBM)，以及深度随机深林(gc forest)，本发明的并行多级宽度神经网络(PMWNN)的分类结果的准确率具有非常高的竞争性，本发明方法最终的分类精度为99.10％，WRBF为宽度径向基函数网络。而相比于深度随机深林学习模型，本发明方法神经网络具有多级基神经网络，每一级用来学习数据集的不同部分样本，能够根据问题及数据集的复杂程度，自适应地确定神经网络的结构，实现计算资源的优化；同时，本发明的神经网络在测试的时候可以进行并行测试，也就是把测试数据同时给网络的所有级，由训练过程中得到的每一级的决策阈值来决定每个测试样本最终由哪一级的神经网络输出，并行测试过程大大减少了实际使用网络时候的等待时间。

此外，本发明的并行多级宽度神经网络可以实现增量学习，即当有新数据来的时候，可以增加新的宽度径向基函数网络来学习新的特性，而无需重新训练整个并行多级宽度神经网络，这个意味着提出的网络可以在不遗忘旧知识的前提下学习新的知识。新的训练数据输入给当前M级网络，如果有错分的样本，那么它们和经过数据扩充的原始训练集一起建立新的训练数据集，训练新的宽度径向基函数网络，同时使用新的验证集进行验证，并且计算决策阈值，从而建立第M+1级网络。最终，新的并行多级宽度神经网络将由M+1 级宽度径向基函数网络组成。同时，本发明设计的并行多级宽度神经网络在测试的时候可以并行测试，所有的测试样本都会送给所有级的宽度径向基函数网络，决策阈值决定了哪一个宽度径向基函数网络分配给相应的测试样本。该过程不需要等待其它级的网络输出，从而在测试的时候并行化，加速了测试过程。

本发明的并行多级宽度神经网络中的每一级宽度神经网络，可以是宽度径向基函数网络、BP神经网络、卷积神经网络或者其他分类器，且多级宽度神经网络的每级基分类器的类型可以不同。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些改动和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于并行多级宽度神经网络的学习方法，并行多级宽度神经网络包括多级宽度神经网络，其中，每级宽度神经网络包含依次连接的输入层、隐藏层和输出层，其特征在于，所述学习方法包括以下步骤：

步骤1，获取原始训练样本集，构建并行M级宽度神经网络Net₁，…Net_m，…，Net_M，m＝1，2…，M，每级宽度神经网络作为对应级的基分类器；通过对原始训练样本集进行M次数据变换，对应得到M个验证集x_{v_1}，…x_{v_m}，…x_{v_M}；

其中，原始训练样本集的样本总数为N_tr，每个训练样本为一个待学习图像样本；所述构建并行M级宽度神经网络Net₁，…Net_m，…，Net_M具体过程为：

采用宽度径向基函数网络作为基分类器来设计并行多级宽度神经网络；M个宽度径向基函数网络连接在一起，形成并行多级宽度神经网络Net₁，Net₂，...Net_M；每一个基分类器作为一级；

构建宽度径向基函数网络的具体过程为：

构建包括N_0k个高斯基函数为

的径向基函数网络，该径向基函数网络的中心为随机取自原始训练样本集的一个子集，标准差取值为常数；采用滑动窗口获取原始训练样本集中每个待学习图像样本的多组局部特征图像，从而获得多组局部特征矩阵，将多组局部特征矩阵作为高斯基函数的输入数据，得到多个径向基函数网络即为宽度径向基函数网络；

步骤2，采用原始训练样本集和M个验证集x_{v_1}，…x_{v_m}，…x_{v_M}分别对并行M级宽度神经网络的每级进行训练和验证，得到训练后的并行M级宽度神经网络和每级宽度神经网络对应的验证输出y_{v_m}，m＝1，2…，M；采用最小误差法得到每个验证输出y_{v_m}对应的标签y_{v_ind_m}，进而得到训练后的并行M级宽度神经网络的每级宽度神经网络的验证集的正确分类样本集y_{vc_m}和错误分类样本集y_{vw_m}；

所述采用原始训练样本集和M个验证集x_{v_1}，…x_{v_m}，…x_{v_M}分别对并行M级宽度神经网络的每级进行训练和验证，其包含以下子步骤：

子步骤2.1，将原始训练样本集作为第1级宽度神经网络Net₁的输入样本，对第1级宽度神经网络Net₁进行训练，得到训练后的第一级宽度神经网络；

子步骤2.2，采用第一验证集x_{v_1}对训练后的第1级宽度神经网络进行验证，得到第1级宽度神经网络的验证集的错误分类样本集y_{vw_1}；

子步骤2.3，将第一级宽度神经网络的错误分类样本集y_{vw_1}作为第2级宽度神经网络的输入样本A_{v_1}；再从原始训练样本集中随机抽取训练样本集A_{v_2}，使总输入样本集{A_{v_1}+A_{v_2}}中的样本数等于原始训练样本集中的样本数，并将总输入样本集{A_{v_1}+A_{v_2}}作为第2级宽度神经网络的输入样本；

子步骤2.4，采用总输入样本集{A_{v_1}+A_{v_2}}对第2级宽度神经网络进行训练，得到训练后的第2级宽度神经网络；采用第二验证集x_{v_2}对训练后的第2级宽度神经网络进行验证，得到第2级宽度神经网络的验证集的错误分类样本集y_{vw_2}；

依次类推，对第3级到第M级宽度神经网络分别进行训练，得到训练后的并行M级宽度神经网络和每级宽度神经网络的对应验证输出y_{v_m}；

每级宽度神经网络的训练过程为：

(a)将原始训练样本集中的待学习图像样本作为输入数据，滑动窗口的初始位置设在每个待学习图像样本的左上角，选择滑动步长为1个像元，滑动窗口从左到右，从上到下依次滑动，把滑动窗口中的所有图像样本的3维图像块拉伸成为矩阵x_k，即将每个局部特征图像分别按像元组成对应的原始矩阵，将每个原始矩阵的第2至最后一列依次顺序排列至第1列后形成一个列向量；将N个列向量顺序排列组成一组训练图像样本的局部特征矩阵x_k，1≤k≤K，局部特征矩阵x_k的每一列代表一个待学习图像样本；

(b)把局部特征矩阵x_k输入给包括N_0k个高斯基函数为

的径向基函数网络，输出记为：

其中，

为包含N个元素的列向量；

滑动窗口每次滑动对应一个径向基函数网络，滑动结束，得到K个径向基函数网络；

(c)针对每一个径向基函数网络，对其经过非线性变换的高斯基函数输出数据Φ_k引入排序和下采样：

对宽度径向基函数网络的输出数据Φ_k的每一列进行求和，得到一个行向量，行向量的每个元素为每个待学习图像的局部特定位置的像元之和，对每个待学习图像的局部特定位置的像元之和进行降序排列，得到降序向量

采用索引s_k将降序向量a_k中每个待学习图像的局部特定位置对应的原始位置进行标记，得到排序的输出数据Φ′_k＝sort(Φ_k，s_k)；

对排序的输出数据进行下采样，设定下采样间隔N_kS，则采样输出为Φ_kS＝subsample(Φ′_k，N_kS)，高斯基函数的输出为Φ＝[Φ_1S，Φ_2S，…，Φ_KS]；

(d)设定期望的输出为D＝[D₁，D₂，…，D_C]；对宽度径向基函数网络的高斯基函数的输出进行线性层连接，则线性层的权重为：W＝[W₁，W₂，…，W_C]；

其中，C是原始样本的类别总数；

具体公式为：

其中，Φ⁺为宽度径向基函数网络的高斯基函数输出Φ的伪逆矩阵；

最终，计算得到宽度径向基函数网络的类别输出为：

进而获得训练后的宽度径向基函数网络，完成每级宽度神经网络的训练过程；

步骤3，对训练后的并行M级宽度神经网络的每级宽度神经网络的验证集的正确分类样本集y_{vc_m}和错误分类样本集y_{vw_m}分别进行统计计算，对应得到训练后的每级宽度神经网络的决策阈值T_m；将每级宽度神经网络的决策阈值T_m作为对应级宽度神经网络的决策依据，得到决策阈值确定的并行M级宽度神经网络；

步骤4，获取测试集，将测试集作为决策阈值确定的并行M级宽度神经网络的输入数据，并行输入给决策阈值确定的每级宽度神经网络进行测试，得到决策阈值确定的每级宽度神经网络的输出；获取每级宽度神经网络的误差向量，对决策阈值确定的每级宽度神经网络的输出进行判断，从而得到决策阈值确定的每级宽度神经网络的测试输出对应的标签y_{test_ind_m}。

2.根据权利要求1所述的基于并行多级宽度神经网络的学习方法，其特征在于，步骤1中，所述数据变换为通过弹性变换对原始样本集中的样本进行压缩或变形；或所述数据变换为通过仿射变换对原始样本集中的样本进行旋转、翻转、放大或缩小。

3.根据权利要求1所述的基于并行多级宽度神经网络的学习方法，其特征在于，步骤2中，所述最小误差法为：

首先，设定原始训练样本集的总类别数为C，构建参考矩阵R_j，1≤j≤C；

其中，参考矩阵R_j的第j行的元素都为1，其余元素都为0，每个参考矩阵R_j的维数为C×N_tr；

其次，根据训练后的每级宽度神经网络的验证输出y_{v_m}，获取验证输出y_{v_m}与对应级的参考矩阵R_j之间的误差向量：

J_{v_mj}＝||softmax(y_{v_m})-R_j||₂，1≤j≤C；

其中，||||₂表示矩阵的2范数，softmax()为归一化指数函数；J_{v_mj}的维数为1×N_tr；y_{v_m}的维数为C×N_tr；

其中，y_{v_ind_m}的维数为1×N_tr。

4.根据权利要求1所述的基于并行多级宽度神经网络的学习方法，其特征在于，步骤3中，所述统计计算包含以下子步骤：

e_{vc_m}＝||softmax(y_{vc_m})-t_{vc_m}||₂；

e_{vw_m}＝||softmax(y_{vw_m})-t_{vw_m}||₂；

其中，t_{vc_m}是m级宽度神经网络中正确分类样本y_{vc_m}对应的真实标签，t_{vw_m}是m级宽度神经网络中错误分类样本y_{vw_m}对应的真实标签；

子步骤3.3，根据错误分类样本集y_{vw_m}的误差e_{vw_m}和方差σ_w，获得m级宽度神经网络的决策阈值T_m＝min(e_{vw_m})-ασ_w；

5.根据权利要求2所述的基于并行多级宽度神经网络的学习方法，其特征在于，步骤4中，所述获取测试集为：获取原始测试样本集x_test；通过M次数据扩充，对应获取M组测试样本集x_{test_1}，...，x_{test_m}，...，x_{test_M}，即为测试集。

6.根据权利要求5所述的基于并行多级宽度神经网络的学习方法，其特征在于，所述数据扩充为：对所述原始测试样本集x_test中的每个样本分别进行N_testD次所述数据变换，对应得到N_testD个测试样本集，作为决策阈值确定的并行M级宽度神经网络的第m级宽度神经网络的测试集x_{test_m}；

其中，原始测试样本集x_test中测试样本总数为N_{test_samples}。

7.根据权利要求1所述的基于并行多级宽度神经网络的学习方法，其特征在于，步骤4中，所述获取每级宽度神经网络的误差向量包含以下子步骤：

子步骤4.1，将M组测试样本集x_{test_1}，x_{test_2}，...，x_{test_M}分别并行输入给决策阈值确定的并行M级宽度神经网络，对应得到决策阈值确定的每级宽度神经网络的N_testD个输出y_{test_m_d}，d＝1，2…N_testD；

子步骤4.2，对决策阈值确定的每级宽度神经网络的N_testD个输出y_{test_m_d}，d＝1，2…N_testD计算平均值，得到决策阈值确定的每级宽度神经网络的测试输出

子步骤4.3，设定测试集的总类别数为C，构建参考矩阵R_j，1≤j≤C；获取验证输出y_{v_m}与对应级的参考矩阵R_j之间的误差向量：

J_{test_mj}＝||softmax(y_{test_m})-R_j||₂，1≤j≤C；

其中，参考矩阵R_j的第j行的元素都为1，其余元素都为0，每个参考矩阵R_j的维数为C×N_{test_samples}；J_{test_mj}的维数为1×N_{test_samples}，y_{v_m}的维数为C×N_{test_samples}。

8.根据权利要求7所述的基于并行多级宽度神经网络的学习方法，其特征在于，所述对决策阈值确定的每级宽度神经网络的输出进行判断为：

min(J_{test_mj})≤T_m；

min(J_{test_mj})＞T_m。

9.根据权利要求8所述的基于并行多级宽度神经网络的学习方法，其特征在于，步骤4中，所述得到决策阈值确定的每级宽度神经网络的测试输出对应的标签y_{test_ind_m}为：

其中，y_{test_ind_m}的维数为1×N_{test_samples}。