CN106250988B

CN106250988B - 基于样本特性的相关向量回归增量学习算法及***

Info

Publication number: CN106250988B
Application number: CN201610605342.5A
Authority: CN
Inventors: 刘芳; 景玉海; 童蜜
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2018-09-11
Anticipated expiration: 2036-07-28
Also published as: CN106250988A

Abstract

本发明公开了一种基于样本特性的相关向量回归增量学习算法及***，该方法包括以下步骤：S1、获取初始样本集，初始化参数；S2、通过对样本集进行训练得到RVM预测模型；S3、计算每个样本的样本标签、局部密度因子和误差因子；S4、根据RVM预测模型对即将输入的未来样本进行预测；S5、计算样本特性向量，降序排列样本特性向量并进行循环，若非相关向量次数超过设定的阈值，则从样本集中删除该样本，跳出循环；S6、判断是否还有输入的新样本，若有新样本，则加入新样本，形成新的样本集，转到步骤S2；若没有新样本，则输出预测的未来样本。本发明能够保留含有有效信息的样本删除无效样本，具有更高的预测精度和更低的时间复杂度，可广泛应用于实时数据的处理和预测中。

Description

基于样本特性的相关向量回归增量学习算法及***

技术领域

本发明涉及机器学习领域，尤其涉及一种基于样本特性的相关向量回归增量学习算法及***。

背景技术

2001年，Tipping首次提出了相关向量机这一新的机器学习算法。很快，Tipping又提出了快速序列稀疏贝叶斯学习算法，训练速度得到了加快；然后对相关向量机基本理论和应用前景进行总结，并发表了相应的文章，从而标志着相关向量机理论体系的初步完成。与此同时，增量学习方法在国内外也取得了很多研究成果，应用也越来越广泛。Nikolay等人于2005年首次在相关向量机算法中应用增量学习的思想。在相关向量回归增量算法的研究上，Nikolay提出了一种RVM在线学习算法，算法思想为每增加一次样本数据，就对RVM中的权值参数和超参数进行同步优化，并且通过实验验证了该方法的泛化能力；Jaco提出了一种增量RVR学习算法。

经典的批处理相关向量回归增量学习算法(IRVR)在增量学习过程中，每次加入新样本，都对历史样本集进行重新训练，没有淘汰策略，这样随着样本数量的增大，训练的时间以及复杂度也会不断增加；传统相关向量回归增量学习算法(KIRVR)，即基于固定宽度滑动窗口的相关向量回归增量学习算法，在增量学习过程中，每加入一次新样本，都会删除首样本，然后对样本集重新进行训练，虽然这样能减少训练时间以及复杂度，但是无选择性地删除首样本会导致样本有效信息的丢失。

发明内容

本发明要解决的技术问题在于针对现有技术中样本数量不断扩大导致训练时间长，且无选择地删除样本导致样本有效信息丢失以及未充分利用样本自身特性的缺陷，提供一种预测精度更高，且时间复杂度更低的基于样本特性的相关向量回归增量学习算法及***。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于样本特性的相关向量回归增量学习算法，包括以下步骤：

S1、获取初始样本集，初始化参数；

S2、通过对样本集进行训练得到RVM预测模型；

S3、计算每个样本的样本标签、局部密度因子和误差因子；

S4、根据RVM预测模型对即将输入的未来样本进行预测；

S5、统计样本的非相关向量次数，对局部密度因子和误差因子进行加权，得到样本特性向量；对样本特性向量降序排列，并对排序后的序列进行循环，若非相关向量次数超过设定的阈值，则从样本集中删除该样本，跳出循环；

S6、判断是否还有输入的新样本，若有新样本，则加入新样本，形成新的样本集，转到步骤S2；若没有新样本，则输出预测的未来样本。

进一步地，本发明的算法执行完步骤S3后，还包括：根据RVM预测模型对未来样本进行预测，得到预测结果。

进一步地，本发明的步骤S1的具体方法为：

首先初始化阈值l，用于作后面样本非相关向量次数是否超过阈值的比较；初始化局部密因子权重和误差因子权重，用于后面对密度因子和误差因子进行加权计算样本特性向量。

进一步地，本发明的步骤S2的方法具体为：

S21、根据相关向量回归理论，令样本训练集目标值t_n相互独立分布，输入值x_n是独立分布样本，则有：

t_n＝y(x_n；w)+ξ_n

其中，ξ_n为附加噪声，且满足如下高斯分布：ξ_n～N(0,σ²)；w是由w_i组成的权重向量，即w＝[w₁,w₂,...w_N]^T；初始样本集为T，样本(x_i,y_i)的样本标签为l(x_i)、局部密度因子为p_i，误差因子为q_i；

RVM为每一个模型权重w_i定义自动相关测定先验概率以控制模型复杂度，w_i先验概率分布如下：p(w_i|α_i)＝N(0,α_i ^-1)，则其中α＝(α₀,α₁,...α_N)是超参数所组成的向量；

假定超参α和噪声参数σ²服从Gamma先验分布：

p(α_i)＝Gamma(a,b)

p(σ²)＝Gamma(c,d)

首先初始化超参数α_i和σ²；

S22、分别计算Σ和μ：

Σ＝(σ^-2Φ^TΦ+A)^-1

μ＝σ^-2ΣΦ^Tt

其中A＝diag(α)，Φ是由核函数组成的N×(N+1)的结构矩阵，具体如下：

S23、利用得到的μ和∑，重新计算和(σ²)^new：

其中γ_i＝1-α_iΣ_ii；

S24、如果满足算法终止条件则算法停止，否则转到S22继续迭代训练；

S25、删除模型权重w_i趋向于零的样本，同时对RVM模型超参数进行更新；

S26、得到RVM预测模型：

设需要预测数据为X_*，对应输出为t_*，模型的预测输出为y_*，对应的预测方差为σ² _*，则有：

其中：

y_*＝μ^Tφ(x_*)

S27、利用RVM预测模型对现有样本进行预测，得到预测值

进一步地，本发明的步骤S3中计算样本标签、局部密度因子和误差因子的方法为：

计算样本标签：对于每一个训练后的样本(x_i,y_i)，引入样本(x_i,y_i)的样本标签l(x_i)，则有：

计算并更新每个样本的样本标签l(x_i)；

计算局部密度因子：将k近邻算法应用于相关向量回归算法中，通过KNN算法来选择样本的k邻近点，表示样本的局部密度信息；计算密度因子p_i：

其中，代表样本空间中任意一点x_i通过KNN算法到其k近邻点的距离，Mean^k为所有的均值，即：

通过计算每个样本点的局部密度因子来反应该样本点的分布信息，其中处于稠密区域的样本有着较大的局部密度因子，处于稀疏区域的样本的局部密度因子较小；

计算误差因子：

其中，表示样本点x_i的真实值y_i和回归模型预测值之间的平方残差，Mean表示所有样本平方残差的均值。

进一步地，本发明的步骤S4中得到样本特性向量的方法具体为：

步骤1、在增量过程中，用r(x_i)来统计样本(x_i,y_i)的样本标签l(x_i)＝1的次数，当l(x_i)＝1时，r(x_i)在原有的基础上加1，当l(x_i)＝0时，r(x_i)保持不变；

步骤2、对局部密度因子p_i和误差因子q_i进行加权，得到具有样本信息的样本特性k_i：

k_i＝ηp_i+λq_i

其中，η和λ分别代表初始化的局部密度因子p_i和误差因子q_i的权值。

进一步地，本发明的步骤S4中对样本特性向量进行排序，并删除样本的方法具体为：

步骤1、对样本特性向量k＝{k₁,k₂,…,k_|T|}进行降序排列，即k_[1]≥k_[2]≥…≥k_[|T|]；

步骤2、对降序排序后的k进行循环，判断r(x_i)是否超过阈值l，若r(x_i)≥l，则从训练样本集中删除样本(x_i,y_i)，跳出循环。

进一步地，本发明的步骤S5中加入新样本的方法具体为：加入新样本(x_m+1,y_m+1)，令r(x_m+1)＝0，此时样本集T＝T∪{(x_m+1,y_m+1)}。

本发明提供一种基于样本特性的相关向量回归增量学习***，包括：

样本集初始化单元，用于获取初始样本集，初始化参数；

预测模型训练单元，用于通过对样本集进行训练得到RVM预测模型，并对现有样本进行预测；

参数计算单元，用于计算每个样本的样本标签、局部密度因子和误差因子；

未来样本预测单元，用于根据RVM预测模型对即将输入的未来样本进行预测；

样本删除单元，用于统计样本的非相关向量次数，对局部密度因子和误差因子进行加权，得到样本特性向量；对样本特性向量降序排列，并对排序后的序列进行循环，若非相关向量次数超过设定的阈值，则从样本集中删除该样本，跳出循环；

样本更新单元，用于判断是否还有输入的新样本，若有新样本，则加入新样本，形成新的样本集，转到预测模型训练单元；若没有新样本，则输出预测的未来样本。

本发明产生的有益效果是：本发明的基于样本特性的相关向量回归增量学习算法，通过引入样本标签的概念，分析样本的相关向量特性，提出样本淘汰策略，统计样本的非相关向量次数并设定阈值，不断增强相关向量的作用；充分挖掘样本集中样本的分布信息和误差信息，分别提出了局部密度因子和误差因子并对其进行加权，得到样本特性向量，需要删除样本时，删除样本特性值最大的样本，从而保留含有有效信息的样本删除无效样本，使得算法具有更高的预测精度和更低的时间复杂度，该算法可广泛应用于实时数据的处理和预测当中。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的基于样本特性的相关向量回归增量学习算法的流程图；

图2是本发明实施例的基于样本特性的相关向量回归增量学习算法的详细流程框图；

图3是本发明实施例的基于样本特性的相关向量回归增量学习算法的光纤光栅温度传感器对钢轨温度和大气温度的监测结果；

图4是本发明实施例的基于样本特性的相关向量回归增量学习算法的基于光纤光栅温度数据的SCBIRVR算法预测模型；

图5是本发明实施例的基于样本特性的相关向量回归增量学习算法的基于光纤光栅温度传感数据各算法的真实值与预测值绝对误差。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1和图2所示，本发明实施例的基于样本特性的相关向量回归增量学习算法，包括以下步骤：

S1、获取初始样本集，初始化参数；

S2、通过对样本集进行训练得到RVM预测模型；

t_n＝y(x_n；w)+ξ_n

假定超参α和噪声参数σ²服从Gamma先验分布：

p(α_i)＝Gamma(a,b)

p(σ²)＝Gamma(c,d)

首先初始化超参数α_i和σ²；

S22、分别计算Σ和μ：

Σ＝(σ^-2Φ^TΦ+A)^-1

μ＝σ^-2ΣΦ^Tt

S23、利用得到的μ和∑，重新计算和

其中γ_i＝1-α_iΣ_ii；

S26、得到RVM预测模型：

其中：

y_*＝μ^Tφ(x_*)

S27、利用RVM预测模型对现有样本进行预测，得到预测值

S3、计算每个样本的样本标签、局部密度因子和误差因子；

S4、根据RVM预测模型对即将输入的未来样本进行预测。

计算并更新每个样本的样本标签l(x_i)；

计算局部密度因子：将k近邻算法(K-Nearest Neighbor，KNN)应用于相关向量回归算法中，通过KNN算法来选择样本的k邻近点，表示样本的局部密度信息；计算密度因子p_i：

计算误差因子：

得到样本特性向量的方法具体为：

k_i＝ηp_i+λq_i

对样本特性向量进行排序，并删除样本的方法具体为：

加入新样本的方法具体为：加入新样本(x_m+1,y_m+1)，令r(x_m+1)＝0，此时样本集T＝T∪{(x_m+1,y_m+1)}。

在本发明的另一个具体实施例中，将基于样本特性的相关向量回归增量学习算法(SCBIRVR算法)应用到基于光纤光栅的高铁安全监测中，对高铁安全监测***得到的数据进行处理分析，能够较好地起到温度预测和安全预警的作用。

本高铁安全监测***所用设备包括：光纤光栅传感器、光纤光栅解调仪、采集工控机、本地服务器、本地客户端、交换机、工业路由器、远程服务器和远程客户端等。

光纤光栅传感器利用光纤光栅对外界因素的敏感程度，当外界因素变化时，光纤光栅传感器的波长会出现变化，通过对波长进行解调，可以得到光纤光栅测点对应的物理量，比如温度、位移、应力应变等。将光纤光栅传感器铺设在高铁铁轨上，利用光缆将传感器进行连接，所有传感器组建成传感网络，然后通过解调仪对光纤光栅传感器采集的数据进行处理，对解调仪上传的数据进行分析，得到铁路轨道的多参量状态的在线监测。

根据光纤光栅的高铁安全监测***，获取2016年2月在钢轨温度和大气温度的光纤光栅温度传感器采集的监测数据，如图3所示，图中的两条曲线分别表示一段上行钢轨温度T16和一段上行大气温度DQWD17在这一个月内温度变化的监测结果，其中变化明显的曲线代表一段上行钢轨温度T16温度监测点，变化不明显的曲线代表一段上行大气温度DQWD17温度监测点，通过这两条曲线的对比，可以看出钢轨温度和大气温度的监测是非常准确的，而且变化趋势是一样的，出现变化程度不同的原因是光纤光栅温度传感器的测点不同，钢轨温度测点在太阳照射或列车通过是会出现较大的温度变化，而大气温度测点是室外正常情况下温度的变化，温度变化一般不会很大。

使用在线监测***中光纤光栅温度传感器所采集到的温度传感数据，截取2016年1月1日零点到10日零点光纤光栅温度传感器一段上行钢轨温度GGWD16采集的数据，采用基于样本特性的相关向量回归增量学习(SCBIRVR)算法进行温度传感数据建模。

其中样本集大小为480，训练集为400，增量集为80，输入x_i∈[1,480]，输出y_i为光纤光栅温度传感器采集的温度值。初始化参数α_i为(N为现有样本数量)，初始化σ为std(t)*10/100(std(t)为样本真实值的标准差)，初始化局部密度因子权重η为0.8，初始化误差因子权重λ为0.2，初始化阈值l为10，初始化相关向量回归中核函数使用RBF高斯核函数仿真硬件环境为Intel(R)Core(TM)i3-2120 3.30GHz，2G内存，软件环境为Matlab R2009b。初始化样本集为训练集，先根据相关向量回归理论，对样本集进行迭代训练得到RVM预测模型，统计现有样本的非相关向量次数，计算样本特性向量，对样本特性向量进行降序排列并循环，如果对应样本的非相关向量次数超过设定的阈值则对该样本进行删除并跳出循环。依次加入增量集样本完成增量学习过程后，可以得到最终的温度传感数据RVM预测模型。

如图4所示，图中曲线为基于光纤光栅温度传感数据的SCBIRVR算法预测模型，即所有增量样本通过SCBIRVR算法完成增量学习之后得到的回归模型。由图可知，SCBIRVR算法能够很好地对光纤光栅温度传感样本集进行RVM回归建模，数据的拟合效果较好。

为了显示SCBIRVR良好的预测效果，分别使用批处理相关向量回归增量学习(IRVR)算法和基于固定宽度滑动窗口的相关向量回归增量学习(KIRVR)算法对数据处理后进行对比。

如图5所示，三条曲线分别代表IRVR、KIRVR和SCBIRVR算法中新增样本的预测值与真实值间的绝对误差。由于是从样本点401开始预测，所以X轴代表的是预测样本，样本包括样本点401-480；Y轴代表的是预测样本的真实温度和预测模型的预测温度之间的绝对误差。从图中可以看出，SCBIRVR算法对未来数据的预测值较IRVR和KIRVR算法对未来数据的预测值要好，这是因为SCBIRVR算法充分考虑了样本的相关向量特性、分布特性和异常特性，在删除样本时通过有效地淘汰策略删除偏差样本，使得回归预测模型更加趋向于正确的曲线。

综上所述，将基于样本特性的相关向量回归算法应用到高铁安全监测的数据处理过程中，通过增量学习能实现对温度传感数据良好的拟合和预测，能够对高速铁路安全起到良好的安全预警作用。

本发明的算法针对经典算法中存在的问题，提出了基于样本特性的相关向量回归增量学习算法，为了解决增量学习过程中相关向量丢失造成预测精度下降的问题，引入样本标签的概念，分析样本的相关向量特性，提出样本淘汰策略，统计样本的相关向量次数并设定阈值，不断增强相关向量的作用，降低算法时间复杂度的同时保证算法的预测精度；为了所保留的样本中含有更有效的信息，充分挖掘样本集中样本的分布信息和误差信息，分别提出了局部密度因子和误差因子并对其进行加权，得到样本特性向量，需要删除样本时，删除样本特性值最大的样本，从而保留含有有效信息的样本删除无效样本，使得算法具有更高的预测精度和更低的时间复杂度。综上所述，基于样本特性的相关向量回归增量学习算法，在增量学习过程中，对样本进行有选择地删除，并充分挖掘样本的分布信息和误差信息，能有效提高相关向量机建模精度和在线学习预测实时性与可靠性，可广泛应用于实时数据的处理和预测当中。

本发明实施例的基于样本特性的相关向量回归增量学习***，用于实现本发明实施例的基于样本特性的相关向量回归增量学习算法，包括：

样本集初始化单元，用于获取初始样本集，初始化参数；

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于样本特性的相关向量回归增量学习方法，其特征在于，包括以下步骤：

S1、将光纤光栅传感器铺设在高铁铁轨上，利用光缆将传感器进行连接，组建基于光纤光栅的高铁安全监测***，获取高铁安全监测***得到的温度、位移、应力应变数据作为初始样本集，初始化参数；

S2、通过对样本集进行训练得到RVM预测模型；

S3、计算每个样本的样本标签、局部密度因子和误差因子；

S4、根据RVM预测模型对即将输入的未来样本进行预测；

S5、统计样本的非相关向量次数；用r(x_i)来统计样本(x_i,y_i)的样本标签l(x_i)＝1的次数，当l(x_i)＝1时，r(x_i)在原有的基础上加1，当l(x_i)＝0时，r(x_i)保持不变；

对局部密度因子和误差因子进行加权，得到样本特性向量；对样本特性向量降序排列，并对排序后的序列进行循环，若非相关向量次数超过设定的阈值，则从样本集中删除该样本,跳出循环；

S6、判断是否还有输入的新样本，若有新样本，则加入新样本，形成新的样本集，转到步骤S2；若没有新样本，则输出预测的未来样本；根据得到的未来样本对高铁安全检测***中的铁轨温度、位移、应力应变进行安全预警；其中：

计算并更新每个样本的样本标签l(x_i)；

计算误差因子：

其中，r_i ²表示样本点x_i的真实值y_i和回归模型预测值之间的平方残差，Mean表示所有样本平方残差的均值。

2.根据权利要求1所述的基于样本特性的相关向量回归增量学习方法，其特征在于，步骤S1的具体方法为：

首先初始化阈值用于后面作样本非相关向量次数是否超过阈值的比较；初始化局部密度因子权重和误差因子权重，用于后面对密度因子和误差因子进行加权计算样本特性向量。

3.根据权利要求1所述的基于样本特性的相关向量回归增量学习方法，其特征在于，步骤S2的方法具体为：

t_n＝y(x_n；w)+ξ_n

假定超参α和噪声参数σ²服从Gamma先验分布：

p(α_i)＝Gamma(a,b)

p(σ²)＝Gamma(c,d)

首先初始化超参数α_i和σ²；

S22、分别计算Σ和μ：

Σ＝(σ^-2Φ^TΦ+A)^-1

μ＝σ^-2ΣΦ^Tt

S23、利用得到的μ和∑，重新计算和(σ²)^new：

其中γ_i＝1-α_iΣ_ii；

S26、得到RVM预测模型：

其中：

y_*＝μ^Tφ(x_*)

S27、利用RVM预测模型对现有样本进行预测，得到预测值

4.根据权利要求1所述的基于样本特性的相关向量回归增量学习方法，其特征在于，步骤S5中进行加权计算的方法具体为：

对局部密度因子p_i和误差因子q_i进行加权，得到具有样本信息的样本特性k_i：

k_i＝ηp_i+λq_i

5.根据权利要求4所述的基于样本特性的相关向量回归增量学习方法，其特征在于，步骤S5中对样本特性向量进行排序，并删除样本的方法具体为：

步骤2、对降序排序后的k进行循环，判断r(x_i)是否超过阈值若则从训练样本集中删除样本(x_i,y_i)，跳出循环。

6.根据权利要求1所述的基于样本特性的相关向量回归增量学习方法，其特征在于，步骤S6中加入新样本的方法具体为：加入新样本(x_m+1,y_m+1)，令r(x_m+1)＝0，此时样本集T＝T∪{(x_m+1,y_m+1)}。