CN106250988B - 基于样本特性的相关向量回归增量学习算法及*** - Google Patents
基于样本特性的相关向量回归增量学习算法及*** Download PDFInfo
- Publication number
- CN106250988B CN106250988B CN201610605342.5A CN201610605342A CN106250988B CN 106250988 B CN106250988 B CN 106250988B CN 201610605342 A CN201610605342 A CN 201610605342A CN 106250988 B CN106250988 B CN 106250988B
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- factor
- local density
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 98
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims description 30
- 239000000835 fiber Substances 0.000 claims description 21
- 238000012544 monitoring process Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 7
- 230000009191 jumping Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 6
- 230000000977 initiatory effect Effects 0.000 abstract 1
- 230000008859 change Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 229910000831 Steel Inorganic materials 0.000 description 7
- 239000010959 steel Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000011144 upstream manufacturing Methods 0.000 description 4
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于样本特性的相关向量回归增量学习算法及***,该方法包括以下步骤:S1、获取初始样本集,初始化参数;S2、通过对样本集进行训练得到RVM预测模型;S3、计算每个样本的样本标签、局部密度因子和误差因子;S4、根据RVM预测模型对即将输入的未来样本进行预测;S5、计算样本特性向量,降序排列样本特性向量并进行循环,若非相关向量次数超过设定的阈值,则从样本集中删除该样本,跳出循环;S6、判断是否还有输入的新样本,若有新样本,则加入新样本,形成新的样本集,转到步骤S2;若没有新样本,则输出预测的未来样本。本发明能够保留含有有效信息的样本删除无效样本,具有更高的预测精度和更低的时间复杂度,可广泛应用于实时数据的处理和预测中。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种基于样本特性的相关向量回归增量学习算法及***。
背景技术
2001年,Tipping首次提出了相关向量机这一新的机器学习算法。很快,Tipping又提出了快速序列稀疏贝叶斯学习算法,训练速度得到了加快;然后对相关向量机基本理论和应用前景进行总结,并发表了相应的文章,从而标志着相关向量机理论体系的初步完成。与此同时,增量学习方法在国内外也取得了很多研究成果,应用也越来越广泛。Nikolay等人于2005年首次在相关向量机算法中应用增量学习的思想。在相关向量回归增量算法的研究上,Nikolay提出了一种RVM在线学习算法,算法思想为每增加一次样本数据,就对RVM中的权值参数和超参数进行同步优化,并且通过实验验证了该方法的泛化能力;Jaco提出了一种增量RVR学习算法。
经典的批处理相关向量回归增量学习算法(IRVR)在增量学习过程中,每次加入新样本,都对历史样本集进行重新训练,没有淘汰策略,这样随着样本数量的增大,训练的时间以及复杂度也会不断增加;传统相关向量回归增量学习算法(KIRVR),即基于固定宽度滑动窗口的相关向量回归增量学习算法,在增量学习过程中,每加入一次新样本,都会删除首样本,然后对样本集重新进行训练,虽然这样能减少训练时间以及复杂度,但是无选择性地删除首样本会导致样本有效信息的丢失。
发明内容
本发明要解决的技术问题在于针对现有技术中样本数量不断扩大导致训练时间长,且无选择地删除样本导致样本有效信息丢失以及未充分利用样本自身特性的缺陷,提供一种预测精度更高,且时间复杂度更低的基于样本特性的相关向量回归增量学习算法及***。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于样本特性的相关向量回归增量学习算法,包括以下步骤:
S1、获取初始样本集,初始化参数;
S2、通过对样本集进行训练得到RVM预测模型;
S3、计算每个样本的样本标签、局部密度因子和误差因子;
S4、根据RVM预测模型对即将输入的未来样本进行预测;
S5、统计样本的非相关向量次数,对局部密度因子和误差因子进行加权,得到样本特性向量;对样本特性向量降序排列,并对排序后的序列进行循环,若非相关向量次数超过设定的阈值,则从样本集中删除该样本,跳出循环;
S6、判断是否还有输入的新样本,若有新样本,则加入新样本,形成新的样本集,转到步骤S2;若没有新样本,则输出预测的未来样本。
进一步地,本发明的算法执行完步骤S3后,还包括:根据RVM预测模型对未来样本进行预测,得到预测结果。
进一步地,本发明的步骤S1的具体方法为:
首先初始化阈值l,用于作后面样本非相关向量次数是否超过阈值的比较;初始化局部密因子权重和误差因子权重,用于后面对密度因子和误差因子进行加权计算样本特性向量。
进一步地,本发明的步骤S2的方法具体为:
S21、根据相关向量回归理论,令样本训练集目标值tn相互独立分布,输入值xn是独立分布样本,则有:
tn=y(xn;w)+ξn
其中,ξn为附加噪声,且满足如下高斯分布:ξn~N(0,σ2);w是由wi组成的权重向量,即w=[w1,w2,...wN]T;初始样本集为T,样本(xi,yi)的样本标签为l(xi)、局部密度因子为pi,误差因子为qi;
RVM为每一个模型权重wi定义自动相关测定先验概率以控制模型复杂度,wi先验概率分布如下:p(wi|αi)=N(0,αi -1),则其中α=(α0,α1,...αN)是超参数所组成的向量;
假定超参α和噪声参数σ2服从Gamma先验分布:
p(αi)=Gamma(a,b)
p(σ2)=Gamma(c,d)
首先初始化超参数αi和σ2;
S22、分别计算Σ和μ:
Σ=(σ-2ΦTΦ+A)-1
μ=σ-2ΣΦTt
其中A=diag(α),Φ是由核函数组成的N×(N+1)的结构矩阵,具体如下:
S23、利用得到的μ和∑,重新计算和(σ2)new:
其中γi=1-αiΣii;
S24、如果满足算法终止条件则算法停止,否则转到S22继续迭代训练;
S25、删除模型权重wi趋向于零的样本,同时对RVM模型超参数进行更新;
S26、得到RVM预测模型:
设需要预测数据为X*,对应输出为t*,模型的预测输出为y*,对应的预测方差为σ2 *,则有:
其中:
y*=μTφ(x*)
S27、利用RVM预测模型对现有样本进行预测,得到预测值
进一步地,本发明的步骤S3中计算样本标签、局部密度因子和误差因子的方法为:
计算样本标签:对于每一个训练后的样本(xi,yi),引入样本(xi,yi)的样本标签l(xi),则有:
计算并更新每个样本的样本标签l(xi);
计算局部密度因子:将k近邻算法应用于相关向量回归算法中,通过KNN算法来选择样本的k邻近点,表示样本的局部密度信息;计算密度因子pi:
其中,代表样本空间中任意一点xi通过KNN算法到其k近邻点的距离,Meank为所有的均值,即:
通过计算每个样本点的局部密度因子来反应该样本点的分布信息,其中处于稠密区域的样本有着较大的局部密度因子,处于稀疏区域的样本的局部密度因子较小;
计算误差因子:
其中,表示样本点xi的真实值yi和回归模型预测值之间的平方残差,Mean表示所有样本平方残差的均值。
进一步地,本发明的步骤S4中得到样本特性向量的方法具体为:
步骤1、在增量过程中,用r(xi)来统计样本(xi,yi)的样本标签l(xi)=1的次数,当l(xi)=1时,r(xi)在原有的基础上加1,当l(xi)=0时,r(xi)保持不变;
步骤2、对局部密度因子pi和误差因子qi进行加权,得到具有样本信息的样本特性ki:
ki=ηpi+λqi
其中,η和λ分别代表初始化的局部密度因子pi和误差因子qi的权值。
进一步地,本发明的步骤S4中对样本特性向量进行排序,并删除样本的方法具体为:
步骤1、对样本特性向量k={k1,k2,…,k|T|}进行降序排列,即k[1]≥k[2]≥…≥k[|T|];
步骤2、对降序排序后的k进行循环,判断r(xi)是否超过阈值l,若r(xi)≥l,则从训练样本集中删除样本(xi,yi),跳出循环。
进一步地,本发明的步骤S5中加入新样本的方法具体为:加入新样本(xm+1,ym+1),令r(xm+1)=0,此时样本集T=T∪{(xm+1,ym+1)}。
本发明提供一种基于样本特性的相关向量回归增量学习***,包括:
样本集初始化单元,用于获取初始样本集,初始化参数;
预测模型训练单元,用于通过对样本集进行训练得到RVM预测模型,并对现有样本进行预测;
参数计算单元,用于计算每个样本的样本标签、局部密度因子和误差因子;
未来样本预测单元,用于根据RVM预测模型对即将输入的未来样本进行预测;
样本删除单元,用于统计样本的非相关向量次数,对局部密度因子和误差因子进行加权,得到样本特性向量;对样本特性向量降序排列,并对排序后的序列进行循环,若非相关向量次数超过设定的阈值,则从样本集中删除该样本,跳出循环;
样本更新单元,用于判断是否还有输入的新样本,若有新样本,则加入新样本,形成新的样本集,转到预测模型训练单元;若没有新样本,则输出预测的未来样本。
本发明产生的有益效果是:本发明的基于样本特性的相关向量回归增量学习算法,通过引入样本标签的概念,分析样本的相关向量特性,提出样本淘汰策略,统计样本的非相关向量次数并设定阈值,不断增强相关向量的作用;充分挖掘样本集中样本的分布信息和误差信息,分别提出了局部密度因子和误差因子并对其进行加权,得到样本特性向量,需要删除样本时,删除样本特性值最大的样本,从而保留含有有效信息的样本删除无效样本,使得算法具有更高的预测精度和更低的时间复杂度,该算法可广泛应用于实时数据的处理和预测当中。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的基于样本特性的相关向量回归增量学习算法的流程图;
图2是本发明实施例的基于样本特性的相关向量回归增量学习算法的详细流程框图;
图3是本发明实施例的基于样本特性的相关向量回归增量学习算法的光纤光栅温度传感器对钢轨温度和大气温度的监测结果;
图4是本发明实施例的基于样本特性的相关向量回归增量学习算法的基于光纤光栅温度数据的SCBIRVR算法预测模型;
图5是本发明实施例的基于样本特性的相关向量回归增量学习算法的基于光纤光栅温度传感数据各算法的真实值与预测值绝对误差。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1和图2所示,本发明实施例的基于样本特性的相关向量回归增量学习算法,包括以下步骤:
S1、获取初始样本集,初始化参数;
S2、通过对样本集进行训练得到RVM预测模型;
S21、根据相关向量回归理论,令样本训练集目标值tn相互独立分布,输入值xn是独立分布样本,则有:
tn=y(xn;w)+ξn
其中,ξn为附加噪声,且满足如下高斯分布:ξn~N(0,σ2);w是由wi组成的权重向量,即w=[w1,w2,...wN]T;初始样本集为T,样本(xi,yi)的样本标签为l(xi)、局部密度因子为pi,误差因子为qi;
RVM为每一个模型权重wi定义自动相关测定先验概率以控制模型复杂度,wi先验概率分布如下:p(wi|αi)=N(0,αi -1),则其中α=(α0,α1,...αN)是超参数所组成的向量;
假定超参α和噪声参数σ2服从Gamma先验分布:
p(αi)=Gamma(a,b)
p(σ2)=Gamma(c,d)
首先初始化超参数αi和σ2;
S22、分别计算Σ和μ:
Σ=(σ-2ΦTΦ+A)-1
μ=σ-2ΣΦTt
其中A=diag(α),Φ是由核函数组成的N×(N+1)的结构矩阵,具体如下:
S23、利用得到的μ和∑,重新计算和
其中γi=1-αiΣii;
S24、如果满足算法终止条件则算法停止,否则转到S22继续迭代训练;
S25、删除模型权重wi趋向于零的样本,同时对RVM模型超参数进行更新;
S26、得到RVM预测模型:
设需要预测数据为X*,对应输出为t*,模型的预测输出为y*,对应的预测方差为σ2 *,则有:
其中:
y*=μTφ(x*)
S27、利用RVM预测模型对现有样本进行预测,得到预测值
S3、计算每个样本的样本标签、局部密度因子和误差因子;
S4、根据RVM预测模型对即将输入的未来样本进行预测。
计算样本标签:对于每一个训练后的样本(xi,yi),引入样本(xi,yi)的样本标签l(xi),则有:
计算并更新每个样本的样本标签l(xi);
计算局部密度因子:将k近邻算法(K-Nearest Neighbor,KNN)应用于相关向量回归算法中,通过KNN算法来选择样本的k邻近点,表示样本的局部密度信息;计算密度因子pi:
其中,代表样本空间中任意一点xi通过KNN算法到其k近邻点的距离,Meank为所有的均值,即:
通过计算每个样本点的局部密度因子来反应该样本点的分布信息,其中处于稠密区域的样本有着较大的局部密度因子,处于稀疏区域的样本的局部密度因子较小;
计算误差因子:
其中,表示样本点xi的真实值yi和回归模型预测值之间的平方残差,Mean表示所有样本平方残差的均值。
S5、统计样本的非相关向量次数,对局部密度因子和误差因子进行加权,得到样本特性向量;对样本特性向量降序排列,并对排序后的序列进行循环,若非相关向量次数超过设定的阈值,则从样本集中删除该样本,跳出循环;
S6、判断是否还有输入的新样本,若有新样本,则加入新样本,形成新的样本集,转到步骤S2;若没有新样本,则输出预测的未来样本。
得到样本特性向量的方法具体为:
步骤1、在增量过程中,用r(xi)来统计样本(xi,yi)的样本标签l(xi)=1的次数,当l(xi)=1时,r(xi)在原有的基础上加1,当l(xi)=0时,r(xi)保持不变;
步骤2、对局部密度因子pi和误差因子qi进行加权,得到具有样本信息的样本特性ki:
ki=ηpi+λqi
其中,η和λ分别代表初始化的局部密度因子pi和误差因子qi的权值。
对样本特性向量进行排序,并删除样本的方法具体为:
步骤1、对样本特性向量k={k1,k2,…,k|T|}进行降序排列,即k[1]≥k[2]≥…≥k[|T|];
步骤2、对降序排序后的k进行循环,判断r(xi)是否超过阈值l,若r(xi)≥l,则从训练样本集中删除样本(xi,yi),跳出循环。
加入新样本的方法具体为:加入新样本(xm+1,ym+1),令r(xm+1)=0,此时样本集T=T∪{(xm+1,ym+1)}。
在本发明的另一个具体实施例中,将基于样本特性的相关向量回归增量学习算法(SCBIRVR算法)应用到基于光纤光栅的高铁安全监测中,对高铁安全监测***得到的数据进行处理分析,能够较好地起到温度预测和安全预警的作用。
本高铁安全监测***所用设备包括:光纤光栅传感器、光纤光栅解调仪、采集工控机、本地服务器、本地客户端、交换机、工业路由器、远程服务器和远程客户端等。
光纤光栅传感器利用光纤光栅对外界因素的敏感程度,当外界因素变化时,光纤光栅传感器的波长会出现变化,通过对波长进行解调,可以得到光纤光栅测点对应的物理量,比如温度、位移、应力应变等。将光纤光栅传感器铺设在高铁铁轨上,利用光缆将传感器进行连接,所有传感器组建成传感网络,然后通过解调仪对光纤光栅传感器采集的数据进行处理,对解调仪上传的数据进行分析,得到铁路轨道的多参量状态的在线监测。
根据光纤光栅的高铁安全监测***,获取2016年2月在钢轨温度和大气温度的光纤光栅温度传感器采集的监测数据,如图3所示,图中的两条曲线分别表示一段上行钢轨温度T16和一段上行大气温度DQWD17在这一个月内温度变化的监测结果,其中变化明显的曲线代表一段上行钢轨温度T16温度监测点,变化不明显的曲线代表一段上行大气温度DQWD17温度监测点,通过这两条曲线的对比,可以看出钢轨温度和大气温度的监测是非常准确的,而且变化趋势是一样的,出现变化程度不同的原因是光纤光栅温度传感器的测点不同,钢轨温度测点在太阳照射或列车通过是会出现较大的温度变化,而大气温度测点是室外正常情况下温度的变化,温度变化一般不会很大。
使用在线监测***中光纤光栅温度传感器所采集到的温度传感数据,截取2016年1月1日零点到10日零点光纤光栅温度传感器一段上行钢轨温度GGWD16采集的数据,采用基于样本特性的相关向量回归增量学习(SCBIRVR)算法进行温度传感数据建模。
其中样本集大小为480,训练集为400,增量集为80,输入xi∈[1,480],输出yi为光纤光栅温度传感器采集的温度值。初始化参数αi为(N为现有样本数量),初始化σ为std(t)*10/100(std(t)为样本真实值的标准差),初始化局部密度因子权重η为0.8,初始化误差因子权重λ为0.2,初始化阈值l为10,初始化相关向量回归中核函数使用RBF高斯核函数仿真硬件环境为Intel(R)Core(TM)i3-2120 3.30GHz,2G内存,软件环境为Matlab R2009b。初始化样本集为训练集,先根据相关向量回归理论,对样本集进行迭代训练得到RVM预测模型,统计现有样本的非相关向量次数,计算样本特性向量,对样本特性向量进行降序排列并循环,如果对应样本的非相关向量次数超过设定的阈值则对该样本进行删除并跳出循环。依次加入增量集样本完成增量学习过程后,可以得到最终的温度传感数据RVM预测模型。
如图4所示,图中曲线为基于光纤光栅温度传感数据的SCBIRVR算法预测模型,即所有增量样本通过SCBIRVR算法完成增量学习之后得到的回归模型。由图可知,SCBIRVR算法能够很好地对光纤光栅温度传感样本集进行RVM回归建模,数据的拟合效果较好。
为了显示SCBIRVR良好的预测效果,分别使用批处理相关向量回归增量学习(IRVR)算法和基于固定宽度滑动窗口的相关向量回归增量学习(KIRVR)算法对数据处理后进行对比。
如图5所示,三条曲线分别代表IRVR、KIRVR和SCBIRVR算法中新增样本的预测值与真实值间的绝对误差。由于是从样本点401开始预测,所以X轴代表的是预测样本,样本包括样本点401-480;Y轴代表的是预测样本的真实温度和预测模型的预测温度之间的绝对误差。从图中可以看出,SCBIRVR算法对未来数据的预测值较IRVR和KIRVR算法对未来数据的预测值要好,这是因为SCBIRVR算法充分考虑了样本的相关向量特性、分布特性和异常特性,在删除样本时通过有效地淘汰策略删除偏差样本,使得回归预测模型更加趋向于正确的曲线。
综上所述,将基于样本特性的相关向量回归算法应用到高铁安全监测的数据处理过程中,通过增量学习能实现对温度传感数据良好的拟合和预测,能够对高速铁路安全起到良好的安全预警作用。
本发明的算法针对经典算法中存在的问题,提出了基于样本特性的相关向量回归增量学习算法,为了解决增量学习过程中相关向量丢失造成预测精度下降的问题,引入样本标签的概念,分析样本的相关向量特性,提出样本淘汰策略,统计样本的相关向量次数并设定阈值,不断增强相关向量的作用,降低算法时间复杂度的同时保证算法的预测精度;为了所保留的样本中含有更有效的信息,充分挖掘样本集中样本的分布信息和误差信息,分别提出了局部密度因子和误差因子并对其进行加权,得到样本特性向量,需要删除样本时,删除样本特性值最大的样本,从而保留含有有效信息的样本删除无效样本,使得算法具有更高的预测精度和更低的时间复杂度。综上所述,基于样本特性的相关向量回归增量学习算法,在增量学习过程中,对样本进行有选择地删除,并充分挖掘样本的分布信息和误差信息,能有效提高相关向量机建模精度和在线学习预测实时性与可靠性,可广泛应用于实时数据的处理和预测当中。
本发明实施例的基于样本特性的相关向量回归增量学习***,用于实现本发明实施例的基于样本特性的相关向量回归增量学习算法,包括:
样本集初始化单元,用于获取初始样本集,初始化参数;
预测模型训练单元,用于通过对样本集进行训练得到RVM预测模型,并对现有样本进行预测;
参数计算单元,用于计算每个样本的样本标签、局部密度因子和误差因子;
未来样本预测单元,用于根据RVM预测模型对即将输入的未来样本进行预测;
样本删除单元,用于统计样本的非相关向量次数,对局部密度因子和误差因子进行加权,得到样本特性向量;对样本特性向量降序排列,并对排序后的序列进行循环,若非相关向量次数超过设定的阈值,则从样本集中删除该样本,跳出循环;
样本更新单元,用于判断是否还有输入的新样本,若有新样本,则加入新样本,形成新的样本集,转到预测模型训练单元;若没有新样本,则输出预测的未来样本。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (6)
1.一种基于样本特性的相关向量回归增量学习方法,其特征在于,包括以下步骤:
S1、将光纤光栅传感器铺设在高铁铁轨上,利用光缆将传感器进行连接,组建基于光纤光栅的高铁安全监测***,获取高铁安全监测***得到的温度、位移、应力应变数据作为初始样本集,初始化参数;
S2、通过对样本集进行训练得到RVM预测模型;
S3、计算每个样本的样本标签、局部密度因子和误差因子;
S4、根据RVM预测模型对即将输入的未来样本进行预测;
S5、统计样本的非相关向量次数;用r(xi)来统计样本(xi,yi)的样本标签l(xi)=1的次数,当l(xi)=1时,r(xi)在原有的基础上加1,当l(xi)=0时,r(xi)保持不变;
对局部密度因子和误差因子进行加权,得到样本特性向量;对样本特性向量降序排列,并对排序后的序列进行循环,若非相关向量次数超过设定的阈值,则从样本集中删除该样本,跳出循环;
S6、判断是否还有输入的新样本,若有新样本,则加入新样本,形成新的样本集,转到步骤S2;若没有新样本,则输出预测的未来样本;根据得到的未来样本对高铁安全检测***中的铁轨温度、位移、应力应变进行安全预警;其中:
计算样本标签:对于每一个训练后的样本(xi,yi),引入样本(xi,yi)的样本标签l(xi),则有:
计算并更新每个样本的样本标签l(xi);
计算局部密度因子:将k近邻算法应用于相关向量回归算法中,通过KNN算法来选择样本的k邻近点,表示样本的局部密度信息;计算密度因子pi:
其中,代表样本空间中任意一点xi通过KNN算法到其k近邻点的距离,Meank为所有的均值,即:
通过计算每个样本点的局部密度因子来反应该样本点的分布信息,其中处于稠密区域的样本有着较大的局部密度因子,处于稀疏区域的样本的局部密度因子较小;
计算误差因子:
其中,ri 2表示样本点xi的真实值yi和回归模型预测值之间的平方残差,Mean表示所有样本平方残差的均值。
2.根据权利要求1所述的基于样本特性的相关向量回归增量学习方法,其特征在于,步骤S1的具体方法为:
首先初始化阈值用于后面作样本非相关向量次数是否超过阈值的比较;初始化局部密度因子权重和误差因子权重,用于后面对密度因子和误差因子进行加权计算样本特性向量。
3.根据权利要求1所述的基于样本特性的相关向量回归增量学习方法,其特征在于,步骤S2的方法具体为:
S21、根据相关向量回归理论,令样本训练集目标值tn相互独立分布,输入值xn是独立分布样本,则有:
tn=y(xn;w)+ξn
其中,ξn为附加噪声,且满足如下高斯分布:ξn~N(0,σ2);w是由wi组成的权重向量,即w=[w1,w2,...wN]T;初始样本集为T,样本(xi,yi)的样本标签为l(xi)、局部密度因子为pi,误差因子为qi;
RVM为每一个模型权重wi定义自动相关测定先验概率以控制模型复杂度,wi先验概率分布如下:p(wi|αi)=N(0,αi -1),则其中α=(α0,α1,...αN)是超参数所组成的向量;
假定超参α和噪声参数σ2服从Gamma先验分布:
p(αi)=Gamma(a,b)
p(σ2)=Gamma(c,d)
首先初始化超参数αi和σ2;
S22、分别计算Σ和μ:
Σ=(σ-2ΦTΦ+A)-1
μ=σ-2ΣΦTt
其中A=diag(α),Φ是由核函数组成的N×(N+1)的结构矩阵,具体如下:
S23、利用得到的μ和∑,重新计算和(σ2)new:
其中γi=1-αiΣii;
S24、如果满足算法终止条件则算法停止,否则转到S22继续迭代训练;
S25、删除模型权重wi趋向于零的样本,同时对RVM模型超参数进行更新;
S26、得到RVM预测模型:
设需要预测数据为X*,对应输出为t*,模型的预测输出为y*,对应的预测方差为σ2 *,则有:
其中:
y*=μTφ(x*)
S27、利用RVM预测模型对现有样本进行预测,得到预测值
4.根据权利要求1所述的基于样本特性的相关向量回归增量学习方法,其特征在于,步骤S5中进行加权计算的方法具体为:
对局部密度因子pi和误差因子qi进行加权,得到具有样本信息的样本特性ki:
ki=ηpi+λqi
其中,η和λ分别代表初始化的局部密度因子pi和误差因子qi的权值。
5.根据权利要求4所述的基于样本特性的相关向量回归增量学习方法,其特征在于,步骤S5中对样本特性向量进行排序,并删除样本的方法具体为:
步骤1、对样本特性向量k={k1,k2,…,k|T|}进行降序排列,即k[1]≥k[2]≥…≥k[|T|];
步骤2、对降序排序后的k进行循环,判断r(xi)是否超过阈值若则从训练样本集中删除样本(xi,yi),跳出循环。
6.根据权利要求1所述的基于样本特性的相关向量回归增量学习方法,其特征在于,步骤S6中加入新样本的方法具体为:加入新样本(xm+1,ym+1),令r(xm+1)=0,此时样本集T=T∪{(xm+1,ym+1)}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610605342.5A CN106250988B (zh) | 2016-07-28 | 2016-07-28 | 基于样本特性的相关向量回归增量学习算法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610605342.5A CN106250988B (zh) | 2016-07-28 | 2016-07-28 | 基于样本特性的相关向量回归增量学习算法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106250988A CN106250988A (zh) | 2016-12-21 |
CN106250988B true CN106250988B (zh) | 2018-09-11 |
Family
ID=57604915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610605342.5A Active CN106250988B (zh) | 2016-07-28 | 2016-07-28 | 基于样本特性的相关向量回归增量学习算法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106250988B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595228B (zh) | 2018-05-10 | 2021-03-12 | Oppo广东移动通信有限公司 | 应用程序预测模型建立方法、装置、存储介质及移动终端 |
CN108595227A (zh) | 2018-05-10 | 2018-09-28 | Oppo广东移动通信有限公司 | 应用程序预加载方法、装置、存储介质及移动终端 |
CN108710513B (zh) | 2018-05-15 | 2020-07-21 | Oppo广东移动通信有限公司 | 应用程序启动方法、装置、存储介质及终端 |
CN108829457B (zh) * | 2018-05-29 | 2020-09-29 | Oppo广东移动通信有限公司 | 应用程序预测模型更新方法、装置、存储介质及终端 |
CN108804157A (zh) | 2018-06-05 | 2018-11-13 | Oppo广东移动通信有限公司 | 应用程序预加载方法、装置、存储介质及终端 |
CN110060249B (zh) * | 2019-04-22 | 2023-05-02 | 淮海工学院 | 一种涂泥木线条表面小点状缺陷的检测方法 |
CN110197286B (zh) * | 2019-05-10 | 2021-03-16 | 武汉理工大学 | 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 |
CN110308483A (zh) * | 2019-05-23 | 2019-10-08 | 中国石油天然气股份有限公司 | 基于多任务贝叶斯压缩感知的反射系数求取方法及装置 |
CN110213741B (zh) * | 2019-05-23 | 2022-02-08 | 青岛智能产业技术研究院 | 一种基于宽度学习的车辆发送信息真伪性的实时检测方法 |
CN112884159B (zh) * | 2019-11-30 | 2024-06-18 | 华为技术有限公司 | 模型更新***、模型更新方法及相关设备 |
CN112114571B (zh) * | 2020-09-24 | 2021-11-30 | 中冶赛迪重庆信息技术有限公司 | 一种工业数据处理方法、***及设备 |
CN113297790B (zh) * | 2021-05-19 | 2022-05-10 | 哈尔滨工业大学 | 一种基于稀疏贝叶斯宽度学习的高铁轨道响应预测方法 |
CN116992296A (zh) * | 2023-09-27 | 2023-11-03 | 广东电网有限责任公司珠海供电局 | 电子敏感设备发生暂降的中断概率评估方法、装置和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001018667A2 (en) * | 1999-09-04 | 2001-03-15 | Microsoft Corporation | Relevance vector machine |
US6879944B1 (en) * | 2000-03-07 | 2005-04-12 | Microsoft Corporation | Variational relevance vector machine |
CN102521671A (zh) * | 2011-11-29 | 2012-06-27 | 华北电力大学 | 一种风电功率超短期预测方法 |
CN102968573A (zh) * | 2012-12-14 | 2013-03-13 | 哈尔滨工业大学 | 基于相关向量回归的在线预测锂离子电池剩余寿命的方法 |
-
2016
- 2016-07-28 CN CN201610605342.5A patent/CN106250988B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001018667A2 (en) * | 1999-09-04 | 2001-03-15 | Microsoft Corporation | Relevance vector machine |
US6879944B1 (en) * | 2000-03-07 | 2005-04-12 | Microsoft Corporation | Variational relevance vector machine |
CN102521671A (zh) * | 2011-11-29 | 2012-06-27 | 华北电力大学 | 一种风电功率超短期预测方法 |
CN102968573A (zh) * | 2012-12-14 | 2013-03-13 | 哈尔滨工业大学 | 基于相关向量回归的在线预测锂离子电池剩余寿命的方法 |
Non-Patent Citations (2)
Title |
---|
一种改进的相关向量回归方法;杨飚 等;《科学技术与工程》;20150131;第15卷(第2期);第241-244,249页 * |
基于预测值替代的相关向量回归稳健化方法;郭高 等;《软件》;20121231;第33卷(第6期);第1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106250988A (zh) | 2016-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106250988B (zh) | 基于样本特性的相关向量回归增量学习算法及*** | |
CN109816095B (zh) | 基于改进门控循环神经网络的网络流量预测方法 | |
CN113723010B (zh) | 一种基于lstm温度-位移相关模型的桥梁损伤预警方法 | |
Wang et al. | A hybrid optimization-based recurrent neural network for real-time data prediction | |
CN115841004B (zh) | 基于多维数据的带钢热轧过程力学性能软测量方法及装置 | |
CN110837888A (zh) | 一种基于双向循环神经网络的交通缺失数据补全方法 | |
CN112990435A (zh) | 一种长短时记忆网络电站风机故障预警方法及*** | |
Suryo et al. | Improved time series prediction using LSTM neural network for smart agriculture application | |
Li et al. | Robust and flexible strategy for missing data imputation in intelligent transportation system | |
CN115438897A (zh) | 一种基于blstm神经网络的工业过程产品质量预测方法 | |
Yangzhen et al. | A software reliability prediction model: Using improved long short term memory network | |
Tian et al. | Software reliability prediction using recurrent neural network with Bayesian regularization | |
CN111754033B (zh) | 一种基于循环神经网络的非平稳时序数据预测方法 | |
Song et al. | Real-time anomaly detection method for space imager streaming data based on HTM algorithm | |
CN115640918A (zh) | 电缆温度异常预测方法、装置、介质及设备 | |
CN112232557B (zh) | 基于长短期记忆网络的转辙机健康度短期预测方法 | |
CN111160455A (zh) | 一种支持向量预测的知识发现算法 | |
CN115310354A (zh) | 一种架空导线暂态载流量概率预测方法及*** | |
CN111160419B (zh) | 一种基于深度学习的电子式互感器数据分类预测方法及装置 | |
CN114741952A (zh) | 一种基于长短期记忆网络的短期负荷预测方法 | |
Sanyour et al. | A Light-Weight Real-Time Anomaly Detection Framework for Edge Computing | |
Tijskens et al. | Neural networks to predict the hygrothermal response of building components in a probabilistic framework | |
CN117131465B (zh) | 单管塔损伤识别方法、装置、电子设备及可读存储介质 | |
Rhoads | Anomaly Detection in Internet of Things (IoT) Time Series Data: A Comparative Study of Various Techniques | |
CN115222024B (zh) | 基于深度特征选择网络的短期光伏发电预测方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |