CN103106139A

CN103106139A - 基于相关向量回归估计的软件失效时间预测方法

Info

Publication number: CN103106139A
Application number: CN2013100130049A
Authority: CN
Inventors: 蒋云良; 楼俊钢; 沈张果; 范婧
Original assignee: Huzhou University
Current assignee: Huzhou University
Priority date: 2013-01-14
Filing date: 2013-01-14
Publication date: 2013-05-15
Anticipated expiration: 2033-01-14
Also published as: CN103106139B

Abstract

本发明公开了一种基于相关向量回归估计的软件失效时间预测方法，它对软件失效时刻与在它之前的m个失效时刻数据进行学习从而捕捉失效时刻之间的内在依赖关系,由此构建基于相关向量机软件可靠性预测方法。由于充分考虑了软件可靠性预测的小样本特性，采用核函数技术能克服观测变量多于观测样本数的情形以及变量之间存在的多重共线性，因此不会出现神经网络等建模方法所产生的模型“过拟合”情况。在新预测方法中，随着软件失效不断发生，模型参数将不断自动调整以适应失效过程的动态变化，从而实现软件可靠性的自适应预测，有效提高软件失效预测模型的适应能力。

Description

基于相关向量回归估计的软件失效时间预测方法

【技术领域】

本发明涉及软件可靠性测试以及评估过程中下一次或未来较长时间内软件失效时间数据预测方法。

【背景技术】

软件可靠性指在规定条件下，在规定时间内，软件不发生失效的概率。在解决可靠性预测问题是，传统解决方法反映了大样本统计学的哲学，容易出现过学习以及适用性差等问题。

统计学习理论是建立在一套较坚实的理论基础之上的，为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中，有望帮助解决许多原来难以解决的问题，如神经网络结构选择问题、局部极小点问题等。相关向量机（relevance vector machine，RVM）是Tipping于2001年所提出的一种稀疏贝叶斯学习模型，在很多方面取得了非常不错的应用，如物体的跟踪，3D姿态估计，3D模型恢复等，电力负荷预测，信道均衡预测等。

【发明内容】

本发明所要解决的技术问题是提供一种基于相关向量回归估计的软件失效时间预测方法，能实现软件可靠性的自适应预测。为此，本发明采用以下技术方案，它包含如下步骤：

（1）、首先观测并记录顺序软件失效数据集，并把所有的输入输出数据归一化；

（2）、通过合理抽象与假设，把软件失效时间预测问题转化为一个函数回归问题；

（3）、选择用于预测的核函数，并给定参数的初始化值；

（4）、选择用于学习的失效数据数目；

（5）、采用相关向量回归估计算法针对不同失效数据集进行学习优化；

（6）、最后选用优化后的参数对新的失效时间进行预测。

进一步地，步骤（2）所述的把软件失效时间预测问题转化为一个函数回归问题，采用如下方法：

假设已发生的软件失效时间为t₁,t₂,L,t_n，令t_l＝f(t_l-m,t_l-m+1，L,t_l-1)，则t_l服从固定但未知的条件分布函数F(t_l|t_l-m,t_l-m+1，L,t_l-1)，在t₁,t₂,L,t_k已知条件下对t_k+1进行预测变为：已知k-m个观测(T₁,t_m+1),(T₂,t_m+2),L,(T_k-m,t_k)和第k-m+1个输入T_k-m+1的情况下，估计第k-m+1个输出值

其中，T_i表示m维向量[t_i,t_i+1，L,t_m-i]；

步骤（3）中用到的核函数为高斯核函数，

其参数初始值g＝1。

步骤（4）中的失效数据数目为5-8之间的整数。

进一步地，步骤（5）所述的采用相关向量回归估计算法针对不同失效数据集进行学习优化，包括如下过程：

（5.1）、给定一群向量

与对应的目标值

作为输入，假设x与t的对应关系符合以下的函数：

p(t_i)＝N(t_i|y(x_i;w),σ²)

（5.2）、令t的概率分布为：

p (t | w, σ^{2}) = Π_{i = 1}^{n} N (t_{i} | y (x_{i}; w), σ^{2}) = {({2 πσ}^{2})}^{- \frac{N}{2}} \exp (- \frac{{| | t - Φw | |}^{2}}{2 σ^{2}})

式中，Φ＝[φ(x₁),φ(x₂),Lφ(x_N)]^T，φ(x_n)＝[1,k(x_n,x₁),k(x_n,x₂),L,k(x_n,x_N)]^T；

w＝[w₀,w₁,Lw_N]^T，

（5.3）、对每个权值ω_i定义先验概率分布：

式中，α_i是决定w_i先验分布的超参数，

α＝(α₁,α_i,Lα_N)。

（5.4）、计算未知量的后验分布：

p (w, α, σ^{2} | t) = \frac{p (t | w, α, σ^{2}) p (w, α, σ^{2})}{p (t)}

（5.5）、积分后化简得到：

p (w | t, α, σ^{2}) = {(2 π)}^{- \frac{N + 1}{2}} {| Σ |}^{- \frac{1}{2}} \exp {- \frac{{(w - μ)}^{T} Σ^{- 1} (w - μ)}{2}},

p (t | α, σ^{2}) = {(2 π)}^{- \frac{N}{2}} {| Ω |}^{- \frac{1}{2}} \exp {- \frac{t^{T} Ω^{- 1} t}{2}}

μ＝σ^-2∑Φ^Tt，∑＝(A+σ^-2Φ^TΦ)^-1，A＝diag(α₀,α₁,Lα_N)，Ω＝σ²I+ΦA^-1Φ^T，

（5.6）、计算p(t_*|t)的近似解：

p (α_{MP}, σ_{MP}^{2}) = \arg \max_{α, σ^{2}} p (α, σ^{2} | t),

p (t_{*} | t) \approx &Integral; p (t_{*} | w, α_{MP}, σ_{MP}^{2}) p (w, α_{MP}, σ_{MP}^{2} | t) dw

（5.7）、使用下式迭代求解α_MP,

α_{i}^{new} = \frac{γ_{i}}{μ_{i}^{2}},

{(σ^{2})}^{new} = \frac{{| | t - Φμ | |}^{2}}{N - Σ_{i = 0}^{N} γ_{i}},

γ_i＝1-α_i∑_ii。

由于采用本发明的技术方案，本发明使用RVM对软件失效时刻与在它之前的m个失效时刻数据进行学习从而捕捉失效时刻之间的内在依赖关系，由此构建基于相关向量机软件可靠性预测方法。通过核函数技术的应用，把软件可靠性预测问题转化为一个回归估计问题，并应用相关向量回归估计算法来解决这一问题。在新预测方法中，随着软件失效不断发生，模型参数将不断自动调整以适应失效过程的动态变化，从而实现软件可靠性的自适应预测。

【附图说明】

图1为本发明软件失效时间预测方法的流程图，即基于相关向量回归估计算法的软件可靠性预测流程图。

【具体实施方式】

1)数据归一化

在使用回归估计算法进行学习预测时，首先需要把所有的输入输出数据归一化到区间[0.1,0.9]，具体转化式子为：

其中，y是归一化后的值，x是实际值，x_max是数据集中的最大值，x_min是最小值，Δ＝x_max-x_min，预测结束后，采用以下映射把数据映射回到实际值：

2)问题转化

假设已发生的软件失效时间为t₁,t₂,L,t_n，令t_l＝f(t_l-m,t_l-m+1，L,t_l-1)，则t_l服从固定但未知的条件分布函数F(t_l|t_l-m,t_l-m+1,L,t_l-1)，使用RVM对软件失效时刻数据进行学习，可以捕捉失效时间内在的依赖关系。RVM的输入为m维向量[t_l-m，t_l-m+1，L,t_l-1]，输出为t_l，则RVM总的输入序列为t₁,t₂,L,t_n,L；

输出序列为：t_m+1,t_m+2,L,t_n,t_n+1,L。

若用于RVM进行学习的失效时刻序列为t₁,t₂,L,t_k(k>m)，则在t₁,t₂,L,t_k已知条件下对t_k+1进行预测变为：已知k-m个观测(T₁,t_m+1),(T₂,t_m+2),L,(T_k-m,t_k)和第k-m+1个输入T_k-m+1的情况下，估计第k-m+1个输出值

其中，T_i表示m维向量[t_i，t_i+1,L,t_m+i]。把

作为输入，则可以预测同理可以得到

预测值的均值函数由下式给出：

t_{k + 1}^{^} = Σ_{i = 1}^{m} w_{i} K (T_{i + 1}, T_{i}) + w_{0}

概率预测分布函数为：

p (t_{k + 1} | T) \approx N (t_{k + 1} | y_{k + 1}, σ_{k + 1}^{2})

3)选择用于预测的核函数，并给定参数的初始化值

4)确定核函数参数的值

核函数参数选择问题，其实质就是一个优化问题，采用网格搜索法进行核函数参数选择，比如在用SVM预测时，采用高斯核函数，需要确定两个参数即惩罚因子C与核函数参数g，基于网格法将C∈[C₁,C₂]，变化步长为C_s，而g∈[g₁,g₂]，变化步长为g_t，针对每对参数(C,g)进行训练，选取效果最好的一对参数作为模型参数

5)相关向量机回归估计算法

用RVM解决回归问题可以描述为：给定一群向量

与对应的目标值作为输入，想要找出x_i与t_i之间的对应关系，使得在遇到一个新的向量x_*时，能够预测出它所对应的目标值t_*，t_i是任意实数。x与t的对应关系符合以下的函数：

p(t_i)＝N(t_i|y(x_i;w),σ²)

可以合理地假设

是彼此独立的随机变数，

在已知

与σ²条件下，t的概率分布为

p (t | w, σ^{2}) = Π_{i = 1}^{n} N (t_{i} | y (x_{i}; w), σ^{2}) = {(2 π σ^{2})}^{- \frac{N}{2}} \exp (- \frac{{| | t - Φw | |}^{2}}{2 σ^{2}})

w＝[w₀,w₁,Lw_N]^T，对每个权值ω_i定义先验概率分布：

p (w | α) = Π_{i = 0}^{N} \frac{α_{i}}{\sqrt{2 π}} \exp (- \frac{α_{i} w_{i}^{2}}{2})

式中，α_i是决定w_i先验分布的超参数，α＝(α₁,α_i,Lα_N)。

根据权值的先验分布和样本集似然函数，未知量的后验分布可由贝叶斯公式计算得到：

p (w, α, σ^{2} | t) = \frac{p (t | w, α, σ^{2}) p (w, α, σ^{2})}{p (t)}

因此，给定一个新的向量x_*时，t_*的概率分布预测为：

p(t_*|t)＝∫p(t_*|w,α,σ²)p(w,α,σ²|t)dwdαdσ²，

p(w,α,σ²|t)＝p(w|t,α,σ²)p(α,σ²|t)

从而，有

p (w | t, α, σ^{2}) = \frac{p (w, α, σ^{2} | t)}{p (α, σ^{2} | t)} = \frac{p (t | w, σ^{2}) p (w | α)}{p (t | α, σ^{2})} = \frac{p (t | w, σ^{2}) p (w | α)}{&Integral; p (t | w, σ^{2}) p (w | α) dw}

上式中的p(t|w,σ²)与p(w|α)都是高斯函数的乘积，积分后化简得到：

p (w | t, α, σ^{2}) = {(2 π)}^{- \frac{N + 1}{2}} {| Σ |}^{- \frac{1}{2}} \exp {- \frac{{(w - μ)}^{T} Σ^{- 1} (w - μ)}{2}},

p (t | α, σ^{2}) = {(2 π)}^{- \frac{N}{2}} {| Ω |}^{- \frac{1}{2}} \exp {- \frac{t^{T} Ω^{- 1} t}{2}}

其中，μ＝σ^-2∑Φ^Tt，∑＝(A+σ^-2Φ^TΦ)^-1，A＝diag(α₀,α₁,Lα_N)，Ω＝σ²I+ΦA^-1Φ^T，从而可以找到p(t_*|t)的近似解：

p (α_{MP}, σ_{MP}^{2}) = \arg \max_{α, σ^{2}} p (α, σ^{2} | t),

p (t_{*} | t) \approx &Integral; p (t_{*} | w, α_{MP}, σ_{MP}^{2}) p (w, α_{MP}, σ_{MP}^{2} | t) dw

积分式中的两项皆为高斯函数的乘积。这样，定积分后结果为：

p (t_{*} | t) \approx N (t_{*} | y_{*}, σ_{*}^{2}),

y_*＝μ^Tφ(x_*),

σ_{*}^{2} = σ_{MP}^{2} + φ {(x_{*})}^{T} Σφ (x_{*}),

φ(x_*)＝[1,k(x_*,x₁),k(x_*,x₂),L,k(x_*,x_N)]^T

最后，剩下的问题是求解α_MP,

σ_{MP}^{2} : α_{i}^{new} = \frac{γ_{i}}{μ_{i}^{2}},

{(σ^{2})}^{new} = \frac{{| | t - Φμ | |}^{2}}{N - Σ_{i = 0}^{N} γ_{i}},

γ_i＝1-α_i∑_ii，其中∑_ii是∑中第i项在对角线上的元素，先给出α,σ²的猜测值，然后由上式不断更新，就能逼近α_MP,

为了对所建立的模型提供合理的比较与分析，采用10个来自不同类型软件的真实失效数据集对所提出的模型进行了实验分析，如表2所示。这些数据集描述了各个软件***的失效过程，每个数据点包含两种观测统计集合：累计执行时间和累计失效次数。在实验中，训练集包括从测试开始后完整的***失效过程，为了让核函数进行充分的学习，在实验过程中，取所有数据集的前三分之一作为学习数据，对后面三分之二数据进行预测后与真实数据进行比较。

表中列出了在十个数据集上各个模型的AE值，其中模型1-6分别代表SRGM With Logistic TEF、SRGM With Rayleigh TEF、Delayed S-Shaped Model With Logistic TEF、Delayed S-Shaped Model With Rayleigh TEF，G-O model、Yamada Delayed S-Shaped；模型7代表本发明采用的方法，a、b、c、d代表采用的核函数分别为Gaussian Function、Linear Function、Polynomial Function、Symmetric Triangle Function。

表1：10个数据集上各个模型预测的AE值

结论：在不同数据集上，采用不同的核函数以及采用不同的回归估计方法时，模型预测性能均有差异，采用基于相关向量回归估计算法的软件可靠性预测模型能有效提高模型的预测性能和适用性。

Claims

1.基于相关向量回归估计的软件失效时间预测方法，其特征是，它包含如下步骤：

（3）、选择用于预测的核函数，并给定参数的初始化值；

（4）、选择用于学习的失效数据数目；

（6）、最后选用优化后的参数对新的失效时间进行预测。

2.如权利要求1所述的基于相关向量回归估计的软件失效时间预测方法，其特征是，步骤（2）所述的把软件失效时间预测问题转化为一个函数回归问题，采用如下方法：

假设已发生的软件失效时间为t₁,t₂,L,t_n，令t_l＝f(t_l-m,t_l-m+1，L,t_1-1)，则t_l服从固定但未知的条件分布函数F(t_l|t_l-m,t_l-m+1,L,t_l-1)，在t₁,t₂,L,t_k已知条件下对t_k+1进行预测变为：已知k-m个观测(T₁t_m+1),(T₂,t_m+2),L,(T_k-m，t_k)和第k-m+1个输入T_k-m+1的情况下，估计第k-m+1个输出值