CN102025531B - 一种性能数据的填补方法及其装置 - Google Patents
一种性能数据的填补方法及其装置 Download PDFInfo
- Publication number
- CN102025531B CN102025531B CN201010256368.6A CN201010256368A CN102025531B CN 102025531 B CN102025531 B CN 102025531B CN 201010256368 A CN201010256368 A CN 201010256368A CN 102025531 B CN102025531 B CN 102025531B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- field
- performance data
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种性能数据的填补方法及其装置,所述方法包括:获取历史性能数据记录序列;依据历史性能数据记录序列探测具有特定关系的不同数据项之间的内部关联性;为具有内部关联性的所述关联数据项建立相互之间拟合的回归模型;若性能数据记录中有数据项缺失,则根据已知的关联数据项的值,使用对应的回归模型,计算缺失数据项的估计值,将所述估计值填补到缺失的性能数据记录中。本发明首次将基于数理统计和数据挖掘技术的建模方法应用于网管***中的性能数据填补,可实现填补方法的科学化、智能化和自动化,不仅有效保证了数据填补的准确率,而且大大提高了批量缺失数据的填补效率。
Description
技术领域
本发明涉及网络管理领域,尤其涉及一种性能数据的填补方法及其装置。
背景技术
在网管***中,网元原始数据在采集过程中的缺失是普遍存在的问题,从而会增加面向应用的统计、分析任务的复杂性,造成统计结果的偏倚,降低数据统计、分析的准确性。在网络管理***的性能管理中,从网元或EMS或OMC采集来的原始性能数据是很多用户应用管理功能实现的基础。而因为网络传输、甚至是所采集OMC或网元数据源本身的原因,所采集的性能数据往往会遗漏和缺失,尤其是在性能数据完整性存在差异的情况下,运用常规统计方法对不完整数据集所做出的统计分析结果,是不能代替对完整数据集统计时所做出的结果的。性能数据的不准确会导致数据分析、统计结果的不准确,给网管性能数据有关的一系列统计工作带来很大的问题,为了保证网管性能数据采集的完整性和准确性,为相关分析工作提供精准的数据基础,需要对缺失的网管性能数据进行填补。
目前处理网管***中填补缺失性能数据的方法一般是采用数据补报和手工填补的方法,这两种方法缺陷都比较大。数据补报是将数据重新采集一次,且由于采用同样的数据采集机制,因此还会产生不可避免的数据缺失,在时效性和准确性上不能达到较好的效果,效率也很低。特别是当数据由于某种原因难以再现时,补采数据已经无法进行。手工填补数据需要花费大量的人力、大量的时间进行数据核查和数据填补,不仅效率低下,而且会由于人为失误而造成偏差。
因此当前需要提供一种对网管***性能数据进行填补的技术方案,解决当前性能数据需要及时准确填补的需求,克服过去无法填补或者填补方法存在准确性差、效率低下的问题。
发明内容
本发明所要解决的技术问题是提供一种性能数据的填补方法,解决当前无法填补数据的困境以及过去的性能数据填补方法中存在准确性差、效率低下的问题。本发明还提供了一种性能数据的填补装置,以保证上述方法在实际中的应用。
为了解决上述问题,本发明提供了一种性能数据的填补方法,用于对网管***采集的网元性能数据缺失部分进行填补,包括:获取所述网元的历史性能数据记录序列;依据所述历史性能数据记录序列探测具有特定关系的不同数据项之间的内部关联性;所述具有特定关系的不同数据项,具体是指:属于同一记录的不同字段的数据项,或者属于不同记录的相同字段的数据项;具有内部关联性的数据项互相称为对方的关联数据项;为具有内部关联性的所述关联数据项建立相互之间拟合的回归模型;若所述网元性能数据的记录中有数据项缺失,则根据已知的关联数据项的值,使用对应的回归模型,计算缺失数据项的估计值,将所述估计值填补到缺失的性能数据记录中。
依据本发明另一优选实施例,还提供了一种性能数据的填补装置,用于对网管***采集的网元性能数据缺失部分进行填补,包括:历史数据获取单元,用于获取上述网元的历史性能数据记录序列;回归模型建立单元,用于依据所述历史数据获取单元获取的历史性能数据记录序列,探测具有特定关系的不同数据项之间的内部关联性,为具有内部关联性的关联数据项建立相互之间拟合的回归模型;所述具有特定关系的不同数据项,具体是指:属于同一记录的不同字段的数据项,或者属于不同记录的相同字段的数据项;具有内部关联性的数据项互相称为对方的关联数据项;数据填补单元,用于根据所述网元性能数据的数据项缺失的情况和已知的缺失数据项的关联数据项的值,使用回归模型建立单元建立的相关回归模型,计算该缺失数据项的估计值,将所述估计值填补到缺失的性能数据记录中。
与现有技术相比,本发明优选实施例解决了当前无法填补数据的困境以及过去的数据填补方法存在准确性差、效率低下的问题。本发明采用对历史上某段时间的性能数据进行探测分析,探测具有特定关系的不同数据项之间的内部关联性,并为具有内部关联性的所述关联数据项建立相互之间拟合的回归模型,为同一记录的不同字段数据项之间建立拟合的字段关联回归模型,为不同记录的相同字段数据项之间建立拟合的自回归模型;若性能数据记录中有数据项缺失,则根据已知的关联数据项的值,使用对应的回归模型,计算缺失数据项的估计值,将所述估计值填补到性能数据记录中。本发明首次将基于数理统计和数据挖掘技术的建模方法应用于网管***中的性能数据填补,因此本发明实现了填补方法的科学化、智能化和自动化,不仅有效保证了数据填补的准确率,而且大大提高了批量缺失数据的填补效率。
附图说明
图1是本发明性能数据的填补方法实施例一的流程图;
图2-a至图2-c是1700~1979年平均太阳黑子数自相关函数图;
图3至图5是本发明性能数据的填补方法实例三中对历史数据序列进行周期性探测采用的自相关函数示意图;
图6是本发明性能数据的填补方法实例三中ARMA模型对应的AIC值的示意图;
图7是本发明性能数据填补装置一实施例的结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明。
在网管***中,采集上来的性能数据包括多条数据记录,每一条数据记录由多个性能指标字段组成,网管***逐条将这些若干条数据记录存储到数据库的二维数据表中,每一行存储一条数据记录。因此性能数据的遗漏主要表现为两种情况:一种情况是表中一行性能数据中某个或某些指标字段的遗漏,在本文中称为数据字段缺失;另一种情况是数据库表中的整行性能数据即一条数据记录的遗漏,在本文中称为整条数据记录缺失。只要数据库表中的一行性能数据中还存在一个已知的性能指标值,就属于性能数据字段缺失的情况。
本发明把这些性能数据看作是一些随机变量,一般都有内在的规律可循,不同行业、不同用途的数据会表现出不同的内在规律。本发明通过应用数理统计和回归分析理论,探测分析已知性能数据内部之间的关联性和性能数据的变化趋势,进而提出了缺失性能数据情况下的新的填补方法。
在性能数据缺失的情况下,为了及时进行缺失值的填补,本发明提出的性能数据填补方法为:
取历史性能数据记录序列;
依据上述历史性能数据记录序列探测具有特定关系的不同数据项之间的内部关联性;所述具有特定关系的不同数据项具体是指:属于同一记录的不同字段的数据项,或者属于不同记录的相同字段的数据项;具有内部关联性的数据项互相称为对方的关联数据项。
为具有内部关联性的所述关联数据项建立相互之间拟合的回归模型;可以建立两种回归模型,一种是根据同一条数据记录的不同字段之间的内部关联性,建立拟合的字段关联回归模型;一种是根据不同数据记录的同一字段之间的变化趋势,建立拟合的自回归模型。
若性能数据记录中有数据项缺失,则根据已知的该缺失数据项的关联数据项的值,使用对应的回归模型,计算该缺失数据项的估计值,将所述估计值填补到缺失的性能数据记录中。
利用上述建立的两种模型,都可以进行缺失数据项的估计。
为了高效地填补数据,需要首先了解性能数据记录中缺失的数据项字段的位置。在整个时间序列中所缺失的数据记录序号,缺失的字段名称,缺失字段数据项是否与其它字段数据项相关联。如果在同一数据记录中存在与一个字段相关联的另一字段即为关联数据项,则按照所述的字段关联回归模型,根据已知的字段值计算在缺失性能数据记录序号的缺失字段的估计值,将所述估计值作为该缺失数据字段的填补值。一般利用字段之间的关联关系估计缺失的字段值是简洁而高效的。如果在同一数据记录中不存在关联数据项,则可根据历史时间序列上的性能数据记录寻找关联数据项,建立历史时间序列的自回归模型,在建立的自回归模型中观察缺失性能数据记录序号的缺失字段数据项,按照所述的自回归模型,根据已知的关联字段值计算在缺失性能数据序号的缺失字段的估计值,将所述估计值作为该缺失数据字段的填补值。
在本发明的优选实施例中,优先采用字段关联回归模型填补缺失字段的值;当缺失字段与已知字段不存在关联关系或整条记录缺失时,再采用自回归模型填补缺失字段的值。
所述根据历史样本数据建立拟合模型的方法多种多样,这在现有技术中有很多实例可以支持。本发明则首次将基于数理统计和数据挖掘技术的建模方法应用于网管***中的性能数据填补,大大提高了填补的准确性和效率。
为了有效地解决缺失数据字段的填补,先探测性能指标字段值之间的内在关联性,当性能指标字段之间相关性有较高强度时,用回归方法可得到对性能指标的字段回归函数模型。因此,在某时间点上的性能数据记录中性能指标字段缺失的情况下,通过对在该时间点近期的某段时间的若干条性能数据记录进行相关性分析,可得到相应的字段回归函数模型,根据该时间点上的性能数据记录中的已知性能指标字段值,代入所述字段回归模型,计算获得缺失的性能指标字段值,填补写入性能数据库表中。对于较为简单的字段回归函数模型,例如一元线性函数,应用此方法计算可以实现快捷高效的填补。
上述字段关联分析方法可以参照数据挖掘分析方法,根据数据的特征来确定,不同行业的数据有着不同的特点,可以用相关系数、支持度等参数来检验相关强度或者确定关联规则,通过大量数据的模拟计算,从而找出适合的回归函数模型,这种体现字段之间的关联性的模型就称为字段回归函数模型。以下实施例二中将具体介绍一种探测字段关联性并建立模型的方法,可找到一种字段回归函数模型。
所述性能数据库表中若存在某时间点上的整条性能数据记录缺失的情况,本发明根据在该时间点较近期的历史时间序列上的若干条性能数据记录,运用基于时间序列的建模和预测方法,找出性能数据记录的变化趋势和适应时间序列的自回归模型,运用自回归模型对其中关键性能数据字段进行预测,可得到该字段数据项的预测值,填补写入性能数据库表中。
以下实施例三中将具体介绍一种探测时间序列性能数据自回归并建立模型的方法,可找到一种自回归模型。
根据上述字段回归模型和/或时间序列自回归模型,可对所有性能数据字段进行预测并得到所有字段的预测值。特别是,当字段之间关系比较独立,没有相应拟合的字段回归模型,则需要应用此方法逐一填补缺失的独立字段。
如果同一条数据记录的各字段之间具有相关性,为了提高预测效率,根据上述的相关性分析,能够找到对应拟合的回归模型,则可根据预测出来的关键性能数据字段值和其他性能数据字段值间的字段回归函数模型,进行其他字段缺失值的填补。
为了更好地应用本方法,本发明又引入了数据缺失情况的探测方法,包括探测数据字段缺失和探测整条数据记录缺失。然后根据数据缺失的情况,灵活地运用性能数据的填补方法。
判断数据缺失的探测方法是,逐一读取每条数据记录的每个字段,判别字段内容是否为空(NULL),如果为空,则判断该字段缺失,记录该缺失字段的名称和所在的数据记录序号。如果整条数据记录的所有字段都缺失,则判断该条数据记录缺失,并记录缺失的数据记录序号。
当判断为字段缺失,且有相应拟合的字段回归函数模型时,就可以按照字段回归模型填补缺失的字段。当判断为整条记录缺失,有相应拟合的自回归模型,则按照自回归模型填补缺失的字段。循环所述过程,可填补所有缺失字段。
如图1所示,本发明给出网管***性能数据的填补方法实施例一,包括以下步骤:
步骤110、获取历史性能数据记录序列;
例如取在缺失性能数据的时间点较近期的某段时间(如之前的一个月,或之前两个月)的历史性能数据记录序列。
现有网管***中都有数据采集***,完成采集某段时间的性能数据序列,按行将每一条性能数据记录存入性能数据库的二维数据表中,每一行存储一条数据记录,每一条数据记录由多个性能指标字段组成。表中每一列则对应一个性能指标字段。
本步骤从性能数据库表读取性能数据记录和每一个字段数据。
步骤120、依据上述历史性能数据记录序列,探测同一数据记录不同字段数据项之间的内部关联性,建立拟合的字段关联回归模型,并将相互关联的字段名称和模型的参数数据保存;
步骤130:依据上述历史性能数据记录序列,探测不同数据记录的相同字段之间性能数据的变化趋势,建立拟合的自回归模型,并将该字段名称和模型的参数数据保存;
步骤140:在性能数据记录序列中查找缺失的数据字段并确定所在位置;
确定缺失的数据字段所在的数据记录的序号,缺失字段的名称。
步骤150:判断缺失字段是否为部分字段缺失,并且是否与已知字段存在关联性?若是,则转步骤160;否则,转步骤170;
如果缺失字段与已知字段能够建立字段关联回归模型,可以判断缺失字段与已知字段存在关联。
步骤160:根据字段关联回归模型,用已知的关联字段值计算缺失字段的预测值,填补到缺失数据记录的缺失字段中;
读出缺失性能数据字段与已知性能数据字段的字段关联回归模型的模型参数数据,根据缺失数据记录的序号得知已知的字段数据项值,代入字段关联回归模型,计算该缺失数据记录中的缺失字段的估计值,将所述估计值作为该缺失数据字段的填补值。
步骤170:根据自回归模型,用历史数据序列中的某个数据记录的已知字段值计算缺失数据记录的缺失字段的估计值,填补到缺失数据记录中;
所述已知数据记录和缺失数据记录,具有同样的数据结构,即有同样的数据字段个数和同样的字段名称,在数据记录的序列中,不同记录的同一个字段就是相关联的字段。
读出缺失数据字段的自回归模型的参数数据,以及某个历史数据记录的该字段值,代入自回归模型,计算该缺失数据记录中的缺失字段的估计值,将所述估计值作为该缺失数据字段的填补值。
步骤180:是否还有未填补过的缺失数据字段?若有,则转步骤150;否则,结束数据填补流程。
其中,步骤120中,依据历史性能数据记录序列,探测不同字段之间性能数据的内部关联性,建立拟合的字段关联回归模型的方法具体为:
首先,取过去某段时间的数据,即从所述性能数据库表中取连续若干条数据记录进行缺失字段与已知字段的相关性分析,并创建对应的字段间的回归模型,并将创建的字段回归模型及其参数存入数据库表中。
比如:根据缺失数据时间点附近一个月以小时为粒度的网管性能数据进行相关性分析。与某网元相关的性能指标数据中,在业务上往往存在一定的关联。比如交换机数据记录中的三个性能指标字段:交换机试呼次数(call_att)、交换机接通次数(call_setup)、***试呼次数(sys_call_att)。
交换机试呼次数:统计时间段内交换机发出“call proceeding”消息和收到“IAM或IAI”消息的总次数。
***试呼次数:统计时间段内“CM service request”和入局的“IAM、IAI”消息次数。
交换机接通次数:统计时间段内交换机收到“call confirmed”消息和“ACM”消息的总次数。
从上述3个性能指标数据的含义来看,交换机接通次数与交换机试呼次数有很强的关联,而***试呼次数应该比交换机试呼的次数多,但差别不大。
以上分析只是一个定性分析。本发明将相关性分析方法和技术引入到性能数据字段间的分析,即引入相关系数。相关系数是两个变量之间相关程度的指标。相关系数的取值范围为[-1,1]。相关系数的绝对值越大,误差Q越小,变量之间的线性相关程度越高;相关系数的绝对值越接近0,Q越大,变量之间的线性相关程度越低。相关系数ρxy定义如下:
其中:
Cov(X,Y)为随机变量X和Y的协方差,在这里即字段X和Y的协方差;
E(X)为随机变量X的数学期望,一般从有限样本得到X的数学期望的估计值:
E(Y)为随机变量Y的数学期望,一般从有限样本得到Y的数学期望的估计值:
而DX则为随机变量X的标准差,一般从有限样本得到X的方差的估计值:
而DY则为随机变量Y的标准差,一般从有限样本得到Y的方差的估计值:
对于随机变量来说,如果相关系数绝对值接近于1,则认为这两个变量间存在一个回归函数,且线性回归模型就能获得较好的逼近(approximation)效果。一元线性回归方法如下:
设有两个变量X、Y,且存在包含n组样本点的样本{(X1,Y1),(X2,Y2),…,(Xn,Yn)},所求的一元线性回归函数为:
Y=a+bX+ε,ε~N(0,σ2) (4)
利用上面的样本,采用最小二乘法或最大似然估计法,可得到上式中参数a、b的估计值如下:
对于在业务意义上有直接或间接关系的性能指标字段,利用上述公式(1)中的相关系数,对性能数据进行相关性探测,然后对于相关系数的绝对值在0.9~1之间(即绝对值接近1)的指标,则认为它们之间存在公式(4)中所示的线性函数关系,利用最小二乘法或最大似然估计法计算线性函数中的参数值,即利用公式(5)、公式(6)计算线性函数中的a、b值,确定线性函数关系,将该线性函数关系的a、b参数值作为配置数据存储在字段回归模型数据库表中,即将性能数据字段的相关性模型及其参数存入字段回归模型数据库表中。
确定两个性能指标字段间的函数关系后,即完成了这两个性能指标字段模型的创建,当存在多个性能指标数据时,需要分别分析这些性能指标数据间的相关性,即分别计算性能指标数据间的相关系数,分别确定性能指标数据间的函数关系,进而分别确定字段回归模型,将这些字段回归模型模型及其参数存在数据库表中,作为该性能数据缺失填补时的基准配置数据。
在研究大量网络管理***中采集到的性能数据的基础上,可知不同的性能数据间存在较强的相关性。其字段回归函数模型多呈现一元线性函数,因此用一元线性函数模型估计的缺失值要简单快捷得多。
其中,步骤130中,依据历史性能数据记录序列,探测不同数据记录的相同字段之间性能数据的变化趋势,建立拟合的自回归模型的方法具体为:
对所取性能数据序列通过时间序列模型方式进行同一字段的自相关分析,建立时间序列自回归模型;即,对于时间序列上的性能数据记录,如果变化趋势呈现平稳的线性特征,则建立线性平稳数学模型ARMA模型;如果变化趋势呈现非平稳特征但存在单调上升或下降的非平稳性,则差分后可以实现平稳化,则建立ARIMA模型;如果变化趋势呈现平稳的线性特征并呈现非常明显的周期性特征,则建立SARIMA模型;如果变化趋势呈现很强的非线性非平稳特征,则建立非线性非平稳的数学模型,可以是神经网络(Nueral Networks)或支持向量机(Support Vector Machines)模型或其他的适合非线性非平稳的数学模型。
对于探测数据序列的变化趋势的方法,可以采用自相关函数分析、谱密度等分析等方法来确定。
自相关函数的定义如下:
②rk=Ck/C0被称为样本自相关函数(ACF-AutoCorrelation Function)。
根据该定义,有0阶自相关系数值r0=1。以rk为纵坐标,k为横坐标的图形称为自相关图。利用自相关图,可以查看一个时间序列数据的k阶自相关性。根据自相关性,可以判断时间序列数据的变化趋势。
一般,如果对数据序列分别进行1次、2次差分后,在滞后阶大于20后不存在显著非零的自相关系数,则呈现出平稳时间序列特征,应用ARIMA模型或SARIMA模型进行建模。
又比如,取典型的非线性非平稳时间序列——年平均太阳黑子数为例,取1700年到1979年的年太阳黑子数组成一个时间序列,如图2-a所示,则可得到其从1到40阶的自相关图,在前40阶的大部分滞后阶处自相关系数都显著非零,故该序列是非平稳的。
如果对其分别进行1次、2次差分后,参见图2-b年均太阳黑子一次差分后的自相关函数图和图2-c年均太黑子二次差分后的自相关函数图,在滞后阶大于20时仍然存在显著非零的自相关系数,且没有周期性特征,无法实现平稳化,则表示该序列是非线性非平稳的,这种时间序列就需要采用支持向量机或神经网络进行建模。否则,如果对数据序列分别进行1次、2次差分后,呈现出平稳特征,则应用ARIMA模型建模,或者有周期性特征,应用SARIMA模型建模。
时间序列分析与预测是数据挖掘技术中的几大研究方向之一,在时间序列的分析中,主要应用的方法包括:着眼于指标值与时间t间回归关系的分析,包括一元线性回归,指数回归,对数回归等;着眼于不同时刻字段指标值间的回归关系的动力学***回归,主要包括指数平滑法、神经网络、支持向量机、ARMA模型和Kalman滤波等。根据性能数据的特点不同,相应地表现出的数据变化趋势也不同。对于变化趋势呈现趋势平稳的性能数据,对应采用线性平稳数学模型ARMA模型,对于变化趋势呈现非平稳特征但存在单调上升或下降的非平稳性,则通过差分后可以实现平稳化,则采用ARIMA模型,对于有非常明显的周期性的性能数据,又可以进一步采用SARIMA模型,对于变化趋势呈现很强的非线性非平稳特征,则采用非线性非平稳的数学模型,例如神经网络(Nueral Networks)或支持向量机(Support Vector Machines)模型或其他的适合非线性非平稳的数学模型。
建立ARMA模型的过程可以具体为:
步骤130a1、利用阶数判优准则确定ARMA模型的阶数,进行定阶,得到模型簇;
例如利用AIC定阶方法、BIC定阶方法,F检验法进行ARMA模型辨识。
步骤130a2、估计和确定所述模型簇的参数;
建模的过程是一个循环反复的训练过程,直到找到适合的模型参数,达到预测数据与实际数据的拟合性最好。
步骤130a3、根据确定的模型参数,进行适用性检查,确定最优的模型参数。
可通过计算残差序列是否为白噪声序列进行检测,直到训练残差为白噪声为止。
建立ARIMA模型及计算估计值的过程可以具体为:
步骤130b1、对呈现单调上升或下降特征的所述历史性能数据序列进行差分处理,使处理后的数据序列平稳化;
例如通过一阶差分或(和)季节差分完成所述数据序列的平稳化。
步骤130b2、对平稳化后的数据序列,利用阶数判优准则确定ARIMA模型中的阶数,进行定阶,得到模型簇;
步骤130b3、估计和确定所述模型簇的参数;
步骤130b4、根据确定的模型参数,进行适用性检查,确定最优的模型参数;
步骤130b5、根据已知的关联数据项的值,按照得到的最优模型参数计算出缺失数据项的初预测值,之后再对初预测值进行反向差分处理计算(逆运算),回溯为原数据序列的缺失数据项的估计值。
针对网络管理***采集到的话务性能数据记录,由于呈现非常明显的周期性特征,可通过时间序列SARIMA(即对ARIMA模型进行季节乘积)模型方式进行话务性能数据的建模,并对缺失的关键性能指标进行时间序列预测,得到关键性能指标预测值,为简化预测过程,在有适应的字段回归模型时,取模型参数,将预测值作为已知性能数据字段,代入字段回归模型,计算获得其他性能数据字段,结束流程。
由于网络管理***采集到的话务性能数据的周期性非常明显,因此本发明又进一步独立提出采用基于ARMA模型的适用于周期性非常明显的时间序列的SARIMA模型,来模拟网络管理***中的话务性能数据规律。其主要建模构思是:在整条性能数据记录缺失时,将时间序列预测方法引入性能数据记录的填补,根据历史性能数据应用时间序列预测法来预测性能数据记录中指标值在未来时间的值。具体方法是对网络管理***中采集来的性能数据进行相关性和周期性探测,发现典型的相关性和周期性特征,并在此基础上用SARIMA模型建模。
因此针对步骤130还可具体为,通过季节乘积ARIMA模型对关键性能数据进行建模,预测时可以采用如下方法和步骤:
步骤130c1、在探测性能数据历史时间序列的周期性基础上,进行季节差分处理,使处理后的序列{zi}实现平稳化,如果序列存在多重季节性,则进行多次季节差分处理。
步骤130c2、对平稳的时间序列{zi}进行ARIMA(p,q)模型(p,q)*(P,Q)建模,进行定阶,得到模型簇。
由于ARIMA(p,q)没有体现性能数据的周期性,因此通过ARIMA(p,q)*(P,Q)体现性能数据的周期性,(P,Q)表示与(p,q)具有周期性关系的参数;一般来说,各个阶数都小于2,故可编程用循环来遍历4个参数的所有组合,并保证p,q,P,Q不同时为0。可采用AIC(赤池信息量准则)来选取最合适的模型簇。
步骤130c3、用极大似然法求得所述模型簇的参数。
对所得到的多个模型,用极大似然法求得每个模型的参数。
步骤130c4、根据确定的模型参数,用残差是否白噪声来检验模型的适用性,确定最优的模型参数。
在ARIMA模型和SARIMA模型建立之后,步骤170中:按照所述求得最优模型参数,计算出初始预测值,然后,还要根据初始预测值做相反的季节差分处理运算(即业界所称的Integration算法),从而得到原始性能数据序列中数据记录的关键字段的预测值。
对于变化趋势呈现很强的非线性非平稳特征,则采用非线性非平稳的数学模型,例如建立支持向量机模型,建模过程可以具体为:
对所述历史性能数据序列进行训练,以残差白噪声为依据来选取基于所述历史性能数据序列的最优支持向量机模型,包括:
步骤130d1、对所述所述历史性能数据序列进行预处理,相空间重构,获得训练数据序列;
步骤130d2、设置支持向量机模型的自由参数值;
步骤130d3、根据所设置的自由参数值,按照结构风险最小化原则对训练数据序列进行训练,获得一个回归方程式作为建模结果;
步骤130d4、将训练数据序列的实际值与所得回归方程式下的计算值求差,得到拟合残差序列,计算残差序列的自相关函数;
步骤130d5、根据所述残差序列的自相关函数计算结果,检验所述残差序列是否为白噪声序列,如果是,则所获得的支持向量机训练模型最优,保存并输出该模型和对应的自由参数值;否则如果不是白噪声序列,返回步骤130d2,重新设置自由参数的值,按照以上过程重新训练,直到获得最优的支持向量机模型。
下面结合具体方法实例对本发明作进一步说明。
方法实例二、性能数据部分字段缺失时的填补方法,以MSC(移动业务交换中心,mobile service switching center)需要采集存储处理的几个关键性能指标数据做详细说明:
首先利用一段时间的数据,比如前一个月的小时粒度数据进行缺失数据字段相关性分析和字段回归模型的创建。例如表1示出了存储在关系数据库表中的某运营商某省2009年8月1日以来半个月的360条历史性能数据记录的一部分。
表1某运营商某省的360条历史性能数据记录
假设2009年8月15日的数据记录中有部分性能指标字段数据缺失。这时利用多个关键性能指标数据的字段相关性进行回归建模。首先利用各指标近14天(挑选从2009年8月1日至2009年8月14日)的336条性能数据记录进行相关性探测,根据相关统计学原理,当两个关键指标值间的相关系数绝对值为1时,则两个指标间存在着确定的线性函数关系,即可以表示为Y=a+bX,X,Y变量在此表示两个不同的性能指标。
而当相关系数绝对值接近于1时,表示两个指标间的相关性很强,可以用一元线性函数模型来进行回归。回归函数为:
Y=a+bX+ε,ε~N(0,σ2)
在上述一元线性回归模型中,a为直线截距,b为直线斜率,也叫做Y对X的回归系数,它表示X每变动一个单位所引起的Y的平均变动量;ε为残差(也称为回归误差或预测误差),表示除X外的其他次要因素形成的随机扰动,当样本容量较大时,正负干扰可相互抵消,可认为ε的均值为0。
方法实例二中,MSC(移动业务交换中心,mobile service switching center)需要采集存储处理的几个关键性能指标依次是:***试呼总次数、交换机试呼总次数、***应答总次数、交换机接通总次数、***寻呼总次数、被叫应答总次数、被叫响应总次数。利用上述公式(1)对这7个指标两两字段之间进行关联性的探测,所得相关系数矩阵如下:
因为两个指标间的相关系数是对偶的,所以以上相关系数矩阵也是对偶的,故只要看该矩阵的上三角就好了。从该上三角矩阵的相关系数值可以看出:
matr_corr[1,2]=相关系数(***试呼总次数,交换机试呼总次数)=1是最大的相关系数;
matr_corr[3,5]=相关系数(***应答总次数,***寻呼总次数)=0.9518是最小的相关系数,其他指标间的相关系数都介于两者之间。
由于相关系数都远大于0.8,可以认为,这些同一个交换机的关键性能指标数据间存在着很强的线性相关性,甚至可以认为存在着确定的线性函数关系。只要找出这些指标间的线性函数模型,就可以在某个或某些指标值缺失的情况下,利用其他无缺失的同时刻的值代入函数模型得到缺失值。线性函数模型的计算方法采用统计学中的一元线性回归法,具体请参见公式(5)和(6)。用最小二乘法计算任意两个指标间的一元线性函数,即计算直线斜率b和直线截矩a,***试呼总次数对于其他6个关键性能指标的回归参数对值如下:
(1.02044901004931,8358.96681820601)
(1.38694158090591,349081.263333324)
(1.17911769111168,111979.431708182)
(1.19059921632276,-262418.199922068)
(1.41358719365854,81776.8365516228)
(1.24222987544457,-271216.466533611)
因此,可以通过上述直线斜率b和直线截距a的参数对值列表,获得***试呼总次数和其他6个性能数据指标的一元线性回归函数模型,***试呼总次数为变量Y,其他6个性能数据指标为变量X。
***试呼总次数,交换试呼总次数的一元线性回归函数即为:
Y=8358.96681820601+1.02044901004931X
***试呼总次数,***应答总次数的一元线性回归函数即为:
Y=349081.263333324+1.38694158090591X
***试呼总次数,交换接通总次数的一元线性回归函数即为:
Y=111979.431708182+1.17911769111168X
***试呼总次数,***寻呼总次数的一元线性回归函数即为:
Y=-262418.199922068+1.19059921632276X
***试呼总次数,被叫应答总次数的一元线性回归函数即为:
Y=81776.8365516228+1.41358719365854X
***试呼总次数,被叫响应总次数的一元线性回归函数即为:
Y=-271216.466533611+1.24222987544457X
这意味着,如果***试呼总次数为空,但只要其他六个指标值不同时为空,总可利用对应的一元线性回归函数得到***试呼总次数的填补值,且该填补值的误差是很小的。反之,如果***试呼总次数不为空,其他六个指标值为空,则利用***试呼总次数也可以计算出其他六个指标值作为填补值。
表1中第337条数据记录所示有实际获得的7个性能指标值。现在假设第337条数据记录中的***试呼总次数缺失为空,依次将表1中指标分别代入上述6个函数,得到***试呼次数的预测填补值并计算相对应的APE(AbsolutePercent Error绝对误差百分比),如表2所示:
表2预测性能数据列表
其中利用交换试呼总次数的APE=(利用交换试呼总次数的预测值-***试呼总次数的实际值)/***试呼总次数的实际值,其它APE计算同理。从上表的预测结果来看,APE大多数在10%内,另有少数在20%内,MAPE(MeanAbsolute Percent Error平均绝对误差百分比)值小于10%;而根据相关的预测理论,10%内的预测属于良好预测,20%内的预测属于可以接受的预测。
以上预测填补的方法和填补结果表明,在部分字段指标值缺失时,如果字段指标之间存在内在关联性,用无缺失性能数据来预测缺失性能数据的方法是可行的,可得到较精确的缺失性能数据填补值,而且运算简单,填补效率高。
方法实例三、整条性能数据记录缺失时的填补方法:
取某省全省的交换机话务数据记录,其中包括***试呼总次数字段,从2009-08-0100:00:00开始到2009-08-1423:00:00为止,共336条数据记录,针对***试呼总次数字段进行周期性和趋势性的探测,探测过程如下:
选择一个关键性能指标数据-***试呼总次数的历史数据序列进行周期性探测。探测方法是用自相关函数分析数据变化的周期性。
如图3所示为***试呼总次数的历史数据时间序列的自相关函数图。在该自相关函数图中,横轴代表时间序列的滞后阶数k,纵轴代表滞后阶lag为k时将k带入前述自相关函数的定义中式①所得自相关系数Ck值,从图3中看出,自相关系数值在lag=24,48,72等处出现极值,表示存在周期为24的周期性,这一点也和我们的日常经验一致。每天24个小时的性能指标值是有波动的,而从多天来看,这种变动每天又是相似的。另外,图3显示,直到滞后阶数为100时,绝大多数的自相关系数值仍然显著非零,这表示该序列是非平稳的。图3结果表明该性能指标数据序列呈现很强的周期性和非平稳性,周期为24小时。
由于性能指标数据序列是非平稳的,因此需要根据其24小时的周期性对其进行s=24的差分,差分后得到时间序列{yi},再对该序列进行平稳性探测,如图4所示,从图4可以看出,在lag=168处相关系数绝对值很大,这表示以每周168小时作为另外一个周期值,s=7*24=168,经过一次s=168季节差分的序列依然是非平稳的。
因此继续对序列{yi}进行s=168的季节差分,得到两次季节差分后的序列{zi}。对该序列进行平稳性探测,其自相关函数图如图5所示,由图5可以看出,自相关系数很快就变成0,所以序列{zi}是平稳的。
在图5中,在滞后阶lag=1,2,3时,自相关系数的值显著非零。所谓显著非零,是采用了统计学当中的假设检验方法。我们假设系数为0,来检验该假设的正确性。自相关系数是个随机变量的统计量,已有理论证明,该随机变量符合正态分布,且分布为根据正态分布表及分位数,相关系数的值以95%的置信度分布在之间。图5中在横轴上、下方的横线的纵坐标值即为和所以当lag=1,2,3时,自相关系数的值在95%的置信度是非零的,而lag=4时,自相关系数值位于以上置信区间内,认为在95%置信度下是0。
对平稳的序列{zi}进行ARMA(p,q)×(P,Q)s建模。各个阶数都小于2,故可编程用循环来遍历4个参数的所有组合,并保证p,q,P,Q不同时为0。采用AIC信息准则来选取最优模型,并用残差是否白噪声来检验模型的适用性。遍历p,q,P,Q除全部为0外的所有取值,共3×3×3×3=81-1=80个组合。各组合下的ARMA模型对应的AIC值如图6所示。
AIC方法是由日本学者赤池(Akaike)提出的ARMA(p,q)模型中如何确定p、q值的方法准则,应用较为普遍。其原则为:设为具有白噪声特点的训练集残差序列方差的极大似然估计量;r=p+q+1代表模型中的待估参数个数;n代表时间序列中样本点数。则AIC准则值:
由该式可以看出,AIC准则不仅追求训练集上的拟合残差尽可能小,同时还考虑所得模型的阶数也不要太大,因为大的阶数代表高的模型复杂度从而可能导致过拟合;AIC准则是在拟合效果和泛化效果中取折衷。
选取AIC值最小的模型,该模型(p,q)×(P,Q)s的阶为(2,0)×(2,2)24,即原始话务量序列{xi}的最佳拟合模型为(2,0,0)×(2,1,2)24×(0,1,0)168,确定了模型阶数后的ARMA模型具体表示如下:
(1-φ1B-φ2B2)(1-B24)(1-B168)(1-Φ1B24-Φ2B48)xt=(1-θ1B24-θ2B48)εt (7)
其中,B为后移算子,即有Bxt=xt-1,B2xt=xt-2,依此类推,有Bixt=xt-i,i为一有限整数;εt为符合白噪声分布的残差。比如,若有一个ARMA模型阶数为(1,1),即模型如下:(1-φ1B)xt=(1-θ1B)εt,则模型展开式为:xt-φ1xt-1=εt-θ1εt-1,转换成更好理解的形式为:
xt=φ1xt-1-θ1εt-1+εt。
完成定阶后,进行模型的参数估计,从而得到序列{zi}的ARMA模型,序列{xi}的SARIMA模型,利用MLE(极大似然估计-maximal likelinessestimation)方法进行参数估计,对每个参数估计的结果如表3所示:
φ1 | φ2 | Ф1 | Ф2 |
0.9282554 | -0.2283912 | -0.11886090 | -0.03665631 |
θ1 | θ2 | ||
0.3941738 | -0.2952881 |
表3确定参数值列表
将上表3中参数代入上面公式(7)中,即为原序列{xi}适用的SARIMA模型,利用该模型进行***试呼次数的一步预测,即得到该指标的预测值。
重复以上步骤多次,得到一段时间内缺失的***试呼次数指标的预测填补值,结果如表4:
表4缺失指标预测值列表
从上表数据可以看出,用带有季节乘积项的ARMA模型进行网管话务性能数据的建模和预测填补,填补结果非常精确、填补效率很高。说明在网管话务性能数据中存在着很强的周期规律性,而所采用的建模方法也是非常合适的。
对于同一条数据记录的其他指标字段,如果能够找到与已知字段或者已经预测的字段之间具有关联性,可以采用上述字段关联回归模型的填补方法,即在该关键性能数据完成预测填补的基础上,应用字段关联回归模型进行其他相关字段指标的填补。
同时,本发明还提出了对应于网管***性能数据的填补方法的实现装置。
参照图7,示出了本发明网管***性能数据填补装置一实施例的结构图,包括:历史数据获取单元71、回归模型建立单元72和数据填补单元73,其中:
历史数据获取单元71:用于获取历史性能数据记录序列;
例如,历史性能数据记录序列的选取原则为:选取在缺失性能数据的时间点较近期的某段时间(如之前的一个月,或之前两个月)的历史性能数据记录序列。
回归模型建立单元72:用于依据历史数据获取单元71获取的历史性能数据记录序列,探测具有特定关系的不同数据项之间的内部关联性,为具有内部关联性的关联数据项建立相互之间拟合的回归模型;
本装置实施例中,具有特定关系的不同数据项具体是指:属于同一记录的不同字段的数据项,或者属于不同记录的相同字段的数据项;具有内部关联性的数据项互相称为对方的关联数据项。
数据填补单元73:用于根据数据项缺失的情况和已知的关联数据项的值,使用回归模型建立单元72建立的相关回归模型,计算缺失数据项的估计值,并将该估计值填补到性能数据记录中。
数据填补单元73的工作原理可以具体为:逐一读取每条数据记录的每个字段,判别字段内容是否为空(NULL),如果为空,则判断该字段缺失。如果整条数据记录的所有字段都缺失,则判断该条数据记录缺失。当判断为字段缺失,且有相应拟合的字段回归函数模型(即该缺失字段有关联数据项,且关联数据项不是数据缺失字段)时,则按照字段关联回归模型填补缺失的字段;当判断为整条记录缺失,并且有相应拟合的自回归模型,则按照自回归模型填补缺失的字段。循环上述缺失字段寻找和填补过程,可填补所有缺失字段。
其中,回归模型建立单元72包括字段关联回归模型建立子单元721和自回归模型建立子单元722:
字段关联回归模型建立子单元721用于根据历史数据获取单元71获取的历史性能数据记录序列,探测同一记录不同字段之间相关性,建立拟合的字段关联回归模型;字段关联回归模型建立子单元721具体包括相关性分析模块7211和相关性模型建立模块7212:
相关性分析模块7211用于依据历史性能数据记录序列的多个记录值,对每一个记录内的字段X和另一个字段Y的数据值进行相互之间的相关性分析,计算相关系数ρXY,如果相关系数ρXY的绝对值在0.8~1之间,则判定字段X和字段Y之间具有相关性;上述不同字段X和Y的相关系数ρXY的计算公式如下:
上述公式中:
Cov(X,Y)为字段X和Y的协方差;
DX为字段X的标准差:
DY为字段Y的标准差:
相关性模型建立模块7212用于接收相关性分析模块7211的判定结果,若不同字段X和字段Y之间具有相关性,则建立以下一元线性回归函数模型:
Y=a+bX+ε,ε~N(0,σ2)
其中,参数a、b的估计值如下:
自回归模型建立子单元722用于依据历史数据获取单元71获取的历史性能数据记录序列,探测同一字段数据项在不同的数据记录之间的变化趋势,建立拟合的自回归模型。自回归模型建立子单元722具体包括趋势探测分析模块7221、模型选择和建立模块7222。
趋势探测分析模块7221,用于对所述历史性能数据序列中时间序列上的性能数据项的变化趋势进行探测分析,并输出探测结果;
模型选择和建立模块7222,根据趋势探测分析模块的探测结果,若变化趋势呈现平稳的线性特征,则建立ARMA模型;若变化趋势呈现非平稳特征但存在单调上升或下降的非平稳性,并且差分后可以实现平稳化,则建立ARIMA模型;若呈现明显的周期性特征,则建立SARIMA模型;若变化趋势呈现很强的非线性非平稳特征,则建立神经网络模型或支持向量机模型。
所述模型选择和建立模块中ARMA模型建模过程具体包括:
模型定阶模块,利用阶数判优准则确定ARMA模型的阶数,进行定阶,得到模型簇;
例如利用AIC定阶方法、BIC定阶方法,F检验法进行ARMA模型辨识。
参数估计模块,用于估计和确定模型定阶模块所确定模型簇的参数;
建模的过程是一个循环反复的训练过程,直到找到适合的模型参数,达到预测数据与实际数据的拟合性最好。
适用性检测模块,对于用检测参数估计模块所估计参数确定的模型,进行适用性检查,确定最优的模型参数。
可通过计算残差序列是否为白噪声序列进行检测,直到训练残差为白噪声为止。
所述模型选择和建立模块中ARIMA模型建模过程具体包括:
平稳化预处理模块,对呈现周期性特征的所述历史性能数据序列进行差分处理,使处理后的数据序列平稳化;
例如通过一阶差分或(和)季节差分完成所述数据序列的平稳化。
模型定阶模块,对经过平稳化预处理模块得到的平稳化数据序列,利用阶数判优准则确定ARIMA模型的阶数,进行定阶;
参数估计模块,用于估计和确定模型定阶模块所确定模型的参数;
适用性检测模块,对于用检测参数估计模块所估计参数确定的模型,进行适用性检查,确定最优的模型参数。
所述模型选择和建立模块中SARIMA模型建模过程具体包括:
平稳化预处理模块,对呈现周期性特征的所述历史性能数据序列进行季节差分处理,使处理后的数据序列平稳化;若所述历史性能数据序列存在多重季节性,则进行多次季节差分处理;
模型定阶模块,对经过平稳化预处理模块得到的平稳化数据序列,利用阶数判优准则确定SARIMA模型的阶数,进行定阶;
参数估计模块,用于估计和确定模型定阶模块所确定模型的参数;
适用性检测模块,对于用检测参数估计模块所估计参数确定的模型,进行适用性检查,确定最优的模型参数。
当确定建立ARIMA模型或SARIMA模型时,所述数据填补单元中,使用回归模型建立单元建立的相关回归模型,计算该缺失数据项的初估计值之后,还要进行反向差分计算处理,回溯为原数据序列的估计值,再将所述估计值填补到原性能数据记录中。
在前述方法实例三中,已经论述了用自相关函数分析数据变化是否呈周期性,以及呈现平稳的数据序列的过程,完成定阶后,进行模型的参数估计,从而得到序列{zi}的ARMA模型,序列{xi}的SARIMA模型。然后利用MLE(极大似然估计-maximal likeliness estimation)方法确定最优估计参数。自回归模型建立子单元722即为实现该过程的装置。
所述模型选择和建立模块中支持向量机模型建模过程可以具体包括:
训练数据获取模块,用于对所述正常样本数据进行进行预处理,相空间重构,得到训练数据序列;
参数设置模块,用于预置或调整支持向量机模型的自由参数值;
训练建模模块,用于根据参数设置模块所设置的自由参数值,按照结构风险最小化原则对训练数据序列进行优化训练,获得一个回归方程式作为建模结果;
残差计算模块,根据训练建模模块得到的回归方程式计算训练数据在该回归方程式下的计算值,与训练数据获取模块得到的样本数据的实际值求差,得到拟合残差序列,计算残差序列的自相关函数;
白噪声检验及模型确定模块,用于检验残差计算模块所计算残差序列是否为白噪声序列,如果是,则所确定的支持向量机模型最优,输出设置的自由参数值和最优的支持向量机模型;否则转到参数设置模块,调整支持向量机模型的自由参数值,以重新训练。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于本发明的装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (18)
1.一种性能数据的填补方法,用于对网管***采集的网元性能数据缺失部分进行填补,其特征在于,包括:
获取所述网元的历史性能数据记录序列;
依据所述历史性能数据记录序列探测具有特定关系的不同数据项之间的内部关联性;所述具有特定关系的不同数据项,具体是指:属于同一记录的不同字段的数据项,或者属于不同记录的相同字段的数据项;具有内部关联性的数据项互相称为对方的关联数据项;
为具有内部关联性的所述关联数据项建立相互之间拟合的回归模型;
若所述网元性能数据的记录中有数据项缺失,则根据已知的关联数据项的值,使用对应的回归模型,计算缺失数据项的估计值,将所述估计值填补到缺失的性能数据记录中。
2.如权利要求1所述的方法,其特征在于,当所述具有特定关系的不同数据项是指同一记录的不同字段数据项时,依据所述历史性能数据记录序列探测具有特定关系的不同数据项之间的内部关联性的方法具体为:
依据所述历史性能数据记录序列的多个记录值,对每一个记录内的字段X和另一个字段Y的数据值进行相互之间的相关性分析,计算相关系数ρXY,如果相关系数ρXY的绝对值在0.8~1之间,则判定所述字段X和字段Y之间具有相关性,建立字段关联回归模型;
所述字段X和字段Y之间的相关系数ρXY的计算公式如下:
其中:
Cov(X,Y)为字段X和Y的协方差;
DX为字段X的标准差:
DY为字段Y的标准差:
上述公式中,n为历史性能数据的样本数。
4.如权利要求1所述的方法,其特征在于,当所述具有特定关系的不同数据项是指不同记录的相同字段数据项时,建立相互之间拟合的回归模型的方法是:依据所述历史性能数据记录序列探测同一字段数据项在不同的数据记录之间的变化趋势,建立拟合的自回归模型。
5.如权利要求4所述的方法,其特征在于,依据所述历史性能数据记录序列探测同一字段数据项在不同的数据记录之间的变化趋势,建立拟合的自回归模型的方法具体为:
对所述历史性能数据序列中的性能数据记录的变化趋势进行探测分析,根据探测分析结果,如果变化趋势呈现平稳的线性特征,则建立所述性能数据序列的ARMA模型;如果变化趋势呈现非平稳特征但存在单调上升或下降的非平稳性,并且差分后可以实现平稳化,则建立ARIMA模型;如果呈现明显的周期性特征,则建立SARIMA模型;如果变化趋势呈现很强的非线性非平稳特征,则建立神经网络模型或支持向量机模型。
6.如权利要求5所述的方法,其特征在于,所述建立ARMA模型的过程具体为:
利用阶数判优准则确定ARMA模型的阶数,进行定阶,得到模型簇;
估计和确定所述模型簇的模型参数;
根据确定的模型参数,进行适用性检查,确定最优的模型参数。
7.如权利要求5所述的方法,其特征在于,所述建立ARIMA模型及计算估计值的过程具体为:
对呈现单调上升或下降特征的所述历史性能数据序列进行差分处理,使处理后的数据序列平稳化;
对平稳化后的数据序列,利用阶数判优准则确定ARIMA模型中的阶数,进行定阶,得到模型簇;
估计和确定所述模型簇的模型参数;
根据确定的模型参数,进行适用性检查,确定最优的模型参数;
根据已知的关联数据项的值,按照得到的最优模型参数计算出缺失数据项的初预测值,之后再对初预测值进行反向差分处理计算,从而得到原数据序列中缺失数据项的估计值。
8.如权利要求5所述的方法,其特征在于,所述建立SARIMA模型及计算估计值的过程具体为:
对呈现周期性特征的所述历史性能数据序列进行季节差分处理,使处理后的数据序列平稳化,若所述历史性能数据序列存在多重季节性,则进行多次季节差分处理;
对平稳化处理后的数据序列,利用阶数判优准则确定SARIMA模型中的阶数,进行定阶得到模型簇;
通过极大似然法估计和确定所述模型簇的模型参数;
根据确定的模型参数,并通过残差是否是白噪声来检验模型的适用性,求得最优模型参数,
根据已知的关联数据项的值,按最优模型参数求得缺失数据项的初预测值,之后再对初预测值进行反向季节差分处理计算,得到原数据序列中缺失数据项的估计值。
9.如权利要求5所述的方法,其特征在于,所述建立支持向量机模型的过程具体为:
对所述历史性能数据序列进行训练,以残差白噪声为依据来选取基于所述历史性能数据序列的最优支持向量机模型,包括:
A)对所述所述历史性能数据序列进行预处理,相空间重构,获得训练数据序列;
B)设置支持向量机模型的自由参数值;
C)根据所设置的自由参数值,按照结构风险最小化原则对训练数据序列进行训练,获得一个回归方程式作为建模结果;
D)将训练数据序列的实际值与所得回归方程式下的计算值求差,得到拟合残差序列,计算残差序列的自相关函数;
E)根据所述残差序列的自相关函数计算结果,检验所述残差序列是否为白噪声序列,如果是,则所获得的支持向量机训练模型最优,保存并输出该模型和对应的自由参数值;否则如果不是白噪声序列,返回步骤B),重新设置自由参数的值,按照以上过程重新训练,直到获得最优的支持向量机模型。
10.一种性能数据的填补装置,用于对网管***采集的网元性能数据缺失部分进行填补,其特征在于,包括:
历史数据获取单元,用于获取所述网元的历史性能数据记录序列;
回归模型建立单元,用于依据所述历史数据获取单元获取的历史性能数据记录序列,探测具有特定关系的不同数据项之间的内部关联性,为具有内部关联性的关联数据项建立相互之间拟合的回归模型;所述具有特定关系的不同数据项,具体是指:属于同一记录的不同字段的数据项,或者属于不同记录的相同字段的数据项;具有内部关联性的数据项互相称为对方的关联数据项;
数据填补单元,用于根据所述网元性能数据的数据项缺失的情况和已知的缺失数据项的关联数据项的值,使用回归模型建立单元建立的相关回归模型,计算该缺失数据项的估计值,将所述估计值填补到缺失的性能数据记录中。
11.如权利要求10所述的装置,其特征在于,所述回归模型建立单元具体包括字段关联回归模型建立子单元和/或自回归模型建立子单元;其中:
所述字段关联回归模型建立子单元用于根据所述历史数据获取单元获取的历史性能数据记录序列,探测同一记录不同字段数据项之间的相关性,建立拟合的字段关联回归模型;
所述自回归模型建立子单元用于依据所述历史数据获取单元获取的历史性能数据记录序列,探测同一字段数据项在不同的数据记录之间的变化趋势,建立拟合的自回归模型。
12.如权利要求11所述的装置,其特征在于,所述字段关联回归模型建立子单元具体包括相关性分析模块和相关性模型建立模块,其中:
相关性分析模块,用于依据所述历史性能数据记录序列的多个记录值,对每一个记录内的字段X和另一个字段Y的数据值进行相互之间的相关性分析,计算相关系数ρXY,如果相关系数ρXY的绝对值在0.8~1之间,则判定所述字段X和字段Y之间具有相关性;所述字段X和Y的相关系数ρXY的计算公式如下:
其中:
Cov(X,Y)为字段X和Y的协方差;
E(Y)为字段Y的数学期望:
DX为字段X的标准差:
DY为字段Y的标准差:
相关性模型建立模块,接收所述相关性分析模块的判定结果,若结果为字段X和字段Y之间具有关联性,则建立以下一元线性回归函数模型:
Y=a+bX+ε,ε~N(0,σ2),
其中,参数a、b的估计值如下:
上述公式中,
n为历史性能数据的样本数;
a为直线截距,b为直线斜率,ε为预测误差,σ2为正态分布的标准差;
yi和xi分别为字段Y和字段X第i行的值;
13.如权利要求11所述的装置,其特征在于,所述自回归模型建立子单元具体包括:
趋势探测分析模块,用于对所述历史性能数据序列中时间序列上的性能数据项的变化趋势进行探测分析,并输出探测结果;
模型选择和建立模块,根据趋势探测分析模块的探测结果,若变化趋势呈现平稳的线性特征,则建立ARMA模型;若变化趋势呈现非平稳特征但存在单调上升或下降的非平稳性,并且差分后可以实现平稳化,则建立ARIMA模型;若呈现明显的周期性特征,则建立SARIMA模型;若变化趋势呈现很强的非线性非平稳特征,则建立神经网络模型或支持向量机模型。
14.如权利要求13所述的装置,其特征在于,所述模型选择和建立模块中ARMA模型建模过程具体包括:
模型定阶模块,利用阶数判优准则确定ARMA模型的阶数,进行定阶,得到模型簇;
参数估计模块,用于估计和确定模型定阶模块所确定模型簇的参数;
适用性检测模块,对于用检测参数估计模块所估计参数确定的模型,进行适用性检查,确定最优的模型参数。
15.如权利要求13所述的装置,其特征在于,所述模型选择和建立模块中ARIMA模型建模过程具体包括:
平稳化预处理模块,对呈现周期性特征的所述历史性能数据序列进行差分处理,使处理后的数据序列平稳化;
模型定阶模块,对经过平稳化预处理模块得到的平稳化数据序列,利用阶数判优准则确定ARIMA模型的阶数,进行定阶;
参数估计模块,用于估计和确定模型定阶模块所确定模型的参数;
适用性检测模块,对于用检测参数估计模块所估计参数确定的模型,进行适用性检查,确定最优的模型参数。
16.如权利要求13所述的装置,其特征在于,所述模型选择和建立模块中SARIMA模型建模过程具体包括:
平稳化预处理模块,对呈现周期性特征的所述历史性能数据序列进行季节差分处理,使处理后的数据序列平稳化;若所述历史性能数据序列存在多重季节性,则进行多次季节差分处理;
模型定阶模块,对经过平稳化预处理模块得到的平稳化数据序列,利用阶数判优准则确定SARIMA模型的阶数,进行定阶;
参数估计模块,用于估计和确定模型定阶模块所确定模型的参数;
适用性检测模块,对于用检测参数估计模块所估计参数确定的模型,进行适用性检查,确定最优的模型参数。
17.如权利要求13所述的装置,其特征在于,所述模型选择和建立模块中支持向量机模型建模过程具体包括:
训练数据获取模块,用于对正常样本数据进行预处理,相空间重构,得到训练数据序列;
参数设置模块,用于预置或调整支持向量机模型的自由参数值;
训练建模模块,用于根据参数设置模块所设置的自由参数值,按照结构风险最小化原则对训练数据序列进行优化训练,获得一个回归方程式作为建模结果;
残差计算模块,根据训练建模模块得到的回归方程式计算训练数据在该回归方程式下的计算值,与训练数据获取模块得到的样本数据的实际值求差,得到拟合残差序列,计算残差序列的自相关函数;
白噪声检验及模型确定模块,用于检验残差计算模块所计算残差序列是否为白噪声序列,如果是,则所确定的支持向量机模型最优,输出设置的自由参数值和最优的支持向量机模型;否则转到参数设置模块,调整支持向量机模型的自由参数值,以重新训练。
18.如权利要求15或16所述的装置,其特征在于,所述数据填补单元中,使用回归模型建立单元建立的相关回归模型,计算该缺失数据项的初估计值之后,还要进行反向差分计算处理,回溯为原数据序列的估计值,再将所述估计值填补到原性能数据记录中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010256368.6A CN102025531B (zh) | 2010-08-16 | 2010-08-18 | 一种性能数据的填补方法及其装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010254188 | 2010-08-16 | ||
CN201010254188.4 | 2010-08-16 | ||
CN201010256368.6A CN102025531B (zh) | 2010-08-16 | 2010-08-18 | 一种性能数据的填补方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102025531A CN102025531A (zh) | 2011-04-20 |
CN102025531B true CN102025531B (zh) | 2014-03-05 |
Family
ID=43866424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010256368.6A Active CN102025531B (zh) | 2010-08-16 | 2010-08-18 | 一种性能数据的填补方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102025531B (zh) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102195814B (zh) * | 2011-05-04 | 2013-11-20 | 成都勤智数码科技有限公司 | 一种利用相关性的it运维指标预报与预测方法和装置 |
CN103020079B (zh) * | 2011-09-24 | 2017-03-08 | 国家电网公司 | 一种工业数据增补方法 |
CN102411268B (zh) * | 2011-11-30 | 2014-01-29 | 上海华力微电子有限公司 | 光刻装置及提高光刻机套准精度的方法 |
CN103377298B (zh) * | 2012-04-24 | 2016-08-03 | 富士通株式会社 | 选择参数的方法和装置 |
FR2990537B1 (fr) * | 2012-05-09 | 2014-05-30 | Morpho | Procede de verification des donnees d'une base de donnees relative a des personnes |
CN103036714B (zh) * | 2012-12-10 | 2016-01-20 | 上海斐讯数据通信技术有限公司 | 设备无关的性能指标获取方法、装置及相应的网管*** |
CN103246702B (zh) * | 2013-04-02 | 2016-01-06 | 大连理工大学 | 一种基于分段形态表示的工业序列数据缺失的填补方法 |
CN104123312B (zh) * | 2013-04-28 | 2018-02-16 | 国际商业机器公司 | 一种数据挖掘方法和装置 |
CN104216916B (zh) * | 2013-06-04 | 2018-07-03 | 腾讯科技(深圳)有限公司 | 数据还原方法及装置 |
CN104516879B (zh) * | 2013-09-26 | 2019-09-13 | Sap欧洲公司 | 用于管理含有具有缺失值的记录的数据库的方法和*** |
CN103678721A (zh) * | 2014-01-02 | 2014-03-26 | 中国联合网络通信集团有限公司 | 一种处理缺失数据的方法及装置 |
CN105335592A (zh) * | 2014-06-25 | 2016-02-17 | 国际商业机器公司 | 生成时间数据序列的缺失区段中的数据的方法和设备 |
CN104133866A (zh) * | 2014-07-18 | 2014-11-05 | 国家电网公司 | 一种面向智能电网的缺失数据填充方法 |
CN104143128A (zh) * | 2014-07-21 | 2014-11-12 | 快威科技集团有限公司 | 信息***安全评估指标的拓充方法及装置 |
CN104133992A (zh) * | 2014-07-21 | 2014-11-05 | 快威科技集团有限公司 | 基于信息安全评估相关性的评估基准构建方法及装置 |
CN104268658B (zh) * | 2014-09-29 | 2017-10-10 | 招商局重庆交通科研设计院有限公司 | 一种桥梁结构安全监测数据的预测方法 |
CN106156260B (zh) * | 2015-04-28 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 一种数据缺失修补的方法和装置 |
CN106408141A (zh) * | 2015-07-28 | 2017-02-15 | 平安科技(深圳)有限公司 | 异常费用自动提取***及方法 |
CN105183785B (zh) * | 2015-08-17 | 2019-08-16 | 上海斐讯数据通信技术有限公司 | 一种保护原交易数据集关联规则的数据挖掘方法及*** |
CN106844290B (zh) * | 2015-12-03 | 2019-05-21 | 南京南瑞继保电气有限公司 | 一种基于曲线拟合的时序数据处理方法 |
CN105760952A (zh) * | 2016-02-15 | 2016-07-13 | 国网山东省电力公司电力科学研究院 | 一种基于卡尔曼滤波与自适应模糊神经网络的负荷预测方法 |
CN107590022B (zh) * | 2016-07-08 | 2021-06-25 | 上海东方延华节能技术服务股份有限公司 | 一种用于建筑能耗分项计量的仪表采集数据修复方法 |
CN106778048B (zh) * | 2017-03-10 | 2019-07-16 | 广州视源电子科技股份有限公司 | 数据处理的方法及装置 |
CN107038460A (zh) * | 2017-04-10 | 2017-08-11 | 南京航空航天大学 | 一种基于改进knn的船舶监控数据缺失值填补方法 |
CN107294795A (zh) * | 2017-08-02 | 2017-10-24 | 上海上讯信息技术股份有限公司 | 一种网络安全态势预测方法及设备 |
CN107766877B (zh) * | 2017-09-27 | 2020-05-22 | 华南理工大学 | 一种桥梁监测***中超重车动态识别方法 |
CN108169621A (zh) * | 2017-12-05 | 2018-06-15 | 国电南瑞科技股份有限公司 | 基于支持向量机的台区停电事件补全方法 |
CN108829641B (zh) * | 2018-01-02 | 2021-12-28 | 西安优势物联网科技有限公司 | 一种基于统计技术的测量过程核查方法 |
CN109297491A (zh) * | 2018-09-06 | 2019-02-01 | 西安云景智维科技有限公司 | 一种室内定位导航方法及*** |
CN109376478A (zh) * | 2018-11-28 | 2019-02-22 | 中铁大桥(南京)桥隧诊治有限公司 | 桥梁健康监测故障数据修复方法及*** |
CN109783788A (zh) * | 2019-01-02 | 2019-05-21 | 深圳壹账通智能科技有限公司 | 数据表填补方法、装置、计算机设备和存储介质 |
CN110162576A (zh) * | 2019-04-22 | 2019-08-23 | 广东电网有限责任公司信息中心 | 基于***指标数据的数据预测方法、***及电子设备 |
CN110147367B (zh) * | 2019-05-14 | 2022-05-27 | 中国科学院深圳先进技术研究院 | 一种温度缺失数据填补方法、***及电子设备 |
CN110555546B (zh) * | 2019-07-31 | 2022-04-08 | 烽火通信科技股份有限公司 | 一种光性能劣化趋势预测的更新方法及*** |
CN110826718B (zh) * | 2019-09-20 | 2022-05-13 | 广东工业大学 | 一种基于朴素贝叶斯的大段不等长缺失数据填补方法 |
CN110836649B (zh) * | 2019-11-11 | 2021-05-18 | 汕头市超声仪器研究所股份有限公司 | 一种自适应的空间复合超声成像方法 |
CN111046027B (zh) * | 2019-11-25 | 2023-07-25 | 北京百度网讯科技有限公司 | 时间序列数据的缺失值填充方法和装置 |
CN111177135B (zh) * | 2019-12-27 | 2020-11-10 | 清华大学 | 一种基于界标的数据填补方法及装置 |
CN111191193A (zh) * | 2020-01-17 | 2020-05-22 | 南京工业大学 | 一种基于自回归滑动平均模型的长期土壤温湿度高精度预测方法 |
CN111443163A (zh) * | 2020-03-10 | 2020-07-24 | 中国科学院深圳先进技术研究院 | 一种臭氧缺失数据的插补方法、装置及插补设备 |
CN111401553B (zh) * | 2020-03-12 | 2023-04-18 | 南京航空航天大学 | 一种基于神经网络的缺失数据填充方法及*** |
CN112287562B (zh) * | 2020-11-18 | 2023-03-10 | 国网新疆电力有限公司经济技术研究院 | 一种电力设备退役数据补全方法及*** |
CN112540407B (zh) * | 2020-12-01 | 2023-04-25 | 中国煤炭地质总局地球物理勘探研究院 | 一种叠前深度偏移各向异性场建立方法 |
CN112559502A (zh) * | 2020-12-01 | 2021-03-26 | 国能日新科技股份有限公司 | 一种基于时序数据库平台的风电场数据治理*** |
CN112765553B (zh) * | 2021-01-14 | 2021-08-24 | 深圳市伟峰科技有限公司 | 一种基于大数据的工程项目管理*** |
CN113554106B (zh) * | 2021-07-28 | 2022-03-18 | 桂林电子科技大学 | 一种面向电力缺失数据的协同补全方法 |
CN113742296B (zh) * | 2021-09-09 | 2024-04-30 | 诺优信息技术(上海)有限公司 | 一种路测数据切片处理的方法、装置及电子设备 |
CN113780581A (zh) * | 2021-09-10 | 2021-12-10 | 未鲲(上海)科技服务有限公司 | 基于knn算法的数据分析方法、装置、设备及存储介质 |
CN113782038A (zh) * | 2021-09-13 | 2021-12-10 | 北京声智科技有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN114550945A (zh) * | 2022-02-21 | 2022-05-27 | 湖北省疾病预防控制中心(湖北省预防医学科学院) | 一种肺功能检测缺失数据的修复方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101114946A (zh) * | 2007-09-12 | 2008-01-30 | 中兴通讯股份有限公司 | 在电信网管***中性能对象数据的采集方法 |
CN101136781A (zh) * | 2007-09-30 | 2008-03-05 | 亿阳信通股份有限公司 | 一种网管***中性能数据采集时机控制方法和装置 |
CN101183993A (zh) * | 2007-12-21 | 2008-05-21 | 亿阳信通股份有限公司 | 一种网络管理***和性能数据处理方法 |
-
2010
- 2010-08-18 CN CN201010256368.6A patent/CN102025531B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101114946A (zh) * | 2007-09-12 | 2008-01-30 | 中兴通讯股份有限公司 | 在电信网管***中性能对象数据的采集方法 |
CN101136781A (zh) * | 2007-09-30 | 2008-03-05 | 亿阳信通股份有限公司 | 一种网管***中性能数据采集时机控制方法和装置 |
CN101183993A (zh) * | 2007-12-21 | 2008-05-21 | 亿阳信通股份有限公司 | 一种网络管理***和性能数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102025531A (zh) | 2011-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102025531B (zh) | 一种性能数据的填补方法及其装置 | |
CN102110365B (zh) | 基于时空关系的路况预测方法和*** | |
CN101771758B (zh) | 一种性能指标值正常波动范围的动态确定方法及其装置 | |
CN101964998B (zh) | 一种电信网络普通节日话务量的预测方法及其装置 | |
Claveria et al. | A new approach for the quantification of qualitative measures of economic expectations | |
CN110570651A (zh) | 一种基于深度学习的路网交通态势预测方法及*** | |
CN101442762B (zh) | 网络性能分析以及网络故障定位方法和装置 | |
CN105678046A (zh) | 修补时空序列数据中的缺失数据的方法及装置 | |
KR102518629B1 (ko) | Cnn을 이용한 전력수요 예측 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
CN112288197B (zh) | 一种站点车辆智能调度方法及装置 | |
CN102880915A (zh) | 一种基于对热点事件进行关联挖掘的电量预测方法 | |
Saha et al. | BRISC: bootstrap for rapid inference on spatial covariances | |
CN104794112B (zh) | 时间序列处理方法及装置 | |
CN106202491A (zh) | 一种基于时间序列的数据挖掘方法及*** | |
CN104735710A (zh) | 一种基于趋势外推聚类的移动网络性能预警预判方法 | |
CN105357637B (zh) | 一种位置和行为信息预测***及方法 | |
Ramesh et al. | Station-level demand prediction for bike-sharing system | |
CN105488598A (zh) | 一种基于模糊聚类的中长期电力负荷预测方法 | |
Darudi et al. | Partial mutual information based algorithm for input variable selection for time series forecasting | |
Favre et al. | Unbiased parameter estimation of the Neyman–Scott model for rainfall simulation with related confidence interval | |
CN102195814B (zh) | 一种利用相关性的it运维指标预报与预测方法和装置 | |
CN113809365B (zh) | 氢燃料电池***电压衰减的确定方法、***及电子设备 | |
Sampson et al. | Operational evaluation of air quality models | |
CN112446550B (zh) | 一种短期建筑负荷概率密度预测方法 | |
Bhattarai | Econometric and stochastic general equilibrium models for evaluation of economic policies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |