CN108804731A - 基于重要点双重评价因子时间序列趋势特征提取方法 - Google Patents

基于重要点双重评价因子时间序列趋势特征提取方法 Download PDF

Info

Publication number
CN108804731A
CN108804731A CN201710818994.1A CN201710818994A CN108804731A CN 108804731 A CN108804731 A CN 108804731A CN 201710818994 A CN201710818994 A CN 201710818994A CN 108804731 A CN108804731 A CN 108804731A
Authority
CN
China
Prior art keywords
point
time series
trend
factor
vital point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710818994.1A
Other languages
English (en)
Other versions
CN108804731B (zh
Inventor
徐德刚
谢婷玉
罗聪
苏志芳
阳春华
桂卫华
谢永芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201710818994.1A priority Critical patent/CN108804731B/zh
Publication of CN108804731A publication Critical patent/CN108804731A/zh
Application granted granted Critical
Publication of CN108804731B publication Critical patent/CN108804731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于重要点双重评价因子的时间序列趋势特征提取方法,以时间序列分段线性表示为基础,并定义重要点作为时间序列分段点的备选集,计算重要点距离因子和趋势因子,用距离因子度量其相对差异程度,用趋势因子在全局上度量其对整体趋势的影响程度,用综合评价模型评价每个重要点对整体趋势的重要程度来选取分段点,最后将相邻分段点连接得到时间序列的分段趋势表示。本发明提出了时间序列重要点距离因子的概念,并将两种评价因子相结合对时间序列重要点进行评价,克服了现有分段线性化方法评价函数单一和具有局部性的缺点,可以有效削弱噪声干扰,保留时间序列变化趋势特征,处理速度快,在分段数相同的情况下提取精度比现有方法高。

Description

基于重要点双重评价因子时间序列趋势特征提取方法
技术领域
本发明涉及时间序列数据处理技术,具体地,涉及一种基于重要点双重评价因子时间序列趋势特征提取方法。
背景技术
时间序列数据挖掘是近年来数据挖掘领域的热点研究内容。时间序列挖掘的结果对于动态***知识获取、控制决策等具有重要意义,在商业、工业、科学等领域有广泛的应用前景。时间序列趋势变化信息是时间序列的重要特征,可使人们更直观地理解时间序列中包含的信息。由于实际应用中的时间序列均具有“高维、海量”的特点,直接在原始数据上应用传统的数据处理技术已不甚适应现实需要。
为挖掘时间序列的趋势变化信息,压缩数据,提高算法效率,人们提出了时间序列模式表示方法来对时间序列进行降维。目前常见的时序数据模式表示方法包括频域表示法(包括离散小波变换法和离散Fourier变换法)、符号表示法、奇异值分解法和分段直线表示法[2]等。由于傅里叶变换或者小波变换等方法大多基于点距离,无法刻画时间序列的动态属性,而分段线性表示法(Piecewise Linear Representation,PLR)具有形式直观、数据压缩度高、时间多解析性和距离度量灵活等特点,其应用范围越来越广。时间序列PLR的中心思想是用若干条首尾相邻的直线段来近似代替原有时间序列,从而完成数据压缩和趋势提取的任务,其关键在于分段点的确定。传统的PLR算法如Keogh的自底向上的分段线性化方法、Keogh和Yi的时间序列PAA分段表示算法等,对原始数据分段均采用单一的拟合误差作为阈值,分段效果不太理想。为了提高算法本身的通用性、时间复杂度等性能,许多学者进行了这方面的研究,如Perng等人提出的一种基于关键点的时间序列分段方法;Sanghyun等人提出用特征点作为时间序列的分段点;以及尚福华和廖俊的基于趋势转折点的分段线性表示等等。上述基于PLR方法均对时间序列的趋势提取、数据压缩起到良好的效果,但是其中关键点、特征点、转折点及其评价函数均使用相邻3点的关系来定义和计算,属于局部分析方法,易受局部噪声影响,难以刻画整体趋势,且其输入参数会对结果产生重要影响。
综上所述,现有的时间序列趋势特征提取方法存在无法刻画时间序列动态属性、易受局部噪声和输入参数影响、难以刻画整体趋势、输出结果不稳定等问题。
发明内容
为了解决目前时间序列趋势特征提取方法所存在的问题,本发明提出了一种基于时间序列重要点双重评价因子的趋势提取方法,创新性地提出了时间序列重要点距离因子的概念,并首次将两种评价因子相结合对时间序列重要点进行评价,以此为依据选取分段点。本发明方法克服了现有分段线性化方法评价函数单一和具有局部性的缺点,可以有效削弱噪声干扰,准确刻画整体趋势,实现时间序列变化趋势信息的准确提取。
为了达到上述技术目的,本发明的技术方案是,
一种基于重要点双重评价因子的时间序列趋势特征提取方法,包括以下步骤:
步骤1:初始化,为待处理初始时间序列确定分段数、设置距离因子阈值和权值;
步骤2:根据时间序列重要点定义选取重要点作为时间序列分段点的备选集;
步骤3:计算重要点距离因子,用距离因子度量重要点相对差异程度;根据给定距离因子阈值滤除伪重要点,更新分段点备选集,并判断是否满足分段数要求,若不满足则需返回步骤1重新设定分段数;
步骤4:计算重要点趋势因子,用趋势因子在全局上度量重要点对整体趋势的影响程度,建立综合评价模型评价每个重要点对整体趋势的重要程度;
步骤5:将重要点按照重要程度大小进行排序并选取所需分段点,将相邻分段点连接得到时间序列的分段趋势表示。
所述的基于重要点双重评价因子的时间序列趋势特征提取方法,所述步骤1包括:为待处理时间序列设置初始分段数N,距离因子阈值ε,距离因子权值β,0<β<1;时间序列为一个由n项与时间先后顺序相关的数据记录组成的序列,其中x(ti)为在ti时刻的数据记录,t1<t2<...<tn;每一数据记录包含了所考察对象发生时间及属性,X(ti)=(ti,x1(ti));
所述初始分段数N根据用户对数据压缩率的要求确定,初始值:N=n×s,n为待处理数据个数,s为数据压缩率;然后设置距离因子阈值ε和距离因子权值β以计算分段拟合误差E,并采用粒子群寻优算法结合十折交叉算法验证来确定使分段拟合误差E最小的一组ε和β参数值作为最终模型参数,其中分段拟合误差E计算如下:
给定时间序列设分段后经过线性插值得到的时间序列为XC={xc(t1),...,xc(ti),...,xc(tn)},那么该分段表示与原始时间序列之间的拟合误差为:
所述的基于重要点双重评价因子的时间序列趋势特征提取方法,采用粒子群寻优算法确定ε和β包括以下步骤:
(1)初始化:初始化粒子群个体,设置种群大小m=20,最大更新代数Nmax=300,设置ε和β的取值范围,β∈(0,1),迭代速度Vi∈[-0.2,0.2],初始迭代次数n=0,位置向量Wi=(ε,β),其中i表示第i个粒子;
(2)使用公共数据集作为训练数据集,执行步骤3-5,得到最终分段点序列,对其进行线性插值,得到序列XC={xc(t1),...,xc(ti),...,xc(tn)};
(3)按照公式(1)计算拟合误差E,作为评价标准,E越小越好;
(4)找到每个个体自己在所有迭代过程中的最优解
(5)找到所有个体在所有迭代过程中的最优解WZbest=(ε22);
(6)根据速度公式更新速度,其中速度公式如下:
其中,c1和c2为学习因子,c1=1为飞向自身最好位置的步长,c2=2为飞向全局最好位置的步长,r1,r2为相互独立伪随机变量的向量,在[0,1]区间的均匀分布生成;
(7)根据位置公式更新位置,迭代次数t=t+1,其中位置公式如下;
Wi(n+1)=Wi(n)+Vi(n+1)
(8)判断n≤Nmax是否成立,若是则重复步骤(2)~(7),否则迭代完毕,转到步骤(9);
(9)输出最优解(ε,β)和E。
所述的基于重要点双重评价因子的时间序列趋势特征提取方法,采用十折交叉验证算法确定ε和β包括以下步骤:
(1)将时间序列数据按照时间先后顺序均分成10等份{X1,X2,…,X10};
(2)轮流将其中9份作为训练数据,1份作为测试数据,对训练数据集执行步骤2-3,计算出距离因子均值
(3)用粒子群寻优算法得到的最优参数(ε,β)和E1,计算测试集在此最优参数下的拟合误差E2,则十个数据集的平均拟合误差为:
(4)将使平均拟合误差最小的一组(ε,β)作为最终参数。
所述的基于重要点双重评价因子的时间序列趋势特征提取方法,所述步骤2选取重要点作为时间序列分段点备选集的过程包括:从时间序列起点开始顺序扫描时间序列,根据时间序列重要点定义来判断当前扫描点是否满足重要点条件之一,将符合要求的数据点存入时间序列分段点备选集中,一直扫描到时间序列终点为止。
所述的基于重要点双重评价因子的时间序列趋势特征提取方法,所述的时间序列重要点的定义为:给定时间序列定义X的第q个重要点为其中pq∈{1,2,...,n}表示q个重要点在时间序列中的位置;为满足以下条件之一的数据记录:
条件1:
条件2:
条件3:
所述的基于重要点双重评价因子的时间序列趋势特征提取方法,步骤3所述重要点距离因子为:根据步骤2中所选取的重要点得到重要点序列其中m是重要点序列中重要点的个数,以重要点与其相邻K点的差异程度为距离因子 计算公式如下式(1):
其中,K=min{|pq-1-pq|,|pq+1-pq|},即与其相邻最近重要点之间数据点个数;为重要点到点和点的正交距离;为第j个正交距离的权重系数,表达式如下式(2):
所述的基于重要点双重评价因子的时间序列趋势特征提取方法,步骤4所述重要点趋势因子定义为:给定重要点序列定义第q个重要点对整体趋势的影响程度为趋势因子且重要点满足如下条件之一:
条件1:
条件2:
条件3:
条件4:
其中,1≤pq-l<n,1<pq+r≤n,则趋势因子计算公式如式(3)所示:
所述的基于重要点双重评价因子的时间序列趋势特征提取方法,步骤4所述综合评价值的模型表达式如式(4)所示:
式(4)中,为重要点的距离因子,为其趋势因子,β为距离因子的权值。
所述的基于重要点双重评价因子的时间序列趋势特征提取方法,步骤5包括:将重要点按照表示重要程度的综合评价值大小降序排列;选取前N+1个重要点作为最终时间序列分段点,得到最终分段点序列和分段位置;将相邻位置的分段点用直线段连接,得到时间序列的分段线性趋势表示。
本发明方法的优点在于:重要点是上升、下降和平稳3种基本趋势的自然划分点,按重要点分段来对时间序列分段线性化可使基本趋势不被错误提取。同时,将具有局部性的重要点距离因子和具有全局性的趋势因子相结合作为选取分段点的度量依据,克服了现有分段线性化方法评价函数单一和具有局部性的缺点,可以有效削弱噪声干扰,准确提取趋势。
附图说明
图1为本发明方法的总体流程图;
图2为本发明方法步骤S01的初始化流程图;
图3为十折交叉验证流程图;
图4为粒子群参数寻优流程图;
图5为本发明方法步骤S02从原始时间序列中提取重要点的具体流程图;
图6为本发明方法步骤S03计算重要点距离因子并滤除伪重要点的具体流程图;
图7为重要点正交距离示意图;
图8为本发明方法步骤S04计算重要点趋势因子,建立重要点综合评价模型的具体流程图;
图9为本发明方法步骤S05对重要点进行综合评价排序选取分段点并得到最终分段线性趋势表示的具体处理流程图;
图10为时间序列分段趋势的几种基本形式示意图;
图11分段线性拟合提取灰度变化趋势结果比较图。
具体实施方式
以下结合附图对本发明的实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
图1是本发明方法的总体流程图,如图1所示,本发明基于重要点双重评价因子的趋势提取方法包括以下步骤:
步骤S01:初始化,给定初始时间序列并确定分段数、设置距离因子阈值和权值;
步骤S02:根据时间序列重要点定义选取重要点作为时间序列分段点的备选集;
步骤S03:计算重要点距离因子,用距离因子度量重要点相对差异程度;根据给定距离因子阈值滤除伪重要点,更新分段点备选集,并判断是否满足分段数要求,若不满足则需返回步骤1重新设定分段数;
步骤S04:计算重要点趋势因子,用趋势因子在全局上度量重要点对整体趋势的影响程度,建立综合评价模型评价每个重要点对整体趋势的重要程度;
步骤S05:将重要点按照重要程度大小进行排序并选取所需分段点,将相邻分段点连接得到时间序列的分段趋势表示。
下面对上述处理过程进行详细说明。
步骤S01:初始化,其流程图如图2所示,具体执行如下:
步骤S011:给定待处理时间序列它是一个由n项与时间先后顺序相关的数据记录组成的序列,其中x(ti)为在ti时刻的数据记录,t1<t2<...<tn。上述时间标号ti以合适的粒度表示(如分钟、小时等),表示属性值是随时间动态变化的。每一数据记录包含了所考察对象发生时间及M种不同属性,X(ti)=(ti,x1(ti),x2(ti),...,xM(ti),)。为了表示的方便,不失一般性,本发明只讨论仅有一个属性的时间序列,即M=1;
步骤S012:根据用户对数据的压缩率要求设置时间序列初始分段数N,例如,若要处理的时间序列数据n=400个,所需压缩率s=25%,则可设置初始分段数为:N=n×s=100,在后续步骤可根据实际情况进行适当调整;
步骤S013:设置距离因子阈值ε和距离因子权值β,采用粒子群寻优算法结合十折交叉验证寻找使分段拟合误差E最小的一组参数值作为最终模型参数,分段拟合误差E计算公式如下:
给定时间序列设分段后经过线性插值得到的时间序列为XC={xc(t1),...,xc(ti),...,xc(tn)},那么该分段表示与原始时间序列之间的拟合误差为:
十折交叉验证算法流程图如图3所示,具体执行如下:
(1)将时间序列数据按照时间先后顺序均分成10等份{X1,X2,…,X10};
(2)轮流将其中9份作为训练数据,1份作为测试数据。对训练数据集执行步骤S02~S032,计算出距离因子均值
(3)用粒子群寻优算法找到最优参数(ε,β)和E1,计算测试集在此最优参数下的拟合误差E2,则十个数据集的平均拟合误差为:
(4)将使平均拟合误差最小的一组(ε,β)作为最终参数,程序结束;粒子群寻优算法流程图如图3所示,具体执行如下:
(1)初始化:初始化粒子群个体:设置种群大小m=20,最大更新代数Nmax=300,设置ε和β的取值范围,β∈(0,1),迭代速度Vi∈[-0.2,0.2],初始迭代次数n=0,位置向量Wi=(ε,β),其中i表示第i个粒子;
(2)执行步骤S03~S05,得到最终分段点序列,对其进行线性插值,得到序列XC={xc(t1),...,xc(ti),...,xc(tn)}
(3)按照公式(1)计算拟合误差E,作为评价标准,E越小越好;
(4)找到每个个体自己在所有迭代过程中的最优解
(5)找到所有个体在所有迭代过程中的最优解WZbest=(ε22);
(6)根据速度公式更新速度,其中速度公式如下:
Vi(n+1)=Vi(n)+c1r1(n)(Wi Pbest(n)-Wi(n))+c2r2(n)(WZbest(n)-Wi(n))
其中,c1和c2为学习因子,c1=1为飞向自身最好位置的步长,c2=2为飞向全局最好位置的步长。r1,r2为相互独立伪随机变量(向量)在[0,1]区间的均匀分布生成,注意Vi不能过大超过定义域;
(7)根据位置公式更新位置,迭代次数t=t+1,其中位置公式如下;
Wi(n+1)=Wi(n)+Vi(n+1)
(8)判断n≤Nmax是否成立,若是则重复步骤(2)~(7),若否则迭代完毕,转到步骤(9);
(9)输出最优解(ε,β)和E,程序结束。
在本发明算法中,距离因子阈值ε和权值β是两个主要的参数。设置阈值ε的目的是过滤噪声,ε值过小时不能很好的起到过滤噪声的作用,导致过大的拟合误差;ε值过大时不仅会过滤噪声,还会过滤原时间序列中重要转折点,导致拟合误差的增大,其最大值不能超过距离因子平均值。权值β用来调节距离因子对最终综合评价值的相对贡献大小,由于距离因子属于局部因子,其重要程度比全局性的趋势因子低,故其权值为0<β<1。β过小时距离因子几乎不起作用,许多重要的局部趋势信息被丢弃,导致拟合效果变差,拟合误差增大;β过大时距离因子对综合评价结果影响太大,导致局部趋势信息过多提取,拟合误差增大,难以反映整体趋势。
经过大量实验数据验证,β=0.5是一组最优参数。
步骤S02:从原始时间序列中提取重要点。
时间序列分段线性表示是用相互连接的直线段来替代原有序列,目的是为了去除噪声和压缩数据,保留主要数据点,准确刻画时序趋势变化。为了实现这一目的,分段点的选取尤为重要。在数据挖掘领域,时间序列的极值点一般都具有重要意义。在本发明的方法中,时间序列的局部极值点、起点和终点均是时间序列重要点。位于时间序列重要点前后的时间序列变化趋势是完全不一样的,而相邻重要点之间具有同一基本趋势,它是趋势变化的自然转折点,因此需要从原始时间序列中提取重要点作为分段点的备选集。
步骤S02的流程图如图3所示,具体执行如下:
步骤S021:对于给定的待处理时间序列首先给各变量赋初值,i=1,q=0,m=0,pq=0,i为时间序列标号,i=1表示从时间序列起点开始扫描;q为重要点序号;m为重要点个数;pq表示第q个重要点在时间序列中的位置;
步骤S022:对于当前扫描到的时间序列数据点x(ti),判断其是否满足重要点条件之一,若满足,执行步骤S023,若不满足,执行步骤S025;其中,重要点条件为:
条件1:{x(ti-1)≤x(ti)}∩{x(ti+1)≤x(ti)}∪{x(ti-1)<x(ti)}∩{x(ti+1)≤x(ti)};
条件2:{x(ti-1)≥x(ti)}∩{x(ti+1)>x(ti)}∪{x(ti-1)>x(ti)}∩{x(ti+1)≥x(ti)};
条件3:x(ti)=x(t1)or x(ti)=x(tn);
步骤S023:令q=q+1,m=q,pq=i,即在当前扫描点x(ti)满足重要点条件之一的情况下,将重要点序号q自增1,此时重要点个数m=q,第q个重要点在原时间序列中的位置pq=i;
步骤S024:记将其存入时间序列分段点备选集中,其中pq∈{1,2,...,n}表示第q个重要点在时间序列中的位置,m为重要点个数;
步骤S025:令i=i+1,即将时间序列标号自增1,转到时间序列当前扫描点的下一个点进行处理;
步骤S026:判断i≤n是否为真,若是,则转到步骤S022执行;若否,则说明原时间序列所有点均扫描完毕,程序结束。
通过上述处理,能提取出原始时间序列的重要点,它是趋势变化的自然转折点,将其作为分段点可以保证时间序列分段基本趋势不被错误提取。但是由于噪声干扰等原因,上述得到的重要点集合中有一部分是伪重要点,需要对其进行进一步处理。此外,另外,对于每个重要点而言,其对整体趋势的影响程度不一。因此需要有评价因子对其进行评价,以此作为依据从中选取一定数目的分段点。
步骤S03:计算重要点距离因子并滤除伪重要点。
由于在噪声干扰下,上述步骤2中得到的时间序列分段点备选集中有一部分伪重要点,必须将其剔除才能保证趋势提取结果准确可靠。其特点是具有局部性,且与相邻点的差异程度较小。针对这一特点,本发明提出了重要点距离因子的概念,用距离因子作为其中一个评价因子,并给出了距离因子的度量方式。
步骤S03的流程图如图4所示,具体执行如下:
步骤S031:对于上述步骤2输出的分段点备选集首先令q=2,l=m,其中q为重要点序号,q=2表示从第二个重要点开始计算距离因子,这是由于时间序列的起点与终点即第一个和最后一个重要点没有距离因子,l为滤除伪重要点后重要点个数。
步骤S032:按公式(1)和(2)计算当前重要点的距离因子
上述重要点距离因子定义为:给定重要点序列定义重要点与其相邻K点的差异程度为距离因子其计算公式如式(1)所示:
式(1)中,K=min{|pq-1-pq|,|pq+1-pq|},即与其相邻最近重要点之间数据点个数;为重要点到点和点的正交距离。为第j个正交距离的权重系数,其表达式如下:
式(2)中,将重要点的相邻区间分为三部分,距离重要点越近的区间其正交距离权重系数越高,对重要点距离因子的贡献越大。
图5为重要点正交距离示意图,图中虚线所示即为正交距离,当变到位置时,其相应正交距离由dj增大到d′j,即当重要点与其相邻点的差异程度越大时,其正交距离越大,相应地,由K点差异程度所确定的距离因子也越大。
上述距离因子在局部范围内比较重要点的相对差异程度,距离因子越大的点与其相邻点的差异程度越大,其是重要转折点的可能性越大,而距离因子越小的点是噪声引起的伪重要点的可能性越大,因此可以通过选择合适的距离因子阈值去除伪重要点。
步骤S033:判断是否成立,即当前重要点距离因子是否小于距离因子阈值,若是,则说明该重要点是伪重要点,执行步骤(3.4),若否,执行步骤(3.5);
步骤S034:剔除当前重要点
步骤S035:l=m-1,将重要点个数减1,并将当前计算得到的距离因子存入重要点距离因子集合中。
步骤S036:q=q+1,转到下一个重要点执行操作;
步骤S037:判断q≥m是否成立,若是,则说明当前除起点和终点外所有重要点均计算完毕,执行步骤S038,若否,则转到步骤S032执行;
步骤S038:更新筛选完后的时间序列分段点备选集记为即将重要点序号q更新,按照原来序号从小到大重新编号,此时重要点的个数为l;
步骤S039:判断l-1≥N是否成立,若是,则满足分段数要求,执行步骤S04,若否,则转到步骤S011重新设置分段数N;
上述分段数要求为:更新后分段点备选集中分段点确定的分段数不能小于给定分段数N,即l-1≥N。当l-1<N时,设置的分段数N太大,不能剔除伪重要点,需减小分段数N。
通过上述处理,得到滤除伪重要点后的分段点备选集和各重要点的距离因子值,极大地削弱了噪声干扰的影响。但是上述距离因子是由相邻K点差异程度所确定的,具有一定局部性,不能在全局上衡量每个重要点对整体趋势的重要程度,且时间序列的起点与终点无法用距离因子评价,仅用距离因子作为重要点评价因子是不够的。因此,本发明给出重要点趋势因子的概念,作为重要点另一评价因子,并建立重要点综合评价模型,对其进行进一步处理。
步骤S04:计算重要点趋势因子并建立重要点综合评价模型,将重要点按照综合评价值大小进行排序并选取分段点。
本发明用重要点趋势因子在全局上度量重要点对整体趋势的影响程度,趋势因子的值越大,该点对时序数据整体趋势的影响越大,在趋势分析中越应该保留。本发明中建立重要点综合评价模型,将具有局部性的距离因子和具有全局性的趋势因子相结合对时间序列重要点进行综合评价,为后续剔除干扰点和选取合适数目的重要点作为分段点来对时间序列进行分段线性趋势表示提供依据。
步骤S04的流程图如图6所示,具体执行如下:
步骤S041:令q=1,即对步骤3所输出的更新后的分段点备选集和重要点距离因子集合均从第一个数据开始处理。
步骤S042:按照公式(3)计算重要点趋势因子并存入集合Q中;
上述重要点趋势因子定义为:给定重要点序列定义第q个重要点对整体趋势的影响程度为趋势因子重要点满足如下条件之一:
条件1:
条件2:
条件3:
条件4:
其中,1≤pq-l<n,1<pq+r≤n,则趋势因子计算公式如式(3)所示:
上述定义中比较每个重要点与1≤(l+r)≤n个点(包括其他重要点)的关系来确定趋势因子,在全局上考虑每个重要点对整体趋势的影响,趋势因子的值越大,该点对时序数据整体趋势的影响越大,在趋势分析中越应该保留。由趋势因子的定义可以看出,时序数据的起点和终点,以及全局的最大、最小值都具有最大的趋势因子值,即此外,结合之间的重要点定义可知,重要点必会满足上述四个条件之一,其趋势因子
步骤S043:按照公式(4)重要点综合评价模型计算重要点综合评价值并存入集合中;其中上述综合评价模型如式(4)所示:
式(4)中,为重要点的距离因子,为其趋势因子,β为距离因子的权值。该重要点综合评价模型将重要点距离因子与趋势因子相结合,评价重要点对整体趋势的重要程度。在上述模型中,由于时间序列的起点与终点无法用距离因子评价,故其综合评价值由趋势因子确定。此外,由于距离因子属于局部因子,其重要程度比全局性的趋势因子低,故其权值为0<β<1。
步骤S044:q=q+1,转到下一重要点进行操作;
步骤S045:判断q>l是否成立,若是,则说明所有重要点均计算完毕;若否,则返回到步骤S042执行;
步骤S05:将重要点按照重要程度大小进行排序并选取所需分段点,将相邻分段点连接得到时间序列的分段趋势表示。其具体处理流程如图7所示,具体执行如下:
步骤S051:将重要点按照综合评价值大小降序排列;
步骤S052:选取前N+1个重要点作为最终时间序列分段点,得到最终分段点序列和分段位置,pq∈{1,2,...n}表示第q个重要点在时间序列中的位置;
步骤S053:将相邻位置的分断点用直线段连接,得到时间序列的分段线性趋势表示,程序结束,此时可以直观地看出时间序列的趋势变化情况;
其中上述时间序列分段线性趋势有几种基本形式,分别为上升趋势、平稳趋势、下降趋势,具体如图8所示;
通过上述处理,可以得到时间序列的分段趋势特征。为了更加清楚的说明本发明所提出基于重要点双重评价因子的趋势提取方法的有效性,采用金锑矿泡沫浮选过程在粗选槽获取的图像中提取的一组泡沫灰度数据进行实验,时间间隔为1min,共400组数据,剔除异常值后作为原始数据。在这400min内主要操作变量黄药剂量的改变如下表1所示,
表1 泡沫浮选过程不同时间段内黄药添加量
理论上,在一定范围内,黄药剂量的增大会使灰度值波动上升,而黄药剂量的减小会使灰度值波动下降,波动是化学药剂反应的不稳定性造成的。
针对这组数据,分别用基于趋势转折点的时间序列PLR方法[9](简称PLR-TP方法)和本发明基于重要点双重评价因子的趋势提取方法分析泡沫灰度的变化趋势,给定分段数N=85,距离因子阈值距离因子权值β=0.5,结果如图9所示。
通过图9两种方法对比可以看出本文方法有较强的过滤局部噪声干扰的能力,相比PLR-TP方法获取的灰度变化趋势更贴近其原有变化趋势。PLR-TP方法拟合曲线在[10,25]、[95,126]、[155,170]、[350,365]等多个时间段与原始曲线分段基本趋势不相符。这是因为PLR-TP方法仅通过由相邻三点的关系选取变化幅度大的极值点和短期大波动数据点作为重要趋势转折点,属于局部分析方法,对于整体趋势的刻画效果不佳,而本文方法将具有全局性的趋势因子和具有局部性的距离因子相结合作为分段点选取的依据,提取趋势结果更为准确。图8中,本文方法拟合曲线在[25,55]时间段内,由于黄药剂量从380下降到360,灰度值呈现明显的波动下降趋势;在[55,155]时间段,黄药剂量由360上升到380,灰度值呈现明显的波动上升趋势;在[155,365]时间段,没有改变药剂量,灰度值变化呈平稳趋势;在[365,400]时间段内,黄药剂量由380上升到390,灰度值再次呈现明显的波动上升趋势。基本上与理论估计相符,说明了本文方法对浮选泡沫图像灰度特征趋势提取的准确性。
本发明方法在时间序列分段线性表示的基础上,研究重要点对过程数据整体趋势的重要程度,给出重要点趋势因子和距离因子的定量计算方法,并提出重要点综合评价模型,这是基于重要点双重评价因子的分段线性趋势表示方法的核心。重要点是上升、下降和平稳3种基本趋势的自然划分点,按重要点分段来对时间序列分段线性化可使基本趋势不被错误提取。同时,将具有局部性的重要点距离因子和具有全局性的趋势因子相结合作为选取分段点的度量依据,可以有效削弱噪声干扰,准确提取趋势。最后将本发明方法应用于金锑矿泡沫浮选粗选槽获取的泡沫灰度数据,提取其变化趋势,并与基于趋势转折点的分段线性表示方法对比,验证了所提方法对趋势拟合的有效性和准确性。

Claims (10)

1.一种基于重要点双重评价因子的时间序列趋势特征提取方法,其特征在于,包括以下步骤:
步骤1:初始化,为待处理初始时间序列确定分段数、设置距离因子阈值和权值;
步骤2:根据时间序列重要点定义选取重要点作为时间序列分段点的备选集;
步骤3:计算重要点距离因子,用距离因子度量重要点相对差异程度;根据给定距离因子阈值滤除伪重要点,更新分段点备选集,并判断是否满足分段数要求,若不满足则需返回步骤1重新设定分段数;
步骤4:计算重要点趋势因子,用趋势因子在全局上度量重要点对整体趋势的影响程度,建立综合评价模型评价每个重要点对整体趋势的重要程度;
步骤5:将重要点按照重要程度大小进行排序并选取所需分段点,将相邻分段点连接得到时间序列的分段趋势表示。
2.根据权利要求1所述的基于重要点双重评价因子的时间序列趋势特征提取方法,其特征在于,所述步骤1包括:为待处理时间序列设置初始分段数N,距离因子阈值ε,距离因子权值β,0<β<1;时间序列为一个由n项与时间先后顺序相关的数据记录组成的序列,其中x(ti)为在ti时刻的数据记录,t1<t2<...<tn;每一数据记录包含了所考察对象发生时间及属性,X(ti)=(ti,x1(ti));
所述初始分段数N根据用户对数据压缩率的要求确定,初始值:N=n×s,n为待处理数据个数,s为数据压缩率;然后设置距离因子阈值ε和距离因子权值β以计算分段拟合误差E,并采用粒子群寻优算法结合十折交叉算法验证来确定使分段拟合误差E最小的一组ε和β参数值作为最终模型参数,其中分段拟合误差E计算如下:
给定时间序列设分段后经过线性插值得到的时间序列为XC={xc(t1),...,xc(ti),...,xc(tn)},那么该分段表示与原始时间序列之间的拟合误差为:
3.根据权利要求2所述的基于重要点双重评价因子的时间序列趋势特征提取方法,其特征在于,采用粒子群寻优算法确定ε和β包括以下步骤:
(1)初始化:初始化粒子群个体,设置种群大小m=20,最大更新代数Nmax=300,设置ε和β的取值范围,β∈(0,1),迭代速度Vi∈[-0.2,0.2],初始迭代次数n=0,位置向量Wi=(ε,β),其中i表示第i个粒子;
(2)使用公共数据集作为训练数据集,执行步骤3-5,得到最终分段点序列,对其进行线性插值,得到序列XC={xc(t1),...,xc(ti),...,xc(tn)};
(3)按照公式(1)计算拟合误差E,作为评价标准,E越小越好;
(4)找到每个个体自己在所有迭代过程中的最优解Wi Pbest=(ε11);
(5)找到所有个体在所有迭代过程中的最优解WZbest=(ε22);
(6)根据速度公式更新速度,其中速度公式如下:
Vi(n+1)=Vi(n)+c1r1(n)(Wi Pbest(n)-Wi(n))+c2r2(n)(WZbest(n)-Wi(n))
其中,c1和c2为学习因子,c1=1为飞向自身最好位置的步长,c2=2为飞向全局最好位置的步长,r1,r2为相互独立伪随机变量的向量,在[0,1]区间的均匀分布生成;
(7)根据位置公式更新位置,迭代次数t=t+1,其中位置公式如下;
Wi(n+1)=Wi(n)+Vi(n+1)
(8)判断n≤Nmax是否成立,若是则重复步骤(2)~(7),否则迭代完毕,转到步骤(9);
(9)输出最优解(ε,β)和E。
4.根据权利要求3所述的基于重要点双重评价因子的时间序列趋势特征提取方法,其特征在于,采用十折交叉验证算法确定ε和β包括以下步骤:
(1)将时间序列数据按照时间先后顺序均分成10等份{X1,X2,…,X10};
(2)轮流将其中9份作为训练数据,1份作为测试数据,对训练数据集执行步骤2-3,计算出距离因子均值
(3)用粒子群寻优算法得到的最优参数(ε,β)和E1,计算测试集在此最优参数下的拟合误差E2,则十个数据集的平均拟合误差为:
(4)将使平均拟合误差最小的一组(ε,β)作为最终参数。
5.根据权利要求1所述的基于重要点双重评价因子的时间序列趋势特征提取方法,其特征在于,所述步骤2选取重要点作为时间序列分段点备选集的过程包括:从时间序列起点开始顺序扫描时间序列,根据时间序列重要点定义来判断当前扫描点是否满足重要点条件之一,将符合要求的数据点存入时间序列分段点备选集中,一直扫描到时间序列终点为止。
6.根据权利要求3所述的基于重要点双重评价因子的时间序列趋势特征提取方法,其特征在于,所述的时间序列重要点的定义为:给定时间序列定义X的第q个重要点为其中pq∈{1,2,...,n}表示q个重要点在时间序列中的位置;为满足以下条件之一的数据记录:
条件1:
条件2:
条件3:
7.根据权利要求4所述的基于重要点双重评价因子的时间序列趋势特征提取方法,其特征在于,步骤3所述重要点距离因子为:根据步骤2中所选取的重要点得到重要点序列其中m是重要点序列中重要点的个数,以重要点与其相邻K点的差异程度为距离因子计算公式如下式(1):
其中,K=min{|pq-1-pq|,|pq+1-pq|},即与其相邻最近重要点之间数据点个数;为重要点到点和点的正交距离;为第j个正交距离的权重系数,表达式如下式(2):
8.根据权利要求1所述的基于重要点双重评价因子的时间序列趋势特征提取方法,其特征在于,步骤4所述重要点趋势因子定义为:给定重要点序列定义第q个重要点对整体趋势的影响程度为趋势因子且重要点满足如下条件之一:
条件1:
条件2:
条件3:
条件4:
其中,1≤pq-l<n,1<pq+r≤n,则趋势因子计算公式如式(3)所示:
9.根据权利要求1所述的基于重要点双重评价因子的时间序列趋势特征提取方法,其特征在于,步骤4所述综合评价值的模型表达式如式(4)所示:
式(4)中,为重要点的距离因子,为其趋势因子,β为距离因子的权值。
10.根据权利要求1所述的基于重要点双重评价因子的时间序列趋势特征提取方法,其特征在于,步骤5包括:将重要点按照表示重要程度的综合评价值大小降序排列;选取前N+1个重要点作为最终时间序列分段点,得到最终分段点序列和分段位置;将相邻位置的分段点用直线段连接,得到时间序列的分段线性趋势表示。
CN201710818994.1A 2017-09-12 2017-09-12 基于重要点双重评价因子时间序列趋势特征提取方法 Active CN108804731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710818994.1A CN108804731B (zh) 2017-09-12 2017-09-12 基于重要点双重评价因子时间序列趋势特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710818994.1A CN108804731B (zh) 2017-09-12 2017-09-12 基于重要点双重评价因子时间序列趋势特征提取方法

Publications (2)

Publication Number Publication Date
CN108804731A true CN108804731A (zh) 2018-11-13
CN108804731B CN108804731B (zh) 2021-08-13

Family

ID=64094989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710818994.1A Active CN108804731B (zh) 2017-09-12 2017-09-12 基于重要点双重评价因子时间序列趋势特征提取方法

Country Status (1)

Country Link
CN (1) CN108804731B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933607A (zh) * 2019-01-25 2019-06-25 四川眷诚天佑科技有限公司 周期性时间序列数据处理方法
CN110162552A (zh) * 2019-05-09 2019-08-23 山东科技大学 基于置信区间的时间序列特征提取方法及***
CN110266552A (zh) * 2019-08-15 2019-09-20 华为技术有限公司 流量异常检测的方法、模型训练方法和装置
CN111797686A (zh) * 2020-05-29 2020-10-20 中南大学 基于时间序列相似性分析的泡沫浮选生产过程运行状态稳定度评估方法
CN112101468A (zh) * 2020-09-18 2020-12-18 刘吉耘 一种在序列组合中判定异常序列的方法
CN112765562A (zh) * 2021-01-15 2021-05-07 杭州安脉盛智能技术有限公司 一种基于动态网格划分的时序数据趋势特征提取方法
CN113659936A (zh) * 2020-05-12 2021-11-16 大唐移动通信设备有限公司 一种线性化模型的分段点确定方法及装置
CN115955251A (zh) * 2023-03-15 2023-04-11 北京智蚁杨帆科技有限公司 一种基于大数据应用的可再生能源智慧管理方法及***
CN117575684A (zh) * 2024-01-15 2024-02-20 杭州路过网络有限公司 一种客流量预测方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820779A (zh) * 2015-04-28 2015-08-05 电子科技大学 一种基于极值点和转折点的时间序列降维方法
CN106227965A (zh) * 2016-07-29 2016-12-14 武汉大学 一种顾及时空分布非平稳特征的土壤有机碳空间抽样网络设计方法
KR101701909B1 (ko) * 2015-09-03 2017-02-02 동국대학교 산학협력단 온라인 지도 서비스의 정지영상으로부터 동영상을 생성하는 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820779A (zh) * 2015-04-28 2015-08-05 电子科技大学 一种基于极值点和转折点的时间序列降维方法
KR101701909B1 (ko) * 2015-09-03 2017-02-02 동국대학교 산학협력단 온라인 지도 서비스의 정지영상으로부터 동영상을 생성하는 장치 및 방법
CN106227965A (zh) * 2016-07-29 2016-12-14 武汉大学 一种顾及时空分布非平稳特征的土壤有机碳空间抽样网络设计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周黔 等: "基于重要点的时间序列趋势特征提取方法", 《浙江大学学报(工学版)》 *
谢婷玉 等: "基于重要点双重评价因子的时间序列趋势提取方法", 《第28届中国过程控制会议(CPCC 2017)暨纪念中国过程控制会议30周年摘要集》 *
谢婷玉 等: "基于重要点双重评价的时间序列趋势提取", 《信息与控制》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933607A (zh) * 2019-01-25 2019-06-25 四川眷诚天佑科技有限公司 周期性时间序列数据处理方法
CN109933607B (zh) * 2019-01-25 2023-10-03 微诺时代(北京)科技股份有限公司 周期性时间序列数据处理方法
CN110162552A (zh) * 2019-05-09 2019-08-23 山东科技大学 基于置信区间的时间序列特征提取方法及***
CN110266552A (zh) * 2019-08-15 2019-09-20 华为技术有限公司 流量异常检测的方法、模型训练方法和装置
CN113659936B (zh) * 2020-05-12 2023-06-30 大唐移动通信设备有限公司 一种线性化模型的分段点确定方法及装置
CN113659936A (zh) * 2020-05-12 2021-11-16 大唐移动通信设备有限公司 一种线性化模型的分段点确定方法及装置
CN111797686A (zh) * 2020-05-29 2020-10-20 中南大学 基于时间序列相似性分析的泡沫浮选生产过程运行状态稳定度评估方法
CN111797686B (zh) * 2020-05-29 2024-04-02 中南大学 基于时间序列相似性分析的泡沫浮选生产过程运行状态稳定度评估方法
CN112101468A (zh) * 2020-09-18 2020-12-18 刘吉耘 一种在序列组合中判定异常序列的方法
CN112101468B (zh) * 2020-09-18 2024-04-16 刘吉耘 一种在序列组合中判定异常序列的方法
WO2022151829A1 (zh) 2021-01-15 2022-07-21 杭州安脉盛智能技术有限公司 一种基于动态网格划分的时序数据趋势特征提取方法
CN112765562B (zh) * 2021-01-15 2022-07-01 杭州安脉盛智能技术有限公司 一种基于动态网格划分的时序数据趋势特征提取方法
CN112765562A (zh) * 2021-01-15 2021-05-07 杭州安脉盛智能技术有限公司 一种基于动态网格划分的时序数据趋势特征提取方法
CN115955251A (zh) * 2023-03-15 2023-04-11 北京智蚁杨帆科技有限公司 一种基于大数据应用的可再生能源智慧管理方法及***
CN117575684A (zh) * 2024-01-15 2024-02-20 杭州路过网络有限公司 一种客流量预测方法及***
CN117575684B (zh) * 2024-01-15 2024-04-05 杭州路过网络有限公司 一种客流量预测方法及***

Also Published As

Publication number Publication date
CN108804731B (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN108804731A (zh) 基于重要点双重评价因子时间序列趋势特征提取方法
CN103870845B (zh) 点云聚类去噪过程中新的k值优化方法
CN107909118B (zh) 一种基于深度神经网络的配电网工况录波分类方法
CN100595782C (zh) 一种融合光谱信息和多点模拟空间信息的分类方法
CN106803253B (zh) 一种三维岩石图像裂缝识别方法
CN107657242A (zh) 一种大地电磁信噪辨识及分离方法
CN108241873A (zh) 一种面向泵站主设备的智能故障诊断方法
CN106611423B (zh) 基于脊波滤波器和反卷积结构模型的sar图像分割方法
CN110110738A (zh) 一种基于多特征融合的雷达辐射源识别方法
CN110163213A (zh) 基于视差图和多尺度深度网络模型的遥感图像分割方法
CN109067427B (zh) 一种基于优化型小波神经网络的跳频序列预测方法
CN104182771B (zh) 基于带丢包自动编码技术的时间序列数据图形化分析方法
CN109325513B (zh) 一种基于海量单类单幅图像的图像分类网络训练方法
CN106600595A (zh) 一种基于人工智能算法的人体特征尺寸自动测量方法
CN108052863A (zh) 基于最大方差展开法的电能质量扰动识别方法
CN104899607A (zh) 一种传统云纹图案的自动分类方法
CN109471074A (zh) 基于奇异值分解与一维cnn网络的雷达辐射源识别方法
CN104751000A (zh) 一种机电复合传动状态监测信号小波降噪方法
CN101587186A (zh) 一种雷达脉内调制信号的特征提取方法
CN109872326B (zh) 基于深度强化网络跳跃连接的轮廓检测方法
CN115034261B (zh) 雷达辐射源信号脉间特征提取方法、设备及存储介质
CN102200981A (zh) 面向多层文本分类的特征选择方法和装置
CN107102861A (zh) 一种获取开源代码库中函数的向量的方法和***
CN111010356A (zh) 一种基于支持向量机的水声通信信号调制方式识别方法
CN110458189A (zh) 压缩感知和深度卷积神经网络电能质量扰动分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant