CN114911846A

CN114911846A - 一种基于fad和dtw的水文时间序列相似性搜索方法

Info

Publication number: CN114911846A
Application number: CN202210531963.9A
Authority: CN
Inventors: 杨佳琦; 万定生; 余宇峰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-16

Abstract

本发明公开一种基于FAD和DTW的水文时间序列相似性搜索方法，该方法包括：首先利用小波变换对预先获取的时间序列进行平滑处理；其次，选择时间序列中的起始点、终止点和局部极值点作为特征点，对相邻特征点之间的数据段赋予语义，对序列进行语义符号化表示；然后计算初步候选集中子序列以及待查询序列中每个点的导数估计值，得到导数估计序列，然后转换为符号表示序列，最后得到初步候选集中子序列和待查询序列对应的特征序列；以上数据表示阶段完成后，首先利用FAD找出趋势近似的子序列，然后利用DTW进行精确匹配，最终的相似子序列。本发明结合FAD和DTW的特点对历史时间序列进行相似性搜索，很大程度上提高了搜索效率。

Description

一种基于FAD和DTW的水文时间序列相似性搜索方法

技术领域

本发明属于水文数据挖掘技术领域，具体涉及一种基于FAD和DTW的水文时间序列相似性搜索方法。

背景技术

水文时间序列相似性搜索旨给定某个时间序列，从历史上的时间序列中找出与之相似的子序列。发现时间序列数据库中蕴藏的相似性，有利于掌握数据变化规律和趋势，为有效预测提供依据。因而对水文时间序列相似性搜索的研究在洪水预报、防洪调度方面有重要的现实意义。

水文时间序列相似性搜索涉及的问题主要包括时间序列特征表示、相似性度量、子序列匹配等。很多研究人员采用不同的方法围绕时间序列相似性的研究已取得了一定的成果，并在水文领域有了一定的应用。水文时间序列的相似性度量方法主要有欧氏距离、动态时间弯曲距离以及相关改进算法(如DTW-SS、FastDTW)。其中欧式距离简单易于理解，但仅适用于等长时间序列之间的相似性比较。DTW通过弯曲时间轴能得到高精确度的度量效果，但其计算方法为逐点匹配，时间复杂度高。因此，需要找到一种在保证查询准确率的同时，能大幅度降低时间复杂度的相似性搜索方法。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于FAD和DTW的水文时间序列相似性搜索方法，结合数据挖掘的相关技术，提供一种在保证查询效率的同时能提高查询效率的水文时间序列现实性搜索方法。

技术方案：本发明的一种基于FAD和DTW的水文时间序列相似性搜索方法，包括以下步骤：

步骤S1、为了消除原始时间序列中的噪声，利用小波变换对历史时间序列和待查询序列进行数据平滑处理；

步骤S2、选择平滑后的时间序列中的起始点、终止点和满足一定条件的局部极值点作为特征点，对相邻特征点之间的数据段赋予语义上升(U)、保持(B)、下降(D)，对历史时间序列和待查询序列进行语义符号化表示；

步骤S3、从历史序列中筛选出与待查询序列语义相同的子序列作为初步候选集；

步骤S4、计算初步候选集中子序列以及待查询序列中每个点的导数估计值，得到导数估计序列，然后将其转换为符号表示序列，最后得到初步候选集中子序列和待查询序列对应的特征序列；

步骤S5、利用FAD相似性度量方法将待查询序列的特征序列与初步候选集中的特征子序列依次进行近似匹配，根据FAD距离的大小筛选出前M个变化趋势近似的子序列；

步骤S6、将查询序列与这M个近似子序列进行DTW精确匹配，获取DTW距离最小的前N个子序列即为最佳的相似子序列；

所述步骤S2是对时间序列进行语义符号化表示，所述步骤S2进一步为：

步骤S2.1、设有时间序列T＝(x₁，x₂...x_n)，若满足以下条件之一，则称数据点T＝(x₁，x₂...x_n)是一个极值点：

(1)m＝1或m＝n；

(2)x_m≥x_m-1且x_m≥x_m+1，其中1＜m＜n；

(3)x_m≤x_m-1且x_m≤x_m+1，其中1＜m＜n；

步骤S2.2、对相邻极值点之间的数据段赋予语义上升(U)、保持(B)、下降(D)，对历史时间序列和待查询序列进行语义符号化表示；

所述步骤S4是将时间序列转换为特征序列，所述步骤S4进一步为：

步骤S4.1、设有某一时间序列T＝(x₁，x₂...x_n)，将原始时间序列转换为导数估计序列，导数估计值的计算公式如下：

其中，X_h为时间序列T＝(x₁，x₂...x_n)中的一个数据点；

步骤S4.2、获得导数估计序列后

根据导数值的分布，将其划分成不同的符号值，该符号值反映时间序列的趋势信息。符号表示序列的转换公式如下：

其中R_h是

的符号化表示，参数ε是变化趋势的阈值(ε≥0)，用来判断数据的变化幅度。参数λ是用于表示原始序列的符号数目；

步骤S4.3、将得到的符号表示序列进行变换，得到特征序列

其中S_j＝(R_j，k_j)，R_j是特征序列

中的某个表示符号，k_j是相同符号的相邻点个数。

步骤S4.4、按照上述步骤获取初步候选集中子序列和待查询序列对应的特征序列。

所述步骤S5是将初步候选集中的子序列与待查询序列依次进行FAD相似性度量，所述步骤S2进一步为：

步骤S5.1、设

为初步候选集中的一个子序列的特征序列，

为待查询序列的特征序列。

若序列

和

中对应的片段用不同的符号表示，即两个片段的变化趋势不同，这两个片段之间的距离公式如下：

D(S1_i，S2_j)＝1，(R1_i≠R2_j)

其中S1_i和S2_j分别是序列

和

的片段子序列，R1_i和R2_j是S1_i和S2_j对应的符号表示；

步骤S5.2、若序列

和

对应的片段用相同的符号表示，即两个片段有相似的变化趋势。这两个片段之间的距离主要取决于它们的长度差异，计算公式如下：

其中k1_i和k2_j分别是

和

中点的数目，γ是一个可调参数，用于改变相同符号到不同符号的距离比值。理论上，相同符号片段的距离必须小于不同符号片段的距离。因此，0≤D(S1_i，S2_j)＜1且γ∈[0，1]。

步骤S5.3、由于时间序列的长度可能不等以及FAD的时间扭曲，往往会在某个序列中会有一些片段没有片段可以映射。这些片段可以看作与任何属于另一序列的片段都不相似，计算公式如下：

D(-，S_i)＝1

步骤S5.4、结合步骤S5.1至步骤S5.3，将两个片段的距离计算公式总结如下。

因此时间序列

和

的FAD距离计算公式如下：

步骤S5.5、根据FAD距离值大小筛选出距离最小的前50个子序列组成后续的待匹配候选集。

所述步骤S6是将待匹配候选集中的子序列与待查询序列依次进行DTW相似性度量，所述步骤S6进一步为：

步骤S6.1、计算待查询序列与待匹配候选集中子序列的DTW距离值，获取DTW距离最小的前4个子序列作为最佳的相似子序列。DTW距离的计算公式如下：

其中，Q为待查询序列，Y为待匹配候选集中的一个子序列，

D_base(q₁，y₁)表示Q的第i个时间点向量与Y第j个时间点向量间的基础距离，基础距离在此使用欧氏距离表示。

步骤S6.2、输出最终相似序列结果集。

有益效果：与现有技术相比，本发明的优点在于：

本发明基于现有的相似性度量方法，综合考虑水文时间序列的形态特征和数值特征，结合基于趋势特征的FAD近似匹配和DTW精确匹配进行水文时间序列相似性搜索，能有效挖掘流域内的相似序列。

与传统DTW相比，FAD_DTW克服了DTW由于逐点匹配而计算复杂度高的问题，通过先筛选出形态趋势近似的子序列，可以大大缩减后续相似性匹配的候选集，有效提高查询效率，在洪水预报、防洪调度方面有重要的现实意义。

附图说明

图1为本发明实施例中的整体步骤图；

图2为实施例中符号表示序列转换为特征序列的示意图；

图3、图4为实施例两组实验中FAD_DTW方法获取的相似子序列；

图5、图6为实施例两组实验中DTW-SS方法获取的相似子序列；

图7为实施例中随历史序列年数增长时FAD_DTW和DTW-SS的查询时间对比；

图8为实施例中随待查询序列长度增长时FAD_DTW和DTW-SS的查询时间对比；

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本实施例的一种基于测站的网格雨量计算方法，包括以下步骤：

步骤S1、选取屯溪流域屯溪站的水文数据作为数据集，从中获取待查询序列Q以及历史时间序列S，利用小波变换对获取的时间序列进行平滑处理，得到平滑处理后的待查询序列Q′以及历史时间序列S′。

步骤S2、选择待查询序列Q′中的起始点、终止点和满足一定条件的局部极值点作为特征点，对相邻特征点之间的数据段赋予语义上升(U)、保持(B)、下降(D)，对历史时间序列和待查询序列进行语义符号化表示；

步骤S2.1、其中对于待查询序列Q′＝{x₁，x₂...x_n}，若满足以下条件之一，则称数据点x_m(m≤n)是一个极值点：

(1)m＝1或m＝n；

(2)x_m≥x_m-1且x_m≥x_m+1，其中1＜m＜n；

(3)x_m≤x_m-1且x_m≤x_m+1，其中1＜m＜n；

步骤S2.2、按照步骤S2.1中的条件提取出序列Q′的极值点，得到极值点序列Q″，对Q″进行符号化表示。对于极值点序列Q″，分别取每两个数据点间的模式构成新的时间序列Q″′＝{q₁，q₂，...q_n}。其中q_i属于{U，B，D}，分别表示上升、保持和下降的趋势，Q″′作为Q′的语义模式表示；

步骤S3、按照步骤2中的方式，将历史时间序列S以同样的方式提取极值点，并得到S的语义模式表示S″′；

步骤S4、从历史序列S′中筛选出与待查询序列Q′语义相同的子序列作为初步候选集Z；

步骤S5、计算待查询序列Q′中每个点的导数估计值，得到导数估计序列

然后将其转换为符号表示序列，最后得到Q′对应的特征序列

步骤S5.1、获取导数估计序列

导数估计值计算公式如下：

步骤S5.2、根据导数值的分布，将其划分成不同的符号值，该符号值反映时间序列的趋势信息。符号表示序列的转换公式如下：

其中R_h是

的符号化表示，参数ε是变化趋势的阈值(ε≥0)，用来判断数据的变化幅度。参数λ(λ≥1且λ为整数)是用于表示原始序列的符号数目。例如我们可以将原始序列转换为-3、-2、-1、0、1、2、3等组成的序列；

步骤S5.3、将得到的符号表示序列进行变换，得到待查询序列的特征序列

其中S_j＝(R_j，k_j)，R_j是特征序列中的某个表示符号，k_j是相同符号的相邻点个数，图2展示了整个变换过程；

步骤S6、按照步骤S5中获取特征序列的方法，将候选集中Z中的所有子序列以同样的方式计算导数估计值，并得到对应的特征子序列集

步骤S7、依次计算待查询序列的特征序列

与

中所有子序列的FAD距离值，根据FAD距离的大小筛选出前50个与待查询序列变化趋势近似的子序列，构成待匹配数据集S′。

步骤S7.1、设

为

中的一个特征子序列。若序列

和

D(S1_i，S2_j)＝1，(R1_i≠R2_j)

步骤S7.2、若序列

和

其中k1_i和k2_j分别是

和

步骤S7.3、由于时间序列的长度可能不等以及FAD的时间扭曲，往往会在某个序列中会有一些片段没有片段可以映射。这些片段可以看作与任何属于另一序列的片段都不相似，计算公式如下：

D(-，S_i)＝1

步骤S7.4、结合步骤步骤S5.1至步骤S5.3，将两个片段的距离计算公式总结如下。

因此时间序列

和

的FAD距离计算公式如下：

步骤S8、计算待查询序列与候选集S′中每个子序列的DTW距离值，获取DTW距离最小的前4个子序列即为最佳的相似子序列。DTW距离的计算公式如下：

其中，Q为待查询序列，Y为待匹配候选集中的一个子序列，

为验证本发明的效果，以屯溪流域屯溪站为例，选取两组实验数据，同时为了验证本发明的快速性和准确性，与DTW-SS方法进行对比分析。两种方法查询的相似子序列如表1、表2所示。图3和图4分别对应了两个查询序列经过FAD_DTW方法得到的前4个匹配结果，图5和图6分别对应了两个查询序列经过DTW-SS方法得到的前4个匹配结果。两种方法的查询时间如图7和图8所示。通过上述图表，实施例中的FAD_DTW算法能在保证查询准确率的同时，查询效率明显优于DTW-SS方法。

表1 FAD_DTW相似性匹配结果

表2 DTW-SS相似性匹配结果