CN114911846A - 一种基于fad和dtw的水文时间序列相似性搜索方法 - Google Patents

一种基于fad和dtw的水文时间序列相似性搜索方法 Download PDF

Info

Publication number
CN114911846A
CN114911846A CN202210531963.9A CN202210531963A CN114911846A CN 114911846 A CN114911846 A CN 114911846A CN 202210531963 A CN202210531963 A CN 202210531963A CN 114911846 A CN114911846 A CN 114911846A
Authority
CN
China
Prior art keywords
sequence
dtw
fad
subsequences
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210531963.9A
Other languages
English (en)
Inventor
杨佳琦
万定生
余宇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202210531963.9A priority Critical patent/CN114911846A/zh
Publication of CN114911846A publication Critical patent/CN114911846A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于FAD和DTW的水文时间序列相似性搜索方法,该方法包括:首先利用小波变换对预先获取的时间序列进行平滑处理;其次,选择时间序列中的起始点、终止点和局部极值点作为特征点,对相邻特征点之间的数据段赋予语义,对序列进行语义符号化表示;然后计算初步候选集中子序列以及待查询序列中每个点的导数估计值,得到导数估计序列,然后转换为符号表示序列,最后得到初步候选集中子序列和待查询序列对应的特征序列;以上数据表示阶段完成后,首先利用FAD找出趋势近似的子序列,然后利用DTW进行精确匹配,最终的相似子序列。本发明结合FAD和DTW的特点对历史时间序列进行相似性搜索,很大程度上提高了搜索效率。

Description

一种基于FAD和DTW的水文时间序列相似性搜索方法
技术领域
本发明属于水文数据挖掘技术领域,具体涉及一种基于FAD和DTW的水文时间序列相似性搜索方法。
背景技术
水文时间序列相似性搜索旨给定某个时间序列,从历史上的时间序列中找出与之相似的子序列。发现时间序列数据库中蕴藏的相似性,有利于掌握数据变化规律和趋势,为有效预测提供依据。因而对水文时间序列相似性搜索的研究在洪水预报、防洪调度方面有重要的现实意义。
水文时间序列相似性搜索涉及的问题主要包括时间序列特征表示、相似性度量、子序列匹配等。很多研究人员采用不同的方法围绕时间序列相似性的研究已取得了一定的成果,并在水文领域有了一定的应用。水文时间序列的相似性度量方法主要有欧氏距离、动态时间弯曲距离以及相关改进算法(如DTW-SS、FastDTW)。其中欧式距离简单易于理解,但仅适用于等长时间序列之间的相似性比较。DTW通过弯曲时间轴能得到高精确度的度量效果,但其计算方法为逐点匹配,时间复杂度高。因此,需要找到一种在保证查询准确率的同时,能大幅度降低时间复杂度的相似性搜索方法。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于FAD和DTW的水文时间序列相似性搜索方法,结合数据挖掘的相关技术,提供一种在保证查询效率的同时能提高查询效率的水文时间序列现实性搜索方法。
技术方案:本发明的一种基于FAD和DTW的水文时间序列相似性搜索方法,包括以下步骤:
步骤S1、为了消除原始时间序列中的噪声,利用小波变换对历史时间序列和待查询序列进行数据平滑处理;
步骤S2、选择平滑后的时间序列中的起始点、终止点和满足一定条件的局部极值点作为特征点,对相邻特征点之间的数据段赋予语义上升(U)、保持(B)、下降(D),对历史时间序列和待查询序列进行语义符号化表示;
步骤S3、从历史序列中筛选出与待查询序列语义相同的子序列作为初步候选集;
步骤S4、计算初步候选集中子序列以及待查询序列中每个点的导数估计值,得到导数估计序列,然后将其转换为符号表示序列,最后得到初步候选集中子序列和待查询序列对应的特征序列;
步骤S5、利用FAD相似性度量方法将待查询序列的特征序列与初步候选集中的特征子序列依次进行近似匹配,根据FAD距离的大小筛选出前M个变化趋势近似的子序列;
步骤S6、将查询序列与这M个近似子序列进行DTW精确匹配,获取DTW距离最小的前N个子序列即为最佳的相似子序列;
所述步骤S2是对时间序列进行语义符号化表示,所述步骤S2进一步为:
步骤S2.1、设有时间序列T=(x1,x2...xn),若满足以下条件之一,则称数据点T=(x1,x2...xn)是一个极值点:
(1)m=1或m=n;
(2)xm≥xm-1且xm≥xm+1,其中1<m<n;
(3)xm≤xm-1且xm≤xm+1,其中1<m<n;
步骤S2.2、对相邻极值点之间的数据段赋予语义上升(U)、保持(B)、下降(D),对历史时间序列和待查询序列进行语义符号化表示;
所述步骤S4是将时间序列转换为特征序列,所述步骤S4进一步为:
步骤S4.1、设有某一时间序列T=(x1,x2...xn),将原始时间序列转换为导数估计序列,导数估计值的计算公式如下:
Figure BSA0000273360040000021
其中,Xh为时间序列T=(x1,x2...xn)中的一个数据点;
步骤S4.2、获得导数估计序列后
Figure BSA0000273360040000022
根据导数值的分布,将其划分成不同的符号值,该符号值反映时间序列的趋势信息。符号表示序列的转换公式如下:
Figure BSA0000273360040000023
其中Rh
Figure BSA0000273360040000024
的符号化表示,参数ε是变化趋势的阈值(ε≥0),用来判断数据的变化幅度。参数λ是用于表示原始序列的符号数目;
步骤S4.3、将得到的符号表示序列进行变换,得到特征序列
Figure BSA0000273360040000025
其中Sj=(Rj,kj),Rj是特征序列
Figure BSA0000273360040000031
中的某个表示符号,kj是相同符号的相邻点个数。
步骤S4.4、按照上述步骤获取初步候选集中子序列和待查询序列对应的特征序列。
所述步骤S5是将初步候选集中的子序列与待查询序列依次进行FAD相似性度量,所述步骤S2进一步为:
步骤S5.1、设
Figure BSA0000273360040000032
为初步候选集中的一个子序列的特征序列,
Figure BSA0000273360040000033
为待查询序列的特征序列。
若序列
Figure BSA0000273360040000034
Figure BSA0000273360040000035
中对应的片段用不同的符号表示,即两个片段的变化趋势不同,这两个片段之间的距离公式如下:
D(S1i,S2j)=1,(R1i≠R2j)
其中S1i和S2j分别是序列
Figure BSA0000273360040000036
Figure BSA0000273360040000037
的片段子序列,R1i和R2j是S1i和S2j对应的符号表示;
步骤S5.2、若序列
Figure BSA0000273360040000038
Figure BSA0000273360040000039
对应的片段用相同的符号表示,即两个片段有相似的变化趋势。这两个片段之间的距离主要取决于它们的长度差异,计算公式如下:
Figure BSA00002733600400000310
其中k1i和k2j分别是
Figure BSA00002733600400000311
Figure BSA00002733600400000312
中点的数目,γ是一个可调参数,用于改变相同符号到不同符号的距离比值。理论上,相同符号片段的距离必须小于不同符号片段的距离。因此,0≤D(S1i,S2j)<1且γ∈[0,1]。
步骤S5.3、由于时间序列的长度可能不等以及FAD的时间扭曲,往往会在某个序列中会有一些片段没有片段可以映射。这些片段可以看作与任何属于另一序列的片段都不相似,计算公式如下:
D(-,Si)=1
步骤S5.4、结合步骤S5.1至步骤S5.3,将两个片段的距离计算公式总结如下。
Figure BSA00002733600400000313
因此时间序列
Figure BSA00002733600400000314
Figure BSA00002733600400000315
的FAD距离计算公式如下:
Figure BSA00002733600400000316
步骤S5.5、根据FAD距离值大小筛选出距离最小的前50个子序列组成后续的待匹配候选集。
所述步骤S6是将待匹配候选集中的子序列与待查询序列依次进行DTW相似性度量,所述步骤S6进一步为:
步骤S6.1、计算待查询序列与待匹配候选集中子序列的DTW距离值,获取DTW距离最小的前4个子序列作为最佳的相似子序列。DTW距离的计算公式如下:
Figure BSA0000273360040000041
其中,Q为待查询序列,Y为待匹配候选集中的一个子序列,
Dbase(q1,y1)表示Q的第i个时间点向量与Y第j个时间点向量间的基础距离,基础距离在此使用欧氏距离表示。
步骤S6.2、输出最终相似序列结果集。
有益效果:与现有技术相比,本发明的优点在于:
本发明基于现有的相似性度量方法,综合考虑水文时间序列的形态特征和数值特征,结合基于趋势特征的FAD近似匹配和DTW精确匹配进行水文时间序列相似性搜索,能有效挖掘流域内的相似序列。
与传统DTW相比,FAD_DTW克服了DTW由于逐点匹配而计算复杂度高的问题,通过先筛选出形态趋势近似的子序列,可以大大缩减后续相似性匹配的候选集,有效提高查询效率,在洪水预报、防洪调度方面有重要的现实意义。
附图说明
图1为本发明实施例中的整体步骤图;
图2为实施例中符号表示序列转换为特征序列的示意图;
图3、图4为实施例两组实验中FAD_DTW方法获取的相似子序列;
图5、图6为实施例两组实验中DTW-SS方法获取的相似子序列;
图7为实施例中随历史序列年数增长时FAD_DTW和DTW-SS的查询时间对比;
图8为实施例中随待查询序列长度增长时FAD_DTW和DTW-SS的查询时间对比;
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1所示,本实施例的一种基于测站的网格雨量计算方法,包括以下步骤:
步骤S1、选取屯溪流域屯溪站的水文数据作为数据集,从中获取待查询序列Q以及历史时间序列S,利用小波变换对获取的时间序列进行平滑处理,得到平滑处理后的待查询序列Q′以及历史时间序列S′。
步骤S2、选择待查询序列Q′中的起始点、终止点和满足一定条件的局部极值点作为特征点,对相邻特征点之间的数据段赋予语义上升(U)、保持(B)、下降(D),对历史时间序列和待查询序列进行语义符号化表示;
步骤S2.1、其中对于待查询序列Q′={x1,x2...xn},若满足以下条件之一,则称数据点xm(m≤n)是一个极值点:
(1)m=1或m=n;
(2)xm≥xm-1且xm≥xm+1,其中1<m<n;
(3)xm≤xm-1且xm≤xm+1,其中1<m<n;
步骤S2.2、按照步骤S2.1中的条件提取出序列Q′的极值点,得到极值点序列Q″,对Q″进行符号化表示。对于极值点序列Q″,分别取每两个数据点间的模式构成新的时间序列Q″′={q1,q2,...qn}。其中qi属于{U,B,D},分别表示上升、保持和下降的趋势,Q″′作为Q′的语义模式表示;
步骤S3、按照步骤2中的方式,将历史时间序列S以同样的方式提取极值点,并得到S的语义模式表示S″′;
步骤S4、从历史序列S′中筛选出与待查询序列Q′语义相同的子序列作为初步候选集Z;
步骤S5、计算待查询序列Q′中每个点的导数估计值,得到导数估计序列
Figure BSA0000273360040000051
然后将其转换为符号表示序列,最后得到Q′对应的特征序列
Figure BSA0000273360040000052
步骤S5.1、获取导数估计序列
Figure BSA0000273360040000053
导数估计值计算公式如下:
Figure BSA0000273360040000054
步骤S5.2、根据导数值的分布,将其划分成不同的符号值,该符号值反映时间序列的趋势信息。符号表示序列的转换公式如下:
Figure BSA0000273360040000055
其中Rh
Figure BSA0000273360040000056
的符号化表示,参数ε是变化趋势的阈值(ε≥0),用来判断数据的变化幅度。参数λ(λ≥1且λ为整数)是用于表示原始序列的符号数目。例如我们可以将原始序列转换为-3、-2、-1、0、1、2、3等组成的序列;
步骤S5.3、将得到的符号表示序列进行变换,得到待查询序列的特征序列
Figure BSA0000273360040000057
Figure BSA0000273360040000058
其中Sj=(Rj,kj),Rj是特征序列中的某个表示符号,kj是相同符号的相邻点个数,图2展示了整个变换过程;
步骤S6、按照步骤S5中获取特征序列的方法,将候选集中Z中的所有子序列以同样的方式计算导数估计值,并得到对应的特征子序列集
Figure BSA0000273360040000061
步骤S7、依次计算待查询序列的特征序列
Figure BSA0000273360040000062
Figure BSA0000273360040000063
中所有子序列的FAD距离值,根据FAD距离的大小筛选出前50个与待查询序列变化趋势近似的子序列,构成待匹配数据集S′。
步骤S7.1、设
Figure BSA0000273360040000064
Figure BSA0000273360040000065
中的一个特征子序列。若序列
Figure BSA0000273360040000066
Figure BSA0000273360040000067
中对应的片段用不同的符号表示,即两个片段的变化趋势不同,这两个片段之间的距离公式如下:
D(S1i,S2j)=1,(R1i≠R2j)
步骤S7.2、若序列
Figure BSA0000273360040000068
Figure BSA0000273360040000069
对应的片段用相同的符号表示,即两个片段有相似的变化趋势。这两个片段之间的距离主要取决于它们的长度差异,计算公式如下:
Figure BSA00002733600400000610
其中k1i和k2j分别是
Figure BSA00002733600400000611
Figure BSA00002733600400000612
中点的数目,γ是一个可调参数,用于改变相同符号到不同符号的距离比值。理论上,相同符号片段的距离必须小于不同符号片段的距离。因此,0≤D(S1i,S2j)<1且γ∈[0,1]。
步骤S7.3、由于时间序列的长度可能不等以及FAD的时间扭曲,往往会在某个序列中会有一些片段没有片段可以映射。这些片段可以看作与任何属于另一序列的片段都不相似,计算公式如下:
D(-,Si)=1
步骤S7.4、结合步骤步骤S5.1至步骤S5.3,将两个片段的距离计算公式总结如下。
Figure BSA00002733600400000613
因此时间序列
Figure BSA00002733600400000614
Figure BSA00002733600400000615
的FAD距离计算公式如下:
Figure BSA00002733600400000616
步骤S8、计算待查询序列与候选集S′中每个子序列的DTW距离值,获取DTW距离最小的前4个子序列即为最佳的相似子序列。DTW距离的计算公式如下:
Figure BSA00002733600400000617
其中,Q为待查询序列,Y为待匹配候选集中的一个子序列,
Dbase(q1,y1)表示Q的第i个时间点向量与Y第j个时间点向量间的基础距离,基础距离在此使用欧氏距离表示。
为验证本发明的效果,以屯溪流域屯溪站为例,选取两组实验数据,同时为了验证本发明的快速性和准确性,与DTW-SS方法进行对比分析。两种方法查询的相似子序列如表1、表2所示。图3和图4分别对应了两个查询序列经过FAD_DTW方法得到的前4个匹配结果,图5和图6分别对应了两个查询序列经过DTW-SS方法得到的前4个匹配结果。两种方法的查询时间如图7和图8所示。通过上述图表,实施例中的FAD_DTW算法能在保证查询准确率的同时,查询效率明显优于DTW-SS方法。
表1 FAD_DTW相似性匹配结果
Figure BSA0000273360040000071
表2 DTW-SS相似性匹配结果
Figure BSA0000273360040000072

Claims (5)

1.基于FAD和DTW的水文时间相似性搜索方法,其特征在于,包括以下步骤:
数据准备阶段,具体包括:
步骤S1、为了消除原始时间序列中的噪声,利用小波变换对历史时间序列和待查询序列进行数据平滑处理;
步骤S2、选择平滑后的时间序列中的起始点、终止点和满足一定条件的局部极值点作为特征点,对相邻特征点之间的数据段赋予语义上升(U)、保持(B)、下降(D),对历史时间序列和待查询序列进行语义符号化表示;
步骤S3、从历史序列中筛选出与待查询序列语义相同的子序列作为初步候选集;
步骤S4、计算初步候选集中子序列以及待查询序列中每个点的导数估计值,得到导数估计序列,然后将其转换为符号表示序列,最后得到初步候选集中子序列和待查询序列对应的特征序列;
相似性搜索阶段,具体包括:
步骤S5、利用FAD相似性度量方法将待查询序列的特征序列与初步候选集中的特征子序列依次进行近似匹配,根据FAD距离的大小筛选出前M个变化趋势近似的子序列;
步骤S6、将查询序列与这M个近似子序列进行DTW精确匹配,获取DTW距离最小的前N个子序列即为最佳的相似子序列。
2.根据权利要求1所述的基于FAD和DTW的水文时间序列相似性搜索方法,其特征在于,所述步骤S2实现过程如下:
步骤S2.1、设有时间序列T=(x1,x2...xn),若满足以下条件之一,则称数据点T=(x1,x2...xn)是一个极值点:
(1)m=1或m=n;
(2)xm≥xm-1且xm≥xm+1,其中1<m<n;
(3)xm≤xm-1且xm≤xm+1,其中1<m<n;
步骤S2.2、对相邻极值点之间的数据段赋予语义上升(U)、保持(B)、下降(D),对历史时间序列和待查询序列进行语义符号化表示。
3.根据权利要求1所述的基于FAD和DTW的水文时间序列相似性搜索方法,其特征在于,所述步骤S4实现过程如下:
步骤S4.1、设有某一时间序列T=(x1,x2...xn),通过公式(1)将原始时间序列转换为导数估计序列
Figure FSA0000273360030000011
Figure FSA0000273360030000012
其中,Xh为时间序列T=(x1,x2...xn)中的一个数据点;
步骤S4.2、获得导数估计序列后
Figure FSA0000273360030000021
根据导数值的分布,将其划分成不同的符号值,该符号值反映时间序列的趋势信息。符号表示序列的转换公式如下:
Figure FSA0000273360030000022
其中Rh
Figure FSA0000273360030000023
的符号化表示,参数ε是变化趋势的阈值(ε≥0),用来判断数据的变化幅度。参数λ是用于表示原始序列的符号数目;
步骤S4.3、将得到的符号表示序列进行变换,得到特征序列
Figure FSA0000273360030000024
其中Sj=(Rj,kj),Rj是特征序列
Figure FSA0000273360030000025
中的某个表示符号,kj是相同符号的相邻点个数;
步骤S4.4、按照上述步骤获取初步候选集中子序列和待查询序列对应的特征序列。
4.根据权利要求1所述的基于FAD和DTW的水文时间序列相似性搜索方法,其特征在于,步骤S5所述FAD相似性度量通过以下过程实现:
步骤S5.1、假设有两个特征序列
Figure FSA0000273360030000026
Figure FSA0000273360030000027
如果序列
Figure FSA0000273360030000028
Figure FSA0000273360030000029
中对应的片段用不同的符号表示,说明这两个片段的变化趋势是不同的,这两个片段之间的距离公式如下:
D(S1i,S2j)=1,(R1i≠R2j)
其中S1i和S2j分别是序列
Figure FSA00002733600300000210
Figure FSA00002733600300000211
的片段子序列,R1i和R2j是S1i和S2j对应的符号表示;
步骤S5.2、如果序列
Figure FSA00002733600300000212
Figure FSA00002733600300000213
对应的片段用相同的符号表示,这表明两个片段有相似的变化趋势,这两个片段之间的距离主要取决于它们的长度差异,计算公式如下:
Figure FSA00002733600300000214
其中k1i和k2j分别是
Figure FSA00002733600300000215
Figure FSA00002733600300000216
中点的数目,γ是一个可调参数,用于改变相同符号到不同符号的距离比值。理论上,相同符号片段的距离必须小于不同符号片段的距离。因此,0≤D(S1i,S2j)<1且γ∈[0,1]。
步骤S5.3、由于时间序列的长度可能不等以及FAD的时间扭曲,往往会在某个序列会有一些片段没有片段可以映射。这些片段可以看作与任何属于另一序列的片段都不相似,计算公式如下:
D(-,Si)=1
步骤S5.4、结合步骤S5.1至步骤S5.3,将两个片段的距离计算公式总结如下。
Figure FSA0000273360030000031
因此时间序列
Figure FSA0000273360030000032
Figure FSA0000273360030000033
的FAD距离计算公式如下:
Figure FSA0000273360030000034
5.根据权利要求1所述的基于FAD和DTW的水文时间序列相似性搜索方法,其特征在于,步骤S6所述DTW相似性度量通过以下过程实现:
步骤S6.1、计算待查询序列与待匹配候选集中子序列的DTW距离值,获取DTW距离最小的前4个子序列作为最佳的相似子序列。DTW距离的计算公式如下:
Figure FSA0000273360030000035
其中,X和Y表示进行DTW相似性度量的两个时间序列,Dbase(xi,yj)表示X的第i个时间点向量与Y第j个时间点向量间的基础距离,基础距离在此使用欧氏距离表示。
步骤S6.2、输出最终相似序列结果集。
CN202210531963.9A 2022-05-17 2022-05-17 一种基于fad和dtw的水文时间序列相似性搜索方法 Pending CN114911846A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210531963.9A CN114911846A (zh) 2022-05-17 2022-05-17 一种基于fad和dtw的水文时间序列相似性搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210531963.9A CN114911846A (zh) 2022-05-17 2022-05-17 一种基于fad和dtw的水文时间序列相似性搜索方法

Publications (1)

Publication Number Publication Date
CN114911846A true CN114911846A (zh) 2022-08-16

Family

ID=82766136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210531963.9A Pending CN114911846A (zh) 2022-05-17 2022-05-17 一种基于fad和dtw的水文时间序列相似性搜索方法

Country Status (1)

Country Link
CN (1) CN114911846A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729981A (zh) * 2022-11-29 2023-03-03 中国长江电力股份有限公司 一种基于编辑距离的相似水情数据挖掘方法及其应用
CN115994137A (zh) * 2023-03-23 2023-04-21 无锡弘鼎软件科技有限公司 一种基于物联网应用服务***的数据管理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729981A (zh) * 2022-11-29 2023-03-03 中国长江电力股份有限公司 一种基于编辑距离的相似水情数据挖掘方法及其应用
CN115729981B (zh) * 2022-11-29 2024-02-13 中国长江电力股份有限公司 一种基于编辑距离的相似水情数据挖掘方法及其应用
CN115994137A (zh) * 2023-03-23 2023-04-21 无锡弘鼎软件科技有限公司 一种基于物联网应用服务***的数据管理方法

Similar Documents

Publication Publication Date Title
CN114911846A (zh) 一种基于fad和dtw的水文时间序列相似性搜索方法
Marteau Time warp edit distance with stiffness adjustment for time series matching
CN111242377B (zh) 一种集成深度学习和数据去噪的短期风速预测方法
WO2023226292A1 (zh) 从文本中进行关系抽取的方法、关系抽取模型及介质
CN110837736B (zh) 一种基于字结构的中文医疗记录的命名实体识别方法
CN111008224B (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN111125380B (zh) 一种基于RoBERTa和启发式算法的实体链接方法
CN113836341B (zh) 基于无监督转换器平衡哈希的遥感图像检索方法
CN103559232A (zh) 一种基于二分逼近动态时间归整匹配的音乐哼唱检索方法
CN112767922B (zh) 一种对比预测编码自监督结构联合训练的语音识别方法
CN111949707B (zh) 一种基于影场的隐马尔可夫模型的非侵入式负荷分解方法
CN112434891A (zh) 基于wcnn-alstm的太阳辐照度时间序列的预测方法
CN111916064A (zh) 一种端到端的神经网络语音识别模型的训练方法
WO2016167216A1 (ja) マッチング装置、判定装置、これらの方法、プログラム及び記録媒体
CN117453861A (zh) 基于对比学习与预训练技术的代码搜索推荐方法和***
CN117033657A (zh) 一种信息检索方法及装置
Huang et al. Hinging hyperplanes for time-series segmentation
CN111507103B (zh) 一种利用部分标注集的自训练神经网络分词模型
CN113128582A (zh) 一种基于Matrix Profile的时间序列变长模体挖掘方法
CN114048749B (zh) 一种适用于多领域的中文命名实体识别方法
Park Query by humming based on multiple spectral hashing and scaled open-end dynamic time warping
CN114625796A (zh) 保序序列规则挖掘方法
CN113486668A (zh) 一种电力知识实体识别方法、装置、设备和介质
CN111126199B (zh) 基于回波测量数据的信号特征提取与数据挖掘方法
Liu et al. Based on multiple time series affinity propagation algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication