CN114911846A - 一种基于fad和dtw的水文时间序列相似性搜索方法 - Google Patents
一种基于fad和dtw的水文时间序列相似性搜索方法 Download PDFInfo
- Publication number
- CN114911846A CN114911846A CN202210531963.9A CN202210531963A CN114911846A CN 114911846 A CN114911846 A CN 114911846A CN 202210531963 A CN202210531963 A CN 202210531963A CN 114911846 A CN114911846 A CN 114911846A
- Authority
- CN
- China
- Prior art keywords
- sequence
- dtw
- fad
- subsequences
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于FAD和DTW的水文时间序列相似性搜索方法,该方法包括:首先利用小波变换对预先获取的时间序列进行平滑处理;其次,选择时间序列中的起始点、终止点和局部极值点作为特征点,对相邻特征点之间的数据段赋予语义,对序列进行语义符号化表示;然后计算初步候选集中子序列以及待查询序列中每个点的导数估计值,得到导数估计序列,然后转换为符号表示序列,最后得到初步候选集中子序列和待查询序列对应的特征序列;以上数据表示阶段完成后,首先利用FAD找出趋势近似的子序列,然后利用DTW进行精确匹配,最终的相似子序列。本发明结合FAD和DTW的特点对历史时间序列进行相似性搜索,很大程度上提高了搜索效率。
Description
技术领域
本发明属于水文数据挖掘技术领域,具体涉及一种基于FAD和DTW的水文时间序列相似性搜索方法。
背景技术
水文时间序列相似性搜索旨给定某个时间序列,从历史上的时间序列中找出与之相似的子序列。发现时间序列数据库中蕴藏的相似性,有利于掌握数据变化规律和趋势,为有效预测提供依据。因而对水文时间序列相似性搜索的研究在洪水预报、防洪调度方面有重要的现实意义。
水文时间序列相似性搜索涉及的问题主要包括时间序列特征表示、相似性度量、子序列匹配等。很多研究人员采用不同的方法围绕时间序列相似性的研究已取得了一定的成果,并在水文领域有了一定的应用。水文时间序列的相似性度量方法主要有欧氏距离、动态时间弯曲距离以及相关改进算法(如DTW-SS、FastDTW)。其中欧式距离简单易于理解,但仅适用于等长时间序列之间的相似性比较。DTW通过弯曲时间轴能得到高精确度的度量效果,但其计算方法为逐点匹配,时间复杂度高。因此,需要找到一种在保证查询准确率的同时,能大幅度降低时间复杂度的相似性搜索方法。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于FAD和DTW的水文时间序列相似性搜索方法,结合数据挖掘的相关技术,提供一种在保证查询效率的同时能提高查询效率的水文时间序列现实性搜索方法。
技术方案:本发明的一种基于FAD和DTW的水文时间序列相似性搜索方法,包括以下步骤:
步骤S1、为了消除原始时间序列中的噪声,利用小波变换对历史时间序列和待查询序列进行数据平滑处理;
步骤S2、选择平滑后的时间序列中的起始点、终止点和满足一定条件的局部极值点作为特征点,对相邻特征点之间的数据段赋予语义上升(U)、保持(B)、下降(D),对历史时间序列和待查询序列进行语义符号化表示;
步骤S3、从历史序列中筛选出与待查询序列语义相同的子序列作为初步候选集;
步骤S4、计算初步候选集中子序列以及待查询序列中每个点的导数估计值,得到导数估计序列,然后将其转换为符号表示序列,最后得到初步候选集中子序列和待查询序列对应的特征序列;
步骤S5、利用FAD相似性度量方法将待查询序列的特征序列与初步候选集中的特征子序列依次进行近似匹配,根据FAD距离的大小筛选出前M个变化趋势近似的子序列;
步骤S6、将查询序列与这M个近似子序列进行DTW精确匹配,获取DTW距离最小的前N个子序列即为最佳的相似子序列;
所述步骤S2是对时间序列进行语义符号化表示,所述步骤S2进一步为:
步骤S2.1、设有时间序列T=(x1,x2...xn),若满足以下条件之一,则称数据点T=(x1,x2...xn)是一个极值点:
(1)m=1或m=n;
(2)xm≥xm-1且xm≥xm+1,其中1<m<n;
(3)xm≤xm-1且xm≤xm+1,其中1<m<n;
步骤S2.2、对相邻极值点之间的数据段赋予语义上升(U)、保持(B)、下降(D),对历史时间序列和待查询序列进行语义符号化表示;
所述步骤S4是将时间序列转换为特征序列,所述步骤S4进一步为:
步骤S4.1、设有某一时间序列T=(x1,x2...xn),将原始时间序列转换为导数估计序列,导数估计值的计算公式如下:
其中,Xh为时间序列T=(x1,x2...xn)中的一个数据点;
步骤S4.4、按照上述步骤获取初步候选集中子序列和待查询序列对应的特征序列。
所述步骤S5是将初步候选集中的子序列与待查询序列依次进行FAD相似性度量,所述步骤S2进一步为:
D(S1i,S2j)=1,(R1i≠R2j)
其中k1i和k2j分别是和中点的数目,γ是一个可调参数,用于改变相同符号到不同符号的距离比值。理论上,相同符号片段的距离必须小于不同符号片段的距离。因此,0≤D(S1i,S2j)<1且γ∈[0,1]。
步骤S5.3、由于时间序列的长度可能不等以及FAD的时间扭曲,往往会在某个序列中会有一些片段没有片段可以映射。这些片段可以看作与任何属于另一序列的片段都不相似,计算公式如下:
D(-,Si)=1
步骤S5.4、结合步骤S5.1至步骤S5.3,将两个片段的距离计算公式总结如下。
步骤S5.5、根据FAD距离值大小筛选出距离最小的前50个子序列组成后续的待匹配候选集。
所述步骤S6是将待匹配候选集中的子序列与待查询序列依次进行DTW相似性度量,所述步骤S6进一步为:
步骤S6.1、计算待查询序列与待匹配候选集中子序列的DTW距离值,获取DTW距离最小的前4个子序列作为最佳的相似子序列。DTW距离的计算公式如下:
其中,Q为待查询序列,Y为待匹配候选集中的一个子序列,
Dbase(q1,y1)表示Q的第i个时间点向量与Y第j个时间点向量间的基础距离,基础距离在此使用欧氏距离表示。
步骤S6.2、输出最终相似序列结果集。
有益效果:与现有技术相比,本发明的优点在于:
本发明基于现有的相似性度量方法,综合考虑水文时间序列的形态特征和数值特征,结合基于趋势特征的FAD近似匹配和DTW精确匹配进行水文时间序列相似性搜索,能有效挖掘流域内的相似序列。
与传统DTW相比,FAD_DTW克服了DTW由于逐点匹配而计算复杂度高的问题,通过先筛选出形态趋势近似的子序列,可以大大缩减后续相似性匹配的候选集,有效提高查询效率,在洪水预报、防洪调度方面有重要的现实意义。
附图说明
图1为本发明实施例中的整体步骤图;
图2为实施例中符号表示序列转换为特征序列的示意图;
图3、图4为实施例两组实验中FAD_DTW方法获取的相似子序列;
图5、图6为实施例两组实验中DTW-SS方法获取的相似子序列;
图7为实施例中随历史序列年数增长时FAD_DTW和DTW-SS的查询时间对比;
图8为实施例中随待查询序列长度增长时FAD_DTW和DTW-SS的查询时间对比;
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1所示,本实施例的一种基于测站的网格雨量计算方法,包括以下步骤:
步骤S1、选取屯溪流域屯溪站的水文数据作为数据集,从中获取待查询序列Q以及历史时间序列S,利用小波变换对获取的时间序列进行平滑处理,得到平滑处理后的待查询序列Q′以及历史时间序列S′。
步骤S2、选择待查询序列Q′中的起始点、终止点和满足一定条件的局部极值点作为特征点,对相邻特征点之间的数据段赋予语义上升(U)、保持(B)、下降(D),对历史时间序列和待查询序列进行语义符号化表示;
步骤S2.1、其中对于待查询序列Q′={x1,x2...xn},若满足以下条件之一,则称数据点xm(m≤n)是一个极值点:
(1)m=1或m=n;
(2)xm≥xm-1且xm≥xm+1,其中1<m<n;
(3)xm≤xm-1且xm≤xm+1,其中1<m<n;
步骤S2.2、按照步骤S2.1中的条件提取出序列Q′的极值点,得到极值点序列Q″,对Q″进行符号化表示。对于极值点序列Q″,分别取每两个数据点间的模式构成新的时间序列Q″′={q1,q2,...qn}。其中qi属于{U,B,D},分别表示上升、保持和下降的趋势,Q″′作为Q′的语义模式表示;
步骤S3、按照步骤2中的方式,将历史时间序列S以同样的方式提取极值点,并得到S的语义模式表示S″′;
步骤S4、从历史序列S′中筛选出与待查询序列Q′语义相同的子序列作为初步候选集Z;
步骤S5.2、根据导数值的分布,将其划分成不同的符号值,该符号值反映时间序列的趋势信息。符号表示序列的转换公式如下:
其中Rh是的符号化表示,参数ε是变化趋势的阈值(ε≥0),用来判断数据的变化幅度。参数λ(λ≥1且λ为整数)是用于表示原始序列的符号数目。例如我们可以将原始序列转换为-3、-2、-1、0、1、2、3等组成的序列;
D(S1i,S2j)=1,(R1i≠R2j)
其中k1i和k2j分别是和中点的数目,γ是一个可调参数,用于改变相同符号到不同符号的距离比值。理论上,相同符号片段的距离必须小于不同符号片段的距离。因此,0≤D(S1i,S2j)<1且γ∈[0,1]。
步骤S7.3、由于时间序列的长度可能不等以及FAD的时间扭曲,往往会在某个序列中会有一些片段没有片段可以映射。这些片段可以看作与任何属于另一序列的片段都不相似,计算公式如下:
D(-,Si)=1
步骤S7.4、结合步骤步骤S5.1至步骤S5.3,将两个片段的距离计算公式总结如下。
步骤S8、计算待查询序列与候选集S′中每个子序列的DTW距离值,获取DTW距离最小的前4个子序列即为最佳的相似子序列。DTW距离的计算公式如下:
其中,Q为待查询序列,Y为待匹配候选集中的一个子序列,
Dbase(q1,y1)表示Q的第i个时间点向量与Y第j个时间点向量间的基础距离,基础距离在此使用欧氏距离表示。
为验证本发明的效果,以屯溪流域屯溪站为例,选取两组实验数据,同时为了验证本发明的快速性和准确性,与DTW-SS方法进行对比分析。两种方法查询的相似子序列如表1、表2所示。图3和图4分别对应了两个查询序列经过FAD_DTW方法得到的前4个匹配结果,图5和图6分别对应了两个查询序列经过DTW-SS方法得到的前4个匹配结果。两种方法的查询时间如图7和图8所示。通过上述图表,实施例中的FAD_DTW算法能在保证查询准确率的同时,查询效率明显优于DTW-SS方法。
表1 FAD_DTW相似性匹配结果
表2 DTW-SS相似性匹配结果
Claims (5)
1.基于FAD和DTW的水文时间相似性搜索方法,其特征在于,包括以下步骤:
数据准备阶段,具体包括:
步骤S1、为了消除原始时间序列中的噪声,利用小波变换对历史时间序列和待查询序列进行数据平滑处理;
步骤S2、选择平滑后的时间序列中的起始点、终止点和满足一定条件的局部极值点作为特征点,对相邻特征点之间的数据段赋予语义上升(U)、保持(B)、下降(D),对历史时间序列和待查询序列进行语义符号化表示;
步骤S3、从历史序列中筛选出与待查询序列语义相同的子序列作为初步候选集;
步骤S4、计算初步候选集中子序列以及待查询序列中每个点的导数估计值,得到导数估计序列,然后将其转换为符号表示序列,最后得到初步候选集中子序列和待查询序列对应的特征序列;
相似性搜索阶段,具体包括:
步骤S5、利用FAD相似性度量方法将待查询序列的特征序列与初步候选集中的特征子序列依次进行近似匹配,根据FAD距离的大小筛选出前M个变化趋势近似的子序列;
步骤S6、将查询序列与这M个近似子序列进行DTW精确匹配,获取DTW距离最小的前N个子序列即为最佳的相似子序列。
2.根据权利要求1所述的基于FAD和DTW的水文时间序列相似性搜索方法,其特征在于,所述步骤S2实现过程如下:
步骤S2.1、设有时间序列T=(x1,x2...xn),若满足以下条件之一,则称数据点T=(x1,x2...xn)是一个极值点:
(1)m=1或m=n;
(2)xm≥xm-1且xm≥xm+1,其中1<m<n;
(3)xm≤xm-1且xm≤xm+1,其中1<m<n;
步骤S2.2、对相邻极值点之间的数据段赋予语义上升(U)、保持(B)、下降(D),对历史时间序列和待查询序列进行语义符号化表示。
3.根据权利要求1所述的基于FAD和DTW的水文时间序列相似性搜索方法,其特征在于,所述步骤S4实现过程如下:
其中,Xh为时间序列T=(x1,x2...xn)中的一个数据点;
步骤S4.4、按照上述步骤获取初步候选集中子序列和待查询序列对应的特征序列。
4.根据权利要求1所述的基于FAD和DTW的水文时间序列相似性搜索方法,其特征在于,步骤S5所述FAD相似性度量通过以下过程实现:
D(S1i,S2j)=1,(R1i≠R2j)
其中k1i和k2j分别是和中点的数目,γ是一个可调参数,用于改变相同符号到不同符号的距离比值。理论上,相同符号片段的距离必须小于不同符号片段的距离。因此,0≤D(S1i,S2j)<1且γ∈[0,1]。
步骤S5.3、由于时间序列的长度可能不等以及FAD的时间扭曲,往往会在某个序列会有一些片段没有片段可以映射。这些片段可以看作与任何属于另一序列的片段都不相似,计算公式如下:
D(-,Si)=1
步骤S5.4、结合步骤S5.1至步骤S5.3,将两个片段的距离计算公式总结如下。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210531963.9A CN114911846A (zh) | 2022-05-17 | 2022-05-17 | 一种基于fad和dtw的水文时间序列相似性搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210531963.9A CN114911846A (zh) | 2022-05-17 | 2022-05-17 | 一种基于fad和dtw的水文时间序列相似性搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114911846A true CN114911846A (zh) | 2022-08-16 |
Family
ID=82766136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210531963.9A Pending CN114911846A (zh) | 2022-05-17 | 2022-05-17 | 一种基于fad和dtw的水文时间序列相似性搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114911846A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115729981A (zh) * | 2022-11-29 | 2023-03-03 | 中国长江电力股份有限公司 | 一种基于编辑距离的相似水情数据挖掘方法及其应用 |
CN115994137A (zh) * | 2023-03-23 | 2023-04-21 | 无锡弘鼎软件科技有限公司 | 一种基于物联网应用服务***的数据管理方法 |
-
2022
- 2022-05-17 CN CN202210531963.9A patent/CN114911846A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115729981A (zh) * | 2022-11-29 | 2023-03-03 | 中国长江电力股份有限公司 | 一种基于编辑距离的相似水情数据挖掘方法及其应用 |
CN115729981B (zh) * | 2022-11-29 | 2024-02-13 | 中国长江电力股份有限公司 | 一种基于编辑距离的相似水情数据挖掘方法及其应用 |
CN115994137A (zh) * | 2023-03-23 | 2023-04-21 | 无锡弘鼎软件科技有限公司 | 一种基于物联网应用服务***的数据管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114911846A (zh) | 一种基于fad和dtw的水文时间序列相似性搜索方法 | |
Marteau | Time warp edit distance with stiffness adjustment for time series matching | |
CN111242377B (zh) | 一种集成深度学习和数据去噪的短期风速预测方法 | |
WO2023226292A1 (zh) | 从文本中进行关系抽取的方法、关系抽取模型及介质 | |
CN110837736B (zh) | 一种基于字结构的中文医疗记录的命名实体识别方法 | |
CN111008224B (zh) | 一种基于深度多任务表示学习的时间序列分类和检索方法 | |
CN111125380B (zh) | 一种基于RoBERTa和启发式算法的实体链接方法 | |
CN113836341B (zh) | 基于无监督转换器平衡哈希的遥感图像检索方法 | |
CN103559232A (zh) | 一种基于二分逼近动态时间归整匹配的音乐哼唱检索方法 | |
CN112767922B (zh) | 一种对比预测编码自监督结构联合训练的语音识别方法 | |
CN111949707B (zh) | 一种基于影场的隐马尔可夫模型的非侵入式负荷分解方法 | |
CN112434891A (zh) | 基于wcnn-alstm的太阳辐照度时间序列的预测方法 | |
CN111916064A (zh) | 一种端到端的神经网络语音识别模型的训练方法 | |
WO2016167216A1 (ja) | マッチング装置、判定装置、これらの方法、プログラム及び記録媒体 | |
CN117453861A (zh) | 基于对比学习与预训练技术的代码搜索推荐方法和*** | |
CN117033657A (zh) | 一种信息检索方法及装置 | |
Huang et al. | Hinging hyperplanes for time-series segmentation | |
CN111507103B (zh) | 一种利用部分标注集的自训练神经网络分词模型 | |
CN113128582A (zh) | 一种基于Matrix Profile的时间序列变长模体挖掘方法 | |
CN114048749B (zh) | 一种适用于多领域的中文命名实体识别方法 | |
Park | Query by humming based on multiple spectral hashing and scaled open-end dynamic time warping | |
CN114625796A (zh) | 保序序列规则挖掘方法 | |
CN113486668A (zh) | 一种电力知识实体识别方法、装置、设备和介质 | |
CN111126199B (zh) | 基于回波测量数据的信号特征提取与数据挖掘方法 | |
Liu et al. | Based on multiple time series affinity propagation algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |