CN109656887B - 一种海量高铁轴温数据的分布式时间序列模式检索方法 - Google Patents

一种海量高铁轴温数据的分布式时间序列模式检索方法 Download PDF

Info

Publication number
CN109656887B
CN109656887B CN201811510849.8A CN201811510849A CN109656887B CN 109656887 B CN109656887 B CN 109656887B CN 201811510849 A CN201811510849 A CN 201811510849A CN 109656887 B CN109656887 B CN 109656887B
Authority
CN
China
Prior art keywords
data
distributed
data set
time sequence
shaft temperature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811510849.8A
Other languages
English (en)
Other versions
CN109656887A (zh
Inventor
徐泉
解军帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201811510849.8A priority Critical patent/CN109656887B/zh
Priority to PCT/CN2019/077741 priority patent/WO2020118928A1/zh
Publication of CN109656887A publication Critical patent/CN109656887A/zh
Application granted granted Critical
Publication of CN109656887B publication Critical patent/CN109656887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Library & Information Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种海量高铁轴温数据的分布式时间序列模式检索方法,涉及时间序列分析技术领域。该方法首先设置检索基准时间序列模式及需要检索的最相似的模式个数;将待检索的历史轴温时间序列数据读取进分布式***中,构造分布式数据集X;然后为X的元素构建索引;根据基准时间序列的长度构造多个辅助分布式数据集,将X和辅助数据集进行联结,构造分布式数据集Z,其每个元素为一个短时间序列;计算基准时间序列和Z的元素之间的欧式距离,构造出分布式数据集R;对R进行排序,取最小的k个元素,返回对应元素的索引;根据索引取得数据集Z中相应的元素。本发明的海量高铁轴温数据的分布式时间序列模式检索方法,提高了海量轴温时间序列数据的相似性检索效率。

Description

一种海量高铁轴温数据的分布式时间序列模式检索方法
技术领域
本发明涉及时间序列分析技术领域,尤其涉及一种海量高铁轴温数据的分布式时间序列模式检索方法。
背景技术
时间序列是一种和时间相关联、具有先后次序的数值序列或符号序列,在金融、气象、故障诊断等领域应用非常广泛。高铁轴温数据作为高铁日常运维数据的重要组成部分,具有典型的时间序列特征,对时间序列的分析处理也是目前高铁故障诊断研究的一个重要方向,包括异常模式的检索、模式挖掘、聚类等。由于高铁轴温传感器数量多、采集频率快,因此高铁轴温数据具有数据量大、维度高、更新频率高等特点,即具有典型的大数据特征。因此如何对高铁海量轴温数据组成的庞大的时间序列的高效处理,是目前需要研究和待解决的问题。
时间序列的相似模式检索问题可描述为给定某时间序列模式,从一个大型的时间序列中找出与之最相似的若干子序列,时间序列相似性检索是其他时间序列分析任务实现的前提,比如异常检测和模式识别等。目前的时间序列相似模式检索方法主要采用单机方法对时间序列进行串行的检索,找出相似性符合要求的所有子序列模式。但是由于机器性能的限制,单机方法能够处理的数据量有限,且计算的效率低下,难以满足海量轴温时间序列数据的检索需求。
目前大数据和云计算的发展,使得数据的分布式并行计算成为了可能,极大的提高了数据处理的能力和效率,为海量轴温时间序列数据的分析问题提供了解决的思路。为了提高海量轴温时间序列数据的检索效率,需要研究分布式的时间序列相似模式检索方法。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种海量高铁轴温数据的分布式时间序列模式检索方法,使用分布式计算节点组成的大数据处理集群,通过将数据分发到集群不同节点的内存中,当集群运行计算任务时,将计算任务分解分发到不同的节点,从而实现时间序列相似模式的并行检索。
为解决上述技术问题,本发明所采取的技术方案是:一种海量高铁轴温数据的分布式时间序列模式检索方法,包括以下步骤:
步骤1、设置检索的轴温数据基准时间序列模式s,确定检索模式的长度m,设定需要检索的最相似的模式个数为k;
所述轴温数据为高铁的轴承温度数据,采样周期为1s;
所述基准时间序列模式是在轴温数据中自定义选取的一个连续时间段的数据,长度为m;
步骤2、将待检索的海量历史轴温时间序列数据读取进分布式***计算节点的内存中,构造初始分布式数据集X,并确定并行计算任务的个数n,具体包括以下步骤:
步骤2.1、将保存在硬盘存储介质中的历史轴温数据通过网络上传至分布式文件***HDFS(Hadoop Distributed File System)中;
步骤2.2、使用分布式Spark计算引擎读取存储在HDFS的海量轴温时间序列数据;
步骤2.3、设置要创建的分布式数据集的分区个数为n,Spark计算引擎根据设定的分区数将存储在HDFS上的轴温数据切分出n个数据块,为每个数据块创建一个分区,构造出分区数为n的分布式数据集RDD(Resilient Distributed DataSet,即弹性分布式数据集)对象X,X的每个元素为某一时刻的轴温数据值,并且X维护着分区的顺序及每个分区首个元素在整个数据集中的偏移量;
步骤2.4、根据分区数确定并行计算任务个数为n,Spark计算引擎为RDD对象X的每个数据分区创建一个计算任务分发到不同计算节点,任务之间相互独立,每个任务并行处理一个分区的数据;
步骤3、为步骤2中分布式数据集X构建索引,根据时间顺序对数据集X中的每个元素从0开始编号,其中每个分区的编号任务是在不同节点并行进行计算的;数据集X中的每个元素转换为<key,value>键值对记录形式,其中,key为索引编号,value为对应时刻的轴温时间序列数值;
步骤4、根据基准时间序列模式的长度构造m-1个辅助分布式数据集Yj,其中j∈(1,m-1),将步骤3中分布式数据集X和辅助分布式数据集进行联结,构造出每个元素是一个长度为m的短时间序列的分布式数据集Z,具体步骤包括:
步骤4.1、根据设定的基准时间序列模式的长度m,构造出m-1个和步骤3中数据集X相同的辅助分布式数据集Yj,其中j∈(1,m-1);
步骤4.2、对m-1个辅助分布式数据集Yj构建索引,其中Yj的元素从-j开始编号;
步骤4.3、对分布式数据集X依次和m-1个辅助分布式数据集Yj进行笛卡尔积操作,并将进行笛卡尔积的两个分布式数据集中具有相同索引key值的元素进行联结;
步骤4.4、经过步骤4.3之后,从步骤3中的数据集X构造出分布式数据集Z,Z的元素为<key1,(value1,value2,...,valuem)>形式,其中,key1为元素的编号,(value1,value2,...,valuem)代表一段以第key1个时刻开始长度为m的短时间序列;
步骤5、通过Spark计算引擎创建计算任务,每个计算任务的逻辑是计算基准时间序列模式和每个数据分区的元素之间的欧式距离,将每个计算任务分发到分布式***中的若干节点并行计算,构造出分布式数据集R,具体步骤包括:
步骤5.1、通过Spark计算引擎为步骤4.4中数据集Z的每个数据分区创建一个计算任务,每个计算任务完成的逻辑都是将基准数据序列s和该数据分区的每个元素代表的短时间序列l计算欧式距离;
步骤5.2、通过分布式Spark计算引擎调度步骤5.1中创建的计算任务,将计算任务分发到数据分区所在的计算节点,每个计算任务处理其所在节点的分区数据;
步骤5.3、创建分布式数据集R,数据个数和数据集Z相同,其元素为<keyR,valueR>键值对形式,keyR为元素编号,valueR为Z的每个元素和基准时间序列之间的计算得出的欧式距离数值;
步骤6、对步骤5.3中的分布式数据集R根据欧式距离值进行全排序,取距离最小的前k个元素,并返回每个元素的索引,其具体步骤包括:
步骤6.1、通过Spark计算引擎对分布式数据集R的每个分区的数据根据元素的value进行并行计算排序,取每个分区最小的k个元素;
步骤6.2、将R的n个分区求得的n×k个元素收集到分布式***中的一个节点上,进行汇总排序,取最小的k个元素,并记录计算得到的元素的索引值;
步骤7、根据步骤6得到的索引取得步骤4中数据集Z中相应的元素,即得到了海量轴温历史时间序列数据集中与基准时间序列最相似的k个子时间序列。
采用上述技术方案所产生的有益效果在于:本发明提供的一种海量高铁轴温数据的分布式时间序列模式检索方法,在利用分布式Spark计算引擎和分布式文件***HDFS的基础上,对海量高铁轴温时间序列数据组成的分布式数据集进行重新组织变换,将高铁轴温数据组成的分布式数据集的每个元素转换成相互独立并且保持时间顺序的短时间序列,通过Spark计算引擎可以对每个数据分区创建一个计算任务分发到分布式***的不同计算节点进行计算。从而可以实现时间序列的并行相似性检索效果,解决单机无法处理的海量高铁轴温时间序列的相似性检索问题,提高海量轴温时间序列数据的相似性检索效率。
附图说明
图1为本发明实施例提供的一种海量高铁轴温数据的分布式时间序列模式检索方法的流程图;
图2为本发明实施例提供的时间序列检索效果图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
高铁轴温数据是典型的时间序列数据,本实施例以某铁路局采集的高铁定子轴温数据为例,采用本发明的面向海量高铁轴温数据基于Spark的并行时间序列相似模式检索方法对该时间序列的相似模式进行检索。
高铁定子轴温数据为安装在高铁定子端的轴温传感器采集到的温度数据,本实施例中使用的历史轴温的数据量为20GB,数据记录条数为213002710,采样周期为1s,数据内容包括采集时间和该时刻的轴承温度值,部分数据如表1所示。
表1部分高铁定子轴温数据
Figure BDA0001900735700000041
Figure BDA0001900735700000051
由于历史轴温数据量大,这里只列出部分定子轴温数据用以说明高铁定子轴温数据的形式。
一种面向海量高铁定子轴温数据基于Spark的并行时间序列检索方法,如图1所示,包括以下步骤:
步骤1、设置检索的轴温数据基准时间序列模式s,选取第160个数据为起始点,长度m为12的连续数据作为基准时间序列模式,基准时间序列模式s的数据为[103,103,105,105,110,159,144,127,116,116,117,113],设置检索的最相似的模式个数k为2;时间序列模式检索的任务是在海量的轴温历史数据表示的大型时间序列中查找和基准时间序列模式最相似的若干个长度为m的子时间序列;
步骤2、将待检索的高铁定子轴温历史时间序列数据读取进分布式计算节点的内存中,构造分布式数据集X,设置并行计算任务个数n为10。具体包括以下步骤:
步骤2.1、首先将保存在硬盘存储介质中的高铁定子轴温历史数据通过网络上传到分布式文件***HDFS中;
步骤2.2、使用分布式Spark计算引擎读取存储在HDFS上的高铁定子轴温数据;
步骤2.3、在Spark读取定子轴温数据的时候设置数据分区个数为10,Spark计算引擎根据数据分区的个数将读取到的定子轴温数据切分为10个数据块,这些数据分区组成了分布式数据集合RDD对象X,X的数据分区形式为{partition1,partition2,...,partition10},其中每个partition代表一个数据分区,分区之间具有时间上的顺序性。
本实施例中,以partition1的数据说明分区内部的数据形式,分区partition1的轴温记录条数为20001036条,partition1的内部数据形式为{x1,x2,...,x20001036},xn代表定子轴温的数值,分区的元素按照时间顺序排列,其他分区的形式和partition1相同。
步骤2.4、Spark计算引擎根据设定的RDD对象的数据分区个数,为每个数据分区创建一个计算任务,将计算任务分发到分布式***中的不同节点,一个任务只处理其对应的数据分区的定子轴温数据;
步骤3、为步骤2中定子轴温数据组成的分布式数据集X构建索引,根据时间顺序,对X的元素从0开始进行编号,数据集X的每个分区的数据转换成
{<index,x1>,<index+1,x2>,...,<index+n-1,xn>}
其中,index为该分区的首个元素相对于整个数据集的偏移量,n为该分区的数据记录条数,为分布式数据集的每个元素创建一个索引,每个分区的元素索引的创建是在不同节点独立完成的。
本实施例以分区partition1为例说明数据的转换逻辑,构建索引之后,分区partition1的数据形式转换为
{<0,x1>,<1,x2>,...,<20001035,x20001036>}
其他分区的数据形式和partition1相同。
步骤4、根据基准时间序列s的长度,构造出11个和步骤3中的X相同的分布式数据集Yj,其中j∈(1,11),将分布式数据集X和辅助分布式数据集进行联结,构造出每个元素是一个长度为12的短时间序列的分布式数据集Z。
步骤4.1、构造出11个和步骤3中数据集X相同的分布式数据集Yj,其中j∈(1,11);
步骤4.2、对步骤4.1中的11个辅助分布式数据集构建索引,对于Yj来说,对其所有的元素的索引都减去j,即转换之后其首元素的索引为-j,以Y1为例,其首元素的索引为-1,其他元素的索引以此类推递增;
步骤4.3、对步骤3中的数据集X和11个辅助分布式数据集进行笛卡尔积操作,对进行笛卡尔积操作的任意两个数据集,保留两个数据集中具有相同索引的元素进行联结。两个集合的笛卡尔积数学表达式为
A×B={(x,y)|x∈A∧y∈B}
其中,A和B表示两个数据集合,x和y分别表示A和B中德任意元素,(x,y)表示两个集合进行笛卡尔积计算之后得到的集合中的元素形式。
两个数据集中具有相同索引的两个元素<key,value1>和<key,value2>进行联结之后的结果为<key,(value1,value2)>。
本实施例以X和Y1的联结为例说明联结的逻辑,X和Y1中索引为同为10的元素分别为<10,99>和<10,100>,两个元素联结之后的结果为<10,(99,100)>,其他元素的联结与此类似。
步骤4.4、经过步骤4.3之后,构造出分布式数据集Z,Z的每个元素变为
<key,(value1,value2,...,value12)>
其中,key为元素的索引,从0开始编号,value转换为长度为12的短时间序列。
本实施例以Z中第160个元素,即索引为159的元素说明Z中数据的形式,Z中索引key为159的元素形式为
<159,(103,103,105,105,110,159,144,127,116,116,117,113)>
步骤5、通过Spark计算引擎调度计算任务,为步骤4.4中数据集Z的10个分区创建10个计算任务,将10个计算任务分发到分布式***的5个节点进行并行计算。具体步骤包括:
步骤5.1、通过Spark计算引擎为步骤4.4中数据集Z的10个数据分区分别创建一个计算任务,每个计算任务完成的逻辑都是将基准数据序列s和数据集Z的每个分区的长度为12的短时间序列元素计算欧式距离;对于两个k维向量s(x11,x12,...,x1k)和l(x21,x22,...,x2k)之间的欧式距离为:
Figure BDA0001900735700000081
步骤5.2、通过分布式Spark计算引擎调度步骤5.1中创建的计算任务,将计算任务分发到数据分区所在的计算节点,每个计算任务处理其所在节点的分区数据;
步骤5.3、创建分布式数据集R,数据个数和数据集Z相同,其元素为<keyR,valueR>键值对形式,keyR为元素编号,valueR为Z的每个元素和基准时间序列之间的计算得出的欧式距离数值。
本实施例中,构造的分布式数据集R中分区数同样为10,R中的数据元素形式如表2所不:
表2分布式数据集R的部分数据形式
Figure BDA0001900735700000082
步骤6、对步骤5.3创建的分布式数据集根据欧式距离的值进行全排序,取值最小的前2个元素,得到其索引值。具体步骤包括:
步骤6.1、通过Spark计算引擎为步骤5.3中数据集R的每个分区创建一个计算任务,分发到5个节点计算。计算每个分区元素值最小的2个元素,记录其索引值;
步骤6.2、将步骤6.1中计算得到的2×10个局部最小元素通过Spark计算引擎收集到分布式***的主节点上,进行汇总排序,计算得到全局最小的2个元素,记录其索引值;
步骤6.3、根据步骤6.2中计算得到的2个索引值,获取步骤4.4中数据集Z中相应索引对应的元素值,即为与基准时间序列s最相似的2个子时间序列。本实施例中根据基准时间序列s在轴温历史数据中检索到的最相似的两个子时间序列分别为起始索引为401和95,检索结果如表3所示:
表3相似模式检索结果
索引 欧式距离 轴温时间序列数值
70 36.318 {105,105,112,117,122,121,178,132,116,113,115,111}
401 38.716 {106,107,107,108,108,119,128,136,112,110,110,111}
检索方法的效果如图2所示,其中图中矩形线框标识的数据为定子轴温基准时间序列模式,椭圆形线框标识的数据为在定子轴温历史时间序列中检索出来的最相似的2个子时间序列模式。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (4)

1.一种海量高铁轴温数据的分布式时间序列模式检索方法,其特征在于:包括以下步骤:
步骤1、设置检索的轴温数据基准时间序列模式s,确定检索模式的长度m,设定需要检索的最相似的模式个数为k;
所述轴温数据为高铁的轴承温度数据,采样周期为1s;
所述基准时间序列模式是在轴温数据中自定义选取的一个连续时间段的数据,长度为m;
步骤2、将待检索的海量历史轴温时间序列数据读取进分布式***计算节点的内存中,构造初始分布式数据集X,并确定并行计算任务的个数n;
步骤3、为步骤2中分布式数据集X构建索引,根据时间顺序对数据集X中的每个元素从0开始编号,其中每个分区的编号任务是在不同节点并行进行计算的;数据集X中的每个元素转换为<key,value>键值对记录形式,其中,key为索引编号,value为对应时刻的轴温时间序列数值;
步骤4、根据基准时间序列模式的长度构造m-1个辅助分布式数据集Yj,其中j∈(1,m-1),将步骤3中分布式数据集X和辅助分布式数据集进行联结,构造出每个元素是一个长度为m的短时间序列的分布式数据集Z;
步骤4.1、根据设定的基准时间序列模式的长度m,构造出m-1个和步骤3中数据集X相同的辅助分布式数据集Yj,其中j∈(1,m-1);
步骤4.2、对m-1个辅助分布式数据集Yj构建索引,其中Yj的元素从-j开始编号;
步骤4.3、对分布式数据集X依次和m-1个辅助分布式数据集Yj进行笛卡尔积操作,并将进行笛卡尔积的两个分布式数据集中具有相同索引key值的元素进行联结;
步骤4.4、经过步骤4.3之后,从步骤3中的数据集X构造出分布式数据集Z,Z的每个元素变为<key,(value1,value2,...,valuem)>;
其中,key为元素的索引,从0开始编号,value转换为长度为m的短时间序列;
步骤5、通过Spark计算引擎创建计算任务,每个计算任务的逻辑是计算基准时间序列模式和每个数据分区的元素之间的欧式距离,将每个计算任务分发到分布式***中的若干节点并行计算,构造出分布式数据集R;
步骤6、对步骤5中的分布式数据集R根据欧式距离值进行全排序,取距离最小的前k个元素,并返回每个元素的索引;
步骤7、根据步骤6得到的索引取得步骤4中数据集Z中相应的元素,即得到了海量轴温历史时间序列数据集中与基准时间序列最相似的k个子时间序列。
2.根据权利要求1所述的一种海量高铁轴温数据的分布式时间序列模式检索方法,其特征在于:所述步骤2的具体方法为:
步骤2.1、将保存在硬盘存储介质中的历史轴温数据通过网络上传至分布式文件***HDFS中;
步骤2.2、使用分布式Spark计算引擎读取存储在HDFS的海量轴温时间序列数据;
步骤2.3、设置要创建的分布式数据集的分区个数为n,Spark计算引擎根据设定的分区数将存储在HDFS上的轴温数据切分出n个数据块,为每个数据块创建一个分区,构造出分区数为n的弹性分布式数据集RDD对象X,X的每个元素为某一时刻的轴温数据值,并且X维护着分区的顺序及每个分区首个元素在整个数据集中的偏移量;
步骤2.4、根据分区数确定并行计算任务个数为n,Spark计算引擎为RDD对象X的每个数据分区创建一个计算任务分发到不同计算节点,任务之间相互独立,每个任务并行处理一个分区的数据。
3.根据权利要求2所述的一种海量高铁轴温数据的分布式时间序列模式检索方法,其特征在于:所述步骤5的具体方法为:
步骤5.1、通过Spark计算引擎为步骤4.4中数据集Z的每个数据分区创建一个计算任务,每个计算任务完成的逻辑都是将基准数据序列s和该数据分区的每个元素代表的短时间序列l计算欧式距离;
步骤5.2、通过分布式Spark计算引擎调度步骤5.1中创建的计算任务,将计算任务分发到数据分区所在的计算节点,每个计算任务处理其所在节点的分区数据;
步骤5.3、创建分布式数据集R,数据个数和数据集Z相同,其元素为<keyR,valueR>键值对形式,keyR为元素编号,valueR为Z的每个元素和基准时间序列之间的计算得出的欧式距离数值。
4.根据权利要求3所述的一种海量高铁轴温数据的分布式时间序列模式检索方法,其特征在于:所述步骤6的具体方法为:
步骤6.1、通过Spark计算引擎对分布式数据集R的每个分区的数据根据元素的value进行并行计算排序,取每个分区最小的k个元素;
步骤6.2、将R的n个分区求得的n×k个元素收集到分布式***中的一个节点上,进行汇总排序,取最小的k个元素,并记录计算得到的元素的索引值。
CN201811510849.8A 2018-12-11 2018-12-11 一种海量高铁轴温数据的分布式时间序列模式检索方法 Active CN109656887B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811510849.8A CN109656887B (zh) 2018-12-11 2018-12-11 一种海量高铁轴温数据的分布式时间序列模式检索方法
PCT/CN2019/077741 WO2020118928A1 (zh) 2018-12-11 2019-03-12 一种面向海量设备运行数据的分布式时间序列模式检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811510849.8A CN109656887B (zh) 2018-12-11 2018-12-11 一种海量高铁轴温数据的分布式时间序列模式检索方法

Publications (2)

Publication Number Publication Date
CN109656887A CN109656887A (zh) 2019-04-19
CN109656887B true CN109656887B (zh) 2023-03-21

Family

ID=66113798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811510849.8A Active CN109656887B (zh) 2018-12-11 2018-12-11 一种海量高铁轴温数据的分布式时间序列模式检索方法

Country Status (2)

Country Link
CN (1) CN109656887B (zh)
WO (1) WO2020118928A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579661B (zh) * 2019-09-29 2023-04-14 杭州海康威视数字技术股份有限公司 特异目标对确定方法、装置、计算机设备及存储介质
CN112732165B (zh) * 2019-10-28 2024-07-16 北京沃东天骏信息技术有限公司 偏移量管理方法、装置及存储介质
CN113688877B (zh) * 2021-07-30 2024-04-16 联合汽车电子有限公司 一种测试数据处理方法、装置、存储介质、仪器及车辆

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103032A (zh) * 2017-03-21 2017-08-29 中国科学院计算机网络信息中心 一种分布式环境下避免全局排序的海量数据分页查询方法
CN108549696A (zh) * 2018-04-16 2018-09-18 安徽工业大学 一种基于内存计算的时间序列数据相似性查询方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114331A1 (en) * 2003-11-26 2005-05-26 International Business Machines Corporation Near-neighbor search in pattern distance spaces
US10503732B2 (en) * 2013-10-31 2019-12-10 Micro Focus Llc Storing time series data for a search query
CN104182460B (zh) * 2014-07-18 2017-06-13 浙江大学 基于倒排索引的时间序列相似性查询方法
US20160328432A1 (en) * 2015-05-06 2016-11-10 Squigglee LLC System and method for management of time series data sets
CN107590143B (zh) * 2016-07-06 2020-04-03 北京金山云网络技术有限公司 一种时间序列的检索方法、装置及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103032A (zh) * 2017-03-21 2017-08-29 中国科学院计算机网络信息中心 一种分布式环境下避免全局排序的海量数据分页查询方法
CN108549696A (zh) * 2018-04-16 2018-09-18 安徽工业大学 一种基于内存计算的时间序列数据相似性查询方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MapReduce并行加速数据流多模式相似性搜索;付晨等;《计算机应用》;20170110(第01期);全文 *
基于Map/Reduce的时间序列相似性搜索算法;王会青等;《山东大学学报(工学版)》;20160122(第01期);全文 *
基于Spark的高维数据相似性连接;成小海;《计算机技术与发展》;20180428(第08期);全文 *
基于工业云的电熔镁炉监控***与关键技术;冉振莉等;《计算机集成制造***》;20180109(第11期);全文 *
时间序列相似性查询与索引方法研究;邱均平等;《山东图书馆学刊》;20091230(第06期);全文 *

Also Published As

Publication number Publication date
CN109656887A (zh) 2019-04-19
WO2020118928A1 (zh) 2020-06-18

Similar Documents

Publication Publication Date Title
CN115270956B (zh) 基于持续学习的跨设备增量轴承故障诊断方法
CN109656887B (zh) 一种海量高铁轴温数据的分布式时间序列模式检索方法
CN108595539A (zh) 一种基于大数据的行迹相似对象识别方法与***
CN110750524A (zh) 一种有源配电网故障特征的确定方法及***
CN112699605B (zh) 一种充电桩故障元件预测方法及***
CN103488790A (zh) 基于加权borda计数法的多元时间序列相似分析方法
He et al. A deep transfer learning fault diagnosis method based on WGAN and minimum singular value for non-homologous bearing
CN114428803B (zh) 空压站运行优化方法、***、存储介质及终端
US20180192245A1 (en) Extraction and Representation method of State Vector of Sensing Data of Internet of Things
CN103853752A (zh) 管理时间序列数据库的方法和装置
Wang et al. Pattern discovery from audio recordings by variable markov oracle: A music information dynamics approach
CN114819315A (zh) 基于多参数融合健康因子和时间卷积神经网络的轴承退化趋势预测方法
CN115983250A (zh) 基于知识图谱的电力异常数据根源定位方法及***
CN115827577A (zh) 智能电表高频数据压缩与重构的云端协同自适应分治方法
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
CN111639060A (zh) 一种火电厂时序数据处理方法、装置、设备及介质
CN114742124A (zh) 一种异常数据处理方法、***及装置
CN117407681A (zh) 一种基于向量聚类的时序数据预测模型建立方法
CN117763305A (zh) 一种计及行为共性的电力时序数据异常检测与修复方法
CN117390411A (zh) 基于元迁移学习的变工况轴承故障诊断方法
CN116720079A (zh) 基于多特征融合的风力发电机故障模式识别方法及***
CN108647243B (zh) 基于时间序列的工业大数据存储方法
CN105843724A (zh) 一种it***监测状态指标压缩分析方法
Yi et al. Bearing fault diagnosis with deep learning models
Zarif et al. Improving performance of multi-label classification using ensemble of feature selection and outlier detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant