CN104951464B

CN104951464B - 数据存储方法及***

Info

Publication number: CN104951464B
Application number: CN201410121215.9A
Authority: CN
Inventors: 张世明; 袁明轩; 谭浩宇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-03-27
Filing date: 2014-03-27
Publication date: 2018-09-11
Anticipated expiration: 2034-03-27
Also published as: CN104951464A

Abstract

本发明提供一种数据存储方法及***，其中，所述数据存储方法包括：读取待存储的第一条数据元组；采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据；将所述至少三种不同结构的结构化数据存储在高速缓冲存储器中，以使高速缓冲存储器将所述结构化数据写入异构分布式文件***HDFS的节点中。上述方法可以有效的存储海量的时空轨迹数据，且能够实现海量的时空轨迹数据的实时分析查询。

Description

数据存储方法及***

技术领域

本发明涉及通信技术，尤其涉及一种数据存储方法及***。

背景技术

时空轨迹数据具有数据量大、位置更新频繁、信息蕴含丰富等特点，为基于位置的服务（Location Based Service，简称LBS）、交通管理、城市规划、社会计算等提供了重要的数据源。

用户设备的时空轨迹数据也成为大数据（Big Data）时代的典型代表，海量的时空轨迹数据蕴含着诸多用户个性化信息，例如个体的时空轨迹可以用于描述其时空行为特征，大量的个体的时空轨迹则可以反映群体的时空行为规律，特别是对挖掘用户行为习惯及个人用户画像、智能城市交通规划、电信流量分配以及时空数据挖掘等实际应用具有非常重要的意义。

当前用户设备的时空轨迹数据是基于用户设备不同时间的位置信息集合，简单来讲可以是基于用户身份标识（IDentity，简称ID）、地理位置（LocationID）和时间戳（Timestamp）为主键的多元组集合，即{<Oid，LocationID，Timestamp,A₁,…,A_n>,…}。其中，前三个属性为时空轨迹数据的核心标示属性，包括Oid标示了对应的对象ID，LocationID标示了对应的时空轨迹点以及Timestamp标示了对应的时间点，A₁,…,A_n为数据附带的其他相关轨迹信息属性。

时空轨迹数据是一个结构化良好的关系型数据。大量的用户设备及较长的时间跨度，导致在该类结构化数据的存储及实时分析查询具有巨大的挑战。例如在一个大中型城市约有300～400万的移动终端，一天的时空轨迹数据即可达到约为5TB的数据量，这为有效的实时数据查询分析带来了巨大的困难。针对此类高速海量时空轨迹数据流，现有技术中提供有一种数据存储方案,如并行关系数据库存储***。

并行关系数据库存储***将传统分布式数据管理***扩展于此种结构化的大数据存储管理。其缺陷是海量数据的管理效率不高，以及数据安全容错性不足。

另外，现有技术中还公开一种基于区域划分的时空轨迹数据存储方法，通过地理位置的网格区域划分，将位于同一网格单元的地理位置点存储在同一个网格区域内，以压缩时空轨迹的存储空间。该类方法将区域的索引存储在轨迹中，提供轨迹的快速检索方式，搜索相似轨迹时，不用与数据库中的所有轨迹匹配，而只需要计算该轨迹与其通过的区域中的轨迹的相似度即可。

然而，现有基于区域存储方法的缺点主要是：基于网格划分的结构导致轨迹数据的各个网格单元密度不均，且使得基于B+的树状存储结构不平衡而降低查询效率，不能够实现实时分析查询。

发明内容

本发明实施例提供一种数据存储方法及***，用于存储海量的时空轨迹数据，并实现实时分析查询存储的时空轨迹数据。

第一方面，本发明实施例提供一种数据存储方法，包括：

读取待存储的第一条数据元组；

采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据；

将所述至少三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器将所述结构化数据写入异构分布式文件***HDFS的节点中。

结合第一方面，在第一种可能的实现方式中，采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据的步骤之前，所述方法还包括：

若所述高速缓冲存储器中已经缓存过与所述第一条数据元组关联的第二条数据元组，则查找与所述第一条数据元组关联的第二条数据元组的存储区域，所述第二条数据元组为已经存储在所述异构HDFS的节点中的数据元组；

所述将所述至少三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器将所述结构化数据写入异构HDFS的节点中，包括：

将所述三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器将所述结构化数据写入所述第二条数据元组所在的存储区域中；

若所述高速缓冲存储器中未缓存过与所述第一条数据元组关联的第二条数据元组，则设置所述结构化数据的存储位置；

将所述三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器将所述结构化数据写入所述设置的所述结构化数据的存储位置中。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述第一条数据元组包括：

用户标识Oid、与所述Oid对应的时空轨迹点标识Location ID，与所述LocationID对应的时间信息Timestamp；

所述第一条数据元组还包括下述的一项或多项：

与所述Oid对应的用户状态、与所述Location ID对应的时空区域、与所述Oid对应的用户设备代码。

结合第一方面的第一种可能的实现方式或第二种可能的实现方式，在第三种可能的实现方式中，所述第一条数据元组与所述第二条数据元组关联，包括下述的一种或多种：

所述第一条数据元组的Oid与所述第二条数据元组的Oid相同；

所述第一条数据元组的Location ID与所述第二条数据元组的Location ID相同；

所述第一条数据元组的Timestamp与所述第二条数据元组的Timestamp相同。

结合第一方面的第二种可能的实现方式，在第四种可能的实现方式中，

所述至少三种不同结构的结构化数据，包括：

以所述第一条数据元组中的Oid、Location ID，Timestamp为索引值的第一种结构化数据；

以所述第一条数据元组中的Location ID为索引值的第二种结构化数据；

以所述第一条数据元组中的Timestamp为索引值的第三种结构化数据。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，

采用结构化数据编码方式将所述第一条数据元组编码为第一种结构化数据，包括：

获取所述第一条数据元组的桶区标识Bucket ID，并将所述第一条数据元组中的数据分配到与所述Bucket ID对应的桶区Bucket中；

根据所述时空轨迹点将每一Bucket内的数据分为至少一个堆区Stack；

根据所述Stack内数据的一维属性将所述Stack内的数据分为至少一个块区Block；

根据Oid将所述Block中的数据分为至少一个文件，

根据时间序列将所述至少一个文件中的数据排列得到列存储队列；

所述Bucket、Stack、Block中的数据组成以所述Oid、Location ID和Timestamp为索引值的第一种结构化数据。

结合第一方面的第五种可能的实现方式，在第六种可能的实现方式中，所述获取所述第一条数据元组的Bucket ID，包括：

根据下述公式一获取所述Bucket ID；

其中，k为散列因子，t₀为所述第一条数据元组的起始时间，δ为Bucket的时间跨度，r为第一条数据元组。

结合第一方面的第四种可能的实现方式，在第七种可能的实现方式中，采用结构化数据编码方式将所述第一条数据元组编码为第二种结构化数据，包括：

获取所述第一条数据元组的Bucket ID，并将所述第一条数据元组中的数据分配到与所述Bucket ID对应的Bucket中；

根据所述Timestamp将每一Bucket内的数据分为至少一个Stack；

根据所述Stack内数据的一维属性将所述Stack内的数据分为至少一个Block；

根据所述Location ID将所述Block中的数据分为至少一个文件，

根据时间序列和所述Oid将所述至少一个文件中的数据排列得到列存储队列；

所述Bucket、Stack、Block中的数据组成以所述Location ID为索引值的第二种结构化数据。

结合第一方面的第七种可能的实现方式，在第八种可能的实现方式中，

所述获取所述第一条数据元组的Bucket ID，包括：

根据下述公式二获取所述Bucket ID；

结合第一方面的第四种可能的实现方式，在第九种可能的实现方式中，

采用结构化数据编码方式将所述第一条数据元组编码为第三种结构化数据，包括：

根据所述时空轨迹点将每一Bucket内的数据分为至少一个Stack；

根据所述Timestamp将所述Block中的数据分为至少一个文件，

根据所述Location ID和所述Oid将所述至少一个文件中的数据排列得到列存储队列；

所述Bucket、Stack、Block中的数据组成以所述Timestamp为索引值的第三种结构化数据。

结合第一方面的第九种可能的实现方式，在第十种可能的实现方式中，

所述获取所述第一条数据元组的Bucket ID，包括：

根据下述公式三获取所述Bucket ID；

Bucketid(r)=hash(r.T(r.timestamp))modk+hash(r.LocationID)modk 公式三

其中，T(r.timestamp)=r.timestamp所在的时间序列的id，k为散列因子，r为第一条数据元组。

结合第一方面的上述所有可能的实现方式，在第十一种可能的实现方式中，所述采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据，还包括：

获取所述结构化数据的索引信息，所述索引信息用于实现与所述结构化数据对应的数据元组的查询。

第二方面，本发明实施例提供一种数据存储***，包括：

读取单元，用于读取待存储的第一条数据元组；

异构数据元组加载单元，用于采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据；

存储单元，用于将所述至少三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器将所述结构化数据写入异构分布式文件***HDFS的节点中。

结合第二方面，在第一种可能的实现方式中，所述***还包括：查找单元；

所述查找单元，用于在所述异构数据元组加载单元获取所述结构化数据之前，查找所述高速缓冲存储器中是否已经缓存过与所述第一条数据元组关联的第二条数据元组；

若所述查找单元查找到所述高速缓冲存储器中已经缓存过与所述第一条数据元组关联的第二条数据元组，则查找所述第二条数据元组的存储区域，所述第二条数据元组为已经存储在所述异构HDFS的节点中的数据元组；

所述存储单元，具体用于将所述三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器将所述结构化数据写入所述第二条数据元组所在的存储区域中；

若所述查找单元查找到所述高速缓冲存储器中未缓存过与所述第一条数据元组关联的第二条数据元组，则所述***还包括：

设置单元，用于在所述查找单元未查找到所述高速缓冲存储器中缓存过与所述第一条数据元组关联的第二条数据元组，则设置所述结构化数据的存储位置；

所述存储单元，具体用于将所述三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器根据所述设置单元设置的所述存储位置将所述结构化数据写入所述设置的所述结构化数据的存储位置中。

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述第一条数据元组包括：

所述第一条数据元组还包括下述的一项或多项：

结合第二方面的第一种可能的实现方式或第二种可能的实现方式，在第三种可能的实现方式中，所述第一条数据元组与所述第二条数据元组关联，包括下述的一种或多种：

所述第一条数据元组的Oid与所述第二条数据元组的Oid相同；

结合第二方面的第二种可能的实现方式，在第四种可能的实现方式中，所述至少三种不同结构的结构化数据，包括：

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述异构数据元组加载单元，具体用于

根据用户标识将所述Block中的数据分为至少一个文件，

结合第二方面的第五种可能的实现方式，在第六种可能的实现方式中，所述异构数据元组加载单元，具体用于

根据下述公式一获取所述Bucket ID；

结合第二方面的第四种可能的实现方式，在第七种可能的实现方式中，所述异构数据元组加载单元，具体用于

根据所述Timestamp将每一Bucket内的数据分为至少一个Stack；

根据所述Location ID将所述Block中的数据分为至少一个文件，

结合第二方面的第七种可能的实现方式，在第八种可能的实现方式中，所述异构数据元组加载单元，具体用于

根据下述公式二获取所述Bucket ID；

结合第二方面的第四种可能的实现方式，在第九种可能的实现方式中，所述异构数据元组加载单元，具体用于

根据所述Timestamp将所述Block中的数据分为至少一个文件，

结合第二方面的第九种可能的实现方式，在第十种可能的实现方式中，

所述异构数据元组加载单元，具体用于

根据下述公式三获取所述Bucket ID；

Bucketid(r)=hash(r.T(r.timestamp))modk+hash(r.LocationID)modk 公式三

结合第二方面及上述可能的实现方式，在第十一种可能的实现方式中，所述异构数据元组加载单元，还用于

第三方面，本发明实施例还提供一种数据存储***，包括：

处理器和和存储器；

所述存储器用于存储指令；

所述处理器执行所述存储器中存储的指令，用于：

读取待存储的第一条数据元组；

结合第三方面，在第一种可能的实现方式中，所述处理器用于在采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据之前，还用于

确定所述高速缓冲存储器中是否已经缓存过与所述第一条数据元组关联的第二条数据元组，若是，则查找与所述第一条数据元组关联的第二条数据元组的存储区域，所述第二条数据元组为已经存储在所述异构HDFS的节点中的数据元组；

将所述三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器根据所述第二条数据元组的存储区域将所述结构化数据写入所述第二条数据元组所在的存储区域中；

若确定所述高速缓冲存储器中未缓存过与所述第一条数据元组关联的第二条数据元组，则设置所述结构化数据的存储位置；

结合第三方面或第三方面的第一种可能的实现方式，在第二种可能的实现方式中，所述第一条数据元组包括：

所述第一条数据元组还包括下述的一项或多项：

结合第三方面的第一种可能的实现方式或第二种可能的实现方式，在第三种可能的实现方式中，所述第一条数据元组与所述第二条数据元组关联，包括下述的一种或多种：

所述第一条数据元组的Oid与所述第二条数据元组的Oid相同；

结合第三方面的第二种可能的实现方式，在第四种可能的实现方式中，

所述至少三种不同结构的结构化数据，包括：

结合第三方面的第四种可能的实现方式，在第五种可能的实现方式中，

所述处理器用于采用结构化数据编码方式将所述第一条数据元组编码为第一种结构化数据，包括：

根据所述Oid将所述Block中的数据分为至少一个文件，

结合第三方面的第五种可能的实现方式，在第六种可能的实现方式中，

所述处理器用于获取所述第一条数据元组的Bucket ID，包括：

根据下述公式一获取所述Bucket ID；

结合第三方面的第四种可能的实现方式，在第七种可能的实现方式中，

所述处理器用于采用结构化数据编码方式将所述第一条数据元组编码为第二种结构化数据，包括：

根据所述Timestamp将每一Bucket内的数据分为至少一个Stack；

根据所述Location ID将所述Block中的数据分为至少一个文件，

结合第三方面的第七种可能的实现方式，在第八种可能的实现方式中，

所述处理器用于获取所述第一条数据元组的Bucket ID，包括：

根据下述公式二获取所述Bucket ID；

结合第三方面的第四种可能的实现方式，在第九种可能的实现方式中，

所述处理器用于采用结构化数据编码方式将所述第一条数据元组编码为第三种结构化数据，包括：

根据所述Timestamp将所述Block中的数据分为至少一个文件，

结合第三方面的第九种可能的实现方式，在第十种可能的实现方式中，

所述处理器用于获取所述第一条数据元组的Bucket ID，包括：

根据下述公式三获取所述Bucket ID；

Bucketid(r)=hash(r.T(r.timestamp))modk+hash(r.LocationID)modk 公式三

结合第三方面或第三方面的所有可能的实现方式，在第十一种可能的实现方式中，

所述处理器还用于

第四方面，本发明实施例提供一种数据分析***，包括：

数据存储装置、与所述数据存储装置连接的异构HDFS存储节点；

其中，所述数据存储装置包括：异构数据管理单元，异构数据加载单元，异构数据查询单元，异构数据读写访问单元；

所述异构数据管理单元与所述异构数据加载单元连接，所述异构数据读写访问单元分别与所述异构数据管理单元，异构数据加载单元，异构数据查询单元连接；

所述异构数据管理单元，用于设置所述异构数据加载单元中的结构化数据的存储信息和设置所述结构化数据的索引值信息；

所述异构数据加载单元，用于接收待存储的数据元组，并将所述待存储的数据元组编码为至少三种不同结构的结构化数据，将所述结构化数据通过所述异构数据读写访问单元存储在所述异构HDFS存储节点；

所述异构数据查询单元，用于接收用户输入的查询请求，根据查询请求与所述异构数据读写访问单元交互，获得存储在所述异构HDFS存储节点中的数据元组。

结合第四方面，在第一种可能的实现方式中，还包括：

连接所述异构数据读写访问单元的异构数据容错优化单元，用于将所述异构数据读写访问单元从所述异构HDFS中读取的结构化数据进行容错处理，获得具有高容错性的结构化数据。

结合第四方面或第四方面的第一种可能的实现方式，在第二种可能的实现方式中，所述异构数据查询单元包括：

查询接口，用于接收用户输入的查询请求。

由上述技术方案可知，本发明实施例的数据存储方法及***，通过结构化数据编码方式将数据元组编码为至少三种不同结构的结构化数据，进而将结构化数据写入高速缓冲存储器中，可以有效的存储海量的时空轨迹数据，且能够实现海量的时空轨迹数据的实时分析查询。

附图说明

图1为Hadoop中的分布式文件***的示意图；

图2为本发明实施例一提供的数据存储方法的流程示意图；

图3A为本发明实施例二提供的数据存储方法的流程示意图；

图3B为本发明实施例二中的第一种结构化数据的示意图；

图3C为图3B中的Block中数据的结构示意图；

图4为本发明实施例三提供的数据存储方法的流程示意图；

图5为本发明实施例四提供的数据存储方法的流程示意图；

图6为本发明实施例一提供的数据存储***的结构示意图；

图7为本发明实施例二提供的数据存储***的结构示意图；

图8为本发明实施例一提供的数据分析***的结构示意图；

图9为本发明实施例二提供的数据分析***的结构示意图；

图10为本发明的分布式文件***存储结构化数据的示意图。

具体实施方式

现有技术中提供一种大数据处理平台（Hadoop），Hadoop具有有效的大数据存储及其高效的容错能力。现有技术中的Hadoop包括同构分布式文件***（Hadoop DistributedFile System，简称HDFS），同构HDFS对数据的存储方式如图1所示。一个大文件被均分为5个小文件块，每个小文件块的三份同构备份被随机的分布在三台不同的数据节点上，如小文件块2在节点A、节点B和节点D分别有一个同构副本。从整体上看，即是一个文件的三份同构副本散列在Hadoop的集群中。

也就是说，同构HDFS可将三个相同结构的数据块均等概率分布在多个集群的节点中，进而降低了海量数据存储的容错率。

现有的Hadoop存储海量数据的优势在于：Hadoop具有高效的容错机制和并行计算能力。例如，对同一个小文件块的操作可以在不同的数据节点上并行完成进而提高计算效率。然而，Hadoop还不能支持高效易用的分布式数据库对结构化数据分析查询，并且同构备份的备份结构完全相同，导致占用的存储空间大，例如同数据多索引存储所需空间倍数增长。

因此，本发明实施例结合Hadoop的大数据分析处理能力，将时空轨迹数据进行划分采用异构备份方式将时空轨迹数据存储到Hadoop集群的不同节点上，并实现时空轨迹数据的实时分析查询。

图2示出了本发明实施例一提供的数据存储方法的流程示意图，如图2所示，本实施例的数据存储方法如下所述。

201、读取待存储的第一条数据元组，即{<Oid，LocationID，Timestamp,A₁,…,A_n>,…}。

举例来说，第一条数据元组至少包括：用户标识（Oid）、与Oid对应的时空轨迹点标识（Location ID），与所述Location ID对应的时间信息（Timestamp）。

可选地，第一条数据元组还包括下述的一项或多项：

与Oid对应的用户状态、与Location ID对应的时空区域、与Oid对应的用户设备代码等等。

在<Oid,LocationID,Timestamp,A₁,…,A_n>中，前三个属性为时空轨迹数据的核心标示属性，A₁,…,A_n为数据附带的其他相关轨迹信息属性信息。比如活动类型：坐车、步行、运动等属性信息。

上述数据元组的模型满足了时空轨迹数据结构化存储的要求，同时满足了关联信息如属性信息一并存储的需要，大大扩展了现有数据的模型对时空轨迹数据存储的局限性。

202、采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据。

举例来说，至少三种不同结构的结构化数据可包括：以所述第一条数据元组中的Oid，LocationID，Timestamp为索引值的第一种结构化数据；

以所述第一条数据元组中的LocationID为索引值的第二种结构化数据；

203、将所述至少三种不同结构的结构化数据存储在高速缓冲存储器（Cache）中，以使所述高速缓冲存储器将所述结构化数据写入异构HDFS的节点中。

可选地，前述步骤202中，采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据之后，还可获取所述结构化数据的索引信息，所述索引信息用于实现与所述结构化数据对应的数据元组的查询。

也就是说，在步骤202中，采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据，同时获得结构化数据的索引信息，所述索引信息用于实现与所述结构化数据对应的数据元组的查询。

本实施例的数据存储方法，通过结构化数据编码方式将数据元组编码为至少三种不同结构的结构化数据，进而将结构化数据写入高速缓冲存储器中，可以有效的存储海量的时空轨迹数据，且能够实现海量的时空轨迹数据的实时分析查询。

可选地，若所述高速缓冲存储器中已经缓存过与所述第一条数据元组关联的第二条数据元组，则在前述步骤202之前，上述的数据存储方法还可包括下述的图中未示出的步骤201a：

201a、查找与所述第一条数据元组关联的第二条数据元组的存储区域，所述第二条数据元组为已经存储在所述异构HDFS的节点中的数据元组；

相应地，前述的步骤202可为下述的步骤202’：

202’：将所述三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器将所述结构化数据写入所述第二条数据元组所在的存储区域中。

另外，若所述高速缓冲存储器中未存储过与所述第一条数据元组关联的第二条数据元组，则在前述步骤202之前，上述的数据存储方法还可包括下述的图中未示出的步骤201a’：

201a’：设置所述结构化数据的存储位置；

相应地，前述的步骤202可为下述的步骤202’’：

202’’：将所述三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器将所述结构化数据写入所述设置的所述结构化数据的存储位置中。

应说明的是，前述的第一条数据元组和第二条数据元组可为同一用户的数据，或者前述的第一条数据元组和第二条数据元组还可为同一时空轨迹点的数据。例如，第一条数据元组与所述第二条数据元组关联，包括下述的一种或多种：

所述第一条数据元组的Oid与所述第二条数据元组的Oid相同；

所述第一条数据元组的Timestamp与所述第二条数据元组的Timestamp相同。本实施例仅为举例说明。

上述方法针对同一个时空轨迹数据，实现三份异构备份，同时满足三种索引信息和数据容错的需求，并且降低了数据的存储空间。

图3A示出了本发明实施例二提供的数据存储方法的流程示意图，如图3A所示，本实施例的数据存储方法如下所述。

301、读取待存储的第一条数据元组，即{<Oid，LocationID，Timestamp,A₁,…,A_n＞,…}。

302、采用结构化数据编码方式将所述第一条数据元组编码为第一种结构化数据。

举例来说，该步骤302可包括下述的子步骤：

3021、获取所述第一条数据元组的桶区标识（Bucket ID），并将所述第一条数据元组中的数据分配到与所述Bucket ID对应的桶区（Bucket）中。

例如，可根据下述公式一获取所述Bucket ID；

3022、根据所述时空轨迹点将每一Bucket内的数据分为至少一个堆区（Stack）。

举例来说，每一个Bucket首先基于Location进行四分树（Quadtree）划分成不同的区域，在每一区域中进行聚合形成Stack。

3023、根据所述Stack内数据的一维属性将所述Stack内的数据分为至少一个块区（Block）；

3024、根据Oid将所述Block中的数据分为至少一个文件。

也就是说，Block中的数据基于Oid聚集成不同的簇，并且每个簇对应一个文件（Section）。在文件的开头放置基于Oid簇Section映射索引；每个簇Section中的数据以时间序列进行列存储。

3025、根据时间序列将所述至少一个文件中的数据排列得到列存储队列。

其中，每个Block内依据不同用户ID把数据聚集为不同的文件（Section），Section内数据采取列存储结构对数据进行存储。

所述Bucket、Stack、Block中的数据组成以所述Oid、Location ID和Timestamp为索引值的第一种结构化数据，如图3B和图3C所示。

303、将第一种结构化数据存储在Cache中，以使Cache将所述结构化数据写入异构HDFS的节点中。

图4示出了本发明实施例三提供的数据存储方法的流程示意图，如图4所示，本实施例的数据存储方法如下所述。

401、读取待存储的第一条数据元组，即{<Oid，LocationID，Timestamp,A₁,…,A_n>,…}。

402、采用结构化数据编码方式将所述第一条数据元组编码为第二种结构化数据。

举例来说，该步骤402可包括下述的子步骤：

4021、获取所述第一条数据元组的Bucket ID，并将所述第一条数据元组中的数据分配到与所述Bucket ID对应的Bucket中。

例如，可根据下述公式二获取所述Bucket ID；

其中，k为散列因子，小于1024，t₀为所述第一条数据元组的起始时间，δ为Bucket的时间跨度，r为第一条数据元组。

4022、根据所述Timestamp将每一Bucket内的数据分为至少一个Stack。

也就是说，每一个Bucket内的数据根据时间排序并进行聚合划分（group）成不同的Stack。

4023、根据所述Stack内数据的一维属性将所述Stack内的数据分为至少一个Block；

4024、根据Location ID将所述Block中的数据分为至少一个文件。

4025、根据时间序列和Oid将所述至少一个文件中的数据排列得到列存储队列。

也就是说，数据基于Location ID聚集成不同的簇，并且每个簇对应一个文件Section。在文件的开头放置基于Location ID簇Section映射索引；每个簇Section中的数据以时间序列和Oid进行列存储。

403、将第二种结构化数据存储在Cache中，以使Cache将所述结构化数据写入异构HDFS的节点中。

图5示出了本发明实施例四提供的数据存储方法的流程示意图，如图5所示，本实施例的数据存储方法如下所述。

501、读取待存储的第一条数据元组，即{<Oid，LocationID，Timestamp,A₁,…,A_n>,…}。

502、采用结构化数据编码方式将所述第一条数据元组编码为第三种结构化数据。

举例来说，该步骤502可包括下述的子步骤：

5021、获取所述第一条数据元组的Bucket ID，并将所述第一条数据元组中的数据分配到与所述Bucket ID对应的Bucket中。

例如，可根据下述公式三获取所述Bucket ID；

Bucketid(r)=hash(r.T(r.timestamp))modk+hash(r.LocationID)modk 公式三

5022、根据所述时空轨迹点将每一Bucket内的数据分为至少一个Stack。

也就是说，每一个Bucket首先基于区域Location进行四分树（Quadtree）划分成不同的区域，在每一区域中进行聚合形成Stack。

5023、根据所述Stack内数据的一维属性将所述Stack内的数据分为至少一个Block；

5024、根据Timestamp将所述Block中的数据分为至少一个文件。

5025、根据Location ID和Oid将所述至少一个文件中的数据排列得到列存储队列。

也就是说，数据基于T(r.timestamp)聚集成不同的簇，并且每个簇对应一个文件Section。在文件的开头放置基于T(r.timestamp)簇Section映射索引；每个簇Section中的数据以Location ID和Oid序列进行列存储。

503、将第三种结构化数据存储在Cache中，以使Cache将所述结构化数据写入异构HDFS的节点中。

上述数据存储方法可以实现以Oid，Location ID和Timestamp上的联合索引值，实现第一类数据的快速访问；2）以Location ID为空间优先索引值和3）以Timestamp为索引值的查询需求。

上述图3至图5所示的流程中可理解为，在数据存储***中输入为一GPS的数据元组<Oid,LocationID,Timestamp,A1,…,An>，以三种不同结构并按Bucket-Stack-Block三层结构存储在异构HDFS的节点中。

图6示出了本发明实施例一提供的数据存储***的流程示意图，如图6所示，本实施例的数据存储***包括：读取单元61、异构数据元组加载单元62和存储单元63；

其中，读取单元61用于读取待存储的第一条数据元组；

异构数据元组加载单元62用于采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据；

存储单元63用于将所述至少三种不同结构的结构化数据存储在高速缓冲存储器（Cache）中，以使所述高速缓冲存储器将所述结构化数据写入异构分布式文件***HDFS的节点中。

可选地，数据分析***还可包括图中未示出的查找单元64，其中，查找单元64用于在所述异构数据元组加载单元62获取所述结构化数据之前，查找所述高速缓冲存储器中是否已经缓存过于所述第一条数据元组关联的第二条数据元组；

若查找单元64查找到所述高速缓冲存储器中已经缓存过于所述第一条数据元组关联的第二条数据元组，则查找所述第二条数据元组的存储区域，所述第二条数据元组为已经存储在所述异构HDFS的节点中的数据元组；

所述存储单元63，具体用于将所述三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器将所述结构化数据写入所述第二条数据元组所在的存储区域中；

若所述查找单元64查找到所述高速缓冲存储器中未缓存过与所述第一条数据元组关联的第二条数据元组，则所述***还包括图中未示出的设置单元65；

设置单元65用于在所述查找单元64未查找到所述高速缓冲存储器中缓存过与所述第一条数据元组关联的第二条数据元组，则设置所述结构化数据的存储位置；

所述存储单元63，具体用于将所述三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器根据所述设置单元设置的所述存储位置将所述结构化数据写入所述设置的所述结构化数据的存储位置中。

举例来说，所述第一条数据元组可包括：Oid、与Oid对应的Location ID，与Location ID对应的Timestamp；

所述第一条数据元组还包括下述的一项或多项：与所述Oid对应的用户状态（A1）、与所述Location ID对应的时空区域（A2）、与所述Oid对应的用户设备代码（A3）等等。

上述的所述第一条数据元组与所述第二条数据元组关联，可为下述的一种或多种：

所述第一条数据元组的Oid与所述第二条数据元组的Oid相同；

可选地，前述的至少三种不同结构的结构化数据，包括：

在一种具体的实现方式中，所述异构数据元组加载单元62具体用于

获取所述第一条数据元组的桶区标识Bucket ID，并将所述第一条数据元组中的数据分配到与所述Bucket ID对应的桶区Bucket中。

例如，根据下述公式一获取所述Bucket ID；

根据用户标识将所述Block中的数据分为至少一个文件，

在第二种可选的实现场景中，异构数据元组加载单元62具体用于

例如，可根据下述公式二获取所述Bucket ID；

根据所述Timestamp将每一Bucket内的数据分为至少一个Stack；

根据Location ID将所述Block中的数据分为至少一个文件，

根据时间序列和Oid将所述至少一个文件中的数据排列得到列存储队列；

在第三种可选的应用场景中，异构数据元组加载单元62具体用于

例如，根据下述公式三获取所述Bucket ID；

Bucketid(r)=hash(r.T(r.timestamp))modk+hash(r.LocationID)modk 公式三

根据Timestamp将所述Block中的数据分为至少一个文件，

根据Location ID和Oid将所述至少一个文件中的数据排列得到列存储队列；

可选地，所述异构数据元组加载单元62还用于，获取所述结构化数据的索引信息，所述索引信息用于实现与所述结构化数据对应的数据元组的查询。

上述实施例的数据存储***，通过异构数据元组加载单元将数据元组编码为至少三种不同结构的结构化数据，进而存储单元将结构化数据写入高速缓冲存储器中，可以有效的存储海量的时空轨迹数据，且能够实现海量的时空轨迹数据的实时分析查询。

图7示出了本发明实施例一提供的数据存储***的流程示意图，如图7所示，本实施例的数据存储***包括：处理器71和和存储器72；

所述存储器72用于存储指令；

所述处理器71执行所述存储器72中存储的指令，用于：

读取待存储的第一条数据元组；

所述处理器71用于在采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据之前，还用于

举例来说，所述第一条数据元组包括：Oid、与Location ID，Timestamp；

所述第一条数据元组还可包括下述的一项或多项：与所述Oid对应的用户状态、与所述Location ID对应的时空区域、与所述Oid对应的用户设备代码。

可选地，所述第一条数据元组与所述第二条数据元组关联，包括下述的一种或多种：

所述第一条数据元组的Oid与所述第二条数据元组的Oid相同；

前述的至少三种不同结构的结构化数据，包括：

在第一种可能的实现场景中，所述处理器71用于采用结构化数据编码方式将所述第一条数据元组编码为第一种结构化数据，包括：

例如，根据下述公式一获取所述Bucket ID；

根据Oid将所述Block中的数据分为至少一个文件，

在第二种可能的实现场景中，所述处理器71用于采用结构化数据编码方式将所述第一条数据元组编码为第二种结构化数据，包括：

根据下述公式二获取所述Bucket ID；

根据所述Timestamp将每一Bucket内的数据分为至少一个Stack；

根据Location ID将所述Block中的数据分为至少一个文件，

在第三种可能的实现场景中，所述处理器71用于采用结构化数据编码方式将所述第一条数据元组编码为第三种结构化数据，包括：

根据下述公式三获取所述Bucket ID；

Bucketid(r)=hash(r.T(r.timestamp))modk+hash(r.LocationID)modk 公式三

根据时间信息将所述Block中的数据分为至少一个文件，

根据时空轨迹点标识和用户标识将所述至少一个文件中的数据排列得到列存储队列；

在第四种可选的实现场景中，所述处理器71还用于

上述实施例的数据存储***，可以有效的存储海量的时空轨迹数据，且能够实现海量的时空轨迹数据的实时分析查询。

本实施例的数据存储***，可以执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本实施例的数据存储***可将任一待存储的数据元组编码成异构备份的结构化数据，进而实现时空轨迹数据的存储。

图8示出了本发明实施例一提供的数据分析***的流程示意图，如图8所示，本实施例的数据分析***包括：数据存储装置81、与所述数据存储装置81连接的异构HDFS82；

其中，所述数据存储装置81包括：异构数据管理单元811，异构数据加载单元812，异构数据查询单元813，异构数据读写访问单元714；

所述异构数据管理单元811与所述异构数据加载单元812连接；

所述异构数据读写访问单元814分别与所述异构数据管理单元811，异构数据加载单元812，异构数据查询单元813连接；

所述异构数据管理单元811，用于设置所述异构数据加载单元812中的结构化数据的存储信息和设置所述结构化数据的索引值信息；

所述异构数据加载单元812，用于接收待存储的数据元组，并将所述待存储的数据元组编码为至少三种不同结构的结构化数据，将所述结构化数据通过所述异构数据读写访问单元814存储在所述异构HDFS82；

所述异构数据查询单元813，用于接收用户输入的查询请求，根据查询请求与所述异构数据读写访问单元814交互，获得存储在所述异构HDFS82中的数据元组。

时空轨迹数据存储在图8所示的数据分析***中，即，所有数据元组均以文件方式存储在异构HDFS中。并且，数据存储装置中的异构数据读写访问单元814对结构化数据的管理和查询分析。

可选地，如图9所示，前述的数据分析***还可包括：连接所述异构数据读写访问单元814的异构数据容错优化单元815，用于将所述异构数据读写访问单元814从所述异构HDFS中读取的结构化数据进行容错处理，获得具有高容错性的结构化数据。

本实施例的数据分析***采用异构备份机制将数据元组随机存储，且能够实现并行运算机制提高时空轨迹数据的查询效率，实现时空轨迹数据的实时分析查询。

在具体的应用中，前述的异构数据管理单元811主要用于实现异构索引表的管理。例如添加异构索引表或者删除异构索引表等。例如，下述的创建异构索引表的程序。

应说明的是，异构索引表可为前述图2至图5中所描述的结构化数据的存储时建立的索引信息组成的。

异构数据加载单元812用于实现数据元组的存储。例如，对数据元组转换为异构的三种结构化数据。

异构数据容错优化单元815，用于实现异构的结构化数据之间的转换/恢复等。例如，恢复某一异构HDFS的节点中block中损坏的数据等，以提高数据的容错性。具体地，每一block可以通过其它几个最相关的block把它恢复，例如，block1的最相关块为block8/block22/block30，即block8、block22和block30的共同数据重新组织成block1的所需结构达到block1数据的恢复。

具体地，针对每一个结构化数据的Bucket/Stack/Block，根据数据间的内在关系，异构数据管理单元811保存了相应的容错回复列表，例如对于结构一的一个Bucket000数据损坏或遗失，其相应的回复列表保存了从结构二和结构三相关数据Block列表，通过这些列表，可以根据数据加载技术回复Bucket000数据，结构二或结构三Bucket回复机制类似。结合图3C举例来说，结构一是以Oid为序存储在Bucket中，假如某一个结构一Bucket1包含oid：105，203两个用户的轨迹数据；考虑结构二，我们知道结构二是以时间为序来存储在相应的Bucket中，如果oid为105的用户轨迹数据存储在Bucket5中，而oid为203的用户轨迹数据存储在Bucket8和Bucket20中，所以如果Bucket1损坏，则可以通过结构二的Bucket5、Bucket8和Bucket20把所有oid为105和203的数据重组，达到数据恢复容错的功能。

也就是说，在异构HDFS的节点中，若删除同一结构一个或多个Bucket/Stack/Block数据，该删除的数据可以自动通过其他的结构化数据，实现删除的数据的回复。

异构数据查询单元813，用于查询最相近的数据元组的结构化数据。例如，客户端通过索引结构匹配子单元进行查询，查询最接近的结构化数据。举例来说，异构数据查询单元813可包括查询接口，查询结构用于接收用户输入的查询请求。其中，查询接口可通过结构化查询语言（Structured Query Language，简称SQL）实现。

异构数据读写访问单元814，用于实现异构HDFS中结构化数据的并行查询。

异构HDFS，备份存储同一个数据元组的多个不同结构副本。如图10所示，异构HDFS散列存储同一文件的不同结构于异构HDFS的节点中。结构化数据不同在于第一种结构化数据、第二种结构化数据和第三种结构化数据。上述结构化数据都是bucket-stack-block结构。

上述的数据分析***满足了基于全时空的轨迹查询的需求。

另外，上述的异构数据查询单元813可具有查询接口，实现异构HDFS中的结构化数据的查询。该异构数据查询单元813可以实现结构化数据的匹配，以及实现Bucket/Stack/Block中的数据的定位。例如查询某一用户在特定时间和区域内的所有数据的程序如下：

若需要通过上述的查询接口获取第一种结构化数据，可根据Oid,LocationID和Timestamp可以确定得到所需访问的Block中的文件列表。依据该Block中文件列表和其分布结构实现结构化数据的并行访问。

上述实施例的数据分析***实现了海量时空数据在异构HDFS的节点上的存储和实时查询。

也就是说，针对存储的时空轨迹数据的查询主要包括：第一类：个体用户的时空数据的实时访问，例如，在某一特定区域和时间段内的某些特定用户的时空行为轨迹；第二类：群体用户的时空数据的实时访问，例如，在某一特定区域和时间段内的所有用户时空行为轨迹。

为此，上述实施例中的存储时空轨迹数据的数据分析***中建三类索引值以实现数据快速访问：1）以Oid,LocationID和Timestamp上的联合索引值，实现第一种结构化数据的快速访问；2）以LocationID为空间优先索引值实现第二种结构化数据的快速访问；和3）以Timestamp为时间优先索引值实现第三种结构化数据的快速访问。

举例来说，实现在异构HDFS的节点上的类似如下的Q1～Q5的实时访问，但不限于这些类型。

其中，Q1～Q5定义了SQL查询类型，Q1是查询Oid为0001用户在特定时间内的某个地点的所有活动；Q2只是特定时间的所有活动；Q3只是特定地点的所有活动；Q4只是特定时间的所有人活动；Q5是特定地点所有人的所有活动）

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据存储方法，其特征在于，包括：

读取待存储的第一条数据元组；

将所述至少三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器将所述结构化数据写入异构分布式文件***HDFS的节点中；

采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据的步骤之前，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述第一条数据元组包括：

用户标识Oid、与所述Oid对应的时空轨迹点标识Location ID，与所述Location ID对应的时间信息Timestamp；

所述第一条数据元组还包括下述的一项或多项：

3.根据权利要求1或2所述的方法，其特征在于，所述第一条数据元组与所述第二条数据元组关联，包括下述的一种或多种：

所述第一条数据元组的Oid与所述第二条数据元组的Oid相同；

4.根据权利要求3所述的方法，其特征在于，所述至少三种不同结构的结构化数据，包括：

5.根据权利要求4所述的方法，其特征在于，采用结构化数据编码方式将所述第一条数据元组编码为第一种结构化数据，包括：

根据时空轨迹点将每一Bucket内的数据分为至少一个堆区Stack；

根据Oid将所述Block中的数据分为至少一个文件，

6.根据权利要求5所述的方法，其特征在于，所述获取所述第一条数据元组的BucketID，包括：

根据下述公式一获取所述Bucket ID；

7.根据权利要求4所述的方法，其特征在于，采用结构化数据编码方式将所述第一条数据元组编码为第二种结构化数据，包括：

根据所述Timestamp将每一Bucket内的数据分为至少一个Stack；

根据所述Location ID将所述Block中的数据分为至少一个文件，

8.根据权利要求7所述的方法，其特征在于，所述获取所述第一条数据元组的BucketID，包括：

根据下述公式二获取所述Bucket ID；

9.根据权利要求4所述的方法，其特征在于，采用结构化数据编码方式将所述第一条数据元组编码为第三种结构化数据，包括：

根据时空轨迹点将每一Bucket内的数据分为至少一个Stack；

根据所述Timestamp将所述Block中的数据分为至少一个文件，

10.根据权利要求9所述的方法，其特征在于，所述获取所述第一条数据元组的BucketID，包括：

根据下述公式三获取所述Bucket ID；

Bucketid(r)＝hash(r.T(r.timestamp))mod k+hash(r.LocationID)mod k 公式三

其中，T(r.timestamp)＝r.timestamp所在的时间序列的id，k为散列因子，r为第一条数据元组。

11.根据权利要求1、2、4-10任一所述的方法，其特征在于，所述采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据，还包括：

12.一种数据存储***，其特征在于，包括：

读取单元，用于读取待存储的第一条数据元组；

存储单元，用于将所述至少三种不同结构的结构化数据存储在高速缓冲存储器中，以使所述高速缓冲存储器将所述结构化数据写入异构分布式文件***HDFS的节点中；

所述***还包括：查找单元；

13.根据权利要求12所述的***，其特征在于，所述第一条数据元组包括：

所述第一条数据元组还包括下述的一项或多项：

14.根据权利要求12或13所述的***，其特征在于，所述第一条数据元组与所述第二条数据元组关联，包括下述的一种或多种：

所述第一条数据元组的Oid与所述第二条数据元组的Oid相同；

15.根据权利要求14所述的***，其特征在于，所述至少三种不同结构的结构化数据，包括：

16.根据权利要求15所述的***，其特征在于，所述异构数据元组加载单元，具体用于

根据用户标识将所述Block中的数据分为至少一个文件，

17.根据权利要求16所述的***，其特征在于，所述异构数据元组加载单元，具体用于

根据下述公式一获取所述Bucket ID；

18.根据权利要求15所述的***，其特征在于，所述异构数据元组加载单元，具体用于

根据所述Timestamp将每一Bucket内的数据分为至少一个Stack；

根据所述Location ID将所述Block中的数据分为至少一个文件，

19.根据权利要求18所述的***，其特征在于，所述异构数据元组加载单元，具体用于

根据下述公式二获取所述Bucket ID；

20.根据权利要求15所述的***，其特征在于，所述异构数据元组加载单元，具体用于

根据时空轨迹点将每一Bucket内的数据分为至少一个Stack；

根据所述Timestamp将所述Block中的数据分为至少一个文件，

21.根据权利要求20所述的***，其特征在于，所述异构数据元组加载单元，具体用于

根据下述公式三获取所述Bucket ID；

Bucketid(r)＝hash(r.T(r.timestamp))mod k+hash(r.LocationID)mod k 公式三

22.根据权利要求12、13、15至20任一所述的***，其特征在于，所述异构数据元组加载单元，还用于

23.一种数据存储***，其特征在于，包括：

处理器和和存储器；

所述存储器用于存储指令；

所述处理器执行所述存储器中存储的指令，用于：

读取待存储的第一条数据元组；

所述处理器用于在采用结构化数据编码方式将所述第一条数据元组编码为至少三种不同结构的结构化数据之前，还用于

24.根据权利要求23所述的***，其特征在于，所述第一条数据元组包括：

所述第一条数据元组还包括下述的一项或多项：

25.根据权利要求23或24所述的***，其特征在于，所述第一条数据元组与所述第二条数据元组关联，包括下述的一种或多种：

所述第一条数据元组的Oid与所述第二条数据元组的Oid相同；

26.根据权利要求25所述的***，其特征在于，所述至少三种不同结构的结构化数据，包括：

27.根据权利要求26所述的***，其特征在于，所述处理器用于采用结构化数据编码方式将所述第一条数据元组编码为第一种结构化数据，包括：

根据所述Oid将所述Block中的数据分为至少一个文件，

28.根据权利要求27所述的***，其特征在于，所述处理器用于获取所述第一条数据元组的Bucket ID，包括：

根据下述公式一获取所述Bucket ID；

29.根据权利要求26所述的***，其特征在于，所述处理器用于采用结构化数据编码方式将所述第一条数据元组编码为第二种结构化数据，包括：

根据所述Timestamp将每一Bucket内的数据分为至少一个Stack；

根据所述Location ID将所述Block中的数据分为至少一个文件，

30.根据权利要求29所述的***，其特征在于，所述处理器用于获取所述第一条数据元组的Bucket ID，包括：

根据下述公式二获取所述Bucket ID；

31.根据权利要求26所述的***，其特征在于，所述处理器用于采用结构化数据编码方式将所述第一条数据元组编码为第三种结构化数据，包括：

根据时空轨迹点将每一Bucket内的数据分为至少一个Stack；

根据所述Timestamp将所述Block中的数据分为至少一个文件，

32.根据权利要求31所述的***，其特征在于，所述处理器用于获取所述第一条数据元组的Bucket ID，包括：

根据下述公式三获取所述Bucket ID；

Bucketid(r)＝hash(r.T(r.timestamp))mod k+hash(r.LocationID)mod k 公式三

33.根据权利要求23、24、26至32任一所述的***，其特征在于，所述处理器还用于