CN111625600A - 数据存储的处理方法、***、计算机设备及存储介质 - Google Patents
数据存储的处理方法、***、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111625600A CN111625600A CN202010433605.5A CN202010433605A CN111625600A CN 111625600 A CN111625600 A CN 111625600A CN 202010433605 A CN202010433605 A CN 202010433605A CN 111625600 A CN111625600 A CN 111625600A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- real
- historical
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013500 data storage Methods 0.000 title claims abstract description 50
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 10
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 8
- 229910052799 carbon Inorganic materials 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据存储的处理方法、***、计算机设备及存储介质,其中,该数据存储的处理方法包括:通过根据业务时间将获取到的数据分为实时数据和历史数据;将该实时数据存储在Elasticsearch数据库中,并将该历史数据存储在Carbondata数据库中。通过本申请,解决了冷热数据存储的处理过程中效率低的问题。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及数据存储的处理方法、***、计算机设备及存储介质。
背景技术
当前处于数据日益增长的环境,如何高效存储数据和使用数据成为每个企业关心的话题。在相关技术中,通常在内存的逻辑物理地址映射表中添加表示数据访问频率高低的热度标识,以热度标识表示数据的热度等级,从而将冷热数据进行分离。但是,由于相关技术在数据写入过程中为平衡各数据块的磨损程度,需要进行磨损平衡,而磨损平衡会影响数据的访问频率,因此其冷热数据分离结果效率不高。
针对相关技术中,冷热数据存储的处理过程中存在效率低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据存储的处理方法、***、计算机设备及存储介质,以至少解决相关技术中冷热数据存储的处理过程中效率低的问题。
第一方面,本申请实施例提供了一种数据存储的处理***,其特征在于,所述***包括服务器;其中,所述服务器设置有Elasticsearch数据库和Carbondata数据库;
所述服务器用于获取各数据源的数据,并根据业务时间将所述数据分为实时数据和历史数据;
所述服务器将所述实时数据存储在所述Elasticsearch数据库中,并将所述历史数据存储在所述Carbondata数据库中。
在其中一些实施例中,所述***还包括终端;其中,所述终端与所述服务器连接;
所述服务器在接收到所述终端发送的查询指令的情况下,根据所述业务时间,将所述历史数据划分为历史简单数据和历史复杂数据;
所述服务器在所述查询指令为简单数据查询指令的情况下,查询所述Carbondata数据库中的历史简单数据和所述Elasticsearch数据库;
所述服务器在所述查询指令为复杂数据查询指令的情况下,查询所述Carbondata数据库中的历史复杂数据和所述Elasticsearch数据库。
在其中一些实施例中,所述服务器还用于将所述实时数据写入Kafka分布式;
所述服务器通过flink引擎,读取所述Kafka分布式的所述实时数据,并写入所述Elasticsearch数据库中实时索引。
在其中一些实施例中,所述服务器还用于根据所述业务时间,获取所述实时数据的索引名称信息。
在其中一些实施例中,所述服务器还用于将所述历史数据写入Hadoop分布式文件***(Hadoop Distributed File System,简称为HDFS);
所述服务器通过Spark引擎,读取所述HDFS的所述历史数据,并写入所述Carbondata数据库中离线存储。
第二方面,本申请实施例提供了一种数据存储的处理方法,其特征在于,所述方法包括:
根据业务时间将获取到的数据分为实时数据和历史数据;
将所述实时数据存储在Elasticsearch数据库中,并将所述历史数据存储在Carbondata数据库中。
在其中一些实施例中,所述将所述历史数据存储在Carbondata数据库中之后,所述方法还包括:
在接收到终端发送的查询指令的情况下,根据所述业务时间,将所述历史数据划分为历史简单数据和历史复杂数据;
在所述查询指令为简单数据查询指令的情况下,查询所述Carbondata数据库中的历史简单数据和所述Elasticsearch数据库;
在所述查询指令为复杂数据查询指令的情况下,查询所述Carbondata数据库中的历史复杂数据和所述Elasticsearch数据库。
在其中一些实施例中,所述将所述实时数据存储在Elasticsearch数据库中包括:
将所述实时数据写入Kafka分布式;
通过flink引擎,读取所述Kafka分布式的所述实时数据,并写入所述Elasticsearch数据库中实时索引。
在其中一些实施例中,所述写入所述Elasticsearch数据库中实时索引之后,所述方法还包括:
根据所述业务时间,获取所述实时数据的索引名称信息。
在其中一些实施例中,所述将所述历史数据存储在Carbondata数据库中包括:
将所述历史数据写入HDFS;
通过Spark引擎,读取所述HDFS的所述历史数据,并写入所述Carbondata数据库中离线存储。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第二方面所述的数据存储的处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第二方面所述的数据存储的处理方法。
相比于相关技术,本申请实施例提供的数据存储的处理方法、***、计算机设备及存储介质,通过根据业务时间将获取到的数据分为实时数据和历史数据;将该实时数据存储在Elasticsearch数据库中,并将该历史数据存储在Carbondata数据库中,解决了冷热数据存储的处理过程中效率低的问题。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本发明实施例中数据存储处理方法的应用场景的示意图;
图2是根据本申请实施例的数据存储处理方法的流程图一;
图3是根据本申请实施例的数据存储处理方法的流程图二;
图4是根据本申请实施例的数据存储处理方法的流程图三;
图5是根据本申请实施例的数据存储处理方法的流程图四;
图6是根据本申请实施例的数据存储处理***的结构框图一;
图7是根据本申请实施例的数据存储处理***的结构框图二;
图8是根据本申请实施例的计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的调度处理的方法,可以应用于如图1所示的应用环境中。其中,终端12通过网络与服务器14进行通信。服务器14获取各数据源的数据,并根据业务时间将所述数据分为实时数据和历史数据;该服务器14将所述实时数据存储在Elasticsearch数据库中,并将所述历史数据存储在Carbondata数据库中;该服务器14接收终端12发送的查询指令,并根据该业务时间,将该历史数据划分为历史简单数据和历史复杂数据;该服务器14根据该查询指令进行相应的查询,并将查询结果发送给该终端12进行显示。其中,终端12可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器14可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在本实施例中,提供了一种数据存储的处理方法。图2是根据本申请实施例的数据存储处理方法的流程图一,如图2所示,该流程包括如下步骤:
步骤S202,根据业务时间将获取到的数据分为实时数据和历史数据;其中,可以通过flume或sqoop等数据采集处理工具,采集Mysql、Syslog或http协议接口等获取各种数据源格式数据;根据业务时间可以将最近一定时间段内的数据划分为实时数据,例如,将业务时间为当天的数据确定为该实时数据,并将业务时间在当天之前的数据确定为历史数据。
步骤S204,将该实时数据作为热数据存储在Elasticsearch数据库中,并将该历史数据作为冷数据存储在Carbondata数据库中;其中,该Carbondata数据库通过文件式多级索引来建立对存储数据的理解,并通过字典编码来降低搜索过程中中央处理器(centralprocessing unit,简称为CPU)与内存的消耗,由于其独特的索引特性,针对数据点查询效率其高,5万亿3pb的数据下单表查询不会超过3秒的响应时间,并可以通过高效的数据压缩存储降低数据存储的磁盘空间,从而能够快速过滤该历史数据中不符合查询条件的数据。此外,将冷热数据分别存储在Carbondata数据库和Elasticsearch数据库中,可以适用于接入态势感知大屏,并与数据中台大量告警数据和流量数据实时互动的场景。
通过上述步骤S202至步骤S204,根据业务时间对数据使用程度的定级,把数据定义为冷热数据,并通过采用Elasticsearch和Carbondata这两种分布式数据存储技术,充分发挥两者的优势,相互协同与补充各自存储技术的不足,分贝存储不同类型的数据,从而在不影响数据查询、使用和分析的情况下高效的发挥服务器14内存与硬盘存储的资源,节省硬件成本;同时,通过对数据的精准定位和技术架构的合理应用,提升了服务器14的综合利用率,并且提高了数据的查询与分析效率,解决了冷热数据存储的处理过程中效率低的问题。
在其中一些实施例中,提供了一种数据存储的处理方法。图3是根据本申请实施例的数据存储处理方法的流程图二,如图3所示,该流程包括如下步骤:
步骤S302,在接收到终端12发送的查询指令的情况下,根据该业务时间,将该历史数据划分为历史简单数据和历史复杂数据;例如,该服务器14将业务时间在15天内的历史数据确定为历史简单数据,并将业务时间不在15天内的历史数据确定为历史复杂数据;其中,该查询指令用于指示服务器14查询用户指定的数据。
步骤S304,在该查询指令为简单数据查询指令的情况下,查询该Carbondata数据库中的历史简单数据和该Elasticsearch数据库;其中,该服务器14将历史简单数据作为热数据存储,则针对简单类型的数据查询,该服务器14分别查询Carbondata热数据索引和实时的Elasticsearch数据库的热数据索引;如果该服务器14未查询到该用户指定数据,还可以去查询Carbondata数据库的冷数据;elasticsearch的实时数据不会很多,所以可以快速返回查询结果。
在该查询指令为复杂数据查询指令的情况下,查询该Carbondata数据库中的历史复杂数据和该Elasticsearch数据库;其中,该服务器14可以查询并且计算实时的简单数据索引,然后和离线复杂类型数据索引组合获得查询结果;由于Carbondata数据库高效的数据索引、datamap的数据结构和缓存,以及针对单表极快查询的优点,该服务器14针对冷数据的查询可以秒级返回。
通过上述步骤S302至步骤S304,通过服务器14在查询阶段针对两种类型的数据做不同的查询处理,降低海量数据快速查询的对大内存的需求,能在保证性能的同时,充分发挥各个分布式存储的优缺点,从而极大节省存储成本,并实现了海量数据的快速查询。
在其中一些实施例中,提供了一种数据存储的处理方法。图4是根据本申请实施例的数据存储处理方法的流程图三,如图4所示,该流程包括如下步骤:
步骤S402,将该实时数据写入Kafka分布式;通过flink引擎,读取该Kafka分布式的该实时数据,并写入该Elasticsearch数据库中实时索引;其中,可以通过实时数据处理引擎fink进行实时数据处理,该flink引擎由于其高性能、高可靠性和高扩展性,非常适合实时数据处理;将数据处理的结果实时写入Elasticsearch数据库,并作为热数据存储。
在其中一些实施例中,根据该业务时间,获取该实时数据的索引名称信息;例如,写入Elasticsearch数据库的索引数据名,可以以当天的时间为后缀,从而便于用户进行多索引查询,实现了对实时数据的快速查询。
通过上述步骤S402,通过实时数据处理引擎flink读取处理Kafka中数据处理写入Elasticsearch数据库实时索引中,充分利用了flink引擎的高性能,有利于实现Elasticsearch数据库对实时数据的快速索引。
在其中一些实施例中,提供了一种数据存储的处理方法。图5是根据本申请实施例的数据存储处理方法的流程图四,如图5所示,该流程包括如下步骤:
步骤S502,将该历史数据写入HDFS;通过Spark引擎,读取该HDFS的该历史数据,并写入该Carbondata数据库中离线存储;其中,在业务流量低峰期,一般是凌晨左右,用户可以在终端12输入离线处理指令,该服务器14根据接收的该离线处理指令进行离线批任务处理,将存储在HDFS中的数据进行处理,刷新并修正实时的数据,但是该服务器14并不直接操作已经生成的实时索引,而是操作在查询端不再命令且已经过期的实时索引;同样的批处理的结果也分为简单类型数据和复杂业务类型数据,并存储在不同的索引中。此时使用Carbondata数据库的优势在于可以依托Spark分布式计算引擎方便的进行复杂的数据分析,包括关联聚合等;在离线批任务处理完成后,由于上一周周期的实时数据已经被归纳到历史数据中,服务器14此时可以清除上一个周期的实时数据。
通过上述步骤S502,通过Spark引擎将该历史数据写入该Carbondata数据库中离线存储,SparkSQL作为Spark技术中一款处理结构化数据的技术,凭借功能全量的处理算子,处理性能卓越的Spark优化器(Catalyst),良好的大数据生态支持得到广泛的支持与应用;该CarbonData数据库可以与SparkSQL无缝集成,同时,Carbondata作为SparkSQL支持的存储格式之一,能运用Spark的卓越处理能力,加上Carbondata数据库优秀的索引表现,可以实现大数据的快速查询和复杂分析,并且能够高效进行多表关联,从而进一步有效提高数据存储的处理效率。
应该理解的是,虽然图2至图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在本实施例中,提供了一种数据存储的处理***。图6是根据本申请实施例的数据存储的处理***的结构框图一,如图6所示,该***包括服务器14,该服务器14设置有Elasticsearch数据库62和Carbondata数据库64;该服务器14用于获取各数据源的数据,并根据业务时间将该数据分为实时数据和历史数据;该服务器14将该实时数据存储在该Elasticsearch数据库62中,并将该历史数据存储在该Carbondata数据库64中。
通过上述实施例,服务器14根据业务时间对数据使用程度定级,把数据定义为冷热数据,并通过采用Elasticsearch和Carbondata这两种分布式数据存储技术,充分发挥两者的优势,相互协同与补充各自的不足,各自存储不同类型的数据,从而在不影响数据查询、使用和分析的情况下高效的发挥服务器14内存与硬盘存储的资源,节省硬件成本;同时,通过对数据的精准定位和技术架构的合理应用,提升了服务器14的综合利用率,并且提高数据的查询与分析效率,解决了冷热数据存储的处理过程中效率低的问题。
在其中一些实施例中,提供了一种数据存储的处理***。图7是根据本申请实施例的数据存储的处理***的结构框图二,如图7所示,该***还包括终端12;其中,该终端12与该服务器14连接;该服务器14在接收到该终端12发送的查询指令的情况下,根据该业务时间,将该历史数据划分为历史简单数据和历史复杂数据;该服务器14在该查询指令为简单数据查询指令的情况下,查询该Carbondata数据库64中的历史简单数据和该Elasticsearch数据库62;该服务器14在该查询指令为复杂数据查询指令的情况下,查询该Carbondata数据库64中的历史复杂数据和该Elasticsearch数据库62。
通过上述实施例,通过服务器14在查询阶段针对两种类型的数据做不同的查询处理,降低海量数据快速查询的对大内存的需求,能在保证性能的同时,充分发挥各个分布式存储的优缺点,从而极大节省存储成本,并实现了海量数据的快速查询。
在其中一些实施例中,该服务器14还用于将该实时数据写入Kafka分布式;该服务器14通过flink引擎,读取该Kafka分布式的该实时数据,并写入该Elasticsearch数据库62中实时索引。该服务器14通过实时数据处理引擎flink读取处理Kafka中数据处理写入Elasticsearch数据库实时索引中,充分利用了flink引擎的高性能,有利于实现Elasticsearch数据库对实时数据的快速索引。
在其中一些实施例中,该服务器14还用于根据该业务时间,获取该实时数据的索引名称信息;例如,服务器14将写入Elasticsearch数据库的索引数据名,设置为以当天时间为后缀的名称,从而便于用户进行多索引查询,实现了对实时数据的快速查询。
在其中一些实施例中,该服务器14还用于将该历史数据写入Hadoop分布式文件***HDFS;该服务器14通过Spark引擎,读取该HDFS的该历史数据,并写入该Carbondata数据库64中离线存储。该CarbonData数据库可以与SparkSQL无缝集成,同时,Carbondata作为SparkSQL支持的存储格式之一,能运用Spark的卓越处理能力,加上Carbondata数据库优秀的索引表现,可以实现大数据的快速查询和复杂分析,并且能够高效进行多表关联,从而进一步有效提高数据存储的处理效率。
另外,结合图2描述的本申请实施例数据存储的处理方法可以由计算机设备来实现。图8是根据本申请实施例的计算机设备的硬件结构示意图。
计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括CPU,或者特定集成电路(Application SpecificIntegrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种数据存储的处理方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图8所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、***组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以基于获取到的实时数据和历史数据,执行本申请实施例中的数据存储的处理方法,从而实现结合图2描述的处理方法。
另外,结合上述实施例中的数据存储的处理方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据存储的处理方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种数据存储的处理***,其特征在于,所述***包括服务器;其中,所述服务器设置有Elasticsearch数据库和Carbondata数据库;
所述服务器用于获取各数据源的数据,并根据业务时间将所述数据分为实时数据和历史数据;
所述服务器将所述实时数据存储在所述Elasticsearch数据库中,并将所述历史数据存储在所述Carbondata数据库中。
2.根据权利要求1所述的处理***,其特征在于,所述***还包括终端;其中,所述终端与所述服务器连接;
所述服务器在接收到所述终端发送的查询指令的情况下,根据所述业务时间,将所述历史数据划分为历史简单数据和历史复杂数据;
所述服务器在所述查询指令为简单数据查询指令的情况下,查询所述Carbondata数据库中的历史简单数据和所述Elasticsearch数据库;
所述服务器在所述查询指令为复杂数据查询指令的情况下,查询所述Carbondata数据库中的历史复杂数据和所述Elasticsearch数据库。
3.根据权利要求1所述的处理***,其特征在于,所述服务器还用于将所述实时数据写入Kafka分布式;
所述服务器通过flink引擎,读取所述Kafka分布式的所述实时数据,并写入所述Elasticsearch数据库中实时索引。
4.根据权利要求3所述的处理***,其特征在于,所述服务器还用于根据所述业务时间,获取所述实时数据的索引名称信息。
5.根据权利要求1所述的处理***,其特征在于,所述服务器还用于将所述历史数据写入Hadoop分布式文件***HDFS;
所述服务器通过Spark引擎,读取所述HDFS的所述历史数据,并写入所述Carbondata数据库中离线存储。
6.一种数据存储的处理方法,其特征在于,所述方法包括:
根据业务时间将获取到的数据分为实时数据和历史数据;
将所述实时数据存储在Elasticsearch数据库中,并将所述历史数据存储在Carbondata数据库中。
7.根据权利要求6所述的处理方法,其特征在于,所述将所述历史数据存储在Carbondata数据库中之后,所述方法还包括:
在接收到终端发送的查询指令的情况下,根据所述业务时间,将所述历史数据划分为历史简单数据和历史复杂数据;
在所述查询指令为简单数据查询指令的情况下,查询所述Carbondata数据库中的历史简单数据和所述Elasticsearch数据库;
在所述查询指令为复杂数据查询指令的情况下,查询所述Carbondata数据库中的历史复杂数据和所述Elasticsearch数据库。
8.根据权利要求6所述的处理方法,其特征在于,所述将所述实时数据存储在Elasticsearch数据库中包括:
将所述实时数据写入Kafka分布式;
通过flink引擎,读取所述Kafka分布式的所述实时数据,并写入所述Elasticsearch数据库中实时索引。
9.根据权利要求8所述的处理方法,其特征在于,所述写入所述Elasticsearch数据库中实时索引之后,所述方法还包括:
根据所述业务时间,获取所述实时数据的索引名称信息。
10.根据权利要求6所述的处理方法,其特征在于,所述将所述历史数据存储在Carbondata数据库中包括:
将所述历史数据写入HDFS;
通过Spark引擎,读取所述HDFS的所述历史数据,并写入所述Carbondata数据库中离线存储。
11.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求6至10中任一项所述的处理方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求6至10中任一项所述的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010433605.5A CN111625600B (zh) | 2020-05-21 | 2020-05-21 | 数据存储的处理方法、***、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010433605.5A CN111625600B (zh) | 2020-05-21 | 2020-05-21 | 数据存储的处理方法、***、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111625600A true CN111625600A (zh) | 2020-09-04 |
CN111625600B CN111625600B (zh) | 2023-10-31 |
Family
ID=72260073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010433605.5A Active CN111625600B (zh) | 2020-05-21 | 2020-05-21 | 数据存储的处理方法、***、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111625600B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115114A (zh) * | 2020-09-25 | 2020-12-22 | 北京百度网讯科技有限公司 | 日志处理的方法、装置、设备及存储介质 |
CN112241419A (zh) * | 2020-10-29 | 2021-01-19 | 浙江集享电子商务有限公司 | 服务数据处理方法、装置、计算机设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092520A1 (en) * | 2014-09-26 | 2016-03-31 | Wal-Mart Stores, Inc. | System and method for using past or external information for future search results |
CN108197289A (zh) * | 2018-01-18 | 2018-06-22 | 吉浦斯信息咨询(深圳)有限公司 | 一种数据存储结构、数据存储查询方法、终端及介质 |
WO2018170276A2 (en) * | 2017-03-15 | 2018-09-20 | Fauna, Inc. | Methods and systems for a database |
CN109871367A (zh) * | 2019-02-28 | 2019-06-11 | 江苏实达迪美数据处理有限公司 | 一种基于Redis和HBase的分布式冷热数据分离方法 |
US10409516B1 (en) * | 2018-01-12 | 2019-09-10 | EMC IP Holding Company LLC | Positional indexing for a tiered data storage system |
CN110795427A (zh) * | 2019-09-27 | 2020-02-14 | 苏宁云计算有限公司 | 数据分离存储方法、装置、计算机设备和存储介质 |
CN110928906A (zh) * | 2019-11-08 | 2020-03-27 | 杭州安恒信息技术股份有限公司 | 基于flink仅一次写入carbonData的方法 |
-
2020
- 2020-05-21 CN CN202010433605.5A patent/CN111625600B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092520A1 (en) * | 2014-09-26 | 2016-03-31 | Wal-Mart Stores, Inc. | System and method for using past or external information for future search results |
WO2018170276A2 (en) * | 2017-03-15 | 2018-09-20 | Fauna, Inc. | Methods and systems for a database |
US10409516B1 (en) * | 2018-01-12 | 2019-09-10 | EMC IP Holding Company LLC | Positional indexing for a tiered data storage system |
CN108197289A (zh) * | 2018-01-18 | 2018-06-22 | 吉浦斯信息咨询(深圳)有限公司 | 一种数据存储结构、数据存储查询方法、终端及介质 |
CN109871367A (zh) * | 2019-02-28 | 2019-06-11 | 江苏实达迪美数据处理有限公司 | 一种基于Redis和HBase的分布式冷热数据分离方法 |
CN110795427A (zh) * | 2019-09-27 | 2020-02-14 | 苏宁云计算有限公司 | 数据分离存储方法、装置、计算机设备和存储介质 |
CN110928906A (zh) * | 2019-11-08 | 2020-03-27 | 杭州安恒信息技术股份有限公司 | 基于flink仅一次写入carbonData的方法 |
Non-Patent Citations (1)
Title |
---|
迟晨阳;孟海滨;秦栋梁;钱诚;赵东升;毛华坚;: "军人电子健康档案大数据即席查询统计子***的设计与实现", 军事医学, no. 12 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115114A (zh) * | 2020-09-25 | 2020-12-22 | 北京百度网讯科技有限公司 | 日志处理的方法、装置、设备及存储介质 |
CN112241419A (zh) * | 2020-10-29 | 2021-01-19 | 浙江集享电子商务有限公司 | 服务数据处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111625600B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20100287166A1 (en) | Method and system for search engine indexing and searching using the index | |
CN111913955A (zh) | 数据的排序处理装置、方法和存储介质 | |
CN111611225A (zh) | 数据存储管理方法、查询方法、装置、电子设备及介质 | |
EP2985707A1 (en) | Method and apparatus for finding file in storage device and router and medium | |
US20230128085A1 (en) | Data aggregation processing apparatus and method, and storage medium | |
CN105740405B (zh) | 存储数据的方法和装置 | |
CN111625600A (zh) | 数据存储的处理方法、***、计算机设备及存储介质 | |
CN110851474A (zh) | 数据查询方法、数据库中间件、数据查询设备及存储介质 | |
CN113485962B (zh) | 日志文件的存储方法、装置、设备和存储介质 | |
US10866960B2 (en) | Dynamic execution of ETL jobs without metadata repository | |
CN114139040A (zh) | 一种数据存储及查询方法、装置、设备及可读存储介质 | |
CA3094727C (en) | Transaction processing method and system, and server | |
CN111858831A (zh) | 一种基于APT分析的Elasticsearch索引方法、装置和计算机设备 | |
CN113849499A (zh) | 数据的查询方法、装置、存储介质及电子装置 | |
CN114398520A (zh) | 数据检索方法、***、装置、电子设备及存储介质 | |
CN112866339B (zh) | 数据传输方法、装置、计算机设备和存储介质 | |
CN111858581B (zh) | 一种分页查询的方法、装置、存储介质和电子设备 | |
CN113312355A (zh) | 一种数据管理的方法和装置 | |
CN110399451B (zh) | 一种基于非易失性内存的全文检索引擎缓存方法,***,设备及可读存储介质 | |
CN112181302A (zh) | 一种数据多级存储和访问方法及*** | |
EP4293530A1 (en) | Data processing method, server and system | |
CN113342813B (zh) | 键值数据处理方法、装置、计算机设备及可读存储介质 | |
CN106446080B (zh) | 数据查询的方法、查询服务设备、客户端设备和数据*** | |
CN114064729A (zh) | 一种数据检索方法、装置、设备及存储介质 | |
CN113157629A (zh) | 数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |