CN114064678A - 事件数据处理方法、装置及终端设备 - Google Patents

事件数据处理方法、装置及终端设备 Download PDF

Info

Publication number
CN114064678A
CN114064678A CN202111432808.3A CN202111432808A CN114064678A CN 114064678 A CN114064678 A CN 114064678A CN 202111432808 A CN202111432808 A CN 202111432808A CN 114064678 A CN114064678 A CN 114064678A
Authority
CN
China
Prior art keywords
data
real
offline
cluster
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111432808.3A
Other languages
English (en)
Inventor
曾逸清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ubtech Technology Co ltd
Original Assignee
Shenzhen Ubtech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ubtech Technology Co ltd filed Critical Shenzhen Ubtech Technology Co ltd
Priority to CN202111432808.3A priority Critical patent/CN114064678A/zh
Publication of CN114064678A publication Critical patent/CN114064678A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2308Concurrency control
    • G06F16/2315Optimistic concurrency control
    • G06F16/2322Optimistic concurrency control using timestamps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种事件数据处理方法、装置及终端设备,事件数据处理方法包括,创建包括实时表和离线表的抽象表,其中,所述实时表存储于第一集群,所述离线表存储于第二集群。将获取到的第一数据***所述第一集群,将所述第一集群中的所述第一数据进行数据清洗,得到第二数据。将所述第二数据***至所述抽象表的实时表和离线表。创建包括实时表和离线表的抽象表,保证放入数据仓库的数据的实时性与完整性。简化了开发人员的操作,降低了数据仓库的开发和维护难度。

Description

事件数据处理方法、装置及终端设备
技术领域
本发明涉及数据库领域,尤其涉及一种事件数据处理方法、装置及终端设备。
背景技术
具备网络功能的设备在运行过程中会不断产生新的事件数据。随着互联网技术的发展及软硬件设备的更新,大数据技术应用于交通调度、金融风控及灾害预警等多个领域。
数据仓库是一个面向主题的、集成的、相对稳定的以及反映历史变化的大数据集合。然而,现有的数据存在批处理与流处理两种处理逻辑,且两种数据处理逻辑需要两套维护代码,无法保证数据的一致性。因此,在创建数据仓库时,开发人员需要创建实时数据仓库与离线数据仓库。调用方基于实时数据仓库查询具备实时性的数据,基于离线数据仓库查询具备完整性的数据。单独采用两种数据仓库的方式,无法同时保证放入数据仓库的数据的实时性与完整性,增加了数据仓库的开发和维护难度。
发明内容
有鉴于现有技术存在的缺陷,本申请实施例目的在于提供一种事件数据处理方法、装置及终端设备,以解决开发和维护数据仓库时,如何保证数据同时具备实时性与完整性的问题。
第一方面,本申请的一个实施方式提供一种事件数据处理方法,应用于服务器,事件数据处理方法包括:
创建包括实时表和离线表的抽象表,其中,所述实时表存储于第一集群,所述离线表存储于第二集群;
将获取到的第一数据***所述第一集群;
将所述第一集群中的所述第一数据进行数据清洗,得到第二数据;
将所述第二数据***至所述抽象表的实时表和离线表。
结合第一方面,在第一种可能的实现方式中,所述将所述第二数据***至所述抽象表的实时表和离线表之后,还包括:
响应调用方发送的数据查询请求,根据所述离线表的最大时间戳与所述数据查询请求,提取所述实时表中的数据和/或所述离线表中的数据;
将提取到的所述实时表中的数据和/或所述离线表中的数据发送至所述调用方。
结合第一方面的第一种可能的实现方式,在第二可能的方式中,所述根据所述离线表的最大时间戳与所述数据查询请求,提取所述实时表中的数据和/或所述离线表中的数据,包括:
获取所述数据查询请求对应的数据的时间区间;
若所述数据的时间区间小于或等于所述离线表的最大时间戳,根据数据查询请求提取所述离线表中的数据;
若所述数据的时间区间大于所述离线表的最大时间戳,根据数据查询请求提取所述实时表中的数据。
结合第一方面的第一种可能的实现方式,在第三可能的方式中,若提取到所述实时表的数据和所述离线表的数据,所述将提取到的所述实时表中的数据和/或所述离线表中的数据发送至所述调用方,包括:
合并提取到的所述实时表中的数据和所述离线表中的数据,得到返回数据,并将所述返回数据发送至所述调用方。
结合第一方面,在第四种可能的实现方式中,所述将所述第二数据***至所述抽象表的实时表和离线表之后,还包括:
根据***至所述离线表的所述第二数据,更新所述离线表的最大时间戳。
结合第一方面,在第五种可能的实现方式中,所述将所述第二数据***至所述抽象表的实时表和离线表,包括:
将所述第二数据***至所述抽象表的实时表;
将***至所述实时表的所述第二数据同步至所述离线表。
结合第一方面,在第六种可能的实现方式中,所述将所述第一集群中的所述第一数据进行数据清洗,得到第二数据,包括:
将第一集群中的所述第一数据写入第三集群;
抽取第三集群中的第一数据,转换后得到第二数据,并将所述第二数据加载至所述第一集群。
第二方面,本申请的一个实施方式提供一种事件数据处理装置,应用于服务器,事件数据处理装置包括:
创建表模块,用于创建包括实时表和离线表的抽象表,其中,所述实时表存储于第一集群,所述离线表存储于第二集群;
第一数据***模块,用于将获取到的第一数据***所述第一集群;
数据清洗模块,用于将所述第一集群中的所述第一数据进行数据清洗,得到第二数据;
第二数据***模块,用于将所述第二数据***至所述抽象表的实时表和离线表。
第三方面,本申请的一个实施方式提供一种终端设备,包括处理器及存储器,所述存储器上存储有程序或指令,所述程序或指令被所述处理器执行,以使所述终端设备执行上述的事件数据处理方法。
第四方面,本申请的一个实施方式提供一种计算机可读存储介质,其所述计算机可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现上述的事件数据处理方法。
本申请提供一种事件数据处理方法,应用于服务器,事件数据处理方法包括:创建包括实时表和离线表的抽象表,其中,所述实时表存储于第一集群,所述离线表存储于第二集群。将获取到的第一数据***所述第一集群,将所述第一集群中的所述第一数据进行数据清洗,得到第二数据。将所述第二数据***至所述抽象表的实时表和离线表。创建包括实时表和离线表的抽象表,保证放入数据仓库的数据的实时性与完整性。简化了开发人员的操作,降低了数据仓库的开发和维护难度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本发明实施例1提供的事件数据处理方法的流程图;
图2示出了本发明实施例1提供的数据处理的流程图;
图3示出了本发明实施例2提供的事件数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
请参阅图1,图1示出了本发明实施例1提供的事件数据处理方法的流程图。图1中的事件数据处理方法应用于包括数据仓库的服务器,图1中的事件数据处理方法包括以下步骤:
步骤101,创建包括实时表和离线表的抽象表。
部署于服务器的数据仓库(Data Warehouse),是为所有级别的决策制定过程提供所有类型数据支撑的战略集合。数据仓库中的实时表通常用于存储3至15天内的数据,无法保存全量数据,其中,全量数据是存量数据与增量数据的集合,即数据仓库的中全部数据。数据仓库中的离线表用于存储全量数据,但提交至离线表的数据具有一定的延时,无法保证数据的实时性。
集群(cluster)是指容器运行所需要的云资源组合,关联了服务器的若干节点、负载均衡等云资源。为了便于理解本申请的技术方案,本实施例中第一集群选用Kafka集群,第二集群选用HDFS集群,实时表基于Kafka集群存储,离线表基于HDFS集群存储。需要理解的是,开发人员在创建表时,可直接创建一个包括实时表和离线表的抽象表,并基于创建的抽象表进行数据的***与查询。
步骤102,将获取到的第一数据***所述第一集群。
具有网络功能的设备产生事件时,设备的超文本传输安全协议(Hyper TextTransfer Protocol over SecureSocket Layer,HTTPS)接口将事件的数据上报到服务器。第一数据为具有网络功能的设备产生事件的数据,服务器将第一数据***第一集群。
Kafka是一个实时数据流处理***,其中,流处理是指不断合并新数据并计算结果。通过将获取到的第一数据***Kafka集群,提供了一种对数据进行实时处理和分析的功能。
步骤103,将所述第一集群中的所述第一数据进行数据清洗,得到第二数据。
本实施例中,采用抽取-转换-加载(Extract-Transform-Load,ETL)的方式对第一数据进行数据清洗。对第一数据进行数据清洗,将分散、零乱及标准不统一的第一数据整合为第二数据,以实现数据的统一编码、分类及组织。
作为一个示例,所述将所述第一集群中的所述第一数据进行数据清洗,得到第二数据,包括:
将第一集群中的所述第一数据写入第三集群;
抽取第三集群中的第一数据,转换后得到第二数据,并将所述第二数据加载至所述第一集群。
请参阅图2,图2示出了本发明实施例1提供的数据处理的流程图。为了便于理解本申请的技术方案,本实施例中第三集群选用Flink集群,Flink一种开源流处理框架,以数据并行和流水线方式执行任意流数据程序。Flink的流水线运行时***可以执行批处理和流处理程序。
具体地,Flink集群220中预存了对应Flink编程框架的Flink Job,其中,FlinkJob包含了对写入Kafka集群210的第一数据的抽取操作,将抽取后的第一数据转换为第二数据,并将第二数据加载至Kafka集群210。将第一数据***第一集群,基于Flink集群220读取Kafka集群210中的数据,再将数据加载至Kafka集群210,保证了整个数据链路的实时性。同时,基于Flink的数据清洗操作,提供了数据的批处理和流处理的逻辑统一,开发人员在进行数据仓库的开发和维护时,只使用一套维护代码,保证了数据的一致性。
步骤104,将所述第二数据***至所述抽象表的实时表和离线表。
Kafka集群210与HDFS集群230之间是相互独立的,实时数据存储于Kafka集群210的实时表中,离线数据存储于HDFS集群230的离线表中。若Kafka集群210与HDFS集群230之互相抓取数据,存在数据被恶意修改的风险。本实施例中,将Kafka集群210中的第一数据进行数据清洗,得到第二数据。将第二数据***Kafka集群210的实时表与HDFS集群230的离线表,在避免数据本恶意修改的基础上,有效保障了数据的实时性与完整性。
作为一个示例,所述将所述第二数据***至所述抽象表的实时表和离线表,包括:
将所述第二数据***至所述抽象表的实时表;
将***至所述实时表的所述第二数据同步至所述离线表。
统一数据仓库服务(Unified Data Warehouse Service)是一种基于公有云基础架构和平台的在线数据处理数据仓库,统一数据仓库服务部署于服务器。本实施例中,当对第一数据进行数据清洗,得到第二数据时,服务器自动调用统一数据仓库服务执行第二数据的同步。
具体地,将第二数据***至Kafka集群210的实时表,并将***至实时表的数据同步***至HDFS集群230的离线表。通过将实时表的数据同步至离线表的方式,有效避免了数据的丢失和重复,实现了实时表中的实时数据和离线表的离线数据具备一致性。
作为一个示例,所述将所述第二数据***至所述抽象表的实时表和离线表之后,还包括:
根据***至所述离线表的所述第二数据,更新所述离线表的最大时间戳。
需要理解的是,数据仓库的数据具备时间特征,即数据根据时间的改变发生变化。数据仓库的离线表更新数据时,通常存在T+1的延时,其中,T为数据***离线表的日期。因此,离线表中数据包括可见数据与不可见数据,T时***离线表的第二数据不是实时可见的。调用方查询数据仓库中的数据时,若离线表中的数据为可见数据,调用方可直接查询到离线表中的第二数据。若离线表中的数据为不可见数据,调用方无法查询到离线表中的第二数据。
时间戳是字符或编码信息的序列,用于标识何时发生特定的事件。本实施例中,T时离线表中的第二数据为不可见数据,T+1时离线表中的第二数据成为离线表的可见数据。离线表的最大时间戳用于标识第二数据成为离线表中的可见数据的时间。当离线表中的第二数据成为可见数据时,更新离线表的最大时间戳,通过设置最大时间戳标识离线表中的可见数据与不可见数据。
作为一个示例,所述将所述第二数据***至所述抽象表的实时表和离线表之后,还包括:
响应调用方发送的数据查询请求,根据所述离线表的最大时间戳与所述数据查询请求,提取所述实时表中的数据和/或所述离线表中的数据;
将提取到的所述实时表中的数据和/或所述离线表中的数据发送至所述调用方。
数据***数据仓库的抽象表之后,数据仓库的调用方通常还需要查询数据仓库中的数据。调用方的查询请求中包括请求查询的数据的时间区间,根据查询的数据的时间区域与离线表的最大时间戳,判断是提取离线表中的数据还是提取实时表中的数据。将提取到的实时表中的数据和/或离线表中的数据发送至所述调用方。调用方通过数据仓库返回的数据,得到业务的流程、成本及质量的决策改进。
在一种可选的示例中,所述根据所述离线表的最大时间戳与所述数据查询请求,提取所述实时表中的数据和/或所述离线表中的数据,包括:
获取所述数据查询请求对应的数据的时间区间;
若所述数据的时间区间小于或等于所述离线表的最大时间戳,根据数据查询请求提取所述离线表中的数据;
若所述数据的时间区间大于所述离线表的最大时间戳,根据数据查询请求提取所述实时表中的数据。
实时表中的所有数据都是实时可见的,但实时表通常用于存储3至15天内的数据,无法保存全量数据。离线表中存储了所有的历史数据,但T时***离线表的第二数据不是实时可见的。若查询请求对应的数据的时间区间小于或等于离线表的最大时间戳,则确认请求查询的数据在离线表中是实时可见的,根据数据查询请求提取离线表中的数据。若查询请求对应的数据的时间区间大于离线表的最大时间戳,则确认请求查询的数据在离线表中不是实时可见的,根据数据查询请求提取实时表中的数据。
举例而言,假设当前离线表的最大时间戳为10月20日,即离线表10月20日之前的数据是实时可见的,10月20之后的数据不是实时可见的。若查询请求对应的数据的时间区间为10月15日,查询请求对应的数据的时间区间小于或等于离线表的最大时间戳,提取离线表中的数据。若查询请求对应的数据的时间区间为10月21日,查询请求对应的数据的时间区间大于离线表的最大时间戳,提取实时表中的数据。
在一种可选的示例中,若提取到所述实时表的数据和所述离线表的数据,所述将提取到的所述实时表中的数据和/或所述离线表中的数据发送至所述调用方,包括:
合并提取到的所述实时表中的数据和所述离线表中的数据,得到返回数据,并将所述返回数据发送至所述调用方。
若提取到数据全部为实时表中的数据,将提取到的实时表中的数据发送至调用方;若提取到数据全部为离线表中的数据,将提取到的离线表中的数据发送至调用方。
若提取到数据同时包含了实时表的数据和所述离线表的数据,合并提取到的实时表中的数据和离线表中的数据,得到返回数据,并将返回数据发送至调用方。通过将离线表和实时表中的数据进行合并,在保证了调用方查询的数据的实时性与完整性的基础上,简化了调用方的操作。
本申请提供一种事件数据处理方法,应用于服务器,事件数据处理方法包括:创建包括实时表和离线表的抽象表,其中,所述实时表存储于第一集群,所述离线表存储于第二集群。将获取到的第一数据***所述第一集群,将所述第一集群中的所述第一数据进行数据清洗,得到第二数据。将所述第二数据***至所述抽象表的实时表和离线表。创建包括实时表和离线表的抽象表,保证放入数据仓库的数据的实时性与完整性。简化了开发人员的操作,降低了数据仓库的开发和维护难度。
实施例2
请参阅图3,图3示出了本发明实施例2提供的事件数据处理装置的结构示意图,应用于服务器,图3中的事件数据处理装置300包括:
创建表模块310,用于创建包括实时表和离线表的抽象表,其中,所述实时表存储于第一集群,所述离线表存储于第二集群;
第一数据***模块320,用于将获取到的第一数据***所述第一集群;
数据清洗模块330,用于将所述第一集群中的所述第一数据进行数据清洗,得到第二数据;
第二数据***模块340,用于将所述第二数据***至所述抽象表的实时表和离线表。
作为一个示例,所述事件数据处理装置300,还包括:
数据提取模块,用于响应调用方发送的数据查询请求,根据所述离线表的最大时间戳与所述数据查询请求,提取所述实时表中的数据和/或所述离线表中的数据;
数据发送模块,用于将提取到的所述实时表中的数据和/或所述离线表中的数据发送至所述调用方。
在一种可选的示例中,所述数据提取模块,还用于获取所述数据查询请求对应的数据的时间区间;
若所述数据的时间区间小于或等于所述离线表的最大时间戳,根据数据查询请求提取所述离线表中的数据;
若所述数据的时间区间大于所述离线表的最大时间戳,根据数据查询请求提取所述实时表中的数据。
在一种可选的示例中,若提取到所述实时表的数据和所述离线表的数据,所述数据发送模块,还用于合并提取到的所述实时表中的数据和所述离线表中的数据,得到返回数据,并将所述返回数据发送至所述调用方。
作为一个示例,所述事件数据处理装置300,还包括:
时间戳更新模块,用于根据***至所述离线表的所述第二数据,更新所述离线表的最大时间戳。
作为一个示例,所述第二数据***模块340,还用于将所述第二数据***至所述抽象表的实时表;
将***至所述实时表的所述第二数据同步至所述离线表。
作为一个示例,所述数据清洗模块330,还用于将第一集群中的所述第一数据写入第三集群;
抽取第三集群中的第一数据,转换后得到第二数据,并将所述第二数据加载至所述第一集群。
事件数据处理装置300用于执行上述的事件数据处理方法中的对应步骤,各个功能的具体实施,在此不再一一描述。此外,实施例1中可选示例也同样适用于实施例2的事件数据处理装置300。
本申请实施例还提供一种终端设备,包括处理器及存储器,所述存储器上存储有程序或指令,所述程序或指令被所述处理器执行,以使所述终端设备执行上述的事件数据处理方法。
本申请实施例还提供一种计算机可读存储介质,其所述计算机可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现上述的事件数据处理方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种事件数据处理方法,其特征在于,应用于服务器,所述方法包括:
创建包括实时表和离线表的抽象表,其中,所述实时表存储于第一集群,所述离线表存储于第二集群;
将获取到的第一数据***所述第一集群;
将所述第一集群中的所述第一数据进行数据清洗,得到第二数据;
将所述第二数据***至所述抽象表的实时表和离线表。
2.根据权利要求1所述的事件数据处理方法,其特征在于,所述将所述第二数据***至所述抽象表的实时表和离线表之后,还包括:
响应调用方发送的数据查询请求,根据所述离线表的最大时间戳与所述数据查询请求,提取所述实时表中的数据和/或所述离线表中的数据;
将提取到的所述实时表中的数据和/或所述离线表中的数据发送至所述调用方。
3.根据权利要求2所述的事件数据处理方法,其特征在于,所述根据所述离线表的最大时间戳与所述数据查询请求,提取所述实时表中的数据和/或所述离线表中的数据,包括:
获取所述数据查询请求对应的数据的时间区间;
若所述数据的时间区间小于或等于所述离线表的最大时间戳,根据数据查询请求提取所述离线表中的数据;
若所述数据的时间区间大于所述离线表的最大时间戳,根据数据查询请求提取所述实时表中的数据。
4.根据权利要求2所述的事件数据处理方法,其特征在于,若提取到所述实时表的数据和所述离线表的数据,所述将提取到的所述实时表中的数据和/或所述离线表中的数据发送至所述调用方,包括:
合并提取到的所述实时表中的数据和所述离线表中的数据,得到返回数据,并将所述返回数据发送至所述调用方。
5.根据权利要求1所述的事件数据处理方法,其特征在于,所述将所述第二数据***至所述抽象表的实时表和离线表之后,还包括:
根据***至所述离线表的所述第二数据,更新所述离线表的最大时间戳。
6.根据权利要求1所述的事件数据处理方法,其特征在于,所述将所述第二数据***至所述抽象表的实时表和离线表,包括:
将所述第二数据***至所述抽象表的实时表;
将***至所述实时表的所述第二数据同步至所述离线表。
7.根据权利要求1所述的事件数据处理方法,其特征在于,所述将所述第一集群中的所述第一数据进行数据清洗,得到第二数据,包括:
将第一集群中的所述第一数据写入第三集群;
抽取第三集群中的第一数据,转换后得到第二数据,并将所述第二数据加载至所述第一集群。
8.一种事件数据处理装置,其特征在于,应用于服务器,所述装置包括:
创建表模块,用于创建包括实时表和离线表的抽象表,其中,所述实时表存储于第一集群,所述离线表存储于第二集群;
第一数据***模块,用于将获取到的第一数据***所述第一集群;
数据清洗模块,用于将所述第一集群中的所述第一数据进行数据清洗,得到第二数据;
第二数据***模块,用于将所述第二数据***至所述抽象表的实时表和离线表。
9.一种终端设备,其特征在于,包括处理器及存储器,所述存储器上存储有程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的事件数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的事件数据处理方法的步骤。
CN202111432808.3A 2021-11-29 2021-11-29 事件数据处理方法、装置及终端设备 Pending CN114064678A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111432808.3A CN114064678A (zh) 2021-11-29 2021-11-29 事件数据处理方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111432808.3A CN114064678A (zh) 2021-11-29 2021-11-29 事件数据处理方法、装置及终端设备

Publications (1)

Publication Number Publication Date
CN114064678A true CN114064678A (zh) 2022-02-18

Family

ID=80277199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111432808.3A Pending CN114064678A (zh) 2021-11-29 2021-11-29 事件数据处理方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN114064678A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303498A (zh) * 2023-02-28 2023-06-23 上海数禾信息科技有限公司 流批一体方法、装置、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303498A (zh) * 2023-02-28 2023-06-23 上海数禾信息科技有限公司 流批一体方法、装置、设备和介质
CN116303498B (zh) * 2023-02-28 2023-11-03 上海数禾信息科技有限公司 流批一体方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN108536761B (zh) 报表数据查询方法及服务器
CN108874558B (zh) 分布式事务的消息订阅方法、电子装置及可读存储介质
US20180027061A1 (en) Method and apparatus for elastically scaling virtual machine cluster
US20150128143A1 (en) Realizing jumps in an executing process instance
US10552235B2 (en) Uniform event framework
US9418241B2 (en) Unified platform for big data processing
US11580069B2 (en) Data subscription management system
CN112559475B (zh) 数据实时捕获和传输方法及***
US11954123B2 (en) Data processing method and device for data integration, computing device and medium
CN112597249A (zh) 一种业务数据的同步分发存储方法及***
CN113391901A (zh) Rpa机器人的管理方法、装置、设备及存储介质
CN112256523A (zh) 业务数据处理方法及装置
CN111338834B (zh) 数据存储方法和装置
CN111460038A (zh) 一种数据准实时同步方法及装置
CN114064678A (zh) 事件数据处理方法、装置及终端设备
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
US11068487B2 (en) Event-stream searching using compiled rule patterns
CN108021448B (zh) 一种内核空间的优化方法及装置
CN116414914A (zh) 数据的同步方法、装置、处理器及电子设备
CN115525717A (zh) 一种数据同步处理方法及装置
CN110599112A (zh) 一种网络页面开发、维护方法和装置
CN114240392A (zh) 信息处理方法、任务审批方法和信息处理装置
CN113837870A (zh) 金融风险数据审批方法及装置
CN110221952B (zh) 业务数据的处理方法及装置、业务数据处理***
US10990887B1 (en) Anything-but matching using finite-state machines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination