CN112818017A - 一种事件数据处理方法及装置 - Google Patents

一种事件数据处理方法及装置 Download PDF

Info

Publication number
CN112818017A
CN112818017A CN202110093521.6A CN202110093521A CN112818017A CN 112818017 A CN112818017 A CN 112818017A CN 202110093521 A CN202110093521 A CN 202110093521A CN 112818017 A CN112818017 A CN 112818017A
Authority
CN
China
Prior art keywords
event
data
query
information
rule information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110093521.6A
Other languages
English (en)
Inventor
杨世谨
高键城
丘玉秀
刘亚东
黄家健
赵荣生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Pte Ltd
Original Assignee
Bigo Technology Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bigo Technology Pte Ltd filed Critical Bigo Technology Pte Ltd
Priority to CN202110093521.6A priority Critical patent/CN112818017A/zh
Publication of CN112818017A publication Critical patent/CN112818017A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开一种事件数据处理方法及装置。方法包括:获取核心模型,基于核心模型确定打点事件数据的预处理规则信息和查询规则信息,核心模型包括数据处理规则、元数据、数据打散规则和数据聚合规则;对预处理规则信息和查询规则信息进行解析,基于解析后的预处理规则信息和查询规则信息生成关系型元数据信息,基于关系型元数据信息创建分布式列式数据库宽表;根据关系型元数据信息对打点事件数据进行预处理,将预处理数据存储至对应的分布式列式数据库宽表中;获取用户端选择的事件和查询规则信息,基于与事件的查询规则信息相匹配的关系型元数据信息,生成事件查询语言,根据事件查询语言,对应获取分布式列式数据库宽表中的预处理数据。

Description

一种事件数据处理方法及装置
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种事件数据处理方法及装置。
背景技术
随着大数据的不断发展,大数据带来的价值已得到广泛验证,如今已成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。目前大数据基础设施的建设基本成熟,相关的底层平台组件也逐渐成熟,如存储引擎、计算引擎、OLAP引擎(OnlineAnalytical Processing,联机分析处理)、调度引擎以及报表***等。当前大数据的重点发展方向逐步由基础建设转向数据体系建设,关注重点变成了如何使数据快速流转,产生业务价值,提高企业快速应变能力等核心竞争力。
传统的数据获取方式主要为:产品或运营人员向分析人员提出数据需求,分析人员每周汇总数据需求,并和产品或运营人员对齐数据指标、维度及优先级排期,分析人员根据排期开发数据SQL脚本,交付给产品或运营人员,产品或运营人员在AD Hoc(即席查询,用户根据自己需求自定义查询)查询平台执行SQL脚本,获取相关数据。随着业务规模、团队规模和数据规模的不断扩大,数据需求逐渐增多,矛盾逐渐显现出来。分析人员处理数据需求的时效远远满足不了业务的数据需求,一个数据需求从提取到获取相关数据,通常需要至少一周时间。由此带来很多问题,如:数据获取效率极低,严重影响数据使用效率和价值产出;数据需求增多,沟通成本带来的影响日渐显现;数据指标、维度及格式无统一管理,迭代成本增加;Ad Hoc查询速度较慢,重复查询,导致计算资源浪费严重。
发明内容
本申请实施例提供一种事件数据处理方法及装置,能够提高数据获取效率,降低数据获取成本,实现数据价值快速转换。
在第一方面,本申请实施例提供了一种事件数据处理方法,包括:
获取核心模型,基于所述核心模型确定打点事件数据的预处理规则信息和查询规则信息,所述核心模型包括数据处理规则、元数据、数据打散规则和数据聚合规则;
对所述预处理规则信息和所述查询规则信息进行解析,基于解析后的预处理规则信息和查询规则信息生成关系型元数据信息,基于所述关系型元数据信息创建分布式列式数据库宽表,将所述关系型元数据信息存储至关系型数据库中;
获取所述关系型元数据信息,根据所述关系型元数据信息对所述打点事件数据进行预处理,将预处理数据存储至对应的分布式列式数据库宽表中;
获取用户端选择的事件和查询规则信息,基于与所述事件的查询规则信息相匹配的关系型元数据信息,生成事件查询语言,根据所述事件查询语言,对应获取所述分布式列式数据库宽表中的预处理数据。
在第二方面,本申请实施例提供了一种事件数据处理装置,包括:
事件数据梳理模块,被配置为获取核心模型,基于所述核心模型确定打点事件数据的预处理规则信息和查询规则信息,所述核心模型包括数据处理规则、元数据、数据打散规则和数据聚合规则;
元数据信息获取模块,被配置为对所述预处理规则信息和所述查询规则信息进行解析,基于解析后的预处理规则信息和查询规则信息生成关系型元数据信息,基于所述关系型元数据信息创建分布式列式数据库宽表,将所述关系型元数据信息存储至关系型数据库中;
数据预处理模块,被配置为获取所述关系型元数据信息,根据所述关系型元数据信息对所述打点事件数据进行预处理,将预处理数据存储至对应的分布式列式数据库宽表中;
事件数据获取模块,被配置为获取用户端选择的事件和查询规则信息,基于与所述事件的查询规则信息相匹配的关系型元数据信息,生成事件查询语言,根据所述事件查询语言,对应获取所述分布式列式数据库宽表中的预处理数据。
在第三方面,本申请实施例提供了一种电子设备,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的事件数据处理方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的事件数据处理方法。
本申请实施例基于核心模型梳理打点事件数据,基于嵌套解析将复杂的数据结构简化为扁平式的关系型元数据模型,以此实现原始数据的标准化处理加工,提高数据处理效率。基于关系型元数据模型将原始数据预处理为扁平且聚合的宽表数据,将数据量降低一个量级,以提高后续的数据查询效率和查询性能。基于简单的交互页面获取用户选择的查询规则,自动生成数据查询语言,自动查询对应数据,以实现数据的自助获取,从而提高数据获取效率,提高数据快速转换价值的效率。
附图说明
图1是本申请实施例一提供的一种事件数据处理方法的流程图;
图2是事件模板示意图;
图3是本申请实施例一中的数据嵌套解析流程图;
图4是关系型元数据信息示意图;
图5是本申请实施例一中的原始数据预处理流程图;
图6是本申请实施例一中的前端交互界面;
图7是本申请实施例一中的事件查询语言生成流程图;
图8是本申请实施例一中的另一种事件处理方法的流程图;
图9是本申请实施例二提供的一种事件数据处理装置的结构示意图;
图10是本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请提供的事件数据处理方法及装置,旨在基于核心模型梳理打点事件数据,基于嵌套解析将复杂的数据结构简化为扁平式的关系型元数据模型,以此实现原始数据的标准化处理加工,提高数据处理效率。基于关系型元数据模型将原始数据预处理为扁平且聚合的宽表数据,将数据量降低一个量级,以提高后续的数据查询效率和查询性能。基于简单的交互页面获取用户选择的查询规则,自动生成数据查询语言,自动查询对应数据,以实现数据的自助获取,从而提高数据获取效率,提高数据快速转换价值的效率。相对传统的数据获取方式,其需要由分析师和业务人员沟通数据需求并排期开发SQL脚本,此过程需要一周左右的时间。而且传统的SQL大部分是直接查询复杂结构数据的原始表,执行效率低,造成集群资源浪费严重,且基于SQL获取数据需等待十分钟以上。传统的数据获取方式需要的时间成本和人工成本高,且数据获取效率低,数据价值大打折扣。基于此,提供本申请实施例的事件数据处理方法及装置,提高数据获取效率,降低数据获取成本,实现数据价值快速转换。
实施例一:
图1给出了本申请实施例一提供的一种事件数据处理方法的流程图,本实施例中提供的事件数据处理方法可以由事件数据处理设备执行,该事件数据处理设备可以通过软件和/或硬件的方式实现。
下述以事件数据处理设备为执行事件数据处理方法的主体为例,进行描述。参考图1,事件数据处理方法包括:
S110、获取核心模型,基于所述核心模型确定打点事件数据的预处理规则信息和查询规则信息,所述核心模型包括数据处理规则、元数据、数据打散规则和数据聚合规则。
打点事件数据是指通过埋点采集到的事件数据,事件包括页面跳转、播放、关注和点赞等。不同的事件数据对应不同的处理方式,基于历往对打点不同类型的事件数据分析和数据使用的经验,建立核心模型。通过核心模型的数据处理规则、元数据、数据聚合规则和数据打散规则处理梳理事件数据,以得到事件数据的事件模板,事件模板包括了事件数据的预处理规则和查询规则,可理解的,预处理规则是基于历往处理同一类型的事件数据的经验得到的处理规则,例如针对页面跳转、播放、关注和点赞的事件数据,可通过对应的历往数据处理经验对应处理。而本方案基于历往数据处理经验建模,生成核心模型,通过核心模型确定数据处理规则,替代了传统的人工数据分析环节,提高数据分析效率和降低人工成本。进一步的,查询规则包括事件数据的统计指标和维度,针对不同的事件数据,统计指标对应不同的概念,例如,播放事件的统计指标包括播放次数和播放时长等,页面跳转事件的统计指标包括页面进入次数和停留时长等,维度表示事件维度,如国家、地区和版本等。
示例性的,参考图2,图2是事件模板示意图。如图2所示,预处理规则信息和查询规则信息以嵌套结构的方式记录在事件模板中,其中预处理规则和查询规则分别记录在第一字段及相关的扩展字段和第二字段及相关的扩展字段中。可理解的,预处理规则信息和查询规则信息是以文本形成记录在事件模板中,需将事件模板转换成服务端直接处理的脚本文件,并将事件模板的脚本文件导入服务端。
S120、对所述预处理规则信息和所述查询规则信息进行解析,基于解析后的预处理规则信息和查询规则信息生成关系型元数据信息,基于所述关系型元数据信息创建分布式列式数据库宽表,将所述关系型元数据信息存储至关系型数据库中。
由于事件模板是复杂的嵌套结构信息,如果直接对事件模板进行逐行解析,那事件模板中信息结构可能会发生变化,导致解析到的信息出现偏差,影响后续的数据处理准确度,基于此,针对事件模板的嵌套结构,对事件模板进行嵌套解析。具体的,参考图3,图3是本申请实施例一中的数据嵌套解析流程图。如图3所示,数据嵌套解析流程包括:
S1201对所述预处理规则信息和所述查询规则信息进行扁平化处理,将所述预处理规则信息和所述查询规则信息的嵌套结构简化为扁平式结构;
S1202、对扁平式的预处理规则信息和查询规则信息进行多队列层次解析,得到所述关系型元数据信息。
具体的,服务端基于嵌套解析模型对导入的事件模板进行深层次解析。其中,嵌套解析模型基于Excel异步解析规则和多队列合作规则构成,通过多队列合作规则的嵌套结构扁平化处理和Excel异步解析规则逐行解析扁平式的事件模板。示例性的,将回调记录做一个缓存,根据预设的记录规则生成结果集。在n层嵌套解析的基础上构建n个队列,根据解析记录的特性对记录进行入队出队整合操作,当记录入队到最外层队列时,则表明相应嵌套记录已解析完成。
示例性的,参考图4,图4是关系型元数据信息示意图。对图3中的事件模板进行扁平化处理和多队列层次解析后得到图4中的关系型元数据信息。由图4可知,通过嵌套解析可将事件模板的嵌套结构简化为扁平式结构,将预处理规则信息和查询规则信息都解析成关系型元数据,为后续基于事件模板对相应的事件数据进行预处理提供了便利,变相提高了数据处理效率。
进一步的,将事件数据的关系型元数据信息持久化到MYSQL(关系型数据库管理***)的RDB(Relational Database,关系数据库)中。以及基于事件数据的关系型元数据信息生成建表的Schema(元数据的一个抽象集合),创建一张扁平式的CK(ClickHouse,分布式列式数据库管理***)宽表,将CK宽表作为查询的目的表。可理解的,一个事件数据对应一个CK宽表,即事件数据的关系型元数据信息与生成的CK宽表相关联。
S130、获取所述关系型元数据信息,根据所述关系型元数据信息对所述事件数据进行预处理,将预处理数据存储至对应的分布式列式数据库宽表中。
具体的,参考图5,图5是本申请实施例一中的原始数据预处理流程图。如图5所示,原始数据预处理流程包括:
S1301、在预设的时间节点,从所述关系型数据库中获取所述关系型元数据信息;
S1302、基于所述关系型元数据信息对所述打点事件数据进行聚合,得到预聚合数据;
S1303、确定所述关系型元数据信息对应的分布式列式数据库宽表,将所述预聚合数据存储至该分布式列表数据库宽表中。
示例性的,定时调度Spark,拉取RDB中的关系型元数据信息,通过Spark(计算引擎)基于关系型元数据信息对事件数据进行聚合处理,得到预聚合数据。其中,若事件数据包括复杂字段,则基于预设的解析规则对事件数据的复杂字段进行解析。进一步的,根据关系型元数据信息关联的CK宽表,确定事件数据对应的CK宽表,将预聚合数据存储至对应的CK宽表中。通过Spark的预处理可将数据量降低一个量级,显著提升后续数据查询性能,提高数据查询效率。且预处理通过实时调度实现近实时的预处理,延迟大约为30分钟,通过实时预处理不仅可提高后续数据查询速度,也保证了数据时效性,从而提高数据价值转换效率。
可理解的,关系型元数据信息包括事件数据的预处理规则的关系型元数据和查询规则的关系型元数据。在对事件数据进行预处理时,是通过预处理规则的关系型元数据对事件数据进行聚合,以得到与人工处理事件数据一致的预聚合数据。通过核心模型、模板解析和预处理构成标准化的数据处理方式,以取代人工数据处理,在提高数据处理效率的同时,还节约了人工成本。进一步的,查询规则的关系型元数据表征事件数据的指标和维度,在创建CK宽表时,基于查询规则的关系型元数据生成建表的Schema,以便后续根据用户选择的查询规则信息,查询对应的CK宽表,从而获取用户所需的预处理数据。
S140、获取用户端选择的事件和查询规则信息,基于与所述事件的查询规则信息相匹配的关系型元数据信息,生成事件查询语言,根据所述事件查询语言,对应获取所述分布式列式数据库宽表中的预处理数据。
具体的,参考图6,图6是本申请实施例一中的前端交互平台。如图6所示,用户可通过日期选择想要查看哪个时间范围的数据内容及趋势,通过事件名称选择具体的打点事件如页面跳转、播放、关注和点赞等,通过筛选条件选择想要过滤的数据,通过维度选择该维度下的打点事件,如国家、地区和版本,通过统计指标选择打点事件的统计类型,如页面进入次数和停留时长。在服务端获取到相应的事件数据时,将事件数据的统计结果返回至前端,前端通过表格、折线图、柱形图或面积图等展示统计结果。可理解的,用户选择的事件指标和事件维度对应于事件数据的查询规则信息,本申请实施例基于用户选择的指标和维度,查询对应的CK宽表,获取对应的事件数据。
进一步的,前端交互平台还提供组合事件查询场景,即可以获取同时发生的多个事件的事件数据。本申请实施例提供简单的前端交互页面,让用户可以通过页面选择时间范围、事件维度、事件指标和过滤条件等可视化数据内容,自动获取相应维度下的数据指标,数据获取过程由前端获取查询规则信息和后端获取对应数据来实现,无需人工参与,完全实现数据获取自助化,极大降低获取数据成本,提高数据获取效率,实现数据价值快速转换。
进一步的,用户在前端选择事件和查询规则之后,前端将用户选中的查询规则信息发送至服务端,服务端基于该查询规则信息生成事件查询语言,通过事件查询语言查询CK集群中的预处理数据。具体的,参考图7,图7是本申请实施例一中的事件查询语言生成流程图。如图7所示,事件查询语言生成流程包括:
S1401、基于所述事件的查询规则信息,从所述关系型数据库中获取与所述事件的查询规则信息相匹配的关系型元数据信息;
S1402、通过预设的事件查询语言拼接组件,对与所述事件的查询规则信息相匹配的关系型元数据信息进行拼接,生成所述事件查询语言,所述事件查询语言拼接组件提供基础的查询语言生成功能和嵌套的查询语言生成功能。
示例性的,通过用户选择的事件维度和事件指标,获取RDB中与该事件维度和事件指标相匹配的关系型元数据。通过SQL(Structured Query Language,结构化查询语言)拼接组件,将RDB中与用户选择的事件维度和事件指标相匹配的关系型元数据进行拼接,生成适配CK语法的SQL,以便将SQL提交到CK集群中查询对应的CK宽表。其中,SQL拼接组件提供基础的SQL生成功能,如select(查询表格内字段数据指令)、distinct(去掉重复行指令)、from(表名查询指令)、where(过滤指令)、group by(字段分组指令)、having(聚合过滤指令)、order by(结果排序指令)、limit(限制查询结果返回数量指令)、exist(子查询指令)、in(子查询指令)等常见查询语法,还提供复杂嵌套SQL的功能,如union(联合)、union all(联合,不去掉重复行)、alias(别名)、on(过滤)、from子查询等功能。并且基于此,扩展兼容CK语法的聚合函数组件和条件生成组件,如求和、计数、最大、最小、均值、分位数等聚合函数组件,以及和、或、等于零、不等于零、等于、不等于、小于、小于等于、大于、大于等于、区间、绝对时间区间、相对时间区间、正确、错误等条件生成组件,均可直接融入基本功能的函数中,并且提供扩展接口,可以随时扩展这些生成组件。基于SQL拼接组件可以快速生成SQL,极大降低查询复杂度和提高查询效率。
进一步的,如果用户在前端交互页面选择了组合事件和查询规则信息,则服务端会接收到用户端选择的组合事件和查询规则信息,其中组合事件包括至少两个事件。针对用户选择的组合事件和查询规则,其数据查询处理流程和单个事件的数据查询流程一致。根据每个事件的查询规则获取RDB中相匹配的关系型元数据,基于SQL拼接组件对该关系型元数据进行拼接,生成对应的SQL,由SQL查询CK集群中符合用户选中的组合事件和查询规则的预处理数据,实现了组合事件的事件数据获取。
进一步的,若用户在前端交互页面选择了筛选条件,前端将用户选择的筛选条件信息发送至服务端,服务端根据筛选条件信息处理SQL获取到的预处理数据。具体的,获取用户端选择的筛选条件信息,根据所述筛选条件信息对所述事件查询语言获取到的预处理数据进行聚合。示例性的,在通过SQL获取到相应CK宽表中的预处理数据后,根据筛选条件将不符合用户需求的数据剔除,并将剩余的数据聚合。
本申请实施例提供简单的前端交互页面和后端数据查询,以实现自助数据查询,使得用户无需面对晦涩难懂的SQL,同时事件数据事先经过近实时的预聚合处理,结合高可用集群中的CK宽表,查询效率得到显著提升,由十分钟级别查询速度降低至秒级别查询速度,极大缩短用户获取数据的响应时间,兼顾事件数据获取的实时性和高效性,更好地降低数据获取链路成本,提高数据快速转换价值的效率。
另一方面,参考图8,图8是本申请实施例一中的另一种事件处理方法的流程图。如图8所示,管理端基于核心模型梳理事件数据,生成事件模板,将事件模板生成脚本文件导入服务端,服务端解析导入的事件模板,生成事件模板的关系型元数据,基于查询规则的关系型元数据创建分布式列式数据库宽表,以及将事件模板的关系型元数据持久化至关系型数据库中。定时调度计算引擎预处理事件数据,基于事件数据对应的预处理规则的关系型元数据对事件数据进行预聚合,并基于查询规则的关系型元数据将生成的预聚合数据写入对应的分布式列式数据库宽表中,由分布式列式数据库管理***集群存储预处理数据。至此,事件数据的前期准备工作完成。之后,接收前端发送的查询规则,通过事件查询语言拼接组件,将与该查询规则相关的关系型数据库中的关系型元数据进行拼接,生成事件查询语言,通过事件查询语言查询分布式列式数据库管理***集群中的预处理数据,将查询到的数据结果进行格式化处理,并输出到前端,由前端进行表格或图表化的渲染,显示用户关注的数据结构。
综上,本申请实施例通过获取核心模型,基于所述核心模型确定事件数据的预处理规则信息和查询规则信息,所述核心模型包括数据处理规则、元数据、数据打散规则和数据聚合规则;对所述预处理规则信息和所述查询规则信息进行解析,基于解析后的预处理规则信息和查询规则信息生成关系型元数据信息,基于所述关系型元数据信息创建分布式列式数据库宽表,将所述关系型元数据信息存储至关系型数据库中;获取所述关系型元数据信息,根据所述关系型元数据信息对所述事件数据进行预处理,将预处理数据存储至对应的分布式列式数据库宽表中;获取用户端选择的事件和查询规则信息,基于与所述事件的查询规则信息相匹配的关系型元数据信息,生成事件查询语言,根据所述事件查询语言,对应获取所述分布式列式数据库宽表中的预处理数据。采用上述技术手段,基于核心模型梳理事件数据,基于嵌套解析将复杂的数据结构简化为扁平式的关系型元数据模型,以此实现原始数据的标准化处理加工,提高数据处理效率。基于关系型元数据模型将原始数据预处理为扁平且聚合的宽表数据,将数据量降低一个量级,以提高后续的数据查询效率和查询性能。基于简单的交互页面获取用户选择的查询规则,自动生成数据查询语言,自动查询对应数据,以实现数据的自助获取,从而提高数据获取效率,提高数据快速转换价值的效率。
实施例二:
在上述实施例的基础上,图9为本申请实施例二提供的一种事件数据处理装置的结构示意图。参考图9,本实施例提供的事件数据处理装置具体包括:事件数据梳理模块21、元数据信息获取模块22、数据预处理模块23和事件数据获取模块24。
其中,事件数据梳理模块21,被配置为获取核心模型,基于所述核心模型确定打点事件数据的预处理规则信息和查询规则信息,所述核心模型包括数据处理规则、元数据、数据打散规则和数据聚合规则;
元数据信息获取模块22,被配置为对所述预处理规则信息和所述查询规则信息进行解析,基于解析后的预处理规则信息和查询规则信息生成关系型元数据信息,基于所述关系型元数据信息创建分布式列式数据库宽表,将所述关系型元数据信息存储至关系型数据库中;
数据预处理模块23,被配置为获取所述关系型元数据信息,根据所述关系型元数据信息对所述打点事件数据进行预处理,将预处理数据存储至对应的分布式列式数据库宽表中;
事件数据获取模块24,被配置为获取用户端选择的事件和查询规则信息,基于与所述事件的查询规则信息相匹配的关系型元数据信息,生成事件查询语言,根据所述事件查询语言,对应获取所述分布式列式数据库宽表中的预处理数据。
上述,基于核心模型梳理事件数据,基于嵌套解析将复杂的数据结构简化为扁平式的关系型元数据模型,以此实现原始数据的标准化处理加工,提高数据处理效率。基于关系型元数据模型将原始数据预处理为扁平且聚合的宽表数据,将数据量降低一个量级,以提高后续的数据查询效率和查询性能。基于简单的交互页面获取用户选择的查询规则,自动生成数据查询语言,自动查询对应数据,以实现数据的自助获取,从而提高数据获取效率,提高数据快速转换价值的效率。
本申请实施例二提供的事件数据处理装置可以用于执行上述实施例一提供的事件数据处理方法,具备相应的功能和有益效果。
实施例三:
本申请实施例三提供了一种电子设备,参照图10,该电子设备包括:处理器31、存储器32、通信模块33、输入装置34及输出装置35。该电子设备中处理器的数量可以是一个或者多个,该电子设备中的存储器的数量可以是一个或者多个。该电子设备的处理器、存储器、通信模块、输入装置及输出装置可以通过总线或者其他方式连接。
存储器32作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的事件数据处理方法对应的程序指令/模块(例如,事件数据处理装置中的事件数据梳理模块21、元数据信息获取模块22、数据预处理模块23和事件数据获取模块24)。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块33用于进行数据传输。
处理器31通过运行存储在存储器中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的事件数据处理方法。
输入装置34可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。
上述提供的电子设备可用于执行上述实施例一提供的事件数据处理方法,具备相应的功能和有益效果。
实施例四:
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种事件数据处理方法,该事件数据处理方法包括:获取核心模型,基于所述核心模型确定打点事件数据的预处理规则信息和查询规则信息,所述核心模型包括数据处理规则、元数据、数据打散规则和数据聚合规则;对所述预处理规则信息和所述查询规则信息进行解析,基于解析后的预处理规则信息和查询规则信息生成关系型元数据信息,基于所述关系型元数据信息创建分布式列式数据库宽表,将所述关系型元数据信息存储至关系型数据库中;获取所述关系型元数据信息,根据所述关系型元数据信息对所述打点事件数据进行预处理,将预处理数据存储至对应的分布式列式数据库宽表中;获取用户端选择的事件和查询规则信息,基于与所述事件的查询规则信息相匹配的关系型元数据信息,生成事件查询语言,根据所述事件查询语言,对应获取所述分布式列式数据库宽表中的预处理数据。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机***存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机***中,或者可以位于不同的第二计算机***中,第二计算机***通过网络(诸如因特网)连接到第一计算机***。第二计算机***可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机***中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的事件数据处理方法,还可以执行本申请任意实施例所提供的事件数据处理方法中的相关操作。
上述实施例中提供的事件数据处理装置、存储介质及电子设备可执行本申请任意实施例所提供的事件数据处理方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的事件数据处理方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。

Claims (10)

1.一种事件数据处理方法,其特征在于,包括:
获取核心模型,基于所述核心模型确定打点事件数据的预处理规则信息和查询规则信息,所述核心模型包括数据处理规则、元数据、数据打散规则和数据聚合规则;
对所述预处理规则信息和所述查询规则信息进行解析,基于解析后的预处理规则信息和查询规则信息生成关系型元数据信息,基于所述关系型元数据信息创建分布式列式数据库宽表,将所述关系型元数据信息存储至关系型数据库中;
获取所述关系型元数据信息,根据所述关系型元数据信息对所述打点事件数据进行预处理,将预处理数据存储至对应的分布式列式数据库宽表中;
获取用户端选择的事件和查询规则信息,基于与所述事件的查询规则信息相匹配的关系型元数据信息,生成事件查询语言,根据所述事件查询语言,对应获取所述分布式列式数据库宽表中的预处理数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述预处理规则信息和所述查询规则信息进行解析,基于解析后的预处理规则信息和查询规则信息生成关系型元数据信息包括:
对所述预处理规则信息和所述查询规则信息进行扁平化处理,将所述预处理规则信息和所述查询规则信息的嵌套结构简化为扁平式结构;
对扁平式的预处理规则信息和查询规则信息进行多队列层次解析,得到所述关系型元数据信息。
3.根据权利要求1所述的方法,其特征在于,所述获取所述关系型元数据信息,根据所述关系型元数据信息对所述打点事件数据进行预处理,将预处理后的打点事件数据存储至对应的分布式列式数据库宽表中包括:
在预设的时间节点,从所述关系型数据库中获取所述关系型元数据信息;
基于所述关系型元数据信息对所述打点事件数据进行聚合,得到预聚合数据;
确定所述关系型元数据信息对应的分布式列式数据库宽表,将所述预聚合数据存储至该分布式列表数据库宽表中。
4.根据权利要求1所述的方法,其特征在于,所述基于与所述事件的查询规则信息相匹配的关系型元数据信息,生成事件查询语言包括:
基于所述事件的查询规则信息,从所述关系型数据库中获取与所述事件的查询规则信息相匹配的关系型元数据信息;
通过预设的事件查询语言拼接组件,对与所述事件的查询规则信息相匹配的关系型元数据信息进行拼接,生成所述事件查询语言,所述事件查询语言拼接组件提供基础的查询语言生成功能和嵌套的查询语言生成功能。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述事件查询语言,获取所述分布式列式数据库中的预处理数据之后,还包括:
获取用户端选择的筛选条件信息,根据所述筛选条件信息对所述事件查询语言获取到的预处理数据进行聚合。
6.根据权利要求3所述的方法,其特征在于,在所述基于所述关系型元数据信息对所述打点事件数据进行聚合之前还包括:
若所述打点事件数据包括复杂字段,则基于预设的解析规则对所述复杂字段进行解析。
7.根据权利要求4所述的方法,其特征在于,所述获取用户端选择的事件和查询规则信息包括:
获取用户端选择的组合事件和查询规则信息,所述组合事件包括至少两个事件。
8.一种事件数据处理装置,其特征在于,包括:
事件数据梳理模块,被配置为获取核心模型,基于所述核心模型确定打点事件数据的预处理规则信息和查询规则信息,所述核心模型包括数据处理规则、元数据、数据打散规则和数据聚合规则;
元数据信息获取模块,被配置为对所述预处理规则信息和所述查询规则信息进行解析,基于解析后的预处理规则信息和查询规则信息生成关系型元数据信息,基于所述关系型元数据信息创建分布式列式数据库宽表,将所述关系型元数据信息存储至关系型数据库中;
数据预处理模块,被配置为获取所述关系型元数据信息,根据所述关系型元数据信息对所述打点事件数据进行预处理,将预处理数据存储至对应的分布式列式数据库宽表中;
事件数据获取模块,被配置为获取用户端选择的事件和查询规则信息,基于与所述事件的查询规则信息相匹配的关系型元数据信息,生成事件查询语言,根据所述事件查询语言,对应获取所述分布式列式数据库宽表中的预处理数据。
9.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一所述的事件数据处理方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的事件数据处理方法。
CN202110093521.6A 2021-01-22 2021-01-22 一种事件数据处理方法及装置 Pending CN112818017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110093521.6A CN112818017A (zh) 2021-01-22 2021-01-22 一种事件数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110093521.6A CN112818017A (zh) 2021-01-22 2021-01-22 一种事件数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN112818017A true CN112818017A (zh) 2021-05-18

Family

ID=75859047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110093521.6A Pending CN112818017A (zh) 2021-01-22 2021-01-22 一种事件数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112818017A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309780A (zh) * 2022-06-13 2022-11-08 目人(苏州)医学科技有限公司 医学临床数据预处理方法、***、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198478A1 (en) * 2006-02-15 2007-08-23 Matsushita Electric Industrial Co., Ltd. Distributed meta data management middleware
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
CN103714129A (zh) * 2013-12-12 2014-04-09 用友软件股份有限公司 基于条件规则的动态数据结构和关系的构建装置和构建方法
WO2015027932A1 (en) * 2013-08-28 2015-03-05 Tencent Technology (Shenzhen) Company Limited Multi-dimensional decomposition computing method and system
CN106570129A (zh) * 2016-10-27 2017-04-19 南京邮电大学 一种对实时数据进行快速分析的存储***及其存储方法
CN107016025A (zh) * 2016-11-17 2017-08-04 阿里巴巴集团控股有限公司 一种非关系型数据库索引的建立方法及装置
CN108984177A (zh) * 2018-06-21 2018-12-11 中国铁塔股份有限公司 一种数据处理方法及***
WO2018233364A1 (zh) * 2017-06-19 2018-12-27 华为技术有限公司 索引更新方法、***及相关装置
CN110019396A (zh) * 2017-12-01 2019-07-16 ***通信集团广东有限公司 一种基于分布式多维分析的数据分析***及方法
CN111104394A (zh) * 2019-12-31 2020-05-05 新奥数能科技有限公司 一种能源数据仓库***构建方法及装置
CN111159204A (zh) * 2020-01-02 2020-05-15 北京东方金信科技有限公司 一种通过配置的方式生成标签的方法及***
US20200187324A1 (en) * 2018-11-20 2020-06-11 Whirlwind Vr, Inc System and Method for an End-User Scripted (EUS) Customized Effect from a Rendered Web-Page
CN111885012A (zh) * 2020-07-03 2020-11-03 安徽继远软件有限公司 基于多种网络设备信息采集的网络态势感知方法及***

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198478A1 (en) * 2006-02-15 2007-08-23 Matsushita Electric Industrial Co., Ltd. Distributed meta data management middleware
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
WO2015027932A1 (en) * 2013-08-28 2015-03-05 Tencent Technology (Shenzhen) Company Limited Multi-dimensional decomposition computing method and system
CN103714129A (zh) * 2013-12-12 2014-04-09 用友软件股份有限公司 基于条件规则的动态数据结构和关系的构建装置和构建方法
CN106570129A (zh) * 2016-10-27 2017-04-19 南京邮电大学 一种对实时数据进行快速分析的存储***及其存储方法
CN107016025A (zh) * 2016-11-17 2017-08-04 阿里巴巴集团控股有限公司 一种非关系型数据库索引的建立方法及装置
WO2018233364A1 (zh) * 2017-06-19 2018-12-27 华为技术有限公司 索引更新方法、***及相关装置
CN110019396A (zh) * 2017-12-01 2019-07-16 ***通信集团广东有限公司 一种基于分布式多维分析的数据分析***及方法
CN108984177A (zh) * 2018-06-21 2018-12-11 中国铁塔股份有限公司 一种数据处理方法及***
US20200187324A1 (en) * 2018-11-20 2020-06-11 Whirlwind Vr, Inc System and Method for an End-User Scripted (EUS) Customized Effect from a Rendered Web-Page
CN111104394A (zh) * 2019-12-31 2020-05-05 新奥数能科技有限公司 一种能源数据仓库***构建方法及装置
CN111159204A (zh) * 2020-01-02 2020-05-15 北京东方金信科技有限公司 一种通过配置的方式生成标签的方法及***
CN111885012A (zh) * 2020-07-03 2020-11-03 安徽继远软件有限公司 基于多种网络设备信息采集的网络态势感知方法及***

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
SALVADOR GARCÍA 等: "Big data preprocessing: methods and prospects", BIG DATA ANALYTICS, 1 November 2016 (2016-11-01), pages 1 - 22 *
WEIXIN_39587407: "jdbc 生成建表语句_java使用JDBC动态创建数据表及SQL预处理的方法", pages 1, Retrieved from the Internet <URL:https://blog.csdn.net/weixin_39587407/article/details/111961748> *
ZAINEB CHELLY DAGDIA 等: "A distributed rough set theory based algorithm for an efficient big data pre-processing under the spark framework", 2017 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA), 15 January 2018 (2018-01-15), pages 911 - 916 *
刘晓建 等: "宇航中的一种基于线性约束数据库的GIS空时数据模型及其查询", 宇航学报, no. 01, 30 January 2004 (2004-01-30), pages 77 - 81 *
曾敬: "基于移动用户大数据的自助取数分析***设计与实现", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 4, 15 April 2019 (2019-04-15), pages 138 - 664 *
李广乾 等: "电子政务模块化、元数据与信息资源的开发利用", 电子政务, no. 1, 20 March 2011 (2011-03-20), pages 41 - 51 *
王海洋 等: "面向电力物联网的电力大数据应用", 电力大数据, no. 02, 21 February 2020 (2020-02-21), pages 87 - 92 *
蔡鑫;: "电信数据挖掘数据准备过程的规范化设计", 计算机工程, no. 24, 20 December 2007 (2007-12-20), pages 44 - 45 *
邓莎莎 等: "基于异构数据抽取清洗模型的元数据的研究", 计算机工程与应用, no. 30, 1 June 2006 (2006-06-01), pages 175 - 177 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309780A (zh) * 2022-06-13 2022-11-08 目人(苏州)医学科技有限公司 医学临床数据预处理方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
US11755575B2 (en) Processing database queries using format conversion
CN109669934B (zh) 一种切合电力客服业务的数据仓库***及其构建方法
EP3740880A1 (en) Pick and applicator for use with a stringed instrument
US9424150B2 (en) Fault tolerance based query execution
US9043348B2 (en) System and method for performing set operations with defined sketch accuracy distribution
US20180285439A1 (en) Olap pre-calculation model, automatic modeling method, and automatic modeling system
EP3654198A1 (en) Conversational database analysis
CN103440288A (zh) 一种大数据存储方法及装置
CN110928903B (zh) 数据提取方法及装置、设备和存储介质
US9633077B2 (en) Query of multiple unjoined views
EP3044706A1 (en) A method of optimizing queries execution on a data store
CN115964374B (zh) 一种基于预计算场景的查询处理方法及其装置
CN112559567A (zh) 适用于olap查询引擎的查询方法及装置
CN105677687A (zh) 一种数据处理方法及装置
CN113342843A (zh) 大数据在线分析方法和***
CN111125045B (zh) 一种轻量级etl处理平台
CN112818017A (zh) 一种事件数据处理方法及装置
CN110297858A (zh) 执行计划的优化方法、装置、计算机设备和存储介质
CN110347755A (zh) 一种基于Hadoop和HBase的大数据多维数据分析方法及***
US10331715B2 (en) Metadata enrichment with a keyword definition editor
CN113010519A (zh) 一种数据加工方法、装置、存储介质及电子设备
CN114490724A (zh) 处理数据库查询语句的方法和装置
US11048695B2 (en) Context-aware data commenting system
Kazi et al. MOLAP data warehouse of a software products servicing Call center
US12001710B2 (en) Dynamic update of consolidated data based on granular data values

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination