CN111061767B

CN111061767B - 一种基于内存计算与sql计算的数据处理方法

Info

Publication number: CN111061767B
Application number: CN201911254622.6A
Authority: CN
Inventors: 程宏亮; 穆宇浩; 郭联伟; 苏魁; 王海亮; 李旭; 刘国杰
Original assignee: Meritdata Technology Co ltd
Current assignee: Meritdata Technology Co ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-05-05
Anticipated expiration: 2039-12-10
Also published as: CN111061767A

Abstract

本发明提供了一种基于内存计算与SQL计算的数据处理方法，包括：重构分析表达式语义体系，以跨颗粒度表达式建立数据库的内部核心语法规则，和跨颗粒度表达式返回的对象建立外层语法规则；以及重构分析表达式计算框架，包括计算逻辑生成器以及计算执行器，所述计算逻辑生成器将根据输入的语义模型和元数据模型的模型信息，识别计算逻辑，并根据所述计算逻辑构建DAG流；所述计算执行器接受DAG流与多个计算模型，生成计算任务，提交发布执行。效提升BI在业务计算方面的灵活度，无需受限于数据仓库，无需提前预计算，或者抽取数据建立数据中心，仅借助SQL与内存计算机制即可实现复杂的业务计算。

Description

一种基于内存计算与SQL计算的数据处理方法

技术领域

本发明涉及BI(商业智能(Business Intelligence))领域，尤其涉及一种基于内存计算与SQL计算的数据处理方法。

背景技术

随着敏捷数据BI(商业智能(Business Intelligence))的快速发展，以及客户需求的灵活多变，如何提供更为敏捷、灵活的计算能力是当下BI发展的重中之重，而以往传统的基于数据仓库的模式大大限制了BI计算的灵活度。

目前大多数的BI是依赖于数据仓库进行，对于一个相对复杂的统一(如统计某一个省份销售额占全国的销售额的比率)，需要首先建立维表、度量表，基于维度、度量，创建数据集市，后续的查询就基于数据集市进行。在BI中，此类方式称之为“预计算”，核心思路为“空间换时间”，即通过该提前计算数据结果并持久化，以有效的提升的计算效率、降低计算的复杂度。但此类技术存在如下不可回避的问题：

开发成本巨大，需求响应度低。由于数据仓库提前计算结果需要以固化的数据结构存储，因此当需求发生变化时，改动成本相对较高，尚不能较好的满足灵活多变的计算需求。如果提前将各类需求全部覆盖以提高预计算的命中率，则将带来巨大的空间浪费。因此预计算模式适应与分析维度固化的应用场景，但不能满足自助式分析、即席分析查询的需要。(举例：省份销售额占全国销售的占比，先使用预计算形成一个结果集，但如果客户需求发生变化，需要了解每个省的每类产品、占全国的占比，增加一个维度，以往的结果表就需要重新构建、重新预计算，带来了较大的空间浪费)

细节数据丢失，影响分析结论。由于BI多数计算的都是按某N个维度，汇总聚合结果，仅通过预计算存储的汇总结果，用户无法知道细节数据的构成，影响业务分析的进一步深入探索(举例，省份销售的占比，在目前的结果表A中，但是那些订单、那些客户提供的销售额，在该结果表中无法获取)

同时，目前常见的分析表达式是在同一维度的框架内进行计算(比如基于固定维度的加减乘除)，相对较为单一，但如何跨维度计算，多维度数据提取、汇总、寻址的再次计算，需要更为高级的函数表达式来实现。

针对如上问题，本申请提出一种数据分析表达式的一种设计方法与技术实现方案。

发明内容

本发明提供了一种基于内存计算与SQL计算的数据处理方法，有效提升BI在业务计算方面的灵活度，无需受限于数据仓库，无需提前预计算，或者抽取数据建立数据中心，仅借助SQL与内存计算机制即可实现复杂的业务计算。

实现本发明目的的技术方案如下：

一种基于内存计算与SQL计算的数据处理方法，包括：

重构分析表达式语义体系，以跨颗粒度表达式建立数据库的内部核心语法规则，和跨颗粒度表达式返回的对象建立外层语法规则；

以及重构分析表达式计算框架，包括计算逻辑生成器以及计算执行器，所述计算逻辑生成器将根据输入的语义模型和元数据模型的模型信息，识别计算逻辑，并根据所述计算逻辑构建DAG流；

所述计算执行器接受DAG流与多个计算模型，生成计算任务，提交发布执行。

元数据模型指的是待分析的数据的元数据信息。语义模型和元数据模型组合生成了计算模型，语义模型本质为语法规则，但是需要与元数据模型共同作用。

在本发明的一个优选实施例中，根据输入的内容，自动提取待分析的数据的元数据信息，并建立元数据模型。

在本发明的一个优选实施例中，所述计算执行器将计算模型的父视图为基础物理表的计算模型转化为SQL发布执行，在内存中，将网格模型、多个视图模型进行多级分步骤的计算，计算结果以一个或多个DataFrame结构返回。

在本发明的一个优选实施例中，所述多级分步骤的计算包括拆分步骤：将根据元数据和语义的输入，判定关键词fixed等是否存在，以及存在的数量；存在一个fixed，拆分出一个视图，然后根据视图中的定义，生成相应的sql，交由网格模型进行计算。

N个视图模型和N格模型，以及根据视图之间的父子关系，生成的DAG流。

在本发明的一个优选实施例中，所述DAG流包括但不限于视图模型、网格模型，并将各模型的血缘关系进行梳理，确定各模型的输入输出与关联字段，在SQL中将以层级嵌套的模式展开。

在本发明的一个优选实施例中，所述跨颗粒度表达式包括：预先计算某个颗粒度层级的计算结果，然后在显示界面中应用所述计算结果进行新的查询。

在本发明的一个优选实施例中，构建包括多个关键词，以及多个聚合函数的跨颗粒度表达式，所述单一关键词对应于不同的功能。

在本发明的一个优选实施例中，所述分析表达式语法体系的生成、识别、与校验通过基于AntLR4以及其提供的API完成。

在本发明的一个优选实施例中，所述跨颗粒度表达式内部核心语法规则包括如下：

●整体由{}包裹，内部支持{}嵌套(即表达式内部的字段也可以是表达式)；

●表达式必须包括”：”，冒号将表达式分为了左侧段，和右侧段两个部分；

●左侧段必须包括唯一一个关键词，关键词支持大小写；

●左侧段必须包括0个或0个以上字段，该字段将影响视图颗粒度；

●左侧段也可以为一个函数表达式，支持运算符；

●右侧段必须包括一个聚合字段和聚合函数，该字段将决定视图的统计指标；

●右侧段也可以为一个函数表达式，支持运算符。

在本发明的一个优选实施例中，所述跨颗粒度表达式返回的对象为明细级别的数据列。

与现有技术相比，本发明的有益效果是：

本发明有效提升BI在业务计算方面的灵活度，无需受限于数据仓库，无需提前预计算，或者抽取数据建立数据中心，仅借助SQL与内存计算机制即可实现复杂的业务计算。

附图说明

图1为本发明的工作原理框图；

图2为本发明的计算逻辑的流程图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

一种基于内存计算与SQL计算的数据处理方法，包括：重构分析表达式语义体系，以跨颗粒度表达式建立数据库的内部核心语法规则，和跨颗粒度表达式返回的对象建立外层语法规则；

以及重构分析表达式计算框架，包括计算逻辑生成器以及计算执行器，所述计算逻辑生成器将根据输入的语义模型和元数据模型的模型信息，识别计算逻辑，并根据所述计算逻辑构建DAG流；所述计算执行器接受DAG流与多个计算模型，生成计算任务，提交发布执行。

实施例1：

参照图1所示，一种基于内存计算与SQL计算的数据处理方法，包括：重构分析表达式语义体系，以跨颗粒度表达式建立数据库的内部核心语法规则，和跨颗粒度表达式返回的对象建立外层语法规则；

其中分析表达式语法体系

1.1.1基本概念理解

理解分析表达式首先需要理解的是视图、与颗粒度的概念。

视图：对于数据分析而言，视图是以针对某个分析场景的、以确定的维度、度量与计算方式形成的一个统计数据集。视图的本质是一个数据集。

颗粒度：对于该视图某行数据中在业务上代表最小单元。通常意义上来说，是由该视图中特定的维度集合，构成了该视图的最小颗粒度。

假设现有一张销售订单明细表，根据销售订单数据我们统计得到如下两个查询结果：

结果A：

市场	销售额
		西北	500000
西北	600000

结果B：

市场	省份	销售额
			西北	陕西	100000
东北	辽宁	100000
			西北	陕西	120000
东北	辽宁	120000

结果A、结果B即是销售订单明细表的两个视图。

对于视图A，一行数据代表的对象就是某个市场的指标状态记录，其颗粒度，就是市场。

对于视图B，一行数据代表的对象就是某个市场的某个城市的指标状态记录。其颗粒度，就是市场+省份。

分析表达式主要分为几种类型：

●明细级别表达式：如表达式成本＝[销售额]-[利润]，是一种在原始数据集基础上创建的明细级别的计算表达式。

●聚合计算表达式：如利润率＝sum[利润]/sum([销售额])，相对于明细级别表达式，这是一种在结果数据集基础上的计算表达式。(即结果数据集是按照某一维度对利润、销售进行汇总透视后生成的，而该表达式是在汇总视图后的基础上进行的计算)。

●跨颗粒度计算表达式：相当于预先计算了某个颗粒度层级的数据(对于该例，预先获取了每个客户历次消费的总额)，然后在主视图中应用该计算结果(顾客的销售总额)进行新的查询(如求平均、求合计)的一种表达式。如下图所示

●主视图(父视图)，是数据查询视图。视图：对于数据分析而言，视图是以针对某个分析场景的、以确定的维度、度量与计算方式形成的一个统计数据集。视图的本质是一个数据集。

得到了新的字段CLV，我们可以在主视图中，基于该字段计算地区的CLV均值、最大值。

1.1.2关键词定义

跨颗粒度分析表达式的关键词主要包括Fixed、Exclude、Include、Lookup

●Fixed

该关键词表示，对于该表达式所代表的视图，其颗粒度是固定的，固定的维度是由Fixed后定义的维度字段所确定的，不受到主视图中的维度干扰。如上文顾客全生命周期价值(clv)的计算。

●Exclued

该关键词表示，对于该表达式所代表的视图，其颗粒度相比主视图的颗粒度会更粗一下，在确定该表达式的颗粒度时，需要去除主视图的查询颗粒度。如进行汇总合计计算。主视图中按照区域、产品类型统计销售额，表达式{Exclued[区域]:sum(销售额)}得到的就是去除区域维度后的汇总值(即按产品的销售额汇总值)。

●Include

●该关键词表示，对于该表达式所代表的视图，其颗粒度相比主视图的颗粒度会更细，在去诶定该表达式的颗粒度，需要加上主视图的查询颗粒度。如主视图中按照区域、产品类型统计销售额,表达式{Include[省份]:sum(销售额)}，得到的就是某区域、某产品、某省份的销售额。

●Fixed

●Lookup

该关键词表示，对于该表达式所代表的视图，其颗粒度是在主视图的颗粒度上细化增加该表达式所指定的维度(目前只支持日期)的，根据表达式中定义的错行参数实现跨行取数与跨行计算。如计算销售额同比、环比。

1.1.3支持函数定义

跨颗粒度分析表达式支持的聚合函数包括：

●Sum：求合计，支持数值类型字段

●Avg：求平均，支持数值类型字段

●Count:求计数，支持日期、数值、字符类型字段

●Dcount：求唯一计数，支持日期、数值、字符类型字段

●Max：求最大值，支持日期、数值、字符类型字段

●Min：求最小值，支持日期、数值、字符类型字段

跨颗粒度分析表达式支持的函数，与主视图的聚合函数无关。

●此外，对于关键词Fixed、Exclude、Include关键词后的字段，支持常见的明细级别函数。包括但不限于：字符函数(如substr、contact)、数值函数(如abs等)、日期函数(year\month\day\now)等。支持+、-、×、/等运算符。

1.1.4内部语法定义

跨颗粒度表达式内部核心语法规则包括如下：

●整体由{}包裹，内部支持{}嵌套(即表达式内部的字段也可以是表达式)。

●表达式必须包括”：”，冒号将表达式分为了左侧段，和右侧段两个部分。

●左侧段必须包括唯一一个关键词，关键词支持大小写。

●左侧段必须包括0个或0个以上字段。(该字段将影响视图颗粒度)。

●左侧段也可以为一个函数表达式。支持运算符。

●右侧段必须包括一个聚合字段和聚合函数。(该字段将决定视图的统计指标)

●右侧段也可以为一个函数表达式。支持运算符。

基于ANTLR 4(ANother Tool for Language Recognition,一种语言生成识别工具)，定义跨颗粒度的内部语法文件(部分)如下,基于AntLR4以及其提供的API,完成语法生成、识别、与校验。

(注：本专利申请的是基于该工具在该场景下的应用与实现)

1.1.5外层语法定义

跨颗粒度表达式返回的对象为明细级别的数据列，具体可以应用在如下位置：

●可以嵌套在新的跨颗粒度表达式中。

●可以嵌套在新的聚合函数中。

●可以应用在明细函数中。

●可以参与明细级别的+、-、×、/等运算中。

其语法定义文件参考如下：

1.1.6语义模型生成

基于AntLR4生成语法校验实例，以访问者模式进行表达式语义解析，生成语义模型。

举例，对于表达式avg({Fixed[顾客姓名]:sum(销售额)}),(平均顾客全生命周期价值),应用detailfun.g4语义文件，进行解析，返回解析结果。

返回解析结果通常包括如下内容：

表达式内容：avg({Fixed[顾客姓名]:sum(销售额)})

表达式类型：Fixed

聚合维度：[顾客姓名]

度量：[销售额]

度量方式：合计

表达式外层的度量方式：平均

2.2分析表达式计算框架

分析表达式计算框架是一种混合了内存计算与SQL计算的解析、执行框架，是目前已有的计算框架的增强。

计算框架主要包括如下内容：

2.2.1元数据模型

元数据模型是定义计算过程的基础输入模型，根据用户输入内容与分析表达式生成的语义模型，自动生成元数据模型。

根据用户输入内容与分析表达式生成的语义模型，自动生成元数据模型。

元数据模型的主要内容将覆盖数据的基本描述性信息(摘要)：主要包括如下：

●表达式中涉及的字段清单

●字段所属的数据源信息

●字段所属的物理表信息

●字段所属的视图信息

●字段所属的类型、精度、长度、名称、别名、注释等信息

●字段在计算中的语义定义(维度/度量)

●字段计算规则与语法

●衍生字段及血缘关系

2.2.2计算模型

计算模型重点记录的是某个数据对象的计算逻辑，通常情况计算模型将根据语义与元数据模型生成相应的计算模型，计算模型通常会包括如下：

●核心部件：计算逻辑生成器、视图模型、网格模型、DAG流模型、执行器

●视图模型，用于描述子计算过程的某一个视图，通常由多个，一般包括如下：

■父视图：基于该视图的基础数据视图

■分组字段：封装sql时放置在groupby段，代表该视图的颗粒度■过滤字段：封装sql时放置在过滤段(含内层、外层)

■排序字段：封装sql时放置在oder段

■度量字段：封装sql时放置在select段

■关联字段：封装SQL时放置在join关键词。

■生成SQL摘要信息

●网格模型，通常会包括如下：

■分区字段：内存计算模型的核心字段

■寻址字段：内存计算模型的核心字段

■内存网格：一种基于内存的，临时存储中间计算结果的数据结构。

●DAG流模型：基于表达式的语义模型，程序将自动判断与生成DAG任务流，表达的是将语义转化为计算过程的一种技术实现。

2.2.3计算逻辑生成器

计算逻辑的生成的逻辑如图2所示：

计算逻辑生成器将根据输入的语义模型和元数据模型的模型信息，识别计算逻辑。

当分析表达式中存在Fixed、Exclued等关键词时，将默认为需要多个存在父子关系的视图模型进行组织。生成1-N个视图模型。

视图模型中的父子关系已经被完整记录，计算逻辑生成器将各模型的血缘关系进行梳理，确定各模型的输入输出与关联字段，在SQL中将以层级嵌套的模式展开。

同时，对于使用了聚合表达式、表计算表达式等模型的，将默认生成网格模型。

计算逻辑生成器生成DAG任务流程，用于描述整体的计算过程与计算步骤。

2.2.4计算执行器

计算执行器接受到输入的DAT流与多个计算模型，生成计算任务，提交发布执行。

在执行过程中，首先将计算模型的父视图为基础物理表的计算模型转化为SQL发布执行，在内存中，将网格模型、与较为复杂的视图模型进行多级分步骤的计算。

计算执行器具有一定的优化计算能力，对于重复度的视图模型将进行适合的合并和压缩，以降低查询次数与内存空间。

计算结果以一个或多个DataFrame结构返回。DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于内存计算与SQL计算的数据处理方法，其特征在于，包括：

重构分析表达式语义体系，以跨颗粒度表达式建立数据库的内部核心语法规则，和跨颗粒度表达式返回的对象建立外层语法规则；其中，所述跨颗粒度表达式内部核心语法规则包括：整体由{}包裹，内部支持{}嵌套；表达式必须包括”：”，冒号将表达式分为了左侧段和右侧段两个部分；左侧段包括唯一一个关键词，关键词支持大小写；左侧段包括0个或0个以上字段；或者左侧段为一个函数表达式，支持运算符；右侧段包括一个聚合字段和聚合函数；或者右侧段为一个函数表达式，支持运算符；

所述计算执行器接受DAG流与多个计算模型，生成计算任务，提交发布执行；其中，所述生成计算任务包括：计算执行器接受到输入的DAT流与多个计算模型，生成计算任务，提交发布执行；在执行过程中，首先将计算模型的父视图为基础物理表的计算模型转化为SQL发布执行，在内存中，将网格模型、与较为复杂的视图模型进行多级分步骤的计算；计算执行器具有一定的优化计算能力，对于重复度的视图模型将进行适合的合并和压缩，以降低查询次数与内存空间；计算结果以一个或多个DataFrame结构返回； DataFrame是一个表格型的数据结构，它含有一组有序的列，每列包括不同的值类型；DataFrame既有行索引也有列索引。

2.根据权利要求1所述的一种基于内存计算与SQL计算的数据处理方法，其特征在于，根据输入的内容，自动提取待分析的数据的元数据信息，并建立元数据模型。

3.根据权利要求2所述的一种基于内存计算与SQL计算的数据处理方法，其特征在于，所述多级分步骤的计算包括拆分步骤：将根据元数据和语义的输入，判定关键词fixed等是否存在，以及存在的数量；存在一个fixed，拆分出一个视图，然后根据视图中的定义，生成相应的sql，交由网格模型进行计算。

4.根据权利要求1所述的一种基于内存计算与SQL计算的数据处理方法，其特征在于，所述DAG流包括但不限于视图模型、网格模型，并将各模型的血缘关系进行梳理，确定各模型的输入输出与关联字段，在SQL中将以层级嵌套的模式展开。

5.根据权利要求1-4任意一项所述的一种基于内存计算与SQL计算的数据处理方法，其特征在于，所述跨颗粒度表达式包括：预先计算某个颗粒度层级的计算结果，然后在显示界面中应用所述计算结果进行新的查询。

6.根据权利要求5所述的一种基于内存计算与SQL计算的数据处理方法，其特征在于，构建包括多个关键词，以及多个聚合函数的跨颗粒度表达式，每一关键词对应于不同的功能。

7.根据权利要求1所述的一种基于内存计算与SQL计算的数据处理方法，其特征在于，所述分析表达式语法体系的生成、识别、与校验通过基于AntLR4以及其提供的API完成。

8.根据权利要求1所述的一种基于内存计算与SQL计算的数据处理方法，其特征在于，所述跨颗粒度表达式返回的对象为明细级别的数据列。