CN114880405A - 一种基于数据湖的数据处理方法及*** - Google Patents
一种基于数据湖的数据处理方法及*** Download PDFInfo
- Publication number
- CN114880405A CN114880405A CN202210330525.6A CN202210330525A CN114880405A CN 114880405 A CN114880405 A CN 114880405A CN 202210330525 A CN202210330525 A CN 202210330525A CN 114880405 A CN114880405 A CN 114880405A
- Authority
- CN
- China
- Prior art keywords
- data
- source
- fields
- layer
- monitored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000012544 monitoring process Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 26
- 230000005540 biological transmission Effects 0.000 claims description 25
- 238000012795 verification Methods 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据湖的数据处理方法及***,应用于包括数据仓库的平台中,基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;对所述贴源表到维度建模的需监控字段进行校验;在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。能避免数据来源错误的问题,提高数据处理效率,能实时准确监控数据质量,出现问题时及时发现。
Description
技术领域
本申请涉及数据处理技术领域,更具体地,涉及一种基于数据湖的数据处理方法及***。
背景技术
现有的数据湖数据处理技术中,数据来源经常性发生错误,导致外部数据或其它非业务数据进入数据湖,且数据质量不能得到准确监控,字段质量较低,使得数据湖处理数据的效率降低。
因此,如何提高数据质量检测的准确性,是目前有待解决的技术问题。
发明内容
本发明提供一种基于数据湖的数据处理方法,用以解决现有技术中数据质量检测准确性低的技术问题。该方法应用于包括数据仓库的平台中,该方法包括:
基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;
根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;
对所述贴源表到维度建模的需监控字段进行校验;
在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;
根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。
本申请一些实施例中,所述方法还包括:
若源数据来源于本地上传,则将所述数据导入数据湖;
若源数据来源于线上传输,则判断所述线上传输来源;
若所述线上传输来源于从属所述数据湖的局域网,则将所述数据导入数据湖;
若所述线上传输并非来源于从属所述数据湖的局域网,则不导入数据到数据湖。
本申请一些实施例中,所述方法还包括:
若贴源表到维度建模的所有字段中存在重复性较高的字段,将该字段作为需监控字段;
若贴源表到维度建模的所有字段中不存在重复性较高的字段,则将贴源表到维度建模的所有字段作为需监控字段;
其中,重复性较高为字段中字节出现次数超过固定值。
本申请一些实施例中,对所述贴源表到维度建模的需监控字段进行校验,具体为:
若所述需监控字段中字段重复值和字段空值超过阈值,且所述需监控字段的日期格式不符合预设标准,则所述需监控字段被标记成低质量字段。
本申请一些实施例中,所述方法还包括:
基于所述业务需求设定预设调度时间,基于所述预设调度时间同步更新所述集市层的数据,使集市层的数据处于最新状态。
对应的,本申请还提供了一种基于数据湖的数据处理***,该***包括:
导入模块,用于基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;
建立模块,用于根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;
校验模块,用于对所述贴源表到维度建模的需监控字段进行校验;
监控模块,用于在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;
开放模块,用于根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。
本申请一些实施例中,所述***还包括判定模块,该模块用于:
若源数据来源于本地上传,则将所述数据导入数据湖;
若源数据来源于线上传输,则判断所述线上传输来源;
若所述线上传输来源于从属所述数据湖的局域网,则将所述数据导入数据湖;
若所述线上传输并非来源于从属所述数据湖的局域网,则不导入数据到数据湖。
本申请一些实施例中,所述***还包括鉴别模块,该模块用于:
若贴源表到维度建模的所有字段中存在重复性较高的字段,将该字段作为需监控字段;
若贴源表到维度建模的所有字段中不存在重复性较高的字段,则将贴源表到维度建模的所有字段作为需监控字段;
其中,重复性较高为字段中字节出现次数超过固定值。
本申请一些实施例中,所述校验模块,具体用于:
若所述需监控字段中字段重复值和字段空值超过阈值,且所述需监控字段的日期格式不符合预设标准,则所述需监控字段被标记成低质量字段。
本申请一些实施例中,所述***还包括更新模块,该模块用于:
基于所述业务需求设定预设调度时间,基于所述预设调度时间同步更新所述集市层的数据,使集市层的数据处于最新状态。
通过应用以上技术方案,基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;对所述贴源表到维度建模的需监控字段进行校验;在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。能避免数据来源错误的问题,提高数据处理效率,能实时准确监控数据质量,出现问题时及时发现。支持大规模集群,数据量大,集群规模需要能满足,1PB以上的数据量。支持高并发交互查询,数据湖内的数据,可以做到百级并发下,2秒以内的人机交互查询。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种基于数据湖的数据处理方法的流程示意图;
图2示出了本发明实施例提出的一种基于数据湖的数据处理***的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种基于数据湖的数据处理方法,如图1所示,该方法包括:
步骤S101,基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;
步骤S102,根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;
步骤S103,对所述贴源表到维度建模的需监控字段进行校验;
步骤S104,在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;
步骤S105,根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。
步骤S101中,基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中。
本实施例中,根据设定的数据接入规范将所有的源数据信息分类成源***信息、源表基本信息和源数据特征信息等,使入湖前源数据信息更加清晰透明,方便后续数据处理操作。在贴源层构建贴源表,并将数据源文件导入数据湖中。
为了保证数据来源的正确性,本申请一些实施例中,所述方法还包括:
若源数据来源于本地上传,则将所述数据导入数据湖;
若源数据来源于线上传输,则判断所述线上传输来源;
若所述线上传输来源于从属所述数据湖的局域网,则将所述数据导入数据湖;
若所述线上传输并非来源于从属所述数据湖的局域网,则不导入数据到数据湖。
步骤S102中,根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题。
本实施例中,根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,所述数据指标包括原子指标、衍生指标和复合指标。将所述原子指标、所述衍生指标和所述复合指标进行汇总,在集市层建立对应的集市主题。原子指标,不加任何修饰词的指标就是原子指标,也叫度量(一般是表中,聚合字段,订单量,用户量,pv,uv等)。复合指标,指建立在基础指标之上,通过一定运算规则形成的计算指标集合,如平均用户交易额、资产负债率等。衍生指标,指基础指标或复合指标与维度成员、统计属性、管理属性等相结合产生的指标,如交易金额的完成值、计划值,累计值、同比、环比、占比等。
维度建模(dimensional modeling)是数据仓库建设中的一种数据建模方法,将数据结构化的逻辑设计方法,它将客观世界划分为度量和上下文。维度表可以看作是用户来分析数据的窗口,维度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。事实表,即为事实数据表的简称。主要特点是含有大量的数据,并且这些数据是可以汇总,并被记录的。
步骤S103中,对所述贴源表到维度建模的需监控字段进行校验。
本实施例中,对贴源表到维度建模的部分字段,分类型进行枚举值、字段重复值、字段空值和日期格式等方式进行校验,以此保证数据质量。
本申请一些实施例中,所述方法还包括:
若贴源表到维度建模的所有字段中存在重复性较高的字段,将该字段作为需监控字段;
若贴源表到维度建模的所有字段中不存在重复性较高的字段,则将贴源表到维度建模的所有字段作为需监控字段;
其中,重复性较高为字段中字节出现次数超过固定值。
可以理解的是,所述固定值可以根据数据情况和业务需求进行适应性调整,这也属于本申请的保护范围之内。
本申请一些实施例中,对所述贴源表到维度建模的需监控字段分类型进行校验,具体为:
若所述需监控字段中字段重复值和字段空值超过阈值,且所述需监控字段的日期格式不符合预设标准,则所述需监控字段被标记成低质量字段。
步骤S104中,在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控。
本实施例中,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控。元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
本申请一些实施例中,所述方法还包括:
基于所述业务需求设定预设调度时间,基于所述预设调度时间同步更新所述集市层的数据,使集市层的数据处于最新状态。
步骤S105中,根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。
本实施例中,根据所述业务需求将汇总层和集市层中的所有数据表通过数据接口和JDBC的方式对外开放。数据接口就是进行数据传输时向数据连接线输出数据的接口。无线解码器常见接口为RS-232端口。RS-232-C接口(又称EIA RS-232-C)是最常用的一种串行通讯接口。Java数据库连接,(Java Database Connectivity,简称JDBC)是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口,提供了诸如查询和更新数据库中数据的方法。
可以理解的是,上述预设调度时间、固定值、阈值均可根据实际需求就行调整,这均属于本申请保护范围之内。
通过应用以上技术方案,基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;对所述贴源表到维度建模的需监控字段进行校验;在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。能避免数据来源错误的问题,提高数据处理效率,能实时准确监控数据质量,出现问题时及时发现。支持大规模集群:数据量大,集群规模需要能满足,1PB以上的数据量。支持高并发交互查询:数据湖内的数据,可以做到百级并发下,2秒以内的人机交互查询。支持湖内更新操作,数据离线处理中,除了常见的查询和追加操作外,通常也存在更新操作,也就是常说的湖仓一体。数据一份存储,一份数据支持多种分析,离线处理和交互查询所需要的数据,不能重复存储多份。数据权限和资源隔离(多租户),多种离线处理作业同时运行,需要不同的数据权限和资源调度,避免越权访问和抢占资源。接口与开源兼容,客户通常存在存量离线处理应用,需要迁移到离线数据湖。支持多数据源,多种数据加载方式,数据源存放在多种类型来源,存在多种类型数据,存在多种数据格式。支持与第三方软件对接(可视化、分析挖掘、报表、元数据等),对接多种第三方工具,方便进行数据进一步的分析和管理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。
为了进一步阐述本发明的技术思想,现结合具体的应用场景,对本发明的技术方案进行说明。
该方法该包括如下步骤:
准备工作:根据数据接入规范,梳理分类相关的源数据信息,包括源***信息、源表基本信息、数据特征信息等。
数据集成:在数据仓库的贴源层构建贴源表,并通过数据集成模块将数据源文件导入数据湖。
规范设计:基于业务应用分析需求,在规范设计模块进行维度建模,设计并创建维度表及事实表。基于事实表,在数据规范模块中设计原子指标、衍生指标、复合指标。建立对应的集市专题,支撑业务的分析和应用建设。
数据开发:使用该模块中的作业开发,将相应的数据开发步骤形成流水线,并进行周期调度,定期同步数据,更新最终集市层数据。
数据质量:创建数据质量监控作业,对贴源表到维度建模的部分字段,分类型进行枚举值、字段重复值、字段空值、日期格式等校验。
数据资产:针对构造的维度表、事实表、及汇总表,在数据资产模块中进行元数据采集并监控。周期调度数据采集任务,定期更新技术资产。
数据服务:在数据服务模块中根据需求将汇总层、集市层中的数据表以数据接口和JDBC的方式对外进行开放。
除上述步骤外,本申请还包括:
数据消费:根据业务需要,提供可视化展示等最终业务消费能力。
对应的,本申请还提供了一种基于数据湖的数据处理***,如图2所示,该***应用于包括数据仓库的平台中,该***包括:
导入模块201,用于基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;
建立模块202,用于根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;
校验模块203,用于对所述贴源表到维度建模的需监控字段进行校验;
监控模块204,用于在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;
开放模块205,用于根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。
本申请一些实施例中,所述***还包括判定模块,该模块用于:
若源数据来源于本地上传,则将所述数据导入数据湖;
若源数据来源于线上传输,则判断所述线上传输来源;
若所述线上传输来源于从属所述数据湖的局域网,则将所述数据导入数据湖;
若所述线上传输并非来源于从属所述数据湖的局域网,则不导入数据到数据湖。
本申请一些实施例中,所述***还包括鉴别模块,该模块用于:
若贴源表到维度建模的所有字段中存在重复性较高的字段,将该字段作为需监控字段;
若贴源表到维度建模的所有字段中不存在重复性较高的字段,则将贴源表到维度建模的所有字段作为需监控字段;
其中,重复性较高为字段中字节出现次数超过固定值。
本申请一些实施例中,所述校验模块203,具体用于:
若所述需监控字段中字段重复值和字段空值超过阈值,且所述需监控字段的日期格式不符合预设标准,则所述需监控字段被标记成低质量字段。
本申请一些实施例中,所述***还包括更新模块,该模块用于:
基于所述业务需求设定预设调度时间,基于所述预设调度时间同步更新所述集市层的数据,使集市层的数据处于最新状态。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于数据湖的数据处理方法,其特征在于,应用于包括数据仓库的平台中,所述方法包括:
基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;
根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;
对所述贴源表到维度建模的需监控字段进行校验;
在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;
根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。
2.如权利要求1所述的方法,其特征在于,在将数据源文件导入数据湖前,所述方法还包括:
若源数据来源于本地上传,则将所述数据导入数据湖;
若源数据来源于线上传输,则判断所述线上传输来源;
若所述线上传输来源于从属所述数据湖的局域网,则将所述数据导入数据湖;
若所述线上传输并非来源于从属所述数据湖的局域网,则不导入数据到数据湖。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
若贴源表到维度建模的所有字段中存在重复性较高的字段,将该字段作为需监控字段;
若贴源表到维度建模的所有字段中不存在重复性较高的字段,则将贴源表到维度建模的所有字段作为需监控字段;
其中,重复性较高为字段中字节出现次数超过固定值。
4.如权利要求3所述的方法,其特征在于,对所述贴源表到维度建模的需监控字段进行校验,具体为:
若所述需监控字段中字段重复值和字段空值超过阈值,且所述需监控字段的日期格式不符合预设标准,则所述需监控字段被标记成低质量字段。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述业务需求设定预设调度时间,基于所述预设调度时间同步更新所述集市层的数据,使集市层的数据处于最新状态。
6.一种基于数据湖的数据处理***,其特征在于,应用于包括数据仓库的平台中,所述***包括:
导入模块,用于基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;
建立模块,用于根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;
校验模块,用于对所述贴源表到维度建模的需监控字段进行校验;
监控模块,用于在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;
开放模块,用于根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。
7.如权利要求6所述的***,其特征在于,所述***还包括判定模块,该模块用于:
若源数据来源于本地上传,则将所述数据导入数据湖;
若源数据来源于线上传输,则判断所述线上传输来源;
若所述线上传输来源于从属所述数据湖的局域网,则将所述数据导入数据湖;
若所述线上传输并非来源于从属所述数据湖的局域网,则不导入数据到数据湖。
8.如权利要求6所述的***,其特征在于,所述***还包括鉴别模块,该模块用于:
若贴源表到维度建模的所有字段中存在重复性较高的字段,将该字段作为需监控字段;
若贴源表到维度建模的所有字段中不存在重复性较高的字段,则将贴源表到维度建模的所有字段作为需监控字段;
其中,重复性较高为字段中字节出现次数超过固定值。
9.如权利要求8所述的***,其特征在于,所述校验模块,具体用于:
若所述需监控字段中字段重复值和字段空值超过阈值,且所述需监控字段的日期格式不符合预设标准,则所述需监控字段被标记成低质量字段。
10.如权利要求6所述的***,其特征在于,所述***还包括更新模块,该模块用于:
基于所述业务需求设定预设调度时间,基于所述预设调度时间同步更新所述集市层的数据,使集市层的数据处于最新状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210330525.6A CN114880405A (zh) | 2022-03-31 | 2022-03-31 | 一种基于数据湖的数据处理方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210330525.6A CN114880405A (zh) | 2022-03-31 | 2022-03-31 | 一种基于数据湖的数据处理方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114880405A true CN114880405A (zh) | 2022-08-09 |
Family
ID=82669312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210330525.6A Pending CN114880405A (zh) | 2022-03-31 | 2022-03-31 | 一种基于数据湖的数据处理方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114880405A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374329A (zh) * | 2022-10-25 | 2022-11-22 | 杭州比智科技有限公司 | 一种管理企业业务元数据和技术元数据的方法及*** |
CN115936296A (zh) * | 2022-12-20 | 2023-04-07 | 北京航天智造科技发展有限公司 | 基于工业互联网大数据湖的离散制造企业生产制造数据驾驶舱*** |
CN116340885A (zh) * | 2023-04-11 | 2023-06-27 | 太原理工大学 | 一种基于煤矿信息物理***的多源异构数据融合方法 |
CN116431638A (zh) * | 2023-04-12 | 2023-07-14 | 浪潮智慧科技有限公司 | 一种针对水利行业的指标处理方法、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
CN109669934A (zh) * | 2018-12-11 | 2019-04-23 | 江苏瑞中数据股份有限公司 | 一种切合电力客服业务的数据仓库***及其构建方法 |
CN111460045A (zh) * | 2020-03-02 | 2020-07-28 | 心医国际数字医疗***(大连)有限公司 | 数据仓库建设的建模方法、模型、计算机设备和存储介质 |
CN112084182A (zh) * | 2020-09-10 | 2020-12-15 | 重庆富民银行股份有限公司 | 一种用于数据集市和数据仓库的数据建模方法 |
CN112328706A (zh) * | 2020-11-03 | 2021-02-05 | 成都中科大旗软件股份有限公司 | 数仓体系下的维度建模计算方法、计算机设备和存储介质 |
CN112988900A (zh) * | 2021-04-02 | 2021-06-18 | 广东机电职业技术学院 | 一种基于多业务场景的数据填报与纠错方法及*** |
CN113312341A (zh) * | 2021-04-28 | 2021-08-27 | 上海淇馥信息技术有限公司 | 一种数据质量监控方法、***和计算机设备 |
-
2022
- 2022-03-31 CN CN202210330525.6A patent/CN114880405A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
CN109669934A (zh) * | 2018-12-11 | 2019-04-23 | 江苏瑞中数据股份有限公司 | 一种切合电力客服业务的数据仓库***及其构建方法 |
CN111460045A (zh) * | 2020-03-02 | 2020-07-28 | 心医国际数字医疗***(大连)有限公司 | 数据仓库建设的建模方法、模型、计算机设备和存储介质 |
CN112084182A (zh) * | 2020-09-10 | 2020-12-15 | 重庆富民银行股份有限公司 | 一种用于数据集市和数据仓库的数据建模方法 |
CN112328706A (zh) * | 2020-11-03 | 2021-02-05 | 成都中科大旗软件股份有限公司 | 数仓体系下的维度建模计算方法、计算机设备和存储介质 |
CN112988900A (zh) * | 2021-04-02 | 2021-06-18 | 广东机电职业技术学院 | 一种基于多业务场景的数据填报与纠错方法及*** |
CN113312341A (zh) * | 2021-04-28 | 2021-08-27 | 上海淇馥信息技术有限公司 | 一种数据质量监控方法、***和计算机设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374329A (zh) * | 2022-10-25 | 2022-11-22 | 杭州比智科技有限公司 | 一种管理企业业务元数据和技术元数据的方法及*** |
CN115936296A (zh) * | 2022-12-20 | 2023-04-07 | 北京航天智造科技发展有限公司 | 基于工业互联网大数据湖的离散制造企业生产制造数据驾驶舱*** |
CN116340885A (zh) * | 2023-04-11 | 2023-06-27 | 太原理工大学 | 一种基于煤矿信息物理***的多源异构数据融合方法 |
CN116340885B (zh) * | 2023-04-11 | 2023-10-03 | 太原理工大学 | 一种基于煤矿信息物理***的多源异构数据融合方法 |
CN116431638A (zh) * | 2023-04-12 | 2023-07-14 | 浪潮智慧科技有限公司 | 一种针对水利行业的指标处理方法、设备及介质 |
CN116431638B (zh) * | 2023-04-12 | 2024-03-12 | 浪潮智慧科技有限公司 | 一种针对水利行业的指标处理方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11409764B2 (en) | System for data management in a large scale data repository | |
US11360950B2 (en) | System for analysing data relationships to support data query execution | |
US11461294B2 (en) | System for importing data into a data repository | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及*** | |
CN111324602A (zh) | 一种实现面向金融大数据分析可视化方法 | |
US20170109668A1 (en) | Model for Linking Between Nonconsecutively Performed Steps in a Business Process | |
CN112199433A (zh) | 一种用于城市级数据中台的数据治理*** | |
US20170109636A1 (en) | Crowd-Based Model for Identifying Executions of a Business Process | |
CN111177134B (zh) | 适用于海量数据的数据质量分析方法、装置、终端及介质 | |
US20170109639A1 (en) | General Model for Linking Between Nonconsecutively Performed Steps in Business Processes | |
US20230018975A1 (en) | Monolith database to distributed database transformation | |
CN110851667A (zh) | 一种多源头大量数据的整合分析方法及工具 | |
CN112181955A (zh) | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
CN114281877A (zh) | 一种数据管理***及方法 | |
CN115640300A (zh) | 一种大数据管理方法、***、电子设备和存储介质 | |
US20170109640A1 (en) | Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process | |
CN115329011A (zh) | 数据模型的构建方法、数据查询的方法、装置及存储介质 | |
US11227288B1 (en) | Systems and methods for integration of disparate data feeds for unified data monitoring | |
CN115952160B (zh) | 一种数据盘点方法 | |
US20170109670A1 (en) | Crowd-Based Patterns for Identifying Executions of Business Processes | |
US20170109637A1 (en) | Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process | |
CN116578612A (zh) | 锂电池成品检测数据资产构建方法 | |
CN110955709B (zh) | 一种数据的处理方法、装置及电子设备 | |
CN114140032A (zh) | 一种设施运行状态监测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220809 |