CN111694810B - 数据仓库的创建方法、装置、电子设备及可读存储介质 - Google Patents
数据仓库的创建方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111694810B CN111694810B CN201910191102.9A CN201910191102A CN111694810B CN 111694810 B CN111694810 B CN 111694810B CN 201910191102 A CN201910191102 A CN 201910191102A CN 111694810 B CN111694810 B CN 111694810B
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- warehouse
- domain
- data warehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据仓库的创建方法、装置、电子设备、及计算机可读存储介质。该创建方法包括:获取原始数据;对所述原始数据进行预加工处理,得到预加工数据;根据预设的标签和领域模型,对所述预加工数据进行加工处理得到数据仓库,以供查询获取。
Description
技术领域
本发明涉及数据仓库技术领域,更具体地,涉及一种数据仓库的创建方法、一种数据仓库的创建装置、一种电子设备、及一种可读存储介质。
背景技术
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库可以对多种业务数据进行筛选和整合,可以用于数据分析、数据挖掘、数据报表。
但是,现有技术中无法根据较少的原始数据来创建数据仓库,使得现有的数据仓库时效性较差。
发明内容
本发明的一个目的是提供一种创建数据仓库的新技术方案。
根据本发明的第一方面,提供了一种数据仓库的创建方法,包括:
获取原始数据;
对所述原始数据进行预加工处理,得到预加工数据;
根据预设的标签和领域模型,对所述预加工数据进行加工处理得到数据仓库,以供查询获取。
可选的,所述原始数据包括非结构化数据,
所述对所述原始数据进行预加工处理,得到预加工数据的步骤包括:
对所述非结构化数据进行结构化处理,得到结构化数据;
对所述结构化数据进行清洗处理,得到所述预加工数据。
可选的,所述根据预设的标签和领域模型,对所述预加工数据进行加工处理得到数据仓库,以供查询获取的步骤包括:
根据所述领域模型,提取所述预加工数据中包含的与每一所述标签对应的业务概念;
根据所述领域模型确定每一业务概念之间的关联关系;
根据所述领域模型和所述关联关系创建所述数据仓库,以供查询获取。
可选的,所述标签包括对应数据明细层的主题、对应数据汇总层的公共指标、和/或对应数据应用层的个性化指标。
可选的,所述标签包括对应数据明细层的主题、对应数据汇总层的公共指标、和对应数据应用层的个性化指标;
所述根据预设的标签和领域模型,对所述预加工数据进行加工处理得到数据仓库,以供查询获取的步骤包括:
根据所述主题和所述领域模型,在所述数据明细层对所述预加工数据进行加工处理得到第一数据;
根据所述公共指标和所述领域模型,在所述汇总层对所述第一数据进行加工处理,得到第二数据;
根据所述个性化指标和所述领域模型,在所述应用层对所述第二数据进行加工处理得到所述数据仓库,以供查询获取。
可选的,所述根据预设的标签和领域模型,对所述预加工数据进行加工处理得到数据仓库,以供查询获取之前还包括:
将所述预加工数据增量或全量加载至所述数据明细层,执行所述根据所述主题和所述领域模型,在所述数据明细层对所述预加工数据进行加工处理得到第一数据的步骤。
可选的,所述创建方法还包括:
获取业务用例;
提取所述业务用例中包含的业务概念;
根据所述业务用例确定每一业务概念之间的关联关系;
根据预设的领域标签对所述业务概念进行领域划分,得到领域划分结果;
根据所述领域划分结果和所述关联关系得到所述领域模型。
可选的,所述创建方法还包括:
响应于针对所述数据仓库的查询请求,展示所述数据仓库。
根据本发明的第二方面,提供了一种数据仓库的创建装置,包括:
数据获取模块,用于获取原始数据;
预加工模块,用于对所述原始数据进行预加工处理,得到预加工数据;
数据仓库创建模块,用于根据预设的标签和领域模型,对所述预加工数据进行加工处理得到数据仓库,以供查询获取。
可选的,所述原始数据包括非结构化数据,
所述预加工模块还用于:
对所述非结构化数据进行结构化处理,得到结构化数据;
对所述结构化数据进行清洗处理,得到所述预加工数据。
可选的,所述数据仓库创建模块还用于:
根据所述领域模型,提取所述预加工数据中包含的与每一所述标签对应的业务概念;
根据所述领域模型确定每一业务概念之间的关联关系;
根据所述领域模型和所述关联关系创建所述数据仓库,以供查询获取。
可选的,所述标签包括对应数据明细层的主题、对应数据汇总层的公共指标、和/或对应数据应用层的个性化指标。
可选的,所述标签包括对应数据明细层的主题、对应数据汇总层的公共指标、和对应数据应用层的个性化指标;
所述数据仓库创建模块还用于:
根据所述主题和所述领域模型,在所述数据明细层对所述预加工数据进行加工处理得到第一数据;
根据所述公共指标和所述领域模型,在所述汇总层对所述第一数据进行加工处理,得到第二数据;
根据所述个性化指标和所述领域模型,在所述应用层对所述第二数据进行加工处理得到所述数据仓库,以供查询获取。
可选的,所述创建装置还包括:
用于将所述预加工数据增量或全量加载至所述数据明细层的模块,以供所述数据仓库创建模块执行所述根据所述主题和所述领域模型,在所述数据明细层对所述预加工数据进行加工处理得到第一数据的步骤。
可选的,所述创建装置还包括:
用于获取业务用例的模块;
用于提取所述业务用例中包含的业务概念的模块;
用于根据所述业务用例确定每一业务概念之间的关联关系的模块;
用于根据预设的领域标签对所述业务概念进行领域划分,得到领域划分结果的模块;
用于根据所述领域划分结果和所述关联关系得到所述领域模型的模块。
可选的,所述创建装置还包括:
用于响应于针对所述数据仓库的查询请求,展示所述数据仓库的模块。
根据本发明的第三方面,提供了一种电子设备,包括:
根据本发明第二方面所述的创建装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据本发明第一方面所述的创建方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如本发明第一方面所述的创建方法。
在本发明的实施例中,通过预设的标签和领域模型对原始数据进行预加工处理得到的预加工数据进行加工处理,得到数据仓库。这样,通过使用领域模型和数据仓库的结合,可以使得数据仓库实现小时级报表、分钟级报表,甚至是实时报表。而且,还可以提升数据仓库的创建效率,降低数据仓库的开发成本,提升数据仓库的可拓展性和稳定性。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是可用于实现本发明的实施例的电子设备的硬件配置的一个例子的框图;
图2是可用于实现本发明的实施例的电子设备的硬件配置的另一个例子的框图;
图3示出了本发明第一个实施例提供的数据仓库的创建方法的流程示意图;
图4示出了本发明第一个实施例提供的数据仓库的创建方法的流程示意图;
图5示出了本发明第一个实施例提供的数据仓库的创建方法的流程示意图;
图6示出了本发明第一个实施例提供的数据仓库的创建方法的流程示意图;
图7示出了本发明实施例提供的数据仓库的创建装置的原理框图;
图8是根据本发明第一个实施例提供的电子设备的原理框图;
图9是根据本发明第二个实施例提供的电子设备的硬件结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1和图2是可用于实现本发明任意实施例的数据仓库的创建方法的电子设备1000的硬件配置的框图。
在一个实施例中,如图1所示,电子设备1000可以是服务器1100。
服务器1100提供处理、数据库、通讯设施的业务点。服务器1100可以是整体式服务器或是跨多计算机或计算机数据中心的分散式服务器。服务器可以是各种类型的,例如但不限于,网络服务器,新闻服务器,邮件服务器,消息服务器,广告服务器,文件服务器,应用服务器,交互服务器,数据库服务器,或代理服务器。在一些实施例中,每个服务器可以包括硬件,软件,或用于执行服务器所支持或实现的合适功能的内嵌逻辑组件或两个或多个此类组件的组合。例如,服务器例如刀片服务器、云端服务器等,或者可以是由多台服务器组成的服务器群组,可以包括上述类型的服务器中的一种或多种等等。
本实施例中,服务器1100可以如图1所示,包括处理器1110、存储器1120、接口装置1130、通信装置1140、显示装置1150、输入装置1160。
在该实施例中,服务器1100还可以包括扬声器、麦克风等等,在此不做限定。
处理器1110可以是专用的服务器处理器,也可以是满足性能要求的台式机处理器、移动版处理器等,在此不做限定。存储器1120例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1130例如包括各种总线接口,例如串行总线接口(包括USB接口)、并行总线接口等。通信装置1140例如能够进行有线或无线通信。显示装置1150例如是液晶显示屏、LED显示屏触摸显示屏等。输入装置1160例如可以包括触摸屏、键盘等。
在该实施例中,服务器1100的存储器1120用于存储指令,该指令用于控制处理器1110进行操作以至少执行根据本发明任意实施例的数据仓库的创建方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
尽管在图1中示出了服务器1100的多个装置,但是,本发明可以仅涉及其中的部分装置,例如,服务器1100只涉及存储器1120和处理器1110。
在一个实施例中,电子设备1000可以是操作人员使用的PC机、笔记本电脑等终端设备1200,在此不做限定。
本实施例中,参照图2所示,终端设备1200可以包括处理器1210、存储器1220、接口装置1230、通信装置1240、显示装置1250、输入装置1260、扬声器1270、麦克风1280等等。
处理器1210可以是移动版处理器。存储器1220例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1230例如包括USB接口、耳机接口等。通信装置1240例如能够进行有线或无线通信,通信装置1240可以包括短距离通信装置,例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意装置,通信装置1240也可以包括远程通信装置,例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意装置。显示装置1250例如是液晶显示屏、触摸显示屏等。输入装置1260例如可以包括触摸屏、键盘等。用户可以通过扬声器1270和麦克风1280输入/输出语音信息。
在该实施例中,终端设备1200的存储器1220用于存储指令,该指令用于控制处理器1210进行操作以至少执行根据本发明任意实施例的数据仓库的创建方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
尽管在图2中示出了终端设备1200的多个装置,但是,本发明可以仅涉及其中的部分装置,例如,终端设备1200只涉及存储器1220和处理器1210和显示装置1250。
<方法>
图3是根据本发明实施例的数据仓库的创建方法的流程示意图,该方法可以由电子设备实施。该电子设备可以是如图1所示的服务器1100或图2所示终端设备1200。
根据图3所示,本实施例的数据仓库的创建方法可以包括如下步骤S3100~S3300:
步骤S3100,获取原始数据。
在本发明的一个实施例中,可以是由操作数据层(operational data store)获取原始数据。
具体的,可以是由操作数据层从数据来源提取指定数据,作为原始数据。
由于某些来源产生的数据对于分析而言没有价值,或者其可能产生的价值,远低于储存这些数据所需要的数据仓库的实现和性能上的成本,因此,可以是仅提取指定的数据。
其中,原始数据可以是从指定的客户端或者开放数据处理服务(Open DataProcessing Service,简称ODPS)中提取,也可以是从生成的日志或者是业务数据中提取。
步骤S3200,对原始数据进行预加工处理,得到预加工数据。
由步骤S3100获取的数据可以包括结构化数据,也可以非结构化数据。其中,结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。
在原始数据中包含结构化数据的实施例中,对结构化数据进行预加工处理的步骤可以包括数据清洗处理,得到预加工数据。具体的,清洗处理可以对对结构化数据中的不完整数据、错误数据和重复数据等脏数据进行清洗。本实施例中的清洗处理是对结构化数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
在原始数据中包含非结构化数据的实施例中,对非结构化数据进行预加工处理的步骤可以包括:对非结构化数据进行结构化处理,得到结构化数据;对结构化数据进行清洗处理,得到预加工数据。通过对非结构化数据进行结构化处理,可以将非结构化数据转换为结构化数据。
进一步地,对非结构化数据进行结构化处理的方式例如可以包括编码转换(例如,m/f->男/女),字段转换(例如,balance->bal),度量单位的转换(例如,cm->m),数据粒度的转换。业务***数据存储非常明细的数据,而数据仓库中数据是用分析的,不需要非常明细,会将业务***数据按照数据仓库粒度进行聚合。
步骤S3300,根据预设的标签和领域模型,对预加工数据进行加工处理得到数据仓库,以供查询获取。
本实施例中的数据仓库可以是数据报表。标签可以是预先根据应用场景或者是具体需求设定。
在本发明的一个实施例中,领域模型具体可以是根据如图4所示的步骤S4100~S4500得到:
步骤S4100,获取业务用例。
业务用例可以是根据应用场景或者是具体需求预先编写好的,该业务用例能够体现产品需求。
步骤S4200,提取业务用例中包含的业务概念,其中,业务概念包含标签。
具体的,业务概念可以是业务用例中包含的具体字段,也可以是业务用例中包含的具体字段所对应的概念。例如,对于业务用例“用户点击广告进入落地页”,其中包含的业务概念可以包括“用户点击行为”、“广告”和“落地页”。
步骤S4300,根据业务用例确定每一业务概念之间的关联关系。
具体的,可以是同一用例中包含的业务概念之间相关联。例如,从业务用例中提取的业务概念可以包括“用户点击行为”、“广告”、“落地页”、“广告主”和“投放”,那么,根据业务用例“用户点击广告进入落地页”,可以确定业务概念“用户点击行为”、“广告”和“落地页”之间相关联。根据业务用例“广告主投放广告”,可以确定业务概念“广告主”、“投放”和“广告”之间相关联。
步骤S4400,根据预设的领域标签对业务概念进行领域划分,得到领域划分结果。
其中,领域标签可以是根据应用场景或者具体需求提前设定。每个领域标签用于唯一标识对应的业务领域。根据预设的领域标签对业务概念进行领域划分,可以将每一业务概念划分至对应的领域标签下的业务领域,使得每一业务概念均具有一个对应的领域标签,即将每个业务概念划分至对应的业务领域中,得到领域划分结果。
通过对业务概念进行业务领域的划分,可以使得业务领域之间耦合低,业务领域内部的业务概念之间耦合高。即达到业务领域之间耦合低,业务领域内部高内聚的效果。
步骤S4500,根据领域划分结果和关联关系得到领域模型。
根据领域划分结果和每一业务概念之间的对应关系,就可以得到领域模型。
在本发明的一个实施例中,根据预设的标签和领域模型,对预加工数据进行加工处理得到数据仓库,以供查询获取的步骤可以进一步包括如图5所示的步骤S3311~S3313:
步骤S3311,根据预设的标签和领域模型,从预加工数据中提取每一标签对应的业务概念。
具体的,可以预先通过领域模型定义每个标签所对应的业务概念。那么,根据领域模型,就可以提取出预加工数据中所包含的与每一标签所对应的业务概念。
步骤S3312,根据领域模型确定每一业务概念之间的关联关系。
由于领域模型中预先定义了每个业务概念之间的关联关系,因此,根据该领域模型,就可以确定预加工数据中所包含的与每一标签所对应的业务概念之间的关联关系。
步骤S3313,根据领域模型和确定的关联关系创建数据仓库,以供查询获取。
进一步地,本实施例中的标签可以包括对应数据明细层的主题、对应数据汇总层的公共指标、和/或对应数据应用层的个性化指标。
其中,数据明细层(Data Warehouse Detail,简称DWD层),用于存放明细数据、维表数据。数据汇总层(Data Warehouse Summary,简称DWS层),用于存放公共指标。数据应用层(Application Data store,简称ADS层),用于存放个性化指标。
例如,公共指标可以是收入,那么,财务收入、报表收入等均属于收入这一公共指标。例如个性化指标可以是收入的单位,具体可以是元或者分。
在本发明的一个具体实施例中,该标签包括对应数据明细层的主题、对应数据汇总层的公共指标、及对应数据应用层的个性化指标。那么,根据预设的标签和领域模型,对预加工数据进行加工处理得到数据仓库,以供查询获取的步骤可以包括如图6所示的步骤S3321~S3323:
步骤S3321,根据对应数据明细层的主题和领域模型,在明细层对预加工数据进行加工处理得到第一数据。
第一数据可以是数据报表。
例如,预加工数据中有多张表和广告主相关:a表中有广告主的公司信息、b表中有广告主的投放信息、c表中有广告主的出价信息、d表中有广告主的展现、点击、消费信息。根据“广告主”主题在数据明细层对预加工数据的加工处理操作可以是把表a、b、c、d拼接成一张明细表,以满足各类广告主信息的查询。
具体的,根据对应数据明细层的主题和领域模型,在明细层对预加工数据进行加工处理得到第一数据的步骤可以参照前述的步骤S3311~S3313的描述,在此不再赘述。
进一步地,本实施例中的主题可以是步骤S4400中的领域标签。
步骤S3322,根据对应数据汇总层的公共指标和领域模型,在数据汇总层对第一数据进行加工处理,得到第二数据。
第二数据可以是数据报表。
数据汇总层通常是对数据明细层的第一数据进行汇总操作。例如:对数据明细层“广告主”主题对应明细表中,常用的“代理商”这一公共指标进行汇总,得到代理商的展现、点击、消费等常用信息的轻度汇总表。
具体的,根据对应数据汇总层的公共指标和领域模型,在数据汇总层对第一数据进行加工处理,得到第二数据的步骤可以参照前述的步骤S3311~S3313的描述,在此不再赘述。
步骤S3323,根据对应数据应用层的个性化指标和领域模型,在数据应用层对第二数据进行加工处理得到数据仓库,以供查询获取。
数据仓库可以是数据报表。数据应用层可以是对数据汇总层的第二数据进行细粒度的操作。例如,对于“广告主”主题下“代理商”这一公共指标对于的轻度汇总表,可以对“消费”这一个性化指标进行汇总,得到消费信息的数据仓库。
具体的,根据对应数据应用层的个性化指标和领域模型,在数据应用层对第二数据进行加工处理得到数据仓库的步骤可以参照前述的步骤S3311~S3313的描述,在此不再赘述。
这样,一个主题下有多个层级(数据明细层、数据汇总层、数据应用层)的报表。其中,主题是数据明细层的第一数据中的具体字段,公共标签是数据汇总的第二数据中的具体字段,个性化标签是数据应用层数据仓库的具体字段。
在此基础上,该创建方法还可以包括:将转换过后的数据增量或全量加载至数据明细层,以执行根据所述主题和所述领域模型,在所述数据明细层对所述预加工数据进行加工处理得到第一数据的步骤。
全量加载具体可以是一次对全部预加工数据进行加载。
增量加载一般首次需要全量加载,但是在第二次周期或者第三次周期的时候仍然全量加载的话,耗费了极大的物理和时间资源。有可能部分数据源并未发生变化,而有的数据源可能只是增加了少量的数据。对数据源中的数据只考虑新修改的记录和新***的记录就是增量加载。
在本发明的一个实施例中,本发明的数据仓库的创建方法在执行步骤S3300之后还可以包括:响应于针对数据仓库的查询请求,展示通过该步骤S3300创建的数据仓库。
具体的,可以是通过MySQL展示给用户或者是指定应用程序。其中,MySQL是一个关系型数据库管理***。
在本发明的实施例中,通过预设的标签和领域模型对原始数据进行预加工处理得到的预加工数据进行加工处理,得到数据仓库。这样,通过使用领域模型和数据仓库的结合,可以使得数据仓库实现小时级报表、分钟级报表,甚至是实时报表。而且,还可以提升数据仓库的创建效率,降低数据仓库的开发成本,提升数据仓库的可拓展性和稳定性。
<装置>
在本实施例中,提供一种数据仓库的创建装置7000,如图7所示,包括数据获取模块7100、预加工模块7200和数据仓库创建模块7300。该数据获取模块7100用于获取原始数据;该预加工模块7200用于对原始数据进行预加工处理,得到预加工数据;该数据仓库创建模块7300用于根据预设的标签和领域模型,对预加工数据进行加工处理得到数据仓库,以供查询获取。
在本发明的一个实施例中,原始数据可以包括非结构化数据,那么,预加工模块7200还可以用于:
对非结构化数据进行结构化处理,得到结构化数据;
对结构化数据进行清洗处理,得到预加工数据。
在本发明的一个实施例中,数据仓库创建模块7300还可以用于:
根据领域模型,提取预加工数据中包含的与每一标签对应的业务概念;
根据领域模型确定每一业务概念之间的关联关系;
根据领域模型和关联关系创建数据仓库,以供查询获取。
在本发明的一个实施例中,该标签包括对应数据明细层的主题、对应数据汇总层的公共指标、和/或对应数据应用层的个性化指标。
进一步地,该标签包括对应数据明细层的主题、对应数据汇总层的公共指标、和对应数据应用层的个性化指标;那么,该数据仓库创建模块7300还可以用于:
根据主题和领域模型,在数据明细层对预加工数据进行加工处理得到第一数据;
根据公共指标和领域模型,在汇总层对第一数据进行加工处理,得到第二数据;
根据个性化指标和领域模型,在应用层对第二数据进行加工处理得到数据仓库,以供查询获取。
在本发明的一个实施例中,该创建装置7000还可以包括:
用于将预加工数据增量或全量加载至数据明细层的模块,以供数据仓库创建模块7300执行根据主题和领域模型,在数据明细层对预加工数据进行加工处理得到第一数据的步骤。
在本发明的一个实施例中,该创建装置7000还包括:
用于获取业务用例的模块;
用于提取业务用例中包含的业务概念的模块;
用于根据业务用例确定每一业务概念之间的关联关系的模块;
用于根据预设的领域标签对业务概念进行领域划分,得到领域划分结果的模块;以及,
用于根据领域划分结果和关联关系得到领域模型的模块。
在本发明的一个实施例中,该创建装置7000还包括:
用于响应于针对数据仓库的查询请求,展示数据仓库的模块。
本领域技术人员应当明白,可以通过各种方式来实现数据仓库的创建装置7000。例如,可以通过指令配置处理器来实现数据仓库的创建装置7000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现数据仓库的创建装置7000。例如,可以将数据仓库的创建装置7000固化到专用器件(例如ASIC)中。可以将数据仓库的创建装置7000分成相互独立的单元,或者可以将它们合并在一起实现。数据仓库的创建装置7000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,数据仓库的创建装置7000可以具有多种实现形式,例如,数据仓库的创建装置7000可以是任何的提供网络访问服务的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。
<电子设备>
在本实施例中,还提供一种电子设备1000,该电子设备1000可以是图1所示的服务器1100,也可以是如图2所示的终端设备1200。
如图8所示,电子设备1000可以包括根据本发明任意实施例的数据仓库的创建装置7000,用于实施本发明任意实施例的数据仓库的创建方法。
在另一个实施例中,如图9所示,电子设备1000还可以包括处理器1300和存储器1400,该存储器1400用于存储可执行的指令;该处理器1300用于根据指令的控制运行电子设备1000执行根据本发明任意实施例的数据仓库的创建方法。
<计算机可读存储介质>
在本实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现如本发明任意实施例的数据仓库的创建方法。
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (7)
1.一种数据仓库的创建方法,其中,包括:
获取原始数据;
对所述原始数据进行预加工处理,得到预加工数据;
根据预设的标签和领域模型,对所述预加工数据进行加工处理得到数据仓库,以供查询获取;
所述标签包括对应数据明细层的主题、对应数据汇总层的公共指标、和对应数据应用层的个性化指标;
所述根据预设的标签和领域模型,对所述预加工数据进行加工处理得到数据仓库,以供查询获取的步骤包括:
根据所述主题和所述领域模型,在所述数据明细层对所述预加工数据进行加工处理得到第一数据;
根据所述公共指标和所述领域模型,在所述汇总层对所述第一数据进行加工处理,得到第二数据;
根据所述个性化指标和所述领域模型,在所述应用层对所述第二数据进行加工处理得到所述数据仓库,以供查询获取;
所述创建方法还包括:
获取业务用例;
提取所述业务用例中包含的业务概念;
根据所述业务用例确定每一业务概念之间的关联关系;
根据预设的领域标签对所述业务概念进行领域划分,得到领域划分结果;
根据所述领域划分结果和所述关联关系得到所述领域模型。
2.根据权利要求1所述的创建方法,其中,所述原始数据包括非结构化数据,
所述对所述原始数据进行预加工处理,得到预加工数据的步骤包括:
对所述非结构化数据进行结构化处理,得到结构化数据;
对所述结构化数据进行清洗处理,得到所述预加工数据。
3.根据权利要求1所述的创建方法,其中,所述根据预设的标签和领域模型,对所述预加工数据进行加工处理得到数据仓库,以供查询获取之前还包括:
将所述预加工数据增量或全量加载至所述数据明细层,执行所述根据所述主题和所述领域模型,在所述数据明细层对所述预加工数据进行加工处理得到第一数据的步骤。
4.根据权利要求1所述的创建方法,其中,所述创建方法还包括:
响应于针对所述数据仓库的查询请求,展示所述数据仓库。
5.一种数据仓库的创建装置,其中,包括:
数据获取模块,用于获取原始数据;
预加工模块,用于对所述原始数据进行预加工处理,得到预加工数据;
数据仓库创建模块,用于根据预设的标签和领域模型,对所述预加工数据进行加工处理得到数据仓库,以供查询获取;
所述标签包括对应数据明细层的主题、对应数据汇总层的公共指标、和对应数据应用层的个性化指标;
所述数据仓库创建模块还用于:
根据所述主题和所述领域模型,在所述数据明细层对所述预加工数据进行加工处理得到第一数据;
根据所述公共指标和所述领域模型,在所述汇总层对所述第一数据进行加工处理,得到第二数据;
根据所述个性化指标和所述领域模型,在所述应用层对所述第二数据进行加工处理得到所述数据仓库,以供查询获取;
所述创建装置还包括:
用于获取业务用例的模块;
用于提取所述业务用例中包含的业务概念的模块;
用于根据所述业务用例确定每一业务概念之间的关联关系的模块;
用于根据预设的领域标签对所述业务概念进行领域划分,得到领域划分结果的模块;
用于根据所述领域划分结果和所述关联关系得到所述领域模型的模块。
6.一种电子设备,其中,包括:
根据权利要求5所述的创建装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据权利要求1至4中任一项所述的创建方法。
7.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至4中任一项所述的创建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910191102.9A CN111694810B (zh) | 2019-03-12 | 2019-03-12 | 数据仓库的创建方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910191102.9A CN111694810B (zh) | 2019-03-12 | 2019-03-12 | 数据仓库的创建方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111694810A CN111694810A (zh) | 2020-09-22 |
CN111694810B true CN111694810B (zh) | 2024-04-05 |
Family
ID=72475056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910191102.9A Active CN111694810B (zh) | 2019-03-12 | 2019-03-12 | 数据仓库的创建方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111694810B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380852A (zh) * | 2020-11-12 | 2021-02-19 | 沃民高新科技(北京)股份有限公司 | 一种舆情数据处理*** |
CN115858691A (zh) * | 2022-11-17 | 2023-03-28 | 北京白龙马云行科技有限公司 | 报表创建方法及装置、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718565A (zh) * | 2016-01-20 | 2016-06-29 | 北京京东尚科信息技术有限公司 | 数据仓库模型的构建方法和构建装置 |
CN108268565A (zh) * | 2017-01-04 | 2018-07-10 | 北京京东尚科信息技术有限公司 | 基于数据仓库处理用户浏览行为数据的方法及*** |
CN108520008A (zh) * | 2018-03-15 | 2018-09-11 | 链家网(北京)科技有限公司 | 数据仓库模型的构建方法及构建装置 |
CN108763278A (zh) * | 2018-04-11 | 2018-11-06 | 口碑(上海)信息技术有限公司 | 用户特征标签的统计方法以及装置 |
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9778973B2 (en) * | 2015-10-28 | 2017-10-03 | International Business Machines Corporation | Early diagnosis of hardware, software or configuration problems in data warehouse system utilizing grouping of queries based on query parameters |
-
2019
- 2019-03-12 CN CN201910191102.9A patent/CN111694810B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718565A (zh) * | 2016-01-20 | 2016-06-29 | 北京京东尚科信息技术有限公司 | 数据仓库模型的构建方法和构建装置 |
CN108268565A (zh) * | 2017-01-04 | 2018-07-10 | 北京京东尚科信息技术有限公司 | 基于数据仓库处理用户浏览行为数据的方法及*** |
CN108520008A (zh) * | 2018-03-15 | 2018-09-11 | 链家网(北京)科技有限公司 | 数据仓库模型的构建方法及构建装置 |
CN108763278A (zh) * | 2018-04-11 | 2018-11-06 | 口碑(上海)信息技术有限公司 | 用户特征标签的统计方法以及装置 |
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
Non-Patent Citations (3)
Title |
---|
数据仓库创建、设计与开发;谷和启;;中文信息;20030401(04);全文 * |
数据仓库在税收领域的应用;许合利;王慧林;;电脑开发与应用;20100405(第04期);全文 * |
许合利 ; 王慧林 ; .数据仓库在税收领域的应用.电脑开发与应用.2010,(04),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111694810A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9460415B2 (en) | Determining semantic information of business applications | |
US20200320067A1 (en) | Displaying messages relevant to system administration | |
US10839000B2 (en) | Presentations and reports built with data analytics | |
US9959324B2 (en) | Bootstrapping the data lake and glossaries with ‘dataset joins’ metadata from existing application patterns | |
CN111190888A (zh) | 一种管理图数据库集群的方法和装置 | |
US20150106928A1 (en) | Screening of email templates in campaign management | |
US11526573B1 (en) | System and method for controlling electronic communications | |
US9378194B2 (en) | Previewing email templates in marketing campaigns | |
US20200409944A1 (en) | Visual distributed data framework for analysis and visualization of datasets | |
CN112800354B (zh) | 政策发布与智能推送方法、***、设备和介质 | |
CN111694810B (zh) | 数据仓库的创建方法、装置、电子设备及可读存储介质 | |
US20220060552A1 (en) | Variable content generation and engagement tracking | |
US10567522B2 (en) | Workflow to automatically generate reports for different component-level metadata after interacting with multiple web services | |
US20210124752A1 (en) | System for Data Collection, Aggregation, Storage, Verification and Analytics with User Interface | |
EP2839395A1 (en) | Linking web extension and content contextually | |
CN113704288A (zh) | 数据展示方法、装置、计算机可读介质及电子设备 | |
US11295326B2 (en) | Insights on a data platform | |
CN111027924A (zh) | 一种项目管理*** | |
US20160321229A1 (en) | Technique for clipping and aggregating content items | |
US11893027B2 (en) | Aggregate query optimization | |
US20140189011A1 (en) | Remote contextual collaboration | |
CN114580675A (zh) | 基于树形结构的运维数据处理方法、装置、设备及介质 | |
CN108153834B (zh) | 一种商业智能应用查询数据的方法、装置及电子设备 | |
CN113138974A (zh) | 数据库合规检测的方法和装置 | |
CN113703638A (zh) | 数据管理页面处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |