CN112988919A - 一种电网数据集市构建方法、***、终端设备及存储介质 - Google Patents
一种电网数据集市构建方法、***、终端设备及存储介质 Download PDFInfo
- Publication number
- CN112988919A CN112988919A CN202110477469.4A CN202110477469A CN112988919A CN 112988919 A CN112988919 A CN 112988919A CN 202110477469 A CN202110477469 A CN 202110477469A CN 112988919 A CN112988919 A CN 112988919A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- service
- analysis
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 57
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 230000010354 integration Effects 0.000 claims abstract description 51
- 238000004458 analytical method Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000007405 data analysis Methods 0.000 claims abstract description 13
- 238000013179 statistical model Methods 0.000 claims abstract description 8
- 238000004519 manufacturing process Methods 0.000 claims description 28
- 238000013499 data model Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000013480 data collection Methods 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 38
- 238000013461 design Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 230000005611 electricity Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012938 design process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000013439 planning Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Power Engineering (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电网数据集市构建方法、***、终端设备及存储介质,其中方法包括:获取电力***中各个业务***的数据源,并根据所述数据源构建数据贴源层;将所述数据贴源层的数据根据业务类型进行数据重构,以构建数据整合层;将所述数据整合层的数据利用星型模型构建分析对象的统计模型,面向数据分析主题进行常用纬度的汇总分析,以构建数据汇总层;将所述数据汇总层的数据进行个性指标的衍生和构建,并面向分析主题进行重新组合,以构建数据集市层。通过构建数据集市,实现了各业务***数据的汇聚,同时提供业务***源数据目录、整合数据目录的数据资产平台,解决长期存在的数据供需矛盾。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种电网数据集市构建方法、***、终端设备及存储介质。
背景技术
目前电网公司数据云初具规模,建成了大数据平台、数据仓库、海量准实时平台等数据存储及处理的平台,接入了公司生产运行大区及经营管理大区的海量数据。但是数据仍然以分散式主题的形式存储,上层数据应用仍然以烟囱式开展,底层基础数据与上层数据应用之间缺少中台数据集市。
当下电网公司对业务数据越来越重视,对数据质量要求越来越高,业务数据量越来越大,数据云平台历经多年探索和建设,初步形成了数据中心应具备的数据采集、存储、计算、工具、服务等各类基本能力,但从高质量发展要求来看,仍然存在技术路线规划粗放、管控能力较为薄弱、实用性和协同性不足等问题。临时取数数据量大,周期较长,反映出不能提供灵活、便捷的数据服务能力。各分析应用独自处理数据,产生“孤岛”,重复开发,不能形成数据融合。
发明内容
本发明目的在于,提供一种电网数据集市构建方法、***、终端设备及存储介质,通过构建数据集市,实现了各业务***数据的汇聚,同时提供业务***源数据目录、整合数据目录的数据资产平台,解决长期存在的数据供需矛盾。
为实现上述目的,本发明提供一种电网数据集市构建方法,包括:
获取电力***中各个业务***的数据源,并根据所述数据源构建数据贴源层;
将所述数据贴源层的数据根据电网业务主体进行常用分析对象的整合,利用常用关系型数据模型进行建模,并以业务主题、业务过程和业务对象的细分关系和关联关系进行数据重构,以构建数据整合层;
将所述数据整合层的数据利用星型模型构建分析对象的统计模型,面向数据分析主题进行常用纬度的汇总分析,以构建数据汇总层;
将所述数据汇总层的数据根据业务主题需要的汇总纬度对所述常用纬度进行重组,并根据具体的业务分析需求,进行个性指标的衍生和构建,并面向分析主题进行指标的重新组合,以构建数据集市层。
优选地,所述根据所述数据源构建数据贴源层,包括将所述数据源直接存放于所述数据贴源层。
优选地,所述构建数据整合层包括:
根据业务类型将所述数据贴源层的数据分类成多个独立完整的主题域,每个所述主题域均对应某一领域所涉及的数据实体对象,其中,所述数据实体对象均遵循相同的数据规则;
根据所述主题域进行生产域数据主题模型的构建。
优选地,所述构建数据整合层构建原则包括:
统一业务定义的原则;
满足第三范式要求的原则;
提供最小粒度的详细数据的原则;
保存历史数据信息的原则。
优选地,所述主题域的分类原则包括:
同一业务主题下由反应相同业务相关性的内容聚合而成,所述业务主题之间需要建立关联关系;
同一层级的主题域具有互斥性,上级和下一级是父子关系。
优选地,所述生产域数据主题模型包括概念模型、逻辑模型和物理模型。
本发明还提供一种电网数据集市构建***,应用于上述的电网数据集市构建方法,包括:
数据贴源层构建模块,用于获取电力***中各个业务***的数据源,并根据所述数据源构建数据贴源层;
数据整合层构建模块,用于将所述数据贴源层的数据根据业务类型进行数据重构,以构建数据整合层;
数据汇总层构建模块,用于将所述数据整合层的数据利用星型模型构建分析对象的统计模型,面向数据分析主题进行常用纬度的汇总分析,以构建数据汇总层;
数据集市层构建模块,用于将所述数据汇总层的数据进行个性指标的衍生和构建,并面向分析主题进行重新组合,以构建数据集市层。
优选地,所述数据整合层构建模块包括:
主题域分类模块,用于根据业务类型将所述数据贴源层的数据分类成多个独立完整的主题域,每个所述主题域均对应某一领域所涉及的数据实体对象,其中,所述数据实体对象均遵循相同的数据规则;
生产域数据主题模型构建模块,用于根据所述主题域进行生产域数据主题模型的构建。
本发明还提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的电网数据集市构建方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的电网数据集市构建方法。
本发明提供的一种电网数据集市构建方法、***、终端设备及存储介质中,通过构建数据集市,实现了各业务***数据的汇聚,同时提供业务***源数据目录、整合数据目录的数据资产平台,解决长期存在的数据供需矛盾,实现了数据的全面、准确融合和利用。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的电网数据集市构建方法的流程示意图;
图2是本发明某一实施例提供的计算机终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,本发明实施例提供一种电网数据集市构建方法,包括:
S10、获取电力***中各个业务***的数据源,并根据所述数据源构建数据贴源层;
S20、将所述数据贴源层的数据根据电网业务主体进行常用分析对象的整合,利用常用关系型数据模型进行建模,并以业务主题、业务过程和业务对象的细分关系和关联关系进行数据重构,以构建数据整合层;
S30、将所述数据整合层的数据利用星型模型构建分析对象的统计模型,面向数据分析主题进行常用纬度的汇总分析,以构建数据汇总层;
S40、将所述数据汇总层的数据根据业务主题需要的汇总纬度对所述常用纬度进行重组,并根据具体的业务分析需求,进行个性指标的衍生和构建,并面向分析主题进行指标的重新组合,以构建数据集市层。
在本实施例中,S10中的数据贴源层是最接近数据源中数据的一层。在业务***和数据仓库之间形成隔离,而构建数据贴源层则直接从业务***抽取数据进行存放,与数据源层保持一致。数据贴源层以保存电网业务***的原始数据为目标,为数据整合层提供业务的原始基础数据。
例如,所述数据源层包括安全生产管理子***、投资计划管理子***、项目管理子***、配网基建管理子***以及基建项目管理子***等。例如,所述数据贴源层包括安全生产层、投资计划层、项目管理层、配网基建层以及基建管理层等。
S20中,构建数据整合层则在数据贴源层的基础上,进行海量历史数据的离线存储,同时实现了分析对象整合、数据标准统一、数据质量治理等过程的集中。按照电网业务主题进行常用分析对象的整合。利用整合层常用关系型数据模型进行建模,从数据粒度上来说数据整合层的数据粒度仍保留最细粒度,以业务主题、业务过程和业务对象的细分关系、关联关系进行了数据的重构。从而保证了数据集市完整、易用,实现了数据的全面、准确融合和利用。
例如,所述数据整合层包括参与人、资产或设备、安全、物资、渠道、电网拓扑、时间、合同或协议、项目、位置、产品或服务、财务以及公共等数据层。
S30中,数据汇总层对数据的统一预处理并统一化存储,实现了数据多维度汇总、计算过程的集中,并形成集中的基础统计指标和主题体系。构建数据汇总层则以数据整合层清洗、转换后的数据明细为基础,以星型模型建模方式构建分析对象的统计模型,面向数据分析主题进行所有常用维度的汇总统计,保证了数据集市的易用性。
例如,所述数据汇总层包括资产设备统计项、项目管理统计项、缺陷故障统计项、运维管理统计项、用电可靠性统计项以及配网管理统计项等。
S40中,数据集市层的构建则是数据中台的关键部分,面向业务和应用场景进行数据融合和共享,实现数据的价值整合,完成财务数据集市的数据服务能力开放和业务服务能力开放。数据集市层可根据业务主题需的汇总维度对常用纬度进行重组,对数据进行高度汇总;同时在数据集市层可根据具体的业务分析需求,在数据汇总层的基础指标上,进行个性指标的衍生和构建,面向分析主题开展进行指标的重新组合,从而能够全面便利地构建数据集市,使得数据集市能够面向多个对象使用,更加灵活方便。
例如,所述数据集市层包括基建项目管理集市、设备管理集市、输电管理集市、变电管理集市、配电管理集市、营配管理集市以及投资计划管理集市。
其中,常用纬度与汇总纬度不是同一纬度,面向数据分析主题进行常用维度的汇总分析。以举例说明,时间的常用纬度包括年、月、日;地区的常用纬度是省、市、县。数据汇总层的数据根据业务主题需要的汇总纬度对常用纬度进行重组。以举例说明,业务主题为五一期间的用电量,汇总纬度是指5月1日、5月2日、5月3日、5月4日、5月5日,将这5天的用电量相加即得到五一期间的用电量。
电网数据集市的建设,打破各域之间的“数据孤岛”壁垒,形成了各域业务打通、跨域数据整合的公共数据资产。对电网数据进行采集、计算、存储、加工,同时统一标准和口径,以独有的且能复用的数据服务支撑不同业务场景下的应用,支撑业务发展和创新。通过数据集市提供数据进行挖掘分析,二次集成开发适合各类应用场景的数据产品及解决方案、数据分析报告等。例如,所述数据应用层包括基建管理、设备管理、输电管理、变电管理、配电管理、营配管理、投资计划管理、决策分析以及运营监控。
需要说明的是,生产域数据集市总体架构设计过程中,生产域数据集市的设计以解决生产域跨***数据整合,并支撑数据分析应用为目标,遵循相关数据管理规定,采用数据中台设计方法,实现包括数据资源产品化、数据资源主题式服务、数据应用场景三大内容。数据资源产品化,是从数据资源产品化的需求出发,面对数据加载和集中调度、数据标准管控、数据质量管控等方面;数据资源主题式服务是基于生产域数据集市的数据架构和建设要求,从***数据需求和业务数据整合的角度去准确定义数据分类、数据来源及数据部署等,并分别对数据源层、数据贴源层、数据整合层、数据汇总层、数据集市层以及数据应用层进行构建。数据应用场景设计是生产域数据集市需要支撑的数据分析应用需求,包括应用场景和指标、维度设计等。本发明通过对数据资源产品化设计、数据资源主题式服务设计、数据应用场景设计等设计内容,为生产域数据集市的建设提供了从数据应用需求到***实施、管控的一整套科学的方法,为项目概算和项目的具体实施提供了依据和指导。如此,通过构建数据集市,实现了各业务***数据的汇聚,同时提供业务***源数据目录、整合数据目录的数据资产平台,解决长期存在的数据供需矛盾。
在某一个实施例中,所述根据所述数据源构建数据贴源层,包括将所述数据源直接存放于所述数据贴源层。
在本实施例中,数据贴源层是最接近数据源中数据的一层。在业务***和数据仓库之间形成隔离,而构建数据贴源层则直接从业务***抽取数据进行存放,与数据源层保持一致。数据贴源层以保存电网业务***的原始数据为目标,为数据整合层提供业务的原始基础数据。
在某一个实施例中,所述构建数据整合层包括:
根据业务类型将所述数据贴源层的数据分类成多个独立完整的主题域,每个所述主题域均对应某一领域所涉及的数据实体对象,其中,所述数据实体对象均遵循相同的数据规则;
根据所述主题域进行生产域数据主题模型的构建。
在本实施例中,根据业务类型将数据组织成多个独立完整的主题域,每个主题域均对应某一领域所涉及的数据实体对象,其中,所述数据实体对象均遵循相同的数据规则。根据所述数据贴源层构建生产域数据主题模型,其中,按照所述主题域进行生产域数据主题模型的构建。
在某一个实施例中,所述构建数据整合层构建原则包括:
统一业务定义的原则;
满足第三范式要求的原则;
提供最小粒度的详细数据的原则;
保存历史数据信息的原则。
在本实施例中,数据整合层(TWB)建模原则:生产域数据集市整合层(TWB)模型采用面向主题的设计方法,有效组织来源多样的业务数据,使用统一的逻辑语言描述电网业务,保证了数据的一致性。在此基础上可以进行多种不同应用的开发设计,满足不同部门的业务需求和不同的数据访问方式,真正实现数据一次导入,多次使用。它所遵循的设计原则主要包括:
中性与共享性,为了满足不同的业务需求,数据整合层(TWB)中存储了有限公司的重要数据元素和关系,同时在模型设计中体现了高度的结构化、模块化设计思想,十四个主题域的提炼、主要的分类、相互之间的关系、历史信息的保存等,体现了一个清晰、严谨的模型架构。具有中性特征的数据整合层能涵盖生产域的主要业务范围,未来能灵活扩展以覆盖全业务域(6+1)的业务,且满足不断产生的业务发展需求,它选择了语义关系建模的设计方法,结合了业务角度建模方法和关系建模方法,以一种清晰的表达方式记录跟踪各级组织机构和活动的重要数据元素以及变动,而它们之间的各种可能的限制条件和关系能够表达重要的业务规则,如客户间关系(团体和个人团体)、排他分类(事件的分类)等。
模型的一致性,作为大数据云平台设计基础的逻辑数据模型必须在设计过程中保持一个统一的业务定义,比如渠道的定义、团体的分类等应该在整个企业内部保持一致,将来各种分析应用都使用同样的数据,这些数据应按照预先约定的规则进行刷新,保证同步和一致。如从第三方购买的客户信用等级和内部信用等级数据必须依照一套相同的存放规则进行处理,它们和其他数据的关联以及刷新的频率等都应该保持同步。数据整合层(TWB)中对的重要业务元素以及一些业务规则进行了规范化的处理,例如所关注的所有外部的个人和组织都统称为参与方(Party),它是一个中性的概念,可以包含所有的个体以及各种可能的组合,如客户、设备供应商、发电厂、合作伙伴等。统一这样的定义和概念,使得将来不同***的开发人员在进行功能设计和展现时都使用同样的语言,方便大家的沟通和交流。
模型的灵活性,数据整合层(TWB)是一个基本上满足第三范式要求的语义关系模型,从定义上“Every Non-Key attribute is fully & directly functionallydependent on the candidate keys.”不难看出,这种设计方法和维度建模方法不同,能最大程度上减少冗余,并保证结构具有足够的灵活性和扩展性。如果有新的业务变化或新的***加入整合,数据整合层(TWB)的这种结构能够进行简单、自然的扩展,允许在设计过程“想大做小”,在有一个全局规划的同时,选定某些部分入手,然后再逐步进行完善。比如可以从通过一个设备的基本信息资料、位置信息、状态信息等入手进行简单的分析,然后补充设备和供应商、其它设备的关系,延伸至全面的360设备单一视图,以全面推进新型的设备管理,并促进资产管理方面的创新。
最小粒度性,为了满足将来不同的应用分析需要,数据整合层(TWB)能够提供最小粒度的详细数据以支持各种可能的分析查询。以这些最小粒度的详细数据为基础,可以根据不同的统计分析口径汇总生成所需的各种结果。如果仅仅就目前的一些分析需求对数据进行筛选和加工,很难保证将来不确定的一些统计分析需求的实现。此外,在进行各种统计分析时,分析人员往往会从汇总数据入手,他们通常只会就一些汇总数据进行分析,但是当某些问题出现以后,他们会非常希望能够向下钻取找到根本原因。对于这种对详细数据的查询分析需求的支持依赖于逻辑数据模型中数据粒度的大小。
历史性,数据整合层(TWB)作为大数据云平台的逻辑数据模型,利用各种不同的时间戳保留大量的历史数据信息,如评估客户生命周期价值,除了客户现在的特征外,为了提升客户体验的可能性,或客户是否会有欺诈行为,可能还需要分析客户在过去一段时间内的各种行为。
在某一个实施例中,所述主题域的分类原则包括:
同一业务主题下由反应相同业务相关性的内容聚合而成,所述业务主题之间需要建立关联关系;
同一层级的主题域具有互斥性,上级和下一级是父子关系。
在本实施例中,主题域分类原则:主题域(Subject Area)提供业务模型的高阶视图,是数据实体的逻辑分组。根据业务要求将数据组织成一些独立完整的领域,每个主题域对应某一领域所涉及的数据实体对象,并在较高层次上对该领域内数据实体进行完整一致的描述。主题域扩展可以根据业务的兴趣、关注点定义数据对象范围,降低模型设计的复杂度、易于理解角度来进行。各个主题域命名规范,主题域名称:以中文简洁概括主题的内容、范围,以2-6个汉字为宜;主题域英文名称:以英文单词对主题域名称进行概括,以1-3个单词为宜,首字母大写;主题域英文简称:取英文单词的缩写的两个字母,大写。如:EV。
定义主题域原则包括以下三点:(1)同一主题下由反应相同业务相关性的内容聚合而成;(2)同一层级的主题域具有互斥性, 上级和下一级是父子关系;(3)业务主题之间需要建立关联关系。例如,客户与财务主题域都由反应相同业务相关性的内容聚合而成,客户域财务域之间具有互斥性,但主题域之间又有关系。
需要说明的是,数据整合层实现生产域各业务***明细数据的一致性集中存储,依据数据仓库的数据模型建设方法,以业务对象来组织并存储数据的原则,存储数据的最细粒度,以源***为主要参照数据源,按照生产域的数据主题域进行实体关系模型的设计,形成生产域数据整合层。
在某一个实施例中,所述生产域数据主题模型包括概念模型、逻辑模型和物理模型。
在本实施例中,需要说明的是,概念模型是指基础概念和含义,不涉及任何细节,如怎样表达和实现细节;概念模型的设计采用“自上而下设计,自下而上验证”的方法,同时在遵循行业模型设计原则的基础上,结合北京移动的实际情况进行相应的调整;概念模型定义核心业务概念实体、实体之间的关键关联关系及相关的业务规则,是业务视角的高层次的粗粒度的模型;首先针对需求涉及范围内的业务对象从高度抽象的概念层次归类,即划分主题域,再针对各个主题设计实体关系图。
逻辑模型是概念模型的延伸,以概念模型的设计作为基础,表达概念模型之间的逻辑次序,反映的是***分析设计人员对数据存储的观点,是对概念数据模型进一步的分解和细化;逻辑模型的设计也采用“自上而下设计,自下而上验证”的方法,同时在遵循行业模型设计原则的基础上,结合北京移动的实际情况进行相应的调整;逻辑模型设计的指导原则如下:对概念数据模型的进一步分解和细化;描述实体、属性以及实体关系;主要解决细节的业务问题;根据已有的概念模型,技术与业务人员一起,相互配合地进行逻辑模型设计。(1)定义,基本词是组成数据对象中文名称的,具有一定程度独立完整的含义、最细的力度、正常惯用的词汇,是对数据对象命名规范管理的基础,所有数据对象的中文名称均由基本词和类词组合而成。(2)目的,实现对“数据对象”(包括实体、属性)名称的全覆盖,即所有数据对象的名称均由基本词组合而成。(如果某词W无法由基本词组合而成,则增加相关基本词实现对W的覆盖,或直接将W加入词根)。(3)用途,基本词的主要用途如下:基本词是对数据对象命名规范管理的基础,避免非标准化、随意化的命名方式,以期实现实体和属性的标准、明晰命名。通过基本词的英文名称、英文缩写,实现对实体、属性的英文名称和英文缩写的快速翻译。通过基本词本身的定义,明确其中包含的业务含义,有利于对模型的理解。
物理模型是逻辑模型的具体实现,直接部署到***中,物理模型设计的指导原则如下:描述模型实体的细节,对数据冗余与性能进行平衡;主要解决细节的技术问题(数据库的物理实现);需要考虑所使用的数据库产品、字段类型、长度、索引等因素;必须首先确定数据库平台和应用程序的架构。(1)更为清晰的ER关系和层次,进行逻辑模型设计时,虽然可以设计ER关系和层次,但是并无很好的展现方式,因此需要在ERWin中重新整理出整个主题所包含的表及ER关系。(2)适当的逻辑表合并和冗余,逻辑模型设计较为偏向业务的表述和范式化的设计,而在现实情况中存在因为成本和效率的问题,需要对部分模型进行反范式化的处理,因此可以在物理化模型的时候完成此项工作。(3)适当的物理化命名规范,逻辑模型的命名也偏向表述业务含义,因此采用标准的英文单词,但是在实体物理化键表的时候,需要考虑技术层面的开发和使用环境,采用较为简洁的方式对表和字段重新命名。引入数据存储所需要素,实体进行物理化工作,最终需要在数据存储环境上实现该数据结构,因此需要增加数据存储有关的要素,例如表空间、分区键等。引入数据处理所需要素,落地后的数据库表需要被ETL处理所使用,因此需要增加与ETL处理有关的属性字段,例如处理流水号,处理日期等。
本发明还提供一种电网数据集市构建***,应用于上述的电网数据集市构建方法,包括:
数据贴源层构建模块,用于获取电力***中各个业务***的数据源,并根据所述数据源构建数据贴源层;
数据整合层构建模块,用于将所述数据贴源层的数据根据业务类型进行数据重构,以构建数据整合层;
数据汇总层构建模块,用于将所述数据整合层的数据利用星型模型构建分析对象的统计模型,面向数据分析主题进行常用纬度的汇总分析,以构建数据汇总层;
数据集市层构建模块,用于将所述数据汇总层的数据进行个性指标的衍生和构建,并面向分析主题进行重新组合,以构建数据集市层。
优选地,所述数据整合层构建模块包括:
主题域分类模块,用于根据业务类型将所述数据贴源层的数据分类成多个独立完整的主题域,每个所述主题域均对应某一领域所涉及的数据实体对象,其中,所述数据实体对象均遵循相同的数据规则;
生产域数据主题模型构建模块,用于根据所述主题域进行生产域数据主题模型的构建。
关于电网数据集市构建装置的具体限定可以参见上文中对于的限定,在此不再赘述。上述电网数据集市构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参阅图2,本发明实施例提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任意一个实施例中的电网数据集市构建方法。
处理器用于控制该计算机终端设备的整体操作,以完成上述的电网数据集市构建方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作,这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在一示例性实施例中,计算机终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit,简称AS1C) 、数字信号处理器(DigitalSignal Processor,简称DSP) 、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD) 、现场可编程门阵列(Field Programmable Gate Array ,简称FPGA) 、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的电网数据集市构建方法,并达到如上述方法一致的技术效果。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任意一个实施例中的电网数据集市构建方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由计算机终端设备的处理器执行以完成上述的电网数据集市构建方法,并达到如上述方法一致的技术效果。
综上所述,数据集市构建基于公司数据云上,数据来源于公司各业务信息***,在各业务域数据资产的基础上进行深度融合,通过数据产品化的方式,实现全口径数据的采集和管理。通过多年数据平台建设和数据分析***实践,结合大数据、人工智能、物联网等成熟技术,吸收各行业数据中台建设方法,为应对日益变化的数据需求,解决长期存在的数据供需矛盾,融合电网各业务域数据,而专门构建的数据采集、开发、管控、运维、共享开放、服务一体化大数据平台。具有以下优点:
①在统一架构和管控下,充分利用现有成果,逐渐实现的一个“基于数据融合,面向快捷数据应用和服务”的一体化公共“数据和技术”平台;
②从数据应用和服务生命周期出发,有效集成各类工具和技术,形成满足需求管理、数据采集管理、数据开发管理、数据治理、数据运维管理、数据服务和应用管理的一体化工具链;
③通过各业务***数据的汇聚,同时提供业务***源数据目录、整合数据目录、实时数据目录和公共指标目录的数据资产平台。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种电网数据集市构建方法,其特征在于,包括:
获取电力***中各个业务***的数据源,并根据所述数据源构建数据贴源层;
将所述数据贴源层的数据根据电网业务主体进行常用分析对象的整合,利用常用关系型数据模型进行建模,并以业务主题、业务过程和业务对象的细分关系和关联关系进行数据重构,以构建数据整合层;
将所述数据整合层的数据利用星型模型构建分析对象的统计模型,面向数据分析主题进行常用纬度的汇总分析,以构建数据汇总层;
将所述数据汇总层的数据根据业务主题需要的汇总纬度对所述常用纬度进行重组,并根据具体的业务分析需求,进行个性指标的衍生和构建,并面向分析主题进行指标的重新组合,以构建数据集市层。
2.根据权利要求1所述的电网数据集市构建方法,其特征在于,所述根据所述数据源构建数据贴源层,包括将所述数据源直接存放于所述数据贴源层。
3.根据权利要求1所述的电网数据集市构建方法,其特征在于,所述构建数据整合层包括:
根据业务类型将所述数据贴源层的数据分类成多个独立完整的主题域,每个所述主题域均对应某一领域所涉及的数据实体对象,其中,所述数据实体对象均遵循相同的数据规则;
根据所述主题域进行生产域数据主题模型的构建。
4.根据权利要求1所述的电网数据集市构建方法,其特征在于,所述构建数据整合层构建原则包括:
统一业务定义的原则;
满足第三范式要求的原则;
提供最小粒度的详细数据的原则;
保存历史数据信息的原则。
5.根据权利要求3所述的电网数据集市构建方法,其特征在于,所述主题域的分类原则包括:
同一业务主题下由反应相同业务相关性的内容聚合而成,所述业务主题之间需要建立关联关系;
同一层级的主题域具有互斥性,上级和下一级是父子关系。
6.根据权利要求3所述的电网数据集市构建方法,其特征在于,所述生产域数据主题模型包括概念模型、逻辑模型和物理模型。
7.一种电网数据集市构建***,其特征在于,包括:
数据贴源层构建模块,用于获取电力***中各个业务***的数据源,并根据所述数据源构建数据贴源层;
数据整合层构建模块,用于将所述数据贴源层的数据根据电网业务主体进行常用分析对象的整合,利用常用关系型数据模型进行建模,并以业务主题、业务过程和业务对象的细分关系和关联关系进行数据重构,以构建数据整合层;
数据汇总层构建模块,用于将所述数据整合层的数据利用星型模型构建分析对象的统计模型,面向数据分析主题进行常用纬度的汇总分析,以构建数据汇总层;
数据集市层构建模块,用于将所述数据汇总层的数据根据业务主题需要的汇总纬度对所述常用纬度进行重组,并根据具体的业务分析需求,进行个性指标的衍生和构建,并面向分析主题进行指标的重新组合,以构建数据集市层。
8.根据权利要求7所述的电网数据集市构建***,其特征在于,所述数据整合层构建模块包括:
主题域分类模块,用于根据业务类型将所述数据贴源层的数据分类成多个独立完整的主题域,每个所述主题域均对应某一领域所涉及的数据实体对象,其中,所述数据实体对象均遵循相同的数据规则;
生产域数据主题模型构建模块,用于根据所述主题域进行生产域数据主题模型的构建。
9.一种计算机终端设备,其特征在于,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至6任一项所述的电网数据集市构建方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的电网数据集市构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110477469.4A CN112988919A (zh) | 2021-04-30 | 2021-04-30 | 一种电网数据集市构建方法、***、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110477469.4A CN112988919A (zh) | 2021-04-30 | 2021-04-30 | 一种电网数据集市构建方法、***、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112988919A true CN112988919A (zh) | 2021-06-18 |
Family
ID=76336730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110477469.4A Pending CN112988919A (zh) | 2021-04-30 | 2021-04-30 | 一种电网数据集市构建方法、***、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112988919A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342798A (zh) * | 2021-07-07 | 2021-09-03 | 广东电网有限责任公司 | 一种基于数据融合的数据管理*** |
CN113626447A (zh) * | 2021-10-12 | 2021-11-09 | 民航成都信息技术有限公司 | 一种民航数据管理平台及方法 |
CN113641768A (zh) * | 2021-07-30 | 2021-11-12 | 国网江苏省电力有限公司南通供电分公司 | 一种基于电网多源数据的处理方法、***和设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180210949A1 (en) * | 2015-09-02 | 2018-07-26 | International Business Machines Corporation | Compiling extract, transform, and load job test data cases |
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
CN109669934A (zh) * | 2018-12-11 | 2019-04-23 | 江苏瑞中数据股份有限公司 | 一种切合电力客服业务的数据仓库***及其构建方法 |
CN110489459A (zh) * | 2019-08-07 | 2019-11-22 | 国网安徽省电力有限公司 | 一种基于大数据平台的企业级业数融合数据分析*** |
CN111460045A (zh) * | 2020-03-02 | 2020-07-28 | 心医国际数字医疗***(大连)有限公司 | 数据仓库建设的建模方法、模型、计算机设备和存储介质 |
CN112148807A (zh) * | 2020-09-28 | 2020-12-29 | 中国电波传播研究所(中国电子科技集团公司第二十二研究所) | 一种电磁环境领域数据仓库构建方法 |
CN112163039A (zh) * | 2020-09-21 | 2021-01-01 | 国家电网有限公司大数据中心 | 基于企业级数据中台分析域的数据资源标准化管理*** |
-
2021
- 2021-04-30 CN CN202110477469.4A patent/CN112988919A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180210949A1 (en) * | 2015-09-02 | 2018-07-26 | International Business Machines Corporation | Compiling extract, transform, and load job test data cases |
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
CN109669934A (zh) * | 2018-12-11 | 2019-04-23 | 江苏瑞中数据股份有限公司 | 一种切合电力客服业务的数据仓库***及其构建方法 |
CN110489459A (zh) * | 2019-08-07 | 2019-11-22 | 国网安徽省电力有限公司 | 一种基于大数据平台的企业级业数融合数据分析*** |
CN111460045A (zh) * | 2020-03-02 | 2020-07-28 | 心医国际数字医疗***(大连)有限公司 | 数据仓库建设的建模方法、模型、计算机设备和存储介质 |
CN112163039A (zh) * | 2020-09-21 | 2021-01-01 | 国家电网有限公司大数据中心 | 基于企业级数据中台分析域的数据资源标准化管理*** |
CN112148807A (zh) * | 2020-09-28 | 2020-12-29 | 中国电波传播研究所(中国电子科技集团公司第二十二研究所) | 一种电磁环境领域数据仓库构建方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342798A (zh) * | 2021-07-07 | 2021-09-03 | 广东电网有限责任公司 | 一种基于数据融合的数据管理*** |
CN113641768A (zh) * | 2021-07-30 | 2021-11-12 | 国网江苏省电力有限公司南通供电分公司 | 一种基于电网多源数据的处理方法、***和设备 |
CN113626447A (zh) * | 2021-10-12 | 2021-11-09 | 民航成都信息技术有限公司 | 一种民航数据管理平台及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685385B (zh) | 一种用于智慧城市建设的大数据平台 | |
CN112988919A (zh) | 一种电网数据集市构建方法、***、终端设备及存储介质 | |
CN114925045B (zh) | 大数据集成和管理的PaaS平台 | |
CN110347719A (zh) | 一种基于大数据的企业外贸风险预警方法及*** | |
CN107103064B (zh) | 数据统计方法及装置 | |
CN107766402A (zh) | 一种楼盘字典云房源大数据平台 | |
CN105045869A (zh) | 基于多数据中心的自然资源地理空间数据组织方法和*** | |
Farwick et al. | A meta-model for automated enterprise architecture model maintenance | |
Gutiérrez-Madroñal et al. | IoT–TEG: Test event generator system | |
Jayaram et al. | A Survey On Social Media Data Analytics And Cloud Computing Tools | |
Lv | A multi-view model study for the architecture of cloud manufacturing | |
CN115858513A (zh) | 数据治理方法、装置、计算机设备和存储介质 | |
CN111538720A (zh) | 电力行业基础数据清理的方法及*** | |
Gagliardelli et al. | A big data platform exploiting auditable tokenization to promote good practices inside local energy communities | |
Glava et al. | Information Systems Reengineering Approach Based on the Model of Information Systems Domains | |
Subramanian et al. | Systems dynamics-based modeling of data warehouse quality | |
CN112860653A (zh) | 一种政务信息资源目录管理方法和*** | |
Kirikova | Towards flexible information architecture for fractal information systems | |
CN115718776A (zh) | 一种大数据应用平台*** | |
US20140149186A1 (en) | Method and system of using artifacts to identify elements of a component business model | |
Li et al. | A" smart component" data model in PLM | |
CN115714807A (zh) | 工业场景数据中台的设计*** | |
CN113342798B (zh) | 一种基于数据融合的数据管理*** | |
Li et al. | A brief review of complex networks in service oriented manufacturing system | |
Huh et al. | Collaborative model management in departmental computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210618 |