CN113688120A - 数据仓库的质量检测方法、装置和电子设备 - Google Patents
数据仓库的质量检测方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113688120A CN113688120A CN202111008325.0A CN202111008325A CN113688120A CN 113688120 A CN113688120 A CN 113688120A CN 202111008325 A CN202111008325 A CN 202111008325A CN 113688120 A CN113688120 A CN 113688120A
- Authority
- CN
- China
- Prior art keywords
- index
- item
- data warehouse
- value
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 claims abstract description 63
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000011156 evaluation Methods 0.000 claims description 62
- 238000012545 processing Methods 0.000 claims description 47
- 238000007689 inspection Methods 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 description 14
- 238000003860 storage Methods 0.000 description 14
- 230000036541 health Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000010410 layer Substances 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 239000011229 interlayer Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/217—Database tuning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Factory Administration (AREA)
Abstract
本申请实施例提供了一种数据仓库的质量检测方法、装置和电子设备,属于大数据应用技术领域。其中,数据仓库的质量检测方法包括:确定数据仓库的至少一个目标指标项,每个目标指标项包括至少一个次级指标项;采用层次分析法,确定至少一个次级指标项的权重值;根据至少一个次级指标项的权重值,确定每个目标指标项的权重值;根据至少一个次级指标项的指标值、权重值和每个目标指标项的权重值,确定每个目标指标项的指标值;根据至少一个目标指标项的指标值和权重值,生成数据仓库的质量检测报告。
Description
技术领域
本申请涉及大数据应用技术领域,具体而言,涉及一种数据仓库的质量检测方法、一种数据仓库的质量检测装置和一种电子设备。
背景技术
随着近年来大数据热潮的不断升温,人们越来越意识到对数据的利用可以为其生产生活带来巨大便利的同时,也带来了不小的挑战,其中包括:大数据的安全与隐私问题;大数据的集成与管理问题;大数据的IT技术架构问题;大数据的生态环境问题。
相关技术中,大数据仓库(BigData Warehouse)通常能够记录从过去某一时点到当前的各个阶段的信息数据,管理者可通过这些数据,可以对发展历程和未来趋势做出定量分析和预测,大数据仓库是越来越流行的数据解决方案,作为大数据量化方案、解决大数据问题、发掘数据价值的大数据仓库被很多公司采纳使用。但在大数据环境下,数据仓库的建设质量无法衡量,需要发明一种方法去检测数据仓库的优劣。
发明内容
本申请实施例提供了一种数据仓库的质量检测方法、装置、电子设备和可读存储介质,以解决数据仓库的建设质量无法衡量的问题。
第一方面,本申请实施例提供了一种数据仓库的质量检测方法,包括:
确定数据仓库的至少一个目标指标项,每个目标指标项包括至少一个次级指标项;
采用层次分析法,确定至少一个次级指标项的权重值;
根据至少一个次级指标项的权重值,确定每个目标指标项的权重值;
根据至少一个次级指标项的指标值、权重值和每个目标指标项的权重值,确定每个目标指标项的指标值;
根据至少一个目标指标项的指标值和权重值,生成数据仓库的质量检测报告。
第二方面,本申请实施例提供了一种数据仓库的质量检测装置,包括:
确定模块,用于确定数据仓库的至少一个目标指标项,每个目标指标项包括至少一个次级指标项;
采用层次分析法,确定至少一个次级指标项的权重值;
根据至少一个次级指标项的权重值,确定每个目标指标项的权重值;
根据至少一个次级指标项的指标值、权重值和每个目标指标项的权重值,确定每个目标指标项的指标值;
评价模块,用于根据至少一个目标指标项的指标值和权重值,生成数据仓库的质量检测报告。
第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器及存储在该存储器上并在处理器上运行的程序或指令,该程序或指令被处理器执行时实现如第一方面提供的数据仓库的质量检测方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面提供的数据仓库的质量检测方法的步骤。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面提供的数据仓库的质量检测方法的步骤。
在本申请实施例中,确定数据仓库的至少一个目标指标项,每个目标指标项包括至少一个次级指标项;采用层次分析法,确定至少一个次级指标项的权重值;根据至少一个次级指标项的权重值,确定每个目标指标项的权重值;根据至少一个次级指标项的指标值、权重值和每个目标指标项的权重值,确定每个目标指标项的指标值;根据至少一个目标指标项的指标值和权重值,生成数据仓库的质量检测报告。从而利用需要被评估的目标指标项中至少一个次级指标项的指标值和权重值,综合评估该数据仓库每个目标指标项的指标值,并通过每个目标指标项的指标值和权重值分析出数据仓库整体的性能优劣。进而在建立评价数据仓库模型优劣的衡量体系,通过梳理适用的量化指标,生成质量检测报告。一方面,实现了数据仓库的质量检测机制,能够在构建数据仓库过程中即可对数据仓库进行评估,无需在数据仓库上线使用后,对数据仓库的性能进行人为的观察测试,不仅节省人力,而且提高数据仓库的性能评价效率,有效降低数据仓库的建设成本。再一方面,能够统一数据仓库的评价标准和规范,使得对数据仓库的评价结果更加客观、精准,为数据仓库的建立和维护提供可靠的数据支持。又一方面,由于无需人为进行主观性判断,使得用用户无需完全掌握数据仓库建设的原理、数据处理等方面的技能,有利于降低数据仓库质量检测的难度,扩大产品的应用范围。
附图说明
图1示出了根据本申请的一个实施例的数据仓库的质量检测方法的流程图之一;
图2示出了根据本申请的一个实施例的数据仓库的质量检测方法的流程图之二;
图3示出了根据本申请的一个实施例的数据仓库的质量检测方法的流程图之三;
图4示出了根据本申请的一个实施例的数据仓库的质量检测方法的流程图之四;
图5示出了根据本申请的一个实施例的数据仓库的质量检测方法的流程图之五;
图6示出了根据本申请的一个实施例的数据仓库的质量检测方法的流程图之六;
图7示出了根据本申请的一个实施例的数据仓库的质量检测方法的流程图之七;
图8示出了根据本申请的一个实施例的数据仓库的质量检测方法的流程图之八;
图9示出了根据本申请的一个实施例的数据仓库的质量检测方法的流程图之九;
图10示出了根据本申请的一个实施例的数据仓库的质量检测装置的结构框图;
图11示出了根据本申请的一个实施例的电子设备的结构框图;
图12示出了根据本申请的一个实施例的电子设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面参照图1至图12描述根据本申请一些实施例数据仓库的质量检测方法、数据仓库的质量检测装置、电子设备和可读存储介质。
在本申请的一个实施例中,图1示出了本申请实施例的数据仓库的质量检测方法的流程图之一,包括:
步骤102,确定数据仓库的至少一个目标指标项;
其中,目标指标项即数据仓库的性能评价方向。至少一个目标指标项中每一个目标指标项都包括至少一个次级指标项,也即一个目标指标项可进一步细分为一个或多个次级指标项。
具体举例来说,如表1所示,以大数据的应用场景为例,按大数据数据仓库(简称数仓)的使用和建设的质量检测需求,确定数据仓库包括安全、效率、性能、成本、易用这5个目标指标项(评估方向)。如表2所示,结合大数据数仓的评估方向,从各个方向选取17个次级指标项,以通过这些次级指标项反应当前数据仓库的价值。
需要说明的是,在不同于大数据的其它应用场景下,目标指标项和目标指标项所包含的次级指标项可以与表1和表2中记录的指标项不同,本申请不作具体限定。
表1
评估方向 | 详细描述 |
成本 | 用于控制数据仓库的计算和储存的成本是合理的 |
效率 | 用于控制数据仓库模型的复用率,以提升研发效率 |
安全 | 用于控制数据仓库模型的开放使用和安全等级 |
性能 | 用于控制数据仓库模型相关任务的性能和质量 |
易用 | 用于控制数据仓库模型的易用、易找以及可读性 |
表2
步骤104,采用层次分析法,确定至少一个次级指标项的权重值;
步骤106,根据至少一个次级指标项的权重值,确定每个目标指标项的权重值;
具体地,目标指标项的权重值的计算方式可按照对数据仓库的评价分析标准合理设置,本申请实施例不作具体限定。例如,目标指标项的权重值可以为该目标指标项包含的所有次级指标项的权重值的总和,或者平均值,还可以通过对每个次级指标项的权重值和对应的预设占比进行加权运算,得到任一目标指标项的权重值,也即目标指标项的权重值其中,次级指标项的权重值分别为U1,U2,……,Un;次级指标项对应的预设占比分别为b1,b2,……,bn,预设占比可根据用户对目标指标项的评价需求合理设置。
步骤108,根据至少一个次级指标项的指标值、权重值和每个目标指标项的权重值,确定每个目标指标项的指标值;
其中,以预设参数模拟运行数据仓库一段时间,通过这段时间内数据仓库的运行数据和预设的次级指标项对应的性能转化规则,将运行数据转化为能够反映该次级指标项性能的数字信号,该数字信号即为该次级指标项的指标。
步骤110,根据至少一个目标指标项的指标值和权重值,生成数据仓库的质量检测报告。
在该实施例中,利用需要被评估的目标指标项中至少一个次级指标项的指标值和权重值,综合评估该数据仓库每个目标指标项的指标值和权重值,并通过每个目标指标项的指标值和权重值评估出数据仓库整体的性能优劣。从而在建立评价数据仓库模型优劣的衡量体系,通过梳理适用的量化指标,生成质量检测报告。一方面,实现了数据仓库的质量检测机制,能够在构建数据仓库过程中即可对数据仓库进行评估,无需在数据仓库上线使用后,对数据仓库的性能进行人为的观察测试,不仅节省人力,而且提高数据仓库的性能评价效率,有效降低数据仓库的建设成本。再一方面,能够统一数据仓库的评价标准和规范,使得对数据仓库的评价结果更加客观、精准,为数据仓库的建立和维护提供可靠的数据支持。又一方面,由于无需人为进行主观性判断,使得用户无需完全掌握数据仓库建设的原理、数据处理等方面的技能,有利于降低数据仓库质量检测的难度,扩大产品的应用范围。
具体地,该数据仓库的质量检测方法适用于电子设备,电子设备包括但不限于移动终端、平板电脑、计算机、笔记本电脑、可穿戴设备、车载终端等。
在本申请的一个实施例中,图2示出了本申请实施例的数据仓库的质量检测方法的流程图之二,包括:
步骤202,对至少一个次级指标项的指标值进行归一化处理;
在该实施例中,通过对至少一个次级指标项的指标数据进行归一化处理,将不同量纲的指标值标准化。以按比例缩放指标值,使得所有的指标值全部映射到【0,1】之间,并得到至少一个次级指标项归一化后的指标值。从而去除数据的单位限制,将不同量纲的指标值转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权,保证了数据仓库的质量检测准确性。
具体地,采用极值法进行归一处理,即其中,Y表示归一化处理后的指标值,X表示归一化处理前的指标值,min(a)表示至少一个次级指标项的指标值中的最小值,max(a)表示至少一个次级指标项的指标值中的最大值。
步骤204,对至少一个次级指标项归一化后的指标值和至少一个次级指标项的权重值进行加权计算后,再分别除以每个目标指标项的权重值,得到每个目标指标项的指标值。
在该实施例中,由于需要被评价的目标指标项包括至少一个次级指标项。在确定目标指标项指标值的过程中,加权计算至少一个次级指标项归一化后的指标值和至少一个次级指标项的权重值,再将加权后得到的值分别除以每个目标指标项的权重值,得到每个目标指标项的指标值。以便于利用不同数据源、不同数据维度的指标数据,获得更全面、准确的评估结果,有利于科学、客观的评估数据仓库的质量。
具体地,以任一目标指标项的权重值为该目标指标项的所有次级指标项的权重值的总和为例。次级指标项的指标值分别为P1,P2,P3,……,Pn;次级指标项的权重值分别为U1,U2,U3,……,Un。其中,n表示次级指标项的数量,则目标指标项的指标值
在本申请的一个实施例中,图3示出了本申请实施例的数据仓库的质量检测方法的流程图之三,包括:
步骤302,确定每个次级指标项的指标类别;
其中,指标类别包括正向指标、负向指标和适度指标。正向指标(效益型指标)是指向上或向前增长的指标,正向指标的指标值越大评价就越好,例如,中间层复用比例、中间层覆盖比例、DM层表易用性、DW层表易用性、有效中间层比例、DA层表易用性、有效ODS表比例、控制无效存储、ODS层表易用性。负向指标是指在大势向下逆向而上的一些指标,正向指标的指标值越小评价就越好,例如,数据产出性能、任务运行性能、ODS层敏感数据安全、数仓容错性能、控制计算增长、中间层敏感数据安全、控制存储增长。适度指标即需要综合考量的指标,例如,控制存储冗余。
步骤304,在次级指标项的指标类别为负向指标或适度指标的情况下,对次级指标项的指标数据进行正向化处理;
在该实施例中,在对至少一个次级指标项的指标数据进行归一化处理的过程中,由于正向指标、负向指标和适度指标对应的指标值趋势不同,若直接进行归一化处理,将导致不同指标类别的指标值相互影响,不利于数据处理的准确性。为此,对负向指标和适度指标对应的指标值进行正向化处理,以将负向指标和适度指标从数值上转换成正向指标,从而统一了不同指标类别的量纲,以便于后续数据处理与分析,保证了数据仓库检测的准确性。
具体地,对于适度指标的正向化处理包括:根据标准值的确定标准距离,对标准距离求导,以将适度指标全部调整为正向指标。对于负向指标的正向化处理包括:采用倒数法对负向指标对应的指标值进行处理,以将负向指标正向化。
步骤306,对正向指标对应的指标数据和正向化处理后的指标数据进行归一化处理。
在该实施例中,在统一不同指标类别的指标值量纲后,对多个指标值进行归一化处理,使得所有的数据全部映射到【0,1】之间。从而去除数据的单位限制,将不同的指标数据转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
可以理解的是,还可以在次级指标项的指标类别为正向指标或适度指标的情况下,对次级指标项的指标数据进行负向化处理,通过负向化来统一量纲,然后在进行多个指标值的归一化处理。当然,也可以采用其它方式统一不同指标值的量纲。
在本申请的一个实施例中,图4示出了本申请实施例的数据仓库的质量检测方法的流程图之四,包括:
步骤402,对至少一个次级指标项归一化后的指标值进行收敛处理。
在该实施例中,在对至少一个指标值进行归一化处理后,还可以对至少一个归一化后的指标值进行收敛处理。从而通过数据收敛将所有指标值进一步收敛与某个较小的区间内,进一步减小误差,提高获取的指标值的准确性,进而提升数据仓库质量检测的可靠性,以便于发现数据仓库建立或使用过程中存在的异常问题。
具体地,收敛的公式为:Z=r1+(r2-r1)×Y。其中,Z表示收敛后的指标值,r1、r2为常数。例如,例如通过上述公式将大数据场景下的多个次级指标项的指标值收敛到0.6~0.95之间。
在本申请的一个实施例中,图5示出了本申请实施例的数据仓库的质量检测方法的流程图之五,包括:
步骤502,获取数据仓库的样本数据;
其中,样本数据中包括多个样本数据库,样本数据库的多个次级指标项、次级指标项的权重值和对应的评价结果己知。
步骤504,采用层次分析法,对多个样本数据库的次级指标项的权重值进行权重处理,建立权重值的对比矩阵;
步骤506,根据对比矩阵,确定至少一个次级指标项的权重值。
在该实施例中,采用层次分析法(AHP)对多个样本数据库的次级指标项的权重值进行权重的统计分析,确定作为样本的权重值的对比矩阵,进而利用对比矩阵得到用于评价数据仓库的次级指标项的权重值。从而建立统一的权重标准,在利用权重值进行质量检测的过程中,使得数据仓库的评价结果更加客观、精准,为数据仓库的建立和维护提供可靠的数据支持。同时,用户无需完全掌握数据仓库建设的原理、数据处理等方面的知识,即可实现数据仓库的质量检测,有利于降低数据仓库质量检测的难度,扩大产品的应用范围。
在本申请的一个实施例中,图6示出了本申请实施例的数据仓库的质量检测方法的流程图之六,包括:
步骤602,对至少一个目标指标项的指标值和至少一个目标指标项的权重值进行加权计算,得到目标值;
步骤604,根据目标值和预设评价系数的乘积,确定评价结果;
其中,预设评价系数为评分基准分数,例如,若评价结果采用百分制,则预设评价系数为100,若评价结果以5分为满分,则预设评价系数为5。预设评价系数可按照用户的评价习惯合理设置,还可以是10、50等。
在该实施例中,对预设评价系数和该目标进行乘法运算,得到最终的数据仓库的健康度,也即评价结果。从而通过分析不同次级指标项的指标数据,将数据仓库的质量进行量化,使得用户能够清楚地看到数据仓库的建设成果,便于数据仓库的建立与使用。
具体地,数据仓库的质量评价结果(健康度)S=Q×v,其中,v表示预设评价系数,健康度越高,数据仓库建设的也就越好,反之亦然。
步骤606,根据评价结果,对数据仓库进行分析处理,生成质量检测报告。
在该实施例中,***预存有评价结果的分析标准,分析标准中指示了不同评价结果(健康度)可能所属的质量等级,每个质量等级对应有一个分数阈值,在评价结果大于或等于分数阈值的情况下,确定该评价结果属于分数阈值对应的质量等级。根据评价结果、质量等级、目标指标项的指标值等生成质量检测报告。质量检测报告能够提供数据可视化工具对数据仓库的质量进行量化表述,使用户能够通过质量检测报告直观的获知数据仓库是否异常,并能够辅助用户确定存在异常的指标项,减少了用户评估的不确定性和模糊性,有助于用户准确的把控数据仓库建立和使用过程中的质量。
具体举例来说,如果最终健康度得分是60分,说明刚刚及格,不算好,可通过目标指标项的指标值进一步分析可能存在异常的方向。如果健康度得分是100分,那么表示数据仓库建设的非常完善,可投入线上使用。
在本申请的一个实施例中,图7示出了本申请实施例的数据仓库的质量检测方法的流程图之七,包括:
步骤702,根据质量检测报告对数据仓库进行优化。
在该实施例中,根据至少一个目标指标项的指标值和权重值,生成数据仓库的质量检测报告之后,若确定质量检测报告中健康度的得分(评价结果)低于目标质量等级对应的阈值,说明数据仓库某项性能存在问题,则根据目标的指标值,找到影响指标的根本原因,有针对性的进行数据仓库优化。从而从数据仓库质量的评估、分析、优化,到性能问题的预防,性能问题自动化处理,实现性能问题的全面管理体系,提高了产品分析性能问题、解决性能问题的能力。
在本申请的一个实施例中,图8示出了本申请实施例的数据仓库的质量检测方法的流程图之八,包括:
步骤802,根据质量检测报告,更新至少一个次级指标项的权重值。
在该实施例中,根据至少一个目标指标项的指标值和权重值,生成数据仓库的质量检测报告之后,若确定质量检测报告中健康度的得分(评价结果)低于目标质量等级对应的阈值,说明数据仓库某项性能存在问题,则根据目标的指标值,调整可能存在异常次级指标项的权重值,从而经过大量的检测总结、科学的分析,完成的一套全面而准确的直来那个检测体系,以便于提高下一次质量检测时的准确度,使得数据仓库的质量检测更加科学,更加高效。
在本申请的一个实施例中,图9示出了本申请实施例的数据仓库的质量检测方法的流程图之九,包括:
步骤902,获取数据仓库的业务属性信息;
步骤904,根据业务属性信息,确定至少一个目标指标项,以及每个目标指标项包含的至少一个次级指标项。
在该实施例中,可根据数据仓库业务属性信息确定,该数据仓库实际的应用场景,进而匹配出与该应用场景相关的目标指标项和次级指标项。一方面,无需为特定的场景设计独立的之间检测模型,降低质量检测所需的人力物力成本。另一方面,使得数据仓库的性能评估能够适应不同的业务需求,有利于扩大产品的应用范围。
在本申请的一个实施例中,如图10所示,数据仓库的质量检测装置1000包括:确定模块1002,确定模块1002用于确定数据仓库的至少一个目标指标项,每个目标指标项包括至少一个次级指标项;采用层次分析法,确定至少一个次级指标项的权重值;根据至少一个次级指标项的权重值,确定每个目标指标项的权重值;根据至少一个次级指标项的指标值、权重值和每个目标指标项的权重值,确定每个目标指标项的指标值;评价模块1004,评价模块1004用于对至少一个目标指标项的指标值和权重值,生成数据仓库的质量检测报告。
在该实施例中,利用需要被评估的目标指标项中至少一个次级指标项的指标值和权重值,综合评估该数据仓库每个目标指标项的指标值和权重值,并通过每个目标指标项的指标值和权重值评估出数据仓库整体的性能优劣。从而在建立评价数据仓库模型优劣的衡量体系,通过梳理适用的量化指标,生成质量检测报告。一方面,实现了数据仓库的质量检测机制,能够在构建数据仓库过程中即可对数据仓库进行评估,无需在数据仓库上线使用后,对数据仓库的性能进行人为的观察测试,不仅节省人力,而且提高数据仓库的性能评价效率,有效降低数据仓库的建设成本。再一方面,能够统一数据仓库的评价标准和规范,使得对数据仓库的评价结果更加客观、精准,为数据仓库的建立和维护提供可靠的数据支持。又一方面,由于无需人为进行主观性判断,使得用户无需完全掌握数据仓库建设的原理、数据处理等方面的技能,有利于降低数据仓库质量检测的难度,扩大产品的应用范围。
可选的,数据仓库的质量检测装置1000还包括:处理模块(图中未示出),处理模块用于对至少一个次级指标项的指标数据进行归一化处理;确定模块1002还用于对至少一个次级指标项归一化后的指标值和至少一个次级指标项的权重值进行加权计算后,再分别除以每个目标指标项的权重值,得到每个目标指标项的指标值。
可选的,确定模块1002还用于确定每个次级指标项的指标类别,指标类别包括正向指标、负向指标和适度指标;处理模块还用于在次级指标项的指标类别为负向指标或适度指标的情况下,对次级指标项的指标数据进行正向化处理;对正向指标对应的指标数据和正向化处理后的指标数据进行归一化处理。
可选的,处理模块还用于对至少一个次级指标项归一化后的指标值进行收敛处理。
可选的,确定模块1002还用于对至少一个目标指标项的指标值和至少一个目标指标项的权重值进行加权计算,得到目标值;根据目标值和预设评价系数的乘积,确定评价结果;评价模块1004还用于根据评价结果,对数据仓库进行分析处理,生成质量检测报告。
可选的,数据仓库的质量检测装置1000还包括:优化模块(图中未示出),优化模块用于根据质量检测报告对数据仓库进行优化。
可选的,数据仓库的质量检测装置1000还包括:更新模块(图中未示出),更新模块用于根据质量检测报告,更新至少一个次级指标项的权重值。
可选的,数据仓库的质量检测装置1000还包括:第一获取模块(图中未示出),第一获取模块用于获取数据仓库的业务属性信息;确定模块1002,还用于根据业务属性信息,确定至少一个目标指标项,以及每个目标指标项包含的至少一个次级指标项。
可选的,数据仓库的质量检测装置1000还包括:第二获取模块(图中未示出),第二获取模块用于获取数据仓库的样本数据;处理模块还用于采用层次分析法,对多个样本数据库的次级指标项的权重值进行权重处理,建立权重值的对比矩阵;确定模块1002还用于根据对比矩阵,确定至少一个次级指标项的权重值。
在该实施例中,数据仓库的质量检测装置1000的各模块执行各自功能时实现第一方面的任一实施例中的数据仓库的质量检测方法的步骤,因此,数据仓库的质量检测装置1000同时也包括第一方面任一实施例中的数据仓库的质量检测方法的全部有益效果,在此不再赘述。
本申请实施例中的数据仓库的质量检测装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、智能摄像设备、穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)或者自助机等,本申请实施例不作具体限定。
本申请实施例中的数据仓库的质量检测装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***,可以为iOS操作***,还可以为其他能的操作***,本申请实施例不作具体限定。
在本申请的一个实施例中,如图11所示,提供了一种电子设备1100,包括:处理器1104,存储器1102及存储在存储器1102上并在处理器1104上运行的程序或指令,程序或指令被处理器1104执行时实现如上述任一实施例中提供的数据仓库的质量检测方法的步骤,因此,该电子设备1100包括如上述任一实施例中提供的数据仓库的质量检测方法的全部有益效果,在此不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图12为实现本申请实施例的一种电子设备1200的硬件结构示意图。该电子设备1200包括但不限于:射频单元1201、网络模块1202、音频输出单元1203、输入单元1204、传感器1205、显示单元1206、用户输入单元1207、接口单元1208、存储器1209、以及处理器1210等部件。
本领域技术人员可以理解,电子设备1200还可以包括给各个部件供电的电源(比如电池),电源可以通过电源质量检测***与处理器1210逻辑相连,从而通过电源质量检测***实现质量检测充电、放电、以及功耗质量检测等功能。图12中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器1210用于确定数据仓库的至少一个目标指标项,每个目标指标项包括至少一个次级指标项;采用层次分析法,确定至少一个次级指标项的权重值;根据至少一个次级指标项的权重值,确定每个目标指标项的权重值;根据至少一个次级指标项的指标值、权重值和每个目标指标项的权重值,确定每个目标指标项的指标值;用于根据至少一个目标指标项的指标值和权重值,生成数据仓库的质量检测报告。
在该实施例中,利用需要被评估的目标指标项中至少一个次级指标项的指标值和权重值,综合评估该数据仓库每个目标指标项的指标值和权重值,并通过每个目标指标项的指标值和权重值评估出数据仓库整体的性能优劣。从而在建立评价数据仓库模型优劣的衡量体系,通过梳理适用的量化指标,生成质量检测报告。一方面,实现了数据仓库的质量检测机制,能够在构建数据仓库过程中即可对数据仓库进行评估,无需在数据仓库上线使用后,对数据仓库的性能进行人为的观察测试,不仅节省人力,而且提高数据仓库的性能评价效率,有效降低数据仓库的建设成本。再一方面,能够统一数据仓库的评价标准和规范,使得对数据仓库的评价结果更加客观、精准,为数据仓库的建立和维护提供可靠的数据支持。又一方面,由于无需人为进行主观性判断,使得用户无需完全掌握数据仓库建设的原理、数据处理等方面的技能,有利于降低数据仓库质量检测的难度,扩大产品的应用范围。
进一步地,处理器1210还用于对至少一个次级指标项的指标数据进行归一化处理;对至少一个次级指标项归一化后的指标值和至少一个次级指标项的权重值进行加权计算后,再分别除以每个目标指标项的权重值,得到每个目标指标项的指标值。
进一步地,处理器1210还用于确定每个次级指标项的指标类别,指标类别包括正向指标、负向指标和适度指标;在次级指标项的指标类别为负向指标或适度指标的情况下,对次级指标项的指标数据进行正向化处理;对正向指标对应的指标数据和正向化处理后的指标数据进行归一化处理。
进一步地,处理器1210还用于对至少一个次级指标项归一化后的指标值进行收敛处理。
进一步地,处理器1210还用于对至少一个目标指标项的指标值和至少一个目标指标项的权重值进行加权计算,得到目标值;根据目标值和预设评价系数的乘积,确定评价结果;根据评价结果,对数据仓库进行分析处理,生成质量检测报告。
进一步地,处理器1210还用于根据质量检测报告对数据仓库进行优化。
进一步地,处理器1210还用于根据质量检测报告,更新至少一个次级指标项的权重值。
进一步地,处理器1210还用于获取数据仓库的业务属性信息;根据业务属性信息,确定至少一个目标指标项,以及每个目标指标项包含的至少一个次级指标项。
进一步地,处理器1210还用于获取数据仓库的样本数据;采用层次分析法,对多个样本数据库的次级指标项的权重值进行权重处理,建立权重值的对比矩阵;根据对比矩阵,确定至少一个次级指标项的权重值。
应理解的是,本申请实施例中,输入单元1204可以包括图形处理器(GraphicsProcessing Unit,GPU)1241和麦克风1242,图形处理器1241对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1206可包括显示面板1261,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1261。用户输入单元1207包括触控面板1271以及其他输入设备1272。触控面板1271,也称为触摸屏。触控面板1271可包括触摸检测装置和触摸控制器两个部分。其他输入设备1272可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1209可用于存储软件程序以及各种数据,包括但不限于应用程序和操作***。处理器1210可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1210中。
在本申请的一个实施例中,提供了一种读存储介质,其上存储有程序或指令,该程序或指令被处理器执行时实现如上述任一实施例中提供的数据仓库的质量检测方法的步骤。
在该实施例中,读存储介质能够实现本申请的实施例提供的数据仓库的质量检测方法的各个过程,并能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的通信设备中的处理器。读存储介质,包括计算机读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等。
本申请实施例还提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述数据仓库的质量检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还以称为***级芯片、***芯片、芯片***或片上***芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (11)
1.一种数据仓库的质量检测方法,其特征在于,包括:
确定所述数据仓库的至少一个目标指标项,每个目标指标项包括至少一个次级指标项;
采用层次分析法,确定所述至少一个次级指标项的权重值;
根据所述至少一个次级指标项的权重值,确定所述每个目标指标项的权重值;
根据所述至少一个次级指标项的指标值、权重值和所述每个目标指标项的权重值,确定所述每个目标指标项的指标值;
根据所述至少一个目标指标项的指标值和权重值,生成所述数据仓库的质量检测报告。
2.根据权利要求1所述的数据仓库的质量检测方法,其特征在于,还包括:
对所述至少一个次级指标项的指标值进行归一化处理;
所述根据所述至少一个次级指标项的指标值、权重值和所述每个目标指标项的权重值,确定所述每个目标指标项的指标值,包括:
对所述至少一个次级指标项归一化后的指标值和所述至少一个次级指标项的权重值进行加权计算后,再分别除以所述每个目标指标项的权重值,得到所述每个目标指标项的指标值。
3.根据权利要求2所述的数据仓库的质量检测方法,其特征在于,所述对所述至少一个次级指标项的指标值进行归一化处理,包括:
确定所述每个次级指标项的指标类别,所述指标类别包括正向指标、负向指标和适度指标;
在次级指标项的指标类别为所述负向指标或所述适度指标的情况下,对所述次级指标项的指标值进行正向化处理;
对所述正向指标对应的指标值和正向化处理后的指标值进行归一化处理。
4.根据权利要求1至3中任一项所述的数据仓库的质量检测方法,其特征在于,所述根据所述至少一个目标指标项的指标值和权重值,生成所述数据仓库的质量检测报告,包括:
对所述至少一个目标指标项的指标值和所述至少一个目标指标项的权重值进行加权计算,得到目标值;
根据所述目标值和预设评价系数的乘积,确定评价结果;
根据所述评价结果,对所述数据仓库进行分析处理,生成所述质量检测报告。
5.根据权利要求1至3中任一项所述的数据仓库的质量检测方法,其特征在于,所述确定所述数据仓库的至少一个目标指标项,包括:
获取所述数据仓库的业务属性信息;
根据所述业务属性信息,确定所述至少一个目标指标项,以及所述每个目标指标项包含的所述至少一个次级指标项。
6.一种数据仓库的质量检测装置,其特征在于,包括:
确定模块,用于确定所述数据仓库的至少一个目标指标项,每个目标指标项包括至少一个次级指标项;
采用层次分析法,确定所述至少一个次级指标项的权重值;
根据所述至少一个次级指标项的权重值,确定所述每个目标指标项的权重值;
根据所述至少一个次级指标项的指标值、权重值和所述每个目标指标项的权重值,确定所述每个目标指标项的指标值;
评价模块,用于根据所述至少一个目标指标项的指标值和权重值,生成所述数据仓库的质量检测报告。
7.根据权利要求6所述的数据仓库的质量检测装置,其特征在于,还包括:
处理模块,用于对所述至少一个次级指标项的指标值进行归一化处理;
所述确定模块,还用于对所述至少一个次级指标项归一化后的指标值和所述至少一个次级指标项的权重值进行加权计算后,再分别除以所述每个目标指标项的权重值,得到所述每个目标指标项的指标值。
8.根据权利要求7所述的数据仓库的质量检测装置,其特征在于,
所述确定模块,还用于确定所述每个次级指标项的指标类别,所述指标类别包括正向指标、负向指标和适度指标;
所述处理模块,还用于在次级指标项的指标类别为所述负向指标或所述适度指标的情况下,对所述次级指标项的指标值进行正向化处理;
对所述正向指标对应的指标值和正向化处理后的指标值进行归一化处理。
9.根据权利要求6至8中任一项所述的数据仓库的质量检测装置,其特征在于,还包括:
所述确定模块,还用于对所述至少一个目标指标项的指标值和所述至少一个目标指标项的权重值进行加权计算,得到目标值;
根据所述目标值和预设评价系数的乘积,确定评价结果;
所述评价模块,还用于根据所述评价结果,对所述数据仓库进行分析处理,生成所述质量检测报告。
10.根据权利要求6至8中任一项所述的数据仓库的质量检测装置,其特征在于,还包括:
获取模块,用于获取所述数据仓库的业务属性信息;
所述确定模块,用于根据所述业务属性信息,确定所述至少一个目标指标项,以及所述每个目标指标项包含的所述至少一个次级指标项。
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的数据仓库的质量检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111008325.0A CN113688120A (zh) | 2021-08-30 | 2021-08-30 | 数据仓库的质量检测方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111008325.0A CN113688120A (zh) | 2021-08-30 | 2021-08-30 | 数据仓库的质量检测方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113688120A true CN113688120A (zh) | 2021-11-23 |
Family
ID=78584180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111008325.0A Pending CN113688120A (zh) | 2021-08-30 | 2021-08-30 | 数据仓库的质量检测方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688120A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115657533A (zh) * | 2022-10-19 | 2023-01-31 | 扬力集团股份有限公司 | 一种压力机边缘控制设备及控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1633468A1 (de) * | 2003-06-13 | 2006-03-15 | Henkel Kommanditgesellschaft auf Aktien | Lagerstabile kapseln auf basis von peroxycarbons uren |
KR20090093151A (ko) * | 2008-02-28 | 2009-09-02 | 고려대학교 산학협력단 | 정준 상관 분석에 기반한 계층 분석 방법, 그 장치 및 이를기록한 기록매체 |
CN104142983A (zh) * | 2014-07-18 | 2014-11-12 | 国家电网公司 | 一种基于层次分析法建立的数据处理方法 |
CN106204154A (zh) * | 2016-07-20 | 2016-12-07 | 武汉斗鱼网络科技有限公司 | 基于层次分析法和熵值法的用户价值评分***及其方法 |
CN109146611A (zh) * | 2018-07-16 | 2019-01-04 | 浙江大学 | 一种电商产品质量信用指数分析方法及*** |
CN112668477A (zh) * | 2020-12-29 | 2021-04-16 | 中通服公众信息产业股份有限公司 | 一种高危地区特征检测识别方法及智能识别*** |
-
2021
- 2021-08-30 CN CN202111008325.0A patent/CN113688120A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1633468A1 (de) * | 2003-06-13 | 2006-03-15 | Henkel Kommanditgesellschaft auf Aktien | Lagerstabile kapseln auf basis von peroxycarbons uren |
KR20090093151A (ko) * | 2008-02-28 | 2009-09-02 | 고려대학교 산학협력단 | 정준 상관 분석에 기반한 계층 분석 방법, 그 장치 및 이를기록한 기록매체 |
CN104142983A (zh) * | 2014-07-18 | 2014-11-12 | 国家电网公司 | 一种基于层次分析法建立的数据处理方法 |
CN106204154A (zh) * | 2016-07-20 | 2016-12-07 | 武汉斗鱼网络科技有限公司 | 基于层次分析法和熵值法的用户价值评分***及其方法 |
CN109146611A (zh) * | 2018-07-16 | 2019-01-04 | 浙江大学 | 一种电商产品质量信用指数分析方法及*** |
CN112668477A (zh) * | 2020-12-29 | 2021-04-16 | 中通服公众信息产业股份有限公司 | 一种高危地区特征检测识别方法及智能识别*** |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115657533A (zh) * | 2022-10-19 | 2023-01-31 | 扬力集团股份有限公司 | 一种压力机边缘控制设备及控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ngo et al. | Factor-based big data and predictive analytics capability assessment tool for the construction industry | |
Zhou et al. | Comparing MCDA aggregation methods in constructing composite indicators using the Shannon-Spearman measure | |
CN109993627B (zh) | 推荐方法、推荐模型的训练方法、装置和存储介质 | |
CN109408574B (zh) | 基于文本挖掘技术的投诉责任认定*** | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
CN113516417A (zh) | 基于智能建模的业务评估方法、装置、电子设备及介质 | |
WO2021103401A1 (zh) | 数据对象分类方法、装置、计算机设备和存储介质 | |
US10229212B2 (en) | Identifying Abandonment Using Gesture Movement | |
CN113592017B (zh) | 一种深度学习模型标准化训练方法、管理***、处理终端 | |
CN117035563B (zh) | 产品质量安全风险监测方法、设备、监测***及介质 | |
CN113688120A (zh) | 数据仓库的质量检测方法、装置和电子设备 | |
CN110209589B (zh) | 知识库***测试方法、装置、设备和介质 | |
CA3179311A1 (en) | Identifying claim complexity by integrating supervised and unsupervised learning | |
CN106575418A (zh) | 建议的关键词 | |
KR101462858B1 (ko) | 기업의 해외 진출 역량 평가 방법 | |
CN112200602B (zh) | 用于广告推荐的神经网络模型训练方法及装置 | |
JP2022180289A (ja) | 品質情報出力装置、品質情報出力方法、およびプログラム | |
CN113780675A (zh) | 一种消耗预测方法、装置、存储介质及电子设备 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
CN113934894A (zh) | 基于指标树的数据显示方法、终端设备 | |
Park et al. | A new forecasting system using the latent dirichlet allocation (LDA) topic modeling technique | |
CN112329943A (zh) | 组合指标的甄选方法、装置、计算机设备及介质 | |
CN111221704A (zh) | 一种确定办公管理应用***运行状态的方法及*** | |
Thiyagalingam et al. | Complexity plots | |
EP3308329A1 (en) | A method and system for providing business intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |