CN111724084A - 数据资产的价值显示方法、装置、设备及存储介质 - Google Patents

数据资产的价值显示方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111724084A
CN111724084A CN202010729454.8A CN202010729454A CN111724084A CN 111724084 A CN111724084 A CN 111724084A CN 202010729454 A CN202010729454 A CN 202010729454A CN 111724084 A CN111724084 A CN 111724084A
Authority
CN
China
Prior art keywords
data
value
level
quality
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010729454.8A
Other languages
English (en)
Inventor
勇萌哲
尹星富
滕一帆
王世清
史双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010729454.8A priority Critical patent/CN111724084A/zh
Publication of CN111724084A publication Critical patent/CN111724084A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Complex Calculations (AREA)

Abstract

本申请公开了一种数据资产的价值显示方法、装置、设备及存储介质,属于计算机技术领域。所述方法包括:获取数据资产对应的数据集。调用数据资产分析模型,确定数据集的数据质量价值等级以及数据应用价值等级。根据数据质量价值等级以及数据应用价值等级,确定数据集的数据资产价值等级。在用户界面中显示数据资产价值等级。该数据集的数据资产价值等级能够反映出数据资产在数据的质量方面的价值以及数据的应用方面的价值。在确定数据资产的价值的过程中,无需人工进行信息收集以及分析。提升了确定数据资产的价值的效率。

Description

数据资产的价值显示方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种数据资产的价值显示方法、装置、设备及存储介质。
背景技术
随着各行业的信息化程度不断提升,数据资产的重要性越来越高。数据资产包括利用业务应用***采集、使用、产生或管理的,能够作为决策依据的数据。
目前,通常使用市场法确定数据资产的价值。在使用市场法确定数据资产的价值时,首先需要收集市场上相同或类似的数据资产的近期交易价格。之后将需要进行价值确定的数据资产,与收集到的数据资产进行对比,根据对比的结果估算出数据资产的价值。
在使用市场法确定数据资产的价值时,需要依赖人工收集同类或类似的数据资产的近期交易价格并进行分析。确定数据资产的价值的效率较低。
发明内容
本申请提供了一种数据资产的价值显示方法、装置、设备及存储介质,可以提升确定数据资产的价值的效率。所述技术方案如下:
根据本申请的一方面,提供了一种数据资产的价值显示方法,所述方法包括:
获取所述数据资产对应的数据集,所述数据资产是以数据形式存在的资产;
调用数据资产分析模型,确定所述数据集的数据质量价值等级以及数据应用价值等级,所述数据资产分析模型是通过至少两个种类的数据量化指标来确定所述数据质量价值等级以及所述数据应用价值等级的计算模型;
根据所述数据质量价值等级以及所述数据应用价值等级,确定所述数据集的数据资产价值等级;
在用户界面中显示所述数据资产价值等级。
根据本申请的另一方面,提供了一种数据资产的价值确定装置,所述装置包括:
获取模块,用于获取所述数据资产对应的数据集,所述数据资产是以数据形式存在的资产;
第一确定模块,用于调用数据资产分析模型,确定所述数据集的数据质量价值等级以及数据应用价值等级,所述数据资产分析模型是通过至少两个种类的数据量化指标来确定所述数据质量价值等级以及所述数据应用价值等级的计算模型;
第二确定模块,用于根据所述数据质量价值等级以及所述数据应用价值等级,确定所述数据集的数据资产价值等级;
显示模块,用于在用户界面中显示所述数据资产价值等级。
可选地,所述至少两个种类的数据量化指标包括:数据质量种类对应的质量量化指标,以及数据应用种类对应的应用量化指标;
所述第一确定模块,用于:
提取所述数据集中的数据;
根据所述质量量化指标确定所述数据的所述数据质量价值等级;以及,根据所述应用量化指标确定所述数据的所述数据应用价值等级。
可选地,所述质量量化指标包括数据完整性、数据正确性、数据一致性以及数据重复性,所述质量量化指标对应有各自的质量量化标准;
所述第一确定模块,用于:
根据所述质量量化标准,确定所述数据的完整性等级、正确性等级、一致性等级以及重复性等级,所述完整性等级是所述数据在所述数据完整性下的等级,所述正确性等级是所述数据在所述数据正确性下的等级,所述一致性等级是所述数据在所述数据一致性下的等级,所述重复性等级是所述数据在所述数据重复性下的等级;
根据所述完整性等级、所述正确性等级、所述一致性等级以及所述重复性等级,确定所述数据质量价值等级。
可选地,所述第一确定模块,包括:
第一确定子模块,用于根据所述数据完整性对应的第一质量量化标准,确定所述完整性等级,所述第一质量量化标准用于指示所述完整性等级等于所述数据中的完整数据的数量与所述数据的总数量的比值乘以一百;
以及,第二确定子模块,用于根据所述数据正确性对应的第二质量量化标准,确定所述正确性等级,所述第二质量量化标准用于指示所述正确性等级等于所述数据中的正确数据的数量与所述数据的总数量的比值乘以一百;
以及,第三确定子模块,用于根据所述数据一致性对应的第三质量量化标准,确定所述一致性等级,所述第三质量量化标准用于指示所述一致性等级等于所述数据中的一致数据的数量与所述数据的总数量的比值乘以一百;
以及,第四确定子模块,用于根据所述数据重复性对应的第四质量量化标准,确定所述重复性等级,所述第四质量量化标准用于指示所述重复性等级等于一减去所述数据中的重复数据的数量与所述数据的总数量的比值再乘以一百。
可选地,所述应用量化指标包括数据时效性、数据应用广度以及数据应用热度,所述应用量化指标对应有各自的应用量化标准;
所述第一确定模块,用于:
根据所述应用量化标准,确定所述数据的时效性等级、应用广度等级以及应用热度等级,所述时效性等级是所述数据在所述数据时效性下的等级,所述应用广度等级是所述数据在所述数据应用广度下的等级,所述应用热度等级是所述数据在所述数据应用热度下的等级;
根据所述时效性等级、所述应用广度等级以及所述应用热度等级,确定所述数据应用价值等级。
可选地,所述第一确定模块,包括:
第五确定子模块,用于根据所述数据时效性对应的第一应用量化标准,确定所述时效性等级,所述第一应用量化标准用于指示所述时效性等级与所述数据的更新频率相关;
以及,第六确定子模块,用于根据所述数据应用广度对应的第二应用量化标准,确定所述应用广度等级,所述第二应用量化标准用于指示所述应用广度等级与使用所述数据的***的数量正相关;
以及,第七确定子模块,用于根据所述数据应用热度对应的第三应用量化标准,确定所述应用热度等级,所述第三应用量化标准用于指示所述应用热度等级与所述数据被使用的次数正相关。
可选地,所述第一确定模块,用于:
通过第一机器学习模型确定所述数据完整性对应的第一权重、所述数据正确性对应的第二权重、所述数据一致性对应的第三权重以及所述数据重复性对应的第四权重,所述第一机器学习模型是基于贝叶斯算法采用第一样本集训练得到的,所述第一样本集包括第一样本数据以及所述第一样本数据对应的,每两个所述质量量化指标之间的第一相对重要性,所述第一样本数据与所述数据包括相同的数据项;
根据所述完整性等级、所述正确性等级、所述一致性等级、所述重复性等级、所述第一权重、所述第二权重、所述第三权重以及所述第四权重,确定所述数据质量价值等级。
可选地,所述第一确定模块,用于:
通过第二机器学习模型确定所述数据时效性对应的第五权重、所述数据应用广度对应的第六权重以及所述数据应用热度对应的第七权重,所述第二机器学习模型是基于贝叶斯算法采用第二样本集训练得到的,所述第二样本集包括第二样本数据以及所述第二样本数据对应的,每两个所述应用量化指标之间的第二相对重要性,所述第二样本数据与所述数据包括相同的数据项;
根据所述时效性等级、所述应用广度等级、所述应用热度等级、所述第五权重、所述第六权重以及所述第七权重,确定所述数据应用价值等级。
可选地,所述获取模块,用于:
通过主成分分析算法对所述数据资产对应的数据集降维,得到降维数据集;
获取所述降维数据集。
可选地,所述第二确定模块,用于:
将所述数据质量价值等级以及所述数据应用价值等级的平均值,确定为所述数据集的所述数据资产价值等级;
或,将所述数据质量价值等级以及所述数据应用价值等级的加权平均值,确定为所述数据集的所述数据资产价值等级。
根据本申请的又一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述方面所述的数据资产的价值显示方法。
根据本申请的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,当所述至少一条指令、所述至少一段程序、所述代码集或指令集由计算机设备的处理器加载并执行时,实现上述方面所述的数据资产的价值显示方法。
根据本申请的还一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的数据资产的价值显示方法。
本申请提供的技术方案带来的有益效果至少包括:
通过数据资产分析模型确定数据集的数据资产价值等级。由于数据集的数据资产价值等级是根据数据质量价值等级以及数据应用价值等级确定的,因此该数据集的数据资产价值等级能够反映出数据资产在数据的质量方面的价值以及数据的应用方面的价值。在确定数据资产的价值的过程中,无需人工进行信息收集以及分析。提升了确定数据资产的价值的效率。本申请提供的确定数据资产的价值的方式可使数据资产的所有者清晰了解所负责的数据资产的价值,以及导致数据资产价值较低的问题。进而能够对症下药,持续提升数据资产的价值。有利于数据的资产化,以及有利于数据资产的保值与增值。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据资产分析模型的示意图;
图2是本申请实施例提供的一种数据资产的价值显示方法的流程示意图;
图3是本申请实施例提供的另一种数据资产的价值显示方法的流程示意图;
图4是本申请实施例提供的一种获取数据集的方法的流程示意图;
图5是本申请实施例提供的一种确定数据质量价值等级的方法的流程示意图;
图6是本申请实施例提供的一种确定完整性等级、正确性等级、一致性等级以及重复性等级的方法的流程示意图;
图7是本申请实施例提供的一种根据完整性等级、正确性等级、一致性等级以及重复性等级确定数据质量价值等级的方法的流程示意图;
图8是本申请实施例提供的一种确定数据应用价值等级的方法的流程示意图;
图9是本申请实施例提供的一种确定时效性等级、应用广度等级以及应用热度等级的方法的流程示意图;
图10是本申请实施例提供的一种根据时效性等级、应用广度等级以及应用热度等级,确定数据应用价值等级的方法的流程示意图;
图11是本申请实施例提供的数据资产的价值的统计分析图的示意图;
图12是本申请实施例提供的一种数据资产的价值显示装置的结构示意图;
图13是本申请实施例提供的一种第一确定模块的结构示意图;
图14是本申请实施例提供的另一种第一确定模块的结构示意图;
图15是本申请实施例提供的一种服务器的结构示意图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的数据资产分析模型的示意图。如图1所示,在客户端中输入数据资产对应的数据集。客户端根据数据资产分析模型100,确定该数据集的数据质量价值等级以及数据应用价值等级。该数据资产分析模型通过属于数据质量种类的数据量化指标确定数据质量价值等级,通过属于数据应用种类的数据量化指标确定数据应用价值等级。其中,属于数据质量种类的数据量化指标包括数据完整性1001、数据正确性1002、数据一致性1003以及数据重复性1004。属于数据应用种类的数据量化指标包括数据时效性1005、数据应用广度1006以及数据应用热度1007。每个数据量化指标还对应有权重和量化标准。之后客户端根据数据集的数据质量价值等级以及数据应用价值等级,确定出数据集的数据资产价值等级。可选地,客户端将数据质量价值等级以及数据应用价值等级的平均值确定为数据集的数据资产价值等级。该数据集的数据资产价值等级能够反映出数据资产的价值。
示例地,表1示出了数据资产分析模型包括的信息。
表1
Figure BDA0002602634830000071
如表1所示,属于数据质量种类的数据量化指标包括数据完整性、数据正确性、数据一致性以及数据重复性中的至少一种。属于数据应用种类的数据量化指标包括数据时效性、数据应用广度以及数据应用热度中的至少一种。可选地,客户端通过层次分析法,确定出每个数据量化指标对应的权重。客户端按照数据量化指标的量化标准判断数据集中的数据在该数据量化指标下的等级。将数据集在属于数据质量种类的数据量化指标下的等级的加权平均值,确定为数据集的数据质量价值等级。将数据集在属于数据应用种类的数据量化指标下的等级的加权平均值,确定为数据集的数据应用价值等级。示例地,数据集的数据时效性等级为96,数据应用广度等级为92,数据应用热度等级为91,则数据集的数据应用价值等级为96*0.14+92*0.43+91*0.43=92.13。
在确定数据资产的价值的过程中,无需人工进行信息收集以及分析,计算机设备能够根据数据资产对应的数据集确定出数据集的数据资产价值等级。并且数据集的数据资产价值等级能够反映出数据资产在数据的质量方面的价值以及数据的应用方面的价值。提升了确定数据资产的价值的效率。
图2是本申请实施例提供的一种数据资产的价值显示方法的流程示意图。该方法可以用于计算机设备或计算机设备上的客户端。如图2所示,该方法包括:
步骤201、获取数据资产对应的数据集。
该数据资产是以数据形式存在的资产,包括任一行业中的数据资产。例如该数据资产为政务数据资产。可选地,该数据资产为数据库中的数据、***的操作记录以及统计数据等。数据资产对应的数据集包括数据资产中的全部数据或者部分数据。
步骤202、调用数据资产分析模型,确定数据集的数据质量价值等级以及数据应用价值等级。
该数据资产分析模型是通过至少两个种类的数据量化指标来确定数据质量价值等级以及数据应用价值等级的计算模型。可选地,客户端根据该数据量化指标,确定出数据集在数据量化指标下的等级,从而确定出数据质量价值等级以及数据应用价值等级。可选地,数据量化指标对应有权重以及量化标准。该权重用于反映数据集在数据量化指标下的等级,在客户端确定数据质量价值等级或数据应用价值等级时的重要程度。该量化标准用于客户端判断数据集在数据量化指标下的等级。
该数据质量价值等级用于反映数据集中的数据的质量。例如数据集中的错误数据以及重复数据越少,数据质量价值等级越高。该数据应用价值等级用于反映数据集中的数据的应用情况。例如数据集中的数据被***使用的次数越多,数据集中的数据的更新频率越高,数据应用价值等级越高。
可选地,客户端通过层次分析法,建立该数据资产分析模型。
步骤203、根据数据质量价值等级以及数据应用价值等级,确定数据集的数据资产价值等级。
可选地,客户端将数据质量价值等级以及数据应用价值等级的平均值确定为数据集的数据资产价值等级。或者,客户端根据数据质量价值等级的权重以及数据应用价值等级的权重,确定数据质量价值等级以及数据应用价值等级的加权平均值,从而得到数据集的数据资产价值等级。
步骤204、在用户界面中显示数据资产价值等级。
可选地,该用户界面为数据资产对应的统计分析界面。客户端能够根据确定出的数据质量价值等级、数据应用价值等级以及数据资产价值等级,在用户界面中显示数据资产的价值的统计图。
综上所述,本申请实施例提供的数据资产的价值显示方法,通过数据资产分析模型确定数据集的数据资产价值等级。由于数据集的数据资产价值等级是根据数据质量价值等级以及数据应用价值等级确定的,因此该数据集的数据资产价值等级能够反映出数据资产在数据的质量方面的价值以及数据的应用方面的价值。在确定数据资产的价值的过程中,无需人工进行信息收集以及分析。提升了确定数据资产的价值的效率。本申请实施例提供的确定数据资产的价值的方式可使数据资产的所有者清晰了解所负责的数据资产的价值,以及导致数据资产价值较低的问题。进而能够对症下药,持续提升数据资产的价值。有利于数据的资产化,以及有利于数据资产的保值与增值。
图3是本申请实施例提供的另一种数据资产的价值显示方法的流程示意图。该方法可以用于计算机设备或计算机设备上的客户端。如图3所示,该方法包括:
步骤301、获取数据资产对应的数据集。
可选地,如图4所示,步骤301的实现过程包括以下步骤301a以及步骤301b:
在步骤301a中,通过主成分分析算法对数据资产对应的数据集降维,得到降维数据集。
可选地,当数据资产对应的数据集的数据量达到目标数据量时,客户端通过主成分分析(principal components analysis,PCA)算法对数据资产对应的数据集降维。可选地,目标数据量指1TB。示例地,数据资产对应的数据集中包括居民的身份证号的数据以及年龄的数据。由于可以通过身份证号确定年龄,客户端通过PCA算法对该数据集降维,得到的降维数据集中,只包括居民的身份证号数据。
在步骤301b中,获取降维数据集。
客户端将获取到的该降维数据集作为数据资产对应的数据集。该降维数据集能够提升客户端确定数据资产的价值时的效率。
步骤302、提取数据集中的数据。
可选地,客户端提取数据集中的全部数据,并根据该全部数据确定数据资产的价值。或者,客户端提取数据集中的部分数据,并根据该部分数据确定数据资产的价值。示例地,当客户端确定人口数据资产的价值时,只提取数据集中的人口数据。
步骤303、调用数据资产分析模型,根据质量量化指标确定数据的数据质量价值等级。
该数据资产分析模型是通过至少两个种类的数据量化指标,来确定数据质量价值等级以及数据应用价值等级的计算模型。可选地,该至少两个种类的数据量化指标包括:数据质量种类对应的质量量化指标,以及数据应用种类对应的应用量化指标。
可选地,质量量化指标包括数据完整性、数据正确性、数据一致性以及数据重复性,每个质量量化指标对应有质量量化标准。如图5所示,步骤303的实现过程包括以下步骤3031以及步骤3032:
在步骤3031中,根据质量量化标准,确定数据的完整性等级、正确性等级、一致性等级以及重复性等级。
完整性等级是数据在数据完整性下的等级,正确性等级是数据在数据正确性下的等级,一致性等级是数据在数据一致性下的等级,重复性等级是数据在数据重复性下的等级。
可选地,如图6所示,步骤3031的实现过程包括以下步骤3031a至3031d:
在步骤3031a中,根据数据完整性对应的第一质量量化标准,确定完整性等级。
可选地,该第一质量量化标准用于指示完整性等级等于数据中的完整数据的数量与数据的总数量的比值乘以一百。完整数据指该数据对应的规则要求中的全部元素都具备数值。
示例地,在人口数据中,必须包括姓名、籍贯以及身份证号等,当某一数据缺失身份证号数值时,则该数据不具备完整性。在每月支出数据中,当某一月没有对应的支出的数值时,则该数据不具备完整性。在受教育程度数据中,必须包括姓名、身份证号以及学历等,当某一数据缺失学历时,则该数据不具备完整性。
在步骤3031b中,根据数据正确性对应的第二质量量化标准,确定正确性等级。
可选地,第二质量量化标准用于指示正确性等级等于数据中的正确数据的数量与数据的总数量的比值乘以一百。正确数据指数据的数值为正确数值。
示例地,手机号为11位数,当某一数据中的手机号数值为10位数时,则该数据不具备正确性。当省份数据中出现市区时,则该数据不具备正确性。当每月平均房价数据中,某月份的房价数据为其它月份的房价数据的3倍以上时,则该数据不具备正确性。
在步骤3031c中,根据数据一致性对应的第三质量量化标准,确定一致性等级。
可选地,第三质量量化标准用于指示一致性等级等于数据中的一致数据的数量与数据的总数量的比值乘以一百。一致数据指数据与其它表示相同信息的数据的数值不存在矛盾的情况。
示例地,某一数据中的籍贯为北京市,另一数据中的籍贯为beijing,其它数据中的籍贯也为北京市,则籍贯为beijing的数据不具备一致性。工资数据中某一数据的数值保留小数点后一位,其它数据的数值保留小数点后两位,则数值保留小数点后一位的数据不具备一致性。
在步骤3031d中,根据数据重复性对应的第四质量量化标准,确定重复性等级。
可选地,第四质量量化标准用于指示重复性等级等于一减去数据中的重复数据的数量与数据的总数量的比值再乘以一百。重复数据指不存在数据相同的可能性时,仍旧存在至少两条完全相同的数据。
示例地,人口数据中,有三条数据中的身份证号相同,则其中两条数据为重复数据。员工联系电话数据中,有五条数据中的手机号相同,则其中四条数据为重复数据。数据的总数量为100,重复数据的数量为30,则数据的重复性等级为(1-30/100)*100=70。
可选地,客户端同时执行上述步骤3031a至3031d,或者按照顺序依次执行上述步骤3031a至3031d,本申请实施例在此不做限定。
在步骤3032中,根据完整性等级、正确性等级、一致性等级以及重复性等级,确定数据质量价值等级。
可选地,客户端将完整性等级、正确性等级、一致性等级以及重复性等级的平均值,确定为数据质量价值等级。或者,如图7所示,步骤3032的实现过程包括以下步骤3032a以及步骤3032b:
在步骤3032a中,通过第一机器学习模型确定数据完整性对应的第一权重、数据正确性对应的第二权重、数据一致性对应的第三权重以及数据重复性对应的第四权重。
第一机器学习模型是基于贝叶斯算法采用第一样本集训练得到的。第一机器学习模型用于根据输入的数据,确定出全部质量量化指标中每两个质量量化指标之间的相对重要性。第一样本集包括第一样本数据以及第一样本数据对应的,全部质量量化指标中每两个质量量化指标之间的第一相对重要性,第一样本数据与从数据集中提取的数据包括相同的数据项。可选地,该第一相对重要性是工作人员手动标定的。第一相对重要性用于反映某一个质量量化指标相比于另一个质量量化指标的重要程度。示例地,表2示出了相对重要性的取值以及含义。
表2
取值 含义
1 表示两个对象相比,具有同样的重要性
3 表示一个对象相比于另一个对象稍微重要
5 表示一个对象相比于另一个对象明显重要
7 表示一个对象相比于另一个对象非常重要
9 表示一个对象相比于另一个对象极其重要
2、4、6、8 表示重要性位于取值对应的上下两个取值的重要性之间
如表2所示,当数据完整性相比于数据一致性的重要性为3时,表示数据完整性相比与数据一致性稍微中重要。
可选地,客户端将提取到的数据输入第一机器学习模型,根据第一机器学习模型确定出的全部质量量化指标中每两个质量量化指标之间的相对重要性,得到质量量化指标的相对重要程度矩阵。示例地,表3示出了质量量化指标的相对重要程度矩阵。
表3
数据完整性 数据正确性 数据一致性 数据重复性
数据完整性 1 1 3 5
数据正确性 1 1 3 5
数据一致性 1/3 1/3 1 3
数据重复性 1/5 1/5 1/3 1
如表3所示,数据完整性相比于数据重复性明显重要,数据一致性相比于数据重复性稍微重要。客户端根据质量量化指标的相对重要程度矩阵,通过层次分析法对质量量化指标的相对重要程度矩阵进行一致性检验,从而能够得到质量量化指标的相对重要程度矩阵的最大特征值所对应的特征向量。之后将该特征向量标准化,从而确定出数据完整性对应的第一权重、数据正确性对应的第二权重、数据一致性对应的第三权重以及数据重复性对应的第四权重。可选地,客户端根据质量量化指标的相对重要程度矩阵,通过调用层次分析法对应的***,确定各质量量化指标对应的权重。示例地,客户端确定出的数据完整性对应的第一权重为0.33,数据正确性对应的第二权重为0.33,数据一致性对应的第三权重为0.21,数据重复性对应的第四权重为0.13。
在步骤3032b中,根据完整性等级、正确性等级、一致性等级、重复性等级、第一权重、第二权重、第三权重以及第四权重,确定数据质量价值等级。
可选地,客户端对完整性等级与第一权重的乘积、正确性等级与第二权重的乘积、一致性等级与第三权重的乘积以及重复性等级与第四权重的乘积求和,并将求和的结果确定为数据质量价值等级。
示例地,完整性等级为q1,正确性等级为q2,一致性等级为q3,重复性等级为q4。第一权重为w1,第二权重为w2,第三权重为w3,第四权重为w4。则数据质量价值等级q=q1*w1+q2*w2+q3*w3+q4*w4。完整性等级为90,正确性等级为89,一致性等级为94,重复性等级为98,则数据质量价值等级为90*0.33+89*0.33+94*0.21+98*0.13=91.55。
步骤304、调用数据资产分析模型,根据应用量化指标确定数据的数据应用价值等级。
可选地,应用量化指标包括数据时效性、数据应用广度以及数据应用热度,每个应用量化指标对应有应用量化标准。如图8所示,步骤304的实现过程包括以下步骤3041以及步骤3042:
在步骤3041中,根据应用量化标准,确定数据的时效性等级、应用广度等级以及应用热度等级。
时效性等级是数据在数据时效性下的等级,应用广度等级是数据在数据应用广度下的等级,应用热度等级是数据在数据应用热度下的等级。
可选地,如图9所示,步骤3041的实现过程包括以下步骤3041a至3041c:
在步骤3041a中,根据数据时效性对应的第一应用量化标准,确定时效性等级。
可选地,该第一应用量化标准用于指示时效性等级与数据的更新频率相关。
示例地,对于需要频繁更新的数据,时效性等级与数据的更新频率正相关。例如新生人口数据,更新频率越高则时效性等级越高。对于不需要频繁更新的数据,时效性等级与数据的要求更新频率相关。例如年度收入数据,要求更新频率为一年一次。若更新频率小于一年一次,时效性等级为60。若更新频率为一年一次,时效性等级为100。
在步骤3041b中,根据数据应用广度对应的第二应用量化标准,确定应用广度等级。
可选地,该第二应用量化标准用于指示应用广度等级与使用数据的***的数量正相关。使用数据的***指访问、下载或传输该数据的***。
示例地,当使用数据的***的数量为5个及5个以下时,应用广度等级为60。当使用数据的***的数量为6个至10个时,应用广度等级为80。当使用数据的***的数量为11个至20个时,应用广度等级为90。当使用数据的***的数量为21个及21个以上时,应用广度等级为100。人均产值数据被7个***使用,则应用广度等级为80。新生人口数据被2个***使用,则应用广度等级为60。
在步骤3041c中,根据数据应用热度对应的第三应用量化标准,确定应用热度等级。
可选地,该第三应用量化标准用于指示应用热度等级与数据被使用的次数正相关。数据被访问、下载或传输一次,则该数据被使用一次。
示例地,当数据被使用的次数为100次及100次以下时,应用热度等级为60。当数据被使用的次数为101次至1000次时,应用热度等级为70。当数据被使用的次数为1001次至5000次时,应用热度等级为85。当数据被使用的次数为5001次及5001次以上时,应用热度等级为100。人均产值数据被使用70次,则应用热度等级为60。新生人口数据被使用2000次。则应用热度等级为85。
可选地,客户端同时执行上述步骤3041a至3041c,或者按照顺序依次执行上述步骤3041a至3041c,本申请实施例在此不做限定。
在步骤3042中,根据时效性等级、应用广度等级以及应用热度等级,确定数据应用价值等级。
可选地,客户端将时效性等级、应用广度等级以及应用热度等级的平均值,确定为数据应用价值等级。或者,如图10所示,步骤3042的实现过程包括以下步骤3042a以及3042b:
在步骤3042a中,通过第二机器学习模型确定数据时效性对应的第五权重、数据应用广度对应的第六权重以及数据应用热度对应的第七权重。
第二机器学习模型是基于贝叶斯算法采用第二样本集训练得到的。第二机器学习模型用于根据输入的数据,确定出全部应用量化指标中每两个应用量化指标之间的相对重要性。第二样本集包括第二样本数据以及第二样本数据对应的,全部应用量化指标中每两个应用量化指标之间的第二相对重要性,第二样本数据与从数据集中提取的数据包括相同的数据项。可选地,该第二相对重要性是工作人员手动标定的。第二相对重要性用于反映某一个应用量化指标相比于另一个应用量化指标的重要程度。可选地,第一样本数据与第二样本数据相同或者不相同。
可选地,客户端将提取到的数据输入第二机器学习模型,根据第二机器学习模型确定出的全部应用量化指标中每两个应用量化指标之间的相对重要性,得到应用量化指标的相对重要程度矩阵。可选地,第一机器学习模型与第二机器学习模型相同或者不相同。示例地,表4示出了应用量化指标的相对重要程度矩阵。
表4
Figure BDA0002602634830000151
Figure BDA0002602634830000161
如表4所示,数据应用广度相比于数据时效性稍微重要,数据应用热度相比于数据应用广度同样重要。客户端根据应用量化指标的相对重要程度矩阵,通过层次分析法对应用量化指标的相对重要程度矩阵进行一致性检验,从而能够得到应用量化指标的相对重要程度矩阵的最大特征值所对应的特征向量。之后将该特征向量标准化,从而确定出数据时效性对应的第五权重、数据应用广度对应的第六权重以及数据应用热度对应的第七权重。可选地,客户端根据应用量化指标的相对重要程度矩阵,通过调用层次分析法对应的***,确定各应用量化指标对应的权重。示例地,客户端确定出的数据时效性对应的第五权重为0.14,数据应用广度对应的第六权重为0.43,数据应用热度对应的第七权重为0.43。
在步骤3042b中,根据时效性等级、应用广度等级、应用热度等级、第五权重、第六权重以及第七权重,确定数据应用价值等级。
可选地,客户端对时效性等级与第五权重的乘积、应用广度等级与第六权重的乘积以及应用热度等级与第七权重的乘积求和,并将求和的结果确定为数据应用价值等级。
示例地,时效性等级为a1,应用广度等级为a2,应用热度等级为a3。第五权重为w5,第六权重为w6,第七权重为w7。则数据应用价值等级a=a1*w5+a2*w6+a3*w7。
步骤305、根据数据质量价值等级以及数据应用价值等级,确定数据集的数据资产价值等级。
可选地,客户端将数据质量价值等级以及数据应用价值等级的平均值,确定为数据集的数据资产价值等级。或者,将数据质量价值等级以及数据应用价值等级的加权平均值,确定为数据集的数据资产价值等级。数据质量价值等级的权重高于数据应用价值等级的权重,则数据资产价值等级主要反映数据质量价值。数据应用价值等级的权重高于数据质量价值等级的权重,则数据资产价值等级主要反映数据应用价值。
可选地,数据质量价值等级为q,数据应用价值等级为a。则数据集的数据资产价值等级s=(q+a)/2。或者,数据集的数据资产价值等级s=(q*wq+a*wa)/2。其中,wq为数据质量价值等级对应的权重,wa为数据应用价值等级对应的权重。
步骤306、在用户界面中显示数据资产价值等级。
可选地,该用户界面为数据资产对应的统计分析界面。可选地,客户端能够根据确定出的数据质量价值等级、数据应用价值等级以及数据资产价值等级,在用户界面中显示数据资产的价值的统计图。
示例地,图11是本申请实施例提供的数据资产的价值的统计图的示意图。如图11所示,统计图1101中包括数据资产价值等级信息1103,应用热度等级变化趋势分析图1104,应用广度等级变化趋势分析图1105,应用热度分布分析图1106,应用热度变化趋势分析图1107,应用广度分布分析图1108,应用广度变化趋势分析图1109,应用广度场景分布分析图1110以及应用热度详情1111。统计图1101中还包括统计图的更新时间信息1102。可选地,客户端还根据数据资产对应的数据集中的各类数据的数据资产价值等级的总和,确定数据资产的数据资产价值等级。数据集中的数据的类型包括数据表、指标数据、模型数据、标签数据以及文件。其中,应用热度分布指应用热度分别为热、暖、冷和冰的数据的占比。客户端根据数据的应用热度等级,确定该数据对应热、暖、冷或冰。应用广度分布指应用广度分别为广、中、小和微的数据的占比。客户端根据数据的应用广度等级,确定该数据对应广、中、小或微。数据应用场景指使用数据的***的类型,例如新闻***、车辆管理***和身份管理***等。
综上所述,本申请实施例提供的数据资产的价值显示方法,通过数据资产分析模型确定数据集的数据资产价值等级。由于数据集的数据资产价值等级是根据数据质量价值等级以及数据应用价值等级确定的,因此该数据集的数据资产价值等级能够反映出数据资产在数据的质量方面的价值以及数据的应用方面的价值。在确定数据资产的价值的过程中,无需人工进行信息收集以及分析。提升了确定数据资产的价值的效率。本申请实施例提供的确定数据资产的价值的方式可使数据资产的所有者清晰了解所负责的数据资产的价值,以及导致数据资产价值较低的问题。进而能够对症下药,持续提升数据资产的价值。有利于数据的资产化,以及有利于数据资产的保值与增值。
另外,通过PCA算法对数据集降维,并根据降维数据集确定数据资产的价值,能够进一步提升确定数据资产的价值的效率。根据质量量化指标确定数据质量价值等级以及根据应用量化指标确定数据应用价值等级,能够从多个维度全面地评估数据资产,提升确定数据资产的价值的准确性。根据机器学习模型以及层次分析法确定质量量化指标对应的权重以及应用量化指标对应的权重,提升了确定权重的效率以及准确性,提升了确定出的数据质量价值等级以及数据应用价值等级的准确性。
需要说明的是,本申请实施例提供的数据资产的价值显示方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
图12是本申请实施例提供的一种数据资产的价值显示装置的结构示意图。该装置可以用于计算机设备或计算机设备上的客户端。如图12所示,该装置120包括:
获取模块1201,用于获取数据资产对应的数据集,数据资产是以数据形式存在的资产。
第一确定模块1202,用于调用数据资产分析模型,确定数据集的数据质量价值等级以及数据应用价值等级,数据资产分析模型是通过至少两个种类的数据量化指标来确定数据质量价值等级以及数据应用价值等级的计算模型。
第二确定模块1203,用于根据数据质量价值等级以及数据应用价值等级,确定数据集的数据资产价值等级。
显示模块1204,用于在用户界面中显示数据资产价值等级。
综上所述,本申请实施例提供的数据资产的价值显示装置,通过数据资产分析模型确定数据集的数据资产价值等级。由于数据集的数据资产价值等级是通过第二确定模块根据数据质量价值等级以及数据应用价值等级确定的,因此该数据集的数据资产价值等级能够反映出数据资产在数据的质量方面的价值以及数据的应用方面的价值。在确定数据资产的价值的过程中,无需人工进行信息收集以及分析。提升了确定数据资产的价值的效率。本申请实施例提供的确定数据资产的价值的方式可使数据资产的所有者清晰了解所负责的数据资产的价值,以及导致数据资产价值较低的问题。进而能够对症下药,持续提升数据资产的价值。有利于数据的资产化,以及有利于数据资产的保值与增值。
可选地,至少两个种类的数据量化指标包括:数据质量种类对应的质量量化指标,以及数据应用种类对应的应用量化指标。第一确定模块1202,用于:
提取数据集中的数据。根据质量量化指标确定数据的数据质量价值等级;以及,根据应用量化指标确定数据的数据应用价值等级。
可选地,质量量化指标包括数据完整性、数据正确性、数据一致性以及数据重复性,质量量化指标对应有各自的质量量化标准。第一确定模块1202,用于:
根据质量量化标准,确定数据的完整性等级、正确性等级、一致性等级以及重复性等级,完整性等级是数据在数据完整性下的等级,正确性等级是数据在数据正确性下的等级,一致性等级是数据在数据一致性下的等级,重复性等级是数据在数据重复性下的等级。
根据完整性等级、正确性等级、一致性等级以及重复性等级,确定数据质量价值等级。
可选地,如图13所示,第一确定模块1202,包括:
第一确定子模块12021,用于根据数据完整性对应的第一质量量化标准,确定完整性等级,第一质量量化标准用于指示完整性等级等于数据中的完整数据的数量与数据的总数量的比值乘以一百。
以及,第二确定子模块12022,用于根据数据正确性对应的第二质量量化标准,确定正确性等级,第二质量量化标准用于指示正确性等级等于数据中的正确数据的数量与数据的总数量的比值乘以一百。
以及,第三确定子模块12023,用于根据数据一致性对应的第三质量量化标准,确定一致性等级,第三质量量化标准用于指示一致性等级等于数据中的一致数据的数量与数据的总数量的比值乘以一百。
以及,第四确定子模块12024,用于根据数据重复性对应的第四质量量化标准,确定重复性等级,第四质量量化标准用于指示重复性等级等于一减去数据中的重复数据的数量与数据的总数量的比值再乘以一百。
可选地,应用量化指标包括数据时效性、数据应用广度以及数据应用热度,应用量化指标对应有各自的应用量化标准。第一确定模块1202,用于:
根据应用量化标准,确定数据的时效性等级、应用广度等级以及应用热度等级,时效性等级是数据在数据时效性下的等级,应用广度等级是数据在数据应用广度下的等级,应用热度等级是数据在数据应用热度下的等级。
根据时效性等级、应用广度等级以及应用热度等级,确定数据应用价值等级。
可选地,如图14所示,第一确定模块1202,包括:
第五确定子模块12025,用于根据数据时效性对应的第一应用量化标准,确定时效性等级,第一应用量化标准用于指示时效性等级与数据的更新频率相关。
以及,第六确定子模块12026,用于根据数据应用广度对应的第二应用量化标准,确定应用广度等级,第二应用量化标准用于指示应用广度等级与使用数据的***的数量正相关。
以及,第七确定子模块12027,用于根据数据应用热度对应的第三应用量化标准,确定应用热度等级,第三应用量化标准用于指示应用热度等级与数据被使用的次数正相关。
可选地,第一确定模块1202,用于:
通过第一机器学习模型确定数据完整性对应的第一权重、数据正确性对应的第二权重、数据一致性对应的第三权重以及数据重复性对应的第四权重,第一机器学习模型是基于贝叶斯算法采用第一样本集训练得到的,第一样本集包括第一样本数据以及第一样本数据对应的,每两个质量量化指标之间的第一相对重要性,第一样本数据与数据包括相同的数据项。
根据完整性等级、正确性等级、一致性等级、重复性等级、第一权重、第二权重、第三权重以及第四权重,确定数据质量价值等级。
可选地,第一确定模块1202,用于:
通过第二机器学习模型确定数据时效性对应的第五权重、数据应用广度对应的第六权重以及数据应用热度对应的第七权重,第二机器学习模型是基于贝叶斯算法采用第二样本集训练得到的,第二样本集包括第二样本数据以及第二样本数据对应的,每两个应用量化指标之间的第二相对重要性,第二样本数据与数据包括相同的数据项。
根据时效性等级、应用广度等级、应用热度等级、第五权重、第六权重以及第七权重,确定数据应用价值等级。
可选地,获取模块1201,用于:
通过主成分分析算法对数据资产对应的数据集降维,得到降维数据集。获取降维数据集。
可选地,第二确定模块1203,用于:
将数据质量价值等级以及数据应用价值等级的平均值,确定为数据集的数据资产价值等级。
或,将数据质量价值等级以及数据应用价值等级的加权平均值,确定为数据集的数据资产价值等级。
综上所述,本申请实施例提供的数据资产的价值显示装置,通过数据资产分析模型确定数据集的数据资产价值等级。由于数据集的数据资产价值等级是通过第二确定模块根据数据质量价值等级以及数据应用价值等级确定的,因此该数据集的数据资产价值等级能够反映出数据资产在数据的质量方面的价值以及数据的应用方面的价值。在确定数据资产的价值的过程中,无需人工进行信息收集以及分析。提升了确定数据资产的价值的效率。本申请实施例提供的确定数据资产的价值的方式可使数据资产的所有者清晰了解所负责的数据资产的价值,以及导致数据资产价值较低的问题。进而能够对症下药,持续提升数据资产的价值。有利于数据的资产化,以及有利于数据资产的保值与增值。
另外,通过PCA算法对数据集降维,并根据降维数据集确定数据资产的价值,能够进一步提升确定数据资产的价值的效率。根据质量量化指标确定数据质量价值等级以及根据应用量化指标确定数据应用价值等级,能够从多个维度全面地评估数据资产,提升确定数据资产的价值的准确性。根据机器学习模型以及层次分析法确定质量量化指标对应的权重以及应用量化指标对应的权重,提升了确定权重的效率以及准确性,提升了确定出的数据质量价值等级以及数据应用价值等级的准确性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的实施例还提供了一种计算机设备,该计算机设备包括:处理器和存储器,该装置存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的数据资产的价值显示方法。
可选地,该计算机设备为服务器。示例地,图15是本申请实施例提供的一种服务器的结构示意图。
所述服务器1500包括中央处理单元(central processing unit,CPU)1501、包括随机存取存储器(random access memory,RAM)1502和只读存储器(read-only memory,ROM)1503的***存储器1504,以及连接***存储器1504和中央处理单元1501的***总线1505。所述服务器1500还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出***(input/output***,I/O***)1506,和用于存储操作***1513、应用程序1514和其他程序模块1515的大容量存储设备1507。
所述基本输入/输出***1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中所述显示器1508和输入设备1509都通过连接到***总线1505的输入输出控制器1510连接到中央处理单元1501。所述基本输入/输出***1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1507通过连接到***总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。所述大容量存储设备1507及其相关联的计算机可读存储介质为服务器1500提供非易失性存储。也就是说,所述大容量存储设备1507可以包括诸如硬盘或者只读光盘(compact disc read-only memory,CD-ROM)驱动器之类的计算机可读存储介质(未示出)。
不失一般性,所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读存储指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(erasable programmable read onlymemory,EPROM)、电子抹除式可复写只读存储器(electrically-erasable programmableread-only memory,EEPROM)、闪存或其他固态存储设备,CD-ROM、数字多功能光盘(digitalversatile disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1504和大容量存储设备1507可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1501执行,一个或多个程序包含用于实现上述方法实施例的指令,中央处理单元1501执行该一个或多个程序实现上述各个方法实施例提供的方法。
根据本申请的各种实施例,所述服务器1500还可以通过诸如因特网等网络连接到网络上的远程服务器运行。也即服务器1500可以通过连接在所述***总线1505上的网络接口单元1511连接到网络1512,或者说,也可以使用网络接口单元1511来连接到其他类型的网络或远程服务器***(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由服务器所执行的步骤。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例提供的数据资产的价值显示方法。
本申请实施例中还提供了一种计算机存储介质,该存储介质中可以存储有至少一条指令、至少一段程序、代码集或指令集,当该至少一条指令、至少一段程序、代码集或指令集由计算机设备的处理器加载并执行时,实现上述各方法实施例提供的数据资产的价值显示方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同切换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据资产的价值显示方法,其特征在于,所述方法包括:
获取所述数据资产对应的数据集,所述数据资产是以数据形式存在的资产;
调用数据资产分析模型,确定所述数据集的数据质量价值等级以及数据应用价值等级,所述数据资产分析模型是通过至少两个种类的数据量化指标来确定所述数据质量价值等级以及所述数据应用价值等级的计算模型;
根据所述数据质量价值等级以及所述数据应用价值等级,确定所述数据集的数据资产价值等级;
在用户界面中显示所述数据资产价值等级。
2.根据权利要求1所述的方法,其特征在于,所述至少两个种类的数据量化指标包括:数据质量种类对应的质量量化指标,以及数据应用种类对应的应用量化指标;
所述确定所述数据集的数据质量价值等级以及数据应用价值等级,包括:
提取所述数据集中的数据;
根据所述质量量化指标确定所述数据的所述数据质量价值等级;以及,根据所述应用量化指标确定所述数据的所述数据应用价值等级。
3.根据权利要求2所述的方法,其特征在于,所述质量量化指标包括数据完整性、数据正确性、数据一致性以及数据重复性,所述质量量化指标对应有各自的质量量化标准;
所述根据所述质量量化指标确定所述数据的所述数据质量价值等级,包括:
根据所述质量量化标准,确定所述数据的完整性等级、正确性等级、一致性等级以及重复性等级,所述完整性等级是所述数据在所述数据完整性下的等级,所述正确性等级是所述数据在所述数据正确性下的等级,所述一致性等级是所述数据在所述数据一致性下的等级,所述重复性等级是所述数据在所述数据重复性下的等级;
根据所述完整性等级、所述正确性等级、所述一致性等级以及所述重复性等级,确定所述数据质量价值等级。
4.根据权利要求3所述的方法,其特征在于,所述根据所述质量量化标准,确定所述数据的完整性等级、正确性等级、一致性等级以及重复性等级,包括:
根据所述数据完整性对应的第一质量量化标准,确定所述完整性等级,所述第一质量量化标准用于指示所述完整性等级等于所述数据中的完整数据的数量与所述数据的总数量的比值乘以一百;
以及,根据所述数据正确性对应的第二质量量化标准,确定所述正确性等级,所述第二质量量化标准用于指示所述正确性等级等于所述数据中的正确数据的数量与所述数据的总数量的比值乘以一百;
以及,根据所述数据一致性对应的第三质量量化标准,确定所述一致性等级,所述第三质量量化标准用于指示所述一致性等级等于所述数据中的一致数据的数量与所述数据的总数量的比值乘以一百;
以及,根据所述数据重复性对应的第四质量量化标准,确定所述重复性等级,所述第四质量量化标准用于指示所述重复性等级等于一减去所述数据中的重复数据的数量与所述数据的总数量的比值再乘以一百。
5.根据权利要求3所述的方法,其特征在与,所述根据所述完整性等级、所述正确性等级、所述一致性等级以及所述重复性等级,确定所述数据质量价值等级,包括:
通过第一机器学习模型确定所述数据完整性对应的第一权重、所述数据正确性对应的第二权重、所述数据一致性对应的第三权重以及所述数据重复性对应的第四权重,所述第一机器学习模型是基于贝叶斯算法采用第一样本集训练得到的,所述第一样本集包括第一样本数据以及所述第一样本数据对应的,每两个所述质量量化指标之间的第一相对重要性,所述第一样本数据与所述数据包括相同的数据项;
根据所述完整性等级、所述正确性等级、所述一致性等级、所述重复性等级、所述第一权重、所述第二权重、所述第三权重以及所述第四权重,确定所述数据质量价值等级。
6.根据权利要求1或2所述的方法,其特征在于,所述获取所述数据资产对应的数据集,包括:
通过主成分分析算法对所述数据资产对应的数据集降维,得到降维数据集;
获取所述降维数据集。
7.根据权利要求1至5任一所述的方法,其特征在于,所述根据所述数据质量价值等级以及所述数据应用价值等级,确定所述数据集的数据资产价值等级,包括:
将所述数据质量价值等级以及所述数据应用价值等级的平均值,确定为所述数据集的所述数据资产价值等级;
或,
将所述数据质量价值等级以及所述数据应用价值等级的加权平均值,确定为所述数据集的所述数据资产价值等级。
8.一种数据资产的价值显示装置,其特征在于,所述装置包括:
获取模块,用于获取所述数据资产对应的数据集,所述数据资产是以数据形式存在的资产;
第一确定模块,用于调用数据资产分析模型,确定所述数据集的数据质量价值等级以及数据应用价值等级,所述数据资产量化模型是通过至少两个种类的数据量化指标来确定所述数据质量价值等级以及所述数据应用价值等级的计算模型;
第二确定模块,用于根据所述数据质量价值等级以及所述数据应用价值等级,确定所述数据集的数据资产价值等级;
显示模块,用于在用户界面中显示所述数据资产价值等级。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现权利要求1至7任一所述的数据资产的价值显示方法。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,当所述至少一条指令、所述至少一段程序、所述代码集或指令集由计算机设备的处理器加载并执行时,实现权利要求1至7任一所述的数据资产的价值显示方法。
CN202010729454.8A 2020-07-27 2020-07-27 数据资产的价值显示方法、装置、设备及存储介质 Pending CN111724084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010729454.8A CN111724084A (zh) 2020-07-27 2020-07-27 数据资产的价值显示方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010729454.8A CN111724084A (zh) 2020-07-27 2020-07-27 数据资产的价值显示方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111724084A true CN111724084A (zh) 2020-09-29

Family

ID=72573621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010729454.8A Pending CN111724084A (zh) 2020-07-27 2020-07-27 数据资产的价值显示方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111724084A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360548A (zh) * 2021-06-29 2021-09-07 平安普惠企业管理有限公司 基于数据资产分析的数据处理方法、装置、设备及介质
CN113704811A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 数据价值管理方法
CN113792962A (zh) * 2021-08-05 2021-12-14 杭州未名信科科技有限公司 一种资产化数据处理方法、装置、存储介质及终端
CN116187814A (zh) * 2022-12-26 2023-05-30 广州城市规划技术开发服务部有限公司 一种数据价值的计算方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360548A (zh) * 2021-06-29 2021-09-07 平安普惠企业管理有限公司 基于数据资产分析的数据处理方法、装置、设备及介质
CN113704811A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 数据价值管理方法
CN113792962A (zh) * 2021-08-05 2021-12-14 杭州未名信科科技有限公司 一种资产化数据处理方法、装置、存储介质及终端
CN116187814A (zh) * 2022-12-26 2023-05-30 广州城市规划技术开发服务部有限公司 一种数据价值的计算方法及装置

Similar Documents

Publication Publication Date Title
CN111724084A (zh) 数据资产的价值显示方法、装置、设备及存储介质
CN112308173B (zh) 基于多评价因子融合的多目标对象评价方法及其相关设备
CN111310032A (zh) 资源推荐方法、装置、计算机设备及可读存储介质
CN115630221A (zh) 终端应用界面展示数据处理方法、装置及计算机设备
CN111582932A (zh) 场景间信息推送方法、装置、计算机设备及存储介质
CN109450963B (zh) 消息推送方法及终端设备
CN113450142B (zh) 一种电力客户用电行为聚类分析方法及装置
CN110544165B (zh) 一种信用风险评分卡创建方法、装置及电子设备
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
CN112950359A (zh) 一种用户识别方法和装置
CN117271522A (zh) 一种物流数据的处理方法及***
CN115879826B (zh) 一种基于大数据的精细化工工艺质检方法、***及介质
CN113837843B (zh) 产品推荐方法、装置、介质及电子设备
CN115471260A (zh) 基于神经网络的销售预测方法、装置、设备及介质
CN112330411B (zh) 团体产品推荐方法、装置、计算机设备及存储介质
CN114996579A (zh) 信息推送方法、装置、电子设备和计算机可读介质
CN114897607A (zh) 产品资源的数据处理方法及装置、电子设备、存储介质
CN113704236A (zh) 政务***数据质量评估方法、装置、终端及存储介质
EP4138021A1 (en) Method of scoring and valuing data for exchange
CN115470304B (zh) 一种特征因果仓库管理方法及***
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质
CN114742156A (zh) 选择算法特征的方法、装置、电子设备和存储介质
CN113076317A (zh) 基于大数据的数据处理方法、装置、设备及可读存储介质
CN116484230A (zh) 识别异常业务数据的方法及ai数字人的训练方法
CN115080628A (zh) 查询处理方法、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination