CN115409419A - 业务数据的价值评估方法、装置、电子设备及存储介质 - Google Patents

业务数据的价值评估方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115409419A
CN115409419A CN202211174844.9A CN202211174844A CN115409419A CN 115409419 A CN115409419 A CN 115409419A CN 202211174844 A CN202211174844 A CN 202211174844A CN 115409419 A CN115409419 A CN 115409419A
Authority
CN
China
Prior art keywords
data
service
service data
evaluated
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211174844.9A
Other languages
English (en)
Other versions
CN115409419B (zh
Inventor
杨一帆
张燕
伊人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Xinghuan Zhongzhi Information Technology Co ltd
Transwarp Technology Shanghai Co Ltd
Original Assignee
Henan Xinghuan Zhongzhi Information Technology Co ltd
Transwarp Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Xinghuan Zhongzhi Information Technology Co ltd, Transwarp Technology Shanghai Co Ltd filed Critical Henan Xinghuan Zhongzhi Information Technology Co ltd
Priority to CN202211174844.9A priority Critical patent/CN115409419B/zh
Publication of CN115409419A publication Critical patent/CN115409419A/zh
Application granted granted Critical
Publication of CN115409419B publication Critical patent/CN115409419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种业务数据的价值评估方法、装置、电子设备及存储介质,该方法包括:获取待评估业务数据;确定待评估业务数据在目标评估指标上的总评分;确定待评估业务数据对目标业务的数据贡献度;根据总评分和数据贡献度确定待评估业务数据的数据价值,解决了现阶段缺乏明确的数据价值评估标准的问题,达到了为业务数据所有方和业务数据需求方提供统一、科学和透明的业务数据的价值评估方法供双方参考、降低双方的沟通成本、促进数据的有效利用和流通的有益效果。

Description

业务数据的价值评估方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种业务数据的价值评估方法、装置、电子设备及存储介质。
背景技术
在大数据时代,数据成为重要的资源和生产资料。数据价值是数据能够流通和利用的基础属性,决定了数据的重要性。构建科学合理的数据价值度量机制,对数据流通的健康有序发展有着重要作用。
而现阶段缺乏明确的数据价值评估标准,主要通过主观判断数据价值存在巨大的盲目性和偏见性,使得业务数据所有方和业务数据需求方之间的沟通难度大,无法协商一致,不利用数据的有效利用和流通。
发明内容
本发明提供了一种业务数据的价值评估方法、装置、电子设备及存储介质,以解决现阶段缺乏明确的数据价值评估标准的问题,为业务数据所有方和业务数据需求方提供统一、科学和透明的业务数据的价值评估方法供双方参考,降低双方的沟通成本,有利于数据的有效利用和流通。
根据本发明的一方面,提供了一种业务数据的价值评估方法,包括:
获取待评估业务数据;
确定所述待评估业务数据在目标评估指标上的总评分;
确定所述待评估业务数据对目标业务的数据贡献度;
根据所述总评分和所述数据贡献度确定所述待评估业务数据的数据价值。
根据本发明的另一方面,提供了一种业务数据的价值评估装置,包括:
获取模块,用于获取待评估业务数据;
评分确定模块,用于确定所述待评估业务数据在目标评估指标上的总评分;
贡献度确定模块,用于确定所述待评估业务数据对目标业务的数据贡献度;
价值评估模块,用于根据所述总评分和所述数据贡献度确定所述待评估业务数据的数据价值。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的业务数据的价值评估方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的业务数据的价值评估方法。
本发明提供了一种业务数据的价值评估方法、装置、电子设备及存储介质,该方法包括:获取待评估业务数据;确定待评估业务数据在目标评估指标上的总评分;确定待评估业务数据对目标业务的数据贡献度;根据总评分和数据贡献度确定待评估业务数据的数据价值。通过待评估业务数据在目标评估指标上的总评分和对目标业务的数据贡献度,评估待评估业务数据的数据价值,解决了现阶段缺乏明确的数据价值评估标准的问题,达到了为业务数据所有方和业务数据需求方提供统一、科学和透明的业务数据的价值评估方法供双方参考、降低双方的沟通成本、促进数据的有效利用和流通的有益效果。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种业务数据的价值评估方法的流程图;
图2是本发明实施例二提供的一种业务数据的价值评估方法的流程图;
图3是本发明实施例三提供的一种业务数据的价值评估方法的流程图;
图4是本发明实施例四提供的一种业务数据的价值评估装置的结构示意图;
图5是实现本发明实施例的业务数据的价值评估方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例提供的一种业务数据的价值评估方法的流程图,本实施例可适用于为业务数据所有方和业务数据需求方提供业务数据价值的评估方法的情况,该方法可以由业务数据的价值评估装置来执行,该业务数据的价值评估装置可以采用硬件和/或软件的形式实现,该业务数据的价值评估装置可配置于业务数据的价值评估装置中。如图1所示,该方法包括:
S110、获取待评估业务数据。
其中,待评估业务数据是指等待评估数据价值的业务数据。本发明实施例中的待评估业务数据可以是电商交易业务数据、客户服务业务数据、产品运输和运营业务数据以及工艺流程业务数据等业务场景下的业务数据,本发明实施例不对业务数据的应用场景和数据类型作限定。
S120、确定待评估业务数据在目标评估指标上的总评分。
其中,目标评估值指标是用于评估业务数据的数据价值的指标。
可选的,目标评估指标包括以下至少一项:数据质量价值评估指标、数据应用价值评估指标和数据业务价值评估指标。数据质量价值评估指标用于评估数据质量的价值;数据应用价值评估指标用于评估数据应用价值;数据业务价值评估指标用于评估数据对业务的价值。
具体的,根据预先设定的目标评估指标和目标评估指标的计算方式,计算待评估业务数据在每个目标评估指标上的评分,根据待评估业务数据在每个目标评估指标上的评分确定待评估业务数据在目标评估指标上的总评分,从而实现将待评估业务数据的价值量化到数据质量、数据应用价值、数据信息量等维度。
S130、确定待评估业务数据对目标业务的数据贡献度。
其中,目标业务可以理解为业务数据需求方中等待利用待评估业务数据的业务。通过对待评估业务数据进行分析、处理等利用方式可以实现提升目标业务的业务效益和业务处理效率,提高业务服务质量水平等目的。
由于不同的业务对业务数据的需求可能不同,业务数据对不同的业务的贡献度也可能不同,因此,根据业务数据需求方对应的目标业务,评估待评估业务数据对目标业务的数据贡献度。
本步骤通过将待评估业务数据对目标业务的数据贡献度纳入业务数据价值的评估因素内,能够准确且有针对性地评估待评估业务数据的数据使用价值,从而实现采用待评估业务数据的数据贡献度量化待评估业务数据的数据使用价值。
S140、根据总评分和数据贡献度确定待评估业务数据的数据价值。
具体的,根据待评估业务数据在目标评估指标上的总评分和待评估业务数据对目标业务的数据贡献度综合确定待评估业务数据的数据价值。
示例性的,根据总评分和数据贡献度确定待评估业务数据的数据价值的方式可以为根据数据贡献度和总评分的乘积确定数据贡献度,或者也可以为根据总评分确定待评估业务数据的数据估值,根据数据估值和数据贡献度确定待评估业务数据的数据价值。
本步骤在评估待评估业务数据的数据价值的过程中,不仅根据待评估业务数据在目标评估指标上的总评分确定待评估业务数据固有价值属性,还根据待评估业务数据对目标业务的数据贡献度确定待评估业务数据的使用价值属性,从而提供一种统一、科学和透明的业务数据的价值评估方法。
本发明实施例的技术方案,通过获取待评估业务数据;确定待评估业务数据在目标评估指标上的总评分;确定待评估业务数据对目标业务的数据贡献度;根据总评分和数据贡献度确定待评估业务数据的数据价值,实现根据待评估业务数据在目标评估指标上的总评分和对目标业务的数据贡献度,评估待评估业务数据的数据价值,解决了现阶段缺乏明确的数据价值评估标准的问题,达到了为业务数据所有方和业务数据需求方提供统一、科学和透明的业务数据的价值评估方法供双方参考、降低双方的沟通成本、促进数据的有效利用和流通的有益效果。
实施例二
图2为本发明实施例二提供的一种业务数据的价值评估方法的流程图,本实施例对上述实施例的步骤S120、确定待评估业务数据在目标评估指标上的总评分进一步限定。如图2所示,该方法包括:
S210、获取待评估业务数据;
S220、获取待评估业务数据的数据类型。
其中,待评估业务数据的数据类型可以包括基础数据和挖掘数据。基础数据可以理解为基础数据库或API方式提供的数据,基础数据一般未经过数据处理或者只经过简单的数据处理,如格式统一化、去重、清洗和脱敏等。挖掘数据可以理解为经过分析挖掘得到的数据,例如用户画像数据和信用评估数据。
S230、若待评估业务数据的数据类型为基础数据,则根据待评估业务数据在数据质量价值评估指标上的数据质量价值评分和在数据应用价值评估指标上的数据应用价值评分,确定待评估业务数据在目标评估指标上的总评分。
具体的,对于数据类型为基础数据的待评估业务数据,数据价值主要体现在数据质量和数据应用方面,因此,根据待评估业务数据在数据质量价值评估指标上的数据质量价值评分和在数据应用价值评估指标上的数据应用价值评分,确定待评估业务数据在目标评估指标上的总评分。
示例性的,对于数据类型为基础数据的待评估业务数据,待评估业务数据在目标评估指标上的总评分为:
VB=SQ×SA
其中,VB为基础数据的待评估业务数据在目标评估指标上的总评分,SQ为数据质量价值评分,SA为数据应用价值评分。
S240、若待评估业务数据的数据类型为挖掘数据,则根据待评估业务数据在数据质量价值评估指标上的数据质量价值评分、在数据应用价值评估指标上的数据应用价值评分和在数据业务价值评估指标上的数据业务价值评分,确定待评估业务数据在目标评估指标上的总评分。
具体的,对于数据类型为挖掘数据的待评估业务数据,除了包含数据质量价值和数据应用价值外,还有跟业务紧密相关的数据信息价值,因此根据待评估业务数据在数据质量价值评估指标上的数据质量价值评分、在数据应用价值评估指标上的数据应用价值评分和在数据业务价值评估指标上的数据业务价值评分,确定待评估业务数据在目标评估指标上的总评分。
示例性的,对于数据类型为挖掘数据的待评估业务数据,待评估业务数据在目标评估指标上的总评分为:
VP=SQ×SA×SB
其中,VP为挖掘数据的待评估业务数据在目标评估指标上的总评分,SQ为数据质量价值评分,SA为数据应用价值评分,SB为数据业务价值评分。
S250、确定待评估业务数据对目标业务的数据贡献度。
S260、根据总评分和数据贡献度确定待评估业务数据的数据价值。
本发明实施例的技术方案,通过获取待评估业务数据;获取待评估业务数据的数据类型;若待评估业务数据的数据类型为基础数据,则根据待评估业务数据在数据质量价值评估指标上的数据质量价值评分和在数据应用价值评估指标上的数据应用价值评分,确定待评估业务数据在目标评估指标上的总评分;若待评估业务数据的数据类型为挖掘数据,则根据待评估业务数据在数据质量价值评估指标上的数据质量价值评分、在数据应用价值评估指标上的数据应用价值评分和在数据业务价值评估指标上的数据业务价值评分,确定待评估业务数据在目标评估指标上的总评分;确定待评估业务数据对目标业务的数据贡献度;根据总评分和数据贡献度确定待评估业务数据的数据价值;解决了现阶段缺乏明确的数据价值评估标准的问题,达到了为业务数据所有方和业务数据需求方提供统一、科学和透明的业务数据的价值评估方法供双方参考、降低双方的沟通成本、促进数据的有效利用和流通的有益效果,进一步实现根据待评估业务数据的数据类型,选择不同的目标评估指标确定待评估业务数据的总评分,进而根据总评分和数据贡献度确定待评估业务数据的数据价值,提高价值评估的科学性。
可选的,确定待评估业务数据在数据质量价值评估指标上的数据质量价值评分包括:
统计待评估业务数据中不满足质量特征的不合格数据的数据量;
对于不满足任一维度的质量特征的不合格数据,确定待评估业务数据的总数据量和不合格数据的数据量的数据量差值;
根据数据量差值和总数据量的比值,以及待评估业务数据的总数据量确定待评估业务数据在质量特征上的评分;
根据待评估业务数据在每个维度的质量特征上的评分的加权之和,确定待评估业务数据在数据质量价值评估指标的数据质量价值评分;
其中,不合格数据包括以下少一项:缺失值数据、异常值数据、重复数据和不一致数据。
其中,质量特征可以理解为能够反映待评估业务数据的数据质量的特征,例如可以包括:数据完整性、数据准确性、数据唯一性(即非冗余性)和数据一致性等维度的特征。相对应的,不满足质量特征的不合格数据可以包括:不满足数据完整性的缺失值数据、不满足数据准确性的异常值数据、不满足数据唯一性的重复数据和不满足数据一致性的不一致数据。
具体的,统计待评估业务数据中不满足任一维度的质量特征的所有不合格数据的数据量;对于不满足任一维度的质量特征的不合格数据,确定待评估业务数据的总数据量和不合格数据的数据量的数据量差值;根据数据量差值和总数据量的比值,以及待评估业务数据的总数据量确定待评估业务数据在质量特征上的评分,即:
Figure BDA0003863819980000081
其中,qi为待评估业务数据在第i维度的质量特征上的评分,Ni为待评估业务数据不满足第i维度的质量特征的不合格数据的数据量,Nall为待评估业务数据的总数据量。示例性的,质量特征可以包含4个维度的特征,即i=1,2,3,4;第1维度的质量特征为数据完整性,第2维度的质量特征为数据准确性,第3维度的质量特征为数据唯一性,第4维度的质量特征为数据一致性。
根据待评估业务数据在每个维度的质量特征上的评分的加权之和,确定待评估业务数据在数据质量价值评估指标上的数据质量价值评分,即:
Figure BDA0003863819980000082
其中,SQ为待评估业务数据数据质量价值评估指标的数据质量价值评分,αi为第i维度的质量特征的权重,I为质量特征的维度数量。
示例性的,质量特征的维度数量为4,质量特征包括:数据完整性、数据准确性、数据唯一性和数据一致性。待评估业务数据在第1维度质量特征(即数据完整性)上的评分为:
Figure BDA0003863819980000091
其中,q1为待评估业务数据在数据完整性上的评分,N1为待评估业务数据不满足数据完整性的不合格数据(即缺失值数据)的数据量。
待评估业务数据在第2维度质量特征(即数据准确性)上的评分为:
Figure BDA0003863819980000092
其中,q2为待评估业务数据在数据准确性上的评分,N2为待评估业务数据不满足数据准确性的不合格数据(即异常值数据)的数据量。
待评估业务数据在第3维度质量特征(即数据唯一性)上的评分为:
Figure BDA0003863819980000093
其中,q3为待评估业务数据在数据唯一性上的评分,N3为待评估业务数据不满数据唯一性的不合格数据(即重复数据)的数据量。
待评估业务数据在第4维度质量特征(即数据一致性)上的评分为:
Figure BDA0003863819980000094
其中,q4为待评估业务数据在数据一致性上的评分,N4为待评估业务数据不满足数据一致性的不合格数据(即不一致数据)的数据量。
可选的,确定待评估业务数据在数据应用价值评估指标上的数据应用价值评分包括:
基于应用特征评分标准,确定待评估业务数据在应用特征的评分;
根据待评估业务数据在单个维度的应用特征的评分的加权之和,确定待评估业务数据在数据应用价值评估指标上的数据应用价值评分;
其中,应用特征包括以下至少一项:规模与维度特征、时效特征和风险特征。
其中,应用特征评分标准是用于确定待评估业务数据的应用特征对应的评分的标准。应用特征可以理解为能够反映待评估业务数据的应用特性的特征,例如可以包括:规模与维度特征、时效特征和风险特征。规模与维度特征能够反映待评估业务数据的数据规模和维度,如数据量大小和数据维度;时效特征能够反映待评估业务数据的时效性;风险特征能够反映待评估业务数据的风险,如是否包含隐私信息、是否存在隐私泄露风险、或者是否合法合规等。相应的,应用特征评分标准可以包括:规模与维度特征评分标准、时效特征评分标准和风险特征评分标准。
具体的,根据应用特征评分标准,确定待评估业务数据在对应的应用特征的评分;根据待评估业务数据在每个维度的应用特征的评分的加权之和,确定待评估业务数据在数据应用价值评估指标上的数据应用价值评分,即:
Figure BDA0003863819980000101
其中,SA为待评估业务数据的数据应用价值评分,λj为第j维度的应用特征的权重,sj为待评估业务数据在第j维度的应用特征的评分,J为应用特征的维度数量。
示例性的,应用特征的维度数量为3,应用特征包括:规模与维度特征、时效特征和风险特征,则待评估业务数据在数据应用价值评估指标上的数据应用价值评分为:
SA=λ1×Ssd2×STL3×SRI
其中,λ1和Ssd分别为待评估业务数据在第1维度特征,即规模与维度特征的权重和评分;λ2和STL分别为待评估业务数据在第2维度特征,时效特征的权重和评分;λ3和SRI分别为待评估业务数据在第3维度特征,即风险特征的权重和评分。
示例性的,规模与维度特征评分标准可以为预先设定理想数据量和理想数据维度,根据待评估业务数据的实际数据量和实际数据维度,以及理想数据量和理想数据维度确定评估业务数据的规模与维度特征评分,即:
Figure BDA0003863819980000102
其中,Ssd为待评估业务数据在规模与维度特征的评分,Dn为待评估业务数据的数据量,Dv为待评估业务数据的数据维度,DN为理想数据量,DV为理想数据维度,β1为数据规模对应的权重,β2为数据维度对应的权重,β12=1。理想数据量和理想数据维度可以参考待评估业务所在行业的平均数据量和平均数据维度。
示例性的,时效特征评分标准可以为根据待评估业务数据时间距离预设时间的时间长度来评分,不同时间长度对应的评分可以根据实际需求设定。例如,表1提供一种时效特征评分标准。
表1
时间 1周 1个月 3个月 6个月 1年 2年 3年 3年以上
时效特征评分 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3
示例性的,风险特征评分标准可以为按照是否包含隐私信息、是否存在隐私泄露风险、是否合法合规等多个维度对待评估业务数据进行风险性评估确定定性评估结果,并将定性评估结果转换为定量的评分。例如,表2提供一种风险特征评分标准。
表2
Figure BDA0003863819980000111
可选的,确定待评估业务数据在数据业务价值评估指标上的数据业务价值评分包括:
基于业务关联特征评分标准,确定待评估业务数据在业务关联特征的评分;
根据待评估业务数据在单个维度的信息特征的评分的加权之和,确定待评估业务数据在数据业务价值评估指标上的数据业务价值评分;
其中,业务关联特征包括以下至少一项:业务预测能力特征、相关特征和互信息特征。
其中,业务关联特征评分标准是用于确定待评估业务数据的与业务的关联特征对应的评分的标准。业务关联特征可以理解为能够反映待评估业务数据与业务的关联关系,例如可以包括:业务预测能力特征、相关特征和互信息特征。业务预测能力特征能够反映待评估业务数据的业务预测能力,可以采用IV值进行评分;相关特征能够反映待评估业务数据与业务标签之间相关性,可以采用线性相关系数进行评分;互信息特征够反映待评估业务数据与业务标签之间相互依赖程度,可以采用信息熵进行评分。业务标签是用于反映业务类型等特征信息的标签。
具体的,根据业务关联特征评分标准,确定待评估业务数据在对应的业务关联特征的评分;根据待评估业务数据在每个维度的业务关联特征的评分的加权之和,确定待评估业务数据的数据业务价值评分,即:
Figure BDA0003863819980000121
其中,SB为待评估业务数据的数据业务价值评分,ωk为第k维度的业务关联特征的权重,sk为待评估业务数据在第k维度的业务关联特征的评分,K为业务关联特征的维度数量。
示例性的,业务关联特征的维度数量为3,业务关联特征包括:业务预测能力特征、相关特征和互信息特征,则待评估业务数据的数据业务价值评分为:
SA=ω1×SIV2×Scorr3×SMI
其中,ω1和SIV分别为待评估业务数据在第1维度特征,即业务预测能力特征的权重和评分;ω2和Scorr分别为待评估业务数据在第2维度特征,即相关特征的权重和评分;ω3和SMI分别为待评估业务数据在第3维度特征,即互信息特征的权重和评分。
示例性的,业务预测能力特征评分标准可以为:针对待评估业务数据的单个维度特征的预测能力,即IV值的评分标准如下:
Figure BDA0003863819980000122
待评估业务数据在业务预测能力特征上的评分为:
Figure BDA0003863819980000131
其中,SIV为待评估业务数据的IV值对应的评分,M为待评估业务数据的特征维度数量,IVm表示待评估业务数据的第m维特征的IV值对应的评分。
示例性的,互相关特征评分标准可以为采用待评估业务数据与业务标签之间的线性相关系数进行评分,即
Figure BDA0003863819980000132
其中,SCorr为待评估业务数据与业务标签在互相关特征上的评分,M为待评估业务数据的特征维度数量,Corrm表示第m维特征与业务标签的线性相关系数。
示例性的,互信息特征评分标准可以为采用待评估业务数据与业务标签之间的互信息进行评分,即
Figure BDA0003863819980000133
其中,SMI为待评估业务数据与业务标签在互信息特征上的评分,M为待评估业务数据的特征维度数量,Im表示第m维特征与业务标签的互信息。
实施例三
图3为本发明实施例三提供的一种业务数据的价值评估方法的流程图,本实施例对上述实施例的步骤S130、确定所述待评估业务数据对目标业务的数据贡献度。如图3所示,该方法包括:
S310、获取待评估业务数据。
S320、确定待评估业务数据在目标评估指标上的总评分。
S330、确定待评估业务数据对目标业务的数据贡献度。
S340、获取业务数据测试集,将业务数据测试集分组得到预设子集数量的业务数据测试子集。
其中,业务数据测试集可以理解为用于测试对目标业务的数据贡献度的数据集,业务数据测试集与待评估业务数据来自于同一业务。例如,若要对一批业务数据进行价值评估之前,从这批业务数据中随机抽取一定的数量的业务数据构成业务数据测试集。业务数据测试子集的数量可以根据需求进行设定,即预先设定业务数据测试子集的数量为预设子集数量。
具体的,基于预设子集数量,对获取得到业务数据测试集进行分组得到预设数量个业务数据测试子集。分组的方式可以是对业务数据测试集进行均匀分组或者随机分组得到预设数量个业务数据测试子集,本发明实施例对此不设限制。
S350、对预设子集数量的业务数据测试子集进行排列组合,确定多个业务数据测试组。
其中,业务数据测试组是由预设数量个业务数据测试子集排列组合后构成的数据组。
具体的,假设测试数据集定义为D,预设子集数量为R,每个数据子集定义为Dr,即D=D1∪…Dr∪…DR。若R=3,则D=D1∪D2∪D3,3个业务数据测试子集D1,D2,D3进行排列组合得到的多个业务数据测试组分别为:(D1,D2,D3),(D1,D2),(D1,D3),(D2,D3),(D1),(D2),(D3)。
S360、将包含目标业务数据测试子集的业务数据测试组的集合确定为目标业务数据测试组集;目标业务数据测试子集为业务数据测试子集中的一个子集。
其中,目标业务数据测试子集为业务数据测试子集中的一个子集,即对于包含预设子集数量的业务数据测试子集的业务数据测试集,每个业务数据测试子集可以分别作为一个目标业务数据测试子集。目标业务数据测试组集为包含目标业务数据测试子集的业务数据测试组的集合。
示例性的,若业务数据测试集D包括3个业务数据测试子集,分别为D1,D2,D3;即目标业务数据测试子集分别可以为D1,D2,D3。3个业务数据测试子集排列组合得到的多个业务数据测试组分别为:(D1,D2,D3),(D1,D2),(D1,D3),(D2,D3),(D1),(D2),(D3)。那么,对于目标业务数据测试子集D1,包含D1的业务数据测试组(D1,D2,D3),(D1,D2),(D1,D3),(D1)的集合确定为目标业务数据测试组集,即目标业务数据测试组集S1={(D1,D2,D3),(D1,D2),(D1,D3),(D1)}。同理,对于目标业务数据测试子集D2对应的目标业务数据测试组集S2={(D1,D2,D3),(D1,D2),(D2,D3),(D1)}。对于目标业务数据测试子集D3对应的目标业务数据测试组集S3={(D1,D2,D3),(D1,D3),(D3,D3),(D3)}。
S370、对于每个目标业务数据测试子集,根据目标业务数据测试子集和对应的目标业务数据测试组集确定目标业务数据测试子集对目标业务的边际贡献度。
其中,边际贡献度可以理解为单纯由目标业务数据测试子集对目标业务做出的贡献度,可以理解为目标业务数据测试组集中目标业务数据测试组包含目标业务数据测试子集时对目标业务的贡献度,以及目标业务数据测试组集中的目标业务数据测试组不包含目标业务数据测试子集时对目标业务的贡献度的差值。
具体的,对于包含目标业务数据测试子集Di的目标业务数据测试组集Si,确定目标业务数据测试组集Si中的每个业务数据测试组s包含目标业务数据测试子集Di时对目标业务的贡献度;以及目标业务数据测试组集Si中的每个业务数据测试组s不包含目标业务数据测试子集Di时对目标业务的贡献度,确定目标业务数据测试子集对目标业务的边际贡献度。
S380、将每个目标业务数据测试子集对应的边际贡献度之和,确定为业务数据测试集对目标业务的数据贡献度。
具体的,对于每个目标业务数据测试子集Di对应的边际贡献度φi(f)进行加权求和得到业务数据测试集对目标业务的数据贡献度,即:
Figure BDA0003863819980000151
其中,VC为业务数据测试集D对目标业务的数据贡献度,φr(f)为第r个目标业务数据测试子集对应的边际贡献度,R为目标业务数据测试子集的数量,即业务数据测试子集的数量,也即预设子集数量。
S390、根据业务数据测试集对目标业务的数据贡献度、业务数据测试集的数据量、以及待评估业务数据的数据量,确定待评估业务数据对目标业务的数据贡献度。
具体的,待评估业务数据对目标业务的数据贡献度的确定方式如下:
Figure BDA0003863819980000161
其中,PC表示待评估业务数据对目标业务的数据贡献度,VC表示业务数据测试集对目标业务的数据贡献度,Nall表示待评估业务数据的数据量,Npart表示业务数据测试集的数据量。
本发明实施例的技术方案,通过获取待评估业务数据;确定待评估业务数据在目标评估指标上的总评分;确定待评估业务数据对目标业务的数据贡献度;获取业务数据测试集,将业务数据测试集分组得到多个业务数据测试子集;对多个业务数据测试子集进行排列组合,确定多个业务数据测试组;将包含目标业务数据测试子集的业务数据测试组确定为目标业务数据测试组;目标业务数据测试子集为业务数据测试子集中的一个子集;根据目标业务数据测试子集和目标业务数据测试组确定目标业务数据测试子集对目标业务的边际贡献度;根据每个目标业务数据测试子集对应的边际贡献度的加权之和,确定业务数据测试集对目标业务的数据贡献度;根据业务数据测试集对目标业务的数据贡献度、业务数据测试集的数据量、以及待评估业务数据的数据量,确定待评估业务数据对目标业务的数据贡献度,解决了现阶段缺乏明确的数据价值评估标准的问题,达到了为业务数据所有方和业务数据需求方提供统一、科学和透明的业务数据的价值评估方法供双方参考、降低双方的沟通成本、促进数据的有效利用和流通的有益效果。
可选的,对于每个目标业务数据测试子集,根据目标业务数据测试子集和对应的目标业务数据测试组集确定目标业务数据测试子集对目标业务的边际贡献度,包括:
将目标业务数据测试组集中的每个业务数据测试组分别输入训练完备的业务效益预测模型,得到各业务数据测试组对目标业务的第一预测效益;
将目标业务数据测试组集中的每个业务数据测试组和目标业务数据测试子集的差集分别确定为目标业务数据对照组;
将每个目标业务数据对照组分别输入业务效益预测模型,得到各目标业务数据对照组对目标业务的第二预测效益;
将目标业务数据测试组集中包含的每个业务数据测试组的第一预测效益,和对应的目标业务数据对照组的第二预测效益的差值进行加权求和,得到目标业务数据测试子集对目标业务的边际贡献度。
其中,目标业务数据对照组是将目标业务数据测试组集中的目标业务数据测试组去除目标业务数据测试子集之后形成的数据组,作为目标业务数据测试组的对照组。
具体的,假设测试数据集定义为D,预设子集数量为R=3,分组得到3个业务数据测试子集D1,D2,D3进行排列组合得到的多个业务数据测试组分别为:(D1,D2,D3),(D1,D2),(D1,D3),(D2,D3),(D1),(D2),(D3)。对于目标业务数据测试子集D1,目标业务数据测试组集S1={(D1,D2,D3),(D1,D2),(D1,D3),(D1)}。将目标业务数据测试组集S1中的业务数据测试组s∈S1,如(D1,D2,D3)输入训练完备的业务效益预测模型,得到业务数据测试组s∈S1对目标业务的第一预测效益f(s),s∈S1。以此类推,得到业务数据测试组s∈S2对目标业务的第一预测效益f(s),s∈S2,以及业务数据测试组s∈S3对目标业务的第一预测效益f(s),s∈S3
将目标业务数据测试组集S1中的每个业务数据测试组s∈S1和目标业务数据测试子集D1的差集s/{D1}分别确定为目标业务数据对照组。将每个目标业务数据对照组s/{D1},如(D2,D3)输入业务效益预测模型,得到目标业务数据对照组s/{D1}对目标业务的第二预测效益f(s/{D1})。以此类推,得到目标业务数据对照组s/{D2}对目标业务的第二预测效益f(s/{D2}),以及目标业务数据对照组s/{D3}对目标业务的第二预测效益f(s/{D3})。
将目标业务数据测试组集中包含的每个业务数据测试组s∈Si的第一预测效益f(s),s∈Si,和对应的目标业务数据对照组的第二预测效益f(s/{Di},s∈Si的差值进行加权求和,得到目标业务数据测试子集对目标业务的边际贡献度,即:
Figure BDA0003863819980000181
其中,φi(f)为目标业务数据测试子集Di对目标业务的边际贡献度,f为效益预测模型,w(|s|)表示加权因子,|s|为业务数据测试组s中包含的业务数据测试子集的个数。
示例性的,加权因子w(|s|)可以为:
Figure BDA0003863819980000182
业务效益预测模型可以是采用包含业务效益标签数据的业务数据训练集输入初始预测模型进行迭代训练得到的完备的业务效益预测模型。本发明实施例对初始预测模型的模型不作限定,也可以是经过预训练的预测模型。
在一个具体的示例中,对于数据类型为挖掘数据的待评估数据a,从数据的完整性、一致性、准确性、唯一性来评估待评估数据的数据质量价值评分。分别对待评估数据进行缺失值统计、异常值统计、重复值统计、一致性统计。若缺失值的数据量为2000,则数据完整性评分=1-2000/60000=0.97;有异常值的数据数量为500,则数据准确性评分=1-500/60000=0.99;不一致数据的数量为2500,则数据一致性评分=1-2500/60000=0.96;重复数据的数量为1000,则数据唯一性评分1-1000/60000=0.98。若完整性、一致性、准确性、唯一性评分的权重分别为:0.3、0.3、0.2、0.2,则数据质量评分Qa=0.3×0.97+0.3×0.990.2×0.96+0.2×0.98=0.98。
从数据规模与维度特征、时效特征和风险特征评估待评估数据a的数据应用价值。本实例参考行业平均数据量和平均数据维度,设置理想数据量为5万条,理想数据维度为12。本实例中数据规模和数据维度对应的权重系数分别为0.5,则数据规模与维度特征的评分=0.5×(60000/50000)+0.5×(10/12)=1.02。若待评估数据a为3个月内数据,且数据经过脱敏后风险性非常低,根据本发明给出的时效性评分标准和风险性评分标准,待评估数据a的时效性评分为0.8,风险性评分为0.9。设定数据规模与维度特征的评分、时效性评分和风险性评分,权重分别为:0.3、0.4、0.3,计算待评估数据a的数据应用价值评分Aa=0.3×1.02+0.4×0.8+0.3×0.9=0.90。
从数据维度特征与业务应用的相关性,具体表现为特征变量对业务预测能力的相关性、评估数据信息价值。通过计算数据每一列特征的IV评分,所有特征的IV加和平均值,作为整个数据资产的IV评分。例如:待评估数据a的9个特征变量的IV值分别为:0.27、0.51、0.64、0.43、0.71、0.54、0.19、0.39、0.48,则对应IV评分分别为:0.75、1、1、1、1、1、0.75、1、1。因此,待评估数据a的IV评分为:(0.75+1+1+1+1+1+0.75+1+1)/9=0.94。
通过计算每个特征与业务标签之间的线性相关系数,再将所有特征的线性相关系数加和求平均值,作为待评估数据a的相关特征评分。例如:待评估数据a的9个特征变量与标签变量的线性相关系数值分别为:0.79、0.84、0.94、0.95、0.98、0.89、0.78、0.88、0.96,则待评估数据a的相关特征评分为:(0.79+0.84+0.94+0.95+0.98+0.89+0.78+0.88+0.96)/9=0.89。计算每个特征与业务标签之间的互信息,再将所有特征的线性相关系数加和求平均值,作为待评估数据a的线性相关系数评分。例如:互信息特征评分的9个特征变量与标签变量的互信息值分别为:0.87、0.91、0.95、0.89、0.97、0.92、0.91、0.86、0.96,则相关特征评分的互信息特征评分为:(0.87+0.91+0.95+0.89+0.97+0.92+0.91+0.86+0.96)/9=0.92。设定待评估数据a的IV评分、线性相关系数评分和互信息评分,权重分别为:1/3,计算待评估数据a的数据业务价值评分Ia=(0.94+0.89+0.92)/3=0.92。
根据数据质量价值评分、数据应用价值评分和数据业务价值评分,对数据产品价值进行综合评估,计算得到数据产品a的总评分Va=Qa*Aa*Ia=0.98×0.90×0.92=0.81。
本实例将业务数据测试集随机分为数据量相等的3份业务数据测试子集:D1、D2、D3,计算每个数据子集的数据贡献度分别为:0.15、0.22、0.18。然后将所有数据子集的数据贡献度之和,作为整个测试数据集的数据贡献度=0.15+0.17+0.19=0.51。根据业务数据测试集对目标业务的数据贡献度、业务数据测试集的数据量、以及待评估业务数据的数据量,确定待评估业务数据对目标业务的数据贡献度。若待评估数据a的总数据量为60000条,设定业务数据测试集的数据量=60000×0.05=3000条,该业务数据测试集对应的效益为0.5,确定待评估数据品a的数据贡献度PC=(60000/3000)×0.51=10.2。其中,效益可以采用收益或业务增长量、用户访问量等表示。
根据待评估数据品a的数据贡献度PC以及总评分Va,可以确定待评估数据品a的数据价值为PC×Va=10.2×0.81=8.2
实施例四
图4为本发明实施例四提供的一种业务数据的价值评估装置的结构示意图。如图4所示,该装置包括:获取模块410、评分确定模块420、贡献度确定模块430和价值评估模块440;
其中,获取模块410,用于获取待评估业务数据;
评分确定模块420,用于确定所述待评估业务数据在目标评估指标上的总评分;
贡献度确定模块430,用于确定所述待评估业务数据对目标业务的数据贡献度;
价值评估模块440,用于根据所述总评分和所述数据贡献度确定所述待评估业务数据业务的数据价值。
可选的,所述目标评估指标包括:数据质量价值评估指标、数据应用价值评估指标和数据业务价值评估指标中的至少一项;相应的,所述评分确定模块420包括:
类型获取单元,用于获取所述待评估业务数据的数据类型;
第一评分确定单元,用于若所述待评估业务数据的数据类型为基础数据,则根据所述待评估业务数据在数据质量价值评估指标上的数据质量价值评分和在数据应用价值评估指标上的数据应用价值评分,确定所述待评估业务数据在目标评估指标上的总评分;
第二评分确定单元,用于若所述待评估业务数据的数据类型为挖掘数据,则根据所述待评估业务数据在数据质量价值评估指标上的数据质量价值评分、在数据应用价值评估指标上的数据应用价值评分和在数据业务价值评估指标上的数据业务价值评分,确定所述待评估业务数据在目标评估指标上的总评分。
可选的,所述评分确定模块420,具体用于:
统计所述待评估业务数据中不满足质量特征的不合格数据的数据量;
对于不满足任一维度的质量特征的不合格数据,确定所述待评估业务数据的总数据量和所述不合格数据的数据量的数据量差值;
根据所述数据量差值和所述总数据量的比值,以及所述待评估业务数据的总数据量确定所述待评估业务数据在所述质量特征上的评分;
根据所述待评估业务数据在单个维度的质量特征上的评分的加权之和,确定所述待评估业务数据在所述数据质量价值评估指标的评分;
其中,所述不合格数据包括以下少一项:缺失值数据、异常值数据、重复数据和不一致数据。
可选的,所述评分确定模块420,具体用于:
基于应用特征评分标准,确定所述待评估业务数据在应用特征的评分;
根据所述待评估业务数据在单个维度的应用特征的评分的加权之和,确定所述待评估业务数据在所述数据应用价值评估指标上的评分;
其中,所述应用特征包括以下至少一项:规模与维度特征、时效特征和风险特征。
可选的,所述评分确定模块420,具体用于:
基于业务关联特征评分标准,确定所述待评估业务数据在业务关联特征的评分;
根据所述待评估业务数据在单个维度的业务关联特征的评分的加权之和,确定所述待评估业务数据在所述数据业务价值评估指标上的评分;
其中,所述业务关联特征包括以下至少一项:业务预测能力特征、相关特征和互信息特征。
可选的,所述贡献度确定模块430,包括:
测试集获取单元,用于获取业务数据测试集,将所述业务数据测试集分组得到预设子集数量的业务数据测试子集;
排列组合单元,用于对所述预设子集数量的业务数据测试子集进行排列组合,确定多个业务数据测试组;
测试组确定单元,用于将包含目标业务数据测试子集的业务数据测试组的集合确定为目标业务数据测试组集;所述目标业务数据测试子集为所述业务数据测试子集中的一个子集;
边际贡献度确定单元,用于对于每个目标业务数据测试子集,根据所述目标业务数据测试子集和对应的目标业务数据测试组集确定所述目标业务数据测试子集对所述目标业务的边际贡献度;
测试数据贡献度确定单元,用于将每个所述目标业务数据测试子集对应的边际贡献度之和,确定为所述业务数据测试集对目标业务的数据贡献度;
业务数据贡献度确定单元,用于根据所述业务数据测试集对目标业务的数据贡献度、所述业务数据测试集的数据量、以及所述待评估业务数据的数据量,确定所述待评估业务数据对目标业务的数据贡献度。
可选的,边际贡献度确定单元,具体用于:
将所述目标业务数据测试组集中的每个业务数据测试组分别输入训练完备的业务效益预测模型,得到各所述业务数据测试组对目标业务的第一预测效益;
将所述目标业务数据测试组集中的每个业务数据测试组和所述目标业务数据测试子集的差集分别确定为目标业务数据对照组;
将每个所述目标业务数据对照组分别输入所述业务效益预测模型,得到各所述目标业务数据对照组对目标业务的第二预测效益;
将所述目标业务数据测试组集中包含的每个业务数据测试组的第一预测效益,和对应的目标业务数据对照组的第二预测效益的差值进行加权求和,得到所述目标业务数据测试子集对目标业务的边际贡献度。
本发明实施例所提供的业务数据的价值评估装置可执行本发明任意实施例所提供的业务数据的价值评估方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如业务数据的价值评估方法。
在一些实施例中,业务数据的价值评估方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的业务数据的价值评估方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行业务数据的价值评估方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的***和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种业务数据的价值评估方法,其特征在于,包括:
获取待评估业务数据;
确定所述待评估业务数据在目标评估指标上的总评分;
确定所述待评估业务数据对目标业务的数据贡献度;
根据所述总评分和所述数据贡献度确定所述待评估业务数据的数据价值。
2.根据权利要求1所述的方法,其特征在于,所述目标评估指标包括:数据质量价值评估指标、数据应用价值评估指标和数据业务价值评估指标中的至少一项;相应的,确定所述待评估业务数据在目标评估指标上的总评分包括:
获取所述待评估业务数据的数据类型;
若所述待评估业务数据的数据类型为基础数据,则根据所述待评估业务数据在数据质量价值评估指标上的数据质量价值评分和在数据应用价值评估指标上的数据应用价值评分,确定所述待评估业务数据在目标评估指标上的总评分;
若所述待评估业务数据的数据类型为挖掘数据,则根据所述待评估业务数据在数据质量价值评估指标上的数据质量价值评分、在数据应用价值评估指标上的数据应用价值评分和在数据业务价值评估指标上的数据业务价值评分,确定所述待评估业务数据在目标评估指标上的总评分。
3.根据权利要求2所述的方法,其特征在于,确定所述待评估业务数据在数据质量价值评估指标上的数据质量价值评分包括:
统计所述待评估业务数据中不满足质量特征的不合格数据的数据量;
对于不满足任一维度的质量特征的不合格数据,确定所述待评估业务数据的总数据量和所述不合格数据的数据量的数据量差值;
根据所述数据量差值和所述总数据量的比值,以及所述待评估业务数据的总数据量确定所述待评估业务数据在所述质量特征上的评分;
根据所述待评估业务数据在单个维度的质量特征上的评分的加权之和,确定所述待评估业务数据在所述数据质量价值评估指标上的数据质量价值评分;
其中,所述不合格数据包括以下少一项:缺失值数据、异常值数据、重复数据和不一致数据。
4.根据权利要求2所述的方法,其特征在于,确定所述待评估业务数据在目标评估指标上的数据应用价值评分包括:
基于应用特征评分标准,确定所述待评估业务数据在应用特征的评分;
根据所述待评估业务数据在单个维度的应用特征的评分的加权之和,确定所述待评估业务数据在所述数据应用价值评估指标上的数据应用价值评分;
其中,所述应用特征包括以下至少一项:规模与维度特征、时效特征和风险特征。
5.根据权利要求2所述的方法,其特征在于,确定所述待评估业务数据在目标评估指标上的数据业务价值评分包括:
基于业务关联特征评分标准,确定所述待评估业务数据在业务关联特征的评分;
根据所述待评估业务数据在单个维度的业务关联特征的评分的加权之和,确定所述待评估业务数据在所述数据业务价值评估指标上的数据业务价值评分;
其中,所述业务关联特征包括以下至少一项:业务预测能力特征、相关特征和互信息特征。
6.根据权利要求1所述的方法,其特征在于,确定所述待评估业务数据对目标业务的数据贡献度包括:
获取业务数据测试集,将所述业务数据测试集分组得到预设子集数量的业务数据测试子集;
对所述预设子集数量的业务数据测试子集进行排列组合,确定多个业务数据测试组;
将包含目标业务数据测试子集的业务数据测试组的集合确定为目标业务数据测试组集;所述目标业务数据测试子集为所述业务数据测试子集中的一个子集;
对于每个目标业务数据测试子集,根据所述目标业务数据测试子集和对应的目标业务数据测试组集确定所述目标业务数据测试子集对所述目标业务的边际贡献度;
将每个所述目标业务数据测试子集对应的边际贡献度之和,确定为所述业务数据测试集对目标业务的数据贡献度;
根据所述业务数据测试集对目标业务的数据贡献度、所述业务数据测试集的数据量、以及所述待评估业务数据的数据量,确定所述待评估业务数据对目标业务的数据贡献度。
7.根据权利要求6所述的方法,其特征在于,对于每个目标业务数据测试子集,根据所述目标业务数据测试子集和对应的目标业务数据测试组集确定所述目标业务数据测试子集对所述目标业务的边际贡献度,包括:
将所述目标业务数据测试组集中的每个业务数据测试组分别输入训练完备的业务效益预测模型,得到各所述业务数据测试组对目标业务的第一预测效益;
将所述目标业务数据测试组集中的每个业务数据测试组和所述目标业务数据测试子集的差集分别确定为目标业务数据对照组;
将每个所述目标业务数据对照组分别输入所述业务效益预测模型,得到各所述目标业务数据对照组对目标业务的第二预测效益;
将所述目标业务数据测试组集中包含的每个业务数据测试组的第一预测效益,和对应的目标业务数据对照组的第二预测效益的差值进行加权求和,得到所述目标业务数据测试子集对目标业务的边际贡献度。
8.一种业务数据的价值评估装置,其特征在于,包括:
获取模块,用于获取待评估业务数据;
评分确定模块,用于确定所述待评估业务数据在目标评估指标上的总评分;
贡献度确定模块,用于确定所述待评估业务数据对目标业务的数据贡献度;
价值评估模块,用于根据所述总评分和所述数据贡献度确定所述待评估业务数据的数据价值。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的业务数据的价值评估方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的业务数据的价值评估方法。
CN202211174844.9A 2022-09-26 2022-09-26 业务数据的价值评估方法、装置、电子设备及存储介质 Active CN115409419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211174844.9A CN115409419B (zh) 2022-09-26 2022-09-26 业务数据的价值评估方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211174844.9A CN115409419B (zh) 2022-09-26 2022-09-26 业务数据的价值评估方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115409419A true CN115409419A (zh) 2022-11-29
CN115409419B CN115409419B (zh) 2023-12-05

Family

ID=84165020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211174844.9A Active CN115409419B (zh) 2022-09-26 2022-09-26 业务数据的价值评估方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115409419B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433080A (zh) * 2023-03-17 2023-07-14 交通运输部规划研究院 交通运输规划行业的数据共享评分方法、装置及电子设备
CN117743310A (zh) * 2023-12-19 2024-03-22 云宝宝大数据产业发展有限责任公司 一种全周期数据治理方法、***及存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004252972A (ja) * 2003-01-31 2004-09-09 Sharp Corp 入力属性条件決定装置、入力属性条件決定方法、入力属性条件決定プログラム、データ分析装置、データ分析方法、および、データ分析プログラム
JP2010086464A (ja) * 2008-10-02 2010-04-15 Renesas Technology Corp プロジェクトの評価方法及びデータ処理システム
CN106355447A (zh) * 2016-08-31 2017-01-25 国信优易数据有限公司 一种数据商品的价格评估方法及***
US20170032016A1 (en) * 2014-03-07 2017-02-02 SYSTEMA Systementwicklung Dip. -inf. Manfred Austen GmbH Real-time information systems and methodology based on continuous homomorphic processing in linear information spaces
CN108734405A (zh) * 2018-05-24 2018-11-02 国信优易数据有限公司 一种数据价值评估平台和方法
CN110659926A (zh) * 2018-06-29 2020-01-07 国信优易数据有限公司 一种数据价值评估***以及方法
CN111311120A (zh) * 2020-03-21 2020-06-19 宁波梦创信息科技有限公司 一种企业申报科技项目的自评价方法及***
CN111985937A (zh) * 2020-08-13 2020-11-24 西安科技大学 交易商价值信息评估方法、***、存储介质、计算机设备
CN112380190A (zh) * 2020-11-27 2021-02-19 北京三维天地科技股份有限公司 一种基于多维分析技术的数据质量健康度分析方法及***
WO2021176753A1 (ja) * 2020-03-03 2021-09-10 株式会社日立製作所 データ価値定義方法、データ収集促進方法、データ価値定義システム並びにデータ収集促進システム
CN113450010A (zh) * 2021-07-07 2021-09-28 中国工商银行股份有限公司 数据对象的评价结果的确定方法、装置和服务器
CN113657545A (zh) * 2021-08-30 2021-11-16 平安医疗健康管理股份有限公司 用户业务数据的处理方法、装置、设备及存储介质
CN113836130A (zh) * 2021-09-28 2021-12-24 深圳创维智慧科技有限公司 数据质量评估方法、装置、设备及存储介质
CN114004700A (zh) * 2021-10-27 2022-02-01 深圳乐信软件技术有限公司 业务数据处理方法、装置、电子设备及存储介质
US20220087583A1 (en) * 2019-06-19 2022-03-24 Jvckenwood Corporation Evaluation device, evaluation method, and evaluation program
US11347416B1 (en) * 2021-01-07 2022-05-31 EMC IP Holding Company LLC Compacting data streams in a streaming data storage platform
CN114580916A (zh) * 2022-03-07 2022-06-03 上海安硕企业征信服务有限公司 一种企业风险评估方法、装置、电子设备及存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004252972A (ja) * 2003-01-31 2004-09-09 Sharp Corp 入力属性条件決定装置、入力属性条件決定方法、入力属性条件決定プログラム、データ分析装置、データ分析方法、および、データ分析プログラム
JP2010086464A (ja) * 2008-10-02 2010-04-15 Renesas Technology Corp プロジェクトの評価方法及びデータ処理システム
US20170032016A1 (en) * 2014-03-07 2017-02-02 SYSTEMA Systementwicklung Dip. -inf. Manfred Austen GmbH Real-time information systems and methodology based on continuous homomorphic processing in linear information spaces
CN106355447A (zh) * 2016-08-31 2017-01-25 国信优易数据有限公司 一种数据商品的价格评估方法及***
CN108734405A (zh) * 2018-05-24 2018-11-02 国信优易数据有限公司 一种数据价值评估平台和方法
CN110659926A (zh) * 2018-06-29 2020-01-07 国信优易数据有限公司 一种数据价值评估***以及方法
US20220087583A1 (en) * 2019-06-19 2022-03-24 Jvckenwood Corporation Evaluation device, evaluation method, and evaluation program
WO2021176753A1 (ja) * 2020-03-03 2021-09-10 株式会社日立製作所 データ価値定義方法、データ収集促進方法、データ価値定義システム並びにデータ収集促進システム
CN111311120A (zh) * 2020-03-21 2020-06-19 宁波梦创信息科技有限公司 一种企业申报科技项目的自评价方法及***
CN111985937A (zh) * 2020-08-13 2020-11-24 西安科技大学 交易商价值信息评估方法、***、存储介质、计算机设备
CN112380190A (zh) * 2020-11-27 2021-02-19 北京三维天地科技股份有限公司 一种基于多维分析技术的数据质量健康度分析方法及***
US11347416B1 (en) * 2021-01-07 2022-05-31 EMC IP Holding Company LLC Compacting data streams in a streaming data storage platform
CN113450010A (zh) * 2021-07-07 2021-09-28 中国工商银行股份有限公司 数据对象的评价结果的确定方法、装置和服务器
CN113657545A (zh) * 2021-08-30 2021-11-16 平安医疗健康管理股份有限公司 用户业务数据的处理方法、装置、设备及存储介质
CN113836130A (zh) * 2021-09-28 2021-12-24 深圳创维智慧科技有限公司 数据质量评估方法、装置、设备及存储介质
CN114004700A (zh) * 2021-10-27 2022-02-01 深圳乐信软件技术有限公司 业务数据处理方法、装置、电子设备及存储介质
CN114580916A (zh) * 2022-03-07 2022-06-03 上海安硕企业征信服务有限公司 一种企业风险评估方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘志欣;黄旭;魏加项;于亮;叶晶晶;: "基于负面清单管理模式的电力客户服务评价方法", 电测与仪表, no. 17, pages 134 - 140 *
吴超;郁建兴;: "面向公共管理的数据所有权保护、定价和分布式应用机制探讨", 电子政务, no. 01, pages 29 - 38 *
杨茜: "基于服务链业务数据资源的服务决策支持***研究", 中国优秀硕士学位论文全文数据库 经济与管理科学辑, no. 4, pages 150 - 195 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433080A (zh) * 2023-03-17 2023-07-14 交通运输部规划研究院 交通运输规划行业的数据共享评分方法、装置及电子设备
CN116433080B (zh) * 2023-03-17 2024-02-27 交通运输部规划研究院 交通运输规划行业的数据共享评分方法、装置及电子设备
CN117743310A (zh) * 2023-12-19 2024-03-22 云宝宝大数据产业发展有限责任公司 一种全周期数据治理方法、***及存储介质

Also Published As

Publication number Publication date
CN115409419B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
US20210103858A1 (en) Method and system for model auto-selection using an ensemble of machine learning models
CN115409419B (zh) 业务数据的价值评估方法、装置、电子设备及存储介质
CN112561082A (zh) 生成模型的方法、装置、设备以及存储介质
CN114580916A (zh) 一种企业风险评估方法、装置、电子设备及存储介质
CN112241805A (zh) 使用历史检验数据进行缺陷预测
CN115545712A (zh) 一种交易行为的欺诈预测方法、装置、设备和存储介质
CN114663015A (zh) 补货方法和装置
CN117522519A (zh) 产品推荐方法、装置、设备、存储介质和程序产品
CN117593115A (zh) 信贷风险评估模型的特征值确定方法、装置、设备和介质
CN116340831B (zh) 一种信息分类方法、装置、电子设备及存储介质
CN114741433B (zh) 一种社群挖掘方法、装置、设备及存储介质
CN115545481A (zh) 一种风险等级确定方法、装置、电子设备及存储介质
CN115563310A (zh) 一种关键业务节点的确定方法、装置、设备及介质
CN115630708A (zh) 一种模型更新方法、装置、电子设备、存储介质及产品
CN114943563A (zh) 一种权益推送方法、装置、计算机设备及存储介质
CN115062687A (zh) 企业信用监控方法、装置、设备及存储介质
CN114037058B (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
CN114037057B (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
CN114443988A (zh) 一种信息展示方法、装置、电子设备和存储介质
CN115757961A (zh) 评价推荐算法模型的方法、装置、设备以及存储介质
CN115545341A (zh) 一种事件预测方法、装置、电子设备及存储介质
CN115455019A (zh) 一种基于用户行为分析的搜索意图识别方法、装置及设备
CN117370326A (zh) 一种数据评估方法、装置、电子设备及介质
CN115439214A (zh) 信用描述文本生成方法、装置、电子设备及存储介质
CN114818892A (zh) 一种信用等级确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant