CN108734405A - 一种数据价值评估平台和方法 - Google Patents
一种数据价值评估平台和方法 Download PDFInfo
- Publication number
- CN108734405A CN108734405A CN201810510595.3A CN201810510595A CN108734405A CN 108734405 A CN108734405 A CN 108734405A CN 201810510595 A CN201810510595 A CN 201810510595A CN 108734405 A CN108734405 A CN 108734405A
- Authority
- CN
- China
- Prior art keywords
- data
- assessed
- index
- value
- index value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据价值评估平台和方法,该***包括:指标值确定模块,用于为待评估数据确定预设指标的指标值;其中,所述预设指标包括表征数据质量的数据质量指标和表征数据业务应用价值的业务价值指标;***值确定模块,用于根据所述待评估数据的成本为所述待评估数据确定***值;数据价值确定模块,用于基于确定的指标值和***值之间的预设运算关系,确定所述待评估数据的数据价值。
Description
技术领域
本申请涉及数据分析技术领域,具体而言,涉及一种数据价值评估平台和方法。
背景技术
在数字信息飞速发展的今天,数据对企业的影响日益增强,越来越多的企业需要“用数据说话”。对企业来说,无形资产占有的比重越来越大,除了专利、软件著作权、商标等知识产权等无形资产,业务数据这种无形资产的重要性不容小觑,业务数据的价值有时直接决定企业的价值。
现有技术中提供了业务数据的评估业务,用于实现对业务数据的价值进行评估。业务数据评估业务的提供者主要是资产评估机构;在进行业务数据评估时,待评估者需要与资产评估机构联系,双方当面沟通评估条件;在评估条件谈妥之后,待评估者将业务数据提供给资产评估机构,再由资产评估机构的资产评估专家按照一定的评估流程对业务数据进行评估。这样的评估方式导致了在评估过程中受人为主观因素影响较多,使得评估结果不够客观,准确度较低。
发明内容
有鉴于此,本申请的目的在于提供一种数据价值评估平台和方法,用于解决现有技术中计算数据价值准确度低的问题。
第一方面,本申请实施例提供了一种数据价值评估平台,该平台包括:
指标值确定模块,用于为待评估数据确定预设指标的指标值;
其中,所述预设指标包括表征数据质量的数据质量指标和表征数据业务应用价值的业务价值指标;
***值确定模块,用于根据所述待评估数据的成本为所述待评估数据确定***值;
数据价值确定模块,用于基于确定的指标值和***值之间的预设运算关系,确定所述待评估数据的数据价值。
可选地,所述数据质量指标包括数据一致性指标;
所述指标值确定模块,具体用于确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据的数据一致性指标的指标值,且所述一致性程度越高,表征所述待评估数据的数据一致性指标的指标值越高。
可选地,所述指标值确定模块,具体用于确定如下一项或多项数据内容与对应描述信息之间的一致性程度,且任一项数据内容与对应描述信息之间的一致性程度越高表征所述待评估数据的数据一致性指标的指标值越高:
所述待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量;
所述待评估数据的大小与所述待评估数据的描述信息所描述的大小;
所述待评估数据的数据格式与所述待评估数据的描述信息所描述的数据格式。
可选地,所述数据质量指标包括如下指标的一种或多种:数据完整性指标、数据冗余度指标、数据时效性指标、数据量指标;
针对包括数据完整性指标的情况,所述指标值确定模块,具体用于确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据的数据完整性指标的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高。
针对包括数据冗余度指标的情况,所述指标值确定模块,具体用于确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据的数据冗余度指标的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低。
针对包括数据时效性指标的情况,所述指标值确定模块,具体用于确定所述待评估数据产生时间所跨越的时间区间,以及所述待评估数据产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间和所述时间差确定所述待评估数据的数据时效性指标的指标值:其中,所述时间区间跨度越大,表征所述待评估数据的数据时效性指标的指标值越高;以及所述时间差越小,表征所述待评估数据的数据时效性指标的指标值越高;
针对包括数据量指标的情况,所述指标值确定模块,具体用于确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据的数据量指标的指标值,且所述数据量越大,表征所述待评估数据的数据量指标的指标值越高。
可选地,还包括:数据爬取模块和相似数据确定模块;
所述数据爬取模块,用于从所述预设平台爬取多个数据集;
所述相似数据确定模块,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据。
可选地,所述数据质量指标包括数据稀缺性指标;
所述指标值确定模块,具体用于确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据的数据稀缺性指标的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高。
可选地,所述业务价值指标包括如下指标的一种或多种:行业领域分类指标、应用场景指标、供应商指标;
针对包括行业领域分类指标的情况,所述指标值确定模块,具体用于确定所述待评估数据所属数据集对应的行业领域标签数量与所述待评估数据所属数据类别对应的行业领域标签数量的比值;并基于所述比值确定所述待评估数据行业领域分类指标的指标值,且所述比值越大,表征所述待评估数据的行业领域分类指标的指标值越大。
针对包括应用场景指标的情况,所述指标值确定模块,具体用于确定所述待评估数据对应应用场景的数量;并基于所述应用场景的数量确定所述待评估数据的应用场景指标的指标值,且所述应用场景数量越多,表征所述待评估数据的应用场景指标的指标值越大;
针对包括供应商指标的情况,所述指标值确定模块,具体用于判断所述待评估数据是否为数据提供者的原生数据;并基于判断结果确定所述待评估数据的供应商指标的指标值。
可选地,所述***值确定模块具体用于将所述待评估数据的预设维度成本的加权和值确定为所述待评估数据的***值;其中,所述预设维度成本至少包括如下成本的一种或多种:建设成本、运维成本、数据获取成本、以及清洗加工成本。
可选地,所述数据价值确定模块,具体用于将确定的指标值的加权和值确定为价值矫正系数;将使用所述价值矫正系数对所述***值矫正后的值确定为所述待评估数据的数据价值。
第二方面,本申请实施例提供了一种数据价值评估方法,该方法包括:
为待评估数据确定预设指标的指标值;其中,所述预设指标包括表征数据质量的数据质量指标和表征数据业务应用价值的业务价值指标;
根据所述待评估数据的成本为所述待评估数据确定***值;
基于确定的指标值和***值之间的预设运算关系,确定所述待评估数据的数据价值。
本申请实施例提供的数据价值确定***,通过待评估数据确定表征数据质量和表征数据业务应用价值的预设指标的指标值,通过待评估数据的成本确定待评估数据的***值,根据预先设置的指标值和***值之间的运算关系,确定待评估数据的数据价值。这样,通过量化多样化的预设指标的指标值以及待评估数据的***值,增加了确定数据的数据价值的准确度,而且本申请考虑的因素更加全面,增加了最终确定的数据价值的可靠性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种数据价值评估平台的结构示意图;
图2为本申请实施例提供的一种数据价值评估方法的流程示意图
图3为本申请实施例提供的一种计算机设备300的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种数据价值评估平台,如图1所示,该平台包括:
指标值确定模块11,用于为待评估数据确定预设指标的指标值;其中,所述预设指标包括表征数据质量的数据质量指标和表征数据业务应用价值的业务价值指标;
***值确定模块12,用于根据所述待评估数据的成本为所述待评估数据确定***值;
数据价值确定模块13,用于基于确定的指标值和***值之间的预设运算关系,确定所述待评估数据的数据价值。
这里,待评估数据可以为需要进行数据价值确定的业务数据,待评估数据的获取方式包括多种,例如,为从预设平台爬取的各预设领域的数据,预设平台包括企业网站、***、数据交易平台、纽扣平台等,预设领域可以为通信领域、互联网领域等,或者具有数据评估需求的数据来源直接提供的待评估数据;数据质量指标包括:数据一致性指标、数据完整性指标、数据冗余度指标、数据时效性指标、数据稀缺性指标、数据量指标等,业务价值指标包括行业领域分类指标、应用场景指标、供应商指标等;待评估数据的成本表征产生待评估数据的成本,可以包括建设成本、运费成本、数据获取成本以及其它成本,其中,建设成本包括人工成本、材料成本、间接成本等,运维成本包括业务操作成本、技术运维成本;指标值和***值之间的预设运算关系可以为线性关系、非线性关系、指数关系等,本申请对此不予限制。
在具体实施中,从获取的待评估数据确定各个数据质量指标的指标值和业务价值指标的指标值(下文详述),根据获取的待评估数据的数据成本,确定待评估数据的***值,采用预设的指标值和***值之间的预设运算关系,计算待评估数据的数据价值。
较佳地,本申请实施例每次实施的对象可以为一类数据,如果该类数据包括多个数据集,那么本申请实施例的数据价值确定对象可以为一个数据集。
本申请除了获取待评估数据外,还可以确定待评估数据的相似数据,该***还包括:数据爬取模块14和相似数据确定模块15;
所述数据爬取模块14,用于从所述预设平台爬取多个数据集;
所述相似数据确定模块15用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据。
这里,可以通过爬虫、爬取工具等技术爬取数据集,本申请对此不予限制;文本相似度匹配方法在现有技术已有详细解释,此处不再进行说明,不过应当理解,能够计算文本相似度的方法均在本申请的保护范围内。
在具体实施中,对获取的各数据集进行分词处理,得到分词处理后的第一词汇数据;按照分词处理后的各个第一词汇数据在对应数据集中的出现频次由高到低的顺序,筛选出前预设数量个第一词汇数据,针对每个数据集的每个数据,根据筛选出的各第一词汇数据在该数据集中出现的频次,确定该数据的词汇特征。
对待评估数据进行分词处理,得到分词处理后的第二词汇数据;按照分词处理后的各个第二词汇数据在待评估数据中的出现频次由高到低的顺序,筛选出前预设数量个第二词汇数据,针对待评估数据中的每个数据,根据筛选出的各第二词汇数据在该待评估数据中出现的频次,确定该数据的词汇特征。
针对每个数据集中的每个词汇特征,计算该数据集中的该词汇特征分别与待评估数据中的词汇特征之间的文本相似度。将文本相似度大于或等于预设相似度阈值的数据集确定为待评估数据的相似数据。
进一步地,针对待评估数据及数据集确定出多个特征词汇的情况,针对待评估数据的每个特征词汇,可以将该特征词汇与数据集的各特征词汇分别作文本相似度比对,将相似度达到第一预设相似度阈值的特征词汇确定为该特征词汇的相似词汇,相似词汇数量达到第二预设阈值的时候,将待评估数据及数据集确定为相似数据。
进一步地,针对待评估数据和数据集具有已标注的行业标签的情况,也可以直接将行业标签作为对应数据的特征词汇,直接将特征词汇进行相似度比对。
在计算***值时,***值确定模块具体用于将所述待评估数据的预设维度成本的加权和值确定为所述待评估数据的***值;其中,所述预设维度成本至少包括如下成本的一种或多种:建设成本、运维成本、数据获取成本、以及清洗加工成本。
进一步地,生成待评估数据的过程所用到的硬件设备、人员办公场地费用等可以作为建设成本;后期对待评估数据的维护可以作为运维成本;另外,如果数据是提供方购买的,还可以包括数据获取成本;如果数据提交之前进行过清洗加工等处理,还可以包括清洗加工成本;还可以包括数据成本相关的其他方面的成本,这里不一一赘述。
基于得到的***值和预设指标的指标值,数据价值确定模块13将确定的指标值的加权和值确定为价值矫正系数;将使用所述价值矫正系数对所述***值矫正后的值确定为所述待评估数据的数据价值。
在具体实施中,计算确定的各预设指标的指标值的加权和值h,基于上述加权和值h和***值确定待评估数据的数据价值。
采用以下公式计算各预设指标的指标值的加权和值h:
其中,h为各预设指标的指标值的加权和值,ωi为第i个预设指标的指标值,βi为第i个预设指标的权重,r为预设指标的总数目,为正整数,较佳地为9。
不同预设指标的权重β可以相同,也可以不同,权重一般为待评估数据所属领域的人员打分确定的,也可以为通过深度学习算法计算得到的,本申请对此不予限制。
采用以下公式计算待评估数据的数据价值I:
其中,I为待评估数据的数据价值,h为各预设指标的指标值的加权和值,为待评估数据的***值。
以下针对每一预设指标详细叙述该预设指标的指标值的计算过程。
数据质量指标为数据一致性指标时,指标值确定模块11具体用于确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;基于一致性程度确定所述待评估数据的数据一致性指标的指标值,且所述一致性程度越高,表征所述待评估数据的数据一致性指标的指标值越高。
具体地,指标值确定模块11在确定待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度时,确定如下一项或多项数据内容与对应描述信息之间的一致性程度,且任一项数据内容与对应描述信息之间的一致性程度越高表征所述待评估数据的数据一致性指标的指标值越高:
第一:待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量;
待评估数据的数据内容被承载在某一种格式的文件中;待评估数据可以由多条数据条目构成,每条数据条目均由多个数据元构成,其中,数据元是构成待评估数据的最基本数据单位。
例如,待评估数据为商品价格数据时,一条待评估数据的数据元可以为:商品名称、商品生产商、产地、生产时间、保质期、净含量、营养成分、生产批号、售卖时间。
也就是说待评估数据较佳地是数据条目的形式,针对具有评估需求的数据为文本数据的情况,可以在进行评估之前事先进行文本数据关键信息提取操作,生成数据条目形式的数据。例如:具有评估需求的数据为商品介绍文本,可以在评估之前按照商品名称、商品生产商、产地、生产时间等关键字提取成数据条目的形式,将提取的数据条目作为待评估数据。
待评估数据所包含的数据量,可以待评估数据包含的有效数据元的数据量,也可以为包含的数据元的数量,也可以为数据条目的数量,以有效数据元的数据量为例,在上述示例中,一条完整的待评估数据包括的数据元的数量为9,则每条数据条目对应的数据量为9,若待评估数据包括100条数据条目,则其所应当具备的数据量应当为900,也就是说,待评估数据的数据量为900;在实际应用中,可能存在某些数据元为空,为空的数据元没有实际内容,造成了待评估数据的实际数据量少于描述信息所描述的数据量;以数据条目的数量为例,这里可以比较待评估数据包含的数据条目数量与所述待评估数据的描述信息所描述的数据条目数量。
因此,可以通过确定待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量的一致性程度来表征待评估数据的数据内容和描述信息的一致性程度。
第二:所述待评估数据的大小与所述待评估数据的描述信息所描述的大小;
此处,待评估数据的大小,实际上可以看作是承载待评估数据的文件的文件大小。例如,数据条目的数据元缺失(即数据元为空)也会造成承载待评估数据的文件数据的真实文件大小和描述信息中描述的大小不一致。
因此,可以通过确定待评估数据的大小与待评估数据的描述信息所述描述的大小的一致性程度来表征待评估数据的数据内容和描述信息的一致性程度。
第三:待评估数据的数据格式与所述待评估数据的描述信息所描述的数据格式;
此处,待评估数据的数据格式,也是承载待评估数据的文件的文件格式。承载待评估数据的文件格式可能与描述信息所描述的文件格式不同。
因此,可以通过确定待评估数据的数据格式与所述待评估数据的描述信息所述描述的数据格式的一致性程度来表征待评估数据的数据内容和描述信息的一致性程度。
不过应当理解,待评估数据所包含的数据内容可以是但不限于数据量、大小和数据格式等;待评估数据对应的描述信息一般是用于描述待评估数据的数据,待评估数据对应的描述信息也包含有数据量、大小和数据格式等内容。
在具体实施中,计算待评估数据包含的数据量与待评估数据的描述信息所描述的数据量的第一绝对差值(也就是绝对值),计算待评估数据的大小与待评估数据的描述信息的大小的第二绝对差值(也就是绝对值),若待评估数据的数据格式与待评估数据的描述信息所描述的数据格式一致,则确定待评估数据的一致度D为第一预设值,否则,D为第二预设值,根据第一绝对差值、第二绝对差值和一致度,计算数据一致性指标的指标值。其中,第一预设值一般为0,第二预设值一般为1,第一预设值和第二预设值也可以为其它值,可根据实际情况确定,一般地,第二预设值大于第一预设值。
采用以下公式计算第一绝对差值L1:
L1=|La-Lm|
其中,L1为待评估数据的第一绝对差值,La为待评估数据所包含的数据量,Lm为待评估数据的描述信息所包含的数据量。
采用以下公式计算第二绝对差值L2:
L2=|Sa-Sm|
其中,L2为待评估数据的第二绝对差值,Sa为待评估数据的大小,Sm为待评估数据的描述信息的大小。
采用以下公式计算数据一致性指标的指标值ω1:
其中,ω1为待评估数据的数据一致性指标,α为不大于1的正实数,较佳地为1/3,D为待评估数据的一致度。
ω1取值范围一般为[0,1],ω1值越大,说明待评估数据的一致性程度越高,那么,该待评估数据的数据价值也越高。
数据质量指标为数据完整性指标时,指标值确定模块11具体用于确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据的数据完整性指标的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高。
这里,空值占比可以为待评估数据无效数据元在数据条目总数中的占比。
在具体实施中,将为待评估数据中的每条数据条目的赋值作为该条数据条目的有效度,依次检测待评估数据中各个数据条目中的数据元是否为空;根据检测结果对每个数据元进行完整性赋值,获得每个数据元的完整性值,且数据元若为空,则对应的完整性值(也就是有效度)为0;数据元不为空,则对应的完整性值为1,将所有数据元的完整性值的和,与数据元数量的比值,作为空值占比,或者,统计待评估数据中所有数据条目中为空的数据元的总数量,将所有数据条目中为空的数据元的总数量,和待评估数据中所有数据元的总数量的比值作为空值占比;计算待评估数据中每条数据条目的有效度的和值的平均值,并将上述平均值作为数据完整性指标的指标值。
例如,待评估数据中有10行、10列数据元,遍历待评估数据中的每一数据元,若第i行第j列的数据元为空,此时,第i行第j列的有效度为0,若第i行第j列的数据元不为空,此时,第i行第j列的有效度为1。
采用如下公式计算待评估数据的数据完整性指标ω2的指标值:
其中,ω2为待评估数据的数据完整性指标,aij为待评估数据中的第i行第j列数据元的有效度,S为待评估数据中的数据条目数(即行数),T为待评估数据中的数据条目数(即列数),N为待评估数据中数据条目的总数,其中,N=S×T。
ω2的取值范围为[0,1],ω2值越大,表示待评估数据的数据完整性越好。
进一步地,空值占比还可以为待评估数据中无效数据条目在数据条目总数中的占比。存在预设数量空数据元的数据条目可以确定为无效数据条目。ω2为无效数据条目与数据条目总数的商。
数据质量指标为数据冗余度指标,指标值确定模块11具体用于确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据的数据冗余度指标的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低。
重复条目的占比表征待评估数据中重复数据条目的数目与数据条目总数的比值,信息冗余度是计算重复数据出现的比率。在一个数据集合中,重复的数据为数据冗余,信息冗余度越高,数据价值越低。
在具体实施中,统计待评估数据中每条数据条目的重复数;计算待评估数据中各数据条目的重复数的和值的平均值,基于计算的平均值,计算数据冗余度指标的指标值。
在统计所述待评估数据中每条数据条目重复出现的次数时,要按照数据条目的排布顺序,依次检测每条数据条目在之前是否出现过;其中,两条相同的数据条目中数据元的内容完全一致,或者内容一致或者相似的数据元数量达到预设阈值。若数据条目为重复出现的数据条目,也即在检测当前数据条目之前,已经有与当前数据条目相同的另一条数据条目被检测过,则对应的重复性值为1;若数据条目并非重复出现的数据条目,也即在检测当前数据条目之前,没有与当前数据条目相同的另一条数据条目被检测到,则对应的重复性值为0,将所有数据条目的重复性值的和,与数据条目数量的比值,作为待评估数据所包含的数据条目中重复条目的占比。
采用如下公式计算数据冗余度指标ω3的指标值:
其中,ω3为待评估数据的数据冗余度指标,bi为待评估数据中第i个数据条目的重复数,N为待评估数据中数据条目的总数。
ω3取值范围为[0,1],ω3值越大,表明待评估数据的数据重复性越小,那么对应的数据价值也越高。
例如,待评估数据中包含5条数据条目,分别为a、b、c、d、e,其中,a、b和e相同,c、d相同,从a至e依次检测每条数据条目是否为重复出现的数据条目;a第一次出现,其重复性值为0;b和a相同,为重复出现的数据条目,因此b的重复性值为1,c第一次出现,其重复性值为0;d和c相同,为重复出现的数据条目,其重复性值为1;e与a相同,为重复出现的数据条目,其重复性值为1,最终得到的待评估数据所包含的数据条目中重复条目的占比为0.6。根据上述公式,可知最终所得的确定数据在数据冗余度指标下的指标值ω3=0.4。
数据质量指标包括数据时效性指标,指标值确定模块11具体用于确定所述待评估数据产生时间所跨越的时间区间,以及所述待评估数据产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间和所述时间差确定所述待评估数据的数据时效性指标的指标值:其中,所述时间区间跨度越大,且所述时间差越小,表征所述待评估数据的数据时效性指标的指标值越高。
这里,待评估数据产生时间所跨越的时间区间,为待评估数据开始产生时间到待评估数据终止产生时间之间所跨越的时间区间。时间区间的单位要根据该时间区间的长度进行具体设定,若无法确定待评估数据的起始时间和最终时间,可以通过待评估数据的描述信息确定;产生时间可以为待评估数据跨越的时间区间中的起始时间、最终时间,也可以为平均时间,较佳地为起始时间。
在具体实施中,计算待评估数据中各数据之间的最大时间跨度,也就是,时间区间中的最终时间与起始时间之间的差值;基于待评估数据的提供时间和待评估数据的产生时间之间的差值,计算数据时效性指标的指标值。
若时间区间的长度为1天,则将时间区间的单位设置为分钟,若时间区间的长度为2个月,则将时间区间的单位设置为天,若该时间区间的长度为3年,则可以将时间区间的单位这是为周。需要注意的是,上述设定时间区间的单位仅仅为本申请实施例所提供的示例,不能将其当作是对本申请技术方案的限定。
数据提供时间,是指数据质量确定***的数据获取模块获取待评估数据的时间。这里需要注意的是,由于待评估数据具有一定的数据量,数据获取模块14实际上是不容易在某一个时间点从无到有的获取全部的待评估数据,因此,该数据提供时间可以是数据获取模块获取待评估数据的起始时间,也可以是数据获取模块获取待评估数据的终止时间;另外,由于数据获取模块在获取了待评估数据之后,会在很短的时间内将待评估数据传输给指标确定模块进行处理,数据获取模块获取待评估数据的起始时间或者终止时间距离价值确定模块对其确定在时效性指标下的指标值的当前时间的时间差是比较小的,因此,还可以将价值确定模块对待评估数据确定其在时效性指标下的指标值的当前时间作为数据提供时间。
例如,在待评估数据中包括100条数据条目;100条数据条目中,产生最早的数据条目的产生时间(也即待评估数据的起始时间)为2018年1月1日;产生时间最晚的数据条目的产生时间(也即待评估数据的终止时间)为2018年1月30日;则待评估数据产生时间所跨越的时间区间(也就是最大时间跨度)为30天。若待评估数据提供时间为2018年4月1日,则待评估数据提供时间和待评估数据产生时间之间的时间差,即为2018年4月1日,至2018年1月1日之间的时间差。
采用以下公式计算数据时效性指标ω4的指标值:
其中,ω4为待评估数据的数据时效性指标;Tf为待评估数据产生时间所跨越的时间区间的最终时间,若待评估数据无法确定最终时间,则使用待评估数据对应的描述信息的最终时间,单位为天;Ts为待评估数据产生时间所跨越的时间区间的起始时间,若待评估数据无法确定起始时间,则使用待评估数据对应的描述信息的起始时间,单位为天;Tn待评估数据的提供时间。
ω4取值范围为[0,1],ω4的值越大,表示待评估数据的时效性越强。
在数据质量指标为数据稀缺性指标时,指标值确定模块11具体用于确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据的数据稀缺性指标的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高。
这里,稀缺性是指根据采集的预设的平台以及自身数据信息对于同类数据的提供情况,计算数据的稀缺程度;同类数据越多,稀缺性越低;同类数据越少,稀缺性越高;稀缺性越高的待评估数据的价值也相应越高。
在具体实施中,分别计算待评估数据分别与各预设平台的数据的相似度,计算待评估数据的相似数据分别与各预设平台的数据的相似度,统计大于设定相似度阈值的相似度对应的预设平台的数目,计算统计的数目与预设平台的总数目的比值,计算自然数的比值次方的倒数,根据计算的所述倒数,计算数据稀缺性指标的指标值。
例如,在获取待评估数据和相似数据后,从每个预设平台爬取大量的数据,从各预设平台爬取的数据可以为交易数据,最终每个预设平台对应一个包含大量数据的数据集,针对每个预设平台,通过相似度计算公式计算待评估数据和该预设平台的数据集之间的相似度,也可以计算待评估数据的相似数据和该预设平台的数据集之间的相似数据数量,从最终得到的大量相似度中,统计大于设定相似度阈值的相似度,并计算统计的相似数据集的数目与预设平台总数目的比值,基于计算的上述比值计算待评估数据的数据稀缺性指标的指标值。
采用以下公式计算待评估数据的数据稀缺性指标ω5的指标值:
ω5=1-e-x/y
其中,ω5为待评估数据的数据稀缺性指标,x为待评估数据和待评估数据的相似数据在预设平台的出现次数,y为预设平台的总数。
另外,还可以采用以下公式计算待评估数据在数据稀缺性指标下的指标值ω5:
其中,x为待评估数据和待评估数据的相似数据在预设平台的出现次数,y为爬取到的数据集的总数量。
ω5的取值范围为[0,1],当ω5接近于1,说明各预设平台均存在相似数据,待评估数据的稀缺性越低,ω5等于0,表明各预设平台不存在相似数据,待评估数据的稀缺性越高。
数据质量指标包括数据量指标,指标值确定模块11具体用于确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据的数据量指标的指标值,且所述数据量越大,表征所述待评估数据的数据量指标的指标值越高。
在具体实施中,可以将计算的待评估数据的数据量与各预设平台的数据的总数据量的比值作为数据量指标的指标值,也可以直接将待评估数据的数据量作为数据量指标的指标值,可根据实际情况确定。
在实际应用中,可以通过但不限于爬取的方式从各预设平台爬取大量的数据,从预设平台爬取的数据中可以存在与待评估数据相同或相似的数据,也可以为与待评估数据不同的数据。
从各预设平台爬取的数据由多个数据条目组成,每个数据条目包含有多个数据元,针对每个预设平台,从该预设平台爬取的数据包括100个数据条目,每个数据条目包括10个数据元,则该预设平台爬取的数据量为100,若预设平台为5个,则各预设平台的数据的总数量为5000。待评估数据的数据量的统计方式上文已进行介绍,此处不再进行过多介绍。
在具体实现的时候,可以采用下述两种方法中任意一种确定待评估数据在数据量指标下的指标值:
其一,可以将计算的待评估数据的数据量与各预设平台的数据的总数据量的比值作为数据量指标的指标值,也可以直接将待评估数据的数据量作为数据量指标的指标值,可根据实际情况确定。
例如,在将待评估数据的数据量与各预设平台的数据的总数据量的比值作为数据量指标的指标值时,可以采用以下公式计算数据量指标的指标值ω6:
其中,N为待评估数据中数据的数据量,O为各预设平台的数据的总数据量。
ω6的取值是[0,1],当ω6=0时,说明待评估数据的数据量小,反之数据量大。
其二,基于所述待评估数据的描述信息中携带的承诺数据量、以及描述信息所描述的数据量;待评估数据包含的数据量、以及对预设平台的数据进行数据采集获取的与待评估数据相似的相似数据量,计算待评估数据在数据量指标下的指标值。
其中,该承诺数据量是指用户提供待评估数据时,预计要提供的待评估数据的数据量。
待评估数据所包含的数据量,即为待评估数据包含的有效数据元的数据量。
对预设平台的数据进行数据采集获取的与待评估数据相似的相似数据量,其获取过程与确定待评估数据在数据稀缺性指标下的指标值时对相似数据的获取过程类似。具体过程为:
数据获取模块10从所述预设平台爬取多个数据集;相似数据确定模块40,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;对确定的相似数据进行数据量确定的操作,从而获取与待评估数据相似的相似数据量。
具体地,可以采用下述公式计算待评估数据在数据量指标下的指标值:
其中,m表示待评估数据包含的数据量;N1表示对预设平台的数据进行数据采集获取的与待评估数据相似的相似数据量;N2表示描述信息所描述的数据;N3表示承诺数据量。
业务价值指标为行业领域分类指标,指标值确定模块11具体用于确定所述待评估数据所属数据集对应的行业领域标签数量与所述待评估数据所属数据类别对应的行业领域标签数量的比值;并基于所述比值确定所述待评估数据行业领域分类指标的指标值,且所述比值越大表征所述待评估数据的行业领域分类指标的指标值越大。
这里,行业领域标签表征数据集对应的行业领域,数据类别一般为预先设置的,数据类别一般包括有多个数据集,每个数据集均对应有多个行业领域标签,该数据集可以通过多种方式获取,包括但不限于从各预设平台获取,预设平台包括但不限于数据交易平台、纽扣平台等;行业领域分类越多表明待评估数据所属的数据集的行业领域标签数量越多,那么数据行业领域分类指标的指标值越大。
在具体实施中,统计待评估数据所属数据集对应的行业领域标签数量和待评估数据所属数据类别包含的多个数据集所对应的行业领域标签数量的总数,计算统计的待评估数据的行业领域标签数量与统计的待评估数据所属数据类别的行业领域标签数量的总数的比值,将上述比值作为待评估数据行业领域分类指标的指标值,也可以将待评估数据所属数据集的行业领域标签数量作为数据行业领域分类指标的指标值,本申请对此不予限制。
待评估数据所属的数据集可以为待评估数据所属数据类别中的一个数据集,也可以为其它的数据集,此处以待评估数据集为待评估数据所述数据类别中的一个数据集为例进行说明。例如,待评估数据所属的数据集为中国专利文摘数据,中国专利文摘数据对应的行业领域标签包括政务、专利、知识产权、文摘、企业等,待评估数据所属数据类别为专利数据,该专利数据包括多个数据集,数据集的名称可以为中国专利文摘数据、中国专利法律状态数据(授权公报)、中国专利法律状态数据(发明公布公报)等,中国专利法律状态数据(授权公报)对应的行业领域标签包括政务、专利、指示产权、法律、企业等,中国专利法律状态数据(发明公布公报)对应的行业领域标签包括政务、专利、指示产权、法律、企业等,则待评估数据所属数据集的行业领域标签数量为5,待评估数据所属数据类别的行业领域标签数据量为15,则行业领域分类指标的指标值为0.3。
业务价值指标包为应用场景指标,指标值确定模块11具体用于确定所述待评估数据对应应用场景的数量;并基于所述应用场景的数量确定所述待评估数据的应用场景指标的指标值,且所述应用场景数量越多表征所述待评估数据的应用场景指标的指标值越大。
在具体实施中,应用场景为待评估数据可以应用的领域,待评估数据应用的场景越多,说明待评估数据的应用性越好,数据价值也越高。
统计待评估数据的应用场景的数量,如,若待评估数据可以应用到5个应用场景中,则待评估数据的应用场景的数量为5,可以将统计的数量作为待评估数据的应用场景指标的指标值,也可以基于应用场景的数量与应用场景指标之间的线性关系、非线性关系、正相关关系、负相关关系确定,本申请对此不予限制。
业务价值指标为供应商指标,指标值确定模块11具体用于判断所述待评估数据是否为数据提供者的原生数据;并基于判断结果确定所述待评估数据的供应商指标的指标值。
这里,原生数据可以为数据提供者生成的数据。供应商指标越高说明数据的来源越可靠,越具有权威性,数据的价值也越高。
在具体实施中,若待评估数据为数据提供者的原生数据,则待评估数据的供应商指标的指标值为第一预设值,若待评估数据不是数据提供者的原生数据(如,购买的数据,或者从其它平台爬取的二手数据等),则待评估数据的供应商指标的指标值为第二预设值。其中,第一预设值为1,第二预设值为0,不过应当注意,第一预设值大于第二预设值,第一预设值和第二预设值也可以为其它值,可以根据实际情况确定,本申请对此不予限制。或者,根据数据提供者的原生数据的数量与待评估数据中的总数据量的比值,作为待评估数据的供应商指标的指标值。
例如,待评估数据包括供应商提供的原生数据以及二手数据,二手数据一般来源于其它平台或网站(与供应商业务相关的数据),若供应商为A企业,原生数据为A企业直接提供的业务数据,二手数据可以是从网易平台、***等其它平台爬取或购买的与A企业的业务相关的数据,若待评估数据中的数据均为A企业的原生数据,此时,待评估数据的供应商指标的指标值为1;若待评估数据的数据50%为A企业的原生数据,50%为二手数据,此时,待评估数据的供应商指标的指标值为0.5;若待评估数据中的数据均为二手数据,则待评估数据的供应商指标的指标值为0。
本申请实施例提供的数据价值评估平台,通过待评估数据确定表征数据质量和表征数据业务应用价值的预设指标的指标值,通过待评估数据的成本确定待评估数据的***值,根据预先设置的指标值和***值之间的运算关系,确定待评估数据的数据价值。这样,通过量化多样化的预设指标的指标值以及待评估数据的***值,增加了确定数据的数据价值的准确度,而且本申请考虑的因素更加全面,增加了最终确定的数据价值的可靠性。
本申请实施例提供了一种数据价值评估方法,如图2所示,该方法包括:
S201,为待评估数据确定预设指标的指标值;其中,所述预设指标包括表征数据质量的数据质量指标和表征数据业务应用价值的业务价值指标;
S202,根据所述待评估数据的成本为所述待评估数据确定***值;
S203,基于确定的指标值和***值之间的预设运算关系,确定所述待评估数据的数据价值。
可选地,所述数据质量指标包括数据一致性指标;
所述为待评估数据确定预设指标的指标值,包括:
确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据的数据一致性指标的指标值,且所述一致性程度越高,表征所述待评估数据的数据一致性指标的指标值越高。
可选地,所述确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度,包括:
确定如下一项或多项数据内容与对应描述信息之间的一致性程度,且任一项数据内容与对应描述信息之间的一致性程度越高表征所述待评估数据的数据一致性指标的指标值越高:
所述待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量;
所述待评估数据的大小与所述待评估数据的描述信息所描述的大小;
所述待评估数据的数据格式与所述待评估数据的描述信息所描述的数据格式。
可选地,所述数据质量指标包括数据完整性指标;
所述为待评估数据确定预设指标的指标值,包括:
确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据的数据完整性指标的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高。
可选地,述数据质量指标包括数据冗余度指标;
所述为待评估数据确定预设指标的指标值,包括:
确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据的数据冗余度指标的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低。
可选地,所述数据质量指标包括数据时效性指标;
所述为待评估数据确定预设指标的指标值,包括:
确定所述待评估数据产生时间所跨越的时间区间,以及所述待评估数据产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间和所述时间差确定所述待评估数据的数据时效性指标的指标值:
其中,所述时间区间跨度越大,且所述时间差越小,表征所述待评估数据的数据时效性指标的指标值越高。
可选地,该方法还包括:从所述预设平台爬取多个数据集;
分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据。
可选地,所述数据质量指标包括数据稀缺性指标;
所述为待评估数据确定预设指标的指标值,包括:
确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据的数据稀缺性指标的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高。
可选地,所述数据质量指标包括数据量指标;
所述为待评估数据确定预设指标的指标值,包括:
确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据的数据量指标的指标值,且所述数据量越大,表征所述待评估数据的数据量指标的指标值越高。
可选地,所述业务价值指标包括行业领域分类指标;
所述为待评估数据确定预设指标的指标值,包括:
确定所述待评估数据所属数据集对应的行业领域标签数量与所述待评估数据所属数据类别对应的行业领域标签数量的比值;并基于所述比值确定所述待评估数据行业领域分类指标的指标值,且所述比值越大,表征所述待评估数据的行业领域分类指标的指标值越大。
可选地,所述业务价值指标包括应用场景指标;
所述为待评估数据确定预设指标的指标值,包括:
确定所述待评估数据对应应用场景的数量;并基于所述应用场景的数量确定所述待评估数据的应用场景指标的指标值,且所述应用场景数量越多,表征所述待评估数据的应用场景指标的指标值越大。
可选地,所述业务价值指标包括供应商指标;
所述为待评估数据确定预设指标的指标值,包括:
判断所述待评估数据是否为数据提供者的原生数据;并基于判断结果确定所述待评估数据的供应商指标的指标值。
可选地,所述根据所述待评估数据的成本为所述待评估数据确定***值,包括:
将所述待评估数据的预设维度成本的加权和值确定为所述待评估数据的***值;其中,所述预设维度成本至少包括如下成本的一种或多种:建设成本、运维成本、数据获取成本、以及清洗加工成本。
可选地,所述基于确定的指标值和***值之间的预设运算关系,确定所述待评估数据的数据价值,包括:
将确定的指标值的加权和值确定为价值矫正系数;将使用所述价值矫正系数对所述***值矫正后的值确定为所述待评估数据的数据价值。
对应于图2中的数据价值评估方法,本申请实施例还提供了一种计算机设备300,如图3所示,该设备包括存储器301、处理器302及存储在该存储器201上并可在该处理器302上运行的计算机程序,其中,上述处理器202执行上述计算机程序时实现上述数据价值评估方法。
具体地,上述存储器201和处理器202能够为通用的存储器和处理器,这里不做具体限定,当处理器202运行存储器201存储的计算机程序时,能够执行上述数据价值评估方法,从而解决现有技术中确定数据价值准确度低的问题,本申请通过待评估数据确定表征数据质量和表征数据业务应用价值的预设指标的指标值,通过待评估数据的成本确定待评估数据的***值,根据预先设置的指标值和***值之间的运算关系,确定待评估数据的数据价值。这样,通过量化多样化的预设指标的指标值以及待评估数据的***值,增加了确定数据的数据价值的准确度,而且本申请考虑的因素更加全面,增加了最终确定的数据价值的可靠性。
对应于图2中的数据价值评估平台,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述数据价值评估方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述数据价值评估方法,从而解决现有技术中确定数据价值准确度低的问题,通过待评估数据确定表征数据质量和表征数据业务应用价值的预设指标的指标值,通过待评估数据的成本确定待评估数据的***值,根据预先设置的指标值和***值之间的运算关系,确定待评估数据的数据价值。这样,通过量化多样化的预设指标的指标值以及待评估数据的***值,增加了确定数据的数据价值的准确度,而且本申请考虑的因素更加全面,增加了最终确定的数据价值的可靠性。
在本申请所提供的实施例中,应该理解到,所揭露***和方法,可以通过其它的方式实现。以上所描述的***实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,***或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种数据价值评估平台,其特征在于,该平台包括:
指标值确定模块,用于为待评估数据确定预设指标的指标值;
其中,所述预设指标包括表征数据质量的数据质量指标和表征数据业务应用价值的业务价值指标;
***值确定模块,用于根据所述待评估数据的成本为所述待评估数据确定***值;
数据价值确定模块,用于基于确定的指标值和***值之间的预设运算关系,确定所述待评估数据的数据价值。
2.如权利要求1所述的平台,其特征在于,所述数据质量指标包括数据一致性指标;
所述指标值确定模块,具体用于确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据的数据一致性指标的指标值,且所述一致性程度越高,表征所述待评估数据的数据一致性指标的指标值越高。
3.如权利要求2所述的平台,其特征在于,所述指标值确定模块,具体用于确定如下一项或多项数据内容与对应描述信息之间的一致性程度,且任一项数据内容与对应描述信息之间的一致性程度越高表征所述待评估数据的数据一致性指标的指标值越高:
所述待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量;
所述待评估数据的大小与所述待评估数据的描述信息所描述的大小;
所述待评估数据的数据格式与所述待评估数据的描述信息所描述的数据格式。
4.如权利要求1所述的平台,其特征在于,所述数据质量指标包括如下指标的一种或多种:数据完整性指标、数据冗余度指标、数据时效性指标、数据量指标;
针对包括数据完整性指标的情况,所述指标值确定模块,具体用于确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据的数据完整性指标的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高。
针对包括数据冗余度指标的情况,所述指标值确定模块,具体用于确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据的数据冗余度指标的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低。
针对包括数据时效性指标的情况,所述指标值确定模块,具体用于确定所述待评估数据产生时间所跨越的时间区间,以及所述待评估数据产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间和所述时间差确定所述待评估数据的数据时效性指标的指标值:其中,所述时间区间跨度越大,表征所述待评估数据的数据时效性指标的指标值越高;以及所述时间差越小,表征所述待评估数据的数据时效性指标的指标值越高;
针对包括数据量指标的情况,所述指标值确定模块,具体用于确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据的数据量指标的指标值,且所述数据量越大,表征所述待评估数据的数据量指标的指标值越高。
5.如权利要求1所述的平台,其特征在于,还包括:数据爬取模块和相似数据确定模块;
所述数据爬取模块,用于从所述预设平台爬取多个数据集;
所述相似数据确定模块,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据。
6.如权利要求5所述的平台,其特征在于,所述数据质量指标包括数据稀缺性指标;
所述指标值确定模块,具体用于确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据的数据稀缺性指标的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高。
7.如权利要求1所述的平台,其特征在于,所述业务价值指标包括如下指标的一种或多种:行业领域分类指标、、应用场景指标、供应商指标;
针对包括行业领域分类指标的情况,所述指标值确定模块,具体用于确定所述待评估数据所属数据集对应的行业领域标签数量与所述待评估数据所属数据类别对应的行业领域标签数量的比值;并基于所述比值确定所述待评估数据行业领域分类指标的指标值,且所述比值越大,表征所述待评估数据的行业领域分类指标的指标值越大。
针对包括应用场景指标的情况,所述指标值确定模块,具体用于确定所述待评估数据对应应用场景的数量;并基于所述应用场景的数量确定所述待评估数据的应用场景指标的指标值,且所述应用场景数量越多,表征所述待评估数据的应用场景指标的指标值越大;
针对包括供应商指标的情况,所述指标值确定模块,具体用于判断所述待评估数据是否为数据提供者的原生数据;并基于判断结果确定所述待评估数据的供应商指标的指标值。
8.如权利要求5所述的平台,其特征在于,所述***值确定模块具体用于将所述待评估数据的预设维度成本的加权和值确定为所述待评估数据的***值;其中,所述预设维度成本至少包括如下成本的一种或多种:建设成本、运维成本、数据获取成本、以及清洗加工成本。
9.如权利要求1所述的平台,其特征在于,所述数据价值确定模块,具体用于将确定的指标值的加权和值确定为价值矫正系数;将使用所述价值矫正系数对所述***值矫正后的值确定为所述待评估数据的数据价值。
10.一种数据价值评估方法,其特征在于,该方法包括:
为待评估数据确定预设指标的指标值;其中,所述预设指标包括表征数据质量的数据质量指标和表征数据业务应用价值的业务价值指标;
根据所述待评估数据的成本为所述待评估数据确定***值;
基于确定的指标值和***值之间的预设运算关系,确定所述待评估数据的数据价值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810510595.3A CN108734405A (zh) | 2018-05-24 | 2018-05-24 | 一种数据价值评估平台和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810510595.3A CN108734405A (zh) | 2018-05-24 | 2018-05-24 | 一种数据价值评估平台和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108734405A true CN108734405A (zh) | 2018-11-02 |
Family
ID=63936073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810510595.3A Pending CN108734405A (zh) | 2018-05-24 | 2018-05-24 | 一种数据价值评估平台和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108734405A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109616180A (zh) * | 2018-11-07 | 2019-04-12 | 平安科技(深圳)有限公司 | 数据分析方法、装置、终端及存储介质 |
CN109740033A (zh) * | 2018-11-12 | 2019-05-10 | 盐城优易数据有限公司 | 一种确定数据处理成本的方法及装置 |
CN110070304A (zh) * | 2019-04-30 | 2019-07-30 | 深圳市超算科技开发有限公司 | 一种大数据资产质量评估方法 |
CN110263073A (zh) * | 2019-06-20 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种数据价值评估方法及相关装置 |
CN113392096A (zh) * | 2021-06-03 | 2021-09-14 | 重庆锐云科技有限公司 | 一种房地产数据质量分析方法、装置、设备及存储介质 |
CN113822602A (zh) * | 2021-11-22 | 2021-12-21 | 武汉龙津科技有限公司 | 一种数据价值评估方法、装置、设备和存储介质 |
CN113919602A (zh) * | 2021-12-13 | 2022-01-11 | 华南师范大学 | 一种大数据交易的数据价值双向评估方法及*** |
CN113961726A (zh) * | 2021-12-20 | 2022-01-21 | 中国人民解放军战略支援部队航天工程大学士官学校 | 一种指挥任务匹配方法及*** |
CN115409419A (zh) * | 2022-09-26 | 2022-11-29 | 河南星环众志信息科技有限公司 | 业务数据的价值评估方法、装置、电子设备及存储介质 |
CN116187814A (zh) * | 2022-12-26 | 2023-05-30 | 广州城市规划技术开发服务部有限公司 | 一种数据价值的计算方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013506180A (ja) * | 2009-09-25 | 2013-02-21 | ファキーフ,アドナン | データベース及びデータベースからのデータ評価方法 |
CN106355447A (zh) * | 2016-08-31 | 2017-01-25 | 国信优易数据有限公司 | 一种数据商品的价格评估方法及*** |
CN106469395A (zh) * | 2016-08-31 | 2017-03-01 | 国信优易数据有限公司 | 一种数据商品动态综合评估方法及*** |
CN106469195A (zh) * | 2016-08-31 | 2017-03-01 | 国信优易数据有限公司 | 基于一致性的数据文件价值评估方法和*** |
-
2018
- 2018-05-24 CN CN201810510595.3A patent/CN108734405A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013506180A (ja) * | 2009-09-25 | 2013-02-21 | ファキーフ,アドナン | データベース及びデータベースからのデータ評価方法 |
CN106355447A (zh) * | 2016-08-31 | 2017-01-25 | 国信优易数据有限公司 | 一种数据商品的价格评估方法及*** |
CN106469395A (zh) * | 2016-08-31 | 2017-03-01 | 国信优易数据有限公司 | 一种数据商品动态综合评估方法及*** |
CN106469195A (zh) * | 2016-08-31 | 2017-03-01 | 国信优易数据有限公司 | 基于一致性的数据文件价值评估方法和*** |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109616180A (zh) * | 2018-11-07 | 2019-04-12 | 平安科技(深圳)有限公司 | 数据分析方法、装置、终端及存储介质 |
CN109740033A (zh) * | 2018-11-12 | 2019-05-10 | 盐城优易数据有限公司 | 一种确定数据处理成本的方法及装置 |
CN110070304A (zh) * | 2019-04-30 | 2019-07-30 | 深圳市超算科技开发有限公司 | 一种大数据资产质量评估方法 |
CN110263073B (zh) * | 2019-06-20 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 一种数据价值评估方法及相关装置 |
CN110263073A (zh) * | 2019-06-20 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种数据价值评估方法及相关装置 |
CN113392096A (zh) * | 2021-06-03 | 2021-09-14 | 重庆锐云科技有限公司 | 一种房地产数据质量分析方法、装置、设备及存储介质 |
CN113822602A (zh) * | 2021-11-22 | 2021-12-21 | 武汉龙津科技有限公司 | 一种数据价值评估方法、装置、设备和存储介质 |
CN113919602A (zh) * | 2021-12-13 | 2022-01-11 | 华南师范大学 | 一种大数据交易的数据价值双向评估方法及*** |
CN113961726B (zh) * | 2021-12-20 | 2022-03-01 | 中国人民解放军战略支援部队航天工程大学士官学校 | 一种指挥任务匹配方法及*** |
CN113961726A (zh) * | 2021-12-20 | 2022-01-21 | 中国人民解放军战略支援部队航天工程大学士官学校 | 一种指挥任务匹配方法及*** |
CN115409419A (zh) * | 2022-09-26 | 2022-11-29 | 河南星环众志信息科技有限公司 | 业务数据的价值评估方法、装置、电子设备及存储介质 |
CN115409419B (zh) * | 2022-09-26 | 2023-12-05 | 河南星环众志信息科技有限公司 | 业务数据的价值评估方法、装置、电子设备及存储介质 |
CN116187814A (zh) * | 2022-12-26 | 2023-05-30 | 广州城市规划技术开发服务部有限公司 | 一种数据价值的计算方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734405A (zh) | 一种数据价值评估平台和方法 | |
CN108764705A (zh) | 一种数据质量评估平台以及方法 | |
US11301525B2 (en) | Method and apparatus for processing information | |
CN106355447A (zh) | 一种数据商品的价格评估方法及*** | |
CN109558541B (zh) | 一种信息处理的方法、装置及计算机存储介质 | |
CN108764707A (zh) | 一种数据评估***以及方法 | |
CN108764995A (zh) | 一种数据价值确定***和方法 | |
CN110766428A (zh) | 一种数据价值评估***以及方法 | |
KR101441164B1 (ko) | 오브젝트 커스터마이제이션 및 관리 시스템 | |
CN110659926A (zh) | 一种数据价值评估***以及方法 | |
CN110413926A (zh) | 一种问卷调查方法及装置 | |
CN111861605A (zh) | 业务对象推荐方法 | |
CN115409419A (zh) | 业务数据的价值评估方法、装置、电子设备及存储介质 | |
CN114723492A (zh) | 一种企业画像的生成方法及设备 | |
CN109450963B (zh) | 消息推送方法及终端设备 | |
CN111209480A (zh) | 一种推送文本的确定方法、装置、计算机设备和介质 | |
CN106354822A (zh) | 获取目标用户的方法和装置 | |
CN111680941B (zh) | 保价推荐方法、装置、设备及存储介质 | |
CN108829750A (zh) | 一种数据质量确定***以及方法 | |
CN109960777B (zh) | 物品评论个性化推荐方法、***、电子设备及存储介质 | |
CN110827137A (zh) | 信用评价方法和装置 | |
CN114066513A (zh) | 一种用户分类的方法和装置 | |
CN108109002B (zh) | 数据处理方法及装置 | |
CN113836430A (zh) | 书籍推荐方法、终端及存储介质 | |
CN107818483B (zh) | 网络卡券推荐方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100070, No. 101-8, building 1, 31, zone 188, South Fourth Ring Road, Beijing, Fengtai District Applicant after: Guoxin Youyi Data Co., Ltd Address before: 100070, No. 188, building 31, headquarters square, South Fourth Ring Road West, Fengtai District, Beijing Applicant before: SIC YOUE DATA Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181102 |
|
RJ01 | Rejection of invention patent application after publication |