CN117421462B - 一种数据处理方法、装置及电子设备 - Google Patents

一种数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN117421462B
CN117421462B CN202311735986.2A CN202311735986A CN117421462B CN 117421462 B CN117421462 B CN 117421462B CN 202311735986 A CN202311735986 A CN 202311735986A CN 117421462 B CN117421462 B CN 117421462B
Authority
CN
China
Prior art keywords
node
classification
value
data table
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311735986.2A
Other languages
English (en)
Other versions
CN117421462A (zh
Inventor
王哲
赵梓荣
舒光斌
岳丰
方兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Citic Securities Co ltd
Original Assignee
Citic Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Citic Securities Co ltd filed Critical Citic Securities Co ltd
Priority to CN202311735986.2A priority Critical patent/CN117421462B/zh
Publication of CN117421462A publication Critical patent/CN117421462A/zh
Application granted granted Critical
Publication of CN117421462B publication Critical patent/CN117421462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种数据处理方法、装置及电子设备,在面临分类需求时,首先确定各个***级节点对应的分类参考值,然后针对具有数据表分类需求的待处理***级节点,进一步计算待处理***级节点中的各个数据表节点对应的分类参考值,最后根据分类需求完成分类操作。即本发明,按照节点间的包含关系,从数量小的***级节点开始计算分类参考值,由于***级节点数量小且关系简单,此时计算量相比于直接进行数据表的分类参考值的计算方式来说,计算量少,在得到每个***级节点的分类参考值后,独立计算待处理***级节点内部的数据表节点的分类参考值,计算量少,通过本发明逐层计算分类参考值的方式,能够降低数据处理量,并保证数据分类结果的准确性。

Description

一种数据处理方法、装置及电子设备
技术领域
本发明涉及数据处理领域,更具体的说,涉及一种数据处理方法、装置及电子设备。
背景技术
在国家大力推动数字经济发展的同时,企业也在积极响应并开展大规模的数字化转型。目前,科技的高速发展使数据在工业生产中的体量日益增大,同时各种技术也日新月异。不论是内部管理方面,还是外部交易方面,企业都需要一套合理的数据治理方法,来对庞大的数据进行处理。
数据治理的核心目标是提高数据质量,为数据资产管理提供完整、准确的元数据,帮助数据使用者准确理解数据的含义和价值,更加准确的对元数据按照不同的维度或者需求进行分类处理,以更好的为后续的分析需求提供有力的保障。
但是,由于目前数据资产管理中所涉及的数据量非常庞大,且,数据间关系复杂,如何对庞大且关系复杂的数据进行准确的分类,是亟需解决的问题。
发明内容
有鉴于此,本申请提供了一种数据处理方法、装置及电子设备,用于解决在数据量庞大且数据间关系复杂时,亟需对其进行准确分类的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种数据处理方法,包括:
获取目标对象的血缘关系图谱,所述血缘关系图谱包含处于不同层级的节点,以及节点之间的关系;
确定所述血缘关系图谱中包含的各个***级节点;
获取分类参考信息,所述分类参考信息包括:收益参考信息或成本参考信息;
依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,利用经典沙普利Shapley值方法,分别确定各个所述***级节点对应的分类参考值;
针对待处理***级节点,根据与所述待处理***级节点具有影响关系的目标***级节点对应的分类参考值,利用经典Shapley值方法,计算所述待处理***级节点中的各个数据表节点对应的分类参考值;所述待处理***级节点包括具有数据分类需求的数据表对应的数据表节点;
响应于当前分类需求,依据所述待处理***级节点中的各个数据表节点的分类参考值,对所述目标对象包含的至少一个***中的数据表进行分类。
可选地,依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,利用经典Shapley值方法,分别确定各个所述***级节点对应的分类参考值,包括:
针对各个所述***级节点,确定与所述***级节点对应的参考集合;所述参考集合为,由所述目标对象中除所述***级节点之外的其他所有***级节点组成的***集合的子集合;
依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,分别确定由所述参考集合以及所述***级节点组成的待处理集合的参考信息值、以及所述参考集合的参考信息值;
利用经典Shapley值方法,结合所述待处理集合的参考信息值以及所述参考集合的参考信息值,依次确定各个所述***级节点对应的分类参考值。
可选地,在所述分类参考信息为收益参考信息时,依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,确定由所述参考集合以及所述***级节点组成的待处理集合的参考信息值,包括:
确定由所述参考集合以及所述***级节点组成的待处理集合对应的影响***集合,所述影响***集合为依据所述血缘关系图谱确定出的,所述待处理集合中的各***级节点向下影响的***级节点的集合;
依据所述影响***集合中的具有收益信息值的数据表节点的收益信息值,计算所述待处理集合的参考信息值。
可选地,确定由所述参考集合以及所述***级节点组成的待处理集合对应的影响***集合,包括:
基于所述血缘关系图谱对应的传递闭包矩阵,分析得到由所述参考集合以及所述***级节点组成的待处理集合对应的影响***集合。
可选地,依据所述影响***集合中的具有收益信息值的数据表节点的收益信息值,计算所述待处理集合的参考信息值,包括:
确定出所述影响***集合中包括的具有收益信息值的面向业务数据表节点,并计算所述面向业务数据表节点的收益信息值;
基于所述面向业务数据表节点的收益信息值,计算所述待处理集合的影响参考信息值;
将所述待处理集合的影响参考信息值作为所述待处理集合的参考信息值。
可选地,针对待处理***级节点,根据与所述待处理***级节点具有影响关系的目标***级节点对应的分类参考值,利用经典Shapley值方法,计算所述待处理***级节点中的各个数据表节点对应的分类参考值,包括:
确定待处理***级节点;所述待处理***级节点包括具有数据分类需求的数据表对应的数据表节点;
在所述待处理***级节点仅包括一个数据库节点的情况下,将所述待处理***级节点的分类参考值作为所述待处理***级节点中的数据库节点的分类参考值;
确定与所述待处理***级节点具有影响关系的目标***级节点;所述目标***级节点仅包括一个目标数据库节点;
根据所述目标数据库节点的分类参考值,利用经典Shapley值方法,计算所述数据库节点中的各个数据表节点对应的分类参考值。
可选地,根据所述目标数据库节点的分类参考值,利用经典Shapley值方法,计算所述数据库节点中的各个数据表节点对应的分类参考值,包括:
将影响所述数据库节点的第一目标数据库节点作为所述数据库节点的虚拟输入节点,并将所述虚拟输入节点的收益信息值设置为预设收益信息数值;
将受所述数据库节点影响的第二目标数据库节点的集合作为所述数据库节点的虚拟输出节点,并计算所述虚拟输出节点的收益信息值;所述目标数据库节点包括所述第一目标数据库节点和所述第二目标数据库节点;所述虚拟输出节点的收益信息值与所述第二目标数据库节点的分类参考值相关;
根据所述虚拟输入节点的收益信息值、以及所述虚拟输出节点的收益信息值,利用经典Shapley值方法计算所述数据库节点中的各个数据表节点对应的分类参考值。
可选地,所述血缘关系图谱还包括:运算节点,所述运算节点为表征相邻数据表间运算关系的节点;
根据所述虚拟输入节点的收益信息值、以及所述虚拟输出节点的收益信息值,利用经典Shapley值方法计算所述数据库节点中的各个数据表节点对应的分类参考值,包括:
根据所述虚拟输入节点的收益信息值、以及所述虚拟输出节点的收益信息值,利用经典Shapley值方法计算所述数据库节点中的各个数据表节点以及各个运算节点对应的分类参考值。
可选地,在所述分类参考信息为成本参考信息时,依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,确定由所述参考集合以及所述***级节点组成的待处理集合的参考信息值,包括:
确定由所述参考集合以及所述***级节点组成的待处理集合对应的溯源***集合,所述溯源***集合为依据所述血缘关系图谱确定出的,所述待处理集合中的各***级节点向上影响的***级节点的集合;
依据所述溯源***集合中的具有成本信息值的数据表节点的成本信息值,计算所述待处理集合的参考信息值。
可选地,在响应于当前分类需求,依据所述待处理***级节点中的各个数据表节点的分类参考值,对所述目标对象包含的至少一个***中的数据表进行分类之后,还包括:
获取所述数据表的分类结果;
按照预先配置的存储规则,对所述数据表进行存储操作;所述存储规则中,不同分类结果的数据表的存储区域不同,或,不同分类结果的数据表的备份存储方式不同。
一种数据处理装置,包括:
数据获取模块,用于获取目标对象的血缘关系图谱,所述血缘关系图谱包含处于不同层级的节点,以及节点之间的关系;
节点确定模块,用于确定所述血缘关系图谱中包含的各个***级节点;
信息获取模块,用于获取分类参考信息,所述分类参考信息包括:收益参考信息或成本参考信息;
第一数值计算模块,用于依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,利用经典Shapley值方法,分别确定各个所述***级节点对应的分类参考值;
第二数值计算模块,用于针对待处理***级节点,根据与所述待处理***级节点具有影响关系的目标***级节点对应的分类参考值,利用经典Shapley值方法,计算所述待处理***级节点中的各个数据表节点对应的分类参考值;所述待处理***级节点包括具有数据分类需求的数据表对应的数据表节点;
分类模块,用于响应于当前分类需求,依据所述待处理***级节点中的各个数据表节点的分类参考值,对所述目标对象包含的至少一个***中的数据表进行分类。
一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于执行上述的数据处理方法。
相较于现有技术,本发明具有以下有益效果:
本发明提供了一种数据处理方法、装置及电子设备,在面临分类需求时,首先确定各个所述***级节点对应的分类参考值,然后针对具有数据表分类需求的待处理***级节点,进一步计算待处理***级节点中的各个数据表节点对应的分类参考值,最后根据分类需求完成分类操作。即本发明中,并未直接利用经典Shapley值方法进行数据表的分类参考值计算,而是按照节点间的包含关系,从数量小的***级节点开始计算分类参考值,由于***级节点数量小且关系简单,此时计算量相比于直接利用经典Shapley值方法进行数据表的分类参考值的计算方式来说,计算量会少很多,在得到每个***级节点的分类参考值后,独立计算待处理***级节点内部的数据表节点的分类参考值,待处理***级节点内部的数据表节点相比于所有***包括的所有数据表节点的数据量来说,计算量小且关系简单,所以通过本发明这种逐层计算分类参考值的方式,能够在数据量庞大且数据间关系复杂时,能够降低数据处理量,并保证数据分类结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据处理方法的方法流程图;
图2为本发明实施例提供的一种***、数据库和数据表的实际场景关系示意图;
图3为本发明实施例提供的一种血缘关系图谱的示意图;
图4为本发明实施例提供的一种血缘关系图谱的处理图;
图5为本发明实施例提供的一种计算分类参考值的方法流程图;
图6为本发明实施例提供的一种影响***集合的示意图;
图7为本发明实施例提供的一种溯源***集合的示意图;
图8为本发明实施例提供的另一种计算分类参考值的方法流程图;
图9为本发明实施例提供的再一种血缘关系图谱的处理图;
图10为本发明实施例提供的另一种血缘关系图谱的处理图;
图11为本发明实施例提供的一种数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在国家大力推动数字经济发展的同时,企业也在积极响应并开展大规模的数字化转型。目前,科技的高速发展使数据在工业生产中的体量日益增大,同时各种技术也日新月异。不论是内部管理方面,还是外部交易方面,企业都需要一套合理的数据治理方法,来对庞大的数据进行处理。
数据治理的核心目标是提高数据质量,为数据资产管理提供完整、准确的元数据,帮助数据使用者准确理解数据的含义和价值,更加准确的对元数据按照不同的维度或者需求进行分类处理,以更好的为后续的分析需求提供有力的保障。
但是,由于目前数据资产管理中所涉及的数据量非常庞大,且,数据间关系复杂,如何对庞大的且关系复杂的数据进行准确的分类,是亟需解决的问题。
为了解决分类问题,可以使用经典Shapley值公式计算分类参考值,然后基于分类参考值进行分类操作。但是发明人研究发现,在使用经典Shapley值公式进行计算时,数据处理量非常大,以对数据表分类为例,经典Shapley值公式如下:
(1)
其中,全部数据表节点集合记为中的数据表节点记为表示全部数据表 节点集合的任意不包含数据表节点的子集合,首先分别计算这两个集合的 参考信息值,进而求差值。
中数据表数目为,则所有满足条件的集合共有个,因此经典 Shapley值公式中的求和项有个,计算复杂度为指数级,所以在使用经典Shapley值 公式进行分类参考值计算时,其计算复杂度较高,不适用庞大且关系复杂的数据进行准确 分类的应用场景。
为了解决经典Shapley值公式存在的数据量计算大的问题,发明人研究发现,由于数据之间是有层级关系的,且最细粒度数据的数量和关系复杂度,远远高于粗粒度数据的数量和关系复杂度,可以优先利用经典Shapley值公式计算得到粗粒度,即高层级的数据,如***的分类参考值,然后利用经典Shapley值公式计算细粒度,即低层级数据,如数据表的分类参考值,这种将数据分层级计算的方式,相比于直接利用经典Shapley值公式计算数据表的分类参考值的方式,能够减少计算时的数据量和复杂度,所以能够适用于对庞大且关系复杂的数据进行准确分类的应用场景。
本发明提供了一种数据处理方法、装置及电子设备,在面临分类需求时,首先确定各个所述***级节点对应的分类参考值,然后针对具有数据表分类需求的待处理***级节点,进一步计算待处理***级节点中的各个数据表节点对应的分类参考值,最后根据分类需求完成分类操作。即本发明中,并未直接利用经典Shapley值方法进行数据表的分类参考值计算,而是按照节点间的包含关系,从数量小的***级节点开始计算分类参考值,由于***级节点数量小且关系简单,此时计算量相比于直接利用经典Shapley值方法进行数据表的分类参考值的计算方式来说,计算量会少很多,在得到每个***级节点的分类参考值后,独立计算待处理***级节点内部的数据表节点的分类参考值,待处理***级节点内部的数据表节点相比于所有***包括的所有数据表节点的数据量来说,计算量小且关系简单,所以通过本发明这种逐层计算分类参考值的方式,能够在数据量庞大且数据间关系复杂时,降低数据处理量,并保证数据分类结果的准确性。
另外,本发明中的待处理***级节点可以按需选择,相比于对所有***中的所有数据表节点进行分类参考值的计算的方案,也能够减少数据计算量。
本发明的一实施例中提供了一种数据处理方法,参照图1,该方法包括:
S11、获取目标对象的血缘关系图谱。
其中,所述血缘关系图谱包含处于不同层级的节点,以及节点之间的关系。
在实际应用中,目标对象可以是包含多个***的***集合,***可以根据实际情况配置,如为IT(Information Technology,信息技术)等***。数据资产按颗粒度从细到粗,或从底层到上层,存在递归的包含关系,例如数据表包含于数据库、数据库包含于***,全部***构成了目标对象。若是对数据库进行具体细分,可以为:数据表包含于模式Schema、Schema包含于数据库。若是对数据表进行细分,可以细分为:数据字段包含于数据表。
本实施例中,预先构建了目标对象的血缘关系图谱,血缘关系图谱可以参照图2和图3,图2给出了企业中配置的***、数据库和数据表的实际场景关系示意图,***以XX***和XY***为例,XX***包括一个数据库(以图2中的圆柱形结构表示),数据库包括两个数据表(以图2中的表格表示)。XY***包括两个数据库,每一数据库包括一个数据表。图2中的箭头代表数据表之间的影响关系,该关系可以是基于一数据表制作另一数据表。
需要说明的是,图2仅为示例说明,在实际应用中,***的结构可能更复杂,具体以实际***结构为准。一般情况下,目标对象中会包括至少两个***,每个***中可以包括一个或多个数据库。
为了构建图2对应的血缘关系图谱,针对每一***,构建其对应的***级节点,针对每一数据库,构建其对应的数据库节点,针对每一数据表,构建其对应的数据表节点,具体可以参照图3,图3为图2对应的企业级的数据血缘图谱。
图3中,数据血缘图谱具有层次化特性,***级节点构成了最粗粒度的图谱节点,然后***级节点包括至少一个数据库节点,特殊情况下,***级节点仅包括一个数据库节点,每个数据库节点包括至少一个数据表节点。在实际场景中,粗粒度节点数目远低于细粒度节点数目,如***级节点数目为几百个、数据表节点数量为几十万个、数据字段节点数量可达到几百万个。
需要说明的是,图3通过数据表节点、数据库节点以及***级节点之间的包含关系,来体现不同层级或不同颗粒度的节点之间的关联关系、以及同一层级的节点之间的关联关系。
另外,图2和图3仅为示例说明,在实际应用中,可根据需要设置***、数据库、以及数据表的数量,以及三者的包含关系。
若是为了更细的体现Schema节点以及数据字段节点,可以对图3进行更细粒度的划分。
S12、确定所述血缘关系图谱中包含的各个***级节点。
在实际应用中,由于本发明需要从粗粒度节点开始计算分类参考值,然后在按照粒度由粗到细的顺序或层级由高到低的顺序,计算细粒度节点的分类参考值,所以首先需要确定最粗粒度的节点,本实施例中,设置***级节点为最粗粒度的图谱节点,所以,本实施例中需要确定***级节点。
参照图4,图4中以***级节点仅包括一个数据库节点为例,此时***级节点即为数据库节点。图4中有两种型号的圆圈,以白色圆圈表示***级节点,以内部填充点的圆圈表示数据表节点,以白色圆圈包括内部填充点的圆圈表示***级节点与数据表节点之间的逻辑关系,所以可以通过归纳抽象,得到各个***级节点。
详细来说,如图4中的左图所示,企业的全部数据资产元数据,按照包含关系和影响关系这两种关系,构成了层次化的血缘关系图谱。为示意方便,图中只刻画了两个粒度的数据资产元数据:***级节点(白色圆圈)、数据表(内部填充点的圆圈),以体现数据资产元数据中的层级关系,实际场景中也可以刻画更多粒度。在刻画血缘关系上,通过有向边表示数据表之间的影响关系,通过白色圆圈包含内部填充点的圆圈刻画了***与数据表的包含关系。影响关系是定义在两个相同粒度的元数据之间的,根据已知信息刻画到尽可能细的粒度。包含关系是定义在两个相邻粒度的元数据之间的,比如:***包含数据库、数据库包含数据表、数据表包含数据字段等等。
在左图的血缘关系图谱基础上,通过对数据表节点和有向边进行归纳抽象,得到粗粒度***级节点及其血缘关系的图谱,如图4中的右图所示。其中,节点的归纳抽象是指将细粒度的数据表节点删除,只保留包含它们的***级节点,对应在图4中的右图上的白色圆圈。有向边的归纳抽象是指基于细粒度的数据表节点的影响关系,按照元数据的包含关系推理得到粗粒度***级节点之间的血缘影响关系。例如,若第一数据库节点包含第一数据表节点,第二数据库节点包含第二数据表节点,存在第一数据表节点到第二数据表节点的直接影响关系,则可以推理得到第一数据库节点到第二数据库节点的影响关系,则在第一数据库节点与第二数据库节点之间构建表征二者关系的有向边,由此可得,图4中右图的四个节点及其影响关系。
S13、获取分类参考信息。
其中,所述分类参考信息包括:收益参考信息或成本参考信息。
在实际应用中,分类参考信息可以参考数据资产估值的类型来确定,例如,数据资产估值可以分为成本法、收益法、市场法三大类。其中,成本法考虑数据资产在获取、加工、维护、管理中的开销。收益法考虑数据资产运用所产生的经济收益。市场法考虑通过数据资产在市场上交易的信息(如价格)来确定其价值。
在本实施例的应用场景中,数据表中的数据大多数不参与市场交易,所以分类参考信息可以不考虑市场法,仅考虑成本法和收益法逻辑下的企业内部数据资产估值,得到其数据价值,然后将其作为本实施例中的分类参考值。则在数据资产估值类型为成本法和收益法时,分类参考值相应可以包括,成本分类参考值和收益分类参考值。
目前在进行数据资产估值时,大多会独立分析和计算每个数据资产元数据的分类参考值,但是企业内各种数据资产其实并不是孤立的,而是存在各种关联,这种关联关系也会对分类参考值产生影响。例如,从数据上下游关联上看,如果很多数据资产的产生,都依赖于某上游数据资产X,且X具有不可替代性,则X理应具有较高的分类参考值。如上述的血缘关系图谱,可以完整表达数据资产间的直接或间接的关联关系。另一方面,从数据组合应用上,完成某个数据应用需求往往会同时使用多个数据资产(如数据表),这些数据资产可以视为组合在一起产生价值,如果需要计算某个数据表的价值,则也需要将价值进行分摊,得到数据表的价值,这个过程可以基于合作博弈论模型,给出科学、合理的价值分摊计算方法。
所以,本实施例中,使用血缘关系图谱衡量数据表之间的关联关系,利用合作博弈模型计算数据表之间的价值分摊,得到最终的分类参考值,合作博弈模型具体可以包括上述的经典Shapley值公式。
在实际应用中,针对收益法,从数据服务企业的用户需求为出发点,根据对具体收 益的贡献测算为目标,设计分类参考值的计算过程。以图3中的血缘关系图谱为例,考虑血 缘关系图谱中的全部数据表,面向具体业务数据表较容易评估数据价值,底层数据表直接 评估其数据价值比较困难,针对底层数据表,可以根据其在血缘上对面向业务数据表贡献, 分摊面向业务数据表的数据价值,以得到底层数据表的数据价值。将全部数据表节点集合 记为,将其划分为两个子集:面向业务数据表、其他基础层数据表。假设中任意数据表,均可以评估业务使用情况给出业务 输出价值,具体可为收益信息值。基于收益法理论,该收益信息值的计算公式为
(2)
其中,表示该数据表预期产生收益的年限,表示其在第年产生的预期收益, 表示折现率,一般
针对成本法,基于数据资产的成本,设计成本信息值的计算过程。本实施例中的成本可以包括:建设成本、机器成本、软件成本及运维成本中的一个,或,建设成本、机器成本、软件成本及运维成本之和。
对全部数据表节点集合记为,将其划分为两个子集:从外部购买的数据表、内部加工生产的数据表。假设中任意表,均 可以利用购买时价格,给出其成本信息值
在实际应用中,一个数据表的收益信息值或者是成本信息值,与其对应的分类参考值不同,本实施例中是基于收益信息值或者是成本信息值,进行价值分摊,计算得到分类参考值,即收益信息值或者是成本信息值是计算分类参考值的一个运算参数,数据表的收益信息值或者是成本信息值是可以统计或计算得到的,在此基础上,基于经典Shapley值方法计算得到数据表的分类参考值。
另外,在进行分类参考值计算时,不是以单个数据表为处理单元进行计算,而是以集合,如参考集合、待处理集合为处理单元进行计算的。
S14、依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,利用经典Shapley值方法,分别确定各个所述***级节点对应的分类参考值。
本实施例中,从最粗粒度的***级节点开始,计算其分类参考值,在计算分类参考 值时,若是参考分类信息为收益参考信息,则***级节点的分类参考值由内部包括的面向 业务数据表的收益信息值,具体为决定,面向业务数据表的收益信息值基于公式 2计算得到。若是参考分类信息为成本参考信息,则***级节点的分类参考值由内部包括的 外部购买的数据表的成本信息值决定,外部购买的数据表的成本信息值具体为
S15、针对待处理***级节点,根据与所述待处理***级节点具有影响关系的目标***级节点对应的分类参考值,利用经典Shapley值方法,计算所述待处理***级节点中的各个数据表节点对应的分类参考值。
本实施例中,在得到各个***级节点的分类参考值之后,不计算所有***级节点中的数据表节点的分类参考值,而是仅计算有数据表节点的分类参考值计算需求的***级节点,本实施例中称为待处理***级节点,所述待处理***级节点包括具有数据分类需求的数据表对应的数据表节点。
在实际应用中,首先需要确定待处理***级节点,具体方式可以是人工从多个***级节点中挑选出重要的***级节点,将其作为待处理***级节点。
在实际情况下,若待处理***级节点仅包括一个数据库节点,可以将待处理***级节点中的数据库节点的分类参考值作为待处理***级节点的分类参考值。
然后,确定与待处理***级节点具有影响关系的目标***级节点。实际情况下,所述目标***级节点也可以仅包括一个目标数据库节点。
本实施例中的与所述待处理***级节点具有影响关系的目标***级节点,可以是影响该***级节点的节点,或者是受该***级节点影响的节点。
然后,根据所述目标***级节点的分类参考值,利用经典Shapley值方法,计算目标***级节点中的各个数据表节点对应的分类参考值。
需要说明的是,若是待处理***级节点内部包括多个数据库节点,则首先需要计算每个数据库节点的分类参考值,然后再计算每个数据库节点中的每个数据表节点的分类参考值。
另外,若是还需要计算Schema节点以及数据字段的分类参考值,则依次计算数据库节点的分类参考值、Schema节点的分类参考值、数据表节点的分类参考值以及数据字段节点的分类参考值,即本发明按照从粗粒度到细粒度的方式,依次计算各个粒度的分类参考值,以减少每次计算时的数据关系复杂度,降低数据计算量。
S16、响应于当前分类需求,依据所述待处理***级节点中的各个数据表节点的分类参考值,对所述目标对象包含的至少一个***中的数据表进行分类。
具体的,在计算得到上述的数据表的分类参考值之后,可以按照当前分类需求,对数据表进行分类操作。
当前分类需求可以基于实际场景设定,如基于数据表的分类参考值,按照取值的百分比划分,将不同取值段内的数据表分配不同的级别。举例来说,将分类参考值位于80%-100%范围内的数据表的级别设置为一级,将分类参考值位于50%-80%范围内的数据表的级别设置为二级,将分类参考值位于30%-50%范围内的数据表的级别设置为三级……,其中,一级、二级、三级……的级别依次递减。
又或者,设定特定的阈值,将分类参考值高于某个阈值的数据表定为重要度较高的类别,将低于某个特定阈值的数据表定为重要度较低的类别。如将分类参考值高于第一阈值的数据表设置为一级,将分类参考值低于第一阈值的数据表设置为二级。
上述是直接按照分类参考值,如收益值或者是成本值进行等级划分,此外,还可以结合收益值和成本值进行等级划分,如利用二者加权和设定阈值的方式进行等级划分。又或者,设定其他一些影响数据分类的参数,将这些参数、收益值和成本值作为一个向量,输入到模型中,得到分类结果。其中,模型可以采用神经网络、机器学习等各种实现方式。
本实施例中的模型需要预先训练,在训练时,确定样本的数据分类参数,如上述的收益值、成本值和其他一些影响数据分类的参数,人工标注其分类结果。然后将样本输入到模型中,在损失函数满足条件或者是达到最大迭代次数时,停止训练。
在模型训练结束后,将上述的收益值、成本值以及其他影响数据分类的参数作为一个向量输入到模型中,即可得到分类结果。
本发明的另一实现方式中,在进行了数据表分类操作之后,每个数据表都有对应的分类结果,如为一级、二级、三级……中的一个,其中一级、二级、三级……的级别依次递减。
后续可以按照分类结果对数据表进行其他的后续操作,例如根据分类结果进行存储操作。在进行数据表存储操作时,可以预先设定存储规则,如存储规则可以为不同分类结果的数据表的存储区域不同。详细来说,分类结果中级别高的数据表的数据保密程度较高,可以将其存储在安全区域,级别低的数据表的数据保密程度较低,可以将其存储在其他区域。
又或者,不同分类结果的数据表的备份存储方式不同,如级别高的数据表的数据重要程度较高,不可缺失,可以在存储时进行冗余备份,以避免数据丢失导致的数据缺失的问题,级别低的数据表的数据重要程度较低,在缺失时影响较小,可以在存储时不进行冗余备份。
所以,本实施例中,可以获取所述数据表的分类结果,然后按照预先配置的存储规则,对所述数据表进行存储操作。
除了依据分类结果进行存储操作外,还可以进行其他操作,例如还可以对分类结果中级别高的数据进行加密操作,对级别低的数据不做加密处理。
此外,在计算得到分类参考值进行分类,得到分类结果,并按照分类结果对数据表进行其他的后续操作时,除了可以仅基于数据表的分类结果进行数据操作,还可以将分类结果与一些预先设定的权重系数结合,该权重系数为0-1的值,将分类参考值与该权重系数相乘,实现对分类结果的调整,利用调整后的结果进行后续操作,例如存储操作。
本实施例中的权重系数可以根据数据表在血缘关系图谱中的出入度、数据量(如条数、字节值等)、数据成本等进行设定。如数据成本越高权重系数越大,出入度越高,权重系数越大。
需要说明的是,在使用出入度、数据量、以及数据成本进行计算时,需要对其进行标准化操作,以将其调整到0-1的数据范围内。
本实施例中,在面临分类需求时,首先确定各个所述***级节点对应的分类参考值,然后针对具有数据表分类需求的待处理***级节点,进一步计算待处理***级节点中的各个数据表节点对应的分类参考值,最后根据分类需求完成分类操作。即本发明中,并未直接利用经典Shapley值方法进行数据表的分类参考值计算,而是按照节点间的包含关系,从数量小的***级节点开始计算分类参考值,由于***级节点数量小且关系简单,此时计算量相比于直接利用经典Shapley值方法进行数据表的分类参考值的计算方式来说,计算量会少很多,在得到每个***级节点的分类参考值后,独立计算待处理***级节点内部的数据表节点的分类参考值,待处理***级节点内部的数据表节点相比于所有***包括的所有数据表节点的数据量来说,计算量小且关系简单,所以通过本发明这种逐层计算分类参考值的方式,能够在数据量庞大且数据间关系复杂时,降低数据处理量,并保证数据分类结果的准确性。
上述实施例提及了首先计算***级节点的分类参考值,现对具体实现进行解释说明。参照图5,步骤S14可以包括:
S21、针对各个所述***级节点,确定与所述***级节点对应的参考集合。
其中,所述参考集合为,由所述目标对象中除所述***级节点之外的其他所有***级节点组成的***集合的子集合。
在实际应用中,一个***级节点内部包括至少一个数据库节点,本实施例为更好的对方案进行阐述,以一个***级节点内部仅有一个数据库节点为例进行说明。在一个***级节点内部仅有一个数据库节点时,***级节点的分类参考值的计算过程与数据库节点的分类参考值的计算过程相同,后续以数据库节点的分类参考值的计算过程为例,说明如何计算数据库节点的分类参考值。在计算得到数据库节点的分类参考值之后,该值即为数据库节点所在的***级节点的分类参考值。
具体的,利用经典Shapley值方法计算数据库节点的分类参考值,经典Shapley值方法的公式可以如:
(3)
其中,为全部数据库节点集合,中的某个数据库节点,表示中任意 不包含的参考集合的子集合。
在使用经典Shapley值方法时,首先需要确定,以数据库节点为例,所述参 考集合为:由中除所述之外的其他所有数据库节点组成的***集合的子集合。
由于数据库节点的数量||远小于数据表节点的数量||,所以本实施例中的 的个数远小于上述的,所以在计算数据库节点的分类参考值时的计算量,是 远远小于直接计算数据表节点的分类参考值的计算量的。
S22、依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,分别确定由所述参考集合以及所述***级节点组成的待处理集合的参考信息值、以及所述参考集合的参考信息值。
本实施例中,需要计算两个集合的参考信息值,一个为由所述参考集合以及所述 数据库节点组成的待处理集合,即为上述的,另一个为参考集合,即为上述的
在计算以及的参考信息值时,在分类参考信息为收益参考信息时, 参考信息值是指影响参考信息值,在分类参考信息为成本参考信息时,参考信息值是指溯 源参考信息值,现分别进行介绍。
1、在所述分类参考信息为收益参考信息时,计算的参考信息值的过程 为:
1)确定由所述参考集合以及所述***级节点组成的待处理集合对应的影响***集合。
其中,所述影响***集合为依据所述血缘关系图谱确定出的,所述待处理集合中的各***级节点向下影响的***级节点的集合。
在实际应用中,可以基于所述血缘关系图谱对应的传递闭包矩阵,分析得到由所述参考集合以及所述***级节点组成的待处理集合对应的影响***集合。
详细来说,在收益法逻辑下,对任意数据库节点集合,其影响数据库集合的计算过程可以应用图论中传递闭包(Transitive Closure)算法节省计算 开销。
首先基于血缘关系图谱的节点有向图,利用图论中算法计算刻画任意两个节点之 间是否存在有向路径的传递闭包矩阵,设图谱中有个节点且随机编号为1到,则是一 个*方阵,对任意位置(假设为第行第列位置)的取值都只能是0或1,如果为0, 则表示没有从节点到节点的路径;如果为1,则表示存在这样的路径。根据基础图论知识, 矩阵可以通过多项式时间计算得到的。
然后,在得到传递闭包矩阵基础上,就可以对任意数据库节点集合,给出其影响 数据库集合。具体过程为:将中所有节点编号在矩阵中的那些行对应的 列指标进行求和,然后选择求和值大于0的那些列指标集合对应的节点,即得到
本实施例中,只需要一次性计算出血缘关系图谱有向图对应的传递闭包矩阵, 对任意集合计算影响数据库集合都只需要对进行矩阵操作即可,可以显著的节省计算开 销,成本法的实现过程类似。
2)依据所述影响***集合中的具有收益信息值的数据表节点的收益信息值,计算所述待处理集合的参考信息值。
具体的,参照图6,与上述数据表的划分相似,对全部数据库节点集合记为,将其 划分为两个子集:包括面向业务数据表的面向业务数据库、包括其他基 础层数据表的基础层数据库。假设中任意数据库节点, 均可以评估业务使用情况计算收益信息值,其计算公式为:
(4)
其中,为数据表,可以基于公式2计算得到。
即每个粗粒度数据节点的收益信息值,可以由其包含的细粒度数据表节点的 收益信息值求和得到。
按照数据血缘关系,这个收益信息值并不是仅仅由一个数据库单独贡献的, 计算过程中其依赖的上游数据库也对产生贡献,故应分摊一部分收益信息值。 则对任意数据库节点集合,记中数据库通过血缘关系向下影响的数据库的集合为 影响数据库集合
在计算得到,首先需要计算,才能够利用公 式3计算得到
(5)
则可以利用公式5,计算得到
即本实施例中,确定出所述影响***集合(在数据库节点等同于***级节点时,影 响***集合也为影响数据库集合)中包括的具有收益信息值的面向业务数据表节点,即上 述的,并通过公式2计算所述面向业务数据表节点的收益信息值,然 后基于所述面向业务数据表节点的收益信息值,计算所述待处理集合的影响参考信息值, 即:
,该影响参考信息值即为待处理集合的 参考信息值。
参考集合的参考信息值的过程类似,请参照待处理集合的参考信息值的计算过程。
2、在所述分类参考信息为成本参考信息时,计算的参考信息值的过程 为:
确定由所述参考集合以及所述***级节点组成的待处理集合对应的溯源***集合。
其中,所述溯源***集合为:依据所述血缘关系图谱确定出的,所述待处理集合中的各***级节点向上影响的***级节点的集合。
具体的,按照数据血缘关系,如果从外部购买的数据表,被应用到下游数据表计算 中,则成本参考信息值就可以由下游受其影响的数据表来承担一部分。针对数据库同样如 此。对任意数据库节点集合,记中数据库通过血缘关系向上溯源的数据库的集合 为溯源数据库集合,具体参照图7,将中归属外部 购买数据库集合的全部成本信息值求和,作为的参考信息值,具体可为溯源参 考信息值,即:
(6)
通过内部的数据表的成本信息值计算得到。
即,依据所述溯源***集合中的具有成本信息值的数据表节点的成本信息值,计算所述待处理集合的参考信息值。
参考集合的参考信息值的过程类似,请参照待处理集合的参考信息值的计算过程。
S23、利用经典Shapley值方法,结合所述待处理集合的参考信息值以及所述参考集合的参考信息值,依次确定各个所述***级节点对应的分类参考值。
具体的,针对图4中的右图中节点和有向边数量大大缩小后的粗粒度***级的血 缘关系图谱,应用经典Shapley值计算公式,可以估计每个粗粒度的数据库节点的分类参考 值。根据该参考信息值定义,应用合作博弈论思想,将每个数据库节点集合的参考信 息值,作为一次联盟博弈,基于经典Shapley值公式,给出中任意数据库的收益价值 贡献或***值贡献,将其作为分类参考值。则在得到待处理集合的参考信息值以及所述 参考集合的参考信息值之后,代入公式3即可计算得到各个数据库节点的分类参考值。数据 库节点的分类参考值即为相应的***级节点的分类参考值。
根据博弈论经典理论,利用Shapley值评估分类参考值,具备有效性、对称性、虚拟 性、可加性等良好特点,能够提供可解释性的贡献分摊,因此将作为在收益法逻辑下的参考信息值,即分类参考信息为收益参考信息下的分类参考值。
成本法下的Shapley值计算过程与收益法下的Shapley值计算过程类似,区别仅是 将替换为
本实施例中,首先利用经典Shapley值公式针对***或数据库这种粗粒度数据对象估算其分类参考值,其计算量比更细粒度数据对象估值要低很多,然后利粗粒度数据对象的分类参考值,进一步推算细粒度数据对象,如数据表的分类参考值。
则在本实施例的基础上,在计算得到最粗粒度的***级节点或数据库节点的分类参考值之后,根据所述目标数据库节点的分类参考值,利用经典Shapley值方法,计算所述数据库节点中的各个数据表节点对应的分类参考值,参照图8,具体包括如下步骤:
S31、将影响所述数据库节点的第一目标数据库节点作为所述数据库节点的虚拟输入节点,并将所述虚拟输入节点的收益信息值设置为预设收益信息数值。
S32、将受所述数据库节点影响的第二目标数据库节点的集合作为所述数据库节点的虚拟输出节点,并计算所述虚拟输出节点的收益信息值。
其中,所述目标数据库节点包括所述第一目标数据库节点和所述第二目标数据库节点;所述虚拟输出节点的收益信息值与所述第二目标数据库节点的分类参考值相关。
具体的,通过上述步骤的计算,对粗粒度的数据库节点的分类参考值计算得到之后,以此为基础推导更细粒度数据资产元数据的分类参考值。主要是计算数据库节点内部的数据表节点的分类参考值。
由于每个细粒度数据资产元数据(例如数据表),都会唯一归属于某个上层的粗 粒度数据资产元数据(记数据库,其分类参考值已知)。为了计算数据表的分类参考 值,就可以限制在所包含的数据表子图谱内进行分析,这样就可以明显降低标准 Shapley值计算需要穷尽全部数据表组合的庞大计算量。
如图9左图所示,通过上述步骤得到了全部数据库节点(白色圆圈)的分类参考值, 后续需要估计中数据表节点的分类 参考值。此时删除以外其他的数据库节点,在包含的真实数据表节点()构成的子图谱基础上,增加虚线所示的辅助的虚拟数据表 节点(虚线且内部填充点的圆圈)。虚拟数据表节点包括虚拟输入节点和虚拟输出节 点
假设所有输入数据都以为入口输出,所有输出数据都以为出口输 出。中原本直接受其他数据表影响的数据表节点,增加从到这种数据表节点的 有向边;中原本直接影响其他数据库的数据表节点,增加这种数据表节点到的 有向边,这两类边如右图中虚线箭头所示。
将影响所述数据库节点的第一目标数据库节点作为所述数据库节点的虚拟输入 节点的业务输出价值,即收益信息值设定为0。
将受所述数据库节点影响的第二目标数据库节点的集合作为所述数据库节点的 虚拟输出节点,并计算所述虚拟输出节点的收益信息值。
详细来说,对于,收益信息值设定为直接影响的数据库节点集合的分 类参考值之和,将这些数据库节点集合记为,则参考信息值的计 算公式为:
(7)
举例来说,图9中的直接影响,所以,此时即为的分类 参考值。
针对图9中的,其直接影响,所以,此时即为之和。
S33、根据所述虚拟输入节点的收益信息值、以及所述虚拟输出节点的收益信息值,利用经典Shapley值方法计算所述数据库节点中的各个数据表节点对应的分类参考值。
具体的,计算所述数据库节点中的各个数据表节点(如图9中的-)对应的分类 参考值的经典Shapley值公式为:
(8)
其中,数据表节点集合中真实数据表节点加上两个虚拟数据表节点为一数据表节点,表示的任意不包含数据表节点的集合的子集 合。本实施例中计算数据表节点对应的分类参考值的具体过程,即公式8的具体实现,可参 照上述的数据库节点的分类参考值的计算过程。
对于中每个真实数据表仍可利用公式2计算收益信息值
需要说明的是,步骤S31和S32中,给出的虚拟输入节点的收益信息值以及所述虚 拟输出节点的收益信息值的确定过程,是在分类参考信息为收益参考信息的情况下。若是 分类参考信息为成本参考信息,此时设定的成本信息值为0,直接影 响的数据库的分类参考值之和。
另外,成本法下的Shapley值计算过程与收益法下的Shapley值计算过程类似,区 别仅是将替换为
需要说明的是,本实施例中,还可以在计算得到数据库的分类参考值之后,还可以计算Schema节点的分类参考值,进一步在计算数据表节点以及数据字段节点的分类参考值,具体计算哪一节点的分类参考值,可以根据实际场景进行设定。
另外,若是不需要针对所有数据库节点和数据表节点进行分类参考值的计算,则仅计算所需计算的数据库节点和数据表节点的分类参考值即可。
上述实施例是以***级节点仅包括一个数据库节点为例进行介绍,在会实际应用中,若是***级节点包括多个数据库节点,则按照上述方法确定***级节点的分类参考值,然后在确定有分类需求的待处理***级节点内部的数据库节点的分类参考值,其计算过程与上述计算数据表节点的分类参考值的过程类似。
在实际应用中,针对数据表节点,数据表节点存在分类参考值,相邻数据表节点之间的数据运算过程也存在数据价值,也可以计算得到数据运算过程的分类参考值。
本实施例中,将数据运算过程虚拟为一个运算节点,如图10中的黑色节点,所述运 算节点为表征相邻数据表间运算关系的节点;以及的含义参照上述相应说明。
则在具体计算数据表节点的时候,根据所述虚拟输入节点的收益信息值、以及所述虚拟输出节点的收益信息值,利用经典Shapley值方法计算所述数据库节点中的各个数据表节点以及各个运算节点对应的分类参考值。
需要说明的是,在利用公式8计算分类参考值时,数据表节点集合中真实 数据表加上两个虚拟数据表,再加上运算节点,表示的任意不包含数 据表节点或运算节点的子集合。
本实施例中,从粗粒度节点的分类参考值出发,逐层级或粒度进行分类参考值的计算,简化了数据计算量,从而针对数据量庞大且关系复杂的数据,也能够给出其分类参考值,以进行分类操作。
在上述数据处理方法的实施例的基础上,本发明的另一实施例提供了一种数据处理装置,参照图11,可以包括:
数据获取模块11,用于获取目标对象的血缘关系图谱,所述血缘关系图谱包含处于不同层级的节点,以及节点之间的关系;
节点确定模块12,用于确定所述血缘关系图谱中包含的各个***级节点;
信息获取模块13,用于获取分类参考信息,所述分类参考信息包括:收益参考信息或成本参考信息;
第一数值计算模块14,用于依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,利用经典Shapley值方法,分别确定各个所述***级节点对应的分类参考值;
第二数值计算模块15,用于针对待处理***级节点,根据与所述待处理***级节点具有影响关系的目标***级节点对应的分类参考值,利用经典Shapley值方法,计算所述待处理***级节点中的各个数据表节点对应的分类参考值;所述待处理***级节点包括具有数据分类需求的数据表对应的数据表节点;
分类模块16,用于响应于当前分类需求,依据所述待处理***级节点中的各个数据表节点的分类参考值,对所述目标对象包含的至少一个***中的数据表进行分类。
进一步,第一数值计算模块14包括:
集合确定子模块,用于针对各个所述***级节点,确定与所述***级节点对应的参考集合;所述参考集合为,由所述目标对象中除所述***级节点之外的其他所有***级节点组成的***集合的子集合;
第一数值确定子模块,用于依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,分别确定由所述参考集合以及所述***级节点组成的待处理集合的参考信息值、以及所述参考集合的参考信息值;
第二数值确定子模块,用于利用经典Shapley值方法,结合所述待处理集合的参考信息值以及所述参考集合的参考信息值,依次确定各个所述***级节点对应的分类参考值。
进一步,在所述分类参考信息为收益参考信息时,第一数值确定子模块包括:
第一集合确定单元,用于确定由所述参考集合以及所述***级节点组成的待处理集合对应的影响***集合,所述影响***集合为依据所述血缘关系图谱确定出的,所述待处理集合中的各***级节点向下影响的***级节点的集合;
第一数值计算单元,用于依据所述影响***集合中的具有收益信息值的数据表节点的收益信息值,计算所述待处理集合的参考信息值。
进一步,集合确定单元具体用于:
基于所述血缘关系图谱对应的传递闭包矩阵,分析得到由所述参考集合以及所述***级节点组成的待处理集合对应的影响***集合。
进一步,第一数值计算单元包括:
第一数值计算子单元,用于确定出所述影响***集合中包括的具有收益信息值的面向业务数据表节点,并计算所述面向业务数据表节点的收益信息值;
第二数值计算子单元,用于基于所述面向业务数据表节点的收益信息值,计算所述待处理集合的影响参考信息值;
数值确定子单元,用于将所述待处理集合的影响参考信息值作为所述待处理集合的参考信息值。
进一步,第二数值计算模块15包括:
第一节点确定子模块,用于确定待处理***级节点;所述待处理***级节点包括具有数据分类需求的数据表对应的数据表节点;
第一参考值确定子模块,用于在所述待处理***级节点仅包括一个数据库节点的情况下,将所述待处理***级节点的分类参考值作为所述待处理***级节点中的数据库节点的分类参考值;
第二节点确定子模块,用于确定与所述待处理***级节点具有影响关系的目标***级节点;所述目标***级节点仅包括一个目标数据库节点;
第二参考值确定子模块,用于根据所述目标数据库节点的分类参考值,利用经典Shapley值方法,计算所述数据库节点中的各个数据表节点对应的分类参考值。
进一步,第二参考值确定子模块包括:
第一节点设置模块,用于将影响所述数据库节点的第一目标数据库节点作为所述数据库节点的虚拟输入节点,并将所述虚拟输入节点的收益信息值设置为预设收益信息数值;
第二节点设置模块,用于将受所述数据库节点影响的第二目标数据库节点的集合作为所述数据库节点的虚拟输出节点,并计算所述虚拟输出节点的收益信息值;所述目标数据库节点包括所述第一目标数据库节点和所述第二目标数据库节点;所述虚拟输出节点的收益信息值与所述第二目标数据库节点的分类参考值相关;
参考值计算单元,用于根据所述虚拟输入节点的收益信息值、以及所述虚拟输出节点的收益信息值,利用经典Shapley值方法计算所述数据库节点中的各个数据表节点对应的分类参考值。
进一步,所述血缘关系图谱还包括:运算节点,所述运算节点为表征相邻数据表间运算关系的节点;
参考值计算单元具体用于:
根据所述虚拟输入节点的收益信息值、以及所述虚拟输出节点的收益信息值,利用经典Shapley值方法计算所述数据库节点中的各个数据表节点以及各个运算节点对应的分类参考值。
进一步,在所述分类参考信息为成本参考信息时,第一数值确定子模块包括:
第二集合确定单元,用于确定由所述参考集合以及所述***级节点组成的待处理集合对应的溯源***集合,所述溯源***集合为依据所述血缘关系图谱确定出的,所述待处理集合中的各***级节点向上影响的***级节点的集合;
第二数值计算单元,用于依据所述溯源***集合中的具有成本信息值的数据表节点的成本信息值,计算所述待处理集合的参考信息值。
进一步,还包括:
存储模块,用于获取所述数据表的分类结果,按照预先配置的存储规则,对所述数据表进行存储操作;所述存储规则中,不同分类结果的数据表的存储区域不同,或,不同分类结果的数据表的备份存储方式不同。
本实施例中,在面临分类需求时,首先确定各个所述***级节点对应的分类参考值,然后针对具有数据表分类需求的待处理***级节点,进一步计算待处理***级节点中的各个数据表节点对应的分类参考值,最后根据分类需求完成分类操作。即本发明中,并未直接利用经典Shapley值方法进行数据表的分类参考值计算,而是按照节点间的包含关系,从数量小的***级节点开始计算分类参考值,由于***级节点数量小且关系简单,此时计算量相比于直接利用经典Shapley值方法进行数据表的分类参考值的计算方式来说,计算量会少很多,在得到每个***级节点的分类参考值后,独立计算待处理***级节点内部的数据表节点的分类参考值,待处理***级节点内部的数据表节点相比于所有***包括的所有数据表节点的数据量来说,计算量小且关系简单,所以通过本发明这种逐层计算分类参考值的方式,能够在数据量庞大且数据间关系复杂时,降低数据处理量,并保证数据分类结果的准确性。
需要说明的是,本实施例中的各个模块、子模块、单元和子单元的工作过程,请参照上述实施例中的相应说明,在此不再赘述。
在上述数据处理方法及装置的实施例的基础上,本发明的另一实施例提供了一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于执行上述的数据处理方法。
本实施例中,在面临分类需求时,首先确定各个所述***级节点对应的分类参考值,然后针对具有数据表分类需求的待处理***级节点,进一步计算待处理***级节点中的各个数据表节点对应的分类参考值,最后根据分类需求完成分类操作。即本发明中,并未直接利用经典Shapley值方法进行数据表的分类参考值计算,而是按照节点间的包含关系,从数量小的***级节点开始计算分类参考值,由于***级节点数量小且关系简单,此时计算量相比于直接利用经典Shapley值方法进行数据表的分类参考值的计算方式来说,计算量会少很多,在得到每个***级节点的分类参考值后,独立计算待处理***级节点内部的数据表节点的分类参考值,待处理***级节点内部的数据表节点相比于所有***包括的所有数据表节点的数据量来说,计算量小且关系简单,所以通过本发明这种逐层计算分类参考值的方式,能够在数据量庞大且数据间关系复杂时,降低数据处理量,并保证数据分类结果的准确性。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取目标对象的血缘关系图谱,所述血缘关系图谱包含处于不同层级的节点,以及节点之间的关系;
确定所述血缘关系图谱中包含的各个***级节点;
获取分类参考信息,所述分类参考信息包括:收益参考信息或成本参考信息;
依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,利用经典沙普利Shapley值方法,分别确定各个所述***级节点对应的分类参考值;
针对待处理***级节点,根据与所述待处理***级节点具有影响关系的目标***级节点对应的分类参考值,利用经典沙普利Shapley值方法,计算所述待处理***级节点中的各个数据表节点对应的分类参考值;所述待处理***级节点包括具有数据分类需求的数据表对应的数据表节点;
响应于当前分类需求,依据所述待处理***级节点中的各个数据表节点的分类参考值,对所述目标对象包含的至少一个***中的数据表进行分类;
其中,依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,利用经典沙普利Shapley值方法,分别确定各个所述***级节点对应的分类参考值,包括:
针对各个所述***级节点,确定与所述***级节点对应的参考集合;所述参考集合为,由所述目标对象中除所述***级节点之外的其他所有***级节点组成的***集合的子集合;
依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,分别确定由所述参考集合以及所述***级节点组成的待处理集合的参考信息值、以及所述参考集合的参考信息值;
利用经典沙普利Shapley值方法,结合所述待处理集合的参考信息值以及所述参考集合的参考信息值,依次确定各个所述***级节点对应的分类参考值;
其中,针对待处理***级节点,根据与所述待处理***级节点具有影响关系的目标***级节点对应的分类参考值,利用经典沙普利Shapley值方法,计算所述待处理***级节点中的各个数据表节点对应的分类参考值,包括:
确定待处理***级节点;所述待处理***级节点包括具有数据分类需求的数据表对应的数据表节点;
在所述待处理***级节点仅包括一个数据库节点的情况下,将所述待处理***级节点的分类参考值作为所述待处理***级节点中的数据库节点的分类参考值;
确定与所述待处理***级节点具有影响关系的目标***级节点;所述目标***级节点仅包括一个目标数据库节点;
根据所述目标数据库节点的分类参考值,利用经典沙普利Shapley值方法,计算所述数据库节点中的各个数据表节点对应的分类参考值。
2.根据权利要求1所述的数据处理方法,其特征在于,在所述分类参考信息为收益参考信息时,依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,确定由所述参考集合以及所述***级节点组成的待处理集合的参考信息值,包括:
确定由所述参考集合以及所述***级节点组成的待处理集合对应的影响***集合,所述影响***集合为依据所述血缘关系图谱确定出的,所述待处理集合中的各***级节点向下影响的***级节点的集合;
依据所述影响***集合中的具有收益信息值的数据表节点的收益信息值,计算所述待处理集合的参考信息值。
3.根据权利要求2所述的数据处理方法,其特征在于,确定由所述参考集合以及所述***级节点组成的待处理集合对应的影响***集合,包括:
基于所述血缘关系图谱对应的传递闭包矩阵,分析得到由所述参考集合以及所述***级节点组成的待处理集合对应的影响***集合。
4.根据权利要求2所述的数据处理方法,其特征在于,依据所述影响***集合中的具有收益信息值的数据表节点的收益信息值,计算所述待处理集合的参考信息值,包括:
确定出所述影响***集合中包括的具有收益信息值的面向业务数据表节点,并计算所述面向业务数据表节点的收益信息值;
基于所述面向业务数据表节点的收益信息值,计算所述待处理集合的影响参考信息值;
将所述待处理集合的影响参考信息值作为所述待处理集合的参考信息值。
5.根据权利要求1所述的数据处理方法,其特征在于,根据所述目标数据库节点的分类参考值,利用经典Shapley值方法,计算所述数据库节点中的各个数据表节点对应的分类参考值,包括:
将影响所述数据库节点的第一目标数据库节点作为所述数据库节点的虚拟输入节点,并将所述虚拟输入节点的收益信息值设置为预设收益信息数值;
将受所述数据库节点影响的第二目标数据库节点的集合作为所述数据库节点的虚拟输出节点,并计算所述虚拟输出节点的收益信息值;所述目标数据库节点包括所述第一目标数据库节点和所述第二目标数据库节点;所述虚拟输出节点的收益信息值与所述第二目标数据库节点的分类参考值相关;
根据所述虚拟输入节点的收益信息值、以及所述虚拟输出节点的收益信息值,利用经典Shapley值方法计算所述数据库节点中的各个数据表节点对应的分类参考值。
6.根据权利要求5所述的数据处理方法,其特征在于,所述血缘关系图谱还包括:运算节点,所述运算节点为表征相邻数据表间运算关系的节点;
根据所述虚拟输入节点的收益信息值、以及所述虚拟输出节点的收益信息值,利用经典Shapley值方法计算所述数据库节点中的各个数据表节点对应的分类参考值,包括:
根据所述虚拟输入节点的收益信息值、以及所述虚拟输出节点的收益信息值,利用经典Shapley值方法计算所述数据库节点中的各个数据表节点以及各个运算节点对应的分类参考值。
7.根据权利要求1所述的数据处理方法,其特征在于,在所述分类参考信息为成本参考信息时,依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,确定由所述参考集合以及所述***级节点组成的待处理集合的参考信息值,包括:
确定由所述参考集合以及所述***级节点组成的待处理集合对应的溯源***集合,所述溯源***集合为依据所述血缘关系图谱确定出的,所述待处理集合中的各***级节点向上影响的***级节点的集合;
依据所述溯源***集合中的具有成本信息值的数据表节点的成本信息值,计算所述待处理集合的参考信息值。
8.根据权利要求1所述的数据处理方法,其特征在于,在响应于当前分类需求,依据所述待处理***级节点中的各个数据表节点的分类参考值,对所述目标对象包含的至少一个***中的数据表进行分类之后,还包括:
获取所述数据表的分类结果;
按照预先配置的存储规则,对所述数据表进行存储操作;所述存储规则中,不同分类结果的数据表的存储区域不同,或,不同分类结果的数据表的备份存储方式不同。
9.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取目标对象的血缘关系图谱,所述血缘关系图谱包含处于不同层级的节点,以及节点之间的关系;
节点确定模块,用于确定所述血缘关系图谱中包含的各个***级节点;
信息获取模块,用于获取分类参考信息,所述分类参考信息包括:收益参考信息或成本参考信息;
第一数值计算模块,用于依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,利用经典Shapley值方法,分别确定各个所述***级节点对应的分类参考值;
第二数值计算模块,用于针对待处理***级节点,根据与所述待处理***级节点具有影响关系的目标***级节点对应的分类参考值,利用经典Shapley值方法,计算所述待处理***级节点中的各个数据表节点对应的分类参考值;所述待处理***级节点包括具有数据分类需求的数据表对应的数据表节点;
分类模块,用于响应于当前分类需求,依据所述待处理***级节点中的各个数据表节点的分类参考值,对所述目标对象包含的至少一个***中的数据表进行分类;
其中,所述第一数值计算模块,依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,利用经典沙普利Shapley值方法,分别确定各个所述***级节点对应的分类参考值,具体用于:
针对各个所述***级节点,确定与所述***级节点对应的参考集合;所述参考集合为,由所述目标对象中除所述***级节点之外的其他所有***级节点组成的***集合的子集合;
依据所述血缘关系图谱中,与所述分类参考信息对应的数据表节点的信息值,分别确定由所述参考集合以及所述***级节点组成的待处理集合的参考信息值、以及所述参考集合的参考信息值;
利用经典沙普利Shapley值方法,结合所述待处理集合的参考信息值以及所述参考集合的参考信息值,依次确定各个所述***级节点对应的分类参考值;
其中,所述第二数值计算模块针对待处理***级节点,根据与所述待处理***级节点具有影响关系的目标***级节点对应的分类参考值,利用经典沙普利Shapley值方法,计算所述待处理***级节点中的各个数据表节点对应的分类参考值,具体用于:
确定待处理***级节点;所述待处理***级节点包括具有数据分类需求的数据表对应的数据表节点;
在所述待处理***级节点仅包括一个数据库节点的情况下,将所述待处理***级节点的分类参考值作为所述待处理***级节点中的数据库节点的分类参考值;
确定与所述待处理***级节点具有影响关系的目标***级节点;所述目标***级节点仅包括一个目标数据库节点;
根据所述目标数据库节点的分类参考值,利用经典沙普利Shapley值方法,计算所述数据库节点中的各个数据表节点对应的分类参考值。
10.一种电子设备,其特征在于,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于执行如权利要求1-8任一项所述的数据处理方法。
CN202311735986.2A 2023-12-18 2023-12-18 一种数据处理方法、装置及电子设备 Active CN117421462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311735986.2A CN117421462B (zh) 2023-12-18 2023-12-18 一种数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311735986.2A CN117421462B (zh) 2023-12-18 2023-12-18 一种数据处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN117421462A CN117421462A (zh) 2024-01-19
CN117421462B true CN117421462B (zh) 2024-03-08

Family

ID=89528749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311735986.2A Active CN117421462B (zh) 2023-12-18 2023-12-18 一种数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN117421462B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109742803A (zh) * 2019-01-31 2019-05-10 河海大学 一种含分布式电源的配电网网损分摊方法
CN111694858A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN112084343A (zh) * 2020-09-10 2020-12-15 杭州安恒信息安全技术有限公司 一种社会关系图谱的量化方法、装置和介质
CN113837521A (zh) * 2021-06-23 2021-12-24 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读存储介质及计算机设备
CN114116705A (zh) * 2021-11-10 2022-03-01 新智我来网络科技有限公司 联合学习中确定参与方贡献值的方法及装置
CN114298319A (zh) * 2021-12-23 2022-04-08 新智我来网络科技有限公司 联合学习贡献值的确定方法、装置、电子设备及存储介质
CN116976353A (zh) * 2023-03-24 2023-10-31 财付通支付科技有限公司 一种数据处理方法、装置、设备以及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109742803A (zh) * 2019-01-31 2019-05-10 河海大学 一种含分布式电源的配电网网损分摊方法
CN111694858A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN112084343A (zh) * 2020-09-10 2020-12-15 杭州安恒信息安全技术有限公司 一种社会关系图谱的量化方法、装置和介质
CN113837521A (zh) * 2021-06-23 2021-12-24 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读存储介质及计算机设备
CN114116705A (zh) * 2021-11-10 2022-03-01 新智我来网络科技有限公司 联合学习中确定参与方贡献值的方法及装置
CN114298319A (zh) * 2021-12-23 2022-04-08 新智我来网络科技有限公司 联合学习贡献值的确定方法、装置、电子设备及存储介质
CN116976353A (zh) * 2023-03-24 2023-10-31 财付通支付科技有限公司 一种数据处理方法、装置、设备以及可读存储介质

Also Published As

Publication number Publication date
CN117421462A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
US11163670B2 (en) Data records selection
JP6484730B2 (ja) 時間因子を融合させる協調フィルタリング方法、装置、サーバおよび記憶媒体
CN112966763A (zh) 一种分类模型的训练方法、装置、电子设备及存储介质
Wu et al. Research on Segmenting E‐Commerce Customer through an Improved K‐Medoids Clustering Algorithm
CN111242356A (zh) 一种财富走势预测方法、装置、设备及存储介质
Proselkov et al. Financial ripple effect in complex adaptive supply networks: an agent-based model
Ling et al. Financial Crisis Prediction Based on Long‐Term and Short‐Term Memory Neural Network
Peng et al. Intelligent Optimization Model of Enterprise Financial Account Receivable Management
Angelini et al. The complex dynamics of products and its asymptotic properties
CN117421462B (zh) 一种数据处理方法、装置及电子设备
Li et al. Optimizing ml inference queries under constraints
Lin et al. A novel dynamic reference point model for preference-based evolutionary multiobjective optimization
Zhao et al. An extensive operational law for monotone functions of LR fuzzy intervals with applications to fuzzy optimization
Siudak The effect of self-organizing map architecture based on the value migration network centrality measures on stock return. Evidence from the US market
Murugan Creation of a recommendation system to recommend cryptocurrency portfolio using Association rule mining
Siregar et al. Classification data for direct marketing using deep learning
Ben Enhanced churn prediction in the telecommunication industry
Kalaichelvan et al. [Retracted] Economic Order Quantity Model‐Based Optimized Fuzzy Nonlinear Dynamic Mathematical Schemes
Chen et al. An efficient and effective approach for mining a group stock portfolio using mapreduce
Cui et al. A pruned DOM-based iterative strategy for approximate global optimization in crowdsourcing microtasks
Hind et al. Consumer-Driven Explanations for Machine Learning Decisions: An Empirical Study of Robustness
CN117634975A (zh) 一种基于大数据智能评级和评估优化的方法
Li et al. Big Data Precision Marketing Based on Recommendation Algorithm
CN118313625A (zh) 金融服务资源配置方法、装置、设备和存储介质
Brown A comparative analysis of machine learning techniques for foreclosure prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant