CN114880406B - 一种数据管理方法及装置 - Google Patents

一种数据管理方法及装置 Download PDF

Info

Publication number
CN114880406B
CN114880406B CN202210482742.7A CN202210482742A CN114880406B CN 114880406 B CN114880406 B CN 114880406B CN 202210482742 A CN202210482742 A CN 202210482742A CN 114880406 B CN114880406 B CN 114880406B
Authority
CN
China
Prior art keywords
entity
service
association
data
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210482742.7A
Other languages
English (en)
Other versions
CN114880406A (zh
Inventor
雷舒娅
刘卫卫
张文思
梁潇
王晓慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Smart Grid Research Institute Co ltd
Original Assignee
State Grid Smart Grid Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Smart Grid Research Institute Co ltd filed Critical State Grid Smart Grid Research Institute Co ltd
Priority to CN202210482742.7A priority Critical patent/CN114880406B/zh
Publication of CN114880406A publication Critical patent/CN114880406A/zh
Application granted granted Critical
Publication of CN114880406B publication Critical patent/CN114880406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种数据管理方法及装置,该方法包括:结合多个***的业务数据为多个主题域中的各业务实体建立主数据,业务数据中包含各业务实体的实体信息;根据第一判别模型和主数据,对第一初始关联关系进行一致性校核,基于校核结果对第一初始关联关系进行调整,得到第一关联关系;根据第二判别模型和主数据,对第二初始关联关系进行一致性校核,基于校核结果对第二初始关联关系进行调整,得到第二关联关系;结合第一关联关系、第二关联关系建立实体‑关系主数据。通过执行本发明得到的各业务实体主数据更完整,且建立的实体‑关系主数据能够实现非直接相邻的业务实体之间的关联映射以及与相关业务实体关键属性信息的快速搜索和共享。

Description

一种数据管理方法及装置
技术领域
本发明涉及主数据管理技术领域,具体涉及一种数据管理方法及装置。
背景技术
伴随数字化进程加快,主数据管理已成为各单位数据治理的重要环节。面对业务重心不同、***建设与数据模型构建不统一等实际问题,如何解决跨业务***实体信息的不一致是主数据质量管控领域关注的重点。当前主数据管理采取的常见思路是结合主题域,如客户域、资产域等,梳理该主题域下相关实体信息,并利用实体解析、身份管理等技术,解决跨业务***中因数据模型、业务需求不统一所造成的实体信息不一致难题。此类方法中,主数据包含了同一主题域下关键业务实体的属性信息,能够在一定程度上满足业务应用对其相邻业务实体信息的共享需要,也可为新建业务提供准确、可靠的实体信息。而在业务流程较长、环节交错的行业领域,跨业务环节的实体关联信息共享对业务提升同样重要。
在多业务***协作领域,相邻***的实体信息往往通过主外键相互关联(一次关联),而横跨两个甚至多个业务环节的实体信息则无法直接匹配,只能通过更底层的数据明细逐次关联,造成业务数据的分析效率低下。
发明内容
因此,本发明要解决的技术问题在于弥补现有方法中跨主题、跨***的业务数据关联关系整合技术缺失,造成的业务数据分析效率低下,从而提供一种数据管理方法及装置。
本发明第一方面提供了一种数据管理方法,包括如下步骤:结合多个***的业务数据,分别为多个主题域中的各业务实体建立主数据,业务数据中包含各业务实体的实体信息;根据第一判别模型和同一主题域中建立有第一初始关联关系的业务实体主数据,对第一初始关联关系进行一致性校核,基于校核结果对第一初始关联关系进行调整,得到第一关联关系;根据第二判别模型和不同主题域中建立有第二初始关联关系的业务实体主数据,对第二初始关联关系进行一致性校核,基于校核结果对第二初始关联关系进行调整,得到第二关联关系;结合各业务实体之间的第一关联关系、第二关联关系建立实体-关系主数据。
可选地,在本发明提供的数据管理方法中,一个业务实体的实体信息存在于多个***的业务数据中,一个业务实体包括多种属性,实体信息中包含各属性对应的属性信息,结合多个***的业务数据,分别为多个主题域中的各业务实体建立主数据,包括:将其中一个***中与业务实体相对应的实体信息确定为业务实体的基础数据;根据各***中业务实体的属性信息计算各***中与业务实体对应的实体信息与基础数据的相似度;根据各***中业务实体的实体信息与基础数据的相似度确定各***中各业务实体对象之间的映射关系;根据各***中各业务实体对象之间的映射关系将各***中与业务实体相关的实体信息进行整合,得到业务实体主数据。
可选地,在本发明提供的数据管理方法中,根据第一判别模型和同一主题域中建立有第一初始关联关系的业务实体主数据,对第一初始关联关系进行一致性校核,基于校核结果对初始对应关系进行调整,得到第一关联关系,包括:将建立有第一初始关联关系的业务实体主数据中的属性信息作为自变量,将第一初始关联关系作为因变量,构建二分类模型;根据二分类模型对第一初始关联关系进行校核,若校核结果满足第一预设条件,将第一初始关联关系确定为第一关联关系;若校核结果不满足第一预设条件,根据校核结果对第一初始关联关系进行调整,并利用调整后的第一初始关联关系替换第一初始关联关系,返回根据二分类模型对第一初始关联关系进行校核的步骤,直到校核结果满足第一预设条件。
可选地,在本发明提供的数据管理方法中,根据第二判别模型和不同主题域中建立有第二初始关联关系的业务实体主数据,对第二初始关联关系进行一致性校核,基于校核结果对第二初始关联关系进行调整,得到第二关联关系,包括:根据业务实体主数据计算建立有第二初始关联关系的业务实体之间的相关系数,根据相关系数形成校核结果;若校核结果满足第二预设条件,将第二初始关联关系确定为第二关联关系;若校核结果不满足第二预设条件,根据校核结果对第二初始关联关系进行调整,并利用调整后的第二初始关联关系替换第二初始关联关系,返回根据业务实体主数据计算建立有第二初始关联关系的业务实体之间的相关系数的步骤,直到校核结果满足第二预设条件。
可选地,在本发明提供的数据管理方法中,第二初始关联关系用于表征属于第一主题实体类型的各第一业务实体与属于第二主题实体类型的各第二业务实体的关联关系,各第一业务实体中均包括多个第一实体对象,各第二业务实体中均包括多个第二实体对象,一个或多个第一实体对象与一个或多个第二实体对象存在关联关系,利用第二判别模型对第二初始关联关系进行一致性校核,基于校核结果对第二初始关联关系进行调整,得到第二关联关系,包括:对第一业务实体的第一实体对象进行聚类,得到一个或多个聚类簇;确定同一聚类簇中所包含的第一实体对象,以及第一实体对象在第二初始关联关系中分别对应的第二实体对象;若同一聚类簇中的第一实体对象在第二初始关联关系中所对应的第二实体对象不同,则判定校核结果不满足第三预设条件;对第二初始关联关系进行调整,并返回对第一业务实体的第一实体对象进行聚类,得到一个或多个聚类簇的步骤,直到校核结果满足第三预设条件。
可选地,本发明提供的数据管理方法中还包括,确定各业务实体对象的唯一标识符;根据各标识符之间的关联关系表征各业务实体之间的第一关联关系和第二关联关系。
本发明第二方面提供了一种数据管理装置,包括:主数据建立模块,用于结合多个***的业务数据,分别为多个主题域中的各业务实体建立主数据,业务数据中包含中各业务实体的实体信息;第一关联关系建立模块,用于根据第一判别模型和同一主题域中建立有第一初始关联关系的业务实体主数据,对第一初始关联关系进行一致性校核,基于校核结果对第一初始关联关系进行调整,得到第一关联关系;第二关联关系建立模块,用于根据第二判别模型和不同主题域中建立有第二初始关联关系的业务实体主数据,对第二初始关联关系进行一致性校核,基于校核结果对第二初始关联关系进行调整,得到第二关联关系;实体-关系主数据建立模块,用于结合各业务实体之间的第一关联关系、第二关联关系建立实体-关系主数据。
可选地,在本发明提供的数据管理装置中,一个业务实体的实体信息存在于多个***的业务数据中,一个业务实体包括多种属性,实体信息中包含各属性对应的属性信息,主数据建立模块包括:基础数据确定子模块,用于将其中一个***中与业务实体相对应的实体信息确定为业务实体的基础数据;相似度计算子模块,用于根据各***中业务实体的属性信息计算各***中与业务实体对应的实体信息与基础数据的相似度;映射关系确定子模块,用于根据各***中业务实体的实体信息与基础数据的相似度确定各***中各业务实体对象之间的映射关系;主数据建立子模块,用于根据各***中各业务实体对象之间的映射关系将各***中与业务实体相关的实体信息进行整合,得到业务实体主数据。
本发明第三方面提供了一种计算机设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,从而执行如本发明第一方面提供的数据管理方法。
本发明第四方面提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行如本发明第一方面提供的数据管理方法。
本发明技术方案,具有如下优点:
本发明提供的数据管理方法及装置,结合多个***中所包含的有关业务实体的实体信息,建立了多个主题域中各业务实体的业务实体主数据,通过本发明实现了跨***实体信息的整合,得到的各业务实体主数据更完整,在建立各业务实体主数据后,根据第一判别模型和同一主题域中建立有第一初始关联关系的业务实体主数据,对第一初始关联关系进行一致性校核,得到同一主题域下不同类别业务实体之间的第一关联关系,根据第二判别模型和不同主题域中建立有第二初始关联关系的业务实体主数据,对第二初始关联关系进行一致性校核,得到不同主题域下不同类别业务实体之间的第二关联关系,通过第一判别模型和第二判别模型分别对第一初始关联关系和第二初始关联关系进行一致性校核,使得各业务实体之间的关联关系具备一致性,从而结合第一关联关系和第二关联关系建立的实体-关系主数据能够实现非直接相邻的业务实体之间的关联映射以及与相关业务实体关键属性信息的快速搜索和共享,从而,通过本发明得到的实体-关系主数据具有更高的实用价值。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中数据管理方法的一个具体示例的流程图;
图2为本发明实施例中建立的实体-关系主数据的示意图;
图3为本发明实施例中数据管理装置的一个具体示例的原理框图;
图4为本发明实施例中计算机设备的一个具体示例的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例提供了一种数据管理方法,如图1所示,包括:
步骤S11:结合多个***中各业务实体的业务数据,分别为多个主题域中的各业务实体建立主数据,业务数据中包含各业务实体的实体信息。
在一可选实施例中,针对不同的业务场景,具有不同的业务***、不同的主题域,以及不同类别的业务实体。
示例性地,在电力业务场景下,主题域有设备域、客户域等,其中,设备域中的业务实体包括变电站、主变压器、线路、台变(台区变压器)等;客户域中的业务实体包括计量点、用电客户等。
在一可选实施例中,在电力业务场景下,会存在有多个变电站、多个主变压器、多条线路、多个台变等,其中,每一个变电站、每一个主变压器、每一条线路、每一个台变,均可作为一个独立的实体对象。
在一可选实施例中,一个业务场景会涉及多个不同的***,并且,一类业务实体的实体信息存在于一个或多个***中,不同类业务实体的实体信息可以存在于相同的***中,也可以存在于不同的***中。在结合多个***中的实体信息为业务实体建立主数据时,先确定业务实体对应的***,然后通过业务实体对应的***获取该业务实体的实体信息,从而建立主数据。
示例性地,主变压器的实体信息存在于生产管理***(PMS)、电网运行管理***(OMS)、电网运营控制***(OCS)中,当需要为主变压器建立主数据时,分别从PMS、OMS、OCS中获取主变压器的实体信息,然后根据主变压器的实体信息建立主数据。
步骤S12:根据第一判别模型和同一主题域中建立有第一初始关联关系的业务实体主数据,对第一初始关联关系进行一致性校核,基于校核结果对第一初始关联关系进行调整,得到第一关联关系。
在一可选实施例中,在执行步骤S12前,先对同一主题域中相关联的业务实体建立第一初始关联关系。
在一可选实施例中,可以按照预先存储的各业务实体之间的关系明细表建立业务实体之间的第一初始关联关系,也可以人为设定各业务实体之间的第一初始关联关系。示例性地,对于同一主题域中的主变压器和线路,可以按照主变压器和线路所属电站属性、变电站线路关系明细表建立两者之间的第一初始关联关系。
在一可选实施例中,设备域中包含变电站、主变压器、线路、台变等类别的业务实体,通过执行步骤S12确定主变压器与线路之间的第一关联关系、变电站与主变压器之间的第一关联关系、线路与台变之间的第一关联关系;客户域中包含计量点、用电客户等类别的业务实体,通过执行步骤S12确定计量点与用电客户之间的第一关联关系。
在一可选实施例中,可以根据不同的算法形成第一判别模型,示例性地,可以将逻辑回归算法作为第一判别模型。在对不同业务实体建立第一关联关系时,可以采用不同的第一判别模块对第一初始关联关系进行一致性校核。
步骤S13:根据第二判别模型和不同主题域中建立有第二初始关联关系的业务实体主数据,对第二初始关联关系进行一致性校核,基于校核结果对第二初始关联关系进行调整,得到第二关联关系。
在一可选实施例中,在执行步骤S13前,先对不同主题域中相关联的业务实体建立第二初始关联关系。示例性地,可以对设备域中的台变和客户域中的计量点建立第二初始关联关系。
在一可选实施例中,可以根据不同的算法形成第二判别模型,示例性地,可以根据皮尔逊相关系数法形成第二判别模型,也可以根据K-means聚类算法形成第二判别模型。在对不同业务实体建立第二关联关系时,可以采用不同的第二判别模块对第二初始关联关系进行一致性校核。
在一可选实施例中,各业务实体中均包括一个或多个实体对象,可以为各实体对象生成唯一标识符,通过为各标识符建立关联,从而建立各业务实体之间的第一关联关系和第二关联关系,第一关联关系实际是各实体对象之间的关联关系。
步骤S14:结合各业务实体之间的第一关联关系、第二关联关系建立实体-关系主数据。
示例性地,如图2所示为在电力业务场景下建立的实体-关系主数据示意图。
本发明实施例提供的数据管理方法,结合多个***中所包含的有关业务实体的实体信息,建立了多个主题域中各业务实体主数据,通过本发明实施例实现了跨***实体信息的整合,得到的各业务实体主数据更完整。在建立各业务实体主数据后,根据第一判别模型和同一主题域中建立有第一初始关联关系的业务实体主数据,对第一初始关联关系进行一致性校核,得到同一主题域下不同业务实体之间的第一关联关系,根据第二判别模型和不同主题域中建立有第二初始关联关系的业务实体主数据,对第二初始关联关系进行一致性校核,得到不同主题域下不同业务实体之间的第二关联关系。通过第一判别模型和第二判别模型分别对第一初始关联关系和第二初始关联关系进行一致性校核,使得各业务实体之间的关联关系具备一致性,从而结合第一关联关系和第二关联关系建立的实体-关系主数据能够实现非直接相邻的业务实体之间的关联映射以及与相关业务实体关键属性信息的快速搜索和共享,通过本发明实施例得到的实体-关系主数据具有更高的实用价值。
如上述实施例中记载,一个业务实体的实体信息存在于一个或多个***的业务数据中,在一可选实施例中,若一个业务实体的实体信息只存在于一个的业务数据***中,在执行上述步骤S11时,将该***的业务数据中与业务实体相对应的信息确定为该业务实体主数据。
在一可选实施例中,当一个业务实体的实体信息存在于多个***的业务数据中时,上述步骤S11具体包括:
首先,将其中一个***中与业务实体相对应的实体信息确定为业务实体的基础数据。
在一可选实施例中,先确定各***中与业务实体对应的实体信息的完整性,将完整性最高的实体信息确定为业务实体的基础数据。
示例性地,在为主变压器建立主数据时,因PMS中的主变压器台账信息最为全面,因此将PMS中的主变压器台账信息确定为主变压器的基础数据。
其次,根据各***中业务实体的属性信息计算各***中与业务实体对应的实体信息与基础数据的相似度。
在一可选实施例中,可以采用余弦相似度方法计算各***中与业务实体对应的实体信息与基础数据的相似度。
在一可选实施例中,采用余弦相似度方法计算各***中业务实体的实体信息与基础数据的相似度时,选取PMS、OMS、OCS***中关于主变压器的相似属性信息,如设备ID、设备名称、生产厂家、运行状态、电压等级、投运日期、资产单位、绝缘介质、绕组型式等。利用词袋(BOW)模型分别对上述文本类型数据向量化,并采用余弦夹角公式分别计算PMS与OMS、PMS与OCS***之间属性的相似度,对所有属性相似度按等权加权计算获得实体信息与基础数据的相似度。
其中,属性k的相似度用余弦夹角公式表示为:
其中Xk表示主变压器实体在PMS***中的属性k的取值经BOW模型转化后的向量X=(X1,X2,…,Xm),Y表示主变压器实体在OMS或OCS***中的属性的k取值经BOW模型转化后的向量Y=(Y1,Y2,…,Ym),
等权加权公式为:
其中,n表示主变压器实体待加权计算的属性个数。
然后,根据各***中业务实体的实体信息与基础数据的相似度确定各***中各业务实体对象之间的映射关系。
在一可选实施例中,若其中一个***中与业务实体对应的实体信息与基础数据的相似度大于或等于预设值,则判定该***中的业务实体与基础数据所在的***中的业务实体存在映射关系;反之,若其中一个***中业务实体的实体信息与基础数据的相似度小于预设值,则判定该***中的业务实体与基础数据所在的***中的业务实体不存在映射关系。
最后,根据各***之间的实体映射关系、基础数据和其他***中的相应实体信息对基础数据进行补充完善,并在数据库中建立新表,存储更新后的业务实体基础数据,作为业务实体主数据。
在一可选实施例中,当选择逻辑回归算法作为第一判别模型时,上述步骤S12具体包括如下步骤:
首先,将建立有第一初始关联关系的业务实体主数据中的属性信息作为自变量,将第一初始关联关系作为因变量,构建二分类模型。
在一可选实施例中,对于建立有第一初始关联关系的主变压器和线路,将主变压器的电压等级、所属地市、运行状态、所属电站、投运日期、额定电流、额定功率、运行环境等,线路的电压等级、所属地市、运行状态、所属电站、运行环境、起点电站、终点电站、投运日期、最大允许电流、额定功率等属性信息作为自变量,将经过标记的主变压器与线路的对应关系作为因变量,构建二分类模型,其中,主变压器和线路都采用各自的唯一标识符进行表示,主变压器和线路之间的对应关系采用0-1变量表示,即,用1表示主变压器和线路之间存在关联关系,用0表示主变压器和线路之间不存在关联关系。
然后,根据二分类模型的预测结果对第一初始关联关系进行校核,若校核结果满足第一预设条件,将第一初始关联关系确定为第一关联关系;
若校核结果不满足第一预设条件,根据校核结果对第一初始关联关系进行调整,并利用调整后的第一初始关联关系替换第一初始关联关系,返回根据第一判别模型和同一主题域中建立有第一初始关联关系的业务实体主数据,对所述第一初始关联关系进行一致性校核的步骤,直到校核结果满足第一预设条件。
在一可选实施例中,利用二分类模型的预测结果与第一初始关联关系的0、1表示进行比对(1表示实体对象之间存在关联关系、0表示实体对象之间不存在关联关系),对于建立有第一初始关联关系的主变压器和线路,如若二分类模型的预测结果为1,即一个变压器实体和一个线路实体之间存在关联关系,但如果第一初始关联关系的表示为0,则校核失败。若二分类模型的预测结果为1,且第一初始关联关系也为1,则校核成功。同理,若二分类模型的预测结果为0,第一初始关联关系为1,校核失败,若二分类模型的预测结果为0,且第一初始关联关系也为0,校核成功。
在一可选实施例中,上述步骤S13具体包括如下步骤:
首先,根据业务实体主数据计算建立有第二初始关联关系的业务实体之间的相关系数,根据相关系数形成校核结果。
在一可选实施例中,由于不同类业务实体之前存在潜在的关联关系,因此,业务实体之间的关联关系可以通过其他业务实体之间的关联关系进行确定,示例性地,在客户域中已经确定了计量实体与客户实体之间的一一对应关系的情况下,在确定设备域中的台变实体和客户域中的计量点实体之间的关联关系时,可以将问题转化为确定台变与客户之间的关联关系,台变和计量点之间通过共同的用户标识连接。
在一可选实施例中,在确定台变和计量点之间的关联关系时,应考虑实际的业务关系或物理连接,本发明实施例中可以将台变和计量点之间关系转化为用计量点实体信息(通过计量点类型表征)、客户实体信息(通过用电客户电压曲线表征)、台区实体信息(通过台区总表电压曲线表征)共同确定台变和计量点之间的关系,选取台区总表电压曲线数据、用电客户的电压曲线数据、计量点类型数据,根据台变标识,对同一台变供电范围内的用电客户电压与台区总表电压按照皮尔逊相关系数计算公式进行相关系数计算:
其中,X表示用电客户在监测时间段内等间隔监测时点上的电压X=(X1,X2,…,Xn),Y表示对应台区总表在监测时间段内等间隔监测时点上的电压Y=(Y1,Y2,…,Yn),n表示监测的时点个数,表示用电客户在监测时段内的平均电压值,/>表示台区总表在监测时段内的平均电压值。
若校核结果满足第二预设条件,将第二初始关联关系确定为第二关联关系。
在一可选实施例中,当所得相关系数大于或等于预设阈值时,认为该用户属于该台区,判定校核结果满足第二预设条件,当所得相关系数小于预设阈值时,认为该用户不属于该台区,判定校核结果不满足第二预设条件。
若校核结果不满足第二预设条件,根据校核结果对第二初始关联关系进行调整,并利用调整后的第二初始关联关系替换第二初始关联关系,返回根据业务实体主数据计算建立有第二初始关联关系的业务实体之间的相关系数的步骤,直到校核结果满足第二预设条件。
在一可选实施例中,第二初始关联关系用于表征属于第一主题实体类型的各第一业务实体与属于第二主题实体类型的各第二业务实体的关联关系,一个或多个第一实体对象与一个或多个第二实体对象存在关联关系,其中,第一主题实体类型为第一主题域中的实体类型,第二主题实体类型为第二主题域中的实体类型,各第一业务实体中均包括多个第一实体对象,各第二业务实体中均包括多个第二实体对象,示例性地,第一业务实体为台变,属于设备域,则第一业务实体中的第一实体对象包括台变1、台变2、台变3等,第二业务实体为计量点,属于客户域,则第二业务实体中的第二实体对象包括计量点1、计量点2、计量点3等,其中,计量点1、计量点2均与台变1存在关联关系。上述步骤S13具体包括如下步骤:
首先,对第一业务实体的第一实体对象进行聚类,得到一个或多个聚类簇。
在一可选实施例中,在确定台变和计量点之间的关联关系时,选取用电客户连续天数的电压曲线数据,根据台变数设定初始聚类个数,选择簇内距离最小化为聚类准则,对各台变进行K-means聚类,得到多个聚类结果。
然后,确定同一聚类簇中所包含的第一实体对象,以及各第一实体对象在第二初始关联关系中分别对应的第二实体对象。
若同一聚类簇中的第一实体对象在第二初始关联关系中所对应的第二实体对象不同,则判定校核结果不满足第三预设条件。
对第二初始关联关系进行调整,并返回对第一业务实体的第一实体对象进行聚类,得到一个或多个聚类簇的步骤,直到校核结果满足第三预设条件。
在本发明实施例中,在得到多个聚类结果后,获得每个用电客户的分属类别,判断属于同一用电类别的用电客户标识是否对应同一台变标识,以此校核第一步中的标识连接是否正确。当属于同一用电类别的用电客户标识所对应的不是同一台变标识时,表示当前的用电客户与台变表示的连接错误,需要重新调整。
上述实施例中提供了通过二分类模型对第一初始关联关系进行校核的方法、通过相关系数法对第二初始关联关系进行校核的方法,以及通过聚类法对第二初始关联关系进行校核的方法,在一可选实施例中,对于第一初始关联关系以及第二初始关联关系,均可以采用二分类模型、相关系数法、聚类法中的任意一种方法进行校核。
在一可选实施例中,上述步骤S14具体包括:
首先,根据第一关联关系、第二关联关系、各业务实体中实体对象的唯一标识符,用关系模型表示方法建立包含实体-关系标识符、业务实体标识符、业务实体名称等关键属性的逻辑数据模型,实体-关系标识符用于表征多个实体之间存在关联关系的唯一标识。
示例性地,若在电力业务场景下主题域包括设备域、客户域等,设备域中的业务实体包括变电站、主变压器、线路、台变(台区变压器),客户域中的业务实体类别包括计量点、用电客户,则建立的数据模型应至少包含实体-关系id、变电站id、变电站名称、主变压器id、主变压器名称、线路id、线路名称、台变id、台变名称、计量点id、计量点名称、客户id、客户名称。
然后,根据数据模型在数据库中利用SQL建表语句建表。
最后,将经过一致性校验的第一关联关系和第二关联关系迁移到上述表中,得到实体-关系主数据。
本发明实施例提供了一种数据管理装置,如图3所示,包括:
主数据建立模块21,用于结合多个***的业务数据,分别为多个主题域中的各业务实体建立主数据,业务数据中包含中各业务实体的实体信息,详细内容参见上述实施例中对步骤S11的描述,在此不再赘述。
第一关联关系建立模块22,用于根据第一判别模型和同一主题域中建立有第一初始关联关系的业务实体主数据,对第一初始关联关系进行一致性校核,基于校核结果对第一初始关联关系进行调整,得到第一关联关系,详细内容参见上述实施例中对步骤S12的描述,在此不再赘述。
第二关联关系建立模块23,用于根据第二判别模型和不同主题域中建立有第二初始关联关系的业务实体主数据,对第二初始关联关系进行一致性校核,基于校核结果对第二初始关联关系进行调整,得到第二关联关系,详细内容参见上述实施例中对步骤S13的描述,在此不再赘述。
实体-关系主数据建立模块24,用于结合各业务实体之间的第一关联关系、第二关联关系建立实体-关系主数据,详细内容参见上述实施例中对步骤S14的描述,在此不再赘述。
在一可选实施例中,一个业务实体的实体信息存在于多个***的业务数据中,一个业务实体包括多种属性,所述实体信息中包含各属性对应的属性信息,所述主数据建立模块包括:
基础数据确定子模块,用于将其中一个***中与业务实体相对应的实体信息确定为所述业务实体的基础数据,详细内容参见上述方法实施例中的描述,在此不再赘述。
相似度计算子模块,用于根据各***中业务实体的属性信息计算所述各***中与业务实体对应的实体信息与所述基础数据的相似度,详细内容参见上述方法实施例中的描述,在此不再赘述。
映射关系确定子模块,用于根据各***中业务实体的实体信息与所述基础数据的相似度确定各***中各业务实体对象之间的映射关系,详细内容参见上述方法实施例中的描述,在此不再赘述。
主数据建立子模块,用于根据各***中各业务实体对象之间的映射关系将各***中与业务实体相关的实体信息进行整合,得到业务实体主数据,详细内容参见上述方法实施例中的描述,在此不再赘述。
本发明实施例提供了一种计算机设备,如图4所示,该计算机设备主要包括一个或多个处理器31以及存储器32,图4中以一个处理器31为例。
该计算机设备还可以包括:输入装置33和输出装置34。
处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接,图4中以通过总线连接为例。
处理器31可以为中央处理器(Central Processing Unit,CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据数据管理装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至数据管理装置。输入装置33可接收用户输入的计算请求(或其他数字或字符信息),以及产生与数据管理方法有关的键信号输入。输出装置34可包括显示屏等显示设备,用以输出计算结果。
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的数据管理方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (9)

1.一种数据管理方法,其特征在于,包括如下步骤:
结合多个***的业务数据,分别为多个主题域中的各业务实体建立主数据,所述业务数据中包含各业务实体的实体信息;
根据第一判别模型和同一主题域中建立有第一初始关联关系的业务实体主数据,对所述第一初始关联关系进行一致性校核,基于校核结果对所述第一初始关联关系进行调整,得到第一关联关系;
根据第二判别模型和不同主题域中建立有第二初始关联关系的业务实体主数据,对所述第二初始关联关系进行一致性校核,基于校核结果对所述第二初始关联关系进行调整,得到第二关联关系;
结合各所述业务实体之间的第一关联关系、第二关联关系建立实体-关系主数据;
所述第二初始关联关系用于表征属于第一主题实体类型的各第一业务实体与属于第二主题实体类型的各第二业务实体的关联关系,各第一业务实体中均包括多个第一实体对象,各第二业务实体中均包括多个第二实体对象,一个或多个第一实体对象与一个或多个第二实体对象存在关联关系;
利用第二判别模型对所述第二初始关联关系进行一致性校核,基于校核结果对所述第二初始关联关系进行调整,得到第二关联关系,包括:
对第一业务实体的第一实体对象进行聚类,得到一个或多个聚类簇;
确定同一聚类簇中所包含的第一实体对象,以及第一实体对象在第二初始关联关系中分别对应的第二实体对象;
若同一聚类簇中的第一实体对象在所述第二初始关联关系中所对应的第二实体对象不同,则判定校核结果不满足第三预设条件;
对所述第二初始关联关系进行调整,并返回对第一业务实体的第一实体对象进行聚类,得到一个或多个聚类簇的步骤,直到校核结果满足第三预设条件。
2.根据权利要求1所述的数据管理方法,其特征在于,一个业务实体的实体信息存在于多个***的业务数据中,一个业务实体包括多种属性,所述实体信息中包含各属性对应的属性信息,结合多个***的业务数据,分别为多个主题域中的各业务实体建立主数据,包括:
将其中一个***中与业务实体相对应的实体信息确定为所述业务实体的基础数据;
根据各***中业务实体的属性信息计算所述各***中与业务实体对应的实体信息与所述基础数据的相似度;
根据各***中业务实体的实体信息与所述基础数据的相似度确定各***中各业务实体对象之间的映射关系;
根据各***中各业务实体对象之间的映射关系将各***中与业务实体相关的实体信息进行整合,得到业务实体主数据。
3.根据权利要求1所述的数据管理方法,其特征在于,根据第一判别模型和同一主题域中建立有第一初始关联关系的业务实体主数据,对所述第一初始关联关系进行一致性校核,基于校核结果对所述初始对应关系进行调整,得到第一关联关系,包括:
将建立有第一初始关联关系的业务实体主数据中的属性信息作为自变量,将第一初始关联关系作为因变量,构建二分类模型;
根据所述二分类模型的预测结果对所述第一初始关联关系进行校核,若校核结果满足第一预设条件,将第一初始关联关系确定为第一关联关系;
若校核结果不满足所述第一预设条件,根据所述校核结果对所述第一初始关联关系进行调整,并利用调整后的第一初始关联关系替换所述第一初始关联关系,返回根据所述二分类模型对所述第一初始关联关系进行校核的步骤,直到校核结果满足第一预设条件。
4.根据权利要求1所述的数据管理方法,其特征在于,根据第二判别模型和不同主题域中建立有第二初始关联关系的业务实体主数据,对所述第二初始关联关系进行一致性校核,基于校核结果对所述第二初始关联关系进行调整,得到第二关联关系,包括:
根据业务实体主数据计算建立有第二初始关联关系的业务实体之间的相关系数,根据所述相关系数形成校核结果;
若所述校核结果满足第二预设条件,将第二初始关联关系确定为第二关联关系;
若所述校核结果不满足所述第二预设条件,根据所述校核结果对所述第二初始关联关系进行调整,并利用调整后的第二初始关联关系替换所述第二初始关联关系,返回根据业务实体主数据计算建立有第二初始关联关系的业务实体之间的相关系数的步骤,直到校核结果满足第二预设条件。
5.根据权利要求1所述的数据管理方法,其特征在于,各业务实体中均包括一个或多个实体对象,所述方法还包括:
确定各实体对象的唯一标识符;
根据各标识符之间的关联关系表征各业务实体之间的第一关联关系和第二关联关系。
6.一种数据管理装置,其特征在于,包括:
主数据建立模块,用于结合多个***的业务数据,分别为多个主题域中的各业务实体建立主数据,所述业务数据中包含各业务实体的实体信息;
第一关联关系建立模块,用于根据第一判别模型和同一主题域中建立有第一初始关联关系的业务实体主数据,对所述第一初始关联关系进行一致性校核,基于校核结果对所述第一初始关联关系进行调整,得到第一关联关系;
第二关联关系建立模块,用于根据第二判别模型和不同主题域中建立有第二初始关联关系的业务实体主数据,对所述第二初始关联关系进行一致性校核,基于校核结果对所述第二初始关联关系进行调整,得到第二关联关系;
实体-关系主数据建立模块,用于结合各所述业务实体之间的第一关联关系、第二关联关系建立实体-关系主数据;
所述第二初始关联关系用于表征属于第一主题实体类型的各第一业务实体与属于第二主题实体类型的各第二业务实体的关联关系,各第一业务实体中均包括多个第一实体对象,各第二业务实体中均包括多个第二实体对象,一个或多个第一实体对象与一个或多个第二实体对象存在关联关系;
利用第二判别模型对所述第二初始关联关系进行一致性校核,基于校核结果对所述第二初始关联关系进行调整,得到第二关联关系,包括:
对第一业务实体的第一实体对象进行聚类,得到一个或多个聚类簇;
确定同一聚类簇中所包含的第一实体对象,以及第一实体对象在第二初始关联关系中分别对应的第二实体对象;
若同一聚类簇中的第一实体对象在所述第二初始关联关系中所对应的第二实体对象不同,则判定校核结果不满足第三预设条件;
对所述第二初始关联关系进行调整,并返回对第一业务实体的第一实体对象进行聚类,得到一个或多个聚类簇的步骤,直到校核结果满足第三预设条件。
7.根据权利要求6所述的数据管理装置,其特征在于,一个业务实体的实体信息存在于多个***的业务数据中,一个业务实体包括多种属性,所述实体信息中包含各属性对应的属性信息,所述主数据建立模块包括:
基础数据确定子模块,用于将其中一个***中与业务实体相对应的实体信息确定为所述业务实体的基础数据;
相似度计算子模块,用于根据各***中业务实体的属性信息计算所述各***中与业务实体对应的实体信息与所述基础数据的相似度;
映射关系确定子模块,用于根据各***中业务实体的实体信息与所述基础数据的相似度确定各***中各业务实体对象之间的映射关系;
主数据建立子模块,用于根据各***中各业务实体对象之间的映射关系将各***中与业务实体相关的实体信息进行整合,得到业务实体主数据。
8.一种计算机设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,从而执行如权利要求1-5中任一项所述的数据管理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-5中任一项所述的数据管理方法。
CN202210482742.7A 2022-05-05 2022-05-05 一种数据管理方法及装置 Active CN114880406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210482742.7A CN114880406B (zh) 2022-05-05 2022-05-05 一种数据管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210482742.7A CN114880406B (zh) 2022-05-05 2022-05-05 一种数据管理方法及装置

Publications (2)

Publication Number Publication Date
CN114880406A CN114880406A (zh) 2022-08-09
CN114880406B true CN114880406B (zh) 2023-07-18

Family

ID=82674438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210482742.7A Active CN114880406B (zh) 2022-05-05 2022-05-05 一种数据管理方法及装置

Country Status (1)

Country Link
CN (1) CN114880406B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510029B (zh) * 2022-09-26 2024-04-12 煤炭科学研究总院有限公司 基于煤炭工业主题域的数据对象模型构建方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105900117A (zh) * 2014-01-06 2016-08-24 思科技术公司 用于采集、规范、匹配和丰富数据的方法和***
WO2019096191A1 (zh) * 2017-11-16 2019-05-23 四川长虹电器股份有限公司 基于xbrl标准的主数据管理***的设计方法
CN110990585A (zh) * 2019-11-29 2020-04-10 上海勘察设计研究院(集团)有限公司 构建行业知识图谱的多源数据和时间序列处理方法及装置
CN111080479A (zh) * 2019-12-12 2020-04-28 北京中电普华信息技术有限公司 一种电网统一数据模型的创建方法及装置
CN112818072A (zh) * 2021-03-09 2021-05-18 携程旅游信息技术(上海)有限公司 旅游知识图谱更新方法、***、设备及存储介质
CN113515630A (zh) * 2021-06-10 2021-10-19 深圳数联天下智能科技有限公司 三元组生成和校验方法、装置、电子设备和存储介质
CN113806560A (zh) * 2021-10-08 2021-12-17 中国电力科学研究院有限公司 一种电力数据知识图生成方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10585893B2 (en) * 2016-03-30 2020-03-10 International Business Machines Corporation Data processing
US10650000B2 (en) * 2016-09-15 2020-05-12 Oracle International Corporation Techniques for relationship discovery between datasets
CN109377375A (zh) * 2018-09-03 2019-02-22 平安科技(深圳)有限公司 基金关系图谱生成方法、***、计算机设备和存储介质
CN111026877A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 基于概率软逻辑的知识验证模型构建与分析方法
CN111931507A (zh) * 2020-08-21 2020-11-13 贝壳技术有限公司 获取用于实现会话的多元组集合方法、装置、介质及设备
CN113761104A (zh) * 2021-05-11 2021-12-07 腾讯科技(深圳)有限公司 知识图谱中实体关系的检测方法、装置和电子设备
CN114357198B (zh) * 2022-03-15 2022-06-28 支付宝(杭州)信息技术有限公司 一种针对多个知识图谱的实体融合方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105900117A (zh) * 2014-01-06 2016-08-24 思科技术公司 用于采集、规范、匹配和丰富数据的方法和***
WO2019096191A1 (zh) * 2017-11-16 2019-05-23 四川长虹电器股份有限公司 基于xbrl标准的主数据管理***的设计方法
CN110990585A (zh) * 2019-11-29 2020-04-10 上海勘察设计研究院(集团)有限公司 构建行业知识图谱的多源数据和时间序列处理方法及装置
CN111080479A (zh) * 2019-12-12 2020-04-28 北京中电普华信息技术有限公司 一种电网统一数据模型的创建方法及装置
CN112818072A (zh) * 2021-03-09 2021-05-18 携程旅游信息技术(上海)有限公司 旅游知识图谱更新方法、***、设备及存储介质
CN113515630A (zh) * 2021-06-10 2021-10-19 深圳数联天下智能科技有限公司 三元组生成和校验方法、装置、电子设备和存储介质
CN113806560A (zh) * 2021-10-08 2021-12-17 中国电力科学研究院有限公司 一种电力数据知识图生成方法及***

Also Published As

Publication number Publication date
CN114880406A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN109597856A (zh) 一种数据处理方法、装置、电子设备及存储介质
WO2021184995A1 (zh) 数据处理方法及数据标准管理***
US11822862B2 (en) Techniques for generating one or more scores and/or one or more corrections for a digital twin representing a utility network
CN114880406B (zh) 一种数据管理方法及装置
CN109344227A (zh) 工单处理方法、***和电子设备
CN115842342A (zh) 一种分布式配电网的拓扑识别方法及装置
CN110826228A (zh) 一种地区电网运行品质极限评估方法
CN113872204A (zh) 一种基于电网图拓扑计算的用电负荷性质确定方法及装置
CN109583086A (zh) 配电变压器重过载预测方法及终端设备
CN112799868B (zh) 一种根因确定方法、装置、计算机设备及存储介质
WO2019140553A1 (zh) 配电***的健康指数确定方法及装置、计算机存储介质
WO2024056050A1 (zh) 海量柔性负荷快速聚合控制方法及装置
CN109933605A (zh) 电费差错排查方法、装置以及电子设备
CN113095680A (zh) 电力大数据模型的评价指标体系与构建方法
CN115577983B (zh) 基于区块链的企业任务匹配方法、服务器及存储介质
Zhang et al. A data-aided security constraint prescreening technique and application to real-world system
CN116187675A (zh) 任务分配方法、装置、设备及存储介质
CN114238615B (zh) 一种企业服务成果数据处理方法及***
CN115082082A (zh) 基于云平台的人工智能服务***及方法
CN114971272A (zh) 一种中压配电网网格化规划评价方法及***
CN114139847A (zh) 智能配电网建设目标的重要度评价方法、装置、设备
CN112507170A (zh) 基于智能决策的数据资产目录构建方法、及其相关设备
CN116011698B (zh) 机组组合确定方法、装置、计算机设备和存储介质
CN114167223B (zh) 供电异常的检测方法、装置及计算机可读存储介质
CN112101926B (zh) 一种专利年费智能支付方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant