CN116383335A

CN116383335A - 一种面向多源异构电力数据集的集成方法及***

Info

Publication number: CN116383335A
Application number: CN202310663877.8A
Authority: CN
Inventors: 粟海斌; 刘珺; 詹柱; 刘斌; 欧阳宏剑
Original assignee: Fangxin Technology Co ltd
Current assignee: Fangxin Technology Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-07-04

Abstract

本发明公开了一种面向多源异构电力数据集的集成方法与***，通过构建局部本体；在局部本体的基础上生成电力领域本体；基于局部本体，对局部元数据进行抽取，并形成局部本体与局部元数据之间的映射关系；在电力领域本体的指导下，将局部元数据集成为全局元数据。本发明避免大量数据的存储和传输，可以极大降低数据存储和网络带宽成本；解决了由于各部门业务以及分工的不同，导致各应用***彼此隔离，数据无法联通，产生了“信息孤岛”、数据冗余的问题，数据的价值得到充分的开发和利用。

Description

一种面向多源异构电力数据集的集成方法及***

技术领域

本发明涉及电力数据管控技术领域，尤其公开了一种面向多源异构电力数据集的集成方法及***。

背景技术

本体最初是哲学领域的概念，对现实世界真实存在所作出的客观描述。人工智能领域的学者Neches等人对本体（ontology）进行定义，即：本体是构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义．美国斯坦福大学的Gruber给出了本体的定义：本体是概念化的规范说明。基于本体规范描述概念这一特性，利用本体构建规则建立电力领域本体，从建立局部本体出发，运用本体映射规则将局部本体集成，从而构建电力领域本体，为异构环境的元数据集成提供依据。

元数据是关于数据的数据，用它可以记录数据库中数据的分布情况。随着网络技术的飞速发展。元数据已经从最初的数据描述和索引方法发展成为数据表现、数据转换、数据管理和数据使用整个信息传输过程中不可或缺的工具和方法之一。电力多源异构数据环境下，数据格式、内容、质量等差别较大。本文运用元数据对异构数据源进行统一的逻辑表示，解决各数据源的异构问题，为数据集成提供统一基础结构，并用于描述集成数据及数据来源。

数据集成是将若干个分散的数据源中的数据，逻辑或者物理地集中在一个数据集合中的过程，目标是实现数据共享和信息交流，核心任务是要将互相关联的分布式异构数据源集成到一起。由于数据源的异构性、分布性和自治性，使得数据集成存在诸多难题．为了更好地解决异构性等问题，对元数据进行集成，形成全局元数据，保证更快速地找到用户的需求数据，同时也提高了数据集成的质量和适用度。

目前我国电力***信息化建设已经从以数字化电力***为中心的各类应用开发阶段逐步发展到以智慧电力***为中心的***整合阶段。当前，各电力***都开发出多种应用***，利用信息技术实现对发电、电力传输、收费、办公等信息的收集、处理和应用，但由于各部门业务以及分工的不同，导致各应用***彼此隔离，数据无法联通，产生了“信息孤岛”、数据冗余的问题，数据的价值未能得到充分的开发和利用。

近年来，众多学者在异构数据集成方面取得了较为***的科研成果，但是当前工作难点在于多源异构数据集成的存储成本、传输成本均较高，且对网络带宽有很高的要求。

因此，现有多源异构数据集成方法中存在的存储成本、传输成本均较高，且对网络带宽有很高的要求，是目前亟待解决的技术问题。

发明内容

本发明提供了一种面向多源异构电力数据集的集成方法及***，旨在解决现有多源异构数据集成方法中存在的存储成本、传输成本均较高，且对网络带宽有很高的要求的技术问题。

本发明的一方面涉及一种面向多源异构电力数据集的集成方法，包括以下步骤：

局部本体构建步骤，构建局部本体；

电力领域本体构建步骤，在局部本体的基础上生成电力领域本体；

局部元数据抽取步骤，基于局部本体，对局部元数据进行抽取，并形成局部本体与局部元数据之间的映射关系；

元数据集成步骤，在电力领域本体的指导下，将局部元数据集成为全局元数据。

进一步地，局部本体构建步骤包括：

对局部数据源进行全面分析，获得数据库的模式；

建立数据库的ER模型，在ER模型的基础上得到局部本体，形成局部数据源与局部本体之间的关系图，其中，ER模型中建立有实体之间的联系。

进一步地，电力领域本体构建步骤包括：

在得到局部本体之间的映射关系基础上，找到各局部本体中相似的概念；

将相同概念的类抽象为电力领域本体中的一个类；将相同类的相同属性抽象为电力领域本体中对应类的属性；将类之间的关系抽象为电力领域本体中的一个关系；如果只在一个数据源中出现的类，则直接将数据源的类和属性放入电力领域本体对应的位置。

进一步地，电力领域本体构建步骤中采用cupid本体映射算法来建立本体映射。

进一步地，cupid本体映射算法包括：

分别计算各个概念的结构相似度，计算出的各个概念的结构相似度为：

其中，/>

为各个概念的结构相似度；m1、m2分别是两个本体中的对应概念；C1、C2分别是m1和m2所属的类别；ns(m1，m2)是m1，m2的名字相似度；

计算语义相似度，计算出的语义相似度为：

其中，

为语义相似度，m1、m2分别是两个本体中对应的概念；leaves(m1)是代表m1的叶子；stronglink(x，y)是强连接，即x，y的相似度超过阈值；

根据语义相似度和各个概念的结构相似度，计算概念间的综合相似度，计算出的综合相似度为：

其中，

是综合相似度，/>

是比重系数，sim是语义相似度，lism是计算各个概念的结构相似度；

通过将综合相似度与阈值thaccept进行比较，如果综合相似度大于阈值thaccept，则建立两个元素之间的关系，并形成电力领域本体与局部本体之间的映射关系。

本发明的另一方面涉及一种面向多源异构电力数据集的集成***，包括：

局部本体构建模块，用于构建局部本体；

电力领域本体构建模块，用于在局部本体的基础上生成电力领域本体；

局部元数据抽取模块，用于基于局部本体，对局部元数据进行抽取，并形成局部本体与局部元数据之间的映射关系；

元数据集成模块，用于在电力领域本体的指导下，将局部元数据集成为全局元数据。

进一步地，局部本体构建模块包括：

分析单元，用于对局部数据源进行全面分析，获得数据库的模式；

建立单元，用于建立数据库的ER模型，在ER模型的基础上得到局部本体，形成局部数据源与局部本体之间的关系图，其中，ER模型中建立有实体之间的联系。

进一步地，电力领域本体构建模块包括：

搜索单元，用于在得到局部本体之间的映射关系基础上，找到各局部本体中相似的概念；

抽象单元，用于将相同概念的类抽象为电力领域本体中的一个类；将相同类的相同属性抽象为电力领域本体中对应类的属性；将类之间的关系抽象为电力领域本体中的一个关系；如果只在一个数据源中出现的类，则直接将数据源的类和属性放入电力领域本体对应的位置。

进一步地，局部元数据抽取模块中，采用cupid本体映射算法来建立本体映射。

进一步地，cupid本体映射算法包括：

其中，

为各个概念的结构相似度；m1、m2分别是两个本体中的对应概念；C1、C2分别是m1和m2所属的类别；ns(m1，m2)是m1，m2的名字相似度；计算语义相似度，计算出的语义相似度为：/>

其中，/>

其中，

是综合相似度，/>

本发明所取得的有益效果为：

本发明提供一种面向多源异构电力数据集的集成方法与***，通过构建局部本体；在局部本体的基础上生成电力领域本体；基于局部本体，对局部元数据进行抽取，并形成局部本体与局部元数据之间的映射关系；在电力领域本体的指导下，将局部元数据集成为全局元数据。本发明提供的面向多源异构电力数据集的集成方法与***，避免大量数据的存储和传输，可以极大降低数据存储和网络带宽成本；解决了由于各部门业务以及分工的不同，导致各应用***彼此隔离，数据无法联通，产生了“信息孤岛”、数据冗余的问题，数据的价值得到充分的开发和利用。

附图说明

图1为本发明提供的面向多源异构电力数据集的集成方法一实施例的流程示意图；

图2为图1中所示的局部本体构建步骤一实施例的流程示意图；

图3为本发明中局部数据源与局部本体之间的关系图；

图4为图1中所示的电力领域本体构建步骤一实施例的流程示意图；

图5为本发明中元数据结构示意图；

图6为本发明提供的面向多源异构电力数据集的集成***一实施例的功能框图；

图7为图6中所示的局部本体构建模块一实施例的功能模块示意图；

图8为图6中所示的电力领域本体构建模块一实施例的功能模块示意图。

附图标号说明：

10、局部本体构建模块；20、电力领域本体构建模块；30、局部元数据抽取模块；40、元数据集成模块；11、分析单元；12、建立单元；21、搜索单元；22、抽象单元。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

如图1和图2所示，本发明第一实施例提出一种面向多源异构电力数据集的集成方法，包括以下步骤：

步骤S100、局部本体构建步骤，构建局部本体。

分析数据源和构建局部本体；在构建局部本体之前需要对数据源进行全面的分析，获得数据库的模式，从而建立该数据库的ER（Entity Relationship Diagram，实体联系图）模型，在此基础上得到局部本体；所述的分析数据源需要通过分析其逻辑结构，确定构建本体所需的概念。数据库的逻辑结构可以通过ER（Entity Relationship Diagram，实体联系）图来表示。数据模型是对于现实世界的认识，现实世界是由一组称作实体的基本对象以及这些对象的联系构成的。实体是现实世界中可区别于其他对象的一个“事物”或一个“物体”，通过属性集合来描述。联系是实体间的相互关联。同一类型的所有实体的集合称作实体集，同一类型的所有联系的集合称为联系集。通过对数据模式和本体概念进行分析，可以得出ER模型和局部本体之间的关系，图3表述了局部数据源与局部本体之间的关系。

步骤S200、电力领域本体构建步骤，在局部本体的基础上生成电力领域本体。

在得到局部本体之间的映射关系基础上，找到各局部本体中相似的概念。将相同概念的类抽象为电力领域本体中的一个类；将相同类的相同属性抽象为电力领域本体中对应类的属性；将类之间的关系抽象为电力领域本体中的一个关系；如果只在一个数据源中出现的类，则直接将它的类和属性放入电力领域本体对应的位置。

步骤S300、局部元数据抽取步骤，基于局部本体，对局部元数据进行抽取，并形成局部本体与局部元数据之间的映射关系。

基于局部本体，对局部元数据进行抽取，并形成局部本体与局部元数据之间的映射关系元数据抽取规则如下：

规则1：对于局部本体中的类对应为元数据，元数据=协议类型：//主机名/根目录/类名。

规则2：对于局部本体中的对象属性映射为外键属性。

规则3：对于局部本体中的数据属性中的主键映射为元数据标识。

规则4：对于局部本体中的数据属性中除主键外的其余属性映射为一般属性。

规则5：将每个局部本体中的类相应表中的记录数作为元数据条目添加到对应的元数据条目中。

规则6：将生成局部本体中，类的类型、长度等映射到元数据的标记属性。

步骤S400、元数据集成步骤，在电力领域本体的指导下，将局部元数据集成为全局元数据。

根据电力领域本体的构建和局部本体的元数据抽取中所得到的映射关系：OntoMeta Mapping和Onto Mapping。其中，电力领域的元数据集成步骤如下：

步骤S410、设全局元数据为空，输入局部元数据，根据Onto Meta Mapping和OntoMapping，查找是否存在对应的全局元数据，若存在则转至步骤S420；若不存在则转至步骤S430。

步骤S420、参照映射关系，将该局部元数据的信息直接添加到全局元数据中。

步骤S430、根据映射关系找到与该局部元数据对应的全局元数据，并建立它们之间的对应关系；再查看该元数据的属性在全局元数据中是否存在，若存在则转至步骤S440；若不存在则转至步骤S450。

步骤S440、一般属性和外键属性参照映射关系，建立映射；类型、标记等标记属性，将全局元数据的标记属性取最大值。元数据条目，将值进行累加。

步骤S450、参照映射关系，将局部元数据的属性添加到全局元数据中，并建立映射。

进一步地，如图2所示，图2为图1中所示的步骤S100一实施例的流程示意图，在本实施例中，步骤S100包括：

步骤S110、对局部数据源进行全面分析，获得数据库的模式。

对数据源进行全面的分析，获得数据库的模式，从而建立该数据库的ER模型，在此基础上得到局部本体；所述的分析数据源需要通过分析其逻辑结构，确定构建本体所需的概念。

步骤S120、建立数据库的ER模型，在ER模型的基础上得到局部本体，形成局部数据源与局部本体之间的关系图，其中，ER模型中建立有实体之间的联系。

建立数据库的ER模型，数据库的逻辑结构可以通过ER图来表示。在ER模型的基础上得到局部本体。

优选地，请见图4，图4为图1中所示的步骤S200一实施例的流程示意图，在本实施例中，步骤S200包括：

步骤S210、在得到局部本体之间的映射关系基础上，找到各局部本体中相似的概念。

步骤S220、将相同概念的类抽象为电力领域本体中的一个类；将相同类的相同属性抽象为电力领域本体中对应类的属性；将类之间的关系抽象为电力领域本体中的一个关系；如果只在一个数据源中出现的类，则直接将数据源的类和属性放入电力领域本体对应的位置。

进一步地，本实施例提供的面向多源异构电力数据集的集成方法，在步骤S300中，采用cupid本体映射算法来建立本体映射。其中，cupid本体映射算法包括：

（1）

公式（1）中，

计算语义相似度，计算出的语义相似度为：

（2）

公式（2）中，

为语义相似度，m1、m2分别是两个本体中对应的概念；leaves(m1)是代表m1的叶子；stronglink(x，y)是强连接，即x，y的相似度超过阈值。

（3）

公式（3）中，

是综合相似度，/>

本实施例提供的面向多源异构电力数据集的集成方法，同现有技术相比，通过构建局部本体；在局部本体的基础上生成电力领域本体；基于局部本体，对局部元数据进行抽取，并形成局部本体与局部元数据之间的映射关系；在电力领域本体的指导下，将局部元数据集成为全局元数据。本实施例提供的面向多源异构电力数据集的集成方法，避免大量数据的存储和传输，可以极大降低数据存储和网络带宽成本；解决了由于各部门业务以及分工的不同，导致各应用***彼此隔离，数据无法联通，产生了“信息孤岛”、数据冗余的问题，数据的价值得到充分的开发和利用。

如图6所示，图6为本发明提供的面向多源异构电力数据集的集成***一实施例的功能框图，在本实施例中，面向多源异构电力数据集的集成***包括局部本体构建模块10、电力领域本体构建模块20、局部元数据抽取模块30和元数据集成模块40，其中，局部本体构建模块10，用于构建局部本体；电力领域本体构建模块20，用于在局部本体的基础上生成电力领域本体；局部元数据抽取模块30，用于基于局部本体，对局部元数据进行抽取，并形成局部本体与局部元数据之间的映射关系；元数据集成模块40，用于在电力领域本体的指导下，将局部元数据集成为全局元数据。

局部本体构建模块10分析数据源和构建局部本体；在构建局部本体之前需要对数据源进行全面的分析，获得数据库的模式，从而建立该数据库的ER（Entity RelationshipDiagram，实体联系图）模型，在此基础上得到局部本体；所述的分析数据源需要通过分析其逻辑结构，确定构建本体所需的概念。数据库的逻辑结构可以通过ER（EntityRelationship Diagram，实体联系）图来表示。数据模型是对于现实世界的认识，现实世界是由一组称作实体的基本对象以及这些对象的联系构成的。实体是现实世界中可区别于其他对象的一个“事物”或一个“物体”，通过属性集合来描述。联系是实体间的相互关联。同一类型的所有实体的集合称作实体集，同一类型的所有联系的集合称为联系集。通过对数据模式和本体概念进行分析，可以得出ER模型和局部本体之间的关系，图3表述了局部数据源与局部本体之间的关系。

电力领域本体构建模块20在得到局部本体之间的映射关系基础上，找到各局部本体中相似的概念。将相同概念的类抽象为电力领域本体中的一个类；将相同类的相同属性抽象为电力领域本体中对应类的属性；将类之间的关系抽象为电力领域本体中的一个关系；如果只在一个数据源中出现的类，则直接将它的类和属性放入电力领域本体对应的位置。局部元数据抽取模块30基于局部本体，对局部元数据进行抽取，并形成局部本体与局部元数据之间的映射关系元数据抽取规则如下：

规则2：对于局部本体中的对象属性映射为外键属性。

元数据集成模块40根据电力领域本体的构建和局部本体的元数据抽取中所得到的映射关系：Onto Meta Mapping和Onto Mapping。

进一步地，请见图7，图7为图6中所示的局部本体构建模块一实施例的功能模块示意图，在本实施例中，局部本体构建模块10包括分析单元11和建立单元12，其中，分析单元11，用于对局部数据源进行全面分析，获得数据库的模式；建立单元12，用于建立数据库的ER模型，在ER模型的基础上得到局部本体，形成局部数据源与局部本体之间的关系图，其中，ER模型中建立有实体之间的联系。

分析单元11对数据源进行全面的分析，获得数据库的模式，从而建立该数据库的ER模型，在此基础上得到局部本体；所述的分析数据源需要通过分析其逻辑结构，确定构建本体所需的概念。

建立单元12建立数据库的ER模型，数据库的逻辑结构可以通过ER图来表示。在ER模型的基础上得到局部本体。

优选地，图8为图6中所示的电力领域本体构建模块一实施例的功能模块示意图，在本实施例中，电力领域本体构建模块20包括搜索单元21和抽象单元22，其中，搜索单元21，用于在得到局部本体之间的映射关系基础上，找到各局部本体中相似的概念；抽象单元22，用于将相同概念的类抽象为电力领域本体中的一个类；将相同类的相同属性抽象为电力领域本体中对应类的属性；将类之间的关系抽象为电力领域本体中的一个关系；如果只在一个数据源中出现的类，则直接将数据源的类和属性放入电力领域本体对应的位置。

进一步地，本实施例提供的面向多源异构电力数据集的集成***，局部元数据抽取模块30中，采用cupid本体映射算法来建立本体映射。其中，cupid本体映射算法包括：分别计算各个概念的结构相似度，计算出的各个概念的结构相似度为：

（4）

公式（4）中，

计算语义相似度，计算出的语义相似度为：

（5）

公式（5）中，

（6）

公式（6）中，

是综合相似度，/>

本实施例提供的面向多源异构电力数据集的集成***，同现有技术相比，采用局部本体构建模块10、电力领域本体构建模块20、局部元数据抽取模块30和元数据集成模块40，通过构建局部本体；在局部本体的基础上生成电力领域本体；基于局部本体，对局部元数据进行抽取，并形成局部本体与局部元数据之间的映射关系；在电力领域本体的指导下，将局部元数据集成为全局元数据。本实施例提供的面向多源异构电力数据集的集成***，避免大量数据的存储和传输，可以极大降低数据存储和网络带宽成本；解决了由于各部门业务以及分工的不同，导致各应用***彼此隔离，数据无法联通，产生了“信息孤岛”、数据冗余的问题，数据的价值得到充分的开发和利用。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。