CN116383335A - 一种面向多源异构电力数据集的集成方法及*** - Google Patents

一种面向多源异构电力数据集的集成方法及*** Download PDF

Info

Publication number
CN116383335A
CN116383335A CN202310663877.8A CN202310663877A CN116383335A CN 116383335 A CN116383335 A CN 116383335A CN 202310663877 A CN202310663877 A CN 202310663877A CN 116383335 A CN116383335 A CN 116383335A
Authority
CN
China
Prior art keywords
ontology
local
similarity
metadata
power domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202310663877.8A
Other languages
English (en)
Inventor
粟海斌
刘珺
詹柱
刘斌
欧阳宏剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fangxin Technology Co ltd
Original Assignee
Fangxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fangxin Technology Co ltd filed Critical Fangxin Technology Co ltd
Priority to CN202310663877.8A priority Critical patent/CN116383335A/zh
Publication of CN116383335A publication Critical patent/CN116383335A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Water Supply & Treatment (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种面向多源异构电力数据集的集成方法与***,通过构建局部本体;在局部本体的基础上生成电力领域本体;基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系;在电力领域本体的指导下,将局部元数据集成为全局元数据。本发明避免大量数据的存储和传输,可以极大降低数据存储和网络带宽成本;解决了由于各部门业务以及分工的不同,导致各应用***彼此隔离,数据无法联通,产生了“信息孤岛”、数据冗余的问题,数据的价值得到充分的开发和利用。

Description

一种面向多源异构电力数据集的集成方法及***
技术领域
本发明涉及电力数据管控技术领域,尤其公开了一种面向多源异构电力数据集的集成方法及***。
背景技术
本体最初是哲学领域的概念,对现实世界真实存在所作出的客观描述。人工智能领域的学者Neches等人对本体(ontology)进行定义,即:本体是构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义.美国斯坦福大学的Gruber给出了本体的定义:本体是概念化的规范说明。基于本体规范描述概念这一特性,利用本体构建规则建立电力领域本体,从建立局部本体出发,运用本体映射规则将局部本体集成,从而构建电力领域本体,为异构环境的元数据集成提供依据。
元数据是关于数据的数据,用它可以记录数据库中数据的分布情况。随着网络技术的飞速发展。元数据已经从最初的数据描述和索引方法发展成为数据表现、数据转换、数据管理和数据使用整个信息传输过程中不可或缺的工具和方法之一。电力多源异构数据环境下,数据格式、内容、质量等差别较大。本文运用元数据对异构数据源进行统一的逻辑表示,解决各数据源的异构问题,为数据集成提供统一基础结构,并用于描述集成数据及数据来源。
数据集成是将若干个分散的数据源中的数据,逻辑或者物理地集中在一个数据集合中的过程,目标是实现数据共享和信息交流,核心任务是要将互相关联的分布式异构数据源集成到一起。由于数据源的异构性、分布性和自治性,使得数据集成存在诸多难题.为了更好地解决异构性等问题,对元数据进行集成,形成全局元数据,保证更快速地找到用户的需求数据,同时也提高了数据集成的质量和适用度。
目前我国电力***信息化建设已经从以数字化电力***为中心的各类应用开发阶段逐步发展到以智慧电力***为中心的***整合阶段。当前,各电力***都开发出多种应用***,利用信息技术实现对发电、电力传输、收费、办公等信息的收集、处理和应用,但由于各部门业务以及分工的不同,导致各应用***彼此隔离,数据无法联通,产生了“信息孤岛”、数据冗余的问题,数据的价值未能得到充分的开发和利用。
近年来,众多学者在异构数据集成方面取得了较为***的科研成果,但是当前工作难点在于多源异构数据集成的存储成本、传输成本均较高,且对网络带宽有很高的要求。
因此,现有多源异构数据集成方法中存在的存储成本、传输成本均较高,且对网络带宽有很高的要求,是目前亟待解决的技术问题。
发明内容
本发明提供了一种面向多源异构电力数据集的集成方法及***,旨在解决现有多源异构数据集成方法中存在的存储成本、传输成本均较高,且对网络带宽有很高的要求的技术问题。
本发明的一方面涉及一种面向多源异构电力数据集的集成方法,包括以下步骤:
局部本体构建步骤,构建局部本体;
电力领域本体构建步骤,在局部本体的基础上生成电力领域本体;
局部元数据抽取步骤,基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系;
元数据集成步骤,在电力领域本体的指导下,将局部元数据集成为全局元数据。
进一步地,局部本体构建步骤包括:
对局部数据源进行全面分析,获得数据库的模式;
建立数据库的ER模型,在ER模型的基础上得到局部本体,形成局部数据源与局部本体之间的关系图,其中,ER模型中建立有实体之间的联系。
进一步地,电力领域本体构建步骤包括:
在得到局部本体之间的映射关系基础上,找到各局部本体中相似的概念;
将相同概念的类抽象为电力领域本体中的一个类;将相同类的相同属性抽象为电力领域本体中对应类的属性;将类之间的关系抽象为电力领域本体中的一个关系;如果只在一个数据源中出现的类,则直接将数据源的类和属性放入电力领域本体对应的位置。
进一步地,电力领域本体构建步骤中采用cupid本体映射算法来建立本体映射。
进一步地,cupid本体映射算法包括:
分别计算各个概念的结构相似度,计算出的各个概念的结构相似度为:
Figure SMS_1
其中,/>
Figure SMS_2
为各个概念的结构相似度;m1、m2分别是两个本体中的对应概念;C1、C2分别是m1和m2所属的类别;ns(m1,m2)是m1,m2的名字相似度;
计算语义相似度,计算出的语义相似度为:
Figure SMS_3
其中,
Figure SMS_4
为语义相似度,m1、m2分别是两个本体中对应的概念;leaves(m1)是代表m1的叶子;stronglink(x,y)是强连接,即x,y的相似度超过阈值;
根据语义相似度和各个概念的结构相似度,计算概念间的综合相似度,计算出的综合相似度为:
Figure SMS_5
其中,
Figure SMS_6
是综合相似度,/>
Figure SMS_7
是比重系数,sim是语义相似度,lism是计算各个概念的结构相似度;
通过将综合相似度与阈值thaccept进行比较,如果综合相似度大于阈值thaccept,则建立两个元素之间的关系,并形成电力领域本体与局部本体之间的映射关系。
本发明的另一方面涉及一种面向多源异构电力数据集的集成***,包括:
局部本体构建模块,用于构建局部本体;
电力领域本体构建模块,用于在局部本体的基础上生成电力领域本体;
局部元数据抽取模块,用于基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系;
元数据集成模块,用于在电力领域本体的指导下,将局部元数据集成为全局元数据。
进一步地,局部本体构建模块包括:
分析单元,用于对局部数据源进行全面分析,获得数据库的模式;
建立单元,用于建立数据库的ER模型,在ER模型的基础上得到局部本体,形成局部数据源与局部本体之间的关系图,其中,ER模型中建立有实体之间的联系。
进一步地,电力领域本体构建模块包括:
搜索单元,用于在得到局部本体之间的映射关系基础上,找到各局部本体中相似的概念;
抽象单元,用于将相同概念的类抽象为电力领域本体中的一个类;将相同类的相同属性抽象为电力领域本体中对应类的属性;将类之间的关系抽象为电力领域本体中的一个关系;如果只在一个数据源中出现的类,则直接将数据源的类和属性放入电力领域本体对应的位置。
进一步地,局部元数据抽取模块中,采用cupid本体映射算法来建立本体映射。
进一步地,cupid本体映射算法包括:
分别计算各个概念的结构相似度,计算出的各个概念的结构相似度为:
Figure SMS_8
其中,
Figure SMS_9
为各个概念的结构相似度;m1、m2分别是两个本体中的对应概念;C1、C2分别是m1和m2所属的类别;ns(m1,m2)是m1,m2的名字相似度;计算语义相似度,计算出的语义相似度为:/>
Figure SMS_10
其中,/>
Figure SMS_11
为语义相似度,m1、m2分别是两个本体中对应的概念;leaves(m1)是代表m1的叶子;stronglink(x,y)是强连接,即x,y的相似度超过阈值;
根据语义相似度和各个概念的结构相似度,计算概念间的综合相似度,计算出的综合相似度为:
Figure SMS_12
其中,
Figure SMS_13
是综合相似度,/>
Figure SMS_14
是比重系数,sim是语义相似度,lism是计算各个概念的结构相似度;
通过将综合相似度与阈值thaccept进行比较,如果综合相似度大于阈值thaccept,则建立两个元素之间的关系,并形成电力领域本体与局部本体之间的映射关系。
本发明所取得的有益效果为:
本发明提供一种面向多源异构电力数据集的集成方法与***,通过构建局部本体;在局部本体的基础上生成电力领域本体;基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系;在电力领域本体的指导下,将局部元数据集成为全局元数据。本发明提供的面向多源异构电力数据集的集成方法与***,避免大量数据的存储和传输,可以极大降低数据存储和网络带宽成本;解决了由于各部门业务以及分工的不同,导致各应用***彼此隔离,数据无法联通,产生了“信息孤岛”、数据冗余的问题,数据的价值得到充分的开发和利用。
附图说明
图1为本发明提供的面向多源异构电力数据集的集成方法一实施例的流程示意图;
图2为图1中所示的局部本体构建步骤一实施例的流程示意图;
图3为本发明中局部数据源与局部本体之间的关系图;
图4为图1中所示的电力领域本体构建步骤一实施例的流程示意图;
图5为本发明中元数据结构示意图;
图6为本发明提供的面向多源异构电力数据集的集成***一实施例的功能框图;
图7为图6中所示的局部本体构建模块一实施例的功能模块示意图;
图8为图6中所示的电力领域本体构建模块一实施例的功能模块示意图。
附图标号说明:
10、局部本体构建模块;20、电力领域本体构建模块;30、局部元数据抽取模块;40、元数据集成模块;11、分析单元;12、建立单元;21、搜索单元;22、抽象单元。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
如图1和图2所示,本发明第一实施例提出一种面向多源异构电力数据集的集成方法,包括以下步骤:
步骤S100、局部本体构建步骤,构建局部本体。
分析数据源和构建局部本体;在构建局部本体之前需要对数据源进行全面的分析,获得数据库的模式,从而建立该数据库的ER(Entity Relationship Diagram,实体联系图)模型,在此基础上得到局部本体;所述的分析数据源需要通过分析其逻辑结构,确定构建本体所需的概念。数据库的逻辑结构可以通过ER(Entity Relationship Diagram,实体联系)图来表示。数据模型是对于现实世界的认识,现实世界是由一组称作实体的基本对象以及这些对象的联系构成的。实体是现实世界中可区别于其他对象的一个“事物”或一个“物体”,通过属性集合来描述。联系是实体间的相互关联。同一类型的所有实体的集合称作实体集,同一类型的所有联系的集合称为联系集。通过对数据模式和本体概念进行分析,可以得出ER模型和局部本体之间的关系,图3表述了局部数据源与局部本体之间的关系。
步骤S200、电力领域本体构建步骤,在局部本体的基础上生成电力领域本体。
在得到局部本体之间的映射关系基础上,找到各局部本体中相似的概念。将相同概念的类抽象为电力领域本体中的一个类;将相同类的相同属性抽象为电力领域本体中对应类的属性;将类之间的关系抽象为电力领域本体中的一个关系;如果只在一个数据源中出现的类,则直接将它的类和属性放入电力领域本体对应的位置。
步骤S300、局部元数据抽取步骤,基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系。
基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系元数据抽取规则如下:
规则1:对于局部本体中的类对应为元数据,元数据=协议类型://主机名/根目录/类名。
规则2:对于局部本体中的对象属性映射为外键属性。
规则3:对于局部本体中的数据属性中的主键映射为元数据标识。
规则4:对于局部本体中的数据属性中除主键外的其余属性映射为一般属性。
规则5:将每个局部本体中的类相应表中的记录数作为元数据条目添加到对应的元数据条目中。
规则6:将生成局部本体中,类的类型、长度等映射到元数据的标记属性。
步骤S400、元数据集成步骤,在电力领域本体的指导下,将局部元数据集成为全局元数据。
根据电力领域本体的构建和局部本体的元数据抽取中所得到的映射关系:OntoMeta Mapping和Onto Mapping。其中,电力领域的元数据集成步骤如下:
步骤S410、设全局元数据为空,输入局部元数据,根据Onto Meta Mapping和OntoMapping,查找是否存在对应的全局元数据,若存在则转至步骤S420;若不存在则转至步骤S430。
步骤S420、参照映射关系,将该局部元数据的信息直接添加到全局元数据中。
步骤S430、根据映射关系找到与该局部元数据对应的全局元数据,并建立它们之间的对应关系;再查看该元数据的属性在全局元数据中是否存在,若存在则转至步骤S440;若不存在则转至步骤S450。
步骤S440、一般属性和外键属性参照映射关系,建立映射;类型、标记等标记属性,将全局元数据的标记属性取最大值。元数据条目,将值进行累加。
步骤S450、参照映射关系,将局部元数据的属性添加到全局元数据中,并建立映射。
进一步地,如图2所示,图2为图1中所示的步骤S100一实施例的流程示意图,在本实施例中,步骤S100包括:
步骤S110、对局部数据源进行全面分析,获得数据库的模式。
对数据源进行全面的分析,获得数据库的模式,从而建立该数据库的ER模型,在此基础上得到局部本体;所述的分析数据源需要通过分析其逻辑结构,确定构建本体所需的概念。
步骤S120、建立数据库的ER模型,在ER模型的基础上得到局部本体,形成局部数据源与局部本体之间的关系图,其中,ER模型中建立有实体之间的联系。
建立数据库的ER模型,数据库的逻辑结构可以通过ER图来表示。在ER模型的基础上得到局部本体。
优选地,请见图4,图4为图1中所示的步骤S200一实施例的流程示意图,在本实施例中,步骤S200包括:
步骤S210、在得到局部本体之间的映射关系基础上,找到各局部本体中相似的概念。
步骤S220、将相同概念的类抽象为电力领域本体中的一个类;将相同类的相同属性抽象为电力领域本体中对应类的属性;将类之间的关系抽象为电力领域本体中的一个关系;如果只在一个数据源中出现的类,则直接将数据源的类和属性放入电力领域本体对应的位置。
进一步地,本实施例提供的面向多源异构电力数据集的集成方法,在步骤S300中,采用cupid本体映射算法来建立本体映射。其中,cupid本体映射算法包括:
分别计算各个概念的结构相似度,计算出的各个概念的结构相似度为:
Figure SMS_15
(1)
公式(1)中,
Figure SMS_16
为各个概念的结构相似度;m1、m2分别是两个本体中的对应概念;C1、C2分别是m1和m2所属的类别;ns(m1,m2)是m1,m2的名字相似度;
计算语义相似度,计算出的语义相似度为:
Figure SMS_17
(2)
公式(2)中,
Figure SMS_18
为语义相似度,m1、m2分别是两个本体中对应的概念;leaves(m1)是代表m1的叶子;stronglink(x,y)是强连接,即x,y的相似度超过阈值。
根据语义相似度和各个概念的结构相似度,计算概念间的综合相似度,计算出的综合相似度为:
Figure SMS_19
(3)
公式(3)中,
Figure SMS_20
是综合相似度,/>
Figure SMS_21
是比重系数,sim是语义相似度,lism是计算各个概念的结构相似度;
通过将综合相似度与阈值thaccept进行比较,如果综合相似度大于阈值thaccept,则建立两个元素之间的关系,并形成电力领域本体与局部本体之间的映射关系。
本实施例提供的面向多源异构电力数据集的集成方法,同现有技术相比,通过构建局部本体;在局部本体的基础上生成电力领域本体;基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系;在电力领域本体的指导下,将局部元数据集成为全局元数据。本实施例提供的面向多源异构电力数据集的集成方法,避免大量数据的存储和传输,可以极大降低数据存储和网络带宽成本;解决了由于各部门业务以及分工的不同,导致各应用***彼此隔离,数据无法联通,产生了“信息孤岛”、数据冗余的问题,数据的价值得到充分的开发和利用。
如图6所示,图6为本发明提供的面向多源异构电力数据集的集成***一实施例的功能框图,在本实施例中,面向多源异构电力数据集的集成***包括局部本体构建模块10、电力领域本体构建模块20、局部元数据抽取模块30和元数据集成模块40,其中,局部本体构建模块10,用于构建局部本体;电力领域本体构建模块20,用于在局部本体的基础上生成电力领域本体;局部元数据抽取模块30,用于基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系;元数据集成模块40,用于在电力领域本体的指导下,将局部元数据集成为全局元数据。
局部本体构建模块10分析数据源和构建局部本体;在构建局部本体之前需要对数据源进行全面的分析,获得数据库的模式,从而建立该数据库的ER(Entity RelationshipDiagram,实体联系图)模型,在此基础上得到局部本体;所述的分析数据源需要通过分析其逻辑结构,确定构建本体所需的概念。数据库的逻辑结构可以通过ER(EntityRelationship Diagram,实体联系)图来表示。数据模型是对于现实世界的认识,现实世界是由一组称作实体的基本对象以及这些对象的联系构成的。实体是现实世界中可区别于其他对象的一个“事物”或一个“物体”,通过属性集合来描述。联系是实体间的相互关联。同一类型的所有实体的集合称作实体集,同一类型的所有联系的集合称为联系集。通过对数据模式和本体概念进行分析,可以得出ER模型和局部本体之间的关系,图3表述了局部数据源与局部本体之间的关系。
电力领域本体构建模块20在得到局部本体之间的映射关系基础上,找到各局部本体中相似的概念。将相同概念的类抽象为电力领域本体中的一个类;将相同类的相同属性抽象为电力领域本体中对应类的属性;将类之间的关系抽象为电力领域本体中的一个关系;如果只在一个数据源中出现的类,则直接将它的类和属性放入电力领域本体对应的位置。局部元数据抽取模块30基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系元数据抽取规则如下:
规则1:对于局部本体中的类对应为元数据,元数据=协议类型://主机名/根目录/类名。
规则2:对于局部本体中的对象属性映射为外键属性。
规则3:对于局部本体中的数据属性中的主键映射为元数据标识。
规则4:对于局部本体中的数据属性中除主键外的其余属性映射为一般属性。
规则5:将每个局部本体中的类相应表中的记录数作为元数据条目添加到对应的元数据条目中。
规则6:将生成局部本体中,类的类型、长度等映射到元数据的标记属性。
元数据集成模块40根据电力领域本体的构建和局部本体的元数据抽取中所得到的映射关系:Onto Meta Mapping和Onto Mapping。
进一步地,请见图7,图7为图6中所示的局部本体构建模块一实施例的功能模块示意图,在本实施例中,局部本体构建模块10包括分析单元11和建立单元12,其中,分析单元11,用于对局部数据源进行全面分析,获得数据库的模式;建立单元12,用于建立数据库的ER模型,在ER模型的基础上得到局部本体,形成局部数据源与局部本体之间的关系图,其中,ER模型中建立有实体之间的联系。
分析单元11对数据源进行全面的分析,获得数据库的模式,从而建立该数据库的ER模型,在此基础上得到局部本体;所述的分析数据源需要通过分析其逻辑结构,确定构建本体所需的概念。
建立单元12建立数据库的ER模型,数据库的逻辑结构可以通过ER图来表示。在ER模型的基础上得到局部本体。
优选地,图8为图6中所示的电力领域本体构建模块一实施例的功能模块示意图,在本实施例中,电力领域本体构建模块20包括搜索单元21和抽象单元22,其中,搜索单元21,用于在得到局部本体之间的映射关系基础上,找到各局部本体中相似的概念;抽象单元22,用于将相同概念的类抽象为电力领域本体中的一个类;将相同类的相同属性抽象为电力领域本体中对应类的属性;将类之间的关系抽象为电力领域本体中的一个关系;如果只在一个数据源中出现的类,则直接将数据源的类和属性放入电力领域本体对应的位置。
进一步地,本实施例提供的面向多源异构电力数据集的集成***,局部元数据抽取模块30中,采用cupid本体映射算法来建立本体映射。其中,cupid本体映射算法包括:分别计算各个概念的结构相似度,计算出的各个概念的结构相似度为:
Figure SMS_22
(4)
公式(4)中,
Figure SMS_23
为各个概念的结构相似度;m1、m2分别是两个本体中的对应概念;C1、C2分别是m1和m2所属的类别;ns(m1,m2)是m1,m2的名字相似度;
计算语义相似度,计算出的语义相似度为:
Figure SMS_24
(5)
公式(5)中,
Figure SMS_25
为语义相似度,m1、m2分别是两个本体中对应的概念;leaves(m1)是代表m1的叶子;stronglink(x,y)是强连接,即x,y的相似度超过阈值。
根据语义相似度和各个概念的结构相似度,计算概念间的综合相似度,计算出的综合相似度为:
Figure SMS_26
(6)
公式(6)中,
Figure SMS_27
是综合相似度,/>
Figure SMS_28
是比重系数,sim是语义相似度,lism是计算各个概念的结构相似度;
通过将综合相似度与阈值thaccept进行比较,如果综合相似度大于阈值thaccept,则建立两个元素之间的关系,并形成电力领域本体与局部本体之间的映射关系。
本实施例提供的面向多源异构电力数据集的集成***,同现有技术相比,采用局部本体构建模块10、电力领域本体构建模块20、局部元数据抽取模块30和元数据集成模块40,通过构建局部本体;在局部本体的基础上生成电力领域本体;基于局部本体,对局部元数据进行抽取,并形成局部本体与局部元数据之间的映射关系;在电力领域本体的指导下,将局部元数据集成为全局元数据。本实施例提供的面向多源异构电力数据集的集成***,避免大量数据的存储和传输,可以极大降低数据存储和网络带宽成本;解决了由于各部门业务以及分工的不同,导致各应用***彼此隔离,数据无法联通,产生了“信息孤岛”、数据冗余的问题,数据的价值得到充分的开发和利用。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种面向多源异构电力数据集的集成方法,其特征在于,包括以下步骤:
局部本体构建步骤,构建局部本体;
电力领域本体构建步骤,在所述局部本体的基础上生成电力领域本体;
局部元数据抽取步骤,基于所述局部本体,对局部元数据进行抽取,并形成所述局部本体与所述局部元数据之间的映射关系;
元数据集成步骤,在所述电力领域本体的指导下,将所述局部元数据集成为全局元数据;
所述局部本体构建步骤包括:
对局部数据源进行全面分析,获得数据库的模式;
建立所述数据库的ER模型,在所述ER模型的基础上得到局部本体,形成所述局部数据源与所述局部本体之间的关系图,其中,所述ER模型中建立有实体之间的联系。
2.如权利要求1所述的面向多源异构电力数据集的集成方法,其特征在于,所述电力领域本体构建步骤包括:
在得到局部本体之间的映射关系基础上,找到各局部本体中相似的概念;
将相同概念的类抽象为电力领域本体中的一个类;将相同类的相同属性抽象为电力领域本体中对应类的属性;将类之间的关系抽象为电力领域本体中的一个关系;如果只在一个数据源中出现的类,则直接将所述数据源的类和属性放入电力领域本体对应的位置。
3.如权利要求1所述的面向多源异构电力数据集的集成方法,其特征在于,所述电力领域本体构建步骤中采用cupid本体映射算法来建立本体映射。
4.如权利要求3所述的面向多源异构电力数据集的集成方法,其特征在于,所述cupid本体映射算法包括:
分别计算各个概念的结构相似度,计算出的各个概念的结构相似度为:
Figure QLYQS_1
其中,/>
Figure QLYQS_2
为各个概念的结构相似度;m1、m2分别是两个本体中的对应概念;C1、C2分别是m1和m2所属的类别;ns(m1,m2)是m1,m2的名字相似度;
计算语义相似度,计算出的语义相似度为:
Figure QLYQS_3
其中,
Figure QLYQS_4
为语义相似度,m1、m2分别是两个本体中对应的概念;leaves(m1)是代表m1的叶子;stronglink(x,y)是强连接,即x,y的相似度超过阈值;
根据所述语义相似度和所述各个概念的结构相似度,计算概念间的综合相似度,计算出的综合相似度为:
Figure QLYQS_5
其中,/>
Figure QLYQS_6
是综合相似度,/>
Figure QLYQS_7
是比重系数,sim是语义相似度,lism是计算各个概念的结构相似度;
通过将所述综合相似度与阈值thaccept进行比较,如果所述综合相似度大于所述阈值thaccept,则建立两个元素之间的关系,并形成电力领域本体与局部本体之间的映射关系。
5.一种面向多源异构电力数据集的集成***,其特征在于,包括:
局部本体构建模块(10),用于构建局部本体;
电力领域本体构建模块(20),用于在所述局部本体的基础上生成电力领域本体;
局部元数据抽取模块(30),用于基于所述局部本体,对局部元数据进行抽取,并形成所述局部本体与所述局部元数据之间的映射关系;
元数据集成模块(40),用于在所述电力领域本体的指导下,将所述局部元数据集成为全局元数据;
所述局部本体构建模块(10)包括:
分析单元(11),用于对局部数据源进行全面分析,获得数据库的模式;
建立单元(12),用于建立所述数据库的ER模型,在所述ER模型的基础上得到局部本体,形成所述局部数据源与所述局部本体之间的关系图,其中,所述ER模型中建立有实体之间的联系。
6.如权利要求5所述的面向多源异构电力数据集的集成***,其特征在于,所述电力领域本体构建模块(20)包括:
搜索单元(21),用于在得到局部本体之间的映射关系基础上,找到各局部本体中相似的概念;
抽象单元(22),用于将相同概念的类抽象为电力领域本体中的一个类;将相同类的相同属性抽象为电力领域本体中对应类的属性;将类之间的关系抽象为电力领域本体中的一个关系;如果只在一个数据源中出现的类,则直接将所述数据源的类和属性放入电力领域本体对应的位置。
7.如权利要求5所述的面向多源异构电力数据集的集成***,其特征在于,所述局部元数据抽取模块(30)中,采用cupid本体映射算法来建立本体映射。
8.如权利要求7所述的面向多源异构电力数据集的集成***,其特征在于,所述cupid本体映射算法包括:
分别计算各个概念的结构相似度,计算出的各个概念的结构相似度为:
Figure QLYQS_8
其中,/>
Figure QLYQS_9
为各个概念的结构相似度;m1、m2分别是两个本体中的对应概念;C1、C2分别是m1和m2所属的类别;ns(m1,m2)是m1,m2的名字相似度;
计算语义相似度,计算出的语义相似度为:
Figure QLYQS_10
其中,/>
Figure QLYQS_11
为语义相似度,m1、m2分别是两个本体中对应的概念;leaves(m1)是代表m1的叶子;stronglink(x,y)是强连接,即x,y的相似度超过阈值;
根据所述语义相似度和所述各个概念的结构相似度,计算概念间的综合相似度,计算出的综合相似度为:
Figure QLYQS_12
其中,/>
Figure QLYQS_13
是综合相似度,/>
Figure QLYQS_14
是比重系数,sim是语义相似度,lism是计算各个概念的结构相似度;
通过将所述综合相似度与阈值thaccept进行比较,如果所述综合相似度大于所述阈值thaccept,则建立两个元素之间的关系,并形成电力领域本体与局部本体之间的映射关系。
CN202310663877.8A 2023-06-06 2023-06-06 一种面向多源异构电力数据集的集成方法及*** Withdrawn CN116383335A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310663877.8A CN116383335A (zh) 2023-06-06 2023-06-06 一种面向多源异构电力数据集的集成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310663877.8A CN116383335A (zh) 2023-06-06 2023-06-06 一种面向多源异构电力数据集的集成方法及***

Publications (1)

Publication Number Publication Date
CN116383335A true CN116383335A (zh) 2023-07-04

Family

ID=86971704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310663877.8A Withdrawn CN116383335A (zh) 2023-06-06 2023-06-06 一种面向多源异构电力数据集的集成方法及***

Country Status (1)

Country Link
CN (1) CN116383335A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971951A (zh) * 2024-04-02 2024-05-03 北京大数据先进技术研究院 面向异构注册表的数字对象元数据互操作方法、装置、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1633092A (zh) * 2004-11-25 2005-06-29 武汉大学 基于移动Agent和GML的分布式GIS空间信息集成装置与方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1633092A (zh) * 2004-11-25 2005-06-29 武汉大学 基于移动Agent和GML的分布式GIS空间信息集成装置与方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JAYANT MADHAVAN等: "《 1 Generic Schema Matching with Cupid 》", MICROSOFT RESEARCH *
冯勇;张丽颖;顾兆旭;马技;: "面向高校多源异构数据环境的元数据集成方法", 辽宁大学学报(自然科学版), no. 02, pages 135 - 141 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971951A (zh) * 2024-04-02 2024-05-03 北京大数据先进技术研究院 面向异构注册表的数字对象元数据互操作方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN107330125B (zh) 基于知识图谱技术的海量非结构化配网数据集成方法
JP5092165B2 (ja) データ構築方法とシステム
CN112000725B (zh) 一种面向多源异构资源的本体融合前处理方法
CN113986873B (zh) 一种海量物联网数据模型化的处理、存储与共享方法
JP2012520529A (ja) 知識調査のためのシステム及び方法
CN101436192A (zh) 用于优化针对垂直存储式数据库的查询的方法和设备
CN109710767B (zh) 多语种大数据服务平台
CN111552813A (zh) 一种基于电网全业务数据的电力知识图谱构建方法
CN116383335A (zh) 一种面向多源异构电力数据集的集成方法及***
CN113535788A (zh) 一种面向海洋环境数据的检索方法、***、设备及介质
CN113190687A (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
Azri et al. Dendrogram clustering for 3D data analytics in smart city
CN111627552A (zh) 一种医疗流式数据血缘关系分析、存储方法及装置
CN103077216B (zh) 子图匹配装置及子图匹配的方法
CN115186745A (zh) 一种基于本体的数字孪生车间多维信息融合方法
CN104778234A (zh) 基于局部敏感哈希技术的多标记文件近邻查询方法
CN112148938B (zh) 一种跨域异构数据检索***及检索方法
CN103365960A (zh) 电力多级调度管理结构化数据的离线搜索方法
CN111984745A (zh) 数据库字段动态扩展方法、装置、设备及存储介质
CN111695001B (zh) 一种大数据场景下的混合数据管理***
CN115981804A (zh) 一种工业大数据计算任务调度管理***
CN114691700A (zh) 一种基于kafaka集群的智慧园区的检索方法
CN111460046A (zh) 一种基于大数据的科技信息聚类方法
Qin et al. A knowledge search algorithm based on multidimensional semantic similarity analysis in knowledge graph systems of power grid networks
CN117271577B (zh) 一种基于智能分析的关键字检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20230704

WW01 Invention patent application withdrawn after publication