CN112256884A - 一种基于知识图谱的数据资产库访问方法和装置 - Google Patents

一种基于知识图谱的数据资产库访问方法和装置 Download PDF

Info

Publication number
CN112256884A
CN112256884A CN202011144033.5A CN202011144033A CN112256884A CN 112256884 A CN112256884 A CN 112256884A CN 202011144033 A CN202011144033 A CN 202011144033A CN 112256884 A CN112256884 A CN 112256884A
Authority
CN
China
Prior art keywords
data
access
asset library
unstructured
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011144033.5A
Other languages
English (en)
Inventor
乔林
陈硕
薄珏
徐立波
刘碧琦
王妍
齐俊
郭任
常将
李希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Telecommunication Branch of State Grid Liaoning Electric Power Co Ltd
Original Assignee
Information and Telecommunication Branch of State Grid Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Telecommunication Branch of State Grid Liaoning Electric Power Co Ltd filed Critical Information and Telecommunication Branch of State Grid Liaoning Electric Power Co Ltd
Priority to CN202011144033.5A priority Critical patent/CN112256884A/zh
Publication of CN112256884A publication Critical patent/CN112256884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于知识图谱的数据资产库访问方法和装置,所述访问方法包括:根据第一现存***的数据实体和数据实体之间的关系,以及基于SG‑CIM统一信息模型和已有业务***的数据,双向构建数据资产库的数据关联模型;通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。本公开提供的基于知识图谱的数据资产库访问方法和装置,通过构建统一访问本体,使得数据资产库的管理不再需要将所有数据库合并在一起,就能实现数据访问的统一管理。

Description

一种基于知识图谱的数据资产库访问方法和装置
技术领域
本公开涉及数据处理领域,尤其涉及一种基于知识图谱的数据资产库访问方法和装置。
背景技术
随着电力海量数据的不断增长和电力业务***的不断扩展,建立国网企业数据资产库,形成电力数据资产库尤为重要,数据资产库能够汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。但是,电网企业数据资产库数据目前存在的突出问题是数据量大,电网各业务应用***大多具有各自的数据管理***,缺乏统一的数据整合和集中管理,统一访问困难。
发明内容
本公开的目的之一是通过提供一种基于知识图谱的数据资产库访问方法和装置,以解决背景技术中提到的统一访问数据资产库困难的问题。
为实现上述目的,根据本公开的一个实施例,提供一种基于知识图谱的数据资产库访问方法,包括:根据第一现存***的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务***的数据,双向构建数据资产库的数据关联模型;通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。
可选地,所述基于SG-CIM统一信息模型和已有业务***的数据,构建数据资产库的数据关联模型的步骤包括:获取第一现存***的数据,根据第一现存***和已有业务***的数据以及两者的关联关系,形成第一现存***数据的非结构化业务元数据;基于SG-CIM统一信息模型和非结构化业务元数据,构建结构化数据与非结构化数据的关联模型。
可选地,所述对数据资产库中的数据进行访问的步骤包括:向结构化数据中心发送访问请求,以获取所访问的相关设备的基础信息与非结构化数据的实体编码;根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送访问请求,以获取基于数据实体编码对应的目标文档。
可选地,所述通过构建统一的访问本体,对数据资产库中的数据进行访问的步骤包括:通过对多个业务***数据仓库中数据资产的实体、属性和关系进行抽取,构建统一的访问本体,以对多个业务***的数据资产库中的数据进行统一访问。
可选地,所述访问本体的知识库基于知识图谱进行完善的步骤包括:基于知识图谱技术将从多个业务***数据仓库检索得到的潜在的和遗漏的关联数据,通过结构化三元组的知识对数据仓库不同类型数据集进行相似度比较,获取关联信息,将统一访问本体进行完善。
根据本公开的另一个实施例,提供一种基于知识图谱的数据资产库访问装置,包括:数据管理模型构建单元,用于根据第一现存***的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务***的数据,双向构建数据资产库的数据关联模型;数据访问单元,用于通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。
本公开的实施例可以实现以下有益效果:针对现有技术中企业级数据资产库中的数据量具有海量和分散的特点,即使将部分重要的数据整合在一起,也不可能实现完全的额数据库合并,本公开提出了一种基于知识图谱的数据资产库访问方法,通过构建统一访问本体,使得数据资产库的管理不再需要将所有数据库合并在一起,就能实现数据访问的统一管理。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请一个实施例提供的基于知识图谱的数据资产库访问方法的流程示意图;
图2为根据本申请的一个实施例的申请访问数据资产库中的数据过程的示意图;
图3为根据本申请的一个实施例提供的基于知识图谱的数据资产库访问装置的示意性框图;
附图中相同或相似的附图标记代表相同或相似的结构。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包括一个或多个相关联的列出项目的任何或所有可能组合。
根据本申请的一个方面的一个实施例,提供了一种基于知识图谱的数据资产库访问方法。请参考图1,所述数据资产库访问方法包括:
步骤S101,根据第一现存***的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务***的数据,双向构建数据资产库的数据关联模型。
步骤S102,通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。
具体地,对于步骤S101而言,其中的数据资产库可以包括但不限于电力数据资产库和其他行业及企业的数据资产库。数据资产库的构建通常包括数据采集、脏数据识别、数据清洗和数据自动关联等过程,这些过程可以适用于本申请的实施例。以构建电网企业的数据资产库为例,本申请构建数据资产库的技术路线包括:
首先,在SG-CIM(国家电网公司公共数据模型)企业信息模型基础上开展关键业务元数据研究,梳理业务***提炼形成现存***数据与结构化业务元数据的关联元素,形成现存***数据的非结构化业务元数据信息。其中,所述业务元数据可以包括业务名称、定义、描述等用于标识数据仓库和业务***中各种属性的数据。其中所述业务***数据仓库可以是基于业务数据的实体、实体之间的关系、实体属性等信息为基础而构建得到。其中,实体可以指业务***中具有可区别性且独立存在的具体的事物。
其次,基于SG-CIM统一信息模型,结合非结构化关键业务元数据,形成结构化数据与非结构化数据的关联模型。
具体地,对于形成现存***数据的非结构化业务元数据信息而言,可以包括以下两个子步骤:
第一,业务***数据梳理。对电网企业现存***中的数据与业务***中的结构化数据关联关系进行梳理,采用自动化关联规则形成和手动关联关系录入结合的方式,确定来源业务***、关联业务数据源表、关联字段信息、关联业务数据的取数逻辑、关联数据所属主题域(SG-CIM模型的主题域)等信息,并遵循CWM规范和SG-CIM规范,制定关联关系描述规范。
第二,现存***数据平台梳理。对***数据平台已接入的非结构化数据进行梳理,确定数据资产统一管理范围,初步形成电网企业数据资产库的非结构化数据的元数据关键元素。
对于形成结构化数据与非结构化数据的关联模型而言,可以包括以下两个子步骤:
第一,形成关联模型。根据梳理得到的非结构化业务元数据关键元素,结合非结构化数据的基本元数据和关联性元数据的数据结构,参考或遵循CWM数据仓库元数据模型,遵循SG-CIM模型规范,形成非结构化和结构化关联模型,实现规范元数据的接入和存储。
第二,形成非结构化元数据的管理存储模型。基于预设的现有信息存储模型,形成非结构化元数据的变更、管理等信息存储模型,用于支持非结构化业务元数据的运维管理。
在描述了本申请构建数据资产库的技术路线之后,下文仍以构建电网企业的数据资产库为例,对步骤S101构建数据资产库的过程进行详述。
在一个实施例中,采用双向建模的方式来构建数据资产库的数据管理模型。具体地,所述基于SG-CIM统一信息模型和已有业务***的数据,构建数据资产库的数据关联模型的步骤S101可以包括:
-获取第一现存***的数据,根据第一现存***和已有业务***的数据以及两者的关联关系,形成第一现存***数据的非结构化业务元数据;基于SG-CIM统一信息模型和非结构化业务元数据,构建结构化数据与非结构化数据的关联模型。其中,第一现存***例如为电网企业现存信息***,所述已有业务***例如包括各种与电网***相关的业务***,例如营销业务***。
更具体地,一方面,从第一现存***的数据出发,梳理第一现存***所接入的数据实体,以及数据实体之间的关系,对其进行抽象、提炼,分析数据实体所属的数据主题域并进行归并,分析主题域之间关系,形成非结构化数据关联模型。
另一方面,从业务需求出发,基于SG-CIM统一信息模型和已有业务***,分析提炼和梳理各业务线条的非结构化数据的业务需求,根据业务流程,提炼关键实体,分析实体所属主题域及实体间的关系,以及非结构化数据实体与结构化数据实体之间的关联关系,形成数据关联模型。其中,非结构化数据实体与结构化数据实体之间的关联关系可以通过在结构化数据中心的存储结构中添加非结构化数据实体的编码进行关联来实现。
在一个实施例中,所述步骤S102中对数据资产库中的数据进行访问的步骤包括:向结构化数据中心发送访问请求,以获取所访问的相关设备的基础信息与非结构化数据的实体编码;根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送访问请求,以获取基于数据实体编码对应的目标文档。
具体地,可以参考图2,如图2所示,申请访问数据资产库中的数据可以通过以下步骤来实现:
(1)业务应用调用数据资产库管理平台对外提供的服务,向结构化数据中心发送请求,查询相关设备的基础信息与非结构化数据实体编码。
(2)结构化数据中心根据业务应用提交的请求,将设备等基础信息和非结构化数据实体编码返回给业务应用。
(3)业务应用根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送请求,查询相关文档等信息。
(4)非结构化数据管理平台根据业务应用的请求,通过数据实体编码来获取目标文档,返回给业务应用。
可选地,对于步骤S102而言,可以通过对多个业务***数据仓库中数据资产的实体、属性和关系进行抽取,构建统一的访问本体,以对多个业务***的数据资产库中的数据进行统一访问。其中所述访问本体描述了业务网***中数据资产的实体、属性或标识、以及关联关系等。
具体地,通过构建统一访问本体,使得数据资产库的管理不需要将所有数据库都存放在一起,而是利用统一访问本体实现数据访问的统一管理,将各业务***数据仓库中的数据资产的实体、属性和关系抽取、融合并实现统一访问。利用知识图谱技术将从数据仓库发现潜在的和遗漏的关联数据,通过结构化三元组(例如指包括两个实体以及两者之间关联关系的实体三元组,例如表征为实体x-XX关系-实体y)的知识对数据仓库不同类型数据集进行相似度比较,获取关联信息,将统一访问本体进行完善,抽取和发现得到的关联数据将作为实例扩充工程本体,同时将更新的本体参与到本体融合中,不断完善分析域中不同的数据库统一访问工程领域本体。更具体地,如果相似度低于阈值,则将实体三元组中实体所对应的实体标识、实体之间的关联关系等添加到知识图谱对应的知识库,对知识库进行补充。当然,上述进行相似度比较的描述仅是示例,在其他实施例中,也可以采用现有技术来实现数据集的相似度比较。
其中,所述知识图谱技术可以包括现有技术中的知识图谱构建技术,例如通过预置的模型(例如包括卷积神经网络语言模型)分析数据资产库中的关键数据,对关键数据进行预处理(例如去噪处理)得到统一格式的知识数据,并根据访问本体中数据资产的实体、属性以及关联关系等,构建数据资产库对应的知识图谱,所述关键数据例如包括采集和监控到的用电数据。
具体而言,构建统一访问本体的过程中,首先是资源选取,选定基础本体后,确定用于抽取领域相关实体的文本;其次是概念学习,从选择的文本中获取领域相关的概念,并建立概念之间的分类关系,所述分类关系的建立例如是通过softmax分类器或其他分类方法对概念数据进行处理来实现;然后是领域集中处理,除去领域无关的概念,只留下和领域相关且建立起了目标本体的概念结构;再通过关系学习得到除了从基础本体中继承的一些关系,其它的关系需要通过学习的方法从文本中抽取。完善统一访问工程领域本体的构建,得到企业数据资产库,实现通过企业数据资产库,完成统一访问数据的目标。
另外,对于基于知识图谱完善或补全访问本体的知识库而言,通过完善本体的知识库,使得数据资产库中引入新的数据实体时,知识库补全能够通过已有的结构化三元组和实体集与关系集,推理与此数据实体存在关系的已有实体。
举例而言,对于知识图谱G,假设G中含有实体集E={e1,e2,…,eM}(M为实体的数量)、关系集R={r1,r2,…,rN}(N为关系的数量)以及三元组集T={(ei,rk,ej)|ei、ej属于E,rk属于R}。由于知识图谱G中实体和关系的数量通常是有限的,因此,可能存在一些实体和关系不在G中。记不在知识图谱G中的实体集为E*={e1*,e2*,…,es*}(S为实体的数量),关系集为R*={r1*,r2*,…,rT*}(T为关系的数量)。根据三元组中具体的预测对象,知识图谱补全可以分成3个子任务:头实体预测、尾实体预测以及关系预测。对于头(尾)实体预测,需给定三元组的尾(头)实体以及关系,然后预测可以组成正确三元组的实体。
对于知识库补全的技术手段而言,可以基于嵌入表示的知识库补全技术手段,也可以基于量变可信度的知识库补全技术手段,还可以基于其他技术手段来实现,以为知识图谱寻找到缺失的三元组。在知识库补全的过程中,对于缺失的尾实体,将语义空间中头实体的向量表示与关系的向量表示相加,得到预测的尾实体向量表示,从实体列表中选择与预测尾实体最接近的实体作为预测结果;对于两个实体之间缺失的关系,以尾实体的嵌入向量减头实体的嵌入向量,然后将结果与备选关系的嵌入向量做差,选择与预测关系向量最相似的关系作为预测结果。
具体而言,对于基于嵌入表示的知识库补全技术手段,就是将知识库中的结构化三元组和实体与关系量化为低维的向量。最经典的分布式嵌入表示模型是TransE,一个三元组(h,r,t)中的h、r、t分别表示头实体、关系和尾实体。TransE将关系向量看作从头实体到尾实体的翻译向量,对于两个实体向量eh,et∈Rn,用eh+er与et的差值为翻译效果打分。经过训练后,知识库中所有的实体都被表示为一个向量,向量之间的相似性表示实体之间的相似性,实体与关系向量的和表示实体作为该关系的主语时,预测得到的宾语实体的向量。因此,当构建数据资产库并引入新实体e时,可以将其嵌入到知识库的语义空间中,并利用低维的分布式嵌入表示对其与其他实体可能产生的关系做链接预测,从而实现新知识的挖掘,补全知识库。
对于基于量变可信度的知识库补全技术手段,具体可以包括现有技术中的有效性计算、构建训练集(训练集可以包括头实体、关系、尾实体、时间片和有效可信度的五元组以及头实体、关系、尾实体和有效时间段的四元组)、初始化训练参数(包括对实体集、关系集、时间片分别以实体向量集、关系向量集、时间片向量集的形式进行训练)、计算评价函数(包括基于将实体向量集、关系向量集、时间片向量集映射到超平面,使用预设计算规则计算评价函数和损失函数)以及调整训练参数(基于损失函数调整训练参数)的步骤,其中训练参数的过程可以包括:
1)量变可信度建模,对包含各类关系的元事实数据进行持续时间建模,获得该类元事实量变可信度的模型;
2)将四元组中的有效时间段拆分成时间片,并按照时间点计算量变可信度,***四元组,生成五元组(头实体,关系,尾实体,时间片,量变可信度);
3)初始化训练参数,按照预设维度随机地初始化实体、关系和时间片的向量集;
4)从五元组集合中随机抽取一个小型训练集(batch),并由五元组生成负样本;
5)获取正样本,将正、负样本映射到各自的时间片后计算评价函数,根据损失函数调整模型训练参数;
6)输出训练得到的模型,重复第4)、5)步继续训练,训练次数等于预设的次数时停止对训练参数的调整。
应当注意,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
根据本申请的一个总的发明构思,本申请实施例还提供一种基于知识图谱的数据资产库访问装置。所述基于知识图谱的数据资产库访问装置中的各个单元和模块可以全部或部分通过软件、硬件及其组合来实现。各单元和模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参考图3,所述访问装置可以包括:
数据管理模型构建单元101,用于根据第一现存***的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务***的数据,双向构建数据资产库的数据关联模型;
数据访问单元102,用于通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。
可选地,所述数据管理模型构建单元101具体包括:
-非结构化业务元数据形成模块,用于获取第一现存***的数据,根据第一现存***和已有业务***的数据以及两者的关联关系,形成第一现存***数据的非结构化业务元数据;
-关联模型构建模块,用于基于SG-CIM统一信息模型和非结构化业务元数据,构建结构化数据与非结构化数据的关联模型。
可选地,所述数据访问单元102具体包括:
-第一请求发送模块,用于向结构化数据中心发送访问请求,以获取所访问的相关设备的基础信息与非结构化数据的实体编码;
-第二请求发送模块,根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送访问请求,以获取基于数据实体编码对应的目标文档。
可选地,所述数据访问单元102具体用于:通过对多个业务***数据仓库中数据资产的实体、属性和关系进行抽取,构建统一的访问本体,以对多个业务***的数据资产库的数据进行统一访问。
可选地,所述数据访问单元102具体用于:基于知识图谱技术将从多个业务***数据仓库检索得到的潜在的和遗漏的关联数据,通过结构化三元组的知识对数据仓库不同类型数据集进行相似度比较,获取关联信息,将统一访问本体进行完善。
本发明实施例的方法与本发明实施例的装置相对应,在上述方法的实施例阐述的技术特征及其有益效果均适用于装置的实施例中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种基于知识图谱的数据资产库访问方法,其特征在于,包括:
根据第一现存***的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务***的数据,双向构建数据资产库的数据关联模型;
通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。
2.根据权利要求1所述的数据资产库访问方法,其特征在于,所述基于SG-CIM统一信息模型和已有业务***的数据,构建数据资产库的数据关联模型的步骤包括:
获取第一现存***的数据,根据第一现存***和已有业务***的数据以及两者的关联关系,形成第一现存***数据的非结构化业务元数据;
基于SG-CIM统一信息模型和非结构化业务元数据,构建结构化数据与非结构化数据的关联模型。
3.根据权利要求1所述的数据资产库访问方法,其特征在于,所述对数据资产库中的数据进行访问的步骤包括:
向结构化数据中心发送访问请求,以获取所访问的相关设备的基础信息与非结构化数据的实体编码;
根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送访问请求,以获取基于数据实体编码对应的目标文档。
4.根据权利要求1所述的数据资产库访问方法,其特征在于,所述通过构建统一的访问本体,对数据资产库中的数据进行访问的步骤包括:
通过对多个业务***数据仓库中数据资产的实体、属性和关系进行抽取,构建统一的访问本体,以对多个业务***的数据资产库中的数据进行统一访问。
5.根据权利要求1所述的数据资产库访问方法,其特征在于,所述访问本体的知识库基于知识图谱进行完善的步骤包括:基于知识图谱技术将从多个业务***数据仓库检索得到的潜在的和遗漏的关联数据,通过结构化三元组的知识对数据仓库不同类型数据集进行相似度比较,获取关联信息,将统一访问本体进行完善。
6.一种基于知识图谱的数据资产库访问装置,其特征在于,包括:
数据管理模型构建单元,用于根据第一现存***的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务***的数据,双向构建数据资产库的数据关联模型;
数据访问单元,用于通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。
7.根据权利要求6所述的数据资产库访问装置,其特征在于,所述数据管理模型构建单元具体包括:
非结构化业务元数据形成模块,用于获取第一现存***的数据,根据第一现存***和已有业务***的数据以及两者的关联关系,形成第一现存***数据的非结构化业务元数据;
关联模型构建模块,用于基于SG-CIM统一信息模型和非结构化业务元数据,构建结构化数据与非结构化数据的关联模型。
8.根据权利要求6所述的数据资产库访问装置,其特征在于,所述数据访问单元具体包括:
第一请求发送模块,用于向结构化数据中心发送访问请求,以获取所访问的相关设备的基础信息与非结构化数据的实体编码;
第二请求发送模块,根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送访问请求,以获取基于数据实体编码对应的目标文档。
9.根据权利要求6所述的数据资产库访问装置,其特征在于,所述数据访问单元具体用于:
通过对多个业务***数据仓库中数据资产的实体、属性和关系进行抽取,构建统一的访问本体,以对多个业务***的数据资产库的数据进行统一访问。
10.根据权利要求6所述的数据资产库访问装置,其特征在于,所述数据访问单元具体用于:基于知识图谱技术将从多个业务***数据仓库检索得到的潜在的和遗漏的关联数据,通过结构化三元组的知识对数据仓库不同类型数据集进行相似度比较,获取关联信息,将统一访问本体进行完善。
CN202011144033.5A 2020-10-23 2020-10-23 一种基于知识图谱的数据资产库访问方法和装置 Pending CN112256884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011144033.5A CN112256884A (zh) 2020-10-23 2020-10-23 一种基于知识图谱的数据资产库访问方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011144033.5A CN112256884A (zh) 2020-10-23 2020-10-23 一种基于知识图谱的数据资产库访问方法和装置

Publications (1)

Publication Number Publication Date
CN112256884A true CN112256884A (zh) 2021-01-22

Family

ID=74264809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011144033.5A Pending CN112256884A (zh) 2020-10-23 2020-10-23 一种基于知识图谱的数据资产库访问方法和装置

Country Status (1)

Country Link
CN (1) CN112256884A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032580A (zh) * 2021-03-29 2021-06-25 浙江星汉信息技术股份有限公司 关联档案推荐方法、***及电子设备
CN113706060A (zh) * 2021-10-29 2021-11-26 中国电力科学研究院有限公司 电网调控数据资产处理方法、***、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9069930B1 (en) * 2011-03-29 2015-06-30 Emc Corporation Security information and event management system employing security business objects and workflows
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法
CN108595449A (zh) * 2017-11-23 2018-09-28 北京科东电力控制***有限责任公司 调度自动化***知识图谱的构建与应用方法
US20190340303A1 (en) * 2018-05-07 2019-11-07 Apple Inc. Smart Updates From Historical Database Changes
CN110674311A (zh) * 2019-09-05 2020-01-10 国家电网有限公司 一种基于知识图谱的电力资产异构数据融合方法
US20200028854A1 (en) * 2018-07-23 2020-01-23 International Business Machines Corporation Ontology based control of access to resources in a computing system
CN111177400A (zh) * 2019-12-05 2020-05-19 国网能源研究院有限公司 基于知识图谱的设备、业务及数据的关联显示方法和装置
WO2020143326A1 (zh) * 2019-01-11 2020-07-16 平安科技(深圳)有限公司 知识数据存储方法、装置、计算机设备和存储介质
CN111680084A (zh) * 2020-04-30 2020-09-18 国网天津市电力公司电力科学研究院 一种基于多源数据融合的线损计算方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9069930B1 (en) * 2011-03-29 2015-06-30 Emc Corporation Security information and event management system employing security business objects and workflows
CN108595449A (zh) * 2017-11-23 2018-09-28 北京科东电力控制***有限责任公司 调度自动化***知识图谱的构建与应用方法
US20190340303A1 (en) * 2018-05-07 2019-11-07 Apple Inc. Smart Updates From Historical Database Changes
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法
US20200028854A1 (en) * 2018-07-23 2020-01-23 International Business Machines Corporation Ontology based control of access to resources in a computing system
WO2020143326A1 (zh) * 2019-01-11 2020-07-16 平安科技(深圳)有限公司 知识数据存储方法、装置、计算机设备和存储介质
CN110674311A (zh) * 2019-09-05 2020-01-10 国家电网有限公司 一种基于知识图谱的电力资产异构数据融合方法
CN111177400A (zh) * 2019-12-05 2020-05-19 国网能源研究院有限公司 基于知识图谱的设备、业务及数据的关联显示方法和装置
CN111680084A (zh) * 2020-04-30 2020-09-18 国网天津市电力公司电力科学研究院 一种基于多源数据融合的线损计算方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032580A (zh) * 2021-03-29 2021-06-25 浙江星汉信息技术股份有限公司 关联档案推荐方法、***及电子设备
CN113706060A (zh) * 2021-10-29 2021-11-26 中国电力科学研究院有限公司 电网调控数据资产处理方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111581983B (zh) 基于群体分析的网络舆论事件中社会关注热点的预测方法
US11403554B2 (en) Method and apparatus for providing efficient testing of systems by using artificial intelligence tools
EP2941754B1 (en) Social media impact assessment
US10643140B2 (en) Method, system and computer program product for automating expertise management using social and enterprise data
US11238132B2 (en) Method and system for using existing models in connection with new model development
Al-Faifi et al. Performance prediction model for cloud service selection from smart data
Mohammad et al. Customer churn prediction in telecommunication industry using machine learning classifiers
CN111369299A (zh) 识别的方法、装置、设备及计算机可读存储介质
Ezzeldin et al. Metaresearching structural engineering using text mining: Trend identifications and knowledge gap discoveries
CN112348321A (zh) 风险用户的识别方法、装置及电子设备
Mohebzada et al. Systematic mapping of recommendation systems for requirements engineering
Assar et al. Using text clustering to predict defect resolution time: a conceptual replication and an evaluation of prediction accuracy
CN112256884A (zh) 一种基于知识图谱的数据资产库访问方法和装置
CN111582488A (zh) 一种事件推演方法及装置
Navimipour et al. Resources discovery in the cloud environments using collaborative filtering and ontology relations
Bildosola et al. An approach for modelling and forecasting research activity related to an emerging technology
Hassani et al. On the application of sequential pattern mining primitives to process discovery: Overview, outlook and opportunity identification
Rai et al. Using open source intelligence as a tool for reliable web searching
Caschera et al. MONDE: a method for predicting social network dynamics and evolution
US20210142233A1 (en) Systems and methods for process mining using unsupervised learning
CN109885647B (zh) 用户履历验证方法、装置、电子设备及存储介质
Yadav et al. The Event Crowd: A novel approach for crowd-enabled event processing
CN113298645A (zh) 资源额度调整方法、装置及电子设备
CN113792189A (zh) 群智软件开发贡献效率评估方法、装置、设备及介质
CN115115075A (zh) 风险识别方法、装置与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination