CN115757810A - 一种知识图谱标准本体构建方法 - Google Patents
一种知识图谱标准本体构建方法 Download PDFInfo
- Publication number
- CN115757810A CN115757810A CN202211298266.XA CN202211298266A CN115757810A CN 115757810 A CN115757810 A CN 115757810A CN 202211298266 A CN202211298266 A CN 202211298266A CN 115757810 A CN115757810 A CN 115757810A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- standard
- ontology
- data
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种知识图谱标准本体构建方法,属于电网知识图谱构建技术领域,该方法,包括以下步骤:步骤1:信息处理:对多源数据库内的变压器、断路器标准规范文件进行处理,包括:信息抽取,对多源、异构数据抽取、标引与生产、整合,完成其碎片化、序列化、语义化工作;信息融合,对抽取的信息进行整合;信息加工,对于经过融合的信息,产生的碎片知识进行分类存储,经过质量评估之后,构建变压器、断路器标准知识库;步骤2:本体构建:提供新型、自动、智能的知识组织、存储、提取、推理方法和工具,把海量离散的信息点聚合成为语义网络,引入业界成熟稳定的图谱构建功能体系能让该环节事半功倍。
Description
技术领域
本发明涉及电网知识图谱构建技术领域,具体而言,涉及一种知识图谱标准本体构建方法。
背景技术
随着科技的发展,传统的知识组织和管理方式已经无法满足当前电力***的需要。当前,以知识表示和知识推理为基础的知识库在电力***中得到了较多应用,如:结合传统专家***的智能决策***,故障定位***和输电网规划决策等。
但是,这些知识库大多依赖于专家提取、整理并将数据以图标形式存储于数据库的传统知识管理方式,其所能够存储的知识结构较为单一,且每次更新都需要专业技术人员花费大量时间。特别对于电力调度、设备管理、数据交互、业务查询等知识更迭迅速的领域,现有的知识管理方式已经严重滞后于***的发展需要。
发明内容
为了弥补以上不足,本发明提供了一种知识图谱标准本体构建方法,旨在开展标准知识生产平台(知识库)关键技术应用研究。为在标准数字化转型领域围绕着标准结构化、碎片化、指标化、模型化、知识元化、图谱化、智能化等过程进行相关关键技术的研发,构建公司标准知识库和主网设备知识图谱。
本发明是这样实现的:一种知识图谱标准本体构建方法,包括以下步骤:
步骤1:信息处理:对多源数据库内的变压器、断路器标准规范文件进行处理,包括:
信息抽取,对多源、异构数据抽取、标引与生产、整合,完成其碎片化、序列化、语义化工作,从多源数据库中提取或学习实体、属性以及实体间的相互关系,形成本体化的信息表达;
信息融合,对抽取的信息进行整合,以消除矛盾和歧义,产出包括章条、术语、指标、公式、图片、表格、附录的碎片类型;
信息加工,对于经过融合的信息,产生的碎片知识进行分类存储,经过质量评估之后,构建变压器、断路器标准知识库;
步骤2:本体构建:基于步骤1中得到的知识库构建用于表征标准数据中的元本体和本体之间的映射关系的映射层,其中,元本体为从多个本体中抽取出的共同的、本质性的特征知识库,用于对所述本体进行抽象表达,确定元本体模型以及元本体和本体之间的映射函数,根据所述映射函数,将各元本体和各本体对应链接,构建所述映射层;
所述确定元本体模型以及元本体和本体之间的映射函数,包括:确定元本体模型;根据所述元本体模型,确定用于表征元本体到本体的映射的第一映射函数;所述根据所述映射函数,将各元本体和各本体对应链接,构建所述映射层;所述基于所述映射层,构建标准知识图谱,包括:基于所述映射层,构建本体模型;根据所述本体模型从标准文本中提取相应的实体,构建知识图谱标准本体。
在本发明的一种优选技术方案中,步骤1中,对不少于1600篇变压器、断路器标准规范进行加工,包括多源、异构数据抽取、标引与生产、整合,完成其碎片化、序列化、语义化工作,产出碎片类型需包括章条、术语、指标、公式、图片、表格、附录等,加工准确率要求在95%以上;对产生的碎片知识进行分类存储,构建变压器、断路器标准知识库,支持数据入库、资源管理、资源安全管理、版本管理、体系管理和数据存储、备份等功能,并可形成共享服务能力对外开放。
在本发明的一种优选技术方案中,变压器、断路器标准规范包含国家标准、企业标准、行业标准、团体标准、技术规范书、作业指导书、反事故措施、典型设计。
在本发明的一种优选技术方案中,步骤1中,变压器及断路器设备加工标准规范如下:
a、章条:对每个层级的章条进行抽取与加工,支持章条关联嵌套,即分层级处理,父层级章条可包含子层级章条;
b、术语:支持对术语进行抽取,抽取结果包含术语名称、术语定义等;
c、指标与指标值:对标准内的指标进行抽取,以key-value形式输出;
d、公式:对标准内的公式进行抽取,需包含公式名称、具体公式;
e、图片:对标准内的非纯文字图片进行抽取,输出图片资源,需包含图片名称、图片资源文件;
f、表格:对标准内的表格进行抽取,抽取结果为支持抽取为图片与excel表两类,包含表名、表头、行数据、列数据等;
在本发明的一种优选技术方案中,步骤1中,进行变压器及断路器设备技术标准知识库模型构建:
a、变压器、断路器设备技术标准知识库构建,从资源的加工入库开始,将信息数据存入数字资源库,对资源的元数据、数字对象、XML数据等进行管理,构建主网变压器技术标准知识库;
b、具备数据入库、资源管理、资源安全管理、版本管理、体系管理和数据存储、备份等功能,并抽象共享服务能力对外开放;
c、变压器、断路器设备技术标准知识库需包含标准文件子库、术语子库、章条子库、指标子库、图片子库、表格子库、公式子库等多个子库,各个子库均需支持增加、删除、修改、查询数据,同时需要有前端图形化页面供用户进行操作。
在本发明的一种优选技术方案中,步骤2中,构建的构建知识图谱标准本体包括变压器、断路器设备标准知识提取及图谱构建功能:知识提取提供针对不同数据源的知识提取服务,所有知识提取服务均以任务的形式在后台进行周期性的运行,保证各类外部数据的持续接入。通过结构化、非结构化等的数据接入,完成来源库数据到知识图谱的自动化构建,提供结构化数据入图能力。
在本发明的一种优选技术方案中,结构化数据入图能力包括:
a)变压器及断路器设备标准知识图谱展现:可视化图谱数据,包括实体属性,实体间关系查询,实体属性查询等;知识图谱数据的分类统计及可视化管理图谱数据内容;支持上层应用,提供查询实体、属性、关系的接口;支持列表、可视化图形等不少于两种建模方式,支持图形化的实体、关系、属性编辑;
b)变压器及断路器设备标准知识图谱构建管理:支持用户权限分配管理;支持可视化管理图谱存储;支持图谱数据(含schema)人工干预或自动抽取增加、可视化管理、历史图谱可追溯;
c)变压器及断路器设备标准多模态知识理解:支持从PDF、WORD、TXT等文档中抽取知识,并构建知识图谱;针对不同数据形式,以结构特征的文本表示信息作为分析对象,利用机器学习、自然语言处理语音识别、深度学习等领域成熟的技术方法,结合领域问题和实际经验,结合相关数据库,对素材内容进行文本特征计算、文本特征选择;
d)其他功能要求如下:支持实体、属性等类型抽取的模型训练;支持可视化展示平台情况,训练过程和结果评估;提供基础分词、实体识别能力;支持语料标注能力,用户可自定义标注标签,支持多模数据的标注;具有完备的知识图谱构建平台化功能,具备知识表示、知识建模、知识抽取、知识融合、知识存储、知识计算等全栈构建能力;具有完备的知识应用平台化功能,具备基于图谱的知识检索、知识问答、在线关系推理的知识应用能力。
在本发明的一种优选技术方案中,步骤2中,构建的构建知识图谱标准本体还包括图谱存储及查询功能:支持图谱构建过程中的结构化、半结构化等数据源的存储、处理和数据同步更新;支持实体之间的关系管理,包括添加、删除边关系,设置多个关系对象等;可实现知识图谱的实体检索、实体关系计算、特征查询服务等;支持通过完备的标准图查询语句,检索知识图谱内容并进行展现。
本发明的有益效果是:整个项目以标准数字化转型即数字标准建设的现状和需求出发,首先进行顶层设计,然后进行数字化、碎片化和指标化的标准规范制定,同时进行核心关键技术的研究,包括标准文档数字化相关技术,数据加工标引技术以及智能化服务技术等,然后再进行工具集成和开发,实现数字化和知识元化的标准知识库,最后搭建智能化应用平台,面向业务应用提供场景化服务。新型、自动、智能的知识组织、存储、提取、推理方法和工具,把海量离散的信息点聚合成为语义网络,引入业界成熟稳定的图谱构建功能体系能让该环节事半功倍。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施方式提供的知识图谱标准本体构建方法流程图;
图2为本发明实施方式提供的知识图谱标准本体构建子***的结构示意图;
图3为本发明实施方式提供的知识生产子***的结构示意图;
图4为本发明实施方式提供的知识图谱问答***结构示意图;
图5为本发明实施方式提供的知识中台的知识生产***结构示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例
请参阅图1,本发明提供一种技术方案:一种知识图谱标准本体构建方法,包括以下步骤:
步骤1:信息处理:对多源数据库内的变压器、断路器标准规范文件进行处理,包括:
信息抽取,对多源、异构数据抽取、标引与生产、整合,完成其碎片化、序列化、语义化工作,从多源数据库中提取或学习实体、属性以及实体间的相互关系,形成本体化的信息表达;
信息融合,对抽取的信息进行整合,以消除矛盾和歧义,产出包括章条、术语、指标、公式、图片、表格、附录的碎片类型;
信息加工,对于经过融合的信息,产生的碎片知识进行分类存储,经过质量评估之后,构建变压器、断路器标准知识库;
具体的,对不少于1600篇变压器、断路器标准规范(含国家标准、企业标准、行业标准、团体标准、技术规范书、作业指导书、反事故措施、典型设计等)进行加工,包括多源、异构数据抽取、标引与生产、整合,完成其碎片化、序列化、语义化工作,产出碎片类型需包括章条、术语、指标、公式、图片、表格、附录等,加工准确率要求在95%以上;对产生的碎片知识进行分类存储,构建变压器、断路器标准知识库,支持数据入库、资源管理、资源安全管理、版本管理、体系管理和数据存储、备份等功能,并可形成共享服务能力对外开放。
其中,变压器及断路器设备加工标准规范如下:a、章条:对每个层级的章条进行抽取与加工,支持章条关联嵌套,即分层级处理,父层级章条可包含子层级章条。
b、术语:支持对术语进行抽取,抽取结果包含术语名称、术语定义等。
c、指标与指标值:对标准内的指标(包含文字型条款、数值型)进行抽取,以key-value形式输出。
d、公式:对标准内的公式进行抽取,需包含公式名称、具体公式。
e、图片:对标准内的非纯文字图片进行抽取,输出图片资源,需包含图片名称、图片资源文件。
f、表格:对标准内的表格进行抽取,抽取结果为支持抽取为图片与excel表两类,包含表名(如有)、表头(如有)、行数据、列数据等。
(2)进行变压器及断路器设备技术标准知识库模型构建:
a、变压器、断路器设备技术标准知识库构建,从资源的加工入库开始,将数据存入数字资源库,对资源的元数据、数字对象、XML数据等进行管理,构建主网变压器技术标准知识库;
b、具备数据入库、资源管理、资源安全管理、版本管理、体系管理和数据存储、备份等功能,并抽象共享服务能力对外开放。
c、变压器、断路器设备技术标准知识库需包含标准文件子库、术语子库、章条子库、指标子库、图片子库、表格子库、公式子库等多个子库,各个子库均需支持增加、删除、修改、查询数据,同时需要有前端图形化页面供用户进行操作。
此外,采购标准知识图谱构建工具模型与变压器、断路器设备标准知识图谱构建过程支撑服务,包括变压器、断路器设备标准知识图谱构建及增量迭代工具模型,以及方案制定、知识建模、知识提取与复核、知识消歧、图谱构建、图谱应用等方面的全过程技术支持、维护与培训,协助完成图谱构建与更新。采购的模型及服务需贯穿变压器、断路器设备标准知识生产到知识应用的业务链条。
进行变压器及断路器设备技术标准知识库模型构建具体包括:
a、变压器、断路器设备技术标准知识库构建,从资源的加工入库开始,将信息数据存入数字资源库,对资源的元数据、数字对象、XML数据等进行管理,构建主网变压器技术标准知识库;
b、具备数据入库、资源管理、资源安全管理、版本管理、体系管理和数据存储、备份等功能,并抽象共享服务能力对外开放;
c、变压器、断路器设备技术标准知识库需包含标准文件子库、术语子库、章条子库、指标子库、图片子库、表格子库、公式子库等多个子库,各个子库均需支持增加、删除、修改、查询数据,同时需要有前端图形化页面供用户进行操作。
步骤2:本体构建:基于步骤1中得到的知识库构建用于表征标准数据中的元本体和本体之间的映射关系的映射层,其中,元本体为从多个本体中抽取出的共同的、本质性的特征知识库,用于对所述本体进行抽象表达,确定元本体模型以及元本体和本体之间的映射函数,根据所述映射函数,将各元本体和各本体对应链接,构建所述映射层;
所述确定元本体模型以及元本体和本体之间的映射函数,包括:确定元本体模型;根据所述元本体模型,确定用于表征元本体到本体的映射的第一映射函数;所述根据所述映射函数,将各元本体和各本体对应链接,构建所述映射层;所述基于所述映射层,构建标准知识图谱,包括:基于所述映射层,构建本体模型;根据所述本体模型从标准文本中提取相应的实体,构建知识图谱标准本体。
构建的构建知识图谱标准本体包括变压器、断路器设备标准知识提取及图谱构建功能:知识提取提供针对不同数据源的知识提取服务,所有知识提取服务均以任务的形式在后台进行周期性的运行,保证各类外部数据的持续接入。通过结构化、非结构化等的数据接入,完成来源库数据到知识图谱的自动化构建,提供结构化数据入图能力。
结构化数据入图能力包括:
a)变压器及断路器设备标准知识图谱展现:可视化图谱数据,包括实体属性,实体间关系查询,实体属性查询等;知识图谱数据的分类统计及可视化管理图谱数据内容;支持上层应用,提供查询实体、属性、关系的接口;支持列表、可视化图形等不少于两种建模方式,支持图形化的实体、关系、属性编辑;
b)变压器及断路器设备标准知识图谱构建管理:支持用户权限分配管理;支持可视化管理图谱存储;支持图谱数据(含schema)人工干预或自动抽取增加、可视化管理、历史图谱可追溯;
c)变压器及断路器设备标准多模态知识理解:支持从PDF、WORD、TXT等文档中抽取知识,并构建知识图谱;针对不同数据形式,以结构特征的文本表示信息作为分析对象,利用机器学习、自然语言处理语音识别、深度学习等领域成熟的技术方法,结合领域问题和实际经验,结合相关数据库,对素材内容进行文本特征计算、文本特征选择;
d)其他功能要求如下:支持实体、属性等类型抽取的模型训练;支持可视化展示平台情况,训练过程和结果评估;提供基础分词、实体识别能力;支持语料标注能力,用户可自定义标注标签,支持多模数据的标注;具有完备的知识图谱构建平台化功能,具备知识表示、知识建模、知识抽取、知识融合、知识存储、知识计算等全栈构建能力;具有完备的知识应用平台化功能,具备基于图谱的知识检索、知识问答、在线关系推理的知识应用能力。
构建的构建知识图谱标准本体还包括图谱存储及查询功能:支持图谱构建过程中的结构化、半结构化等数据源的存储、处理和数据同步更新;支持实体之间的关系管理,包括添加、删除边关系,设置多个关系对象等;可实现知识图谱的实体检索、实体关系计算、特征查询服务等;支持通过完备的标准图查询语句,检索知识图谱内容并进行展现。
请参阅图2,在一些具体的实施方案中,本体构建子***,是知识图谱的骨架层,其定义了知识的基本结构,包括实体类、属性类、实体类之间的上下位关系以及实体属性之间的拥有关系。***采用自顶向下的方式可视化的构建知识图谱schema,支持低成本自定义添加各类目对应的字段属性信息,支持预置大量通用知识图谱schema供***引用参考,支持从生产源数据库直连中选入数据快速生成Schema。
***支持三种方式的类目创建,手动添加、Excel导入以及同步结构化数据的数据结构。三种方式创建的schema在“schema存储与管理”模块进行统一的存储与管理。***支持在类目下创建子类目,子类目将自动继承父级类目的属性,从而节约管理员对于有从属管理的类目的管理时间。
表单式建模,支持以交互式表单操作的方式手动添加类目,为这个类目添加属性,添加属性类型与约束,添加关系,添加关系类型与约束。
映射式建模,支持同步结构化数据的数据结构,以快速映射的方式直接生成知识建模的目标。
管理与展示模块将***构建的schema,对外提供统一的引用、查询和修改接口。
支持定义复杂schema,包括属性值的嵌套表达,边关系上定义属性。
请参阅图3,知识生产子***,输入为数据接入子***引入的各类形态的原始数据,以及本体构建子***定义的知识生产目标,输出图谱知识。
在一些具体的实施方案中,知识生产子***提供基础的离线数据处理架构与相应的支撑机制。每个类型的知识生产任务可以抽象为两部分:1)统一数据处理架构的支撑;2)与具体知识类型相关系列策略或算法。知识生产子***为这些知识生产策略或算法,提供统一的分布式文件存储、分布式状态存储、分布式结果存储、分布式缓存,以及计算调度能力、批处理能力、流式处理能力、异构计算能力。
图谱知识生产模块,将结构化和非结构化数据转换形成知识图谱数据,并建立实体及实体间关系。具体功能包括:支持从自由文本中识别实体、关系、属性,可通过人工干预模型的方式,优化自由文本抽取的准确率;支持从结构化数据源中直接转化数据,与知识图谱schema映射对齐,自动生产知识图谱数据;支持自定义知识图谱抽取模型,包括调优模型、优化词表、定义模板等;支持机器学习模型、机器规则及人工方式进行实体、属性、关系的映射、清洗、融合、归一、建边、补全;图谱知识生产全流程支持可视化、白盒化以及审核干预。
图谱知识生产模块依托知识生产子***提供整体架构支持,依托模型策略托管***整体提供算法的训练、执行与预测能力,完成四个大子模块的串行执行:知识抽取、知识加工、知识融合与知识关联。
知识加工,对知识抽取的结果进行基于schema的属性映射,使得抽取出的属性名符合schema中定义的等义属性;对知识抽取的属性值进行基于正则表达式的清洗,使得抽取的属性值符合schema中定义的属性约束条件。
知识融合,知识图谱数据往往是多来源的,不同来源抽取出的相同实体需要在实例层面进行统一的消歧归一,不同来源抽取的同名属性需要在实例层面进行统一的属性择优。本模块的消歧策略主要实现了:文本相似比较、语义相似比较、各类性属性值(例如地址、电话、日期、数值单位)比较三类属性比较算法,上层通过bayes模型、XGBoost模型、XGRank模型对各类比较算法的结果进行及其学习与拟合打分。
知识关联,知识图谱schema定义阶段定义的属性为关系类型,在图谱知识生产的最后阶段需要进行关联建边,本模块实现了基于规则配置的建边策略,用户可以基于字符串、数值等类型的属性,判定是否应该将两个实体建立边关系。对于已经建立完成的图谱,支持使用规则配置与知识表示学习推断两种方式,补齐和挖掘出当前知识图谱实体之间的潜在关系。
知识储存,知识存储子***,包括图谱存储引擎,文本存储引擎。图谱存储引擎构建超大规模高性能分布式图索引及存储引擎。支持常见的图形模型Property Graph和类似Gremlin的图灵完备的图查询语言,提供图原生的存储引擎,存储架构上支持多种的存储介质/***,内存或直接SSD,具备分布式存储能力,满足海量图谱数据的存储需求,以及多活实例,快速故障切换,实现服务的高可用能力。文本知识存储引擎整合经过了深度效果与性能优化的elasticsearch,提供面向大规模文本数据的存储检索***,***容量可扩展,且提供一系列可优化的配置。
图谱存储引擎:图数据库BGraph是百度自研的高性能商用图数据库,适用于数据高度关联并进行深度分析的应用场景。BGraph的核心是高性能图形数据库引擎,在百度的知识图谱***中应用和实践多年,能支持数亿级的实体和毫秒级的响应延迟,提供分布式和高可用能力,满足企业级应用的需求。
请参阅图4,知识问答,知识图谱问答(knowledge base question answering,KB-QA)是基于知识图谱之上最重要的应用之一,它指的是面向知识图谱的知识库,输入自然语言问题,通过对问题进行语义理解和解析,自动从知识图谱中通过查询、计算、推理找到答案,直接满足用户的需求。
考虑到企业内部SQL数据库、表格等知识存储形态,本***在技术方案上做了进一步抽象、整合,以便满足企业常见结构化数据知识库的问答场景。
请参阅图5,知识中台的知识生产***是连接底层数据中台(数据治理、计算与存储)和上层应用服务平台的核心支撑,主要实现海量多源异构数据的知识化表达、抽取、构建、管理等功能,为实现语义搜索、知识问答、计算分析、推理决策等应用提供知识数据生产支撑和存储管理支撑。
知识中台的知识生产***由贯穿知识全生命周期的各个核心子***以及支撑保证子***组成。
以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种知识图谱标准本体构建方法,其特征在于,包括以下步骤:
步骤1:信息处理:对多源数据库内的变压器、断路器标准规范文件进行处理,包括:
信息抽取,对多源、异构数据抽取、标引与生产、整合,完成其碎片化、序列化、语义化工作,从多源数据库中提取或学习实体、属性以及实体间的相互关系,形成本体化的信息表达;
信息融合,对抽取的信息进行整合,以消除矛盾和歧义,产出包括章条、术语、指标、公式、图片、表格、附录的碎片类型;
信息加工,对于经过融合的信息,产生的碎片知识进行分类存储,经过质量评估之后,构建变压器、断路器标准知识库;
步骤2:本体构建:基于步骤1中得到的知识库构建用于表征标准数据中的元本体和本体之间的映射关系的映射层,其中,元本体为从多个本体中抽取出的共同的、本质性的特征知识库,用于对所述本体进行抽象表达,确定元本体模型以及元本体和本体之间的映射函数,根据所述映射函数,将各元本体和各本体对应链接,构建所述映射层;
所述确定元本体模型以及元本体和本体之间的映射函数,包括:确定元本体模型;根据所述元本体模型,确定用于表征元本体到本体的映射的第一映射函数;所述根据所述映射函数,将各元本体和各本体对应链接,构建所述映射层;所述基于所述映射层,构建标准知识图谱,包括:基于所述映射层,构建本体模型;根据所述本体模型从标准文本中提取相应的实体,构建知识图谱标准本体。
2.根据权利要求1所述的知识图谱标准本体构建方法,其特征在于,步骤1中,对产生的碎片知识进行分类存储,构建变压器、断路器标准知识库,支持数据入库、资源管理、资源安全管理、版本管理、体系管理和数据存储、备份等功能,并可形成共享服务能力对外开放。
3.根据权利要求2所述的知识图谱标准本体构建方法,其特征在于,变压器、断路器标准规范包含国家标准、企业标准、行业标准、团体标准、技术规范书、作业指导书、反事故措施、典型设计。
4.根据权利要求1所述的知识图谱标准本体构建方法,其特征在于,步骤1中,变压器及断路器设备加工标准规范如下:
a、章条:对每个层级的章条进行抽取与加工,支持章条关联嵌套,即分层级处理,父层级章条可包含子层级章条;
b、术语:支持对术语进行抽取,抽取结果包含术语名称、术语定义等;
c、指标与指标值:对标准内的指标进行抽取,以key-value形式输出;
d、公式:对标准内的公式进行抽取,需包含公式名称、具体公式;
e、图片:对标准内的非纯文字图片进行抽取,输出图片资源,需包含图片名称、图片资源文件;
f、表格:对标准内的表格进行抽取,抽取结果为支持抽取为图片与excel表两类,包含表名、表头、行数据、列数据等。
5.根据权利要求1所述的知识图谱标准本体构建方法,其特征在于,步骤1中,进行变压器及断路器设备技术标准知识库模型构建:
a、变压器、断路器设备技术标准知识库构建,从资源的加工入库开始,将信息数据存入数字资源库,对资源的元数据、数字对象、XML数据等进行管理,构建主网变压器技术标准知识库;
b、具备数据入库、资源管理、资源安全管理、版本管理、体系管理和数据存储、备份等功能,并抽象共享服务能力对外开放;
c、变压器、断路器设备技术标准知识库需包含标准文件子库、术语子库、章条子库、指标子库、图片子库、表格子库、公式子库等多个子库,各个子库均需支持增加、删除、修改、查询数据,同时需要有前端图形化页面供用户进行操作。
6.根据权利要求1所述的知识图谱标准本体构建方法,其特征在于,步骤2中,构建的构建知识图谱标准本体包括变压器、断路器设备标准知识提取及图谱构建功能:知识提取提供针对不同数据源的知识提取服务,所有知识提取服务均以任务的形式在后台进行周期性的运行,保证各类外部数据的持续接入;通过结构化、非结构化等的数据接入,完成来源库数据到知识图谱的自动化构建,提供结构化数据入图能力。
7.根据权利要求6所述的知识图谱标准本体构建方法,其特征在于,结构化数据入图能力包括:
a)变压器及断路器设备标准知识图谱展现:可视化图谱数据,包括实体属性,实体间关系查询,实体属性查询等;知识图谱数据的分类统计及可视化管理图谱数据内容;支持上层应用,提供查询实体、属性、关系的接口;支持列表、可视化图形等不少于两种建模方式,支持图形化的实体、关系、属性编辑;
b)变压器及断路器设备标准知识图谱构建管理:支持用户权限分配管理;支持可视化管理图谱存储;支持图谱数据人工干预或自动抽取增加、可视化管理、历史图谱可追溯;
c)变压器及断路器设备标准多模态知识理解:支持从PDF、WORD、TXT等文档中抽取知识,并构建知识图谱;针对不同数据形式,以结构特征的文本表示信息作为分析对象,利用机器学习、自然语言处理语音识别、深度学习等领域成熟的技术方法,结合领域问题和实际经验,结合相关数据库,对素材内容进行文本特征计算、文本特征选择;
d)其他功能要求如下:支持实体、属性等类型抽取的模型训练;支持可视化展示平台情况,训练过程和结果评估;提供基础分词、实体识别能力;支持语料标注能力,用户可自定义标注标签,支持多模数据的标注;具有完备的知识图谱构建平台化功能,具备知识表示、知识建模、知识抽取、知识融合、知识存储、知识计算等全栈构建能力;具有完备的知识应用平台化功能,具备基于图谱的知识检索、知识问答、在线关系推理的知识应用能力。
8.根据权利要求1所述的知识图谱标准本体构建方法,其特征在于,步骤2中,构建的构建知识图谱标准本体还包括图谱存储及查询功能:支持图谱构建过程中的结构化、半结构化等数据源的存储、处理和数据同步更新;支持实体之间的关系管理,包括添加、删除边关系,设置多个关系对象等;可实现知识图谱的实体检索、实体关系计算、特征查询服务等;支持通过完备的标准图查询语句,检索知识图谱内容并进行展现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298266.XA CN115757810A (zh) | 2022-10-22 | 2022-10-22 | 一种知识图谱标准本体构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298266.XA CN115757810A (zh) | 2022-10-22 | 2022-10-22 | 一种知识图谱标准本体构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115757810A true CN115757810A (zh) | 2023-03-07 |
Family
ID=85352713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211298266.XA Pending CN115757810A (zh) | 2022-10-22 | 2022-10-22 | 一种知识图谱标准本体构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757810A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186232A (zh) * | 2023-04-26 | 2023-05-30 | 中国电子技术标准化研究院 | 一种标准知识智能问答实现方法、装置、设备和介质 |
CN116401410A (zh) * | 2023-03-09 | 2023-07-07 | 北京海致星图科技有限公司 | 多场景图数据库接入图谱数据的方法、装置、存储介质和设备 |
-
2022
- 2022-10-22 CN CN202211298266.XA patent/CN115757810A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116401410A (zh) * | 2023-03-09 | 2023-07-07 | 北京海致星图科技有限公司 | 多场景图数据库接入图谱数据的方法、装置、存储介质和设备 |
CN116401410B (zh) * | 2023-03-09 | 2024-01-26 | 北京海致星图科技有限公司 | 多场景图数据库接入图谱数据的方法、装置、存储介质和设备 |
CN116186232A (zh) * | 2023-04-26 | 2023-05-30 | 中国电子技术标准化研究院 | 一种标准知识智能问答实现方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yan et al. | KnowIME: a system to construct a knowledge graph for intelligent manufacturing equipment | |
CN112612902A (zh) | 一种电网主设备的知识图谱构建方法及设备 | |
Yang et al. | Research on enterprise risk knowledge graph based on multi-source data fusion | |
US11928114B2 (en) | Query generation based on a logical data model with one-to-one joins | |
CN115757810A (zh) | 一种知识图谱标准本体构建方法 | |
CN111930774B (zh) | 一种电力知识图谱本体自动构建方法及*** | |
CN115080765A (zh) | 一种航天质量知识图谱构建方法、***、介质和设备 | |
US11928086B2 (en) | Automatic machine learning data modeling in a low-latency data access and analysis system | |
Hu et al. | EGC: A novel event-oriented graph clustering framework for social media text | |
Tang et al. | Automatic schema construction of electrical graph data platform based on multi-source relational data models | |
Gu | Integration and optimization of ancient literature information resources based on big data technology | |
CN115937881A (zh) | 一种知识图谱构建标准表格内容自动识别方法 | |
US11768846B2 (en) | Search guidance | |
CN115759253A (zh) | 电网运维知识图谱构建方法及*** | |
Wu et al. | Research of knowledge graph technology and its applications in agricultural information consultation field | |
US11960484B2 (en) | Identifying joins of tables of a database | |
Qin et al. | Construction of knowledge graph of multi-source heterogeneous distribution network systems | |
Meng et al. | Design and Implementation of Knowledge Graph Platform of Power Marketing | |
Cuddihy et al. | FDC cache: semantics-driven federated caching and querying for big data | |
Chen et al. | Construction Methods of Knowledge Mapping for Full Service Power Data Semantic Search System | |
CN113868322B (zh) | 一种语义结构解析方法、装置、设备及虚拟化***、介质 | |
Zhang et al. | The research and design of SQL processing in a data-mining system based on MapReduce | |
CN115599923A (zh) | 一种电网标准知识抽取方法 | |
Fu et al. | Research on knowledge modeling and knowledge push method for space engineering research and development based on ontology | |
US20240211479A1 (en) | Query Generation Based On A Logical Data Model With One-to-One Joins |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |