CN115033705A - 电网调控风险预警信息知识图谱设计方法及*** - Google Patents
电网调控风险预警信息知识图谱设计方法及*** Download PDFInfo
- Publication number
- CN115033705A CN115033705A CN202210420350.8A CN202210420350A CN115033705A CN 115033705 A CN115033705 A CN 115033705A CN 202210420350 A CN202210420350 A CN 202210420350A CN 115033705 A CN115033705 A CN 115033705A
- Authority
- CN
- China
- Prior art keywords
- event
- power grid
- early warning
- risk early
- grid regulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013461 design Methods 0.000 title claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 230000001105 regulatory effect Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 24
- 238000010276 construction Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000007717 exclusion Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 description 8
- 230000001364 causal effect Effects 0.000 description 5
- 238000007689 inspection Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001667 episodic effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Educational Administration (AREA)
- Water Supply & Treatment (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
Abstract
电网调控风险预警信息知识图谱设计方法及***,方法包括:采集电网调控的半结构化数据和非结构化数据以构建调度知识库;利用调度知识库设计具有层级性的电网调控风险预警知识图谱;使用电网调控风险预警知识图谱结合专家经验知识,对电网调控风险预警***进行逻辑层级表达;采集电网调控风险预警通知单,并对电网调控风险预警通知单进行事件抽取,以获取电网调控风险预警实例事件的事理关系和事理元素,并构建电网调控风险预警事件图谱。本发明通过事件抽取获得了事理关系及事理元素,建立了电网调控风险预警事件图谱,该电网调控风险预警事件图谱融合了多类事件与实体知识,是电网调控风险预警信息知识图谱的特定形态。
Description
技术领域
本发明涉及电力***风险检测技术领域,更具体地,涉及电网调控风险预警信息知识图谱设计方法及***。
背景技术
目前,电网调控***中的故障信息及风险预警信息均以“事件”的形式进行文本记录,并以不同结构形式的文件存储在***中。实际工作中,现有的调度***缺乏对风险信息关联性刻画的理解,以及缺乏对预警信息***化存储、查询和检索的便利性。近些年来,以人工智能为核心的技术驱动下,以描述事件之间的逻辑演化关系的逻辑事理图谱正受到广泛关注,这类图谱一方面关注事件之间的空间语义和时间语义状态的转移,能够表达出一种较相关性语义更强、更为直接的关联性;另一方面,知识承载能力更强。这两方面的特征决定了事理图谱能够支持事件预测、逻辑问答、逻辑检验等多种应用。
现有技术1(CN111899089A)“基于知识图谱的企业风险预警方法及***”,获取企业信息的结构化数据和半结构化数据,处理后形成标准化结构数据汇入数据池;获取企业信息的非结构化数据,处理后形成企业关系数据汇入语料库;基于数据池中的标准化结构数据以及语料库中的企业关系数据构建目标企业的知识图谱;利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息,实现风险预警。而电网调度风险业务有别于通用理解的欺诈类风险,电网调度风险业务主要由一条事件和某个具体情境的方式进行表达,具有层级性的调度风险预警图谱schema不仅要包括本体关系,还应该包括事件层级及相关关系。但以现有技术1为代表,建立知识图谱时只抽取了风险信息中的三元组数据,缺乏对风险事件体系的关系抽取和事件层级构建。
领域知识图谱在近些年已有一定的研究进展,但受限于当前自然语言处理技术的水平以及对电网调控风险预警业务的理解,现有技术中电网调控在逻辑知识库及图谱的构建和应用上还存在以下不足:
1)自动抽取准确性不高。目前基于全自动方式构建和提取的事件及事理关系的数据精度不高;其中,以依存句法或正则规则模板抽取的方法虽然能够得到较高的召回率,但错误率较高;以深度学习序列标注方法进行抽取能够保证较高的准确率,但需要大规模的标注语料。
2)调度事件抽取中的事件元素抽取往往需要提前对元素类别进行预设,对调度业务的理解需要积累比较丰富的专家知识,需要定义比较准确的知识经验。
3)调度事件性知识和实体性知识的融合及链接的工作还相对空白。将实体性知识链接到事件性知识中的事件当中,可进一步丰富应用功能。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供电网调控风险预警信息知识图谱设计方法及***,针对现有技术中缺乏的电网调控风险预警事件及事件的事理关系结构进行了梳理研究,对电网调控风险预警事件进行分类及结构构建,通过事件抽取获得了事理关系及事理元素,建立了电网调控风险预警事件图谱,该电网调控风险预警事件图谱融合了多类事件与实体知识,是电网调控风险预警信息知识图谱的特定形态。
本发明采用如下的技术方案。
本发明一方面提出一种电网调控风险预警信息知识图谱设计方法,设计方法包括:
步骤1,采集电网调控的半结构化数据和非结构化数据;利用预处理后的半结构化数据和非结构化数据构建调度知识库;
步骤2,利用调度知识库设计具有层级性的电网调控风险预警知识图谱;使用电网调控风险预警知识图谱结合专家经验知识,对电网调控风险预警***进行逻辑层级表达;电网调控风险预警知识图谱包括:电网调控风险预警抽象事件的层级体系,电网调控风险预警抽象事件的论元结构;
步骤3,采集电网调控风险预警通知单,并对电网调控风险预警通知单进行事件抽取,以获取电网调控风险预警实例事件的事理关系,电网调控风险预警实例事件的事理元素;
步骤4,利用电网调控风险预警实例事件的事理关系,电网调控风险预警实例事件的事理元素,构建电网调控风险预警事件图谱;其中,电网调控风险预警事件图谱为有向有环图谱,以电网调控风险预警实例事件的事理元素为节点,以电网调控风险预警实例事件的事理关系为有向边。
步骤1中,电网调控的半结构化数据包括:调度***数据库数据、固定格式的文本文档;
电网调控的非结构化数据包括:调度各类无固定格式文档、预案、日志、操作记录、图片;
对半结构化数据进行的预处理包括:格式转换;
对非结构化数据进行的预处理包括:标点处理、分词、词频统计及索引库建立。
步骤1中,调度知识库,用于存储电网调控风险预警概念知识和电网调控风险预警概念知识之间的上下位层级关系;调度知识库包括:名词性实体抽象知识库、性状类抽象知识库以及动作性事件抽象知识库;
名词性实体抽象知识库中存储存在上下位语义关系的名词;性状类抽象知识库中存储形容词或副词;动作性事件抽象知识库中存储动词;
其中,电网调控风险预警概念知识是知网中文词库、百科知识库与电网调控领域内文本资料和词表的融合。
步骤1中,调度知识库的构建包括:
步骤1.1,从知网中文词库和百科知识库中获取抽象层级;其中,以知网中文词库中的Glossary文件作为概念层级体系文件;
步骤1.2,通过人工标注,从电网调控的半结构化数据和非结构化数据中获取电网调控领域内文本资料;将文本资料与概念层级体系文件进行融合形成层级分类树,其中设置词频最高的词条作为根节点,将根节点作为实体;
步骤1.3,利用词向量工具训练电网调控领域内文本资料,得到包含实体的电网调控领域内词向量文本以及电网调控领域内词表;
步骤1.4,将电网调控领域内词向量文本中所有的词设置为种子词,对种子词以外的其余电网调控领域内文本资料与种子词进行相似度计算,将相似度大于相似度阈值的词作为同义词,并进行存储;
步骤1.5,将步骤1.4得到的同义词以及在同义词词林中获取的同义词进行汇总,得到电网调控风险预警概念知识;
步骤1.6,构建步骤1.2得到的实体与词语上位概念的上下位有向图,基于最短路径算法,以每个实体最短路径的最大值作为实体的上下位抽象路径,以上下位抽象路径表征电网调控风险预警概念知识之间的上下位层级关系。
步骤2中,调度风险预警事件的层级体系是基于规则组合方式进行构建,规则组合方式是自顶向下方式和自下而上方式的结合;层级体系的构建过程包括:
步骤2.1,自顶向下的构建调度风险预警事件的层级体系,即基于专家经验知识,根据调度风险预警事件的特征对调度风险预警事件进行归纳、分类和定义,并根据电网调控风险预警的业务场景设计调度风险预警事件的层级体系,具体为:
步骤2.1.1,从调度知识库中获取核心动作作为一级事件;核心动作包括动词,名词,名动词短语;
步骤2.1.2,以一级事件为基础,通过行为主体+核心动作的方式,获取二级事件;行为主体包括名词,名词性短语;
步骤2.1.3,以描述二级事件的属性事件作为三级事件;
步骤2.1.4,对三级及以上的各级事件重复步骤2.1.3,逐步迭代得到四级及以上的各级事件;
步骤2.2,自下而上的构建调度风险预警事件的层级体系,即根据电网调控的半结构化数据和非结构化数据对步骤2.1.2获得的二级事件进行分类,将同一类的二级事件归属于同一类的一级事件,具体为:
步骤2.2.1,通过事件短语提取以及事件边界提取的方式,从多个二级事件中识别出各种事件名称;
步骤2.2.2,通过实体识别的方式,对多个二级事件进行词的实体类型进行识别,使用词的实体类型去替换词,得到二级事件的上层事件;
步骤2.2.3,对上层事件中的核心动作进行抽象处理,作为一级事件的补充。
步骤2中,调度风险预警事件的论元结构包括:事件触发词和描述事件结构的元素;调度风险预警事件的论元结构的构建由机器自动完成,包括:
步骤2.3.1,对候选的事件触发词进行初始化,得到事件触发词特征向量;
步骤2.3.2,基于神经网络模型自动更新学习事件触发词特征向量以及组合事件触发词特征向量;
步骤2.3.3,根据步骤2.3.2得到的事件触发词特征向量的组合结果,基于Softmax模型输出不同分类的论元结构;
步骤2.3.4,针对调度风险预警事件,补充描述事件结构的元素,具体为:
1)使用通用论元作为描述事件结构的元素,通用论元包括使用时间、地点、人物、机构;
2)基于调度风险预警事件的类型,提取调度风险预警事件的核心动作、事件的主体、事件的客体作为描述事件结构的元素。
步骤3中,电网调控风险预警实例事件的事理关系的抽取方法包括:
1)基于关系限定词、词性过滤与事件成立性,依据事理关系类型对电网调控风险预警通知单进行事理关系的抽取;
2)基于关系限定词与依存句法规则,依据事理关系类型对电网调控风险预警通知单进行事理关系的抽取;
3)基于序列标注,依据事理关系类型对电网调控风险预警通知单进行事理关系的抽取;
电网调控风险预警实例事件的事理元素的抽取方法包括:从电网调控风险预警实例事件中抽取出与电网调控风险预警实例事件相关的通用论元;其中,通用论元包括事件核心动作、事件主体、事件客体、事件发生时间、事件发生地点、事件关联实体、事件情绪、事件时态、事件确定性;事件关联实体包括关联人物、关联公司、关联机构。
步骤3中,对电网调控风险预警通知单进行事件抽取包括:
步骤3.1,事件检测,即识别电网调控风险预警通知单的文本中的事件触发词,根据事件触发词所属类型判断事件类型;每种事件类型对应唯一的事件表示框架;利用事件表示框架确定电网调控风险预警实例事件的事理关系;
步骤3.2,元素识别,即根据事件表示框架判断识别电网调控风险预警通知单的文本中的实体是否为事件元素,并确定事件元素的角色;利用事件元素的角色确定电网调控风险预警实例事件的事理元素。
步骤4中,有向边代表事件之间的逻辑关系,事件之间的逻辑关系包括:因果关系,条件关系,互斥关系,组成关系,转折关系,并发关系,上下位关系。
本发明另一方面还提出一种电网调控风险预警信息知识图谱设计***,***实现了电网调控风险预警信息知识图谱设计方法。
本发明的有益效果是,与现有技术相比:
1)本发明提出了一种融合多类事件与实体知识的电网调控风险预警事件图谱设计方法,有机地实现了从抽象事件、实例事件、实体知识三个角度出发进行领域内事件图谱构建,所得的电网调控风险预警事件图谱层次分明、体系完善,是电网调控风险预警信息知识图谱的特定形态;
2)本发明提出了电网调控风险预警通知单的事件抽取方法,该方法的抽取准确性高,也无需进行大规模的语料标注;
3)本发明提出了调度知识库的构建方法,调度知识库实现了外部和内部分层融合以获得调度概念知识,调度知识库也是一个多层次性的抽象知识库;该知识库适用于为调度业务的理解提供准确的知识经验,从而实现了无需专家经验知识、也无需提前对元素类别进行预设的操作;
4)本发明提出了一种电网调控风险预警实例事件性知识与实体性知识共存的图谱结构,通过将实例事件性知识和实体性知识的融合,将实体性知识链接到实例事件性知识的实例事件中,进一步丰富电网调控风险预警信息知识图谱的语义信息;
5)采用本发明方法构建的电网调控风险预警事件图谱,能够综合静态实体性知识以及事件性知识两者的优点,可进一步拓宽调度故障查询的应用范围,并提供基于事件知识的预警和推理服务,并可作为知识库扩充领域经验资源,提高电网调度安全保障性。
附图说明
图1是本发明的电网调控风险预警信息知识图谱设计方法的步骤框图;
图2是本发明实施例中的调度知识库的结构示意图;
图3是本发明实施例中事件的层级体系的示意图;
图4是本发明实施例中电网调控风险预警事件图谱的构建流程图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1,本发明一方面提出一种电网调控风险预警信息知识图谱设计方法,设计方法包括步骤1至4。
步骤1,采集电网调控的半结构化数据和非结构化数据;利用预处理后的半结构化数据和非结构化数据构建调度知识库。
步骤1中,电网调控的半结构化数据包括:调度***数据库数据、固定格式的文本文档;
电网调控的非结构化数据包括:调度各类无固定格式文档、预案、日志、操作记录、图片;
对半结构化数据进行的预处理包括:格式转换;
对非结构化数据进行的预处理包括:标点处理、分词、词频统计及索引库建立。
步骤1中,调度知识库,用于存储电网调控风险预警概念知识和电网调控风险预警概念知识之间的上下位层级关系;调度知识库包括:名词性实体抽象知识库、性状类抽象知识库以及动作性事件抽象知识库;
名词性实体抽象知识库中存储存在上下位语义关系的名词;本优选实施例中,如“华科变”和“变电站”,“变电站”和“电网设备”分别为一对描述了上下位语义关系的名词,“华科变”可以往上抽象成“变电站”,“变电站”可以进一步往上抽象成“电网设备”。大量具有这样上下位语义关系的实体对,共同组成一个庞大的知识网络。
性状类抽象知识库中存储形容词或副词,本优选实施例中,如“加强”和“确保”属于性状类抽象知识库。
动作性事件抽象知识库中存储动词,本优选实施例中,如“维护”和“运行”属于性状类抽象知识库。
其中,电网调控风险预警概念知识是知网中文词库、百科知识库与电网调控领域内文本资料和词表的融合。
本优选实施例中,调度知识库的结构如图2所示。
步骤1中,调度知识库的构建包括:
步骤1.1,从知网中文词库和百科知识库中获取抽象层级;其中,以知网中文词库中的Glossary文件作为概念层级体系文件;
步骤1.2,通过人工标注,从电网调控的半结构化数据和非结构化数据中获取电网调控领域内文本资料;将文本资料与概念层级体系文件进行融合形成层级分类树,其中设置词频最高的词条作为根节点,将根节点作为实体;
步骤1.3,利用词向量工具训练电网调控领域内文本资料,得到包含实体的电网调控领域内词向量文本以及电网调控领域内词表;
步骤1.4,将电网调控领域内词向量文本中所有的词设置为种子词,对种子词以外的其余电网调控领域内文本资料与种子词进行相似度计算,将相似度大于相似度阈值的词作为同义词,并进行存储;
步骤1.5,将步骤1.4得到的同义词以及在同义词词林中获取的同义词进行汇总,得到电网调控风险预警概念知识;
步骤1.6,构建步骤1.2得到的实体与词语上位概念的上下位有向图,基于最短路径算法,以每个实体最短路径的最大值作为实体的上下位抽象路径,以上下位抽象路径表征电网调控风险预警概念知识之间的上下位层级关系。
步骤2,利用调度知识库设计具有层级性的电网调控风险预警知识图谱;使用电网调控风险预警知识图谱结合专家经验知识,对电网调控风险预警***进行逻辑层级表达;电网调控风险预警知识图谱包括:电网调控风险预警抽象事件的层级体系,电网调控风险预警抽象事件的论元结构。
事件的元组包括两个层面的含义,一种是事件的层级体系,另一种是事件的论元结构。其中,事件体系更集中地关注事件性的关系知识以及事件的组成性关系知识。事件的论元结构需要依照类似于ACE框架的一种框架体系,针对某类事件下对应的论元结构进行约束。其中,事件的层级体系如图3所示。
步骤2中,调度风险预警事件的层级体系是基于规则组合方式进行构建,规则组合方式是自顶向下方式和自下而上方式的结合;层级体系的构建过程包括:
步骤2.1,自顶向下的构建调度风险预警事件的层级体系,即基于专家经验知识,根据调度风险预警事件的特征对调度风险预警事件进行归纳、分类和定义,并根据电网调控风险预警的业务场景设计调度风险预警事件的层级体系,具体为:
步骤2.1.1,从调度知识库中获取核心动作作为一级事件;核心动作包括动词,名词,名动词短语;本优选实施例中,“故障信息预警通知”为一级事件;
步骤2.1.2,以一级事件为基础,通过行为主体+核心动作的方式,获取二级事件;行为主体包括名词,名词性短语;本优选实施例中,对于“故障信息预警通知”这一级事件得到如“母线故障跳闸”、“损失负荷”等二级事件;
步骤2.1.3,以描述二级事件的属性事件作为三级事件;本优选实施例中,从“损失负荷”这个二级事件可以进一步得到“损失负荷11万千瓦”作为三级事件;
步骤2.1.4,对三级及以上的各级事件重复步骤2.1.3,逐步迭代得到四级及以上的各级事件;步骤2.1.3描述了一种设定的新增属性规则,按照该设定的新增属性规则可以逐步迭代得到更多层级的事件,从而构成事件的层级体系。
自顶向下的构建事件的层级体系,其核心在于组合规则的设计以及相应主体、属性等成分的获取,比如如何获取足够多的一级核心动作,这种方式可以迅速扩充起大量的事件类型,但显而易见的是,事件类型之间存在着明显的语言规则。而与自下而上的事件层级体系正好相反,自下而上是从具体的实例事件出发,通过事件抽象、事件聚类等方式进行实例事件的逐步聚类,最终得到一级事件,是一种由末级事件向一级事件的抽象泛化过程。
步骤2.2,自下而上的构建调度风险预警事件的层级体系,即根据电网调控的半结构化数据和非结构化数据对步骤2.1.2获得的二级事件进行分类,将同一类的二级事件归属于同一类的一级事件,具体为:
步骤2.2.1,通过事件短语提取以及事件边界提取的方式,从多个二级事件中识别出各种事件名称;
步骤2.2.2,通过实体识别的方式,对多个二级事件进行词的实体类型进行识别,使用词的实体类型去替换词,得到二级事件的上层事件;
步骤2.2.3,对上层事件中的核心动作进行抽象处理,作为一级事件的补充。
本优选实施例中,如“输电运检室、电缆运检室加强220千伏廻溧2Y05/2Y06线路特巡”变成“[角色][线路][动作]”,“华科变220千伏、10千伏部分失电”变成“[变电站]失电”。
如果得到关于该实体更多的抽象信息,如华科变有“220千伏”、“10千伏”等电压等级属性时,则又可以得到更多形式的事件层级体系。如此,对于事件中的核心动作也可以进一步地进行抽象,最终得到一个完整的事件体系。如“华科变220千伏、10千伏部分失电”事件体系以及变为:“[变电站]失电”→“[变电站][故障现象]”→“[电网设备][故障现象]”→“故障现象”。
现有技术中的一些事件的论元结构都是基于人工构建且无法包含电网特定领域内知识,因此,如何借助机器自动地完成针对事件论元结构的构建,也是一个较大的问题。
步骤2中,调度风险预警事件的论元结构包括:事件触发词和描述事件结构的元素;调度风险预警事件的论元结构的构建由机器自动完成,包括:
步骤2.3.1,对候选的事件触发词进行初始化,得到事件触发词特征向量;
步骤2.3.2,基于神经网络模型自动更新学习事件触发词特征向量以及组合事件触发词特征向量;
步骤2.3.3,根据步骤2.3.2得到的事件触发词特征向量的组合结果,基于Softmax模型输出不同分类的论元结构;
步骤2.3.4,针对调度风险预警事件,补充描述事件结构的元素,具体为:
1)使用通用论元作为描述事件结构的元素,通用论元包括使用时间、地点、人物、机构;
2)基于调度风险预警事件的类型,提取调度风险预警事件的核心动作、事件的主体、事件的客体作为描述事件结构的元素。
步骤3,采集电网调控风险预警通知单,并对电网调控风险预警通知单进行事件抽取,以获取电网调控风险预警实例事件的事理关系,电网调控风险预警实例事件的事理元素。
步骤3中,电网调控风险预警实例事件的事理关系的抽取方法包括:
1)基于关系限定词、词性过滤与事件成立性,依据事理关系类型对电网调控风险预警通知单进行事理关系的抽取;
本优选实施例中,关系限定词指能够明显显示事理成分的关联指示词,如“导致”,“因为-所以”等因果关联词,其余七种事理关联词同理。通过关系限定词的限定,抽取出事件描述字段;词性过滤指通过使用中文分词器进行分词和词性标注后设定需要保留的词性类别;事件成立性指事件需包含特定的事件成分,如事件动作、事件主体、客体等。
2)基于关系限定词与依存句法规则,依据事理关系类型对电网调控风险预警通知单进行事理关系的抽取;
本优选实施例中,具体包括通过关系限定词对候选事件进行确定,借助依存句法分析手段,确定关联词对应的事件主体和事件客体,并通过修饰词之间的语义关系对事件进行扩展。
3)基于序列标注,依据事理关系类型对电网调控风险预警通知单进行事理关系的抽取;本优选实施例中,包括但不限于利用BIO或BIOS等标记集对起始事件和结尾事件描述进行标注,最后训练序列标注模型进行标注。
电网调控风险预警实例事件的事理元素的抽取方法包括:从电网调控风险预警实例事件中抽取出与电网调控风险预警实例事件相关的通用论元;其中,通用论元包括事件核心动作、事件主体、事件客体、事件发生时间、事件发生地点、事件关联实体、事件情绪、事件时态、事件确定性;事件关联实体包括关联人物、关联公司、关联机构。
步骤3中,对电网调控风险预警通知单进行事件抽取包括:
步骤3.1,事件检测,即识别电网调控风险预警通知单的文本中的事件触发词,根据事件触发词所属类型判断事件类型;每种事件类型对应唯一的事件表示框架;利用事件表示框架确定电网调控风险预警实例事件的事理关系;
实例事件由事件触发词和描述事件结构的事件要素构成,事件要素包括了事件参与者、事件发生时间、事件发生地点等成分。此外,对于一个事件,还可能包括属性信息,属性信息包括但不限于:类型、子类、模态、倾向性、普遍性和时态等信息。
步骤3.2,元素识别,即根据事件表示框架判断识别电网调控风险预警通知单的文本中的实体是否为事件元素,并确定事件元素的角色;利用事件元素的角色确定电网调控风险预警实例事件的事理元素。
步骤3.2的输入依赖于步骤3.1的输出,也可以更细分的处理,将事件抽取变成3个或者4个子任务,如:触发词识别、事件类型分类、元素识别和角色分类任务。
本优选实施例中,实例事理元素抽取是对事件的结构化表示。结构化表示的结果为抽取出与事件相关的通用论元,即事理元素。所述通用论元,包括:核心动作,指的是电网调度故障及控制指令中的核心动词;动作主体,指围绕核心动词的施事者;动作客体,指围绕核心动词的受事者;事件发生时间,指事件发生时的背景时间;事件发生地点,指事件发生时的背景地点;事件关联人物,指事件发生的关联人物;事件程度,指预警事件的等级;事件类别,指事件的分类;事件状态,指事件发生的时态,包括已执行,未执行两种状态;事件来源,指事件抽取所在的文本来源;事件编制时间;事件编制人;事件审核事件;事件审核人。
步骤4,利用电网调控风险预警实例事件的事理关系,电网调控风险预警实例事件的事理元素,构建电网调控风险预警事件图谱;其中,电网调控风险预警事件图谱为有向有环图谱,以电网调控风险预警实例事件的事理元素为节点,以电网调控风险预警实例事件的事理关系为有向边。
本优选实施例中,电网调控风险预警事件图谱是一种领域事件图谱,领域事件图谱是一个有向有环图,节点代表事件,有向边代表事件之间的因果、条件、互斥、组成、转折、上下位等逻辑关系。领域事件图谱既关注事件外部之间的演化逻辑关系,又关注事件本身的丰富属性信息,是抽象事件与事件知识库两者的统一结合体。
领域事件图谱中的事理关系的类型包括:因果事理、条件事理、上下位事理、并列事理、互斥事理、顺承事理、转折事理、组成事理。
在本发明中,电网调控风险预警事件不涉及互斥事理,顺承事理,转折事理,仅包括其余五种事理类型。步骤4中,有向边代表事件之间的逻辑关系,事件之间的逻辑关系包括:因果关系,条件关系,互斥关系,组成关系,转折关系,并发关系,上下位关系。
本优选实施例中,因果事理包括:事件A:华科变220千伏运行母线故障跳闸;事件B:华科变220千伏、10千伏部分失电。
本优选实施例中,条件事理包括:事件A:风险事由;事件B:管控措施。
本优选实施例中,上下位事理包括:事件A:管控措施;事件B:电力调度控制中心按南京地调文件要求执行。
本优选实施例中,并列事理包括:事件A:运维检修部(检修分公司)变电运维室:加强220千伏晓庄变(特别是晓中2578间隔)、中央门变(特别是220千伏母线及间隔)、下关变(特别是下中2579间隔)相关设备运行维护,确保安全运行;事件B:运维检修部(检修分公司)输电运检室,运维检修部(检修分公司)电缆运检室:加强220千伏晓中2578、下中2579线路特巡,确保安全运行。
本优选实施例中,组成事理包括:事件A:电力调度控制中心、供电服务指挥中心加强对华科变主变、龙山变主变、110千伏华龙线774线路负荷的监视和控制;事件B:供电服务指挥中心加强对华科变主变的监视。
本发明另一方面还提出一种电网调控风险预警信息知识图谱设计***,***实现了电网调控风险预警信息知识图谱设计方法。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (10)
1.电网调控风险预警信息知识图谱设计方法,其特征在于,
所述设计方法包括:
步骤1,采集电网调控的半结构化数据和非结构化数据;利用预处理后的半结构化数据和非结构化数据构建调度知识库;
步骤2,利用调度知识库设计具有层级性的电网调控风险预警知识图谱;使用电网调控风险预警知识图谱结合专家经验知识,对电网调控风险预警***进行逻辑层级表达;电网调控风险预警知识图谱包括:电网调控风险预警抽象事件的层级体系,电网调控风险预警抽象事件的论元结构;
步骤3,采集电网调控风险预警通知单,并对电网调控风险预警通知单进行事件抽取,以获取电网调控风险预警实例事件的事理关系,电网调控风险预警实例事件的事理元素;
步骤4,利用电网调控风险预警实例事件的事理关系,电网调控风险预警实例事件的事理元素,构建电网调控风险预警事件图谱;其中,电网调控风险预警事件图谱为有向有环图谱,以电网调控风险预警实例事件的事理元素为节点,以电网调控风险预警实例事件的事理关系为有向边。
2.根据权利要求1所述的电网调控风险预警信息知识图谱设计方法,其特征在于,
步骤1中,电网调控的半结构化数据包括:调度***数据库数据、固定格式的文本文档;
电网调控的非结构化数据包括:调度各类无固定格式文档、预案、日志、操作记录、图片;
对半结构化数据进行的预处理包括:格式转换;
对非结构化数据进行的预处理包括:标点处理、分词、词频统计及索引库建立。
3.根据权利要求1所述的电网调控风险预警信息知识图谱设计方法,其特征在于,
步骤1中,调度知识库,用于存储电网调控风险预警概念知识和电网调控风险预警概念知识之间的上下位层级关系;调度知识库包括:名词性实体抽象知识库、性状类抽象知识库以及动作性事件抽象知识库;
名词性实体抽象知识库中存储存在上下位语义关系的名词;性状类抽象知识库中存储形容词或副词;动作性事件抽象知识库中存储动词;
其中,电网调控风险预警概念知识是知网中文词库、百科知识库与电网调控领域内文本资料和词表的融合。
4.根据权利要求3所述的电网调控风险预警信息知识图谱设计方法,其特征在于,
步骤1中,调度知识库的构建包括:
步骤1.1,从知网中文词库和百科知识库中获取抽象层级;其中,以知网中文词库中的Glossary文件作为概念层级体系文件;
步骤1.2,通过人工标注,从电网调控的半结构化数据和非结构化数据中获取电网调控领域内文本资料;将文本资料与概念层级体系文件进行融合形成层级分类树,其中设置词频最高的词条作为根节点,将根节点作为实体;
步骤1.3,利用词向量工具训练电网调控领域内文本资料,得到包含实体的电网调控领域内词向量文本以及电网调控领域内词表;
步骤1.4,将电网调控领域内词向量文本中所有的词设置为种子词,对种子词以外的其余电网调控领域内文本资料与种子词进行相似度计算,将相似度大于相似度阈值的词作为同义词,并进行存储;
步骤1.5,将步骤1.4得到的同义词以及在同义词词林中获取的同义词进行汇总,得到电网调控风险预警概念知识;
步骤1.6,构建步骤1.2得到的实体与词语上位概念的上下位有向图,基于最短路径算法,以每个实体最短路径的最大值作为实体的上下位抽象路径,以上下位抽象路径表征电网调控风险预警概念知识之间的上下位层级关系。
5.根据权利要求1所述的电网调控风险预警信息知识图谱设计方法,其特征在于,
步骤2中,调度风险预警事件的层级体系是基于规则组合方式进行构建,规则组合方式是自顶向下方式和自下而上方式的结合;层级体系的构建过程包括:
步骤2.1,自顶向下的构建调度风险预警事件的层级体系,即基于专家经验知识,根据调度风险预警事件的特征对调度风险预警事件进行归纳、分类和定义,并根据电网调控风险预警的业务场景设计调度风险预警事件的层级体系,具体为:
步骤2.1.1,从调度知识库中获取核心动作作为一级事件;核心动作包括动词,名词,名动词短语;
步骤2.1.2,以一级事件为基础,通过行为主体+核心动作的方式,获取二级事件;行为主体包括名词,名词性短语;
步骤2.1.3,以描述二级事件的属性事件作为三级事件;
步骤2.1.4,对三级及以上的各级事件重复步骤2.1.3,逐步迭代得到四级及以上的各级事件;
步骤2.2,自下而上的构建调度风险预警事件的层级体系,即根据电网调控的半结构化数据和非结构化数据对步骤2.1.2获得的二级事件进行分类,将同一类的二级事件归属于同一类的一级事件,具体为:
步骤2.2.1,通过事件短语提取以及事件边界提取的方式,从多个二级事件中识别出各种事件名称;
步骤2.2.2,通过实体识别的方式,对多个二级事件进行词的实体类型进行识别,使用词的实体类型去替换词,得到二级事件的上层事件;
步骤2.2.3,对上层事件中的核心动作进行抽象处理,作为一级事件的补充。
6.根据权利要求5所述的电网调控风险预警信息知识图谱设计方法,其特征在于,
步骤2中,调度风险预警事件的论元结构包括:事件触发词和描述事件结构的元素;调度风险预警事件的论元结构的构建由机器自动完成,包括:
步骤2.3.1,对候选的事件触发词进行初始化,得到事件触发词特征向量;
步骤2.3.2,基于神经网络模型自动更新学习事件触发词特征向量以及组合事件触发词特征向量;
步骤2.3.3,根据步骤2.3.2得到的事件触发词特征向量的组合结果,基于Softmax模型输出不同分类的论元结构;
步骤2.3.4,针对调度风险预警事件,补充描述事件结构的元素,具体为:
1)使用通用论元作为描述事件结构的元素,通用论元包括使用时间、地点、人物、机构;
2)基于调度风险预警事件的类型,提取调度风险预警事件的核心动作、事件的主体、事件的客体作为描述事件结构的元素。
7.根据权利要求1所述的电网调控风险预警信息知识图谱设计方法,其特征在于,
步骤3中,电网调控风险预警实例事件的事理关系的抽取方法包括:
1)基于关系限定词、词性过滤与事件成立性,依据事理关系类型对电网调控风险预警通知单进行事理关系的抽取;
2)基于关系限定词与依存句法规则,依据事理关系类型对电网调控风险预警通知单进行事理关系的抽取;
3)基于序列标注,依据事理关系类型对电网调控风险预警通知单进行事理关系的抽取;
电网调控风险预警实例事件的事理元素的抽取方法包括:从电网调控风险预警实例事件中抽取出与电网调控风险预警实例事件相关的通用论元;其中,通用论元包括事件核心动作、事件主体、事件客体、事件发生时间、事件发生地点、事件关联实体、事件情绪、事件时态、事件确定性;事件关联实体包括关联人物、关联公司、关联机构。
8.根据权利要求7所述的电网调控风险预警信息知识图谱设计方法,其特征在于,
步骤3中,对电网调控风险预警通知单进行事件抽取包括:
步骤3.1,事件检测,即识别电网调控风险预警通知单的文本中的事件触发词,根据事件触发词所属类型判断事件类型;每种事件类型对应唯一的事件表示框架;利用事件表示框架确定电网调控风险预警实例事件的事理关系;
步骤3.2,元素识别,即根据事件表示框架判断识别电网调控风险预警通知单的文本中的实体是否为事件元素,并确定事件元素的角色;利用事件元素的角色确定电网调控风险预警实例事件的事理元素。
9.根据权利要求8所述的电网调控风险预警信息知识图谱设计方法,其特征在于,
步骤4中,有向边代表事件之间的逻辑关系,事件之间的逻辑关系包括:因果关系,条件关系,互斥关系,组成关系,转折关系,并发关系,上下位关系。
10.电网调控风险预警信息知识图谱设计***,其特征在于,
所述***实现了如权利要求1-9任意一项中所述的电网调控风险预警信息知识图谱设计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210420350.8A CN115033705A (zh) | 2022-04-21 | 2022-04-21 | 电网调控风险预警信息知识图谱设计方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210420350.8A CN115033705A (zh) | 2022-04-21 | 2022-04-21 | 电网调控风险预警信息知识图谱设计方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115033705A true CN115033705A (zh) | 2022-09-09 |
Family
ID=83118760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210420350.8A Pending CN115033705A (zh) | 2022-04-21 | 2022-04-21 | 电网调控风险预警信息知识图谱设计方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115033705A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115344717A (zh) * | 2022-10-18 | 2022-11-15 | 国网江西省电力有限公司电力科学研究院 | 面向多类型供用能***调控运行知识图谱构建方法及装置 |
CN117670017A (zh) * | 2023-06-28 | 2024-03-08 | 上海期货信息技术有限公司 | 一种基于事件的风险识别方法、装置以及电子设备 |
-
2022
- 2022-04-21 CN CN202210420350.8A patent/CN115033705A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115344717A (zh) * | 2022-10-18 | 2022-11-15 | 国网江西省电力有限公司电力科学研究院 | 面向多类型供用能***调控运行知识图谱构建方法及装置 |
CN115344717B (zh) * | 2022-10-18 | 2023-02-17 | 国网江西省电力有限公司电力科学研究院 | 面向多类型供用能***调控运行知识图谱构建方法及装置 |
CN117670017A (zh) * | 2023-06-28 | 2024-03-08 | 上海期货信息技术有限公司 | 一种基于事件的风险识别方法、装置以及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cimiano et al. | Learning concept hierarchies from text corpora using formal concept analysis | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
Al-Hroob et al. | The use of artificial neural networks for extracting actions and actors from requirements document | |
CN115033705A (zh) | 电网调控风险预警信息知识图谱设计方法及*** | |
Zouaq | An overview of shallow and deep natural language processing for ontology learning | |
CN112100397A (zh) | 基于双向门控循环单元的电力预案知识图谱构建方法及*** | |
Mallery | Semantic content analysis: a new methodology for the RELATUS natural language environment | |
Wątróbski | Ontology learning methods from text-an extensive knowledge-based approach | |
Fernandes et al. | Appellate court modifications extraction for portuguese | |
Dias et al. | State of the Art in Artificial Intelligence applied to the Legal Domain | |
Adrian et al. | iDocument: using ontologies for extracting and annotating information from unstructured text | |
CN113869040A (zh) | 一种电网调度的语音识别方法 | |
US11922327B2 (en) | Automated knowledge base | |
CN110413796A (zh) | 一种煤矿典型动力灾害领域本体构建方法 | |
CN115759253A (zh) | 电网运维知识图谱构建方法及*** | |
CN114091464A (zh) | 一种融合五维特征的高普适性多对多关系三元组抽取方法 | |
Spiliopoulou et al. | Coupling information extraction and data mining for ontology learning in PARMENIDES | |
Degeratu et al. | Building automatically a business registration ontology | |
Zhu | [Retracted] Sentiment Analysis of International and Foreign Chinese‐Language Texts with Multilevel Features | |
Yiming et al. | Research on the construction of maritime legal knowledge graph | |
McDonald et al. | Transforming Open-Source Documents to Terror Networks: The Arizona TerrorNet. | |
CN112860872B (zh) | 基于自学习的配电网操作票语义合规性的校验方法及*** | |
Jin et al. | Representation and Extraction of Diesel Engine Maintenance Knowledge Graph with Bidirectional Relations Based on BERT and the Bi-LSTM-CRF Model | |
Shishaev et al. | Application of neural network language models based on distributive semantics for ontological modeling of the domain | |
Saad et al. | Axiomatic Ontology Learning Approaches for English Translation of the Meaning of Quranic Texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |