CN111177323B - 基于人工智能的停电计划非结构化数据提取与识别方法 - Google Patents

基于人工智能的停电计划非结构化数据提取与识别方法 Download PDF

Info

Publication number
CN111177323B
CN111177323B CN201911413470.XA CN201911413470A CN111177323B CN 111177323 B CN111177323 B CN 111177323B CN 201911413470 A CN201911413470 A CN 201911413470A CN 111177323 B CN111177323 B CN 111177323B
Authority
CN
China
Prior art keywords
equipment
power failure
power
information
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911413470.XA
Other languages
English (en)
Other versions
CN111177323A (zh
Inventor
江千军
桂前进
刘辉
谢大为
汪李来
罗利荣
王磊
田宏强
王京景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Anhui Electric Power Co Ltd Anqing Power Supply Co
State Grid Corp of China SGCC
State Grid Anhui Electric Power Co Ltd
Original Assignee
State Grid Anhui Electric Power Co Ltd Anqing Power Supply Co
State Grid Corp of China SGCC
State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Anhui Electric Power Co Ltd Anqing Power Supply Co, State Grid Corp of China SGCC, State Grid Anhui Electric Power Co Ltd filed Critical State Grid Anhui Electric Power Co Ltd Anqing Power Supply Co
Priority to CN201911413470.XA priority Critical patent/CN111177323B/zh
Publication of CN111177323A publication Critical patent/CN111177323A/zh
Application granted granted Critical
Publication of CN111177323B publication Critical patent/CN111177323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Water Supply & Treatment (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于人工智能的停电计划非结构化数据提取与识别方法,包括以下步骤:构建电力设备台账信息标准库、构建电力设备命名分词库和同义词库、实体关系识别及实体补齐、停电信息预处理、提取出有效停电设备和停电设备信息辨识六个步骤,与现有技术相比解决了自然语言描述的非结构化停电信息无法智能识别停电设备的缺陷,应用人工智能分词解析、相似度算法,从自然语言描述的非结构化停电信息中提取标准化停电设备,为停电计划统计、分析、安全校核奠定了数据基础,为提高电网停电计划编制水平提供技术支撑。

Description

基于人工智能的停电计划非结构化数据提取与识别方法
技术领域
本发明涉及电网运行与控制技术领域,尤其涉及基于人工智能的停电计划非结构化数据提取与识别方法。
背景技术
在我国电力***内,停电计划管理一直偏向于流程管理,分为年度、月度、周和日计划,四种计划按时序滚动开展,其中年度、月度、周计划管理长期以来以文档、邮件等线下沟通方式开展,效率不高,停电工作内容描述一直以自然语言表达方式描述,计划管理工作更多依赖于人工经验来开展,缺乏智能化分析手段;日计划主要基于调度运行管理***OMS完成,在日计划填报时与电网设备台账之间建立映射关系,但是OMS更注重流程管理,造成两者之间映射准确性不高,尤其配网计划准确性更差。
但是,随着电网设备规模逐年扩大,依赖于人工管控停电计划水平已经不适用电网的发展,缺乏智能化分析校核支撑,电网运行管理存在安全管理隐患,而支撑智能化校核基础则是在停电信息与电网设备台账之间建立准确的映射关系,从停电信息中提取出与电网设备台账完全吻合的停电设备,方可开展校核工作。停电计划校核是电网运行专业一个复杂的综合统筹的工作,需要兼顾电网多年运行积累和当前电网运行变化,因此长久以来积累的自然语言表达的停电计划数据如何得以充分利用是目前亟待解决问题。
发明内容
本发明的目的是为了解决自然语言描述的非结构化停电信息无法智能识别停电设备的缺陷,提供一种基于人工智能的停电计划非结构化数据提取与识别方法来解决上述问题。
本发明是通过以下技术方案实现:
基于人工智能的停电计划非结构化数据提取与识别方法,包括以下步骤:
步骤一:构建电力设备台账信息标准库。
从电力调度自动化***中获取35千伏及以上主网电网设备台账,从电力生产管理***中获取10或20千伏及以下配网设备台账,形成主配网一体化电力设备台账信息库,对电力设备命名进行规范校对,构建出电力设备台账信息标准库,其中主网设备包括母线、主变、线路、开关、闸刀、机组、继电保护、安全自动装置,配网设备包括单设备和复合设备。
步骤二:构建电力设备命名分词库和同义词库。
基于Python语言的jieba中文分词工具,对在步骤一中的电力设备命名过程中进行分词处理,构建电力设备命名分词库,并根据电力***中设备命名在不同部门、专业、软件中存在的差异化,构建电力设备分词词语对应的同义词数据库,同时,结合百度百科同义词、语义相似度计算方式完善电力设备同义词数据库。
步骤三:实体关系识别及实体补齐。
采用“jieba分词+BertNER作自定义词典+Pyltp词性标注”的中文语言处理方式,基于Pyltp中文工具包中的依存句法分析模块对人工填报信息进行词性标注和BertNER实体识别,确定停电信息的主语和实体,实现对缺失部分文本进行相应实体的补齐,根据实体个数确定停电信息中包含的停电设备的个数。
步骤四:停电信息预处理。
在步骤三的基础上,根据步骤二中的电力设备分词库中基本词语,对人工填报的自然语言表述的停电计划信息进行分词处理,并按步骤三中确定实体个数形成多个分词组,如果分词结果中存在同义词,则进行电力设备命名的同义词替换,形成一组新的分词处理结果。
步骤五:提取出有效停电设备。
遍历步骤四中形成的所有停电计划信息的每组分词信息,对出现在步骤二中电力设备分词库中的词语则予以保留,否则剔除无用信息,最终形成多组有效的停电设备集合。
步骤六:停电设备信息辨识。
基于BM25检索算法,遍历步骤五中形成停电设备集合,将每组需要标准化的停电设备信息作为一个查询,检索电力设备台账信息标准库,通过计算该停电设备信息与标准库中信息项的相似度,选取相似度最高的作为标准输出结果,实现停电设备辨识。
进一步的,在步骤一中,所述单设备包括配网线路、柱上开关、熔断器、配电变压器、闸刀、母线,所述复合设备包括环网柜、开闭所、配电站、分支箱。
与现有的技术相比,本发明的有益效果是:
本发明提出的一种基于人工智能的停电计划非结构化数据提取与识别方法,与现有技术相比解决了自然语言描述的非结构化停电信息无法智能识别停电设备的缺陷,应用人工智能分词解析、相似度算法,从自然语言描述的非结构化停电信息中提取标准化停电设备,为停电计划统计、分析、安全校核奠定了数据基础,为提高电网停电计划编制水平提供技术支撑。
附图说明
图1为本发明基于人工智能的停电计划非结构化数据提取与识别方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1为本发明基于人工智能的停电计划非结构化数据提取与识别方法的流程图。
如图1所示,本发明所述的一种基于人工智能的停电计划非结构化数据提取与识别方法,包括以下步骤:
第一步,构建电力设备台账信息标准库,从电力调度自动化***和生产管理***中获取主、配网电力设备台账,根据《电网设备通用数据模型命名规范》(GB/T33601-2017)对电力设备命名进行规范校对,构建出电力设备台账信息标准库。
如设备台账标准化信息:110kV黎宿514线、110kV肖坑变10kV同庆20线、110kV肖坑变10kV同庆21线、110kV肖坑变10kV同庆20开关、10kV东康Ⅱ17线104开关、10kV东康Ⅱ17线106开关等
第二步,构建电力设备命名分词库和同义词库,基于Python语言的jieba中文分词工具,对电力设备台账信息标准库进行分词处理,构建电力设备命名分词库,并根据电力***中设备命名在不同部门、专业、软件中存在的差异化经验,构建电力设备分词词语对应的同义词数据库,同时,结合百度百科同义词、语义相似度计算等方式完善电力设备同义词数据库。
如分词:110kV、肖坑、变、10kV、同庆、20、线。
构建词库:110kV;肖坑;变--变电站(同义词);10kV;同庆;20;线--线路(同义词)。
第三步,实体关系识别及实体补齐,采用“jieba分词+BertNER作自定义词典+Pyltp词性标注”的中文语言处理方式,基于Pyltp中文工具包中的依存句法分析模块对人工填报信息进行词性标注和BertNER实体识别,确定停电信息的主语和实体,实现对缺失部分文本进行相应实体的补齐,根据实体个数确定停电信息中包含的停电设备的个数。
例如:
人工填报信息:110kV肖坑变10kV同庆20开关及线路保护装置大修
通过实体关系识别,由于存在组合实体“开关及线路”,需要补齐相应缺失部分,最终输出结果为“110kV肖坑变10kV同庆20开关;110kV肖坑变10kV同庆20线路保护装置大修”两组信息。
第四步,停电信息预处理,根据第二步中电力设备分词库中基本词语,对人工填报的自然语言表述的停电计划信息进行分词处理,并按第三步中确定实体个数形成多个分词组,如果分词结果中存在同义词,则进行电力设备命名的同义词替换,形成一组新的分词处理结果。
例如:110kV、肖坑、变、10kV、同庆、20、开关;110kV、肖坑、变、10kV、同庆、20、线路、保护、装置、大修、工作,需对其进行同义词替换[线--线路(同义词)],替换为“线”,增加一组分词结果为:110kV、肖坑、变、10kV、同庆、20、开关、线、保护、装置、大修、工作。
第五步,提取出有效停电设备,遍历第四步中形成所有的停电计划信息的每组分词信息,对出现在电力设备分词库中的词语则予以保留,否则剔除无用信息,最终形成多组有效的停电设备集合。
例如:对第四步分词进行保留结果为110kV、肖坑、变、10kV、同庆、20、开关;110kV、肖坑、变、10kV、同庆、20;110kV、肖坑、变、10kV、同庆、20、线。
第六步,停电设备信息辨识
基于BM25检索算法,遍历第五步中形成停电设备集合,将每组需要标准化的停电设备信息作为一个查询,检索电力设备台账信息标准库,通过计算该停电设备信息与标准库中信息项的相似度,选取相似度最高的作为标准输出结果,实现停电设备辨识。
基于Python语言实现BM25算法,基于第四步分词结果,直接进行相似度查找,直接辨识出两个停电设备为110kV肖坑变10kV同庆20开关、110kV肖坑变10kV同庆20线。明细结果为:110kV肖坑变10kV同庆20开关:相似度为0.99696;110kV肖坑变10kV同庆20:相似度为0.85667;110kV肖坑变10kV同庆20线:相似度为0.99967。
本发明提出的一种基于人工智能的停电计划非结构化数据提取与识别方法,与现有技术相比解决了自然语言描述的非结构化停电信息无法智能识别停电设备的缺陷,应用人工智能分词解析、相似度算法,从自然语言描述的非结构化停电信息中提取标准化停电设备,为停电计划统计、分析、安全校核奠定了数据基础,为提高电网停电计划编制水平提供技术支撑。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (2)

1.基于人工智能的停电计划非结构化数据提取与识别方法,其特征在于,包括以下步骤:
步骤一:构建电力设备台账信息标准库;
从电力调度自动化***中获取35千伏及以上主网电网设备台账,从电力生产管理***中获取10或20千伏及以下配网设备台账,形成主配网一体化电力设备台账信息库,对电力设备命名进行规范校对,构建出电力设备台账信息标准库,其中主网设备包括母线、主变、线路、开关、闸刀、机组、继电保护、安全自动装置,配网设备包括单设备和复合设备;
步骤二:构建电力设备命名分词库和同义词库;
基于Python语言的jieba中文分词工具,对在步骤一中的电力设备命名过程中进行分词处理,构建电力设备命名分词库,并根据电力***中设备命名在不同部门、专业、软件中存在的差异化,构建电力设备分词词语对应的同义词数据库,同时,结合百度百科同义词、语义相似度计算方式完善电力设备同义词数据库;
步骤三:实体关系识别及实体补齐;
采用“jieba分词+BertNER作自定义词典+Pyltp词性标注”的中文语言处理方式,基于Pyltp中文工具包中的依存句法分析模块对人工填报信息进行词性标注和BertNER实体识别,确定停电信息的主语和实体,实现对缺失部分文本进行相应实体的补齐,根据实体个数确定停电信息中包含的停电设备的个数;
步骤四:停电信息预处理;
在步骤三的基础上,根据步骤二中的电力设备分词库中基本词语,对人工填报的自然语言表述的停电计划信息进行分词处理,并按步骤三中确定实体个数形成多个分词组,如果分词结果中存在同义词,则进行电力设备命名的同义词替换,形成一组新的分词处理结果;
步骤五:提取出有效停电设备;
遍历步骤四中形成的所有停电计划信息的每组分词信息,对出现在步骤二中电力设备分词库中的词语则予以保留,否则剔除无用信息,最终形成多组有效的停电设备集合;
步骤六:停电设备信息辨识;
基于BM25检索算法,遍历步骤五中形成停电设备集合,将每组需要标准化的停电设备信息作为一个查询,检索电力设备台账信息标准库,通过计算该停电设备信息与标准库中信息项的相似度,选取相似度最高的作为标准输出结果,实现停电设备辨识。
2.根据权利要求1所述的基于人工智能的停电计划非结构化数据提取与识别方法,其特征在于,在步骤一中,所述单设备包括配网线路、柱上开关、熔断器、配电变压器、闸刀、母线,所述复合设备包括环网柜、开闭所、配电站、分支箱。
CN201911413470.XA 2019-12-31 2019-12-31 基于人工智能的停电计划非结构化数据提取与识别方法 Active CN111177323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911413470.XA CN111177323B (zh) 2019-12-31 2019-12-31 基于人工智能的停电计划非结构化数据提取与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911413470.XA CN111177323B (zh) 2019-12-31 2019-12-31 基于人工智能的停电计划非结构化数据提取与识别方法

Publications (2)

Publication Number Publication Date
CN111177323A CN111177323A (zh) 2020-05-19
CN111177323B true CN111177323B (zh) 2022-04-01

Family

ID=70654339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911413470.XA Active CN111177323B (zh) 2019-12-31 2019-12-31 基于人工智能的停电计划非结构化数据提取与识别方法

Country Status (1)

Country Link
CN (1) CN111177323B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231328B (zh) * 2020-10-13 2022-11-01 国网安徽省电力有限公司安庆供电公司 基于人工智能的配网拓扑信息与gis信息映射校对方法
CN112257422B (zh) * 2020-10-22 2024-06-11 京东方科技集团股份有限公司 命名实体归一化处理方法、装置、电子设备及存储介质
CN113673219B (zh) * 2021-08-20 2022-06-07 合肥中科类脑智能技术有限公司 一种停电计划文本解析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014054628A1 (ja) * 2012-10-02 2014-04-10 株式会社 東芝 小規模電力系統の発電計画策定システム及びその方法
CN104036372A (zh) * 2014-07-04 2014-09-10 云南电力调度控制中心 一种电力设备疑似重复数据识别方法
CN107968405A (zh) * 2017-12-25 2018-04-27 国网湖北省电力有限公司 一种基于营配调贯通的配网非计划停电监测方法
CN107992597A (zh) * 2017-12-13 2018-05-04 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
CN108874990A (zh) * 2018-06-12 2018-11-23 亓富军 一种基于电力技术杂志论文非结构化数据提取的方法及***
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN109800423A (zh) * 2018-12-21 2019-05-24 广州供电局有限公司 基于停电计划语句的停电事件确定方法和装置
CN110309400A (zh) * 2018-02-07 2019-10-08 鼎复数据科技(北京)有限公司 一种智能理解用户查询意图的方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014054628A1 (ja) * 2012-10-02 2014-04-10 株式会社 東芝 小規模電力系統の発電計画策定システム及びその方法
CN104036372A (zh) * 2014-07-04 2014-09-10 云南电力调度控制中心 一种电力设备疑似重复数据识别方法
CN107992597A (zh) * 2017-12-13 2018-05-04 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
CN107968405A (zh) * 2017-12-25 2018-04-27 国网湖北省电力有限公司 一种基于营配调贯通的配网非计划停电监测方法
CN110309400A (zh) * 2018-02-07 2019-10-08 鼎复数据科技(北京)有限公司 一种智能理解用户查询意图的方法及***
CN108874990A (zh) * 2018-06-12 2018-11-23 亓富军 一种基于电力技术杂志论文非结构化数据提取的方法及***
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN109800423A (zh) * 2018-12-21 2019-05-24 广州供电局有限公司 基于停电计划语句的停电事件确定方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Transfer Learning for Scientific Data Chain Extraction in Small Chemical Corpus with BERT-CRF Model;Na PangLi QianWeimin LyuJin-Dong Yang;《arXiv》;20190512;第1-13页 *
基于Bert-NER构建特定领域的中文信息抽取框架(上);大美逸er;《知乎 https://zhuanlan.zhihu.com/p/74803327》;20190731;第1-15页 *
面向中文文本的事件提取方法研究;张璐;《中国优秀硕士学位论文全文数据库信息科技辑》;20190915;第I138-1274页 *

Also Published As

Publication number Publication date
CN111177323A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111177323B (zh) 基于人工智能的停电计划非结构化数据提取与识别方法
CN107330125B (zh) 基于知识图谱技术的海量非结构化配网数据集成方法
CN111860882B (zh) 一种电网调度故障处理知识图谱的构建方法及装置
CN106777150B (zh) 一种融合电网运行环境及设备信息的跨***数据转换方法
WO2023115842A1 (zh) 一种数据驱动的离线在线一体化配电网仿真***及方法
CN112905804B (zh) 一种电网调度知识图谱的动态更新方法及装置
CN110674311A (zh) 一种基于知识图谱的电力资产异构数据融合方法
CN111159365B (zh) 调度模型本体智能问答***的实现方法、***及存储介质
CN107798435B (zh) 一种基于文本信息抽取的电力物资需求预测方法
CN112527997B (zh) 一种基于电网领域调度场景知识图谱的智能问答方法及***
CN110175324B (zh) 一种基于数据挖掘的电网运行操作指令校验方法及***
CN114077674A (zh) 一种电网调度知识图谱数据优化方法及***
CN112948572A (zh) 通过知识图谱可视化展示电力***设备信息与关系的方法
CN110046391A (zh) 基于监控信息表的变电站一次接线图自动生成方法
CN111832977A (zh) 一种基于自然语言解析的检修申请自动成票方法
CN113095524A (zh) 电力设备检修工作单据智能生成方法、***及存储介质
CN111708817A (zh) 一种变电站监控信息的智能处置方法
CN114662279A (zh) 基于二次设备大数据平台的继电保护信息建模方法及***
CN115544773A (zh) 非精确量测模型重构方法、***、计算机设备及存储介质
CN115619117A (zh) 基于值班***的电网智能调度方法
CN113987164A (zh) 一种基于领域事件知识图谱的项目研判方法及装置
CN114283030A (zh) 一种基于知识图谱的配电方案推荐方法及装置
Si et al. Research on comprehensive evaluation of distribution network based on Knowledge Graphs
CN113094516A (zh) 一种基于多源数据融合的电网监控领域知识图谱构建方法
CN115481964A (zh) 智能成票方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant