CN116127084A - 基于知识图谱的微电网调度策略智能检索***及方法 - Google Patents
基于知识图谱的微电网调度策略智能检索***及方法 Download PDFInfo
- Publication number
- CN116127084A CN116127084A CN202211298737.7A CN202211298737A CN116127084A CN 116127084 A CN116127084 A CN 116127084A CN 202211298737 A CN202211298737 A CN 202211298737A CN 116127084 A CN116127084 A CN 116127084A
- Authority
- CN
- China
- Prior art keywords
- micro
- grid
- data
- knowledge
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 65
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000013507 mapping Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 8
- 230000007547 defect Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 7
- 238000004146 energy storage Methods 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000009472 formulation Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/007—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
- H02J3/0075—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Power Engineering (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于知识图谱的微电网调度策略智能检索***和方法。本发明借助知识图谱涉及的命名实体识别等自然语言处理技术,结合机器学习特别是深度学习等人工智能技术,利用微电网调度相关文献、资料构建了微电网运行调度领域的知识图谱,搭建了基于知识图谱的微电网调度策略检索***架构,制定了***工作原理过程及关键技术环节;根据获取的各微电网实时运行数据,通过逻辑判断、内容分词、实体识别等环节将微电网当前运行状态映射到微电网调度领域知识图谱中的实体和关系上,通过检索实现微电网当前运行状态下调度策略的生成,并将结果对应调度策略反馈至调度人员。
Description
技术领域
本发明涉及微电网运行调控领域,具体说是一种基于知识图谱的微电网调度策略智能检索***。
背景技术
随着可再生能源渗透率的提高,微电网以其灵活、智能和兼容的特点得以迅速发展。通过微电网内部分布式资源调控能够实现能源互补运行,从而降低运行成本,提升可再生能源消纳水平和***运行稳定性。为了满足当前运行场景与配置结构日益复杂的微电网***高效、可靠运行的需求,亟需研究决策时间短、可靠通用的微电网调度与控制策略制定方法,提高微电网经济效益与调控性能。常规的基于物理机理分析通过建立优化调度模型,采用优化算法制定调度策略的传统方法,在实施调度使微电网***运行足够年限后,积累了丰富的运行场景集及其对应的调度策略,这些数据场景及其对应调度策略能够为未来周期调度策略的制定提供可比拟专家知识的调度规则库,将有效提高微电网调度决策效率。
近年来随着人工智能技术的发展,借助数据驱动思想利用深度学习方法来提高微电网智能化调控性能,具有潜在的“去模型化”的技术优势,成为制定微电网调控策略的新思路。其中知识图谱作为一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系通过三元组的形式进行描述,构成网状的知识结构。相较于传统的知识组织、管理方式,知识图谱基于图的数据组织结构支持更高效的数据调取,能够处理复杂多样的关联表示。因此,通过构建微电网调度策略的领域知识图谱,以图的形式对调度知识进行组织和存储,利用计算机进行语义搜索与辅助决策,帮助调度人员全面快速掌握微电网运行状态关键信息,为调度策略制定提供智能化的信息服务与应用将具有广阔的前景。
在微电网调度策略制定方面,现有的研究多是基于物理机理分析,通过建立优化调度模型,采用某种优化算法制定调度策略。这种传统的微电网调度策略制定方法,随着新能源、分布式电源的发展,微电网运行和用户用电不确定性增强,其态势日趋复杂,以往基于物理***的数学建模方法存在求解过程冗余复杂、维数灾、优化计算效率低、易陷入局部最优解等问题,难以满足当前微电网运行实时性要求。另一方面,针对电力调度的信息化工程应用中,电力公司集中力量开发了数量众多的应用***,引入了知识工程技术特别是专家***框架,实现了由数据到知识的提升。通过大量历史数据对源荷储整体特性进行聚类分析,通过电网调控运行经验与规程进行学习和模拟,是目前知识图谱等人工智能技术的强项。因此未来微电网调控***设计要从数学建模分析扩展到“数学建模+知识驱动”相结合的方式,最终演变为知识引导。
领域知识图谱以其数据规模巨大、语义关系丰富、质量优秀、结构友好等特性逐渐在医疗、金融等多个领域或行业取得了应用。在电力行业的研究应用主要集中在故障检修、智能客服等方面,尚未应用到微电网运行调度策略制定领域。若能够在微电网调度策略制定中引入知识图谱这一新兴的知识工程技术,以结构化方式刻画微电网调度中的概念、实体、事件及其间的关系,进而根据感知的运行状态完成微电网调度策略的制定,将能够为微电网运行的调度问题提供实用化解决方法。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于知识图谱的微电网调度策略智能检索***。本发明借助知识图谱涉及的命名实体识别等自然语言处理技术,结合机器学习特别是深度学习等人工智能技术,利用微电网调度相关文献、资料构建了微电网运行调度领域的知识图谱,搭建了基于知识图谱的微电网调度策略检索***架构,制定了***工作原理过程及关键技术环节;根据获取的各微电网实时运行数据,通过逻辑判断、内容分词、实体识别等环节将微电网当前运行状态映射到微电网调度领域知识图谱中的实体和关系上,通过检索实现微电网当前运行状态下调度策略的生成,并将结果对应调度策略反馈至调度人员。
为达到以上目的,本发明采取的技术方案是:
基于知识图谱的微电网调度策略智能检索***,其特征在于,包括信息解析模块、微网状态判断模块、微电网调度领域知识图谱和调度策略检索模块;
所述信息解析模块对上传至检索***的各微电网实时运行数据进行计算与逻辑判断,并将判断结果与微电网调度领域知识图谱中的实体及关系进行匹配;
所述微网状态判断模块根据信息解析模块实体匹配结果对需进行检索的微电网的状态进行判断和确认,生成检索图;上述匹配结果包括调控目标、储能情况;
所述调度策略检索模块利用知识计算引擎寻找微电网调度领域知识图谱中相匹配的知识路径,得出最终检索结果;
所述微电网调度领域知识图谱中的数据包括经解析的结构化数据、经过标注的半结构化数据和非结构化数据;其中结构化数据来自电网调度***;
经过标注的半结构化数据和非结构化数据分为数据实体、数据实体关系,上述半结构化数据和非结构化数据具体包括微电网运行方式、微电网调度策略、微电网调控目标和调度原则。
在上述方案的基础上,经解析的结构化数据存入微电网调度领域知识图谱的步骤为:
步骤1、连接数据库进行初始化操作;
步骤2、构造SQL语句并进行数据查询;
步骤3、数据类型、结构、属性转换;
步骤4、判断数据是否存在于数据库中,如果存在返回步骤2,否则进行步骤5的数据存储;
步骤5、构建数据存储语句,并结合SQL语句抽取的信息确定上下位关系,创建节点;
步骤6、判断SQL语句是否查询完毕,如果查询完毕,退出抽取流程,如果没有则返回步骤2,继续构建SQL语句进行数据查询;
所述结构化数据包括:微电网负荷数据、风/光可再生能源发电功率和储能荷电状态;
所述数据库为Neo4j数据库;所述数据存储语句为为Neo4j数据存储语句。
在上述方案的基础上,所述数据实体使用BiLSTM-CRF模型进行识别和属性抽取,具体方法为:
步骤1、将微电网调度策略文本使用jieba进行分词,然后使用gensim工具包的word2vec进行训练得到词向量矩阵,将待识别文本使用训练好的词向量矩阵进行映射,形成词向量序列x,x={x1,x2,...,xn},其中xt表示第t个词的输入向量,式中t=1,2,3…n;
步骤2、将步骤1得到的词向量序列x作为前向LSTM层的输入,x的逆序列作为后向LSTM层的输入;在t时刻,前向LSTM层输出的隐状态序列hR与后向LSTM层输出的隐状态序列hL按位置进行拼接ht=[hR;hL]∈Rm,得到完整的隐状态序列(h1,h2,…,hn)∈Rn×m,m是隐状态向量维度,如下式所示:
hR=f(Wxt+Uht-1+b) (1);
hL=f(Wxt+Uht+1+b) (2);
式中,f()为非线性激活函数,W=(w1,w2,...,wn)T为状态-输入权重矩阵,U=(u1,u2,...,un)T为状态-状态权重矩阵,xt为当前时刻的输入,为向量拼接操作,ht为t时刻拼接后的完整隐状态序列,表示当前时刻外部状态,ht-1为上一时刻的外部状态,ht+1为下一时刻的外部状态,b为偏置值;
步骤3、将完整向量序列传递至输出层,将m维向量映射至k维向量,k代表标注集中所有的标签数,映射成n×k维特征矩阵P并输出,P=(p1,p2,...,pn)∈Rn×k,则pi∈Rk的每一位Pij为词xi分类到第j个标签的打分值;
步骤4、将步骤3得到的矩阵P输入至CRF模型,CRF模型学习标签之间的标注规则进行计算得分,并输出最佳的标签序列;如下式所示:
上式中;s(x,y)为输入序列x={x1,x2,...,xn}经CRF层预测标签等于标签序列y的分数,标签序列y={y1,y2,...,yn};为CRF模型中状态转移矩阵分数值,表示状态转移矩阵M中各元素从yi变化到yi+1的可能性;为词xi分类到yi标签的分数值
将上式(4)使用Softmax函数进行归一化处理,得到模型概率公式,如下式(5)所示:
上式中,P(y|x)为输入序列x分类到标签序列y的概率值,y′代表一种可能的标签序列,y′∈Y(x),Y(x)表示所有可能的标签序列,∑y′∈Y(x)exp(s(x,y′))表示所有标签序列得分之和,输出的概率值最大的y即为最终的标签序列。
在上述方案的基础上,所述数据实体关系使用BiGRU-Attention模型进行数据实体关系抽取及分类,具体方法为:
步骤1、将微电网调度策略文本使用jieba进行分词,然后使用gensim工具包的word2vec进行训练得到词向量矩阵,将待识别文本使用上述词向量矩阵进行映射,得到词向量序列x,x={x1,x2,...,xn},其中xi表示第i个词的输入向量,式中i=1,2,3…n;
步骤2、将步骤1得到的词向量序列x作为前向GRU层的输入,x的逆序列作为后向GRU层的输入;在t时刻,前向GRU层输出的隐状态序列hR与后向GRU层输出的隐状态序列hL按位置进行拼接ht=[hR;hL]∈Rm,得到完整的隐状态序列(h1,h2,…,hn)∈Rn×m,m是隐状态向量维度,如式(1)-(3)所示;
步骤3、在注意力层中对每个词分配不同的权重,将得到的注意力矩阵连接起来,计算得出注意力层的输出表示Ct,如下式(6)所示:
其中
上式中,N表示句子长度,ht表示当前时刻外部状态,at表示t时刻下的权重,Wt为权重矩阵,bt为偏置项;
步骤4、将步骤3得到的Ct输入到输出层的全连接层模块中,然后将全连接层模块学习的向量输入到Softmax层预测类别关系的概率,如下式(7)、(8)所示:
y(y|x)=softmax(WsCt+bs) (7)
y=arg maxyy(y|x) (8)
上式中:y为关系类别,即为最终求解的关系预测结果;Ws为分类器学习的权重参数;bs为分类器偏置项。
在上述方案的基础上,所述微电网调度领域知识图谱的构建方法为:
首先利用BiLSTM-CRF模型实现微电网调度实体识别及属性抽取;其次根据微电网调度特征,利用BiGRU-Attention模型进行关系抽取及分类,经数据实体链接与知识融合后,得到微电网调度领域知识图谱并存储在Neo4j图数据库中;
上述知识融合指实体消除歧义和共指消解;其中,共指消解的主要任务是查找出所有表示实体/属性的词当中的同义词,其过程为:
步骤1、首先利用正则表达式找出存在名词缺省的句子与实体的结尾,再根据命名数据实体识别的结果确定缺省数据实体的边界后补全数据实体,如下式(9):
[\u4e00-\u9fa5])(、)?(或)?(与)?(和)?[\u4e00-\u9fa5]+ (9);
步骤2、按词性分类:将所有表示实体/属性的词按照动词、名词、形容词等词性划分为多个集合,分别对每个集合进行同义词识别;
步骤3、向量化:为刻画表示实体/属性的词间的语义相似度,采用word2vec方法对缺陷记录语料进行训练,将词向量维度选为100维,得到语料中所有词对应的词向量,再通过计算词向量之间的余弦相似度,判断表示实体/属性的词间的相似程度;
步骤4、筛选词对:删除在同一条缺陷记录中出现过的余弦相似度高的词对,从而剔除邻近词对,筛选出同位词对;
步骤5、形成同义词表:将含有相同词的同位词对合并为一个同义词集,从而形成若干个同义词集,并在每个集合中选择一个词,作为集合内所有词的标准化名称,最后以同义词表的形式来表示同义词集。
本发明的另一个目的在于提供一种基于知识图谱的微电网调度策略智能检索方法。
为达到以上目的,本发明采取的技术方案是:
基于知识图谱的微电网调度策略智能检索方法,其特征在于,包括以下步骤:
步骤1:由微电网当前运行数据对应状态生成检索图Q;
步骤2:将检索图Q划分为多个子检索图;
步骤3:在知识图谱中执行步骤2中的子检索,获得所有子检索的结果;
步骤4:连接步骤3得到的子检索的结果,生成匹配子图,即最终检索结果。
其中,Q=(EQ,RQ),包含节点的集合EQ和边的集合RQ;上述EQ中的节点对应实体,RQ中的边表示任意两个节点之间的关系;
将知识图谱G=(EG,RG)中满足映射函数F的子图定义为匹配子图φ(Q),即φ(Q)将Q中的节点EQ映射到G中的节点φ(EG),将Q中的边RQ映射到G中的边φ(RG);上述映射函数F指知识图谱与匹配子图之间元素的相互对应关系;上述EG为知识图谱G中节点的集合,RG为知识图谱G中边的集合;上述EG中的节点对应实体,RG中的边表示任意两个节点之间的关系
在上述方案的基础上,
步骤2所述划分子检索的步骤为:将检索图Q划分为两层树结构,每个子检索图包含一个根节点、一层子节点和边;
步骤3所述在知识图谱中执行子检索,具体为:把子检索图分解成最小生成树,在对边进行匹配时优先匹配最小生成树的边;选择根节点作为优先匹配过滤能力强的顶点;在VF2图匹配算法的基础上,结合图的标签特征进行子检索执行。
在上述方案的基础上,所述步骤4具体为:
步骤4-1、将子检索结果集C初始化,对子检索划分的Qi∈(Q1、Q2……Qn)按照子检索执行方法执行所有的Qi,得到所有子检索的结果;
步骤4-2、对n个子检索的检索结果进行哈希连接,保存匹配度满足阈值γ的结果到C中,并将结果按匹配度排序处理;
步骤4-3、返回检索结果集C,完成检索。
本发明所述的一种基于知识图谱的微电网调度策略智能检索***及方法,其有益效果为:
能够很好地利用微电网***积累的大量多源异构的运行数据,包括数字、文字等,为未来周期调度策略的制定提供可比拟专家知识的调度规则库。在进行微电网调度策略制定时,本发明所提基于知识图谱的检索方法与传统语义分析方法相比,能更准确的识别微电网运行信息,返回更加全面、准确的调度策略检索结果,从而提高微电网调度决策效率,提升微电网运行调度的智能化水平。
附图说明
本发明有如下附图:
图1为微电网调度领域知识图谱构建流程图;
图2为微电网调度领域非结构化数据BiLSTM-CRF命名实体识别模型架构图;
图3为微电网调度领域BiGRU-Attention关系识别模型架构图;
图4为微电网调度领域知识图谱在Neo4j图数据库中存储的实体与关系图;
图5为微电网调度策略检索***架构示意图;
图6为微电网A当前时刻的检索图QA;
图7为微电网A的子检索图QA1、QA2、QA3、QA4。
图8为子检索流程图;
图9为子检索结果连接。
具体实施方式
以下结合附图对本发明作进一步详细说明。
1.基于深度学习的微电网调度领域知识图谱构建
微电网调度领域知识图谱的构建分为模式层构建和数据层构建,模式层是知识图谱的知识组织架构,是对领域内实体、实体间关系以及属性进行描述的数据模型。本发明提炼出微电网调度领域里有意义的概念类型与相关的属性,以及概念之间关系,从而形成领域知识体系。如图1所示,微电网实时调度知识图的模式层由调度目标、调度策略、子网状态(主要指微电网内部发用电量、运行时段等情况组成的状态空间)和运行状态(主要指微电网并网或孤岛等状态)4个核心要素以及以及它们之间的相互关系构成;数据层构建主要由知识抽取、知识融合、知识推理及知识存储四部分组成。数据来源主要由来自调度***的结构化数据、来自调度规则报告和相关文献资料的半结构化和非结构化数据。
(1)基于BiLSTM-CRF的微电网调度领域实体识别
知识抽取的一项基础性工作是命名实体识别,主要是通过序列标注方法解决。本发明共定义了负荷情况(Load)、运行状态(State)、子网状态(Space)、调度策略(Strategy)、供电情况(Power)、调控目标(Target)以及储能状态(Storage)7种实体类别。采用BIO标注方法,B标记实体的开始,I标记其余部分,O表示非实体,下表为一个标注实例。
表1微电网调度领域BIO实体标注实例
对于从电网调度***实时导出的结构化数据,采用规则化提取方式直接生成实体-关系-实体三元组存入知识图谱,具体流程为:1)连接数据库进行初始化操作;2)构造SQL语句并进行数据查询;3)数据类型、结构、属性转换;4)判断数据是否存在于Neo4j数据库中,如果存在返回第2步,否则进行第5步的数据存储。所述结构化数据包括:微电网负荷数据、风/光可再生能源发电功率和储能荷电状态等。5)构建Neo4j数据存储语句,并结合SQL语句抽取的信息确定上下位关系,创建节点;6)判断SQL语句是否查询完毕,如果查询完毕,退出抽取流程,如果没有则返回第2步,继续构建SQL语句进行数据查询。
对于调度处置管理规定、调度规程以及调度人员业务经验规则等半结构化、非结构化文本,本发明提出了基于双向长短期记忆神经网络-条件随机场(Bidirectional LongShort Term Memory-Conditional Random Field,BiLSTM-CRF)的微电网调度领域命名实体识别模型,模型架构如图2所示,分为输入层、隐含层(BiLSTM层)、标注层(CRF层)三层。所述非结构化的文本数据包括:微电网运行方式、微电网调度策略、微电网调控目标和调度原则等。
1)输入层主要负责将窗口的词进行向量化映射。将微电网调度策略研究文献等资料中的文本使用jieba进行分词,然后使用gensim工具包的word2vec进行训练得到词向量矩阵。通过输入层可以将待识别文本使用训练好的词向量矩阵进行映射,形成一组由词嵌入构成的词向量序列x,x={x1,x2,...,xn},其中xt表示第t个词的输入向量。将词向量序列作为BiLSTM网络的初始输入值。
2)BiLSTM由前向和后向的两层长短期记忆(Long Short Term Memory,LSTM)神经网络组成,对前后LSTM以相同的信息输入但以相反的方向进行信息传递。在本发明中将微电网调度策略研究文献等资料中的相关文本形成的输入向量序列的顺序序列{x1,x2,...,xn}作为前向LSTM层的输入,逆序序列{xn,xn-1,...,x1}则作为后向LSTM层的输入。前后LSTM分别按时间顺序和时间逆序,模型在每个时间步输入一个词语的词向量,因此在第t个时间步的输入为语句第t个词语的词向量xt,在时刻t的隐状态分别定义为={hR1,hR2,…,hRn}(前向LSTM)和hL={hL1,hL2,…,hLn}(后向LSTM)。在t时刻,模型将前向LSTM输出的隐状态序列hR与后向LSTM输出的隐状态序列hL按位置进行拼接ht=[hR;hL]∈Rm,得到完整的隐状态序列(h1,h2,…,hn)∈Rn×m,m是隐状态向量维度。那么公式如下所示:
hR=f(Wxt+Uht-1+b) (1);
hL=f(Wxt+Uht+1+b) (2);
式中,f()为非线性激活函数,W=(w1,w2,...,wn)T为状态-输入权重矩阵,U=(u1,u2,...,un)T为状态-状态权重矩阵,xt为当前时刻的输入,为向量拼接操作,ht为t时刻拼接后的完整隐状态序列,表示当前时刻外部状态,ht-1为上一时刻的外部状态,ht+1为下一时刻的外部状态,b为偏置值。
接着将完整向量序列传递到BiLSTM模型的输出层,对输出序列进行矩阵变化,通过维数与标注集长度一一对应,从而将m维向量映射至k维向量,k代表标注集中所有的标签数,映射成n×k维特征矩阵P,P=(p1,p2,...,pn)∈Rn×k,则pi∈Rk的每一位Pij为词xi分类到第j个标签的打分值。本发明中定义了负荷情况(Load)、运行状态(State)、供电情况(Power)等7种实体对应的14种标签以及O代表的非实体标签共15种标签如表2所示。
表2微电网调度领域BIO标注法对应标签
3)在命名实体识别任务中,实体名由多个标签进行标注,所以标签之间存在着严重的依赖关系,基于此本发明选择使用接入CRF模型来进行分类决策,而不是在BiLSTM的输出层直接使用Softmax函数进行分类决策。因此,将BiLSTM层中输出的特征矩阵P输入到CRF层进行下一步的分类标注,由图2可知在序列的标注中,CRF模型作用于整个句子的结构,而不是独立的单个位置,最终标注分数受相邻状态影响。若记一个标签序列为y={y1,y2,...,yn},对于输入序列x={x1,x2,...,xn}模型预测标签等于y的分数为s={s1,s2,...,sn},计算公式如(4)所示。CRF层中引入一个状态转移矩阵M,矩阵M的每个元素表示从yi变化到yi+1的可能性,实现利用此前标注过的信息对一个新的位置进行标注。
式中,表示是CRF模型中状态转移矩阵分数值,为词xi分类到yi标签的分数值。可知BiLSTM-CRF模型的分数值是由两个部分组成,一部分分值是由BiLSTM的输出Pi决定,另外一部分则取决于CRF的状态转移矩阵M,最终使用Softmax函数进行归一化处理,得到结果最后将获得模型的概率公式(5)。
上式中,P(y|x)为输入序列x分类到标签序列y的概率值,y′代表一种可能的标签序列,y′∈Y(x),Y(x)表示所有可能的标签序列,∑y′∈Y(x)exp(s(x,y′))表示所有标签序列得分之和,输出的概率值最大的y即为最终的标签序列。
BiLSTM-CRF模型通过BiLSTM模型实现对文本序列数据全局特征的提取,后接CRF模型学习标签之间的标注规则进行计算得分,并输出最佳的标签序列。
(2)基于BiGRU-Attention的微网调度关系识别模型
实体间关系抽取(Named Entity Relation Extraction,NRE)是在命名实体识别的基础上判断实体间是否存在预定义的关系,从而构成一系列三元组知识。本发明定义的部分实体间关系类别如表3所示。
表3微电网调度领域部分关系类别
本发明在BiLSTM模型的基础上,使用参数量更小的双向门控循环(BidirectionalGated Recurrent Unit Network,BiGRU)结构以提高模型训练速度并引入了Attention机制,找到对关系分类起重要作用的字,学习得到一个权重,通过赋予这些字更高的权重以提高他们的重要性,从而提高关系抽取的准确率。BiGRU-Attention模型结构如图3所示,其中包括:
1)输入层:将包含实体标记信息的语句使用训练好的向量矩阵进行映射,得到向量序列x,x={x1,x2,...,xn},其中xi表示第i个词的输入向量。将向量序列作为BiGRU网络的初始输入值。
2)BiGRU层:BiGRU层由双向GRU组成,前向GRU从左到右对语义信息进行建模,后向GRU从右到左对语义信息进行建模,将前向和后向拼接得到每个词语在当前时刻抽取到的特征编码ht=[hR;hL],计算公式同式(3),其原理与本节第一部分BiLSTM原理类同,此处不再赘述。
3)注意力层:增加注意力层在于使用Attention对每个词分配不同的权重,以反应词对关系分类的不同影响,最后将得到的注意力矩阵连接起来。通过式(6)计算出注意力层的输出表示。
式中,N表示句子长度,ht表示当前时刻外部状态,at表示t时刻下的权重,at由该时刻的编码向量与最近时刻的编码向量计算得到,其计算公式如下:
h′t=tanh(W′ht+bt) (8)
式中,Wt为权重矩阵,bt为偏置项。
4)输出层:包含全连接层与Sofimax层,将注意力层的输出Ct输入到全连接层模块中,该层的输出向量维度等于关系的数量,每一维度对应第i个关系的预测分值;将全连接层模块学习的向量输入到Softmax层预测类别关系的概率。定义y为最终求解的关系预测结果。
y(y|x)=softmax(WsCt+bs) (9)
y=arg maxyy(y|x) (10)
式中,y为关系类别,Ws为分类器学习的权重参数,bs为分类器偏置项。
(3)知识融合
由于微网调度领域知识来源广泛,经过知识抽取得到的信息需要经过知识融合进行实体消歧和共指消解处理。其中,实体消歧指的是对可能存在多种含义的实体进行区分;共指消解是指将具有相同含义和指代的名词和代词在知识图谱中进行合并。由于电力行业有明确的术语规范,实体歧义的问题基本不存在,因此本发明重点考虑共指问题的解决。主要任务是查找出所有表示实体/属性的词当中的同义词,首先利用正则表达式[\u4e00-\u9fa5])(、)?(或)?(与)?(和)?[\u4e00-\u9fa5]+找出存在名词缺省的句子与实体的结尾,再根据命名数据实体识别的结果确定缺省数据实体的边界后补全数据实体;其次将所有表示实体/属性的词按照动词、名词、形容词等词性划分为多个集合,分别对每个集合进行同义词识别;然后为刻画表示实体/属性的词间的语义相似度,采用word2vec方法对缺陷记录语料进行训练,将词向量维度选为100维,得到语料中所有词对应的词向量,再通过计算词向量之间的余弦相似度,判断表示实体/属性的词间的相似程度;再次删除在同一条缺陷记录中出现过的余弦相似度高的词对,从而剔除邻近词对,筛选出同位词对;最后形成同义词表。将含有相同词的同位词对合并为一个同义词集,从而形成若干个同义词集,并在每个集合中选择一个词,作为集合内所有词的标准化名称,最后以同义词表的形式来表示同义词集。
(4)知识存储
目前知识图谱可以存储在多种数据库中,包括基于原生数据库,关系型数据库和非关系型数据库等。由于图数据库在知识图谱中有新增实体或关系时可以减少添加新表或者字段等工作,大大提高工作效率、提升检索性能,因此本发明选用Neo4j图数据库进行知识图谱存储。
本发明构建的微电网调度领域知识图谱在Neo4j图数据库中共有实体157个,关系499条,如图4所示为实体及关系在Neo4j图数据库中的图形化展示。
2.基于知识图谱的微电网调度策略检索***
(1)基于知识图谱的微电网调度策略检索***架构
基于微电网调度领域知识图谱的本体架构,利用BiLSTM-CRF模型实现微电网调度实体识别及属性抽取,根据微电网调度特征,利用BiGRU-Attention模型进行关系抽取及分类,经实体链接与知识补全后,实现微电网调度领域知识图谱构建。如图5所示微电网调度策略检索***架构,利用Neo4j对微电网调度领域知识图谱及其关联数据进行存储,并采用调度***实时数据对实体、关系、属性值等信息进行更新。
当各微电网实时运行数据上传至检索***时,通过信息解析、微网状态判断、调度策略检索3大模块进行处置给出相应的调度策略。在处置过程中,机器需要对调度人员提示筛选后的主要信息、隐含知识、操作原则与特殊要求等内容。调度处置流程结束后,自动化提取调度事件的结构化知识并汇入案例知识库,用于后续案例记录、查阅和推理。
其中,信息解析模块将对各微网运行数据进行计算与逻辑判断,并将判断结果与微电网调度领域知识图谱中的实体及关系进行匹配;在微网状态判断模块,根据调控目标、储能情况等上一模块实体匹配的结果对此微网的状态进行判断和确认,生成检索图;最后通过调度策略检索模块,利用知识计算引擎寻找微电网调度领域知识图谱中相匹配的知识路径,得出最终结果。
(2)基于子图匹配的微电网调度策略检索方法
本发明提出一种基于子图匹配的微电网调度策略检索算法。根据子微网运行数据计算判断目前所处状态,将其作为调度策略的关键词进行检索,利用知识图谱技术和子图匹配算法,通过对关键信息进行分析,可以得出该情况下此微电网的调度策略,能提高调度效率和准确性,为复杂微电网调度提供智能化的信息服务。本发明的微电网调度策略检索算法共分为4个步骤,
步骤1:由微电网当前运行数据对应状态生成检索图Q。
步骤2:将检索图Q划分为多个子检索图。
步骤3:在知识图谱中执行步骤2中的子检索,获得所有子检索的结果。
步骤4:连接步骤3得到的子检索的结果,生成匹配子图,即最终检索结果。
其中,检索图Q=(EQ,RQ),包含点集合EQ和边集合RQ。每一个检索点都对应一个具体的实体描述,边表示连接任意两个点(实体)之间的关系。将图谱G=(EG,RG)中满足映射函数F的子图定义为匹配子图φ(Q)。映射函数F指知识图谱与子图之间元素的相互对应关系,即φ(Q)将Q中的点EQ映射到G中的点φ(EG),将Q中的边RQ映射到G中的边φ(RG)。
例如,在并网运行状态下当前群发电量大于群用电量,其中微电网A的发电量为175kW·h,负荷功率为200kW·h,SOC为0.65大于SOCmin(取值0.2),所以经过信息解析模块后,形成检索图如图6所示。
1)子检索图划分
将检索图划分为多个子检索图,使单一的子检索图具有顶点数目少、边特征单一的特点,进而达到降低检索难度的目的。本发明中将子图检索划分为两层树结构,每个子检索图包含一个根节点、一层子节点和边。如图7所示,采用上述规则将检索图QA划分为子检索图QA1、QA2、QA3、QA4。
通过节点、边的匹配就能得到子检索图QA1、QA2、QA3、QA4的检索结果,进而得到QA的检索结果。
2)子检索执行
首先,把子检索图分解成最小生成树,在对边进行匹配时应优先匹配最小生成树的边;然后选择根节点作为优先匹配过滤能力强的顶点;接着在传统VF2图匹配算法的基础上,结合图的标签特征进行子检索执行。其流程图如图8所示。
3)子检索结果的连接
最后把所有子检索的结果链接到一起,生成匹配子图。以检索上例的调度策略为例,首先分别执行QA2、QA3、QA4子检索,得到QA2、QA3、QA4三个子检索的结果;此后连接所有子检索结果。检索结果利用哈希连接进行,当且仅当Qi和Qj两个子检索有共同的顶点时才能够实现Qi和Qj的检索结果连接。QA2、QA3、QA4有共同节点“状态52”,其检索结果连接如图9(上)所示。最后来执行QA1的子检索,经连接后得到QA的检索结果,如图9(下)所示。
子检索结果连接的基本过程如下。
步骤1:将子检索结果集C初始化,对子检索划分的Qi∈(Q1、Q2……Qn)按照子检索执行方法执行所有的Qi,得到所有子检索的结果。
步骤2:对n个子检索的检索结果进行哈希连接,保存匹配度满足阈值γ的结果到C中,并将结果按匹配度排序处理。
步骤3:返回检索结果集C,完成检索。
实施例:
以《用于主网削峰填谷调度的风/光/储微电网控制策略》(中国电力,2013,46(2),87-91)中的数字、表格以及文本为实验对象,经知识图谱实体识别与关系抽取后转化为统一、规范的“实体/属性-关系-实体/属性”三元组,按照本发明所述的***和方法最终构建的微电网调度领域知识图谱中含有实体/属性157个,关系499条。
采用LSI(Latent Semantic Indexing,潜在语义索引),LDA(LatentDirichletAllocation,三层贝叶斯概率模型)和本发明知识图谱模型分别检索1000条调度记录在调度手册的匹配记录,知识图谱模型检索准确率91.54%,相对于LSI模型准确率35.87%和LDA模型准确率40.27%有明显的优势。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (8)
1.基于知识图谱的微电网调度策略智能检索***,其特征在于,包括信息解析模块、微网状态判断模块、微电网调度领域知识图谱和调度策略检索模块;
所述信息解析模块对上传至检索***的各微电网实时运行数据进行计算与逻辑判断,并将判断结果与微电网调度领域知识图谱中的实体及关系进行匹配;
所述微网状态判断模块根据信息解析模块实体匹配结果对需进行检索的微电网的状态进行判断和确认,生成检索图;上述匹配结果包括调控目标、储能情况;
所述调度策略检索模块利用知识计算引擎寻找微电网调度领域知识图谱中相匹配的知识路径,得出最终检索结果;
所述微电网调度领域知识图谱中的数据包括经解析的结构化数据、经过标注的半结构化数据和非结构化数据;其中结构化数据来自电网调度***;
经过标注的半结构化数据和非结构化数据分为数据实体、数据实体关系,上述半结构化数据和非结构化数据具体包括微电网运行方式、微电网调度策略、微电网调控目标和调度原则。
2.如权利要求1所述的基于知识图谱的微电网调度策略智能检索***,其特征在于:经解析的结构化数据存入微电网调度领域知识图谱的步骤为:
步骤1、连接数据库进行初始化操作;
步骤2、构造SQL语句并进行数据查询;
步骤3、数据类型、结构、属性转换;
步骤4、判断数据是否存在于数据库中,如果存在返回步骤2,否则进行步骤5的数据存储;
步骤5、构建数据存储语句,并结合SQL语句抽取的信息确定上下位关系,创建节点;
步骤6、判断SQL语句是否查询完毕,如果查询完毕,退出抽取流程,如果没有则返回步骤2,继续构建SQL语句进行数据查询;
所述结构化数据包括:微电网负荷数据、风/光可再生能源发电功率和储能荷电状态;
所述数据库为Neo4j数据库;所述数据存储语句为为Neo4j数据存储语句。
3.如权利要求1所述的基于知识图谱的微电网调度策略智能检索***,其特征在于:所述数据实体使用BiLSTM-CRF模型进行识别和属性抽取,具体方法为:
步骤1、将微电网调度策略文本使用jieba进行分词,然后使用gensim工具包的word2vec进行训练得到词向量矩阵,将待识别文本使用上述词向量矩阵进行映射,形成词向量序列x,x={x1,x2,...,xn},其中xt表示第t个词的输入向量,式中t=1,2,3…n;
步骤2、将步骤1得到的词向量序列x作为前向LSTM层的输入,x的逆序列作为后向LSTM层的输入;在t时刻,前向LSTM层输出的隐状态序列hR与后向LSTM层输出的隐状态序列hL按位置进行拼接ht=[hR;hL]∈Rm,得到完整的隐状态序列(h1,h2,…,hn)∈Rn×m,m是隐状态向量维度,如下式所示:
hR=f(Wxt+Uht-1+b) (1);
hL=f(Wxt+Uht+1+b) (2);
式中,f()为非线性激活函数,W=(w1,w2,...,wn)T为状态-输入权重矩阵,U=(u1,u2,...,un)T为状态-状态权重矩阵,xt为当前时刻的输入,为向量拼接操作,ht为t时刻拼接后的完整隐状态序列,表示当前时刻外部状态,ht-1为上一时刻的外部状态,ht+1为下一时刻的外部状态,b为偏置值;
步骤3、将完整向量序列传递至输出层,将m维向量映射至k维向量,k代表标注集中所有的标签数,映射成n×k维特征矩阵P并输出,P=(p1,p2,...,pn)∈Rn×k,则pi∈Rk的每一位Pij为词xi分类到第j个标签的打分值;
步骤4、将步骤3得到的矩阵P输入至CRF模型,CRF模型学习标签之间的标注规则进行计算得分,并输出最佳的标签序列;如下式所示:
上式中;s(x,y)为输入序列x={x1,x2,...,xn}经CRF层预测标签等于标签序列y的分数,标签序列y={y1,y2,...,yn};为CRF模型中状态转移矩阵分数值,表示状态转移矩阵M中各元素从yi变化到yi+1的可能性;为词xi分类到yi标签的分数值;
将上式(4)使用Softmax函数进行归一化处理,得到模型概率公式,如下式(5)所示:
上式中,P(y|x)为输入序列x分类到标签序列y的概率值,y'代表一种可能的标签序列,y'∈Y(x),Y(x)表示所有可能的标签序列,∑y'∈Y(x)exp(s(x,y'))表示所有标签序列得分之和,输出的概率值最大的y即为最终的标签序列。
4.如权利要求3所述的基于知识图谱的微电网调度策略智能检索***,其特征在于:所述数据实体关系使用BiGRU-Attention模型进行数据实体关系抽取及分类,具体方法为:
步骤1、将微电网调度策略文本使用jieba进行分词,然后使用gensim工具包的word2vec进行训练得到词向量矩阵,将待识别文本使用上述词向量矩阵进行映射,得到词向量序列x,x={x1,x2,...,xn},其中xi表示第i个词的输入向量,式中i=1,2,3…n;
步骤2、将步骤1得到的词向量序列x作为前向GRU层的输入,x的逆序列作为后向GRU层的输入;在t时刻,前向GRU层输出的隐状态序列hR与后向GRU层输出的隐状态序列hL按位置进行拼接ht=[hR;hL]∈Rm,得到完整的隐状态序列(h1,h2,…,hn)∈Rn×m,m是隐状态向量维度,如式(1)-(3)所示;
步骤3、在注意力层中对每个词分配不同的权重,将得到的注意力矩阵连接起来,计算得出注意力层的输出表示Ct,如下式(6)所示:
上式中,N表示句子长度,ht表示当前时刻外部状态,at表示t时刻下的权重,Wt为权重矩阵,bt为偏置项;
步骤4、将步骤3得到的Ct输入到输出层的全连接层模块中,然后将全连接层模块学习的向量输入到Softmax层预测类别关系的概率,如下式(7)、(8)所示:
y(y|x)=soft max(WsCt+bs) (7);
y=arg maxyy(y|x) (8);
上式中:y为关系类别,即为最终求解的关系预测结果;Ws为分类器学习的权重参数;bs为分类器偏置项。
5.如权利要求4所述的基于知识图谱的微电网调度策略智能检索***,其特征在于:所述微电网调度领域知识图谱的构建方法为:
首先利用BiLSTM-CRF模型实现微电网调度实体识别及属性抽取;其次根据微电网调度特征,利用BiGRU-Attention模型进行关系抽取及分类,经数据实体链接与知识融合后,得到微电网调度领域知识图谱并存储在Neo4j图数据库中;
上述知识融合指实体消除歧义和共指消解;其中,共指消解的主要任务是查找出所有表示实体/属性的词当中的同义词,其过程为:
步骤1、首先利用正则表达式找出存在名词缺省的句子与实体的结尾,再根据命名数据实体识别的结果确定缺省数据实体的边界后补全数据实体,如下式(9):
[\u4e00-\u9fa5])(、)?(或)?(与)?(和)?[\u4e00-\u9fa5]+ (9);
步骤2、按词性分类:将所有表示实体/属性的词按照动词、名词、形容词等词性划分为多个集合,分别对每个集合进行同义词识别;
步骤3、向量化:为刻画表示实体/属性的词间的语义相似度,采用word2vec方法对缺陷记录语料进行训练,将词向量维度选为100维,得到语料中所有词对应的词向量,再通过计算词向量之间的余弦相似度,判断表示实体/属性的词间的相似程度;
步骤4、筛选词对:删除在同一条缺陷记录中出现过的余弦相似度高的词对,从而剔除邻近词对,筛选出同位词对;
步骤5、形成同义词表:将含有相同词的同位词对合并为一个同义词集,从而形成若干个同义词集,并在每个集合中选择一个词,作为集合内所有词的标准化名称,最后以同义词表的形式来表示同义词集。
6.基于知识图谱的微电网调度策略智能检索方法,其特征在于,包括以下步骤:
步骤1:由微电网当前运行数据对应状态生成检索图Q;
步骤2:将检索图Q划分为多个子检索图;
步骤3:在知识图谱中执行步骤2中的子检索,获得所有子检索的结果;
步骤4:连接步骤3得到的子检索的结果,生成匹配子图,即最终检索结果;
其中,Q=(EQ,RQ),包含节点的集合EQ和边的集合RQ;上述EQ中的节点对应实体,RQ中的边表示任意两个节点之间的关系;
将知识图谱G=(EG,RG)中满足映射函数F的子图定义为匹配子图φ(Q),即φ(Q)将Q中的节点EQ映射到G中的节点φ(EG),将Q中的边RQ映射到G中的边φ(RG);上述映射函数F指知识图谱与匹配子图之间元素的相互对应关系;上述EG为知识图谱G中节点的集合,RG为知识图谱G中边的集合;上述EG中的节点对应实体,RG中的边表示任意两个节点之间的关系。
7.如权利要求6所述的基于知识图谱的微电网调度策略智能检索方法,其特征在于:
步骤2所述划分子检索的步骤为:将检索图Q划分为两层树结构,每个子检索图包含一个根节点、一层子节点和边;
步骤3所述在知识图谱中执行子检索,具体为:把子检索图分解成最小生成树,在对边进行匹配时优先匹配最小生成树的边;选择根节点作为优先匹配过滤能力强的顶点;在VF2图匹配算法的基础上,结合图的标签特征进行子检索执行。
8.如权利要求6所述的基于知识图谱的微电网调度策略智能检索方法,其特征在于:所述步骤4具体为:
步骤4-1、将子检索结果集C初始化,对子检索划分的Qi∈(Q1、Q2……Qn)按照子检索执行方法执行所有的Qi,得到所有子检索的结果;
步骤4-2、对n个子检索的检索结果进行哈希连接,保存匹配度满足阈值γ的结果到C中,并将结果按匹配度排序处理;
步骤4-3、返回检索结果集C,完成检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298737.7A CN116127084A (zh) | 2022-10-21 | 2022-10-21 | 基于知识图谱的微电网调度策略智能检索***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298737.7A CN116127084A (zh) | 2022-10-21 | 2022-10-21 | 基于知识图谱的微电网调度策略智能检索***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127084A true CN116127084A (zh) | 2023-05-16 |
Family
ID=86306898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211298737.7A Pending CN116127084A (zh) | 2022-10-21 | 2022-10-21 | 基于知识图谱的微电网调度策略智能检索***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127084A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116401369A (zh) * | 2023-06-07 | 2023-07-07 | 佰墨思(成都)数字技术有限公司 | 用于生物制品生产术语的实体识别及分类方法 |
CN116667467A (zh) * | 2023-08-01 | 2023-08-29 | 齐齐哈尔市君威节能科技有限公司 | 一种智控磁悬浮微风发电增容䃼偿装置 |
CN116703075A (zh) * | 2023-05-29 | 2023-09-05 | 中国南方电网有限责任公司 | 电力调度决策方法、装置、电子设备及存储介质 |
CN116821712A (zh) * | 2023-08-25 | 2023-09-29 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
-
2022
- 2022-10-21 CN CN202211298737.7A patent/CN116127084A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116703075A (zh) * | 2023-05-29 | 2023-09-05 | 中国南方电网有限责任公司 | 电力调度决策方法、装置、电子设备及存储介质 |
CN116703075B (zh) * | 2023-05-29 | 2024-04-16 | 中国南方电网有限责任公司 | 电力调度决策方法、装置、电子设备及存储介质 |
CN116401369A (zh) * | 2023-06-07 | 2023-07-07 | 佰墨思(成都)数字技术有限公司 | 用于生物制品生产术语的实体识别及分类方法 |
CN116401369B (zh) * | 2023-06-07 | 2023-08-11 | 佰墨思(成都)数字技术有限公司 | 用于生物制品生产术语的实体识别及分类方法 |
CN116667467A (zh) * | 2023-08-01 | 2023-08-29 | 齐齐哈尔市君威节能科技有限公司 | 一种智控磁悬浮微风发电增容䃼偿装置 |
CN116667467B (zh) * | 2023-08-01 | 2023-10-13 | 齐齐哈尔市君威节能科技有限公司 | 一种智控磁悬浮微风发电增容䃼偿装置 |
CN116821712A (zh) * | 2023-08-25 | 2023-09-29 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
CN116821712B (zh) * | 2023-08-25 | 2023-12-19 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347268B (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN103544242B (zh) | 面向微博的情感实体搜索*** | |
CN111428054A (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
CN111339313A (zh) | 一种基于多模态融合的知识库构建方法 | |
CN116127084A (zh) | 基于知识图谱的微电网调度策略智能检索***及方法 | |
CN113254659A (zh) | 一种基于知识图谱技术的档案研判方法及*** | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及*** | |
CN112306494A (zh) | 一种基于卷积和循环神经网络的代码分类及聚类方法 | |
CN112597285B (zh) | 一种基于知识图谱的人机交互方法及*** | |
US20210350125A1 (en) | System for searching natural language documents | |
CN112463981A (zh) | 一种基于深度学习的企业内部经营管理风险识别提取方法及*** | |
CN116822625A (zh) | 一种发散式关联的风机设备运检知识图谱构建及检索方法 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空***知识图谱构建方法 | |
CN115269865A (zh) | 一种面向辅助诊断的知识图谱构建方法 | |
CN105335510A (zh) | 文本数据高效搜索方法 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN116340530A (zh) | 基于机械知识图谱的智能设计方法 | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN113064999A (zh) | 基于it设备运维的知识图谱构建算法、***、设备及介质 | |
CN117149974A (zh) | 一种子图检索优化的知识图谱问答方法 | |
CN105160046A (zh) | 基于文本的数据检索方法 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |