CN113822599A - 一种基于分类树融合技术的电力行业政策管理方法 - Google Patents
一种基于分类树融合技术的电力行业政策管理方法 Download PDFInfo
- Publication number
- CN113822599A CN113822599A CN202111256627.XA CN202111256627A CN113822599A CN 113822599 A CN113822599 A CN 113822599A CN 202111256627 A CN202111256627 A CN 202111256627A CN 113822599 A CN113822599 A CN 113822599A
- Authority
- CN
- China
- Prior art keywords
- power industry
- information
- industry policy
- word
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 31
- 238000005516 engineering process Methods 0.000 title claims abstract description 26
- 230000004927 fusion Effects 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 50
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000006872 improvement Effects 0.000 abstract description 5
- 230000009466 transformation Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 5
- 230000005611 electricity Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于分类树融合技术的电力行业政策管理方法,包括:获取电力行业政策文本并进行数据预处理;对数据预处理后的电力行业政策文本信息进行编码;设置电力行业政策文本中不同语句的信息注意力权重;基于电力行业政策文本信息的编码与注意力权重,对电力行业政策文本进行类别划分;对不同类型的电力行业政策文本进行信息抽取;将抽取到的不同类别信息进行融合组装,实现电力行业政策管理。本发明基于分类树融合技术进行电力行业政策管理,可以满足电力行业数字化、智慧化转型与电力行业政策高效统一管理需要,实现对电力行业政策的分类管理,提升电力行业政策的管理效率,支撑电力行业相关业务的提质增效。
Description
技术领域
本发明属于电力行业信息感知与识别技术领域,涉及一种基于分类树融合技术的电力行业政策管理方法。
背景技术
电力行业是国民经济的基础产业、支柱产业和战略产业,而发展电力信息化、智能电网及电力物联网等产业是实现我国能源生产、消费、技术和体制革命的重要手段。
电力行业政策与一般政策不同的是,电力行业政策的功能更为复杂,是国民经济体系的重要组成部分,是国家进行经济调整的一个重要手段。电力行业政策的类别多且复杂,例如电价政策是国家进行经济调节的重要手段,不同类别的电价也经常根据不同时期经济政策的变化而调整。因此,电力行业政策执行到位、准确,避免企业正当效益流失,同时确保用电客户的用电准确性,是电力企业的一项重点工作。
当前自然语言处理技术已经逐渐成熟,但是即使在电力行业大力倡导智慧化与数字化转型的背景下,自然语言处理技术在电力行业,尤其是在电力行业政策管理领域的应用依然尚显缺乏。
因此,综合考虑电力行业数字化与智慧化转型需求与电力行业政策统一管理的需要,亟需一种基于自然语言处理的高效管理电力行业政策的技术方法,从而支撑电力行业政策的管理与实施。
发明内容
为解决现有技术中的不足,本申请提供一种基于分类树融合技术的电力行业政策管理方法。
为了实现上述目标,本发明采用如下技术方案:
一种基于分类树融合技术的电力行业政策管理方法,包括以下步骤:
步骤1:获取电力行业政策文本并进行数据预处理;
步骤2:对数据预处理后的电力行业政策文本信息进行编码;
步骤3:设置电力行业政策文本中不同语句的信息注意力权重;
步骤4:基于电力行业政策文本信息的编码与注意力权重,采用分类树融合技术对电力行业政策文本进行类别划分;
步骤5:对不同类型的电力行业政策文本进行三元组信息抽取;
步骤6:基于实体对齐算法,将抽取到的不同类别信息进行融合组装,实现电力行业政策管理。
本发明进一步包括以下优选方案:
优选地,步骤1具体包括:
步骤1.1:获取电力行业政策文本,并使用jieba分词工具对电力行业政策文本进行分词,通过停用词词表删除电力行业政策文本中的停用词;
步骤1.2:经步骤1.1预处理后,语句中的每个词语通过词表获得该词语所在词表中位置并通过词嵌入矩阵将每个词语映射为词嵌入矩阵的中的词语向量;
步骤1.3:基于词语向量,卷积神经网络提取电力行业政策文本中语句的信息表征。
优选地,步骤1.3具体包括:
步骤1.3.1:将电力行业政策文本语句中每个词语的词语向量进行矩阵拼接组合,构建电力行业政策文本语句的句向量矩阵;
步骤1.3.2:针对句向量矩阵,在卷积层中设置多个大小不同的卷积核,来提取不同词语之间共有的信息表征;
步骤1.3.3:通过K-Max池化和Padding的方法,从不同长度的语句提取出固定长度的信息表征。
优选地,步骤2具体为:
将每个语句的信息表征按照电力行业政策文本中语句的顺序依次输入到BiLSTM网络或者GRU网络中,进行电力行业政策文本信息编码。
优选地,步骤3具体为:
使用Attention注意力机制设置电力行业政策文本中不同语句的信息注意力权重,并输出加入注意力权重信息的电力行业政策文本向量编码。
优选地,步骤4具体为:
将加入注意力权重信息的电力行业政策文本向量编码输入到Softmax分类器中,得到电力行业政策文本所属的类别one-hot向量表征,最终实现电力行业政策文本分类。
优选地,步骤5具体包括:
步骤5.1:基于开放域三元组抽取工具Open-IE,对电力行业政策文本进行三元组信息抽取:首先抽取不同类型的电力行业政策所有可能的Subject和Predicate,然后判断Subject和Predicate之间的关联,最后抽取Subject和Predicate对应的Object;
步骤5.2:基于封闭域三元组抽取工具Close-IE,对电力行业政策文本进行三元组信息抽取:先抽取Subject和Object,然后再对Subject和Object之间的关系进行分类。
优选地,步骤5.1具体包括:
步骤5.1.1:编码层Encoder-Layer获取语句的上下文信息;
步骤5.1.2:实体抽取层EntityRelation-Layer抽取所有可能的Subject和Predicate;
步骤5.1.3:MultiHead-Layer找出所有可能存在关系的Subject和Predicate;
步骤5.1.4:Object-Layer根据指定的Subject和Predicate抽取出对应的Object;
步骤5.1.5:Triple-Result依据步骤5.1.1-步骤5.1.4,抽取出语句中最终(Subject,predicate,Object)集合。
优选地,步骤5.1.2中,采用Span的方式,分别抽取Subject和Predicate的开始位置和结束位置,公式如下:
Pi start_s=sigmoid(Wstarthi+bstart)
Pi end_s=sigmoid(Wendhi+bend)
Pi start_p=sigmoid(Wstarthi+bstart)
Pi end_p=sigmoid(Wendhi+bend)
其中Pi start_s表示语句中第i个token是Subject的开始位置的概率,Pi end_s表示语句中第i个token是Subject的结束位置的概率,Pi start_p表示语句中第i个token是Predicate的开始位置的概率,Pi end_p表示语句中第i个token是Predicate的结束位置的概率,hi表示语句中第i个token通过Bert之后的编码,W(·)表示模型待训练的权重,b(·)为偏执;
步骤5.1.3采用的公式如下:
Pi,j=sigmoid(hi,hj)
其中,hi表示语句中第i个特征的编码,表示为Subject的特征,hj语句中第j个特征的编码,表示Predicate的特征,Pi,j表示(hi,hj)可以构成关系的概率;
步骤5.1.4采用的公式如下:
Pi start_o=sigmoid(Wstart_o(hi,Vs,Vp)+bstart_o)
Pi end_o=sigmoid(Wend_o(hi,Vs,Vp)+bend_o)
其中Pi start_o表示语句中第i个token是Object的开始位置的概率,Pi end_o表示语句中第i个token是Object的结束位置的概率,Vs表示表示Subject的首尾特征之和,Vp表示Predicate的首尾特征之和。
优选地,步骤5.2具体包括:
步骤5.2.1:BERT编码层BERT-Layer获取语句的上下文信息;
步骤5.2.2:实体抽取层Entity-Layer抽取所有可能的Subject和Oubject;
步骤5.2.3:MultiHead-Layer找出语句中所有不同token之间可能存在的关系;
步骤5.2.4:Triple-Result依据步骤5.2.1-步骤5.2.3,抽取出语句中最终(Subject,predicate,Object)集合。
本申请所达到的有益效果:
本发明基于分类树融合技术并提出一种新的开放域三元组信息抽取方式,实现电力行业政策管理,可以满足电力行业数字化、智慧化转型与电力行业政策高效统一管理需要,实现对电力行业政策的分类管理,提升电力行业政策的管理效率,支撑电力行业相关业务的提质增效。
附图说明
图1为本发明一种基于分类树融合技术的电力行业政策管理方法的流程图;
图2为本发明实施例中电力行业政策文本分类器示意图;
图3为本发明实施例中Open-IE开放域信息抽取示意图;
图4为本发明实施例中Close-IE开放域信息抽取示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明的一种基于分类树融合技术的电力行业政策管理方法,包括以下步骤:
步骤1:获取电力行业政策文本并进行数据预处理,具体包括:
步骤1.1:获取电力行业政策文本并进行数据预处理:
获取电力行业政策文本,并使用jieba分词工具对电力行业政策文本进行分词,通过停用词词表删除电力行业政策文本中的停用词;
比如:对于“今年江苏省的火力电价预计将有所调整”这句话,通过分词和去除停用词后将得到“今年”、“江苏省”、“火力”、“电价”、“预计”、“将”、“有所调整”这些词语。
步骤1.2:词嵌入:
如图2中的词嵌入模块所示,将一篇电力行业政策文档中的多个语句依次输入词嵌入层中,语句中的每个词语通过词表获得该词语所在词表中位置并通过词嵌入矩阵将每个词语映射为词嵌入矩阵的中的词语向量;
词表是所有可能的词语集合,可以查找到某个词所在词表的位置,比如“今年”这个词在词表中的位置是156。
词嵌入矩阵是一个维度为[词表大小,词向量长度大小]的二维矩阵,输入词在词表的位置就可以通过词嵌入矩阵得到该词对应的词语向量。
词语向量是一个固定大小的向量,每一个词表中的词都对应不同的词语向量。
步骤1.3:卷积神经网络提取语句表征信息:
如图2中的CNN模块所示,使用卷积神经网络提取电力行业政策文本中语句的信息表征,具体包括:
步骤1.3.1:将电力行业政策文本语句中每个词语的词语向量进行矩阵拼接组合,构建电力行业政策文本语句的句向量矩阵;
同样以“今年江苏省的火力电价预计将有所调整”这句话举例。
通过步骤1.2可以得到这句话包含的7个词语的词向量,然后将这7个词向量进行拼接组合,得到这个语句的句向量矩阵。
句向量矩阵是一个维度为[语句长度,词向量维度]的二维矩阵。
步骤1.3.2:在卷积层中设置多个大小不同的卷积核,来提取不同词语之间共有的信息表征;
针对句向量矩阵,设置5种维度大小分别为[1,词向量维度]、[2,词向量维度]、[3,词向量维度]、[4,词向量维度]、[5,词向量维度]的卷积核,且每种卷积核的个数分别为5个。以维度大小为[3,词向量维度]的卷积核为例,该卷积核可以提取3个词语之间的信息表征,因此通过设置多个不同大小的卷积核可以挖掘更多词语之间的信息。
步骤1.3.3:在池化层中通过K-Max池化层和Padding,从不同长度的语句提取出固定长度的信息表征。
比如对于句向量矩阵分别为[7,词向量维度](7为语句切分后的长度)和[18,768](18为语句切分后的长度)的两个语句;
通过K-Max池化和Padding后可以将这两个句向量矩阵压缩为2个维度相同的句向量,比如都压缩成维度为[1,200]的句向量。
步骤2:对数据预处理后的电力行业政策文本信息进行编码,具体为:
BiLSTM网络或者GRU网络进行电力行业政策文本信息编码:
BiLSTM网络或者GRU网络属于序列建模,这里BiLSTM网络的每一个序列单元都输出它的隐藏状态h。
假设对一篇描述火力发电政策文本进信息编码,假设文档中最多有50个语句,每一个语句都通过卷积网络得到该语句的句向量(长度为200)。
然后通过BiLSTM对这50个长度为200的句向量进行序列建模,输出所有序列单元的向量表征。
输出的向量具体维度大小为[50,200]。(其中,50代表BiLSTM网络的序列单元个数,200代表BiLSTM每个序列单元的输出向量长度)
如图2中的BiLSTM网络所示,BiLSTM网络可以有效捕捉较长距离的信息依赖关系,因此从电力行业政策文本中每一个语句提取出该语句固定长度的信息表征后,将每个语句的信息表征按照电力行业政策文本中语句的顺序依次输入到BiLSTM网络中,进行电力行业政策文本信息编码。
BiLSTM网络或者GRU网络不需要预训练,输入表征,即可输出编码。
步骤3:设置电力行业政策文本中不同语句的信息注意力权重,具体为:
如图2中的注意力机制所示,使用Attention注意力机制设置电力行业政策文本中不同语句的信息注意力权重,并输出加入注意力权重信息的电力行业政策文本向量编码。
Attention的输入是BiLSTM网络的输出,在Attention机制中,首先将BiLSTM网络的输出hi,t输入全连接层得到attention层的隐层表征ui,t。
然后通过softmax计算得到每句话在文档中对应的信息注意力权重αi,t。
最后将权重和BiLSTM网络的输出进行加权求和,得到语句加权后的向量表征si。
ui,t=tanh(Wwhi,t+bw)
步骤4:基于电力行业政策文本信息的编码与注意力权重,采用分类树融合技术对电力行业政策文本进行类别划分,具体为:
通过Softmax分类器对电力行业政策文本进行类别划分:
如图2中的softmax分类器模块所示,将加入注意力权重信息的电力行业政策文本向量编码输入到Softmax分类器中,得到电力行业政策文本所属的类别one-hot向量表征,最终实现电力行业政策文本分类。
步骤5:对不同类型的电力行业政策文本进行三元组信息抽取,具体包括:
步骤5.1:基于开放域三元组抽取工具Open-IE,对电力行业政策文本进行三元组信息抽取,具体结构如图3所示;
由于当前缺少针对开放域三元组信息抽取的相关方法。
因此,提出一种新的开放域三元组信息抽取方式。
该方法首先抽取不同类型的电力行业政策所有可能的Subject和Predicate,然后判断Subject和Predicate之间的关联,最后抽取Subject和Predicate对应的Object。
步骤5.1具体包括:
步骤5.1.1:Encoder-Layer:
由于BiLSTM网络在三元组抽取任务上的文本表征能力较弱,整体效果不佳。因此与步骤2选择BiLSTM网络作为编码层不同,三元组抽取任务选择BERT作为编码层,可以更好的获取语句的上下文信息。
在图3的Encoder-Layer层中,为了进一步提高模型性能,采用BERT作为特征提取层,以便更好的获取语句的上下文信息。
步骤5.1.2EntityRelation-Layer:
在图3的实体抽取层SubPre-Layer中,采用Span的方式,分别抽取Subject和Predicate的开始位置和结束位置。计算公式如下:
Pi start_s=sigmoid(Wstarthi+bstart)
Pi end_s=sigmoid(Wendhi+bend)
Pi start_p=sigmoid(Wstarthi+bstart)
Pi end_p=sigmoid(Wendhi+bend)
其中Pi start_s表示语句中第i个token是Subject的开始位置的概率,Pi end_s表示语句中第i个token是Subject的结束位置的概率,Pi start_p表示语句中第i个token是Predicate的开始位置的概率,Pi end_p表示语句中第i个token是Predicate的结束位置的概率,hi表示语句中第i个token通过Bert之后的编码,W(·)表示模型待训练的权重,b(·)为偏执。
步骤5.1.3:MultiHead-Layer:
在图3的MultiHead-Layer中,语句中每个token都有可能和其他token构成关系,该层会找出所有可能存在关系的Subject和Predicate,计算公式如下:
Pi,j=sigmoid(hi,hj)
其中,hi表示语句中第i个特征的编码,表示为Subject的特征,hj语句中第j个特征的编码,表示Predicate的特征,Pi,j表示(hi,hj)可以构成关系的概率。
步骤5.1.4:Object-Layer:
在图3的Object-Layer中,该层的作用是抽取指定的Object,根据指定的Subject和Predicate抽取出对应的Object,计算公式如下:
Pi start_o=sigmoid(Wstart_o(hi,Vs,Vp)+bstart_o)
Pi end_o=sigmoid(Wend_o(hi,Vs,Vp)+bend_o)
其中,Pi start_o表示语句中第i个token是Object的开始位置的概率,Pi end_o表示语句中第i个token是Object的结束位置的概率,Vs表示表示Subject的首尾特征之和,Vp表示Predicate的首尾特征之和。
步骤5.1.5:Triple-Result:
在图3的Triple-Result层中,Triple-Result层依据前几个步骤,抽取出语句中最终(Subject,predicate,Object)集合。
步骤5.2:基于封闭域三元组抽取工具Close-IE,对电力行业政策文本进行三元组信息抽取,具体结构如图4所示。
步骤5.2先抽取Subject和Object,然后再对Subject和Object之间的关系进行分类,具体包括:
步骤5.2.1:BERT-Layer:
封闭域三元组信息抽取同样因为BiLSTM网络在三元组抽取任务上的文本表征能力较弱,而选择BERT作为编码层。
在图4的编码层BERT Layer层中,采用BERT作为特征提取层,获取语句的上下文信息。
步骤5.2.2:Entity-Layer:
在图4的实体抽取层Entity Layer中,采用Span的方式,分别抽取Subject和Oubject的开始位置和结束位置。计算公式如下:
Pi start_s=sigmoid(Wstarthi+bstart)
Pi end_s=sigmoid(Wendhi+bend)
Pi start_o=sigmoid(Wstarthi+bstart)
Pi end_o=sigmoid(Wendhi+bend)
其中Pi start_s表示语句中第i个token是Subject的开始位置的概率,Pi end_s表示语句中第i个token是Subject的结束位置的概率,Pi start_o表示语句中第i个token是object的开始位置的概率,Pi end_o表示语句中第i个token是object的结束位置的概率,hi表示语句中第i个token通过Bert之后的编码,W(·)表示模型待训练的权重,b(·)为偏执。
步骤5.2.3:MultiHead-Layer:
在图4的MultiHead-Layer中,语句中的每个token都有可能和其他token构成关系,该层会找出所有不同token之间可能存在的关系,计算公式如下:
Pi,j=sigmoid(hi,hj)
其中,hi表示语句中第i个特征的编码,表示为Subject的特征,hj语句中第j个特征的编码,表示Object的特征,Pi,j表示(hi,hj)可以构成关系的概率。
步骤5.2.4:Triple-Result:
在图4的Triple-Result中,依据前几个步骤,抽取出语句中最终(Subject,predicate,Object)集合。
步骤6:基于实体对齐算法,将抽取到的不同类别信息进行融合组装,实现电力行业政策管理,构成不同分类的电力行业政策树。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (10)
1.一种基于分类树融合技术的电力行业政策管理方法,其特征在于:
所述方法包括以下步骤:
步骤1:获取电力行业政策文本并进行数据预处理;
步骤2:对数据预处理后的电力行业政策文本信息进行编码;
步骤3:设置电力行业政策文本中不同语句的信息注意力权重;
步骤4:基于电力行业政策文本信息的编码与注意力权重,采用分类树融合技术对电力行业政策文本进行类别划分;
步骤5:对不同类型的电力行业政策文本进行三元组信息抽取;
步骤6:基于实体对齐算法,将抽取到的不同类别信息进行融合组装,实现电力行业政策管理。
2.根据权利要求1所述的一种基于分类树融合技术的电力行业政策管理方法,其特征在于:
步骤1具体包括:
步骤1.1:获取电力行业政策文本,并使用jieba分词工具对电力行业政策文本进行分词,通过停用词词表删除电力行业政策文本中的停用词;
步骤1.2:经步骤1.1预处理后,语句中的每个词语通过词表获得该词语所在词表中位置并通过词嵌入矩阵将每个词语映射为词嵌入矩阵的中的词语向量;
步骤1.3:基于词语向量,卷积神经网络提取电力行业政策文本中语句的信息表征。
3.根据权利要求2所述的一种基于分类树融合技术的电力行业政策管理方法,其特征在于:
步骤1.3具体包括:
步骤1.3.1:将电力行业政策文本语句中每个词语的词语向量进行矩阵拼接组合,构建电力行业政策文本语句的句向量矩阵;
步骤1.3.2:针对句向量矩阵,在卷积层中设置多个大小不同的卷积核,来提取不同词语之间共有的信息表征;
步骤1.3.3:通过K-Max池化和Padding的方法,从不同长度的语句提取出固定长度的信息表征。
4.根据权利要求2所述的一种基于分类树融合技术的电力行业政策管理方法,其特征在于:
步骤2具体为:
将每个语句的信息表征按照电力行业政策文本中语句的顺序依次输入到BiLSTM网络或者GRU网络中,进行电力行业政策文本信息编码。
5.根据权利要求4所述的一种基于分类树融合技术的电力行业政策管理方法,其特征在于:
步骤3具体为:
使用Attention注意力机制设置电力行业政策文本中不同语句的信息注意力权重,并输出加入注意力权重信息的电力行业政策文本向量编码。
6.根据权利要求5所述的一种基于分类树融合技术的电力行业政策管理方法,其特征在于:
步骤4具体为:
将加入注意力权重信息的电力行业政策文本向量编码输入到Softmax分类器中,得到电力行业政策文本所属的类别one-hot向量表征,最终实现电力行业政策文本分类。
7.根据权利要求1所述的一种基于分类树融合技术的电力行业政策管理方法,其特征在于:
步骤5具体包括:
步骤5.1:基于开放域三元组抽取工具Open-IE,对电力行业政策文本进行三元组信息抽取:首先抽取不同类型的电力行业政策所有可能的Subject和Predicate,然后判断Subject和Predicate之间的关联,最后抽取Subject和Predicate对应的Object;
步骤5.2:基于封闭域三元组抽取工具Close-IE,对电力行业政策文本进行三元组信息抽取:先抽取Subject和Object,然后再对Subject和Object之间的关系进行分类。
8.根据权利要求7所述的一种基于分类树融合技术的电力行业政策管理方法,其特征在于:
步骤5.1具体包括:
步骤5.1.1:编码层Encoder-Layer获取语句的上下文信息;
步骤5.1.2:实体抽取层EntityRelation-Layer抽取所有可能的Subject和Predicate;
步骤5.1.3:MultiHead-Layer找出所有可能存在关系的Subject和Predicate;
步骤5.1.4:Object-Layer根据指定的Subject和Predicate抽取出对应的Object;
步骤5.1.5:Triple-Result依据步骤5.1.1-步骤5.1.4,抽取出语句中最终(Subject,predicate,Object)集合。
9.根据权利要求8所述的一种基于分类树融合技术的电力行业政策管理方法,其特征在于:
步骤5.1.2中,采用Span的方式,分别抽取Subject和Predicate的开始位置和结束位置,公式如下:
Pi start_s=sigmoid(Wstarthi+bstart)
Pi end_s=sigmoid(Wendhi+bend)
Pi start_p=sigmoid(Wstarthi+bstart)
Pi end_p=sigmoid(Wendhi+bend)
其中Pi start_s表示语句中第i个token是Subject的开始位置的概率,Pi end_s表示语句中第i个token是Subject的结束位置的概率,Pi start_p表示语句中第i个token是Predicate的开始位置的概率,Pi end_p表示语句中第i个token是Predicate的结束位置的概率,hi表示语句中第i个token通过Bert之后的编码,W(·)表示模型待训练的权重,b(·)为偏执;
步骤5.1.3采用的公式如下:
Pi,j=sigmoid(hi,hj)
其中,hi表示语句中第i个特征的编码,表示为Subject的特征,hj语句中第j个特征的编码,表示Predicate的特征,Pi,j表示(hi,hj)可以构成关系的概率;
步骤5.1.4采用的公式如下:
Pi start_o=sigmoid(Wstart_o(hi,Vs,Vp)+bstart_o)
Pi end_o=sigmoid(Wend_o(hi,Vs,Vp)+bend_o)
其中Pi start_o表示语句中第i个token是Object的开始位置的概率,Pi end_o表示语句中第i个token是Object的结束位置的概率,Vs表示表示Subject的首尾特征之和,Vp表示Predicate的首尾特征之和。
10.根据权利要求7所述的一种基于分类树融合技术的电力行业政策管理方法,其特征在于:
步骤5.2具体包括:
步骤5.2.1:BERT编码层BERT-Layer获取语句的上下文信息;
步骤5.2.2:实体抽取层Entity-Layer抽取所有可能的Subject和Oubject;
步骤5.2.3:MultiHead-Layer找出语句中所有不同token之间可能存在的关系;
步骤5.2.4:Triple-Result依据步骤5.2.1-步骤5.2.3,抽取出语句中最终(Subject,predicate,Object)集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111256627.XA CN113822599A (zh) | 2021-10-27 | 2021-10-27 | 一种基于分类树融合技术的电力行业政策管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111256627.XA CN113822599A (zh) | 2021-10-27 | 2021-10-27 | 一种基于分类树融合技术的电力行业政策管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113822599A true CN113822599A (zh) | 2021-12-21 |
Family
ID=78918927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111256627.XA Pending CN113822599A (zh) | 2021-10-27 | 2021-10-27 | 一种基于分类树融合技术的电力行业政策管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822599A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083700A (zh) * | 2019-03-19 | 2019-08-02 | 北京中兴通网络科技股份有限公司 | 一种基于卷积神经网络的企业舆情情感分类方法及*** |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
CN112100397A (zh) * | 2020-09-07 | 2020-12-18 | 南京航空航天大学 | 基于双向门控循环单元的电力预案知识图谱构建方法及*** |
CN112199491A (zh) * | 2020-10-14 | 2021-01-08 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种基于bert与先验知识特征的关系五元组抽取方法 |
CN112560475A (zh) * | 2020-11-16 | 2021-03-26 | 和美(深圳)信息技术股份有限公司 | 三元组抽取方法及*** |
CN112613315A (zh) * | 2020-12-29 | 2021-04-06 | 重庆农村商业银行股份有限公司 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
EP3839818A2 (en) * | 2020-09-29 | 2021-06-23 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Method and apparatus for performing structured extraction of text, device and storage medium |
CN113312917A (zh) * | 2021-05-28 | 2021-08-27 | 国网江苏省电力有限公司电力科学研究院 | 一种基于知识推理的实体关系抽取方法及*** |
-
2021
- 2021-10-27 CN CN202111256627.XA patent/CN113822599A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083700A (zh) * | 2019-03-19 | 2019-08-02 | 北京中兴通网络科技股份有限公司 | 一种基于卷积神经网络的企业舆情情感分类方法及*** |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
CN112100397A (zh) * | 2020-09-07 | 2020-12-18 | 南京航空航天大学 | 基于双向门控循环单元的电力预案知识图谱构建方法及*** |
EP3839818A2 (en) * | 2020-09-29 | 2021-06-23 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Method and apparatus for performing structured extraction of text, device and storage medium |
CN112199491A (zh) * | 2020-10-14 | 2021-01-08 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种基于bert与先验知识特征的关系五元组抽取方法 |
CN112560475A (zh) * | 2020-11-16 | 2021-03-26 | 和美(深圳)信息技术股份有限公司 | 三元组抽取方法及*** |
CN112613315A (zh) * | 2020-12-29 | 2021-04-06 | 重庆农村商业银行股份有限公司 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
CN113312917A (zh) * | 2021-05-28 | 2021-08-27 | 国网江苏省电力有限公司电力科学研究院 | 一种基于知识推理的实体关系抽取方法及*** |
Non-Patent Citations (2)
Title |
---|
SUNCONG ZHENG ETAL.: "Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme", 《PROCEEDINGS OF THE TWENTY-NINTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-20)》, 31 December 2017 (2017-12-31), pages 1227 - 1236 * |
张龙辉 等: "BSLRel:基于二元序列标注的级联关系三元组抽取模型", 《中文信息学报》, vol. 35, no. 6, 30 June 2021 (2021-06-30), pages 74 - 84 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413785B (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN111522839B (zh) | 一种基于深度学习的自然语言查询方法 | |
CN112487812B (zh) | 一种基于边界识别的嵌套实体识别方法及*** | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及*** | |
CN111984791B (zh) | 一种基于注意力机制的长文分类方法 | |
CN116702091B (zh) | 基于多视图clip的多模态讽刺意图识别方法、装置和设备 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN113987187A (zh) | 基于多标签嵌入的舆情文本分类方法、***、终端及介质 | |
CN116956929B (zh) | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 | |
CN110046356A (zh) | 标签嵌入在微博文本情绪多标签分类中的应用研究 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、***及装置 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN114445832A (zh) | 基于全局语义的文字图像识别方法、装置及计算机设备 | |
CN112784580A (zh) | 基于事件抽取的金融数据分析方法及装置 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN114299326A (zh) | 一种基于转换网络与自监督的小样本分类方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN116822513A (zh) | 一种融合实体类型与关键词特征的命名实体识别方法 | |
CN113822599A (zh) | 一种基于分类树融合技术的电力行业政策管理方法 | |
CN114996442A (zh) | 一种联合抽象程度判别和摘要优化的文本摘要生成*** | |
CN114896404A (zh) | 文档分类方法及装置 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及*** | |
CN114510569A (zh) | 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 | |
CN112784838A (zh) | 一种基于局部敏感哈希网络的汉明ocr识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |