CN114996470A - 一种智能调度检修识别库构建方法 - Google Patents
一种智能调度检修识别库构建方法 Download PDFInfo
- Publication number
- CN114996470A CN114996470A CN202210498589.7A CN202210498589A CN114996470A CN 114996470 A CN114996470 A CN 114996470A CN 202210498589 A CN202210498589 A CN 202210498589A CN 114996470 A CN114996470 A CN 114996470A
- Authority
- CN
- China
- Prior art keywords
- word
- scheduling
- power grid
- named entity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 24
- 238000010276 construction Methods 0.000 title claims description 35
- 239000013598 vector Substances 0.000 claims abstract description 125
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000005516 engineering process Methods 0.000 claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000003058 natural language processing Methods 0.000 claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 240000005373 Panax quinquefolius Species 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 1
- 239000002994 raw material Substances 0.000 claims 1
- 238000009826 distribution Methods 0.000 abstract description 10
- 238000011161 development Methods 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 241000282376 Panthera tigris Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101100285402 Danio rerio eng1a gene Proteins 0.000 description 1
- 241001148715 Lamarckia aurea Species 0.000 description 1
- 101100421134 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sle1 gene Proteins 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000000859 sublimation Methods 0.000 description 1
- 230000008022 sublimation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种智能调度检修识别库构建方法,包括建立基于BERT的电网调度语音识别语言模型;结合语音识别和自然语言处理技术对调度文本进行特征提取、语义解析;构建专业词汇词向量库。本发明本发明通过将语音识别与自然语言处理技术结合,将之引入配网调度领域,辅助调度业务开展,从而减轻基层班组工作负荷,降低调度工作出错率,提高调度工作效率,对保证电网安全、稳定、高效运行具有重要意义。
Description
技术领域
本发明涉及电力电网技术领域领域,特别是一种智能调度检修识别库构建方法。
背景技术
随着配电网规模的扩大和信息化建设的推进,配网指挥涉及的信息不断增多。调度员每天需要进行大量重复性的发令、收令、核对等工作,由此产生了采用智能虚拟调度员代替重复性人工劳动的需求。其中,语音识别环节关系到虚拟调度员对现场人员汇报信息的准确理解,是调度指令正确处理和发送的基础。
目前,针对于电力领域的语音识别语言模型研究还比较少。现有技术中有对电力语音识别***的构建,但主要针对声学模型,仅考虑了训练语料的选择,即便部分技术加入了语法规则以辅助判断调度语言的合理性,但是涉及电网术语、命名实体等调度内容的合理性难以通过语法规则进行确定。因此,本发明提出了一种智能调度检修识别库构建方法,采用智能虚拟调度员代替人工调度,用于满足现场工作人员调度检修需求。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述和/或现有的电网调度工作中存在的问题,提出了本发明。
因此,本发明所要解决的问题在于需要一种智能调度检修识别库构建方法,解决当前现有电网调度工作中人工调度效率低下的问题。
为解决上述技术问题,本发明提供如下技术方案:一种智能调度检修识别库构建方法,其包括,
采集数据,建立基于BERT的电网调度语音识别语言模型;
结合语音识别和自然语言处理技术对调度文本进行特征提取、语义解析;
构建专业词汇词向量库。
作为本发明所述智能调度检修识别库构建方法的一种优选方案,其中:所述建立基于BERT的电网调度语音识别语言模型包括,
将一段经过切分的文本输入BERT,其中文本包含u个切分单元;
把每个切分单元按照其每一类特征表示为一个特征向量,并求和得到综合特征向量;
将所有综合特征向量依次输入至两个Transformer编码器中,由第二个Transformer编码器输出文本的表示向量。
作为本发明所述智能调度检修识别库构建方法的一种优选方案,其中:所述电网调度语音识别语言模型中,调度语句的每个输入的切分单元共包含4个类别的特征,即语义特征、位置特征、关键字特征和命名实体特征。
作为本发明所述智能调度检修识别库构建方法的一种优选方案,其中:所述语义特征反映每个切分单元本身的语义信息,其直接以字为粒度对调度语句进行切分,每个字的语意特征向量采用word2vec的Skip-gram模型生成,在基于字粒度的分布式表示方式下,一条包含a个字的电网调度文本将被转化为a个b维的向量,其中第p个向量(p=1,2,…,a)表征电网调度文本第p个字的语义特征,b为每个字特征向量的维数。
作为本发明所述智能调度检修识别库构建方法的一种优选方案,其中:所述位置特征用于表示每个切分单元在句子中的位置,其按照BERT的方法在模型训练过程中自动学习得到;
所述模型训练过程包括无监督预训练和计算调度语句为合理句子的概率,所述无监督预训练包括MLM任务的预训练,所述调度语句的合理概率计算方法是,对于一条包含j个字的调度语句,依次遮蔽第k个切分单元(k=1,2,…,j)的输入,并采用经过MLM任务预训练的语言模型预测其对应输出为该切分单元(词或字)的概率prok,最终可以计算出调度语句为合理句子的概率为:
作为本发明所述智能调度检修识别库构建方法的一种优选方案,其中:提取所述关键字特征,包括,
将调度信息中的每个字,将其拼音拆分为声母、韵母和声调三部分,其中零声母或轻声的字分别将声母或声调记为空值,然后计算调度信息中每个字与各个关键字的相似度,计算公式如下:
式中:simsheng在两个字声母相同时取1,声母不同但分别为对应的平舌和翘舌音时(如“z”和“zh”)取0.5,其余情况取0;simyun在两个字韵母相同时取1,韵母不同但分别为对应的前鼻和后鼻音时(如“an”和“ang”)取0.5,其余情况取0;simdiao在两个字声调相同时取1,否则取0;
对于电网调度信息中的每个字,计算其与各个关键字的相似度,并记其中最高的相似度值为msimzi,再按照下式计算该字的关键字特征向量:
式中:f1(u1)表示关键字特征向量第u1个维度的值;n为相似度最高的关键字的编号;N表示关键字总数,即为6;dim1为关键字特征向量的维数。
作为本发明所述智能调度检修识别库构建方法的一种优选方案,其中:所述命名实体特征的构建包括,
利用包含各个电力站点、设备等名称的电网台账信息,构建命名实体词典;
统计命名实体词典中最短和最长命名实体的字数,分别记为c和d;
对于电网调度信息中的每个字,取包含该字的所有长度为q(q=c,c+1,…,d)的字序列,再求每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度,相似度同样需要从字的发音方面进行定义,计算公式为:
式中:simzi(r)表示字序列的第r个字与命名实体第r个字的相似度,相似度按上式计算;
形成电网调度信息中各个字的命名实体特征;
对于每一个字,设其共有e个对应的字序列,其中第s个字序列(s=1,2,…,e)与各个命名实体相似度的最大值记为msimxu(s),共有e个相似度最大值,再设这些最大值中的最大者为msimxu(t)(即第t个字序列的相似度最大值),则称第t个字序列为该字的匹配字序列,然后按照下式计算该字的命名实体特征向量:
式中:f2(u2)表示命名实体特征向量第u2个维度的值;g·msimxu(t)表示匹配字序列误识别的概率,其中g在匹配字序列和命名实体完全相同时为0,否则为1,os表示该字为匹配字序列的第几个字;len为匹配字序列的长度;dim2为命名实体特征向量的维数。
作为本发明所述智能调度检修识别库构建方法的一种优选方案,其中:所述结合语音识别和自然语言处理技术对调度文本进行特征提取、语义解析包括,
文本预处理,包括语料清洗、去停用词、中文分词;
对电网调度事故处置预案进行文本分析,利用LSTM对调度故障对应的事故处理进行关键词的提取。
作为本发明所述智能调度检修识别库构建方法的一种优选方案,其中:利用LSTM算法进行关键词提取具体包括,
输入电网调度事故处置预案,经过embedding层对事故处置预案文本进行
词嵌入训练,生成词向量序列;
LSTM分类模型对词向量序列中的词进行打分处理;
根据得分每个词进行排序,输出得分最高的前K个词作为关键词。
作为本发明所述智能调度检修识别库构建方法的一种优选方案,其中:所述构建专业词汇词向量库包括,
收集年度运行方式、调度规程、历史调度日志、事故预案等非结构化调度历史文档,形成调度历史语料库;
对历史语料库进行数据预处理,主要包括中文分词、去除标点符号、去除停用词等一系列数据清洗和转换工作,形成调度领域初始词典;
根据调度领域词汇在词典中出现的位置索引进行One-Hot编码,并根据词典编码将历史语料送入Word2vec模型进行训练,得到词向量,更新调度领域词典;
经过训练将词汇转换为向量后,进行词向量评估,主要包括两种方式:采用词汇之间夹角余弦值来衡量词汇之间的相似程度,找到词汇之间的关联关系;
通过词向量之间的计算进行简单的词汇逻辑关系推理,以衡量词向量的合理性。
本发明有益效果为:本发明通过将语音识别与自然语言处理技术结合,将之引入配网调度领域,辅助调度业务开展,从而减轻基层班组工作负荷,降低调度工作出错率,提高调度工作效率,对保证电网安全、稳定、高效运行具有重要意义。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为智能调度检修识别库构建方法的整体流程示意图。
图2为智能调度检修识别库构建方法的电网调度语音识别语言模型结构图。
图3为智能调度检修识别库构建方法的电网调度语音识别语言模型字序列生成方法图。
图4为智能调度检修识别库构建方法的基于LSTM的关键词提取流程图。
图5为智能调度检修识别库构建方法的基于LSTM分类模型的关键词提取方法的***结构图图。
图6为智能调度检修识别库构建方法的CBOW和Skip-Gram的3层神经网络结构图。
图7为智能调度检修识别库构建方法的电网调度领域词向量库构建流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
实施例1
参照图1~图3,为本发明第一个实施例,该实施例提供了一种智能调度检修识别库构建方法,其包括,
S1:采集数据,建立基于BERT的电网调度语音识别语言模型;
其中,BERT是一种对自然语言进行编码的语言表示模型,模型的作用在于将一段输入文本转化为一组表示向量,其中每个表示向量对应于输入文本的每个切分单元(词或字),并且每个向量都融合了文本的全局信息。
在本步骤中,流程图参照图2,具体步骤如下:
将一段经过切分的文本seg1,seg2,…,segu输入BERT,其中文本包含u个切分单元;
把每个切分单元segv(v=1,2,…,u)按照其每一类特征表示为一个特征向量,其中第w类特征向量为ivw,并求和得到综合特征向量iv;
将所有综合特征向量依次输入至两个Transformer编码器中,每个编码器内部的网络结构为6层,由第二个Transformer编码器输出文本的表示向量h1,h2,…,hu。
进一步的,所述电网调度语音识别语言模型中,调度语句的每个输入的切分单元共包含4个类别的特征,即语义特征、位置特征、关键字特征和命名实体特征,具体如下:
(1)语义特征
无论是基于统计的n-gram等语言模型,或者是基于神经网络的语言模型,通常都以词为粒度对语句进行切分,并采用基于词粒度的语义特征。但是电网调度语言中包含大量与电力领域相关的命名实体,加之发音不准确可能带来的人为干扰,预先对电网调度文本进行分词处理可能导致文本的切分方式与实际含义出现较大的偏差,例如将“成虎变/成联A555线”切分为“成虎/变成/联A555线”等。即使生成多种候选的切分方案,也常常无法涵盖正确的句子切分方式。
语义特征反映每个切分单元本身的语义信息,为了避免分词错误对特征提取准确性产生影响,其直接以字为粒度对调度语句进行切分,每个字的语意特征向量采用word2vec的Skip-gram模型生成,在基于字粒度的分布式表示方式下,一条包含a个字的电网调度文本将被转化为a个b维的向量,其中第p个向量(p=1,2,…,a)表征电网调度文本第p个字的语义特征,b为每个字特征向量的维数。
(2)位置特征
所述位置特征用于表示每个切分单元在句子中的位置,其按照BERT的方法在模型训练过程中自动学习得到;
原始的BERT模型训练需要进行无监督的预训练和有监督的精调,其中无监督的预训练又包括了2个训练任务,即遮蔽语言模型(Masked Language Model,MLM)和下句预测(NSP)。MLM任务随机遮蔽部分切分单元的输入,并在其对应的输出表示向量后再接入一个softmax层以预测被遮蔽的词或字,在多次预测的过程中对BERT的参数进行训练;NSP任务同时输入两个句子,并通过预测两个句子是否为实际文章中连续的句子,对BERT进行训练。
在电网调度语音识别语言模型中,由于电网调度指令通常以单句形式出现,所以不需要对模型进行NSP任务的预训练,只需要进行MLM任务的预训练。同时,因为MLM任务与调度语言合理性判断任务的预测方法具有一致性,所以在进行MLM任务的预训练后,可以直接计算调度语句为合理句子的概率,从而省去有监督的精调,节省数据标注的人力耗费。
所述模型训练过程包括无监督预训练和计算调度语句为合理句子的概率,所述无监督预训练包括MLM任务的预训练,所述调度语句的合理概率计算方法是,对于一条包含j个字的调度语句,依次遮蔽第k个切分单元(k=1,2,…,j)的输入,并采用经过MLM任务预训练的语言模型预测其对应输出为该切分单元(词或字)的概率prok,最终可以计算出调度语句为合理句子的概率为:
(3)关键字特征
虽然电网调度语言属于自然语言的范畴,但其中包含的专业性用语仍符合电力领域的规范。通过一些电力专业名词较为固定的关键字,可以有效地对其前后的语义单元进行区分,如通过“变”和“线”可以对“洪畴变南洋T649线重合闸由信号改为跳闸”的变电站名称字段和线路名称字段进行有效识别。因此,在利用Skip-gram提取每个字结合上下文语境的语义特征基础上,为使语言模型更适应于电网调度语言的表达模式,有必要提取其中的关键字特征,具体关键字如表1所示:
表1:电网调度语言的关键字
编号 | 关键字 | 对应实例 |
1 | 站 | 万衣站,豪盛开关站 |
2 | 所 | 香醍1#变电所,新港城开闭所 |
3 | 变 | 临安变,夏禹变 |
4 | 线 | 七坑V236线,金顶6874线 |
5 | 杆 | 步上3756线12#杆,金星村支线15#杆 |
6 | 柜 | 前丁1#环网柜,水岸7#开关柜 |
由于电网调度的相关信息是由现场人员语音输入,所以提取调度信息中的关键字特征时,应从字的发音方面进行考虑。为此,提出基于拼音特征的相似度计算方法。具体如下:
将调度信息中的每个字,将其拼音拆分为声母、韵母和声调三部分,其中零声母(如“安”)或轻声(如“了”)的字分别将声母或声调记为空值。
然后计算调度信息中每个字与各个关键字的相似度,计算公式如下:
式中:simsheng在两个字声母相同时取1,声母不同但分别为对应的平舌和翘舌音时(如“z”和“zh”)取0.5,其余情况取0;simyun在两个字韵母相同时取1,韵母不同但分别为对应的前鼻和后鼻音时(如“an”和“ang”)取0.5,其余情况取0;simdiao在两个字声调相同时取1,否则取0;
最后,对于电网调度信息中的每个字,计算其与各个关键字的相似度,并记其中最高的相似度值为msimzi,再按照下式计算该字的关键字特征向量:
式中:f1(u1)表示关键字特征向量第u1个维度的值;n为相似度最高的关键字的编号;N表示关键字总数,即为6;dim1为关键字特征向量的维数。
(4)命名实体特征
电网调度语言中的命名实体,如变电站名、线路名等,绝大部分不属于中文常用词汇。在电力调度文本语料库中,这些命名实体出现的频率很低,可利用的上下文信息十分有限,导致在实际应用时难以单纯借助上下文确定命名实体的识别正确性。因此,需要引入电网台账信息,构建电网调度语言的命名实体特征,以辅助进行命名实体识别正确性的判断。
为此,首先利用包含各个电力站点、设备等名称的电网台账信息,构建命名实体词典;
同时,统计命名实体词典中最短和最长命名实体的字数,分别记为c和d;
然后,对于电网调度信息中的每个字,取包含该字的所有长度为q(q=c,c+1,…,d)的字序列,如图3所示,再求每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度,相似度同样需要从字的发音方面进行定义,计算公式为:
式中:simzi(r)表示字序列的第r个字与命名实体第r个字的相似度,相似度按上式计算;
最后,形成电网调度信息中各个字的命名实体特征。
对于每一个字,设其共有e个对应的字序列,其中第s个字序列(s=1,2,…,e)与各个命名实体相似度的最大值记为msimxu(s),共有e个相似度最大值,再设这些最大值中的最大者为msimxu(t)(即第t个字序列的相似度最大值),则称第t个字序列为该字的匹配字序列,然后按照下式计算该字的命名实体特征向量:
式中:f2(u2)表示命名实体特征向量第u2个维度的值;g·msimxu(t)表示匹配字序列误识别的概率,其中g在匹配字序列和命名实体完全相同时为0,否则为1,因为在匹配字序列和命名实体不相同时,两者相似度msimxu(t)越高,说明匹配字序列是误识别结果的概率越大(如“惠复站”误识别结果为“恢复站”),从而g·msimxu(t)越大,但若匹配字序列和命名实体完全相同,则应认为匹配字序列是正确的,即误识别的概率为0,故此时令g=0使得g·msimxu(t)=0;pos表示该字为匹配字序列的第几个字;len为匹配字序列的长度;dim2为命名实体特征向量的维数。
S2:结合语音识别和自然语言处理技术对调度文本进行特征提取、语义解析;
本步骤具体包括,
文本预处理,包括语料清洗、去停用词、中文分词;
对电网调度事故处置预案进行文本分析,利用LSTM对调度故障对应的事故处理进行关键词的提取。
S3:构建专业词汇词向量库。
本步骤具体包括,收集年度运行方式、调度规程、历史调度日志、事故预案等非结构化调度历史文档,形成调度历史语料库;
对历史语料库进行数据预处理,主要包括中文分词、去除标点符号、去除停用词等一系列数据清洗和转换工作,形成调度领域初始词典;
根据调度领域词汇在词典中出现的位置索引进行One-Hot编码,并根据词典编码将历史语料送入Word2vec模型进行训练,得到词向量,更新调度领域词典;
经过训练将词汇转换为向量后,进行词向量评估,主要包括两种方式:采用词汇之间夹角余弦值来衡量词汇之间的相似程度,找到词汇之间的关联关系;
通过词向量之间的计算进行简单的词汇逻辑关系推理,以衡量词向量的合理性。
实施例2
本发明的第二个实施例,为验证电网调度语言模型性能,对其进行实验测试。
对电网调度语言模型进行性能测试时,从贵州供电公司收集50万条调度操作指令,这些指令通常需由现场人员进行复诵或汇报,部分指令示例如表2所示:
表2:电网调度操作指令示例
编号 | 操作指令 |
1 | 屏风五站:10kV屏风十线除名 |
2 | 110kV上华变:合上#2主变10kV开关 |
3 | 江南新城开闭所印象51612线由检修改冷备用 |
4 | 10kV兴东756线兴东18#环网柜金威18#线由检修改为热备用 |
5 | 桔乡变#2主变检修工作已终结,对桔乡变35kV侧运行方式无要求 |
6 | 帘子厂#4环网单元41开关两侧核相工作结束,相位正确可以合环操作 |
测试时将调度指令中的冒号、顿号、分号等表示停顿的标点符号均用逗号代替,并随机将所有指令均分为5份,采用5折交叉验证的方法,依次把其中4份作为训练集,1份作为测试集。用训练集对语言模型进行无监督训练后,在测试集上对语言模型的性能进行测试,实验时采用的显卡为4块NVIDIA TITAN V。
实验所采用的指标为语言模型性能评价常用的困惑度(Perplexity)指标。假设测试集所有语料共包含l个字(包括汉字、数字和标点符号),由上节可知,经过训练的语言模型可以借助上下文预测每个字在其对应位置出现的概率,则语言模型在测试集上的困惑度为:
式中:prom为测试语料中第m个字的预测概率,困惑度ppl越小,表明语言模型的性能越好。
在实验过程中,模型调度语句切分单元的每类特征向量均设定为300维。为验证本课题模型针对电网调度语言特点进行特征设计的有效性,对未加入关键字特征或命名实体特征的BERT模型进行实验。同时,对其他常用的语言模型进行测试,包括基于统计语言模型n-gram的trigram模型,以及基于神经网络语言模型的ELMo和OpenAIGPT模型(输入特征均按对应文献进行生成,每类特征同样为300维)。各种语言模型5轮实验的困惑度均值如表3所示:表3:
表3:各种语言模型的困惑度均值
语言模型 | 困惑度均值 |
tri-gram | 38.25 |
ELMo | 19.13 |
OpenAI GPT | 16.62 |
未加关键字及命名实体特征的BERT | 15.68 |
未加关键字特征的BERT | 14.71 |
未加命名实体特征的BERT | 10.32 |
本发明模型 | 9.84 |
由表3可见,本发明模型在各种语言模型中的困惑度均值最低,表明模型有更大概率将测试集的调度语句预测为正确句子。同时,未加入命名实体特征的BERT模型困惑度均值仅次于本发明模型。且两者较为接近。由对命名实体特征向量的计算方法可知,对于测试集的一个调度语句,若某个字不属于命名实体中的字,其对应的字序列与命名实体的相似度就比较低,导致msimxu(t)较小(接近于0),从而使其命名实体特征向量每个维度的值都偏小;若某个字是命名实体中的字,由于测试集的调度语句均为正确句子,所以一定存在和命名实体完全相同的匹配字序列,从而g将等于0,使得命名实体特征向量每个维度的值都为0。因此,在只包含正确句子的数据集上测试时,每个字的命名实体特征值都是0或接近0的较小值,命名实体特征向量的作用也未能完全体现。在加入关键字特征时,即使在正确句子中,关键字的特征向量也可以较为明显地区别于非关键字,因此本发明模型困惑度相对于未加入关键字特征的BERT模型有较大的优势。
另外,基于BERT的语言模型困惑度表现均优于其余两个神经网络语言模型ELMo和OpenAIGPT,而基于统计语言模型的tri-gram困惑度明显偏高。这也表明了采用BERT作为基础模型对改善语言模型性能的有效性。
实施例3
本发明的第三个实施例,对语言模型的性能进行测试后,再将语言模型应用于电网调度语音识别任务,以考察模型的实际应用效果。
从贵州供电公司采集约100小时的现场人员语音,共包含40000条调度指令,并随机将其均分为4份,取其中3份对语音识别声学模型DFSMN-CTC进行训练,剩余1份作为语音识别测试集。语言模型仍采用表3的7个模型,每个语言模型都经过2.2.4节全部50万条调度指令的训练。
对声学模型和语言模型训练完成后,将其用于测试集语音的识别。评价测试集语音识别效果的指标采用字错误率(word error rate,WER)、句错误率(sentence errorrate,SER)和每条句子识别的平均耗时,其中字错误率为:WER=(Sub+Del+Ins)/Word。
式中:Sub、Del和Ins分别表示为了使语音识别得到的结果和正确结果相同而需要进行替换、删除和***的字数,Word表示正确结果包含的总字数。
句错误率为:Err=Sencorrect/Sen。
式中:Sencorrect表示语音识别完全正确的句子数,Sen表示句子总数。经过测试,采用各种语言模型时语音识别的结果如表4所示:
表4:各种语言模型的语音识别结果
由表4可见,本发明模型在语音识别任务中的字错误率和句错误率均为最低,且在将每条句子的平均耗时控制在0.4s以内的前提下,可以较为显著地降低语音识别的字错误率和句错误率。
虽然本课题模型与未加入命名实体特征的BERT模型在困惑度上比较接近,但在语音识别任务中本课题模型体现出了较大的优势。主要的原因是在语音识别过程中语言模型需要对声学模型识别到的各种调度语句可能结果进行合理性判断,其中既包括正确句子,也包含错误句子,而引起错误的一个重要因素就是对命名实体的识别错误。由实施例1可知,对句子中属于命名实体中的某个字,若命名实体识别有误,则不存在和词典中的命名实体完全相同的匹配字序列,但匹配字序列和命名实体的语音相似度通常较大,使g等于1且msimxu(t)偏大,因此该字的命名实体特征值都比较大(接近于1);若命名实体识别正确,则存在和词典中的命名实体完全相同的匹配字序列,使g等于0,进而使该字的命名实体特征值都为0。因此,命名实体特征可以对命名实体识别的正误情况进行很好的区分,从而提高对语音识别中正误句子判别的准确性。
另外,在考虑关键字特征时,由于关键字特征向量考虑了发音问题可能引起的错误,即使对于声学模型输出的错误句子,关键字特征仍可以有效区别关键字与非关键字,所以本课题模型的语音识别准确率相对于未加入关键字特征的BERT模型仍有较大的优势。
同时,各个基于BERT的语言模型在语音识别任务上的字错误率和句错误率均低于ELMo、OpenAI GPT和tri-gram模型,这一结果与上节困惑度实验中语言模型性能表现的结果一致,说明采用BERT作为基础模型可以提升语言模型在电网调度语音识别任务中的应用效果。
进一步对本课题模型语音识别出现错误的调度语句进行分析,发现识别错误的主要原因是在口音或现场噪声较严重的时候,声学模型所生成的候选结果未能包含正确的句子,因此无法生成正确的文本内容供语言模型进行判断。这一现象大多出现在包含多个连续命名实体或者复杂调度操作的长句子中,即使句中只有个别字的识别出现错误,整个句子也会被判定为识别错误,因此由表4可见,即使本课题模型的字错误率较低,识别错误的字也会对句错误率造成比较明显的影响。
为了进一步提高电网调度语音识别的准确率,将自然语言处理技术与语音识别技术相结合。
实施例4
本发明的第四个实施例,基于上一个实施例,本实施例将语音识别与自然语言处理技术相结合。
在电网智能调度坐席中使用语音识别和自然语言处理技术相融合的经典场景有:
1.调度指令智能校核。配网调度工作中,各级调度运行单位普遍采用电话进行调令下发,频繁的操作任务及检修工作使得调度人员每天要进行大量的电话接打,调度人员通过口述方式将事先拟好的操作票及检修任务信息传递给执行单位,在此过程中极易因口误、信息看错等人为失误造成不正确的操作指令被执行,引发电网安全事故。因此,可通过收集配网调度语音语料,结合调度特殊发音处理及专业术语对语音语料进行标注,基于半监督形式进行语音识别模型训练,将调度录音实时转化为文本信息,并通过配网调度工作台进行显示,在调度联络过程中,便于调度人员及时核查调度指令,有效防止调度指令下达偏差。
2.调度日志智能生成及分类。调度日志的生成依靠调度人员在调度通话过程中记录关键信息,通话结束后,通过经验判断选择日志类型,将记录的关键信息进行整理后填写至配网调度工作台中,存在大量的数据重复录入工作,由于缺乏技术手段支撑,工作效率得不到有效保障。此外,日志内容的填写缺乏统一标准,规范性较差。配网调度过程中,可通过语音识别技术识别调度通话内容,将之转化为文本信息,并进一步利用自然语言处理技术对调度日志文本内容进行语义解析,构建调度日志分类模型,最后根据日志的类别,建立基于每种类别的日志内容标准化模板,利用自然语言处理技术自动提取调度指令内容、停电范围、施工位置等特征信息,对原始的调度文本内容进行归一化处理后获得标准化的调度日志。
3.交接班日志智能生成及校核。目前各变电站交接班以口头会议形式存在,通过现场进行收听及同步记录形成交接班记录,现场交接班会议结束后,再根据现场记录信息完成配调***交接班记录电子化填。交接班过程中,接班人员需要多方感官协同工作,耗时较长,且容易造成重要信息遗漏或信息记录不全,造成交接班漏交、错交的等问题,影响变电站正常运行或者造成故障。以提升现场交接班效率及交接班正确性为目标,在交接班现场安装部署拾音设备硬件设施,实现交接班全语音信息采集,利用语音识别技术将交接班语音转化为文本内容,与配调***调度日志实时关联,基于自然语言处理技术实现交接班记录及调度日志内容的一致性核查,对错误及遗漏的交接班信息进行及时告警,以提醒现场交接班人员对漏交信息进行核查、补充及修正,提升现场工作效率及质量,保障电网安全稳定运行。
4.调度信息智能搜索及质检分析。各级调度语音数据以音频形式分散式存储于独立的语音服务器上,针对调度语音的质检分析采用人工全量或抽量听音频的形式,听完一个完整的音频文件往往需要花费几分钟时间,由于工作量巨大,容易因疲累等原因造成注意力不集中,未发现调度语音中存在的问题,使得调度语音质检分析失去可操作性。由于在发生电网事件事故时,运行单位负责人往往需要通过在海量的音频文件中查找相关的调度语音,调度语音搜索困难。利用语音识别技术将非结构的调度语音音频转化为结构化的文本信息进行存储,基于自然语言关键词搜索及语义理解实现调度文本信息的快速定位,并能够在音频上自动标记查询关键词的语音位置,并自动播放,以提升调度语音质检效率及质量。
在电网调度事故处置预案中,对于电网故障的描述和事故处理等文本信息,长度普遍较为短小,但是所有关键性信息又都包含在其中。在自然语言处理任务中,这类文本属于短文本,且长度一般都不超过200个字符。尽管短文本的长度有限,但它们的文本表达形式和内容呈现却更加丰富和多样化。并且,由于短文本的特征就是长度偏短并且结构简单,也即文本中包含的候选词数量不多,因此短文本的特征向量就表现出很强的稀疏性。综上,对短文本的研宄具有很高的应用价值。对于电网调度事故处置预案的撰写,不同地区的不同设备会产生各种不同类型的故障,在解决这些故障后,调度员会以中文文本形式记录发生故障的原因、故障设备以及每条故障对应的解决方案。但是,由于不同调度员在记录时有不同的语言描述习惯,所以在电网调度事故处置预案中同一台设备或同一种故障会有不同的记录方式。例如设备文档中的“云岑一线”和“云岑二线”在事故处置预案中的描述方式为“云成双回线”。因此,若对电网调度事故处置预案能够形成一个统一的撰写标准,将对事故处置预案的文本分析达到事半功倍的效果。在自然语言处理中,语料中往往会存在一些与任务处理无关的噪音数据,这些数据将对任务处理的结果产生不必要的影响,所以在执行任务之前需要删除与本次任务处理无关的干扰数据,这就是数据预处理。文本预处理是自然语言处理任务中的首要环节,所以显得尤为重要,其包括语料清洗、去停用词、中文分词等操作,数据预处理的好坏会对最终的分类效果产生直接影响。
本发明进行文本语料清洗时的例子如表5所示:
表5:清洗规则
在对电网调度事故处置预案进行文本分析的过程中,本课题只关心事故处理中的内容,也就是说只需要对调度故障对应的事故处理进行关键词的提取。但是在电网调度事故处置预案中存在事故影响等一些没有用的干扰信息,这些干扰信息在模型进行关键词预测时会对模型的预测能力产生一定的影响。
因为中文文本的字与字之间没有明显的符号来对单词进行分隔,所以与英文文本分析相比的不同之处就是,中文文本的分析首要任务就是进行分词。当前,有许多开源的中文文本分词平台可以使用,例如哈工大的语言技术平台(Language Technology Platform,LTP)、斯坦福大学的Stanforf NLP、Ansj中文分词***和jieba分词等分词工具都具有较尚的准确率。在对电网调度事故处置预案进行分词处理时,经过多次实验证明,jieba分词工具进行切分时可以得到较好的分词结果,因此最终选择了jieba分词工具。
停用词是指在文本分析中,为提高文本分析的效率,在进行正式文本处理之前会先过滤掉某些字或词,这些字或词即被称为停用词。停用词是没有实际意义的词,一般以语气助词、连接词等形式存在,会对文本分析产生干扰,降低结果的准确性。而停用词在文本中又普遍存在,这就会影响文本分类的准确率,因此在文本分析任务中,通常需要先剔除掉停用词。常见的停用词有“是、在、的、了”等词语,它们没有实际的含义,只在文本中起到一定的连接作用。停用词表通常都是通用的,可以通过维护一张通用的停用词表来完成去除停用词的工作。
在自然语言处理领域,关键词提取方法大致可以分为两个类别,即有监督学习和无监督学习。在有监督学习方法中,关键词提取被看作是一个分类问题。在这里,模型是通过使用训练样本构建的,这些样本已经由人工标记了指定的标签。在对准确率要求不高的前提下,基于无监督的方法是个不错的选择,然而,使用传统的机器学习方法进行序列标注都需要人工地去选择特征,而特征的选择往往需要多次实验验证,并且模型提取关键词效果的好坏与特征选择也有很大关系。因此,使用神经网络模型进行关键词提取,同时与传统的神经网络相比,LSTM可以更好地适应不定长的输入序列,更有效地存储历史信息。
使用LSTM搭建一个分类器模型,对电网调度事故处置预案的候选词进行词向量的训练,将训练获得的具有语义信息的词向量放入分类器模型学习,即是将LSTM网络应用到电网调度事故处置预案的关键词提取方法。LSTM利用一个实值的向量来存储整个词序列,并通过迭代这个向量将整个序列结合起来。此时,这个实值向量就涵盖了从句子最初的一个词到当前词的所有历史信息,这个存储了所有历史信息的实值向量就可以表示当前的词序列。也就是说,LSTM在进行关键词提取时,可以将上文信息构建到当前词向量中,从而实现LSTM具备学习历史信息的能力,正因如此,可以大大提高LSTM分类模型预测关键词的准确率。
利用LSTM进行关键词提取的主要思路是:首先利用LSTM搭建一个分类器模型,然后对事故处置预案中每个词进行预测,判断其是否能成为关键词。对于一条电网调度事故处置预案,需要提取从句子第一个字到最后一个字的所有可能的词组合,然后再将这些词组合放入模型中训练。对于LSTM的输入词向量来说,它并不是通过一些简单组合生成的数字序列,词向量的生成是通过对大量语料地学习得来的。经过LSTM的一系列处理,输出端的结果即为某个候选词是关键词的可能性,然后还需要设定一个阈值,若输出的概率大于该阈值,则可能成为关键词,反之则不然。这种方法使用预先训练好的词向量能够充分利用词语的上文语义信息,提高预测的准确率,而且还能免去人工选取特征的步骤,减少实操的复杂度。
基于LSTM的关键词提取技术流程图如图4所示.
利用LSTM分类器模型来对电网调度事故处置预案进行关键词提取的***结构图如图5所示。其中,wordi表示事故处置预案中第i个词的词向量。如果要识别第i个词语是否为关键词,只需要将从事故处置预案的第个词到当前词的所有词向量都放入LSTM分类模型中,经过Softmax层的处理,在Output层计算出分数,则每一个词wordi的得分就对应着它是否为关键词的可能性,最后根据每个词的分数从高到低排序,输出得分最高的前K个词。
实施例5
本发明的第五个实施例,由于电网调度领域语言专业性较强,建立调度领域语言模型,实现调度专业词汇的可计算性是提高语音识别准确率的关键。而词向量可以考虑词汇的语法和语义信息,并将其编码到低维向量空间中,是实现调度词汇可计算性的重要技术。该技术可以把由离散符号表达的语言转换为计算机能够处理的由数值表达的向量,使得自然语言具有可计算性。因此,构建智能调度检修识别库还需要构建专业词汇词向量库。
针对语音识别技术在电网调度领域应用中识别准确率不高的问题,本发明基于电网调度规程、年度运行方式、调度日志、事故预案等电网调度专业语料库,采用Word2vec技术完成调度专业领域词汇向量库的构建,实现调度专业领域词汇的可计算性。
词向量是对词典中的任意词指定一个固定长度的实值向量v(W)∈Rm,其中,v(W)为W的词向量,Rm为m维的实数向量空间。利用机器学习算法处理自然语言实现自动语音识别,首先要将自然语言进行词向量处理。词向量生成方法主要有One-Hot编码和向量空间模型2种。
(1)One-Hot编码是用一个很长的向量表示1个词汇,向量的长度为词典D的大小N,向量的分量只有一个1,其他全部为0。1的位置对应该词汇在词典中的索引。这种词向量的表示方式易受到维度灾难的影响,不能很好地衡量词汇之间的相似性,后续采用机器学习特别是深度学习进行自然语言处理和语音识别时很难取得良好效果。
(2)向量空间模型是将词汇映射到连续向量空间中的点,其中语义相似的词汇被映射为距离相近的点。这种方式依赖于词汇的分布假设(出现在相同上下文中的词汇具有相似语义),此类方法是根据词汇的上下文信息,通过训练将词汇映射成固定长度为n的向量,其中n<<N。
最常用的基于向量空间模型的词向量生成方法是Word2vec和Glove。其中,Word2vec是一种具有较高计算性能的预测方法,它是神经概率语言模型的简化,核心是神经网络方法,采用连续词袋模型(Continuous Bag-Of-Words,CBOW)和Skip-Gram模型将词语映像到同一坐标系中,用于学习语料库中的词汇向量。CBOW和Skip-Gram均为3层神经网络结构(如图6所示)。
两个模型均为词汇的One-Hot编码输入输出,输入层到隐藏层的参数矩阵为WV×N、隐藏层到输出层的参数矩阵为UV×N,两个参数矩阵共同构成参数空间UV×N,V为词汇表中词汇数量,N为词向量维度。WV×N也称词向量矩阵,其中每行代表1个词的词向量。CBOW模型之中,在已经得知上下文W(t-2),W(t-1),W(t+1),W(t+2)前提下,预测当前词向量W(t),学习的目标函数为最大化对数似然函数,见下公式:
Skip-Gram模型中,在已知当前词W(t)的前提下,预测其上下文W(t-2),W(t-1),W(t+1),W(t+2),目标函数见下公式:
Word2vec使用梯度上升法进行训练,为了提高训练性能,采用了HierarchicalSoftmax和NegativeSampling两种求解策略。
电网调度领域词汇词向量以调度历史语料为数据基础,采用Word2vec技术,考虑调度词汇在调度业务语境中的关系,建立调度领域词汇的词向量库。基本流程见图7。
(1)收集年度运行方式、调度规程、历史调度日志、事故预案等非结构化调度历史文档,形成调度历史语料库。
(2)对历史语料库进行数据预处理,主要包括中文分词、去除标点符号、去除停用词等一系列数据清洗和转换工作,形成调度领域初始词典。
(3)根据调度领域词汇在词典中出现的位置索引进行One-Hot编码,并根据词典编码将历史语料送入Word2vec模型进行训练,得到词向量,更新调度领域词典。
(4)经过训练将词汇转换为向量后,进行词向量评估,主要包括两种方式:一是采用词汇之间夹角余弦值来衡量词汇之间的相似程度,找到词汇之间的关联关系;二是通过词向量之间的计算进行简单的词汇逻辑关系推理,以衡量词向量的合理性。
重要的是,应注意,在多个不同示例性实施方案中示出的本申请的构造和布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案,但参阅此公开内容的人员应容易理解,在实质上不偏离该申请中所描述的主题的新颖教导和优点的前提下,许多改型是可能的(例如,各种元件的尺寸、尺度、结构、形状和比例、以及参数值(例如,温度、压力等)、安装布置、材料的使用、颜色、定向的变化等)。例如,示出为整体成形的元件可以由多个部分或元件构成,元件的位置可被倒置或以其它方式改变,并且分立元件的性质或数目或位置可被更改或改变。因此,所有这样的改型旨在被包含在本发明的范围内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺序。在权利要求中,任何“装置加功能”的条款都旨在覆盖在本文中所描述的执行所述功能的结构,且不仅是结构等同而且还是等同结构。在不背离本发明的范围的前提下,可以在示例性实施方案的设计、运行状况和布置中做出其他替换、改型、改变和省略。因此,本发明不限制于特定的实施方案,而是扩展至仍落在所附的权利要求书的范围内的多种改型。
此外,为了提供示例性实施方案的简练描述,可以不描述实际实施方案的所有特征(即,与当前考虑的执行本发明的最佳模式不相关的那些特征,或于实现本发明不相关的那些特征)。
应理解的是,在任何实际实施方式的开发过程中,如在任何工程或设计项目中,可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的,但对于那些得益于此公开内容的普通技术人员来说,不需要过多实验,所述开发努力将是一个设计、制造和生产的常规工作。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种智能调度检修识别库构建方法,其特征在于:包括,
采集数据,建立基于BERT的电网调度语音识别语言模型;
结合语音识别和自然语言处理技术对调度文本进行特征提取、语义解析;
构建专业词汇词向量库。
2.如权利要求1所述的智能调度检修识别库构建方法,其特征在于:所述建立基于BERT的电网调度语音识别语言模型包括,
将一段经过切分的文本输入BERT,其中文本包含u个切分单元;
把每个切分单元按照其每一类特征表示为一个特征向量,并求和得到综合特征向量;
将所有综合特征向量依次输入至两个Transformer编码器中,由第二个Transformer编码器输出文本的表示向量。
3.如权利要求2所述的智能调度检修识别库构建方法,其特征在于:所述电网调度语音识别语言模型中,调度语句的每个输入的切分单元共包含4个类别的特征,即语义特征、位置特征、关键字特征和命名实体特征。
4.如权利要求3所述的智能调度检修识别库构建方法,其特征在于:所述语义特征反映每个切分单元本身的语义信息,其直接以字为粒度对调度语句进行切分,每个字的语意特征向量采用word2vec的Skip-gram模型生成,在基于字粒度的分布式表示方式下,一条包含a个字的电网调度文本将被转化为a个b维的向量,其中第p个向量(p=1,2,…,a)表征电网调度文本第p个字的语义特征,b为每个字特征向量的维数。
6.如权利要求5所述的智能调度检修识别库构建方法,其特征在于:提取所述关键字特征,包括,
将调度信息中的每个字,将其拼音拆分为声母、韵母和声调三部分,其中零声母或轻声的字分别将声母或声调记为空值,然后计算调度信息中每个字与各个关键字的相似度,计算公式如下:
式中:simsheng在两个字声母相同时取1,声母不同但分别为对应的平舌和翘舌音时(如“z”和“zh”)取0.5,其余情况取0;simyun在两个字韵母相同时取1,韵母不同但分别为对应的前鼻和后鼻音时(如“an”和“ang”)取0.5,其余情况取0;simdiao在两个字声调相同时取1,否则取0;
对于电网调度信息中的每个字,计算其与各个关键字的相似度,并记其中最高的相似度值为msimzi,再按照下式计算该字的关键字特征向量:
式中:f1(u1)表示关键字特征向量第u1个维度的值;n为相似度最高的关键字的编号;N表示关键字总数,即为6;dim1为关键字特征向量的维数。
7.如权利要求6所述的智能调度检修识别库构建方法,其特征在于:所述命名实体特征的构建包括,
利用包含各个电力站点、设备等名称的电网台账信息,构建命名实体词典;
统计命名实体词典中最短和最长命名实体的字数,分别记为c和d;
对于电网调度信息中的每个字,取包含该字的所有长度为q(q=c,c+1,…,d)的字序列,再求每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度,相似度同样需要从字的发音方面进行定义,计算公式为:
式中:simzi(r)表示字序列的第r个字与命名实体第r个字的相似度,相似度按上式计算;
形成电网调度信息中各个字的命名实体特征;
对于每一个字,设其共有e个对应的字序列,其中第s个字序列(s=1,2,…,e)与各个命名实体相似度的最大值记为msimxu(s),共有e个相似度最大值,再设这些最大值中的最大者为msimxu(t)(即第t个字序列的相似度最大值),则称第t个字序列为该字的匹配字序列,然后按照下式计算该字的命名实体特征向量:
式中:f2(u2)表示命名实体特征向量第u2个维度的值;g·msimxu(t)表示匹配字序列误识别的概率,其中g在匹配字序列和命名实体完全相同时为0,否则为1,os表示该字为匹配字序列的第几个字;len为匹配字序列的长度;dim2为命名实体特征向量的维数。
8.如权利要求7所述的智能调度检修识别库构建方法,其特征在于:所述结合语音识别和自然语言处理技术对调度文本进行特征提取、语义解析包括,
文本预处理,包括语料清洗、去停用词、中文分词;
对电网调度事故处置预案进行文本分析,利用LSTM对调度故障对应的事故处理进行关键词的提取。
9.如权利要求8所述的智能调度检修识别库构建方法,其特征在于:利用LSTM算法进行关键词提取具体包括,
输入电网调度事故处置预案,经过embedding层对事故处置预案文本进行词嵌入训练,生成词向量序列;
LSTM分类模型对词向量序列中的词进行打分处理;
根据得分每个词进行排序,输出得分最高的前K个词作为关键词。
10.如权利要求9所述的智能调度检修识别库构建方法,其特征在于:所述构建专业词汇词向量库包括,
收集年度运行方式、调度规程、历史调度日志、事故预案等非结构化调度历史文档,形成调度历史语料库;
对历史语料库进行数据预处理,主要包括中文分词、去除标点符号、去除停用词等一系列数据清洗和转换工作,形成调度领域初始词典;
根据调度领域词汇在词典中出现的位置索引进行One-Hot编码,并根据词典编码将历史语料送入Word2vec模型进行训练,得到词向量,更新调度领域词典;
经过训练将词汇转换为向量后,进行词向量评估,主要包括两种方式:采用词汇之间夹角余弦值来衡量词汇之间的相似程度,找到词汇之间的关联关系;
通过词向量之间的计算进行简单的词汇逻辑关系推理,以衡量词向量的合理性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210498589.7A CN114996470A (zh) | 2022-05-09 | 2022-05-09 | 一种智能调度检修识别库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210498589.7A CN114996470A (zh) | 2022-05-09 | 2022-05-09 | 一种智能调度检修识别库构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114996470A true CN114996470A (zh) | 2022-09-02 |
Family
ID=83025675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210498589.7A Pending CN114996470A (zh) | 2022-05-09 | 2022-05-09 | 一种智能调度检修识别库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114996470A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341537A (zh) * | 2023-05-23 | 2023-06-27 | 中债金科信息技术有限公司 | 多粒度词向量的评估方法、装置、电子设备及存储介质 |
CN116910104A (zh) * | 2023-08-04 | 2023-10-20 | 清华大学 | 基于大语言模型的建筑业施工安全智能日志记录方法 |
-
2022
- 2022-05-09 CN CN202210498589.7A patent/CN114996470A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341537A (zh) * | 2023-05-23 | 2023-06-27 | 中债金科信息技术有限公司 | 多粒度词向量的评估方法、装置、电子设备及存储介质 |
CN116910104A (zh) * | 2023-08-04 | 2023-10-20 | 清华大学 | 基于大语言模型的建筑业施工安全智能日志记录方法 |
CN116910104B (zh) * | 2023-08-04 | 2023-12-22 | 清华大学 | 基于大语言模型的建筑业施工安全智能日志记录方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理***及方法 | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN110717018A (zh) | 一种基于知识图谱的工业设备故障维修问答*** | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN114996470A (zh) | 一种智能调度检修识别库构建方法 | |
CN111489746B (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN113380223B (zh) | 多音字消歧方法、装置、***及存储介质 | |
CN111309607A (zh) | 一种代码方法级别的软件缺陷定位方法 | |
CN108681538A (zh) | 一种基于深度学习的动词短语省略消解方法 | |
CN113065341A (zh) | 一种环境类投诉举报文本自动标注和分类方法 | |
CN112232078A (zh) | 一种基于双向gru与注意力机制的调度操作票审核方法 | |
CN115238697A (zh) | 基于自然语言处理的司法命名实体识别方法 | |
CN112632982A (zh) | 一种能用于供应商评价的对话文本情感分析方法 | |
CN115878778A (zh) | 面向业务领域的自然语言理解方法 | |
CN117435716A (zh) | 电网人机交互终端的数据处理方法及*** | |
CN108519973A (zh) | 文字拼写的检测方法、***、计算机设备及存储介质 | |
CN115033659A (zh) | 基于深度学习的子句级自动摘要模型***及摘要生成方法 | |
Williams | Zero Shot Intent Classification Using Long-Short Term Memory Networks. | |
CN113065352B (zh) | 一种电网调度工作文本的操作内容识别方法 | |
CN117591648A (zh) | 基于情绪细微感知的电网客服共情对话回复生成方法 | |
József et al. | Automated grapheme-to-phoneme conversion system for Romanian | |
CN116342167A (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
CN116029295A (zh) | 一种电力文本实体抽取方法、缺陷定位方法及故障诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |