CN111489746B - 一种基于bert的电网调度语音识别语言模型构建方法 - Google Patents

一种基于bert的电网调度语音识别语言模型构建方法 Download PDF

Info

Publication number
CN111489746B
CN111489746B CN202010148584.2A CN202010148584A CN111489746B CN 111489746 B CN111489746 B CN 111489746B CN 202010148584 A CN202010148584 A CN 202010148584A CN 111489746 B CN111489746 B CN 111489746B
Authority
CN
China
Prior art keywords
word
power grid
grid dispatching
named entity
bert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010148584.2A
Other languages
English (en)
Other versions
CN111489746A (zh
Inventor
陈蕾
郑伟彦
杨勇
黄武浩
张弛
乐全明
童力
陈彤
黄红兵
章毅
刘宏伟
姜健
余慧华
傅婧
郑洁
曹青
向新宇
卢家驹
何岳昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN202010148584.2A priority Critical patent/CN111489746B/zh
Publication of CN111489746A publication Critical patent/CN111489746A/zh
Application granted granted Critical
Publication of CN111489746B publication Critical patent/CN111489746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及电网调度语音识别领域,尤其涉及一种基于BERT的电网调度语音识别语言模型构建方法,包括:提取电网调度语句的字粒度语义特征;提取电网调度语句的关键字特征;提取电网调度语句的命名实体特征;对输入BERT原始模型的电网调度语句以字为单元进行切分以提取位置特征,基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型。本发明的有益效果:根据电网调度语言特点和调度语音识别应用场景,对BERT模型的调度语句输入特征向量和输出概率预测方法进行改进,实现结合调度语言特征的电网调度语句合理性判断,且相比于其他常用的语言模型在电网调度语音识别方面有更高的准确性。

Description

一种基于BERT的电网调度语音识别语言模型构建方法
技术领域
本发明涉及电网调度语音识别领域,尤其涉及一种基于BERT的电网调度语音识别语言模型构建方法。
背景技术
随着配电网规模的扩大和信息化建设的推进,配网指挥涉及的信息不断增多,调度员每天需要进行大量重复性的发令、收令、核对等工作,由此产生了采用智能虚拟调度员代替重复性人工劳动的需求。其中,语音识别环节关系到虚拟调度员对现场人员汇报信息的准确理解,是调度指令正确处理和发送的基础。作为语音识别***的两个核心组成模块,声学模型和语言模型分别从发音和语义的角度对输入语音进行文字重构,其中语言模型的主要功能是给出输入句子为一个合理句子的概率,即对句子的语义合理性进行衡量。由于语言模型往往涉及特定领域的语义理解,因此需要针对应用领域的语言特点进行设计,以提高模型的准确性。
目前,针对于电力领域的语音识别语言模型研究还比较少。一些研究构建了电力语音识别***,但主要针对声学模型进行设计,在语言模型方面仅考虑了训练语料的选择,未对模型结构进行改进;一些研究在电力调度语言模型的使用过程中加入了语法规则,以辅助判断调度语言的合理性,但是涉及电网术语、命名实体等调度内容的合理性难以通过语法规则进行确定;一些研究考虑了电力专业术语,提出了可实时添加领域词的语言模型动态优化方法,提高了电力语音识别的准确性,但对于发音不准确的模糊匹配未进行充分设计。另外,上述研究所采用的语言模型均属于统计语言模型,未采用准确性和泛化能力更具优势的神经网络语言模型。
发明内容
为解决上述问题,本发明提出一种基于BERT的电网调度语音识别语言模型构建方法。
一种基于BERT的电网调度语音识别语言模型构建方法,包括:
提取电网调度语句的字粒度语义特征;
提取电网调度语句的关键字特征;
提取电网调度语句的命名实体特征;
对输入BERT原始模型的电网调度语句以字为单元进行切分以提取位置特征,基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型。
优选的,所述提取电网调度语句的字粒度语义特征包括:
以字为粒度对调度语句进行切分,每个字的语义特征向量采用word2vec的skip-gram模型生成。
优选的,所述提取电网调度语句的关键字特征包括:
对于电网调度语句中的每个字,将其拼音拆分为声母、韵母和声调三部分,当出现整体认读音节时直接拆分为声母和韵母,组合韵母不再进行拆分,不含声母的字或不含声调的字将声母或声调记为空值;
计算电网调度语句中每个字与各个关键字的相似度;
对于电网调度语句中的每个字,提取与其相似度最高的关键字的语义特征向量并根据相似度,得到该字的关键字特征向量。
优选的,所述计算电网调度语句中每个字与各个关键字的相似度包括:
计算公式如下:
Figure BDA0002401642950000031
式中:simsheng表示在两个字声母相同时取1,声母不同但分别为对应的平舌和翘舌音时取0.5,其余情况取0;simyun表示在两个字韵母相同时取1,韵母不同但分别为对应的前鼻和后鼻音时取0.5,其余情况取0;simdiao表示在两个字声调相同时取1,否则取0。
优选的,所述提取电网调度语句的命名实体特征包括:
利用电网台账信息,构建命名实体词典,并统计命名实体词典中最短和最长命名实体的字数,分别记为c和d;
对于电网调度语句中的每个字,提取包含该字的所有长度为q(q=c,c+1,…,d)的字序列,再计算得到每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度;
基于每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度计算得到电网调度语句中各个字的命名实体特征。
优选的,所述计算得到每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度包括:
计算公式为:
Figure BDA0002401642950000032
式中:simzi(r)表示字序列的第r个字与命名实体第r个字的相似度。
优选的,所述基于每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度计算得到电网调度语句中各个字的命名实体特征包括:
对于每一个字,设其共有e个对应的字序列,其中第s个字序列(s=1,2,…,e)与各个命名实体相似度的最大值记为msimxu(s),共有e个相似度最大值,再设该最大值中的最大者为msimxu(t),则称第t个字序列为该字的匹配字序列,计算该字的命名实体特征向量:
Figure BDA0002401642950000041
式中:f(u)表示命名实体特征向量第u个维度的值;g·msimxu(t)表示匹配字序列误识别的概率,其中g在匹配字序列和命名实体完全相同时为0,否则为1;pos表示该字为匹配字序列的第几个字;len表示匹配字序列的长度;dim表示命名实体特征向量的维数。
优选的,所述基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型包括:
对BERT原始模型进行MLM任务的无监督的预训练;
对BERT原始模型进行基于调度语句合理概率的有监督的训练。
优选的,所述基于对BERT原始模型进行MLM任务的无监督的预训练包括:
MLM任务随机遮蔽部分切分单元的输入,并在其对应的输出表示向量后再接入一个softmax层以预测被遮蔽的词或字,在多次预测的过程中对BERT原始模型的参数进行训练。
优选的,所述对BERT原始模型进行基于调度语句合理概率的有监督的训练包括:
对于一条包含j个字的电网调度语句,依次遮蔽第k个字(k=1,2,…,j)的输入,并采用经过MLM任务预训练的BERT原始模型和softmax层预测对应输出为该字的概率prok,最终计算得到电网调度语句为合理句子的概率:
Figure BDA0002401642950000051
本发明的有益效果:
通过发明提出的基于BERT的电网调度语音识别语言模型构建方法,可根据电网调度语言特点和调度语音识别应用场景,对BERT模型的调度语句输入特征向量和输出概率预测方法进行改进,实现结合调度语言特征的电网调度语句合理性判断,且相比于其他常用的语言模型在电网调度语音识别方面有更高的准确性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明一实施例一种基于BERT的电网调度语音识别语言模型构建方法的示意性流程图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
本发明的基本思想是结合电网调度语句特点,提出了调度语义特征、关键字特征和命名实体特征抽取方法,以生成模型输入语句的多类特征向量;根据电网调度语音识别的任务特点,对BERT的训练步骤进行调整,从而可利用基于神经网络语言模型的BERT无监督地对调度语句的合理性进行判断。
经分析,电网调度语句具有以下特点:1)电网调度语句中包含大量的命名实体,例如现场人员在上报操作设备的时候,可能涉及变电站名称、线路名称、电杆名称、开关名称等,这些命名实体对于一般的语言模型而言,由于缺乏相应的先验知识,通常难以准确地进行识别;2)电网调度指令的用语符合电力领域的相关规范,对于一些电力专业名词有相对固定的命名方式,例如采用“地名+站”的方式命名变电站,采用“地名+编号+线”的方式命名线路,采用“编号+杆”或“地名+编号+杆”的方式命名电杆等等;3)由于现场工作人员的普通话口音问题,以及室外环境的噪音干扰,在现场进行语音输入后经过声学模型识别,可能得到与正确发音不相同的语句,如将“基建分线”识别成“期限分线”等,因此在利用语言模型对识别结果进行判断时,需要充分考虑语言模型的输入语句与实际存在的差异。
基于以上思想,本发明提出了一种基于BERT的电网调度语音识别语言模型构建方法,如图1所示,包括以下步骤:
S1:提取电网调度语句的字粒度语义特征。
无论是基于统计的n-gram等语言模型,或者是基于神经网络的语言模型,通常都以词为粒度对语句进行切分。但是电网调度语句中包含大量与电力领域相关的命名实体,加之发音不准确可能带来的人为干扰,预先对电网调度文本进行分词处理可能导致文本的切分方式与实际含义出现较大的偏差,例如将“成虎变/成联A555线”切分为“成虎/变成/联A555线”等。即使生成多种候选的切分方案,也常常无法涵盖正确的句子切分方式。为了避免分词错误对特征提取准确性产生影响,直接以字为粒度对调度语句进行切分,每个字的语义特征向量采用word2vec的skip-gram模型生成。在基于字粒度的分布式表示方式下,一条包含a个字的电网调度文本将被转化为a个b维的向量,其中第p个向量(p=1,2,…,a)表征电网调度文本第p个字的语义特征,b为每个字特征向量的维数。
S2:提取电网调度语句的关键字特征。
虽然电网调度语言属于自然语言的范畴,但其中包含的专业性用语仍符合电力领域的规范。通过一些电力专业名词较为固定的关键字,可以有效地对其前后的语义单元进行区分,如通过“变”和“线”可以对“洪畴变南洋T649线重合闸由信号改为跳闸”的变电站名称字段和线路名称字段进行有效识别。因此,为使语言模型更准确地理解电网调度语言的真实含义,有必要提取其中的关键字特征,具体关键字如表1所示:
表1电网调度语言的关键字
Figure BDA0002401642950000071
由于电网调度的相关信息是由现场人员语音输入,所以提取调度信息中的关键字特征时,应从字的发音方面进行考虑。为此,提出基于拼音特征的相似度计算方法。对于调度信息中的每个字,首先将其拼音拆分为声母、韵母和声调三部分,当出现整体认读音节时直接拆分为声母和韵母,如将“yin”拆分为“y”和“in”;组合韵母不再进行拆分,如由韵母“u”和“an”组合成的“uan”视为一个新的韵母;不含声母的字(如“安”)或不含声调的字(如“了”)将声母或声调记为空值。然后,计算调度信息中每个字与各个关键字的相似度,计算公式如下:
Figure BDA0002401642950000081
式中:simsheng在两个字声母相同时取1,声母不同但分别为对应的平舌和翘舌音时(如“z”和“zh”)取0.5,其余情况取0;simyun在两个字韵母相同时取1,韵母不同但分别为对应的前鼻和后鼻音时(如“an”和“ang”)取0.5,其余情况取0;simdiao在两个字声调相同时取1,否则取0。最后,对于调度信息中的每个字,取与其相似度最高的关键字的语义特征向量(若有多个相似度最高的关键字则取对应的多个语义特征向量的均值),并乘以相似度,得到该字的关键字特征向量。
S3:提取电网调度语句的命名实体特征。
电网调度语言中的命名实体,如变电站名、线路名等,绝大部分不属于中文常用词汇。因此,在电力调度文本语料库中,这些命名实体出现的频率很低,可利用的上下文信息十分有限,导致在实际应用时难以借助上下文确定命名实体的识别正确性。因此,需要引入电网台账信息,构建电网调度语言的命名实体特征,以辅助进行命名实体识别正确性的判断。
为此,首先利用包含各个电力站点、设备等名称的电网台账信息,构建命名实体词典。同时,统计命名实体词典中最短和最长命名实体的字数,分别记为c和d。
然后,对于电网调度语句中的每个字,取包含该字的所有长度为q(q=c,c+1,…,d)的字序列,再求每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度,相似度同样需要从字的发音方面进行定义,计算公式为:
Figure BDA0002401642950000082
式中:simzi(r)表示字序列的第r个字与命名实体第r个字的相似度,相似度按式(1)计算。
最后,形成电网调度语句中各个字的命名实体特征。对于每一个字,设其共有e个对应的字序列,其中第s个字序列(s=1,2,…,e)与各个命名实体相似度的最大值记为msimxu(s),共有e个相似度最大值,再设这些最大值中的最大者为msimxu(t)(即第t个字序列的相似度最大值),则称第t个字序列为该字的匹配字序列,然后按照式(3)计算该字的命名实体特征向量:
Figure BDA0002401642950000091
式中:f(u)表示命名实体特征向量第u个维度的值;g·msimxu(t)表示匹配字序列误识别的概率,其中g在匹配字序列和命名实体完全相同时为0,否则为1,因为在匹配字序列和命名实体不相同时,两者相似度msimxu(t)越高,说明匹配字序列是误识别结果的概率越大(如“惠复站”误识别结果为“恢复站”),从而g·msimxu(t)越大,但若匹配字序列和命名实体完全相同,则应认为匹配字序列是正确的,即误识别的概率为0,故此时令g=0使得g·msimxu(t)=0;pos表示该字为匹配字序列的第几个字;len为匹配字序列的长度;dim为命名实体特征向量的维数。
S4:对输入BERT原始模型的电网调度语句以字为单元进行切分以提取位置特征,基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型。
对输入BERT的电网调度语句以字为单元进行切分。在BERT的原始模型结构中,对每个切分单元提取3类特征,即语义特征、片段特征和位置特征。其中,语义特征向量反映每个切分单元本身的语义信息;片段特征向量用于两个句子同时输入BERT时标记每个切分单元属于哪个句子;位置特征向量用于表示每个切分单元在句子中的位置。而在电网调度语音识别语言模型中,调度语句每个字的语义特征向量通过步骤S1生成;由于电网调度指令以单句的形式出现,所以在电网调度语言模型中不需要加入片段特征;位置特征向量则按照BERT的方法在模型训练过程中自动学习得到。同时,考虑电网调度语言的特点,加入步骤S2的关键字特征向量和步骤S3的命名实体特征向量,以提高语言模型对电网调度语言理解的准确性。最终调度语句的每个字包含4个类别的特征,即语义特征、位置特征、关键字特征和命名实体特征。
原始的BERT模型在进行无监督的预训练时,包括了两个训练任务,即遮蔽语言模型(Masked Language Model,MLM)和下句预测(Next Sentence Prediction,NSP)。MLM任务随机遮蔽部分切分单元的输入,并在其对应的输出表示向量后再接入一个softmax层以预测被遮蔽的词或字,在多次预测的过程中对BERT的参数进行训练;NSP任务同时输入两个句子,并通过预测两个句子是否为实际文章中连续的句子,对BERT进行训练。同样地,由于电网调度指令以单句形式出现,在构建电网调度语言模型时,不需要对BERT进行NSP任务的预训练,只进行MLM任务的预训练。
经过无监督预训练后,原始的BERT模型需要进行有监督的精调以适用于特定的自然语言处理任务,但精调过程需要耗费较大人力进行数据标注。本发明结合电网调度语言模型的任务,即判断调度语句的合理性,提出一种计算调度语句合理概率的方法。对于一条包含j个字的调度语句,依次遮蔽第k个字(k=1,2,…,j)的输入,并采用经过MLM任务预训练的BERT和softmax层预测其对应输出为该字的概率prok,最终得到调度语句为合理句子的概率:
Figure BDA0002401642950000101
上述方法一方面可以充分利用模型在MLM任务上的预训练结果,另一方面不需要加入额外的标注数据,有效降低了模型训练门槛。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (8)

1.一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,包括:
提取电网调度语句的字粒度语义特征;
提取电网调度语句的关键字特征;
提取电网调度语句的命名实体特征;
对输入BERT原始模型的电网调度语句以字为单元进行切分以提取位置特征,基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型;
所述提取电网调度语句的命名实体特征包括:
利用电网台账信息,构建命名实体词典,并统计命名实体词典中最短和最长命名实体的字数,分别记为c和d;
对于电网调度语句中的每个字,提取包含该字的所有长度为q(q=c,c+1,…,d)的字序列,再计算得到每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度;
基于每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度计算得到电网调度信息中各个字的命名实体特征;
所述基于每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度计算得到电网调度信息中各个字的命名实体特征包括:
对于每一个字,设其共有e个对应的字序列,其中第s个字序列(s=1,2,…,e)与各个命名实体相似度的最大值记为msimxu(s),共有e个相似度最大值,再设该最大值中的最大者为msimxu(t),则称第t个字序列为该字的匹配字序列,计算该字的命名实体特征向量:
Figure FDA0003612925610000021
式中:f(u)表示命名实体特征向量第u个维度的值;g·msimxu(t)表示匹配字序列误识别的概率,其中g在匹配字序列和命名实体完全相同时为0,否则为1;pos表示该字为匹配字序列的第几个字;len表示匹配字序列的长度;dim表示命名实体特征向量的维数。
2.根据权利要求1所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述提取电网调度语句的字粒度语义特征包括:
以字为粒度对调度语句进行切分,每个字的语义特征向量采用word2vec的skip-gram模型生成。
3.根据权利要求1所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述提取电网调度语句的关键字特征包括:
对于电网调度语句中的每个字,将其拼音拆分为声母、韵母和声调三部分,当出现整体认读音节时直接拆分为声母和韵母,组合韵母不再进行拆分,不含声母的字或不含声调的字将声母或声调记为空值;
计算电网调度语句中每个字与各个关键字的相似度;
对于电网调度语句中的每个字,提取与其相似度最高的关键字的语义特征向量并根据相似度,得到该字的关键字特征向量。
4.根据权利要求3所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述计算电网调度语句中每个字与各个关键字的相似度包括:
计算公式如下:
Figure FDA0003612925610000022
式中:simsheng表示在两个字声母相同时取1,声母不同但分别为对应的平舌和翘舌音时取0.5,其余情况取0;simyun表示在两个字韵母相同时取1,韵母不同但分别为对应的前鼻和后鼻音时取0.5,其余情况取0;simdiao表示在两个字声调相同时取1,否则取0。
5.根据权利要求1所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述计算得到每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度包括:
计算公式为:
Figure FDA0003612925610000031
式中:simzi(r)表示字序列的第r个字与命名实体第r个字的相似度。
6.根据权利要求1所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型包括:
对BERT原始模型进行MLM任务的无监督的预训练;
对BERT原始模型进行基于调度语句合理概率的有监督的训练。
7.根据权利要求6所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述基于对BERT原始模型进行MLM任务的无监督的预训练包括:
MLM任务随机遮蔽部分切分单元的输入,并在其对应的输出表示向量后再接入一个softmax层以预测被遮蔽的词或字,在多次预测的过程中对BERT原始模型的参数进行训练。
8.根据权利要求7所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述对BERT原始模型进行基于调度语句合理概率的有监督的训练包括:
对于一条包含j个字的电网调度语句,依次遮蔽第k个字(k=1,2,…,j)的输入,并采用经过MLM任务预训练的BERT原始模型和softmax层预测对应输出为该字的概率prok,最终计算得到电网调度语句为合理句子的概率:
Figure FDA0003612925610000041
CN202010148584.2A 2020-03-05 2020-03-05 一种基于bert的电网调度语音识别语言模型构建方法 Active CN111489746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010148584.2A CN111489746B (zh) 2020-03-05 2020-03-05 一种基于bert的电网调度语音识别语言模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010148584.2A CN111489746B (zh) 2020-03-05 2020-03-05 一种基于bert的电网调度语音识别语言模型构建方法

Publications (2)

Publication Number Publication Date
CN111489746A CN111489746A (zh) 2020-08-04
CN111489746B true CN111489746B (zh) 2022-07-26

Family

ID=71794395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010148584.2A Active CN111489746B (zh) 2020-03-05 2020-03-05 一种基于bert的电网调度语音识别语言模型构建方法

Country Status (1)

Country Link
CN (1) CN111489746B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420042A (zh) * 2020-11-19 2021-02-26 国网北京市电力公司 电力***的控制方法及装置
CN113342585A (zh) * 2021-06-28 2021-09-03 沈阳工业大学 一种基于语言语义判断的pcb走线断口检测和识别方法
CN113591475B (zh) * 2021-08-03 2023-07-21 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备
CN113488061B (zh) * 2021-08-05 2024-02-23 国网江苏省电力有限公司 基于改进Synth2Aug的配网调度员身份验证方法及***
CN113688210B (zh) * 2021-09-06 2024-02-09 北京科东电力控制***有限责任公司 一种电网调度意图识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980620A (zh) * 2016-01-18 2017-07-25 阿里巴巴集团控股有限公司 一种对中文字串进行匹配的方法及装置
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110263182A (zh) * 2019-06-18 2019-09-20 京东方科技集团股份有限公司 画作推荐方法及***、终端设备、计算机设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11232101B2 (en) * 2016-10-10 2022-01-25 Microsoft Technology Licensing, Llc Combo of language understanding and information retrieval

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980620A (zh) * 2016-01-18 2017-07-25 阿里巴巴集团控股有限公司 一种对中文字串进行匹配的方法及装置
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110263182A (zh) * 2019-06-18 2019-09-20 京东方科技集团股份有限公司 画作推荐方法及***、终端设备、计算机设备及介质

Also Published As

Publication number Publication date
CN111489746A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN111489746B (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN108510976B (zh) 一种多语言混合语音识别方法
CN108124477B (zh) 基于伪数据改进分词器以处理自然语言
CN110287494A (zh) 一种基于深度学习bert算法的短文本相似匹配的方法
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN105404621A (zh) 一种用于盲人读取汉字的方法及***
Li et al. Towards zero-shot learning for automatic phonemic transcription
Jin et al. A Korean named entity recognition method using Bi-LSTM-CRF and masked self-attention
CN107797987A (zh) 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
Mohammed Using machine learning to build POS tagger for under-resourced language: the case of Somali
CN110377882A (zh) 用于确定文本的拼音的方法、装置、***和存储介质
CN111222329B (zh) 句向量训练方法及模型、句向量预测方法及***
CN114970529A (zh) 基于机器学习的命名实体识别(ner)机制的弱监督和可解释训练
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN112183060B (zh) 多轮对话***的指代消解方法
CN110750967B (zh) 一种发音的标注方法、装置、计算机设备和存储介质
Yang et al. ASR error correction with constrained decoding on operation prediction
Ananth et al. Grammatical tagging for the Kannada text documents using hybrid bidirectional long-short term memory model
Naulla et al. Predicting the Next Word of a Sinhala Word Series Using Recurrent Neural Networks
Mamatov et al. Construction of language models for Uzbek language
Forsati et al. An efficient meta heuristic algorithm for pos-tagging
CN111090720B (zh) 一种热词的添加方法和装置
CN113536776A (zh) 混淆语句的生成方法、终端设备及计算机可读存储介质
CN112613316A (zh) 一种生成古汉语标注模型的方法和***
CN111414747A (zh) 一种基于弱监督学习的时间知识模糊测度方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant