CN111489746B

CN111489746B - 一种基于bert的电网调度语音识别语言模型构建方法

Info

Publication number: CN111489746B
Application number: CN202010148584.2A
Authority: CN
Inventors: 陈蕾; 郑伟彦; 杨勇; 黄武浩; 张弛; 乐全明; 童力; 陈彤; 黄红兵; 章毅; 刘宏伟; 姜健; 余慧华; 傅婧; 郑洁; 曹青; 向新宇; 卢家驹; 何岳昊
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2022-07-26
Anticipated expiration: 2040-03-05
Also published as: CN111489746A

Abstract

本发明涉及电网调度语音识别领域，尤其涉及一种基于BERT的电网调度语音识别语言模型构建方法，包括：提取电网调度语句的字粒度语义特征；提取电网调度语句的关键字特征；提取电网调度语句的命名实体特征；对输入BERT原始模型的电网调度语句以字为单元进行切分以提取位置特征，基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型。本发明的有益效果：根据电网调度语言特点和调度语音识别应用场景，对BERT模型的调度语句输入特征向量和输出概率预测方法进行改进，实现结合调度语言特征的电网调度语句合理性判断，且相比于其他常用的语言模型在电网调度语音识别方面有更高的准确性。

Description

一种基于BERT的电网调度语音识别语言模型构建方法

技术领域

本发明涉及电网调度语音识别领域，尤其涉及一种基于BERT的电网调度语音识别语言模型构建方法。

背景技术

随着配电网规模的扩大和信息化建设的推进，配网指挥涉及的信息不断增多，调度员每天需要进行大量重复性的发令、收令、核对等工作，由此产生了采用智能虚拟调度员代替重复性人工劳动的需求。其中，语音识别环节关系到虚拟调度员对现场人员汇报信息的准确理解，是调度指令正确处理和发送的基础。作为语音识别***的两个核心组成模块，声学模型和语言模型分别从发音和语义的角度对输入语音进行文字重构，其中语言模型的主要功能是给出输入句子为一个合理句子的概率，即对句子的语义合理性进行衡量。由于语言模型往往涉及特定领域的语义理解，因此需要针对应用领域的语言特点进行设计，以提高模型的准确性。

目前，针对于电力领域的语音识别语言模型研究还比较少。一些研究构建了电力语音识别***，但主要针对声学模型进行设计，在语言模型方面仅考虑了训练语料的选择，未对模型结构进行改进；一些研究在电力调度语言模型的使用过程中加入了语法规则，以辅助判断调度语言的合理性，但是涉及电网术语、命名实体等调度内容的合理性难以通过语法规则进行确定；一些研究考虑了电力专业术语，提出了可实时添加领域词的语言模型动态优化方法，提高了电力语音识别的准确性，但对于发音不准确的模糊匹配未进行充分设计。另外，上述研究所采用的语言模型均属于统计语言模型，未采用准确性和泛化能力更具优势的神经网络语言模型。

发明内容

为解决上述问题，本发明提出一种基于BERT的电网调度语音识别语言模型构建方法。

一种基于BERT的电网调度语音识别语言模型构建方法，包括：

提取电网调度语句的字粒度语义特征；

提取电网调度语句的关键字特征；

提取电网调度语句的命名实体特征；

对输入BERT原始模型的电网调度语句以字为单元进行切分以提取位置特征，基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型。

优选的，所述提取电网调度语句的字粒度语义特征包括：

以字为粒度对调度语句进行切分，每个字的语义特征向量采用word2vec的skip-gram模型生成。

优选的，所述提取电网调度语句的关键字特征包括：

对于电网调度语句中的每个字，将其拼音拆分为声母、韵母和声调三部分，当出现整体认读音节时直接拆分为声母和韵母，组合韵母不再进行拆分，不含声母的字或不含声调的字将声母或声调记为空值；

计算电网调度语句中每个字与各个关键字的相似度；

对于电网调度语句中的每个字，提取与其相似度最高的关键字的语义特征向量并根据相似度，得到该字的关键字特征向量。

优选的，所述计算电网调度语句中每个字与各个关键字的相似度包括：

计算公式如下：

式中：sim_sheng表示在两个字声母相同时取1，声母不同但分别为对应的平舌和翘舌音时取0.5，其余情况取0；sim_yun表示在两个字韵母相同时取1，韵母不同但分别为对应的前鼻和后鼻音时取0.5，其余情况取0；sim_diao表示在两个字声调相同时取1，否则取0。

优选的，所述提取电网调度语句的命名实体特征包括：

利用电网台账信息，构建命名实体词典，并统计命名实体词典中最短和最长命名实体的字数，分别记为c和d；

对于电网调度语句中的每个字，提取包含该字的所有长度为q(q＝c,c+1,…,d)的字序列，再计算得到每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度；

基于每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度计算得到电网调度语句中各个字的命名实体特征。

优选的，所述计算得到每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度包括：

计算公式为：

式中：sim_zi(r)表示字序列的第r个字与命名实体第r个字的相似度。

优选的，所述基于每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度计算得到电网调度语句中各个字的命名实体特征包括：

对于每一个字，设其共有e个对应的字序列，其中第s个字序列(s＝1,2,…,e)与各个命名实体相似度的最大值记为msim_xu(s)，共有e个相似度最大值，再设该最大值中的最大者为msim_xu(t)，则称第t个字序列为该字的匹配字序列，计算该字的命名实体特征向量：

式中：f(u)表示命名实体特征向量第u个维度的值；g·msim_xu(t)表示匹配字序列误识别的概率，其中g在匹配字序列和命名实体完全相同时为0，否则为1；pos表示该字为匹配字序列的第几个字；len表示匹配字序列的长度；dim表示命名实体特征向量的维数。

优选的，所述基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型包括：

对BERT原始模型进行MLM任务的无监督的预训练；

对BERT原始模型进行基于调度语句合理概率的有监督的训练。

优选的，所述基于对BERT原始模型进行MLM任务的无监督的预训练包括：

MLM任务随机遮蔽部分切分单元的输入，并在其对应的输出表示向量后再接入一个softmax层以预测被遮蔽的词或字，在多次预测的过程中对BERT原始模型的参数进行训练。

优选的，所述对BERT原始模型进行基于调度语句合理概率的有监督的训练包括：

对于一条包含j个字的电网调度语句，依次遮蔽第k个字(k＝1,2,…,j)的输入，并采用经过MLM任务预训练的BERT原始模型和softmax层预测对应输出为该字的概率pro_k，最终计算得到电网调度语句为合理句子的概率：

本发明的有益效果：

通过发明提出的基于BERT的电网调度语音识别语言模型构建方法，可根据电网调度语言特点和调度语音识别应用场景，对BERT模型的调度语句输入特征向量和输出概率预测方法进行改进，实现结合调度语言特征的电网调度语句合理性判断，且相比于其他常用的语言模型在电网调度语音识别方面有更高的准确性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明一实施例一种基于BERT的电网调度语音识别语言模型构建方法的示意性流程图。

具体实施方式

以下结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

本发明的基本思想是结合电网调度语句特点，提出了调度语义特征、关键字特征和命名实体特征抽取方法，以生成模型输入语句的多类特征向量；根据电网调度语音识别的任务特点，对BERT的训练步骤进行调整，从而可利用基于神经网络语言模型的BERT无监督地对调度语句的合理性进行判断。

经分析，电网调度语句具有以下特点：1)电网调度语句中包含大量的命名实体，例如现场人员在上报操作设备的时候，可能涉及变电站名称、线路名称、电杆名称、开关名称等，这些命名实体对于一般的语言模型而言，由于缺乏相应的先验知识，通常难以准确地进行识别；2)电网调度指令的用语符合电力领域的相关规范，对于一些电力专业名词有相对固定的命名方式，例如采用“地名+站”的方式命名变电站，采用“地名+编号+线”的方式命名线路，采用“编号+杆”或“地名+编号+杆”的方式命名电杆等等；3)由于现场工作人员的普通话口音问题，以及室外环境的噪音干扰，在现场进行语音输入后经过声学模型识别，可能得到与正确发音不相同的语句，如将“基建分线”识别成“期限分线”等，因此在利用语言模型对识别结果进行判断时，需要充分考虑语言模型的输入语句与实际存在的差异。

基于以上思想，本发明提出了一种基于BERT的电网调度语音识别语言模型构建方法，如图1所示，包括以下步骤：

S1：提取电网调度语句的字粒度语义特征。

无论是基于统计的n-gram等语言模型，或者是基于神经网络的语言模型，通常都以词为粒度对语句进行切分。但是电网调度语句中包含大量与电力领域相关的命名实体，加之发音不准确可能带来的人为干扰，预先对电网调度文本进行分词处理可能导致文本的切分方式与实际含义出现较大的偏差，例如将“成虎变/成联A555线”切分为“成虎/变成/联A555线”等。即使生成多种候选的切分方案，也常常无法涵盖正确的句子切分方式。为了避免分词错误对特征提取准确性产生影响，直接以字为粒度对调度语句进行切分，每个字的语义特征向量采用word2vec的skip-gram模型生成。在基于字粒度的分布式表示方式下，一条包含a个字的电网调度文本将被转化为a个b维的向量，其中第p个向量(p＝1,2,…,a)表征电网调度文本第p个字的语义特征，b为每个字特征向量的维数。

S2：提取电网调度语句的关键字特征。

虽然电网调度语言属于自然语言的范畴，但其中包含的专业性用语仍符合电力领域的规范。通过一些电力专业名词较为固定的关键字，可以有效地对其前后的语义单元进行区分，如通过“变”和“线”可以对“洪畴变南洋T649线重合闸由信号改为跳闸”的变电站名称字段和线路名称字段进行有效识别。因此，为使语言模型更准确地理解电网调度语言的真实含义，有必要提取其中的关键字特征，具体关键字如表1所示：

表1电网调度语言的关键字

由于电网调度的相关信息是由现场人员语音输入，所以提取调度信息中的关键字特征时，应从字的发音方面进行考虑。为此，提出基于拼音特征的相似度计算方法。对于调度信息中的每个字，首先将其拼音拆分为声母、韵母和声调三部分，当出现整体认读音节时直接拆分为声母和韵母，如将“yin”拆分为“y”和“in”；组合韵母不再进行拆分，如由韵母“u”和“an”组合成的“uan”视为一个新的韵母；不含声母的字(如“安”)或不含声调的字(如“了”)将声母或声调记为空值。然后，计算调度信息中每个字与各个关键字的相似度，计算公式如下：

式中：sim_sheng在两个字声母相同时取1，声母不同但分别为对应的平舌和翘舌音时(如“z”和“zh”)取0.5，其余情况取0；sim_yun在两个字韵母相同时取1，韵母不同但分别为对应的前鼻和后鼻音时(如“an”和“ang”)取0.5，其余情况取0；sim_diao在两个字声调相同时取1，否则取0。最后，对于调度信息中的每个字，取与其相似度最高的关键字的语义特征向量(若有多个相似度最高的关键字则取对应的多个语义特征向量的均值)，并乘以相似度，得到该字的关键字特征向量。

S3：提取电网调度语句的命名实体特征。

电网调度语言中的命名实体，如变电站名、线路名等，绝大部分不属于中文常用词汇。因此，在电力调度文本语料库中，这些命名实体出现的频率很低，可利用的上下文信息十分有限，导致在实际应用时难以借助上下文确定命名实体的识别正确性。因此，需要引入电网台账信息，构建电网调度语言的命名实体特征，以辅助进行命名实体识别正确性的判断。

为此，首先利用包含各个电力站点、设备等名称的电网台账信息，构建命名实体词典。同时，统计命名实体词典中最短和最长命名实体的字数，分别记为c和d。

然后，对于电网调度语句中的每个字，取包含该字的所有长度为q(q＝c,c+1,…,d)的字序列，再求每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度，相似度同样需要从字的发音方面进行定义，计算公式为：

式中：sim_zi(r)表示字序列的第r个字与命名实体第r个字的相似度，相似度按式(1)计算。

最后，形成电网调度语句中各个字的命名实体特征。对于每一个字，设其共有e个对应的字序列，其中第s个字序列(s＝1,2,…,e)与各个命名实体相似度的最大值记为msim_xu(s)，共有e个相似度最大值，再设这些最大值中的最大者为msim_xu(t)(即第t个字序列的相似度最大值)，则称第t个字序列为该字的匹配字序列，然后按照式(3)计算该字的命名实体特征向量：

式中：f(u)表示命名实体特征向量第u个维度的值；g·msim_xu(t)表示匹配字序列误识别的概率，其中g在匹配字序列和命名实体完全相同时为0，否则为1，因为在匹配字序列和命名实体不相同时，两者相似度msim_xu(t)越高，说明匹配字序列是误识别结果的概率越大(如“惠复站”误识别结果为“恢复站”)，从而g·msim_xu(t)越大，但若匹配字序列和命名实体完全相同，则应认为匹配字序列是正确的，即误识别的概率为0，故此时令g＝0使得g·msim_xu(t)＝0；pos表示该字为匹配字序列的第几个字；len为匹配字序列的长度；dim为命名实体特征向量的维数。

S4：对输入BERT原始模型的电网调度语句以字为单元进行切分以提取位置特征，基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型。

对输入BERT的电网调度语句以字为单元进行切分。在BERT的原始模型结构中，对每个切分单元提取3类特征，即语义特征、片段特征和位置特征。其中，语义特征向量反映每个切分单元本身的语义信息；片段特征向量用于两个句子同时输入BERT时标记每个切分单元属于哪个句子；位置特征向量用于表示每个切分单元在句子中的位置。而在电网调度语音识别语言模型中，调度语句每个字的语义特征向量通过步骤S1生成；由于电网调度指令以单句的形式出现，所以在电网调度语言模型中不需要加入片段特征；位置特征向量则按照BERT的方法在模型训练过程中自动学习得到。同时，考虑电网调度语言的特点，加入步骤S2的关键字特征向量和步骤S3的命名实体特征向量，以提高语言模型对电网调度语言理解的准确性。最终调度语句的每个字包含4个类别的特征，即语义特征、位置特征、关键字特征和命名实体特征。

原始的BERT模型在进行无监督的预训练时，包括了两个训练任务，即遮蔽语言模型(Masked Language Model，MLM)和下句预测(Next Sentence Prediction，NSP)。MLM任务随机遮蔽部分切分单元的输入，并在其对应的输出表示向量后再接入一个softmax层以预测被遮蔽的词或字，在多次预测的过程中对BERT的参数进行训练；NSP任务同时输入两个句子，并通过预测两个句子是否为实际文章中连续的句子，对BERT进行训练。同样地，由于电网调度指令以单句形式出现，在构建电网调度语言模型时，不需要对BERT进行NSP任务的预训练，只进行MLM任务的预训练。

经过无监督预训练后，原始的BERT模型需要进行有监督的精调以适用于特定的自然语言处理任务，但精调过程需要耗费较大人力进行数据标注。本发明结合电网调度语言模型的任务，即判断调度语句的合理性，提出一种计算调度语句合理概率的方法。对于一条包含j个字的调度语句，依次遮蔽第k个字(k＝1,2,…,j)的输入，并采用经过MLM任务预训练的BERT和softmax层预测其对应输出为该字的概率pro_k，最终得到调度语句为合理句子的概率：

上述方法一方面可以充分利用模型在MLM任务上的预训练结果，另一方面不需要加入额外的标注数据，有效降低了模型训练门槛。

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。