CN112632997A

CN112632997A - 基于BERT和Word2Vec向量融合的中文实体识别方法

Info

Publication number: CN112632997A
Application number: CN202011462808.3A
Authority: CN
Inventors: 张有强
Original assignee: Hebei University of Engineering
Current assignee: Hebei University of Engineering
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-04-09

Abstract

本发明公开了一种基于BERT和Word2Vec向量融合的中文实体识别方法。该方法整体分为三个阶段，首先将海量文本预处理，之后输入到BERT和Word2Vec模型训练，获得预训练BERT模型和静态词向量表；接着将待识别文本与词向量表进行匹配获取每个字符的候选词向量，通过设计的两种融合策略对每个字的候选词向量融合，之后与BERT输出的字向量拼接；最后将拼接的字向量输入Bi‑LSTM‑CRF进行实体识别模型的训练。本发明构建的基于BERT和Word2Vec向量融合的中文实体识别方法，通过词向量融合拼接的方式间接引入了词语的边界信息，且利用BERT获取具体语境下的字向量，充分表征了字的多义性。

Description

基于BERT和Word2Vec向量融合的中文实体识别方法

技术领域

本发明属于命名实体识别领域，具体涉及一种基于BERT和Word2Vec 向量融合的中文实体识别方法。

背景技术

命名实体识别是一项识别文本中指定类型的实体成分并对其进行分类的任务，常见的实体类型包括：人名、地名、机构名等。在网络数据日益剧增的今天，命名实体识别为数据挖掘提供了强有力的支持，同时它也是信息检索、问答***、知识图谱等任务的重要组成部分。常用的命名实体识别方法主要分为以下三类：基于规则和词典的方法、基于统计机器学习的方法和基于深度学习的方法。

基于规则和词典的方法，需要依靠语言学专家手工设计规则模板，选取能够描述预定义类型的实体特征，包括：统计信息、关键字、指示词、位置词以及标点符号等，结合领域内的词典，通过规则模板与字符串匹配的方式进行实体识别。

基于统计机器学习的方法，把命名实体识别当作序列标注任务处理，该类方法不需要拥有深厚语言学知识的专家来挑选和设计特征，普通研究人员就可以挑选出能有效反映该类实体特性的特征集合，包括：单词特征、上下文特征、词性特征以及语义特征等。通常采用人工标注的语料训练模型，常用的机器学习模型包括：隐马尔可夫模型、最大熵模型、支持向量机、条件随机场等。

基于深度学习的方法，能够进行端到端的模型训练，避免了人工挑选和设计特征的问题。随着人工神经网络在词嵌入技术中的应用，使用大量未标注语料进行无监督预训练，可以获得更贴近词语表达含义的低维稠密的原生词向量，常用的词向量训练模型包括：Word2Vec、Glove等。在特征提取上常用的深度学习模型有卷积神经网络、循环神经网络等，其中双向长短时记忆(Bidirectional Long Short Term Memory,Bi-LSTM)网络是最经典，也是效果较好的一个模型，而标签解码一般采用条件随机场(ConditionalRandom Fields,CRF)模型。

基于预训练语言模型的方法，使用海量文本对语言模型进行无监督预训练，常用的预训练语言模型是BERT(Bidirectional Encoder Representations fromTransformers)，利用获得的预训练模型在实体识别数据集上通过微调参数的方式进行实体识别。

但上述技术在下列缺陷：

基于规则和词典的方法具有较强的领域性，且有限的规则无法覆盖所有的语言现象，缺乏鲁棒性和可移植性；

基于统计机器学习的方法，需要人工进行特征的挑选和组合，且人类语言的使用通常具有很大的随意性，仅仅使用基于统计的方法会使状态搜索空间非常庞大，导致实体识别效果不好；

基于深度学习的方法，采用Word2Vec等模型训练获得固定的静态词向量来表示词语的语义含义，无法解决一词多义的问题，且分词错误会导致误差传播，影响实体识别效果；

基于BERT预训练语言模型微调的方法，通常模型参数量巨大，训练和预测都要花费很长的时间，且在训练和部署方面对硬件设施的要求较高。

发明内容

本发明的目的是为了解决现有技术存在的上述所列问题，提供了一种基于BERT和Word2Vec向量融合的中文实体识别方案，在保证实体识别效果的前提下提高模型训练和预测的效率。

为实现上述目的，本发明采用的技术方案为：使用BERT模型获取包含上下文信息的动态字向量，使用Word2Vec模型获取静态词向量，之后通过两种词向量融合策略对候选词向量进行融合，最后将字向量和融合后的词向量拼接作为后续模型的输入向量，且使用了经典的Bi-LSTM-CRF模型进行特征编码和标签的解码。

基于BERT和Word2Vec进行向量融合的中文实体识别方法，具体包括以下步骤：

步骤1，获取海量中文文本语料，利用Python中的jieba模块对文本进行分词，训练Word2Vec模型，获取静态词向量表；

步骤2，对BERT模型进行预训练，把中文文本构造成BERT模型需要的输入格式，具体分为以下几步：

2.1对于原始语料，通过换行来分割句子，通过空行来分割上下文；

2.2构建BERT下一句预测预训练任务需要的样本，其中正样本表示的是输入的两个句子是存在上下文关系的连续的两个句子；负样本表示的是不存在语义关系的随机选择的两个句子；

2.3对于超过设定的最大长度的句子，随机选择从句首或句尾进行截断；

2.4将待输入的两个句子用[SEP]标签连接，并且在整个句首添加[CLS] 标签，整个句尾添加[SEP]标签，若句子长度不够，用[PAD]标签进行填充；

2.5构建BERT遮蔽语言模型预训练任务需要的样本，随机选择句子中 15％的字符进行遮蔽，对于选中的字符80％的时间用[MASK]代替，10％的时间用随机选择的一个字符代替，10％的时间保持原字符不变；

步骤3，根据上述两个预训练任务训练BERT模型，训练目标分别是预测当前输入的句子对是否是存在上下文关系的句子和预测被遮蔽掉字符的原始内容，最终获得预训练好的BERT模型；

步骤4，中文命名实体识别数据集的获取、预处理以及标注，具体标注方式一般采用BIO标注法，其中B表示实体开始字符，I表示实体中间和结尾字符，O表示非实体字符；

步骤5，对步骤4得到的数据集进行预处理，给每一个句子的句首添加 [CLS]标签，句尾添加[SEP]标签，将处理好的句子输入步骤3获得的预训练 BERT模型，最终获得BERT模型输出句子中每一个字符的字向量；

步骤6，对步骤4得到的数据集中的每一个句子，通过与词汇表进行匹配获取该句子包含的所有候选词语，查询步骤1获得的静态词向量表，获得每一个候选词语的词向量，将句子中每个字对应的候选词语的词向量通过两种向量融合策略进行融合，来表示每个字在词汇层面的语义含义，具体包含以下两种词向量融合策略：

6.1词向量融合策略一：对句子中每个字的候选词向量进行求和取均值，以“广州市长隆公园”句子为例，“广”字包含“广州”和“广州市”两个候选词语，首先查询词向量表获得两个词语的词向量，然后对两个词向量求和取均值作为“广”字的词向量表示部分。

6.2词向量融合策略二：对句子中每个字的候选词向量以词频作为权重进行加权求和，同样以上述例子为例，首先统计“广州”和“广州市”在数据集中出现的总次数，然后将两个词出现的次数分别除以两个词的总次数作为两个词向量的权重，最后将权重和词向量相乘并求和作为“广”字的词向量表示部分，其余字符同理，当某个字不存在匹配词语时，用[None]的词向量表示该字的词向量部分，维度同其他词向量维度一样。

步骤7，将步骤6得到的每个字的词向量与步骤5得到的每个字的字向量进行拼接，获得每个字符的最终字向量；

步骤8，将步骤7得到的字向量输入Bi-LSTM-CRF模型进行训练预测，得到实体识别结果。

本发明的有益效果是：

1.本发明针对传统词向量特征表达能力不强，提出使用预训练BERT模型获取包含上下文信息的动态字向量，增强字的语义含义，解决一词多义的问题；

2.为了解决在传统词向量使用过程中存在的分词错误问题，更好的引入词语以及实体边界信息，提出了词向量融合的策略，且引入了词频信息来给可能性更大的词向量赋予更高的权重，减少错误分词带来的影响。

3.通过词向量与字向量拼接的方式，实现字与词的融合，丰富了初始向量的特征表示，提高了实体识别的精度和召回率；

4.本发明在输入向量的表示上进行改进，而没有涉及到特征编码模型结构的改进，因此也可以适用于其他特征编码模型，而不仅仅局限于Bi-LSTM 模型，具有很强的灵活性；

5.为了减少模型训练时间，没有对预训练模型微调，而是采用特征抽取的方式获取字向量，大大减少了模型训练的参数，提高了模型训练效率。

附图说明

图1为本发明的基于BERT和Word2vec向量融合的中文实体识别流程示意图；

图2为本发明实施例的基于BERT和Word2Vec向量融合的中文实体识别模型整体结构示意图；

图3为本发明实施例的BERT预训练语言模型结构示意图；

图4为本发明实施例的Word2vec中的Skip-gram模型结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明基于BERT和Word2vec向量融合的中文实体识别方法，具体包括以下步骤：

步骤1，获取Word2vec模型的训练语料并进行预处理；

步骤2，根据步骤1预处理后的训练语料训练Word2vec中的Skip-gram 模型，如图4所示，通过输入中心词来预测指定大小窗口内的上下文的词，训练完成获得的映射层的权重矩阵就是词向量表：W∈R^|V|*d，其中|V|是词汇表长度，d是词向量维度。

步骤3，通过查询步骤2训练获得的静态词向量表来获取每个词对应的词向量：

其中v_i是长度为|V|的one-hot向量，对应维度的值为1，其余维度为0。

步骤4，根据步骤1预处理后的训练语料自己预训练BERT语言模型，也可直接下载其它已经预训练好的中文BERT模型。

步骤5，将实体识别数据集输入到BERT模型获取包含具体语境的字向量，

c_i表示句子中的每一个字符，l表示字向量的维度。

步骤6，输入句子与预先训练好的词汇表进行匹配，获取每个字符的候选词向量e^w，如图2所示，之后通过词向量融合策略对候选词向量进行融合，策略一为求和取均值，其计算如下：

其中，e^w(w)表示该词语的词向量，S表示字符所对应的候选词语集合， N表示集合中词语的个数，e^w(None)表示[None]标签的词向量，

表示该集合为空集，即该字符不包含任何匹配词语。

策略二为词频加权求和，其计算如下：

其中，z(w)表示每个词语的词频，词频通过统计每个词在训练集和测试集上出现的频率获得，其他参数同上。

将融合的词向量与BERT输出的字向量进行拼接，获得每个字符的最终向量表示，

表示向量拼接。

步骤7，将句子中每一个字的字向量输入到LSTM模型中，学习句子中较长距离的前后依赖关系，LSTM通过输入门、遗忘门、输出门控制和保持信息的传递，其参数化表示如下所示：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

h_t＝o_t e tanh(c_t)

其中，σ是Sigmoid激活函数，tanh表示tanh激活函数，

表示点乘运算，W、U分别表示对应每个门的权重矩阵，b表示偏置，x_t表示步骤6获得的当前时刻的输入向量，h_t-1和c_t-1分别表示上一时刻的输出和上一时刻的细胞状态。

步骤8，如图2所示，Bi-LSTM包含前向传递和反向传递两个过程，能够编码双向语言信息，对于输入的句子向量序列S＝{e₁,e₂,L,e_n}，e_i∈R^1×(d+l)，其中1≤i≤n，d，l分别表示词向量和字向量的维度。前向传递过程为：

反向传递过程为：

其中，

是前向t-1时刻的隐藏状态，

是反向t+1时刻的隐藏状态， e_t是t时刻的输入向量。

步骤9，最后对前向和反向LSTM的输出进行拼接获得t时刻的隐藏状态h_t：

步骤10，CRF层在Bi-LSTM输出的基础上考虑了标签之间的转移信息，能够获得全局最优标签序列，计算过程如下：

其中，s表示评估得分，W是标签间的转移矩阵，P表示对应标签的得分。根据评估得分计算序列x到标签y的概率为：

步骤11，训练损失函数为：

至此，具体实施例流程结束。

步骤12，本发明训练基于BERT和Word2Vec向量融合的Bi-LSTM-CRF 模型参数时，将已标注好的文本和标签作为输入，然后采用梯度下降法或其他优化方法训练该模型，训练中只更新Bi-LSTM层和CRF层的参数，BERT 模型参数保持不变，当模型产生的损失值满足设定要求或达到最大迭代次数时，则终止该模型的训练。

上述说明示出并描述了本发明的优选实施例，如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于BERT和Word2Vec向量融合的中文实体识别方法，其特征在于，利用BERT模型获取句子中每个字的动态字向量，利用Word2Vec获取静态词向量，通过设计的两种融合策略对多个候选词向量进行融合，然后与字向量拼接，输入到Bi-LSTM-CRF进行模型训练，自动抽取文本中指定类型的实体。

2.根据权利要求1所述的一种基于BERT和Word2Vec向量融合的中文实体识别方法，其特征在于，所述中文实体识别方法具体包括以下步骤：

步骤1，获取海量中文文本并进行预处理，利用Python中的jieba模块对文本进行分词，训练Word2Vec模型，获取静态词向量表；

2.1对于原始语料，通过换行来分割句子，通过空行来分割上下文段落；

2.4将待输入的两个句子用[SEP]标签连接，并且在整个句首添加[CLS]标签，整个句尾添加[SEP]标签；

2.5构建BERT遮蔽语言模型预训练任务需要的样本，随机选择句子中15％的字符进行遮蔽，对于选中的字符80％的时间用[MASK]代替，10％的时间用随机选择的一个字符代替，10％的时间保持原字符不变；

步骤5，将步骤4得到的标注好的数据集进行预处理，给每一个句子的句首添加[CLS]标签，句尾添加[SEP]标签，将处理好的句子输入步骤3预训练好的BERT模型，获取BERT模型输出的句子中每一个字符的字向量；

步骤6，对步骤4得到的数据集中的每一个句子，通过与词汇表匹配的方式获取该句子包含的所有候选词语的词向量，将句子中每个字对应的候选词向量通过两种词向量融合策略进行融合，来表示每个字在词汇层面的语义含义，具体包含以下两种融合策略：

6.1词向量融合策略一：对句子中每个字的候选词向量进行求和取均值，以“广州市长隆公园”句子为例，“广”字包含“广州”和“广州市”两个匹配的候选词语，首先查询词向量表获得两个词语的词向量，然后对两个词向量求和取均值作为“广”字的词向量表示部分。

6.2词向量融合策略二：对句子中每个字的候选词向量以词频作为权重进行加权求和，同样以上述例子为例，首先统计“广州”和“广州市”在数据集中出现的总次数，然后将两个词出现的次数分别除以两个词的总次数作为两个词向量的权重，最后将权重和词向量相乘并求和作为“广”字的词向量表示部分，其余字符同理，当某个字不存在候选词语时，用[None]的词向量表示该字的词向量部分，维度同其他词向量维度一样。

步骤8，将步骤7得到的字向量输入Bi-LSTM-CRF模型进行训练预测，获得实体识别结果。

3.根据权利要求2所述的一种基于BERT和Word2Vec向量融合的中文实体识别方法，其特征在于，步骤1、2中所述的中文文本预处理主要包括将通过爬虫或其他途径获取的文本数据去除无用符号、重复数据以及规范数据格式等。

4.根据权利要求3所述的一种基于BERT和Word2Vec向量融合的中文实体识别方法，其特征在于，所述步骤2中，对于长度不够的句子需要用[PAD]标签进行补齐，最终将定长句子输入BERT模型进行训练。

5.根据权利要求4所述的一种基于BERT和Word2Vec向量融合的中文实体识别方法，其特征在于，所述步骤6中的词汇表也是Word2Vec训练获得的词向量表，每输入一个句子，首先通过查询词向量表获取每个字符的候选词向量，然后从两种向量融合策略中选择一种进行词向量的融合。

6.根据权利要求5所述的一种基于BERT和Word2Vec向量融合的中文实体识别方法，其特征在于，所述步骤8中，整个模型可以看作三层，分别是基于BERT和Word2Vec模型的输入向量表示层、基于Bi-LSTM的上下文编码层和基于CRF的标签解码层；将利用Word2vec获取的静态词向量与利用BERT获得的动态字向量拼接作为输入向量，Bi-LSTM层负责对输入向量进行特征编码，CRF层则通过学习标签之间的转移概率选择最优的标签序列。