CN111191453A

CN111191453A - 一种基于对抗训练的命名实体识别方法

Info

Publication number: CN111191453A
Application number: CN201911358738.4A
Authority: CN
Inventors: 袁超逸; 刘忠麟; 王立才; 张起闻; 罗琪彬; 郝韫宏; 李孟书
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-22

Abstract

本发明公开了一种基于对抗训练的命名实体识别方法，分别通过RoBERTa模型训练和Bi‑LSTM的训练获得司法领域文字之间关联性特征；然后将两种关联性特征拼接在一起，利用条件随机场模型对训练样本进行预测获得预测的结果；本发明能够引入不同维度的外部词向量与字向量与不同维度的司法领域文本字词混合向量相结合，并且针对司法领域文本中混合词向量进行对抗扰动，增加模型识别的准确率。

Description

一种基于对抗训练的命名实体识别方法

技术领域

本发明属于命名实体识别的技术领域，具体涉及一种基于对抗训练的命名实体识别方法。

背景技术

命名实体识别在各个领域已经有了广泛的应用，各领域也针对命名实体识别进行了不同程度的优化，在传统的命名实体识别中需要耗费大量的人员针对特定的领域进行特征提取,并利用概率图模型进行命名实体识别，随着近几年深度学习的兴起，各领域已经利用深度学习的方法对命名实体识别进行了大量的探索，目前在金融，医疗，法律领域已经有大量的探索与实践，减少了大量的人工成本，并提高了准确率，如何利用这些信息尤为关键，在利用命名实体识别技术，对某些特定领域中具有特定意义的实体，比如在司法文本中(嫌疑人，被告，原告等)，通过这些实体的识别可以为之后信息提取、问答***、句法分析、知识推理，构建知识图谱等重要任务打下来重要的基础。

目前，命名实体识别在司法领域中的主要方法分为三大类：

第一类基于概率图模型，该方法主要使用条件随机场(CRF)模型，是给定一组输入序列条件下另一组输出序列的条件概率分布模型，通过输入带标签特定领域数据，人工提取出相应的特征与设定相应的规则，从而对未标注的文本进行识别。

第二类基于深度学习的方法，该方法主要使用双向长短时记忆网络(Bi-LSTM)模型，利用词向量嵌入信息，通过输入带标签特定领域数据到Bi-LSTM中从而大大的减少了人工的工作，并且可以得到更高的准确率。

第三类基于深度学习与传统的方法相结合，该方法利用词向量训练方法(Word2Vec)或者(GloVe)技术给定特定领域文本，特定领域词表，在特定领域文本中我们通过文本来构建语言模型，通过P(w₁,w₂,…w_n)＝P(w₁)P(w₂|w₁)P(w_n|w₁,…,w_n-1)，把联合概率转化为条件概连乘，并利用马尔科夫假设大大减少了参数，而在词表中的每一个词都对应着一个连续的特征向量，往一个概率模型中，输入一段词向量，输出文本的联合概率，从而去学习词向量权重，构建一个简单的神经网络f(w_t-n+1…,w_t)f(w_t-n+1…,w_t)来拟合条件概率P(w_t|w₁,…,w_t-1)，模型中输入词向量到线性的嵌入层(Embedding)层，利用可训练的参数矩阵C通过设置不同的滑动窗口贯穿整个特定领域文本，来获取到特定领域文本的词向量，从而得到相应的词向量(word vector)，这里有两种方法分别为跳字模型(Skip-gram)或连续词袋子模型(CBOW)两个模型去进行训练，当得到相应的词向量后，通过输入Bi-LSTM层，在Bi-LSTM层中词向量的输入经过每一个时间点的隐藏状态，这样可以得到上下文的表示，最后的特征通过CRF层利用周围的信息从而有效的得到相应的标签，模型如图1。

现有的特定领域的命名实体模型利用Bi-LSTM跟CRF模型相结合的方式，但模型提取特征的能力不够强大，而Bi-LSTM中的建模只是简单的从左到右，或者从右到左进行建模，并把隐状态拼接在一起，但是这样做的缺点是只能利用上文或者下文的信息，不能同时利用上文和下文的信息。并且，在特定领域中文本的数量与个数有限，没有大量的数据进行模型性能的提升。

随着BERT模型的出现，在各领域中已经逐步进行应用，但是在特定领域中却没有得到相应的应用，而BERT及后续的模型RoBERTa所带来单词之间相互独立，微调时会带来模型性能的损失等缺点，数据的规模很大，模型的准确率基本无法提升。

发明内容

有鉴于此，本发明提供了一种基于对抗训练的命名实体识别方法，能够引入不同维度的外部词向量与字向量与不同维度的司法领域文本字词混合向量相结合，并且针对司法领域文本中混合词向量进行对抗扰动，增加模型识别的准确率。

实现本发明的技术方案如下：

一种基于对抗训练的命名实体识别方法，包括以下步骤：

步骤一、将司法领域的裁判文书切分为单个文字作为训练样本，通过RoBERTa模型训练获得司法领域文字之间关联性特征；

将司法领域的裁判文书切分为单个文字和词组，利用Word2Vec方法将词组转换为词向量，利用Fasttext方法将单个文字转换为基于字的词向量；引入司法领域之外的利用Word2Vec方法得到的词向量，引入司法领域之外的利用Fasttext方法得到的基于字的词向量；将所有词向量混合；

步骤二、对混合的词向量矩阵进行扰动，通过损失函数的最大值来找到最坏情况的扰动，利用外部经验风险的最小化来得到模型的最佳鲁棒参数，从而得到对抗扰动优化后的词向量；

步骤三、利用长度为a的滑动窗口将步骤二获得的词向量输入Bi-LSTM，经过Bi-LSTM的训练，获得司法领域字词之间的关联性特征；

步骤四、将步骤一和步骤三得到的两个关联性特征拼接在一起，然后利用条件随机场模型对训练样本进行预测获得预测的结果。

进一步地，1000<a<2000。

有益效果：

1.本发明引入不同维度的外部词向量与字向量与不同维度的司法领域文本字词混合向量相结合，丰富了司法领域命名实体识别的训练样本。

2.本发明利用RoBERTa提取出司法领域文本的特征后与不同维度的词向量融合过后与Bi-LSTM特征相结合得到相应特征在通过CRF得到结果。

3.本发明针对司法领域文本中混合词向量进行对抗扰动，增加模型的泛化能力与鲁棒性。

附图说明

图1为Bi-LSTM架构示意图。

图2为RoBERTa模型架构示意图。

图3为本发明词向量模型示意图。

图4为本发明命名实体识别模型架构图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种基于对抗训练的命名实体识别方法，如图4所示，具体过程如下：

步骤一、本发明引入了RoBERTa模型在司法领域，首先对每个司法领域文本进行相应的分词，按照字的形式输入到RoBERTa中，通过自注意力机制(self-attention)对不同的词分配不同的权重，即假设输入矩阵为X，最大的词嵌入向量为512，通过不同的权重矩阵W_q，W_k，W_v，最终经过softmax得到自注意力矩阵Z，经过多头机制，得到注意力层的多个表示子空间，最后拼接不同的矩阵Z，通过动态的对部分词的掩码，提取出相应的特征C，如图2所示：

在司法领域中，相应的司法领域文本规模没那么大，只有有限的数据，而在有限的数据中通常得不到更好的模型效果，本发明引入基于字的Fasttext与基于词的Word2Vec，通过构造Embedding层，把司法领域文本构造成N-1个one-hot词向量，把所有的one-hot向量经过N×V的矩阵，N为自己设定的维度，V是词典的大小，得到向量相加求平均并乘以输出的权重矩阵而得到相应的概率分布，而其中的N×V矩阵即为字与词向量矩阵W₁与W₂，这里指定了不同的字向量与词向量维度，基于字的词向量矩阵弥补了司法领域中专业词汇较少的特点，而基于词的的词向量矩阵因为是司法领域的词，所以能提供更精确的先验知识，通过引入外部较大的通用字向量矩阵W₃，与词向量矩阵W₄,来拼接在一起[W₁,W₂,W₃,W₄]得到一个信息丰富的特征向量，克服了司法领域中文本数量较少，无法获取更好效果的特点，模型如图3所示：

步骤二、利用对混合词向量矩阵的对抗训练，在词向量上进行扰动，假设混合的词向量矩阵[v₁,v₂,…v_T]为x，对混合的词向量矩阵进行扰动，γ_adv＝∈·g/||g||₂,

并优化函数

内部的max函数找到扰动，外部的min函数找到最佳鲁棒参数，公式中L为损失函数，通过Fast Gradient Method方法来把内部max的非凸约束优化问题解决，最后得到相应的结果，其中γ_adv为扰动的值，∈为扰动的系数，g为对x求梯度，

是样本的范围，y是预测值，θ为分类器的参数，E为经验风险函数，S为扰动的范围，f_θ为语言模型编码器映射的函数。

步骤三、Bi-LSTM模型，可以通过不同的窗口来增加上下文隐藏向量的特征数，把拼接好的词向量输入到Bi-LSTM中，词向量经过遗忘门f_t＝σ(W_f*[h_t-1,x_t]+b_f)来判断是否遗忘旧的信息，接着通过输入门i_t＝σ(W_i*[h_t-1,x_t]+b_i)，利用sigmoid函数来更新值，并构建新的候选值

接着通过更新门

来决定是否更新的状态，最后我们需要输出门o_t＝σ(W_o*[h_t-1,x_t]+b_o),h_t＝o_t*tanh(C_t)来得到相应的概率分布，在公式中x_t为依次输入的字或词向量矩阵，f_t为经过遗忘门得到的值，i_t为经过输入门得到的值，

为通过更新门后的候选值，C_t为通过更新门后的状态值，o_t为输出的值，h_t为当前隐藏状态，sigmoid函数是将变量映射到0,1之间的函数，σ为sigmoid函数，tanh函数将值压缩在-1和1之间，h_t-1为上一时刻的隐藏状态，b为偏置项，W为权重矩阵，C_t-1为上一个记忆状态，

为当前记忆状态，当经过从左到右与从右到左的语言模型构建得到隐状态h_t1与h_t2，拼接两者的隐藏状态为H_t。

步骤四、通过RoBERTa模型提取到的特征C与Bi-LSTM得到的隐藏状态拼接在一起得到特征矩阵[C,H_t]，C为提取到字之间的特征，H_t为通过Bi-LSTM模型后拼接的隐状态，解决了RoBERTa模型带来的独立假设检验问题，并对因RoBERTa模型字数限制带来的特征损失进行了补充。CRF可以考虑标签之间的约束关系，利用维特比算法得到命名实体识别结果。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对抗训练的命名实体识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于对抗训练的命名实体识别方法，其特征在于，1000<a<2000。