CN114462409A

CN114462409A - 一种基于对抗训练的审计领域命名实体识别方法

Info

Publication number: CN114462409A
Application number: CN202210109168.0A
Authority: CN
Inventors: 钱泰羽; 陈一飞; 乔红岩
Original assignee: NANJING AUDIT UNIVERSITY
Current assignee: NANJING AUDIT UNIVERSITY
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-10

Abstract

随着新审计法的颁布，从审计领域语料中自动识别有效实体信息，有利于提高审计政策落实的效率。命名实体识别(Named Entity Recognition，NER)旨在识别语料中的实体，且深度学习方法在该任务上应用成熟且成果显著，但审计领域语料的数据库不够完善，对于实体边界划分也不够清晰。本发明提出了一种基于对抗训练的审计领域命名实体识别方法。中文分词(Chinese Word Segmentation，CWS)用于识别词的边界，与NER有许多相同的词边界信息，使用相同之处来辅助NER任务并帮助进行边界的划分。使用BERT得到词向量，通过对抗训练来提取NER任务和CWS任务的共享信息，同时有效防止CWS任务的私有信息带来的噪声，并将任务共享的词边界信息融合到NER任务中，提高审计领域命名实体识别的精确度。

Description

一种基于对抗训练的审计领域命名实体识别方法

技术领域

本发明涉及命名实体识别技术领域，具体为一种基于对抗训练的审计领域命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition，NER)是自然语言处理(NaturalLanguage Processing，NLP)最重要的基础任务，是关系提取、问答***等的前置任务。其主要任务是从非结构化文本中标记出预定义的实体类型，譬如地名、机构名等。传统命名实体识别方法多从改进模型和特征工程着手，以减少对规则方法和专家知识的依赖，但对实体边界的问题却关注甚少。随着新审计法的颁布，审计政策也划分的越来越详细，审计政策文本也逐日增加。同时，审计政策落实在审计过程中也越来越重要，现有的审计政策落实多以人工为主，加大了审计人员的工作量。此外，审计政策多是非结构化文本，提取其中的实体有利于帮助提高审计政策落实的效率。在审计领域中，审计领域语料的数据库不够完善，对于实体边界划分也不够详细。中文分词(Chinese Word Segmentation，CWS)用于识别词的边界，与NER相比CWS具有数据集的规模更大，在通用数据集上对边界的划分更为细致，并且NER与CWS有很多边界划分十分相似，可以使用相同之处来辅助NER任务并帮助进行边界的划分。Peng等人提出了一种NER任务和CWS任务的联合模型，该模型NER任务中的线性链CRF既可以访问NER的特征提取器，也可以访问用于分词的LSTM模块，且分词和NER训练共享LSTM模块的所有参数。因此该模型只关注了NER任务和CWS任务之间的任务共享信息，而忽略了对每个任务的私有信息的过滤，会给两个任务带来噪音。

发明内容

本发明要解决的技术问题是克服现有的缺陷，为了解决上述问题，本发明提出一种基于对抗训练的审计领域命名实体识别方法，可以有效解决技术背景中提出的问题。

为实现上述目的，本发明提出一种基于对抗训练的审计领域命名实体识别方法，包括以下步骤：

S1)：数据集的获取：本发明主要解决审计领域命名实体识别问题，因此使用审计领域数据集作为本发明的主数据集。CWS和NER都会对实体边界进行划分，CWS具有数据集的规模更大，在通用数据集上对边界的划分更为细致，可以使用CWS的这一特性辅助完成NER任务；新时代***分词语料因数据量大且内容丰富，因此用作辅助数据集。

S11)：NER数据集

审计领域数据集利用网络爬虫从政府网站上收集扶贫政策相关语料共7323余篇，通过筛选字数在10到100的语句构建语料，并对原始数据进行预处理，包括删除非正文部分、统一编码、字段化。按照7：2：1方式划分成训练集、验证集和测试集，并使用人工对4种实体类型：人名、地名、机构名和专有名词，采用BIO(B表示实体的开头；I表示实体的中间；O表示不是实体)方式进行语料标注。

S12)：CWS数据集

新时代***分词语料由南京农业大学人文与社会计算研究中心以2015上半年及2016年1月、2017年1月和2018年1月共9个月的《***》发表的全部文章为对象所构建，规模现已超过2300万字，全部由人工采用BMES方式对进行语料标注。本发明所使用的是其中的2018年1月语料，共43647句。

S2)：模型的构建：本发明提出的模型框架，纵向包括三个任务，左边命名为实体识别任务，包括NER BERT Embedding模块、NER Private BiLSTM模块和NER CRF模块；右边为中文分词任务，包括CWS BERT Embedding模块、CWS Private BiLSTM模块和CWS CRF模块；中间为对抗训练任务，包括Shared BiLSTM模块和对抗训练模块；三个任务横向均包括嵌入层、共享-私有特征提取层和CRF层或对抗训练层，下面根据三个任务横向对结构进行介绍。

S21)：嵌入层

将语料输入嵌入层，BERT采用了Transformer进行编码，引入了Self-attention机制预测词间的依赖关系及捕获句子内部结构的信息，对输入句子的长度超过n的进行截断，同时对句子的长度少于n的使用0进行补全。在句子首位添加输入表示的向量[CLS]和划分句子对的向量[SEP]，对句子进行训练可以获得更准确的语义信息。之后使用Segment嵌入判断给定句子间是否是连续的方式获得句子级别特征。由于文本的字词顺序对句子含义至关重要，BERT对每个字符位置进行独立编码，学习输入序列的顺序特征，从而获得各自位置的信息。最后将Token嵌入、Segment嵌入和Position嵌入获得的向量进行相加，即为BERT的输出序列。

S211)：NER BERT Embedding模块

使用审计领域数据集用于NER任务，将给定的句子W＝[w₁，w₂，...，w_n]输入NERBERT Embedding模块后，可以输出每个词的词向量的序列X＝[x₁，x₂，...，x_n]，其中，w_i为句子中的词，x_i为w_i对应的词向量，n为句子的长度。

S212)：CWS BERT Embedding模块

使用新时代***分词语料用于CWS任务，将给定的句子W′＝[w′₁，w′₂，...，w′_m]输入CWS BERT Embedding模块后，可以输出每个词的词向量的序列X′＝[x′₁，x′₂，...，x′_m]，其中，w′_i为句子中的词，x′_i为w′_i对应的词向量，m为句子的长度，并规定n＞m。

综上，将X′中每维向量进行补全到n，将补全后的X′整体连接到X的下方，得到序列

用于对抗训练任务提取共享信息的输入。

S22)：共享-私有特征提取层

长短期记忆网络(Long Short-Term Memory，LSTM)是循环神经网络(RecurrentNeural Network，RNN)的一种变体，它可以有效利用长距离信息，并通过门控结构和记忆单元来解决RNN的梯度弥散和梯度炸裂的问题。单向的LSTM只能获得当前时刻输入信息的前一刻信息，在序列标注任务中，当前时刻输入信息的后一刻信息同样至关重要，为了融合序列两侧的信息，本发明采用双向LSTM(即Bi-directional Long Short-Term Memory，BiLSTM)进行特征提取。给定输入序列进行特征提取，可以获得的输出特征，在第i时刻的隐藏状态表示如式(1)到(3)所示：

其中，

和

分别表示第i时刻的前向和后向的隐藏状态，

表示连接操作。

S221)：NER Private BiLSTM模块

将序列X＝[x₁，x₂，…，x_n]输入NER Private BiLSTM模块进行私有特征提取，可以获得NER任务私有BiLSTM的输出特征

其中，

表示第i时刻输出的NER任务私有特征。对于审计领域数据集中的任意句子，私有的BiLSTM的隐藏状态表示如式(4)所示：

其中，θ_np为NER私有BiLSTM参数，用于隐藏状态的维度设置。

S222)：CWS Private BiLSTM模块

将序列X′＝[x′₁，x′₂，…，x′_m]输入CWS Private BiLSTM模块进行私有特征提取，可以获得CWS任务私有BiLSTM的输出特征

其中，

表示第i时刻输出的CWS任务私有特征。对于新时代***分词语料中的任意句子，私有的BiLSTM层的隐藏状态表示如式(5)所示：

其中，θ_cp为CWS私有BiLSTM参数，用于隐藏状态的维度设置。

S223)：Shared BiLSTM模块

将序列

输入Shared BiLSTM模块进行共享特征提取，可以获得共享BiLSTM的输出特征

其中，

表示第i时刻输出的NER任务和CWS任务的共享特征。对于集合中的任意句子，共享的BiLSTM层的隐藏状态表示如式(6)所示：

其中，θ_shared为共享BiLSTM参数，用于隐藏状态的维度设置。

综上，将NER Private BiLSTM模块提取的私有特征和Shared BiLSTM模块提取的共享特征进行连接得到NER任务的总特征H^ner，作为NER CRF模块的输入。将CWS PrivateBiLSTM模块提取的私有特征和Shared BiLSTM模块提取的共享特征进行连接得到CWS任务的总特征H^cws，作为CWS CRF模块的输入。表示如式(7)和式(8)所示：

S23)：CRF层

BiLSTM仅可以获得词语之间的信息关系，不会考虑连续标签之间的相互关系，因此本发明将BiLSTM层训练后的特征使用CRF层进行标签推测，但由于NER任务和CWS任务的标签不同，因此为每个任务分配各自CRF层，从而得到各自任务的序列标注，然而BiLSTM输出向量的维度与CRF之间不对等，为了便于CRF进行标签推测时对损失函数进行计算，为BiLSTM输出的向量H添加一个全连接层，CRF预测过程表示如式(9)和式(10)所示：

0_i＝Ah_i+b (9)

其中，A为权重，b为偏置项，X为输入序列，y为预测的标签序列，K为转移概率矩阵，

为y_i-1标签转移y_i标签的概率得分，

为字符x_i被标记成为第y_i个标签的分数，n为句子的长度。对于损失函数使用负对数似然函数，得到真实标签序列的概率表示如式(11)所示：

其中，

为真实的标签序列，Y_X为所有被标记的数据的集合，

为预测正确标签的得分，

为所有标签的总和得分。

S231)：NER CRF模块

对H^ner中的训练样本进行训练，通过式(9)到(11)可得损失函数L_ner，表示如式(12)所示：

S232)：CWS CRF模块

对H^cws中的训练样本进行训练，通过式(9)到(11)可得损失函数L_cws，表示如式(13)所示：

对训练过程不断调优，从而最小化损失函数。

S24)：对抗训练层：

由GAN网络启发的对抗技术，通过对抗训练来提取NER和CWS的共享信息，同时有效防止CWS任务的私有信息带来的噪声。任务鉴别器通过Maxpooling层和Softmax层识别特征来自哪个任务，当模型无法辨别特征来自哪个任务，由共享特征提取器提取两个任务的共享特征，提高命名实体识别的任务性能。任务鉴别器表示如式(14)和式(15)所示：

S＝Maxpooling(H^shared) (14)

D(s；δ_d)＝Softmax(A₁s+b₁) (15)

其中，H^shared为共享特征提取层的输出，δ_d为任务鉴别器的参数，即包括A₁为权重，b₁为偏置项。

为了防止中文分词任务的私有信息进入共享信息空间中，引入对抗损失函数L_adv训练共享特征提取器，使任务鉴别器无法有效的识别特征来自哪个任务，对抗损失函数可以表示如式(16)所示：

其中，δ_s为共享BiLSTM参数θ_shared中的可训练参数，I为共享特征种的总任务数，J为共享特征中的训练样例数，W_s为共享特征提取器，

为共享特征中的第i个样例。

S3)：模型训练

通过上述对NER任务损失函数L_ner、CWS任务损失函数L_cws和对抗损失函数L_adv的计算，最终本模型的损失函数L，表示如式(17)所示：

L＝GL_NER+(l-G)L_CWS+γL_adv (17)

其中，γ为损失权重系数，G为判定输入来自NER和CWS任务的切换函数。

对模型进行训练过程中，从给定任务中抽取训练实例进行参数更新，不断优化最终的损失函数，并根据NER任务的收敛速度为准进行迭代，直到结果最优。

与现有技术相比，本发明的有益效果是：本基于对抗训练的审计领域命名实体识别方法，使用BERT得到词向量，通过对抗训练来提取NER任务和CWS任务的共享信息，同时有效防止CWS任务的私有信息带来的噪声，提高对私有信息的过滤，并将任务共享的词边界信息融合到NER任务中，提高了审计领域命名实体识别的精确度。

附图说明

图1为本发明一种基于对抗训练的审计领域命名实体识别方法的模型框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供以下技术方案：

一种基于对抗训练的审计领域命名实体识别方法，包括以下步骤：

一、数据集的获取

本发明主要解决审计领域命名实体识别问题，因此使用审计领域数据集作为本发明的主数据集。CWS和NER都会对实体边界进行划分，CWS具有数据集的规模更大，在通用数据集上对边界的划分更为细致，可以使用CWS的这一特性辅助完成NER任务。新时代***分词语料(http://corpus.njau.edu.cn/)因数据量大且内容丰富，因此用作辅助数据集。

1)NER数据集

审计领域数据集利用网络爬虫从政府网站上收集扶贫政策相关语料共7323余篇，通过筛选字数在10到100的语句构建语料，并对原始数据进行预处理，包括删除非正文部分、统一编码、字段化等。按照7：2：1方式划分成训练集、验证集和测试集，并使用人工对4种实体类型(人名、地名、机构名和专有名词)采用BIO(B表示实体的开头；I表示实体的中间；O表示不是实体)方式进行语料标注。

2)CWS数据集

新时代***分词语料由南京农业大学人文与社会计算研究中心以2015上半年(1-6月)及2016年1月、2017年1月和2018年1月共9个月的《***》发表的全部文章为对象所构建，规模现已超过2300万字，全部由人工采用BMES方式对进行语料标注。本发明所使用的是其中的2018年1月语料，共43647句。

二、模型的构建

本发明提出的模型框架如图1所示。纵向包括三个任务，左边为命名实体识别任务，包括NER BERT Embedding模块、NER Private BiLSTM模块和NER CRF模块；右边为中文分词任务，包括CWS BERT Embedding模块、CWS Private BiLSTM模块和CWS CRF模块；中间为对抗训练任务，包括Shared BiLSTM模块和对抗训练模块。三个任务横向均包括嵌入层、共享-私有特征提取层和CRF层或对抗训练层，下面根据三个任务横向对结构进行介绍。

1嵌入层

将语料输入嵌入层，BERT采用了Transformer进行编码，引入了Self-attention(自注意力)机制预测词间的依赖关系及捕获句子内部结构的信息，对输入句子的长度超过n的进行截断，同时对句子的长度少于n的使用0进行补全。在句子首位添加输入表示的向量[CLS]和划分句子对的向量[SEP]，对句子进行训练可以获得更准确的语义信息(Token)。之后使用Segment嵌入判断给定句子间是否是连续的方式获得句子级别特征。由于文本的字词顺序对句子含义至关重要，BERT对每个字符位置进行独立编码，学习输入序列的顺序特征，从而获得各自位置的信息(Position)。最后将Token嵌入、Segment嵌入和Position嵌入获得的向量进行相加，即为BERT的输出序列。

1)NER BERT Embedding模块

2)CWS BERT Embedding模块

用于对抗训练任务提取共享信息的输入。

2共享-私有特征提取层

长短期记忆网络(Long Short-Term Memory，LSTM)是循环神经网络(RecurrentNeural Network，RNN)的一种变体，它可以有效利用长距离信息，并通过门控结构和记忆单元来解决RNN的梯度弥散和梯度炸裂的问题。单向的LSTM只能获得当前时刻输入信息的前一刻信息，在序列标注任务中，当前时刻输入信息的后一刻信息同样至关重要。为了融合序列两侧的信息，本发明采用双向LSTM(即Bi-directional Long Short-Term Memory，BiLSTM)进行特征提取。

给定输入序列进行特征提取，可以获得的输出特征，在第i时刻的隐藏状态表示如式(1)到(3)所示：

其中，

和

分别表示第i时刻的前向和后向的隐藏状态，

表示连接操作。

本发明使用共享-私有特征提取层，NER Private BiLSTM模块提取审计领域的特征用于NER任务，CWS Private BiLSTM模块提取新时代***分词语料的特征用于CWS任务，Shared BiLSTM模块学习词边界的共享信息特征用于对抗训练任务。

1)NER Private BiLSTM模块

将序列X＝[x₁，x₂，...，x_n]输入NER Private BiLSTM模块进行私有特征提取，可以获得NER任务私有BiLSTM的输出特征

其中，

其中，θ_np为NER私有BiLSTM参数，用于隐藏状态的维度设置。

2)CWS Private BiLSTM模块

将序列X′＝[x′₁，x′₂，...，x′_m]输入CWS Private BiLSTM模块进行私有特征提取，可以获得CWS任务私有BiLSTM的输出特征

其中，

其中，θ_cp为CWS私有BiLSTM参数，用于隐藏状态的维度设置。

3)Shared BiLSTM模块

将序列

其中，

其中，θ_shared为共享BiLSTM参数，用于隐藏状态的维度设置。

3 CRF层

BiLSTM仅可以获得词语之间的信息关系，不会考虑连续标签之间的相互关系，因此本发明将BiLSTM层训练后的特征使用CRF层进行标签推测，但由于NER任务和CWS任务的标签不同，因此为每个任务分配各自CRF层，从而得到各自任务的序列标注。然而BiLSTM输出向量的维度与CRF之间不对等，为了便于CRF进行标签推测时对损失函数进行计算，为BiLSTM输出的向量H添加一个全连接层，CRF预测过程表示如式(9)和式(10)所示：

o_i＝Ah_i+b (9)

为y_i-1标签转移y_i标签的概率得分，

其中，

为真实的标签序列，Y_X为所有被标记的数据的集合，

为预测正确标签的得分，

为所有标签的总和得分。

1)NER CRF模块

2)CWS CRF模块

对训练过程不断调优，从而最小化损失函数。

4对抗训练层

由GAN网络(Generative Adversarial Networks)启发的对抗技术，通过对抗训练来提取NER和CWS的共享信息，同时有效防止CWS任务的私有信息带来的噪声。任务鉴别器通过Maxpooling层和Softmax层识别特征来自哪个任务，当模型无法辨别特征来自哪个任务，由共享特征提取器提取两个任务的共享特征，提高命名实体识别的任务性能。任务鉴别器表示如式(14)和式(15)所示：

s＝Maxpooling(H^shared) (14)

D(s；δ_d)＝Softmax(A₁s+b₁) (15)

其中，δ_s为共享BiLSTM参数θ_shared中的可训练参数，I为共享特征种的总任务数，J为共享特征中的训练样例数，E_s为共享特征提取器，

为共享特征中的第i个样例。

通过训练，不断最小化任务鉴别器的损失，以对抗性的鼓励共享特征提取器学***衡，使任务鉴别器无法区分特征来自哪个任务。

三、模型训练

L＝GL_NER+(l-G)L_CWS+γL_adv (17)

本发明的伪代码如下：

四、实验与结果

1实验设置

本实验通过交叉验证得到模型的超参取值，词向量维度为768，LSTM隐藏状态的维度均设置为120，损失权重系数γ设置为0.05，初始学习率设置为0.001，Dropout设置为0.5，批大小设置为64，迭代次数设置为20，使用Adam算法对实验进行优化。

2评价指标

本实验使用精确率(Precision，P)、召回率(Recall，R)和F1值来评价模型性能，计算公式如式(18)到(20)所示：

其中，TP为正确样本判断为正的数量，FP为错误样本判断为正的数量，FN为正确样本判断为负的数量。

3实验结果与结论

表1模型结果对比

结论：通过实验结果对比得出，在审计领域语料上，通过本专利提出的方法可以有效的提高F1的值。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于对抗训练的审计领域命名实体识别方法，其特征在于：包括以下步骤：

S1)：数据集的获取：使用审计领域数据集作为本发明的NER数据集；使用新时代***分词语料作CWS数据集；使用CWS辅助NER任务。

S11)：NER数据集

审计领域数据集利用网络爬虫从政府网站上收集扶贫政策相关语料，通过筛选字数在10到100的语句构建语料，并对原始数据进行预处理，包括删除非正文部分、统一编码、字段化；按照7：2：1方式划分成训练集、验证集和测试集，并使用人工对4种实体类型：人名、地名、机构名和专有名词，采用BIO方式进行语料标注。

S12)：CWS数据集

新时代***分词语料通过南京农业大学人文与社会计算研究中心网站http://corpus.njau.edu.cn获取。

S21)：嵌入层

将语料输入嵌入层，BERT采用了Transformer进行编码，引入了Self-attention机制预测词间的依赖关系及捕获句子内部结构的信息，对输入句子的长度超过n的进行截断，同时对句子的长度少于n的使用0进行补全；在句子首位添加输入表示的向量[CLS]和划分句子对的向量[SEP]，对句子进行训练可以获得更准确的语义信息；之后使用Segment嵌入判断给定句子间是否是连续的方式获得句子级别特征；由于文本的字词顺序对句子含义至关重要，BERT对每个字符位置进行独立编码，学习输入序列的顺序特征，从而获得各自位置的信息；最后将Token嵌入、Segment嵌入和Position嵌入获得的向量进行相加，即为BERT的输出序列。

S211)：NER BERT Embedding模块

使用审计领域数据集用于NER任务，将给定的句子W＝[w₁，w₂，...，w_n]输入NER BERTEmbedding模块后，可以输出每个词的词向量的序列X＝[x₁，x₂，...，x_n]，其中，w_i为句子中的词，x_i为w_i对应的词向量，n为句子的长度。

S212)：CWS BERT Embedding模块

使用新时代***分词语料用于CWS任务，将给定的句子W′＝[w′₁，w′₂，...，w′_m]输入CWS BERT Embedding模块后，可以输出每个词的词向量的序列X′＝[x′₁，x′₂，...，x′_m]，其中，w′_i为句子中的词，x′_i为w′_i对应的词向量，m为句子的长度，并规定n＞m；

用于对抗训练任务提取共享信息的输入。

S22)：共享-私有特征提取层

采用双向LSTM进行特征提取；给定输入序列进行特征提取，可以获得的输出特征，在第i时刻的隐藏状态表示如式(1)到(3)所示：

其中，

和

分别表示第i时刻的前向和后向的隐藏状态，

表示连接操作。

S221)：NER Private BiLSTM模块

其中，

表示第i时刻输出的NER任务私有特征；对于审计领域数据集中的任意句子，私有的BiLSTM的隐藏状态表示如式(4)所示：

其中，θ_np为NER私有BiLSTM参数，用于隐藏状态的维度设置。

S222)：CWS Private BiLSTM模块

其中，

表示第i时刻输出的CWS任务私有特征；对于新时代***分词语料中的任意句子，私有的BiLSTM层的隐藏状态表示如式(5)所示：

其中，θ_cp为CWS私有BiLSTM参数，用于隐藏状态的维度设置。

S223)：Shared BiLSTM模块

将序列

其中，

表示第i时刻输出的NER任务和CWS任务的共享特征；对于集合中的任意句子，共享的BiLSTM层的隐藏状态表示如式(6)所示：

其中，θ_shared为共享BiLSTM参数，用于隐藏状态的维度设置。

综上，将NER Private BiLSTM模块提取的私有特征和Shared BiLSTM模块提取的共享特征进行连接得到NER任务的总特征H^ner，作为NER CRF模块的输入；将CWS Private BiLSTM模块提取的私有特征和Shared BiLSTM模块提取的共享特征进行连接得到CWS任务的总特征H^cws，作为CWS CRF模块的输入；表示如式(7)和式(8)所示：