CN114462409A - 一种基于对抗训练的审计领域命名实体识别方法 - Google Patents

一种基于对抗训练的审计领域命名实体识别方法 Download PDF

Info

Publication number
CN114462409A
CN114462409A CN202210109168.0A CN202210109168A CN114462409A CN 114462409 A CN114462409 A CN 114462409A CN 202210109168 A CN202210109168 A CN 202210109168A CN 114462409 A CN114462409 A CN 114462409A
Authority
CN
China
Prior art keywords
task
ner
cws
shared
bilstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210109168.0A
Other languages
English (en)
Inventor
钱泰羽
陈一飞
乔红岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING AUDIT UNIVERSITY
Original Assignee
NANJING AUDIT UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING AUDIT UNIVERSITY filed Critical NANJING AUDIT UNIVERSITY
Priority to CN202210109168.0A priority Critical patent/CN114462409A/zh
Publication of CN114462409A publication Critical patent/CN114462409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

随着新审计法的颁布,从审计领域语料中自动识别有效实体信息,有利于提高审计政策落实的效率。命名实体识别(Named Entity Recognition,NER)旨在识别语料中的实体,且深度学习方法在该任务上应用成熟且成果显著,但审计领域语料的数据库不够完善,对于实体边界划分也不够清晰。本发明提出了一种基于对抗训练的审计领域命名实体识别方法。中文分词(Chinese Word Segmentation,CWS)用于识别词的边界,与NER有许多相同的词边界信息,使用相同之处来辅助NER任务并帮助进行边界的划分。使用BERT得到词向量,通过对抗训练来提取NER任务和CWS任务的共享信息,同时有效防止CWS任务的私有信息带来的噪声,并将任务共享的词边界信息融合到NER任务中,提高审计领域命名实体识别的精确度。

Description

一种基于对抗训练的审计领域命名实体识别方法
技术领域
本发明涉及命名实体识别技术领域,具体为一种基于对抗训练的审计领域命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER)是自然语言处理(NaturalLanguage Processing,NLP)最重要的基础任务,是关系提取、问答***等的前置任务。其主要任务是从非结构化文本中标记出预定义的实体类型,譬如地名、机构名等。传统命名实体识别方法多从改进模型和特征工程着手,以减少对规则方法和专家知识的依赖,但对实体边界的问题却关注甚少。随着新审计法的颁布,审计政策也划分的越来越详细,审计政策文本也逐日增加。同时,审计政策落实在审计过程中也越来越重要,现有的审计政策落实多以人工为主,加大了审计人员的工作量。此外,审计政策多是非结构化文本,提取其中的实体有利于帮助提高审计政策落实的效率。在审计领域中,审计领域语料的数据库不够完善,对于实体边界划分也不够详细。中文分词(Chinese Word Segmentation,CWS)用于识别词的边界,与NER相比CWS具有数据集的规模更大,在通用数据集上对边界的划分更为细致,并且NER与CWS有很多边界划分十分相似,可以使用相同之处来辅助NER任务并帮助进行边界的划分。Peng等人提出了一种NER任务和CWS任务的联合模型,该模型NER任务中的线性链CRF既可以访问NER的特征提取器,也可以访问用于分词的LSTM模块,且分词和NER训练共享LSTM模块的所有参数。因此该模型只关注了NER任务和CWS任务之间的任务共享信息,而忽略了对每个任务的私有信息的过滤,会给两个任务带来噪音。
发明内容
本发明要解决的技术问题是克服现有的缺陷,为了解决上述问题,本发明提出一种基于对抗训练的审计领域命名实体识别方法,可以有效解决技术背景中提出的问题。
为实现上述目的,本发明提出一种基于对抗训练的审计领域命名实体识别方法,包括以下步骤:
S1):数据集的获取:本发明主要解决审计领域命名实体识别问题,因此使用审计领域数据集作为本发明的主数据集。CWS和NER都会对实体边界进行划分,CWS具有数据集的规模更大,在通用数据集上对边界的划分更为细致,可以使用CWS的这一特性辅助完成NER任务;新时代***分词语料因数据量大且内容丰富,因此用作辅助数据集。
S11):NER数据集
审计领域数据集利用网络爬虫从政府网站上收集扶贫政策相关语料共7323余篇,通过筛选字数在10到100的语句构建语料,并对原始数据进行预处理,包括删除非正文部分、统一编码、字段化。按照7:2:1方式划分成训练集、验证集和测试集,并使用人工对4种实体类型:人名、地名、机构名和专有名词,采用BIO(B表示实体的开头;I表示实体的中间;O表示不是实体)方式进行语料标注。
S12):CWS数据集
新时代***分词语料由南京农业大学人文与社会计算研究中心以2015上半年及2016年1月、2017年1月和2018年1月共9个月的《***》发表的全部文章为对象所构建,规模现已超过2300万字,全部由人工采用BMES方式对进行语料标注。本发明所使用的是其中的2018年1月语料,共43647句。
S2):模型的构建:本发明提出的模型框架,纵向包括三个任务,左边命名为实体识别任务,包括NER BERT Embedding模块、NER Private BiLSTM模块和NER CRF模块;右边为中文分词任务,包括CWS BERT Embedding模块、CWS Private BiLSTM模块和CWS CRF模块;中间为对抗训练任务,包括Shared BiLSTM模块和对抗训练模块;三个任务横向均包括嵌入层、共享-私有特征提取层和CRF层或对抗训练层,下面根据三个任务横向对结构进行介绍。
S21):嵌入层
将语料输入嵌入层,BERT采用了Transformer进行编码,引入了Self-attention机制预测词间的依赖关系及捕获句子内部结构的信息,对输入句子的长度超过n的进行截断,同时对句子的长度少于n的使用0进行补全。在句子首位添加输入表示的向量[CLS]和划分句子对的向量[SEP],对句子进行训练可以获得更准确的语义信息。之后使用Segment嵌入判断给定句子间是否是连续的方式获得句子级别特征。由于文本的字词顺序对句子含义至关重要,BERT对每个字符位置进行独立编码,学习输入序列的顺序特征,从而获得各自位置的信息。最后将Token嵌入、Segment嵌入和Position嵌入获得的向量进行相加,即为BERT的输出序列。
S211):NER BERT Embedding模块
使用审计领域数据集用于NER任务,将给定的句子W=[w1,w2,...,wn]输入NERBERT Embedding模块后,可以输出每个词的词向量的序列X=[x1,x2,...,xn],其中,wi为句子中的词,xi为wi对应的词向量,n为句子的长度。
S212):CWS BERT Embedding模块
使用新时代***分词语料用于CWS任务,将给定的句子W′=[w′1,w′2,...,w′m]输入CWS BERT Embedding模块后,可以输出每个词的词向量的序列X′=[x′1,x′2,...,x′m],其中,w′i为句子中的词,x′i为w′i对应的词向量,m为句子的长度,并规定n>m。
综上,将X′中每维向量进行补全到n,将补全后的X′整体连接到X的下方,得到序列
Figure BDA0003494285400000041
用于对抗训练任务提取共享信息的输入。
S22):共享-私有特征提取层
长短期记忆网络(Long Short-Term Memory,LSTM)是循环神经网络(RecurrentNeural Network,RNN)的一种变体,它可以有效利用长距离信息,并通过门控结构和记忆单元来解决RNN的梯度弥散和梯度炸裂的问题。单向的LSTM只能获得当前时刻输入信息的前一刻信息,在序列标注任务中,当前时刻输入信息的后一刻信息同样至关重要,为了融合序列两侧的信息,本发明采用双向LSTM(即Bi-directional Long Short-Term Memory,BiLSTM)进行特征提取。给定输入序列进行特征提取,可以获得的输出特征,在第i时刻的隐藏状态表示如式(1)到(3)所示:
Figure BDA0003494285400000042
Figure BDA0003494285400000043
Figure BDA0003494285400000044
其中,
Figure BDA0003494285400000045
Figure BDA0003494285400000046
分别表示第i时刻的前向和后向的隐藏状态,
Figure BDA0003494285400000047
表示连接操作。
S221):NER Private BiLSTM模块
将序列X=[x1,x2,…,xn]输入NER Private BiLSTM模块进行私有特征提取,可以获得NER任务私有BiLSTM的输出特征
Figure BDA0003494285400000048
其中,
Figure BDA0003494285400000049
表示第i时刻输出的NER任务私有特征。对于审计领域数据集中的任意句子,私有的BiLSTM的隐藏状态表示如式(4)所示:
Figure BDA0003494285400000051
其中,θnp为NER私有BiLSTM参数,用于隐藏状态的维度设置。
S222):CWS Private BiLSTM模块
将序列X′=[x′1,x′2,…,x′m]输入CWS Private BiLSTM模块进行私有特征提取,可以获得CWS任务私有BiLSTM的输出特征
Figure BDA0003494285400000052
其中,
Figure BDA0003494285400000053
表示第i时刻输出的CWS任务私有特征。对于新时代***分词语料中的任意句子,私有的BiLSTM层的隐藏状态表示如式(5)所示:
Figure BDA0003494285400000054
其中,θcp为CWS私有BiLSTM参数,用于隐藏状态的维度设置。
S223):Shared BiLSTM模块
将序列
Figure BDA0003494285400000055
输入Shared BiLSTM模块进行共享特征提取,可以获得共享BiLSTM的输出特征
Figure BDA0003494285400000056
其中,
Figure BDA0003494285400000057
表示第i时刻输出的NER任务和CWS任务的共享特征。对于集合中的任意句子,共享的BiLSTM层的隐藏状态表示如式(6)所示:
Figure BDA0003494285400000058
其中,θshared为共享BiLSTM参数,用于隐藏状态的维度设置。
综上,将NER Private BiLSTM模块提取的私有特征和Shared BiLSTM模块提取的共享特征进行连接得到NER任务的总特征Hner,作为NER CRF模块的输入。将CWS PrivateBiLSTM模块提取的私有特征和Shared BiLSTM模块提取的共享特征进行连接得到CWS任务的总特征Hcws,作为CWS CRF模块的输入。表示如式(7)和式(8)所示:
Figure BDA0003494285400000061
Figure BDA0003494285400000062
S23):CRF层
BiLSTM仅可以获得词语之间的信息关系,不会考虑连续标签之间的相互关系,因此本发明将BiLSTM层训练后的特征使用CRF层进行标签推测,但由于NER任务和CWS任务的标签不同,因此为每个任务分配各自CRF层,从而得到各自任务的序列标注,然而BiLSTM输出向量的维度与CRF之间不对等,为了便于CRF进行标签推测时对损失函数进行计算,为BiLSTM输出的向量H添加一个全连接层,CRF预测过程表示如式(9)和式(10)所示:
0i=Ahi+b (9)
Figure BDA0003494285400000063
其中,A为权重,b为偏置项,X为输入序列,y为预测的标签序列,K为转移概率矩阵,
Figure BDA0003494285400000064
为yi-1标签转移yi标签的概率得分,
Figure BDA0003494285400000065
为字符xi被标记成为第yi个标签的分数,n为句子的长度。对于损失函数使用负对数似然函数,得到真实标签序列的概率表示如式(11)所示:
Figure BDA0003494285400000066
其中,
Figure BDA0003494285400000067
为真实的标签序列,YX为所有被标记的数据的集合,
Figure BDA0003494285400000068
为预测正确标签的得分,
Figure BDA0003494285400000069
为所有标签的总和得分。
S231):NER CRF模块
对Hner中的训练样本进行训练,通过式(9)到(11)可得损失函数Lner,表示如式(12)所示:
Figure BDA0003494285400000071
S232):CWS CRF模块
对Hcws中的训练样本进行训练,通过式(9)到(11)可得损失函数Lcws,表示如式(13)所示:
Figure BDA0003494285400000072
对训练过程不断调优,从而最小化损失函数。
S24):对抗训练层:
由GAN网络启发的对抗技术,通过对抗训练来提取NER和CWS的共享信息,同时有效防止CWS任务的私有信息带来的噪声。任务鉴别器通过Maxpooling层和Softmax层识别特征来自哪个任务,当模型无法辨别特征来自哪个任务,由共享特征提取器提取两个任务的共享特征,提高命名实体识别的任务性能。任务鉴别器表示如式(14)和式(15)所示:
S=Maxpooling(Hshared) (14)
D(s;δd)=Softmax(A1s+b1) (15)
其中,Hshared为共享特征提取层的输出,δd为任务鉴别器的参数,即包括A1为权重,b1为偏置项。
为了防止中文分词任务的私有信息进入共享信息空间中,引入对抗损失函数Ladv训练共享特征提取器,使任务鉴别器无法有效的识别特征来自哪个任务,对抗损失函数可以表示如式(16)所示:
Figure BDA0003494285400000073
其中,δs为共享BiLSTM参数θshared中的可训练参数,I为共享特征种的总任务数,J为共享特征中的训练样例数,Ws为共享特征提取器,
Figure BDA0003494285400000081
为共享特征中的第i个样例。
S3):模型训练
通过上述对NER任务损失函数Lner、CWS任务损失函数Lcws和对抗损失函数Ladv的计算,最终本模型的损失函数L,表示如式(17)所示:
L=GLNER+(l-G)LCWS+γLadv (17)
其中,γ为损失权重系数,G为判定输入来自NER和CWS任务的切换函数。
对模型进行训练过程中,从给定任务中抽取训练实例进行参数更新,不断优化最终的损失函数,并根据NER任务的收敛速度为准进行迭代,直到结果最优。
与现有技术相比,本发明的有益效果是:本基于对抗训练的审计领域命名实体识别方法,使用BERT得到词向量,通过对抗训练来提取NER任务和CWS任务的共享信息,同时有效防止CWS任务的私有信息带来的噪声,提高对私有信息的过滤,并将任务共享的词边界信息融合到NER任务中,提高了审计领域命名实体识别的精确度。
附图说明
图1为本发明一种基于对抗训练的审计领域命名实体识别方法的模型框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供以下技术方案:
一种基于对抗训练的审计领域命名实体识别方法,包括以下步骤:
一、数据集的获取
本发明主要解决审计领域命名实体识别问题,因此使用审计领域数据集作为本发明的主数据集。CWS和NER都会对实体边界进行划分,CWS具有数据集的规模更大,在通用数据集上对边界的划分更为细致,可以使用CWS的这一特性辅助完成NER任务。新时代***分词语料(http://corpus.njau.edu.cn/)因数据量大且内容丰富,因此用作辅助数据集。
1)NER数据集
审计领域数据集利用网络爬虫从政府网站上收集扶贫政策相关语料共7323余篇,通过筛选字数在10到100的语句构建语料,并对原始数据进行预处理,包括删除非正文部分、统一编码、字段化等。按照7:2:1方式划分成训练集、验证集和测试集,并使用人工对4种实体类型(人名、地名、机构名和专有名词)采用BIO(B表示实体的开头;I表示实体的中间;O表示不是实体)方式进行语料标注。
2)CWS数据集
新时代***分词语料由南京农业大学人文与社会计算研究中心以2015上半年(1-6月)及2016年1月、2017年1月和2018年1月共9个月的《***》发表的全部文章为对象所构建,规模现已超过2300万字,全部由人工采用BMES方式对进行语料标注。本发明所使用的是其中的2018年1月语料,共43647句。
二、模型的构建
本发明提出的模型框架如图1所示。纵向包括三个任务,左边为命名实体识别任务,包括NER BERT Embedding模块、NER Private BiLSTM模块和NER CRF模块;右边为中文分词任务,包括CWS BERT Embedding模块、CWS Private BiLSTM模块和CWS CRF模块;中间为对抗训练任务,包括Shared BiLSTM模块和对抗训练模块。三个任务横向均包括嵌入层、共享-私有特征提取层和CRF层或对抗训练层,下面根据三个任务横向对结构进行介绍。
1嵌入层
将语料输入嵌入层,BERT采用了Transformer进行编码,引入了Self-attention(自注意力)机制预测词间的依赖关系及捕获句子内部结构的信息,对输入句子的长度超过n的进行截断,同时对句子的长度少于n的使用0进行补全。在句子首位添加输入表示的向量[CLS]和划分句子对的向量[SEP],对句子进行训练可以获得更准确的语义信息(Token)。之后使用Segment嵌入判断给定句子间是否是连续的方式获得句子级别特征。由于文本的字词顺序对句子含义至关重要,BERT对每个字符位置进行独立编码,学习输入序列的顺序特征,从而获得各自位置的信息(Position)。最后将Token嵌入、Segment嵌入和Position嵌入获得的向量进行相加,即为BERT的输出序列。
1)NER BERT Embedding模块
使用审计领域数据集用于NER任务,将给定的句子W=[w1,w2,...,wn]输入NERBERT Embedding模块后,可以输出每个词的词向量的序列X=[x1,x2,...,xn],其中,wi为句子中的词,xi为wi对应的词向量,n为句子的长度。
2)CWS BERT Embedding模块
使用新时代***分词语料用于CWS任务,将给定的句子W′=[w′1,w′2,...,w′m]输入CWS BERT Embedding模块后,可以输出每个词的词向量的序列x′=[x′1,x′2,...,x′m],其中,w′i为句子中的词,x′i为w′i对应的词向量,m为句子的长度,并规定n>m。
综上,将X′中每维向量进行补全到n,将补全后的X′整体连接到X的下方,得到序列
Figure BDA0003494285400000111
用于对抗训练任务提取共享信息的输入。
2共享-私有特征提取层
长短期记忆网络(Long Short-Term Memory,LSTM)是循环神经网络(RecurrentNeural Network,RNN)的一种变体,它可以有效利用长距离信息,并通过门控结构和记忆单元来解决RNN的梯度弥散和梯度炸裂的问题。单向的LSTM只能获得当前时刻输入信息的前一刻信息,在序列标注任务中,当前时刻输入信息的后一刻信息同样至关重要。为了融合序列两侧的信息,本发明采用双向LSTM(即Bi-directional Long Short-Term Memory,BiLSTM)进行特征提取。
给定输入序列进行特征提取,可以获得的输出特征,在第i时刻的隐藏状态表示如式(1)到(3)所示:
Figure BDA0003494285400000112
Figure BDA0003494285400000113
Figure BDA0003494285400000114
其中,
Figure BDA0003494285400000115
Figure BDA0003494285400000116
分别表示第i时刻的前向和后向的隐藏状态,
Figure BDA0003494285400000117
表示连接操作。
本发明使用共享-私有特征提取层,NER Private BiLSTM模块提取审计领域的特征用于NER任务,CWS Private BiLSTM模块提取新时代***分词语料的特征用于CWS任务,Shared BiLSTM模块学习词边界的共享信息特征用于对抗训练任务。
1)NER Private BiLSTM模块
将序列X=[x1,x2,...,xn]输入NER Private BiLSTM模块进行私有特征提取,可以获得NER任务私有BiLSTM的输出特征
Figure BDA0003494285400000121
其中,
Figure BDA0003494285400000122
表示第i时刻输出的NER任务私有特征。对于审计领域数据集中的任意句子,私有的BiLSTM的隐藏状态表示如式(4)所示:
Figure BDA0003494285400000123
其中,θnp为NER私有BiLSTM参数,用于隐藏状态的维度设置。
2)CWS Private BiLSTM模块
将序列X′=[x′1,x′2,...,x′m]输入CWS Private BiLSTM模块进行私有特征提取,可以获得CWS任务私有BiLSTM的输出特征
Figure BDA0003494285400000124
其中,
Figure BDA0003494285400000125
表示第i时刻输出的CWS任务私有特征。对于新时代***分词语料中的任意句子,私有的BiLSTM层的隐藏状态表示如式(5)所示:
Figure BDA0003494285400000126
其中,θcp为CWS私有BiLSTM参数,用于隐藏状态的维度设置。
3)Shared BiLSTM模块
将序列
Figure BDA0003494285400000127
输入Shared BiLSTM模块进行共享特征提取,可以获得共享BiLSTM的输出特征
Figure BDA0003494285400000128
其中,
Figure BDA0003494285400000129
表示第i时刻输出的NER任务和CWS任务的共享特征。对于集合中的任意句子,共享的BiLSTM层的隐藏状态表示如式(6)所示:
Figure BDA0003494285400000131
其中,θshared为共享BiLSTM参数,用于隐藏状态的维度设置。
综上,将NER Private BiLSTM模块提取的私有特征和Shared BiLSTM模块提取的共享特征进行连接得到NER任务的总特征Hner,作为NER CRF模块的输入。将CWS PrivateBiLSTM模块提取的私有特征和Shared BiLSTM模块提取的共享特征进行连接得到CWS任务的总特征Hcws,作为CWS CRF模块的输入。表示如式(7)和式(8)所示:
Figure BDA0003494285400000132
Figure BDA0003494285400000133
3 CRF层
BiLSTM仅可以获得词语之间的信息关系,不会考虑连续标签之间的相互关系,因此本发明将BiLSTM层训练后的特征使用CRF层进行标签推测,但由于NER任务和CWS任务的标签不同,因此为每个任务分配各自CRF层,从而得到各自任务的序列标注。然而BiLSTM输出向量的维度与CRF之间不对等,为了便于CRF进行标签推测时对损失函数进行计算,为BiLSTM输出的向量H添加一个全连接层,CRF预测过程表示如式(9)和式(10)所示:
oi=Ahi+b (9)
Figure BDA0003494285400000134
其中,A为权重,b为偏置项,x为输入序列,y为预测的标签序列,K为转移概率矩阵,
Figure BDA0003494285400000135
为yi-1标签转移yi标签的概率得分,
Figure BDA0003494285400000136
为字符xi被标记成为第yi个标签的分数,n为句子的长度。对于损失函数使用负对数似然函数,得到真实标签序列的概率表示如式(11)所示:
Figure BDA0003494285400000141
其中,
Figure BDA0003494285400000142
为真实的标签序列,YX为所有被标记的数据的集合,
Figure BDA0003494285400000143
为预测正确标签的得分,
Figure BDA0003494285400000144
为所有标签的总和得分。
1)NER CRF模块
对Hner中的训练样本进行训练,通过式(9)到(11)可得损失函数Lner,表示如式(12)所示:
Figure BDA0003494285400000145
2)CWS CRF模块
对Hcws中的训练样本进行训练,通过式(9)到(11)可得损失函数Lcws,表示如式(13)所示:
Figure BDA0003494285400000146
对训练过程不断调优,从而最小化损失函数。
4对抗训练层
由GAN网络(Generative Adversarial Networks)启发的对抗技术,通过对抗训练来提取NER和CWS的共享信息,同时有效防止CWS任务的私有信息带来的噪声。任务鉴别器通过Maxpooling层和Softmax层识别特征来自哪个任务,当模型无法辨别特征来自哪个任务,由共享特征提取器提取两个任务的共享特征,提高命名实体识别的任务性能。任务鉴别器表示如式(14)和式(15)所示:
s=Maxpooling(Hshared) (14)
D(s;δd)=Softmax(A1s+b1) (15)
其中,Hshared为共享特征提取层的输出,δd为任务鉴别器的参数,即包括A1为权重,b1为偏置项。
为了防止中文分词任务的私有信息进入共享信息空间中,引入对抗损失函数Ladv训练共享特征提取器,使任务鉴别器无法有效的识别特征来自哪个任务,对抗损失函数可以表示如式(16)所示:
Figure BDA0003494285400000151
其中,δs为共享BiLSTM参数θshared中的可训练参数,I为共享特征种的总任务数,J为共享特征中的训练样例数,Es为共享特征提取器,
Figure BDA0003494285400000152
为共享特征中的第i个样例。
通过训练,不断最小化任务鉴别器的损失,以对抗性的鼓励共享特征提取器学***衡,使任务鉴别器无法区分特征来自哪个任务。
三、模型训练
通过上述对NER任务损失函数Lner、CWS任务损失函数Lcws和对抗损失函数Ladv的计算,最终本模型的损失函数L,表示如式(17)所示:
L=GLNER+(l-G)LCWS+γLadv (17)
其中,γ为损失权重系数,G为判定输入来自NER和CWS任务的切换函数。
对模型进行训练过程中,从给定任务中抽取训练实例进行参数更新,不断优化最终的损失函数,并根据NER任务的收敛速度为准进行迭代,直到结果最优。
本发明的伪代码如下:
Figure BDA0003494285400000161
Figure BDA0003494285400000171
四、实验与结果
1实验设置
本实验通过交叉验证得到模型的超参取值,词向量维度为768,LSTM隐藏状态的维度均设置为120,损失权重系数γ设置为0.05,初始学习率设置为0.001,Dropout设置为0.5,批大小设置为64,迭代次数设置为20,使用Adam算法对实验进行优化。
2评价指标
本实验使用精确率(Precision,P)、召回率(Recall,R)和F1值来评价模型性能,计算公式如式(18)到(20)所示:
Figure BDA0003494285400000172
Figure BDA0003494285400000173
Figure BDA0003494285400000181
其中,TP为正确样本判断为正的数量,FP为错误样本判断为正的数量,FN为正确样本判断为负的数量。
3实验结果与结论
表1模型结果对比
Figure BDA0003494285400000182
结论:通过实验结果对比得出,在审计领域语料上,通过本专利提出的方法可以有效的提高F1的值。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (1)

1.一种基于对抗训练的审计领域命名实体识别方法,其特征在于:包括以下步骤:
S1):数据集的获取:使用审计领域数据集作为本发明的NER数据集;使用新时代***分词语料作CWS数据集;使用CWS辅助NER任务。
S11):NER数据集
审计领域数据集利用网络爬虫从政府网站上收集扶贫政策相关语料,通过筛选字数在10到100的语句构建语料,并对原始数据进行预处理,包括删除非正文部分、统一编码、字段化;按照7:2:1方式划分成训练集、验证集和测试集,并使用人工对4种实体类型:人名、地名、机构名和专有名词,采用BIO方式进行语料标注。
S12):CWS数据集
新时代***分词语料通过南京农业大学人文与社会计算研究中心网站http://corpus.njau.edu.cn获取。
S2):模型的构建:本发明提出的模型框架,纵向包括三个任务,左边命名为实体识别任务,包括NER BERT Embedding模块、NER Private BiLSTM模块和NER CRF模块;右边为中文分词任务,包括CWS BERT Embedding模块、CWS Private BiLSTM模块和CWS CRF模块;中间为对抗训练任务,包括Shared BiLSTM模块和对抗训练模块;三个任务横向均包括嵌入层、共享-私有特征提取层和CRF层或对抗训练层,下面根据三个任务横向对结构进行介绍。
S21):嵌入层
将语料输入嵌入层,BERT采用了Transformer进行编码,引入了Self-attention机制预测词间的依赖关系及捕获句子内部结构的信息,对输入句子的长度超过n的进行截断,同时对句子的长度少于n的使用0进行补全;在句子首位添加输入表示的向量[CLS]和划分句子对的向量[SEP],对句子进行训练可以获得更准确的语义信息;之后使用Segment嵌入判断给定句子间是否是连续的方式获得句子级别特征;由于文本的字词顺序对句子含义至关重要,BERT对每个字符位置进行独立编码,学习输入序列的顺序特征,从而获得各自位置的信息;最后将Token嵌入、Segment嵌入和Position嵌入获得的向量进行相加,即为BERT的输出序列。
S211):NER BERT Embedding模块
使用审计领域数据集用于NER任务,将给定的句子W=[w1,w2,...,wn]输入NER BERTEmbedding模块后,可以输出每个词的词向量的序列X=[x1,x2,...,xn],其中,wi为句子中的词,xi为wi对应的词向量,n为句子的长度。
S212):CWS BERT Embedding模块
使用新时代***分词语料用于CWS任务,将给定的句子W′=[w′1,w′2,...,w′m]输入CWS BERT Embedding模块后,可以输出每个词的词向量的序列X′=[x′1,x′2,...,x′m],其中,w′i为句子中的词,x′i为w′i对应的词向量,m为句子的长度,并规定n>m;
综上,将X′中每维向量进行补全到n,将补全后的X′整体连接到X的下方,得到序列
Figure FDA0003494285390000021
用于对抗训练任务提取共享信息的输入。
S22):共享-私有特征提取层
采用双向LSTM进行特征提取;给定输入序列进行特征提取,可以获得的输出特征,在第i时刻的隐藏状态表示如式(1)到(3)所示:
Figure FDA0003494285390000031
Figure FDA0003494285390000032
Figure FDA0003494285390000033
其中,
Figure FDA0003494285390000034
Figure FDA0003494285390000035
分别表示第i时刻的前向和后向的隐藏状态,
Figure FDA0003494285390000036
表示连接操作。
S221):NER Private BiLSTM模块
将序列X=[x1,x2,...,xn]输入NER Private BiLSTM模块进行私有特征提取,可以获得NER任务私有BiLSTM的输出特征
Figure FDA0003494285390000037
其中,
Figure FDA0003494285390000038
表示第i时刻输出的NER任务私有特征;对于审计领域数据集中的任意句子,私有的BiLSTM的隐藏状态表示如式(4)所示:
Figure FDA0003494285390000039
其中,θnp为NER私有BiLSTM参数,用于隐藏状态的维度设置。
S222):CWS Private BiLSTM模块
将序列X′=[x′1,x′2,...,x′m]输入CWS Private BiLSTM模块进行私有特征提取,可以获得CWS任务私有BiLSTM的输出特征
Figure FDA00034942853900000310
其中,
Figure FDA00034942853900000311
表示第i时刻输出的CWS任务私有特征;对于新时代***分词语料中的任意句子,私有的BiLSTM层的隐藏状态表示如式(5)所示:
Figure FDA00034942853900000312
其中,θcp为CWS私有BiLSTM参数,用于隐藏状态的维度设置。
S223):Shared BiLSTM模块
将序列
Figure FDA0003494285390000041
输入Shared BiLSTM模块进行共享特征提取,可以获得共享BiLSTM的输出特征
Figure FDA0003494285390000042
其中,
Figure FDA0003494285390000043
表示第i时刻输出的NER任务和CWS任务的共享特征;对于集合中的任意句子,共享的BiLSTM层的隐藏状态表示如式(6)所示:
Figure FDA0003494285390000044
其中,θshared为共享BiLSTM参数,用于隐藏状态的维度设置。
综上,将NER Private BiLSTM模块提取的私有特征和Shared BiLSTM模块提取的共享特征进行连接得到NER任务的总特征Hner,作为NER CRF模块的输入;将CWS Private BiLSTM模块提取的私有特征和Shared BiLSTM模块提取的共享特征进行连接得到CWS任务的总特征Hcws,作为CWS CRF模块的输入;表示如式(7)和式(8)所示:
Figure FDA0003494285390000045
Figure FDA0003494285390000046
S23):CRF层
将BiLSTM层训练后的特征使用CRF层进行标签推测,为BiLSTM输出的向量H添加一个全连接层,CRF预测过程表示如式(9)和式(10)所示:
oi=Ahi+b (9)
Figure FDA0003494285390000047
其中,A为权重,b为偏置项,x为输入序列,y为预测的标签序列,K为转移概率矩阵,
Figure FDA0003494285390000048
为yi-1标签转移yi标签的概率得分,
Figure FDA0003494285390000049
为字符xi被标记成为第yi个标签的分数,n为句子的长度;对于损失函数使用负对数似然函数,得到真实标签序列的概率表示如式(11)所示:
Figure FDA0003494285390000051
其中,
Figure FDA0003494285390000052
为真实的标签序列,YX为所有被标记的数据的集合,
Figure FDA0003494285390000053
为预测正确标签的得分,
Figure FDA0003494285390000054
为所有标签的总和得分。
S231):NER CRF模块
对Hner中的训练样本进行训练,通过式(9)到(11)可得损失函数Lner,表示如式(12)所示:
Figure FDA0003494285390000055
S232):CWS CRF模块
对Hcws中的训练样本进行训练,通过式(9)到(11)可得损失函数Lcws,表示如式(13)所示:
Figure FDA0003494285390000056
对训练过程不断调优,从而最小化损失函数。
S24):对抗训练层:
任务鉴别器通过Maxpooling层和Softmax层识别特征来自哪个任务,当模型无法辨别特征来自哪个任务,由共享特征提取器提取两个任务的共享特征,提高命名实体识别的任务性能;任务鉴别器表示如式(14)和式(15)所示:
s=Maxpooling(Hshared) (14)
D(s;δd)=Softmax(A1s+b1) (15)
其中,Hshared为共享特征提取层的输出,δd为任务鉴别器的参数,即包括A1为权重,b1为偏置项;
为了防止中文分词任务的私有信息进入共享信息空间中,引入对抗损失函数Ladv训练共享特征提取器,使任务鉴别器无法有效的识别特征来自哪个任务,对抗损失函数可以表示如式(16)所示:
Figure FDA0003494285390000061
其中,δs为共享BiLSTM参数θshared中的可训练参数,I为共享特征种的总任务数,J为共享特征中的训练样例数,Es为共享特征提取器,
Figure FDA0003494285390000062
为共享特征中的第i个样例。
S3):模型训练
通过上述对NER任务损失函数Lner、CWS任务损失函数Lcws和对抗损失函数Ladv的计算,最终本模型的损失函数L,表示如式(17)所示:
L=GLNER+(1-G)LCWS+γLadv (17)
其中,γ为损失权重系数,G为判定输入来自NER和CWS任务的切换函数;
对模型进行训练过程中,从给定任务中抽取训练实例进行参数更新,不断优化最终的损失函数,并根据NER任务的收敛速度为准进行迭代,直到结果最优。
CN202210109168.0A 2022-01-28 2022-01-28 一种基于对抗训练的审计领域命名实体识别方法 Pending CN114462409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210109168.0A CN114462409A (zh) 2022-01-28 2022-01-28 一种基于对抗训练的审计领域命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210109168.0A CN114462409A (zh) 2022-01-28 2022-01-28 一种基于对抗训练的审计领域命名实体识别方法

Publications (1)

Publication Number Publication Date
CN114462409A true CN114462409A (zh) 2022-05-10

Family

ID=81410574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210109168.0A Pending CN114462409A (zh) 2022-01-28 2022-01-28 一种基于对抗训练的审计领域命名实体识别方法

Country Status (1)

Country Link
CN (1) CN114462409A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470871A (zh) * 2022-11-02 2022-12-13 江苏鸿程大数据技术与应用研究院有限公司 基于命名实体识别与关系抽取模型的政策匹配方法及***
CN115630649A (zh) * 2022-11-23 2023-01-20 南京邮电大学 一种基于生成模型的医学中文命名实体识别方法
CN116227483A (zh) * 2023-02-10 2023-06-06 南京南瑞信息通信科技有限公司 一种基于词边界的中文实体抽取方法、装置及存储介质
CN117807999A (zh) * 2024-02-29 2024-04-02 武汉科技大学 基于对抗学习的域自适应命名实体识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470871A (zh) * 2022-11-02 2022-12-13 江苏鸿程大数据技术与应用研究院有限公司 基于命名实体识别与关系抽取模型的政策匹配方法及***
CN115470871B (zh) * 2022-11-02 2023-02-17 江苏鸿程大数据技术与应用研究院有限公司 基于命名实体识别与关系抽取模型的政策匹配方法及***
CN115630649A (zh) * 2022-11-23 2023-01-20 南京邮电大学 一种基于生成模型的医学中文命名实体识别方法
CN116227483A (zh) * 2023-02-10 2023-06-06 南京南瑞信息通信科技有限公司 一种基于词边界的中文实体抽取方法、装置及存储介质
CN117807999A (zh) * 2024-02-29 2024-04-02 武汉科技大学 基于对抗学习的域自适应命名实体识别方法
CN117807999B (zh) * 2024-02-29 2024-05-10 武汉科技大学 基于对抗学习的域自适应命名实体识别方法

Similar Documents

Publication Publication Date Title
CN109871451B (zh) 一种融入动态词向量的关系抽取方法和***
CN114462409A (zh) 一种基于对抗训练的审计领域命名实体识别方法
CN111460092B (zh) 一种基于多文档的复杂问题自动化求解方法
CN106844349B (zh) 基于协同训练的垃圾评论识别方法
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN111144119A (zh) 一种改进知识迁移的实体识别方法
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
CN115496072A (zh) 一种基于对比学习的关系抽取方法
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
Li et al. Phrase embedding learning based on external and internal context with compositionality constraint
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN111563374B (zh) 一种基于司法裁判文书的人员社交关系抽取方法
CN115906846A (zh) 一种基于双图的层次特征融合的文档级命名实体识别方法
CN114357166A (zh) 一种基于深度学习的文本分类方法
CN113535936A (zh) 一种基于深度学习的规章制度检索方法及***
Sun et al. Sentiment Analysis of Hotel Reviews Based on Deep Leaning
CN112347251A (zh) 一种基于注意力机制和双向lstm方面情感分析***
CN112463970B (zh) 一种基于时间关系对文本包含的因果关系进行抽取的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination