CN110765775A - 一种融合语义和标签差异的命名实体识别领域自适应的方法 - Google Patents

一种融合语义和标签差异的命名实体识别领域自适应的方法 Download PDF

Info

Publication number
CN110765775A
CN110765775A CN201911059048.9A CN201911059048A CN110765775A CN 110765775 A CN110765775 A CN 110765775A CN 201911059048 A CN201911059048 A CN 201911059048A CN 110765775 A CN110765775 A CN 110765775A
Authority
CN
China
Prior art keywords
sentence
sentences
character
vector
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911059048.9A
Other languages
English (en)
Other versions
CN110765775B (zh
Inventor
李思
王蓬辉
徐雅静
李明正
孙忆南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201911059048.9A priority Critical patent/CN110765775B/zh
Publication of CN110765775A publication Critical patent/CN110765775A/zh
Application granted granted Critical
Publication of CN110765775B publication Critical patent/CN110765775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种通过融合源领域和目标域中句子的语义差异和标签差异,来选择源领域数据中的正样本数据来扩展目标域的训练数据,达到增强目标域的命名实体识别性能的方法。在以往的Bi‑LSTM+CRF模型的基础上,为了融合源领域和目标域中句子的语义差异和标签差异,我们通过强化学习中的状态表示和奖励设置来引入语义差异和标签差异,使得训练的决策网络可以选择源领域的数据中对于目标域的命名实体识别的性能有正向影响的句子,扩展目标域的训练数据,解决目标域训练数据不足的问题,同时提升目标域的命名实体识别性能。

Description

一种融合语义和标签差异的命名实体识别领域自适应的方法
技术领域
本发明涉及互联网技术领域,尤其涉及一种融合领域之间的语义差异和标签差异,在命名实体识别任务上进行领域迁移。
背景技术
近年来,深度学***行语料库训练翻译***,使机器达到高水平的翻译能力。随着互联网用户的增多,其产生的信息也越来越多,如何在自动化地在这些大量用户信息中提取有用信息,具有十分重要的意义。中文命名实体识别作为信息提取的上游任务,其发展对于信息提取技术十分关键。
中文命名实体识别是指识别文本中特定意义的实体,一般包括人名、地点、时间等。之所以对文本进行命名实体识别,是因为许多的下游任务需要文本中的实体信息,比如信息提取对于文本中的实体信息就十分关注,还有关系抽取就需要知道文本中的实体信息,然后确定实体之间的关系,同时命名实体识别对于机器翻译和知识图谱的构建也具有十分重要的意义。
中文命名实体识别通常包括两个过程:(1)确定实体的边界;(2)识别实体的类型。一般地,我们将命名实体识别看成序列标注的问题,采用标注规则同时标注实体的类型和边界。用于命名实体识别的传统方法包括最大熵模型、支持向量机模型以及条件随机场。近年来发展的深度学习方法,比如循环神经网络、卷积神经网络等也被广泛应用于中文命名实体识别上,并且在几个大型语料库上取得了较高的准确率。
深度学习是让神经网络自动抓取数据的特征,为了取得较高的准确率往往需要大量的数据。但是,目前在中文命名实体识别方面,现有的大型语料库只有新闻领域的,在微博等领域的标注语料库很少,使得训练的神经网络无法在该领域上达到很好的准确率。近年来,为了提高准确率,在微博等领域上的命名实体识别任务开始采用迁移学习的方式,主要是通过新闻域等域外的大型语料库来提高在微博等领域的命名实体识别模型的性能。
在领域迁移中,具有大规模标注的语料被称为源领域数据,没有标注或只有少量标注的语料被称为目标领域数据。同时,利用无标注的目标领域数据的领域迁移被称为无监督领域迁移,利用少量标注的目标领域数据的领域迁移被称为半监督领域迁移。
在中文命名实体识别的领域迁移上,存在两个问题:一是语料库的句子语义之间存在很大的差异,二是语料库句子的标签集之间存在差异,这是由不同的标注规则所导致的。为了解决这些问题,现有的领域迁移技术,一方面是在基于不同语料库中句子的语义向量进行迁移的,还有一方面则是基于不同语料库中句子的不同标签的转换关系进行迁移的。
在“A Unified Model for Cross-Domain and Semi-Supervised Named EntityRecognition in Chinese Social Media”文章中,作者根据源语料库中的句子和目标域语料库的相似度来进行命名实体识别的领域迁移。
首先,利用大量的未标注的语料库的句子训练字向量生成模型,得到预训练的字向量字典,然后根据字典查找得到源领域和目标领域每个字对应的字向量,然后取句子中所有字向量的平均得到每个句子的句向量的表达形式,最后根据以下公式计算出每个句子训练对应的学习率。
α(x)=α0(x)*func(x,IN)
Figure BDA0002257366220000011
其中vx指的是源领域的句子的句向量,α0是目标域句子的学习率,C是可调整的参数。
在“Named Entity Recognition for Novel Types by Transfer Learning”文章中,作者提出了采用双层线性网络来学习源领域和目标域的标签之间的相关性进行领域迁移。
首先,利用大量的源领域的数据,来训练命名实体识别模型,然后利用双层的线性网络来学习源领域和目标与之间的标签的相关性,最后采用目标域的数据来训练条件随机场来得到目标域的输出标签。
发明人在研究过程中发现:对于“A Unified Model for Cross-Domain andSemi-Supervised Named Entity Recognition in Chinese Social Media”、“NamedEntity Recognition for Novel Types by Transfer Learning”现有技术中:
1.传统的根据源领域和目标领域的语义相似性来判断当前的源领域句子是否有利于目标领域命名识别模型训练,未考虑到实体的标签差异的影响。
2.采用源领域和目标域之间的标签转移关系进行迁移时,未充分考虑源领域和目标域中句子的语义向量相差太大的情况。
发明内容
为了解决上述的技术问题,本发明提供了一种融合语义和标签差异在命名实体任务上进行领域迁移的方法,通过深度强化学习中的状态表示和奖励设置,引入源领域和目标领域的语义差异和标签差异,训练决策网络,选择性地将源领域的数据加入训练过程,使得源领域中的正样本数据可以增强目标域的命名实体识别的性能,同时避免源领域中负样本数据对目标域的影响。
本发明提供了一种融合源领域和目标领域文本的语义差异和标签差异,进行领域迁移的方法。通过强化学习训练决策网络,选择性地加入源领域的数据,来增强目标域的命名实体识别的性能。
步骤一、对源领域和目标领域语料库中的句子进行预处理,去除其中的网址、特殊符号,还有进行繁简体转换,将语料库中的所有句子转成中文简体。
步骤二、对源领域语料库中的句子的标签进行处理,用于统一目标领域和源领域的实体标签集。
步骤三、将源领域的句子和目标域的句子,根据相同的字典,映射成向量表示,用于将输入的文本数值化为每个字符向量列连接而成的数值矩阵。
步骤四、为了增强字符向量的表示,将每个字符的分词标签和bigram向量拼接在字符向量后面来引入词级别的信息和分词信息。
步骤五、采用双向长短期记忆神经网络(Bidirectional Long-Short TermMemory,Bi-LSTM) 提取每个字的上下文相关的特征向量,并用线性层得到每个字符实体标签的概率。
步骤六、采用条件随机场(Conditional Random Field,CRF)解码,得到每个字的最终标签,形成输出的标签序列。
步骤七、用目标域的语料库进行以上步骤一到六的操作,获得目标域的命名实体识别模型。
步骤八、采用步骤七获得的命名实体识别模型,得到源领域中的每个句子的状态表示和当前奖励。
步骤九、决策网络根据当前源领域句子的状态表示,做出相应的动作,判断是否将当前句子加入训练数据,然后并且根据每个句子的奖励,计算决策网络的损失函数,进行梯度反向传播。
步骤十、将决策网络选择的源领域句子和目标域的句子结合,得到扩展的训练数据,继续训练目标域的命名实体识别模型。
步骤十一、不断重复步骤八到十,选取在开发集上获得最大F值的模型,进行模型测试,并且保存模型。
进一步的,在于非训练情况下,将步骤一到步骤十替换成:
步骤一、将目标领域语料库中的句子当作已训练的命名实体识别模型的输入;
步骤二、利用训练过程中的字符向量字典,将目标语料库中的句子的每个字符,映射对应的向量表示;
步骤三、将每个句子的向量表示输入到双向长短期记忆神经网络,得到每个句子和上下文相关的特征表示;
步骤四、将得到的句子的特征表示输入到线性层,得到句子中每个字符的各种标签的预测概率;
步骤五、将每个字符的标签预测概率输入到条件随机场,进行解码得到最优序列,得到命名实体识别的结果。
进一步的,所述步骤三中将目标域和源领域的中文字符,利用相同字典,映射为向量表示,包括:
随机初始化的映射字典,采用字嵌入方法,为相同的字符随机初始化相同的稠密向量表示,再将语料数据的每一个中文字符通过映射字典映射为稠密向量表示;
训练字向量,采用词袋模型Skip-Gram或Continuous Bag-of-Words(CBOW),训练得到包含一定词语信息的向量表示,将语料数据的每一个中文字符通过映射字典映射为稠密向量表示。
进一步的,所述的步骤四中,为了增强字符向量的表示,在每个字符向量后面加上了分词信息和bigram信息,具体表示如下:
xi=[ci:bi:segi]
其中ci是句子中第i个字符的字符向量,bi是对应的bigram向量,segi则是分词标签。
进一步的,所述的步骤五中,将数值矩阵输入到双向长短期记忆神经网络中获取特征表示,计算过程如下:
ft=σ(Wf·[ht-1:xt]+bf)
it=σ(Wi·[ht-1:xt]+bi)
Figure BDA0002257366220000031
Figure BDA0002257366220000032
ot=σ(Wo·[ht-1:xt]+bo)
ht=ot*tanh(Ct)
其中ft、it
Figure BDA0002257366220000033
分别表示遗忘门,记忆门和临时细胞状态的输出,Ct是当前时刻的细胞状态, ot是当前输出门的输出,ht是隐层状态的输出,我们取隐层状态的输出当作每个字符的特征表示。
进一步的,所述的步骤八中源领域中句子的状态表示和奖励的计算方式见下:
st=(h1+h2+…+hn)/n
reward=log P(Y|X)
其中h1,h2,…,hn是域外的句子经过双向长短期记忆神经网络后的输出,P(Y|X)是条件随机场解码得到的标签序列的概率,st和reward是句子的状态表示和当前句子在命名实体识别模型中获得的奖励。
进一步的,所述的步骤九中决策网络的判断方式见下:
a=softmax(W·st+b)
其中W,b是选择器的权重参数,softmax是归一化操作,a∈R2x1是选择器的输出的动作,我们采用多层感知器当作我们的决策网络,决策网络根据每个句子的当前状态做出相应的动作a,如果a0>0.5,则选择句子加入训练数据,否则丢弃句子,同时得到相应的奖励reward,计算决策网络的损失函数,进行反向梯度传播。
损失函数的计算方式见下:
Loss=-reward*(a0loga0+(1-a0)log(1-a0))+L1+L2
其中L1,L2是选择器的L1,L2正则化参数,reward是当前句子在命名实体识别模型所获得的奖励。
本发明提供了一种融合语义和标签差异在命名实体识别任务上进行领域迁移的方法,采用神经网络代替强化学习中的决策网络,避免了自然语言处理中的状态空间无限的问题;同时利用强化学习中的状态表示和奖励设置引入源领域和目标领域的语义差异和标签差异,进行决策网络的训练,使得决策网络可以选择对目标域命名实体识别模型有正向影响的句子,实现了在中文命名实体识别上基于实例的领域迁移。
附图说明
图1为实施例一的流程图;
图2为本发明提供的融合语义和标签差异在命名实体识别任务上的领域迁移方法的网络结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。其中,本实施例中出现的缩略语和关键术语定义如下:
BP:Back Propagation反向传播;
CRF:Conditional Random Field条件随机场;
Bi-LSTM:Bidirectional Long Short-Term Memory双向长短期记忆神经网络;
实时实例一
参考图1、2所示,本发明提供了一种融合语义和标签差异,在命名实体识别任务上进行领域迁移的方法,具体的,在训练时,该方法包括:
步骤一、对源领域和目标域语料库中的句子进行预处理,去除其中的网址、特殊符号,还有进行繁简体转换,将语料库中的所有句子转成中文简体。
步骤二、对源领域语料库中的句子的标签进行处理,用于统一源领域和目标域的实体标签集。具体地,将源领域中的PER标签改成PER.NAM,LOC标签改成LOC.NAM,以及ORG标签改成 ORG.NAM,O标签不变。
步骤三、将源领域的句子和目标域的句子,根据相同的字典,映射成向量表示,用于将输入的文本数值化为每个字符向量列连接而成的数值矩阵。
进一步的,首先随机初始化的映射字典,采用字嵌入方法,为相同的字符随机初始化相同的稠密向量表示,再将语料数据的每一个中文字符通过映射字典映射为稠密向量表示;
训练字向量时,采用Glove模型,训练得到包含一定词语信息的向量表示,将语料数据的每一个中文字符通过映射字典映射为稠密向量表示。
本实施例中,采用大量从网上爬虫得到的未标注的目标域语料库和源领域的数据进行字向量模型的预训练,构建字向量映射字典,为每个字符标号,相同的字符向量一致;对于字典中未出现的字符,采用随机初始化。
步骤四、为了增强字符向量的表示,将每个字符的分词标签和bigram向量拼接在字符向量后面来引入词级别的信息和分词信息。
具体的,为了增强字符向量的表示,在每个字符向量后面加上了分词信息和bigram信息,具体表示如下:
xi=[ci:bi:segi]
其中ci是句子中第i个字符的字符向量,bi是对应的bigram向量,segi则是分词标签,在对目标领域语料分词时候我们采用的是(Neural Word Segmentation with RichPretraining,Yang et.al 2017a)的分词工具。
步骤五、采用双向长短期记忆神经网络(Bidirectional Long-Short TermMemory,Bi-LSTM) 提取每个字的上下文相关的特征向量,并用线性层得到每个字符各种实体标签的概率。
将数值矩阵输入到双向长短期记忆神经网络中获取特征表示,计算过程如下:
ft=σ(Wf·[ht-1:xt]+bf)
it=σ(Wi·[ht-1:xt]+bi)
Figure BDA0002257366220000041
Figure BDA0002257366220000042
ot=σ(Wo·[ht-1:xt]+bo)
ht=ot*tanh(Ct)
其中ft、it
Figure BDA0002257366220000043
分别表示遗忘门,记忆门和临时细胞状态的输出,Ct是当前时刻的细胞状态,ot是当前输出门的输出,ht是隐层状态的输出,我们取隐层状态的输出当作每个字符的特征表示。
步骤六、采用条件随机场(Conditional Random Field,CRF)解码,得到每个字的最终标签,形成输出的标签序列。
步骤七、用目标域的语料库进行以上步骤一到六的操作,获得目标域的命名实体识别模型。
步骤八、采用步骤七获得的命名实体识别模型,得到源领域的句子的状态表示和当前奖励。
源领域句子的状态表示和奖励的计算方式见下:
st=(h1+h2+…+hn)/n
reward=log P(Y|X)
其中h1,h2,…,hn是域外的句子经过双向长短期记忆神经网络后的输出,P(Y|X)是条件随机场解码得到的标签序列的概率,st和reward是句子的状态表示和当前句子在命名实体识别模型中获得的奖励。
步骤九、决策网络根据当前句子的状态表示,做出相应的动作,判断是否将当前句子加入训练数据,同时根据每个句子的奖励,计算决策网络的损失函数,进行梯度反向传播。
所述的步骤九中决策网络的判断方式见下:
a=softmax(W·st+b)
其中W,b是决策网络的权重参数,softmax是归一化操作,a∈R2x1是决策网络的输出的动作,我们采用多层感知器当作我们的决策网络,决策网络根据每个句子的当前状态做出相应的动作 a,如果a0>0.5,则选择句子加入训练数据,同时得到相应的奖励reward,计算损失函数,进行反向梯度传播。
损失函数的计算方式见下:
Loss=-reward*(a0loga0+(1-a0)log(1-a0))+L1+L2
其中L1,L2是决策网络的正则化参数,reward是当前句子在命名实体识别模型所获得的奖励。
步骤十、将决策网络选择的源领域句子和目标域语料的句子结合,得到扩展的训练数据,继续训练目标域的命名实体识别模型。
步骤十一、不断重复步骤八到十,选取在开发集上获得最大F值的模型,进行测试,并且保存模型。
非训练情况下,将步骤一到步骤十替换成:
步骤一、将目标域语料库中的句子当作神经网络的输入;
步骤二、利用训练过程中的字符向量字典,将目标域语料库中的句子的每个字符,映射对应的向量表示;
步骤三、将每个句子的向量表示输入到双向长短期记忆神经网络(BidirectionalLong-Short Term Memory,Bi-LSTM),得到每个句子和上下文相关的特征表示。
步骤四、将得到的句子的特征表示输入到线性层,得到句子中每个字符的各种标签的预测概率。
步骤五、将每个字符的标签预测概率输入到条件随机场(Conditional RandomField,CRF),进行解码得到最优序列,完成实体识别。
一优选实施例,首先将句子中的每一个字符映射为一个稠密向量,向量维度为n,经过双向长短期记忆神经网络,提取得到一句话中每一个字的特征;对于源领域的数据,将每句话的状态输入到强化学习训练的决策网络,得到对应的动作和奖励;根据动作决定是否将当前句子加入训练数据,同时根据反馈的奖励计算决策网络的Loss,进行反向传播,更新决策网络;对于目标领域的句子,不进行选择,直接加入训练数据;将得到的训练数据重新对命名实体识别模型进行训练,计算对应的Loss,进行反向传播,更新命名实体识别模型的参数。
本发明提供了一种融合语义和标签差异在命名实体识别任务上进行领域迁移的方法,采用神经网络代替强化学习中的决策网络,避免了自然语言处理中的状态空间无限的问题;同时利用强化学习中的状态表示和奖励设置引入源领域和目标领域的语义差异和标签差异,进行决策网络的训练,使得决策网络可以选择对目标域命名实体识别模型有正向影响的句子;通过利用现有大规模标注数据,提升在目标域的命名实体识别准确率,缓解人工标注语料的压力。
上述本发明实施例序号仅仅为了描述,不代表实施例优劣。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种融合语义和标签差异的命名实体识别领域自适应方法,其特征在于,采用深度强化学习的方式引入语义和标签差异,训练决策网络,选择性地加入源领域的数据,扩展目标域的训练数据,该方法包括以下步骤:
(1)对目标语料库中的句子进行预处理,去除其中的网址、特殊符号,还有进行繁简体转换,将目标语料库中的所有句子转成中文简体;
(2)对源领域和目标领域中语料库的句子的标签进行处理,用于统一不同语料库中实体的标签集;
(3)将源领域和目标领域中的句子,根据相同的字典,映射成向量表示,用于将输入的文本数值化为每个字符向量列连接而成的数值矩阵;
(4)为了增强字符向量的表示,将每个字符的分词标签和bigram向量拼接在字符向量后面来引入词级别的信息和分词信息;
(5)采用双向长短期记忆神经网络(Bidirectional Long-Short Term Memory,Bi-LSTM)提取每个字的上下文相关的特征向量,并用线性层得到每个字符各种实体标签的概率;
(6)采用条件随机场(Conditional Random Field,CRF)解码,得到每个字的最终标签,形成输出的标签序列;
(7)用目标语料库进行以上步骤(1)-(6)的操作,获得目标域训练的命名实体识别模型;
(8)采用步骤(7)获得的命名实体识别模型,得到源领域中的每个句子的在强化学习方式中的状态表示和当前奖励;
(9)利用深度强化学习的方式训练决策网络,决策网络根据当前句子的状态表示,作出相应的动作,判断是否将当前句子加入训练数据,然后获得动作执行之后的奖励,用于计算决策网络的损失函数并且进行梯度的反向传播;
(10)将决策网络选择的源领域中的正样本和目标领域语料库中的句子结合,扩展训练数据,继续训练目标域的命名实体识别模型;
(11)不断重复步骤(8)-(10),选取在目标域开发集上获得最大F值的模型,进行模型测试,并且保存模型。
2.如权利要求1所述的方法,其特征在于非训练情况下,将步骤(1)-(10)替换成:
(2.1)将目标域语料库中的句子当作已训练的目标域的命名实体识别模型的输入;
(2.2)利用训练过程中的字符向量字典,将目标域语料库中的句子,通过字典,映射对应的向量表示;
(2.3)将每个句子的向量表示输入到双向长短期记忆神经网络,获取每个句子和上下文相关的特征表示;
(2.4)将得到的句子的特征表示输入到线性层,得到句子中每个字符的各种标签的预测概率;
(2.5)将每个字符的标签预测概率输入到条件随机场,进行解码得到最优序列,得到每个句子命名实体识别的结果。
3.如权利要求1所述的方法,其特征在于,所述步骤(3)中,将目标域和源领域的中文字符,利用相同字典,映射为向量表示,包括:
(3.1)随机初始化的映射字典,采用字嵌入方法,为相同的字符随机初始化相同的稠密向量表示,再将语料数据的每一个中文字符通过映射字典映射为稠密向量表示;
(3.2)训练字向量,采用词袋模型Skip-Gram或Continuous Bag-of-Words(CBOW),训练得到包含一定词语信息的向量表示,将语料数据的每一个中文字符通过映射字典映射为稠密向量表示。
4.如权利要求1所述的方法,其特征在于,所述的步骤(4)中,为了增强字符级别向量的表示,在每个字符向量后面加上了分词标签信息和bigram信息,具体表示如下:
xi=[ci:bi:segi]
其中ci是句子中第i个字符的字符向量,bi是对应的bigram向量,segi则是分词标签。
5.如权利要求1中所述的方法,其特征在于,所述的步骤(5)中,将数值矩阵输入到双向长短期记忆神经网络中获取特征表示,计算过程如下:
ft=σ(Wf·[ht-1:xt]+bf)
it=σ(Wi·[ht-1:xt]+bi)
Figure FDA0002257366210000021
ot=σ(Wo·[ht-1:xt]+bo)
ht=ot*tanh(Ct)
其中ft、it分别表示遗忘门,记忆门和临时细胞状态的输出,Ct是当前时刻的细胞状态,ot是当前输出门的输出,ht是隐层状态的输出,我们取隐层状态的输出当作每个字符的特征表示。
6.如权利要求1中的方法,其特征在于,所述的步骤(8)中源领域句子的状态表示和奖励的计算方式见下:
st=(h1+h2+…+hn)/n
reward=log P(Y|X)
其中h1,h2,…,hn是源领域中的句子经过双向长短期记忆神经网络得到的隐层状态的输出,P(Y|X)是条件随机场解码得到的当前句子输出真实标签序列的概率,这里我们采用对Bi-LSTM输出隐层状态求和的方式作为当前句子在目标域命名实体识别模型的状态表示st,同时为了选择对目标域的命名实体识别模型有正向影响的句子,我们用目标域的模型中条件随机场输出的在当前句子输出的对应真实标签序列的条件概率作为奖励reward。
7.如权利要求1中的方法,其特征在于,所述的步骤(9)中选择器的判断方式见下:
a=softmax(W·st+b)
其中W,b是决策网络的参数,softmax是归一化操作,a∈R2x1是决策网络在当前状态下的动作,这里采用多层感知器当作我们的决策网络,决策网络根据每个句子的当前状态做出相应的动作a,如果a0>0.5,则选择源领域的句子加入训练数据,否则丢弃句子,然后根据奖励最大化,最后通过当前句子在目标域的命名实体识别模型中获得奖励,计算损失函数,进行反向梯度传播;
决策网络的损失函数的计算方式见下:
Loss=-reward*(a0loga0+(1-a0)log(1-a0))+L1+L2
其中L1,L2是决策网络的L1,L2正则化参数,reward是当前句子在命名实体识别模型所获得的奖励。
CN201911059048.9A 2019-11-01 2019-11-01 一种融合语义和标签差异的命名实体识别领域自适应的方法 Active CN110765775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911059048.9A CN110765775B (zh) 2019-11-01 2019-11-01 一种融合语义和标签差异的命名实体识别领域自适应的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911059048.9A CN110765775B (zh) 2019-11-01 2019-11-01 一种融合语义和标签差异的命名实体识别领域自适应的方法

Publications (2)

Publication Number Publication Date
CN110765775A true CN110765775A (zh) 2020-02-07
CN110765775B CN110765775B (zh) 2020-08-04

Family

ID=69335232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911059048.9A Active CN110765775B (zh) 2019-11-01 2019-11-01 一种融合语义和标签差异的命名实体识别领域自适应的方法

Country Status (1)

Country Link
CN (1) CN110765775B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522965A (zh) * 2020-04-22 2020-08-11 重庆邮电大学 一种基于迁移学习的实体关系抽取的问答方法及***
CN111611802A (zh) * 2020-05-21 2020-09-01 苏州大学 多领域实体识别方法
CN111666734A (zh) * 2020-04-24 2020-09-15 北京大学 序列标注方法及装置
CN111738003A (zh) * 2020-06-15 2020-10-02 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN111767718A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN112084783A (zh) * 2020-09-24 2020-12-15 中国民航大学 基于民航不文明旅客的实体识别方法及***
CN112163372A (zh) * 2020-09-21 2021-01-01 上海玫克生储能科技有限公司 一种动力电池的soc估算方法
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
CN112528894A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 一种差异项判别方法及装置
CN112925886A (zh) * 2021-03-11 2021-06-08 杭州费尔斯通科技有限公司 一种基于领域适应的少样本实体识别方法
CN113342904A (zh) * 2021-04-01 2021-09-03 山东省人工智能研究院 一种基于企业特征传播的企业服务推荐方法
CN115221871A (zh) * 2022-06-24 2022-10-21 毕开龙 多特征融合的英文科技文献关键词提取方法
WO2022227163A1 (zh) * 2021-04-30 2022-11-03 平安科技(深圳)有限公司 命名实体识别模型的训练方法、装置、设备及介质
CN115577707A (zh) * 2022-12-08 2023-01-06 中国传媒大学 一种多语言新闻主题词的分词方法
CN117744660A (zh) * 2024-02-19 2024-03-22 广东省人民医院 一种基于强化学习和迁移学习的命名实体识别方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664589A (zh) * 2018-05-08 2018-10-16 苏州大学 基于领域自适应的文本信息提取方法、装置、***及介质
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法
CN109871541A (zh) * 2019-03-06 2019-06-11 电子科技大学 一种适用于多语言多领域的命名实体识别方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN110175227A (zh) * 2019-05-10 2019-08-27 神思电子技术股份有限公司 一种基于组队学习和层级推理的对话辅助***
CN110196980A (zh) * 2019-06-05 2019-09-03 北京邮电大学 一种基于卷积网络在中文分词任务上的领域迁移
CN110209770A (zh) * 2019-06-03 2019-09-06 北京邮电大学 一种基于策略价值网络和树搜索增强的命名实体识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664589A (zh) * 2018-05-08 2018-10-16 苏州大学 基于领域自适应的文本信息提取方法、装置、***及介质
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN109871541A (zh) * 2019-03-06 2019-06-11 电子科技大学 一种适用于多语言多领域的命名实体识别方法
CN110175227A (zh) * 2019-05-10 2019-08-27 神思电子技术股份有限公司 一种基于组队学习和层级推理的对话辅助***
CN110209770A (zh) * 2019-06-03 2019-09-06 北京邮电大学 一种基于策略价值网络和树搜索增强的命名实体识别方法
CN110196980A (zh) * 2019-06-05 2019-09-03 北京邮电大学 一种基于卷积网络在中文分词任务上的领域迁移

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIZHEN QU等: "Named Entity Recognition for Novel Types by Transfer Learning", 《PROCEEDINGS OF THE 2016 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
陈佳沣 等: "基于强化学习的实体关系联合抽取模型", 《计算机应用》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522965A (zh) * 2020-04-22 2020-08-11 重庆邮电大学 一种基于迁移学习的实体关系抽取的问答方法及***
CN111666734A (zh) * 2020-04-24 2020-09-15 北京大学 序列标注方法及装置
CN111611802B (zh) * 2020-05-21 2021-08-31 苏州大学 多领域实体识别方法
CN111611802A (zh) * 2020-05-21 2020-09-01 苏州大学 多领域实体识别方法
CN111738003A (zh) * 2020-06-15 2020-10-02 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN111738003B (zh) * 2020-06-15 2023-06-06 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN111767718A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111767718B (zh) * 2020-07-03 2021-12-07 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN112163372A (zh) * 2020-09-21 2021-01-01 上海玫克生储能科技有限公司 一种动力电池的soc估算方法
CN112163372B (zh) * 2020-09-21 2022-05-13 上海玫克生储能科技有限公司 一种动力电池的soc估算方法
CN112084783A (zh) * 2020-09-24 2020-12-15 中国民航大学 基于民航不文明旅客的实体识别方法及***
CN112084783B (zh) * 2020-09-24 2022-04-12 中国民航大学 基于民航不文明旅客的实体识别方法及***
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
CN112199511B (zh) * 2020-09-28 2022-07-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
CN112528894A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 一种差异项判别方法及装置
CN112528894B (zh) * 2020-12-17 2024-05-31 科大讯飞股份有限公司 一种差异项判别方法及装置
CN112925886A (zh) * 2021-03-11 2021-06-08 杭州费尔斯通科技有限公司 一种基于领域适应的少样本实体识别方法
CN113342904A (zh) * 2021-04-01 2021-09-03 山东省人工智能研究院 一种基于企业特征传播的企业服务推荐方法
CN113342904B (zh) * 2021-04-01 2021-12-24 山东省人工智能研究院 一种基于企业特征传播的企业服务推荐方法
WO2022227163A1 (zh) * 2021-04-30 2022-11-03 平安科技(深圳)有限公司 命名实体识别模型的训练方法、装置、设备及介质
CN115221871A (zh) * 2022-06-24 2022-10-21 毕开龙 多特征融合的英文科技文献关键词提取方法
CN115221871B (zh) * 2022-06-24 2024-02-20 毕开龙 多特征融合的英文科技文献关键词提取方法
CN115577707A (zh) * 2022-12-08 2023-01-06 中国传媒大学 一种多语言新闻主题词的分词方法
CN117744660A (zh) * 2024-02-19 2024-03-22 广东省人民医院 一种基于强化学习和迁移学习的命名实体识别方法和装置
CN117744660B (zh) * 2024-02-19 2024-05-10 广东省人民医院 一种基于强化学习和迁移学习的命名实体识别方法和装置

Also Published As

Publication number Publication date
CN110765775B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN111967266B (zh) 中文命名实体识别***、模型构建方法和应用及相关设备
CN109582789B (zh) 基于语义单元信息的文本多标签分类方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN110196980B (zh) 一种基于卷积网络在中文分词任务上的领域迁移
CN106484674B (zh) 一种基于深度学习的中文电子病历概念抽取方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN110263325B (zh) 中文分词***
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN108062388A (zh) 人机对话的回复生成方法和装置
CN111858944A (zh) 一种基于注意力机制的实体方面级情感分析方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN114579741B (zh) 融合句法信息的gcn-rn方面级情感分析方法和***
CN115630649A (zh) 一种基于生成模型的医学中文命名实体识别方法
CN111581392A (zh) 一种基于语句通顺度的自动作文评分计算方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN112417118A (zh) 一种基于标记文本和神经网络的对话生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant