CN112257447B - 基于深度网络as-lstm的命名实体识别***及识别方法 - Google Patents

基于深度网络as-lstm的命名实体识别***及识别方法 Download PDF

Info

Publication number
CN112257447B
CN112257447B CN202011140319.6A CN202011140319A CN112257447B CN 112257447 B CN112257447 B CN 112257447B CN 202011140319 A CN202011140319 A CN 202011140319A CN 112257447 B CN112257447 B CN 112257447B
Authority
CN
China
Prior art keywords
lstm
named entity
network
entity recognition
gate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011140319.6A
Other languages
English (en)
Other versions
CN112257447A (zh
Inventor
王国鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongbiao Intelligent Technology Co ltd
Original Assignee
Beijing Zhongbiao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongbiao Intelligent Technology Co ltd filed Critical Beijing Zhongbiao Intelligent Technology Co ltd
Priority to CN202011140319.6A priority Critical patent/CN112257447B/zh
Publication of CN112257447A publication Critical patent/CN112257447A/zh
Application granted granted Critical
Publication of CN112257447B publication Critical patent/CN112257447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度网络AS‑LSTM的命名实体识别***,包括网络模型BI‑AS‑LSTM‑CRF,网络模型BI‑AS‑LSTM‑CRF包括文本特征层、上下文特征层BI‑AS‑LSTM、CRF层。上下文特征层BI‑AS‑LSTM包括2个AS‑LSTM深度网络,且2个AS‑LSTM深度网络拼接形成双向AS‑LSTM网络。在本发明中,命名实体识别***中设计新型的AS‑LSTM深度网络,其能够获得输入文本中命名实体前后文更加稳定和准确的细胞状态,这种网络存在对自身的倚重性学习,因此既能学习到上下文相关的语义表示,也能增加应对前后文无关词语的鲁棒性,降低识别***的错误。

Description

基于深度网络AS-LSTM的命名实体识别***及识别方法
技术领域
本发明属于人工智能自然语言处理领域,涉及自然语言处理领域中命名实体识别技术,具体为基于深度网络AS-LSTM的命名实体识别***及识别方法。
背景技术
随着人工智能技术的发展,机器学习成为自然语言处理最常用的方法之一。深度学习作为机器学习的分支,由于近年来CPU/GPU硬件算力提升以及深度网络的优化发展,在自然语言处理的几乎所有子任务领域获得了最优效果,包括对话***,命名实体识别,语言翻译等任务,其中,命名实体识别(NER)也成为自然语言处理领域中最常见的问题。
命名实体识别(NER)中深度学习网络已经是目前业界和学界公认的方法,其是通过人工标注得到训练集,然后构建深度网络并进行训练,得到NER识别模型。NER深度网络发展至今,多数使用名为LSTM的长短期记忆网络,但是在实际的预测中发现以下几方面问题:1.深度学习网络存在前后文鲁棒性较弱的问题;2.在进行模型预测时,当改变了前后文一两个不重要的词时,往往会严重影响预测结果的精度;3.命名实体识别时,人工标注的训练集时间成本和人工成本都很高,且前期的训练集较少,冷启动的效率较低,无法进入一个快速的模型迭代周期。
例如,中国已公开发明专利CN109871541A,提供了一种适用于多语言多领域的命名实体识别方法,采用该专利提供的NER建立方法使用了LSTM长短期记忆网络。但是其依然需要大量的标注数据以提高识别的精度,且无法解决LSTM的前后文鲁棒性不足的问题。
例如,中国已公开发明专利CN111091002A,提供了一种中文命名实体的识别方法,其特点是采用CWS和POS标签信息用于单词关系推断,通过对抗学习中包含的NER、CWS和POS标记任务中提取与实体边界有关的公共信息。但是其依旧需要大量标注信息,大大提高了识别的时间成本和人工成本。
因此,有必要对现有的命名实体识别技术予以改进。
发明内容
本发明的目的在于提高命名实体识别的准确率及召回率,解决现有的长短期记忆网络(LSTM网络)在实际使用中出现的前后文鲁棒性较差、时间成本高、人工成本高等方面的不足,解决目前深度模型在冷启动的训练集样本量不足和迭代效率低下问题,提供了一种基于深度网络AS-LSTM的命名实体识别***及识别方法。
实现发明目的的技术方案如下:
本发明提供了一种基于深度网络AS-LSTM的命名实体识别***,包括网络模型BI-AS-LSTM-CRF,网络模型BI-AS-LSTM-CRF包括文本特征层、上下文特征层BI-AS-LSTM、CRF层;文本特征层用于提取文本中输入文本的特征信息,上下文特征层BI-AS-LSTM用于对提取的特征信息输出得到输出序列并获得上下文特征,CRF层用于获取上下文特征在输入文本中的位置信息及实体标签。
上下文特征层BI-AS-LSTM包括2个AS-LSTM深度网络,且2个AS-LSTM深度网络拼接形成双向AS-LSTM网络。
在本发明中,命名实体识别***中设计新型的AS-LSTM深度网络,其能够抛弃输入文本中所有前后文细胞状态的影响,这种网络存在对自身的倚重性学习,因此既能学习到上下文相关的语义表示,也能增加应对前后文无关词语的鲁棒性,降低识别***的错误。
进一步的,AS-LSTM深度网络包括遗忘门、输出门、输入门、权重门,且所述权重门与文本的当前输入关联。
通常,传统的LSTM网络由遗忘门、输出门、输入门三个门组成,这些门的参数计算不仅与文本的当前输入有关系,还与文本的上一个输入有关,通过恰当的构建LSTM可以学习到上下文的语义关系。但是,在实际的使用过程中,通过LSTM训练的模型则会表现出前后文鲁棒性较差的特性,在改变前后一两个不相关的词语,可能会导致完全不同的预测结果,例如“北京”的词汇,在很多上下文语境中都属于“地点”的语义,但是在实际的训练集中很难覆盖所有场景,使用LSTM网络导致预测错误的情况并不少见。
因此,本发明对LSTM进行了优化,在传统的LSTM的基础上,增加了一个权重门,形成了新的AS-LSTM深度网络。在AS-LSTM深度网络中权重门只和当前输入有关,AS-LSTM深度网络使用时不仅可以学习到上下文的语义信息,而且在面对前后文的干扰信息时呈现了很强的鲁棒性,因此在实际的NER(命名实体识别)任务中取得了更加精确的效果。
进一步的,命名实体识别***还包括Random Replace训练方法,Random Replace训练方法与AS-LSTM深度网络结合,使命名实体识别***以半热启动方式启动。
进一步的,命名实体识别***还包括存量数据库,存量数据库用于在训练集的基础上使用Random Replace训练方法构建增量训练集。具体的,存量数据库可以在少量训练集的基础上使用Random Replace方法,将已经完成标注的命名实体采用Random Replace训练方法随机替换成存量数据库中的名称,进而构建形成增量训练集,构建完成后与最初的少量训练集合并后输入到模型进行训练。
命名实体识别***中,AS-LSTM深度网络结合Random Replace训练方法,再结合存量机构数据库的应用,通过列举相关前后文语义表示,能够在训练集合上使用随机替换角色名称形成增量训练集,并结合AS-LSTM深度网络对自身的学习性能,找到了快速迭代模型的捷径,将冷启动的迭代周期大幅度缩短。
本发明还提供了一种基于深度网络AS-LSTM的命名实体识别方法,应用于上述命名实体识别***对文本进行识别,以深度网络AS-LSTM形成的命名实体识别***的启动形式为冷启动。命名实体识别方法包括以下步骤:
S1、网络模型BI-AS-LSTM-CRF的构建;
S2、确定识别目标,通过区别标注方式标注命名实体的识别语料;
S3、将S2中的识别语料划分为训练集和测试集;
S4、将训练集输入网络模型BI-AS-LSTM-CRF中进行训练,得到命名实体训练模型;
S5、采用S4中命名实体训练模型对S3中的测试集进行命名实体识别,得到命名实体识别模型的识别结果;
S6、对S5中得到的命名实体识别模型的识别结果在测试集上的准确率及召回率进行计算和对比。
为了对上述命名实体识别方法的改进,将冷启动的迭代周期大幅度缩短,通过增加存量数据库来提高训练集的量,产生大量的增量训练集,获取快速迭代模型的捷径。命名实体识别方法通过深度网络AS-LSTM结合存量数据库及Random Replace训练方法形成的命名实体识别***的启动形式为半热启动。具体的,命名实体识别方法包括以下步骤:
S1、网络模型BI-AS-LSTM-CRF的构建;
S2、确定识别目标,通过区别标注方式标注命名实体的识别语料;
S3、将S2中的识别语料划分为训练集和测试集;
S301、准备识别目标的存量数据库;
S4、以S3中的训练集为基础,采用S301中存量数据库随机替换得到增量训练集;
S401、将S3中的训练集与S4中的增量训练集合并,并输入S1的网络模型BI-AS-LSTM-CRF中进行训练,得到命名实体识别模型;
S5、采用S401中得到的命名实体训练模型对S3中的测试集进行命名实体识别,得到命名实体识别模型的识别结果;
S6、对S5中命名实体识别模型的识别结果在测试集上的准确率及召回率进行计算和对比。
其中,在网络模型BI-AS-LSTM-CRF的构建中,包括文本中输入文本的特征信息提取、特征信息输出得到输出序列、获取输入文本的上下文特征、上下文特征经BIO标注输入文本中每个词在文本中的位置信息,并获得实体标签等多个步骤。
其中,在命名实体中识别语料的标注步骤中,包括以B-PRO标注识别目标的开头、以I-PRO标注识别目标的中间部分。
其中,在步骤S3中,训练集与测试集的比例为(10:1)~(2:1)。
优选的,在步骤S3中,训练集与测试集的比例为4:1。
与现有技术相比,本发明的有益效果是:
1.命名实体识别***中设计新型的AS-LSTM深度网络,其能够获得输入文本中命名实体前后文更加稳定和准确的细胞状态,这种网络存在对自身的倚重性学习,因此既能学习到上下文相关的语义表示,也能增加应对前后文无关词语的鲁棒性,降低识别***的错误。
2.AS-LSTM深度网络、Random Replace训练方法、存量数据库三者的结合应用,将命名实体识别***由冷启动模式转换为半热启动模式,能够大大缩短了冷启动的迭代周期,提高了模型迭代效率,并使预测结果更加精确和稳定。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明为了更清楚地说明本发明实施例或现有技术中的技术方案,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为传统的LSTM长短期记忆网络的示意图;
图2a为传统的LSTM网络及本发明的AS-LSTM深度网络中的遗忘门的示意图;
图2b为传统的LSTM网络及本发明的AS-LSTM深度网络中的输入门的示意图;
图2c为传统的LSTM网络及本发明的AS-LSTM深度网络中的输出门的示意图;
图3为本发明命名实体识别***中双向AS-LSTM网络的示意图;
图4为本发明的双向AS-LSTM网络中AS-LSTM深度网络的示意图;
图5为本发明的双向AS-LSTM网络中AS-LSTM深度网络的权重门的示意图;
图6为本发明命名实体识别方法中AS-LSTM深度网络形成的冷启动的流程图;
图7为本发明命名实体识别方法中AS-LSTM深度网络与Random Replace训练方法结合形成的半热启动的流程图。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
在本实施例的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明创造和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明创造的限制。
此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。
实施例1:
本实施例公开了一种基于深度网络AS-LSTM的命名实体识别***,在本实施方式中,命名实体识别***包括网络模型BI-AS-LSTM-CRF,网络模型BI-AS-LSTM-CRF包括文本特征层、上下文特征层BI-AS-LSTM、CRF层。
通常来说,传统的命名实体识别***中,命名实体识别的网络模型BI-LSTM-CRF中的BI-LSTM网络是由2个LSTM网络拼接形成双向LSTM网络,如图1所示。具体的,LSTM网络由遗忘门(如图2a)、输出门(如图2b)、输入门(如图2c)三个门组成,其网络的核心是细胞状态,用贯穿细胞的水平线表示,细胞状态像传送带一样,它贯穿整个细胞却只有很少的分支,这样能保证信息不变的流过整个网络,这种网络结构能够学习上下文语义表示,从而十分常见地用在了上下文相关的自然语言处理任务上。其中,ft=σ(Wf·[ht-1,xt]+bf)为遗忘门;it=σ(Wi·[ht-1,xt]+bi)为输入门;ot=σ(Wo·[ht-1,xt]+bo)为输出门;Ct=ft·Ct-1+it·tanh(Wc·[ht-1,xt]+bc)表示的是细胞状态;ht=ot·tanh(Ct)表示的是双向LSTM网络的输出。
这些门的参数计算不仅与文本的当前输入有关系,还与文本的上一个输入有关,通过恰当的构建LSTM可以学习到上下文的语义关系。但是,在实际的使用过程中,通过LSTM训练的模型则会表现出前后文鲁棒性较差的特性,在改变前后一两个不相关的词语,可能会导致完全不同的预测结果,例如“北京”的词汇,在很多上下文语境中都属于“地点”的语义,但是在实际的训练集中很难覆盖所有场景,使用LSTM网络导致预测错误的情况并不少见。
本发明对LSTM进行了优化,在传统的LSTM的基础上,增加了一个权重门,形成了新的AS-LSTM深度网络(如图4所示)。即,AS-LSTM深度网络包括遗忘门(如图2a)、输出门(如图2b)、输入门(如图2c)、权重门(如图5),且权重门与文本的当前输入关联,AS-LSTM深度网络使用时不仅可以学习到上下文的语义信息,而且在面对前后文的干扰信息时呈现了很强的鲁棒性,因此在实际的NER(命名实体识别)任务中取得了更加精确的效果。其中,ft=σ(Wf·[ht-1,xt]+bf)为遗忘门;it=σ(Wi·[ht-1,xt]+bi)为输入门;ot=σ(Wo·[ht-1,xt]+bo)为输出门;Ct=ft·Ct-1+it·tanh(Wc·[ht-1,xt]+bc)表示的是细胞状态;At=tanh(xt·WA)为权重门;ht=ot·tanh(Ct)·At表示的是双向LSTM网络的输出,权重选择门只与当前输入有关系,抛弃了所有前后文细胞状态的影响,这种网络存在对自身的倚重性学习,因此既能学习到上下文相关的语义表示,也能增加应对前后文无关词语的鲁棒性。
在本实施例中,上下文特征层BI-AS-LSTM包括2个AS-LSTM深度网络,且2个AS-LSTM深度网络拼接形成双向AS-LSTM网络,如图3所示。
在本实施例中,文本特征层用于提取文本中输入文本的特征信息,例如,其能够对输入文本的词语与词语和句子与句子的特征信息进行提取。
在本实施例中,上下文特征层BI-AS-LSTM用于对提取的特征信息输出得到输出序列并获得上下文特征,具体的,上下文特征层BI-AS-LSTM将文本特征层所提取特征信息(如序列)通过双向门控循环网络(即双向AS-LSTM网络)得到输出序列,经线性层得到句子的上下文特征;
在本实施例中,CRF层为条件随机场模型,可以学习到命名实体表述的转移矩阵,例如:以公司结尾的词语更可能被判定为企业实体,通常将神经网络配合CRF使用。CRF层用于获取上下文特征在输入文本中的位置信息及实体标签,具体的,CRF层将上下文特征通过BIO标注的每个词在输入文本中的位置信息,通过条件随机场CRF得到输入文本的实体标签。
在本发明中,命名实体识别***中设计新型的AS-LSTM深度网络,其能够抛弃输入文本中所有前后文细胞状态的影响,这种网络存在对自身的倚重性学习,因此既能学习到上下文相关的语义表示,也能增加应对前后文无关词语的鲁棒性,降低识别***的错误。
实施例2:
由于命名实体识别***大多为冷启动的方式,其具有效率低的问题,目前学术界和业界已经尝试使用一些方法,最常见的是使用预训练模型进行word embedding,例如ELMO,BERT,GPT-3等参数量极大的预训练模型作为上游词向量的生成器,然后进行finetune调优下游任务,但是对于很多且或科研单位来说,这种预训练模型带来的计算资源和成本过大,服务接口反应速度过慢,例如BERT在普通GPU推算下的NER模型预测速度在500ms左右,这种速度很慢满足日常的使用和服务。
因此,本实施例是在实施例1的基础上进行改进的,在命名实体识别***中增加Random Replace训练方法,Random Replace训练方法与AS-LSTM深度网络结合,使命名实体识别***以半热启动方式启动。
更近一步的,命名实体识别***还包括存量数据库,存量数据库用于在训练集的基础上使用Random Replace训练方法构建增量训练集。具体的,存量数据库可以在少量训练集的基础上使用Random Replace方法,将已经完成标注的命名实体采用Random Replace训练方法随机替换成存量数据库中的名称,进而构建形成增量训练集,构建完成后与最初的少量训练集合并后输入到模型进行训练。
命名实体识别***中,AS-LSTM深度网络结合Random Replace训练方法,再结合存量机构数据库的应用,通过列举相关前后文语义表示,能够在训练集合上使用随机替换角色名称形成增量训练集,并结合AS-LSTM深度网络对自身的学习性能,找到了快速迭代模型的捷径,将冷启动的迭代周期大幅度缩短。
实施例3:
如图6所示,本实施例公开了一种基于深度网络AS-LSTM的命名实体识别方法,应用于上述命名实体识别***对文本进行识别,以深度网络AS-LSTM形成的命名实体识别***的启动形式为冷启动。命名实体识别方法包括以下步骤:
S1、网络模型BI-AS-LSTM-CRF的构建;
具体的,网络模型BI-AS-LSTM-CRF的构建中,包括文本中输入文本的特征信息提取、特征信息输出得到输出序列、获取输入文本的上下文特征、上下文特征经BIO标注输入文本中每个词在文本中的位置信息,并获得实体标签等多个步骤。
S2、确定识别目标,通过区别标注方式标注命名实体的识别语料;
例如:命名实体识别方法应用在招投标公告的识别时,将招投标公告的标的物作为NER(命名实体识别)识别目标,标注命名实体识别语料,按照B-PRO标注标的物的开头,I-PRO标注标的物的中间部分。
S3、将S2中的识别语料划分为训练集和测试集;
具体的,训练集与测试集的比例为(10:1)~(2:1),在本步骤中,训练集与测试集的比例优选为为4:1。
S4、将训练集输入网络模型BI-AS-LSTM-CRF中进行训练,得到命名实体训练模型;
S5、采用S4中命名实体训练模型对S3中的测试集进行命名实体识别,得到命名实体识别模型(即NER识别模型)的识别结果;
具体的,命名实体识别模型的识别精度能够达到F1score。
S6、对S5中得到的命名实体识别模型的识别结果在测试集上的准确率及召回率进行计算和对比。
实施例4:
如图7所示,为了对实施例3中命名实体识别方法的改进,将冷启动的迭代周期大幅度缩短,通过增加存量数据库来提高训练集的量,产生大量的增量训练集,获取快速迭代模型的捷径。命名实体识别方法通过深度网络AS-LSTM结合存量数据库及Random Replace训练方法形成的命名实体识别***的启动形式为半热启动。
命名实体识别方法包括以下步骤:
S1、网络模型BI-AS-LSTM-CRF的构建;
具体的,网络模型BI-AS-LSTM-CRF的构建中,包括文本中输入文本的特征信息提取、特征信息输出得到输出序列、获取输入文本的上下文特征、上下文特征经BIO标注输入文本中每个词在文本中的位置信息,并获得实体标签等多个步骤。
S2、确定识别目标,通过区别标注方式标注命名实体的识别语料;
例如:命名实体识别方法应用在招投标公告的识别时,将采购人和代理机构作为NER识别目标,标注命名实体识别语料,按照B-ORG1标注采购人的开头,I-ORG1标注采购人的中间部,B-ORG3标注代理机构的开头,I-ORG3标注代理机构的中间部分。
具体的,在命名实体中识别语料的标注步骤中,包括以B-PRO标注识别目标的开头、以I-PRO标注识别目标的中间部分。
S3、将S2中的识别语料划分为训练集和测试集;
具体的,训练集与测试集的比例为(10:1)~(2:1),在本步骤中,训练集与测试集的比例优选为为4:1。
S301、准备识别目标的存量数据库;
S4、以S3中的训练集为基础,采用S301中存量数据库随机替换得到增量训练集;
S401、将S3中的训练集与S4中的增量训练集合并,并输入S1的网络模型BI-AS-LSTM-CRF中进行训练,得到命名实体识别模型;
S5、采用S401中得到的命名实体训练模型对S3中的测试集进行命名实体识别,得到命名实体识别模型(即NER识别模型)的识别结果;
具体的,命名实体识别模型的识别精度能够达到F1score。
S6、对S5中命名实体识别模型的识别结果在测试集上的准确率及召回率进行计算和对比。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (9)

1.基于深度网络AS-LSTM的命名实体识别***,其特征在于:包括网络模型BI-AS-LSTM-CRF,所述网络模型BI-AS-LSTM-CRF包括文本特征层、上下文特征层BI-AS-LSTM、CRF层;所述文本特征层用于提取文本中输入文本的特征信息,所述上下文特征层BI-AS-LSTM用于对提取的特征信息输出得到输出序列并获得上下文特征,所述CRF层用于获取上下文特征在输入文本中的位置信息及实体标签;
所述上下文特征层BI-AS-LSTM包括2个AS-LSTM深度网络,且2个所述AS-LSTM深度网络拼接形成双向AS-LSTM网络;
所述AS-LSTM深度网络包括遗忘门、输出门、输入门、权重门,且所述权重门与文本的当前输入关联,抛弃所有前后文细胞状态的影响;
所述遗忘门为
所述输入门为
所述输出门为
所述细胞状态表示
所述权重门为
所述双向AS-LSTM网络的输出为
其中,表示当前输入;/>表示权重门的权重参数。
2.根据权利要求1所述的命名实体识别***,其特征在于:命名实体识别***还包括Random Replace训练方法,所述Random Replace训练方法与所述AS-LSTM深度网络结合,使命名实体识别***以半热启动方式启动。
3.根据权利要求2所述的命名实体识别***,其特征在于:命名实体识别***还包括存量数据库,所述存量数据库用于在训练集的基础上使用Random Replace训练方法构建增量训练集。
4.基于深度网络AS-LSTM的命名实体识别方法,应用于命名实体识别***对文本进行识别,其特征在于,包括以下步骤:
S1、网络模型BI-AS-LSTM-CRF的构建,所述网络模型BI-AS-LSTM-CRF包括遗忘门、输出门、输入门、权重门,且所述权重门与文本的当前输入关联抛弃所有前后文细胞状态的影响;
所述遗忘门为
所述输入门为
所述输出门为
所述细胞状态表示
所述权重门为
双向AS-LSTM网络的输出为
其中,表示当前输入;/>表示权重门的权重参数;
S2、确定识别目标,通过区别标注方式标注命名实体的识别语料;
S3、将S2中的识别语料划分为训练集和测试集;
S4、将训练集输入网络模型BI-AS-LSTM-CRF中进行训练,得到命名实体训练模型;
S5、采用S4中命名实体训练模型对S3中的测试集进行命名实体识别,得到命名实体识别模型的识别结果;
S6、对S5中得到的命名实体识别模型的识别结果在测试集上的准确率及召回率进行计算和对比。
5.根据权利要求4所述的命名实体识别方法,其特征在于,步骤S3包括:步骤S301、准备识别目标的存量数据库;
步骤S4包括:步骤S401、将S3中的训练集与S4中的增量训练集合并,并输入S1的网络模型BI-AS-LSTM-CRF中进行训练,得到命名实体识别模型。
6.根据权利要求4或5所述的命名实体识别方法,其特征在于,网络模型BI-AS-LSTM-CRF的构建:包括文本中输入文本的特征信息提取、特征信息输出得到输出序列、获取输入文本的上下文特征、上下文特征经BIO标注输入文本中每个词在文本中的位置信息,并获得实体标签。
7.根据权利要求4或5所述的命名实体识别方法,其特征在于,命名实体中识别语料的标注,包括以B-PRO标注识别目标的开头、以I-PRO标注识别目标的中间部分。
8.根据权利要求4或5所述的命名实体识别方法,其特征在于,步骤S3中,训练集与测试集的比例为(10:1)~(2:1)。
9.根据权利要求8所述的命名实体识别方法,其特征在于,步骤S3中,训练集与测试集的比例为4:1。
CN202011140319.6A 2020-10-22 2020-10-22 基于深度网络as-lstm的命名实体识别***及识别方法 Active CN112257447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011140319.6A CN112257447B (zh) 2020-10-22 2020-10-22 基于深度网络as-lstm的命名实体识别***及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011140319.6A CN112257447B (zh) 2020-10-22 2020-10-22 基于深度网络as-lstm的命名实体识别***及识别方法

Publications (2)

Publication Number Publication Date
CN112257447A CN112257447A (zh) 2021-01-22
CN112257447B true CN112257447B (zh) 2024-06-18

Family

ID=74263155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011140319.6A Active CN112257447B (zh) 2020-10-22 2020-10-22 基于深度网络as-lstm的命名实体识别***及识别方法

Country Status (1)

Country Link
CN (1) CN112257447B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510943B (zh) * 2022-02-18 2024-05-28 北京大学 一种基于伪样本重放的增量式命名实体识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241520B (zh) * 2018-07-18 2023-05-23 五邑大学 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及***
CN109117472A (zh) * 2018-11-12 2019-01-01 新疆大学 一种基于深度学习的维吾尔文命名实体识别方法
CN111680786B (zh) * 2020-06-10 2023-12-05 中国地质大学(武汉) 一种基于改进权重门控单元的时序预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Neural Architectures for Named Entity Recognition;Sandeep Subramanian;《IEEE》;第1-11页 *
基于Bi-LSTM-CRF 的商业领域命名实体识别;丁晟春;《现代情报》;第第40卷卷;第103-109页 *

Also Published As

Publication number Publication date
CN112257447A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN112417880B (zh) 一种面向法院电子卷宗的案情信息自动抽取方法
CN113987104B (zh) 一种基于本体指导的生成式事件抽取方法
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN111062217A (zh) 语言信息的处理方法、装置、存储介质及电子设备
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
CN111339407B (zh) 一种信息抽取云平台的实现方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN117149984B (zh) 一种基于大模型思维链的定制化培训方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
Yu et al. BERT-based named entity recognition in Chinese twenty-four histories
CN105389303B (zh) 一种异源语料自动融合方法
Han et al. MAF‐CNER: A Chinese Named Entity Recognition Model Based on Multifeature Adaptive Fusion
CN115759254A (zh) 基于知识增强生成式语言模型的问答方法、***及介质
CN112257447B (zh) 基于深度网络as-lstm的命名实体识别***及识别方法
CN113326367A (zh) 基于端到端文本生成的任务型对话方法和***
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113239694A (zh) 一种基于论元短语的论元角色识别的方法
CN111737951B (zh) 一种文本语言关联关系标注方法和装置
CN117131873A (zh) 一种基于对比学习的双编码器预训练小样本关系抽取方法
CN117034135A (zh) 一种基于提示学习和双信息源融合的api推荐方法
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN114139610A (zh) 基于深度学习的中医药临床文献数据结构化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant