CN112818691A - 命名实体识别模型训练方法及装置 - Google Patents

命名实体识别模型训练方法及装置 Download PDF

Info

Publication number
CN112818691A
CN112818691A CN202110137392.6A CN202110137392A CN112818691A CN 112818691 A CN112818691 A CN 112818691A CN 202110137392 A CN202110137392 A CN 202110137392A CN 112818691 A CN112818691 A CN 112818691A
Authority
CN
China
Prior art keywords
recognition model
named entity
training data
entity recognition
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110137392.6A
Other languages
English (en)
Inventor
弓源
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Software Co Ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Software Co Ltd filed Critical Beijing Kingsoft Software Co Ltd
Priority to CN202110137392.6A priority Critical patent/CN112818691A/zh
Publication of CN112818691A publication Critical patent/CN112818691A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提供命名实体识别模型训练方法及装置,其中所述命名实体识别模型训练方法包括:获取有标注训练数据和无标注训练数据;根据所述有标注训练数据训练目标命名实体识别模型;将所述无标注训练数据输入至所述目标命名实体识别模型,获得所述目标命名实体识别模型输出至少一个实体词和每个实体词对应的置信度分值;根据每个实体词对应的置信度分值确定目标实体词,并根据所述目标实体词对所述无标注训练数据进行标注,生成新增有标注训练数据;根据所述新增有标注训练数据继续训练所述目标命名实体识别模型,本方法通过弱监督学习的方式,扩充了有标注训练数据的数量,有效防止模型训练过拟合,同时减少了人工标注有标注训练数据的成本。

Description

命名实体识别模型训练方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及命名实体识别模型训练方法及装置、命名实体识别方法及装置、计算设备和计算机可读存储介质。
背景技术
命名实体识别(NER)是自然语言处理中的一项基础任务,其在文本信息理解、知识问答、检索、图谱构建等诸多场景中有着广泛的应用。
NER是指从输入文本中抽取出具有特定意义的或指代性强的实体,目前主要采用的方法为基于规则、字典的实体识别方法,机器学习方法和深度学习方法等,在一些特定领域(如金融、医疗、军事、政务等),尤其是一些新兴领域中,往往无法获得大量带有标注的训练数据,从而无法直接训练命名实体识别模型,若采用人工标注的方法对无标注训练数据进行标注的方式,又会花费大量的人力物力,成本较高。
因此,在缺少有标注训练数据的情况下,如何提供更有效、成本更低的命名实体识别方法就成为技术人员亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了命名实体识别模型训练方法及装置、命名实体识别方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种命名实体识别模型训练方法,包括:
获取初始训练数据,其中,所述初始训练数据包括有标注训练数据和无标注训练数据;
根据所述有标注训练数据训练目标命名实体识别模型;
将所述无标注训练数据输入至所述目标命名实体识别模型,获得所述目标命名实体识别模型输出的预测结果;
根据所述预测结果对所述无标注训练数据进行标注,生成新增有标注训练数据;
根据所述新增有标注训练数据继续训练所述目标命名实体识别模型,直至达到训练结束条件。
根据本申请实施例的第二方面,提供了一种命名实体识别方法,包括:
获取待进行命名实体识别的目标文本;
将所述目标文本分别输入至少两个命名实体识别模型的编码层进行处理,获得每个命名实体识别模型的编码层输出的第一目标文本特征矩阵,其中,每个所述命名实体识别模型是通过本申请实施例第一方面提供的命名实体识别模型训练方法训练得到的;
根据预设的第一融合策略将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合,获得至少一个第二目标文本特征矩阵;
将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵和所述至少一个第二目标文本特征矩阵输入条件随机场层进行处理,获得每个所述第一目标文本特征矩阵和每个所述第二目标文本特征矩阵对应的候选实体词集合;
根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得所述目标文本对应的实体词。
根据本申请实施例的第三方面,提供了一种命名实体识别模型训练装置,包括:
获取模块,被配置为获取初始训练数据,其中,所述初始训练数据包括有标注训练数据和无标注训练数据;
训练模块,被配置为根据所述有标注训练数据训练目标命名实体识别模型;
预测模块,被配置为将所述无标注训练数据输入至所述目标命名实体识别模型,获得所述目标命名实体识别模型输出的预测结果;
标注模块,被配置为根据所述预测结果对所述无标注训练数据进行标注,生成新增有标注训练数据;
继续训练模块,被配置为根据所述新增有标注训练数据继续训练所述目标命名实体识别模型,直至达到训练结束条件。
根据本申请实施例的第四方面,提供了一种命名实体识别装置,包括:
获取模块,被配置为获取待进行命名实体识别的目标文本;
编码模块,被配置为将所述目标文本分别输入至少两个命名实体识别模型的编码层进行处理,获得每个命名实体识别模型的编码层输出的第一目标文本特征矩阵,其中,每个所述命名实体识别模型是通过本申请实施例第一方面提供的命名实体识别模型训练方法训练得到的;
第一融合模块,被配置为根据预设的第一融合策略将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合,获得至少一个第二目标文本特征矩阵;
处理模块,被配置为将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵和所述至少一个第二目标文本特征矩阵输入条件随机场层进行处理,获得每个所述第一目标文本特征矩阵和每个所述第二目标文本特征矩阵对应的候选实体词集合;
第二融合模块,被配置为根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得所述目标文本对应的实体词。
根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述命名实体识别模型训练方法或命名实体识别方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述命名实体识别模型训练方法或命名实体识别方法的步骤。
根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述命名实体识别模型训练方法或命名实体识别方法的步骤。
本申请实施例提供的命名实体识别模型训练方法,通过获取初始训练数据,其中,所述初始训练数据包括有标注训练数据和无标注训练数据;根据所述有标注训练数据训练目标命名实体识别模型;将所述无标注训练数据输入至所述目标命名实体识别模型,获得所述目标命名实体识别模型输出的预测结果,其中,所述预测结果包括至少一个实体词和每个实体词对应的置信度分值;根据每个实体词对应的置信度分值确定目标实体词,并根据所述目标实体词对所述无标注训练数据进行标注,生成新增有标注训练数据;根据所述新增有标注训练数据继续训练所述目标命名实体识别模型,直至达到训练结束条件,采用弱监督学习的方式,扩充了有标注训练数据的数量,有效防止模型训练过拟合,同时减少了人工标注有标注训练数据的成本。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请一实施例提供的命名实体识别模型训练方法的流程图;
图3是本申请一实施例提供的命名实体识别模型训练方法的结构示意图;
图4是本申请一实施例提供的命名实体识别方法的流程图;
图5是本申请一实施例提供的命名实体识别方法的结构示意图;
图6是本申请实施例提供的命名实体识别模型训练装置的结构示意图;
图7是本申请实施例提供的命名实体识别装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
BERT:Bidirectional Encoder Representation from Transformers,一种开源的预训练语言模型。
实体:指文本中具有特定意义的实体词汇或者短语描述。
NER:命名实体识别(Named Entity Recognition),指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
领域场景:指一些特定专业领域场景,如金融、医疗、军事场景等。
Word2Vec:一种用于产生词向量的技术方法。
数据扩充:训练数据较少,通过一定的方式增加训练语料数量。
弱监督学习:Weakly Supervised Learning,任务场景中缺少足够的带标注数据,只能提供少量的有标注数据信息和大量无标注数据。
迁移学习:Transfer Learning,在其它任务场景中训练得到的模型参数迁移到新的目标任务中,用于模型训练学习。
基于规则、词表的实体识别方法:针对文本中的实体名称特点构建规则,或直接利用构建的实体词表筛选语料中的命名实体,该方法多采用领域专家手动构建规则模板或词表,利用统计信息、关键指示词、中心词等方法,通过模式匹配的方式筛选识别文本中的命名实体,成本较高、通用性较差,针对不同的任务需要领域专家重新书写规则构建模板。
传统机器学习实体识别方法:如隐马尔可夫模型(HMM)、最大熵模型(MEMM)、条件随机场(CRF)等,传统机器学习方法利用统计学原理构建序列模型识别文中实体,该方法一般通用性更好,方法也更灵活,但是模型训练复杂度较高,且对样本语料库的依赖性较大。
深度学习实体识别方法:将命名实体识别任务抽象为序列标注问题进行处理,利用神经网络对文本句子进行编码表示,提取特征,然后预测每个token的标签,最终识别文本中的命名实体,如典型的RNN+CRF框架、CNN+CRF框架等,该方法采用端到端的整体过程,不依赖于手动特征工程,但是,基于深度学习的实体识别方法一般需要大量的带标签样本数据,这在一些特定领域场景,尤其是新型领域很难提供,而且采用人工标注的方式一般需要高额的成本。
在本申请中,提供了命名实体识别模型训练方法及装置、命名实体识别方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示命名实体识别模型训练方法中的步骤。图2示出了根据本申请一实施例的命名实体识别模型训练方法的流程图,包括步骤202至步骤210。
步骤202:获取初始训练数据,其中,所述初始训练数据包括有标注训练数据和无标注训练数据。
初始训练数据是指全部的训练数据,在初始训练数据中,在一些特定领域,尤其是新兴的领域,初始训练数据的数量就比较少,带有标注的训练数据更少,在此情况下,通常需要聘请领域专家通过人工的方式对无标注训练数据进行标注,这样比较浪费人力物力,成本较高,本申请提出一种命名实体识别模型的训练方法,用于解决上述问题。
在本申请提供的实施例中,初始训练数据包括两部分,一部分为少量带有标注的有标注训练数据,和大量没有标注的无标注训练数据。标注数据的方式可以为BIO标注、BIEO标注、BIOSE标注等等,以BIO标注为例,每个元素标注为“B-X”、“I-X”或“O”,其中,“B-X”表示此元素在所在文本属于X类型,且此元素在所在文本的开头,“I-X”表示此元素所在文本属于X类型且此元素在所在文本的中间位置,“O”表示不属于任何类型。
如在军事领域,有多个实体类别,比如arm(武器装备)、tp(军队)、mr(军职)等等,有标注训练数据参见下述表1。
表1
样本数据 实体词
A导弹的射程有500公里 A导弹
M导弹起到了威慑作用 M导弹
其中,以BIO标注为例,(A:B-arm,导:I-arm,弹:I-arm,的:O,射:O,程:O,有:O,500:O,公:O,里:O),其中“A导弹”为标注的实体词,arm为A导弹的实体类别;(M:B-arm,导:I-arm,弹:I-arm,起:O,到:O,了:O,威:O,慑:O,作:O,用:O,),其中,“M导弹”为标注的实体词,arm为B导弹的实体类别。
无标注训练数据参见表2。
表2
Figure BDA0002927504530000071
Figure BDA0002927504530000081
其中,“B型武装直升机正式退役”和“C型直升机正式投入使用”并没有标注信息。
可选的,在获取初始训练数据之后,所述方法还包括:
对所述初始训练数据进行数据预处理,获得标准化的初始训练数据。
在实际应用中,通常在获取初始训练数据后,初始训练数据的格式也是各部相同的,为了后续操作方便,需要对初始训练数据进行数据预处理,如统一字符编码、半角全角等等,获得经过数据标准化的初始训练数据。
步骤204:根据所述有标注训练数据训练目标命名实体识别模型。
在实际应用中,通常会先使用有标注的训练数据对目标命名实体识别模型进行初步训练,目标命名实体识别模型即需要进行训练的命名实体识别模型,在本申请中,可以根据任务的不同,训练多个目标命名实体识别模型,每个命名实体识别模型以BERT模型为基础,在BERT模型后添加不同的下游任务网络层,下游任务网络层又包括下游任务子层和条件随机场子层,如BERT+Bi-LSTM+CRF模型(BERT+双向长短期记忆人工神经网络层+条件随机场层),其中,Bi-LSTM为下游任务子层,CRF为下游任务子层对应的条件随机场子层;BERT+GRU+CRF模型(BERT+线性门控单元层+条件随机场层),其中,GRU为下游任务子层,CRF为下游任务子层对应的条件随机场子层;BERT+IDCNN+CRF模型(BERT+空洞卷积网络层+条件随机场层),其中,IDCNN为下游任务子层,CRF为下游任务子层对应的条件随机场子层;还可以为BERT+CRF模型,(BERT+条件随机场层)其中,CRF为条件随机场子层,该模型没有下游任务子层。
可选的,在根据所述有标注训练数据训练目标命名实体识别模型之前,所述方法还包括:
对所述有标注训练数据进行数据扩充,获取扩充后的有标注训练数据。
由于有标注训练数据的数量较少,需要通过一些数据扩充的方法,对现有的有标注训练数据进行扩充。
具体的,所述有标注训练数据中有实体词和非实体词;对所述有标注训练数据进行数据扩充,包括:
对所述有标注训练数据中的实体词进行数据统计,获得实体词表和实体类别;
根据所述实体词表和所述实体类别对所述有标注训练数据中的实体词进行随机替换,和/或,对所述有标注训练数据中的非实体词进行同义词替换;
获得替换完成的有标注训练数据。
在实际应用中,每条有标注训练数据中均已标注出哪些是实体词,在确定实体词后,即可确定非实体文本,在非实体文本中还可以进一步确定非实体词,先对有标注训练数据的实体词进行数据统计,生成实体词表和实体类别,用于中记录有标注训练数据中的实体词,和每个实体词对应的实体类别,将实体类别相同且实体后缀名相同的实体进行随机替换,即可实现对有标注训练数据的扩充,如实体词表有“E局长”、“F局长”、“G科长”等,每个实体对应的实体类别为政务领域中的人名(PER),其中“E局长”和“F局长”的实体后缀名均为“局长”,则可以将实体词“E局长”替换有标注训练数据中的“F局长”,实现有标注训练数据的扩充。
相应的,在实际应用中,还可以对非实体词进行同义词替换,将非实体词替换为同义词或相近词,也可以有效地扩充有标注训练数据。
在本申请提供的实施例中,沿用上例,对有标注训练数据进行数据扩充,具体为先对有标注训练数据进行数据统计,获得实体词表“A导弹”、“M导弹”,识别类别为“军事”,并且“A导弹”和“M导弹”的实体后缀名均为“导弹”。用实体词表中的实体替换样本数据中的实体,将有标注训练数据扩充到4条,参见表3。
表3
样本数据 实体词
A导弹的射程有500公里 A导弹
M导弹起到了威慑作用 M导弹
M导弹的射程有500公里 M导弹
A导弹起到了威慑作用 A导弹
在表3的基础上,还可以将非实体词“射程”替换为“攻击范围”,将非实体词“威慑”替换为“震慑”,得到扩充后的有标注训练数据,参见表4。
表4
样本数据 实体词
A导弹的射程有500公里 A导弹
M导弹起到了威慑作用 M导弹
M导弹的射程有500公里 M导弹
A导弹起到了威慑作用 A导弹
A导弹的攻击范围有500公里 A导弹
M导弹起到了震慑作用 M导弹
M导弹的攻击范围有500公里 M导弹
A导弹起到了震慑作用 A导弹
经过上述方法,有效扩充有标注训练数据,更有利于监督模型的训练学习。
在实际应用中,所述有标注训练数据包括样本数据和所述样本数据中标注的实体词,具体的,根据所述有标注训练数据训练目标命名实体识别模型,包括:
将所述样本数据输入至目标命名实体识别模型;
获得所述目标命名实体识别模型响应于所述样本数据作为输入而生成的预测实体词;
根据所述预测实体词和所述样本数据中标注的实体词计算损失值;
根据所述损失值调整所述目标命名实体识别模型的参数。
在实际应用中,不同的目标命名实体识别模型可以学习到不同的文本特征,以BERT+Bi-LSTM+CRF模型为例,将样本数据“A导弹的射程有500公里”输入至BERT+Bi-LSTM+CRF模型中进行处理,获得模型输出的预测实体词“A”,根据预测实体词“A”和样本数据中标注的实体词“A导弹”计算损失值,并调整BERT+Bi-LSTM+CRF模型的参数。
可选的,所述目标命名实体识别模型包括编码层,所述编码层包括多个顺次连接的编码子层;
根据所述损失值调整所述目标命名实体识别模型的参数,包括:
根据所述损失值调整所述目标命名实体识别模型中预设层数的编码子层的参数。
在调整目标命名实体识别模型参数时,为了提高模型的训练速度,可以冻结预设数量的编码层的参数,只调节剩余编码层的参数,以BERT有12个编码子层为例,可以将前10个编码子层的参数冻结,保留后2个编码子层的参数参与模型训练,或将前8个编码子层的参数冻结,保留后4个编码子层的参数参与模型训练,这样可以减少模型训练的时间消耗,在一定程度上防止过拟合,提高目标命名实体识别模型的准确度。
步骤206:将所述无标注训练数据输入至所述目标命名实体识别模型,获得所述目标命名实体识别模型输出的预测结果。
在实际应用中,使用有标注训练数据对目标命名实体识别模型训练一段时间后,使得目标命名实体识别模型初步具备了预测能力,再将无标注训练数据输入至目标命名实体识别模型,目标命名实体识别模型响应于所述无标注训练数据,预测生成预测结果。
具体的,在实际应用中,目标命名实体识别模型生成的预测结果中包括至少一个预测的实体词,和每个实体词对应的置信度分值。
在本申请提供的实施例中,以无标注训练数据“B型武装直升机正式退役”为例,将“B型武装直升机正式退役”输入至目标命名实体识别模型,获得预测结果,预测结果为“B型武装直升机-0.98”、“武装直升机-0.7”、“直升机-0.6”三个预测的实体词,其中,0.98为“B型武装直升机”的置信度分值。
步骤208:根据所述预测结果对所述无标注训练数据进行标注,生成新增有标注训练数据。
在获得预测结果后,根据预测结果可以对无标注训练数据进行标注,将无标注训练数据变为有标注训练数据,从而扩充有标注训练数据的数量。
具体的,所述预测结果包括至少一个实体词和每个实体词对应的置信度分值;
根据所述预测结果对所述无标注训练数据进行标注,包括:
根据每个实体词对应的置信度分值确定目标实体词;
根据所述目标实体词对所述无标注训练数据进行标注。
在实际应用中,预测结果中包括至少一个实体词和每个实体词对应的置信度分值,根据每个实体词对应的置信度分值确定目标实体词,具体是根据每个实体词对应的置信度分值与预设的阈值进行比较,将置信度分值高于预设阈值的实体词确定为目标实体词,目标实体词是指无标注训练数据经过目标命名实体识别模型识别后,预测准确度较高的实体词。
在确定目标实体词后,根据目标实体词对无标注训练数据进行标注,使得原本的无标注训练数据成为新增有标注训练数据。
在本申请提供的实施例中,沿用上例,预设的阈值为0.95,经过每个实体词对应的置信度分值与预设的阈值0.95进行比对后,确定“B型武装直升机”为目标实体词,然后根据目标实体词“B型武装直升机”对无标注训练数据“B型武装直升机正式退役”进行标注,依然以BIO标注为例,生成新增有标注训练数据(B:B-arm,型:I-arm,武:I-arm,装:I-arm,直:I-arm,升:I-arm,机:I-arm,正:O,式:O,退:O,役:O)。
步骤210:根据所述新增有标注训练数据继续训练所述目标命名实体识别模型,直至达到训练结束条件。
在获得新增有标注训练数据后,实现了对有标注训练数据的继续扩充,即根据新增有标注训练数据继续对所述目标命名实体识别模型进行进一步训练,直至达到训练停止条件,具体的训练停止条件以实际应用为准,可以为固定的训练轮次,可以为损失值低于阈值等等,在本申请中,对训练停止条件不做限制。
在本申请提供的实施例中,沿用上例,根据新增有标注训练数据“B型武装直升机正式退役”其中,标注的实体词为“B型武装直升机”,继续训练所述目标命名实体识别模型。
下面结合图3,对本申请提供的命名实体识别模型训练方法做进一步解释说明,图3示出了本申请提供的命名实体识别模型训练方法的结构示意图。
如图3所示,首先对有标注训练数据进行预处理和数据统计,获得实体词表和实体类别,再根据实体词表和实体类别对有标注训练数据中的实体词进行随机替换,和/或,对有标注训练数据中的非实体词进行同义词替换,实现有标注训练数据的数据扩充。根据扩充后的有标注训练数据对目标命名实体识别模型进行训练,在训练预设次数的轮次后,将无标注训练数据输入至目标命名实体识别模型中进行预测,获得无标注训练数据对应的预测结果,所述预测结果中会有至少一个实体词和每个实体词对应的置信度分值,选择置信度分值高于预设阈值的实体词为目标实体词,并根据目标实体词对无标注训练数据进行标注,获得新增有标注训练数据,并根据新增有标注训练数据继续对目标命名实体识别模型进行继续训练。
本申请实施例提供的命名实体识别模型训练方法,通过弱监督学习的方式,先用有标注训练数据对命名实体识别模型进行训练,再用无标注训练数据进行预测,根据预测结果中置信度分值超过预设阈值的实体词对无标注训练数据进行标注,生成新增有标注训练数据,扩充了有标注训练数据的数量,有效防止模型训练过拟合,同时减少了人工标注有标注训练数据的成本。
其次,对有标注训练数据进行扩容,通过同类别实体词之间的替换、将非实体词替换为同义词等方式,扩充了有标注训练数据的数量,有效地防止模型训练过拟合,减少了人工标注有标注训练数据的成本。
图4示出了本申请一实施例的命名实体识别方法的流程图,包括步骤402至步骤410。
步骤402:获取待进行命名实体识别的目标文本。
目标文本具体为需要进行命名实体识别的文本。
在本申请提供的实施例中,获取待进行命名实体识别的目标文本“武汉市长江大桥的总设计师是茅以升”。
步骤404:将所述目标文本分别输入至少两个命名实体识别模型的编码层进行处理,获得每个命名实体识别模型的编码层输出的第一目标文本特征矩阵,其中,每个所述命名实体识别模型是通过上述命名实体识别模型的训练方法训练获得的。
命名实体识别模型是通过上述命名实体识别模型的训练方法训练获得的,在本申请提供的命名实体识别方法的阶段,对训练生成的命名实体识别模型使用迁移学习的方法,仅使用命名实体识别模型的编码层部分,不同的命名实体识别模型可以学习到不同的文本特征,即可以从不同的角度对目标文本进行编码。
具体的,以命名实体识别模型是BERT+Bi-LSTM+CRF模型为例,其中,命名实体识别模型的编码层为BERT+Bi-LSTM;对于命名实体识别模型是BERT+GRU+CRF模型为例,其中,命名实体识别模型的编码层为BERT+GRU;对于命名实体识别模型为BERT+CRF模型为例,其中,命名实体识别模型的编码层为BERT。
需要注意的是,在实际应用中,还有可能会出现相同的编码层结构,但是编码层中参数不同的情况,在这种情况下,命名实体识别模型在本申请中也认定为不同,比如,以两个BERT+Bi-LSTM+CRF结构的命名实体识别模型为例,虽然编码层均为BERT+Bi-LSTM,但由于两个命名实体识别模型中的超参数和/或模型参数不同,因此这两个同样是BERT+Bi-LSTM+CRF结构的命名实体识别模型也为两个不同的命名实体识别模型。
将目标文本分别输入至少两个命名实体识别模型的编码层进行处理,获得每个命名实体识别模型的编码层输出的第一目标文本特征矩阵,输入至多个命名实体识别模型的编码层进行处理,可以保证提取所述目标文本的不同维度的特征信息,提高融合特征的多样性。
在本申请提供的实施例中,沿用上例,将目标文本“武汉市长江大桥的总设计师是茅以升”分别输入至BERT+Bi-LSTM+CRF模型的编码层BERT+Bi-LSTM中,输入至BERT+GRU+CRF模型的编码层BERT+GRU中,输入至BERT+IDCNN+CRF模型的编码层BERT+IDCNN中进行处理,获得编码层BERT+Bi-LSTM输出的第一目标文本特征矩阵F,编码层BERT+GRU输出的第一目标文本特征矩阵G和编码层BERT+IDCNN输出的第一目标文本特征矩阵H。
步骤406:根据预设的第一融合策略将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合,获得至少一个第二目标文本特征矩阵。
具体的,根据预设的第一融合策略将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合,包括:
将至少两个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合。
第一融合策略为将至少两个第一目标文本特征矩阵进行融合的策略,若有两个第一目标文本特征矩阵,则将这两个目标文本特征矩阵进行融合;若有三个第一目标文本特征矩阵,则将任意两个第一目标文本特征矩阵和至少三个第一目标文本矩阵进行融合。
在本申请提供的实施例中,沿用上例,第一融合策略1为第一目标文本特征矩阵F和第一目标文本特征矩阵G进行融合,获得第二目标文本特征矩阵I;第一融合策略2为第一目标文本特征矩阵F和第一目标文本特征矩阵H进行融合,获得第二目标文本特征矩阵J;第一融合策略3为第一目标文本特征矩阵G和第一目标文本特征矩阵H进行融合,获得第二目标文本特征矩阵K;第一融合策略4为第一目标文本特征矩阵F、第一目标文本特征矩阵G和第一目标文本特征矩阵H进行融合,获得第二目标文本特征矩阵L。
可选的,将至少两个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合,包括:
获取每个命名实体识别模型的预测准确度;
根据每个命名实体识别模型的预测准确度确定每个命名实体识别模型对应的第一目标文本特征矩阵的权重;
根据每个所述第一目标文本特征矩阵的权重将至少两个第一目标文本特征矩阵进行融合。
在实际应用中,每个命名实体识别模型在训练完成后,还会在相应的验证集中验证命名实体识别模型的预测准确度,如在5条验证数据中,命名实体识别模型预测出的实体词正确了4条,则该命名实体识别模型的预测准确度为0.8。
基于此,可以获知每个命名实体识别模型的预测准确度,为了更好的获取最终的实体词,还可以根据每个命名实体识别模型的准确度确定每个命名实体识别模型对应的第一目标文本特征矩阵的权重,比如A命名实体识别模型的预测准确度为0.8,A命名实体识别模型输出的第一目标文本特征矩阵的权重为0.8;B命名实体识别模型的预测准确度为0.9,则B命名实体识别模型输出的第一目标文本特征矩阵的权重为0.9,根据每个第一目标文本特征矩阵对应的权重将每个第一目标文本特征矩阵进行融合。
步骤408:将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵和所述至少一个第二目标文本特征矩阵输入条件随机场层进行处理,获得每个所述第一目标文本特征矩阵和每个所述第二目标文本特征矩阵对应的候选实体词集合。
将每个第一目标文本特征矩阵和每个第二目标文本特征矩阵输入至条件随机场层进行处理,条件随机场层用于根据文本特征矩阵生成对应的实体词集合,每个第一目标文本特征矩阵或第二目标文本特征矩阵均对应一个候选实体词集合。具体候选实体词集合参见下表5。
表5
编码层或融合策略 目标文本特征矩阵 候选实体词集合
BERT+Bi-LSTM 第一目标文本特征矩阵F 武汉,长江大桥,茅以升
BERT+GRU 第一目标文本特征矩阵G 武汉市长,江大桥,茅以升
BERT+IDCNN 第一目标文本特征矩阵H 长江大桥,茅以升
第一融合策略1 第二目标文本特征矩阵I 武汉市长,茅以升
第一融合策略2 第二目标文本特征矩阵J 武汉市,江大桥
第一融合策略3 第二目标文本特征矩阵K 武汉,茅以升
第一融合策略4 第二目标文本特征矩阵L 武汉市长江大桥,茅以升
步骤410:根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得所述目标文本对应的实体词。
在实际应用中,在获得每个候选实体词集合后,要根据候选实体词集合确定目标文本对应的最终的实体词,可以会根据所有的候选实体词集合进行融合,也可以根据部分候选实体词集合进行融合,具体的第二融合策略以实际应用为准,在本申请中对具体第二融合策略不做限制。
具体的,根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得所述目标文本对应的实体词,包括:
根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得初始实体词集合;
对所述初始实体词集合中的实体词进行筛选,获得所述目标文本对应的实体词。
在实际应用中,第一目标文本特征矩阵或第二目标文本特征矩阵经过条件随机场层进行处理后获得对应的候选实体词集合,同时还会获得每个候选实体词对应的类型,比如候选实体词“茅以升”,在某个目标文本特征矩阵对应的类型为人名,在另外一个目标文本特征矩阵中对应的类型是组织名,在这种情况下,虽然将实体词“茅以升”识别出来,但是由于实体词对应的类型不正确,因此该实体词也不是目标实体词,因此,在实际应用中,会先将进行融合的候选实体词集合进行融合,获得初始实体词集合,再对初始实体词集合中的实体词进行筛选,过滤掉明显错误及冗余的实体词,获得所述目标文本对应的实体词。
具体的,根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得初始实体词集合,包括:
根据预设的第二融合策略确定至少两个候选实体词集合;
对所述至少两个候选实体词集合取并集,获得初始实体词集合。
在实际应用中,第二融合策略是根据实际任务的不同而进行的,因为不同的命名实体识别模型的提取特征的维度不同,因此根据不同的实际任务,可以选择不同的候选实体词集合进行融合,当确定好第二融合策略后,即可根据第二融合策略确定至少两个候选实体词集合,再对所述至少两个候选实体词集合取并集,获得初始实体词集合,如有两个候选实体词集合分别为(A、B、C)和(B、D、E),则经过取并集处理后,获得初始实体词集合(A、B、C、D、E),需要注意的是,在实际应用中,若实体词B对应的类型不同,分别为B1和B2,在取并集过程中可以获得初始实体词集合(A、B1、B2、C、D、E)。
具体的,对所述初始实体词集合中的实体词进行筛选,获得所述目标文本对应的实体词,包括:
根据预设的实体词表和筛选规则对所述初始实体词集合中的实体词进行筛选,获得所述目标文本对应的实体词。
在实际应用中,在模型进行训练的过程中,已经生成一个实体词表,同时还可以人工设置一些筛选规则,通过实体词表和筛选规则对初始实体词集合进行筛选过滤,过滤掉明显错误的实体词,获得最终的目标文本对应的实体词。
在本申请提供的一具体实施例中,沿用上例,根据第二融合策略选择第一融合策略3和第一融合策略4对应的候选实体词集合进行融合,其中,第一融合策略3对应的候选实体词集合为(武汉-地名,茅以升-组织名),第一融合策略4对应的候选实体词集合为(武汉市长江大桥-建筑名,茅以升-人名),其中地名、人名、组织名和建筑名分别为对应实体的类型。
将两个候选实体词集合取并集,获得初始实体词集合(武汉-地名,茅以升-组织名,武汉市长江大桥-建筑名,茅以升-人名),再根据预设的实体词表和筛选规则,将实体“茅以升-组织名”和“武汉-地名”过滤,最终获得目标文本“武汉市长江大桥的总设计师是茅以升”对应的实体词(武汉市长江大桥-建筑名,茅以升-人名),其中,“武汉市长江大桥”和“茅以升”为实体词,“建筑名”和“人名”分别为每个实体词对应的类型。
下面结合图5对本申请提供的命名实体识别方法做进一步解释说明,图5示出了本申请一实施例提供的命名实体识别方法的结构示意图。
如图5所示,将目标文本经过文本预处理后,分别输入至N个命名实体识别模型的编码层中,获得n个第一目标文本特征矩阵,根据第一融合策略和n个第一目标文本特征矩阵进行融合,获得m个第二目标文本特征矩阵,将n个第一目标文本矩阵和m个第二目标文本特征矩阵输入至条件随机场层进行处理,获得m+n个候选实体词集合,在根据第二融合策略在m+n个候选实体词集合中进行实体词融合,获得初始实体词集合,再对初始实体词集合进行过滤筛选,获得最终的实体词。
本申请实施例提供的命名实体识别方法,根据多个命名实体识别模型的编码层,获得第一目标文本特征矩阵,通过第一融合策略获得第二目标文本特征矩阵,再根据第一目标文本特征矩阵和第二目标文本特征矩阵获得候选实体词集合,根据第二融合策略在候选实体词集合中确定实体词,可以充分利用多个命名实体识别模型的编码层,从多个维度获取目标文本的特征信息,有效增强命名实体识别的准确率和效率。
与上述命名实体识别模型训练方法实施例相对应,本申请还提供了命名实体识别模型训练装置实施例,图6示出了本申请一个实施例的命名实体识别模型训练装置的结构示意图。如图6所示,该装置包括:
获取模块602,被配置为获取初始训练数据,其中,所述初始训练数据包括有标注训练数据和无标注训练数据;
训练模块604,被配置为根据所述有标注训练数据训练目标命名实体识别模型;
预测模块606,被配置为将所述无标注训练数据输入至所述目标命名实体识别模型,获得所述目标命名实体识别模型输出的预测结果;
标注模块608,被配置为根据所述预测结果对所述无标注训练数据进行标注,生成新增有标注训练数据;
继续训练模块610,被配置为根据所述新增有标注训练数据继续训练所述目标命名实体识别模型,直至达到训练结束条件。
可选的,所述装置还包括:
数据扩充模块,被配置为对所述有标注训练数据进行数据扩充,获取扩充后的有标注训练数据。
可选的,所述有标注训练数据中有实体词和非实体词;
所述数据扩充模块,进一步被配置为:
对所述有标注训练数据中的实体词进行数据统计,获得实体词表和实体类别;
根据所述实体词表和所述实体类别对所述有标注训练数据中的实体词进行随机替换,和/或,对所述有标注训练数据中的非实体词进行同义词替换;
获得替换完成的有标注训练数据。
可选的,所述装置还包括:
数据预处理模块,被配置为对所述初始训练数据进行数据预处理,获得标准化的初始训练数据。
可选的,所述有标注训练数据包括样本数据和所述样本数据中标注的实体词;
所述训练模块604,进一步被配置为:
将所述样本数据输入至目标命名实体识别模型;
获得所述目标命名实体识别模型响应于所述样本数据作为输入而生成的预测实体词;
根据所述预测实体词和所述样本数据中标注的实体词计算损失值;
根据所述损失值调整所述目标命名实体识别模型的参数。
可选的,所述目标命名实体识别模型包括编码层,所述编码层包括多个顺次连接的编码子层;
所述训练模块604,进一步被配置为:
根据所述损失值调整所述目标命名实体识别模型中预设层数的编码子层的参数。
可选的,所述预测结果包括至少一个实体词和每个实体词对应的置信度分值;
所述标注模块608,进一步被配置为:
根据每个实体词对应的置信度分值确定目标实体词;
根据所述目标实体词对所述无标注训练数据进行标注。
上述为本实施例的一种命名实体识别模型训练装置的示意性方案。需要说明的是,该命名实体识别模型训练装置的技术方案与上述的命名实体识别模型训练方法的技术方案属于同一构思,命名实体识别模型训练装置的技术方案未详细描述的细节内容,均可以参见上述命名实体识别模型训练方法的技术方案的描述。
本申请实施例提供的命名实体识别模型训练装置,通过弱监督学习的方式,先用有标注训练数据对命名实体识别模型进行训练,再用无标注训练数据进行预测,根据预测结果中置信度分值超过预设阈值的实体词对无标注训练数据进行标注,生成新增有标注训练数据,扩充了有标注训练数据的数量,有效防止模型训练过拟合,同时减少了人工标注有标注训练数据的成本。
与上述命名实体识别方法实施例相对应,本申请还提供了命名实体识别装置实施例,图7示出了本申请一个实施例的命名实体识别装置的结构示意图。如图7所示,该装置包括:
获取模块702,被配置为获取待进行命名实体识别的目标文本;
编码模块704,被配置为将所述目标文本分别输入至少两个命名实体识别模型的编码层进行处理,获得每个命名实体识别模型的编码层输出的第一目标文本特征矩阵,其中,每个所述命名实体识别模型是上述命名实体识别模型训练训练方法训练得到的;
第一融合模块706,被配置为根据预设的第一融合策略将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合,获得至少一个第二目标文本特征矩阵;
处理模块708,被配置为将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵和所述至少一个第二目标文本特征矩阵输入条件随机场层进行处理,获得每个所述第一目标文本特征矩阵和每个所述第二目标文本特征矩阵对应的候选实体词集合;
第二融合模块710,被配置为根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得所述目标文本对应的实体词。
可选的,所述第一融合模块706,进一步被配置为:
将至少两个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合。
可选的,所述第一融合模块706,进一步被配置为:
获取每个命名实体识别模型的预测准确度;
根据每个命名实体识别模型的预测准确度确定每个命名实体识别模型对应的第一目标文本特征矩阵的权重;
根据每个所述第一目标文本特征矩阵的权重将至少两个第一目标文本特征矩阵进行融合。
可选的,所述第二融合模块710,进一步被配置为:
根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得初始实体词集合;
对所述初始实体词集合中的实体词进行筛选,获得所述目标文本对应的实体词。
可选的,所述第二融合模块710,进一步被配置为:
根据预设的第二融合策略确定至少两个候选实体词集合;
对所述至少两个候选实体词集合取并集,获得初始实体词集合。
可选的,所述第二融合模块710,进一步被配置为:
根据预设的实体词表和筛选规则对所述初始实体词集合中的实体词进行筛选,获得所述目标文本对应的实体词。
上述为本实施例的一种命名实体识别装置的示意性方案。需要说明的是,该命名实体识别装置的技术方案与上述的命名实体识别方法的技术方案属于同一构思,命名实体识别装置的技术方案未详细描述的细节内容,均可以参见上述命名实体识别方法的技术方案的描述。
本申请实施例提供的命名实体识别装置,根据多个命名实体识别模型的编码层,获得第一目标文本特征矩阵,通过第一融合策略获得第二目标文本特征矩阵,再根据第一目标文本特征矩阵和第二目标文本特征矩阵获得候选实体词集合,根据第二融合策略在候选实体词集合中确定实体词,可以充分利用多个命名实体识别模型的编码层,从多个维度获取目标文本的特征信息,有效增强命名实体识别的准确率和效率。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述命名实体识别模型训练方法或命名实体识别方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的命名实体识别模型训练方法或命名实体识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述命名实体识别模型训练方法或命名实体识别方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述命名实体识别模型训练方法或命名实体识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的命名实体识别模型训练方法或命名实体识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述命名实体识别模型训练方法或命名实体识别方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述命名实体识别模型训练方法或命名实体识别方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (17)

1.一种命名实体识别模型训练方法,其特征在于,包括:
获取初始训练数据,其中,所述初始训练数据包括有标注训练数据和无标注训练数据;
根据所述有标注训练数据训练目标命名实体识别模型;
将所述无标注训练数据输入至所述目标命名实体识别模型,获得所述目标命名实体识别模型输出的预测结果;
根据所述预测结果对所述无标注训练数据进行标注,生成新增有标注训练数据;
根据所述新增有标注训练数据继续训练所述目标命名实体识别模型,直至达到训练结束条件。
2.如权利要求1所述的命名实体识别模型训练方法,其特征在于,在根据所述有标注训练数据训练目标命名实体识别模型之前,所述方法还包括:
对所述有标注训练数据进行数据扩充,获取扩充后的有标注训练数据。
3.如权利要求2所述的命名实体识别模型训练方法,其特征在于,所述有标注训练数据中有实体词和非实体词;
对所述有标注训练数据进行数据扩充,包括:
对所述有标注训练数据中的实体词进行数据统计,获得实体词表和实体类别;
根据所述实体词表和所述实体类别对所述有标注训练数据中的实体词进行随机替换,和/或,对所述有标注训练数据中的非实体词进行同义词替换;
获得替换完成的有标注训练数据。
4.如权利要求1所述的命名实体识别模型训练方法,其特征在于,在获取初始训练数据之后,所述方法还包括:
对所述初始训练数据进行数据预处理,获得标准化的初始训练数据。
5.如权利要求1所述的命名实体识别模型训练方法,其特征在于,所述有标注训练数据包括样本数据和所述样本数据中标注的实体词;
根据所述有标注训练数据训练目标命名实体识别模型,包括:
将所述样本数据输入至目标命名实体识别模型;
获得所述目标命名实体识别模型响应于所述样本数据作为输入而生成的预测实体词;
根据所述预测实体词和所述样本数据中标注的实体词计算损失值;
根据所述损失值调整所述目标命名实体识别模型的参数。
6.如权利要求5所述的命名实体识别模型训练方法,其特征在于,所述目标命名实体识别模型包括编码层,所述编码层包括多个顺次连接的编码子层;
根据所述损失值调整所述目标命名实体识别模型的参数,包括:
根据所述损失值调整所述目标命名实体识别模型中预设层数的编码子层的参数。
7.如权利要求1所述的命名实体识别模型训练方法,其特征在于,所述预测结果包括至少一个实体词和每个实体词对应的置信度分值;
根据所述预测结果对所述无标注训练数据进行标注,包括:
根据每个实体词对应的置信度分值确定目标实体词;
根据所述目标实体词对所述无标注训练数据进行标注。
8.一种命名实体识别方法,其特征在于,包括:
获取待进行命名实体识别的目标文本;
将所述目标文本分别输入至少两个命名实体识别模型的编码层进行处理,获得每个命名实体识别模型的编码层输出的第一目标文本特征矩阵,其中,每个所述命名实体识别模型是通过权利要求1-7任意一项所述的训练方法训练得到的;
根据预设的第一融合策略将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合,获得至少一个第二目标文本特征矩阵;
将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵和所述至少一个第二目标文本特征矩阵输入条件随机场层进行处理,获得每个所述第一目标文本特征矩阵和每个所述第二目标文本特征矩阵对应的候选实体词集合;
根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得所述目标文本对应的实体词。
9.如权利要求8所述的命名实体识别方法,其特征在于,根据预设的第一融合策略将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合,包括:
将至少两个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合。
10.如权利要求9所述的命名实体识别方法,其特征在于,将至少两个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合,包括:
获取每个命名实体识别模型的预测准确度;
根据每个命名实体识别模型的预测准确度确定每个命名实体识别模型对应的第一目标文本特征矩阵的权重;
根据每个所述第一目标文本特征矩阵的权重将至少两个第一目标文本特征矩阵进行融合。
11.如权利要求8所述的命名实体识别方法,其特征在于,根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得所述目标文本对应的实体词,包括:
根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得初始实体词集合;
对所述初始实体词集合中的实体词进行筛选,获得所述目标文本对应的实体词。
12.如权利要求11所述的命名实体识别方法,其特征在于,根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得初始实体词集合,包括:
根据预设的第二融合策略确定至少两个候选实体词集合;
对所述至少两个候选实体词集合取并集,获得初始实体词集合。
13.如权利要求11所述的命名实体识别方法,其特征在于,对所述初始实体词集合中的实体词进行筛选,获得所述目标文本对应的实体词,包括:
根据预设的实体词表和筛选规则对所述初始实体词集合中的实体词进行筛选,获得所述目标文本对应的实体词。
14.一种命名实体识别模型训练装置,其特征在于,包括:
获取模块,被配置为获取初始训练数据,其中,所述初始训练数据包括有标注训练数据和无标注训练数据;
训练模块,被配置为根据所述有标注训练数据训练目标命名实体识别模型;
预测模块,被配置为将所述无标注训练数据输入至所述目标命名实体识别模型,获得所述目标命名实体识别模型输出的预测结果;
标注模块,被配置为根据所述预测结果对所述无标注训练数据进行标注,生成新增有标注训练数据;
继续训练模块,被配置为根据所述新增有标注训练数据继续训练所述目标命名实体识别模型,直至达到训练结束条件。
15.一种命名实体识别方法,其特征在于,包括:
获取模块,被配置为获取待进行命名实体识别的目标文本;
编码模块,被配置为将所述目标文本分别输入至少两个命名实体识别模型的编码层进行处理,获得每个命名实体识别模型的编码层输出的第一目标文本特征矩阵,其中,每个所述命名实体识别模型是通过权利要求1-7任意一项所述的训练方法训练得到的;
第一融合模块,被配置为根据预设的第一融合策略将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵进行融合,获得至少一个第二目标文本特征矩阵;
处理模块,被配置为将每个命名实体识别模型的编码层输出的第一目标文本特征矩阵和所述至少一个第二目标文本特征矩阵输入条件随机场层进行处理,获得每个所述第一目标文本特征矩阵和每个所述第二目标文本特征矩阵对应的候选实体词集合;
第二融合模块,被配置为根据预设的第二融合策略对至少两个候选实体词集合进行融合,获得所述目标文本对应的实体词。
16.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-7或者8-13任意一项所述方法的步骤。
17.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7或者8-13任意一项所述方法的步骤。
CN202110137392.6A 2021-02-01 2021-02-01 命名实体识别模型训练方法及装置 Pending CN112818691A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110137392.6A CN112818691A (zh) 2021-02-01 2021-02-01 命名实体识别模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110137392.6A CN112818691A (zh) 2021-02-01 2021-02-01 命名实体识别模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN112818691A true CN112818691A (zh) 2021-05-18

Family

ID=75860988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110137392.6A Pending CN112818691A (zh) 2021-02-01 2021-02-01 命名实体识别模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN112818691A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255357A (zh) * 2021-06-24 2021-08-13 北京金山数字娱乐科技有限公司 数据处理、目标识别模型训练、目标识别方法及装置
CN113283244A (zh) * 2021-07-20 2021-08-20 湖南达德曼宁信息技术有限公司 一种基于预训练模型的招投标数据命名实体识别方法
CN113298253A (zh) * 2021-06-03 2021-08-24 清华大学 用于命名实体识别的模型训练方法、识别方法及装置
CN113516196A (zh) * 2021-07-20 2021-10-19 云知声智能科技股份有限公司 命名实体识别数据增强的方法、装置、电子设备和介质
CN113673245A (zh) * 2021-07-15 2021-11-19 北京三快在线科技有限公司 实体识别方法、装置、电子设备及可读存储介质
CN113688237A (zh) * 2021-08-10 2021-11-23 北京小米移动软件有限公司 文本分类方法、文本分类网络的训练方法及装置
CN113887227A (zh) * 2021-09-15 2022-01-04 北京三快在线科技有限公司 一种模型训练与实体识别方法及装置
CN113901171A (zh) * 2021-09-06 2022-01-07 特赞(上海)信息科技有限公司 语义情感分析方法及装置
CN114266253A (zh) * 2021-12-21 2022-04-01 武汉百智诚远科技有限公司 一种未标注数据的半监督命名实体识别的方法
CN114417871A (zh) * 2021-12-17 2022-04-29 北京百度网讯科技有限公司 模型训练及命名实体识别方法、装置、电子设备及介质
CN114417974A (zh) * 2021-12-22 2022-04-29 北京百度网讯科技有限公司 模型训练方法、信息处理方法、装置、电子设备和介质
CN114996412A (zh) * 2022-08-02 2022-09-02 医智生命科技(天津)有限公司 医疗问答方法、装置、电子设备及存储介质
CN114997169A (zh) * 2022-05-30 2022-09-02 中电金信软件有限公司 一种实体词识别方法、装置、电子设备及可读存储介质
CN115757784A (zh) * 2022-11-21 2023-03-07 中科世通亨奇(北京)科技有限公司 基于标注模型和标签模板筛选的语料标注方法及装置
CN115859983A (zh) * 2022-12-14 2023-03-28 成都信息工程大学 一种细粒度中文命名实体识别方法
CN115859979A (zh) * 2022-11-22 2023-03-28 北京擎盾信息科技有限公司 法律文书命名实体识别方法、装置及存储介质
WO2023065635A1 (zh) * 2021-10-22 2023-04-27 平安科技(深圳)有限公司 命名实体识别方法、装置、存储介质及终端设备
CN116204610A (zh) * 2023-04-28 2023-06-02 深圳市前海数据服务有限公司 一种基于可研报告命名实体识别的数据挖掘方法及装置
CN116364296A (zh) * 2023-02-17 2023-06-30 中国人民解放军总医院 标准检查项目名称确认方法、装置、设备、介质及产品
CN117610574A (zh) * 2024-01-23 2024-02-27 广东省人民医院 一种基于跨域迁移学习的命名实体识别方法和装置
CN117875319A (zh) * 2023-12-29 2024-04-12 汉王科技股份有限公司 医疗领域标注数据的获取方法、装置、电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287480A (zh) * 2019-05-27 2019-09-27 广州多益网络股份有限公司 一种命名实体识别方法、装置、存储介质及终端设备
CN110516233A (zh) * 2019-08-06 2019-11-29 深圳和而泰家居在线网络科技有限公司 数据处理的方法、装置、终端设备以及存储介质
CN110705294A (zh) * 2019-09-11 2020-01-17 苏宁云计算有限公司 命名实体识别模型训练方法、命名实体识别方法及装置
CN110704633A (zh) * 2019-09-04 2020-01-17 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质
CN111651991A (zh) * 2020-04-15 2020-09-11 天津科技大学 一种利用多模型融合策略的医疗命名实体识别方法
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN112183099A (zh) * 2020-10-09 2021-01-05 上海明略人工智能(集团)有限公司 基于半监督小样本扩展的命名实体识别方法及***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN110287480A (zh) * 2019-05-27 2019-09-27 广州多益网络股份有限公司 一种命名实体识别方法、装置、存储介质及终端设备
CN110516233A (zh) * 2019-08-06 2019-11-29 深圳和而泰家居在线网络科技有限公司 数据处理的方法、装置、终端设备以及存储介质
CN110704633A (zh) * 2019-09-04 2020-01-17 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN110705294A (zh) * 2019-09-11 2020-01-17 苏宁云计算有限公司 命名实体识别模型训练方法、命名实体识别方法及装置
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质
CN111651991A (zh) * 2020-04-15 2020-09-11 天津科技大学 一种利用多模型融合策略的医疗命名实体识别方法
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
CN112183099A (zh) * 2020-10-09 2021-01-05 上海明略人工智能(集团)有限公司 基于半监督小样本扩展的命名实体识别方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WANG, Z., WU, Y., LEI, P., PENG, C.: "Named Entity recognition method of brazilian legal text based on pre-training model", 《JOURNAL OF PHYSICS:CONFERENCE SERIES》, vol. 1550, pages 032149 *
刘卫平;张豹;陈伟荣;张诚;陈渊;潘仁前;: "基于迁移表示学习的军事命名实体识别", 指挥信息***与技术, no. 02, pages 64 - 69 *
蔡庆;: "多准则融合的中文命名实体识别方法", 东南大学学报(自然科学版), no. 05, pages 929 - 934 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298253A (zh) * 2021-06-03 2021-08-24 清华大学 用于命名实体识别的模型训练方法、识别方法及装置
CN113298253B (zh) * 2021-06-03 2021-12-14 清华大学 用于命名实体识别的模型训练方法、识别方法及装置
CN113255357A (zh) * 2021-06-24 2021-08-13 北京金山数字娱乐科技有限公司 数据处理、目标识别模型训练、目标识别方法及装置
CN113673245A (zh) * 2021-07-15 2021-11-19 北京三快在线科技有限公司 实体识别方法、装置、电子设备及可读存储介质
CN113516196B (zh) * 2021-07-20 2024-04-12 云知声智能科技股份有限公司 命名实体识别数据增强的方法、装置、电子设备和介质
CN113283244A (zh) * 2021-07-20 2021-08-20 湖南达德曼宁信息技术有限公司 一种基于预训练模型的招投标数据命名实体识别方法
CN113516196A (zh) * 2021-07-20 2021-10-19 云知声智能科技股份有限公司 命名实体识别数据增强的方法、装置、电子设备和介质
CN113688237B (zh) * 2021-08-10 2024-03-05 北京小米移动软件有限公司 文本分类方法、文本分类网络的训练方法及装置
CN113688237A (zh) * 2021-08-10 2021-11-23 北京小米移动软件有限公司 文本分类方法、文本分类网络的训练方法及装置
CN113901171A (zh) * 2021-09-06 2022-01-07 特赞(上海)信息科技有限公司 语义情感分析方法及装置
CN113887227A (zh) * 2021-09-15 2022-01-04 北京三快在线科技有限公司 一种模型训练与实体识别方法及装置
WO2023065635A1 (zh) * 2021-10-22 2023-04-27 平安科技(深圳)有限公司 命名实体识别方法、装置、存储介质及终端设备
CN114417871A (zh) * 2021-12-17 2022-04-29 北京百度网讯科技有限公司 模型训练及命名实体识别方法、装置、电子设备及介质
CN114417871B (zh) * 2021-12-17 2023-01-31 北京百度网讯科技有限公司 模型训练及命名实体识别方法、装置、电子设备及介质
CN114266253A (zh) * 2021-12-21 2022-04-01 武汉百智诚远科技有限公司 一种未标注数据的半监督命名实体识别的方法
CN114266253B (zh) * 2021-12-21 2024-01-23 武汉百智诚远科技有限公司 一种未标注数据的半监督命名实体识别的方法
CN114417974B (zh) * 2021-12-22 2023-06-20 北京百度网讯科技有限公司 模型训练方法、信息处理方法、装置、电子设备和介质
CN114417974A (zh) * 2021-12-22 2022-04-29 北京百度网讯科技有限公司 模型训练方法、信息处理方法、装置、电子设备和介质
CN114997169A (zh) * 2022-05-30 2022-09-02 中电金信软件有限公司 一种实体词识别方法、装置、电子设备及可读存储介质
CN114996412A (zh) * 2022-08-02 2022-09-02 医智生命科技(天津)有限公司 医疗问答方法、装置、电子设备及存储介质
CN114996412B (zh) * 2022-08-02 2022-11-15 医智生命科技(天津)有限公司 医疗问答方法、装置、电子设备及存储介质
CN115757784A (zh) * 2022-11-21 2023-03-07 中科世通亨奇(北京)科技有限公司 基于标注模型和标签模板筛选的语料标注方法及装置
CN115859979A (zh) * 2022-11-22 2023-03-28 北京擎盾信息科技有限公司 法律文书命名实体识别方法、装置及存储介质
CN115859983A (zh) * 2022-12-14 2023-03-28 成都信息工程大学 一种细粒度中文命名实体识别方法
CN115859983B (zh) * 2022-12-14 2023-08-25 成都信息工程大学 一种细粒度中文命名实体识别方法
CN116364296A (zh) * 2023-02-17 2023-06-30 中国人民解放军总医院 标准检查项目名称确认方法、装置、设备、介质及产品
CN116364296B (zh) * 2023-02-17 2023-12-26 中国人民解放军总医院 标准检查项目名称确认方法、装置、设备、介质及产品
CN116204610A (zh) * 2023-04-28 2023-06-02 深圳市前海数据服务有限公司 一种基于可研报告命名实体识别的数据挖掘方法及装置
CN117875319A (zh) * 2023-12-29 2024-04-12 汉王科技股份有限公司 医疗领域标注数据的获取方法、装置、电子设备
CN117610574A (zh) * 2024-01-23 2024-02-27 广东省人民医院 一种基于跨域迁移学习的命名实体识别方法和装置
CN117610574B (zh) * 2024-01-23 2024-04-26 广东省人民医院 一种基于跨域迁移学习的命名实体识别方法和装置

Similar Documents

Publication Publication Date Title
CN112818691A (zh) 命名实体识别模型训练方法及装置
US20240177047A1 (en) Knowledge grap pre-training method based on structural context infor
CN108733837B (zh) 一种病历文本的自然语言结构化方法及装置
Alwehaibi et al. Comparison of pre-trained word vectors for arabic text classification using deep learning approach
CN110597997B (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN107798624B (zh) 一种软件问答社区中的技术标签推荐方法
Lin et al. Automatic translation of spoken English based on improved machine learning algorithm
US20230244704A1 (en) Sequenced data processing method and device, and text processing method and device
CN113361278B (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN113159187A (zh) 分类模型训练方法及装置、目标文本确定方法及装置
Ortiz-Zambranoa et al. Overview of alexs 2020: First workshop on lexical analysis at sepln
CN115964459A (zh) 基于食品安全认知图谱的多跳推理问答方法及***
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
CN111091002A (zh) 一种中文命名实体的识别方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
CN110929006B (zh) 一种数据型问答***
CN114579706B (zh) 一种基于bert神经网络和多任务学习的主观题自动评阅方法
CN115906846A (zh) 一种基于双图的层次特征融合的文档级命名实体识别方法
CN114417863A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
CN110879838B (zh) 一种放开域问答***
CN114065769A (zh) 情感原因对抽取模型的训练方法、装置、设备及介质
CN113792121A (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
Zhang et al. Named Entity Recognition for Terahertz Domain Knowledge Graph based on Albert-BiLSTM-CRF

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination