CN111428500B - 命名实体识别方法及装置 - Google Patents

命名实体识别方法及装置 Download PDF

Info

Publication number
CN111428500B
CN111428500B CN201910018256.8A CN201910018256A CN111428500B CN 111428500 B CN111428500 B CN 111428500B CN 201910018256 A CN201910018256 A CN 201910018256A CN 111428500 B CN111428500 B CN 111428500B
Authority
CN
China
Prior art keywords
label
training
model
labels
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910018256.8A
Other languages
English (en)
Other versions
CN111428500A (zh
Inventor
丁瑞雪
谢朋峻
马春平
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910018256.8A priority Critical patent/CN111428500B/zh
Publication of CN111428500A publication Critical patent/CN111428500A/zh
Application granted granted Critical
Publication of CN111428500B publication Critical patent/CN111428500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种命名实体识别方法及装置,其中,所述命名实体识别方法包括:获取第一模型输出的文本训练样本中的单位字词的标签及所述标签对应的第一概率,其中,所述标签包括至少一个未知标签;根据与每个未知标签对应的单位字词,将每个未知标签替换为所述单位字词的多个预设标签,并获取与每个所述预设标签对应的第二概率;根据所述单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述文本训练样本进行第二模型训练,以通过第一模型和第二模型进行文本的命名实体识别。通过本发明实施例,提高了命名实体识别准确度和效率,降低了命名实体识别成本。

Description

命名实体识别方法及装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种命名实体识别方法及装置。
背景技术
随着计算机技术的迅猛发展,处理各种事务的顶层应用应运而生。对于很多文字信息处理的顶层应用来说,进行文本的命名实体识别是这些顶层应用的基础。
命名实体识别(Named Entity Recognition,简称NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、时间名、专有名词等。目前主要的命名实体识别都是基于机器监督学习,从人工标注的训练数据中进行学习并最终生成命名实体识别模型,然后将此模型用于实际场景,对文本进行命名实体识别。
然而,在实际的训练过程中,人工标注的训练数据往往会存在漏标的情况,或者有时需要将多份标注数据进行融合,而一个实体可能在一份标注数据中被标注了出来,但在另一份标注数据中没有被标注出来,这些异常数据被称为不完备标注数据。在这些不完备标注数据上训练的模型,其结果往往比在高质量标注数据上训练的模型结果差很多,训练出的命名实体识别模型也无法达到实际的应用需要。
为此,目前采用人工方式对不完备标注数据进行校验,以从整体上对训练数据进行校正,改善模型训练效果。但这种人工方式效率低下,使得命名实体识别模型的训练成本较高,也增加了对文本进行命名实体识别的成本。
发明内容
有鉴于此,本发明实施例提供一种命名实体识别方案,以解决现有技术中因基于不完备标注数据训练命名实体识别模型的训练效率低且训练成本高导致对文本进行命名实体识别的成本高的问题。
根据本发明实施例的第一方面,提供了一种命名实体识别方法,包括:获取第一模型输出的文本训练样本中的单位字词的标签及所述标签对应的第一概率,其中,所述标签包括至少一个未知标签;根据与每个未知标签对应的单位字词,将每个未知标签替换为所述单位字词的多个预设标签,并获取与每个所述预设标签对应的第二概率;根据所述单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述文本训练样本进行第二模型训练,以通过所述第一模型和所述第二模型进行文本的命名实体识别。
根据本发明实施例的第二方面,提供了一种命名实体识别装置,包括:第一获取模块,用于获取第一模型输出的文本训练样本中的单位字词的标签及所述标签对应的第一概率,其中,所述标签包括至少一个未知标签;第二获取模块,用于根据与每个未知标签对应的单位字词,将每个未知标签替换为所述单位字词的多个预设标签,并获取与每个所述预设标签对应的第二概率;训练模块,用于根据所述单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述文本训练样本进行第二模型训练,以通过所述第一模型和所述第二模型进行文本的命名实体识别。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的命名实体识别方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的命名实体识别方法。
根据本发明实施例提供的命名实体识别方案,在第一模型输出的文本单位字词的标签及每个文本单位字词的标签对应的第一概率的基础上,对其中的未知标签及对应的单位字词进行处理,本发明实施例中,对每个未知标签对应的单位字词预设有多个标签,即多个预设标签,以及每个预设标签的第二概率,基于此,可以结合第一模型的输出结果、针对每个未知标签对应的单位字词进行第二模型训练,以确定其在所属的文本训练样本,如一个句子中的真实标签。由此,通过对第二模型的训练,可以获得准确度更高的命名实体识别模型,从而无需人工对未知标签对应的单位字词进行人工校验,提高了模型训练效率,降低了模型训练成本。进而,也降低了使用第一模型和第二模型对文本进行命名实体识别的成本,提高了识别准确度和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例一的一种命名实体识别方法的步骤流程图;
图2为根据本发明实施例二的一种命名实体识别方法的步骤流程图;
图3为根据本发明实施例三的一种命名实体识别装置的结构框图;
图4为根据本发明实施例四的一种命名实体识别装置的结构框图;
图5为根据本发明实施例五的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
参照图1,示出了根据本发明实施例一的一种命名实体识别方法的步骤流程图。
本实施例的命名实体识别方法包括以下步骤:
步骤S102:获取第一模型输出的文本训练样本中的单位字词的标签及所述标签对应的第一概率。
其中,所述标签包括至少一个未知标签。本发明实施例中,单位字词可以是单个字符,也可以是多个字符组成的词语,还可以是单个字符和词语的组合,其中,所述字符包括但不限于:各种语言的文字、字母、数字、符号等。以“奥巴马访问中国”为例,若单位字词采用单个字符的形式,则该句子包括7个单位字词,每个字为一个单位字词;若单位字词采用词语的形式,则该句子可以包括3个单位字词,分别为“奥巴马”、“访问”和“中国”;若单位字词采用单个字符和词语组合的形式,则该句子可以包括4个单位字词,分别为“奥巴马”、“访”、“问”和“中国”,但不限于此,此种情况下,还可能包括更多的单位字词,如将“奥巴马”拆分为3个单字后与“访问”和“中国”形成5个单位字词,或者,将“中国”拆分为2个单字后与“奥巴马”和“访问”形成4个单位字词,等等。在实际应用中,本领域技术人员可以根据实际需求,采用任意适当形式的单位字词,具体的拆分方式也可以由本领域技术人员根据实际需求适当进行拆分,本发明实施例对此均不作限制。
目前,实现命名实体识别的常用方式是将命名实体识别任务转化为文本序列的标签标注任务,即对输入句子的每一个单位字词打一个标签,标签由“前缀+类型”组成,例如,前缀B表示这个单位字词是一个实体的开始,前缀I表示这个单位字词在一个实体内部,前缀E表示这个单位字词是一个实体的结尾,前缀S表示这个单位字词是一个单字词实体。其中,标签的类型由本领域技术人员根据需要通过不同的数据集定义,可以是时间(TIME)、地点(LOC)、人名(PER)、机构(ORG),也可以是其他自定义的类型,等等。每个数据集都必须包含其他类型(O),用以表示没有被划分到预定义实体类型集合里面的字符。例如,将“奥巴马访问中国”这一句子中的实体转化成标签序列为“B-PER I-PER E-PER O O B-LOC E-LOC”。
基于定义的数据集中的标签,第一模型会输出每个单位字词的标签及每个标签对应的标签概率,即第一概率。例如,上例中,若数据集中定义的标签包括:B-PER、I-PER、E-PER、B-LOC、I-LOC、E-LOC、和O,在采用每个字为一个单位字词的形式下,则“奥”字对应的B-PER标签的第一概率为1.5,对应的I-PER标签的第一概率为0.4,对应的E-PER标签的第一概率为0.2,对应的O标签的第一概率为0.1,对应的B-LOC标签的第一概率为0.08,对应的I-LOC标签的第一概率为0.01,对应的E-LOC标签的第一概率为0.05。
本发明实施例中,主要针对第一模型输出的所有标签中的“其他类型”即“O”类型的标签,因该类型的标签无法被划分为任何一个实体类型的标签集合中,因此,本发明实施例将其称为未知标签,将其它类型的标签称为实体标签。
在实际应用中,第一模型可以为任意适当的可将命名实体识别任务转化为文本序列的标签标注任务的模型,包括但不限于Bi-LSTM(Bi-Long Short Term Memory,双向长短期记忆)网络模型。
步骤S104:根据与每个未知标签对应的单位字词,将每个未知标签替换为所述单位字词的多个预设标签,并获取与每个所述预设标签对应的第二概率。
为了便于说明,本文中,在第一模型输出的单位字词中,若某个单位字词对应有未知标签,则将与未知标签对应的单位字词称作为非实体字词,但本领域技术人员应当明了,非实体字词并不意味着该单位字词仅有未知标签,其也可以对应有其它实体标签,仅在针对该单位字词对应的未知标签进行处理时,将其称之为非实体字词。例如,字符w0对应有B-PER、B-ORG和O三个标签时,在后续针对其对应的O标签进行处理时,将其称为非实体字词,以与其它情况进行区分。
针对第一模型输出的每个非实体字词,可以为其设置多个不同的预设标签,该多个预设标签可以是第一模型使用的数据集中定义的标签,也可以是通过对所有文本训练样本进行标签统计后,获得的多个标签,还可以是每个非实体字词在文本训练样本中被标记过的标签。需要说明的是,多个预设标签也可以仍包括所述未知标签。
本发明实施例中,第二概率意指可以通过第二模型算出一个文本句子中每一个单位字词取某标签的概率,也可以称为边缘概率。该第二概率可以通过如前所述对所有文本训练样本进行标签统计后,针对每一个单位字词,计算出其被标注的标签类型,及每一种标签类型被标注的次数在该单位字词被标注为各种标签类型的次数之和中的占比。例如,假设“中”字,被标注为B-LOC共1000次,被标注为B-PER共150次,被标注为O共100次,则相应地,“中”字对应的B-LOC标签的第二概率为:1000/(1000+150+100)=0.8;“中”字对应的B-PER标签的第二概率为:150/(1000+150+100)=0.12;“中”字对应的O标签的第二概率为:100/(1000+150+100)=0.08。也即,当“中”字被第一模型输出为O类型的标签时,其对应三个预设标签,即:B-LOC标签、B-PER标签和O标签,与各个标签相对应的第二概率分别为:0.8、0.12和0.08。可选地,也可以直接使用第一模型使用的数据集中的标签,例如包括:B-PER、I-PER、E-PER、B-LOC、I-LOC、E-LOC、和O。除上述B-LOC标签、B-PER标签和O标签外,其它标签对应的第二概率置零即可。但不限于此,在实际应用中,本领域技术人员还可以根据实际情况,采用任意适当的方式为非实体字词对应的多个预设标签设置适当的第二概率,如,通过大数据统计、仿真实验、经验数据等。
以每个非实体字词对应的多个预设标签及多个预设标签对应的第二概率作为参考,进行后续的第二模型的训练,第二概率可以作为权重的形式对多个预设标签对应的多个不同标签路径进行区别,从中确定最为有效的标签路径,提高了训练后的命名实体识别模型(包括第一模型和第二模型)进行命名实体识别的准确度和命中概率。
步骤S106:根据所述单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述文本训练样本进行第二模型训练,以通过第一模型和第二模型进行文本的命名实体识别。
在获得了第一模型输出的每个单位字词的多个标签对应的多个第一概率,每个非实体字词的多个预设标签中的每个预设标签对应的第二概率的基础上,即可继续使用前述文本训练样本进行第二模型的训练。其中,第二模型包括但不限于CRF(ConditionalRandom Field,条件随机场)模型。
目前传统的命名实体识别模型训练通常采用输入层+编码层+CRF的方式,首先输入层将句子中的每个单位字词映射到一个向量上面,编码层通过Bi-LSTM网络模型对每个单位字词的上下文信息进行编码,并输出一个向量作为该单位字词的编码,该编码作为CRF模型的输入,通过CRF模型计算出该单位字词的正确标签所在路径的分数与该句子的所有路径的分数之和的比值作为整个命名实体识别模型的优化目标,每次针对输入的数据通过梯度下降算法更新CRF模型的参数以最大化该目标。
本发明实施例为适应不完备标注数据,对上述命名实体识别模型训练方式进行了改进,即:在上述传统任务下,每个单位字词的标签是确定的,而在本发明实施例中,只有被标注出来的非“O”实体才被看作已知标签(如:B-PER、I-LOC等),即实体标签,所有的“O”标签被当作未知标签;并且,在上述传统任务下,CRF模型计算出正确标签所在路径的分数与所有路径的分数之和的比值,而在本发明实施例中,由于“O”标签被当作未知标签,未知标签被认为可以成为任何标签(如I-PER、S-ORG、O等),相当于有多个预设标签,正确标签所在路径的分数为所有可能标签所在路径的分数之和;此外,传统任务下,CRF模型中不包括权重参数,而在本发明实施例中,CRF模型在计算时,需要以第二概率为权重,根据第二概率和所述分数之和,计算出O相应路径的最终分数值。基于此,本发明实施例中的CRF模型也称为Partial CRF模型。
对第二模型如上述Partial CRF模型的训练是一种迭代训练,在每一次迭代后,会根据训练结果对第二模型中的相关参数(包括第二概率)进行更新,然后再次根据所述第一概率、每个非实体字词对应的多个预设标签及所述预设标签对应的更新后的第二概率,继续对第二模型进行训练,直至达到训练终止条件。其中,训练终止条件可以是损失函数(Loss Function)的值达到设定阈值,准确率不再上升;也可以是达到设定的训练次数等。
在一种可行方式中,本步骤可以实现为:针对每个未知标签对应的单位字词(即非实体字词),确定该单位字词的多个预设标签对应的多条标签路径;根据所述多条标签路径中的每条标签路径中的每个单位字词对应的第一概率,获得每条标签路径的路径参考得分;根据每条标签路径中的预设标签对应的第二概率和每条标签路径的路径参考得分,获得每条标签路径的路径得分;根据每条标签路径的路径得分,获得所述多条标签路径的路径得分的总和;根据所述路径得分的总和,对所述第二模型进行迭代训练,直至达到训练终止条件。
例如,以句子A包括w0和w1两个字符,数据集中的标签包括:B-PER、I-PER、和O为例,设w0对应的B-PER标签的第一概率为1.5,对应的I-PER标签和O标签的第一概率均为0;设w1对应的B-PER标签的第一概率为0.01,对应的I-PER标签的第一概率为0.8、对应的O标签的第一概率为0.5。针对w1对应的O标签,将其预设标签仍设置为上述数据集中的标签,为便于区分,将其标记为B-PER’、I-PER’、和O’。假设B-PER’、I-PER’、和O’对应的第二概率分别为0.1、0.7和0.03。
因CRF模型在计算每条标签路径的得分时,需要借助于标签转换矩阵和标签转换得分。因此,本实施例中,一种标签转换矩阵简单示例如下表1所示:
表1
START B-PER I-PER B-ORG S-ORG O END
START 0 0.8 0.007 0.7 0.0008 0.9 0.08
B-PER 0 0.6 0.9 0.2 0.0006 0.6 0.009
I-PER -1 0.5 0.53 0.55 0.0003 0.85 0.008
B-ORG 0.9 0.5 0.0003 0.25 0.8 0.77 0.006
S-ORG -0.9 0.45 0.007 0.7 0.65 0.76 0.2
O 0 0.65 0.0007 0.7 0.0008 0.9 0.08
END 0 0 0 0 0 0 0
上表1中,为了增加标签转换矩阵的鲁棒性,额外增加了START标签和END标签,其中,START标签表示一个句子的起始,END标签表示一个句子的结束,其含义及标注均可参照现有标签转换矩阵示意,在此不再进一步详述。表1中,每一个元素的值表示从一个标签转换到下一个标签的概率,如第3行第4列“0.9”表示从“B-PER”标签转换为“I-PER”标签的概率为0.9。此外,本领域技术人员应当明了的是,上表1中仅示出了标签转换矩阵的部分标签和概率,实际应用中,不限于上表1中的标签和概率。且,上表1中所示标签和概率的设置与更新与现有设置与更新方式相同,在此亦不再赘述。
基于上述设定:(1)针对标签为“O”时的w1,其对应的多条标签路径为B-PER->B-PER’、B-PER->I-PER’、以及,B-PER->O’,其中,B-PER为w0的标签;(2)相对应地,B-PER->B-PER’对应的路径参考得分为:1.5+0.1+0.6=2.2、B-PER->I-PER’对应的路径参考得分为:1.5+0.7+0.9=3.1、B-PER->O’对应的路径参考得分为:1.5+0.03+0.6=2.13;(3)相对应地,B-PER->B-PER’对应的路径得分为:2.2*0.1=0.22、B-PER->I-PER’对应的路径得分为:3.1*0.7=2.17、B-PER->O’对应的路径得分为:2.13*0.03=0.0639;(4)标签为“O”时,w1对应的多条标签路径的路径得分总和:SUM1=0.22+2.17+0.0639=2.4539;(5)计算w0和w1之间的所有路径的得分总和:SUM2=2.4539+(1.5+0.01+0.6)+(1.5+0.8+0.9)=7.7639,则SUM1/SUM2=2.4539/7.7639≈0.3160,进一步地,可以据此比值与设定阈值的差异对第二模型中的参数,包括第二概率,进行更新,然后返回(2)继续重复执行上述过程,迭代往复,直至达到训练终止条件。
经过上述训练过程的第二模型可以为第一模型输出的标签为“O”的每个非实体字词确定出其在所属的句子中的真实标签。
通过本实施例,在第一模型输出的文本单位字词的标签及每个文本单位字词的标签对应的第一概率的基础上,对其中的未知标签及对应的单位字词进行处理,本发明实施例中,对每个非实体字词预设有多个标签,即多个预设标签,以及每个预设标签的第二概率,基于此,可以结合第一模型的输出结果、针对每个未知标签对应的单位字词进行第二模型训练,以确定其在所属的文本训练样本,如一个句子中的真实标签。由此,通过对第二模型的训练,可以获得准确度更高的命名实体识别模型,从而无需人工对未知标签对应的单位字词进行人工校验,提高了模型训练效率,降低了模型训练成本。进而,也降低了使用第一模型和第二模型对文本进行命名实体识别的成本,提高了识别准确度和效率。
本实施例的命名实体识别方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
实施例二
参照图2,示出了根据本发明实施例二的一种命名实体识别方法的步骤流程图。
本实施例中,以第一模型为Bi-LSTM网络模型,第二模型为Partial CRF模型为例,对本发明实施例的命名实体识别方法进行说明。
本实施例的命名实体识别方法包括以下步骤:
步骤S202:获取所有文本训练样本,并将所有文本训练样本均分为设定份数的多份样本子集。
通过将所有文本训练样本均分为设定份数的多份样本子集,可以实现对第一模型和第二模型的交叉训练。其中,在本发明实施例中,如无特殊说明,“多份”、“多个”等与多相关的数量,意指两个及两个以上。
交叉训练的基本思想是将原始数据进行分组,一部分作为训练集来训练模型,另一部分作为测试集来评价模型。通过交叉训练,可以有效评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合,还可以从有限的数据中获取尽可能多的有效信息。
其中,所述设定份数的具体数量可以由本领域技术人员根据实际需求适当设置,可选地,所述设定份数的多份样本子集为两份样本子集,即,所述多份样本子集的份数为两份。将设定份数设置为两份,除可以有效实现交叉训练的上述效果外,还可以避免因份数过多而导致的训练时间延长而效果没有提升的现象。
例如,文本训练样本包括500个句子,可以将其中的第1-250个作为训练样本子集,对第一模型和第二模型进行训练,将其中的第251-500个作为测试样本子集,以测试经过训练的第一模型和第二模型的训练效果。然后,可以再将第251-500个作为训练样本子集,将第1-250个作为测试样本子集,重复上述训练和测试过程。
基于此,可以在后续训练第二模型时,可以使用多份样本子集对第二模型进行交叉迭代训练,根据多份样本子集的份数进行与所述份数相同次数的交叉训练,也即,若多份样本子集的份数为N,则进行N次交叉训练,在进行第i次(1≤i≤N)训练时,可以将第i份样本子集作为测试样本子集,将第i份样本子集以外的其它样本子集作为训练样本子集。由此,实现样本数据的高效划分和模型的高效训练。需要说明的是,交叉训练是一种高效的模型训练方式,但在实际应用中,本领域技术人员也可以采用其它适当的训练方式,如使用全部训练样本的方式等,同样可有效提高标签标注的准确性。
此外,因对第二模型的训练是一种迭代训练的方式,因此,可以在第二模型的每次迭代训练过程中,对第二模型进行与多份样本子集的份数相同次数的交叉训练。例如,假设迭代训练的次数为1000次,共2份样本子集X和Y,则在每一次迭代中,执行2次交叉训练,第一次可以以X为训练样本子集,第二次则可以以Y为训练样本子集。在整个迭代训练过程中,交叉训练共执行2000次。
步骤S204:使用训练样本子集训练第一模型。
为简化训练过程,降低训练成本,本实施例中,对第一模型也采用交叉训练的方式,其使用的训练样本子集和测试样本子集与第二模型一致。
如前所述,本实施例中的第一模型为Bi-LSTM网络模型,该Bi-LSTM网络模型采用现有的模型结构和训练方法,在此不再详述。Bi-LSTM网络模型在完成当前训练样本子集的训练后,即可输出针对该训练样本子集中的训练样本的输出结果,包括训练样本中的每个句子的每个单位字词的标签及对应的第一概率。
步骤S206:获取第一模型输出的文本训练样本中的每个单位字词的标签及所述标签对应的第一概率。
其中,所述标签包括至少一个未知标签。
本步骤的具体实现可参照前述实施例一中的相关描述,在此不再赘述。经Bi-LSTM网络模型输出的每一个单位字词的每一个标签及其对应的第一概率都将被作为第二模型的训练依据。
步骤S208:根据与每个未知标签对应的单位字词,将每个未知标签替换为所述单位字词的多个预设标签,并获取每个所述预设标签对应的第二概率。
在对第二模型如本实施例中的Partial CRF模型进行训练之前,需要确定每个与未知标签对应的单位字词即非实体字词对应的多个预设标签及每个预设标签对应的第二概率。
与传统的将Bi-LSTM网络模型的输出直接输入CRF模型以进行后续训练相比,本发明实施例中,针对Bi-LSTM网络模型输出的标签为“O”时的每个单位字词,为其预设有多个预设标签及针对每个预设标签的第二概率。
其中,可以通过以下方式获得每个非实体字词对应的多个预设标签及每个预设标签对应的第二概率的初始值:首先,获取用于进行模型训练的所有文本训练样本;获取所有文本训练样本中的每个单位字词及每个单位字词在所有文本训练样本中被标记的标签对应的标签概率;根据所述被标记的标签及对应的标签概率,生成每个单位字词对应的多个预设标签及所述第二概率的初始值;然后,可以从中确定每个非实体字词对应的多个预设标签及每个预设标签对应的第二概率的初始值。
例如,文本训练样本包括500个句子,样本中包括“中”字,“中”字被标注为B-LOC共1000次,被标注为B-PER共150次,被标注为O共100次,则“中”字对应的B-LOC标签的第二概率的初始值为:1000/(1000+150+100)=0.8;“中”字对应的B-PER标签的第二概率的初始值为:150/(1000+150+100)=0.12;“中”字对应的O标签的第二概率的初始值为:100/(1000+150+100)=0.08。在后续的Partial CRF模型的训练过程中,Partial CRF模型将根据每一次迭代训练的训练结果来更新该第二概率。
步骤S210:对第二模型进行第K次迭代训练。
其中,1≤K≤M,M为预先设定的第二模型的迭代训练次数,其可以由本领域技术人员根据实际情况适当设置,本发明实施例对此不作限制。
步骤S212:开始第i次交叉训练。
交叉训练嵌套于每次的迭代训练之中,如前所述,1≤i≤N,N为多份样本子集的份数。本实施例中,在进行第i次交叉训练时,将第i份样本子集作为测试样本子集,将第i份样本子集以外的其它样本子集作为训练样本子集,以对第二模型,本实施例中的Partial CRF模型进行交叉训练。
具体地,在对Partial CRF模型进行第i次交叉训练时,可以根据当前训练样本子集中的每个单位字词的每个标签及每个标签的第一概率、每个非实体字词对应的多个预设标签及每个所述预设标签对应的第二概率,对第二模型训练。
在当前交叉训练中,如前所述,可以针对每个非实体字词,确定当前非实体字词的多个预设标签对应的多条标签路径;根据所述多条标签路径中的每条标签路径中的每个单位字词对应的第一概率或第二概率,获得每条标签路径的路径参考得分;根据每条标签路径中的预设标签对应的第二概率和每条标签路径的路径参考得分,获得每条标签路径的路径得分;根据每条标签路径的路径得分,获得所述多条标签路径的路径得分总和;然后,根据所述路径得分总和,训练第二模型。
在一次交叉训练过程中的Partial CRF模型的训练过程可参照前述实施例一中的句子A包括w0和w1两个字符,数据集中的标签包括:B-PER、I-PER、和O的示例,在此不再详述。
需要说明的是,在获得了所述多条标签路径的路径得分总和以及所有路径的路径得分总和的基础上,可以依据Partial CRF模型中预设的损失函数确定本次训练的损失值,进而,基于该损失值对Partial CRF模型中的参数(包括但不限于第二概率)进行更新。也即,在每次交叉训练后,根据训练结果更新当前非实体字词的多个预设标签对应的第二概率。
由上述过程可见,对第二模型进行与所述多份样本子集的份数相同次数的交叉训练包括:从所述多份样本子集中获取用于当前交叉训练的训练样本子集和测试样本子集;使用所述训练样本子集对所述第二模型进行训练;根据训练结果,更新所述测试样本子集中的每个单位字词的多个预设标签对应的第二概率;然后,可以执行下述步骤S214,返回从所述多份样本子集中确定用于当前交叉训练的训练样本子集和测试样本子集继续执行,直至完成与所述多份样本子集的份数相同次数的交叉训练。
例如,获取训练样本子集X和测试样本子集Y,在本次交叉训练中,先使用X训练Partial CRF模型;然后,根据本次交叉训练的结果,更新Y中每个单位字词的多个预设标签的第二概率。而在下次交叉训练中,使用Y训练Partial CRF模型;然后,根据交叉训练的结果,更新X中每个单位字词的多个预设标签的第二概率。
由此,通过N次交叉训练,即可实现对多份样本子集中的每个单位字词的多个预设标签对应的第二概率的更新。
步骤S214:i=i+1,判断i是否大于N;若不大于,则返回步骤S212继续执行;若大于,则执行步骤S216。
在完成第i次交叉训练后,使i自增1,若i不大于N,则进行下一轮的交叉训练。
步骤S216:使用完成交叉训练后的第二模型和所述多份样本子集中的每个单位字词更新后的第二概率,对测试样本子集进行命名实体识别测试,获得测试结果并记录。
通过使用测试样本子集对完成本轮交叉训练后的第二模型的效果测试,可以了解本轮交叉训练的效果,以为后续选取效果最好的模型对应的参数做准备。
步骤S218:K=K+1,判断K是否大于M,若不大于M,则返回步骤S210继续执行;否则,执行步骤S220。
若K不大于M,则说明第二模型还未完成所有的迭代训练,需执行下一次迭代训练。否则,说明第二模型已完成规定的迭代训练,可进行后续处理。
步骤S220:从记录的测试结果确定最优测试结果,将最优测试结果对应的第二模型的训练参数确定为最终的第二模型的参数。
其中,所述训练参数包括但不限于:所述第二概率、标签转换矩阵中的标签转换参数,等等。
从上述过程可见,本实施例中,可以针对Bi-LSTM网络模型输出的每个单位字词及其标签:(1)初始化每个单位字词的标签的第二概率,将所有文本训练样本平均分为N份(i≥2),并且,去掉非实体字词对应的O标签;(2)开始第K(1≤K≤M)次迭代训练;(3)开始N折交叉训练,其中,第i次(1≤i≤N)训练以除了第i份样本子集以外的样本子集作为训练样本子集;(4)第i次训练,将使用Bi-LSTM网络模型对输入的字符或词语进行对应的字向量映射或词向量映射,以及,上下文信息编码后的每个字符或词语输入Partial CRF模型,计算以第二概率为权重的正确标签所在路径得分之和,减去所有路径得分总和作为优化目标(在对数概率情况下,除法演变为减法),以该优化目标更新参数;(5)进行多轮训练直至Partial CRF模型收敛;(6)第i次训练结束,用得到的Partial CRF模型的参数更新第i份样本子集的第二概率用于第K+1次迭代使用;(7)结束N折交叉训练,所有训练样本的第二概率都得到更新;(8)用全部训练样本以及更新后的第二概率训练的Partial CRF模型,在测试集上进行测试,记为第K次迭代所得的Partial CRF模型的效果;(9)返回(2),开始第K+1次迭代,直到多次迭代后的Partial CRF模型效果收敛;(10)选取效果最好的一次迭代所得的Partial CRF模型作为最终的Partial CRF模型。
从上述过程可见,整个训练过程将会迭代K次,Partial CRF模型在计算每条标签路径之和时,每条标签路径的得分是该标签路径的路径参考得分乘以该标签路径的第二概率,这个第二概率由上一次迭代所获得的Partial CRF模型在该次训练的样本子集上预测得到。例如,在一个例子中,当第一次迭代训练完成后,会获得一个Partial CRF模型,这个Partial CRF模型能够计算出训练样本中的单位字词如“Farm”分别取O、PER、ORG的第二概率,这个第二概率在O上大一些,在PER和ORG上小一些,那么在第二次迭代训练时,“Farm”取O所在的标签路径权重便会大一些,取PER、ORG所在的标签路径的权重便会小一些。
由此,一方面,Partial CRF模型能够在不完备标注数据上进行训练;另一方面,可以用Partial CRF模型代替传统CRF模型用来对含有未知标签的句子进行建模;再一方面,在Partial CRF模型中,引入第二概率作为权重来区别不同的路径;并且,使用多轮迭代训练,使得全局的信息可以被局部利用到。
在确定了第一模型的相关参数和第二模型的相关参数后,即可使用第一模型和第二模型对文本进行命名实体识别。
综上,通过本实施例,在第一模型输出的文本单位字词的标签及每个文本单位字词的标签对应的第一概率的基础上,对其中的未知标签及对应的单位字词进行处理,本发明实施例中,对每个未知标签对应的单位字词预设有多个标签,即多个预设标签,以及每个预设标签的第二概率,基于此,可以结合第一模型的输出结果、针对每个未知标签对应的单位字词进行第二模型训练,以确定其在所属的文本训练样本,如一个句子中的真实标签。由此,通过对第二模型的训练,可以获得准确度更高的命名实体识别模型,从而无需人工对未知标签对应的单位字词进行人工校验,提高了模型训练效率,降低了模型训练成本。进而,也降低了使用第一模型和第二模型对文本进行命名实体识别的成本,提高了识别准确度和效率。
本实施例的命名实体识别方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
实施例三
参照图3,示出了根据本发明实施例三的一种命名实体识别装置的结构框图。
本实施例的命名实体识别装置包括:第一获取模块302,用于获取第一模型输出的文本训练样本中的单位字词的标签及所述标签对应的第一概率,其中,所述标签包括至少一个未知标签;第二获取模块304,用于根据与每个未知标签对应的单位字词,将每个未知标签替换为所述单位字词的多个预设标签,并获取与每个所述预设标签对应的第二概率;训练模块306,用于根据所述单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述文本训练样本进行第二模型训练,以通过所述第一模型和所述第二模型进行文本的命名实体识别。
通过本实施例的命名实体识别装置,在第一模型输出的文本单位字词的标签及每个文本单位字词的标签对应的第一概率的基础上,对其中的未知标签及对应的单位字词进行处理,本发明实施例中,对每个未知标签对应的单位字词预设有多个标签,即多个预设标签,以及每个预设标签的第二概率,基于此,可以结合第一模型的输出结果、针对每个未知标签对应的单位字词进行第二模型训练,以确定其在所属的文本训练样本,如一个句子中的真实标签。由此,通过对第二模型的训练,可以获得准确度更高的命名实体识别模型,从而无需人工对未知标签对应的单位字词进行人工校验,提高了模型训练效率,降低了模型训练成本。进而,也降低了使用第一模型和第二模型对文本进行命名实体识别的成本,提高了识别准确度和效率。
本实施例的命名实体识别装置用于实现前述方法实施例中相应的命名实体识别方法,相关部分可参照前述方法实施例中的描述,在此不再赘述。
实施例四
参照图4,示出了根据本发明实施例四的一种命名实体识别装置的结构框图。
本实施例的命名实体识别装置包括:第一获取模块402,用于获取第一模型输出的文本训练样本中的每个单位字词的标签及所述标签对应的第一概率,其中,所述标签包括至少一个未知标签;第二获取模块404,用于根据与每个未知标签对应的单位字词,将每个未知标签替换为所述单位字词的多个预设标签,并获取与每个所述预设标签对应的第二概率;训练模块406,用于根据所述每个单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述文本训练样本进行第二模型训练,以通过所述第一模型和所述第二模型进行文本的命名实体识别。
可选地,所述第一模型包括Bi-LSTM网络模型,所述第二模型包括CRF模型。
可选地,所述CRF模型包括Partial CRF(部分条件随机场)模型。
可选地,所述训练模块406包括:确定子模块4060,用于针对每个未知标签对应的单位字词,确定所述单位字词的多个预设标签对应的多条标签路径;第一计算子模块4062,用于根据所述多条标签路径中的每条标签路径中的每个单位字词对应的第一概率或第二概率,获得每条标签路径的路径参考得分;第二计算子模块4064,用于根据每条标签路径中的预设标签对应的第二概率和每条标签路径的路径参考得分,获得每条标签路径的路径得分;第三计算子模块4066,用于根据每条标签路径的路径得分,获得所述多条标签路径的路径得分总和;迭代子模块4068,用于根据所述路径得分总和,对所述第二模型进行迭代训练,直至达到训练终止条件。
可选地,本实施例的命名实体识别装置还包括:划分模块408,用于将所有文本训练样本均分为设定份数的多份样本子集;所述训练模块406,用于根据所述每个单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述多份样本子集对所述第二模型进行交叉迭代训练。
可选地,所述训练模块406,用于根据所述每个单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,在所述第二模型的每次迭代训练过程中,对所述第二模型进行与所述多份样本子集的份数相同次数的交叉训练。
可选地,所述多份样本子集的份数为两份。
可选地,本实施例的命名实体识别装置还包括:生成模块410,用于获取用于进行网络模型训练的所有文本训练样本;获取所有文本训练样本中的每个单位字词及每个单位字词在所有文本训练样本中被标记的标签对应的标签概率;根据所述被标记的标签及对应的标签概率,生成每个单位字词对应的多个预设标签及所述第二概率的初始值。
可选地,所述训练模块406从所述多份样本子集中获取用于当前交叉训练的训练样本子集和测试样本子集;使用所述训练样本子集对所述第二模型进行训练;根据训练结果,更新所述测试样本子集中的每个字符的多个预设标签对应的第二概率;返回所述从所述多份样本子集中确定用于当前交叉训练的训练样本子集和测试样本子集的操作继续执行,直至完成与所述多份样本子集的份数相同次数的交叉训练。
可选地,训练模块406还用于使用完成交叉训练后的所述第二模型和所述多份样本子集中的每个单位字词更新后的第二概率,对所述测试样本子集进行命名实体识别测试,获得测试结果并记录。
本实施例的命名实体识别装置用于实现前述方法实施例中相应的命名实体识别方法,并具有相应方法实施例的有益效果,在此不再赘述。此外,本实施例的命名实体识别装置的具体实现可可参照前述方法实施例中相关部分的描述,在此亦不再赘述。
实施例五
参照图5,示出了根据本发明实施例五的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备如终端设备或服务器进行通信。
处理器502,用于执行程序510,具体可以执行上述命名实体识别方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:获取第一模型输出的文本训练样本中的每个单位字词的标签及所述标签对应的第一概率,其中,所述标签包括至少一个未知标签;根据与每个未知标签对应的单位字词,将每个未知标签替换为所述单位字词的多个预设标签,并获取与每个所述预设标签对应的第二概率;根据所述每个单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述文本训练样本进行第二模型训练,以通过所述第一模型和所述第二模型进行文本的命名实体识别。
在一种可选的实施方式中,所述第一模型包括Bi-LSTM网络模型,所述第二模型包括CRF模型。
在一种可选的实施方式中,所述CRF模型包括Partial CRF模型。
在一种可选的实施方式中,程序510还用于使得处理器502在根据所述每个单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述文本训练样本进行第二模型训练时,针对每个未知标签对应的单位字词,确定所述单位字词的多个预设标签对应的多条标签路径;根据所述多条标签路径中的每条标签路径中的每个单位字词对应的第一概率或第二概率,获得每条标签路径的路径参考得分;根据每条标签路径中的预设标签对应的第二概率和每条标签路径的路径参考得分,获得每条标签路径的路径得分;根据每条标签路径的路径得分,获得所述多条标签路径的路径得分总和;根据所述路径得分总和,对所述第二模型进行迭代训练,直至达到训练终止条件。
在一种可选的实施方式中,程序510还用于使得处理器502在根据所述每个单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述文本训练样本进行第二模型训练之前,将所有文本训练样本均分为设定份数的多份样本子集;程序510还用于使得处理器502在使用所述文本训练样本进行第二模型训练时,使用所述多份样本子集对所述第二模型进行交叉迭代训练。
在一种可选的实施方式中,程序510还用于使得处理器502在使用所述多份样本子集对所述第二模型进行交叉迭代训练时,在所述第二模型的每次迭代训练过程中,对所述第二模型进行与所述多份样本子集的份数相同次数的交叉训练。
在一种可选的实施方式中,所述多份样本子集的份数为两份。
在一种可选的实施方式中,程序510还用于使得处理器502在根据每个未知标签对应的单位字词,将每个未知标签替换为与所述单位字词对应的多个预设标签之前,获取用于进行网络模型训练的所有文本训练样本;获取所有文本训练样本中的每个单位字词及每个单位字词在所有文本训练样本中被标记的标签对应的标签概率;根据所述被标记的标签及对应的标签概率,生成每个单位字词对应的多个预设标签及所述第二概率的初始值。
在一种可选的实施方式中,程序510还用于使得处理器502在对所述第二模型进行与所述多份样本子集的份数相同次数的交叉训练时,从所述多份样本子集中获取用于当前交叉训练的训练样本子集和测试样本子集;使用所述训练样本子集对所述第二模型进行训练;根据训练结果,更新所述测试样本子集中的每个单位字词的多个预设标签对应的第二概率;返回所述从所述多份样本子集中确定用于当前交叉训练的训练样本子集和测试样本子集的步骤继续执行,直至完成与所述多份样本子集的份数相同次数的交叉训练。
在一种可选的实施方式中,程序510还用于使得处理器502在完成与所述多份样本子集的份数相同次数的交叉训练之后,使用完成交叉训练后的所述第二模型和所述多份样本子集中的每个单位字词更新后的第二概率,对所述测试样本子集进行命名实体识别测试,获得测试结果并记录。
程序510中各步骤的具体实现可以参见上述命名实体识别方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,在第一模型输出的文本单位字词的标签及每个文本单位字词的标签对应的第一概率的基础上,对其中的未知标签及对应的单位字词进行处理,本发明实施例中,对每个非实体字词预设有多个标签,即多个预设标签,以及每个预设标签的第二概率,基于此,可以结合第一模型的输出结果、针对每个未知标签对应的单位字词进行第二模型训练,以确定其在所属的文本训练样本,如一个句子中的真实标签。由此,通过对第二模型的训练,可以获得准确度更高的命名实体识别模型,从而无需人工对未知标签对应的单位字词进行人工校验,提高了模型训练效率,降低了模型训练成本。进而,也降低了使用第一模型和第二模型对文本进行命名实体识别的成本,提高了识别准确度和效率。
需要说明的是,本发明的多个实施例中,均以单位字词为单个字符为例进行说明,但本领域技术人员应当明了的是,采用其它形式的单位字词均可参照相应实施例实现本发明实施例的命名实体识别方案。
此外,可选地,本发明实施例中的多种概率,如第一概率、第二概率等,均可采用对数概率的形式,以减少计算量,提升命名实体识别速度和效率。但不限于此,其它概率形式也同样适用于本发明实施例的方案。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的命名实体识别方法。此外,当通用计算机访问用于实现在此示出的命名实体识别方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的命名实体识别方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (18)

1.一种命名实体识别方法,包括:
获取第一模型输出的文本训练样本中的单位字词的标签及所述标签对应的第一概率,其中,所述标签包括至少一个未知标签;
根据与每个未知标签对应的单位字词,将每个未知标签替换为所述单位字词的多个预设标签,并获取与每个所述预设标签对应的第二概率,所述第二概率为所述单位字词被标注为当前预设标签的次数与其被标注为所述多个预设标签的次数总和的比值;
根据所述单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述文本训练样本进行第二模型训练,以通过所述第一模型和所述第二模型进行文本的命名实体识别,包括:针对每个未知标签对应的单位字词,确定所述单位字词的多个预设标签对应的多条标签路径;根据所述多条标签路径中的每条标签路径中的每个单位字词对应的第一概率或第二概率,获得每条标签路径的路径参考得分;根据每条标签路径中的预设标签对应的第二概率和每条标签路径的路径参考得分,获得每条标签路径的路径得分;根据每条标签路径的路径得分,获得所述多条标签路径的路径得分总和;根据所述路径得分总和,对所述第二模型进行迭代训练,直至达到训练终止条件。
2.根据权利要求1所述的方法,其中,所述第一模型包括双向长短期记忆Bi-LSTM网络模型,所述第二模型包括条件随机场CRF模型。
3.根据权利要求2所述的方法,其中,所述CRF模型包括部分条件随机场Partial CRF模型。
4.根据权利要求1-3任一项所述的方法,还包括:将所有文本训练样本均分为设定份数的多份样本子集;
所述使用所述文本训练样本进行第二模型训练,包括:使用所述多份样本子集对所述第二模型进行交叉迭代训练。
5.根据权利要求4所述的方法,其中,
在所述第二模型的每次迭代训练过程中,对所述第二模型进行与所述多份样本子集的份数相同次数的交叉训练。
6.根据权利要求5所述的方法,其中,所述多份样本子集的份数为两份。
7.根据权利要求5所述的方法,还包括:
获取用于进行模型训练的所有文本训练样本;
获取所有文本训练样本中的每个单位字词及每个单位字词在所有文本训练样本中被标记的标签对应的标签概率;
根据所述被标记的标签及对应的标签概率,生成每个单位字词对应的多个预设标签及所述第二概率的初始值。
8.根据权利要求7所述的方法,其中,
从所述多份样本子集中获取用于当前交叉训练的训练样本子集和测试样本子集;
使用所述训练样本子集对所述第二模型进行训练;
根据训练结果,更新所述测试样本子集中的每个单位字词的多个预设标签对应的第二概率;
返回所述从所述多份样本子集中确定用于当前交叉训练的训练样本子集和测试样本子集的步骤继续执行,直至完成与所述多份样本子集的份数相同次数的交叉训练。
9.根据权利要求8所述的方法,还包括:
使用完成交叉训练后的所述第二模型和所述多份样本子集中的每个单位字词更新后的第二概率,对所述测试样本子集进行命名实体识别测试,获得测试结果并记录。
10.一种命名实体识别装置,包括:
第一获取模块,用于获取第一模型输出的文本训练样本中的单位字词的标签及所述标签对应的第一概率,其中,所述标签包括至少一个未知标签;
第二获取模块,用于根据与每个未知标签对应的单位字词,将每个未知标签替换为所述单位字词的多个预设标签,并获取与每个所述预设标签对应的第二概率,所述第二概率为所述单位字词被标注为当前预设标签的次数与其被标注为所述多个预设标签的次数总和的比值;
训练模块,用于根据所述单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述文本训练样本进行第二模型训练,以通过所述第一模型和所述第二模型进行文本的命名实体识别;
其中,所述训练模块包括:
确定子模块,用于针对每个未知标签对应的单位字词,确定所述单位字词的多个预设标签对应的多条标签路径;
第一计算子模块,用于根据所述多条标签路径中的每条标签路径中的每个单位字词对应的第一概率或第二概率,获得每条标签路径的路径参考得分;
第二计算子模块,用于根据每条标签路径中的预设标签对应的第二概率和每条标签路径的路径参考得分,获得每条标签路径的路径得分;
第三计算子模块,用于根据每条标签路径的路径得分,获得所述多条标签路径的路径得分总和;
迭代子模块,用于根据所述路径得分总和,对所述第二模型进行迭代训练,直至达到训练终止条件。
11.根据权利要求10所述的装置,其中,所述第一模型包括双向长短期记忆Bi-LSTM网络模型,所述第二模型包括条件随机场CRF模型。
12.根据权利要求11所述的装置,其中,所述CRF模型包括部分条件随机场Partial CRF模型。
13.根据权利要求10-12任一项所述的装置,其中,
所述装置还包括:划分模块,用于将所有文本训练样本均分为设定份数的多份样本子集;
所述训练模块,用于根据所述单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,使用所述多份样本子集对所述第二模型进行交叉迭代训练。
14.根据权利要求13所述的装置,其中,所述训练模块,用于根据所述单位字词的标签及所述标签对应的第一概率、每个未知标签对应的单位字词的多个预设标签及每个所述预设标签对应的第二概率,在所述第二模型的每次迭代训练过程中,对所述第二模型进行与所述多份样本子集的份数相同次数的交叉训练。
15.根据权利要求14所述的装置,其中,所述多份样本子集的份数为两份。
16.根据权利要求14所述的装置,其中,所述装置还包括:
生成模块,用于获取用于进行模型训练的所有文本训练样本;获取所有文本训练样本中的每个单位字词及每个单位字词在所有文本训练样本中被标记的标签对应的标签概率;根据所述被标记的标签及对应的标签概率,生成每个单位字词对应的多个预设标签及所述第二概率的初始值。
17.根据权利要求16所述的装置,其中,所述训练模块:
从所述多份样本子集中获取用于当前交叉训练的训练样本子集和测试样本子集;
使用所述训练样本子集对所述第二模型进行训练;
根据训练结果,更新所述测试样本子集中的每个单位字词的多个预设标签对应的第二概率;
返回所述从所述多份样本子集中确定用于当前交叉训练的训练样本子集和测试样本子集的操作继续执行,直至完成与所述多份样本子集的份数相同次数的交叉训练。
18.根据权利要求17所述的装置,其中,
所述训练模块,还用于使用完成交叉训练后的所述第二模型和所述多份样本子集中的每个单位字词更新后的第二概率,对所述测试样本子集进行命名实体识别测试,获得测试结果并记录。
CN201910018256.8A 2019-01-09 2019-01-09 命名实体识别方法及装置 Active CN111428500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910018256.8A CN111428500B (zh) 2019-01-09 2019-01-09 命名实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910018256.8A CN111428500B (zh) 2019-01-09 2019-01-09 命名实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN111428500A CN111428500A (zh) 2020-07-17
CN111428500B true CN111428500B (zh) 2023-04-25

Family

ID=71546096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910018256.8A Active CN111428500B (zh) 2019-01-09 2019-01-09 命名实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN111428500B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201614958D0 (en) * 2016-09-02 2016-10-19 Digital Genius Ltd Message text labelling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Kitiya Suriyachay,and etc.Named Entity Recognition Modeling for the Thai Language from a Disjointedly Labeled Corpus.《2018 5th International Conference on Advanced Informatics: Concept Theory and Applications (ICAICTA)》.2018,第30-35页. *
杨培 ; 杨志豪 ; 罗凌 ; 林鸿飞 ; 王健 ; .基于注意机制的化学药物命名实体识别.计算机研究与发展.2018,(07),第230-236页. *

Also Published As

Publication number Publication date
CN111428500A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
JP2019526142A (ja) 検索語句の誤り訂正方法および装置
CN110765785B (zh) 基于神经网络的中英翻译方法、及其相关设备
CN108388561B (zh) 神经网络机器翻译方法和装置
CN112257437B (zh) 语音识别纠错方法、装置、电子设备和存储介质
WO2019167794A1 (ja) 学習品質推定装置、方法、及びプログラム
CN111160041B (zh) 语义理解方法、装置、电子设备和存储介质
CN111783478B (zh) 机器翻译质量估计方法、装置、设备及存储介质
CN112446221B (zh) 翻译评估方法、装置、***及计算机存储介质
CN111506709B (zh) 实体链接方法、装置、电子设备和存储介质
CN111160043B (zh) 特征编码方法、装置、电子设备及可读存储介质
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN111598087A (zh) 不规则文字的识别方法、装置、计算机设备及存储介质
CN115454445A (zh) 代码检查方法及装置、计算机可读存储介质、终端
CN109858031B (zh) 神经网络模型训练、上下文预测方法及装置
CN114639096A (zh) 文本识别方法、装置、电子设备和存储介质
CN112836513B (zh) 一种命名实体的链接方法、装置、设备及可读存储介质
CN111428500B (zh) 命名实体识别方法及装置
CN110413750B (zh) 根据用户问句召回标准问句的方法和装置
CN110728359B (zh) 搜索模型结构的方法、装置、设备和存储介质
CN110442843B (zh) 字符替换方法、***、计算机设备及计算机可读存储介质
CN113191163B (zh) 一种翻译方法、翻译装置、翻译设备以及存储介质
CN115545035A (zh) 一种文本实体识别模型及其构建方法、装置及应用
CN114117051A (zh) 词性标注模型的训练方法、词性标注方法及电子设备
CN114579606A (zh) 预训练模型数据处理方法、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant