CN111401064B - 一种命名实体识别方法、装置及终端设备 - Google Patents

一种命名实体识别方法、装置及终端设备 Download PDF

Info

Publication number
CN111401064B
CN111401064B CN201910000943.7A CN201910000943A CN111401064B CN 111401064 B CN111401064 B CN 111401064B CN 201910000943 A CN201910000943 A CN 201910000943A CN 111401064 B CN111401064 B CN 111401064B
Authority
CN
China
Prior art keywords
named entity
data
identified
character
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910000943.7A
Other languages
English (en)
Other versions
CN111401064A (zh
Inventor
王惠欣
胡珉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910000943.7A priority Critical patent/CN111401064B/zh
Publication of CN111401064A publication Critical patent/CN111401064A/zh
Application granted granted Critical
Publication of CN111401064B publication Critical patent/CN111401064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供一种命名实体识别方法、装置及终端设备,该命名实体识别方法包括:获取待识别数据;对所述待识别数据进行预处理,获得待识别数据的字符向量;将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示待识别数据的命名实体信息的识别结果;根据识别结果,确定所述待识别数据的命名实体;所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。本发明的实施例,可以解决现有基于字的命名实体识别模型存在的实体边界问题,从而提高模型性能,提高命名实体识别时的准确率。

Description

一种命名实体识别方法、装置及终端设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种命名实体识别方法、装置及终端设备。
背景技术
命名实体识别(Named Entity Recognition,NER)是指识别出文本或字符串中具有特定意义的实体,主要包括人名、地名、机构名和专有名词等。评判一个命名实体是否被正确识别主要包括两个方面,分别为:实体的边界是否正确,和实体的类型是否标注正确。
现有的命名实体识别方法主要包括:基于规则(rule-based)的方法,和基于统计(statistic-based)的方法。该基于统计的方法中,目前普遍使用的网络结构是BI-LSTM-CRF(Bi-directional Long Short-Term Memory-Conditional Random Field,双向长短期记忆神经网络和条件随机场),该BI-LSTM-CRF可以将BI-LSTM捕获长远的上下文信息、神经网络拟合非线性的能力和CRF灵活应用局部上下文特征的能力结合一起,将识别性能提升到最大。在网络结构BI-LSTM-CRF中,基于字的BI-LSTM-CRF模型的命名实体识别方法是常常用到的命名实体识别方法。
然而,现有基于字的命名实体识别模型比如BI-LSTM-CRF模型中,常常存在实体边界问题,造成命名实体识别时的准确率低。
发明内容
本发明实施例提供一种命名实体识别方法、装置及终端设备,以解决现有基于字的命名实体识别模型因存在实体边界问题,造成命名实体识别时的准确率低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种命名实体识别方法,包括:
获取待识别数据;
对所述待识别数据进行预处理,获得所述待识别数据的字符向量;
将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果;
根据所述识别结果,确定所述待识别数据的命名实体;
其中,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。
第二方面,本发明实施例提供了一种命名实体识别装置,包括:
第一获取模块,用于获取待识别数据;
第一预处理模块,用于对所述待识别数据进行预处理,获得所述待识别数据的字符向量;
识别模块,用于将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果;
确定模块,用于根据所述识别结果,确定所述待识别数据的命名实体;
其中,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。
第三方面,本发明实施例提供了一种终端设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时可实现上述命名实体识别方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时可实现上述命名实体识别方法的步骤。
本发明实施例中,获取待识别数据,对所述待识别数据进行预处理,获得所述待识别数据的字符向量,将所述字符向量输入至命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果,根据所述识别结果,确定所述待识别数据的命名实体,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练,由于模型参数的训练考虑到实体边界特征,因此可以解决现有基于字的命名实体识别模型存在的实体边界问题,从而提高模型性能,提高命名实体识别时的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的命名实体识别方法的流程图;
图2为本发明实施例的模型训练过程的流程示意图;
图3为本发明实施例的命名实体识别装置的结构示意图;
图4为本发明实施例的终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1是本发明实施例提供的一种命名实体识别方法的流程图,该方法应用于终端设备,如图1所示,该方法包括以下步骤:
步骤101:获取待识别数据。
其中,上述待识别数据(TestData)可选为中文文本语句。
步骤102:对待识别数据进行预处理,获得所述待识别数据的字符向量。
此步骤中,在对待识别数据进行预处理时,可首先将待识别数据转化为字符级数据,然后利用预设的字符编码文件将该字符级数据转化为字符向量,从而得到识别数据的字符向量。
需说明的是,该预设的字符编码文件与模型训练过程中所使用的字符编码文件是完全相同的。该字符向量的长度是预设长度,且与模型训练过程中训练数据的字符向量的长度一致,以保证模型识别效果。
步骤103:将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果。
其中,所述命名实体识别模型可选为基于字的BI-LSTM-CRF模型。所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,所述实体边界特征向量表示对应命名实体在上下文中的位置关系,可通过注意力机制构建,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。
可选的,在对同一命名实体的多个字符特征进行归一处理时,可采用加权平均的方法,即将同一命名实体的多个字符特征通过一个权重矩阵加权构成相应命名实体的特征,该权重矩阵作为模型参数可在模型训练中训练得到。
可以理解的,模型训练时,上述命名实体识别模型的训练特征向量除包括训练数据的实体边界特征向量外,还可以包括训练数据的字符向量和命名实体标签向量,从而使得训练得到的命名实体识别模型能够基于输入的待识别数据的字符向量,输出表示待识别数据的命名实体信息的识别结果。
步骤104:根据所述识别结果,确定所述待识别数据的命名实体。
通常,基于字的命名实体识别模型比如BI-LSTM-CRF模型输出的是,待识别数据的每个字符分类到相应命名实体标签的概率值;当该概率值大于预设值时,可确定相应字符分类到对应的命名实体标签。这样,获得命名实体识别模型输出的识别结果后,可以根据该识别结果,对待识别数据的字符级数据进行命名实体的标记,从而得到待识别数据的命名实体标签信息,并根据此命名实体标签信息,确定出待识别数据的命名实体。
本发明实施例的命名实体识别方法,通过获取待识别数据,对所述待识别数据进行预处理,获得所述待识别数据的字符向量,将所述字符向量输入至命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果,根据所述识别结果,确定所述待识别数据的命名实体,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练,由于模型参数的训练考虑到实体边界特征,因此可以解决现有基于字的命名实体识别模型存在的实体边界问题,从而提高模型性能,提高命名实体识别时的准确率。
本发明实施例中,可选的,参见图2所示,步骤101之前,所述方法还可包括如下步骤:
步骤201:获取训练数据。
其中,所述训练数据为字符级数据,所述训练数据中包括命名实体标签信息。具体实现时,训练数据可选为从训练语料TrainData中随机无放回抽取的BatchSize句数据。而训练语料TrainData的生成过程可为:首先将原始语料数据InitData转化为字符级数据MidData,然后利用现有的标注方法比如BIO方法对字符级数据MidData进行命名实体的标记(得到相应标签)来生成。当将原始语料数据InitData转化为字符级数据MidData时,为了有效区分,可将字符级数据MidData中对应于原始语料数据InitData一个句子的最后一个字符与下一个句子的起始字符之间用一行空行隔开。
进一步的,在生成训练语料TrainData后,可以基于此预设字符编码文件和标签编号,过程如下:
S1:将训练语料TrainData中的数据与标签进行分离,并对分离出的数据进行字符统计,得到无重复字符集合CharSet,同时对分离出的标签进行统计,得到无重复的标签集合LabSet;
S2:首先对无重复字符集合CharSet中的元素从1到n进行编号,然后以每行“字符编号”的形式构成字符编码文件CharFile;同时,对标签集合LabSet中的元素从1到m进行编号,得到标签编号;
其中,“字符编号”中的“字符”是集合CharSet中的任意元素,“字符”和“编号”中间使用tab空格隔开,“编号”对应于“字符”编号的数字,n为集合CharSet中元素的个数,m为标签集合LabSet中元素的个数。
当采用BIO标注时,标签集合可选为:(B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG,0)。其中,B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。
S3:在上述字符编码文件CharFile的末尾中增加两行“<ENG>n+1”和“<UNK>n+2”,并在起始位置增加一行“<PAD>0”,以增强得到的字符编码文件的有效性。
其中,<PAD>表示填充数据时处理成0,<ENG>表示所有的英文编号都处理成n+1,<UNK>表示字符编码文件CharFile中不包含的字符编号处理成n+2。可以理解的,此S3中构成的字符编码文件即是上述预设的字符编码文件。
步骤202:对训练数据进行预处理,获得训练数据的字符向量和命名实体标签向量。
具体的,此步骤中的预处理过程可为:利用S3中构成的字符编码文件将训练数据中的字符转化为长度为MaxLen的字符向量BatchData,和利用上述标签编号将训练数据中的标签转化为长度为MaxLen的标签向量BatchID(即命名实体标签向量)。
其中,该长度MaxLen即是上述字符向量的预设长度。可选的,该长度MaxLen可为训练语料TrainData中句子包含字符的最大个数。当转化字符向量BatchData和标签向量BatchID时,若转化长度小于MaxLen,则相应位置用0补齐。
步骤203:通过注意力机制,构建训练数据的实体边界特征向量,所述实体边界特征向量包括实体起始位置标记向量和实体长度标记向量。
具体的,上述实体边界特征向量的构建过程可选为:首先,记录训练数据中每句以‘B’开始的标签(采用的BIO标记方法)对应的字符在每句中的位置(即每一个命名实体的起始位置),构成实体起始位置标记序列,即为(Start11,Start12,…,Start1n1),(Start21,Start22,…,Start2n2),…,(Startk1,Startk2,…,Startknk);同时,记录训练数据中每句以‘I’结束的标签对应的字符在每句中的位置(即每一个命名实体的结束位置),并结合上述记录的每一个命名实体的起始位置,构成实体长度标记序列,即为(Length11,Length12,…,Length1n1),(Length21,Length22,…,Length2n2),…,(Lengthk1,Lengthk2,…,Lengthknk)。
其中,实体起始位置标记序列中,第一个下标表示训练数据(即BatchSize句数据)中第几句数据的标号,第二个下标表示当前语句中第几个实体的标号,k等于BatchSize的大小,n1、n2、…、nk分别表示BatchSize句数据中每句标记的实体个数。例如,Start22表示第二句数据中第二个实体的起始位置。而实体长度标记序列中,其两个下标标号与实体起始位置标记序列中两个下标标号代表相同含义,只是序列值表示实体长度。例如,Length22表示第二句数据中第二个实体的长度。
在构成实体起始位置标记序列和实体长度标记序列之后,可以通过位置编号1到MaxLen映射成相应的实体起始位置标记向量和实体长度标记向量,小于MaxLen长度的向量在该向量后面用0补齐至长度MaxLen。
比如,长度MaxLen为10,某句数据的字符个数为8,对应的实体起始位置标记序列为(2,5,7),实体长度标记序列为(3,2,1),则相应的实体起始位置标记向量可选为(0,1,0,0,1,0,1,0,0,0),即实体起始位置映射为1,其他位置为0;而相应的实体长度标记向量可选为(0,3,0,0,2,0,1,0,0,0),即实体起始位置映射为实体长度,其他位置为0,或者相应的实体长度标记向量可选为(0,0,0,3,0,2,1,0,0,0),即实体结束位置映射为实体长度,其他位置为0。
步骤204:将字符向量、命名实体标签向量、实体起始位置标记向量和实体长度标记向量拼接后输入至预先构建的模型中,训练所述预先构建的模型的参数,直至达到预设迭代次数或者模型损失值满足预设条件,得到上述命名实体识别模型。
其中,该预先构建的模型可选为基于BI-LSTM-CRF的深度学***均损失值,lj表示前一次训练数据训练产生的平均损失值,则上述模型损失值的预设条件可选为|li-lj|<θ;其中实际情况下,θ表示根据具体情况设置一个很小的值。
需说明的是,对于字符向量、命名实体标签向量、实体起始位置标记向量和实体长度标记向量的拼接,可以通过增加维度顺序拼接,也可以拼接为向量矩阵,每行表示一种特征向量形式。
具体训练过程中,比如BI-LSTM-CRF模型中使用BI-LSTM提取数据特征时,在LSTM网络的隐藏层状态中,会依据网络输入的实体起始位置标记向量和实体长度标记向量将同一个命名实体中的多个字符对应的隐藏层状态(即数据特征)通过一个权重矩阵加权构成一个新的隐藏层状态表示该命名实体对应的隐藏层状态,然后将其它字符产生的隐藏层状态与该实体产生的新的隐藏层状态组成一个新的隐藏层状态序列送入CRF中对数据进行标记;同一个命名实体中的多个字符对应的隐藏层状态加权中使用的权重矩阵作为模型参数可在模型训练中训练得到。
本发明实施例中,为了进一步增强命名实体识别的效果,可在上述模型识别的基础上,采用平行位置对称补齐的方法更新命名实体识别结果。具体的,上述步骤104可包括:
根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
当所述字符级数据中预设字符的平行位置上,一个位置存在命名实体标签信息,另一个位置不存在命名实体标签信息时,利用所述一个位置上存在的命名实体标签信息,对所述另一个位置进行标记,以更新所述待识别数据的命名实体标签信息;
根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。
其中,上述预设字符比如为“和”、“、”等连接平行位置字符或词语的连词,通常预设字符两端平行位置上的字符或词语的类别是相同的。
这样,在上述模型识别的基础上,结合平行位置对称补齐的方法,可以避免遗漏平行位置上未识别出的命名实体,进一步提高命名实体的识别准确率。
本发明实施例中,为了进一步增强命名实体识别的效果,可在上述模型识别的基础上,采用字补齐的方法更新命名实体识别结果。具体的,上述步骤104可包括:
根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
根据所述待识别数据的命名实体标签信息,确定所述待识别数据的每一个命名实体;
对所述待识别数据进行分词,获得分词结果;其中,此分词过程可采用现有任意分词工具实现;
利用所述分词结果,对所述每一个命名实体进行字补齐处理,以更新所述待识别数据的命名实体标签信息;
根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。
进一步的,上述利用分词结果,对每一个命名实体进行字补齐处理的过程可选为:
确定所述每一个命名实体对应的分词,并依次判断所述分词的词语词性;其中,在确定命名实体对应的分词时,可以基于命名实体的起始位置和对应分词的起始位置确定;
当所述分词的词语词性属于预设词性中的任意一种时,比较所述分词和所述分词对应的命名实体的字符长度;
当所述分词的字符长度和所述命名实体的字符长度不相同时,利用所述分词的字符更新所述命名实体的字符;
其中,当所述分词的词语词性不属于预设词性中的任意一种,或者所述分词的字符长度和所述命名实体的字符长度相同时,保持所述命名实体的字符不变,即不对所述命名实体进行字补齐处理。
需说明的是,在实际情况中,上述预设词性可选为{n,nr,ns,nt,nz},而n、nr、ns、nt和nz的具体含义表示可如下表1所示的词性类别对照表:
表1
词性 含义
n 名词
nr 人名
ns 地名
nt 机构名
nz 其他专名
上述更新命名实体的字符的方式可为:当分词WordStr的字符长度小于相应命名实体CharStr的字符长度时,可将CharStr中多余的字符删除;而当WordStr的字符长度大于CharStr的字符长度时,可将WordStr中多余的字符追加到CharStr中,以通过更新命名实体的字符,相应更新命名实体标签信息。
这样,在上述模型识别的基础上,结合字补齐的方法,可以优化确定实体边界,进一步提高命名实体的识别准确率。
需指出的是,在上述模型识别的基础上,除了可以单独采用平行位置对称补齐的方法,或者字补齐的方法更新命名实体识别结果之外,还可以同时采用平行位置对称补齐的方法和字补齐的方法更新命名实体识别结果。比如,在上述模型识别的基础上,可以先采用平行位置对称补齐的方法之后,再采用字补齐的方法更新命名实体识别结果,或者先采用字补齐的方法之后,再采用平行位置对称补齐的方法更新命名实体识别结果。
上述实施例对本发明的命名实体识别方法进行了说明,下面将结合实施例和附图对本发明的命名实体识别装置进行说明。
请参见图3,图3是本发明实施例提供的一种命名实体识别装置的结构示意图,该装置应用于终端设备,如图3所示,该装置包括:
第一获取模块31,用于获取待识别数据;
第一预处理模块32,用于对所述待识别数据进行预处理,获得所述待识别数据的字符向量;
识别模块33,用于将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果;
确定模块34,用于根据所述识别结果,确定所述待识别数据的命名实体;
其中,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。
本发明实施例的命名实体识别装置,通过获取待识别数据,对所述待识别数据进行预处理,获得所述待识别数据的字符向量,将所述字符向量输入至命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果,根据所述识别结果,确定所述待识别数据的命名实体,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练,由于模型参数的训练考虑到实体边界特征,因此可以解决现有基于字的命名实体识别模型存在的实体边界问题,从而提高模型性能,提高命名实体识别时的准确率。
本发明实施例中,可选的,该装置还可包括:
第二获取模块,用于获取训练数据,其中,所述训练数据为字符级数据,所述训练数据中包括命名实体标签信息;
第二预处理模块,用于对所述训练数据进行预处理,获得所述训练数据的字符向量和命名实体标签向量;
构建模块,用于通过注意力机制,构建所述训练数据的实体边界特征向量,所述实体边界特征向量包括实体起始位置标记向量和实体长度标记向量;
训练模块,用于将所述字符向量、所述命名实体标签向量、所述实体起始位置标记向量和所述实体长度标记向量拼接后输入至预先构建的模型中,训练所述预先构建的模型的参数,直至达到预设迭代次数或者模型损失值满足预设条件,得到所述命名实体识别模型。
可选的,所述预先构建的模型为基于BI-LSTM-CRF的深度学习模型。
可选的,所述确定模块34包括:
第一标记单元,用于根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
第二标记单元,用于当所述字符级数据中预设字符的平行位置上,一个位置存在命名实体标签信息,另一个位置不存在命名实体标签信息时,利用所述一个位置上存在的命名实体标签信息,对所述另一个位置进行标记,以更新所述待识别数据的命名实体标签信息;
第一确定单元,用于根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。
可选的,所述确定模块34包括:
第三标记单元,用于根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
第二确定单元,用于根据所述待识别数据的命名实体标签信息,确定所述待识别数据的每一个命名实体;
分词单元,用于对所述待识别数据进行分词,获得分词结果;
处理单元,用于利用所述分词结果,对所述每一个命名实体进行字补齐处理,以更新所述待识别数据的命名实体标签信息;
第三确定单元,用于根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。
可选的,所述处理单元包括:
判断子单元,用于确定所述每一个命名实体对应的分词,并依次判断所述分词的词语词性;
比较子单元,用于当所述分词的词语词性属于预设词性中的任意一种时,比较所述分词和所述分词对应的命名实体的字符长度;
更新子单元,用于当所述分词的字符长度和所述命名实体的字符长度不相同时,利用所述分词的字符更新所述命名实体的字符;
其中,当所述分词的词语词性不属于预设词性中的任意一种,或所述分词的字符长度和所述命名实体的字符长度相同时,保持所述命名实体的字符不变。
此外,本发明实施例还提供了一种终端设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时可实现上述命名实体识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图4所示,本发明实施例还提供了一种终端设备,包括总线41、收发机42、天线43、总线接口44、处理器45和存储器46。
在本发明实施例中,所述终端设备还包括:存储在存储器46上并可在处理器45上运行的计算机程序。其中,所述计算机程序被处理器45执行时可实现上述命名实体识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
在图4中,总线架构(用总线41来代表),总线41可以包括任意数量的互联的总线和桥,总线41将包括由处理器45代表的一个或多个处理器和存储器46代表的存储器的各种电路链接在一起。总线41还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口44在总线41和收发机42之间提供接口。收发机42可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器45处理的数据通过天线43在无线介质上进行传输,进一步,天线43还接收数据并将数据传送给处理器45。
处理器45负责管理总线41和通常的处理,还可以提供各种功能,包括定时,***接口,电压调节、电源管理以及其他控制功能。而存储器46可以被用于存储处理器45在执行操作时所使用的数据。
可选的,处理器45可以是CPU、ASIC、FPGA或CPLD。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述命名实体识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种命名实体识别方法,其特征在于,包括:
获取待识别数据;
对所述待识别数据进行预处理,获得所述待识别数据的字符向量;
将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果;
根据所述识别结果,确定所述待识别数据的命名实体;
其中,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练;
其中,所述根据所述识别结果,确定所述待识别数据的命名实体,包括:
根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
当所述字符级数据中预设字符的平行位置上,一个位置存在命名实体标签信息,另一个位置不存在命名实体标签信息时,利用所述一个位置上存在的命名实体标签信息,对所述另一个位置进行标记,以更新所述待识别数据的命名实体标签信息;
根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别数据之前,所述方法还包括:
获取训练数据,其中,所述训练数据为字符级数据,所述训练数据中包括命名实体标签信息;
对所述训练数据进行预处理,获得所述训练数据的字符向量和命名实体标签向量;
通过注意力机制,构建所述训练数据的实体边界特征向量,所述实体边界特征向量包括实体起始位置标记向量和实体长度标记向量;
将所述字符向量、所述命名实体标签向量、所述实体起始位置标记向量和所述实体长度标记向量拼接后输入至预先构建的模型中,训练所述预先构建的模型的参数,直至达到预设迭代次数或者模型损失值满足预设条件,得到所述命名实体识别模型。
3.根据权利要求2所述的方法,其特征在于,所述预先构建的模型为基于BI-LSTM-CRF的深度学习模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果,确定所述待识别数据的命名实体,还包括:
根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
根据所述待识别数据的命名实体标签信息,确定所述待识别数据的每一个命名实体;
对所述待识别数据进行分词,获得分词结果;
利用所述分词结果,对所述每一个命名实体进行字补齐处理,以更新所述待识别数据的命名实体标签信息;
根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。
5.根据权利要求4所述的方法,其特征在于,所述利用所述分词结果,对所述每一个命名实体进行字补齐处理,包括:
确定所述每一个命名实体对应的分词,并依次判断所述分词的词语词性;
当所述分词的词语词性属于预设词性中的任意一种时,比较所述分词和所述分词对应的命名实体的字符长度;
当所述分词的字符长度和所述命名实体的字符长度不相同时,利用所述分词的字符更新所述命名实体的字符;
其中,当所述分词的词语词性不属于预设词性中的任意一种,或所述分词的字符长度和所述命名实体的字符长度相同时,保持所述命名实体的字符不变。
6.一种命名实体识别装置,其特征在于,包括:
第一获取模块,用于获取待识别数据;
第一预处理模块,用于对所述待识别数据进行预处理,获得所述待识别数据的字符向量;
识别模块,用于将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果;
确定模块,用于根据所述识别结果,确定所述待识别数据的命名实体;
其中,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练;
其中,所述确定模块包括:
第一标记单元,用于根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
第二标记单元,用于当所述字符级数据中预设字符的平行位置上,一个位置存在命名实体标签信息,另一个位置不存在命名实体标签信息时,利用所述一个位置上存在的命名实体标签信息,对所述另一个位置进行标记,以更新所述待识别数据的命名实体标签信息;
第一确定单元,用于根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。
7.根据权利要求6所述的装置,其特征在于,所述确定模块包括:
第三标记单元,用于根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
第二确定单元,用于根据所述待识别数据的命名实体标签信息,确定所述待识别数据的每一个命名实体;
分词单元,用于对所述待识别数据进行分词,获得分词结果;
处理单元,用于利用所述分词结果,对所述每一个命名实体进行字补齐处理,以更新所述待识别数据的命名实体标签信息;
第三确定单元,用于根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。
8.一种终端设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的命名实体识别方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的命名实体识别方法的步骤。
CN201910000943.7A 2019-01-02 2019-01-02 一种命名实体识别方法、装置及终端设备 Active CN111401064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910000943.7A CN111401064B (zh) 2019-01-02 2019-01-02 一种命名实体识别方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910000943.7A CN111401064B (zh) 2019-01-02 2019-01-02 一种命名实体识别方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN111401064A CN111401064A (zh) 2020-07-10
CN111401064B true CN111401064B (zh) 2024-04-19

Family

ID=71433931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910000943.7A Active CN111401064B (zh) 2019-01-02 2019-01-02 一种命名实体识别方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN111401064B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738007B (zh) * 2020-07-03 2021-04-13 北京邮电大学 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112215005A (zh) * 2020-10-12 2021-01-12 小红书科技有限公司 实体识别方法及装置
CN112257417A (zh) * 2020-10-29 2021-01-22 重庆紫光华山智安科技有限公司 一种多任务命名实体识别训练方法、介质及终端
CN112528659B (zh) * 2020-11-30 2024-06-18 京东方科技集团股份有限公司 实体识别方法、实体识别装置、电子设备和存储介质
CN112765984A (zh) * 2020-12-31 2021-05-07 平安资产管理有限责任公司 命名实体识别方法、装置、计算机设备和存储介质
CN113420561B (zh) * 2021-07-14 2022-12-13 上海浦东发展银行股份有限公司 一种命名实体识别方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874483A (zh) * 2017-02-20 2017-06-20 山东鲁能软件技术有限公司 一种基于大数据技术的图形化的数据质量评测的装置及方法
CN106980609A (zh) * 2017-03-21 2017-07-25 大连理工大学 一种基于词向量表示的条件随机场的命名实体识别方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108255816A (zh) * 2018-03-12 2018-07-06 北京神州泰岳软件股份有限公司 一种命名实体识别方法、装置及***
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108829678A (zh) * 2018-06-20 2018-11-16 广东外语外贸大学 一种汉语国际教育领域命名实体识别方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874483A (zh) * 2017-02-20 2017-06-20 山东鲁能软件技术有限公司 一种基于大数据技术的图形化的数据质量评测的装置及方法
CN106980609A (zh) * 2017-03-21 2017-07-25 大连理工大学 一种基于词向量表示的条件随机场的命名实体识别方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108255816A (zh) * 2018-03-12 2018-07-06 北京神州泰岳软件股份有限公司 一种命名实体识别方法、装置及***
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN108829678A (zh) * 2018-06-20 2018-11-16 广东外语外贸大学 一种汉语国际教育领域命名实体识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
许佳捷 ; 郑凯 ; 池明旻 ; 朱扬勇 ; 禹晓辉 ; 周晓方 ; .轨迹大数据:数据、应用与技术现状.通信学报.2015,(12),全文. *
轨迹大数据:数据、应用与技术现状;许佳捷;郑凯;池明旻;朱扬勇;禹晓辉;周晓方;;通信学报(第12期);全文 *
面向商务信息抽取的产品命名实体识别研究;刘非凡;赵军;吕碧波;徐波;于浩;夏迎炬;;中文信息学报(01);全文 *

Also Published As

Publication number Publication date
CN111401064A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111401064B (zh) 一种命名实体识别方法、装置及终端设备
CN111309915B (zh) 联合学习的自然语言训练方法、***、设备及存储介质
CN109885824B (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN105068998A (zh) 基于神经网络模型的翻译方法及装置
CN111460149B (zh) 文本分类方法、相关设备及可读存储介质
WO2006030302A1 (en) Optimization of text-based training set selection for language processing modules
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
US20210042391A1 (en) Generating summary content using supervised sentential extractive summarization
CN111859919A (zh) 文本纠错模型训练方法、装置、电子设备及存储介质
CN116416480B (zh) 一种基于多模板提示学习的视觉分类方法和装置
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN112487813B (zh) 命名实体识别方法及***、电子设备及存储介质
CN111090970B (zh) 语音识别后的文本标准化处理方法
CN110210035B (zh) 序列标注方法、装置及序列标注模型的训练方法
US7831549B2 (en) Optimization of text-based training set selection for language processing modules
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113420121B (zh) 文本处理模型训练方法、语音文本处理方法及装置
CN109446508B (zh) 一种文本规整方法、装置、设备及可读存储介质
CN114638227A (zh) 一种命名实体识别方法、装置及存储介质
US20240037337A1 (en) Method of training pos tagging model, computer-readable recording medium and pos tagging method
CN114492457B (zh) 语义识别方法、装置、电子设备及存储介质
Li et al. Information Extraction with Negative Examples for Author Biographies in Scientific Literatures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant