CN109800437A - 一种基于特征融合的命名实体识别方法 - Google Patents

一种基于特征融合的命名实体识别方法 Download PDF

Info

Publication number
CN109800437A
CN109800437A CN201910099671.0A CN201910099671A CN109800437A CN 109800437 A CN109800437 A CN 109800437A CN 201910099671 A CN201910099671 A CN 201910099671A CN 109800437 A CN109800437 A CN 109800437A
Authority
CN
China
Prior art keywords
word
feature
concept
character
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910099671.0A
Other languages
English (en)
Other versions
CN109800437B (zh
Inventor
赵青
王丹
杜金莲
付利华
苏航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910099671.0A priority Critical patent/CN109800437B/zh
Publication of CN109800437A publication Critical patent/CN109800437A/zh
Application granted granted Critical
Publication of CN109800437B publication Critical patent/CN109800437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一种基于特征融合的命名实体识别方法属于计算机领域,通过两个方面来提取和融合不同粒度的文本特征,概念特征和非概念词特征,从而来提高命名实体识别的准确率并降低计算量。方法包括:数据预处理模块、特征构建模块、训练命名实体网络模型模块和命名实体分类器模块,其中特征模块包括语义特征提取、词特征提取、字符特征提取、特征融合四个子模块。在本方法中结合神经网络模型LSTM(Long Short‑Term Memory)或GRU(Gated Recurrent Unit)的时序记忆特点来考虑命名实体任务的上下文信息,最后使用softmax预测实体类别标签。在模型构建过程中,可以利用稀疏数据作为训练集并对LSTM和GRU两种神经网络模型进行对比,确保本发明在实体识别任务上能取得令人满意的效果。

Description

一种基于特征融合的命名实体识别方法
技术领域
本发明属于计算机领域,涉及一种基于特征融合的命名实体识别方法。
背景技术
近年来,随着人工智能技术在自然语言处理(Natural Language Processing,NLP)领域的广泛应用,人们对领域知识的探索也越来越多。命名实体识别是构成领域知识的基础,也是至关重要的一个步骤,例如:知识图谱构建、文本检索、文本分类和信息抽取等领域中都需要进行命名实体识别。
命名实体识别(Named Entity Recognition,NER)可以看作是一个序列标注任务,通过提取出来的信息来查找实体并将其分为一组固定的类别。传统NER问题的两种主要方法是基于规则的学习方法和有监督的学习方法,其中有监督的学习方法占主导地位。基于规则学习的方法和有监督的学习方法都是假设可用的训练数据已全部标记(即,所有包含在文档中的实体都被标记)的前提下,在从文档中找到候选实体的标签序列。然而,在如今的大数据时代将充分标注的数据作为训练集是非常耗时耗力的,并且由于大多数领域术语的特殊性,如今的命名实体识别任务还存在以下挑战:(1)现实生活中大部分是半结构或非结构化的,并且很多信息是叙述性的,无结构信息,不适用于知识的发现和抽取;(2)领域实体本身结构复杂并且相同概念具有多种表达方法,例如在医疗领域:慢性阻塞性肺疾病可以缩写为COPD;(3)命名实体通常是由多个词组成,仅考虑词特征会使语义信息割裂。基于以上问题,传统的命名实体识别方法已经很难适用于如今的应用场景。
目前,随着深度学习在各个领域中都优异的表现,在命名实体识别任务中的应用也越来越多,相比较传统方法,深度学习的方法效果更好。但是深度学习结合的NER方法大多都是基于英文的,或者基于词向量和字符向量的,而没有考虑到概念特征。
2016年,发表在ACL,由Guillaume Lample等人所著论文“Neural Architecturesfor Named Entity Recognition”,提出了一种基于循环神经网络(Recurrent NeuralNetwork,RNN)和条件随机场(Conditional Random Fields,CRF)结合的命名实体识别方法,用来识别英文人名、地名等,该方法通过RNN来提取词特征和字符特征,最后通过CRF对实体进行分类。
2017年,发表在计算机研究与发展,由杨培等人所著论文“基于注意机制的化学药物命名实体识别”,提出了一种基于字词特征并结合注意力机制的实体识别方法,该方法通过神经网络LSTM(Long Short-Term Memory)来训练实体识别分类器,并采用CRF产生最后的实体标签分类结果。
以上的方法虽然都可以完成命名实体识别任务,但是现有命名实体识别方法都是假设没有领域知识,特征只通过训练集来学习,然而现实生活中,大多数领域都是具有部分领域知识的,虽然还不完善,但是这些领域知识可以帮助我们在稀疏数据中更好的识别命名实体,同时也可以在一定程度上减少由表达不一致带来的巨大计算量。
发明内容
本发明的内容:
一种基于特征融合的命名实体识别方法,该方法包括:
①提出了一种基于特征融合的命名实体识别方法,该方法不仅可以根据领域本体中所包含的概念在稀疏标记的预料库中达到预测新词的效果,也可以对表达不一致但具有相同概念的实体采取统一的表达方式,不仅能够提高准确率也可以降低计算成本。
②首先对预处理后的数据采用CBOW模型提取语义特征,语义特征包含概念特征和非概念词特征,对于概念特征提取概念、词和字符特征,对于非概念词特征就直接提取词特征和字符特征。
③其次将提取出来的新的特征集进行特征融合,特征融合也包括两个部分,基于概念的特征融合和基于非概念词的特征融合。并通过计算概念相似度来降低概念特征的维度。
④采用神经网络LSTM或GRU(Gated Recurrent Unit)模型时序记忆的特点来提取命名实体相关的上下文信息,并将新的特征集作为训练模型的输入。
本发明的原理是一种基于特征融合的命名实体识别方法,不仅采用了传统的词向量特征和字符向量特征,也考虑了词所包含的概念特征和字符位置特征,通过概念特征不仅可以降低词向量维度,也可以根据本体中所包含的概念在稀疏标记的语料库中,一定程度上达到预测新词的效果,最后通过神经网络LSTM或GRU来关注上下文信息,从而能很好的提高命名实体识别的准确率。
为达到以上发明目的,本发明采用如下的技术方案:
一种基于特征融合的命名实体识别方法,包括:数据预处理模块、特征构建模块、训练命名实体网络模型模块、命名实体分类器模块。其中,特征构建模块主要针对不同粒度的文本特征进行提取和融合,具体包含四个子模块分别是语义特征提取模块、词特征提取模块、字符特征提取模块、特征融合模块。
语义特征提取模块,语义特征包含两个部分,概念特征和非概念词特征,概念是指由多个包含语义的单独词汇组成的一个特殊的领域术语,例如,慢性阻塞性肺疾病;非概念词就是指一个单独的语义词汇,例如,困难。对于能够从领域本体里映射出概念的提取概念特征,不能提取概念的直接提取词特征,最后通过CBOW模型提取语义特征。
词特征提取模块,由于概念是由多个词组成的,例如:慢性肺源性心脏病,因此概念的含义是由其包含的词决定的。为了保持语义信息的完整性,本方法分为两个方面考虑,基于概念提取词特征和基于非概念词提取词特征,其中非概念词特征的提取方法和语义特征提取方法一样采用CBOW模型。
字符特征提取模块,字符是中文最小的语义单位,也包含一定的语义信息,词的意思是由其包含的字符决定的,并且,基于字符本身的语义信息还可以在一定程度上达到预测新词的效果,有助于实体类别的推断,例如:疼痛,疼的向量+痛的向量接近于痛苦一词的向量。同时,字符的位置信息也是非常关键的,相同字符不同位置可能使两个词的意思完全不同,因此为了提高实体识别的准确率,本方法不仅考虑字符特征也考虑字符位置特征。
特征融合模块,首先,将提取出来的概念特征、词特征和字符特征融合为一个新的特征集。其次,提出了一种新的融合方法,该方法主要考虑两种情况,对于能够在领域本体中提取出概念的词就融合概念、词和字符特征,对于不能从本体中提取出概念的词就直接提取词特征并与字符特征相融合。最后,通过领域本体对提取出的概念特征进行特征降维,从而能够在提高命名实体识别准确率的基础上降低计算量,并将融合后的特征作为模型的输入进行训练。
本发明提取了不同粒度的文本特征并提出一个新的特征融合方法,不仅能够充分的学习到文本中包含的语义信息,也可以解决领域术语的模糊性和由表达不一致性带来的巨大计算量。
附图说明
图1基于特征融合的命名实体识别方法整体架构图;
图2基于特征融合的命名实体识别方法流程图;
具体实施方式
下面将详细描述本发明各个方面的特征和示例性实施例
本发明提取不同粒度的特征提取和特征融合的方法来识别命名实体,希望提高命名实体识别的准确率并降低计算量。整体架构如图1所示,分为数据预处理模块(1)、特征构建模块(2)、训练命名实体网络模型模块(3)和命名实体分类器模块(4)。具体方法流程图如图2所示。
数据预处理模块(1):首先,在已标注的训练集中加入未标注的数据形成稀疏标记的语料库,并载入领域本体;其次,将所有稀疏标记的语料库根据特殊符号进行切分成较短的汉子字符串(包括标点符号、数字和空格符)并去除停用词。
特征构建模块(2):该模块主要是从文本中提取不同粒度的特征并将提取出来的特征进行融合。更具体的可以分为语义特征提取、词特征提取、字符特征提取和特征融合。
语义特征提取模块(21):将切分好的字符串L=(L1…Ln)映射到本体O,采用最大匹配法找出字符串中包含的最大初始匹配语义的长度Lmax(如果最大初始匹配语义长度Lmax等于字符串长度Llen,那么Llen为一个语义)。然后从L中提取Lmax,并将Lmax的两边分为新的带切分字符串,将全部切分好的字符串定义为一个语义集{Y1,...YN)∈D,其中包含概念集和非概念词集{G1,...GN}∪{F1,...FN}∈Y。然后通过CBOW模型提取语义特征,CBOW的训练目标是将如下平均对数概率的最大化,具体公式如下:
其中,K为数据集D中目标词的上下文信息,Yi为数据集D中的语义。
在CBOW中,概率Pr(Yi|Yi-K,...,Yi+K)是由如下公式算出的:
其中,y0和yi为目标语义Yi输入和输出的向量表示,并且y0为所有上下文的平均向量表示,W为语义词典。
词特征提取模块(22):词特征分为两种情况考虑,基于概念的词特征提取和基于非概念词的特征提取。
基于概念词的特征提取:由于概念通常是由多个词组成的G={C1,...CN},概念的含义是由其所包含的词决定的,因此本方法将在概念特征的基础上提取词特征。具体公式如下
其中,gi为概念Gi的概念向量,cj为gn中第j个词向量,gn为概念Gi所包含的词的个数,Qi由概念向量和其平均词向量相加得出,+为向量相加运算,根据以往实验经验所得相加的计算方法相比结合方法在不损失精度的情况下更加运算简单,快速,因此在以下方法中都采用向量相加的方式来计算。
基于非概念词的特征特征提取将采用语义特征提取模块(21)中的CBOW模型。
字符特征提取模块(23):字符特征同样分为两种情况考虑,基于概念词的字符特征提和基于非概念词的字符特征提取。
基于概念词的字符特征提取:在已提取的概念和词特征Pi的基础上提取字符特征,具体公式如下:
其中,zk为cn中第k个字符向量,cn为概念词Ci所包含的字符个数,+为向量相加运算,Qi由概念向量、其平均词向量和其平均字符向量相加得出。基于非概念词特征提取字符特征公式如下:
其中,wi为非概念词Fi的词向量表示,fn为非概念词Fi所包含的字符个数,dm为fn中第m个字符向量,+为向量相加运算,由非概念词向量和其平均字符向量相加得出。
由于中文中词的含义通常取决于字符所在的位置,字符所在位置不同表达的含义也不一样,因此提取字符的位置特征可以更准确的推断词语的语义信息。对于每一个字符我们用B(开始)、I(中间)、E(结束)来表示,公式可以表达为:
对于非概念特征词提取其字符的位置特征也采用同样的表达方式。
特征融合(24):基于特征提取工作,特征融合部分也同样分为两种情况考虑,基于概念的特征融合方法和基于非概念词的特征融合方法。本方法将提取出的新的特征集通过向量相加运算进行融合,主要考虑的是在基于部分领域本体的命名实体识别任务中概念特征和字词特征一样是非常重要的,它可以在稀疏标记的语料库中直接提取部分为标注的命名实体,从而减少计算量。
基于概念的特征融合方法:我们将提取的概念特征、词特征、字符特征以及字符位置特征进行融合,公式如下:
基于非概念词的特征融合方法:我们将提取的词特征、字符特征以及字符位置特征进行融合,公式如下:
其中,fn为词Fi所包含的字符个数,为词Fi中的第一个字符,为词Fi的中间字符特征,词Fi中的最后一个字符特征。
针对中文的领域术语通常具有表达不一致性的特点,尤其是在医疗领域,同一概念的医疗术语会有多种表达方法,例如:慢性阻塞性肺疾病也可以表达为COPD。随着数据的增多会带来巨大的计算量,基于此问题,因此我们采用基于本体计算概念特征相似度的方法来降低概念向量的维度,公式如下:
其中,oi为本体中的一个概念特征,gi和gm为数据集D中识别出的概念特征,R()为gi和gm的关系,maxsimilarity()为余弦相似度,α为相似度阈值,根据以往的实验,相似度阈值设的过小容易错判,过大容易漏判,因此通常相似度阈值是在0.87-0.93之间,推荐的初始阈值设为0.9,采用梯度下降的方法来计算误差,就是使误差函数平滑连续的计算梯度下降的斜率,越接近最小值梯度越小,可以通过调节步长来降低超调风险,在实验过程中可以将步长设为0.01,阈值范围设在0.87和0.93之间进行调整直到梯度的斜率达到最小值就是相似度的最优阈值。
更具体的来说,就是将概念特征映射到领域本体O,如果有两个概念gi和gm接近于本体概念oi,就通过余弦相似度来计算gi和gm到本体概念oi的相似度距离,如果小于相似度阈值α,那么gi和gm分别为本体中的一个独立概念,如果大于相似度阈值α,那么就可以认为gi和gm为同一个概念,并可以将gi替换为gm或将gm替换为gi。从而降低概念特征的维度,减少计算量。
训练命名实体网络模型模块(3):将融合后的特征作为模型的输入进行训练,由于命名实体识别也称为序列标注任务,因此上下文信息非常重要,训练模型将采用具有时序记忆功能的神经网络LSTM或GRU模型。LSTM的具体公式如下:
it=σ(Wixt+Uiht-1+bi)
ft=σ(Wfxt+Ufht-1+bf)
ot=σ(Woxt+Uoht-1+bo)
其中it、ft、ot代表时间节点t的输入、遗忘、输出门,σ代表非线性函数,每一个控制门的参数都由两个矩阵和一个偏差向量组成,因此,三个控制门的矩阵参数为Wi,Ui,Wf,Uf,Wo,Uo,偏差参数为bi,bf,bo。LSTM的记忆单元参数分别为Wc,Uc和bc。这些参数在训练和储存时的每一步都进行更新。
命名实体分类器模块(4):根据神经网络LSTM或GRU模型softmax分类器来产生最后的实体标签分类结果。

Claims (2)

1.一种基于特征融合的命名实体识别方法,其特征包括以下四个模块:数据预处理模块(1)、特征构建模块(2)、训练命名实体网络模型模块(3)、命名实体分类器模块(4);
(1)数据预处理模块
在已标注的训练集中加入未标注的数据形成稀疏标记的语料库,并载入领域本体;根据标点符号、数字和空格符将待处理的文本切分成汉字字符串,并去除停用词;
(2)特征构建模块
该模块分为特征提取和特征融合,具体分为四个子模块:语义特征提取、词特征提取、字符特征提取和特征融合;
(3)训练命名实体网络模型模块
将融合后的特征作为模型的输入进行训练,由于命名实体识别也称为序列标注任务,需要提取上下文信息辅助推断实体类别,因此训练模型将采用具有时序记忆功能的神经网络模型LSTM或GRU;
(4)命名实体分类器模块
根据神经网络LSTM或GRU模型的softmax分类器来产生最后的实体标签分类结果。
2.根据权利要求1所述的一种基于特征融合的命名实体识别方法,其特征在于步骤(2),具体如下:
语义特征提取(21):语义特征包含两个部分:概念特征和非概念词特征;其中,概念是指由多个包含语义的单独词汇组成的一个特殊的领域术语;非概念词就是指一个单独的语义词汇;对于能够从领域本体里映射出概念的提取概念特征,不能提取概念的直接提取词特征;
首先将预处理后的语料映射到领域本体,通过最大匹配法将数据切分为语义集{Y1,...YN}∈D,其中包含概念集和非概念词集{G1,...GN}∪{F1,...FN}∈Y;其次采用CBOW模型来提取语义特征,CBOW的训练目标是将如下平均对数概率的最大化,公式为:
其中,K为数据集D中目标词的上下文信息,Yi为数据集D中的语义;
在CBOW中,概率Pr(Yi|Yi-K,...,Yi+K)是由如下公式算出的:
其中,y0和yi为目标语义Yi输入和输出的向量表示,并且y0为所有上下文的平均向量表示,T是转秩,W为语义词典;
词特征提取(22):词特征提取分为两种情况,基于概念的词特征提取和基于非概念的词特征提取;
基于概念的词特征提取是在概念特征的基础上提取词特征,由于一个概念是由多个词组成的G={C1,...CN},因此概念的含义是由所包含的词决定的;基于概念的词特征提取的公式表示为:
其中,gi为概念Gi的概念向量,cj为gn中第j个词向量,gn为概念Gi所包含的词的个数,Qi由概念向量和其平均词向量相加得出,+为向量相加运算;
非概念的词特征提取方法将采用语义特征提取模块(21)的CBOW模型来直接提取词特征;
字符特征提取(23):在概念词的基础上和在非概念词的基础上提取字符特征;基于概念中的词提取字符特征公式如下:
其中,zk为c n中第k个字符向量,c n为概念词Ci所包含的字符个数,+为向量相加运算,Qi由概念向量、其平均词向量和其平均字符向量相加得出;基于非概念词特征提取字符特征公式如下:
其中,w i为非概念词Fi的词向量表示,fn为非概念词Fi所包含的字符个数,dm为fn中第m个字符向量,+为向量相加运算,由非概念词向量和其平均字符向量相加得出;
在中文中,字符所在位置不同表达的含义也不一样,因此提取字符的位置特征也辅助推断词语的语义信息;对于每一个字符我们用B(开始)、I(中间)、E(结束)来表示,公式表达为:
其中,cn为词Ci所包含的字符个数,为词Ci中的第一个字符特征,为词Ci的中间字符特征,为词Ci中的最后一个字符特征;
对于非概念特征词提取其字符的位置特征也采用同样的表达方式;
特征融合(24):根据上述内容,特征融合同样分为两种情况,概念特征融合和非概念词特征融合;主要考虑的是在基于部分领域本体的命名实体识别任务中概念特征和字词特征一样,它在稀疏标记的语料库中直接提取部分未标注的命名实体,从而减少计算量;
概念特征融合:将提取出的概念特征、词特征和字符特以及字符的位置特征进行融合,概念特征融合的公式表达为:
非概念词特征融合:将提取出的词特征、字符特征和字符的位置特征相融合,非概念词特征融合的公式表达为:
其中,fn为词Fi所包含的字符个数,为词Fi中的第一个字符,为词Fi的中间字符特征,词Fi中的最后一个字符特征;
采用计算本体概念特征相似度的方法来降低概念向量的维度,公式如下:
其中,oi为本体中的一个概念特征,gi和gm为数据集D中识别出的概念特征,R()为gi和gm的关系,maxsimilarity()为余弦相似度,α为相似度阈值,初始阈值设为0.9,采用梯度下降的方法来计算误差,就是使误差函数平滑连续的计算梯度下降的斜率,越接近最小值梯度越小,直到梯度的斜率达到最小值就是相似度的最优阈值。
CN201910099671.0A 2019-01-31 2019-01-31 一种基于特征融合的命名实体识别方法 Active CN109800437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910099671.0A CN109800437B (zh) 2019-01-31 2019-01-31 一种基于特征融合的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910099671.0A CN109800437B (zh) 2019-01-31 2019-01-31 一种基于特征融合的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN109800437A true CN109800437A (zh) 2019-05-24
CN109800437B CN109800437B (zh) 2023-11-14

Family

ID=66560740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910099671.0A Active CN109800437B (zh) 2019-01-31 2019-01-31 一种基于特征融合的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN109800437B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
CN110852359A (zh) * 2019-07-24 2020-02-28 上海交通大学 基于深度学习的家谱识别方法及***
CN110866399A (zh) * 2019-10-24 2020-03-06 同济大学 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN111489746A (zh) * 2020-03-05 2020-08-04 国网浙江省电力有限公司 一种基于bert的电网调度语音识别语言模型构建方法
CN111539209A (zh) * 2020-04-15 2020-08-14 北京百度网讯科技有限公司 用于实体分类的方法和装置
CN111832307A (zh) * 2020-07-09 2020-10-27 北京工业大学 一种基于知识增强的实体关系抽取方法及***
CN112015901A (zh) * 2020-09-08 2020-12-01 迪爱斯信息技术股份有限公司 文本分类方法及装置、警情分析***
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及***
CN112257417A (zh) * 2020-10-29 2021-01-22 重庆紫光华山智安科技有限公司 一种多任务命名实体识别训练方法、介质及终端
CN112329465A (zh) * 2019-07-18 2021-02-05 株式会社理光 一种命名实体识别方法、装置及计算机可读存储介质
CN112331332A (zh) * 2020-10-14 2021-02-05 北京工业大学 一种基于多粒度特征融合的疾病预测方法及***
CN113035362A (zh) * 2021-02-26 2021-06-25 北京工业大学 一种基于语义图网络的医疗预测方法及***
CN113361272A (zh) * 2021-06-22 2021-09-07 海信视像科技股份有限公司 一种媒资标题的概念词提取方法及装置
CN113378569A (zh) * 2021-06-02 2021-09-10 北京三快在线科技有限公司 模型生成、实体识别方法、装置、电子设备及存储介质
CN113593709A (zh) * 2021-07-30 2021-11-02 江先汉 一种疾病编码方法、***、可读存储介质及装置
CN114638222A (zh) * 2022-05-17 2022-06-17 天津卓朗科技发展有限公司 自然灾害数据的分类方法及其模型训练方法、装置
CN114925198A (zh) * 2022-04-11 2022-08-19 华东师范大学 一种融合字符信息的知识驱动文本分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
EP3407208A1 (en) * 2017-05-22 2018-11-28 Fujitsu Limited Ontology alignment apparatus, program, and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3407208A1 (en) * 2017-05-22 2018-11-28 Fujitsu Limited Ontology alignment apparatus, program, and method
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329465B (zh) * 2019-07-18 2024-06-25 株式会社理光 一种命名实体识别方法、装置及计算机可读存储介质
CN112329465A (zh) * 2019-07-18 2021-02-05 株式会社理光 一种命名实体识别方法、装置及计算机可读存储介质
CN110852359A (zh) * 2019-07-24 2020-02-28 上海交通大学 基于深度学习的家谱识别方法及***
CN110852359B (zh) * 2019-07-24 2023-05-26 上海交通大学 基于深度学习的家谱识别方法及***
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
CN110866399A (zh) * 2019-10-24 2020-03-06 同济大学 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN110866399B (zh) * 2019-10-24 2023-05-02 同济大学 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN111489746B (zh) * 2020-03-05 2022-07-26 国网浙江省电力有限公司 一种基于bert的电网调度语音识别语言模型构建方法
CN111489746A (zh) * 2020-03-05 2020-08-04 国网浙江省电力有限公司 一种基于bert的电网调度语音识别语言模型构建方法
CN111539209A (zh) * 2020-04-15 2020-08-14 北京百度网讯科技有限公司 用于实体分类的方法和装置
CN111539209B (zh) * 2020-04-15 2023-09-15 北京百度网讯科技有限公司 用于实体分类的方法和装置
CN111832307A (zh) * 2020-07-09 2020-10-27 北京工业大学 一种基于知识增强的实体关系抽取方法及***
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及***
CN112101028B (zh) * 2020-08-17 2022-08-26 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及***
CN112015901A (zh) * 2020-09-08 2020-12-01 迪爱斯信息技术股份有限公司 文本分类方法及装置、警情分析***
CN112331332A (zh) * 2020-10-14 2021-02-05 北京工业大学 一种基于多粒度特征融合的疾病预测方法及***
CN112257417A (zh) * 2020-10-29 2021-01-22 重庆紫光华山智安科技有限公司 一种多任务命名实体识别训练方法、介质及终端
CN113035362A (zh) * 2021-02-26 2021-06-25 北京工业大学 一种基于语义图网络的医疗预测方法及***
CN113035362B (zh) * 2021-02-26 2024-04-09 北京工业大学 一种基于语义图网络的医疗预测方法及***
CN113378569A (zh) * 2021-06-02 2021-09-10 北京三快在线科技有限公司 模型生成、实体识别方法、装置、电子设备及存储介质
CN113361272B (zh) * 2021-06-22 2023-03-21 海信视像科技股份有限公司 一种媒资标题的概念词提取方法及装置
CN113361272A (zh) * 2021-06-22 2021-09-07 海信视像科技股份有限公司 一种媒资标题的概念词提取方法及装置
CN113593709A (zh) * 2021-07-30 2021-11-02 江先汉 一种疾病编码方法、***、可读存储介质及装置
CN113593709B (zh) * 2021-07-30 2022-09-30 江先汉 一种疾病编码方法、***、可读存储介质及装置
CN114925198A (zh) * 2022-04-11 2022-08-19 华东师范大学 一种融合字符信息的知识驱动文本分类方法
CN114638222A (zh) * 2022-05-17 2022-06-17 天津卓朗科技发展有限公司 自然灾害数据的分类方法及其模型训练方法、装置

Also Published As

Publication number Publication date
CN109800437B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和***
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN109858041B (zh) 一种半监督学习结合自定义词典的命名实体识别方法
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN110263325B (zh) 中文分词***
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN112818118B (zh) 基于反向翻译的中文幽默分类模型的构建方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
Song et al. Classification of traditional chinese medicine cases based on character-level bert and deep learning
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Cao et al. Knowledge guided short-text classification for healthcare applications
Nouhaila et al. Arabic sentiment analysis based on 1-D convolutional neural network
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN114841148A (zh) 文本识别模型训练方法、模型训练装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant