CN111444720A - 一种英文文本的命名实体识别方法 - Google Patents

一种英文文本的命名实体识别方法 Download PDF

Info

Publication number
CN111444720A
CN111444720A CN202010235663.7A CN202010235663A CN111444720A CN 111444720 A CN111444720 A CN 111444720A CN 202010235663 A CN202010235663 A CN 202010235663A CN 111444720 A CN111444720 A CN 111444720A
Authority
CN
China
Prior art keywords
word
sequence
matrix
vector
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010235663.7A
Other languages
English (en)
Inventor
蔡毅
曹晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010235663.7A priority Critical patent/CN111444720A/zh
Publication of CN111444720A publication Critical patent/CN111444720A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种英文文本的命名实体识别方法,包括步骤:收集英文文本的命名实体识别的数据集;对收集的数据集进行预处理,标注数据集中每个词语的词性;对于输入到模型的语句,获得语句中的词语信息,包括词语的词向量、字符序列信息、词性序列信息;将获得的三种词语信息拼接起来,输入到LSTM网络中,获得LSTM网络的输出的特征;将得到的LSTM网络的输出特征输入到CRF中,获得最终预测的实体。本发明考虑了输入文本中词语的词性信息,通过在模型中加入词性信息,可以提升模型的性能。

Description

一种英文文本的命名实体识别方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一一种英文文本的命名实体识别方法。
背景技术
在自然语言中,文本信息中含有很多有价值和值得发掘的有效信息。因此如何发掘并提取出这些有效信息一直是自然语言处理领域中一个非常重要的研究任务。如果可以很好的发掘出这些有效信息,就能够很好地促进自然语言处理中的其他任务,例如对话***和问答***等。命名实体识别是自然语言处理中一个非常重要的任务,挖掘文本中的实体信息对于问答***、信息提取以及关系抽取等任务而言有着重要意义。命名实体识别任务中,需要定位和标注文本中提及的具有一定意义的实体,对于这些实体,不仅仅要识别出实体属于哪一种类别,还要识别出实体的边界,即对于某个实体,还需要确定其包含哪些词语。而且,在命名实体识别研究中,还面临训练数据少、对于可以组成实体的词语约束少等问题,使得命名实体识别任务面临很大的挑战。
另外,在早期命名实体识别任务的研究中,很多研究方法是基于机器学习方法提出的,例如:使用支持向量机、条件随机场和决策树等,这些研究方法需要依赖手工构建的特征,且很难取得令人满意的性能。近些年来,主要方法主要是利用神经网络模型来处理命名实体识别任务。最近,很多研究都提出了使用长短期记忆网络(LSTM)来处理命名实体识别任务,后来,又在LSTM层之上加入了条件随机场(CRF)层,使得模型性能进一步得到提高。在之前英文的命名实体识别方法中,有基于词(Word)的模型结构,在这种模型中,用词向量来表示词语,也有基于词和字符(Character+Word)的模型结构,在这种模型结构中加入了词语的字符序列信息。但是对于词语而言,词语本身的词性信息也是一个非常重要的信息。在命名实体识别任务中,词性为名词的词语相较于其他词性的词语,更有可能成为一个实体,因此考虑词性信息是非常有必要的。如果可以在模型中加入这个重要的信息,能够提升模型性能。
发明内容
本发明的目的在于克服现有技术的不足,提供一种英文文本的命名实体识别方法。本发明在处理英文命名实体识别任务时,在考虑词语表示时,不仅仅考虑词向量和词语的字符序列信息,还会考虑词语本身的词性信息。本发明通过LSTM来提取输入语句序列的词性信息并加入到模型中。本发明相较于现有技术,能够得到含有更加丰富信息的词语表示,从而使得识别文本中的实体的能力得到增强,算法性能也得到了提升。
本发明的目的能够通过以下技术方案实现:
一种英文文本的命名实体识别方法,包括步骤:
收集英文文本的命名实体识别的数据集;
对收集的数据集进行预处理,标注数据集中每个词语的词性;
对于输入到模型的语句,获取语句中的词语信息,词语信息包括词语的词向量、字符序列信息和词性序列信息;
将获得的三种词语信息拼接起来,输入到LSTM网络中,获得LSTM网络的输出特征;
将得到的输出特征输入到CRF中,获得最终预测的实体。
本发明相较于现有技术,具有以下的有益效果:
1、本发明通过LSTM提取词性信息后,加入了词语的词性信息,能够丰富词语的表示信息,并能够更好地识别出文本中的实体信息,提高了算法性能。
附图说明
图1为本发明实施例中提取词语字符序列信息的模型结构示意图。
图2为本发明实施例中提取词性标签序列信息的模型结构示意图。
图3为本发明实施例中识别实体的模型结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例提供了一种适用于英文文本的基于词性信息的命名实体识别方法,所述方法包括以下步骤:
(1)收集英文文本的命名实体识别的数据集;
(2)对收集的数据集进行预处理,预处理为标注数据集中每个词语的词性;
(3)对于输入到模型的语句,获得语句中的词语信息,包括词语的词向量、字符序列信息、词性序列信息;
(4)将获得的三种词语信息拼接起来,输入到LSTM网络中,获得LSTM网络的输出的特征;
(5)将得到的LSTM网络的输出特征输入到CRF中,获得最终预测的实体。
在本发明中,所述模型为LSTM-CRF模型,模型如图3所示,第一层是词表示层,用于将词嵌入、字符序列表示以及词性标签表示进行拼接,第二层是LSTM网络,用于提取输入语句的特征。第三层是CRF层,用于输出预测结果。
具体地,所述步骤(2)中标注数据集中每个词语的词性的方法为:利用现有的词性标注工具,例如Stanford Log-linear Part-Of-Speech Tagger,对收集的英文数据集中的词语进行词性标注工作,从而获得每个词语的词性信息。
具体地,所述步骤(3)中获得语句中词语的词向量、字符序列信息、词性序列信息,包括:
词语的词向量的获取方法为:
统计出数据集中出现的所有词语,将其存储在一个列表中,列表中统计的词语是不重复的;
依次遍历列表中的词语,将其存储在字典Dw中,其中字典的键为词语本身,字典的值为词语在列表中的下标;
建立一个词语的词向量矩阵,矩阵的行数为字典中词语的数量,矩阵的列数为词向量的维度;
依次遍历字典中的所有词语,对于某个词语,如果在预训练的词向量文件中含有该词语相应的向量表示,则在词向量矩阵中加入该词语的向量表示;如果预训练的词向量文件中不含该词语的向量表示,则随机初始化该词语的向量表示,并将该随机初始化的向量表示加入到词向量矩阵中。其中,预训练的词向量文件采用现有的预训练词向量文件,如word2vec或glove。
得到的词语的词向量矩阵表示为:
Figure BDA0002430871340000051
其中,r为矩阵的行数(字典中词语的数量),t为矩阵的列数(词向量的维度),矩阵中每一行都是一个词语对应的词向量表示,并且矩阵的行按照词语下标顺序进行排列。因此对于输入模型的语句X,由词序列(x1,x2,…,xn)构成,语句中的词语xi可以在字典Dw中找到其相应的下标值,根据找到的下标值,在词向量矩阵为W中找到该词语的相应的词向量表示。
具体地,字符序列信息的获取方法为:
统计出数据集中出现的所有字符,将其存储在一个列表中,列表中统计的字符是不重复的;
依次遍历列表中的字符,将其存储在字典Dc中,其中字典的键为字符本身,字典的值为字符在列表中的下标;
建立一个随机初始化的字符向量矩阵,矩阵的行数为字典中字符的数量,矩阵的列数为字符向量的维度。
得到的字符向量矩阵表示为:
Figure BDA0002430871340000052
其中,j为矩阵的行数(字典中字符的数量),l为矩阵的列数(字符向量的维度),矩阵中每一行都是一个字符对应的字符向量表示,并且矩阵的行按照字符向量下标顺序进行排列。因此对于输入模型的词语x,由字符序列(c1,c2,…,cn)构成,词语x中的字符ci可以在Dc中找到其相应的下标值,根据找到的下标值,可以在字符向量矩阵C中找到该字符的相应的字符向量表示。
对于词语x,将其字符序列中的每个字符转换为其向量表示后输入到双向LSTM网络中,对于前向LSTM,得到隐藏状态序列为:
Figure BDA0002430871340000061
对于后向LSTM,得到隐藏状态序列为:
Figure BDA0002430871340000062
然后将前向LSTM和后向LSTM获得的最后一个隐藏状态表示拼接起来,得到词语的字符序列表示信息:
Figure BDA0002430871340000063
因此zc即为词语的字符序列表示信息。如图1所示为提取词语字符序列信息的模型结构示意图。
具体地,所述词性序列信息的获取方法为:
统计出数据集中所有的词性标签,将其存储在一个列表中,列表中统计的词性标签是不重复的;
依次遍历列表中的词性标签,将其存储在字典Dp中,其中字典的键为词性标签本身,字典的值为词性标签在列表中的下标;
建立一个随机初始化的词性标签向量矩阵,矩阵的行数为字典中词性标签的数量,矩阵的列数为词性标签向量的维度。其中,词性标签向量维度以及字符向量维度自行设定,词向量维度根据预训练的词向量的维度进行设定。
得到的词性标签的向量矩阵表示为:
Figure BDA0002430871340000064
其中,u为矩阵的行数(字典中词性标签的数量),v为矩阵的列数(词性标签向量的维度),矩阵中每一行都是一个词性标签对应的向量表示,并且矩阵的行按照词性标签下标顺序进行排列。因此对于输入模型的词语序列为(x1,x2,…,xn),词语序列对应的词性标签序列为(s1,s2,…,sn),词性标签si可以在Dp中找到其相应的下标值,根据找到的下标值,可以在词性标签向量矩阵P中找到该词性标签的相应的向量表示。
对于词性标签序列(s1,s2,…,sn),将序列中的每个词性标签转换为向量表示后输入到双向LSTM网络中,对于前向LSTM,可以得到隐藏状态序列为:
Figure BDA0002430871340000071
对于后向LSTM,可以得到隐藏状态序列为:
Figure BDA0002430871340000072
对于词性标签序列(s1,s2,…,sn)中的第i个词性标签si,将前向LSTM网络和后向LSTM网络的第i个隐藏状态拼接起来,即可得到si的表示:
Figure BDA0002430871340000073
因此,对于词性标签序列(s1,s2,…,sn),可得到其表示序列:(p1,p2,…,pn)。因此对于词语序列(x1,x2,…,xn)中的词语xi,都可以获得其对应的词性标签信息pi。图2为本发明实施例中提取词性标签序列信息的模型结构示意图。
具体地,所述步骤(4)中,对于输入序列中的每个词语,在得到其词向量表示、字符序列表示和词性标签信息后,将其拼接起来,得到该词语的表示。对于语句X,对词序列中的每个词语转换为其词语表示,将其输入到双向LSTM网络中。对于前向LSTM,可以得到隐藏状态序列为:
Figure BDA0002430871340000074
对于后向LSTM,可以得到隐藏状态序列为:
Figure BDA0002430871340000081
对于词语序列(x1,x2,…,xn)中的第i个词语xi,将前向LSTM网络和后向LSTM网络的第i个隐藏状态拼接起来,即可得到xi的表示:
Figure BDA0002430871340000082
因此,对于词语序列(x1,x2,…,xn),可得到其表示序列,即LSTM网络的额输出特征:(e1,e2,…,en)。
具体地,所述将得到的输出特征输入到CRF中,获得最终预测的实体的步骤中,包括:
对于输入的语句X=(x1,x2,…,xn),用P表示BiLSTM网络输出的分数矩阵。P的大小是n*k,其中k表示标签的种类。在P中,Pi,j表示语句中的第i个词语其对应标签是第j个标签的概率。对于预测的标签序列,将其概率定义为:
Figure BDA0002430871340000083
其中,A是转移概率矩阵,Ai,j表示从标签i转移至标签j的分值。
定义Yx是输入X的所有可能的标签序列的集合,对于标签序列集合中的某个标签序列y,使用softmax函数会得到y在标签序列集合上的一个概率值:
Figure BDA0002430871340000084
在训练过程中,会最大化正确的标签序列的对数概率:
Figure BDA0002430871340000085
从上面的公式可以看到,在训练过程中,会鼓励神经网络产生有效的标签序列。在预测过程中,会根据以下公式,将输出序列预测为拥有最大分值的序列:
Figure BDA0002430871340000091
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种英文文本的命名实体识别方法,其特征在于,包括步骤:
收集英文文本的命名实体识别的数据集;
对收集的数据集进行预处理,标注数据集中每个词语的词性;
对于输入到模型的语句,获得语句中的词语信息,包括词语的词向量、字符序列信息、词性序列信息;
将获得的三种词语信息拼接起来,输入到LSTM网络中,获得LSTM网络的输出的特征;
将得到的LSTM网络的输出特征输入到CRF中,获得最终预测的实体。
2.根据权利要求1所述的方法,其特征在于,标注数据集中每个词语的词性通过利用现有的词性标注工具对收集的英文数据集中的词语进行词性标注工作,从而获得每个词语的词性信息。
3.根据权利要求1所述的方法,其特征在于,所述词语的词向量的获取方法为:
统计出数据集中出现的所有词语,将其存储在一个列表中,列表中统计的词语是不重复的;
依次遍历列表中的词语,将其存储在字典Dw中,其中字典的键为词语本身,字典的值为词语在列表中的下标;
建立一个词语的词向量矩阵,矩阵的行数为字典中词语的数量,矩阵的列数为词向量的维度;
依次遍历字典中的所有词语,对于某个词语,如果在预训练的词向量文件中含有该词语相应的向量表示,则在词向量矩阵中加入该词语的向量表示;如果预训练的词向量文件中不含该词语的向量表示,则随机初始化该词语的向量表示,并将该随机初始化的向量表示加入到词向量矩阵中;
获得的词语的词向量矩阵表示为:
Figure FDA0002430871330000011
其中,r为矩阵的行数,即字典中词语的数量,t为矩阵的列数,即词向量的维度,矩阵中每一行都是一个词语对应的词向量表示;
因此对于输入模型的语句X,由词序列(x1,x2,…,xn)构成,语句中的词语xi可以在Dw中找到其相应的下标值,根据找到的下标值,在词向量矩阵为W中找到该词语的相应的词向量表示。
4.根据权利要求1所述的方法,其特征在于,所述字符序列信息的获取方法为:
统计出数据集中出现的所有字符,将其存储在一个列表中,列表中统计的字符是不重复的;
依次遍历列表中的字符,将其存储在字典Dc中,其中字典的键为字符本身,字典的值为字符在列表中的下标;
建立一个随机初始化的字符向量矩阵,矩阵的行数为字典中字符的数量,矩阵的列数为字符向量的维度;
字符的字符向量矩阵表示为:
Figure FDA0002430871330000021
其中,j为矩阵的行数,l为矩阵的列数,矩阵中每一行都是一个字符对应的字符向量表示;因此对于输入模型的词语x,由字符序列(c1,c2,…,cn)构成,词语x中的字符ci可以在Dc中找到其相应的下标值,根据找到的下标值,可以在字符向量矩阵C中找到该字符的相应的字符向量表示;
对于词语x,将其字符序列中的每个字符转换为其向量表示后输入到双向LSTM网络中,对于前向LSTM,得到隐藏状态序列为:
Figure FDA0002430871330000022
对于后向LSTM,得到隐藏状态序列为:
Figure FDA0002430871330000023
然后将前向LSTM和后向LSTM获得的最后一个隐藏状态表示拼接起来,得到词语的字符序列表示信息:
Figure FDA0002430871330000031
因此zc即为词语的字符序列表示信息。
5.根据权利要求1所述的方法,其特征在于,所述词性序列信息的获取方法为:
统计出数据集中所有的词性标签,将其存储在一个列表中,列表中统计的词性标签是不重复的;
依次遍历列表中的词性标签,将其存储在字典Dp中,其中字典的键为词性标签本身,字典的值为词性标签在列表中的下标;
建立一个随机初始化的词性标签向量矩阵,矩阵的行数为字典中词性标签的数量,矩阵的列数为词性标签向量的维度;
词性标签的向量矩阵表示为:
Figure FDA0002430871330000032
其中,u为矩阵的行数,v为矩阵的列数,矩阵中每一行都是一个词性标签对应的向量表示;因此对于输入模型的词语序列为(x1,x2,…,xn),词语序列对应的词性标签序列为(s1,s2,…,sn),词性标签si可以在Dp中找到其相应的下标值,根据找到的下标值,可以在词性标签向量矩阵P中找到该词性标签的相应的向量表示;
对于词性标签序列(s1,s2,…,sn),将序列中的每个词性标签转换为向量表示后输入到双向LSTM网络中,对于前向LSTM,可以得到隐藏状态序列为:
Figure FDA0002430871330000033
对于后向LSTM,可以得到隐藏状态序列为:
Figure FDA0002430871330000034
对于词性标签序列(s1,s2,…,sn)中的第i个词性标签si,将前向LSTM网络和后向LSTM网络的第i个隐藏状态拼接起来,即可得到si的表示:
Figure FDA0002430871330000041
因此,对于词性标签序列(s1,s2,…,sn),可得到其表示序列:(p1,p2,…,pn)。因此对于词语序列(x1,x2,…,xn)中的词语xi,都可以获得其对应的词性标签信息pi
6.根据权利要求1所述的方法,其特征在于,所述步骤(4)中,对于输入序列中的每个词语,在得到其词向量表示、字符序列表示和词性标签信息后,将其拼接起来,得到该词语的表示;对于语句X,对词序列中的每个词语转换为其词语表示后,将其输入到双向LSTM网络中;对于前向LSTM,可以得到隐藏状态序列为:
Figure FDA0002430871330000042
对于后向LSTM,可以得到隐藏状态序列为:
Figure FDA0002430871330000043
对于词语序列(x1,x2,…,xn)中的第i个词语xi,将前向LSTM网络和后向LSTM网络的第i个隐藏状态拼接起来,即可得到xi的表示:
Figure FDA0002430871330000044
因此,对于词语序列(x1,x2,…,xn),可得到其表示序列,即LSTM网络输出特征:(e1,e2,…,en)。
7.根据权利要求1所述的方法,其特征在于,所述将得到的输出特征输入到CRF中,获得最终预测的实体的步骤中,包括:
对于输入的语句X=(x1,x2,…,xn),用P表示BiLSTM网络输出的分数矩阵;P的大小是n*k,其中k表示标签的种类;在P中,Pi,j表示语句中的第i个词语其对应标签是第j个标签的概率;对于预测的标签序列,将其概率定义为:
Figure FDA0002430871330000051
其中,A是转移概率矩阵,Ai,j表示从标签i转移至标签j的分值;
定义Yx是输入X的所有可能的标签序列的集合,对于标签序列集合中的某个标签序列y,使用softmax函数会得到y在标签序列集合上的一个概率值:
Figure FDA0002430871330000052
在训练过程中,会最大化正确的标签序列的对数概率:
Figure FDA0002430871330000053
从上面的公式可以看到,在训练过程中,会鼓励神经网络产生有效的标签序列;在预测过程中,会根据以下公式,将输出序列预测为拥有最大分值的序列:
Figure FDA0002430871330000054
CN202010235663.7A 2020-03-30 2020-03-30 一种英文文本的命名实体识别方法 Pending CN111444720A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010235663.7A CN111444720A (zh) 2020-03-30 2020-03-30 一种英文文本的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010235663.7A CN111444720A (zh) 2020-03-30 2020-03-30 一种英文文本的命名实体识别方法

Publications (1)

Publication Number Publication Date
CN111444720A true CN111444720A (zh) 2020-07-24

Family

ID=71654018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010235663.7A Pending CN111444720A (zh) 2020-03-30 2020-03-30 一种英文文本的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN111444720A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859972A (zh) * 2020-07-28 2020-10-30 平安科技(深圳)有限公司 实体识别方法、装置、计算机设备及计算机可读存储介质
CN113377953A (zh) * 2021-05-31 2021-09-10 电子科技大学 一种基于palc-dca模型的实体融合及分类方法
WO2022078102A1 (zh) * 2020-10-14 2022-04-21 腾讯科技(深圳)有限公司 一种实体识别方法、装置、设备以及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN107291795A (zh) * 2017-05-03 2017-10-24 华南理工大学 一种结合动态词嵌入和词性标注的文本分类方法
CN108170675A (zh) * 2017-12-27 2018-06-15 哈尔滨福满科技有限责任公司 一种面向医疗领域基于深度学习的命名实体识别方法
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN109871535A (zh) * 2019-01-16 2019-06-11 四川大学 一种基于深度神经网络的法语命名实体识别方法
CN110162772A (zh) * 2018-12-13 2019-08-23 北京三快在线科技有限公司 命名实体识别方法及装置
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法
CN110867225A (zh) * 2019-11-04 2020-03-06 山东师范大学 字符级临床概念提取命名实体识别方法及***
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及***

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN107291795A (zh) * 2017-05-03 2017-10-24 华南理工大学 一种结合动态词嵌入和词性标注的文本分类方法
CN108170675A (zh) * 2017-12-27 2018-06-15 哈尔滨福满科技有限责任公司 一种面向医疗领域基于深度学习的命名实体识别方法
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置
CN110162772A (zh) * 2018-12-13 2019-08-23 北京三快在线科技有限公司 命名实体识别方法及装置
CN109871535A (zh) * 2019-01-16 2019-06-11 四川大学 一种基于深度神经网络的法语命名实体识别方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法
CN110867225A (zh) * 2019-11-04 2020-03-06 山东师范大学 字符级临床概念提取命名实体识别方法及***
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RRUBAA PANCHENDRARAJAN ET AL: "Bidirectional LSTM-CRF for Named Entity Recognition", 《32ND PACIFIC ASIA CONFERENCE ON LANGUAGE, INFORMATION AND COMPUTATION》 *
买买提阿依甫: "基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别", 《计算机工程》 *
张晓海: "基于深度学习的作战文书命名实体识别", 《指挥控制与仿真》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859972A (zh) * 2020-07-28 2020-10-30 平安科技(深圳)有限公司 实体识别方法、装置、计算机设备及计算机可读存储介质
CN111859972B (zh) * 2020-07-28 2024-03-15 平安科技(深圳)有限公司 实体识别方法、装置、计算机设备及计算机可读存储介质
WO2022078102A1 (zh) * 2020-10-14 2022-04-21 腾讯科技(深圳)有限公司 一种实体识别方法、装置、设备以及存储介质
CN113377953A (zh) * 2021-05-31 2021-09-10 电子科技大学 一种基于palc-dca模型的实体融合及分类方法

Similar Documents

Publication Publication Date Title
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及***
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和***
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN112541356B (zh) 一种生物医学命名实体识别的方法和***
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN111709242A (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111400455A (zh) 基于知识图谱的问答***的关系检测方法
CN110276052B (zh) 一种古汉语自动分词及词性标注一体化方法及装置
CN112101014B (zh) 一种混合特征融合的中文化工文献分词方法
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN108829823A (zh) 一种文本分类方法
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN114443813B (zh) 一种智能化的在线教学资源知识点概念实体链接方法
CN113360667B (zh) 基于多任务学习的生物医学触发词检测和命名实体识别方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN114780582A (zh) 基于表格问答的自然答案生成***及其方法
CN114298010A (zh) 一种融合双语言模型和句子检测的文本生成方法
CN113641809A (zh) 一种基于XLNet-BiGRU-CRF的智能问答方法
CN110413972B (zh) 一种基于nlp技术的表名字段名智能补全方法
Lefever et al. Identifying cognates in English-Dutch and French-Dutch by means of orthographic information and cross-lingual word embeddings
CN113158667B (zh) 基于实体关系级别注意力机制的事件检测方法
CN111368532A (zh) 一种基于lda的主题词嵌入消歧方法及***
CN116127954A (zh) 一种基于词典的新工科专业中文知识概念抽取方法
CN113486160B (zh) 基于跨语言知识的对话方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200724

RJ01 Rejection of invention patent application after publication