CN111444720A

CN111444720A - 一种英文文本的命名实体识别方法

Info

Publication number: CN111444720A
Application number: CN202010235663.7A
Authority: CN
Inventors: 蔡毅; 曹晋
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-24

Abstract

本发明公开了一种英文文本的命名实体识别方法，包括步骤：收集英文文本的命名实体识别的数据集；对收集的数据集进行预处理，标注数据集中每个词语的词性；对于输入到模型的语句，获得语句中的词语信息，包括词语的词向量、字符序列信息、词性序列信息；将获得的三种词语信息拼接起来，输入到LSTM网络中，获得LSTM网络的输出的特征；将得到的LSTM网络的输出特征输入到CRF中，获得最终预测的实体。本发明考虑了输入文本中词语的词性信息，通过在模型中加入词性信息，可以提升模型的性能。

Description

一种英文文本的命名实体识别方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一一种英文文本的命名实体识别方法。

背景技术

在自然语言中，文本信息中含有很多有价值和值得发掘的有效信息。因此如何发掘并提取出这些有效信息一直是自然语言处理领域中一个非常重要的研究任务。如果可以很好的发掘出这些有效信息，就能够很好地促进自然语言处理中的其他任务，例如对话***和问答***等。命名实体识别是自然语言处理中一个非常重要的任务，挖掘文本中的实体信息对于问答***、信息提取以及关系抽取等任务而言有着重要意义。命名实体识别任务中，需要定位和标注文本中提及的具有一定意义的实体，对于这些实体，不仅仅要识别出实体属于哪一种类别，还要识别出实体的边界，即对于某个实体，还需要确定其包含哪些词语。而且，在命名实体识别研究中，还面临训练数据少、对于可以组成实体的词语约束少等问题，使得命名实体识别任务面临很大的挑战。

另外，在早期命名实体识别任务的研究中，很多研究方法是基于机器学习方法提出的，例如：使用支持向量机、条件随机场和决策树等，这些研究方法需要依赖手工构建的特征，且很难取得令人满意的性能。近些年来，主要方法主要是利用神经网络模型来处理命名实体识别任务。最近，很多研究都提出了使用长短期记忆网络(LSTM)来处理命名实体识别任务，后来，又在LSTM层之上加入了条件随机场(CRF)层，使得模型性能进一步得到提高。在之前英文的命名实体识别方法中，有基于词(Word)的模型结构，在这种模型中，用词向量来表示词语，也有基于词和字符(Character+Word)的模型结构，在这种模型结构中加入了词语的字符序列信息。但是对于词语而言，词语本身的词性信息也是一个非常重要的信息。在命名实体识别任务中，词性为名词的词语相较于其他词性的词语，更有可能成为一个实体，因此考虑词性信息是非常有必要的。如果可以在模型中加入这个重要的信息，能够提升模型性能。

发明内容

本发明的目的在于克服现有技术的不足，提供一种英文文本的命名实体识别方法。本发明在处理英文命名实体识别任务时，在考虑词语表示时，不仅仅考虑词向量和词语的字符序列信息，还会考虑词语本身的词性信息。本发明通过LSTM来提取输入语句序列的词性信息并加入到模型中。本发明相较于现有技术，能够得到含有更加丰富信息的词语表示，从而使得识别文本中的实体的能力得到增强，算法性能也得到了提升。

本发明的目的能够通过以下技术方案实现：

一种英文文本的命名实体识别方法，包括步骤：

收集英文文本的命名实体识别的数据集；

对收集的数据集进行预处理，标注数据集中每个词语的词性；

对于输入到模型的语句，获取语句中的词语信息，词语信息包括词语的词向量、字符序列信息和词性序列信息；

将获得的三种词语信息拼接起来，输入到LSTM网络中，获得LSTM网络的输出特征；

将得到的输出特征输入到CRF中，获得最终预测的实体。

本发明相较于现有技术，具有以下的有益效果：

1、本发明通过LSTM提取词性信息后，加入了词语的词性信息，能够丰富词语的表示信息，并能够更好地识别出文本中的实体信息，提高了算法性能。

附图说明

图1为本发明实施例中提取词语字符序列信息的模型结构示意图。

图2为本发明实施例中提取词性标签序列信息的模型结构示意图。

图3为本发明实施例中识别实体的模型结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例提供了一种适用于英文文本的基于词性信息的命名实体识别方法，所述方法包括以下步骤：

(1)收集英文文本的命名实体识别的数据集；

(2)对收集的数据集进行预处理，预处理为标注数据集中每个词语的词性；

(3)对于输入到模型的语句，获得语句中的词语信息，包括词语的词向量、字符序列信息、词性序列信息；

(4)将获得的三种词语信息拼接起来，输入到LSTM网络中，获得LSTM网络的输出的特征；

(5)将得到的LSTM网络的输出特征输入到CRF中，获得最终预测的实体。

在本发明中，所述模型为LSTM-CRF模型，模型如图3所示，第一层是词表示层，用于将词嵌入、字符序列表示以及词性标签表示进行拼接，第二层是LSTM网络，用于提取输入语句的特征。第三层是CRF层，用于输出预测结果。

具体地，所述步骤(2)中标注数据集中每个词语的词性的方法为：利用现有的词性标注工具，例如Stanford Log-linear Part-Of-Speech Tagger，对收集的英文数据集中的词语进行词性标注工作，从而获得每个词语的词性信息。

具体地，所述步骤(3)中获得语句中词语的词向量、字符序列信息、词性序列信息，包括：

词语的词向量的获取方法为：

统计出数据集中出现的所有词语，将其存储在一个列表中，列表中统计的词语是不重复的；

依次遍历列表中的词语，将其存储在字典D_w中，其中字典的键为词语本身，字典的值为词语在列表中的下标；

建立一个词语的词向量矩阵，矩阵的行数为字典中词语的数量，矩阵的列数为词向量的维度；

依次遍历字典中的所有词语，对于某个词语，如果在预训练的词向量文件中含有该词语相应的向量表示，则在词向量矩阵中加入该词语的向量表示；如果预训练的词向量文件中不含该词语的向量表示，则随机初始化该词语的向量表示，并将该随机初始化的向量表示加入到词向量矩阵中。其中，预训练的词向量文件采用现有的预训练词向量文件，如word2vec或glove。

得到的词语的词向量矩阵表示为：

其中，r为矩阵的行数(字典中词语的数量)，t为矩阵的列数(词向量的维度)，矩阵中每一行都是一个词语对应的词向量表示，并且矩阵的行按照词语下标顺序进行排列。因此对于输入模型的语句X，由词序列(x₁,x₂,…,x_n)构成，语句中的词语x_i可以在字典D_w中找到其相应的下标值，根据找到的下标值，在词向量矩阵为W中找到该词语的相应的词向量表示。

具体地，字符序列信息的获取方法为：

统计出数据集中出现的所有字符，将其存储在一个列表中，列表中统计的字符是不重复的；

依次遍历列表中的字符，将其存储在字典D_c中，其中字典的键为字符本身，字典的值为字符在列表中的下标；

建立一个随机初始化的字符向量矩阵，矩阵的行数为字典中字符的数量，矩阵的列数为字符向量的维度。

得到的字符向量矩阵表示为：

其中，j为矩阵的行数(字典中字符的数量)，l为矩阵的列数(字符向量的维度)，矩阵中每一行都是一个字符对应的字符向量表示，并且矩阵的行按照字符向量下标顺序进行排列。因此对于输入模型的词语x，由字符序列(c₁,c₂,…,c_n)构成，词语x中的字符c_i可以在D_c中找到其相应的下标值，根据找到的下标值，可以在字符向量矩阵C中找到该字符的相应的字符向量表示。

对于词语x，将其字符序列中的每个字符转换为其向量表示后输入到双向LSTM网络中，对于前向LSTM，得到隐藏状态序列为：

对于后向LSTM，得到隐藏状态序列为：

然后将前向LSTM和后向LSTM获得的最后一个隐藏状态表示拼接起来，得到词语的字符序列表示信息：

因此z_c即为词语的字符序列表示信息。如图1所示为提取词语字符序列信息的模型结构示意图。

具体地，所述词性序列信息的获取方法为：

统计出数据集中所有的词性标签，将其存储在一个列表中，列表中统计的词性标签是不重复的；

依次遍历列表中的词性标签，将其存储在字典D_p中，其中字典的键为词性标签本身，字典的值为词性标签在列表中的下标；

建立一个随机初始化的词性标签向量矩阵，矩阵的行数为字典中词性标签的数量，矩阵的列数为词性标签向量的维度。其中，词性标签向量维度以及字符向量维度自行设定，词向量维度根据预训练的词向量的维度进行设定。

得到的词性标签的向量矩阵表示为：

其中，u为矩阵的行数(字典中词性标签的数量)，v为矩阵的列数(词性标签向量的维度)，矩阵中每一行都是一个词性标签对应的向量表示，并且矩阵的行按照词性标签下标顺序进行排列。因此对于输入模型的词语序列为(x₁,x₂,…,x_n)，词语序列对应的词性标签序列为(s₁,s₂,…,s_n)，词性标签s_i可以在D_p中找到其相应的下标值，根据找到的下标值，可以在词性标签向量矩阵P中找到该词性标签的相应的向量表示。

对于词性标签序列(s₁,s₂,…,s_n)，将序列中的每个词性标签转换为向量表示后输入到双向LSTM网络中，对于前向LSTM，可以得到隐藏状态序列为：

对于后向LSTM，可以得到隐藏状态序列为：

对于词性标签序列(s₁,s₂,…,s_n)中的第i个词性标签s_i，将前向LSTM网络和后向LSTM网络的第i个隐藏状态拼接起来，即可得到s_i的表示：

因此，对于词性标签序列(s₁,s₂,…,s_n)，可得到其表示序列：(p₁,p₂,…,p_n)。因此对于词语序列(x₁,x₂,…,x_n)中的词语x_i，都可以获得其对应的词性标签信息p_i。图2为本发明实施例中提取词性标签序列信息的模型结构示意图。

具体地，所述步骤(4)中，对于输入序列中的每个词语，在得到其词向量表示、字符序列表示和词性标签信息后，将其拼接起来，得到该词语的表示。对于语句X，对词序列中的每个词语转换为其词语表示，将其输入到双向LSTM网络中。对于前向LSTM，可以得到隐藏状态序列为：

对于后向LSTM，可以得到隐藏状态序列为：

对于词语序列(x₁,x₂,…,x_n)中的第i个词语x_i，将前向LSTM网络和后向LSTM网络的第i个隐藏状态拼接起来，即可得到x_i的表示：

因此，对于词语序列(x₁,x₂,…,x_n)，可得到其表示序列，即LSTM网络的额输出特征：(e₁,e₂,…,e_n)。

具体地，所述将得到的输出特征输入到CRF中，获得最终预测的实体的步骤中，包括：

对于输入的语句X＝(x₁,x₂,…,x_n)，用P表示BiLSTM网络输出的分数矩阵。P的大小是n*k，其中k表示标签的种类。在P中，P_i,j表示语句中的第i个词语其对应标签是第j个标签的概率。对于预测的标签序列，将其概率定义为：

其中，A是转移概率矩阵，A_i,j表示从标签i转移至标签j的分值。

定义Y_x是输入X的所有可能的标签序列的集合，对于标签序列集合中的某个标签序列y，使用softmax函数会得到y在标签序列集合上的一个概率值：

在训练过程中，会最大化正确的标签序列的对数概率：

从上面的公式可以看到，在训练过程中，会鼓励神经网络产生有效的标签序列。在预测过程中，会根据以下公式，将输出序列预测为拥有最大分值的序列：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种英文文本的命名实体识别方法，其特征在于，包括步骤：

收集英文文本的命名实体识别的数据集；

对于输入到模型的语句，获得语句中的词语信息，包括词语的词向量、字符序列信息、词性序列信息；

将获得的三种词语信息拼接起来，输入到LSTM网络中，获得LSTM网络的输出的特征；

将得到的LSTM网络的输出特征输入到CRF中，获得最终预测的实体。

2.根据权利要求1所述的方法，其特征在于，标注数据集中每个词语的词性通过利用现有的词性标注工具对收集的英文数据集中的词语进行词性标注工作，从而获得每个词语的词性信息。

3.根据权利要求1所述的方法，其特征在于，所述词语的词向量的获取方法为：

依次遍历字典中的所有词语，对于某个词语，如果在预训练的词向量文件中含有该词语相应的向量表示，则在词向量矩阵中加入该词语的向量表示；如果预训练的词向量文件中不含该词语的向量表示，则随机初始化该词语的向量表示，并将该随机初始化的向量表示加入到词向量矩阵中；

获得的词语的词向量矩阵表示为：

其中，r为矩阵的行数，即字典中词语的数量，t为矩阵的列数，即词向量的维度，矩阵中每一行都是一个词语对应的词向量表示；

因此对于输入模型的语句X，由词序列(x₁,x₂,…,x_n)构成，语句中的词语x_i可以在D_w中找到其相应的下标值，根据找到的下标值，在词向量矩阵为W中找到该词语的相应的词向量表示。

4.根据权利要求1所述的方法，其特征在于，所述字符序列信息的获取方法为：

建立一个随机初始化的字符向量矩阵，矩阵的行数为字典中字符的数量，矩阵的列数为字符向量的维度；

字符的字符向量矩阵表示为：

其中，j为矩阵的行数，l为矩阵的列数，矩阵中每一行都是一个字符对应的字符向量表示；因此对于输入模型的词语x，由字符序列(c₁,c₂,…,c_n)构成，词语x中的字符c_i可以在D_c中找到其相应的下标值，根据找到的下标值，可以在字符向量矩阵C中找到该字符的相应的字符向量表示；

对于后向LSTM，得到隐藏状态序列为：

因此z_c即为词语的字符序列表示信息。

5.根据权利要求1所述的方法，其特征在于，所述词性序列信息的获取方法为：

建立一个随机初始化的词性标签向量矩阵，矩阵的行数为字典中词性标签的数量，矩阵的列数为词性标签向量的维度；

词性标签的向量矩阵表示为：

其中，u为矩阵的行数，v为矩阵的列数，矩阵中每一行都是一个词性标签对应的向量表示；因此对于输入模型的词语序列为(x₁,x₂,…,x_n)，词语序列对应的词性标签序列为(s₁,s₂,…,s_n)，词性标签s_i可以在D_p中找到其相应的下标值，根据找到的下标值，可以在词性标签向量矩阵P中找到该词性标签的相应的向量表示；