CN108920460B

CN108920460B - 一种多类型实体识别的多任务深度学习模型的训练方法

Info

Publication number: CN108920460B
Application number: CN201810669851.3A
Authority: CN
Inventors: 吴杰; 杨曦; 沈满; 刘奕夫; 周游宇; 布恒
Original assignee: Wuda Geoinformatics Co ltd
Current assignee: Geospace Information Technology Co Ltd
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2022-03-11
Anticipated expiration: 2038-06-26
Also published as: CN108920460A

Abstract

本发明适用于数据抽取技术领域，提供一种多类型实体识别的多任务深度学习模型的训练方法及装置，所述方法包括：数据预处理；建立skip‑gram神经网络模型将预处理后的文本语料数据转为向量；根据要识别和提取的实体类型构建样本数据集；构建样本数据的分词特征；建立多类型实体识别的多任务深度学习模型。本发明中，相关类型的实体采用参数共享的方式实现共同特征的提取，又使用独立的模型完成实体的标注，使得模型对于一个文本数据的多种实体识别和提取有更好的泛化能力，即实体识别的整体正确性得到提升；另外，本发明只训练一个模型，在一次迭代过程中共同特征只用训练一次，可以极大的缩减训练时间。

Description

一种多类型实体识别的多任务深度学习模型的训练方法

技术领域

本发明属于数据抽取技术领域，尤其涉及一种多类型实体识别的多任务深度学习模型的训练方法。

背景技术

实体识别和抽取是指从文本中识别和抽取具有特定意义的文字，主要包括人名、地名、机构名、专有名词等；不同类型的实体有两种情况，一种情况是指上述人名、地名等因其特点不同而属于不同类型的实体，另一种情况是同为人名或者同为地名等，但是依其不同的含义而作为不同类型的实体，一般在一段文本数据中不同类型的实体是普遍存在的，但是常规的实体识别工具或者方法只能按照字典将人名、地名、机构名识别出来，并且不能按照不同的含义再进一步的识别实体，如现有方法将识别的机构名称都标注为机构实体，但是不能按照机构的性质或者作用再做区分。

现有技术方案将提取实体作为结束条件,并且在同一个模型中同时提取所有类型的实体，在含有多种实体类型的文本数据中，尤其是含有近似或相关关系的实体类型的文本数据中，会导致在提取不同类型的实体时错误率增加。

另外，现有的技术方案采用每个类型的实体分别建立模型的识别和提取，又必然会导致模型的训练时间加长，并且会产生提取结果交叉错误。

目前广泛使用的实体提取方法是采用双向长短时记忆神经网络算法Bi-LSTM和条件随机场算法CRF结合的方法，该方法的过程为：首先，对于文本语料数据按字符进行实体标注作为训练模型的样本，并对字符层面的信息进行编码转换成字符向量；其次，将字符向量与词向量进行组合并作为输入传到Bi-LSTM神经网络来对每个单词的上下文信息进行建模；最后，在Bi-LSTM神经网络的输出端，利用连续的条件随机场来对整个句子进行标签解码，并标注句子中的实体；在这种训练过程中，由于实体类型多，并且有的实体类型之间存在相关性或者歧义性，模型会存在识别错误的问题，对于一个文本数据，其中的每个实体都识别对的正确性不高。本发明的目的就是要提高一个文本数据中所有类型实体识别和提取的整体准确性。

发明内容

鉴于上述问题，本发明的目的在于提供一种多类型实体识别的多任务深度学习模型的训练方法，旨在解决现有数据无法深度抽取，并且数据抽取过程时间长，错误率高等技术问题。

本发明采用如下技术方案：

所述多类型实体识别的多任务深度学习模型的训练方法包括如下步骤：

步骤S1、数据预处理：将所有获取的文本语料数据按照需求进行数据清洗操作；

步骤S2、建立skip-gram神经网络模型将预处理后的文本语料数据转为向量；

步骤S3、根据要识别和提取的实体类型构建样本数据集，所述样本数据集分为训练集、验证集、测试集；

步骤S4、构建样本数据的分词特征：将预处理后的文本语料数据按照单个文本进行分词，并对每个词进行标注，作为语料的分词特征；

步骤S5、建立多类型实体识别的多任务深度学习模型。

进一步的，步骤S2具体过程如下：

利用skip-gram神经网络模型进行训练，得到一个固定的字符特征向量文件，文件命名为vocb，其中每个字符都根据语义转为相同长度的向量，所述向量的长度为char_dim。

进一步的，步骤S3中具体过程如下：

对于步骤S1中预处理后的语料数据按字符进行实体标注，并且对于不同类型的实体分别创建标注样本，假设有M种类型的实体，生成M份标注不同类型实体的标注样本，其中同一类型内的实体单元标注相同，标注完毕后按比例分割成训练集、验证集、测试集。

进一步的，步骤S3中所述“按字符进行实体标注”具体过程如下：

若一个文本字符串是一个实体，那么该文本字符串的开头字符标注为“B-实体类型名”，其它字符均标注为“I-实体类型名”，若一个文本字符串是一个实体，但是只有一个字符，那么标注为“S-实体类型名”，语料中不是实体的字符全部标注为“O”。

进一步的，步骤S4中所述分词特征，即对分词结果中的每个字符进行标注，若字符是所在分词的第一个字符，标注为“B”，若字符是所在分词的最后一个字符，标注为“E”，若字符是所在分词的中间字符，标注为“I”，若分词后只有一个单字符，那么这个字符标注为“S”，并且按照“B”“I”“O”“S”顺序分别编码成数值1,2,3,4。

进一步的，步骤S5具体过程如下：

步骤S5.1、建立输入层：训练样本中抽样选择n个样本，取字符长度最长的样本的长度max_len作为输入层的节点数量，样本长度不足的节点用“UNK”填充，那么输出到模型下一个层次的所有字符长度为n*max_len；

步骤S5.2、建立共享层：共享层指对于同一种类型的实体，其相关性或者相似性的特征在共享层中计算并体现，共享层分为2部分：

第一部分为向量计算层，计算方式为：获取输入层的样本字符，查找每个字符对应在步骤S4中的分词特征和步骤S2文件vocb中的字符向量，同时把分词特征映射表达成seg_dim维度的分词特征向量，每个字符的分词特征向量和字符向量顺序拼接，那么输出到空洞卷积层的单个字符的向量长度是char_dim+seg_dim，所有的输出样本表达成[n,max_len,char_dim+seg_dim]的3维度的空间向量；

第二部分为空洞卷积层，该层内部包含4个网络层，具体为3次空洞卷积操作层以及一个输出层，所述空洞卷积层的具体算法为获取上一层计算的样本3维度的空间向量，然后依次计算3次空洞卷积层，最后在输出层进行合并转成特征向量进入下一层；

步骤S5.3、建立多任务层：根据所要提取的实体类型数量M，本层需要进行M个并行任务，每个任务都采用独立的CRF算法，具体的，对于每个任务有以下计算步骤：

获取共享层输出的样本的特征向量，输入到CRF算法中，采用极大似然估计法估计每个字符分别属于“B”“I”“O”“S”4种标注的概率值；

同时从样本数据中取得对应该任务的实体类型的实际标注，计算损失函数值即loss值，损失函数值反映的是经过此次训练样本数据的实际值与估计值之间的误差的期望；

步骤S5.4、建立合并处理层：从多任务层获取的样本数据中每个字符属于“B”“I”“O”“S”4种标注的概率值和对应的实体类型合并后，每个字符有4*M个概率值，从中取最大的一种概率值作为最后的估计标注；将多任务层同时训练的每个任务的loss值相加，即为整个模型的loss值，标记为total_loss，两次任务total_loss值之间的差值趋近于0时终止任务，停止训练并保存模型，否则重新执行步骤S3至S5。

本发明的有益效果是：现对于现有技术，本发明采用多任务深度学习训练方法，建立多类型实体识别模型，以达到更精确的识别和提取实体的目的；本发明中，相关类型的实体采用参数共享的方式实现共同特征的提取，又使用独立的模型完成实体的标注，使得模型对于一个文本数据的多种实体识别和提取有更好的泛化能力，即实体识别的整体正确性得到提升；另外，本发明只训练一个模型，在一次迭代过程中共同特征只用训练一次，可以极大的缩减训练时间。

附图说明

图1是本发明实施例一提供的多类型实体识别的多任务深度学习模型的训练方法的流程图；

图2是本发明实施例一提供的实体标注样本数据图；

图3是本发明实施例二提供的多类型实体识别的多任务深度学习模型的训练装置图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

如图1所示，本发明实施例提供的多类型实体识别的多任务深度学习模型的训练方法包括如下步骤：

步骤S1中预处理操作主要是将文本语料数据中无效的字符、空格、换行符等去掉，或者将网页来源文本语料数据的网页格式去掉等,从而净化文本数据。

步骤S2的具体过程如下：

利用skip-gram神经网络模型进行训练，得到一个固定的字符特征向量文件，文件命名为vocb，其中每个字符都根据语义转为相同长度的向量，所述向量的长度为char_dim，这里的char_dim设置为100。

步骤S3中具体过程如下：

如图2所示，所述步骤S3中“按字符进行实体标注”具体过程如下：

步骤S4中所述分词特征，即对分词结果中的每个字符进行标注，若字符是所在分词的第一个字符，标注为“B”，若字符是所在分词的最后一个字符，标注为“E”，若字符是所在分词的中间字符，标注为“I”，若分词后只有一个单字符，那么这个字符标注为“S”，并且按照“B”“I”“O”“S”顺序分别编码成数值1,2,3,4。

步骤S5、建立多类型实体识别的多任务深度学习模型。

多任务深度学习模型由数据输入层、共享层、多任务层、合并处理层构成；

步骤S5具体过程如下：

第一部分为向量计算层，计算方式为：获取输入层的样本字符，查找每个字符对应在步骤S4中的分词特征和步骤S2文件vocb中的字符向量，同时把分词特征映射表达成seg_dim维度的分词特征向量，这里设置seg_dim的值为20，每个字符的分词特征向量和字符向量顺序拼接，那么输出到空洞卷积层的单个字符的向量长度是char_dim+seg_dim，所有的输出样本表达成[n,max_len,char_dim+seg_dim]的3维度的空间向量；

第二部分为空洞卷积层，该层内部包含4个网络层，具体为3次空洞卷积操作层以及一个输出层，3次卷积的空洞值分别取1，1，2，每层卷积核的大小都是3*3，每层卷积核的个数num_filter设置为100，所述空洞卷积层的具体算法为获取上一层计算的样本3维度的空间向量，然后依次计算3次空洞卷积层，最后在输出层进行合并转成特征向量进入下一层；

同时从样本数据中取得对应该任务的实体类型的实际标注，计算损失函数值即loss值，损失函数值反映的是经过此次训练样本数据的实际值与估计值之间的误差的期望；本发明采用空洞卷积神经网络和条件随机场相结合的算法实现了文本数据中的实体识别；

本方法中的深度学习模型采用空洞卷积神经网络IDCNN和条件随机场算法CRF相结合，实现文本数据中的实体识别，IDCNN模型是卷积神经网络的一种，可以用于自然语言处理中，但是IDCNN神经网络比普通的CNN更好的保存的原始数据的信息，CRF算法广泛应用于文本数据中的实体识别，将IDCNN和CRF相结合比单独使用其中一种方法识别和提取实体更有效。

在本方案中，采用了多任务学习和深度学习相结合的方法用于非结构化文本数据中的多类型的实体识别。

深度学习是一种对数据特征进行学习的方法，其中多隐含层的神经网络是一种深度学习的结构，它能解决自然语言处理领域nlp的大部分问题，如文本分类、实体识别等问题，多任务学习通过使用共享表示并行训练多个相关任务来完成目标，这个共享表示具有较强的抽象能力，能够适应多个不同但相关的目标，通常可以使主任务获得更好的泛化能力；此外，使用共享表示，多个任务同时进行预测时，减少了数据来源的数量以及整体模型参数的规模，使预测更加高效；因此在数据识别与抽取领域可以广泛使用；本发明将多任务学习与深度学习相结合应用于文本数据中的实体识别和抽取。

此外，若利用现有的技术方案对每个类型的实体分别建立模型识别和提取，又必然会导致模型的训练时间加长，且会产生提取结果交叉性错误，本发明只训练一个模型，在一次迭代过程中共同特征只用训练一次，可以极大的缩减训练时间。

实施例二：

如图3所示，本发明提供一种多类型实体识别的多任务深度学习模型的训练装置，用于完成本发明提供的多类型实体识别的多任务深度学习模型的训练方法，所述多类型实体识别的多任务深度学习模型的训练装置包括：

数据处理单元，用于数据清洗：将获取所有的文本语料数据按照需求进行数据清洗；

转换单元，用于建立skip-gram神经网络模型将预处理后的文本语料数据转为向量；

样本数据构建单元，用于建立数据集：将要识别和提取的实体类型构建样本数据集；

分词单元：用于构建样本的分词特征:将预处理后的文本语料数据按照单个文本进行分词，并对每个词进行标注，作为语料的分词特征；

模型建立单元，用于建立多类型实体识别的多任务深度学习模型。

本实施例提供的各个功能单元对应实现了实施例一中的步骤S1-S5，具体实现过程这里不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多类型实体识别的多任务深度学习模型的训练方法，其特征在于，所述方法包括下述步骤：

其中步骤S2具体过程如下：

利用skip-gram神经网络模型进行训练，得到一个固定的字符特征向量文件，文件命名为vocb，其中每个字符都根据语义转为相同长度的向量，所述向量的长度为char_dim；

步骤S3中具体过程如下：

对于步骤S1中预处理后的语料数据按字符进行实体标注，并且对于不同类型的实体分别创建标注样本，共有M种类型的实体，生成M份标注不同类型实体的标注样本，其中同一类型内的实体单元标注相同，标注完毕后按比例分割成训练集、验证集、测试集；

步骤S3中所述“按字符进行实体标注”具体过程如下：

若一个文本字符串是一个实体，那么该文本字符串的开头字符标注为“B-实体类型名”，其它字符均标注为“I-实体类型名”，若一个文本字符串是一个实体，但是只有一个字符，那么标注为“S-实体类型名”，语料中不是实体的字符全部标注为“O”；

步骤S4中所述分词特征，即对分词结果中的每个字符进行标注，若字符是所在分词的第一个字符，标注为“B”，若字符是所在分词的最后一个字符，标注为“E”，若字符是所在分词的中间字符，标注为“I”，若分词后只有一个单字符，那么这个字符标注为“S”，并且按照“B”“I”“O”“S”顺序分别编码成数值1,2,3,4；

其中步骤S5具体过程如下：