CN111985229A

CN111985229A - 一种序列标注方法、装置及计算机设备

Info

Publication number: CN111985229A
Application number: CN201910424100.XA
Authority: CN
Inventors: 谭莲芝; 龙梓; 郭豪; 涂建超; 夏武; 曹祥文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2020-11-24
Anticipated expiration: 2039-05-21
Also published as: CN111985229B

Abstract

本发明公开了一种序列标注方法、装置及计算机设备，属于计算机技术领域，用于提高序列标注的准确性。所述方法包括：获得待标注的文本序列的各个单词的字符级特征向量以及基于上下文语义的词特征向量，将各个单词的字符级特征向量与词特征向量进行拼接，以获得各个单词的拼接词向量表示；基于预先训练的注意力预测模型，确定每个单词在所述文本序列中的注意力权重，其中，所述注意力预测模型是根据多个文本序列训练样本训练得到的，每个文本序列训练样本包括的单词均标注了相应的注意力权重；根据对应的注意力权重，对每个单词的拼接词向量表示进行序列标注处理，得到所述文本序列的标签标注序列。

Description

一种序列标注方法、装置及计算机设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种序列标注方法、装置及计算机设备。

背景技术

随着近年来互联网等新兴媒体的快速发展，人类已经进入了信息***的时代。同时也越来越希望计算机能够理解人类的语言，以更好地帮助人类完成各种日常工作，因此自然语言处理(natural language processing，NLP)成为了近年来的研究热点。而在自然语言处理中，序列标注有着广泛地应用，例如命名实体识别的标注，而如何提高序列标注的准确性是值得思考的问题。

发明内容

本申请实施例提供一种预序列标注方法、装置及计算机设备，用于提高序列标注的准确性。

一方面，提供一种序列标注方法，所述方法包括：

对待标注的文本序列进行分词处理，以获得所述文本序列包括的单词；

获得各个单词的字符级特征向量，以及获得各个单词基于上下文语义的词特征向量；

将各个单词的字符级特征向量与词特征向量进行拼接，以获得各个单词的拼接词向量表示；

基于预先训练的注意力预测模型，确定每个单词在所述文本序列中的注意力权重，其中，所述注意力预测模型是根据多个文本序列训练样本训练得到的，每个文本序列训练样本包括的单词均标注了相应的注意力权重；

根据对应的注意力权重，对每个单词的拼接词向量表示进行序列标注处理，得到所述文本序列的标签标注序列。

一方面，提供一种序列标注装置，所述装置包括：

分词处理模块，用于对待标注的文本序列进行分词处理，以获得所述文本序列包括的单词；

第一表示模块，用于获得各个单词的字符级特征向量；

第二表示模块，用于获得各个单词基于上下文语义的词特征向量；

拼接表示模块，用于将各个单词的字符级特征向量与词特征向量进行拼接，以获得各个单词的拼接词向量表示；

注意力预测模块，用于基于预先训练的注意力预测模型，确定每个单词在所述文本序列中的注意力权重，其中，所述注意力预测模型是根据多个文本序列训练样本训练得到的，每个文本序列训练样本包括的单词均标注了相应的注意力权重；

序列标注模块，用于根据对应的注意力权重，对每个单词的拼接词向量表示进行序列标注处理，得到所述文本序列的标签标注序列。

在一种可能的设计中，所述装置还包括确定模块，用于在获得各个单词的字符级特征向量和词特征向量之前，从所述文本序列包括的单词中确定满足预设条件的目标单词；则，

所述第一表示模块，用于获得各个目标单词的字符级特征向量；

所述第二表示模块，用于获得各个目标单词基于上下文语义的词特征向量；

在一种可能的设计中，所述序列标注模块还用于：

针对所述文本序列中的每个非目标单词，以正则表达式进行正则化处理；

根据正则化的匹配结果，确定每个非目标单词的标注标签；

以确定出的标注标签对对应的非目标单词进行标注，获得非目标单词的标签标注序列。

在一种可能的设计中，所述确定模块用于：

确定所述文本序列的文件格式，将所述文本序列中单词对应的字段与所述文件格式不相同的单词确定为所述目标单词；或者，

将所述文本序列中单词对应的字段不属于预设字段的单词确定为所述目标单词。

在一种可能的设计中，所述装置还包括模型训练模块，用于：

获得文本序列训练样本集合，其中，每个文本序列训练样本中的单词标注有注意力权重，每个单词标注的注意力权重用于表明该单词在该文本序列训练样本中的被关注程度；

针对每个文本序列训练样本，获得该文本序列训练样本中的每个单词的字符级特征向量和词向量的拼接词特征向量表示；

根据每个单词的拼接词向量表示和对应的注意力权重，对初始的注意力预测模型进行训练，以得训练后的注意力预测模型。

在一种可能的设计中，所述模型训练模块还用于：

获得所述文本序列的实际标注结果；

若所述实际标注结果与基于所述注意力预测模型得到的标签标注序列不符，则根据所述实际标注结果对所述文本序列中的各个单词的注意力权重重新标注，以得到新的文本序列训练样本；

利用所述新的文本序列训练样本重新训练所述注意力预测模型，以得到更新后的注意力预测模型。

在一种可能的设计中，所述第二表示模块用于：

获得各个单词的初始词向量；

利用循环神经网络的第一循环层对各个单词的初始词向量进行正向迭代，以得到各个单词的正向输出序列；

利用所述循环神经网络的第二循环层对各个单词的初始词向量进行反向迭代，以得到各个单词的反向输出序列；

将各个单词的正向输出序列与反向输出序列拼接得到的序列，作为该单词的基于上下文语义的词特征向量。

一方面，提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述各方面中的方法包括的步骤。

一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述各方面中的方法包括的步骤。

本申请实施例中的技术方案，在对文本序列进行序列标注的过程中，由于采用了注意力机制，在LSTM层和CRF层之间增加了注意力网络，即采用LSTM-ATTN-CRF的模型来进行序列标注，具体来说，是采用预先训练好的注意力预测模型来预测待标注的文本序列中的各个单词的注意力权重，进而在进行标注时结合单词自身的特性和注意力权重来进行序列标注，这样，可以更加充分地考虑到每一层网络的特征对于最终的输出的影响，结合到隐藏层的特征进行序列标注，由于考虑的参数更多，这样可以在一定程度上提高序列标注的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1a为现有的LSTM+CRF模型的示意图；

图1b为现有的LSTM+CRF模型的另一示意图；

图2为本申请实施例中的应用场景的示意图；

图3为本申请实施例中的序列标注装置的结构示意图；

图4为本申请实施例中的序列标注方法的流程图；

图5为本申请实施例中的使用注意力模型进行序列标注的示意图；

图6为本申请实施例中的序列预测装置的结构框图；

图7为本申请实施例中的计算机设备的结构示意图；

图8为本申请实施例中的计算机设备的另一结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个，例如可以是两个、三个或者更多个，本申请实施例不做限制。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

以下对本文中涉及的部分用语进行说明，以便于本领域技术人员理解。

1、循环神经网络(Recurrent Neural Network，RNN)，具有记忆功能，它会记住网络在上一时刻运行时产生的状态值，并将该值用于当前时刻输出值的生成。循环神经网络由输入层、循环层和输出层构成，可能还包括全连接神经网络中的全连接层。循环神经网络的输入为向量序列，每个时刻接收一个输入x_t，网络会产生一个输出y_t，而这个输出是由之前时刻的输入序列共同决定的。

循环神经网络因为其具有记忆功能，所以特别适合序列标注任务。

2、双向循环神经网络，如上所说的，循环神经网络因为其具有记忆功能，特别适合序列标注任务。但是，循环神经网络在处理这类任务时面临的一个问题是标注的循环神经网络是单向的，但有些问题不仅需要序列过去时刻的信息，还需要未来时刻的信息。例如，我们需要理解一个句子中的某个词，它不仅与句子中前面的词有关，还与后面的词有关，即上下文语境，而解决这个问题的方法便是双向循环神经网络。

双向循环神经网络是用两个不同的循环层分别从正向和反向对数据进行扫描。假设双向循环神经网络的输入序列为：x₁，x₂，x₃，x₄。

首先用第一个循环层进行正向迭代，得到隐含层(又称隐藏层)的正向输出序列：

其中，

由x₁决定，

由x₁、x₂决定，

由x₁、x₂、x₃决定，

由x₁、x₂、x₃、x₄决定，即每个时刻的状态值由到当前时刻位置的所有输入值序列决定，这利用的是序列的过去时间信息。

然后利用第二个循环层进行反向迭代，输入序列是：x₄，x₃，x₂，x₁，得到隐含层的反向输出序列是：

其中，

由x₄决定，

由x₄、x₃决定，

由x_4、x_3、x₂决定，

由x₄、x₃、x₂、x₁决定，即每个时刻的状态值由它之后的输入序列决定，这里利用的是序列未来时刻的信息。

然后，将每个时刻的隐含层的正向输出序列和反向输出序列合并拼接起来得到

进而再将其送入神经网络中后面的层进行处理得到输出值。

3、长短期记忆模型(Long Short-Term Memory，LSTM)，它对循环层单元进行改造，避免用公式直接计算隐含层状态值。LSTM是一种长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM可以理解为是一种循环神经网络，而双向的LSTM则简称为BLSTM或BiLSTM或Bi-LSTM。

4、条件随机场(Conditional Random Field，CRF)，是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。CRF可用于不同的预测问题，例如在标注问题中的应用。

5、词向量特征，或称Embedding特征或词向量，用于描述文本数据所包括的词之间的语义关系，词向量特征的描述思想是通过将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式，词向量特征的提取可以通过深度学习模型进行提取，例如可以采用卷积神经网络(Convolutional Neural Networks，CNN)模型、LSTM模型、RNN或者Gated CNN(G-CNN)模型等进行提取，当然，也可以采用其它可能的深度学习模型进行提取。

6、注意力(Attention)机制，即人工神经网络领域所使用的注意力模型。注意力机制的本质来自于人类视觉注意力机制，人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分，而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。因此，注意力机制实质上是从大量信息中筛选出高价值信息的手段，在大量信息中，不同信息对于结果的重要性是不同的，这种重要性可以通过赋予不同大小的注意力权值来体现，换言之，注意力机制可以理解成对多个来源进行合成时分配权重的一种规则。

以下介绍本申请的设计思想。

在相关的现有技术中，随着深度学习技术的兴起，目前一般采用基于深度学习的序列标注方法来进行序列标注，比如sequence to sequence、LSTM、LSTM-CRF、CNN-LSTM-CRF等不断涌现。其中LSTM-CRF为基础的方法，在不同领域中的不同标注问题上均取得了不错的效果，LSTM-CRF的一般网络架构如图1a所示，主要包括embeddings层、BiLSTM层和CRF层。再结合图1b理解，其中，以x₁、x₂、……x_n表示一个单词，对应的，x_1,1、x_1,2、……、x_1,t(1)表示x₁这个单词中所包括的字符。在序列标注过程中，以单词为单位，训练词向量，每个单词x_n的词向量经过一个双向的LSTM得到char-LSTM隐藏层特征，隐藏层特征用于表示单词基于上下文语义的相关特征。每个单词的词向量还通过embeddings层得到该单词的字符特征。所得到的隐藏层特征和字符特拼接起来得到的e_n作为后续网络的输入。具体来说，是经过双向LSTM和一层全连接层，一层CRF层，其中隐藏层可以使用dropout机制，随机砍掉一半节点之间的参数以增加模型的鲁棒性。采用现有的LSTM+CRF模型，由于模型自身的隐藏层参数较少，所以在进行序列标注时，未考虑隐藏层的特征对于最终标注的影响，所以这将导致最终的标注结果准确性较低。

鉴于此，本申请实施例提供一种序列标注方法，在该方法中加入了注意力机制，在LSTM和CRF之间增加了注意力网络，即采用LSTM-ATTN-CRF的模型来进行序列标注，具体来说，是采用预先训练好的注意力预测模型来预测待标注的文本序列中的各个单词的注意力权重，最后在进行标注时结合单词自身的特性和注意力权重来进行标注，这样，可以更加充分地考虑到每一层网络的特征对于最终的输出的影响，结合到隐藏层的特征进行序列标注，由于考虑的参数更多，这样可以在一定程度上提高序列标注的准确性。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例提供的技术方案适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本发明实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

请参见图2所示的一种应用场景示意图，在该应用场景中，包括终端设备201、终端设备202、终端设备203和服务器204。其中，在各个终端设备中可以进行采用本申请实施例中的序列标注方案进行前端序列标注，前端序列标注可以用于人工验证算法预测标注的结果好坏。服务器204可以进行后台的模型训练，例如基于训练样本训练注意力模型，并且将训练好的注意力模型供各个终端设备使用，当然，服务器204步进可以训练模型，同时也可以采用本申请实施例中的序列标注方法进行例如各个终端设备处的前端标注。其中，服务器204可以从训练数据库获得原始文本，然后对原始文本经过预处理之后可以形成训练样本，同时，训练样本也可以同时作为验证样本使用，然后基于获得的训练样本训练模型，模型训练包括初次训练和更新训练。以终端设备203为例，终端设备203通过服务器204训练好的模型，再通过本申请实施例中所介绍的序列标注方法可以对待检测的文本序列进行自动的标注，即通过深度学习和机器学习的思想，实现了自动的序列标注，这样可以减少大量由于人为进行序列标注的工作量，提高序列标注的效率。

前述的终端设备201、终端设备202和终端设备203可以是手机、平板电脑、掌上电脑(Personal Digital Assistant，PDA)，笔记本电脑、智能穿戴式设备(例如智能手表和智能手环)、个人计算机，等等，无论是哪种类型的终端设备，在该终端设备中均可进行序列标注。以及，前述的服务器204可以是个人计算机、大中型计算机、计算机集群，等等。

当然，本发明实施例提供的方法并不限用于图2所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图2所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时，可按照实施例或者附图所示的方法顺序执行或者并行执行。

以下结合图3对本申请实施例中的技术方案进行大概说明。

序列标注装置可以对待标注的文本序列进行序列标注，序列标注装置中可以运行序列标注模型，而序列标注模型可以包括数据清洗模块301至CRF模块307在内的多个功能模块。序列标注装置在获得待标注的文本序列之后，可以通过数据清洗模块301对其进行数据清洗，例如进行pdf转txt文本以及过滤掉标点符合和一些语气助词的数据清洗操作，这样可以得到更纯粹的文本序列。进而，通过分词处理模块302对文本序列进行分词处理，以得到各个单词。进一步地，针对各个单词，再利用字符向量标识模块303确定出各个单词的字符级特征向量，以及利用单词向量表示模块304确定出各个单词的词特征向量。然而，利用拼接向量表示模块305将每个单词的字符级特征向量和词特征向量进行拼接，以得到拼接词向量表示。此外，还会通过注意力权重预测模块306计算得到各个单词的注意力权重。最后，通过CRF模块307，根据每个单词的注意力权重，对每个单词的拼接词向量表示进行序列标注处理，以得到文本序列的标签标注序列，即获得序列标注结果，并可以将该序列标注结果输出。

以下结合图4所示的序列标注方法的流程图对本申请实施例中的技术方案进行说明。该序列标注方法可以由如图2中的任一终端设备(终端设备201或终端设备202或终端设备203)或服务器204执行。

以下对图4中的方法流程进行说明。

步骤401：获得待标注的文本序列。

在具体实施过程中，待标注的文本序列可以是任意的文本，例如可以是网络安全领域的安全类报告文本或者网络防护日志，或者还可以是其它类型的文本，本申请实施例不做限制。

在获得待标注的文本之后，可以对其进行数据清洗，例如先将其转换成txt格式的文件，以及还可以删除一些特殊的符号，例如删除标点符号、数字或字母编号，等等，以及还可以删除例如“呀”、“啊”、“呵”等一些语气助词，等等，经过数据清洗处理，可以使得留下来的文本内容是能够真正体现文本含义的内容，进而确保后续的分词处理以及标注处理的数据量更小，同时也可以避免这些被清除的数据对文本本身内容所造成的干扰，以尽量提高分词以及序列标注的准确性和有效性。

步骤402：对待标注的文本序列进行分词处理，以得到该文本序列所包括的所有单词。

进一步地，可以采用现有任意的分词处理方式对经过清洗处理后的文本进行分词处理，以得到该文本对应的文本序列所包括的所有单词。例如对于“张三在北京开演唱会”这段文本序列，经过分词处理之后，可以得到“张三”、“在”、“北京”、“开”、“演唱会”这5个单词。

步骤403：根据预设条件将文本序列包括的单词划分为目标单词和非目标单词两类单词。

也就是说，可以通过预设条件将文本序列包括的所有单词划分为两类单词，为了便于描述，将划分的一类单词称作目标单词，将划分的另一类单词称作非目标单词。进一步地，将根据划分的类型不同，后续将对目标单词和非目标单词采用不同的方式进行序列标注处理，这样可以满足不同类型的单词对于序列标注的需求，采用差异化的方式对同一个序列文本中的不同单词进行序列标注处理，可以提高序列标注的灵活性。

在具体实施过程中，例如将满足预设条件的单词称作目标单词，以及将不满足预设条件的单词称作非目标单词。

在一种可能的实施方式中，可以先确定文本序列对应的文件格式，在该文件格式为预定文件格式时，则可以将文本序列中单词对应的字段与该文件格式不相同的单词确定为目标单词。例如对于一些网络安全类报告文本，包括一些pdb(又称调试信息)、服务、启动项等相关信息，以pdb信息为例，通常是保存在格式后缀名为.pdb的安全类报告中，所以安全报告只要过滤到“*.pdb”这个字段就可以认为识别成功，由于pdb信息这类信息的训练样本很少，所以如果采用模型训练的算法来进行标注的话一般难以正确标注，所以针对这些较为特殊的文件中的信息，则可以采用其他方式(例如正则化处理)的方式进行序列标注，从而可以尽量确保最终的序列标注的准确性。所以，基于此考虑，可以将文本序列中单词对应的字段与该文件格式不相同的单词确定为目标单词进而以模型算法进行序列标注，而对于与该文件格式相同的单词则确定为非目标单词，进而对非目标单词以正则化处理等方式进行序列标注，以尽量确保标注的准确率。

在另一种可能的实施方式中，可以将文本序列中单词对应的字段不属于预设字段的单词确定为目标单词，对应的，将将文本序列中单词对应的字段属于预设字段的单词确定为非目标单词。在该实施方式中，也是考虑到如前所述的由于一些特殊字段的单词由于平时的训练样本较少，所以如果采用模型算法来进行序列标注的话也会存在准确性较低的问题，因此，可以通过预设字段来判断某个单词对应的训练样本数的大概多少，其中预设字段对应的训练样本数一般较少，例如训练样本数是小于10个的，为此，则可以将属于预设字段的单词作为非目标单词以进行正则提取进而序列标注，而不属于预设字段的单词则说明训练样本较多，样本覆盖比较均匀，这些单词即可以划分为目标单词以通过模型算法的方式进行序列标注。

在具体实施过程中，还可以设置其它的一些预设条件来划分目标单词和非目标单词，本申请实施例就不再举例说明了。

步骤404：对于目标单词，获得每个目标单词的字符级特征向量，以及获得每个目标单词的基于上下文语义的词特征向量。

如前所述的，目标单词对应的训练样本一般是比较充足的，针对这类单词可以采用模型算法的方式来进行序列标注。那么首先，可以获得每个目标单词的字符级特征向量，以及可每个目标单词的基于上下文语义的词特征向量。

其中，字符级特征向量可以用于表征单词自身的客观含义，由单词中所包括的各个字符来决定。在具体实施过程中，可以通过字符向量表来确定单词的字符级特征向量。其中，字符向量表可以认为是全部字符向量的集合，类似于字符向量库，即字符向量表中包括收录的所有字符的字符向量。例如，通过查找字符向量表，可以获得“北”和“京”这两个字符的字符向量分别是：

北＝[0.9812937，0.8238749，……，0.6275763]；

京＝[0.8749298，0.5661328，……，0.7671823]。

其中，“北”和“京”这两个字符的字符向量例如均是3000维度，即“北”和“京”这两个字符的字符向量中均包括3000个元素，本文是为了简略，只以3个元素标识，其余的以“……”代替。

在获得“北”和“京”这两个字符的字符向量之后，则可以获得“北京”这个单词的字符级特征向量为：

进一步地，还需要获得每个单词的基于上下文语义的词特征向量，其中的基于上下文语义，是指将单词置于一段话甚至整篇文档中结合到上下文语境和语义实际所表达的含义。由于需要结合上下文语义，单词的词特征向量可以采用前述介绍的双向神经网络来确定，例如可以通过双向LSTM(Bi-LSTM)来确定，具体来说，可以先获得各个单词的初始词向量；进一步地，利用双向循环神经网络的第一循环层对该单词的初始词向量进行正向迭代，以得到该单词的正向输出序列，以及利用该双向循环神经网络的第二循环层对该单词的初始词向量进行反向迭代，以得到该单词的反向输出序列；最后，将各个单词的正向输出序列与反向输出序列拼接得到的序列，作为该单词的基于上下文语义的词特征向量。对于单词的词特征向量的具体实施过程，可以参见前述对于双向循环神经网络的说明，此处就不再展开说明了。

步骤405：将各个目标单词的字符级特征向量与词特征向量进行拼接，以获得各个目标单词的拼接词向量表示。

其中，所谓的向量拼接，可以理解为是将一个向量直接拼在另一个向量的后面，例如，a＝[1，2，3]，b＝[5]，将向量a和向量b拼接起来就是[1，2，3，5]或者[5，1，2，3]。参见图5所示的LSTM+ATTN+CRF网络，单词的字符级特征向量与词特征向量拼接后的向量是以e₁、e₂、……、e_n表示的，即可以用e_n来表示本申请实施例中的目标单词的拼接词向量表示。

步骤406：基于注意力预测模型，确定每个目标单词的注意力权重。

结合图5理解，本申请实施例是在现有的LSTM+CRF模型的基础上，在LSTM层和CRF层之间添加了注意力(Attention)网络，即采用了LSTM+ATTN+CRF这种新的网络模型来进行序列标注，这样，可以利用注意力机制为每个目标单词设置一个注意力权重，而单词的注意力权重是用于表示该单词对最终预测的标注序列(即图5中的y₁、y₂、……、y_n)的影响程度。

在具体实施过程中，注意力预测模型可以是预先就训练好的，而该注意力预测模型是根据多个文本序列训练样本训练得到的，并且每个文本序列训练样本包括的单词均标注了相应的注意力权重，对于注意力预测模型的训练过程将在后文描述。具体来说，可以将各个目标单词的拼接词向量表示输入到注意力预测模型，进而，注意力预测模型经过计算可以得到该目标单词对应的注意力权重，例如对于“张三在北京开演唱会”这段文本序列，经过分词处理后得到“张三”、“在”、“北京”、“开”、“演唱会”这5个单词，通过注意力预测模型，为这个5个单词预测的注意力权重分别是：w₁＝0.1，w₂＝0.05，w₃＝0.35，w₄＝0.05，w₅＝0.45。其中，可见，“北京”的注意力权重(即w₃＝0.35)和“演唱会”的注意力权重(w₅＝0.45)都是比较大，说明对于“张三在北京开演唱会”这段文本序列中，影响比较大的两个单词是“北京”和“演唱会”，这也符合人们一般的常规思维，对于“张三在北京开演唱会”这句话，关注的重点是“北京”和“演唱会”。

步骤407：根据对应的注意力权重，对每个目标单词的拼接词向量表示进行序列标注处理，以得到所有目标单词的标签标注序列。

进一步地，可以基于注意力权重进行标注处理，例如对于上述例子的“张三在北京开演唱会”的文本序列，其所包括的5个单词均为目标单词，并且对应的拼接词向量表示依次为e_n＝{e₁,e₂,e₃,e₄,e₅}，以及分别对应的注意力权重是w_n＝{w₁,w₂,w₃,w₄,w₅}，一种简单的理解方式是，可以直接做乘法运算，参照图5理解，进而得到：a_n＝{w₁*e₁,w₂*e₁,w₃*e₃,w₄*e₄,w₅*e₅}。进一步地，将得到的a_n作为CRF层的输入，以通过CRF层完成最终的标注过程，以得到所有目标单词的标签标注序列。

以命名实体标注为例，例如可以采用BIO标注集或者可以采用BMEO标注集。其中，对于BIO标注集，B-PER、I-PER代表人名首字、人名非首字，B-LOC、I-LOC代表地名首字、地名非首字，B-ORG、I-ORG代表组织机构名首字、组织机构名非首字，O代表该字符不属于命名实体的一部分；对于BMEO标注集，BA代表这个字符是地址首字，MA代表这个字符是地址中间字，EA代表这个字符是地址的尾字；BO代表这个字符是机构名的首字，MO代表这个字符是机构名称的中间字，EO代表这个字符是机构名的尾字；BP代表这个字符是人名首字，MP代表这个字符是人名中间字，EP代表这个字符是人名尾字，而O代表这个字符不属于命名实体。

步骤408：对于非目标单词，对每个非目标单词进行正则化处理。

如前所述的，非目标单词可以采用正则表达式进行正则化处理，以得到每个非目标单词的正则化的匹配结果。

步骤409：根据正则化的匹配结果，确定每个非目标单词的标注标签。

进一步地，再根据每个非目标单词的正则化的匹配结果，得到每个非目标单词的标注标签，例如可以通过预先设置的正则化结果与标注标签之间的对应关系来获得每个非目标单词的标注标签。

步骤410：以确定出的标注标签对对应的每个非目标单词进行标注，以获得所有非目标单词的标签标注序列。

通过步骤408-步骤410，即可完成所有非目标单词的标签标注序列。

步骤411：根据步骤407获得的目标单词的标签标注序列，以及步骤410获得的非目标单词的标签标注序列，得到针对待标注的文本序列的最终序列标注结果，并可以输出该最终的序列标注结果。

也就是说，可以将前述的算法模型标注得到的所有目标单词的标签标注序列与基于正则化处理得到的所有非目标单词的标签标注序列合起来作为最终的序列标注结果，并且可以将该序列标注结果在前端显示。

基于前述的注意利预测模型，以下对其训练过程进行介绍。

首先，获得文本序列训练样本集合，其中，每个文本序列训练样本中的单词标注有注意力权重，每个单词标注的注意力权重用于表明该单词在该文本序列训练样本中的被关注程度。

进一步地，针对每个文本序列训练样本，获得该文本序列训练样本中的每个单词的字符级特征向量和词向量的拼接词向量表示。而对于对此的拼接词向量表示的获取方式在前面已经有介绍，这里就不再重复说明了。

最后，根据每个单词的拼接词向量表示和对应的注意力权重，对初始的注意力预测模型进行训练，以得训练后的注意力预测模型。而对模型进行训练的具体方式可以按照现有的方式进行，本申请实施例不做限制。

本申请实施例中，可以通过人工标注的方式或者其它方式获得前述的待标注的文本序列的实际标注结果，然后，判断该实际标注结果与基于前述的注意力预测模型得到的标签标注序列是否相符，若不相符的话，则表明预测标注存在误差，那么则表明注意力预测模型预测的不够准确，此时则可以根据前述的实际标注结果，基于人工标注的方式对前述的文本序列重新进行标注，以得到新的文本序列训练样本，然后再用该新的文本序列训练样本对之前进行注意力权重预测的注意力预测模型重新进行训练，即通过新的文本序列训练样本来更新之前使用的注意力预测模型，以实现对注意力预测模型的更新和迭代训练，从而可以尽量提高模型预测的准确性，以提高最终的序列标注的准确性。

本申请实施例中的序列标注方法，由于加入了注意力机制，在LSTM和CRF之间增加了注意力网络，即采用LSTM-ATTN-CRF的模型来进行序列标注，具体来说，是采用预先训练好的注意力模型来预测待标注的文本序列中的各个单词的注意力权重，最后在进行标注时结合单词自身的特性和注意力权重来进行序列标注，这样，可以更加充分地考虑到每一层网络的特征对于最终的输出的影响，结合到隐藏层的特征进行序列标注，由于考虑的参数更多，这样可以在一定程度上提高序列标注的准确性。

基于同一发明构思，本申请实施例提供一种序列标注装置。该序列标注装置可以是硬件结构、软件模块、或硬件结构加软件模块。该序列标注装置可以由芯片***实现，芯片***可以由芯片构成，也可以包含芯片和其他分立器件。请参见图6所示，本申请实施例中的序列标注装置包括分词处理模块601、第一表示模块602、第二表示模块603、拼接表示模块604、注意力预测模块605和序列标注模块606，其中：

分词处理模块601，用于对待标注的文本序列进行分词处理，以获得文本序列包括的单词；

第一表示模块602，用于获得各个单词的字符级特征向量；

第二表示模块603，用于获得各个单词基于上下文语义的词特征向量；

拼接表示模块604，用于将各个单词的字符级特征向量与词特征向量进行拼接，以获得各个单词的拼接词向量表示；

注意力预测模块605，用于基于预先训练的注意力预测模型，确定每个单词在文本序列中的注意力权重，其中，注意力预测模型是根据多个文本序列训练样本训练得到的，每个文本序列训练样本包括的单词均标注了相应的注意力权重；

序列标注模块606，用于根据对应的注意力权重，对每个单词的拼接词向量表示进行序列标注处理，得到文本序列的标签标注序列。

在一种可能的实施方式中，本申请实施例中的序列标注装置还包括确定模块，用于在获得各个单词的字符级特征向量和词特征向量之前，从文本序列包括的单词中确定满足预设条件的目标单词；则，

第一表示模块602，用于获得各个目标单词的字符级特征向量；

第二表示模块603，用于获得各个目标单词基于上下文语义的词特征向量；

在一种可能的实施方式中，序列标注模块606还用于：

针对文本序列中的每个非目标单词，以正则表达式进行正则化处理；

根据正则化的匹配结果，确定每个非目标单词的标注标签；

在一种可能的实施方式中，前述的确定模块用于：

确定文本序列的文件格式，将文本序列中单词对应的字段与文件格式不相同的单词确定为目标单词；或者，

将文本序列中单词对应的字段不属于预设字段的单词确定为目标单词。

在一种可能的实施方式中，本申请实施例中的序列标注装置还包括模型训练模块，用于：

针对每个文本序列训练样本，获得该文本序列训练样本中的每个单词的字符级特征向量和词特征向量的拼接词向量表示；

在一种可能的实施方式中，前述的模型训练模块还用于：

获得文本序列的实际标注结果；

若实际标注结果与基于注意力预测模型得到的标签标注序列不符，则根据实际标注结果对文本序列中的各个单词的注意力权重重新标注，以得到新的文本序列训练样本；

利用新的文本序列训练样本重新训练注意力预测模型，以得到更新后的注意力预测模型。

在一种可能的实施方式中，第二表示模块603用于：

获得各个单词的初始词向量；

前述的序列标注方法的实施例涉及的各步骤的所有相关内容均可以援引到本申请施例中的序列标注装置所对应的功能模块的功能描述，在此不再赘述。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

基于同一发明构思，本申请实施例还提供一种计算机设备，该计算机设备例如是图2中的任一终端设备或服务器204。如图7所示，本申请实施例中的计算机设备包括至少一个处理器701，以及与至少一个处理器701连接的存储器702和通信接口703，本申请实施例中不限定处理器701与存储器702之间的具体连接介质，图7中是以处理器701和存储器702之间通过总线700连接为例，总线700在图7中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线700可以分为地址总线、数据总线、控制总线等，为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中，存储器702存储有可被至少一个处理器701执行的指令，至少一个处理器701通过执行存储器702存储的指令，可以执行前述的故障检测方法中所包括的步骤。

其中，处理器701是计算机设备的控制中心，可以利用各种接口和线路连接整个故障检测设备的各个部分，通过运行或执行存储在存储器702内的指令以及调用存储在存储器702内的数据，计算设备的各种功能和处理数据，从而对计算设备进行整体监控。可选的，处理器701可包括一个或多个处理单元，处理器701可集成应用处理器和调制解调处理器，其中，处理器701主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。在一些实施例中，处理器701和存储器702可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器701可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器702可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器702还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通信接口703是能够用于进行通信的传输接口，可以通过通信接口703接收数据或者发送数据，例如可以通过通信接口703接收其它设备发送的工业产品的原始产品图像，以及，还可以通过该通信接口703将获得的故障检测结果发送给其它设备。

参见图8所示的计算机设备的进一步地的结构示意图，该计算机设备还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出***(I/O***)801、用于存储操作***802、应用程序803和其他程序模块804的大容量存储设备805。

基本输入/输出***801包括有用于显示信息的显示器806和用于用户输入信息的诸如鼠标、键盘之类的输入设备807。其中显示器806和输入设备807都通过连接到***总线700的基本输入/输出***801连接到处理器701。所述基本输入/输出***801还可以包括输入输出控制器以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备805通过连接到***总线700的大容量存储控制器(未示出)连接到处理器701。所述大容量存储设备805及其相关联的计算机可读介质为该服务器包提供非易失性存储。也就是说，大容量存储设备805可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

根据本发明的各种实施例，该计算设备包还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即该计算设备可以通过连接在所述***总线700上的通信接口703连接到网络808，或者说，也可以使用通信接口703来连接到其他类型的网络或远程计算机***(未示出)。

基于同一发明构思，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如前述的故序标注方法的步骤。

基于同一发明构思，本申请实施例还提供一种芯片***，该芯片***包括处理器，还可以包括存储器，用于实现如前述的序列标注方法的步骤。该芯片***可以由芯片构成，也可以包含芯片和其他分立器件。

在一些可能的实施方式中，本申请实施例提供的序列标注方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机上运行时，所述程序代码用于使所述计算机执行前文述描述的根据本发明各种示例性实施方式的序列标注方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种序列标注方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，在获得各个单词的字符级特征向量和词向量之前，所述方法还包括：

从所述文本序列包括的单词中确定满足预设条件的目标单词；

则，获得各个单词的字符级特征向量和词特征向量，包括：

获得各个目标单词的字符级特征和词特征向量。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

根据正则化的匹配结果，确定每个非目标单词的标注标签；

4.如权利要求2所述的方法，其特征在于，从所述文本序列包括的单词中确定满足预设条件的目标单词，包括：

确定所述文本序列的文件格式，在所述文件格式为预定文件格式时，将所述文本序列中单词对应的字段与所述文件格式不相同的单词确定为所述目标单词；或者，

5.如权利要求1所述的方法，其特征在于，所述注意力预测模型按照以下方式训练得到：

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

获得所述文本序列的实际标注结果；

若所述实际标注结果与基于所述注意力预测模型得到的标签标注序列不符，则根据所述实际标注结果对所述文本序列中的各个单词的注意力权重重新标注，以得到新的文本序列训练样本；其中，所述新的文本序列训练样本用于重新训练所述注意力预测模型。

7.如权利要求1-6中任一所述的方法，其特征在于，获得各个单词基于上下文语义的词特征向量，包括：

获得各个单词的初始词向量；

8.一种序列标注装置，其特征在于，所述装置包括：

第一表示模块，用于获得各个单词的字符级特征向量；

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一所述的方法包括的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1-7任一所述的方法包括的步骤。