CN105740226A

CN105740226A - 使用树形神经网络和双向神经网络实现中文分词

Info

Publication number: CN105740226A
Application number: CN201610037336.4A
Authority: CN
Inventors: 黄积杨; 赵志宏; 张冲
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2016-01-15
Filing date: 2016-01-15
Publication date: 2016-07-06

Abstract

本发明涉及树形神经网络和双向神经网络实现中文分词的方法、***、装置及计算机程序。方法包括将输入句子中的每个字转换成字向量作为第一输入序列，将所述的第一输入序列作为三层长短期记忆神经网络即树形神经网络的输入，同时以句向量作为每层隐藏层的初始化值，产生第二输入序列，将所述的第二输入序列传递给双向长短期记忆神经网络，同时以句向量作为隐藏层初始化值，产生第三输入序列，将所述的第三输入序列传递给logSoftMax层即多分类层，最终生成分词标记序列。

Description

使用树形神经网络和双向神经网络实现中文分词

技术领域

本发明属于自然语言处理领域，涉及使用树形神经网络和双向神经网络实现中文分词的方法。

背景技术

常用的传统中文分词技术包括逐词遍历法、基于字典词库匹配的分词方法、全切分和基于词的频度统计的分词方法等，这些方法都是以算法为基础的方式。传统方法中还有两个比较有名的基于模型的分词方法，隐马尔可夫模型，条件随机场模型，这两个模型都是通过已经序列，求出目标序列，其中条件随机场模型效果优于隐马尔可夫模型。随着计算机计算能力的提升和神经网络模型的成熟，这里提出一种使用树形神经网络双向神经网络实现中文分词的方法。

发明内容

本发明的目的在于至少在一定程度上提出一种基于神经网络实现中文分词的方法。说明了如何通过输入的句子生成对应的分词标记序列。

为了实现以上目的，本发明采用的技术方案是：获得输入句子，将句子中的每个字转换成字向量作为第一输入，将第一输入传递给三层长短期记忆神经网络即树形神经网络产生第二输入，从而实现短语、语义信息的提取，将第二输入传递给双向长短期记忆神经网络，并用特殊的方式来初始化隐藏层的初始输入，产生第三输入，从而实现字上下文信息的提取，将第三输入传递给logSoftMax层即多分类层，获得最终的分词标记序列。为了能够获得树形信息，需要对每个网络单独训练，再对整个神经网络进行训练。

在以下附图和说明中描述了本说明书中所述主题的一些实施例的细节。依据说明、附图和权利要求书，使用树形和双向神经网络实现中文分词的方法的其他特征、方面和优点会是显而易见。

附图说明

图1示出了整个神经网络结构

图2示出了部分三层长短期记忆神经网络

图3示出了一个双向-长短期记忆神经网络

具体实施方式

下面将结合本发明中的附图，对整个技术方案即整个神经网络进行清晰，完整的解释。

本发明的内容在于提供一种基于神经网络进行中文分词的技术解决方案，包括四个部分，把句子转换成向量部分，训练三层长短期记忆神经网络即树形神经网络部分，训练双向长短期记忆神经网络部分，训练整个神经网络。

图1示出了从输入句子到最终的句子分词标记序列输出的整个流程。其中输入句子到输入序列是将句子转换成词向量的***的示例。在其中可以实施下述的***、组件和技术。

将单词转换成词向量，词向量有两种方式可以获得，1)把词向量作为参数，包含在神经网络当中，训练整个神经网络的同时就可以获得词向量。但通过这种方式而获得的词向量，相似汉字这间的关系并不明显，甚至没有必然的联系。2)利用比较成熟的神经网络预先训练出词向量库，如word2vec，GloVe，这两个神经网络算法训练出来的词向量，相似词或同类词之间存在一定的线性关系或明显的非线性关系，通过一个词的词向量可以找到它相似的词。为了使得词向量更具有语义，本发明采用Glove训练出300维的词向量库。

统计语料中字的个数N，使用oneHot(oneHot表示一个维度为N，只有其中一个位置为1其他为0的向量)表示每个字，通过oneHot找到字对应的向量，最终将句子转换成向量表示。

图2显示了部分三层长短期记忆神经网络，每一层长短期记忆神经网络，由100个标准的LSTM(长短期记忆)节点组成。标准的LSTM主要处理可变长序列，解决长距离依赖问题，它包括三个门：输入门、忘记门、输出门。使用多层长短期记忆神经网络就相当于形成了一个树形神经网络。

为了使用三层长短期记忆神经网络具有树形的功能，训练这层网络的输入是句向量，目标是这个输入句子对应的语法解析树的序列表示，例如：input＝{″使用树形神经网络和双向神经网络实现中文分词″}，target＝{″(ROOT(IP(VP(VP(VV使用)(NP(NP(NN树形)(NN神经)(NN网络))(CC和)(NP(ADJP(JJ双向))(NP(NN神经)(NN网络)))))(VP(VV实现)(NP(NN中文)(NN分词))))))″}，单独训练的时候，需要在这层网络添加一个线性转换层和一个logSoftMax层，使得100个节点的标准的LSTM的输出能与树形的序列表示对应，相当于编码与解码。传统的长短期记忆神经网络的隐藏层的初始化状态为全0或生成很小的随机数，对于这三层长短期记忆神经网络的初始状态，本发明采用sentence2vec(一个将句子转换成句向量的神经网络算法)生成代表输入句子的句向量，句向量通过乘以矩阵参数转换成与隐藏层相同维度的向量，矩阵参数通过训练整个神经网络获得。

图3显示了双向长短期记忆(BIDIRECTIONAL-LSTM)神经网络。一个双向-长短期记忆神经网络包括一个由前向后传递的循环递归-长短期记忆神经网络和一个由后向前的循环递归-长短记忆神经网络构成，每个循环递归-长短期记忆神经网络由指定长度即块数的LSTM记忆单元构成，这里采用的序列长度最长是100。每个单元包括输入门、忘记门和输出门，即标准的LSTM记忆单元。双向-长短期记忆神经网络，能捕捉到每个词左右两边的信息，所以更好地获得语义。通常标准的BIDIRECTIONAL-LSTM两端隐藏层的初始化状态为全0或生成很小的随机数，同上面三层长短期记忆神经网络一样，本发明采用sentence2vec(一个将句子转换成句向量的神经网络算法)生成代表输入句子的句向量，句向量通过乘以矩阵参数转换成与隐藏层相同维度的向量，矩阵参数通过训练整个神经网络获得。

图1中的输出序列，在输出序列中设置logsoftMax层即分类层，每个输出都产生一个列向量，列向量的维度为4，这个4表示BEMS标志，其中B指Begin词首，E指End词尾，M指Middle词中，S指单字词，取出其中最大的概率值，找到对应位置的标志，这个标志就是输入句子对应位置的字的标志了。对所有的输出做同样的操作，最终获得分词标记序列。

为了单独训练双向长短期记忆(BIDIRECTIONAL-LSTM)神经网络和logsoftMax层即分类层，将输入句子通过前面训练好的三层长短期记忆神经网络的输入作为双向长短期记忆(BIDIRECTIONAL-LSTM)神经网络的输入，目标是这个句子对应的分词标记序列。

上面是对整个神经网络结构和处理过程的完整解释。最终需要训练整个神经网络，才可以使用，输入为一个句子，目标是一个分词标记序列，如：input＝{″使用树形神经网络和双向神经网络实现中文分词″}，target＝{″BEBEBEBESBEBEBEBEBEBE″}.使用时，只需要输入一个句子，就可以输出分词标记序列。

尽管本说明书包含一些特定实现方式细节，但这些不应视为对任何发明的或者所要求的范围的限制，只是用于特定实施例的特征的说明。凡依据本发明的思路所作的同等同效变化，均应涵盖于本发明的保护范围内。

Claims

1.一种使用树形双向神经网络实现中文分词的方法，包括以下步骤：获得输入句子，所述输入句子包括符合语法顺序的多个输入；使用语言模型将所述的句子中每个字转换成字向量作为第一输入序列，将所述的第一输入序列传递给三层长短期记忆神经网络即树形神经网络，同时根据所述的输入句子生成句向量作为三层长短期记忆神经网络中每层隐藏层的初始化输入，训练三层长短期记忆神经网络，产生第二输入序列，再将第二输入序列传递给双向长短期记忆神经网络，同时根据所述的输入句子生成句向量作为双向长短期记忆神经网络隐藏层的初始化输入，产生第三输入序列，将所述的第三输入序列传递给logSoftMax层即多分类层，以产生所述输入句子的分词标记序列。

2.根据权利要求1所述的方法，其中所述输入句子是不超过指定长度的可变长度输入句子。

3.根据权利要求1所述的方法，其中所述的语言模型指的是将字或词转换成词向量的神经网络模型。

4.根据权利要求1到3任意一项所述的方法，其中处理所述输入句子包括：将所述输入句子中的未识别项替换成指定标记以产生经过修改的输入句子。

5.根据权利要求1其中所述的句向量指的是通过成熟的神经网络模型将所述的输入句子转换得到的向量表示。

6.根据权利要求1所述的方法，其中所述的隐藏层的初始化输入包括双向长短期记忆神经网络隐藏层由前向后的初始化状态及由后向前的初始化状态，及三层长短期记忆神经网络每层的初始化状态，都采用所述句子的句向量。

7.根据权利要求1至6任意一项所述的方法，进一步包括：使用随机梯度下降训练所述三层长短期记忆神经网络和双向长短期记忆神经网络。

8.根据权利要求1到7任意一项所述的方法，其中所述输入句子是符合语法的句子，并且分词标记序列是由4种标签组合的字符串。

9.根据权利要求8所述的4个标签组合是指BMES，其中B指Begin表示词首，E指End表示词尾，M指Middle表示词中，S指Single表示单个词。

10.根据权利要求1所述的方法，其中训练三层长短期记忆神经网络指的是添加额外的线性转换和logSoftMax层，以所述句子的向量表示作为输入，以所述句子的语法解析树的序列表示作为目标，训练网络参数。