CN108268444A

CN108268444A - 一种基于双向lstm、cnn和crf的中文分词方法

Info

Publication number: CN108268444A
Application number: CN201810021528.5A
Authority: CN
Inventors: 王保云; 顾孙炎; 苗栋晨
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2018-07-10
Anticipated expiration: 2038-01-10
Also published as: CN108268444B

Abstract

本发明公开了一种基于双向LSTM、CNN和CRF的中文分词方法，基于深度学习算法对传统中文分词的改进优化。该方法具体步骤如下：对初始语料进行预处理，提取语料字符特征信息和字符对应的拼音特征信息；利用卷积神经网络得到字符的拼音特征信息向量；利用word2vec模型得到文本的字符特征信息向量；将拼音特征向量和字符特征向量进行拼接，得到上下文信息向量，放入双向LSTM神经网络中；利用线性链条件随机场对双向LSTM的输出进行解码，得到分词标注序列；对分词标注序列进行解码得到分词结果。本发明利用深度神经网络提取文本字符特征和拼音特征并结合条件随机场进行解码，可以有效提取中文文本特征并且能够在中文分词任务上取得很好的效果。

Description

一种基于双向LSTM、CNN和CRF的中文分词方法

技术领域

本发明涉及一种基于双向LSTM、CNN和CRF的中文分词方法，属于自然语言处理领域。

背景技术

中文分词是自然语言处理(Natural LanguageProcessing,NLP)的一个基础任务。其目的是将输入的汉字序列切分成一个一个单独的词。

在中文分词领域，传统的技术可以分为两类，一类是基于词典和规则的方法，按照一定的方式遍历汉字串与词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。另一种是基于统计的方法，相关方法有，条件随机场(CRF)，隐马尔可夫模型(HMM)，最大熵模型(Maximum Entropy)，其中条件随机场近年来广泛应用于中文分词领域。

上述基于词典和规则的方法依赖于词典和规则的构造，匹配速度慢，在处理新词和流行词方面有很大的局限性；上述基于统计模型的方法依赖于人工标注，对于特征选取需要大量专业知识和工程经验，同时还需要花费大量人力和时间。深度学习方法在特征提取方面有很好效果，能够更好的提取字符，词组和句子信息，相关的模型有卷积神经网络，循环神经网络以及深度模型融合方法等。

发明内容

针对上述现有技术的不足，本发明提供一种基于双向LSTM、CNN和CRF的中文分词方法，该方法有效解决了实际应用中传统中文分词的速度慢、准确率低的问题。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种基于双向LSTM、CNN和CRF的中文分词方法，具体步骤如下：

步骤1，对初始语料进行预处理，提取语料的字符特征信息及对应的拼音特征信息，并对初始语料进行标注，得到带标注的文本、标注表、字符表和字母表；

步骤2，将步骤1中字母表中的每个字母随机初始化为向量形式，利用卷积神经网络CNN对字母向量进行特征提取，得到拼音特征信息向量；

步骤3，对步骤1中的字符特征信息，利用word2vec模型进行预训练，得到字符特征信息向量；

步骤4，将步骤2得到的拼音特征信息向量和步骤3得到的字符特征信息向量进行拼接，得到上下文信息向量；

步骤5，将步骤4得到的上下文信息向量输入双向LSTM神经网络中进行训练，得到语义信息特征；

步骤6，利用线性链条件随机场对步骤5中得到的语义信息特征进行标注，得到中文分词标注序列；

步骤7，对步骤6中得到的中文分词标注序列进行解码，得到中文分词结果。

作为本发明的进一步技术方案，步骤1具体为：

1.1，提取初始语料中的单个字符信息作为语料的字符特征信息，并对每个字符按序进行编号构成字符表；

1.2，将步骤1.1中的每个字符转换为相应的拼音形式作为语料的拼音特征信息，并对拼音中的字母去重后按序编号构成字母表；

1.3，采用BMEO标注集以对初始语料进行标注，得到带标注的文本；并对BMEO标注集按序编号，构成标注表。

作为本发明的进一步技术方案，步骤2具体为：

2.1，将步骤1字母表中的每个字母随机初始化为向量形式；

2.2，每个字符对应的拼音向量矩阵为：其中，c_l为字符对应的拼音中第l个字母对应的向量；L为预设固定值；

2.3，将步骤2.2得到的拼音向量矩阵输入卷积神经网络CNN中进行特征提取，得到拼音特征信息向量，其中，卷积神经网络CNN包括一个大小为3×3的卷积核构成的卷积层和一个2×2的池化层。

作为本发明的进一步技术方案，步骤2.2中：若字符对应的拼音长度L'小于L，则将对应拼音向量矩阵中的第L'+1～L行元素置零。

作为本发明的进一步技术方案，步骤4具体为：将步骤2得到的拼音特征信息向量x_c和步骤3得到的字符特征信息向量x_p进行拼接，得到上下文信息向量x＝[x_c,x_p]。

作为本发明的进一步技术方案，步骤5具体为：

5.1，将上下文信息向量x作为前向LSTM的输入；

5.2，对于前向LSTM神经网络，t时刻的遗忘机制的计算如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中，f_t为t时刻的遗忘门层的输出，σ(·)为sigmoid函数，h_t-1表示t-1时刻的隐藏层向量，x_t表示t时刻的输入，W_f表示在f状态下对于输入x_t的权重矩阵，b_f表示f状态下的偏置向量。

5.3，对于前向LSTM神经网络，t时刻的更新机制的计算如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

其中，i_t为t时刻的更新门层的输出，W_i表示在i状态下对于输入x_t的权重矩阵，b_i表示i状态下的偏置向量，W_C表示在C状态下对于输入x_t的权重矩阵，b_C表示C状态下的偏置向量，为t时刻生成的候选向量，C_t-1为t-1时刻的状态向量，C_t为t时刻的状态向量。

5.4，对于前向LSTM神经网络，t时刻的输出机制计算如下：

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*Tanh(C_t)

其中，o_t为t时刻的输出，h_t为t时刻隐藏层的向量，W_o表示在o状态下对于输入x_t的权重矩阵，b_o表示o状态下的偏置向量。

5.5，将上下文信息向量x作为后向LSTM的输入，根据步骤5.2-5.4的方法得到后向隐藏层向量g_t，将h_t和g_t进行级联得到双向LSTM最终的输出。

作为本发明的进一步技术方案，步骤6具体为：

6.1，将步骤5的输出作为条件随机场CRF的输入序列Z＝{z₁,z₂,...,z_N}，其中，N为输入序列的长度，Y＝{y₁,y₂,...,y_N}为Z对应的输出标签序列；

6.2，对于给定的输入序列Z取值为z的条件下，在标注序列Y上取值为y的条件概率为p(y|z)，具体公式如下：

其中，n＝1,2,…,N，t_k(·)和s_l(·)是特征函数，λ_k和μ_l分别是t_k(·)和s_l(·)对应的权值，S(z)是规范化因子；

6.3，在训练阶段，使用最大似然估计计算最优标注序列，训练集的似然对数为通过训练选取最终能够得到最高条件概率的y来对输入序列进行标注：

作为本发明的进一步技术方案，步骤7中对步骤6中得到的中文分词标注序列，根据BMEO标注集的标注方式进行解码，得到中文分词结果。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1.本发明提供了一种基于双向LSTM、CNN和CRF的中文分词方法，首先采用卷积神经网络对拼音向量提取特征，将拼音向量结合预训练过的字符向量作为数据输入到一个双向LSTM中进一步提取特征。将双向LSTM的输出作为CRF的输入计算最优标签序列完成序列标注。对序列标注进行解码完成中文分词。相比于传统中文分词的方法，本发明降低了特征提取的工作量，简化了信息处理过程，明显提高分词效率并且降低了大量人力标注成本；

2.本发明将中文拼音特征和字符特征转化为固定长度向量，相比于传统的one-hot向量，本发明中的拼音特征向量和字符向量能够更好挖掘文本关系并且降低了句子特征维度，不仅能大大减少存储空间而且提高模型效率；

3.本发明采用CNN、双向LSTM神经网络结合传统CRF，应用场景广泛，能够解决不同领域的中文分词问题，拥有很强的模型泛化能力。

附图说明

图1是本发明实施例采用的基于双向LSTM、CNN和CRF的中文分词的工作流程图。

图2是本发明实施例采用的CNN模型训练结构示意图。

图3是本发明实施例采用的双向LSTM的网络结构示意图。

图4是本发明实例采用的CRF模型结构示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

实施例：

本实施例提供了一种基于双向LSTM、CNN和CRF的中文分词方法，所述方法的流程图如图1所示，包括以下步骤：

步骤一：

对初始语料进行预处理提取单个字符信息作为语料的字符特征信息，针对相应字符将字符转化为拼音形式作为语料的拼音特征信息。对文本进行标注，得到带标签文本并构造字符表、字母表和标签标注表。

本步骤中，我们采用BMEO标注集对文本进行标注，即标注集中包含{B,M,E,O}，跟后面字符构成词且自身是第一个字符的，我们标注为B。在成词的中间的字符，标注为M。在词尾的字符，标注为E。对于单独字符，不跟前后构成词的，我们标注为O。

以初始语料“市民要求对农贸市场进行整治。”为例，字符特征信息为“市”、“民”、“要”、“求”、“对”、“农”、“贸”、“市”、“场”、“进”、“行”、“整”、“治”、“。”，拼音特征信息为“shi”、“min”、“yao”、“qiu”、“dui”、“nong”、“mao”、“shi”、“chang”、“jin”、“xing”、“zheng”、“zhi”、“。”，标注为BEBEOBMMEBEBEO，字符表、字母表和标注表分别如表1、2和3所示，其中，字母表在编号前需要进行去重处理。

表1字符表

1	2	3	4	5	6	7	8	9	10	11	12	13	14
														市	民	要	求	对	农	贸	市	场	进	行	整	治	。

表2字母表

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19
																			s	h	i	m	n	y	a	o	q	u	d	u	g	c	g	j	x	z	e

表3标注表

1	2	3	4
				B	M	E	O

步骤二：将步骤一中字母表中的每个字母随机初始化为向量形式，得到每个字符对应的拼音向量矩阵其中，c_l为字符对应的拼音中第l个字母对应的向量；L为预设固定值。一般来说字符对应的拼音的最大长度为6，因此L＝6；且若字符对应的拼音长度L'小于L，则将对应拼音向量矩阵中的第L+1～L行元素置零；例如，“市”对应的拼音“shi”长度为3，则其对应的拼音向量矩阵中的第4-6行全部置零。

将拼音特征向量矩阵作为卷积神经网路CNN的输入对字符进行编码，得到一个固定大小的拼音特征信息向量x_c。所述卷积神经网络CNN的结构如图2所示，包括一个大小为3×3的卷积核构成的卷积层和一个2×2的池化层。

步骤三：将步骤一中提取出来的字符特征信息，利用word2vec模型进行预训练，得到字符特征信息向量x_p。

本步骤中，利用word2vec训练得到的字符特征信息向量能够有效包含句子上下文信息，每个向量代表一个中文字符，每个字符特征信息向量的维度可以根据语料大小进行调整，一般可选的维度为50，100，200等。

步骤四：将步骤二中得到的拼音特征信息向量和步骤三中得到的字符特征信息向量根据维度进行拼接，得到上下文特征向量x＝[x_c,x_p]。

步骤五：将步骤四中得到的上下文特征向量x传入双向LSTM神经网络进行训练，得到输入文本的语义信息特征。

本步骤中，所述双向LSTM神经网络结构示意图如图3所示，拥有一个输入层、两个隐含层和一个输出层。其中，两个隐含层由前向和后向LSTM神经网络组成，每个隐含层拥有固定大小的LSTM内核。

本步骤中，所述双向LSTM神经网络中的LSTM内核是对传统RNN(Recurrent NeuralNetwork)的一种改进，通过增加遗忘和保存机制来选择性的遗忘和保留输入信息，能有效避免RNN引发的长期依赖问题。LSTM网络包含一个输入层、两个隐藏层和一个softmax层，通过反向传播算法进行学习，其具体公式描述如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*Tanh(C_t)

其中，i_t、f_t、o_t分别为上述的遗忘机制，保存机制和输出机制。b_i、b_f、b_o分别表示相应机制的偏置向量。t表示当前时刻，t-1表示上一时刻。w和h表示相应的权重，c_t和h_t分别表示当前时刻激活函数的输出和当前时刻的输出。

其中遗忘机制能够读取h_t-1和x_t-1，输入到相应σ函数中，得到一个0到1之间的数值，0表示完全舍弃，1表示完全保留。遗忘机制可以控制文本上下文对当前词组的影响，避免词组距离当前词越远影响力越小使得神经网络无法提取文本信息。

其中保存机制包含两个部分，第一部分在sigmoid层决定需要更新的信息，另一部分在tanh层创建新的候选值向量并加入当前状态。将保存机制的状态与遗忘机制f_t相乘来更新需要保存的信息。

步骤六：将步骤五中双向LSTM的输出输入线性链条件随机场CRF，计算输入文本对应的最优输出序列。

本步骤中，所述条件随机场结构示意图如图4所示，包含输入向量Z＝{z₁,z₂,...,z_N}，模型输出标签序列Y＝{y₁,y₂,...,y_N}，N为输入序列的长度。

对于给定的输入序列Z取值为z的条件下，在标签序列Y上取值为y的条件概率为p(y|z)，具体公式如下：

其中，n＝1,2,…,N，t_k(·)和s_l(·)是特征函数，λ_k和μ_l分别是t_k(·)和s_l(·)对应的权值。p(y|z)是表示取值为z的情况下标注为y的概率，S(z)是规范化因子，为了将输出归一化为一个0到1的数值。

本步骤中计算最优标签序列我们使用最大似然估计，训练集的似然对数为通过训练选取最终能够得到最高条件概率的y来对序列进行标注：

步骤七：所述序列解码是将步骤6中字符标签序列根据BMEO标注方式进行词语标注从而得到分词结果。

本步骤中，所述序列解码是将标注好的词组标识在原文本中，然后根据B,M,E,O的序列将原句进行分词。针对句子“市民要求对农贸市场进行整治。”的标注以及分词结果如表4所示：

表4标注以及分词结果

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于双向LSTM、CNN和CRF的中文分词方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法，其特征在于，步骤1具体为：

3.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法，其特征在于，步骤2具体为：

2.1，将步骤1字母表中的每个字母随机初始化为向量形式；

4.根据权利要求3所述的一种基于双向LSTM、CNN和CRF的中文分词方法，其特征在于，步骤2.2中：若字符对应的拼音长度L'小于L，则将对应拼音向量矩阵中的第L'+1～L行元素置零。

5.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法，其特征在于，步骤4具体为：将步骤2得到的拼音特征信息向量x_c和步骤3得到的字符特征信息向量x_p进行拼接，得到上下文信息向量x＝[x_c,x_p]。

6.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法，其特征在于，步骤5具体为：

5.1，将上下文信息向量x作为前向LSTM的输入；

5.2，对于前向LSTM神经网络，t时刻的遗忘机制的计算如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中，f_t为t时刻的遗忘门层的输出，σ(·)为sigmoid函数，h_t-1表示t-1时刻的隐藏层向量，x_t表示t时刻的输入，W_f表示在f状态下对于输入x_t的权重矩阵，b_f表示f状态下的偏置向量；

5.3，对于前向LSTM神经网络，t时刻的更新机制的计算如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

其中，i_t为t时刻的更新门层的输出，W_i表示在i状态下对于输入x_t的权重矩阵，b_i表示i状态下的偏置向量，W_C表示在C状态下对于输入x_t的权重矩阵，b_C表示C状态下的偏置向量，为t时刻生成的候选向量，C_t-1为t-1时刻的状态向量，C_t为t时刻的状态向量；

5.4，对于前向LSTM神经网络，t时刻的输出机制计算如下：

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*Tanh(C_t)

其中，o_t为t时刻的输出，h_t为t时刻隐藏层的向量，W_o表示在o状态下对于输入x_t的权重矩阵，b_o表示o状态下的偏置向量；

7.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法，其特征在于，步骤6具体为：

8.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法，其特征在于，步骤7中对步骤6中得到的中文分词标注序列，根据BMEO标注集的标注方式进行解码，得到中文分词结果。