CN109558569A

CN109558569A - 一种基于BiLSTM+CRF模型的老挝语词性标注方法

Info

Publication number: CN109558569A
Application number: CN201811531266.3A
Authority: CN
Inventors: 周兰江; 王兴金; 张建安; 周枫
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-04-02

Abstract

本发明涉及一种基于BiLSTM+CRF模型的老挝语词性标注方法，它属于自然语言处理和机器学习技术领域。BiLSTM是基于LSTM结构，BiLSTM可以利用上下文信息来进行词性标注。将一句待词性标注的句子输入到BiLSTM中，BiLSTM通过计算可以输出句中每个词的词性概率分布，传统的做法可以挑选每个分布的最大概率词性，来作为词性标注结果。但这样没有考虑到词性之间的影响，比如：量词后不能接动词等。因此引入CRF模型来解决这个问题，可以将CRF模型接到BiLSTM的输出层。利用基于BiLSTM与CRF的老挝语词性标注模型，可以有效的对老挝语进行词性标注，因此本发明具有一定的研究意义。

Description

一种基于BiLSTM+CRF模型的老挝语词性标注方法

技术领域

本发明涉及一种基于BiLSTM+CRF模型的老挝语词性标注方法，属于自然语言处理和机器学习技术领域。

背景技术

词性标注就是为句中每个词，确定其最佳词性的过程。词性标注是很多自然语言处理任务的预处理步骤之一，它是为后续更重要的工作做准备，例如：语法分析、信息提取等。早期研究使用的技术是基于规则的，但是规则制定非常繁琐。因此基于统计的方法得以发展，早期统计方法研究使用的模型有隐马科夫模型、条件随机场(CRF)模型与最大熵模型。由于深度学习的兴起，研究开始转向用深度学习来进行词性标注的研究，取得了不错的成果。但目前这个技术思想没有在老挝语词性标注中研究过，而且模型也是自己搭建。

发明内容

本发明的目的是提供一种基于BiLSTM+CRF模型的老挝语词性标注方法，通过对深度学习的双向长短时记忆循环神经网络BiLSTM技术与传统统计方法条件随机场CRF进行研究，将其使用于老挝语词性标注中，在实验中并取得了不错的效果。

本发明采用的技术方案是：一种基于BiLSTM+CRF模型的老挝语词性标注方法，包括如下步骤：

Step1、BiLSTM+CRF模型的构建

基于BiLSTM与CRF的老挝语词性标注模型，其包括五层：输入层、前向LSTM层、后向LSTM层、全连接层与CRF层；

(1)输入层：

输入层接收的数据是具有n个词的老挝句子W₁…W_t…W_n，词在进入BiLSTM前需要转换为数字的形式才能进行计算，因此在输入层构建一个词向量矩阵，每个老挝词都可以在词向量矩阵中找到其对应的词向量，词向量的值代表该词的特征，词向量也将代表词输入到前向LSTM 层、后向LSTM层中对应的LSTM，进行计算词信息；

(2)前向LSTM层：

前向LSTM层由LSTM构成，LSTM决定信息的保留、输出与删除，来自输入层老挝句子中每个词的词向量将按序输入到对应的LSTM中，LSTM按输入顺序正向连接，每个LSTM输出两部分词信息：前向状态信息FS及前向输出信息FH，信息都以矩阵的形式呈现，前向状态信息会一直在该层传递下去，参与下一个LSTM的计算，而前向输出信息将输出到全连接层计算词性概率分布；

(3)后向LSTM层：

后向LSTM层也是由LSTM构成，来自输入层老挝句子中每个词的词向量按序输入到对应的LSTM中，但LSTM按输入顺序逆向连接，每个LSTM输出两部分词信息：后向状态信息BS及后向输出信息BH，后向状态信息将一直在该层传递下去，参与下一个LSTM的计算，而后向输出信息将输出到全连接层计算词性概率分布；

(4)全连接层：

全连接层由简单的神经网络单元构成，每个单元接收的数据是由前、后向LSTM层输出的前向输出信息FH、后向输出信息BH，FH与BH在单元里经过计算，将得到词性概率分布；

(5)CRF层：

全连接层得到每个词的概率分布后，CRF模型利用这些分布为句子计算出最佳词性标注序列，CRF层在保证从每个分布中挑选较大概率词性的同时，也将考虑词性之间的相互影响；

Step2、BiLSTM+CRF模型的训练

训练BiLSTM+CRF模型使用的是老挝语篇章词性标注语料，即：多篇被标注词性的老挝语文章，训练首先使用基于句子级别的对数似然函数，来计算全连接层得到的词性概率分布与老挝语篇章词性标注语料中词性真实分布的差距，然后使用Adam算法来减小差距，以此训练 BiLSTM+CRF模型的参数，直到模型达到稳定，即差距值接近0，模型达到稳定后，就可以得到基于BiLSTM与CRF的老挝语词性标注模型，将需要词性标注的句子输入到老挝语词性标注模型的输入层，CRF层就会输出句子中每个词的词性。

本发明的有益效果是：

1、本发明采用了深度学习的BiLSTM结构，BiLSTM结构对学习句子前后信息有着不错的效果。

2、本发明使用CRF模型，CRF模型可以考虑词性间的相互影响，接在BiLSTM结构的最后一层，对词性的选择非常有效。

3、本发明实验结果表明，本发明提出老挝语词性标注模型的词性标注准确率高于所有传统的统计模型。

附图说明

图1为本发明中的总体流程图；

图2为基于实例的BiLSTM+CRF模型。

具体实施方式

为了更详细的描述本发明和便于本领域人员的理解，下面结合附图以及实施例对本发明做进一步的描述，本部分的实施例用于解释说明本发明，便于理解的目的，不以此来限制本发明。

实施例1：如图1-2所示，一种基于BiLSTM+CRF模型的老挝语词性标注方法，具体步骤如下：

Step1、BiLSTM+CRF模型

由图2所示，使用了有3个词的老挝句子(财政部说)，对BiLSTM+CRF模型及工作流程进行讲解。

(1)输入层：

输入层用来输入句子的3个词，每个词都会进入词向量矩阵中，找到自己的词向量。3 个词的词向量也将输入到前向、后向LSTM层中对应的LSTM结构中，进行计算词信息；

(2)前向LSTM层：

前向LSTM层由3个LSTM(L)构成。句子(财政部说) 中的每个词的词向量都会进入对应的L单元计算词信息：前向状态信息(FS)及前向输出信息(FH)。以L₁为例，句子首个词(金库)的词向量进入L₁中计算得到：前向状态信息(FS₁)及前向输出信息(FH₁)。前向状态信息(FS₁)会一直在该层传递下去，参与下一个LSTM(L₂)的计算，而前向输出信息(FH₁)将输出到全连接层计算词性概率分布；

(3)后向LSTM层：

后向LSTM层由3个LSTM(R)构成。工作方法与前向LSTM层相同，但LSTM按输入顺序逆向连接；

(4)全连接层：

全连接层由3个简单的神经网络单元(Cell)构成，每个Cell接收前、后向输出信息(FH 与BH)作为输入。以Cell₂为例，讲解该层的计算及输出信息内容：Cell₂接收来自后向LSTM 层的BH₂与来自前向LSTM层的FH₂作为输入值，在Cell₂中经过计算将得到词(宣称)的词性概率分布，将输入到CRF层；

(5)CRF层：

由全连接可以得到句子(财政部说)中的每个词的概率分布，需要将这些集合输入到CRF层。CRF层会保证从每个分布中挑选较大概率词性同时，也将考虑词性之间的相互影响；

Step2、BiLSTM+CRF模型的训练

本实施例中，老挝语篇章词性标注语料是多篇被标注词性的老挝语文章，以文章中一段句子为例：(美国没有公布广告费用)。

BiLSTM是基于LSTM结构，LSTM结构是时间递归神经网络，适合用于处理时间序列中间隔比较长的任务，例如：机器翻译、图像识别、词性标注等。由于LSTM结构是时间递归的，因此使用单向的LSTM结构在对句子进行词性标注任务时，不能利用上下文信息，只能利用单方向的信息。而BiLSTM的引进就是解决这个问题，可以利用上下文信息来进行词性标注。将一句待词性标注的句子输入到BiLSTM中，BiLSTM通过计算可以输出句中每个词的词性概率分布，传统的做法可以挑选每个分布的最大概率词性，来作为词性标注结果。但这样没有考虑到词性之间的影响，比如：量词后不能接动词等。因此引入CRF模型来解决这个问题，可以将CRF模型接到BiLSTM的输出层。利用基于BiLSTM与CRF的老挝语词性标注模型，可以有效的对老挝语进行词性标注，因此本发明具有一定的研究意义。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于BiLSTM+CRF模型的老挝语词性标注方法，其特征在于：包括如下步骤：

Step1、BiLSTM+CRF模型的构建

(1)输入层：

输入层接收的数据是具有n个词的老挝句子W₁…W_t…W_n，词在进入BiLSTM前需要转换为数字的形式才能进行计算，因此在输入层构建一个词向量矩阵，每个老挝词都可以在词向量矩阵中找到其对应的词向量，词向量的值代表该词的特征，词向量也将代表词输入到前向LSTM层、后向LSTM层中对应的LSTM，进行计算词信息；

(2)前向LSTM层：

(3)后向LSTM层：

(4)全连接层：

(5)CRF层：

Step2、BiLSTM+CRF模型的训练

训练BiLSTM+CRF模型使用的是老挝语篇章词性标注语料，即：多篇被标注词性的老挝语文章，训练首先使用基于句子级别的对数似然函数，来计算全连接层得到的词性概率分布与老挝语篇章词性标注语料中词性真实分布的差距，然后使用Adam算法来减小差距，以此训练BiLSTM+CRF模型的参数，直到模型达到稳定，即差距值接近0，模型达到稳定后，就可以得到基于BiLSTM与CRF的老挝语词性标注模型，将需要词性标注的句子输入到老挝语词性标注模型的输入层，CRF层就会输出句子中每个词的词性。