CN113111654B

CN113111654B - 一种基于分词工具共性信息和部分监督学习的分词方法

Info

Publication number: CN113111654B
Application number: CN202110381471.1A
Authority: CN
Inventors: 张旻; 夏小勇; 姜明
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2022-03-08
Anticipated expiration: 2041-04-09
Also published as: CN113111654A

Abstract

本发明公开了一种基于分词工具共性信息和部分监督学习的分词方法。本发明步骤如下：(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块，获得训练好的BiLSTM神经网络模块；(2)使用少量标注数据训练初始分词模型，得到基于卷积神经网络和多种分词工具共性信息的初始分词模型M₀。(3)利用M₀对大量无标注数据集进行标注，得到大量伪标签数据。修改M₀中的损失函数，利用少量标注数据和大量伪标签数据共同训练损失函数修改后的M₀，得到基于多种分词工具共性信息和部分监督学习的中文分词模型M₁。(4)迭代步骤(3)n次,得到最终分词模型Mn。本发明提高跨领域中文分词的准确率。

Description

一种基于分词工具共性信息和部分监督学习的分词方法

技术领域

本发明涉及中文分词任务，具体来讲是一种基于分词工具共性信息和部分监督学习的分词方法，属于自然语言处理技术领域。

背景技术

近几年，基于神经网络的中文分词模型在分词准确率上取得了非常好的效果。然而，现有的中文分词方法和分词工具在特殊领域的分词准确率往往会急剧下降，跨领域分词成为中文分词的难点。针对缺乏标注数据领域的中文分词问题，提出了一种融合分词工具共性信息和部分监督学习的分词方法。它将少量目标领域标注数据的直接监督和大量目标领域无标注数据的训练相结合，通过迭代训练逐步优化模型，提高分词模型的领域适应性。该方法在跨领域的多个数据集上进行实验，实验结果表明，该方法在多个数据集的评价指标均优于对比模型，证明了本文方法的有效性。

发明内容

本发明针对现有中文分词标注数据不足和领域适应性问题，公开一种融合多种分词工具共性信息和部分监督学习的跨域中文分词方法，提高跨领域分词的准确率。

本发明解决其技术问题所采用的技术方案包括以下步骤：

一种基于分词工具共性信息和部分监督学习的分词方法。按照如下步骤进行：

步骤(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块，获得训练好的BiLSTM神经网络模块；所述的BiLSTM神经网络模块是初始分词模型的一部分。

步骤(2)使用少量标注数据训练初始分词模型，得到一个基于卷积神经网络和多种分词工具共性信息的初始分词模型M₀。

步骤(3)利用初始分词模型M₀对大量无标注数据集进行标注，得到大量伪标签数据。修改初始分词模型M₀中的损失函数，利用少量标注数据和大量伪标签数据共同训练损失函数修改后的分词模型M₀，得到基于多种分词工具共性信息和部分监督学习的中文分词模型M₁。

步骤(4)迭代步骤(3)，直到n次,得到最终分词模型Mn。

进一步的，步骤(1)具体为：

1-1用现有的四种分词工具(Jieba,THULAC,SnowNLP和Stanford)分别对大量无标注数据进行标注，并在句子的首尾加上准则标记。

1-2使用步骤1-1获得的标注数据作为输入，BiLSTM神经网络作为特征提取层，预训练一个富含多种分词工具共性信息的BiLSTM神经网络模块。

1-3BiLSTM神经网络模块以字符嵌入为输入，输出含有多个分词工具共性信息的上下文表示：

其中，

表示句子的嵌入层向量，i表示句子中第i个字符，

表示第i个字符的特征。

进一步的，步骤(2)具体为：

2-1设输入句子x＝[c₁,c₂...c_n]，使用word2vec将其转换为字符嵌入层向量

2-2使用步骤2-1获得的字符嵌入层向量

作为输入，CNN和蕴含多种分词工具共性信息的BiLSTM神经网络模块作为特征提取层。

其中，W和b都是卷积核的参数，k是卷积核的大小，

表示从第

个字符到第

个字符之间的连接。

其中，

是CNN网络获取第i个字符的特征，

是蕴含多种分词工具共性信息模块获取的特征，h_i是

和

相融合的特征。

2-3将特征提取层的输出输入到CRF层解码。

对于输入句子x＝[c₁,c₂...c_n]，通过初始分词模型M₀可以获得一个预测标签序列y＝[y₁,y₂...y_n],这个预测标签序列打分的公式如下：

其中，

表示标签转移矩阵，P_i,y_i表示标签得分矩阵。句子x的标签序列为y的似然概率定义为：

其中，Y_x表示句子x所有可能的标注序列集合，y'表示随机的一个标注序列损失函数的公式如下：

其中,x_i是第i个训练句子，y_i是这个句子正确的标签序列，N_l是训练集中标注句子的数量，θ是初始分词模型的所有参数。

进一步的，步骤(3)具体为：

3-1.使用初始分词模型M₀对大量无标注数据进行标注，获得伪标签数据集PUL。

3-2.利用少量标注数据和步骤3-1获得的伪标签数据集PUL共同训练初始分词模型M₀，伪标签标注数据的损失函数被定义为：

其中，θ^t-1是第t-1次迭代学习到的模型参数，N_u为伪标签数据集中句子的数量，p(y_i|x_i；θ^t-1)是根据上一轮迭代的模型θ^t-1对伪标签句子x_i生成标签y_i的概率分布。

进一步的，步骤(4)具体为：

按照步骤(3)的流程迭代的训练模型。此时，模型的更新既基于标注数据，也基于无标注数据。在第t次迭代，模型更新的目标函数为：

其中，θ^t是第t次迭代学习到的模型参数，l(θ^t)是标注数据的损失函数，l^UL(θ^t)是伪标注数据的损失函数，λ是一个可训练的参数。

本发明由于采取以上技术方案，具有如下优点：本发明融合多种分词工具共性信息和部分监督学习缓解特定领域标注数据不足的问题，提高跨领域中文分词的准确率。在同等标注数据的情况下，融合多种分词工具共性信息可以将分词模型的准确率提升约3.2％，融合无标注数据进行迭代训练后可进一步提升约2.8％。标注数据越少，本文方法相对于其他方法的优势越明显。

附图说明

图1是本发明的整体实施流程图；

图2是融入无标注数据的训练流程图；

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于分词工具共性信息和部分监督学习的分词方法。按照如下步骤进行：