CN109960782A

CN109960782A - 一种基于深度神经网络的藏文分词方法及装置

Info

Publication number: CN109960782A
Application number: CN201811614940.4A
Authority: CN
Inventors: 赵生捷; 陈梦竹; 杨恺
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-07-02

Abstract

本发明涉及一种基于深度神经网络的藏文分词方法及装置，其中方法包括：步骤S1：接收原始藏文文本，并基于其中的隔音符号音节的切分得到音节序列；步骤S2：将得到的音节序列输入紧缩词识别模型，得到分词的基本单位序列；步骤S3：将分词的基本单位序列输入至基于深度神经网络的藏文分词模型中进行处理，最终得到带有序列标记的单位序列，作为分词结果。与现有技术相比，本发明具有等分词成功率高的优点。

Description

一种基于深度神经网络的藏文分词方法及装置

技术领域

本发明涉及自然语言处理领域，尤其是涉及一种基于深度神经网络的藏文分词方法及装置。

背景技术

随着信息时代的发展，国内外对于语言文字信息化处理技术的研究工作也在不断深入。藏文作为一种历史悠久的古老语言，用藏文记载着的古籍著述和经典文献浩如烟海。而藏文字能否跨入信息时代的关键在于能否成功解决藏文信息处理技术问题。藏文分词是藏文信息处理中最基础且必不可少的重要环节，一段藏文文字只有在经过分词之后，才能让计算机对这些文字序列进行处理。因此，藏文分词的研究结果将直接影响着后续诸如藏语语义理解、藏文信息检索、藏语机器翻译、藏语语音识别等技术的应用和发展。

分词简单来说就是按照一定的标准或规则将系列连续的字符重新组合成词序列的过程。众所周知，在英文中，单词之间以空格作为自然的分界符，因此在词的处理理解上也相对直观。而藏文形式如中文一致，词与词之间并没有任何形式的分界符，这便给中文、藏文等无间隔语言文字信息处理增加了许多困难。对于中文来说，目前国内已有许多研究机构、学者在该自然语言处理领域开发出较多成熟的***，如哈尔滨工业大学的语言技术平台LTP，复旦大学自然语言处理java开源包FudanNLP等，这些公开的***不断推动的中文语言处理的进步与发展。反观藏文信息处理研究，基础相对薄弱，虽然有不少公开发表的研究成果文章，但公开可用的***寥寥无几，这在一定程度上制约了藏文信息处理的发展。

对于分词这一任务来说，如果仅仅通过人工核对的方式进行分词处理，那么这显然是一项庞大而复杂的过程，耗时耗力。然而，自动分词也存在着以下几大难题：1)分词歧义消除；2)未登录词(新词)识别；3)错别字、谐音字规范化；4)分词粒度问题。除此之外，藏文区别于中文还存在着一个特有的语言问题：紧缩词识别问题。在当今飞速发展的信息时代，不少研究人员已经开始利用计算机按照一定的规则和算法来代替人工方式进行藏文自动分词，藏文分词常见的有两大类：1)基于字符串(词典)匹配的方法，如：正向最大匹配法、反向最大匹配法、双向最大匹配法等；该类方法实现简单，但它们高度依赖于词典的质量，且不能有效处理歧义切分问题、未登录词问题及无法进行命名实体的识别。2)基于统计机器学习模型的序列标注的方法，如隐马尔可夫模型(Hidden Markov Model，简称HMM)，条件随机场(Conditional Random Field,简称CRF)等，该类方法的准确度优于基于字符串匹配方法，是现阶段最为流行的藏文分词方法，但对于未登录词的识别问题仍旧不能很好的处理，且不方便增加用户词典，速度上会有所损耗，另外，传统机器学习方法需要额外提取特征。

近年深度学习已在自然语言处理领域展现了其独特的优势，深度学习的方法也已为中文分词技术带来了新的思路。因此，我们可以参考借鉴深度学习的中文分词方法，并处理藏文紧缩词现象，形成适用于藏文的自动分词模型。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度神经网络的藏文分词方法及装置。

本发明的目的可以通过以下技术方案来实现：

一种基于深度神经网络的藏文分词方法，包括：

步骤S1：接收原始藏文文本，并基于其中的隔音符号音节的切分得到音节序列；

步骤S2：将得到的音节序列输入紧缩词识别模型，得到分词的基本单位序列；

步骤S3：将分词的基本单位序列输入至基于深度神经网络的藏文分词模型中进行处理，最终得到带有序列标记的单位序列，作为分词结果。

所述步骤S2具体包括：

步骤S21：将得到的音节序列输入紧缩词识别模型，识别出音节序列中的紧缩词；

步骤S22：判断各紧缩词是否为格助词，若为是，则将其作为分词标注处；

步骤S23：根据得到的各分词标注处对音节序列进行分词，得到分词的基本单位序列。

所述基于深度神经网络的藏文分词模型包括：

向量嵌入层，用于将得到的各分词的基本单位序列中每个字符转换为向量；

BiLSTM网络层，与向量嵌入层连接，用于基于转换得到的向量形式的分词的基本单位序列输出分数矩阵；

CRF层，与BiLSTM网络层连接，用于根据BiLSTM网络层输出的分数矩阵得到带有序列标记的单位序列，作为分词结果。

所述CRF层的处理过程具体包括：

步骤S31：对于一个藏文语句X(x₁,x₂,…,x_n)，获取其整体得分：

其中：s(X,y)为整体得分，x₁,x₂,…,x_n为藏文语句X中各字符转换得到的向量，T为转换分数矩阵，P为BiLSTM的输出分数矩阵，为标记y_i转换到标记y_i+1的分数，为第i个字符被标为第y_i个标记的得分，n为藏文语句X中的字符个数，y为X的预测标记序列y＝(y₁,y₂,…,y_n)；

步骤S32：计算y的概率，并得到最大化正确标记序列的对数概率：

其中：p(y|X)为y的概率，为X的其中一种可能标记序列，Y_x为X的所有可能标记序列；

步骤S33：解码时，我们将得到最大分数的序列预测为输出序列：

其中：y^*为预测序列。

一种基于深度神经网络的藏文分词装置，包括存储器、处理器，以及存储于存储器中并由所述处理器执行的程序，所述处理器执行所述程序时实现以下步骤：

所述步骤S2具体包括：

所述基于深度神经网络的藏文分词模型包括：

所述CRF层的处理过程具体包括：

其中：y^*为预测序列。

与现有技术相比，本发明具有以下有益效果：

1)由于藏语中紧缩词的出现频率很高，且这些词在不同的语境中有不同的作用。因此很难确定对于含有紧缩词的音节，应该将其分为一个基本字符还是两个字符。这对于后续的分词过程会造成极大的影响。针对这种藏文特有的紧缩词语言现象，我们可以采用基于条件随机场(CRF)的方式构成紧缩词识别模型，以解决紧缩词识别问题。

2)采用深度神经网络模型来进行藏文分词，将其转化为序列标记任务。直接以最基本的向量化原子特征作为输入，经过多层非线性变换，输出层即可得到很多的预测当前字的标记。深度学习主要有以下两点优势：a)可以通过优化最终目标，有效学习原子特征和上下文的表示；b)深度神经网络可以更有效的刻画长距离句子信息。

3)对于深度神经网络的输入层，我们采用字符级别的向量，这样可以在一定程度上有效的解决未登录词问题。

附图说明

图1为本发明方法的流程示意图；

图2为基于深度神经网络的藏文分词模型的示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一种基于深度神经网络的藏文分词方法，如图1所示，包括：

步骤S1：接收原始藏文文本，并基于其中的隔音符号(用于藏文音节之间)音节的切分得到音节序列；

步骤S2：将得到的音节序列输入紧缩词识别模型，得到分词的基本单位序列，具体包括：

将音节序列输入紧缩词识别模型，进行紧缩词识别处理：由于常见的六个紧缩词(和)根据它们在上下文语境中的功能可以分为两大类：一类为助格词，另一类为非助格词。这样，就可以把紧缩词识别任务转化为词位标注任务。具体可采用条件随机场(CRF)的标注方法实现；经过紧缩词识别处理之后，可以得到一系列分词的基本单位序列；

首先，举例说明紧缩词现象对于分词的影响，这里我们将采用流行的“BMES”4-tags方法，B代表词汇的开始部分；M代表词汇的中间部分，E代表词汇的结尾部分，S代表单音节词汇。

当藏文词汇中不存在紧缩词时，如表1所示，可以按照音节数对其进行标记：

表1

当藏文词汇中出现紧缩词时，如表2所示，标记数目将大于或等于音节数目，这取决于紧缩词在藏文词汇中的作用：

表2

如图2所示，基于深度神经网络的藏文分词模型包括：

这里，我们采用藏文分词模型取名为BiLSTM-CRF模型，具体结构如图2。在大多数序列标记任务中，由于神经网络结构对数据有极大的依赖性，以及数据集的大小与质量也影响着模型的训练效果；因此我们可以可结合现有的线性统计模型和神经网络的结构，简单来说，就是在输出层将softmax与CRF结合起来。我们可以利用长短期记忆网络(LongShort-Term Memory，简称LSTM)来解决序列特征的提取问题，加之CRF有效地利用句子级的标记信息。因此，在这种新型的混合结构中，输出将不再是单独的标记，而是最佳的标记序列。

此外，在BiLSTM-CRF模型中，我们采用的并不是单向的LSTM结构，而是双向LSTM。因为对于一个藏文句子来说，单向LSTM只能捕捉到每个单词在语境中的单向信息(上文或下文)，所以我们采用双向LSTM来捕捉双向信息(上下文)。

分词基本单位嵌入层的处理过程如下：这一层将得到藏文句子中每个字符级别的向量，作为神经网络的输入。具体来说，就是对于藏文分词，我们拥有一个大小为|C|的字符字典C。这个字典是从训练集中提取得到的，未知字符将会被一个特殊符号代替(如UNK)。对于每个字符c∈C，可以被映射为一个低维实向量v_c，其中d为向量空间的维度。然后这些向量将组成一个矩阵对于每个字符c，相对应的v_c可以从一个查找表格层中检索，该层可视为一个简单的投影层，根据对应的索引表查找得到字符向量。

BiLSTM网络层的处理过程如下：BiLSTM是一种特殊的递归神经网络。它适合处理和预测时间序列中间隔和延迟相对较长的重要事件。它引入了几个门来控制和更新隐藏状态和记忆细胞，这些门分别称为输入门、输出门和遗忘门。当一个信息进入BiLSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘，对于一个含有n个字符的藏文语句(x₁,x₂,…,x_n),x_i代表字符对应的向量，有：

i_t＝σ(W_ixx_t+W_ihh_t-1+W_icc_t-1+b_i)

f_t＝σ(W_fxx_t+W_fhh_t-1+W_fcc_t-1+b_f)

o_t＝σ(W_oxx_t+W_ohh_t-1+W_occ_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

其中，σ是元素级sigmoid激活函数，⊙是元素级乘法，W是权重矩阵，b是偏移向量。

由于我们采用的是双向LSTM网络结构，因此，对于每一个字符i,其对应的上下文语境表示为

BiLSTM的输出为P，而P作为CRF层的输入，来计算s(X,y)

CRF层的处理过程具体包括：

其中：s(X,y)为整体得分，x₁,x₂,…,_n为藏文语句X中各字符转换得到的向量，T为转换分数矩阵，P为BiLSTM的输出分数矩阵，为标记y_i转换到标记y_i+1的分数，为第i个字符被标为第y_i个标记的得分，n为藏文语句X中的字符个数，y为X的预测标记序列y＝(y₁,y₂,…,y_n)；

其中：y^*为预测序列。

Claims

1.一种基于深度神经网络的藏文分词方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度神经网络的藏文分词方法，其特征在于，所述步骤S2具体包括：

3.根据权利要求1所述的一种基于深度神经网络的藏文分词方法，其特征在于，所述基于深度神经网络的藏文分词模型包括：

4.根据权利要求3所述的一种基于深度神经网络的藏文分词方法，其特征在于，所述CRF层的处理过程具体包括：

其中：y^*为预测序列。

5.一种基于深度神经网络的藏文分词装置，其特征在于，包括存储器、处理器，以及存储于存储器中并由所述处理器执行的程序，所述处理器执行所述程序时实现以下步骤：

6.根据权利要求5所述的一种基于深度神经网络的藏文分词装置，其特征在于，所述步骤S2具体包括：

7.根据权利要求5所述的一种基于深度神经网络的藏文分词装置，其特征在于，所述基于深度神经网络的藏文分词模型包括：

8.根据权利要求7所述的一种基于深度神经网络的藏文分词装置，其特征在于，所述CRF层的处理过程具体包括：

其中：y^*为预测序列。