CN111090981B

CN111090981B - 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***

Info

Publication number: CN111090981B
Application number: CN201911241042.3A
Authority: CN
Inventors: 屈丹; 杨绪魁; 张文林; 司念文; 陈琦; 牛铜; 闫红刚; 张连海; 李�真
Original assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2022-04-15
Anticipated expiration: 2039-12-06
Also published as: CN111090981A

Abstract

本发明属于自然语言处理技术领域，公开一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***，该方法包括：将中文文本语料进行处理，去除无用符号，同时为每个字符添加设计好的标签；利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构；采用对数似然损失函数，通过加入长句惩罚因子对对数似然损失函数进行改进，以最小化改进后的对数似然损失函数为目标，从正反两个方向对添加标签后的中文文本语料进行训练，完成中文文本自动断句与标点生成模型构建；该***包括：语料处理模块、网络结构选择模块及模型构建与优化模块。本发明解决了语音转写文本中，无法自动断句以及标点符号缺失的问题。

Description

基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***。

背景技术

现有的文本自动断句与标点方法，主要分为两方面：一方面集中于研究英语文本的断句与标点，而中文文本(如古汉语文本)虽有部分研究，但采用的方法多为传统的统计机器学习模型(如条件随机场)，这类方法需要人工特征设计，且准确率并不高，并且实现的功能只涉及自动断句功能，而较少或不涉及自动添加标点符号功能(陈萧,柯登峰,徐波.基于全局词汇信息的中文口语句子标点生成[C]//第十二届全国人机语音通讯学术会议(NCMMSC'2013).)(张合,王晓东,杨建宇,et al.一种基于层叠CRF的古文断句与句读标记方法[J].计算机应用研究,2009,26(9):3326-3329.)。另一方面的研究集中于语音转写文本后处理领域，如公开号为CN 102231278 A的发明专利中需要结合语句间停顿位置时长(设置门限值)，加上分类器的分类作用，共同决定当前位置添加标点类型，这样断句与标点功能时延较长，实时性不高，并且添加标点的模型较为复杂。

发明内容

本发明针对语音转写文本中，无法自动断句以及标点符号缺失的问题，提出一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***。

为了实现上述目的，本发明采用以下技术方案：

一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法，包括：

步骤1：将中文文本语料进行处理，去除无用符号，同时为每个字符添加设计好的标签；

步骤2：利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构；

步骤3：采用对数似然损失函数，通过加入长句惩罚因子对对数似然损失函数进行改进，以最小化改进后的对数似然损失函数为目标，从正反两个方向对添加标签后的中文文本语料进行训练，完成中文文本自动断句与标点生成模型构建。

进一步地，所述步骤1包括：

步骤1.1：保留语料中的逗号、句号、问号及感叹号，且全部为全角符号；

步骤1.2：将语料中的顿号、冒号、破折号及连接号替换为逗号，将分号及省略号替换为句号，将引号、括号、书名号及间隔号直接去除；

步骤1.3：将语料中的四则运算符、希腊字母保留；

步骤1.4：为输入的每个字符打上标签，所述标签用于表示该字符后紧跟着下一字符的形式：非标点符号，逗号，句号，问号，感叹号。

进一步地，所述步骤3包括：

采用对数似然损失函数，损失函数为：

其中x⁽ⁱ⁾表示第i个句子，1≤i≤N，N表示语料中句子总数，k表示批处理的句子的数量，1＜k≤N，P(y⁽ⁱ⁾|x⁽ⁱ⁾；θ)表示x⁽ⁱ⁾对应的标签序列y⁽ⁱ⁾的得分，θ表示模型的超参数集合，λ表示L2正则化参数；

在句子x⁽ⁱ⁾中，计算输出标签y⁽ⁱ⁾中逗号、句号、问号及感叹号对应标签的个数：

其中n表示标签的个数，j表示标签号，

表示第i个句子第j个标签的个数；

加入长句惩罚因子β，对损失函数进行改进，改进后的损失函数为：

以最小化改进后的对数似然损失函数为目标，从正反两个方向对添加标签后的中文文本语料进行训练，完成中文文本自动断句与标点生成模型构建。

一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建***，包括：

语料处理模块，用于将中文文本语料进行处理，去除无用符号，同时为每个字符添加设计好的标签；

网络结构选择模块，用于利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构；

模型构建与优化模块，用于采用对数似然损失函数，通过加入长句惩罚因子对对数似然损失函数进行改进，以最小化改进后的对数似然损失函数为目标，从正反两个方向对添加标签后的中文文本语料进行训练，完成中文文本自动断句与标点生成模型构建。

进一步地，所述语料处理模块具体用于：

保留语料中的逗号、句号、问号及感叹号，且全部为全角符号；

将语料中的顿号、冒号、破折号及连接号替换为逗号，将分号及省略号替换为句号，将引号、括号、书名号及间隔号直接去除；

将语料中的四则运算符、希腊字母保留；

为输入的每个字符打上标签，所述标签用于表示该字符后紧跟着下一字符的形式：非标点符号，逗号，句号，问号，感叹号。

进一步地，所述模型构建与优化模块具体用于：

采用对数似然损失函数，损失函数为：

其中n表示标签的个数，j表示标签号，

表示第i个句子第j个标签的个数；

与现有技术相比，本发明具有的有益效果：

本发明可以解决语音转写文本中，无法自动断句以及标点符号缺失等问题。通过本发明中提供的技术方案和实现方法，能够对语音识别文本进行后处理，自动断句和添加4种常用的标点符号(逗号，句号，问号，感叹号)，能够明显提升用户的阅读体验。

本发明将自动标点视为一个标准的自然语言序列标注任务，采用双向LSTM 网络为时序文本序列建模，对输入的每个字符打上标签，共设计了五种标签，分别表示该字符后紧跟着下一字符的形式：{非标点符号，逗号，句号，问题，感叹号}，以此标准格式将原始文本预处理，制作训练语料，训练中采用时政、法律、名著小说等多领域文本约300M左右，输入到一个2层的双向LSTM中进行学习，经过多次迭代优化后，输出每个字符对应的标签，再进行标点符号恢复，即得到添加标点后的文本。

附图说明

图1为本发明实施例一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法的基本流程图；

图2为本发明实施例自动断句与标点生成模型网络结构示意图；

图3为本发明实施例一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建***的架构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

实施例1

如图1所示，一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法，包括：

步骤S101：将中文文本语料进行处理，去除无用符号，同时为每个字符添加设计好的标签；

步骤S102：利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构；

步骤S103：采用对数似然损失函数，通过加入长句惩罚因子对对数似然损失函数进行改进，以最小化改进后的对数似然损失函数为目标，从正反两个方向对添加标签后的中文文本语料进行训练，完成中文文本自动断句与标点生成模型构建。

具体地，所述步骤S101包括：

步骤S101.1：保留语料中的逗号、句号、问号及感叹号，且全部为全角符号；

步骤S101.2：将语料中的顿号、冒号、破折号及连接号替换为逗号，将分号及省略号替换为句号，将引号、括号、书名号及间隔号直接去除；替换策略具体如表1所示：

表1训练语料标点处理策略

步骤S101.3：将语料中的四则运算符、希腊字母保留；

步骤S101.4：为输入的每个字符打上标签，所述标签用于表示该字符后紧跟着下一字符的形式：非标点符号，逗号，句号，问号，感叹号：

具体地，共设计了五种标签：

标签1：N，对应NONE；

标签2：C，对应COMMA；

标签3：P，对应PERIOD；

标签4：Q，对应QUESTION；

标签5：E，对应EXCLAMATION。

以上标签中，分别表示该字符后紧跟着下一字符的形式：

非标点符号，逗号，句号，问号，感叹号。

以此标准格式将原始中文文本进行预处理，制作训练语料，输入到一个双向长短时记忆网络中进行学习，输出每个字符对应的标签，再进行标点恢复即可。

示例如下：

原始：他指出，这次会…

输入：他指出这次会…

标签：N N C N N N…。

具体地，所述步骤S102包括：

自然语言序列标注任务中，经常用到循环神经网络(recurrent neural network,RNN)模型，其中，长短时记忆网络(long short-term memory,LSTM)作为一种特殊类型的RNN，通过在每个隐含层单元内部引入记忆单元(memory cell)和门机制(gatedmechanism)，用于控制信息流的输入和输出，有效解决了普通的 RNN存在的梯度消失问题。与之相比，LSTM更加擅长处理序列化数据如自然语言文本，可对序列中较大范围的上下文信息建模。

本发明采用的技术方案中，利用双向LSTM(bidirectional LSTM,BLSTM) 网络从正反两个方向来对自然语言文本进行建模，实现自动断句和标点功能，具体模型结构如图2所示。

上述网络结构中，各层的作用如下：

a)输入层和Embedding层：输入层采用去除标点的训练语料作为输入，通过建立word2id和id2word两个映射，实现从字符到字符索引之间的变换。索引序列按照字符向量表中初始化得到的字典来排序，按照这样的序列，同时可以实现索引到字符向量的变换。Embedding层的功能即是对字符向量的索引，将输入文字转化为统一维度的字符向量，其中包含丰富的语义信息。该模型中，使用的字符向量维度为300维，字典大小为14157。

b)前向和反向LSTM层：分别计算前向LSTM隐状态和反向LSTM隐状态，然后投射到共同的输出层。单向LSTM只含一个方向的隐层，根据当前时刻输入向量x_t和前一时刻的隐状态向量h_t-1，计算当前时刻隐状态h_t。而双向LSTM包含前向层和反向层，需要分别计算当前时刻前向层的隐状态向量

和反向隐状态向量

其中m为隐单元维度，LSTM()函数表示LSTM网络的非线性变换，其主要功能是将输入字符向量编码为对应的隐状态向量。

c)输出层：采用加权求和的方式，将前向隐状态向量

和反向隐状态向量

进行线性组合，得到BLSTM的隐层向量h_t∈R^m×1：

其中，W₁∈R^m×m和V₁∈R^m×m为权重矩阵，b₁∈R^m×1为相应的偏移项。该隐含层同时聚合了输入序列中当前元素的前向和后向两个方向的序列信息，能够为标注提供更加丰富的上下文特征。

具体地，所述步骤S103包括：

给定训练集

其中第i个句子

对应的标签序列为y⁽ⁱ⁾＝[y₁ ⁽ⁱ⁾,y₂ ⁽ⁱ⁾,...,y_n ⁽ⁱ⁾]。模型训练中，采用对数似然损失函数，加上L2 正则化项，损失函数为：

为了提升断句质量和阅读体验，促进更加精细的断句，使结果中句长越短越好，这里对损失函数进行改进，加入长句惩罚因子：

在句子x⁽ⁱ⁾中，计算输出标签y⁽ⁱ⁾中逗号、句号、问号及感叹号对应标签的个数，即在句子x⁽ⁱ⁾中，计算其输出标签y⁽ⁱ⁾中非“NONE”标签的个数，也即计算 COMMA(逗号)、PERIOD(句号)，QUESTION(问号)，EXCLAMATION (感叹号)：

其中n表示标签的个数，j表示标签号，

表示第i个句子第j个标签的个数；

将上式加入损失函数中，并加入长句惩罚因子β，对损失函数进行改进，跟随批次共同计算平均句长损失，改进后的损失函数为：

以最小化改进后的对数似然损失函数为目标进行中文文本自动断句与标点生成模型构建。

训练过程中，采用mini-batch梯度下降法，k为每个批次大小。应用Dropout 策略，以一定概率随机移除部分BLSTM隐层单元及其权重，防止训练数据过拟合。

为验证本发明效果，进行如下实验：

(1)获取原始中文文本语料(带标点符号)，训练中采用时政、法律、名著等领域中文文本约300M左右。

(2)将原始文本中标点符号作归一处理，只保留逗号、句号、问号和感叹号，将其它标点符号自动归为这四类中的一类，或者直接去除。将归一处理后文本中每个单词标记为{N，C，P，Q，E}(代表{NONE，COMMA，PERIOD， QUESTION，EXCLAMATION})之一，并且这组标记规则被送到BLSTM神经网络进行训练。

(3)在另一部分随机抽取的文章中测试结果。

采用tensorflow库中的LSTM网络训练该标点生成模型，训练完成后将模型写入到*.pb二进制文件中，采用freeze_graph.py工具将权重数据与计算图冻结并生成可供C++调用的*.pb文件，在工程中即可应用。

采用本发明中的自动断句与标点生成模型，在公开语料上的部分实验结果如下所示：

表2公开语料上的部分实验结果示例

综上，本发明可以解决语音转写文本中，无法自动断句以及标点符号缺失等问题。通过本发明中提供的技术方案和实现方法，能够对语音识别文本进行后处理，自动断句和添加4种常用的标点符号(逗号，句号，问号，感叹号)，能够明显提升用户的阅读体验。

实施例2

如图3所示，一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建***，包括：

语料处理模块201，用于将中文文本语料进行处理，去除无用符号，同时为每个字符添加设计好的标签；

模型初始化模块202，用于利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构；

模型构建与优化模块203，用于采用对数似然损失函数，通过加入长句惩罚因子对对数似然损失函数进行改进，以最小化改进后的对数似然损失函数为目标，从正反两个方向对添加标签后的中文文本语料进行训练，完成中文文本自动断句与标点生成模型构建。

具体地，所述语料处理模块201具体用于：

将语料中的四则运算符、希腊字母保留；

具体地，所述模型构建与优化模块203具体用于：

采用对数似然损失函数，损失函数为：

其中n表示标签的个数，j表示标签号，

表示第i个句子第j个标签的个数；

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。