CN112668304A

CN112668304A - 基于两个层次Bi-LSTM的汉语句子排序方法

Info

Publication number: CN112668304A
Application number: CN202011205879.5A
Authority: CN
Inventors: 于江德; 李学钰; 宋俊昌; 武宇浩; 杨佩于
Original assignee: Anyang Normal University
Current assignee: Anyang Normal University
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-04-16

Abstract

本发明属于自然语言处理技术领域，公开了基于两个层次Bi‑LSTM的汉语句子排序方法，在词向量训练语料上采用word2vec得到训练语料中词语的词向量；对选取的汉语句子排序语料进行预处理；采用第一层次的Bi‑LSTM模型实现在词向量的基础上生成汉语句子的句向量；采用第二层次的Bi‑LSTM模型实现汉语句子的排序；训练用于进行汉语句子排序的第一层次的Bi‑LSTM模型、第二层次的Bi‑LSTM模型；在测试语料中输入待排序的一组汉语句子，进行汉语句子排序及后处理。本发明将汉语句子排序问题转换为一个多分类问题，将输出结果通过归一化指数函数做多分类处理，取得了较好的汉语句子排序结果,且实现较简单。

Description

基于两个层次Bi-LSTM的汉语句子排序方法

技术领域

本发明属于自然语言处理技术领域，具体涉及基于两个层次Bi-LSTM的汉语句子排序方法。

背景技术

句子排序是将本无顺序或打乱顺序的若干句子，通过分析这些句子之间的逻辑结构与语义关联，将它们重新排序，得到一段语义连贯、可读性强的文本的过程。句子排序在自然语言处理领域有许多应用场景。第一类应用场景是多文档自动摘要和自动问答***，这类应用场景中有一个共同的任务：句子排序。多文档自动摘要中要从多个文档抽取出一些候选摘要句子，在形成最终摘要文本时需要对这些句子进行排序；自动问答***中要从多个答案文本中抽取出一些候选答案句子，在形成最终问题答案时也需要对这些候选句子进行排序。并且由于这些摘要句子或答案句子来自于不同文档或答案文本，所以在进行句子排序时可以作为排序依据的时间信息、空间信息缺失或不可用，这时只能根据句子的语义逻辑关系进行排序。第二类应用场景是让计算机去“参加”一些考试，解答句子排序这类试题。“句子排序”是高考试题中的一种常考题型，也是中小学生学习语文时经常要做的一类练习题，这些试题或练习题主要是对学生语言表达连贯的考查。句子顺序正确是文本可读、准确地表达语义和传递信息的必要条件，将一组给定的句子组织成句意连贯的一段文本，方便他人阅读和理解是学生学习语文的重要目标。

句子排序的方法主要有传统的句子排序方法和基于深度神经网络的句子排序方法两类。传统的句子排序方法主要依据待排序句子中的时间信息或逻辑连词等明显的文本特征进行排序，人力成本较高。近几年，不少学者探索了基于深度神经网络的句子排序方法，文献[1](栾克鑫,杜新凯,孙承杰,等.基于注意力机制的句子排序方法.中文信息学报,2018,32(1):123-130.)公开了一种基于注意力机制的句子排序方法，该方法通过注意力机制将重点聚焦在关键词上，通过找出词与词之间的关系来确定句子与句子之间的关系，具体实现时将待排序的句子两两组合，首先判断每个组合中两个句子的顺序关系，根据两两句子的顺序关系，确定所有句子的顺序关系。该方法需要比较确定的句子间顺序次数多，增加了运算时间。专利文献[2](浙江大学于2018年9月21日提交的公开号为CN 109241536A的中国专利“一种基于深度学习自注意力机制的句子排序方法”)公开了一种基于深度学习自注意力机制的句子排序方法，该方法采用自注意力机制从句子向量中学习句子间的语义关联，并挖掘潜在的逻辑结构，保存重要信息构成高层次的段落向量，然后输入指针网络得到句子顺序，该方法具有较高的准确率，但计算复杂。

针对以上技术中计算复杂和运算时间长等问题，特提出本发明。本发明提供一种基于两个层次双向长短期记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的汉语句子排序方法，将汉语句子排序问题转换为一个多分类问题。第一层次的Bi-LSTM实现从词向量得到句向量，输入为句子的各个词向量，输出为该句子的句向量；第二层次的Bi-LSTM实现对句子的排序，输入为待排序句子的经第一层次Bi-LSTM输出的句向量，输出为该句子的排序序号，通过Bi-LSTM实现多对多的输入和输出，将输出结果通过归一化指数函数做多分类处理，取得了较好的汉语句子排序结果，且实现较简单。

发明内容

本发明的目的在于：提供一种基于两个层次Bi-LSTM的汉语句子排序方法，将汉语句子排序问题转换为一个多分类问题。第一层次的Bi-LSTM实现从词向量得到句向量，输入为句子的各个词向量，输出为该句子的句向量；第二层次的Bi-LSTM实现对句子的排序，输入为待排序句子的经第一层次Bi-LSTM输出的句向量，输出为该句子的排序序号，通过Bi-LSTM实现多对多的输入和输出，将输出结果通过归一化指数函数做多分类处理，取得了较好的汉语句子排序结果，且实现较简单。

本发明采用的技术方案如下：

基于两个层次Bi-LSTM的汉语句子排序方法，该方法包括如下步骤：

(1)在词向量训练语料上采用word2vec得到训练语料中词语的词向量，具体步骤如下：

(11)对已分词的词向量训练语料进行预处理生成分词语料句子集，建立词的词典，为每个词分配序号，序号从1开始编号，0号保留用来表示没有出现在词典中的词；

(12)采用word2vec得到该分词语料句子集的词向量；

(2)对选取的汉语句子排序语料进行预处理，将该排序语料按一定比例划分为训练语料和测试语料，其中，训练语料再按一定比例划分为训练语料和验证语料；

(3)采用第一层次的Bi-LSTM模型实现在词向量的基础上生成汉语句子的句向量：具体是一种多对一的模式，输入为句子的各个词向量，输出为该句子的句向量；

(4)采用第二层次的Bi-LSTM模型实现汉语句子的排序：具体是一种多对多的模式，将汉语句子排序问题转换为一个多分类问题，输入为5个句子的句向量，输出为每个句子的排序序号；

(5)训练用于进行汉语句子排序的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型，具体步骤如下：

(51)将步骤(2)得到的汉语句子排序训练语料输入第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型；

(52)训练用于进行汉语句子排序的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型，得到模型各层权重参数与相应偏置项；

(6)在测试语料中输入待排序的一组汉语句子，进行汉语句子排序及后处理，具体步骤如下：

(61)将一组待排序的汉语句子输入训练好的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型；

(62)输出这组汉语句子的得分最高的排序序号。

进一步的，所述步骤(2)中，汉语句子排序语料是分词之后的***语料，每5个句子一组，序号依次为1-5。

进一步的，所述汉语句子的长度为36个词语，长于36个词语的句子会被截断，少于36个词语的句子会进行填充。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，将汉语句子排序问题转换为一个多分类问题。第一层次的Bi-LSTM实现从词向量得到句向量，输入为句子的各个词向量，输出为该句子的句向量；第二层次的Bi-LSTM实现对句子的排序，输入为待排序句子的经第一层次Bi-LSTM输出的句向量，输出为该句子的排序序号，通过Bi-LSTM实现多对多的输入和输出，将输出结果通过归一化指数函数做多分类处理，取得了较好的汉语句子排序结精度，且实现较简单。

2、本发明中，基于两个层次Bi-LSTM对汉语词法分析建模，第一层次的Bi-LSTM实现从词向量得到句向量，第二层次的Bi-LSTM实现对句子的排序，将表示学习方法引入机器学习中，可以将特征表示、提取、选择交给算法自动完成，提升了效率，节约人力资源，具有较高的应用价值。

附图说明

图1为本发明所述的汉语句子排序语料的示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例提供一种基于两个层次Bi-LSTM的汉语句子排序方法，该方法包括如下步骤：

(12)采用word2vec得到该分词语料句子集的词向量；具体实施时采用gensim开源库中的word2vec工具对分词并预处理后的语料训练得到词向量，训练中词向量的维度设置为256，min_count设置为5。这样就得到了该语料中出现次数不小于5的词语的低维向量表示；

(2)对选取的汉语句子排序语料进行预处理，将该排序语料按9∶1的比例划分为训练语料和测试语料，其中，训练语料再按5∶1的比例划分为训练语料和验证语料；其中，汉语句子排序语料是分词之后的***语料，每5个句子一组，序号依次为1-5，如图1所示；

具体构建汉语句子排序语料时，将一段连续的语料文本进行预处理，通过句子分隔符“。”、“！”将一段连续的语料文本分割成一个一个的句子，将分好词的句子按照5个句子为一组，分别在句子前面添加1-5的排序序号标记，句子与标识之间用空格隔开，方便后期数据训练时进行数据处理。另外，汉语句子的长度对模型训练有影响，本实施例将输入到模型中的句子长度限制为36个词语，长于36个词语的句子会被截断，少于36个词语的句子会进行填充。

(3)采用第一层次的Bi-LSTM模型实现在词向量的基础上生成汉语句子的句向量：具体是一种多对一的模式，输入为句子的各个词向量，输出为该句子的句向量；具体为按顺序输入为句子的36个词向量，输出为该句子的句向量，句向量的维度为256；

(62)输出这组汉语句子的得分最高的排序序号，即为待排序的一组汉语句子的序号。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于两个层次Bi-LSTM的汉语句子排序方法，其特征在于，该方法包括如下步骤：

(12)采用word2vec得到该分词语料句子集的词向量；

(62)输出这组汉语句子的得分最高的排序序号。

2.根据权利要求1所述的基于两个层次Bi-LSTM的汉语句子排序方法，其特征在于，所述步骤(2)中，汉语句子排序语料是分词之后的***语料，每5个句子一组，序号依次为1-5。

3.根据权利要求2所述的基于两个层次Bi-LSTM的汉语句子排序方法，其特征在于，所述汉语句子的字符长度为36个词语，长于36个词语的句子会被截断，少于36个词语的句子会进行填充。