CN112668304A - 基于两个层次Bi-LSTM的汉语句子排序方法 - Google Patents
基于两个层次Bi-LSTM的汉语句子排序方法 Download PDFInfo
- Publication number
- CN112668304A CN112668304A CN202011205879.5A CN202011205879A CN112668304A CN 112668304 A CN112668304 A CN 112668304A CN 202011205879 A CN202011205879 A CN 202011205879A CN 112668304 A CN112668304 A CN 112668304A
- Authority
- CN
- China
- Prior art keywords
- sentence
- chinese
- corpus
- level
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 238000012805 post-processing Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明属于自然语言处理技术领域,公开了基于两个层次Bi‑LSTM的汉语句子排序方法,在词向量训练语料上采用word2vec得到训练语料中词语的词向量;对选取的汉语句子排序语料进行预处理;采用第一层次的Bi‑LSTM模型实现在词向量的基础上生成汉语句子的句向量;采用第二层次的Bi‑LSTM模型实现汉语句子的排序;训练用于进行汉语句子排序的第一层次的Bi‑LSTM模型、第二层次的Bi‑LSTM模型;在测试语料中输入待排序的一组汉语句子,进行汉语句子排序及后处理。本发明将汉语句子排序问题转换为一个多分类问题,将输出结果通过归一化指数函数做多分类处理,取得了较好的汉语句子排序结果,且实现较简单。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及基于两个层次Bi-LSTM的汉语句子排序方法。
背景技术
句子排序是将本无顺序或打乱顺序的若干句子,通过分析这些句子之间的逻辑结构与语义关联,将它们重新排序,得到一段语义连贯、可读性强的文本的过程。句子排序在自然语言处理领域有许多应用场景。第一类应用场景是多文档自动摘要和自动问答***,这类应用场景中有一个共同的任务:句子排序。多文档自动摘要中要从多个文档抽取出一些候选摘要句子,在形成最终摘要文本时需要对这些句子进行排序;自动问答***中要从多个答案文本中抽取出一些候选答案句子,在形成最终问题答案时也需要对这些候选句子进行排序。并且由于这些摘要句子或答案句子来自于不同文档或答案文本,所以在进行句子排序时可以作为排序依据的时间信息、空间信息缺失或不可用,这时只能根据句子的语义逻辑关系进行排序。第二类应用场景是让计算机去“参加”一些考试,解答句子排序这类试题。“句子排序”是高考试题中的一种常考题型,也是中小学生学习语文时经常要做的一类练习题,这些试题或练习题主要是对学生语言表达连贯的考查。句子顺序正确是文本可读、准确地表达语义和传递信息的必要条件,将一组给定的句子组织成句意连贯的一段文本,方便他人阅读和理解是学生学习语文的重要目标。
句子排序的方法主要有传统的句子排序方法和基于深度神经网络的句子排序方法两类。传统的句子排序方法主要依据待排序句子中的时间信息或逻辑连词等明显的文本特征进行排序,人力成本较高。近几年,不少学者探索了基于深度神经网络的句子排序方法,文献[1](栾克鑫,杜新凯,孙承杰,等.基于注意力机制的句子排序方法.中文信息学报,2018,32(1):123-130.)公开了一种基于注意力机制的句子排序方法,该方法通过注意力机制将重点聚焦在关键词上,通过找出词与词之间的关系来确定句子与句子之间的关系,具体实现时将待排序的句子两两组合,首先判断每个组合中两个句子的顺序关系,根据两两句子的顺序关系,确定所有句子的顺序关系。该方法需要比较确定的句子间顺序次数多,增加了运算时间。专利文献[2](浙江大学于2018年9月21日提交的公开号为CN 109241536A的中国专利“一种基于深度学习自注意力机制的句子排序方法”)公开了一种基于深度学习自注意力机制的句子排序方法,该方法采用自注意力机制从句子向量中学习句子间的语义关联,并挖掘潜在的逻辑结构,保存重要信息构成高层次的段落向量,然后输入指针网络得到句子顺序,该方法具有较高的准确率,但计算复杂。
针对以上技术中计算复杂和运算时间长等问题,特提出本发明。本发明提供一种基于两个层次双向长短期记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的汉语句子排序方法,将汉语句子排序问题转换为一个多分类问题。第一层次的Bi-LSTM实现从词向量得到句向量,输入为句子的各个词向量,输出为该句子的句向量;第二层次的Bi-LSTM实现对句子的排序,输入为待排序句子的经第一层次Bi-LSTM输出的句向量,输出为该句子的排序序号,通过Bi-LSTM实现多对多的输入和输出,将输出结果通过归一化指数函数做多分类处理,取得了较好的汉语句子排序结果,且实现较简单。
发明内容
本发明的目的在于:提供一种基于两个层次Bi-LSTM的汉语句子排序方法,将汉语句子排序问题转换为一个多分类问题。第一层次的Bi-LSTM实现从词向量得到句向量,输入为句子的各个词向量,输出为该句子的句向量;第二层次的Bi-LSTM实现对句子的排序,输入为待排序句子的经第一层次Bi-LSTM输出的句向量,输出为该句子的排序序号,通过Bi-LSTM实现多对多的输入和输出,将输出结果通过归一化指数函数做多分类处理,取得了较好的汉语句子排序结果,且实现较简单。
本发明采用的技术方案如下:
基于两个层次Bi-LSTM的汉语句子排序方法,该方法包括如下步骤:
(1)在词向量训练语料上采用word2vec得到训练语料中词语的词向量,具体步骤如下:
(11)对已分词的词向量训练语料进行预处理生成分词语料句子集,建立词的词典,为每个词分配序号,序号从1开始编号,0号保留用来表示没有出现在词典中的词;
(12)采用word2vec得到该分词语料句子集的词向量;
(2)对选取的汉语句子排序语料进行预处理,将该排序语料按一定比例划分为训练语料和测试语料,其中,训练语料再按一定比例划分为训练语料和验证语料;
(3)采用第一层次的Bi-LSTM模型实现在词向量的基础上生成汉语句子的句向量:具体是一种多对一的模式,输入为句子的各个词向量,输出为该句子的句向量;
(4)采用第二层次的Bi-LSTM模型实现汉语句子的排序:具体是一种多对多的模式,将汉语句子排序问题转换为一个多分类问题,输入为5个句子的句向量,输出为每个句子的排序序号;
(5)训练用于进行汉语句子排序的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型,具体步骤如下:
(51)将步骤(2)得到的汉语句子排序训练语料输入第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型;
(52)训练用于进行汉语句子排序的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型,得到模型各层权重参数与相应偏置项;
(6)在测试语料中输入待排序的一组汉语句子,进行汉语句子排序及后处理,具体步骤如下:
(61)将一组待排序的汉语句子输入训练好的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型;
(62)输出这组汉语句子的得分最高的排序序号。
进一步的,所述步骤(2)中,汉语句子排序语料是分词之后的***语料,每5个句子一组,序号依次为1-5。
进一步的,所述汉语句子的长度为36个词语,长于36个词语的句子会被截断,少于36个词语的句子会进行填充。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,将汉语句子排序问题转换为一个多分类问题。第一层次的Bi-LSTM实现从词向量得到句向量,输入为句子的各个词向量,输出为该句子的句向量;第二层次的Bi-LSTM实现对句子的排序,输入为待排序句子的经第一层次Bi-LSTM输出的句向量,输出为该句子的排序序号,通过Bi-LSTM实现多对多的输入和输出,将输出结果通过归一化指数函数做多分类处理,取得了较好的汉语句子排序结精度,且实现较简单。
2、本发明中,基于两个层次Bi-LSTM对汉语词法分析建模,第一层次的Bi-LSTM实现从词向量得到句向量,第二层次的Bi-LSTM实现对句子的排序,将表示学习方法引入机器学习中,可以将特征表示、提取、选择交给算法自动完成,提升了效率,节约人力资源,具有较高的应用价值。
附图说明
图1为本发明所述的汉语句子排序语料的示例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例提供一种基于两个层次Bi-LSTM的汉语句子排序方法,该方法包括如下步骤:
(1)在词向量训练语料上采用word2vec得到训练语料中词语的词向量,具体步骤如下:
(11)对已分词的词向量训练语料进行预处理生成分词语料句子集,建立词的词典,为每个词分配序号,序号从1开始编号,0号保留用来表示没有出现在词典中的词;
(12)采用word2vec得到该分词语料句子集的词向量;具体实施时采用gensim开源库中的word2vec工具对分词并预处理后的语料训练得到词向量,训练中词向量的维度设置为256,min_count设置为5。这样就得到了该语料中出现次数不小于5的词语的低维向量表示;
(2)对选取的汉语句子排序语料进行预处理,将该排序语料按9∶1的比例划分为训练语料和测试语料,其中,训练语料再按5∶1的比例划分为训练语料和验证语料;其中,汉语句子排序语料是分词之后的***语料,每5个句子一组,序号依次为1-5,如图1所示;
具体构建汉语句子排序语料时,将一段连续的语料文本进行预处理,通过句子分隔符“。”、“!”将一段连续的语料文本分割成一个一个的句子,将分好词的句子按照5个句子为一组,分别在句子前面添加1-5的排序序号标记,句子与标识之间用空格隔开,方便后期数据训练时进行数据处理。另外,汉语句子的长度对模型训练有影响,本实施例将输入到模型中的句子长度限制为36个词语,长于36个词语的句子会被截断,少于36个词语的句子会进行填充。
(3)采用第一层次的Bi-LSTM模型实现在词向量的基础上生成汉语句子的句向量:具体是一种多对一的模式,输入为句子的各个词向量,输出为该句子的句向量;具体为按顺序输入为句子的36个词向量,输出为该句子的句向量,句向量的维度为256;
(4)采用第二层次的Bi-LSTM模型实现汉语句子的排序:具体是一种多对多的模式,将汉语句子排序问题转换为一个多分类问题,输入为5个句子的句向量,输出为每个句子的排序序号;
(5)训练用于进行汉语句子排序的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型,具体步骤如下:
(51)将步骤(2)得到的汉语句子排序训练语料输入第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型;
(52)训练用于进行汉语句子排序的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型,得到模型各层权重参数与相应偏置项;
(6)在测试语料中输入待排序的一组汉语句子,进行汉语句子排序及后处理,具体步骤如下:
(61)将一组待排序的汉语句子输入训练好的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型;
(62)输出这组汉语句子的得分最高的排序序号,即为待排序的一组汉语句子的序号。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.基于两个层次Bi-LSTM的汉语句子排序方法,其特征在于,该方法包括如下步骤:
(1)在词向量训练语料上采用word2vec得到训练语料中词语的词向量,具体步骤如下:
(11)对已分词的词向量训练语料进行预处理生成分词语料句子集,建立词的词典,为每个词分配序号,序号从1开始编号,0号保留用来表示没有出现在词典中的词;
(12)采用word2vec得到该分词语料句子集的词向量;
(2)对选取的汉语句子排序语料进行预处理,将该排序语料按一定比例划分为训练语料和测试语料,其中,训练语料再按一定比例划分为训练语料和验证语料;
(3)采用第一层次的Bi-LSTM模型实现在词向量的基础上生成汉语句子的句向量:具体是一种多对一的模式,输入为句子的各个词向量,输出为该句子的句向量;
(4)采用第二层次的Bi-LSTM模型实现汉语句子的排序:具体是一种多对多的模式,将汉语句子排序问题转换为一个多分类问题,输入为5个句子的句向量,输出为每个句子的排序序号;
(5)训练用于进行汉语句子排序的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型,具体步骤如下:
(51)将步骤(2)得到的汉语句子排序训练语料输入第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型;
(52)训练用于进行汉语句子排序的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型,得到模型各层权重参数与相应偏置项;
(6)在测试语料中输入待排序的一组汉语句子,进行汉语句子排序及后处理,具体步骤如下:
(61)将一组待排序的汉语句子输入训练好的第一层次的Bi-LSTM模型、第二层次的Bi-LSTM模型;
(62)输出这组汉语句子的得分最高的排序序号。
2.根据权利要求1所述的基于两个层次Bi-LSTM的汉语句子排序方法,其特征在于,所述步骤(2)中,汉语句子排序语料是分词之后的***语料,每5个句子一组,序号依次为1-5。
3.根据权利要求2所述的基于两个层次Bi-LSTM的汉语句子排序方法,其特征在于,所述汉语句子的字符长度为36个词语,长于36个词语的句子会被截断,少于36个词语的句子会进行填充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011205879.5A CN112668304A (zh) | 2020-11-02 | 2020-11-02 | 基于两个层次Bi-LSTM的汉语句子排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011205879.5A CN112668304A (zh) | 2020-11-02 | 2020-11-02 | 基于两个层次Bi-LSTM的汉语句子排序方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112668304A true CN112668304A (zh) | 2021-04-16 |
Family
ID=75402854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011205879.5A Pending CN112668304A (zh) | 2020-11-02 | 2020-11-02 | 基于两个层次Bi-LSTM的汉语句子排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112668304A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378546A (zh) * | 2021-06-10 | 2021-09-10 | 电子科技大学 | 一种非自回归的句子排序方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870964A (zh) * | 2017-07-28 | 2018-04-03 | 北京中科汇联科技股份有限公司 | 一种应用于答案融合***的语句排序方法及*** |
CN107967257A (zh) * | 2017-11-20 | 2018-04-27 | 哈尔滨工业大学 | 一种级联式作文生成方法 |
-
2020
- 2020-11-02 CN CN202011205879.5A patent/CN112668304A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870964A (zh) * | 2017-07-28 | 2018-04-03 | 北京中科汇联科技股份有限公司 | 一种应用于答案融合***的语句排序方法及*** |
CN107967257A (zh) * | 2017-11-20 | 2018-04-27 | 哈尔滨工业大学 | 一种级联式作文生成方法 |
Non-Patent Citations (1)
Title |
---|
何凯霖 等: "基于深度学习的自动文摘句排序方法", 《计算机工程与设计》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378546A (zh) * | 2021-06-10 | 2021-09-10 | 电子科技大学 | 一种非自回归的句子排序方法 |
CN113378546B (zh) * | 2021-06-10 | 2022-06-14 | 电子科技大学 | 一种非自回归的句子排序方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287822B (zh) | 一种中文相似问题生成***与方法 | |
CN110337645B (zh) | 可适配的处理组件 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及*** | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN112686025A (zh) | 一种基于自由文本的中文选择题干扰项生成方法 | |
CN107943940A (zh) | 数据处理方法、介质、***和电子设备 | |
CN116501861B (zh) | 基于层级bert模型与标签迁移的长文本摘要生成方法 | |
CN112966117A (zh) | 实体链接方法 | |
Dobson | Interpretable Outputs: Criteria for Machine Learning in the Humanities. | |
CN110069632B (zh) | 一种集成浅层语义表示向量的深度学习文本分类方法 | |
Hindocha et al. | Short-text Semantic Similarity using GloVe word embedding | |
Forsyth | Automatic readability prediction for modern standard Arabic | |
CN112668304A (zh) | 基于两个层次Bi-LSTM的汉语句子排序方法 | |
Hoppe et al. | Towards intelligent legal advisors for document retrieval and question-answering in german legal documents | |
CN109241276A (zh) | 文本中词语分类方法、言语创造性评价方法和*** | |
CN114462389A (zh) | 一种试卷主观题自动评分方法 | |
Van Tu | A deep learning model of multiple knowledge sources integration for community question answering | |
Bruchansky | Political footprints: Political discourse analysis using pre-trained word vectors | |
Elema | Developing Amharic Question Answering Model Over Unstructured Data Source Using Deep Learning Approach | |
Wilhelm et al. | Extending semantic context analysis using machine learning services to process unstructured data | |
Iswari et al. | Enhancing Aspect-based Sentiment Analysis in Visitor Review using Semantic Similarity | |
Brajković et al. | Application of data mining in e-leaming systems | |
Rogozov et al. | Texts segmentation and semantic comparison: method and results of its application | |
CN116720502B (zh) | 基于机器阅读理解与模板规则的航空文档信息抽取方法 | |
CN111680135B (zh) | 一种基于隐式知识的阅读理解方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210416 |
|
RJ01 | Rejection of invention patent application after publication |