CN111291534A - 面向中文长文本自动摘要的全局编码方法 - Google Patents

面向中文长文本自动摘要的全局编码方法 Download PDF

Info

Publication number
CN111291534A
CN111291534A CN202010078230.5A CN202010078230A CN111291534A CN 111291534 A CN111291534 A CN 111291534A CN 202010078230 A CN202010078230 A CN 202010078230A CN 111291534 A CN111291534 A CN 111291534A
Authority
CN
China
Prior art keywords
text
gru
global
matrix
hidden state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010078230.5A
Other languages
English (en)
Inventor
奚雪峰
皮洲
曾诚
张谦
王坚
鲍观花
吴宏杰
付保川
崔志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University of Science and Technology
Original Assignee
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University of Science and Technology filed Critical Suzhou University of Science and Technology
Priority to CN202010078230.5A priority Critical patent/CN111291534A/zh
Publication of CN111291534A publication Critical patent/CN111291534A/zh
Priority to PCT/CN2020/131399 priority patent/WO2021155699A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及面向中文长文本自动摘要的全局编码方法,先数据预处理,对中文长文本即源文本进行数据预处理,得到词向量;再编码,GRU门控循环单元接收数据预处理后的词向量,对词向量中的每个向量执行编码过程,生成隐藏状态,所有隐藏状态形成的矩阵H作为全局编码过程的输入;再全局编码,卷积神经网络CNN特征提取接收来自编码过程的输出矩阵H,对其经过处理得到注意力矩阵g,再经过全局注意力机制的特征提取和门控单元过程进行运算得到中间语义向量C;最后解码,编码过程输出的最后一位隐藏状态ht和全局编码过程输出得到的中间语义向量C经过GRU门控循环单元处理,得到摘要文本。客观的总结中文长文档和非结构化文档。

Description

面向中文长文本自动摘要的全局编码方法
技术领域
本发明涉及一种面向中文长文本自动摘要的全局编码方法,属于文本信息处理技术领域。
背景技术
文本摘要作为自然语言处理的一个重要分支,已经发展了几十年,能自动将文本转换成简短的摘要。随着海量数据的增长,文本摘要技术的研究成为一个热点。文本摘要可以节省搜索时间,简化搜索过程。特别是在当今信息***的时代,文本摘要对于提高知识发现任务的效率是尤为重要的。已发表的研究大部分都聚焦于短文本摘要,由于中文长文本的复杂性,中文长文本自动摘要的研究还很少。
Alexander M Rush首先将深度学习方法应用于文本摘要[Rush,2015年],使用基于局部注意力的模型根据输入的文本生成摘要,并使用Rouge对摘要进行评分,然而,该方法局限于输入文本的长度和摘要的大小。在此基础上,Ramesh Nallapati引入了编码-解码架构中的注意力机制[Nallapati等,2016年]。为了引入新词,Thang Luong[2015]提出了生成器/指针模型,这个模型在解码时,从原始文档生成的词汇表中提取各个解码层生成的词汇。对于长文本摘要任务,Jeffrey Ling[2017]采用了两层分层的注意力机制,其中一层使用注意力机制从输入文档中选择一个或多个重要单词,然后通过端对端模型将其输入到第二层。用强化学习训练注意力模型,该方法实现了对长文本序列的摘要工作,但精度不高。Arman Cohan[2018]提出了一个生成式的摘要模型,其中包含一个模拟话语结构的分层编码和一个用于生成摘要的感知解码。通过对两个大型科技论文数据集的验证,实验可以生成高质量的文献摘要。
与上述英文文本摘要工作相比,近年来,中文短文本摘要领域也得到了迅速发展,LCSTS是第一个大型中文短文本数据集[Baotian Hu,2015]。文本摘要依赖于对源文本的多次输入和多层次的抽象信息,Shuming Ma和Xu Sun[2017]发现文本中存在明显的层次现象,但是在编码解码架构中没有相应的多重结构。为了解决这个问题,提出了一种多级编码来获取不同层次的文本信息。Piji Li提出了一种基于编码解码框架的文本摘要模型,该模型增加了一个深递归生成编码(DRGN)。Yongshuai Hou[2017]提出了一个基于LSTM的模型来识别高质量的文本摘要对,以构建大规模数据集。Shuming Ma提出了一种文本摘要和情感分析相结合的分层端对端学习模型。将句子归类为文本摘要的进一步概况。Junyang Lin[2018]提出了一个基于全局编码的框架,利用卷积单元,根据输入上下文的全局信息,控制从编码到解码的信息。
目前,已发表的研究大部分都聚焦于短文本摘要。由于中文长文本的复杂性,中文长文本自动摘要的研究还很少。
发明内容
本发明的目的是克服现有技术存在的不足,提供一种面向中文长文本自动摘要的全局编码方法。
本发明的目的通过以下技术方案来实现:
面向中文长文本自动摘要的全局编码方法,特点是:包括以下步骤:
1)数据预处理,对中文长文本即源文本进行数据预处理,得到词向量;
2)编码,GRU门控循环单元接收数据预处理后的词向量,对词向量中的每个向量执行编码过程,生成隐藏状态,所有隐藏状态形成的矩阵H作为全局编码过程的输入;
3)全局编码,卷积神经网络CNN特征提取接收来自编码过程的输出矩阵H,对其经过处理得到注意力矩阵g,注意力矩阵g再经过全局注意力机制的特征提取和门控单元过程进行运算得到中间语义向量C,完成全局编码;
4)解码,编码过程输出的最后一位隐藏状态ht和全局编码过程输出得到的中间语义向量C经过GRU门控循环单元处理,最终得到摘要文本。
进一步地,上述的面向中文长文本自动摘要的全局编码方法,其中,步骤1),数据预处理包括以下步骤:
11)首先,接收中文长文本即源文本,并使用jieba分词工具进行中文分词,将长文本分成单个的词;
12)然后,将分词后的源文本通过词嵌入工具转化为文本单词向量(x1,x2,...xt);
13)最后,单词向量(x1,x2,...xt)作为编码过程的输入。
进一步地,上述的面向中文长文本自动摘要的全局编码方法,其中,数据预处理将输入中文长文本即源文本转化为矢量表示。
进一步地,上述的面向中文长文本自动摘要的全局编码方法,其中,步骤2),编码包括以下步骤:
21)首先,GRU门控循环单元从源文本顺序接收数据预处理后的单词向量,第一个GRU接收x1,x1和预设值h0经过GRU门控循环单元处理得到第一个隐藏状态h1,第二个GRU接收x2,处理后得到第二个隐藏状态h2,如此累加处理得到最后一个隐藏状态ht
22)然后,所有隐藏状态h1,h2,...,ht全连接成一个隐藏状态矩阵H,作为全局编码过程的输入;
23)最后,最后一个隐藏状态ht与整个源文本的信息一起成为解码过程的初始隐藏状态s0,相关公式如下:
zt=σ(Wz·ht-1,xt) (1)
其中σ是激活函数,Wz是更新权重矩阵,xt是输入向量,ht-1表示编码过程GRU的上一个隐藏状态,zt是更新门向量,已知Wz、[ht-1,xt],求zt
rt=σ(Wr·[ht-1,xt]) (2)
其中Wr表示重置权重矩阵,rt是重置门向量,已知Wr、[ht-1,xt]、求rt
Figure BDA0002379247510000041
其中W是一个参数矩阵,tanh表示激活函数,rt为公式(2)求得的结果,将其代入公式(3),
Figure BDA0002379247510000042
表示t时刻输入信息,已知W、rt、ht-1、xt,求
Figure BDA0002379247510000043
Figure BDA0002379247510000044
其中zt为公式(1)求得的结果,将其代入公式(4),
Figure BDA0002379247510000045
为公式(3)求得的结果,将其代入公式(4),ht是输出向量,已知zt、ht-1
Figure BDA0002379247510000046
求ht
进一步地,上述的面向中文长文本自动摘要的全局编码方法,其中,GRU是循环神经网络的一种,有一个当前的输入xt,和上一个节点传递下来的隐藏状态ht-1,隐藏状态包含之前节点的信息,结合xt和ht-1,GRU得到当前隐藏状态yt和传递给下一个节点的隐藏状态ht
进一步地,上述的面向中文长文本自动摘要的全局编码方法,其中,
步骤3),全局编码包括以下步骤:
31)首先,进行卷积神经网络CNN特征提取;
隐藏状态H作为全局编码中卷积神经网络CNN特征提取的输入,通过卷积神经网络CNN进行特征提取,利用一维卷积方法提取N-gram特征得到卷积块
Figure BDA0002379247510000051
Figure BDA0002379247510000052
进入全局注意力机制进行运算处理,卷积块描述如下:
Figure BDA0002379247510000053
其中Relu指非线性激活函数校正线性单元,h是提取的特征,m是特征的维度,k是卷积神经网络中卷积核的尺寸大小,b是偏重量,W是权重参数,
Figure BDA0002379247510000054
是卷积块,已知W、h、m、b,求
Figure BDA0002379247510000055
32)然后,进行全局注意力机制的特征提取;
在卷积神经网络CNN过程生成的新表示的基础上,进一步对这些表示采用注意力机制,挖掘出全局相关性,这些表示由注意力机制计算成矩阵:
Figure BDA0002379247510000056
其中
Figure BDA0002379247510000057
Q、K、V分别是Query、Key、Value的简写,Q表示为一个n×dk的矩阵,K表示为一个m×dk的矩阵,V表示为m×dv的矩阵;其中因子
Figure BDA0002379247510000058
起到调节作用,以至于内积太大,导致softmax之后的结果非0即1,T表示转置,是原文本的长度,d表示维度,已知Q、K、dk、V,求Attention(Q,K,V);
33)最后,进行门控单元过程;
根据来自编码过程的输出隐藏状态H和全局注意力机制的特征提取得到的g设置一个门,其中:
C=H⊙σ(g) (7)
其中C是中间语义向量,H是编码过程所有隐藏状态形成的矩阵,g表示当前时间步的注意力权重,⊙表示内积,σ表示激活函数,σ(g)的值为0或1;当σ(g)=0时,将g的信息忽略;当σ(g)=1时,将g的信息加入到解码过程中;已知H、g,求C。
进一步地,上述的面向中文长文本自动摘要的全局编码方法,其中,步骤4),解码包括以下步骤:
41)首先,将编码过程输出的隐藏状态ht设为s0
42)然后,s0和中间语义向量C中的c1作为解码过程第一个GRU的输入,经过第一个GRU处理得到文本摘要y1和隐藏状态s1,同样地,s1和c2经过第二个GRU处理得到文本摘要y2和隐藏状态s2,以此类推,最终得到(y1,y2,...,yn)构成中文长文本摘要序列,解码过程如下:
zn=σ(W·[sn-1,cn]) (8)
其中[]表示两个向量相连接,sn-1表示上一个GRU的隐藏状态,cn表示当前GRU的输入,zn表示当前GRU更新权值,已知wz、[sn-1,cn],求zn
rn=σ(Wr·[sn-1,cn]) (9)
其中rn表示当前GRU的重置权值,已知wr、[sn-1,cn],求rn
Figure BDA0002379247510000061
其中rn是公式(9)求得的结果,将其代入公式(10),
Figure BDA0002379247510000062
表示n时刻输入的信息,已知W、[rn*sn-1,cn],求
Figure BDA0002379247510000063
Figure BDA0002379247510000064
其中zn是公式(8)求得的结果,将其代入公式(11),
Figure BDA0002379247510000065
是公式(10)求得的结果,将其代入公式(11),sn表示之前编码过程和当前GRU的加权信息,已知和zn、sn-1
Figure BDA0002379247510000071
求sn
yn=soft max(Wd·sn) (12)
其中wd表示全局注意力矩阵,sn为公式(11)求得的结果,将其代入公式(12),softmax表示激活函数,yn表示第n个词在词库上的概率分布,已知wd、sn,求yn
43)最后,摘要序列构成中文长文本摘要。
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
本发明结合中文长文本自动摘要的特点,采用中文单词作为嵌入向量表示,而不是中文字符,基于中文单词的嵌入向量表示模型优于基于字符的嵌入向量表示模型,解决神经文本摘要的单一、中长文本,提出具有全局编码单元的模型,能够客观的总结中文长文档和非结构化文档,如笔录文档;根据不同特征处理数据集的模型选择策略,有助于文本摘要,新的中文长文本语料库有助于社会各界对此问题的进一步探索。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明具体实施方式了解。
附图说明
图1:本发明的流程示意图;
图2:生成中文长文本摘要的编码-解码模型的示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现详细说明具体实施方案。
本发明提出了一种带有注意力机制的全局编码模型,用于中文长文本摘要任务即一种面向中文长文本的全局编码方法。
如图1、图2所示,一种面向中文长文本自动摘要的全局编码方法的流程,具体步骤为:
1)数据预处理,对中文长文本即源文本进行数据预处理,得到词向量;
11)首先,接收中文长文本即源文本,并使用jieba分词工具进行中文分词,将长文本分成单个的词;
12)然后,将分词后的源文本通过词嵌入工具转化为文本单词向量(x1,x2,...xt);
13)最后,单词向量(x1,x2,...xt)作为编码过程的输入。
以具体实例说明,输入一段中文长文本:“我们是派出所的民警出示工作证件现依法对你进行询问请你如实回答问题对与本案无关的问题你有拒绝回答的权利你听清楚了吗。你今天拨打110所为何事。2017年11月26日17时至22时停放在国际大厦南侧的停车场电动车被盗。电瓶被盗48V2014年购买花了500元。你还有什么要补充的吗。你以上说的是否属实。”
通过预先训练好的词库[50000,128](词库大小是50000,词嵌入维度是128),可以将输入语句转化成句长×维度的矩阵向量,这里输入语句长度为150个字,空格不计入。每一个字在词库中对应一个[1,128]的列向量,每一个字通过词库映射,实现将这个字长为150的句子转化为句子向量[150,128]。
2)编码,GRU门控循环单元接收数据预处理后的词向量,对词向量中的每个向量执行编码过程,执行编码过程,生成隐藏状态,所有隐藏状态形成的矩阵H作为全局编码过程的输入;
21)首先,GRU门控循环单元从源文本顺序接收数据预处理后的单词向量,第一个GRU接收x1,x1和预设值h0经过GRU门控循环单元处理得到第一个隐藏状态h1,第二个GRU接收x2,处理后得到第二个隐藏状态h2,如此累加处理得到最后一个隐藏状态ht
22)然后,所有隐藏状态h1,h2,...,ht全连接成一个隐藏状态矩阵H,作为全局编码过程的输入;
23)最后,最后一个隐藏状态ht与整个源文本的信息一起成为解码过程的初始隐藏状态s0,相关公式如下:
zt=σ(Wz·ht-1,xt) (1)
其中σ是激活函数,Wz是更新权重矩阵,xt是输入向量,ht-1表示编码过程GRU的上一个隐藏状态,zt是更新门向量,已知Wz、[ht-1,xt],求zt
rt=σ(Wr·[ht-1,xt]) (2)
其中Wr表示重置权重矩阵,rt是重置门向量,已知Wr、[ht-1,xt]、求rt
Figure BDA0002379247510000091
其中W是一个参数矩阵,tanh表示激活函数,rt为公式(2)求得的结果,将其代入公式(3),
Figure BDA0002379247510000092
表示t时刻输入信息,已知W、rt、ht-1、xt,求
Figure BDA0002379247510000093
Figure BDA0002379247510000094
其中zt为公式(1)求得的结果,将其代入公式(4),
Figure BDA0002379247510000095
为公式(3)求得的结果,将其代入公式(4),ht是输出向量,已知zt、ht-1
Figure BDA0002379247510000101
求ht
具体地,转化后的句子向量[150×128]作为编码过程的输入,首先输入第一列[1,128]和一个初始化矩阵[512,128],通过第一个编码单元产生一个隐藏状态矩阵[512,128]和一个输出向量矩阵[512,128];然后将隐藏状态矩阵和第二列作为输入,再输出隐藏状态矩阵;直到句子向量全部输入;此时将最后一个单元产生的隐藏状态矩阵[512,128]作为解码过程的输入。
3)全局编码,卷积神经网络CNN特征提取接收来自编码过程的输出矩阵H,对其经过处理得到注意力矩阵g,注意力矩阵g再经过全局注意力机制的特征提取和门控单元过程进行运算得到中间语义向量C,完成全局编码;
31)首先,进行卷积神经网络CNN特征提取;
隐藏状态H作为全局编码中卷积神经网络CNN特征提取的输入,通过卷积神经网络CNN进行特征提取,利用一维卷积方法提取N-gram特征,得到卷积块
Figure BDA0002379247510000102
Figure BDA0002379247510000103
进入全局注意力机制进行运算处理,卷积块描述如下:
Figure BDA0002379247510000104
其中Relu指非线性激活函数校正线性单元,h是提取的特征,m是特征的维度,k是卷积神经网络中卷积核的尺寸大小,b是偏重量,W是权重参数,
Figure BDA0002379247510000105
是卷积块,已知W、h、m、b,求
Figure BDA0002379247510000106
32)然后,进行全局注意力机制的特征提取;
在卷积神经网络CNN过程生成的新表示的基础上,进一步对这些表示采用注意力机制,挖掘出全局相关性,这些表示由注意力机制计算成矩阵:
Figure BDA0002379247510000111
其中
Figure BDA0002379247510000112
Q、K、V分别是Query、Key、Value的简写,Q表示为一个n×dk的矩阵,K表示为一个m×dk的矩阵,V表示为m×dv的矩阵;其中因子
Figure BDA0002379247510000113
起到调节作用,以至于内积太大,导致softmax之后的结果非0即1。T表示转置,是原文本的长度,d表示维度。已知Q、K、dk、V,求Attention(Q,K,V)。
33)最后,进行门控单元过程;
根据来自编码过程的输出隐藏状态H和全局注意力机制的特征提取得到的g设置一个门,其中:
C=H⊙σ(g) (7)
其中C是中间语义向量,H是编码过程所有隐藏状态形成的矩阵,g表示当前时间步的注意力权重,⊙表示内积,σ表示激活函数,σ(g)的值为0或1。当σ(g)=0时,将g的信息忽略;当σ(g)=1时,将g的信息加入到解码过程中;已知H、g,求C。
4)解码,编码过程输出的最后一位隐藏状态ht和全局编码过程输出得到的中间语义向量C经过GRU门控循环单元处理,最终得到摘要文本。
41)首先,将编码过程输出的隐藏状态ht设为s0
42)然后,s0和中间语义向量C中的c1作为解码过程第一个GRU的输入,经过第一个GRU处理得到文本摘要y1和隐藏状态s1,同样地,s1和c2经过第二个GRU处理得到文本摘要y2和隐藏状态s2,以此类推,最终得到(y1,y2,...,yn)构成中文长文本摘要序列,解码过程如下:
zn=σ(W·[sn-1,cn]) (8)
其中[]表示两个向量相连接,sn-1表示上一个GRU的隐藏状态,cn表示当前GRU的输入,zn表示当前GRU更新权值,已知wz、[sn-1,cn],求zn
rn=σ(Wr·[sn-1,cn]) (9)
其中rn表示当前GRU的重置权值,已知wr、[sn-1,cn],求rn
Figure BDA0002379247510000121
其中rn是公式(9)求得的结果,将其代入公式(10),
Figure BDA0002379247510000122
表示n时刻输入的信息,已知W、[rn*sn-1,cn],求
Figure BDA0002379247510000123
Figure BDA0002379247510000124
其中zn是公式(8)求得的结果,将其代入公式(11),
Figure BDA0002379247510000125
是公式(10)求得的结果,将其代入公式(11),sn表示之前编码过程和当前GRU的加权信息,已知和zn、sn-1
Figure BDA0002379247510000126
求sn
yn=soft max(Wd·sn) (12)
其中wd表示全局注意力矩阵,sn为公式(11)求得的结果,将其代入公式(12),softmax表示激活函数,yn表示第n个词在词库上的概率分布,已知wd、sn,求yn
43)最后,摘要序列构成中文长文本摘要。
具体地,句子向量与训练过程得到的注意力权重[50000,128]进行注意力运算得到一个词库中所有词的权重矩阵也作为输入,通过第一个解码单元得到一个[1,128]的矩阵,这个矩阵通过词库[50000×128]映射成中文字符,在这个例子中,第一个[1,128]的矩阵将映射成字符’2’,然后以第一个解码单元产生的隐藏状态矩阵[512,128]和句子向量与第二个解码器的权重矩阵点乘得到第二个词库的权重矩阵作为输入,产生第二个[1,128]的矩阵,通过词库[50000,128]映射成字符’0’,依次类推,第三个字符为1,第四个字符为7,…,直到产生的一个[1,128]的矩阵通过词库映射成终止符或者生成句子长度达到预设值时结束;最终生成的摘要即为2017年11月26日17时至22时在国际大厦的停车场被盗一辆电动车。
综上所述,本发明结合中文长文本自动摘要的特点,采用中文单词作为嵌入向量表示,而不是中文字符,基于中文单词的嵌入向量表示模型优于基于字符的嵌入向量表示模型,解决神经文本摘要的单一、中长文本,提出具有全局编码单元的模型,能够客观的总结中文长文档和非结构化文档,如笔录文档;根据不同特征处理数据集的模型选择策略,有助于文本摘要,新的中文长文本语料库有助于社会各界对此问题的进一步探索。
需要说明的是:以上所述仅为本发明的优选实施方式,并非用以限定本发明的权利范围;同时以上的描述,对于相关技术领域的专门人士应可明了及实施,因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰,均应包含在申请专利范围中。

Claims (7)

1.面向中文长文本自动摘要的全局编码方法,其特征在于:包括以下步骤:
1)数据预处理,对中文长文本即源文本进行数据预处理,得到词向量;
2)编码,GRU门控循环单元接收数据预处理后的词向量,对词向量中的每个向量执行编码过程,生成隐藏状态,所有隐藏状态形成的矩阵H作为全局编码过程的输入;
3)全局编码,卷积神经网络CNN特征提取接收来自编码过程的输出矩阵H,对其经过处理得到注意力矩阵g,注意力矩阵g再经过全局注意力机制的特征提取和门控单元过程进行运算得到中间语义向量C,完成全局编码;
4)解码,编码过程输出的最后一位隐藏状态ht和全局编码过程输出得到的中间语义向量C经过GRU门控循环单元处理,最终得到摘要文本。
2.根据权利要求1所述的面向中文长文本自动摘要的全局编码方法,其特征在于:步骤1),数据预处理包括以下步骤:
11)首先,接收中文长文本即源文本,并使用jieba分词工具进行中文分词,将长文本分成单个的词;
12)然后,将分词后的源文本通过词嵌入工具转化为文本单词向量(x1,x2,...xt);
13)最后,单词向量(x1,x2,...xt)作为编码过程的输入。
3.根据权利要求1所述的面向中文长文本自动摘要的全局编码方法,其特征在于:数据预处理将输入中文长文本即源文本转化为矢量表示。
4.根据权利要求1所述的面向中文长文本自动摘要的全局编码方法,其特征在于:步骤2),编码包括以下步骤:
21)首先,GRU门控循环单元从源文本顺序接收数据预处理后的单词向量,第一个GRU接收x1,x1和预设值h0经过GRU门控循环单元处理得到第一个隐藏状态h1,第二个GRU接收x2,处理后得到第二个隐藏状态h2,如此累加处理得到最后一个隐藏状态ht
22)然后,所有隐藏状态h1,h2,...,ht全连接成一个隐藏状态矩阵H,作为全局编码过程的输入;
23)最后,最后一个隐藏状态ht与整个源文本的信息一起成为解码过程的初始隐藏状态s0,相关公式如下:
zt=σ(Wz·ht-1,xt) (1)
其中σ是激活函数,Wz是更新权重矩阵,xt是输入向量,ht-1表示编码过程GRU的上一个隐藏状态,zt是更新门向量,已知Wz、[ht-1,xt],求zt
rt=σ(Wr·[ht-1,xt]) (2)
其中Wr表示重置权重矩阵,rt是重置门向量,已知Wr、[ht-1,xt]、求rt
Figure FDA0002379247500000021
其中W是一个参数矩阵,tanh表示激活函数,rt为公式(2)求得的结果,将其代入公式(3),
Figure FDA0002379247500000022
表示t时刻输入信息,已知W、rt、ht-1、xt,求
Figure FDA0002379247500000023
Figure FDA0002379247500000024
其中zt为公式(1)求得的结果,将其代入公式(4),
Figure FDA0002379247500000025
为公式(3)求得的结果,将其代入公式(4),ht是输出向量,已知zt、ht-1
Figure FDA0002379247500000031
求ht
5.根据权利要求4所述的面向中文长文本自动摘要的全局编码方法,其特征在于:GRU是循环神经网络的一种,有一个当前的输入xt,和上一个节点传递下来的隐藏状态ht-1,隐藏状态包含之前节点的信息,结合xt和ht-1,GRU得到当前隐藏状态yt和传递给下一个节点的隐藏状态ht
6.根据权利要求1所述的面向中文长文本自动摘要的全局编码方法,其特征在于:步骤3),全局编码包括以下步骤:
31)首先,进行卷积神经网络CNN特征提取;
隐藏状态H作为全局编码中卷积神经网络CNN特征提取的输入,通过卷积神经网络CNN进行特征提取,利用一维卷积方法提取N-gram特征得到卷积块
Figure FDA0002379247500000032
进入全局注意力机制进行运算处理,卷积块描述如下:
Figure FDA0002379247500000033
其中Relu指非线性激活函数校正线性单元,h是提取的特征,m是特征的维度,k是卷积神经网络中卷积核的尺寸大小,b是偏重量,W是权重参数,
Figure FDA0002379247500000034
是卷积块,已知W、h、m、b,求
Figure FDA0002379247500000035
32)然后,进行全局注意力机制的特征提取;
在卷积神经网络CNN过程生成的新表示的基础上,进一步对这些表示采用注意力机制,挖掘出全局相关性,这些表示由注意力机制计算成矩阵:
Figure FDA0002379247500000036
其中
Figure FDA0002379247500000037
Q、K、V分别是Query、Key、Value的简写,Q表示为一个n×dk的矩阵,K表示为一个m×dk的矩阵,V表示为m×dv的矩阵;其中因子
Figure FDA0002379247500000041
起到调节作用,以至于内积太大,导致softmax之后的结果非0即1,T表示转置,是原文本的长度,d表示维度,已知Q、K、dk、V,求Attention(Q,K,V);
33)最后,进行门控单元过程;
根据来自编码过程的输出隐藏状态H和全局注意力机制的特征提取得到的g设置一个门,其中:
C=H⊙σ(g) (7)
其中C是中间语义向量,H是编码过程所有隐藏状态形成的矩阵,g表示当前时间步的注意力权重,⊙表示内积,σ表示激活函数,σ(g)的值为0或1;当σ(g)=0时,将g的信息忽略;当σ(g)=1时,将g的信息加入到解码过程中;已知H、g,求C。
7.根据权利要求1所述的面向中文长文本自动摘要的全局编码方法,其特征在于:步骤4),解码包括以下步骤:
41)首先,将编码过程输出的隐藏状态ht设为s0
42)然后,s0和中间语义向量C中的c1作为解码过程第一个GRU的输入,经过第一个GRU处理得到文本摘要y1和隐藏状态s1,同样地,s1和c2经过第二个GRU处理得到文本摘要y2和隐藏状态s2,以此类推,最终得到(y1,y2,...,yn)构成中文长文本摘要序列,解码过程如下:
zn=σ(W·[sn-1,cn]) (8)
其中[]表示两个向量相连接,sn-1表示上一个GRU的隐藏状态,cn表示当前GRU的输入,zn表示当前GRU更新权值,已知wz、[sn-1,cn],求zn
rn=σ(Wr·[sn-1,cn]) (9)
其中rn表示当前GRU的重置权值,已知wr、[sn-1,cn],求rn
Figure FDA0002379247500000051
其中rn是公式(9)求得的结果,将其代入公式(10),
Figure FDA0002379247500000052
表示n时刻输入的信息,已知W、[rn*sn-1,cn],求
Figure FDA0002379247500000053
Figure FDA0002379247500000054
其中zn是公式(8)求得的结果,将其代入公式(11),
Figure FDA0002379247500000055
是公式(10)求得的结果,将其代入公式(11),sn表示之前编码过程和当前GRU的加权信息,已知和zn、sn-1
Figure FDA0002379247500000056
求sn
yn=softmax(Wd·sn) (12)
其中wd表示全局注意力矩阵,sn为公式(11)求得的结果,将其代入公式(12),softmax表示激活函数,yn表示第n个词在词库上的概率分布,已知wd、sn,求yn
43)最后,摘要序列构成中文长文本摘要。
CN202010078230.5A 2020-02-03 2020-02-03 面向中文长文本自动摘要的全局编码方法 Pending CN111291534A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010078230.5A CN111291534A (zh) 2020-02-03 2020-02-03 面向中文长文本自动摘要的全局编码方法
PCT/CN2020/131399 WO2021155699A1 (zh) 2020-02-03 2020-11-25 面向中文长文本自动摘要的全局编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010078230.5A CN111291534A (zh) 2020-02-03 2020-02-03 面向中文长文本自动摘要的全局编码方法

Publications (1)

Publication Number Publication Date
CN111291534A true CN111291534A (zh) 2020-06-16

Family

ID=71022415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010078230.5A Pending CN111291534A (zh) 2020-02-03 2020-02-03 面向中文长文本自动摘要的全局编码方法

Country Status (2)

Country Link
CN (1) CN111291534A (zh)
WO (1) WO2021155699A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858914A (zh) * 2020-07-27 2020-10-30 湖南大学 一种基于句级评估的文本摘要生成方法和***
CN112052889A (zh) * 2020-08-28 2020-12-08 西安电子科技大学 基于双门控递归单元解码的喉镜图像识别方法
CN112199482A (zh) * 2020-09-30 2021-01-08 平安科技(深圳)有限公司 一种对话生成方法、装置、设备及可读存储介质
CN113158659A (zh) * 2021-02-08 2021-07-23 银江股份有限公司 一种基于司法文本的涉案财物计算方法
WO2021155699A1 (zh) * 2020-02-03 2021-08-12 苏州科技大学 面向中文长文本自动摘要的全局编码方法
CN114155835A (zh) * 2021-12-06 2022-03-08 哈尔滨工程大学 一种融合全局场景与局部事件信息的音频语意概述方法
CN114927157A (zh) * 2021-02-11 2022-08-19 爱思开海力士有限公司 存储器***的紧凑工作负载表示

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852101B (zh) * 2019-11-06 2024-01-23 深圳如布科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN113779938B (zh) * 2021-08-13 2024-01-23 同济大学 基于视觉与主题协同注意力的连贯性故事生成***及方法
CN113888523B (zh) * 2021-10-20 2024-05-28 山西省机电设计研究院有限公司 一种强化x射线不锈钢焊缝缺陷实时语义分割方法
CN113988083B (zh) * 2021-11-17 2024-07-12 上海海事大学 一种用于航运新闻摘要生成的事实性信息编码与评估方法
CN114818853B (zh) * 2022-03-10 2024-04-12 中国人民解放军空军工程大学 基于双向门控循环单元和条件随机场的意图识别方法
CN115062587B (zh) * 2022-06-02 2024-05-31 北京航空航天大学 一种基于周围信息的知识图谱嵌入及回复生成方法
CN115858942B (zh) * 2023-02-27 2023-05-12 西安电子科技大学 面向用户输入的序列化推荐方法及装置
CN116361256B (zh) * 2023-06-01 2023-08-11 济南阿拉易网络科技有限公司 基于日志解析的数据同步方法及***
CN116894115B (zh) * 2023-06-12 2024-05-24 国网湖北省电力有限公司经济技术研究院 一种电网基建档案自动归档方法
CN118230722A (zh) * 2024-05-22 2024-06-21 陕西拓方信息技术有限公司 基于ai的智能语音识别方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN110738062A (zh) * 2019-09-30 2020-01-31 内蒙古工业大学 一种gru神经网络蒙汉机器翻译方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145105B (zh) * 2018-07-26 2021-11-30 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109522403B (zh) * 2018-11-05 2023-04-21 中山大学 一种基于融合编码的摘要文本生成方法
CN110134782B (zh) * 2019-05-14 2021-05-18 南京大学 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法
CN111291534A (zh) * 2020-02-03 2020-06-16 苏州科技大学 面向中文长文本自动摘要的全局编码方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN110738062A (zh) * 2019-09-30 2020-01-31 内蒙古工业大学 一种gru神经网络蒙汉机器翻译方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆亚男: "基于深度学习的摘要生成模型研究" *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021155699A1 (zh) * 2020-02-03 2021-08-12 苏州科技大学 面向中文长文本自动摘要的全局编码方法
CN111858914A (zh) * 2020-07-27 2020-10-30 湖南大学 一种基于句级评估的文本摘要生成方法和***
CN112052889A (zh) * 2020-08-28 2020-12-08 西安电子科技大学 基于双门控递归单元解码的喉镜图像识别方法
CN112052889B (zh) * 2020-08-28 2023-05-05 西安电子科技大学 基于双门控递归单元解码的喉镜图像识别方法
CN112199482A (zh) * 2020-09-30 2021-01-08 平安科技(深圳)有限公司 一种对话生成方法、装置、设备及可读存储介质
CN112199482B (zh) * 2020-09-30 2023-07-21 平安科技(深圳)有限公司 一种对话生成方法、装置、设备及可读存储介质
CN113158659A (zh) * 2021-02-08 2021-07-23 银江股份有限公司 一种基于司法文本的涉案财物计算方法
CN113158659B (zh) * 2021-02-08 2024-03-08 银江技术股份有限公司 一种基于司法文本的涉案财物计算方法
CN114927157A (zh) * 2021-02-11 2022-08-19 爱思开海力士有限公司 存储器***的紧凑工作负载表示
CN114155835A (zh) * 2021-12-06 2022-03-08 哈尔滨工程大学 一种融合全局场景与局部事件信息的音频语意概述方法
CN114155835B (zh) * 2021-12-06 2022-07-08 哈尔滨工程大学 一种融合全局场景与局部事件信息的音频语意概述方法

Also Published As

Publication number Publication date
WO2021155699A1 (zh) 2021-08-12

Similar Documents

Publication Publication Date Title
CN111291534A (zh) 面向中文长文本自动摘要的全局编码方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN110418210B (zh) 一种基于双向循环神经网络和深度输出的视频描述生成方法
CN109508462B (zh) 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN108829719B (zh) 一种非事实类问答答案选择方法及***
CN106919646B (zh) 中文文本摘要生成***及方法
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN109522411A (zh) 一种基于神经网络的写作辅助方法
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
CN111382582A (zh) 一种基于非自回归的神经机器翻译解码加速方法
CN111859978A (zh) 一种基于深度学习的情感文本生成方法
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN111723547A (zh) 一种基于预训练语言模型的文本自动摘要方法
CN109815476B (zh) 一种基于中文语素和拼音联合统计的词向量表示方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN114972848A (zh) 基于细粒度视觉信息控制网络的图像语义理解及文本生成
Du et al. Named entity recognition method with word position
CN111428518B (zh) 一种低频词翻译方法及装置
CN113191150A (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN116595407A (zh) 基于标签序列一致性建模的事件论元检测方法及***
CN112598065B (zh) 一种基于记忆的门控卷积神经网络语义处理***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200616