CN110532554B - 一种中文摘要生成方法、***及存储介质 - Google Patents

一种中文摘要生成方法、***及存储介质 Download PDF

Info

Publication number
CN110532554B
CN110532554B CN201910787889.5A CN201910787889A CN110532554B CN 110532554 B CN110532554 B CN 110532554B CN 201910787889 A CN201910787889 A CN 201910787889A CN 110532554 B CN110532554 B CN 110532554B
Authority
CN
China
Prior art keywords
chinese
word
sequence
semantic
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910787889.5A
Other languages
English (en)
Other versions
CN110532554A (zh
Inventor
李维勇
柳斌
张伟
李建林
李方方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Vocational College Of Information Technology
Original Assignee
Nanjing Vocational College Of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Vocational College Of Information Technology filed Critical Nanjing Vocational College Of Information Technology
Priority to CN201910787889.5A priority Critical patent/CN110532554B/zh
Publication of CN110532554A publication Critical patent/CN110532554A/zh
Application granted granted Critical
Publication of CN110532554B publication Critical patent/CN110532554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文摘要生成方法、***及存储介质,所述方法包括步骤:获取目标文本,确定目标文本的中文词向量序列;将所述中文词向量序列输入至预训练好的编码器中,生成语义向量;根据语义向量重组出最适合当前时刻的全文语义,将重组后的概括全文语义的中间语义传送至预训练好的解码器;解码器根据前一时刻预测的词语和概括全文语义的中间语义推断下一时刻词的分布,最终所生成的词序列即为目标文本的摘要。本发明能够提升中文文本摘要的生成质量和可读性。

Description

一种中文摘要生成方法、***及存储介质
技术领域
本发明涉及一种中文摘要生成方法、***及存储介质,属于文本信息处理技术领域。
背景技术
自动文摘是利用计算机实现自动文本分析、内容总结和摘要生成的技术,是解决目前信息过剩问题的一种辅助手段,能够帮助人类进一步理解自然语言文本,并更加快速、准确、全面地获取关键信息,在工业和商业方面都具有重要的实用意义。
目前常用的摘要生成方法普遍存在中文文本摘要生成质量偏低、可读性差的技术问题。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种中文摘要生成方法、***及存储介质,能够提升中文文本摘要的生成质量和可读性。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种中文摘要生成方法,所述方法包括如下步骤:
获取目标文本,将目标文本中的汉字拆分成笔画序列;
根据笔画序列确定目标文本的中文词向量序列;
将所述中文词向量序列输入至预训练好的编码器中,生成语义向量;
根据语义向量重组出最适合当前时刻的全文语义,将重组后的概括全文语义的中间语义传送至预训练好的解码器;
解码器根据前一时刻预测的词语和概括全文语义的中间语义推断下一时刻词的分布,最终所生成的词序列即为目标文本的摘要。
结合第一方面,进一步的,确定目标文本的中文词向量序列的方法包括:
对所述笔画序列进行n-gram切分,获取汉字笔画中的n-gram信息;
根据n-gram采用Skip-Gram模型预测中心词上下文,获取对应的中文词向量序列。
结合第一方面,进一步的,获取汉字笔画中的n-gram信息的方法包括:
将词语拆分成字符,找到每个字符对应的笔画序列;
将笔画序列ID化;
对ID化的笔画序列进行n-gram求和,获取所述n-gram信息。
结合第一方面,进一步的,所述编码器采用双向长短时记忆神经网络。
结合第一方面,进一步的,生成语义向量的方法包括:
将中文词向量序列分别正向和反向输入至双向长短时记忆神经网络中,得到两种顺序下每个单词对应的两个隐藏状态;
将两个隐藏状态首尾拼接生成所述语义向量。
结合第一方面,进一步的,根据语义向量重组出最适合当前时刻的全文语义的方法包括:
在通过编码器生成句子语义向量时加入注意力机制,以计算不同输入词对解码器端的影响权重;
根据输入词对解码器端的影响权重结合解码器反馈的隐藏状态重组出最适合当前时刻的全文语义信息。
结合第一方面,进一步的,所述方法还包括采用集束搜索算法优化所生成的词序列。
结合第一方面,进一步的,所述方法还包括对目标文本进行预处理,包括:
去除特殊字符,所述特殊字符包括标点符号、停用语气词和转折词;
将所有日期替换为TAG_DATE;
将超链接URL替换为标签TAG_URL;
将数字替换为TAG_NUMBER;
将英文单词替换为TAG_NAME_EN。
第二方面,本发明提供了一种中文摘要生成***,包括处理器和存储器,所述存储器上存储有程序,所述程序能够被所述处理器加载执行前述任一项所述方法的步骤。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:将目标文本的中文词向量序列输入至预训练好的编码器中,生成语义向量;根据语义向量重组出最适合当前时刻的全文语义,将重组后的概括全文语义的中间语义传送至预训练好的解码器;解码器根据前一时刻预测的词语和概括全文语义的中间语义推断下一时刻词的分布,最终所生成的词序列即为目标文本的摘要,能够增加短语理解所需的特征,捕获到与原字符语义相近的部分,有助于提升中文文本摘要的生成质量和可读性。
附图说明
图1是根据本发明实施例提供的一种中文摘要生成方法的流程图;
图2是根据本发明实施例提供的语言模型的训练阶段和测试阶段的方法示意图;
图3是根据本发明实施例提供的将词语“大学”拆分成n-gram笔画的方法示意图;
图4是根据本发明实施例提供的双向长短时记忆神经网络的结构示意图;
图5是根据本发明实施例提供的Seq2Seq模型的结构示意图;
图6是根据本发明实施例提供的采用集束搜索算法选取最佳文本序列的方法示意图;
图7是根据本发明实施例提供的采用注意力机制进行语义向量计算的方法示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,是根据本发明实施例提供的一种中文摘要生成方法的流程图,具体包括如下步骤:
a)文本预处理:将目标文本分词后,进行词的向量化处理,并构建对应的词汇表,形成的词向量序列作为下一个阶段的输入。
b)语义理解:循环神经网络的记忆功能,将第一阶段的词向量序列一次输入编码器(使用双向长短期记忆神经网络(简称Bi-LSTM)),编码器生成每一段文本的语义向量并传给下一个阶段。
c)信息重组:本申请在编码器生成句子语义向量时加入了注意力机制,注意力机制根据解码器反馈的隐藏状态以重组出最适合当前时刻的全文语义信息,并将重组后的中间语义信息送至解码器,用于当前时间步的词语预测。
d)摘要生成:这一阶段解码器(使用RNN(Recurrent Neural Network,循环神经网络))根据前一时刻预测的词和概括全文语义的中间语义向量来推断下一时刻词的分布,最终生成一个词序列即摘要句。
在上述的四个流程中,针对中文的特点引入笔画向量编码和训练自动文摘的语言模型。为了更加清晰的体现本发明实施例模型的结构,在图2中将模型区分为训练阶段和测试阶段两个部分。
图2左边为本发明实施例模型的训练阶段,箭头表示数据的传输方向和以及参数的反向传播,加下划线部分为本发明实施例使用的针对中文的笔画编码方式。其余部分包括由Bi-LSTM组成的编码器、RNN组成的解码器以及注意力机制的优化。右边为模型的测试阶段,主要是对训练好的解码器进行测试,输入一段测试文本,通过基于笔画的中文编码后通过训练好的解码器得到生成的自动摘要。在这一阶段,为了最大化生成句子的概率,加入了Beam Search(集束搜索)增加生成句子的选择范围,优化所生成摘要的流畅度。
本发明实施例将每个词拆分成笔画序列,利用基于笔画的n-gram信息来捕获到类似“智”中的“知”这种只有从更小的笔画粒度才能捕获到并且和原字符语义接近的部分,它给在中文上的词向量表示带来明显的效果提升。
在词向量编码的方法上,本发明实施例使用Word2vec的Skip-Gram训练方法,通过中心词预测上下文。Word2vec中,对于每个字符使用简单的独热编码初始化,并借鉴Fasttext的思想,将每个词语转化成对应的笔画序列,例如:“大学”则会变成“一ノ丶丶丶ノ丶フフ丨一”,对于这样的序列做n-gram切分,切分后的笔画初始化作为输入,这样就可以捕获到汉字之间存在的深层关联。该方法的意义在于,把汉字拆成笔画或者部首,主要通过笔画或者部首之间的语义信息,丰富文字本身的特征,从而捕获相似字之间的部件结构相似性,增加短语理解所需的特征。从语言学的方面来说,汉字造字上会让相似含义的字词具有类似的结构,这是本发明实施例汉字编码方法的理论基础。
汉字笔画细分有30多种,这里将笔画分为五个大类:横、竖、撇、捺,折。如表1所示,将这五个笔画分别使用数字编号,这样方便对应其在字典中的向量。
表1汉字笔画编码
笔画名称
形状 丨(亅) 丿 乀(丶) 乛(乚)
ID 1 2 3 4 5
如图3所示,介绍了词语拆分成笔画并取n-gram值的过程,主要分为四个过程:
a)首先将词语拆分字符;
b)找到每个字符对应的笔画序列;
c)对上一步骤得到的笔画序列ID化;
d)对ID化的笔画序列n-gram求和。每个笔画的n-gram代表一个向量,笔画向量的纬度和上下文单词的词向量纬度一致。在试验中全文出现在不同的地方相同单词和笔画共享相同的向量。
一个单词和它的上下文单词具有较高的相似性,当前词w和其上下文单词c的相似性使用它们的向量内积来表示
Figure GDA0004135029650000041
其中
Figure GDA0004135029650000042
Figure GDA0004135029650000043
分别代表w和c的向量表示。给每个笔画的n-gram和每个上下文单词分配一个向量,并且根据组成当前词w的所有笔画n-gram向量和上下文词的词向量内积和来计算相似性。将语料库中所有单词的笔画n-gram向量保存在字典S中,其中S(w)表示单词w的笔画n-gram集合,相似性函数即为:
Figure GDA0004135029650000044
其中q为S(w)的元素,
Figure GDA0004135029650000045
为q的嵌入向量。
语言模型旨在预测一句话出现的概率,本发明实施例所采用的Skip-Gram模型使用中心词w预测上下文c,即为计算概率p(c|w),这里使用softmax函数来计算这个概率:
Figure GDA0004135029650000046
c′属于语料库词汇表V中的一个单词,可以发现分母的计算量为|V|,对于以上分母的计算使用负采样方法来加速,负采样的思想在于降低负样本的个数以降低模型需要更新的权重个数。例如输入“大学”,使用one-hot编码时,在输出层希望对应“全国”和“排名”词语的神经元节点输出1,如果|V|的大小为10000,那么剩下9999个节点希望输出为0,这9999个样本在这里就是负样本,负采样就是从9999个负样本中抽取5-20个来更新其权重,其余权重不更新,以达到降低计算量的效果。基于负采样的损失函数为:
L=∑w∈Dc∈T(w)logσ(sim(w,c))+λlogEc′~p[logσ(-sim(w,c′))] (3)
上述公式中D为语料库中所有单词训练的集合,T(w)为窗口内当前词的上下文单词,σ为sigmoid激活函数,σ(x)=(1+exp(-x))-1,λ为负采样样本个数,Ec′~p为期望,使得负采样的样本符合p分布。为了更详细介绍本算法具体流程,表2给出了笔画编码的流程:
表2 Stroke_Embedding算法(笔画嵌入算法)流程
Figure GDA0004135029650000051
Stroke_Embedding算法的一个重要参数是n_gram,考虑到中文中汉字的部件笔画数的大小,这里对它的取值为3,4和5,以捕获汉字中包含的大部分部件信息。
在长文本序列中,能够更加完整捕获文本的语义至关重要,本发明实施例通过Bi-LSTM网络可以捕捉双向语义依赖。图4为Bi-LSTM网络结构示意图。在作为Sequence-to-Sequence模型(以下简写为:Seq2 Seq模型)的编码或者解码器时,虽然不需要完成如情感分析的分类任务,但Bi-LSTM对语义向量更精准的定位也可以为文本摘要带来效果上的提升。Bi-LSTM对应的是编码部分,它将输入的句子序列分别正向和反向输入LSTM组成的神经网络中,得到两种顺序下每个单词对应两个隐藏状态ht和h′t,然后将两种顺序下隐藏状态拼接:
hnew=concatenate(ht,h′t) (4)
即首尾相接,这样就可以在编码部分获得较为完整的语义向量。整个模型的结构如图5所示。
Bi-LSTM作为本发明实施例模型图左半部分编码器部分的主要结构,在获得语义向量C后,将其送至右半部份解码器来逐步生成序列中每个时间点的词语,训练阶段解码器由RNN单元组成。直观上来讲,该模型将左边输入的一段长度为n的文本输入双向循环神经网络,其中x0,x1,…xt,xn分别表示文本中每个单词对应的词向量,得到语义向量C后,解码过程则是将其作为每个时刻的输入,然后在对应时刻输出一个单词y1,y2,…ym,这样就可以解码出一段长度为m的文本,其中n和m的大小没有严格的大小关系。由于本发明实施例的任务是文本摘要,输入文本长度大于输出文本,因此n>m。以上就是模型的训练过程,在测试过程中,主要使用训练好的解码器模型,通过优化序列生成的方式,最终在测试集上完成实验。
在Seq2Seq模型训练完成后,需要使用该模型生成新的摘要句,而句子的生成是由每个单词逐渐生成后组成的序列问题。集束搜索则是根据概率最大的前K个单词组成序列,K的大小即为集束宽。如图6中,为Beam Search选取一个最佳文本序列的示意图。
假设字典大小为6,详细的步骤如下:
(1)生成第一个词y1的概率分布[0.1,0.1,0.4,0.2,0.1,0.1]后,选取其中最大概率的两个词,如图7所示“我”、“在”作为第一个单词的最可能的选择;
(2)第二步就是针对这两个单词计算第二个单词与之搭配的概率,将“我”和“在”作为解码器的输入,然后再选择最大的前两个序列,即为“我在”和“在看”,以此类推,最终在遇到结束符<\s>终止。
(3)最后可以得到两个序列,“我在看电影”和“在看电影我”,很明显前者概率和最大,所以选择前者作为最终结果。
Beam Search的算法流程如表3所示:
表3 Beam Search算法流程
Figure GDA0004135029650000061
Figure GDA0004135029650000071
在Beam Search的算法中,参数K的大小对测试阶段解码器的解码速度影响较大,一般取值3到7个词之间。
语义向量C作为输入序列的语义压缩以及解码器的输入,因其长度的限制导致无法包含足够多的有用信息,尤其是在自动文摘任务中,编码器输入的序列往往是一段长文本,一个C就无法概括所有的信息,导致模型精度下降。本发明实施例基于注意力机制来使得语义向量C保持更多的语义信息。下面使用机器翻译来介绍注意力机制:
在机器翻译中,解码器输出的译文中每个单词受输入单词的影响力各不相同,因此,注意力机制根据不同时刻输入不同的语义向量Ci来解决这个问题,Ci来自编码器隐藏层向量hj与分配的权重aij的乘积和。LSTM序列里,每个时刻输出的隐藏层向量hi是由当前输出门和当前时刻记忆单元决定的,语义向量是在编码器最后一个单元输出,而使用注意力机制加权求和了每个时刻的隐藏层向量。图7所展示的注意力机制的计算方法。
当计算给单词“I”的语义向量C1时,输入序列中“我”的语义信息对其影响应当最大,因此分配给它的权重就应该最大。同理C2和“看”最相关,因此对应a22最大,那么如何计算aij就变成了一个重点问题。
事实上,aij的大小是从模型中学来的,它是由编码器的第j-1阶段的隐状态和解码器第i阶段的隐状态有关。例如当计算单词“watch”对应的语义向量C2时,首先通过计算上一个单词“I”与编码器的三个隐藏向量h1,h2,h3的相似度,这也利用了相邻单词语义接近的语言规则,为了更好的介绍如何计算aij,将编码器的隐藏状态定义为hj,解码器隐藏层状态定义为hi,Ci的计算公式为:
Figure GDA0004135029650000072
对于以上公式V表示输入序列的总长度,hj也是已知的,aij的计算公式如下:
Figure GDA0004135029650000073
Figure GDA0004135029650000074
aij是一个softmax的概率归一化输出,eij表示一个对齐模型,用于衡量编码器端的位置j个词对于解码器端的位置i个词的对齐程度(影响程度)。换句话说,解码器端生成位置i的词时,有多少程度受编码器端的位置j的词影响。对齐模型eij的计算方式有很多种,不同的计算方式,代表不同的Attention模型。最简单且最常用的对齐模型是dot product乘积矩阵,即把解码器端的输出隐状态ht与编码器端的输出隐状态hs进行矩阵乘,在计算时是通过计算将要预测的单词的上一时刻与输入序列隐藏状态矩阵的相似性来完成的。常见的对齐计算方式如下:
Figure GDA0004135029650000081
score(ht,hs)=eij表示源端与目标单词的对齐方式,常见有以上点乘、权值网络映射、concat映射几种方法。
在计算对齐方式时,解码器端输出的每个单词都需要计算与输入序列的对齐方式,编码器的所有隐藏层都要被用来计算相似性,即得到的权重向量aij的长度等于输入序列的长度。本发明实施例使用效率较高的Soft Attention机制,通过点乘计算单词之间对应方式的以确定词之间的关联性强弱。
为进一步验证本发明实施例所提供中文摘要生成方法的有益效果,下面结合实验数据对本发明实施例作进一步描述。同样的,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
0.1数据集与预处理
实验使用来自哈工大取自于新浪微博的大规模中文短文本摘要数据集LCSTS,数据集中包含了200万真实的中文短文本数据和每个文本作者给出的摘要,这个数据集也是目前最大的一个中文段文本摘要数据集,提供了数据集分割的标准方法,表4展示了三个部分数据集的个数。
表4 LCSTS数据组成
Figure GDA0004135029650000082
Figure GDA0004135029650000091
数据集包括三个部分:
a)第一部分是本数据集的主要部分,包含了2400591个(短文本,摘要)数据对,这部分数据用来训练生成摘要的模型。
b)第二部分包括了10666个人工标注的(短文本,摘要)数据对,每个样本都打了1-5分,分数是用来评判短文本与摘要的相关程度,1代表最不相关,5代表最相关。这部分数据是从第一部分数据中随机采样出来的,用来分析第一部分数据的分布情况。其中,标注为3、4、5分的样本原文与摘要相关性更好一些,从中也可以看出很多摘要中会包含一些没有出现在原文中的词,这也说明与句子压缩任务不同。标注为1、2分的相关性差一些,更像是标题或者是评论而不是摘要。统计表明,1、2分的数据少于两成,可以用监督学习的方法过滤掉。
c)第三部分包括了1106个(短文本,摘要)数据对,三个人对总共2000对摘要进行了评判,这里的数据独立于第一部分和第二部分。选择3分以上的数据作为短文本摘要任务的测试数据集。
数据的预处理阶段极为重要,因为在编码器部分数据的格式和标准化对整个实验的影响很大,上述LCSTS的PART 1部分为训练数据,在把训练数据的短文本输入和总结性摘要抽取出来后,需要对其中的一些信息进行替换和处理:
特殊字符:去除特殊字符,主要包括标点符号以及常用停用语气词和转折词等,如:“「,」,¥,…”啊阿哎而且;
括号里的内容,如【开心】,因为数据来源微博,会有很多动画表情以这种形式存在,在预处理时要去除;
日期标签替换:将所有日期替换为TAG_DATE,如:***年*月*日,****年*月,等等;
超链接URL:替换为标签TAG_URL;
替换数字:TAG_NUMBER;
英文标签替换:替换英文单词为标签TAG_NAME_EN。
0.2测评方法
本发明实施例使用的评价方法包括Rouge-1,Rouge-2和Rouge-L三种,其中Rouge-L中的L即是LCS(longest common subsequence,最长公共子序列)的首字母。
Rouge-N的计算公式如下:
Figure GDA0004135029650000101
其中,n-gram表示n元词,{Ref Summaries}表示参考摘要,即事先获得的标准摘要,Countmatch(n-gram)表示***摘要和参考摘要中同时出现n-gram的个数,Count(n-gram)则表示参考摘要中出现的n-gram个数。
Rouge-L的计算公式如下:
Figure GDA0004135029650000102
其中LCS(X,Y)为X和Y的最常公共子序列长度,m、n分别表示参考摘要和自动摘要的长度(一般就是词的个数),Rlcs,Plcs分别表示召回率和准确率。最后的Flcs就是Rouge-L分数。
0.3实验设计与结果分析
首先使用jieba分词包对LCSTS数据集的第一部分分词后,选取50000个高频词作为编码器词汇表,在词汇表中出现的词使用“UNK”表示。在设置解码器时,一个重要的参数是解码器字典大小,在实验中对解码器字典的参数做了对比试验,分别设置2000、5000、80000、11000、14000五种规格的大小,通过实验选取最佳字典的大小。在编码器中使用4层双向LSTM,每一层节点为256,batch_size为64,定义了Bucket桶机制:buckets=[(120,30),...],把输入序列的句子按照长度的相似程度分到不同的固定长度的Bucket里面,长度不够的都添加PAD字符,标题长度限制30个词。
用于对比的几种方法为:
a)Tf-idf:抽取式摘要的基线方法。
b)ABS system:生成式摘要的基线方法。
c)Our+att:普通词向量输入+注意力机制。
d)Our(S)+att:笔画编码词向量+注意力机制。
表5和表6包括了四组实验数据在解码器字典大小为8000下的实验结果和Rouge评分(后两组为本发明实施例的实验结果)。
表5不同方法摘要对比
Figure GDA0004135029650000111
表6Rouge评分结果
模型 Rouge-1(%) Rouge-2(%) Rouge-L(%)
Tf-idf 27.30 24.30 26.76
ABS system 24.26 15.22 24.11
Our+att 24.83 15.61 22.19
Our(S)+att 25.08 17.05 22.77
在表5中将本发明实施例所提供的方法样例分别对比了抽取式基线方法Tf-idf和生成式基线方法ABS system,在这个样例中抽取了测试集中最具有代表性的例子,对比目标句可以发现,三个模型都对这段文本的摘要有不错的效果。本发明实施例的模型输出的句子效果比Tf-idf和ABS system效果更好,语义相对来说更加完整,且生成“华北”这个在原文中没有出现的新词,这一点使得它在总结地区“内蒙古东北部山西中北部、河北中部和东北部京津地区辽宁西南部吉林中部黑龙江中部偏南等地”时达到了高度概括的效果,相比两种对比方法,本发明实施例模型在描述上显得更加完整。
在表6中,通过对比四种方法的Rouge-1,Rouge-2,Rouge-L分数发现,生成式方法在Rouge评分是弱于抽取式方法的。主要的原因在于Rouge评分的评价标准是基于词的相似程度,生成式方法在实际效果较好的情况下,很有可能是有一个比较差的Rouge评分。因此,本发明实施例实验部分,使用样例展示和Rouge评分两种方法直观的表示模型效果。表7中,通过实验对比了解码器字典大小对本发明实施例模型的影响。
表7不同解码器字典大小的Rouge评分
Figure GDA0004135029650000121
表7中Ours(S)表示本发明实施例的Seq2Seq模型在使用笔画编码后训练得到的模型。当解码器字典大小为2k时,使用基于笔画的编码来训练模型和使用普通词向量来训练对于模型效果的提升是巨大的,而且在字典大小上升的过程中,Rouge评分只上升了平均4-5分。这一点说明在字典并不完整的情况下,基于笔画的编码通过对汉字最小单元笔画的n-gram信息编码,组合出了较多字典中不存在的“生僻词”,模型在加入笔画编码后对字典的要求依赖降低,并且在效果上有了不错的提升。
综上,本发明实施例通过一系列自然语言处理技术,实现了一个更加简明、准确的中文摘要生成方法。首先,针对中文的结构特点提出基于笔画的文本向量编码,构造笔画字典,通过Skip-Gram模型构成文本向量,完成对汉字部件信息更细致的表示任务。其次,在对文本生成上使用Seq2Seq模型加以优化,包括在编码器中使用Bi-LSTM,在一定程度上解决了长序列文本信息丢失以及从后往前信息的补充问题,使用注意力机制捕获输入与输出词之间的关联强弱性,并在测试阶段的解码器中使用Beam Search优化序列的生成效果。最后基于LCSTS数据集训练模型,通过Rouge评分和人工判断两个方面证实本发明实施例的编码方法和模型在文本摘要可读性上效果提升明显。
本发明实施例还提供了一种中文摘要生成***,包括处理器和存储器,所述存储器上存储有程序,所述程序能够被所述处理器加载执行前述方法的步骤。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种中文摘要生成方法,其特征在于,所述方法包括如下步骤:
获取目标文本,将目标文本中的汉字拆分成笔画序列;
根据笔画序列确定目标文本的中文词向量序列;
将所述中文词向量序列输入至预训练好的编码器中,生成语义向量;
根据语义向量重组出最适合当前时刻的全文语义,将重组后的当前时刻的全文语义作为中间语义传送至预训练好的解码器;
解码器根据前一时刻预测的词语和所述中间语义推断下一时刻词的分布,最终所生成的词序列即为目标文本的摘要;
其中,所述根据笔画序列确定目标文本的中文词向量序列,包括:
对所述笔画序列进行n-gram切分,获取汉字笔画中的n-gram信息;
根据n-gram信息采用Skip-Gram模型预测中心词上下文,获取对应的中文词向量序列;
所述根据语义向量重组出最适合当前时刻的全文语义,包括:
在通过编码器生成语义向量时加入注意力机制,以计算不同输入词对解码器端的影响权重;
根据输入词对解码器端的影响权重结合解码器反馈的隐藏状态重组出最适合当前时刻的全文语义。
2.根据权利要求1所述的中文摘要生成方法,其特征在于,获取汉字笔画中的n-gram信息的方法包括:
将词语拆分成字符,找到每个字符对应的笔画序列;
将笔画序列ID化;
对ID化的笔画序列进行n-gram求和,获取所述n-gram信息。
3.根据权利要求1所述的中文摘要生成方法,其特征在于,所述编码器采用双向长短时记忆神经网络。
4.根据权利要求3所述的中文摘要生成方法,其特征在于,生成语义向量的方法包括:
将中文词向量序列分别正向和反向输入至双向长短时记忆神经网络中,得到两种顺序下每个单词对应的两个隐藏状态;
将两个隐藏状态首尾拼接生成所述语义向量。
5.根据权利要求1所述的中文摘要生成方法,其特征在于,所述方法还包括采用集束搜索算法优化所生成的词序列。
6.根据权利要求1所述的中文摘要生成方法,其特征在于,所述方法还包括对目标文本进行预处理,包括:
去除特殊字符,所述特殊字符包括标点符号、停用语气词和转折词;
将所有日期替换为TAG_DATE;
将超链接URL替换为标签TAG_URL;
将数字替换为TAG_NUMBER;
将英文单词替换为TAG_NAME_EN。
7.一种中文摘要生成***,其特征在于,包括处理器和存储器,所述存储器上存储有程序,所述程序能够被所述处理器加载执行如权利要求1至6任一项所述方法的步骤。
8.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~6任一项所述方法的步骤。
CN201910787889.5A 2019-08-26 2019-08-26 一种中文摘要生成方法、***及存储介质 Active CN110532554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910787889.5A CN110532554B (zh) 2019-08-26 2019-08-26 一种中文摘要生成方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910787889.5A CN110532554B (zh) 2019-08-26 2019-08-26 一种中文摘要生成方法、***及存储介质

Publications (2)

Publication Number Publication Date
CN110532554A CN110532554A (zh) 2019-12-03
CN110532554B true CN110532554B (zh) 2023-05-05

Family

ID=68664157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910787889.5A Active CN110532554B (zh) 2019-08-26 2019-08-26 一种中文摘要生成方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN110532554B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061861B (zh) * 2019-12-12 2023-09-01 西安艾尔洛曼数字科技有限公司 一种基于XLNet的文本摘要自动生成方法
CN111078865B (zh) * 2019-12-24 2023-02-21 北京百度网讯科技有限公司 文本标题生成方法和装置
CN111191451B (zh) * 2019-12-30 2024-02-02 思必驰科技股份有限公司 中文语句简化方法和装置
CN113254573A (zh) * 2020-02-12 2021-08-13 北京嘀嘀无限科技发展有限公司 文本摘要生成方法、装置、电子设备及可读存储介质
CN111666759B (zh) * 2020-04-17 2024-03-26 北京百度网讯科技有限公司 文本的关键信息的抽取方法、装置、电子设备及存储介质
CN111639174B (zh) * 2020-05-15 2023-12-22 民生科技有限责任公司 文本摘要生成***、方法、装置及计算机可读存储介质
CN111723196B (zh) * 2020-05-21 2023-03-24 西北工业大学 基于多任务学习的单文档摘要生成模型构建方法及装置
CN111930940B (zh) * 2020-07-30 2024-04-16 腾讯科技(深圳)有限公司 一种文本情感分类方法、装置、电子设备及存储介质
CN112115256A (zh) * 2020-09-15 2020-12-22 大连大学 一种融入中文笔画信息的新闻文本摘要生成的方法及装置
CN112364225B (zh) * 2020-09-30 2021-11-23 昆明理工大学 一种结合用户评论的司法舆情文本摘要方法
CN112560456B (zh) * 2020-11-03 2024-04-09 重庆安石泽太科技有限公司 一种基于改进神经网络的生成式摘要生成方法和***
CN112700795A (zh) * 2020-12-15 2021-04-23 深圳市声希科技有限公司 口语发音质量评价方法、装置、设备及存储介质
CN112765976A (zh) * 2020-12-30 2021-05-07 北京知因智慧科技有限公司 文本相似度计算方法、装置、设备及存储介质
CN112732899A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN113609863B (zh) * 2021-02-04 2024-05-07 腾讯科技(深圳)有限公司 一种训练、使用数据转换模型的方法、装置及计算机设备
CN113449105A (zh) * 2021-06-25 2021-09-28 上海明略人工智能(集团)有限公司 一种工作总结生成方法、***、电子设备及介质
CN114553803A (zh) * 2022-01-21 2022-05-27 上海鱼尔网络科技有限公司 即时通讯的快捷回复方法、装置、***
CN116049385B (zh) * 2023-04-03 2023-06-13 北京太极信息***技术有限公司 一种生成信创产业研究报告的方法、装置和设备及平台
CN117951291B (zh) * 2024-03-26 2024-05-31 西南石油大学 一种基于引导机制的二阶段局部生成式摘要方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AM-BRNN:一种基于深度学习的文本摘要自动抽取模型;沈华东等;《小型微型计算机***》;20180630;第1184-1189页 *

Also Published As

Publication number Publication date
CN110532554A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110532554B (zh) 一种中文摘要生成方法、***及存储介质
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110222188B (zh) 一种多任务学习的公司公告处理方法及服务端
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和***
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN110597997B (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
US20210406483A1 (en) Device, method and program for natural language processing
EP3726401A1 (en) Encoding textual information for text analysis
CN112287672A (zh) 文本意图识别方法及装置、电子设备、存储介质
CN115759119B (zh) 一种金融文本情感分析方法、***、介质和设备
CN111897954A (zh) 一种用户评论方面挖掘***、方法、及存储介质
Ye et al. Improving cross-domain Chinese word segmentation with word embeddings
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
Chen et al. Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN113158667B (zh) 基于实体关系级别注意力机制的事件检测方法
CN113961706A (zh) 一种基于神经网络自注意力机制的精确文本表示方法
CN113986345B (zh) 一种预训练增强的代码克隆检测方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、***及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant