CN111984782A - 藏文文本摘要生成方法和*** - Google Patents

藏文文本摘要生成方法和*** Download PDF

Info

Publication number
CN111984782A
CN111984782A CN202010622638.4A CN202010622638A CN111984782A CN 111984782 A CN111984782 A CN 111984782A CN 202010622638 A CN202010622638 A CN 202010622638A CN 111984782 A CN111984782 A CN 111984782A
Authority
CN
China
Prior art keywords
abstract
text
***
clause
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010622638.4A
Other languages
English (en)
Inventor
闫晓东
李维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
Original Assignee
Minzu University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China filed Critical Minzu University of China
Priority to CN202010622638.4A priority Critical patent/CN111984782A/zh
Publication of CN111984782A publication Critical patent/CN111984782A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种藏文文本摘要生成方法和***,涉及文本信息处理技术领域。本发明通过对藏文文本进行预处理;基于预设的摘要模型和基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要。其中:摘要模型包括双层的双向GRU神经网络模块和编码‑解码模块;编码‑解码模块的编码端添加注意力机制,解码端添加指针网络。本发明采用摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子,去掉冗余信息,方便加快后续的处理过程,然后采用预设的摘要模型中的编码‑解码生成理解式文本摘要。本发明在编码‑解码模块的解码端利用指针网络提高了藏文OOV词的处理精度,提高了摘要的可读性和新颖性。

Description

藏文文本摘要生成方法和***
技术领域
本发明涉及文本信息处理技术领域,具体涉及一种藏文文本摘要生成方法和***。
背景技术
随着信息的***式增长,人们面临着信息超载的问题,很难高效、快速、准确地获取有价值的信息。为了解决这一问题,出现了自动文本摘要技术来生成输入文本的简洁表示。自动文本摘要是自然语言处理领域的一个重要分支。它是一种利用计算机实现文本分析、内容归纳和自动生成摘要的信息压缩技术。它与文本生成、信息提取密切相关。此外,它可以帮助分析和总结较长的新闻,过滤掉冗余信息,从而提高浏览新闻的速度。
随着深度学习技术的发展,基于注意机制的编码-解码模块在对进行抽象总结方面取得了良好的效果。与汉语和英语相比,藏文摘要仍处于探索阶段,面临着许多困难和挑战。首先,藏语新闻通常太长。神经网络难以提取关键信息,容易引起梯度消失和***等问题。其次,缺乏大规模的文本摘要标记训练数据。最后,基于单词的抽象摘要可能会导致词汇表外(OOV out-of-vocabulary)问题,从而影响摘要的可读性。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种藏文文本摘要生成方法和***,解决了现有的藏文文本摘要生成方法生成的摘要可读性低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供了一种藏文文本摘要生成方法,包括以下步骤:
获取待生成摘要的藏文文本;
对所述藏文文本进行预处理;
基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要;其中:所述预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块;编码-解码模块的编码端添加注意力机制,解码端添加指针网络。
优选的,所述预处理包括:
采用CRF的方法对藏文文本进行分词,过滤掉停用词,建立词表;
并按照藏文边陲符号进行分句,得到子句。
优选的,所述预设的预设的摘要模型的构建过程包括:
获取训练所需的藏文文本集;
对藏文文本集进行预处理,得到初始子句;
基于TextRank算法对预处理后的藏文文本集进行标记处理,获取模型训练子句;
将模型训练子句输入到摘要模型,对摘要模型进行训练。
优选的,所述基于TextRank算法对预处理后的藏文文本集进行标记处理,获取模型训练子句,包括:
将每个初始子句作为节点添加到拓扑图G=(V,E)中;其中,G表示一个无向图;V为顶点的集合,表示藏文文本中集的初始子句;E为边的集合,表示初始子句之间的关系;
采用Wordv2ec和fasttext两种不同的词向量模型,将初始子句映射到高维词库中表示成向量形式,根据词向量文件将每一个初始子句转化为句向量,初始子句的向量表示是所有相同维数的词向量的平均值,边表示初始子句之间的相似性,公式如下:
WS(Si,Sj)=cos(Si1...Sin,Sj1...Sjn)
其中:
WS(Si,Sj)表示词的相似度;Si和Sj表示词向量;cos表示词之间的余弦距离;n表示词向量维度的大小;
迭代算法直至收敛,计算公式如下:
Figure BDA0002565596050000031
WS(Vi)表示的就是任一词Vi的权重;d表示基尼系数;Wij表示节点Vi,Vj之间边的权重;In(Vi)为指向节点Vi的节点集合;Out(Vi)为点Vi指向的节点集合;
将每一个节点与其相连的节点计算相似度,并计算相似度在其相连节点中所占的比重进而迭代;
按照将每一个词的向量叠加取平均,得到句子向量,进而迭代得到藏文文本集中每一个初始子句的权重;根据权重由高到低进行排序,再根据如下公式重新计算权重最高的前k个初始子句的权重,选取最新权重值为前n个句子作为模型训练子句,其中n<k:
Xi=(X1 f1+X2 f2+...Xkfk)/n
其中:
Xi表示句子i的最新权重值;f1+f2+...+fk=n,f1,f2,…,fk叫做权;X1到Xk-1表示该初始子句与其他权重高的k-1个初始子句的相似度;Xk表示该初始子句与主题句的相似度;f1到fk表示加权的权值,其中f1到fk-1表示的是惩罚系数,起到权重降低的效果,fk表示与主题句的相似度,起到权重提高的效果。
优选的,所述将模型训练子句输入到摘要模型,对模型进行训练,包括:
将模型训练子句输入到双层的双向GRU神经网络,对双层的双向GRU神经网络进行训练,完成对双层的双向GRU神经网络的训练,并得到最终训练子句;
将最终训练子句输入编码-解码模块中,完成对编码-解码模块的训练。
优选的,所述编码-解码模块包括:
两个循环神经网络,第一个神经网络用于接收最终训练子句,将最终训练子句编码为一个内容向量,第二个神经网络用于对内容向量进行解码,生成理解式文本摘要。
优选的,所述注意力机制的计算公式如下:
Yi=softmax(St)
Figure BDA0002565596050000051
ei,j=a(si-1,hj)
Figure BDA0002565596050000052
其中:
Yi为已生成摘要的第i个词,由Yi-1,si,ci三个状态决定;si表示i时刻的隐藏状态,由ci,si-1,Yi-1决定;ci表示注意力机制加权后的内容向量;ei,j表示解码阶段隐层状态si与编码状态hij的线性组合,hij表示的是编码状态,代表从i到j个词的编码向量;αi,j表示注意力机制学习到的每一个词的权重;ei,k表示解码阶段隐层状态si与编码状态hik的线性组合,hik表示的是编码状态,代表从i到k个词的编码向量。
优选的,所述指针网络包括:
利用softmax函数将注意力分布和编码器隐藏状态转换为指向输入序列的指针,计算公式如下:
p(Ci|C1,...,Ci-1,X)=softmax(et)
其中:
Ci表示注意力机加权后的内容向量;X表示输入序列;
Figure BDA0002565596050000053
et表示解码器在时间t时,对编码器每个时间的关注度所构成的向量;
Figure BDA0002565596050000054
表示解码器在时间t时,对编码器时间为i时刻的关注度;
Figure BDA0002565596050000055
表示输入是最后一个时刻所对应的et;St为解码器在时间t时的输出;hi是编码器在时间i时的输出;v,Wh,Ws均表示可学习的参数。
本发明还提供一种藏文文本摘要生成***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
(三)有益效果
本发明提供了一种藏文文本摘要生成方法和***。与现有技术相比,具备以下有益效果:
本发明首先获取待生成摘要的藏文文本;然后对藏文文本进行预处理;基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要。其中:摘要模型包括双层的双向GRU神经网络模块和编码-解码模块;编码-解码模块的编码端添加注意力机制,解码端添加指针网络。本发明采用预设的摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子,去掉冗余信息,方便加快后续的处理过程,然后采用预设的摘要模型中的编码-解码生成理解式文本摘要。本发明在编码-解码模块的解码端利用指针网络提高了藏文OOV词的处理精度,提高了摘要的可读性和新颖性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种藏文文本摘要生成方法的框图;
图2为本发明实施例中编码-解码模块的框架示意图;
图3为本发明实施例中注意力机制的框架示意图;
图4为本发明实施例验证过程中的藏文新闻预处理流程图;
图5为本发明实施例验证过程中的各模型所用的时间的柱形图;
图6为本发明实施例验证过程中的抽取式摘要关键词覆盖度测评结果的柱形图;
图7为本发明实施例验证过程中的Rouge-1评测结果折线图;
图8为本发明实施例验证过程中的Rouge-2评测结果折线图;
图9为本发明实施例验证过程中的Rouge-3评测结果折线图;
图10为本发明实施例验证过程中理解式摘要关键词覆盖度评测结果的柱形图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种藏文文本摘要生成方法,解决了现有的藏文文本摘要生成方法生成的摘要可读性低的技术问题,实现提高了摘要的可读性。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例提出了摘要模型,将任务分为两个阶段,第一节阶段双层的双向GRU神经网络模块抽取能代表和涵盖原文信息内容的句子,从而大大减少了编码-解码模块输入文本的长度。第二阶段采用编码-解码模块,根据第一阶段抽取出来的结果,将句子集合编码为一个包含原文语义的向量,进而将向量解码,生成摘要的过程中,引入指针网络,解决未登陆词(未登陆词指一些不常用的人名,地名,组织机构名称)的问题,可以在摘要中生成未出现在词表中的词,提升摘要的质量,并在损失函数中引入覆盖机制,解决生成摘要语义重复的问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种藏文文本摘要生成方法,如图1所示,包括步骤S1~S3:
S1、获取待生成摘要的藏文文本;
S2、对藏文文本进行预处理;
S3、基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要;其中:摘要模型包括双层的双向GRU神经网络模块和编码-解码模块;编码-解码模块的编码端添加注意力机制,解码端添加指针网络。
本发明实施例采用预设的摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子,去掉冗余信息,方便加快后续的处理过程,然后采用预设的摘要模型中的编码-解码生成理解式文本摘要。本发明实施例在编码-解码模块的解码端利用指针网络提高了藏文OOV词的处理精度,提高了摘要的可读性和新颖性。
下面对各个步骤进行详细描述。
在一实施例中,S1、获取待生成摘要的藏文文本。具体实施过程如下:
通过人工录入或网络爬虫技术得到待生成摘要的藏文文本。在本发明实施例中,藏文文本可以是文献,新闻,微博等文本内容。
在一实施例中,S2、对藏文文本进行预处理。具体实施过程如下:
结合藏文本身的特点,对藏文文本进行预处理,具体为:
采用CRF的方法对藏文文本进行分词,并过滤掉停用词,建立词表,并按照藏文边陲符号“|”进行分句,即将藏文文本进行子句分割,得到子句。
在一实施例中,S3、基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要;其中:预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块;编码-解码模块的编码端添加注意力机制,解码端添加指针网络。具体实施过程如下:
预设的摘要模型的构建过程包括:
A1、获取训练所需的藏文文本集。具体为:
通过网络爬虫技术获取藏文文本集(在本发明实施例中,藏文文本选用新闻文本);
A2、对藏文文本集进行预处理,得到初始子句。具体为:
对新闻文本中出现中文乱码,或者只有一到两个句子的噪声新闻用查找utf8的方式进行过滤;
采用CRF的方法对新闻文本进行分词,并过滤掉停用词,建立词表,并按照藏文边陲符号“|”进行分句,即将新闻文本进行子句分割,得到初始子句。
A3、基于TextRank对预处理后的藏文文本集进行标记处理,获取模型训练子句。具体为:
生成藏文文本的拓扑图,表示为G=(V,E)。G表示一个无向图,V为顶点的集合,也就是藏文文本中集的初始子句。E为边的集合,表示初始子句之间的关系。使用TextRank算法迭代直到收敛。然后,每个顶点都有一个代表句子重要性的分数。该过程主要以下步骤:
A301、将每个初始子句作为节点添加到拓扑图G=(V,E)中。
A302、采用两种不同的词向量模型,Wordv2ec以及fasttext,将初始子句映射到高维词库中表示成向量形式,并根据词向量文件将每一个初始子句转化为句向量。初始子句的向量表示是所有相同维数的词向量的平均值。边表示初始子句之间的相似性,公式如下:
WS(Si,Sj)=cos(Si1...Sin,Sj1...Sjn)
其中:
WS(Si,Sj)表示词的相似度;Si和Sj表示词向量;cos表示词之间的余弦距离;n表示词向量维度的大小。
S303、迭代算法直至收敛,计算公式如下:
Figure BDA0002565596050000111
其中:
WS(Vi)表示的就是任一词(节点)Vi的权重;d表示基尼系数,一般设置为0.85;Wij表示节点Vi,Vj之间边的权重;In(Vi)为指向节点Vi的节点集合;Out(Vi)为点Vi指向的节点集合。
将每一个节点与其相连的节点计算相似度,并计算相似度在其相连节点中所占的比重进而迭代。
S304、在句子抽取的过程中,将每一个词的向量叠加取平均,得到句子向量,进而迭代得到藏文文本集中每一个初始子句的权重。在抽取句子的过程中引入了主题信息,将与标题相似度大的句子分配更大的权重。最后选取权重最高的句子作为摘要子句。为了避免语句冗余的问题,引入了惩罚系数,将相似度较高的句子乘以惩罚系数来减少权重。具体为:
先按照将每一个词的向量叠加取平均,得到句子向量,进而迭代得到藏文文本集中每一个初始子句的权重。然后根据权重由高到低进行排序,再根据如下公式重新计算权重最高的前k个初始子句的权重,选取最新权重值为前n个句子作为模型训练子句,其中n<k,k和n均根据实际情况自行设定:
Xi=(X1 f1+X2 f2+...Xkfk)/n
其中:
f1+f2+...+fk=n,f1,f2,…,fk叫做权;Xi代表句子i的最新权重值;X1到Xk-1代表该初始子句与其他权重高的k-1个初始子句的相似度,Xk代表该初始子句与主题句的相似度,f1到fk是加权的权值,其中f1到fk-1代表的是惩罚系数,起到权重降低的效果,fk代表与主题句的相似度,起到权重提高的效果。f1到fk是加权值,可以根据实际情况自行设定。
使用TextRank抽取出来的训练子句将预处理后的藏文文本集表示成一个由0与1组成的高维向量,0代表句子不被选取,1代表句子被选取,作为模型训练子句。这样句子抽取的问题可以被抽象为序列标注问题,或者一个句子的二分类问题。
A4、将训练子句输入到摘要模型,对模型进行训练。具体为:
将摘要子句输入到双层的双向GRU神经网络,对双层的双向GRU神经网络进行训练。
双向GRU神经网络的第一层双向GRU神经网络将摘要子句中的词进行编码,从而获得词级别的注意力,并将每一个句子中词的隐藏层状态的平均池化,得到平均池化结果。得到的结果输入到第二层双向GRU神经网络中,词级别通过输入每一个句子中的单词,
Figure BDA0002565596050000124
表示前向网络的隐藏层状态,
Figure BDA0002565596050000125
代表反向网络的隐藏层状态,将二者相加,进行平均池化,得到经过平均池化后得到的词的注意力,并且根据第二层神经网络的隐藏状态得到该藏文新闻的已生成摘要d,公式如下:
Figure BDA0002565596050000121
其中:
Figure BDA0002565596050000122
Figure BDA0002565596050000123
代表句子层面的前向以及后向的隐藏层状态;Nd表示该文档中的句子个数。
得到已生成摘要d后,结合隐藏层状态和位置信息共同决定句子是否被选取,得到最终训练子句。
句子选取的概率计算公式如下:
Figure BDA0002565596050000131
其中:
hj是将双向GRU神经网络中第二层的隐藏层的前向和后向状态拼接而成的向量;Wd,Wc,Ws,Wr,Wap,Wrp,b均为模型可训练参数,通过调整可训练参数训练模型(当句子选取概率变化非常小,几乎不再变化的时候就是模型已经训练好的表示);yi代表这句话是否被摘要选中(选中的结果为1);d表示已生成摘要;Wchj是已生成摘要的编码;
Figure BDA0002565596050000132
是已生成摘要与句子级隐藏层的乘积,表示了抽取出摘要的显著性;减去
Figure BDA0002565596050000133
是为了之后生成的摘要可以与之前抽取的句子在语义上减少重复;
Figure BDA0002565596050000134
是绝对位置向量;
Figure BDA0002565596050000135
是相对位置向量;Sj是第j个位置的动态摘要表示,其公式表示如下:
Figure BDA0002565596050000136
hi和hj,si和sj等参数意思类似,i,j代表了不同的位置,位置可以理解为不同的词。
A5、将最终训练子句作为摘要模型中的编码-解码模块输入,训练编码-解码模块。具体为:
编码-解码模块由两个循环神经网络组成。编码-解码模块如图2所示。一个神经网络负责接收已经抽取出来的最终训练子句,将最终训练子句编码为一个内容向量,供后面的解码器使用。
在本发明实施例中,用于编码的循环神经网络中添加了注意力机制。注意力机制的框架如图3所示,计算公式如下:
Yi=softmax(St)
Figure BDA0002565596050000141
ei,j=a(si-1,hj)
Figure BDA0002565596050000142
其中,Yi为已生成摘要的第i个词,由Yi-1,si,ci由三个状态决定;si表示i时刻的隐藏状态,由ci,si-1,Yi-1决定;ci表示注意力机制加权后的内容向量;ei,j表示解码阶段隐层状态si与编码状态hij(hij表示的是编码状态,代表从i到j个词的编码向量)的线性组合;αi,j表示注意力机制学习到的每一个词的权重;ei,k表示解码阶段隐层状态si与编码状态hik(hik表示的是编码状态,代表从i到k个词的编码向量)的线性组合。
而针对藏文OOV(out-of-vocabulary)问题,在用于解码的循环神经网络中通过在解码端使用指针网络的方式来解决。通过在解码器端设置一个指针的结构,来决定循环神经网络生成的摘要是从源文本中复制而来,还是从词表中选择。若解码器从源文本中复制词,而该词并没有出现在词表当中,则摘要就包含了未登陆词(是指一些不常用的人名,地名,组织机构名称),增加了摘要的新颖性以及准确性。网络结构有两个模式,复制模式P和生成模式G,P表示从源文本中复制,生成模式G表示从词表中复制。
指针网络在注意力机制上做了一些改进,指针网络没有将注意力分布和编码器隐藏状态整合成上下文向量,而是直接利用softmax函数将其转换为指向输入序列的指针,即指向输入序列中最有可能是输出的元素,改进后的计算公式如下:
p(Ci|C1,...,Ci-1,X)=softmax(et)
其中:
Ci表示注意力机加权后的内容向量;X表示输入序列;
Figure BDA0002565596050000151
et表示解码器在时间t时,对编码器每个时间的关注度所构成的向量;
Figure BDA0002565596050000152
表示解码器在时间t时,对编码器时间为i时刻的关注度;
Figure BDA0002565596050000153
表示输入是最后一个时刻所对应的et;St为解码器在时间t时的输出;hi是编码器在时间i时的输出;v,Wh,Ws均表示可学习的参数。
使用softmax将输入的词进行一个概率分布之后,就可以选取原文中概率最高的词作为当前摘要结果的输出。编码-解码模块训练成功标准是概率值趋于稳定值。
S401、基于双层的双向GRU神经网络模块和摘要子句获取最终摘要子句。具体为:
将摘要子句输出到训练好的双层的双向GRU神经网络中,输出最终摘要子句。
S402、基于编码-解码模块和最终摘要子句获取理解式文本摘要。
具体为:
将输出的最终摘要子句作为训练好的编码-解码模块的输入,经过编码-解码模块的处理,生成理解式文本摘要。
为验证本发明实施例的有效性,进行了以下实验:
1、参数设置
实验中需要对TextRank以及双层的双向GRU神经网络的参数进行设置,TextRank算法的参数设置结果如表1所示,双层的双向GRU神经网络的参数设置如表2所示:
表1 TextRank的参数设置
参数
基尼系数 0.75
最大迭代次数 1000
停止迭代值 0.001
冗余系数 0.5
表2双层的双向GRU神经网络的参数设置
Figure BDA0002565596050000161
Figure BDA0002565596050000171
2、语料来源及实验数据集
语料来源为自然语言处理实验室舆情项目。项目使用java爬虫架构,根据不同的藏文新闻网站页面的前端HTML/CSS代码,爬取网页新闻的内容(content)以及标题(title),并爬取新闻的类别可以用作以后的藏文文本分类任务,最后以UTF-8的编码方式存储在Mysql数据库当中。爬虫程序每天凌晨实时更新,保证最新的新闻都会被收集起来,从而保证了语料来源在时间跨度上的覆盖,每一个网站每天大约会爬取大约100篇左右的新闻数量,一共从各大网站上搜集了大约5W篇藏文的新闻用于文本摘要的实验。新闻来源以及网址如表3所示。
表3藏文新闻数据来源
网站中文名 网址
人民网藏文版 http://tb.tibet.cn
海西州人民政府网 <u>http://www.zw.haixi.gov.cn/</u>
中国藏族铁通音乐网 <u>http://ti.tibet3.com</u>
宗喀巴网 <u>http://bo.jetsongkhapa.org/</u>
新华网西藏频道 <u>http://xizang.news.cn/</u>
甘南香巴拉在线 http://tb.gnxblzx.com/
藏文在语言学中属于汉藏语系,有着自己本身的语言特点,本发明实施例的实验中采用的藏文是目前应用比较广泛的藏文小字符集。从数据库中取到藏文的新闻标题对之后,对其做相应的处理,包括分词、分句、构建词典等,数据预处理是自然语言处理中很重要并且复杂的一个点,很多自然语言处理的工作都集中在预处理的过程当中,并且,由于基于深度学习的方法是基于数据驱动的,所以预处理的过程很大程度上影响着实验模型结果的好坏。
本发明实施例的实验中对爬取下来的藏文新闻以及标题做如下处理
1)首先用开源的藏文分词工具tip-las进行分词,tip-las有三种模式,分词、词性标注、分词+词性标注,仅选择分词模式,并根据词频选出排名前5000的词汇作为藏文生成词典。
2)将词汇使用不同的表示方式使用gensim生成word2vec以及fasttext词向量,之后根据藏文单垂符“|”将新闻切分成短句。
3)将新闻用不同的方法抽取出关键词,用于摘要效果的评测。藏文新闻预处理流程如图4所示。
3、评价指标
摘要评测从广义角度上可以分为内部评价法以及外部评价法,内部评价法是将生成摘要的结果使用一个统一的标准进行评价,外部评价法指的是将文本摘要的结果使用在下游任务当中,来评测摘要结果的好坏。目前文本摘要评测方法主要是由Chin-YewLin等人参考了机器翻译的自动评价方法BLEU,提出的ROUGE(Recall-Oriented Understudy forGisting Evaluation)评价方法。该方法首先由多个专家分别生成人工文摘,构成标准文摘集。然后将***生成的自动文摘与人工生成的标准文摘相对比,统计二者之间重叠的基本单元的数目,来评价文摘的质量,该方法现已成为文摘评价技术的通用标准之一。ROUGE系列评价指标包括ROUGE-N、ROUGE-L、ROUGE-S、ROUGE-W。其中ROUGE-N是最为常用的指标,ROUNGE-N是基于n-gram共现统计,n一般为[1,4],计算公式如下:
Figure BDA0002565596050000191
其中Re fsummaries代表参考摘要,Count(n-gram)表示参考摘要中n-gram的个数,Countmatch(n-gram)代表生成的摘要中,与参考摘要中共同包含n-gram的个数。不同的方法,在不同类型的文摘评测上有着不同的效果。本发明实施例的实验中采用最为常用的ROUGE-1,ROUGE-2,ROUGE-L,作为摘要结果的评测指标。
基于关键词的摘要评测方法
目前,基于Rouge的评测方法也有许多争议,可能并不能很好的表示出原文的内容,为了体现摘要是否能够覆盖原文内容,通过上述提取关键词的方法将关键词提取,进而通过摘要中出现的关键词,占全部关键词的百分比作为摘要的评测指标。
4、实验及结果分析
(1)抽取式Rouge结果分析
从新闻中抽取两个分值最高的句子作为摘要进行评测,评测指标为Rouge-1、Rouge-2、Rouge-l三种,使用的方法为:
TF-IDF:使用基于TF-IDF的方法计算句子权值,抽取句子。
TR+Tf:使用TextRank算法,相似度计算利用传统的词的共现矩阵的方法。
TR+word2vec:使用TextRank算法,句子相似度计算使用word2vec向量加权平均的方式。
TR+FastText:使用TextRank算法,句子相似度计算使用FastText向量加权平均的方式。
Bi-RNN:在抽取式神经网络模型中,使用双向神经网络模型,其中神经元细胞(cell)为普通的RNN结构。
Bi-RGRU:在抽取式神经网络模型中,使用双向神经网络模型,其中神经元细胞为GRU结构。
评测结果如表4所示。
表4 Rouge评测结果(单位:%)
Figure BDA0002565596050000201
从表中可以看出,相比于FastText,Word2vec的效果更好一些,这也有一部原因分来自于官方FastText的向量掺杂许多英文与中文的无关词向量导致。基于TF-IDF的方法与TextRank与词频相结合的方法效果类似,并且其摘要也大致相同。由于只考虑句子权值,对句子长度没有要求,所有算法均从原文中抽取两句话作为摘要,所以使用TF-IDF方法抽取的句子长度都很长,评分也较高一些。但如果将句子长度的因素考虑进去,TextRank算法的效果是最突出的。
基于神经网络的算法,虽然表现不如TextRank算法好,但是由于使用的语料是通过TextRank算法标注出来的语料,在错误累加的情况下效果较差。由于基于神经网络的深度学习方法主要依赖于大数据驱动的,所以,如果使用标注好的语料效果会有一定的提升。并且使用GRU神经网络单元的模型比基于RNN单元的神经网络模型效果提升约两个百分点。
(2)时间对比
实验中,统计了1W语料中,各模型所用的时间如图5所示:
从图中可以看出,使用TF-IDF的计算量最小,时间最短,使用TextRank算法并使用词的共现矩阵做相似度计算,时间复杂度也较小,使用词向量的时间复杂度很高,并且FastText词向量维度更大,时间会有更大的增长,并且在实验过程中每一次都达到了最大的迭代次数。相反,使用神经网络算法的Bi-RNN以及Bi-GRU(双层的双向GRU神经网络)的实验用时较少,并且Rouge的评测值较高,更加适用与大规模语料的抽取,只要训练出模型,可以快速的,一劳永逸的得到抽取的结果。
(3)抽取式摘要关键词覆盖度
除Rouge外,还使用了关键词覆盖程度来评测藏文结果的好坏。如图6所示。
从每一篇藏文新闻中,抽取20个关键词,从实验结果看出,虽然基于TF-IDF的方法抽取的摘要很长,但是其关键词的覆盖程度相比于其他方法较差。并且,虽然基于TextRank方法与词向量相结合之后在藏文标题摘要的Rouge评测中得到了很好的结果,但是在关键词覆盖上与基于神经网络的方法相差不多。
(4)理解式Rouge评测
实验中,为了凸显出本发明实施例的摘要模型将抽取式方法和生成式方法相结合的优势,将藏文新闻直接使用编码-解码模块,结合注意力机制,与指针网络的三种方法,与使用本发明实施例的摘要模型将句子抽取后的三种方法做对比,不使用本发明实施例的摘要模型的方法称为Default。Rouge-1评测结果如图7所示,Rouge-2评测结果如图8所示,Rouge-L评测结果如图9所示。
从图中可以看出,使用本发明实施例的摘要模型的方法表现要明显优于基于传统的方法,大大的提到了摘要的准确性和可读性,而结果也从侧面应征了,抽取式摘要的结果要好于理解式摘要的结果。另外,由于语料以及模型的限制,不进行句子抽取的藏文新闻直接生成的结果大多为0,仅仅在与注意力机制结合之后才会在Rouge1的评测结果上有0.4左右的结果,最能体现出摘要的新颖性和连贯性的Rouge-2以及Rouge-l两种评测指标为0。可以认为在篇章的理解上学到的东西为0。采用本发明实施例的摘要模型之后,值有了明显的改变,并且,基于指针网络的网络从原文复制词汇之后,与标题的重合度会有很大的提升,从而在结果上平均提升了2%左右。
(5)理解式摘要关键词覆盖度评测
同样采用关键词覆盖度的方式来评测摘要结果的好坏,由于神经网络解码过长文本导致的梯度消失和***的问题,直接使用藏文新闻做摘要输出的结果与可读性都很差,结果基本为0,输出的结果中,有着输入文本,但是不输出结果,以及输入文本,输出只是特定的符号,并且一直在重复自身。所以并不展示这一方面的实验结果,这里给出了使用本发明实施例的摘要模型之后,使用Seq2Seq模型、Seq2Seq+Attention模型、结合指针网络与结合覆盖机制的四种方法的关键词覆盖度,如图10所示。
从结果中可以分析出,使用指针网络从原文复制单词之后,得到的结果有着7%的提升,因为有很多关键词,例如人民、地名、组织机构名未出现在词典当中,但是依然很关键,能表达出原文的内容,使用指针网络可以解决这种问题,而不在受限于词典的大小。
本发明实施例还提供一种藏文文本摘要生成***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
可理解的是,本发明实施例提供的上述藏文文本摘要生成***与上述藏文文本摘要生成方法相对应,其有关内容的解释、举例、有益效果等部分可以参考藏文文本摘要生成方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例采用预设的摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子,去掉冗余信息,方便加快后续的处理过程,然后采用预设的摘要模型中的编码-解码生成理解式文本摘要。本发明实施例在编码-解码模块的解码端利用指针网络提高了藏文OOV词的处理精度,提高了摘要的可读性和新颖性。
2、本发明实施例引入TextRank算法对用于训练的预藏文文本集进行标记,作为摘要模型的输入,解决藏语标记语料库缺乏的问题。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种藏文文本摘要生成方法,其特征在于,包括以下步骤:
获取待生成摘要的藏文文本;
对所述藏文文本进行预处理;
基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要;其中:所述预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块;编码-解码模块的编码端添加注意力机制,解码端添加指针网络。
2.如权利要1所述的藏文文本摘要生成方法,其特征在于,所述预处理包括:
采用CRF的方法对藏文文本进行分词,过滤掉停用词,建立词表;
并按照藏文边陲符号进行分句,得到子句。
3.如权利要求1任一所述的藏文文本摘要生成方法,其特征在于,所述预设的预设的摘要模型的构建过程包括:
获取训练所需的藏文文本集;
对藏文文本集进行预处理,得到初始子句;
基于TextRank算法对预处理后的藏文文本集进行标记处理,获取模型训练子句;
将模型训练子句输入到摘要模型,对摘要模型进行训练。
4.如权利要求3所述的藏文文本摘要生成方法,其特征在于,所述基于TextRank算法对预处理后的藏文文本集进行标记处理,获取模型训练子句,包括:
将每个初始子句作为节点添加到拓扑图G=(V,E)中;其中,G表示一个无向图;V为顶点的集合,表示藏文文本中集的初始子句;E为边的集合,表示初始子句之间的关系;
采用Wordv2ec和fasttext两种不同的词向量模型,将初始子句映射到高维词库中表示成向量形式,根据词向量文件将每一个初始子句转化为句向量,初始子句的向量表示是所有相同维数的词向量的平均值,边表示初始子句之间的相似性,公式如下:
WS(Si,Sj)=cos(Si1...Sin,Sj1...Sjn)
其中:
WS(Si,Sj)表示词的相似度;
Si和Sj表示词向量;
cos表示词之间的余弦距离;
n表示词向量维度的大小;
迭代算法直至收敛,计算公式如下:
Figure FDA0002565596040000021
WS(Vi)表示的就是任一词Vi的权重;
d表示基尼系数;
Wij表示节点Vi,Vj之间边的权重;
In(Vi)为指向节点Vi的节点集合;
Out(Vi)为点Vi指向的节点集合;
将每一个节点与其相连的节点计算相似度,并计算相似度在其相连节点中所占的比重进而迭代;
按照将每一个词的向量叠加取平均,得到句子向量,进而迭代得到藏文文本集中每一个初始子句的权重;根据权重由高到低进行排序,再根据如下公式重新计算权重最高的前k个初始子句的权重,选取最新权重值为前n个句子作为模型训练子句,其中n<k:
Xi=(X1f1+X2f2+...Xkfk)/n
其中:
Xi表示句子i的最新权重值;
f1+f2+...+fk=n,f1,f2,…,fk叫做权;
X1到Xk-1表示该初始子句与其他权重高的k-1个初始子句的相似度;
Xk表示该初始子句与主题句的相似度;
f1到fk表示加权的权值,其中f1到fk-1表示的是惩罚系数,起到权重降低的效果,fk表示与主题句的相似度,起到权重提高的效果。
5.如权利要求3所述的藏文文本摘要生成方法,其特征在于,所述将模型训练子句输入到摘要模型,对模型进行训练,包括:
将模型训练子句输入到双层的双向GRU神经网络,对双层的双向GRU神经网络进行训练,完成对双层的双向GRU神经网络的训练,并得到最终训练子句;
将最终训练子句输入编码-解码模块中,完成对编码-解码模块的训练。
6.如权利要求1~5任一所述的藏文文本摘要生成方法,其特征在于,所述编码-解码模块包括:
两个循环神经网络,第一个神经网络用于接收最终训练子句,将最终训练子句编码为一个内容向量,第二个神经网络用于对内容向量进行解码,生成理解式文本摘要。
7.如权利要求1~5任一所述的藏文文本摘要生成方法,其特征在于,所述注意力机制的计算公式如下:
Yi=softmax(St)
Figure FDA0002565596040000041
ei,j=a(si-1,hj)
Figure FDA0002565596040000042
其中:
Yi为已生成摘要的第i个词,由Yi-1,si,ci三个状态决定;
si表示i时刻的隐藏状态,由ci,si-1,Yi-1决定;
ci表示注意力机制加权后的内容向量;
ei,j表示解码阶段隐层状态si与编码状态hij的线性组合,hij表示的是编码状态,代表从i到j个词的编码向量;
αi,j表示注意力机制学习到的每一个词的权重;
ei,k表示解码阶段隐层状态si与编码状态hik的线性组合,hik表示的是编码状态,代表从i到k个词的编码向量。
8.如权利要求1~5任一所述的藏文文本摘要生成方法,其特征在于,所述指针网络包括:
利用softmax函数将注意力分布和编码器隐藏状态转换为指向输入序列的指针,计算公式如下:
p(Ci|C1,...,Ci-1,X)=softmax(et)
其中:
Ci表示注意力机加权后的内容向量;
X表示输入序列;
Figure FDA0002565596040000051
et表示解码器在时间t时,对编码器每个时间的关注度所构成的向量;
Figure FDA0002565596040000052
表示解码器在时间t时,对编码器时间为i时刻的关注度;
Figure FDA0002565596040000053
表示输入是最后一个时刻所对应的et
St为解码器在时间t时的输出;hi是编码器在时间i时的输出;
v,Wh,Ws均表示可学习的参数。
9.一种藏文文本摘要生成***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至8任一所述方法的步骤。
CN202010622638.4A 2020-07-01 2020-07-01 藏文文本摘要生成方法和*** Pending CN111984782A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010622638.4A CN111984782A (zh) 2020-07-01 2020-07-01 藏文文本摘要生成方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010622638.4A CN111984782A (zh) 2020-07-01 2020-07-01 藏文文本摘要生成方法和***

Publications (1)

Publication Number Publication Date
CN111984782A true CN111984782A (zh) 2020-11-24

Family

ID=73437709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010622638.4A Pending CN111984782A (zh) 2020-07-01 2020-07-01 藏文文本摘要生成方法和***

Country Status (1)

Country Link
CN (1) CN111984782A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668338A (zh) * 2021-03-22 2021-04-16 中国人民解放军国防科技大学 澄清问题生成方法、装置和电子设备
CN113033188A (zh) * 2021-03-19 2021-06-25 华果才让 一种基于神经网络的藏文语法纠错方法
CN113378546A (zh) * 2021-06-10 2021-09-10 电子科技大学 一种非自回归的句子排序方法
CN114997143A (zh) * 2022-08-04 2022-09-02 北京澜舟科技有限公司 文本生成模型训练方法和***、文本生成方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153864A (zh) * 2017-12-25 2018-06-12 北京牡丹电子集团有限责任公司数字电视技术中心 基于神经网络生成文本摘要的方法
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及***
DE102019207712A1 (de) * 2018-05-31 2019-12-05 Robert Bosch Gmbh Slot-Befüllung beim Gesprochene-Sprache-Verständnis mit einer Kombination aus Zeiger und Aufmerksamkeit

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153864A (zh) * 2017-12-25 2018-06-12 北京牡丹电子集团有限责任公司数字电视技术中心 基于神经网络生成文本摘要的方法
DE102019207712A1 (de) * 2018-05-31 2019-12-05 Robert Bosch Gmbh Slot-Befüllung beim Gesprochene-Sprache-Verständnis mit einer Kombination aus Zeiger und Aufmerksamkeit
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄新奇: "基于注意力机制的文本生成摘要方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 4, pages 9 - 12 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033188A (zh) * 2021-03-19 2021-06-25 华果才让 一种基于神经网络的藏文语法纠错方法
CN113033188B (zh) * 2021-03-19 2022-12-20 华果才让 一种基于神经网络的藏文语法纠错方法
CN112668338A (zh) * 2021-03-22 2021-04-16 中国人民解放军国防科技大学 澄清问题生成方法、装置和电子设备
US11475225B2 (en) 2021-03-22 2022-10-18 National University Of Defense Technology Method, system, electronic device and storage medium for clarification question generation
CN113378546A (zh) * 2021-06-10 2021-09-10 电子科技大学 一种非自回归的句子排序方法
CN113378546B (zh) * 2021-06-10 2022-06-14 电子科技大学 一种非自回归的句子排序方法
CN114997143A (zh) * 2022-08-04 2022-09-02 北京澜舟科技有限公司 文本生成模型训练方法和***、文本生成方法及存储介质
CN114997143B (zh) * 2022-08-04 2022-11-15 北京澜舟科技有限公司 文本生成模型训练方法和***、文本生成方法及存储介质

Similar Documents

Publication Publication Date Title
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及***
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
WO2023065544A1 (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
CN109858028B (zh) 一种基于概率模型的短文本相似度计算方法
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN106970910B (zh) 一种基于图模型的关键词提取方法及装置
CN113642330A (zh) 基于目录主题分类的轨道交通规范实体识别方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN111984782A (zh) 藏文文本摘要生成方法和***
CN111310471A (zh) 一种基于bblc模型的旅游命名实体识别方法
CN110413768B (zh) 一种文章题目自动生成方法
CN111291188B (zh) 一种智能信息抽取方法及***
CN113312452A (zh) 基于多任务学习的篇章级文本连贯性分类方法
CN107102983A (zh) 一种基于网络知识源的中文概念的词向量表示方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN110263343A (zh) 基于短语向量的关键词抽取方法及***
CN111241410A (zh) 一种行业新闻推荐方法及终端
CN114398900A (zh) 一种基于RoBERTa模型的长文本语义相似度计算方法
CN114757184A (zh) 实现航空领域知识问答的方法和***
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN114626367A (zh) 基于新闻文章内容的情感分析方法、***、设备及介质
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN113051886B (zh) 一种试题查重方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination