CN114547287A - 一种生成式文本摘要方法 - Google Patents

一种生成式文本摘要方法 Download PDF

Info

Publication number
CN114547287A
CN114547287A CN202111373234.7A CN202111373234A CN114547287A CN 114547287 A CN114547287 A CN 114547287A CN 202111373234 A CN202111373234 A CN 202111373234A CN 114547287 A CN114547287 A CN 114547287A
Authority
CN
China
Prior art keywords
vector
word
text
sentence
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111373234.7A
Other languages
English (en)
Other versions
CN114547287B (zh
Inventor
田玲
康昭
惠孛
孙麟
罗光春
袁铭潮
陈仙莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111373234.7A priority Critical patent/CN114547287B/zh
Publication of CN114547287A publication Critical patent/CN114547287A/zh
Application granted granted Critical
Publication of CN114547287B publication Critical patent/CN114547287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种生成式文本摘要方法,属于自然语言处理技术领域。本发明在Word2Vec的CBOW模型基础上进行改进,融入了音节标注信息增强了文本的特征表示能力;采用基于LSTM的Encoder‑Decoder框架实现新闻摘要生成,并在生成过程中着力解决未登录词问题,有效提升了新闻摘要生成的效果。

Description

一种生成式文本摘要方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种生成式文本摘要方法。
背景技术
随着当今时代在计算机硬件设备技术的提升下计算机性能也随之飞速提高,以及互联网行业的蓬勃发展。个人计算机的普及和迅速发展的互联网行业导致了各种文本信息通过各种各样的载体出现在人们的日常生活中。由于这个时代信息量巨大,人们面临着一个不可避免的、具有挑战性的信息过载问题,同时由于网络上庞大的信息量,也给信息检索带来了困难。因此,如何解决信息过载造成的数据灾难问题,有效解决人们从文本中获取信息困难的问题,是目前全球领域内关注的热点内容之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要,该技术的出现解决了信息过载的问题。
早期自动文本摘要技术研究采用基于规则的方法和基于传统机器学习的方法,但其因为很难按照人类理解文章那样来学习文章导致其生成摘要不尽人意。随着深度学习相关研究的发展,循环神经网络模型具有灵活的计算步骤,其输出依赖于之前的计算,这使得它能够捕获语言中的上下文依赖关系,并能够对各种文本长度建模。但传统的基于循环神经网络的框架存在一个潜在的问题,在实际模型预测过程中,由于在预测时模型预测的词汇是开放的,假如预测文本中存在没有在生成单词的词表中的词,模型将无法对其进行处理和生成,这就是未登录词(Out-Of-Vocabulary,OOV)问题。因为在摘要生成过程中原文某些生僻词可能包含重要的信息,但是因为其频率比较低导致在训练时无法加入词表,并且由于现在模型越来越大,加入新词后模型重新训练代价十分高,导致传统方法并不能很好解决OOV问题。
发明内容
本发明的目的在于,针对背景技术存在的缺陷,提出了一种生成式文本摘要方法。
为实现上述目的,本发明采用的技术方案如下:
一种生成式文本摘要方法,包括以下步骤:
步骤1、数据爬取:
数据源网站爬取新闻文本原始语料,进行解析后,得到新闻文本;
步骤2、数据预处理:
S21.数据清洗:对步骤1得到的新闻文本进行数据清洗,得到清洗后的新闻文本;
S22.数据格式处理:对清洗后的新闻文本进行数据格式处理,得到处理后的新闻文本;
S23.分词:对处理后的新闻文本采用语法分析分词算法进行分词处理,得到分词后的新闻文本;
S24.音节标注:对分词后的新闻文本,采用语音和谐规律处理算法进行音节标注,采用1表示元音、0表示辅音,构造与分词后的新闻文本相同维度的音节向量,得到新闻文本音节数据;
步骤3、文本特征表示:
S31.初始化:首先,遍历步骤S23得到的分词后的新闻文本,得到分词后的新闻文本中词的个数V以及每个词的词频,将V个词按照词频从大到小的顺序排列,构建词汇表Vocab:{w1,w2,…,wi,…,wV},wi代表词汇表中的第i个词;根据词在词汇表中的位置,生成V维度的One-Hot编码,对于第i个词wi,其生成的One-Hot编码记为one_hoti
S32.生成词向量并迭代训练:采用步骤S31中生成的One-Hot编码进行词向量的生成;对于词wi,生成过程具体为:
a.定义词向量的长度为N,窗口大小为c;
b.随机初始化权重矩阵WV×N,计算得到中间层的隐藏向量hi
Figure RE-RE-GDA0003609869620000021
c.随机初始化权重矩阵W′N×V,计算词wi的概率分布y:
y=softmax(hi·W′N×V)
d.迭代训练:采用梯度下降的方法,不断迭代训练,当one_hoti-y低于预设的阈值时,停止迭代,得到训练后的中间层的隐藏向量hi′,训练后的中间层的隐藏向量hi′为词wi训练后的词向量hi′;
S33.音节信息的融入:将步骤S24得到的音节向量与步骤S32得到的词向量 hi′拼接,得到融入音节信息的词向量h″i
S34.基于神经网络的词向量调整:从分词后的新闻文本中随机抽取一个包含词wi的句子W,假设句子W由m个词组成,词wi在句子W中排第j位,记为wj, W={w1,w2,…wm},句子W对应的融入音节信息的句向量为
Figure RE-RE-GDA0003609869620000031
其中
Figure RE-RE-GDA0003609869620000032
表示在句子W中排第j位的词wj对应的融入音节信息的词向量;然后,将融入音节信息的句向量H中的每一个词向量输入神经网络中,得到隐层向量G={g1,g2,…,gj,…,gm},其中,gj为词向量
Figure RE-RE-GDA0003609869620000033
的隐层向量;
S35.基于注意力机制的词向量调整:
a.针对隐层向量G={g1,g2,…,gj,…,gm},计算注意力权重:
Figure RE-RE-GDA0003609869620000034
其中,V′和M′为随机初始化的矩阵,V′为1行、x列的矩阵,M′为x行、1 列的矩阵,x为预设的值,b为随机初始化的值;
b.采用梯度下降法训练V′、M′和b,得到训练好的注意力权重A′= [a1′,a2′...,aj′...,am′];
c.采用训练好的注意力权重对隐层向量gj进行更新,得到更新后的隐层向量g′j
Figure RE-RE-GDA0003609869620000035
步骤4、新闻摘要生成:
S41.词向量表示:假设新闻向量S由k个句向量构成,S={s1,…,sp,…,sk},其中,句向量sp由m′个词向量组成,sp={g′1,…,g′q,…,g′m′},g′q表示在句向量sp中位置为q的词向量;
S42.编码:将步骤S41的新闻向量S输入LSTM模型进行编码,得到语义向量T:
T=LSTM(S)
S43.解码:将步骤S42得到的语义向量T输入另一个LSTM模型进行解码,生成文本摘要向量S′:
S′=LSTM(T)
文本摘要向量S′由k′个句向量构成,S′={s1′,…,sp′′…,sk′′},其中句向量sp′′由m″个词向量组成;
S44.未登录词复制:
a.计算句向量sp中词向量g′q的概率分布:
Pvocab(g′q)=softmax(V″(V″′[sp,sp′′]+b′)+b″)
其中,[sp,sp′′]表示将步骤S41得到的句向量sp和步骤S43得到的句向量sp′′进行向量拼接操作;V″和V″′为随机初始化得到的矩阵,V″的维度为1*x′,V″′的维度为x′*1,x′为预设的值;b′和b″为随机初始化的数值;
b.计算词向量g′q的生成概率Pgen
Pgen=sigmoid(sp·M1+sp′·M2+A′·M3+bgen)
其中,M1、M2和M3为随机初始化得到的矩阵,M1、M2、M3的维度分别为 m′*m″、m″*m″、m′*m″;bgen为随机初始化的数值;
c.得到词向量g′q的最终生成概率:
Figure RE-RE-GDA0003609869620000041
其中aj表示步骤S35的注意力权重;
d.若Pvocab(g′q)为0向量,则从新闻向量S中更新词向量g′q到S′中覆盖注意力权重最高的词向量;若Pvocab(g′q)为非零向量,则将生成文本摘要向量S′中注意力权重最高的词向量更新为最终生成概率最高的词向量;
S45.映射:对于步骤S44更新后的生成文本摘要向量S′,将其中每个词向量映射成词,得到最终的文本摘要。
本发明的有益效果为:
本发明提供的一种生成式文本摘要方法,在Word2Vec的CBOW模型基础上进行改进,融入了音节标注信息增强了文本的特征表示能力;采用基于LSTM 的Encoder-Decoder框架实现新闻摘要生成,并在生成过程中着力解决未登录词问题,有效提升了新闻摘要生成的效果。
附图说明
图1为本发明提供的一种生成式文本摘要方法的流程图。
具体实施方式
下面结合附图对本发明的方案进行详细阐述。
一种生成式文本摘要方法,具体包括以下步骤:
步骤1、数据爬取:
本发明实施例爬取新闻网站上的新闻文本作为后续数据预处理的基础数据,比如中央广播网上的新闻文本;具体步骤如下:
S11.数据采集:在Scrapy爬虫框架中输入目标数据源网站的URL地址,获得格式为Json字符串的新闻文本原始语料;
S12.数据解析:对步骤S11得到的新闻文本原始语料进行正则表达式解析,得到新闻文本;所述新闻文本由多个句子组成,句子由多个词组成;
步骤2、数据预处理:
该步骤主要涉及对步骤S12得到的新闻文本进行预处理,以提高下游模型的数据分析处理能力。数据预处理过程包括:数据清洗、数据格式处理、分词和音节标注。具体为:
S21.数据清洗:对步骤S12得到的新闻文本采用基于SQL(Structured QueryLanguage,结构化查询语言)或者Excel的人工校对方法进行数据清洗,具体可以采用完整性检查、拼写检查更正、去除非文本信息、丢弃无效数据等手段,得到清洗后的新闻文本;
S22.数据格式处理:对清洗后的新闻文本采用基于SQL或者Excel的人工校对方法进行数据格式处理,具体包括大小写转换、数值格式统一等,得到处理后的新闻文本;
S23.分词:对处理后的新闻文本采用语法分析分词算法进行分词处理,得到分词后的新闻文本;分词后的新闻文本由句子组成,句子由词组成;该步骤的分词处理,是对处理后的新闻文本进行分词,在新闻文本中某些字与字之间添加标识符,用来表示新闻文本中哪些字组成了一个词,并不是分词处理后就变成了词汇表;例如[我/喜欢/吃/苹果]就是文本[我喜欢吃苹果]的分词处理结果。
S24.音节标注:的元音和辅音区分明显,同时元音的和辅音的表达含义有一定的区别,根据此特征,本发明采用1和0区分该词是元音还是辅音,采用1 表示元音、0表示辅音。对分词后的新闻文本,采用语音和谐规律处理算法进行音节标注,构造与分词后的新闻文本相同维度的音节向量,获得新闻文本音节数据。
步骤3、文本特征表示:
该步骤主要是针对传统文本特征表示方法生成文本特征离散稀疏的问题,在Word2Vec的CBOW(Continuous Bag-Of-Words Model)模型基础上进行改进,融入了音节标注信息以增强模型的文本特征表示能力,并利用Bi-LSTM和注意力机制对文本表征能力进行提升。
S31.初始化:采用步骤S23得到的分词后的新闻文本生成One-Hot编码。具体过程为:首先,遍历分词后的新闻文本,得到分词后的新闻文本中词的个数 V以及每个词的词频,将V个词按照词频从大到小的顺序排列,构建词汇表Vocab: {w1,w2,…,wi,…,wV},wi代表词汇表中的第i个词;根据每个词在词汇表中的位置,生成一个V维度的One-Hot编码,对于第i个词wi,表示它在词汇表Vocab 中排在第i位,其生成的One-Hot编码记为one_hoti,具体生成过程如下:
对于词wi,它在词汇表Vocab中排在第i位,则其对应的One-Hot编码 one_hoti为:[0,0...,1,0,0...,0],该编码的维度为V,第i位为1,其余所有位均为 0。
S32.生成词向量并迭代训练:采用步骤S31中生成的One-Hot编码来生成词向量;对于词wi,生成过程具体为:
a.定义词向量的长度为N,窗口大小为c;
b.按照高斯分布,随机初始化一个权重矩阵WV×N,其中V表示该矩阵的行数,即One-Hot编码的维度V,N表示该矩阵的列数,即定义的词向量长度N;将词wi的前面c个词wi-c,wi-c+1...,wi-1和后面c个词wi+1,wi+2...,wi+c的One-Hot 编码,即 one_hoti-c,one_hoti-c+1,...,one_hoti-1,one_hoti+1,one_hoti+2,...,one_hoti+c分别与WV×N相乘后再取平均,得到中间层的隐藏向量hi;计算公式如下:
Figure RE-RE-GDA0003609869620000071
c.按照高斯分布,随机初始化一个权重矩阵W′N×V,其中N表示该矩阵的行数,即定义的词向量长度N,V表示该矩阵的列数,即One-Hot编码的维度V;将隐藏向量hi右乘W′N×V,再经过激活函数softmax,得到词wi的概率分布y:
y=softmax(hi·W′N×V)
d.迭代训练:迭代训练的目标是使得词wi的概率分布y最接近真实的概率分布,即最接近词wi的One-Hot编码。具体为:采用梯度下降的方法,将one_hoti-y 的梯度反向传播给WV×N和W′N×V,不断修正WV×N和W′N×V的参数,使得 one_hoti-y逐渐减小;当one_hoti-y低于一个预设的阈值时(该阈值为自定义,设定时一般选取趋于0的数值,例如0.001)停止迭代,即可得到训练后的中间层的隐藏向量hi′,该隐藏向量即为词wi训练后的词向量hi′;
S33.音节信息的融入:将步骤S24得到的音节向量与步骤S32得到的词向量 hi′拼接,得到词wi融入音节信息的词向量h″i
S34.基于Bi-LSTM(双向长短期记忆网络)进行词向量调整:通过 Bi-LSTM(双向长短期记忆网络)可以使得步骤S33得到的词wi融入音节信息的词向量h″i中包含更多的上下文信息,具体过程如下:
对步骤S33得到的词wi融入音节信息的词向量h″i进行调整,首先从分词后的新闻文本中随机抽取一个包含词wi的句子W,假设这个句子W由m个词组成,词wi在句子W中排在第j位,表示为wj,则该句子可表示成词的集合W= {w1,w2,…wj,…wm}(步骤S31提到的词wi,是指在词汇表Vocab中排第i位的词,而此处的w1,w2,…wm指的是在句子W中位置为1,2,...,m的词)。该句子对应的融入音节信息的句向量为
Figure RE-RE-GDA0003609869620000081
其中
Figure RE-RE-GDA0003609869620000082
表示在句子W中排第j位的词wj对应的融入音节信息的词向量;然后,将融入音节信息的句向量H 中的每一个融入音节信息的词向量
Figure RE-RE-GDA0003609869620000083
依次输入一个由 Bi-LSTM单元构成的神经网络中,得到
Figure RE-RE-GDA0003609869620000084
对应的隐层向量:
Figure RE-RE-GDA0003609869620000085
其中,gj是融入音节信息的词向量
Figure RE-RE-GDA0003609869620000086
的隐层向量,G是句子W中m个词的融入音节信息的词向量
Figure RE-RE-GDA0003609869620000087
对应的隐层向量g1,g2,…,gm组成的集合;
S35.基于注意力机制的词向量调整:不同的词对其他词的影响程度不同,利用注意力机制对步骤S34获得的词wj的隐层向量gj进行调整,接收其他词不同程度的影响。具体为:
a.针对m个词的隐层向量G={g1,g2,…,gj,…,gm},计算注意力权重 [a1,a2...,aj...,am],公式如下:
Figure RE-RE-GDA0003609869620000088
其中,A表示注意力权重a1,a2...,aj...,am组成的向量,aj是一个数值, softmax函数会得到一个m维度的向量,aj就是softmax函数输出的向量中第j位的数值;V′和M′是两个按照高斯分布随机初始化的矩阵,V′为1行、x列的矩阵, M′为x行、1列的矩阵(此处的x是一个预设的值,其取值最好趋近于向量gj的长度),b是一个按照高斯分布随机初始化的值;
b.采用梯度下降法训练上述公式中的V′、M′和b,得到训练好的注意力权重 A′=[a1′,a2′...,aj′...,am′];
c.采用训练好的注意力权重A′=[a1′,a2′...,aj′...,am′]对隐层向量gj进行更新:
Figure RE-RE-GDA0003609869620000091
得到词wj的更新后的隐层向量g′j
步骤4、新闻摘要生成:
该步骤主要针对传统新闻摘要生成方法效果不佳的问题,采用基于LSTM的Encoder-Decoder框架实现新闻摘要生成,并在生成过程中着力解决未登录词 (Out-Of-Vocabulary,OOV)问题,以提升新闻摘要生成的效果。
S41.词向量表示:对步骤S23得到的分词后的新闻文本进行摘要生成。假设新闻向量S由k个句向量构成,即S={s1,…,sp,…,sk},其中,句向量sp由m′个词向量组成,sp={g′1,…,g′q,…,g′m′},其中g′q表示在句向量sp中位置为q的词向量;
S42.编码:
将步骤S41的新闻向量S输入单向LSTM模型进行编码,LSTM基于新闻向量S生成一个语义向量T:
T=LSTM(S)
该语义向量T包含了该新闻的全部信息。
S43.解码:将步骤S42得到的语义向量T输入另一个不同的单向LSTM模型进行解码,生成文本摘要向量S′;生成的文本摘要向量S′由k′个句向量构成, S′={s1′,…,sp′′…,sk′′},其中句向量sp′′由m″个词向量组成,sp′′={g′1,…g′,… g′m″},g′q′为句向量sp′′中位置为q′的词向量表示(LSTM用作解码时,可以将一个向量扩展为多个向量):
S′=LSTM(T)
S44.未登录词复制:在步骤S43获得文本摘要向量S′后,需判断S′中的每个词向量是否是未登录词的向量(即判断Vocab词汇表中是否有词对应的词向量与S′中的词向量一致,如果是,则需要进行词复制操作)。具体过程为:
a.计算句向量sp中词向量g′q的概率分布Pvocab,公式如下:
Pvocab(g′q)=softmax(V″(V″′[sp,sp′′]+b′)+b″)
其中[sp,sp′′]表示将步骤S41得到的句向量sp和步骤S43得到的句向量sp′′进行向量拼接操作;V″和V″′是两个根据高斯分布随机初始化得到的矩阵,V″的维度为1*x′,V″′的维度为x′*1(x′是一个预设的值,其取值在1000左右);b′和b″是两个根据高斯分布随机初始化的数值;V″和V″′、b′和b″都需要通过梯度下降法不断修正它们的参数,以提高Pvocab(g′q)的精确度。
b.计算词向量g′q的生成概率Pgen
Pgen=sigmoid(sp·M1+sp′′·M2+A′·M3+bgen)
其中,M1、M2和M3是根据高斯分布随机初始化得到的矩阵,sp是步骤S41 得到的句向量,sp′′是骤S43得到的句向量,A′是步骤S35得到的训练好的注意力权重的集合,bgen是根据高斯分布随机初始化的数值;M1、M2、M3的维度分别为m′*m″、m″*m″、m′*m″;M1、M2、M3和bgen都需要通过梯度下降法不断修正它们的参数,以提高Pgen的精确度。
c.综合上述的概率分布Pvocab和生成概率Pgen,即可得到词向量g′q的最终生成概率:
Figure RE-RE-GDA0003609869620000101
其中aj表示步骤S35的注意力权重,m′表示步骤S41的句向量长度。
d.若Pvocab(g′q)计算出来为0向量,说明步骤S31的词汇表Vocab中所有词对应的词向量与g′q都不相同,此时需要直接从S中更新词向量g′q到S′中覆盖注意力A′权重最高的词向量;若Pvocab(g′q)计算出来为非零向量,则说明词向量g′q对应的词存在于步骤S31的词汇表Vocab中,此时则根据P(g′q)的概率分布,选择生成概率最高的词向量,即将生成文本摘要向量S′中注意力A′权重最高的词向量更新为最终生成概率最高的词向量,从而解决了OOV问题;
S45.映射:对于步骤S44更新后得到的生成文本摘要向量S′,将S′中每个句向量sp′′中的词向量g′q′映射成词,即可得到最终的文本摘要Sfinal={W1 final,···,Wi final,…,Wk′ final},其中句子Wi final由m′个词组成,Wi final={w1,w2,…wm′},其中w1,w2,…wm′是词。
至此,本发明实现了一种生成式文本摘要方法。

Claims (1)

1.一种生成式文本摘要方法,其特征在于,包括以下步骤:
步骤1、数据爬取:
数据源网站爬取新闻文本原始语料,进行解析后,得到新闻文本;
步骤2、数据预处理:
S21.数据清洗:对步骤1得到的新闻文本进行数据清洗,得到清洗后的新闻文本;
S22.数据格式处理:对清洗后的新闻文本进行数据格式处理,得到处理后的新闻文本;
S23.分词:对处理后的新闻文本采用语法分析分词算法进行分词处理,得到分词后的新闻文本;
S24.音节标注:对分词后的新闻文本,采用语音和谐规律处理算法进行音节标注,采用1表示元音、0表示辅音,构造与分词后的新闻文本相同维度的音节向量,得到新闻文本音节数据;
步骤3、文本特征表示:
S31.初始化:首先,遍历步骤S23得到的分词后的新闻文本,得到分词后的新闻文本中词的个数V以及每个词的词频,将V个词按照词频从大到小的顺序排列,构建词汇表Vocab:{w1,w2,…,wi,…,wV},wi代表词汇表中的第i个词;根据词在词汇表中的位置,生成V维度的One-Hot编码,对于第i个词wi,其生成的One-Hot编码记为one_hoti
S32.生成词向量并迭代训练:采用步骤S31中生成的One-Hot编码进行词向量的生成;对于词wi,生成过程具体为:
a.定义词向量的长度为N,窗口大小为c;
b.随机初始化权重矩阵WV×N,计算得到中间层的隐藏向量hi
Figure RE-FDA0003585028020000011
c.随机初始化权重矩阵W′N×V,计算词wi的概率分布y:
y=softmax(hi·W′N×V)
d.迭代训练:采用梯度下降的方法,不断迭代训练,当one_hoti-y低于预设的阈值时,停止迭代,得到训练后的中间层的隐藏向量hi′,训练后的中间层的隐藏向量hi′为词wi训练后的词向量hi′;
S33.音节信息的融入:将步骤S24得到的音节向量与步骤S32得到的词向量hi′拼接,得到融入音节信息的词向量h″i
S34.基于神经网络的词向量调整:从分词后的新闻文本中随机抽取一个包含词wi的句子W,假设句子W由m个词组成,词wi在句子W中排第j位,记为wj,W={w1,w2,…wm},句子W对应的融入音节信息的句向量为
Figure RE-FDA0003585028020000021
其中
Figure RE-FDA0003585028020000022
表示在句子W中排第j位的词wj对应的融入音节信息的词向量;然后,将融入音节信息的句向量H中的每一个词向量输入神经网络中,得到隐层向量G={g1,g2,…,gj,…,gm},其中,gj为词向量
Figure RE-FDA0003585028020000023
的隐层向量;
S35.基于注意力机制的词向量调整:
a.针对隐层向量G={g1,g2,…,gj,…,gm},计算注意力权重:
Figure RE-FDA0003585028020000024
其中,V′和M′为随机初始化的矩阵,V′为1行、x列的矩阵,M′为x行、1列的矩阵,x为预设的值,b为随机初始化的值;
b.采用梯度下降法训练V′、M′和b,得到训练好的注意力权重A′=[a1′,a2′…,aj′…,am′];
c.采用训练好的注意力权重对隐层向量gj进行更新,得到更新后的隐层向量g′j
Figure RE-FDA0003585028020000025
步骤4、新闻摘要生成:
S41.词向量表示:假设新闻向量S由k个句向量构成,S={s1,…,sp,…,sk},其中,句向量sp由m′个词向量组成,sp={g′1,…,g′q,…,g′m′},g′q表示在句向量sp中位置为q的词向量;
S42.编码:将步骤S41的新闻向量S输入LSTM模型进行编码,得到语义向量T:
T=LSTM(S)
S43.解码:将步骤S42得到的语义向量T输入另一个LSTM模型进行解码,生成文本摘要向量S′:
S′=LSTM(T)
文本摘要向量S′由k′个句向量构成,S′={s1′,…,sp′′…,sh′′},其中句向量sp′′由m″个词向量组成;
S44.未登录词复制:
a.计算句向量sp中词向量g′q的概率分布:
Pvocab(g′q)=softmax(V″(V″′[sp,sp′′]+b′)+b″)
其中,[sp,sp′′]表示将步骤S41得到的句向量sp和步骤S43得到的句向量sp′′进行向量拼接操作;V″和V″′为随机初始化得到的矩阵,V″的维度为1*x′,V″′的维度为x′*1,x′为预设的值;b′和b″为随机初始化的数值;
b.计算词向量g′q的生成概率Pgen
Pgen=sigmoid(sp·M1+sp′′·M2+A′·M3+bgen)
其中,M1、M2和M3为随机初始化得到的矩阵,M1、M2、M3的维度分别为m′*m″、m″*m″、m′*m″;bgen为随机初始化的数值;
c.得到词向量g′q的最终生成概率:
Figure RE-FDA0003585028020000031
其中aj表示步骤S35的注意力权重;
d.若Pvocab(g′q)为0向量,则从新闻向量S中更新词向量g′q到S′中覆盖注意力权重最高的词向量;若Pvocab(g′q)为非零向量,则将生成文本摘要向量S′中注意力权重最高的词向量更新为最终生成概率最高的词向量;
S45.映射:对于步骤S44更新后的生成文本摘要向量S′,将其中每个词向量映射成词,得到最终的文本摘要。
CN202111373234.7A 2021-11-18 2021-11-18 一种生成式文本摘要方法 Active CN114547287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111373234.7A CN114547287B (zh) 2021-11-18 2021-11-18 一种生成式文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111373234.7A CN114547287B (zh) 2021-11-18 2021-11-18 一种生成式文本摘要方法

Publications (2)

Publication Number Publication Date
CN114547287A true CN114547287A (zh) 2022-05-27
CN114547287B CN114547287B (zh) 2023-04-07

Family

ID=81668710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111373234.7A Active CN114547287B (zh) 2021-11-18 2021-11-18 一种生成式文本摘要方法

Country Status (1)

Country Link
CN (1) CN114547287B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018135723A1 (ko) * 2017-01-17 2018-07-26 경북대학교 산학협력단 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN110209801A (zh) * 2019-05-15 2019-09-06 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
US20200279017A1 (en) * 2019-02-28 2020-09-03 Qualtrics, Llc Intelligently summarizing and presenting textual responses with machine learning
CN111782810A (zh) * 2020-06-30 2020-10-16 湖南大学 一种基于主题增强的文本摘要生成方法
JP2021033995A (ja) * 2019-08-16 2021-03-01 株式会社Nttドコモ テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体
CN113127631A (zh) * 2021-04-23 2021-07-16 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN113254610A (zh) * 2021-05-14 2021-08-13 廖伟智 面向专利咨询的多轮对话生成方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018135723A1 (ko) * 2017-01-17 2018-07-26 경북대학교 산학협력단 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
US20200279017A1 (en) * 2019-02-28 2020-09-03 Qualtrics, Llc Intelligently summarizing and presenting textual responses with machine learning
CN110209801A (zh) * 2019-05-15 2019-09-06 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
JP2021033995A (ja) * 2019-08-16 2021-03-01 株式会社Nttドコモ テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN111782810A (zh) * 2020-06-30 2020-10-16 湖南大学 一种基于主题增强的文本摘要生成方法
CN113127631A (zh) * 2021-04-23 2021-07-16 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN113254610A (zh) * 2021-05-14 2021-08-13 廖伟智 面向专利咨询的多轮对话生成方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HEI-CHIA WANG等: "Automatic paper writing based on a RNN and the TextRank algorithm", 《APPLIED SOFT COMPUTING》 *
ZHAO HUAN等: "Variational neural decoder for abstractive text summarization", 《COMPUTER SCIENCE AND INFORMATION SYSTEMS》 *
何凯霖等: "基于深度学习的自动文摘句排序方法", 《计算机工程与设计》 *
侯珍珍等: "基于全局和局部注意力交互机制的语义理解模型", 《桂林电子科技大学学报》 *
张亚飞等: "基于词性软模板注意力机制的短文本自动摘要方法", 《模式识别与人工智能》 *
李晨斌等: "基于改进Encoder-Decoder模型的新闻摘要生成方法", 《计算机应用》 *

Also Published As

Publication number Publication date
CN114547287B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109783657B (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及***
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
Faruqui et al. Morphological inflection generation using character sequence to sequence learning
CN108446271A (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN111858944A (zh) 一种基于注意力机制的实体方面级情感分析方法
CN110032638B (zh) 一种基于编码器-解码器的生成式摘要提取方法
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN109213997B (zh) 一种基于双向长短时记忆网络模型的中文分词方法
WO2023134083A1 (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN114881042B (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
Habib et al. An exploratory approach to find a novel metric based optimum language model for automatic bangla word prediction
CN110222338A (zh) 一种机构名实体识别方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Hifny Hybrid LSTM/MaxEnt networks for Arabic syntactic diacritics restoration
CN109255120A (zh) 一种老挝语分词方法
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN113961706A (zh) 一种基于神经网络自注意力机制的精确文本表示方法
CN112445887B (zh) 基于检索的机器阅读理解***的实现方法及装置
ELAffendi et al. A simple Galois Power-of-Two real time embedding scheme for performing Arabic morphology deep learning tasks
WO2019163752A1 (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
CN114547287B (zh) 一种生成式文本摘要方法
Jamtsho et al. Dzongkha word segmentation using deep learning
CN113743113A (zh) 基于TextRank和深度神经网络的情感摘要抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant