CN111241816B - 一种新闻标题自动生成方法 - Google Patents
一种新闻标题自动生成方法 Download PDFInfo
- Publication number
- CN111241816B CN111241816B CN202010073302.7A CN202010073302A CN111241816B CN 111241816 B CN111241816 B CN 111241816B CN 202010073302 A CN202010073302 A CN 202010073302A CN 111241816 B CN111241816 B CN 111241816B
- Authority
- CN
- China
- Prior art keywords
- news
- representing
- sequence
- data
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000011156 evaluation Methods 0.000 claims abstract description 15
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明是一种新闻标题自动生成方法,利用从新闻网站抽取的新闻数据,使用深度学习框架和融合训练方法生成高质量的新闻标题。具体包括以下步骤:(1)获取新闻文本数据,对新闻文本数据处理并划分数据集;(2)对新闻文本数据进行预处理,生成词向量词典;(3)构建编‑解码网络,其中编码器网络进行编码,解码网络对编码进行解码;(4)利用融合方法对编‑解码网络进行训练,把待分析新闻数据输入训练完成的编‑解码网络生成新闻标题。本发明方法对新闻文本数据的理解更充分,可有效提高新闻文本标题的评价得分,具有广泛的应用场景。
Description
技术领域
本发明属于新闻文本处理的技术领域,具体地说,本发明涉及一种新闻标题自动生成方法。
背景技术
当今世界是互联网大数据时代,海量的信息充斥互联网,互联网用户从互联网上获取信息,一般通过主动使用搜索引擎搜索信息、或者被动接受app推送的新闻信息,而这些一般都是通过新闻标题的形式来描述信息内容。因此通过新闻标题这种方式,对新闻标题的关键性、精准性、简短性等提出了高要求和高标准。然而有些人为了吸引眼球和热度,弄虚作假胡夸海口制造虚假标题;还有些人制作信息不严谨,存在标题和新闻内容严重不符合。这些问题的存在导致读者常常从标题打开文本获取信息时,读者花费了大量时间和精力却得不到有价值的、所需要的信息。让用户不仅无法快速获得信息,甚至还造成了大量的信息冗余,导致信息获取效率的大大降低。
目前主要的新闻标题方法主要是新闻标题抽取式方法和生成式方法这两种。新闻标题抽取式一般采用基于统计或者规则的方法,从原新闻中抽取句子出来生成标题,这种方法获得的标题流畅度良好,但是概括性不能让人满意。新闻标题生成式方法,在理解原新闻基础上,按自己的话语生成新的标题,这种方法获得的新闻标题可以概况原文内容,然而流畅性还有问题。
针对新闻标题的存在的这些问题,研究一种新的方法,来获得更流畅,更概括的新闻标题成为了眼下亟需解决的一个技术问题。
发明内容
本发明针对上述现存的问题,提出了一种基于seq2seq+attention框架加融合方法训练的新闻标题自动生成。本发明的所述的模型基于最近几年提出的深度学习encoder-decoder(编码器解码器)框架,运用融合方法对模型进行改进,使其能够获得更多的语义信息,和生成更高质量的新闻标题。
为实现上述发明,本发明的流程如下所示。
(1):获取新闻文本数据,对新闻文本数据处理并划分数据集;
(2):对新闻文本数据进行预处理,生成词向量词典;
(3):构建编-解码网络,其中编码器网络使用双向GRU递归神经网络对预处理后的新闻文本数据进行编码;解码网络利用GRU网络加注意力机制对编码进行解码;
(4):利用融合方法对编-解码网络进行训练,把待分析新闻数据输入训练完成的编-解码网络,根据词汇表和此时的单词概率分布生成新闻标题。
优选的,所述步骤S1包括:
(1.1):从新浪新闻网站爬取新闻数据;
(1.2):只保留新闻文本数据;
(1.3):选取新闻文本数据第一段和第二段作为article,如果内容超过预选取的长度S,则进行截断处理,如果长度不够S,那么就使用0进行填充。
(1.4):选取新闻网页标签中的摘要部分作为title,如果该新闻文本数据没有摘要,则将使用从该新闻文本数据article中抽取第一条作为title。
(1.5):对新闻数据进行划分数据集操作,按照9:1的比例分别对title和article对应划分为训练集和测试集。
优选的,所述步骤S2包括:
对数据集使用分词工具进行分词,使用word2vec词向量工具对新闻文本数据进行词向量化并生成词向量词表。
优选的,所述步骤S3编码器编码包括如下:
(3.1)编码器模型公式如下所示:
rt=σ(wr[ht-1,xt]+br)
zt=σ(wz[ht-1,xt]+bz)
其中zt表示更新门、rt表示重置门、ht表示输出门、表示候选状态,ht-1表示前一时间步t-1的隐藏状态,xt表示经过步骤2处理后的文本数据,σ表示激活函数sigmoid,tanh表示激活函数,/>表示权重参数矩阵,/>表示偏差系数。
(3.2)编码器采用双向结构编码,句子经过步骤2转换成词向量的形式输入编码器,由前向后的GRU网络顺序读句子中的每一个词,得到前向隐藏状态序列从后向前的GRU网络倒序读句中的每一个词,得后向隐藏状态序列/>把前向网络和后向网络各自的最后一个隐藏状态连接,作为编码器最终编码输出表示S,把编码器得到的编码表示S传递给解码器进行解码,其中S表示如下:
其中n表示句子长度,表示向前序列最后的一个隐藏状态,/>表示后向序列最后的一个隐藏状态,/>表示连接操作。
(3.3)将前向和后向结构的隐藏状态向量相连接,连接得到的向量作为双向编码器的隐藏状态序列H=(h1,h2,···hn),双向编码器隐藏状态序列(h1,h2,···hn)在解码器中计算上下文向量ct的时候使用,具体计算如下:
优选的,所述步骤S3进一步包括解码器解码过程如下:
(3.4):解码器接受编码器最终状态输出表示S,开始进行解码;
(3.5):单向GRU解码器根据当前时间步t的输入yt、解码器前一时间步t-1的隐藏状态mt-1和上下文向量ct生成当前时间步t的隐藏状态mt,计算公式如下:
mt=g(mt-1+yt+ct)
其中(t=0时yt=S,t>0时yt=dt-1),g表示隐藏层的一系列变换,计算如公式(1)-(4);
(3.6):上下文向量ct计算公式如下所示:
et,j=vT·tanh(w1mt+w2hj)
其中hj表示双向编码器的隐藏状态序列H的第j个隐藏状态,mt表示步骤(4.2)得到的解码器的第t个隐藏状态,et,j表示了mt和hj的对齐相似度;at,j表示对齐相似度进行归一化后获得的hj的权重;(v,w1,w2表示参数矩阵)。
(3.7):根据上下文向量ct及解码器隐藏状态mt生成向量dt;
其中σ表示激活函数sigmoid,表示参数/>矩阵,/>表示偏差系数;
(3.8)将步骤(4.4)的向量dt依次连接全连接层和softmax层,得到输出向量dt在词汇表向量中的概率分布,softmax公式为:
p(pt)=softmax(dt*wk+bk)
其中wk是全连接层的权重矩阵,bk是偏差系数,softmax是softmax()函数,pt表示分布式词向量,p(pt)表示概率分布;
优选的,所述步骤(4)网络训练过程包括如下:
(4.1)在训练RNN做序列生成任务时,最常用的方法为定向比照,在解码的每个时间步以最大化似然估计作为目标进行网络的训练。最大化似然估计等价于最小化下面的损失函数:
其中n表示序列长度,表示正确生成标题中第t个单词,xml表示新闻文本训练数据标题标签。
(4.2)设置两种规则,ys是根据分布采样得到的输出序列,yg是根据分布/>贪婪得到的输出序列,再根据ys和yg计算r(ys)和r(yg),得到奖励期望损失函数Lrl:
其中xs表示当前输出序列中上一步的输出,表示贪婪搜索生成标题序列过程中,第t步选择p(pt)中概率最大一个,即为输出序列yg中的第t个元素,/>表示集束搜索生成标题序列过程中,第t步选择p(pt)中概率最大的前k个作为第t步的元素,优选k≤5,直到t=n时选每步概率和最大的序列即为最终输出序列ys,r(*)表示得到的预测标题序列的评价得分,评价得分是指预测标题与title标题使用评价指标ROUGE-1得到的评价分数;
(4.3)合并极大似然Lml和最小化负奖励期望Lrl,得到融合学习方法的最终损失计算函数Llos,γ∈[0,1]是一个比例参数。
Llos=(1-γ)Lml+γLrl
(4.4)使用优化器来对Llos进行迭代优化训练,网络参数循环更新,直到迭代达到目标次数,训练结束,保存训练模型。
优选的,所述步骤(4)进一步包括利用训练好的模型参数生成新闻标题:先构建测试模型,方法如步骤(3.1)-(3.8),再提取训练模型保存的参数给测试模型;然后把待分析新闻数据输入测试模型,根据词汇表和此时的单词概率分布生成新闻标题。
与现有的技术方法相比较,本发明的优点是:
1、利用GRU来进行编码解码,充分利用了递归神经网络长期记忆的同时,可以减少参数,提高运算速度。
2、模型中使用了基于全部权值的注意力机制,考虑到长句子序列中每个词的重要性影响大小不同,将句子的权重信息充分考虑进去,从而在长句子生成新闻标题时充分考虑每一个词的关注度,使得生成的标题对原文的理解更充分。
3、最后使用融合训练方法来进行模型训练,获得生成的标题与目标title的一种动态交互,通过这种交互反馈提高模型训练效果。
本发明基于深度学习模型,加入融合训练方法进行训练,所述方法合理可靠,可以有效的提高新闻标题生成的准确性、流畅性和概括性,具有良好的应用前景。
附图说明
图1本发明实施例的一种新闻标题的自动生成方法的流程图。
图2本发明实施例的新闻文本数据生成词典的流程图
图3本发明实施例的融合方法训练的流程图。
图4本发明实施例的k=3集束搜索采样流程图。
具体实施方式
以下结合具体实施对以上方案做进一步说明。本实施例是用于说明本发明的内容,而不是用来限制本发明的内容。本实施例子中的各个条件可以根据具体实际情况进行其他各个方向的调整。本实施例提供一种新闻标题自动生成方法,通过输入新闻生成标题。完整的流程如图1所示,所设计的融合方法训练流程如图3所示。首先获取新闻数据,进行数据集划分;然后预处理输入文本,使用分词工具对新闻文本数据分词、去除停用词;接着根据word2vec算法,生成一个相应的词向量词典;再接着使用双向编码器对输入序列的词向量编码;紧接着使用解码器GRU加注意力机制进行循环解码;最后使用融合方法训练模型,生成最终新闻标题。以一个新闻数据集为例,本发明的具体实施步骤如下:
步骤(1)获取新闻文本数据,对新闻文本数据处理并划分数据集。步骤(1.1)可以使用现有的一些新闻数据语料,如CNN/Daily-mail、搜狗新闻语料等,也可以选择自行从新闻网站上面爬取新闻数据。这里选择使用爬虫软件从新浪网站上爬取中文新闻数据,得到新闻文本数据。同时新闻数据中也有一些缺陷存在,例如有的新闻数据过于简短,只有一句话,有的有图片没有文本,对于这些新闻数据,我们删除它。另外有些新闻文本数据长篇大论,选取这种新闻文本数据第一段和第二段作为article。
步骤(1.2)选择网页标签类别为title的文本内容作为新闻实际标题。如果该新闻网页标签类别title为空,则将从该新闻数据的article中选取第一条作为该新闻的实际标题。
步骤(1.3)最终得到200000条新闻article和新闻title组合,把它们按照9:1的比例划分为train集和test集。
步骤(2)对新闻文本数据进行预处理,生成词向量词典。
步骤(2.1)将全部新闻文本数据,使用jieba分词工具加载中文停用词表,去除停用词进行分词。对于article句子使用‘,’‘。’‘!’‘?’来进行分句,每一句长度定为22词,如果超过则进行截断处理,如果不够则使用0来进行填充。每一个新闻article不超过10句,新闻title不超过1句。
步骤(2.2)使用word2vec工具,得到向量词典。参数设置如下表所示:
Size | Window | sg | hs | iter |
300 | 5 | 1 | 1 | 10 |
步骤(2.3)词表长度设置为50000,词表维度为300,在词表中添加“BEGIN”“END”“UNK”“PAD”这几个辅助词。在训练和测试阶段都将使用这个词表。
步骤(3)构建编-解码网络,其中编码器网络使用双向GRU递归神经网络对预处理后的新闻文本数据进行编码;解码网络利用GRU网络加注意力机制对编码进行解码;
步骤(3.1)使用步骤3所述的编码器模型。
步骤(3.2)利用步骤2得到的词向量词典来代替句子序列中的词,然后把他们按照句子中词的顺序连接起来成为句子向量序列。编码器采用双向结构编码。前向编码器从句子开头依次输入一个词向量,前向编码器GRU根据输入的词向量、上一时间步的隐藏状态生成当前时间步的隐藏状态从而得到一个的隐藏状态序列后向的编码器GRU从句子最后一个词开始反向依次读入句子中的每个词向量,每一步产生向后的的隐藏状态从而得到一个隐藏状态序列/>依次把前向编码器的隐藏状态与后向编码器的隐藏状态连接得到双向编码器GRU的双向联合的状态序列。
其中公式(1-1)表示前向编码器的前向计算过程;公式(1-2)表示后向编码器的后向计算过程;公式(1-4)表示前向和后向依次连接的得到双向编码器的各个隐藏状态
步骤(3.3)前向编码器GRU最后一个隐藏状态和后向编码器GRU的最后一个隐藏状态连接起来得到双向编码器GRU最终的输出状态ht。计算公式如下所示:
其中公式(1-3)表示前向编码器最后和后向编码器最后一个连接得到编码器最终输出状态,这个状态给解码器;
步骤(3.4)(3.4):解码器接受编码器最终状态输出表示S,开始进行解码;
步骤(3.5)解码器是一个GRU神经网络,解码器在训练、测试、验证阶段接受上一时刻的title输入和上一时刻的隐藏状态生成这一时刻的隐藏状态。解码层第一个数据接受编码器的输出句子向量S,然后解码生成第一个隐藏状态。公式如下:
mt=g(mt-1+yt+ct) (2-1)
其中公式(2-1)表示训练、测试、验证阶段解码器解码生成隐藏状态。
步骤(3.6)注意力采用Bahdanau全注意力方式进行计算。在解码器解码阶段,每一时刻的注意力权重由前一时间步的隐藏状态和编码器各个时间步隐藏状态点乘并做归一化变换去求得ct。
步骤(3.7)再将隐藏状态计算输出状态dt,
其中公式(2-2)表示解码器输出。
步骤(3.8)解码器输出向量dt输入全连接层再接softmax层,得到输出向量dt在词汇表向量中的概率分布p(pt)。
步骤(4)融合方法进行训练如下。
步骤(4.1)极大似然的损失函数:
其中n表示序列长度,表示正确生成标题中第t个单词,xml表示新闻文本训练数据标题标签。
步骤(4.2)负奖励期望损失函数Lrl。
其中xs表示当前输出序列中上一步的输出,表示贪婪搜索生成标题序列过程中,第t步选择p(pt)中概率最大一个,即为输出序列yg中的第t个元素,/>表示集束搜索生成标题序列过程中,第t步选择p(pt)中概率最大的前k个作为第t步的元素,直到t=n时选每步概率和最大的序列即为最终输出序列ys,r(ys)、r(yg)表示得到的预测标题序列的评价得分,评价得分是指预测标题与title标题使用评价指标ROUGE-1得到的评价分数;
步骤(4.3)合并极大似然Lml和最小化负奖励期望Lrl,得到融合学习方法的最终损失计算函数Llos,γ∈[0,1]是一个比例参数。
Llos=(1-γ)Lml+γLrl
步骤(4.4)优化使用GradientDescentOptimizer优化器,学习率采用0.0005,直到迭代次数结束,模型训练完成,保村训练模型。
步骤(4)进一步包括生成新闻标题:
构建测试模型,方法如步骤(3.1)-(3.8),再提取训练模型保存的参数给测试模型;然后把待分析新闻数据输入测试模型,根据词汇表和此时的单词概率分布生成新闻标题。
为了说明本发明所述方法的优势,在具体实施过程中,我们在多种不同方法上进行对比试验,对比包括Seq2seq+attention+point、Text-rank、Seq2seq、Seq2seq+attention、Seq2seq+attention+my。
其中Seq2seq+attention+my代表本发明所述的方法,Text-rank代表基于机器学习的抽取式新闻标题生成方法,该方法在目前新闻标题中最为常用。另外,实施过程中还选择了广泛使用的基于深度学习端到端框架的Seq2seq+attention方法进行对比实验。
使用DUC--2004数据集,利用ROUGE-1、ROUGE-2、ROUGE-L这些指标数,分析译文和参考译文共同出现的程度。这里面ROUGE-1、ROUGE-2分别表示一元组、二元组,ROUGE-L表示最长子序列共现的程度。
表1、我们的模型和其他生成方法rouge得分结果
Rouge-1 | Rouge-2 | Rouge-L | |
Text-rank | 24.58 | 10.92 | 22.14 |
Seq2seq | 28.98 | 12.01 | 28.76 |
Seq2seq+attention | 31.12 | 12.23 | 30.52 |
Seq2seq+attention+point | 35.79 | 14.89 | 32.18 |
Seq2seq+attention+my | 38.78 | 17.71 | 35.61 |
根据表1所示,本发明的Seq2seq+attention+my方法,在rouge评价指标中几种评估分数相比之前的几种方法各个方面都有了一定的提升,证明本发明方法真实有效。
上述实例只是为了说明本发明的发明特点及发明构思,其目的在于让了解此技术的人员能够获悉本发明的发明内容,但并不能因此而限制本发明的保护范围。凡根据本发明方法所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (1)
1.一种新闻标题自动生成方法,其特征在于,包括以下步骤:
(1):获取新闻文本数据,对新闻文本数据处理并划分数据集;
(2):对新闻文本数据进行预处理,生成词向量词典;
(3):构建编-解码网络,其中编码器网络使用双向GRU递归神经网络对预处理后的新闻文本数据进行编码;解码网络利用GRU网络加注意力机制对编码进行解码;
(4):利用融合方法对编-解码网络进行训练,把待分析新闻数据输入训练完成的编-解码网络,根据词汇表和此时的单词概率分布生成新闻标题;
所述步骤(1)包括:
(1.1):从新闻网站上爬取新闻数据;
(1.2):只保留新闻文本数据;
(1.3):选取新闻文本数据第一段和第二段作为article,如果内容超过预选取的长度S,则进行截断处理,如果长度不够S,那么就进行0填充;
(1.4):选取新闻网页标签中的摘要部分作为title,如果该新闻网页标签中没有摘要,则将从该新闻文本数据的article中抽取第一条作为title;
(1.5):对新闻数据进行划分数据集操作,按照9:1的比例分别对title和article对应划分为训练集和测试集;
所述步骤(2)进一步包括:
对数据集使用分词工具进行分词,去除停用词,使用word2vec工具对数据进行词向量化生成词表;
所述步骤(3)使用双向GRU递归神经网络对预处理后的新闻文本数据进行编码:
(3.1)编码器模型如下所示:
rt=σ(wr[ht-1,xt]+br) (1)
zt=σ(wz[ht-1,xt]+bz) (2)
其中zt表示更新门、rt表示重置门、ht表示输出门、表示候选状态,ht-1表示前一时间步t-1的隐藏状态,xt表示经过步骤2处理后的文本数据,σ表示激活函数sigmoid,tanh表示激活函数,wr、wz、/>均表示权重参数矩阵,br、bz、/>均表示偏差系数;
(3.2)编码器采用双向结构编码,句子经过步骤2转换成词向量的形式输入编码器,由前向后的GRU网络顺序读句子中的每一个词,得到前向隐藏状态序列从后向前的GRU网络倒序读句中的每一个词,得后向隐藏状态序列/>把前向网络和后向网络各自的最后一个隐藏状态连接,作为编码器最终编码输出表示S,把编码器得到的编码表示S传递给解码器进行解码,其中S表示如下:
其中n表示句子长度,表示向前序列最后的一个隐藏状态,/>表示后向序列最后的一个隐藏状态,/>表示连接操作;
(3.3)将前向和后向结构的隐藏状态向量相连接,连接得到的向量作为双向编码器的隐藏状态序列H=(h1,h2,…,hn),双向编码器隐藏状态序列(h1,h2,…,hn)在解码器中计算上下文向量ct的时候使用,具体计算如下:
所述步骤(3)进一步包括解码器解码过程如下:
(3.4):解码器接受编码器最终状态输出表示S,开始进行解码;
(3.5):单向GRU解码器根据当前时间步t的输入yt、解码器前一时间步t-1的隐藏状态mt-1和上下文向量ct生成当前时间步t的隐藏状态mt,计算公式如下:
mt=g(mt-1+yt+ct)
其中,t=0时yt=S,t>0时yt=dt-1,g表示隐藏层的一系列变换,计算如公式(1)-(4);
(3.6)上下文向量ct计算公式如下所示:
et,j=vT·tanh(w1mt+w2hj)
其中hj表示双向编码器的隐藏状态序列H的第j个隐藏状态,mt表示步骤(3.5)得到的解码器的第t个隐藏状态,et,j表示了mt和hj的对齐相似度;at,j表示对齐相似度进行归一化后获得的hj的权重;v,w1,w2表示参数矩阵;
(3.7):根据上下文向量ct及解码器隐藏状态mt生成输出向量dt;
其中σ表示激活函数sigmoid,表示参数矩阵,/>表示偏差系数;
(3.8):向量dt依次连接全连接层和softmax层,得到输出向量dt在词汇表向量中的概率分布,softmax公式为:
p(pt)=softmax(dt*wk+bk)
其中wk是全连接层的权重矩阵,bk是偏差系数,softmax是softmax()函数,pt表示分布式词向量,p(pt)表示概率分布;
所述步骤(4)的训练过程如下:
(4.1)极大似然的损失函数:
其中n表示序列长度,表示正确生成标题中第t个单词,xml表示新闻文本训练数据标题标签;
(4.2)设置两种规则,ys是根据分布采样得到的输出序列,yg是根据分布/>贪婪得到的输出序列,再根据ys和yg计算r(ys)和r(yg),得到奖励期望的损失函数Lrl:
其中xs表示当前输出序列中上一步的输出,表示贪婪搜索生成标题序列过程中,第t步选择p(pt)中概率最大一个,即为输出序列yg中的第t个元素,/>表示集束搜索生成标题序列过程中,第t步选择p(pt)中概率最大的前k个作为第t步的元素,直到t=n时选每步概率和最大的序列即为最终输出序列ys,r(*)表示得到的预测标题序列的评价得分,评价得分是指预测标题与title标题使用评价指标ROUGE-1得到的评价分数;
(4.3)合并极大似然Lml和最小化负奖励期望Lrl,得到融合学习方法的损失函数Llos,γ∈[0,1]是一个比例参数;
Llos=(1-γ)Lml+γLrl
(4.4)使用优化器来对Llos进行迭代优化训练,网络参数循环更新,直到迭代达到目标次数,训练结束,保存训练模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010073302.7A CN111241816B (zh) | 2020-01-22 | 2020-01-22 | 一种新闻标题自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010073302.7A CN111241816B (zh) | 2020-01-22 | 2020-01-22 | 一种新闻标题自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241816A CN111241816A (zh) | 2020-06-05 |
CN111241816B true CN111241816B (zh) | 2023-10-27 |
Family
ID=70866947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010073302.7A Active CN111241816B (zh) | 2020-01-22 | 2020-01-22 | 一种新闻标题自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241816B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990385A (zh) * | 2019-11-26 | 2020-04-10 | 昆明信息港传媒有限责任公司 | 一套基于Sequence2Sequence的自动生成新闻标题的软件 |
CN111898337B (zh) * | 2020-07-13 | 2024-01-26 | 武汉大学 | 一种基于深度学习的单句摘要缺陷报告标题自动生成方法 |
CN111651970B (zh) * | 2020-07-14 | 2022-07-22 | 华侨大学 | 基于表格型数据生成文本的方法、装置、设备及存储介质 |
CN113392639B (zh) * | 2020-09-30 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 基于人工智能的标题生成方法、装置及服务器 |
CN112417092B (zh) * | 2020-11-11 | 2022-10-28 | 南京邮电大学 | 基于深度学习的智能化文本自动生成***及其实现方法 |
CN113408780B (zh) * | 2021-04-29 | 2023-06-16 | 西安交通大学 | 汽车未来保值率预测方法、***、设备及可读存储介质 |
CN113449079B (zh) * | 2021-06-25 | 2022-10-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、电子设备及存储介质 |
CN115795039B (zh) * | 2023-02-08 | 2023-06-02 | 成都索贝数码科技股份有限公司 | 基于深度学习的风格标题生成方法、设备及介质 |
CN116483990A (zh) * | 2023-04-24 | 2023-07-25 | 重庆邮电大学 | 一种基于大数据的互联网新闻内容自动生成方法 |
CN116186420B (zh) * | 2023-05-04 | 2023-06-27 | 南开大学 | 一种基于用户偏好的个性化新闻标题生成方法 |
CN118095210B (zh) * | 2024-04-28 | 2024-06-25 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、产品、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109800434A (zh) * | 2019-01-25 | 2019-05-24 | 陕西师范大学 | 基于眼动注意力的抽象文本标题生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10733380B2 (en) * | 2017-05-15 | 2020-08-04 | Thomson Reuters Enterprise Center Gmbh | Neural paraphrase generator |
-
2020
- 2020-01-22 CN CN202010073302.7A patent/CN111241816B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109800434A (zh) * | 2019-01-25 | 2019-05-24 | 陕西师范大学 | 基于眼动注意力的抽象文本标题生成方法 |
Non-Patent Citations (2)
Title |
---|
李国法 ; 陈耀昱 ; 吕辰 ; 陶达 ; 曹东璞 ; 成波 ; .智能汽车决策中的驾驶行为语义解析关键技术.汽车安全与节能学报.2019,(第04期),全文. * |
蒋敏 ; .基于深度学习的标题生成方法综述.信息与电脑(理论版).2018,(第18期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111241816A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241816B (zh) | 一种新闻标题自动生成方法 | |
CN111897949B (zh) | 一种基于Transformer的引导性文本摘要生成方法 | |
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与*** | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN108108449A (zh) | 一种面向医疗领域的基于多源异构数据问答***及该***的实现方法 | |
CN109977413A (zh) | 一种基于改进cnn-lda的情感分析方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN111723547A (zh) | 一种基于预训练语言模型的文本自动摘要方法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN109992775B (zh) | 一种基于高级语义的文本摘要生成方法 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN111125367B (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN111444704B (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN111143507B (zh) | 一种基于复合式问题的阅读理解方法 | |
CN111061861A (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN110222338B (zh) | 一种机构名实体识别方法 | |
CN112464676A (zh) | 机器翻译结果打分方法和装置 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN114564953A (zh) | 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型 | |
CN108763198B (zh) | 一种生成式的学术论文中相关工作的自动产生方法 | |
CN112836525A (zh) | 一种基于人机交互机器翻译***及其自动优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |