CN109800434B - 基于眼动注意力的抽象文本标题生成方法 - Google Patents
基于眼动注意力的抽象文本标题生成方法 Download PDFInfo
- Publication number
- CN109800434B CN109800434B CN201910078105.1A CN201910078105A CN109800434B CN 109800434 B CN109800434 B CN 109800434B CN 201910078105 A CN201910078105 A CN 201910078105A CN 109800434 B CN109800434 B CN 109800434B
- Authority
- CN
- China
- Prior art keywords
- word
- eye movement
- attention
- text
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000004424 eye movement Effects 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims abstract description 41
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000000611 regression analysis Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 18
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012669 compression test Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
一种基于眼动注意力的文本标题生成方法,包括:S100:将源文本的文字序列进行词嵌入操作后输入到双向编码器;S200:双向编码器从源文本的嵌入表示中提取上下文语义向量;S300:计算单词和句子的眼动注意力权重;S400:将上下文语义向量作为解码器第一层的初始状态,先计算解码器和双向编码器隐层状态匹配度;再利用所得到的匹配度,进一步计算单词的注意力上下文权重、眼动注意力上下文权重向量;S500:把所述眼动注意力上下文权重向量、解码器第一层在当前时刻的隐藏状态和解码器第二层在上一时刻的隐藏状态输入到解码器第二层中生成相应的标题。该方法提高了生成的标题的准确性和有效性,使得生成的标题更接近人工标题。
Description
技术领域
本公开属于自然语言处理以及文本自动摘要领域,特别涉及一种基于眼动注意力的抽象文本标题生成方法。
背景技术
近年来,随着在线平台的普及,用户每天都会浏览到大量的文本信息。然而,如果文本过于冗长,用户就会感觉阅读变得乏味。鉴于文本标题可以给用户提供文本最基本的信息,同时可以节省用户浏览文本的时间。因此,人们希望通过生成高质量的标题来挖掘文本的重点信息,从而解决信息过载问题。不幸的是,人工生成文本标题需要耗费相当多的人力、时间等资源。不仅如此,“标题党”的横行甚至让用户不能通过标题了解到文本的真实信息。因此,如何自动生成高质量的标题是一项很有意义的研究。
已有的标题生成方法按照生成标题的方式可以分成抽取式方法和生成式方法。顾名思义,抽取式方法是将源文本中最能说明主要内容的句子或单词原封不动的选取出来,再将选取出来的句子连接在一起当作标题。因为利用抽取式方法获得的标题句子是源文本中现有的句子,所以可以避免产生语法问题和逻辑问题。但抽取式方法过于依赖语言学和人工标注,并且通常需要抽取多个句子才能得到源文本完整的信息,不能保持良好的压缩率,从而导致标题质量不高。不仅如此,抽取式方法无法保证标题的连贯性、一致性。比如源句子中包含了代词,简单的抽取、拼接多个句子后根本无法获知代词指的是什么。
相比之下,生成式方法不直接将源文本中的句子作为标题。而是对源文本的语法,语义等信息进行融合,在理解源文本的基础上对源文本的内容进行取舍,裁剪和拼接,最后生成标题。此外,生成的标题中还会包含源文本中没有出现过的单词和短语。因此,生成式方法更符合人工生成标题的过程,但是却不能很好地抓住文本重点信息。同时,上述方法大多利用语法、语境等语言学知识抓住文本的重要信息,缺乏考虑用户的注意力在文本上的停留时间,忽略了譬如眼动数据的人类基础行为数据,导致生成的标题表达能力受限。
发明内容
为了解决上述问题,本公开提供了一种基于眼动注意力的文本标题生成方法,所述方法包括如下步骤:
S100:将源文本的文字序列进行词嵌入操作后把它输入到双向编码器;
S200:所述双向编码器从源文本的嵌入表示中提取上下文语义向量;
S300:根据单词阅读时间计算单词和句子的眼动注意力权重;
S400:将步骤S200得到的上下文语义向量作为解码器第一层的初始状态,先计算解码器的第一层每个隐层状态与双向编码器所有的隐层状态匹配度;再利用所得到的匹配度,进一步计算单词的注意力上下文权重;进而根据所述注意力上下文权重、所述单词和句子的眼动注意力权重和双向编码器的隐藏状态计算得到眼动注意力上下文权重向量;
S500:把所述眼动注意力上下文权重向量、解码器第一层在当前时刻的隐藏状态和解码器第二层在上一时刻的隐藏状态输入到解码器第二层中生成相应的标题。
上述技术方案为了减少编码过程中的信息损失,增加语义向量包含信息的完整性,构建双向编码器来结合源文本的上下文内容,生成上下文语义向量。进而,考虑到眼球跟踪信息的行为数据可以有助于生成高质量的标题,解码器采用了基于眼动注意力机制构建,根据注意力权重捕捉源文本重点信息。
附图说明
图1是本公开一个实施例中所提供的一种基于眼动注意力的文本标题生成方法的流程图;
图2是本公开一个实施例中所提供的一种基于眼动注意力的文本标题生成方法的框架图;
图3是本公开一个实施例中所提供的一种注意力解码器的工作流程;
图4是本公开一个实施例中本方法和其他模型方法在Gigaword测试集上生成的标题得到的ROUGE分数;
图5是本公开一个实施例中本方法和其他模型方法在DUC-2003测试集上得到的ROUGE分数;
图6是本公开一个实施例中本方法和其他模型方法在DUC-2004测试集上得到的ROUGE分数;
图7是本公开一个实施例中本方法和其他模型方法在MSR测试集上得到的ROUGE分数;
图8(a)-图8(c)是本公开一个实施例中本方法和其他模型方法在不同句子长度上的ROUGE分数。
具体实施方式
参见图1,在一个实施例中,其公开了一种基于眼动注意力的文本标题生成方法,所述方法包括如下步骤:
S100:将源文本的文字序列进行词嵌入操作后把它输入到双向编码器;
S200:所述双向编码器从源文本的嵌入表示中提取上下文语义向量;
S300:根据单词阅读时间计算单词和句子的眼动注意力权重;
S400:将步骤S200得到的上下文语义向量作为解码器第一层的初始状态,先计算解码器的第一层每个隐层状态与双向编码器所有的隐层状态匹配度;再利用所得到的匹配度,进一步计算单词的注意力上下文权重;进而根据所述注意力上下文权重、所述单词和句子的眼动注意力权重和双向编码器的隐藏状态计算得到眼动注意力上下文权重向量;
S500:把所述眼动注意力上下文权重向量、解码器第一层在当前时刻的隐藏状态和解码器第二层在上一时刻的隐藏状态输入到解码器第二层中生成相应的标题。
就该实施例而言,首先,为了寻找注意力停留时间和文本单词重要性的关联,建立了眼动注意力机制。眼动注意力,是指根据人在阅读文本时产生的眼动数据信息,例如,在文本中某个单词上的停留时间,来判断单词重要程度的一种注意力机制。
基于眼动数据建立文本单词、句子和阅读时间的映射关系,根据不同单词、句子的阅读时间计算单词和句子的注意力权重,权重较高的单词、句子得到更多的关注。其次,为了生成高质量的文本标题,基于双向编码器生成上下文语义向量,然后考虑用户阅读文本单词、句子的注意力停留时间,把眼动注意力上下文权重向量和上下文语义向量结合融入解码器生成标题。
在另一个实施例中,步骤S100中的词嵌入方式为:使用在训练过程中自动学习的word2vec词嵌入数据和使用预训练的Glove词嵌入数据。
在另一个实施例中,所述双向编码器采用双向门控循环单元BiGRU。
通常,传统的循环神经网络神经元在处理文本序列时都是按从左到右的顺序单向处理,即只根据上一时间步的隐藏状态和当前的输入生成当前时间步的隐藏状态。但是结合文本上下文理解源文本能提高生成标题的质量。因此,如图2所示应用双向门控循环单元(BiGRU)构建双向神经网络编码器,基于源文本的上下文来得到编码器的隐藏状态。
在另一个实施例中,步骤S200进一步包括:
S201:所述双向门控循环单元BiGRU的前向GRU从左到右读取输入的文字序列,得到前向隐藏层序列;后向GRU从右到左读取输入的文字序列,得到后向隐藏层序列;
S202:由所述前向隐藏层序列和所述后向隐藏层序列合并得到所述双向编码器的隐藏状态;
S203:所述双向编码器根据所有时间步的隐藏状态生成上下文语义向量。
就该实施例而言,前向GRU从左到右读取输入的文本序列,得到前向隐藏层序列后向GRU从右到左读取输入文本,得到后向隐藏层序列/>初始的隐藏状态/> 和/>由下式计算:
其中,xi代表在第i个时间步时的输入,和/>分别代表上一个时间步的前向和后向隐藏状态。然后,编码器的隐藏状态/>由前向隐藏层/>和后向隐藏层/>串联合并(concatenation)得到:/>
最终,编码器根据所有时间步的隐藏状态生成上下文语义向量c:
其中,m代表时间步的总数。接下来,上下文语义向量被输入到注意力解码器进行解码处理,生成最有可能是标题的单词序列。
在另一个实施例中,步骤S300进一步包括:
S301:根据眼动数据进行回归预测,分析出源文本中每个单词的阅读时间;
S302:基于单词的阅读时间计算出不同单词的眼动注意力权重;
S303:基于单词的阅读时间计算出不同句子的眼动注意力权重。
在另一个实施例中,步骤S301进一步包括:
S3001:基于深度神经网络的回归分析方法,使用眼动数据作为训练数据;
S3002:利用神经元自动学习文本的潜在特征,确定源文本中的单词和阅读时间的映射关系。
在另一个实施例中,所述的回归分析方法包括:Elman循环神经网络神经元ERNN,长短时记忆LSTM神经元和门控循环单元GRU。
假定一篇文本用d表示,由1个句子构成:d={s1,s2,...,sj,...,sl}。其中的一个句子sj由一串单词序列组成:其中k是sj的长度。sj中每个单词的预测阅读时间用tj表示:/> 的特征向量/>在预测回归方法的学习过程中,确定单词的阅读时间tk和单词的特征向量/>的映射函数g如下:其中wF是特征F的权重。
选择Elman循环神经网络神经元ERNN,长短时记忆LSTM神经元和门控循环单元GRU这三个神经元中最好的来进行单词阅读时间预测的回归分析,下文的标题生成过程则只使用GRU。
ERNN的数学表达式如下:
其中的ht代表当前时间步的隐藏状态,σ(·)是sigmoid函数,W代表权重矩阵,⊙表示哈达马积,ht-1表示上一时间步的隐藏状态,E∈RD×V是词嵌入矩阵,上标D表示词嵌入的维度,b代表偏置向量。
LSTM通过门机制来学习不同单词间的依赖关系,LSTM的原理如下式所示:
ct=ft⊙ct-1+it⊙lt (6)
ht=ot⊙θ(ct) (7)
其中的it是输入门,ft是遗忘门,ot是输出门,候选记忆单元用lt表示;θ(·)是双曲正切激活函数,当前时间步的输入和记忆单元分别用xt和ct表示。
其中,这里的W代表的是输入门,遗忘门,输出门,候选记忆单元t的权重矩阵,它是ht-1和Ext的两个权重矩阵拼接而成的。ht-1和Ext的权重矩阵是神经网络在训练过程中自动学习到的。
GRU通过引入重置门rt和更新门zt来更好地捕获输入序列的长期依赖关系。GRU的运算过程如下式所示:
kt=θ(Wk·[rt⊙ht-1,Ext]+bk) (9)
ht=ht-1⊙(1-zt)+kt⊙zt (10)
其中,ht和kt是隐藏状态和候选激活,Wk代表kt的权重矩阵。
在另一个实施例中,步骤S302中的所述单词的眼动注意力权重采用公式计算得到,其中,/>是单词/>的眼动注意力权重,/>代表/>的阅读时间,k代表句子sj的长度,1≤z≤k,/>表示句子sj的第i个单词,sj表示源文本中的第j个句子。
在另一个实施例中,步骤S302中的所述句子的眼动注意力权重采用公式计算得到,其中,/>是句子sj的眼动注意力权重,l代表句子的数量,/>代表/>的阅读时间,k代表句子sj的长度,/>表示句子sj的第i个单词,sj表示源文本中的第j个句子。
在另一个实施例中,步骤S400中的眼动注意力上下文权重向量是采用如下具体步骤获得的:
S401:采用能量函数计算解码器的第一层每个隐层状态与双向编码器所有的隐层状态匹配度,其中ei,j是对应的源文本的单词对即将生成的目标单词的影响力,v是权重向量,/>和Ve是权重矩阵,/>代表编码器第一层在第i-1个时间步时的隐藏状态,/>代表编码器在第j个时间步的隐藏状态,b是偏置向量,g和r是标量参数,θ(·)是双曲正切激活函数;
S402:利用上述能量函数得到的匹配度,进一步计算单词的注意力上下文权重;
S403:把所述注意力上下文权重、所述单词和句子的眼动注意力权重和双向编码器的隐藏状态通过加权线性组合得到眼动注意力上下文权重向量。
其中,这里的权重向量和权重矩阵都是神经网络在训练过程中自动学习的参数。
就该实施例而言,注意力上下文权重根据如下公式计算得到:
这里的是归一化指数函数。眼动注意力上下文权重向量/>通过下列公式计算得到:
这里的是单词/>的眼动注意力权重,/>表示句子so的第j个单词,so表示源文本中的第o个句子,/>是句子sj的眼动注意力权重。
注意力解码器的工作流程如图3所示,在解码器的初始状态,第一层神经网络把编码器的最后一个隐藏状态作为初始输入,把上下文语义向量c当作初始隐藏状态,生成后续的隐藏状态。解码器的第一层神经网络在第i个时间步的隐藏状态/>由下列公式计算:
其中的yi-1和分别是解码器上一时间步的输出和隐藏状态。在解码器的第二层,解码器综合考虑上一时间步的隐藏状态/>当前时间步上解码器第一层的隐藏状态/>眼动注意力上下文权重向量/>生成当前隐藏状态/>
然后,我们利用和/>构建出读出状态rt,读出状态通过归一化指数函数来得到生成目标单词yt的可能性:
在解码过程中,我们的解码器综合考虑源文本的语法信息和眼动信息,抓住源文本的重要部分,进行单词预测,得到一段单词序列,这一段单词序列被我们当作源文本的标题。其中,是当前隐藏状态/>的权重矩阵,Wi c是眼动注意力上下文权重向量的权重矩阵,Wt是读出状态rt的权重矩阵。
以下实施例通过实验的方式进行分析基于眼动注意力的文本标题生成方法(FA-ATH)的准确性以及有效性。
在另一个实施例中,选择合适的数据集进行实验。
首先,单词阅读时间预测方法把Dundee、GECO和IITB数据集当作训练集。这三个数据集是目前比较流行的眼动数据集,能很好的模拟真实场景。表1是这三个数据集的统计信息。
表1
其次,把英文Gigaword数据集当作训练集。英文Gigaword数据集是最大的英文语料库,这个数据集包含了来自如***、***等多家信息发布平台的文本内容和对应的标题。
此外,使用英文Gigaword、DUC和MSR Abstractive Text Compression作为测试集。
使用了Rush et al.(2015)提供的脚本对Gigaword语料库进行预处理,创建了1951个随机抽样子集。
DUC语料库由来自***、***和***等新闻平台的文本数据组成。我们使用的DUC测试集包含两部分:DUC-2003和DUC-2004。
MSR Abstractive Text Compression测试集是Toutanova等人发布的一个标题生成任务数据集。其中的每篇文本包含多个不同质量的标题,这些标题有着不同的标识来代表标题的质量。我们把数据集中被标识为“14”、“21”、“22”和“24”的低质量标题删除。
在另一个实施例中,选择与基于眼动注意力的文本标题生成方法工作类似的经典模型进行实验。该经典模型包括如下:PRE是一种抽取出源文本的前75个字节来当作标题的模型。TOP是采用无监督的主题检测(UTD)方法筛选关键词生成标题的模型。MOSES+是一个基于机器翻译模型MOSES的标题生成模型。ABS是一个包含CNN编码器和注意力解码器的模型,ABS+是它的优化模型。RAS是基于注意力编码器和RNN解码器构建的模型。Fs2s和Fs5s是通过增加POS、NER等标签来增强编码能力的模型。Summ-h是一种基于多层次的注意力机制来生成标题的模型。L-NMT是采用双层LSTM搭配Global&LocalAttention的seq2seq模型。S2S-A是一种基于标准的注意力机制的文本标题生成模型。SEASS是以BiGRU为编码器,注意力GRU为decoder的模型。
在另一个实施例中,为了数值化地衡量基于眼动注意力的文本标题生成方法和其他经典模型的性能,选择两种评价标准分别评估得到的单词预测时间的准确性和生成的标题的质量。
首先,使用均方根误差(RMSE)作为预测单词阅读时间方法的评估指标,RMSE能反映预测值和真实值的偏差,RMSE的值越小,说明预测的单词阅读时间越接近阅读单词所需要的真实时间,即所提方法越有效。RMSE的计算如下:
其中的表示阅读一个单词所需要耗费的实际时间,tk表示预测的时间,m代表源文本的单词数。
其次,为了评价生成的标题的质量,使用文本标题生成任务常用的ROUGE评估指标。使用ROUGE-N-F和ROUGE-L-F对在Gigaword和MSR-ATC测试集上生成的标题进行评估;对于DUC测试集,使用ROUGE-N-Recall和ROUGE-L-Recall来衡量生成标题的质量。ROUGE-N-Recall(NR)和ROUGE-N-F1(NF)根据标准标题和生成标题中的单词共现次数来判断生成标题的质量。计算方法如下:
其中,N是N-gram的类型,NIG、NIH和NIGR分别代表标准标题和生成标题里的N-gram总数和它们的N-gram共现总数。G代表的是生成的标题,S代表的是标准的标题,这里的G(N-gram)和S(N-gram)分别代表的是生成标题和标准标题里的N-gram。
ROUGE-L-Recall(LR)和ROUGE-L-F(LF)由下列式子计算:
这里的LCS(S,G)是标准标题和生成标题的最长公共子序列的长度,LEN(S)和LEN(G)分别表示标准标题和生成标题的长度。根据官方的ROUGE Toolkit,得到的所有ROUGE分数都有95%的置信区间。
最后,为了进一步研究标题生成模型在解决信息过载问题上的性能,我们根据以下公式计算了空间节省率(RSS):
这里的m代表源文本的单词数,n代表生成标题的单词数。
在另一个实施例中,定义训练过程中的初始化操作。使用泽维尔方式的高斯分布初始化模型参数,把批处理大小设置为64并总共训练了10轮(epochs)。编码器的隐藏状态的维度设置为256,并使用预训练的100维Glove嵌入初始化单词嵌入,使用Adam作为优化算法,并且优化算法的学习率定为0.001。解码器的维度设置为512,dropout设置为0.2,词汇表大小设置为60000个词,没有包含在词汇表里的单词用<UNK>替换,并且用#替换数据集里的所有数字。在测试集上生成标题时,使用波束搜索算法(beam search)生成多个标题候选项以获得更好的结果,设置beam size为1和5,当beam size为1时,解码器使用贪婪算法得到标题单词。本方法是基于keras实现的。在GTX1080Ti GPU上进行了实验,模型每个epoch的训练时间在3.5-4小时之间。
在另一个实施例中,详细阐述了阅读时间预测结果和分析。表2显示了利用不同的词嵌入方式和神经元实现的阅读时间预测方法的RMSE结果。从表2可以看出。首先,通过自动学习的词嵌入得到的结果要优于使用预训练的词嵌入得到的,这一定程度上可以归结于文本差异问题。其次,利用ERNN预测的单词阅读时间更接近真实的阅读时间。这可能是因为单词的阅读时间更依赖于单词的字母数量和语义等特征而不是深层次的上下文特征。良好的RMSE分数证明了阅读时间预测方法所得结果的准确性。
表2
在另一个实施例中,详细阐述了基于眼动注意力的文本标题生成方法和经典标题生成模型之间的实验结果分析。本方法和经典标题生成模型分别在Gigaword、DUC和MSRATC测试集上得到的ROUGE分数。如图4所示,本方法在Gigaword测试集上得到的ROUGE分数与其他经典模型相比都有很大的优势。相对于经典的ABS模型,本方法有6.22个ROUGE-1的增益和3.85个ROUGE-L的增益。与SEASS模型相比,本方法提升了3.57个ROUGE-1分数。
图5、图6显示了本方法和经典标题生成模型分别在DUC 2003和DUC 2004测试集上得到的ROUGE分数,(extract)和(BOW)分别代表使用抽取方法和词袋编码的ABS+模型。可以看出,本方法在DUC 2003上取得的ROUGE分数比其他模型都要好,在DUC 2004上的ROUGE-L分数要比ABS+基线模型高出2.94分。
图7是在MSR测试集上的ROUGE分数,(g)和(b)分别代表使用贪婪算法和集束搜索算法得到的标题。不难发现,ROUGE-1、ROUGE-2、ROUGE-L的结果表明,本方法比SEASS模型分别高出1.9、0.26和2.73分。
以5为间隔将Gigaword测试集按照不同的句子长度分组,得到15个不同的组,并且在这些组上测试本方法的性能,如图8(a)-图8(c)所示。本方法的ROUGE总是出现在S2S-A模型之上。总之,这些结果表明,在不同句子长度的文本中,本方法能生成质量更高的标题。
表3显示了标准标题和使用基于注意力的文本标题生成方法所生成标题对四个数据集源文本的压缩率。可以注意到,本方法生成的标题在四个测试集上的压缩率比标准标题分别高出了4.8%、9.9%、9%和1.3%,与S2S模型生成的标题相比,也有一些提升。
表3
总之,首先,本方法在四个测试集上的表现要比基于其他注意力机制的基准模型更好,这证明本文所提出的眼动注意力机制是有效的。其次,标题的质量不能单看某一个ROUGE指标,例如PRE在Gigaword测试集上得到了极高的ROUGE-1分数,但是ROUGE-2和ROUGE-L的得分却非常低。这是自然的,因为PRE模型是单纯的抽取文本的前75个字节来当作标题。因此,PRE生成的标题和标准标题的1-grams有可能会很高。但是,过低的ROUGE-2和ROUGE-L分数代表PRE生成的标题的信息表达能力不好。相比之下,本方法在ROUGE-1、ROUGE-2和ROUGE-L上都能取得良好的分数,这证明了本方法的优越性。再次,本方法能在保持良好的ROUGE分数的情况下,用更短的文字说明主要内容,证明通过本方法生成的标题语言更加简练。
在另一个实施例中,为了进一步证明本方法的有效性,对基于眼动注意力的文本标题生成方法所生成的标题进行人工分析。表4是本方法和其他经典模型在Gigaword测试集上生成的标题及其对应的标准标题。从表4可以看出:(1)本方法能够捕捉到文本的重要部分。例如在第一个输出中,主要信息是大卫·纳尔班迪安表示他对能够参加温布尔顿网球公开赛持乐观态度。本方法不仅成功找到了源文本的主要信息,甚至根据学习到的经验推理出源文本蕴含的深层信息是大卫·纳尔班迪安将重返温布尔顿,相对的,S2S-A生成的标题让人感到困惑。(2)本方法能够理解复杂文本的含义并且非常准确地使用单词短语。在第三个例子中,源文本包含了一个转折,S2S-A误解了源文本的含义,并生成了一个荒谬的标题。相反,本方法克服了这个问题,成功抓住源文本的主要内容是通用汽车希望避免罢工。(3)如最后一组所示,S2S-A生成的标题通常会出现连续重复的单词或短语,这显然是不符合语法且让人困惑的。而在表4中,本方法没有出现这个问题。
表4
综上所述,这些例子都表明了基于眼动注意力的文本标题生成方法能生成高质量的标题,进一步验证了在文本标题生成过程中考虑眼动注意力机制的必要性。
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。
Claims (6)
1.一种基于眼动注意力的文本标题生成方法,其特征在于,所述方法包括如下步骤:
S100:将源文本的文字序列进行词嵌入操作后把它输入到双向编码器;
S200:所述双向编码器从源文本的嵌入表示中提取上下文语义向量;
S300:根据源文本中每个单词的单词阅读时间计算单词和句子的眼动注意力权重;
S400:将步骤S200得到的上下文语义向量作为解码器第一层的初始状态,先计算解码器的第一层每个隐层状态与双向编码器所有的隐层状态匹配度;再利用所得到的匹配度,进一步计算单词的注意力上下文权重;进而根据所述注意力上下文权重、所述单词和句子的眼动注意力权重和双向编码器的隐藏状态计算得到眼动注意力上下文权重向量;
S500:把所述眼动注意力上下文权重向量、解码器第一层在当前时刻的隐藏状态和解码器第二层在上一时刻的隐藏状态输入到解码器第二层中生成相应的标题;
所述双向编码器采用双向门控循环单元BiGRU;
其中,
步骤S300进一步包括:
S301:根据眼动数据进行回归预测,分析出源文本中每个单词的阅读时间;
S302:基于单词的阅读时间计算出不同单词的眼动注意力权重;
S303:基于单词的阅读时间计算出不同句子的眼动注意力权重;
步骤S302中,所述单词的眼动注意力权重采用公式计算得到,所述句子的眼动注意力权重采用公式 /> 计算得到,其中,
是单词/>的眼动注意力权重,/>是句子/>的眼动注意力权重,/>代表句子的数量,/>代表/>的阅读时间,/>代表句子/>的长度,/>表示句子/>的第i个单词,/>表示源文本中的第j个句子。
2.根据权利要求1所述的方法,其特征在于,步骤S100中的词嵌入方式为:使用在训练过程中自动学习的word2vec词嵌入数据和使用预训练的Glove词嵌入数据。
3.根据权利要求1所述的方法,其特征在于,步骤S200进一步包括:
S201:所述双向门控循环单元BiGRU的前向GRU从左到右读取输入的文字序列,得到前向隐藏层序列;后向GRU从右到左读取输入的文字序列,得到后向隐藏层序列;
S202:由所述前向隐藏层序列和所述后向隐藏层序列合并得到所述双向编码器的隐藏状态;
S203:所述双向编码器根据所有时间步的隐藏状态生成上下文语义向量。
4.根据权利要求1所述的方法,其特征在于,步骤S301进一步包括:
S3001:基于深度神经网络的回归分析方法,使用眼动数据作为训练数据;
S3002:利用神经元自动学习文本的潜在特征,确定源文本中的单词和阅读时间的映射关系。
5.根据权利要求4所述的方法,其特征在于,所述的回归分析方法包括:Elman循环神经网络神经元ERNN,长短时记忆LSTM神经元和门控循环单元GRU。
6.根据权利要求1所述的方法,其特征在于,步骤S400中的眼动注意力上下文权重向量是采用如下具体步骤获得的:
S401:采用能量函数计算解码器的第一层每个隐层状态与双向编码器所有的隐层状态匹配度,其中/>是对应的源文本的单词对即将生成的目标单词的影响力,v是权重向量,/>和/>是权重矩阵,/>代表编码器第一层在第/>个时间步时的隐藏状态,/>代表编码器在第/>个时间步的隐藏状态,b是偏置向量,g和r是标量参数,/>是双曲正切激活函数;
S402:利用上述能量函数得到的匹配度,进一步计算单词的注意力上下文权重;
S403:把所述单词的注意力上下文权重、所述单词和句子的眼动注意力权重和双向编码器的隐藏状态通过加权线性组合得到眼动注意力上下文权重向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910078105.1A CN109800434B (zh) | 2019-01-25 | 2019-01-25 | 基于眼动注意力的抽象文本标题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910078105.1A CN109800434B (zh) | 2019-01-25 | 2019-01-25 | 基于眼动注意力的抽象文本标题生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109800434A CN109800434A (zh) | 2019-05-24 |
CN109800434B true CN109800434B (zh) | 2023-07-18 |
Family
ID=66559114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910078105.1A Active CN109800434B (zh) | 2019-01-25 | 2019-01-25 | 基于眼动注意力的抽象文本标题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800434B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263143B (zh) * | 2019-06-27 | 2021-06-15 | 苏州大学 | 提高相关性的神经问题生成方法 |
CN110322962A (zh) * | 2019-07-03 | 2019-10-11 | 重庆邮电大学 | 一种自动生成诊断结果的方法、***及计算机设备 |
CN110457699B (zh) * | 2019-08-06 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 一种停用词挖掘方法、装置、电子设备及存储介质 |
CN110532560A (zh) * | 2019-08-30 | 2019-12-03 | 海南车智易通信息技术有限公司 | 一种生成文本标题的方法及计算设备 |
US11308268B2 (en) | 2019-10-10 | 2022-04-19 | International Business Machines Corporation | Semantic header detection using pre-trained embeddings |
CN110941712B (zh) * | 2019-11-21 | 2022-09-20 | 清华大学深圳国际研究生院 | 一种用户级别的个性化文本摘要生成方法和*** |
CN111241816B (zh) * | 2020-01-22 | 2023-10-27 | 北京工业大学 | 一种新闻标题自动生成方法 |
CN111324728B (zh) * | 2020-01-22 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
CN111475391B (zh) * | 2020-04-03 | 2024-04-16 | 中国工商银行股份有限公司 | 眼动数据处理方法、装置及*** |
CN113869229B (zh) * | 2021-09-29 | 2023-05-09 | 电子科技大学 | 基于先验注意力机制引导的深度学习表情识别方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521595A (zh) * | 2011-12-07 | 2012-06-27 | 中南大学 | 一种基于眼动数据和底层特征的图像感兴趣区域提取方法 |
CN104504404A (zh) * | 2015-01-23 | 2015-04-08 | 北京工业大学 | 一种基于视觉行为的网上用户类型识别方法及*** |
CN105913487A (zh) * | 2016-04-09 | 2016-08-31 | 北京航空航天大学 | 一种基于人眼图像中虹膜轮廓分析匹配的视线方向计算方法 |
CN106383817A (zh) * | 2016-09-29 | 2017-02-08 | 北京理工大学 | 利用分布式语义信息的论文标题生成方法 |
CN106897363A (zh) * | 2017-01-11 | 2017-06-27 | 同济大学 | 基于眼动追踪的文本推荐方法 |
CN107391646A (zh) * | 2017-07-13 | 2017-11-24 | 清华大学 | 一种视频图像的语义信息提取方法及装置 |
GB2555853A (en) * | 2016-11-14 | 2018-05-16 | Fujitsu Ltd | A computer-implemented method for assessing concentration of a subject, and a computer, a system and a computer program therefor |
CN108280114A (zh) * | 2017-07-28 | 2018-07-13 | 淮阴工学院 | 一种基于深度学习的用户文献阅读兴趣分析方法 |
CN108572733A (zh) * | 2018-04-04 | 2018-09-25 | 西安交通大学 | 一种基于条件随机场的眼动行为视觉搜索目标预测方法 |
CN108764007A (zh) * | 2018-02-10 | 2018-11-06 | 集智学园(北京)科技有限公司 | 基于ocr与文本分析技术对注意力的测量方法 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8602789B2 (en) * | 2008-10-14 | 2013-12-10 | Ohio University | Cognitive and linguistic assessment using eye tracking |
-
2019
- 2019-01-25 CN CN201910078105.1A patent/CN109800434B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521595A (zh) * | 2011-12-07 | 2012-06-27 | 中南大学 | 一种基于眼动数据和底层特征的图像感兴趣区域提取方法 |
CN104504404A (zh) * | 2015-01-23 | 2015-04-08 | 北京工业大学 | 一种基于视觉行为的网上用户类型识别方法及*** |
CN105913487A (zh) * | 2016-04-09 | 2016-08-31 | 北京航空航天大学 | 一种基于人眼图像中虹膜轮廓分析匹配的视线方向计算方法 |
CN106383817A (zh) * | 2016-09-29 | 2017-02-08 | 北京理工大学 | 利用分布式语义信息的论文标题生成方法 |
GB2555853A (en) * | 2016-11-14 | 2018-05-16 | Fujitsu Ltd | A computer-implemented method for assessing concentration of a subject, and a computer, a system and a computer program therefor |
CN106897363A (zh) * | 2017-01-11 | 2017-06-27 | 同济大学 | 基于眼动追踪的文本推荐方法 |
CN107391646A (zh) * | 2017-07-13 | 2017-11-24 | 清华大学 | 一种视频图像的语义信息提取方法及装置 |
CN108280114A (zh) * | 2017-07-28 | 2018-07-13 | 淮阴工学院 | 一种基于深度学习的用户文献阅读兴趣分析方法 |
CN108764007A (zh) * | 2018-02-10 | 2018-11-06 | 集智学园(北京)科技有限公司 | 基于ocr与文本分析技术对注意力的测量方法 |
CN108572733A (zh) * | 2018-04-04 | 2018-09-25 | 西安交通大学 | 一种基于条件随机场的眼动行为视觉搜索目标预测方法 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
Non-Patent Citations (6)
Title |
---|
A 2.71 nJ/Pixel Gaze-Activated Object Recognition System for Low-Power Mobile Smart Glasses;Injoon Hong;《IEEE JOURNAL OF SOLID-STATE CIRCUITS》;20160630;第51卷(第1期);45-55 * |
Pupil Variation Applied to the Eye Tracking Control of an Endoscopic Manipulator;Yang Cao;《IEEE ROBOTICS AND AUTOMATION LETTERS》;20160626;第1卷(第1期);531-537 * |
多民族人脸和眼动情感数据库的构建;缪立欣;《大连民族大学学报》;20180915;第20卷(第5期);441-450 * |
大学生多媒体阅读的眼动特征与界面设计研究;王珏;《现代远距离教育》;20180915(第5期);90-96 * |
开源软件开发团队的冲突来源研究;余译青;《图书情报知识》;20181110(第6期);123-125 * |
机会网络视频数据的分块渐进传输新方法;王小明;《电子学报》;20180915;第46卷(第9期);2165-2172 * |
Also Published As
Publication number | Publication date |
---|---|
CN109800434A (zh) | 2019-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800434B (zh) | 基于眼动注意力的抽象文本标题生成方法 | |
Young et al. | Recent trends in deep learning based natural language processing | |
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
Yao et al. | An improved LSTM structure for natural language processing | |
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
Fu et al. | Aligning where to see and what to tell: Image captioning with region-based attention and scene-specific contexts | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111639252A (zh) | 一种基于新闻-评论关联性分析的虚假新闻识别方法 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN110991290B (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN111738007A (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN112818118B (zh) | 基于反向翻译的中文幽默分类模型的构建方法 | |
CN112163425A (zh) | 基于多特征信息增强的文本实体关系抽取方法 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN112541356A (zh) | 一种生物医学命名实体识别的方法和*** | |
CN113360646A (zh) | 基于动态权重的文本生成方法、设备及存储介质 | |
Guo et al. | Implicit discourse relation recognition via a BiLSTM-CNN architecture with dynamic chunk-based max pooling | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
Khan et al. | A deep neural framework for image caption generation using gru-based attention mechanism | |
CN115238691A (zh) | 基于知识融合的嵌入的多意图识别与槽位填充模型 | |
CN116757195B (zh) | 一种基于提示学习的隐性情感识别方法 | |
CN113536799A (zh) | 基于融合注意力的医疗命名实体识别建模方法 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |